» » Метатег robots | Закрыть страницу от индексации

Метатег robots | Закрыть страницу от индексации


 Статья для тех, кому лень читать справку по GoogleWebmaster и ЯндексВебмастер

Noindex и nofollow

Закрывание ненужных страниц веб-ресурса от поисковой индексации очень важно для его SEO-оптимизации, особенно на начальном этапе становления сайта или блога «на ноги». Такое действие способствует продвижению в SERP (СЕРП) и рекомендовано к применению для служебных страниц. К служебным страницам относятся технические и сервисные страницы, предназначенные исключительно для удобства и обслуживания уже состоявшихся клиентов. Эти страницы с неудобоваримым или дублирующим контентом, который не представляет абсолютно никакой поисковой ценности. Сюда входят – пользовательская переписка, рассылка, статистика, объявления, комментарии, личные данные, пользовательские настройки и т.д. А, также – страницы для сортировки материала (пагинация), обратной связи, правила и инструкции и т.п.
  1. Метатег robots
  2. Почему метатег robots лучше файла robots.txt

Метатег robots

Для управления поведением поисковых роботов на веб-странице, в HTML существует метатег robots и его атрибут content. закрытия веб-страницы от поисковой индексации,


nofollow и noindex – самые загадочные персонажи разметки html-страницы, главная задача которых состоит в запрете индексирования ссылок и текстового материала веб-страницы поисковыми роботами.

  1. nofollow (Яндекс & Google)
    1. rel="nofollow" – не переходить по ссылке
    2. content="nofollow" – не переходить по всем ссылкам
    3. Действие rel="nofollow" и content="nofollow"
      на поисковых роботов Google и Яндекса
  2. noindex – не индексировать текст
    (тег и значение только для Яндекса)
    1. Тег <noindex> – не признанное изобретение Яндекса
    2. Тег <noindex> – не индексировать кусок текста
    3. Метатег noindex – не индексировать текст всей страницы
    4. Разница в действии тега и метатега noindex
    5. Особенности метатега noindex
    6. Тег и метатег noindex для Google
  3. Универсальный метатег (Яндекс & Google)

Noindex и nofollow

nofollow (Яндекс & Google)

nofollow – валидное значение в HTML для атрибута rel тега «a» (rel="nofollow")
Это значение предназначено для поисковых систем.
Оно устанавливает запрет на переход по ссылке и последующее её индексирование.

rel="nofollow" – не переходить по ссылке

Оба главных русскоязычных поисковика (Google и Яндекс) – прекрасно знают атрибут rel="nofollow" и, поэтому – превосходно управляются с ним. В этом, и Google, и Яндекс, наконец-то – едины. Ни один поисковый робот не пойдёт по ссылке, если у неё имеется атрибут rel="nofollow":

<a href="http://example.ru" rel="nofollow">анкор (видимая часть ссылки)</a>

content="nofollow" – не переходить по всем ссылкам на странице

Допускается указывать значение nofollow для атрибута content метатега <meta>.
В этом случае, от поисковой индексации будут закрыты все ссылки на веб-странице

<meta name="robots" content="nofollow"/>

Атрибут content является атрибутом тега <meta> (метатега). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере <head>, в заголовке веб-страницы.

Действие атрибутов rel="nofollow" и content="nofollow"
на поисковых роботов Google и Яндекса

Действие атрибутов rel="nofollow" и content="nofollow"
на поисковых роботов Google и Яндекса несколько разное:

Google
Увидев атрибут rel="nofollow" у отдельно стоящей ссылки, поисковые роботы Google не переходят по такой ссылке и не индексируют её видимую часть (анкор). Увидев атрибут content="nofollow" у метатега <meta> в заголовке страницы, поисковые роботы Google сразу «разворачивают оглобли» и катят к себе восвояси, даже не пытаясь заглянуть на такую страницу. Таким образом, чтобы раз и навсегда закрыть от роботов Google отдельно стоящую ссылку (тег <а>) достаточно добавить к ней атрибут rel="nofollow":
<a href="http://example.ru" rel="nofollow">Анкор</a>
А, чтобы раз и навсегда закрыть от роботов Google всю веб-страницу,
достаточно добавить в её заголовок строку с метатегом:
<meta name="robots" content="nofollow"/>
Яндекс
Для роботов Яндекса атрибут rel="nofollow" имеет действие запрета только! на индексацию ссылки и переход по ней. Видимую текстовую часть ссылки (анкор) – роботы Яндекса всё равно проиндексируют.
Для роботов Яндекса атрибут метатега content="nofollow" имеет действие запрета только! на индексацию ссылок на странице и переходов по них. Всю видимую текстовую часть веб-страницы – роботы Яндекса всё равно проиндексируют.
Для запрета индексации видимой текстовой части ссылки или страницы для роботов Яндекса – ещё потребуется добавить его любимый тег или значение noindex

noindex – не индексировать текст
(тег и значение только для Яндекса)

Тег <noindex> не входит в спецификацию HTML-языка.
Тег <noindex> – это изобретение Яндекса, который предложил в 2008 году использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один. Поскольку Яндекс, как поисковая система – заслужил к себе достаточно сильное доверие и уважение, то придётся уделить его любимому тегу и его значению – должное внимание.

Тег <noindex> – не признанное изобретение Яндекса

Тег <noindex> используется поисковым алгоритмом Яндекса для исключения служебного текста веб-страницы поискового индекса. Тег <noindex> поддерживается всеми дочерними поисковыми системами Яндекса, вида Mail.ru, Rambler и иже с ними.

Тег noindex – парный тег, закрывающий тег – обязателен!

Учитывая не валидность своего бедного и непризнанного тега,
Яндекс соглашается на оба варианта для его написания:
Не валидный вариант – <noindex></noindex>,
и валидный вариант – <!-- noindex --><!--/ noindex -->.

Хотя, во втором случае – лошади понятно, что для гипертекстовой разметки HTML, это уже никакой не тег, а так просто – html-комментарий на веб-странице.

Тег <noindex> – не индексировать кусок текста

Как утверждает справка по Яндекс-Вебмастер, тег <noindex> используется для запрета поискового индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги <noindex></noindex> удаляется поисковой машиной из поискового индекса Яндекса. Размеры и величина куска текста не лимитированы. Хоть всю страницу можно взять в теги <noindex></noindex>. В этом случае – останутся в индексе одни только ссылки, без текстовой части.

Поскольку Яндекс подходит раздельно к индексированию непосредственно самой ссылки и её видимого текста (анкора), то для полного исключения отдельно стоящей ссылки из индекса Яндекса потребуется наличие у неё сразу двух элементов – атрибута rel="nofollow" и тега <noindex>. Такой избирательный подход Яндекса к индексированию ссылок даёт определённую гибкость при наложении запретов.

Так, например, можно создать четыре конструкции, где:

Ссылка индексируется полностью
<a href="http://example.ru">Анкор (видимая часть ссылки)</a>
Индексируется только анкор (видимая часть) ссылки
<a href="http://example.ru" rel="nofollow">Анкор</a>
Индексируется только ссылка, без своего анкора
<a href="http://example.ru"><noindex>Анкор</noindex></a>
Ссылка абсолютно НЕ индексируется
<a href="http://example.ru" rel="nofollow"><noindex>Анкор</noindex></a>

Для справки: теги <noindex></noindex>, особенно их валидный вариант <!-- noindex --><!--/ noindex --> – абсолютно не чувствительны к вложенности. Их можно устанавливать в любом месте HTML-кода. Главное, не забывать про закрывающий тег, а то – весь текст, до самого конца страницы – вылетит из поиска Яндекса.

Метатег noindex – не индексировать текст всей страницы

Допускается применять noindex в качестве значения для атрибута метатега content –
в этом случае устанавливается запрет на индексацию Яндексом текста всей страницы.

Атрибут content является атрибутом тега <meta> (метатег). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере <head>, в заголовке веб-страницы.

Абсолютно достоверно, ясно и точно, что использование noindex в качестве значения атрибута content для метатега <meta> даёт очень хороший результат и уверенно «выбивает» такую страницу из поискового индекса Яндекса.

<meta name="robots" content="noindex"/>
Текст страницы, с таким метатегом в заголовке –
Яндекс совершенно не индексирует, но при этом он –
проиндексирует все ссылки на ней.

 

Разница в действии тега и метатега noindex

Визуально, разница в действии тега и метатега noindex заключается в том, что запрет на поисковую индексацию тега noindex распространяется только на текст внутри тегов <noindex></noindex>, тогда как запрет метатега – сразу на текст всей страницы.
Пример: <noindex>Этот текст будет не проиндексирован</noindex>

<meta name="robots" content="noindex"/>
Текст страницы, с таким метатегом – Яндекс полностью не индексирует

Принципиально, разница в действии тега и метатега проявляется в различиях алгоритма по их обработке поисковой машиной Яндекса. В случае с метатегом noindex, робот просто уходит со страницы, совершенно не интересуясь её содержимым (по крайней мере – так утверждает сам Яндекс). А, вот в случае с использованием обычного тега <noindex> – робот начинает работать с контентом на странице и фильтровать его через своё «ситечко». В момент скачивания, обработки контента и его фильтрации возможны ошибки, как со стороны робота, так и со стороны сервера. Ведь ни что не идеально в этом мире.
Поэтому, кусок текста страницы, заключённого в теги <noindex></noindex> – могёт запросто попасть Яндексу «на зуб» для дальнейшей поисковой индексации. Как утверждает сам Яндекс – это временное неудобство будет сохраняться до следующего посещения робота. Чему я не очень охотно верю, потому как, некоторые мои тексты и страницы, с тегом и метатегом noindex – висели в Яндексе по нескольку месяцев.

Особенности метатега noindex

Равно, как и в случае с тегом <noindex>, действие метатега noindex позволяет гибко накладывать запреты на всю страницу. Примеры метатегов для всей страницы сдерём из Яндекс-Вебмастера:

не индексировать текст страницы
<meta name="robots" content="noindex"/>
не переходить по ссылкам на странице
<meta name="robots" content="nofollow"/>
не индексировать текст страницы и не переходить по ссылкам на странице
<meta name="robots" content="noindex, nofollow"/>
что, аналогично следующему:
запрещено индексировать текст и переходить
по ссылкам на странице для роботов Яндекса
<meta name="robots" content="none"/>

Вот такой он, тег и значение noindex на Яндексе :):):).

Тег и метатег noindex для Google

Что-же касается поисковика Google, то он никак не реагирует на присутствие выражения noindex, ни в заголовке, ни в теле веб-страницы. Google остаётся верен своему валидному «nofollow», который он понимает и выполняет – и для отдельной ссылки, и для всей страницы сразу (в зависимости от того, как прописан запрет). После некоторого скрипения своими жерновами, Яндекс сдался и перестал продвижение своего тега и значения noindex, хотя – и не отказывается от него полностью. Если роботы Яндекса находят тег или значение noindex на странице – они исправно выполняют наложенные запреты.

Универсальный метатег (Яндекс & Google)

С учётом требований Яндекса, общий вид универсального метатега,
закрывающего полностью всю страницу от поисковой индексации,
выглядит так:

<meta name="robots" content="noindex, nofollow"/>
– запрещено индексировать текст и переходить по ссылкам на странице
для всех поисковых роботов Яндекса и Google

Почему метатег robots лучше файла robots.txt

Самый простой и популярный способ закрыть веб-страницу от индексации – это указать для неё соответствующую директиву в файле robots.txt. Для этого, собственно файл robots.txt и существует. Однако, закрывать через метатег robots – гораздо надёжнее.

И, вот почему.
Алгоритмы обработки роботами метатега robots и файла robots – совершенно различные. Работу этих алгоритмов можно сравнить с действием в известном анекдоте, где бьют не «по паспорту», а – «по морде». Пусть этот пример весьма груб и примитивен, но он, как нельзя лучше – отображает поведение поискового робота на странице:

  • В случае использования метатега robots, поисковик просто и прямо заходит на веб-страницу и читает её заголовок («смотрит в её морду». Если робот там находит метатег robots – он разворачивается и уходит восвояси. Вуаля! Всё предельно просто. Робот увидел запись, что здесь ловить нечего, и сразу же – «свалил». Ему проблемы не нужны. Это есть работа по факту записи прямо в заголовке страницы («по морде»).
  • В случае использования файла robots.txt, поисковик, перед заходом на страницу – сверяется с этим файлом (читает «паспорт»). Это есть работа по факту записи в постороннем файле («по паспорту»). Если в файле robots.txt («паспорте») прописана соответствующая директива – робот её выполняет. Если нет, то он – сканирует страницу в общем порядке, поскольку по-умолчанию – к сканированию разрешены все страницы.

Казалось-бы, какая разница.

Тем более, что сам Яндекс рассказывает следующее:

При сканировании сайта, на основании его файла robots.txt – составляется специальный список (пул), в котором ясно и чётко указываются и излагаются директории и страницы, разрешённые к поисковому индексированию сайта.

Ну, чего ещё проще – составил списочек,

прошёлся списочком по сайту,

и всё – можно «баиньки»...

Простота развеется, как майский дым, если мы вспомним, что роботов много, что все они разные, и самое главное – что все роботы ходят по ссылкам. А сей час, представим себе стандартную ситуацию, которая случается в интернете миллионы раз на дню – поисковый робот пришёл на страницу по ссылке из другого сайта. Вот он, трудяга Сети – уже стоит у ворот (у заголовка) странички. Ну, и где теперь файл robots.txt?

У робота, пришедшего на сайт по внешней ссылке, выбор не большой. Робот может, либо лично «протопать» к файлу robots.txt и свериться с ним, либо просто скачать страницу себе в кэш и уже потом разбираться – индексировать её или нет.

Как поступит наш герой, мы не знает. Это коммерческая тайна каждой поисковой системы. Несомненно, одно. Если в заголовке страницы будет указан метатег robots – поисковик выполнит его немедля. И, если этот метатег запрещает индексирование страницы – робот уйдёт немедля и без раздумий.

 

Вот теперь, совершенно ясно, что прямой заход на страницу, к метатегу robots –
всегда короче и надёжнее, нежели долгий путь через закоулки файла robots.txt

Метатег robots | Закрыть страницу от индексации на tehnopost.info

  1. Метатег robots
  2. Почему метатег robots лучше файла robots.txt

Ключевые слова статьи: интернет сайт HTML

Поделиться ссылкой на статью в социальной сети, добавить в избранное или распечатать:
  1. <
    Гость

    13 декабря 2015 13:02

    Так правильно то как? Так:
    <a rel="nofollow"><noindex>мой копипаст текст</noindex></a>
    или
    <p rel="nofollow"><noindex>мой копипаст текст</noindex></p>

    ??
  2. <
    Технолог

    13 декабря 2015 13:21

    Цитата: Гость
    Так правильно то как? Так:
    <a rel="nofollow"><noindex>мой копипаст текст</noindex></a>
    или
    <p rel="nofollow"><noindex>мой копипаст текст</noindex></p>

    ??

    Правильно, <a rel="nofollow"><noindex>мой копипаст текст</noindex></a>
    Написано в статье:
    Ссылка индексируется полностью
    <a href="http://example.ru">Анкор (видимая часть ссылки)</a>
    Индексируется только анкор (видимая часть) ссылки
    <a href="http://example.ru" rel="nofollow">Анкор</a>
    Индексируется только ссылка, без своего анкора
    <a href="http://example.ru"><noindex>Анкор</noindex></
    a>
    Ссылка абсолютно НЕ индексируется
    <a href="http://example.ru" rel="nofollow"><noindex>Анкор</noindex></a>

    Решение за веб-мастером. Выбирайте нужный вариант. Кстати, вся эта лабуда только для Яндекса. Для Google достаточно простого rel="nofollow", чтобы робот не индексировал ссылку. Видимый текст (анкор) робот Google всё равно проиндексирует. Ведь это часть текста страницы.
    Отдельно.
    Атрибут rel="nofollow" относится только ко ссылкам. Код вида <p rel="nofollow"> работать не будет. Но! Тег <noindex> Яндекса распространяется на любой текст. Поэтому, для роботов Яндекса будет справедливо выражение
    <p><noindex>мой копипаст текст</noindex></p>. При этом, текст абзаца проиндексирован не будет, но все ссылки в нём – ДА, если в их атрибутах будет отсутствовать rel="nofollow".

Добавление комментария

Введите код: *
Кликните на изображение чтобы обновить код, если он неразборчив