Интернетчик » site » HTML5 | robots, nofollow, noindex - Закрыть страницы и ссылки от индексации

HTML5 | robots, nofollow, noindex - Закрыть страницы и ссылки от индексации

nofollow и noindex – любимые персонажи разметки html-страницы, главная задача которых состоит в запрете индексирования ссылок и текстового материала веб-страницы поисковыми роботами.

nofollow и noindex – самые загадочные персонажи разметки html-страницы, главная задача которых состоит в запрете индексирования ссылок и текстового материала веб-страницы поисковыми роботами.

Noindex и nofollow

nofollow (Яндекс & Google)

nofollow – валидное значение в HTML для атрибута rel тега «a» (rel="nofollow")
Это значение предназначено для поисковых систем.
Оно устанавливает запрет на переход по ссылке и последующее её индексирование.

rel="nofollow" – не переходить по ссылке

Оба главных русскоязычных поисковика (Google и Яндекс) – прекрасно знают атрибут rel="nofollow" и, поэтому – превосходно управляются с ним. В этом, и Google, и Яндекс, наконец-то – едины. Ни один поисковый робот не пойдёт по ссылке, если у неё имеется атрибут rel="nofollow":

<a href="http://example.ru" rel="nofollow">анкор (видимая часть ссылки)</a>

content="nofollow" – не переходить по всем ссылкам на странице

Допускается указывать значение nofollow для атрибута content метатега <meta>.
В этом случае, от поисковой индексации будут закрыты все ссылки на веб-странице

<meta name="robots" content="nofollow"/>

Атрибут content является атрибутом тега <meta> (метатега). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере <head>, в заголовке веб-страницы.

Действие атрибутов rel="nofollow" и content="nofollow"
на поисковых роботов Google и Яндекса

Действие атрибутов rel="nofollow" и content="nofollow"
на поисковых роботов Google и Яндекса несколько разное:

Google: Увидев атрибут rel="nofollow" у отдельно стоящей ссылки, поисковые роботы Google не переходят по такой ссылке и не индексируют её видимую часть (анкор). Увидев атрибут content="nofollow" у метатега <meta> в заголовке страницы, поисковые роботы Google сразу «разворачивают оглобли» и катят к себе восвояси, даже не пытаясь заглянуть на такую страницу. Таким образом, чтобы раз и навсегда закрыть от роботов Google отдельно стоящую ссылку (тег <а>) достаточно добавить к ней атрибут rel="nofollow":
<a href="http://example.ru" rel="nofollow">Анкор</a>
А, чтобы раз и навсегда закрыть от роботов Google всю веб-страницу,
достаточно добавить в её заголовок строку с метатегом:
<meta name="robots" content="nofollow"/>
Яндекс: Для роботов Яндекса атрибут rel="nofollow" имеет действие запрета только! на индексацию ссылки и переход по ней. Видимую текстовую часть ссылки (анкор) – роботы Яндекса всё равно проиндексируют.
Для роботов Яндекса атрибут метатега content="nofollow" имеет действие запрета только! на индексацию ссылок на странице и переходов по них. Всю видимую текстовую часть веб-страницы – роботы Яндекса всё равно проиндексируют.
Для запрета индексации видимой текстовой части ссылки или страницы для роботов Яндекса – ещё потребуется добавить его любимый тег или значение noindex

noindex – не индексировать текст
(тег и значение только для Яндекса)

Тег <noindex> не входит в спецификацию HTML-языка.
Тег <noindex> – это изобретение Яндекса, который предложил в 2008 году использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один. Поскольку Яндекс, как поисковая система – заслужил к себе достаточно сильное доверие и уважение, то придётся уделить его любимому тегу и его значению – должное внимание.

Тег <noindex> – не признанное изобретение Яндекса

Тег <noindex> используется поисковым алгоритмом Яндекса для исключения служебного текста веб-страницы поискового индекса. Тег <noindex> поддерживается всеми дочерними поисковыми системами Яндекса, вида Mail.ru, Rambler и иже с ними.

Тег noindex – парный тег, закрывающий тег – обязателен!

Учитывая не валидность своего бедного и непризнанного тега,
Яндекс соглашается на оба варианта для его написания:
Не валидный вариант – <noindex></noindex>,
и валидный вариант – .

Хотя, во втором случае – лошади понятно, что для гипертекстовой разметки HTML, это уже никакой не тег, а так просто – html-комментарий на веб-странице.

Тег <noindex> – не индексировать кусок текста

Как утверждает справка по Яндекс-Вебмастер, тег <noindex> используется для запрета поискового индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги <noindex></noindex> удаляется поисковой машиной из поискового индекса Яндекса. Размеры и величина куска текста не лимитированы. Хоть всю страницу можно взять в теги <noindex></noindex>. В этом случае – останутся в индексе одни только ссылки, без текстовой части.

Поскольку Яндекс подходит раздельно к индексированию непосредственно самой ссылки и её видимого текста (анкора), то для полного исключения отдельно стоящей ссылки из индекса Яндекса потребуется наличие у неё сразу двух элементов – атрибута rel="nofollow" и тега <noindex>. Такой избирательный подход Яндекса к индексированию ссылок даёт определённую гибкость при наложении запретов.

Так, например, можно создать четыре конструкции, где:

Ссылка индексируется полностью: <a href="http://example.ru">Анкор (видимая часть ссылки)</a>
Индексируется только анкор (видимая часть) ссылки: <a href="http://example.ru" rel="nofollow">Анкор</a>
Индексируется только ссылка, без своего анкора: <a href="http://example.ru"><noindex>Анкор</noindex></a>
Ссылка абсолютно НЕ индексируется: <a href="http://example.ru" rel="nofollow"><noindex>Анкор</noindex></a>

Для справки: теги <noindex></noindex>, особенно их валидный вариант  – абсолютно не чувствительны к вложенности. Их можно устанавливать в любом месте HTML-кода. Главное, не забывать про закрывающий тег, а то – весь текст, до самого конца страницы – вылетит из поиска Яндекса.

Метатег noindex – не индексировать текст всей страницы

Допускается применять noindex в качестве значения для атрибута метатега content –
в этом случае устанавливается запрет на индексацию Яндексом текста всей страницы.

Атрибут content является атрибутом тега <meta> (метатег). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере <head>, в заголовке веб-страницы.

Абсолютно достоверно, ясно и точно, что использование noindex в качестве значения атрибута content для метатега <meta> даёт очень хороший результат и уверенно «выбивает» такую страницу из поискового индекса Яндекса.

<meta name="robots" content="noindex"/>
Текст страницы, с таким метатегом в заголовке –
Яндекс совершенно не индексирует, но при этом он –
проиндексирует все ссылки на ней.

Разница в действии тега и метатега noindex

Визуально, разница в действии тега и метатега noindex заключается в том, что запрет на поисковую индексацию тега noindex распространяется только на текст внутри тегов <noindex></noindex>, тогда как запрет метатега – сразу на текст всей страницы.
Пример: <noindex>Этот текст будет не проиндексирован</noindex>

<meta name="robots" content="noindex"/>
Текст страницы, с таким метатегом – Яндекс полностью не индексирует

Принципиально, разница в действии тега и метатега проявляется в различиях алгоритма по их обработке поисковой машиной Яндекса. В случае с метатегом noindex, робот просто уходит со страницы, совершенно не интересуясь её содержимым (по крайней мере – так утверждает сам Яндекс). А, вот в случае с использованием обычного тега <noindex> – робот начинает работать с контентом на странице и фильтровать его через своё «ситечко». В момент скачивания, обработки контента и его фильтрации возможны ошибки, как со стороны робота, так и со стороны сервера. Ведь ни что не идеально в этом мире.
Поэтому, кусок текста страницы, заключённого в теги <noindex></noindex> – могёт запросто попасть Яндексу «на зуб» для дальнейшей поисковой индексации. Как утверждает сам Яндекс – это временное неудобство будет сохраняться до следующего посещения робота. Чему я не очень охотно верю, потому как, некоторые мои тексты и страницы, с тегом и метатегом noindex – висели в Яндексе по нескольку месяцев.

Особенности метатега noindex

Равно, как и в случае с тегом <noindex>, действие метатега noindex позволяет гибко накладывать запреты на всю страницу. Примеры метатегов для всей страницы сдерём из Яндекс-Вебмастера:

не индексировать текст страницы: <meta name="robots" content="noindex"/>
не переходить по ссылкам на странице: <meta name="robots" content="nofollow"/>
не индексировать текст страницы и не переходить по ссылкам на странице: <meta name="robots" content="noindex, nofollow"/>
что, аналогично следующему:
запрещено индексировать текст и переходить по ссылкам на странице для роботов Яндекса: <meta name="robots" content="none"/>

Вот такой он, тег и значение noindex на Яндексе :):):).

Тег и метатег noindex для Google

Что-же касается поисковика Google, то он никак не реагирует на присутствие выражения noindex, ни в заголовке, ни в теле веб-страницы. Google остаётся верен своему валидному «nofollow», который он понимает и выполняет – и для отдельной ссылки, и для всей страницы сразу (в зависимости от того, как прописан запрет). После некоторого скрипения своими жерновами, Яндекс сдался и перестал продвижение своего тега и значения noindex, хотя – и не отказывается от него полностью. Если роботы Яндекса находят тег или значение noindex на странице – они исправно выполняют наложенные запреты.

Универсальный метатег (Яндекс & Google)

С учётом требований Яндекса, общий вид универсального метатега,
закрывающего полностью всю страницу от поисковой индексации,
выглядит так:

<meta name="robots" content="noindex, nofollow"/>: – запрещено индексировать текст и переходить по ссылкам на странице
для всех поисковых роботов Яндекса и Google

nofollow и noindex | Закрываемся от индексации на tehnopost.info

-----------------------------------------------------------------------------------------------------------------------------------

Если страница содержит несколько метатегов одного типа, мы будем агрегировать значения содержания. Например, мы будет интерпретировать

Так же, как:

Если содержание конфликта ценностей, мы будем использовать наиболее строгими. Таким образом, если страница имеет эти мета-теги:

Мы будем повиноваться значение NOINDEX.

Значения ненужное содержимое
По умолчанию, робот Google будет индексировать страницы и следуйте ссылки на него. Таким образом, нет никакой необходимости помечать страницы с содержанием значений индекса или следовать.

Режиссура роботов мета тег конкретно на Googlebot
Для обеспечения инструкцию для всех поисковых систем, установите мета имя «роботов». Для обеспечения инструкцию только Googlebot, установите мета название на "Googlebot". Если вы хотите, чтобы обеспечить различные инструкции для различных поисковых системах (например, если вы хотите один поисковик для индексации страниц, но не другой), то лучше использовать определенную мета тег для каждой поисковой системы, а не использовать общие роботов мета Тег сочетании с одним конкретным. Вы можете найти список ботов в robotstxt.org.

Корпус и расстояние
Робот Google понимает любую комбинацию из строчных и заглавных. Таким образом, каждый из этих мета-тегов интерпретируется точно так же:

Если у вас есть несколько значений содержания, вы должны поставить запятую между ними, но это не имеет значения, если вы также включать пробелы. Таким образом, следующие мета-теги интерпретируются одинаково:

Если вы используете как файл robots.txt и мета-теги роботов
Если robots.txt и мета тегов для инструкций конфликта страницы, робот Google следующим наиболее щадящим. Более конкретно:
• Если заблокировать страницу с robots.txt, Google-никогда не сканировать страницу и никогда не будет читать любые мета-теги на странице.
• Если вы позволите страницу с robots.txt, но заблокировать его от индексации с помощью мета-тег, робот Google будет доступ к странице, читать мета тег, а затем не индексировать его.
Допустимые мета роботы контент ценности
Робот Google интерпретирует следующие роботы мета значения тегов:
• NOINDEX - предотвращает страницу с включения в индекс.
• NOFOLLOW - предотвращает Googlebot из следующих какие-либо ссылки на этой странице. (Обратите внимание, что это отличается от NoFollow атрибута канального уровня, который предотвращает Googlebot из следующих индивидуальный ссылку.)
• NOARCHIVE - предотвращает сохраненную копию этой страницы с будут доступны в результатах поиска.
• NOSNIPPET - предотвращает описание появляться внизу страницы в результатах поиска, а также предотвращает кэширование страницы.
• NOODP - блоки Open Directory Project описание страницы от использования в описании, которое появляется ниже странице в результатах поиска.
• Нет - эквивалент "NoIndex, NoFollow".
Слово о содержимому значение "NONE"
Как определено robotstxt.org , следующее направление означает NOINDEX, NOFOLLOW.

Тем не менее, некоторые веб-мастера используют этот тег, чтобы указать, не роботы ограничения и непреднамеренно заблокировать все поисковые системы от их содержания.

Обновление: Для получения более подробной информации, пожалуйста, см наши роботы мета тег документации .
Этикетки: сканирование и индексирование

Высшая ценность в Интернете – это уникальность текста

И вот почему:

И, никак нельзя изменить «без спрося», ни состав лекарства, ни текст рецепта на него. и, нельзя изменить техническое описание никакого товара или способа для его производства. Также, нельзя изменить текст главной новости дня на новостных сайтах и текст речи президента, равно как и него местонахождение. Очень и очень много есть текстов, в которых нельзя менять ни единой буквы, ни , тем более – слова. Кроме, разве что «высокохудожественного» трёпа на форумах и в блогах по SEO-оптимизации.

Так что теперь – ничего не публиковать, кроме этой самой форумной и блоговой болтовни? Ведь только там теперь и остаются уникальные тексты для поисковых машин. Или, публиковать всё-таки можно, но только – под угрозой санкций со стороны поисковика за не уникальность текста?

НО! Этого не происходит. Видимо, не всё так страшно и печально. Достаточно открыть Интернет и вчитаться в пару-тройку любых новостей, чтобы понять – поисковые системы далеко не глупы. И страшную тайну про неизменяемые тексты поисковики знают, лучше всех остальных. Кому-же, как не им её знать. И, они вовсе не торопятся «бомбить» сайты с похожим и даже – одинаковым контентом. Иначе, нужно просто позакрывать весь 1 000 000 000 сайтов и поставить дворника с метлой в Сети у входа в Интернет.

Но, если так, тогда зачем, господа хорошие, весь этот сыр-бор с тегом noindex и закрыванием какого-то там служебного текста? Оказывается, дело лишь в облегчении работы поисковой машины при составлении описания страницы для поискового индексирования. Наказания за это не предусмотрено.

Загадки Яндекса и Google для noindex и nofollow
Как было уже сказано в самом начале статьи, Загадки Яндекса и Google для noindex и nofollow заключаются в том, что никто толком не знает, как влияют эти теги и атрибуты на общее ранжирование и подсчёт веса веб-страницы в отдельности и сайта, в целом.
И, что будет лучше – позакрывать, к едрёен батон, всё и вся.
Или, всё-таки, может быть – что-то оставить?
После некоторых раздумий я пришёл к выводу, что внешние ссылки на более авторитетные и раскрученные веб-источники, помогающие раскрыть тему статьи и имеющие, так сказать её логическое продолжение – закрывать в noindex и nofollow не нужно. Это, как в реальной жизни – дружить с сильными ребятами выгодно. Даже ничего не делая, сильный товарищ добавляет мощи слабому.
Но, если это коммерческая ссылка,
ведущая на голимый ГС –
такую ссылку обязательно нужно закрыть в noindex и nofollow.
А, ещё лучше – вообще не ставить.
Кстати, такого-же мнения придерживаются многие вебмастера от «белого» SEO.
Вес страницы и внешние ссылки (мысли вслух)
Закрывание внешних ссылок в noindex и nofollow связано для вебмастера только с одним желанием – сохранить вес страницы, якобы отражающийся на общем рейтинге сайта у поисковых систем. Про «Вес страницы» с утра до вечера говорят на всевозможных форумах, но реально, что такое «Вес страницы» и как он подсчитывается у поисковиков – не знает никто. Доподлинно известно, что внешние ссылки важны и положительно учитываются для продвижения сайта вперёд, в SERP (СЕРП). Вот только это должны быть ссылки по теме, а не всё подряд.
Всевозможные SEO-оптимизаторы понапридумали кучу всяческих способов (бесплатных и за деньги), чтобы оттягать на себя побольше внешних ссылок. До оптимизировались уже до того, что Яндекс вообще скоро перестанет учитывать внешние ссылки не в тему страницы, а в некоторых случаях – и наказывать за избыток внешних ссылок «не по теме». Действительно, ну как это может женский каталог ссылаться на сайт про дровяное отопление, или сайт военно-патриотического клуба ссылаться на магазин ханского белья? Пусть, приведённые примеры слишком грубы, но лично я никогда не верил в подобные способы SEO-продвижения веб-ресурсов.
Нет логики. Суета сует.
Чем переводить кучу времени на заигрывание с поисковой системой по её постоянно меняющимся правилам – лучше накропать парочку уникальных статей в тему своего сайта или блога. В блоге у одного известного SEO-мастера, я вычитал интересную мысль – поисковиком засчитывается не тупо внешняя ссылка на сайт, а количество переходов по ней. Таким образом, если реальный пользователь в дискуссии на форуме поставит ссылку и по ней придут три десятка или сотни посетителей – это будет гораздо лучше, чем все каталоги мира, вместе взятые.
noindex и nofollow – самые загадочные персонажи разметки html-страницы.
Предназначены они для исключения из поискового индекса текстового материала, ссылок и целых веб-страниц. А загадка заключается в том, что никто толком не знает, как поведёт себя поисковый робот, наткнувшись на noindex и nofollow на веб-странице. Поисковые машины Яндекса и Google всё время изменяют свои алгоритмы по учёту и подсчёту веса и рейтинга страницы и сайта, для которых эти noindex и nofollow, собственно и нужны.

Тег noindex не входит в спецификацию HTML-языка

Тег noindex – это не валидное изобретение Яндекса, который предложил использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один.

noindex – не валидное изобретение Яндекса
Итак, тег noindex используется поисковой машиной Яндекс (и только ею)
для исключения текста или его части из своего поискового индекса.
Тег noindex – парный тег, закрывающий тег – обязателен!
Учитывая не валидность своего бедного тега,
Яндекс соглашается на оба варианта его написания:
Не валидный вариант – <noindex></noindex>,
и валидный вариант – .
Хотя, во втором случае – лошади понятно, что для гипертекстовой разметки HTML, это уже никакой не тег, а так просто – html-комментарий на веб-странице.

Действие и применение тега noindex

Как утверждает справочная по Яндекс-Вебмастер, тег noindex используется для запрета индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги <noindex></noindex> удаляется поисковой машиной из поискового индекса.

Что это за такой служебный текст и насколько нужен, важен и действенен тег noindex при закрывании части текстового материала от поисковой индексации – трудно сказать. В этом месте, все веб-мастера начинают растекаться мыслью по древу, да и сам Яндекс не может ничего внятно объяснить. Единственное практическое применение такому тегу я нашёл в прятанье от поисковика анкоров (видимой части) «левых коммерческих ссылок» в конструкцию, вида
<noindex><a href="http://example.ru" rel="nofollow">анкор</a></noindex>.

А был ли мальчик?
(сомнительный тег noindex)
Некоторые веб-мастера рекомендуют оборачивать тегом noindex такие части текста, которые невозможно изменить и которые – часто встречаются (или могут встречаться) на других веб-ресурсах. Прежде всего, это – цитаты из других сайтов или блогов, всевозможные выдержки из всяких правил, справочной литературы или технических стандартов (вида ГОСТов, ОСТов, СНиПов, СанПиНов и т.д.). Говорят, что в этом случае – использование тега noindex помогает повысить общий процент уникальности текста страницы в глазах Яндекса.

Что-же, это логично. Поверить в это можно.
Вот только польза от этого сомнительная.
И вот почему:

1. Во-первых, кроме Яндекса есть ещё поисковый алгоритм Google, которому абсолютно «до лампочки» тег noindex. Как быть с Google? Получается, что тег noindex – инструмент половинчатый и помощник только для алгоритма Яндекса. В остальном-же, этот тег – это бесполезная игрушка.
2. Во-вторых, народ в Сети давно уже приспособился «железобетонные» тексты публиковать в виде картинок, и к тому подобным уловкам. Например, сайт http://www.tehlit.ru/ tehlit.ru (ГОСТы и техническая литература России) – так этот вообще, сделан одними только изображениями и весь его контент – это сканированные копии страниц из всяких там технических стандартов.
3. А в-третьих, и это самое главное – приготовьтесь, я щас открою страшную тайну.
Оказывается, 95% самой ценной информации, которую только накопило человечество – изменить уже никак нельзя. Вся техническая, медицинская и вся иная специальная, справочная и учебная литература – это как раз и есть те «железобетонные тексты», за изменение которых людям дают докторские и прочие научные степени, а иногда даже – много денег.
Нельзя изменить, ни состав лекарства, ни текст рецепта на него. Нельзя изменить техническое описание никакого товара или способа его производства. нельзя изменить текст главной новости дня на новостных сайтах и нельзя изменить текст речи президента. Нельзя изменить вообще никаких текстов, кроме «высокохудожественного» трёпа на форумах и в блогах по SEO-оптимизации.
Так что теперь – ничего не публиковать, кроме болтовни в блогах и на форумах? Ведь только там и остаются уникальные тексты для поисковых машин. Или, публиковать всё-таки можно, только – под угрозой санкций со стороны поисковика за не уникальность текста?

Да так рассуждая, и Яндекс и Google уже давно должны были «побанить» все веб-ресурсы, кроме сайтов с картинками, Википедии да уникальных блогов сеошников, у которых весь копипаст обернут нужными тегами.
НО! Этого не происходит. Видимо, не всё так страшно. Достаточно открыть Интернет и вчитаться в пару-тройку любых новостей, чтобы понять – поисковые системы далеко не глупы. И страшную тайну про неизменяемые тексты поисковики знают, лучше всех остальных. Кому-же, как не им её знать. И они вовсе не торопятся «бомбить» сайты с похожим и даже – одинаковым контентом. Иначе, нужно просто позакрывать весь 1 000 000 000 сайтов и оставить дворника с метлой у Сети Интернет.
Но, если так, зачем тогда весь этот сыр-бор с тегом noindex и закрыванием какого-то служебного текста? Оказывается, дело лишь в облегчении работы поисковой машины при составлении описания страницы для поискового индексирования. Наказания за это не предусмотрено.

Использование метатег noindex
В отличие от простого тега, с применением noindex в качестве метатега дело обстоит гораздо проще и понятнее. По крайней мере, абсолютно ясно и достоверно, что использование noindex в качестве метатега на странице сайта или блога даёт хороший результат и уверенно выбивает такую страницу из поискового индекса Яндекса.
<meta name="robots" content="noindex"/>
Текст страницы, с метатегом noindex в заголовке – Яндекс не индексирует.
Закрывание ненужных страниц веб-ресурса очень важно для его SEO-оптимизации.
Рекомендовано к применению на технических и сервисных страницах движка сайта, не представляющих абсолютно никакой поисковой ценности. К техническим и сервисным страницам относятся страницы с неудобоваримым или дублирующим контентом и предназначенные исключительно для удобства и обслуживания посетителей и пользователей веб-ресурса. В основном, это страницы для переписки и рассылки, отображения статистики и объявлений, страницы пользовательской сортировки материала, а также страницы с комментариями, личными данными пользователей, личными настройками на сайте и т.д.

Разница в действии тега и метатега noindex
Действие тегов <noindex></noindex> распространяется только на текст внутри тегов.
Пример <noindex>Этот текст будет не проиндексирован</noindex>
Действие метатега noindex распространяется на всю веб-страницу.
Пример метатега noindex приведен выше.
Дополнительно, разница в действии тега и метатега проявляется в различиях алгоритма по их обработке поисковой машиной Яндекса. В случае с метатегом, робот просто уходит со страницы, совершенно не интересуясь её содержимым (по крайней мере – так утверждает сам Яндекс). А, вот в случае с использованием обычного тега <noindex> – робот начинает работать с контентом на странице и фильтровать его через своё «ситечко». В момент скачивания, обработки контента и его фильтрации возможны ошибки, как со стороны робота, так и со стороны сервера. Ни что ведь не идеально в этом мире.
Поэтому, с фильтрацией части текста страницы, заключённого в теги <noindex></noindex> – могут возникнуть осложнения и такой кусок текста запросто может попасть Яндексу «на зуб» для дальнейшей поисковой индексации. Как утверждает сам Яндекс – это временное неудобство будет сохраняться до следующего посещения робота. Чему я не очень охотно верю, потому как некоторые мои тексты и страницы, с тегом и метатегом noindex – висят в Яндексе по нескольку лет.

Особенности в действии тега и метатега noindex
Интересен тот факт, что действие тега и метатега noindex распространяется только на видимую часть текста, так сказать – на видимые печатные знаки. Картинки, ссылки и весь медиа-контент – будут проиндексированы поисковиком, как ни в чём не бывало – со всеми вытекающими последствиями. Чтобы запретить роботу Яндекса переходить по ссылкам на веб-странице, потребуется ещё к тегу noindex добавить тег nofollow.
Пример тега noindex+ nofollow для отдельной ссылки приведён выше.
Пример метатегов для всей страницы из Яндекс-Вебмастера:
<meta name="robots" content="noindex"/> – не индексировать текст страницы,
<meta name="robots" content="nofollow"/> – не переходить по ссылкам на странице.
Или, <meta name="robots" content="noindex, nofollow "/>, что аналогично
<meta name="robots" content="none"/> – запрещено индексировать текст и переходить по ссылкам на странице
Вот такие вот, сложности и страхи.

Тег и метатег noindex для Google
Что-же касается поисковика Google, то он никак не реагирует на присутствие тега noindex, ни в заголовке, ни в теле веб-страницы. Google остаётся верен своему валидному тегу nofollow, который он понимает, и в качестве метатега в заголовке веб-страницы, и в качестве атрибута у её ссылок (тег «а»). После некоторого скрипения своими жерновами, Яндекс сдался и тоже признал существование тега и атрибута nofollow, который не даёт поисковым роботам переходить по ссылкам на странице и индексировать их.

nofollow – не переходить по ссылкам
Проверить гугл-счётчик
Тег и атрибут nofollow предназначен для закрытия от индексации ссылок в Google и Яндекса. Вернее сказать – для запрета перехода поискового робота по ссылке. Ни один робот не пойдёт по ссылке, если у неё имеется атрибут nofollow, или вся страница закрыта метатегом nofollow.
И Google, и Яндекс прекрасно знают и управляются с nofollow
Пример, метатега nofollow для все страницы приведён выше.
Пример тега nofollow для отдельной ссылки с сдерём из Яндекс-Вебмастера:
Рисунок

После некоторых раздумий я пришёл к выводу, что внешние ссылки на более авторитетные и раскрученные веб-источники, помогающие раскрыть тему статьи и имеющие, так сказать её логическое продолжение – закрывать в noindex и nofollow не нужно. Это, как в реальной жизни – дружить с сильными ребятами выгодно. Даже ничего не делая, сильный товарищ добавляет мощи слабому.
Но, если это коммерческая ссылка,
ведущая на голимый ГС –
такую ссылку обязательно нужно закрыть в noindex и nofollow.
А, ещё лучше – вообще не ставить.

Кстати, такого-же мнения придерживаются многие вебмастера от «белого» SEO.

Вес страницы и внешние ссылки (мысли вслух)
Закрывание внешних ссылок в noindex и nofollow связано для вебмастера только с одним желанием – сохранить вес страницы, якобы отражающийся на общем рейтинге сайта у поисковых систем. Про «Вес страницы» с утра до вечера говорят на всевозможных форумах, но реально, что такое «Вес страницы» и как он подсчитывается у поисковиков – не знает никто. Доподлинно известно, что внешние ссылки важны и положительно учитываются для продвижения сайта вперёд, в SERP (СЕРП). Вот только это должны быть ссылки по теме, а не всё подряд.
Всевозможные SEO-оптимизаторы понапридумали кучу всяческих способов (бесплатных и за деньги), чтобы оттягать на себя побольше внешних ссылок. До оптимизировались уже до того, что Яндекс вообще скоро перестанет учитывать внешние ссылки не в тему страницы, а в некоторых случаях – и наказывать за избыток внешних ссылок «не по теме». Действительно, ну как это может женский каталог ссылаться на сайт про дровяное отопление, или сайт военно-патриотического клуба ссылаться на магазин ханского белья? Пусть, приведённые примеры слишком грубы, но лично я никогда не верил в подобные способы SEO-продвижения веб-ресурсов.
Нет логики. Суета сует.
Чем переводить кучу времени на заигрывание с поисковой системой по её постоянно меняющимся правилам – лучше накропать парочку уникальных статей в тему своего сайта или блога. В блоге у одного известного SEO-мастера, я вычитал интересную мысль – поисковиком засчитывается не тупо внешняя ссылка на сайт, а количество переходов по ней. Таким образом, если реальный пользователь в дискуссии на форуме поставит ссылку и по ней придут три десятка или сотни посетителей – это будет гораздо лучше, чем все каталоги мира, вместе взятые.

1. noindex – не индексировать текст
2. вложенный список
3. noindex – не валидное изобретение Яндекса
4. Действие тега noindex
5. Использование метатега noindex
6. Разница в действии тега и метатега noindex
7. Особенности в действии тега и метатега noindex
8. Тег и метатег noindex для Google
9. nofollow – не переходить по ссылкам
10. Загадки Яндекса и Google для noindex и nofollow
11. Вес страницы и внешние ссылки (мысли вслух)

------------------------------------------------------------------------------------------------

nofollow и noindex – самые загадочные персонажи в разметке html-страницы, основная задача которых состоит в предотвращении утечки веса страницы во время её поисковой индексации. А загадка заключается в том, что никто толком не знает, как поведёт себя поисковый робот, наткнувшись на nofollow и noindex на поле веб-страницы. Поисковые машины Яндекса и Google всё время изменяют свои алгоритмы по учёту и подсчёту рейтинга и веса страницы и сайта, для которых эти noindex и nofollow, собственно и нужны.

Значение nofollow предназначено для закрытия от индексации ссылок в Google и Яндексе. Вернее сказать, значение nofollow предназначено для запрета перехода поискового робота по ссылке и индексации последующей страницы с передачей ей индекса цитирования и ранжирования.

осто – html-комментарий на веб-странице.

Тег <noindex> – не индексировать кусок текста

Что это, за такой служебный текст и насколько нужен, важен и действенен тег <noindex> при закрывании части текстового материала от поисковой индексации – трудно сказать. В этом месте, все веб-мастера начинают растекаться мыслью по древу, да и сам Яндекс не может ничего внятного сказать. Поэтому, практическое применение для тега <noindex> – весьма туманно.

А был ли мальчик? (загадочный тег noindex)

Некоторые «пахари» от Сапы и других бирж по продаже ссылок советуют прятать от поисковика анкоры (видимую часть) «левых коммерческих ссылок». На коммерческие покупные ссылки Яндекс всю жизнь косо смотрит. Поэтому и считается, что их текст можно скрыть от Яндекса в конструкцию, вида:

<noindex>
<a href="http://example.ru">анкор (видимая часть ссылки)</a>
</noindex>

Само по себе, сие утверждение представляется весьма сомнительным, потому что в этом случае – Яндекс прекрасно видит «стрёмный» текст на странице, просто не учитывает его в поисковый индекс.

Ещё, веб-мастера рекомендуют оборачивать тегом noindex такие части текста, которые невозможно изменить и которые – часто встречаются (или могут встречаться) на других веб-ресурсах. Прежде всего, это – цитаты из других сайтов или блогов, всевозможные выдержки из всяких правил, справочной литературы или технических стандартов (вида ГОСТов, ОСТов, СНиПов, СанПиНов и т.д.). Говорят, что в этом случае – использование тега noindex помогает повысить общий процент уникальности текста страницы в глазах Яндекса.

Что-же, это логично. Поверить в это можно.
Вот только, целесообразность такого запрета находится под вопросом.

В отличие от туману с простым тегом, применение noindex в качестве значения для атрибута метатега не вызывает, ни сомнения, ни кривотолков. Тут дело обстоит гораздо проще и понятнее. По крайней мере, абсолютно ясно и точно, что использование noindex в качестве значения метатега <meta> для его атрибута content даёт очень хороший результат и уверенно выбивает такую страницу из поискового индекса Яндекса.

<meta name="robots" content="noindex"/>

Интересен тот факт, что действие тега и метатега noindex совершенно не распространяется на переход робота по ссылке и её индексацию. Это значит, что все ссылки на странице будут проиндексированы поисковиком, как ни в чём не бывало – со всеми вытекающими последствиями. Чтобы запретить роботу Яндекса переходить по ссылкам на веб-странице и индексировать их, потребуется дополнительно к тегу (метатегу) noindex добавить ещё значение nofollow для соответствующего атрибута тега или метатега. Это значение присваивается (добавляется) к атрибутам rel или content, в зависимости от того, про что идёт речь – про отдельную ссылку (rel) или про всю страницу в целом (content).

Пример запрета роботу для перехода по отдельной ссылке:
(связка тега noindex и атрибута rel тега «a» со значением nofollow:

<noindex>

nofollow и noindex | Закрываемся от индексации

Запрет на индексацию в Google и Яндекс

1. Уникальность текста
2.

И вот почему:
1. Во-первых, кроме Яндекса есть ещё поисковый алгоритм Google, которому абсолютно «до лампочки» тег noindex. Как быть с Google? Получается, что тег noindex – инструмент половинчатый и помощник только для алгоритма Яндекса. В остальном-же, этот тег – это бесполезная игрушка.
2. Во-вторых, народ в Сети давно уже приспособился ко всевозможным уловкам против «железобетонных» неизменяемых текстов. Например, публиковать их в виде картинок. Сайт tehlit.ru (ГОСТы и техническая литература России) – так этот вообще, сделан одними только изображениями и весь его контент – это сканированные копии страниц из всяких там технических стандартов.
3. А в-третьих, и это самое главное – приготовьтесь, я щас открою страшную тайну.
Оказывается, 95% самой ценной информации, которую только накопило человечество за все своё существование – изменить уже никак нельзя. Вся техническая, медицинская и другая многочисленная специальная, справочная и учебная литература – это как раз и есть те самые «железобетонные тексты», за изменение которых людям дают докторские и прочие научные степени, а иногда даже – большие деньги.

По идее, первую очередь, должны закрыться все интернет-магазины, поскольку наименования товара в них – что ни есть, настоящие дубли и копипаст

noindex и nofollow – самые загадочные персонажи разметки html-страницы.
Предназначены они для исключения из поискового индекса текстового материала, ссылок и целых веб-страниц. А загадка заключается в том, что никто толком не знает, как поведёт себя поисковый робот, наткнувшись на noindex и nofollow на веб-странице. Поисковые машины Яндекса и Google всё время изменяют свои алгоритмы по учёту и подсчёту веса и рейтинга страницы и сайта, для которых эти noindex и nofollow, собственно и нужны.

1. noindex – не индексировать текст
2. вложенный список
3. noindex – не валидное изобретение Яндекса
4. Действие и применение тега noindex
5. Использование метатега noindex
6. Разница в действии тега и метатега noindex
7. Особенности в действии тега и метатега noindex
8. Тег и метатег noindex для Google

9.
10. nofollow – не переходить по ссылкам
11. Загадки Яндекса и Google для noindex и nofollow
12. Вес страницы и внешние ссылки (мысли вслух)

noindex – не индексировать текст
Тег noindex не входит в спецификацию HTML-языка.
Тег noindex – это не валидное изобретение Яндекса, который предложил использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один.

Действие и применение тега noindex
Как утверждает справочная по Яндекс-Вебмастер, тег noindex используется для запрета индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги <noindex></noindex> удаляется поисковой машиной из поискового индекса.

Что-же, это логично. Поверить в это можно.
Вот только польза от этого сомнительная.
И вот почему:

Кстати, такого-же мнения придерживаются многие вебмастера от «белого» SEO.

--------------------------------------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------------------------------------

Статья для тех, кому лень читать справку по GoogleWebmaster и ЯндексВебмастер

Noindex и nofollow

Закрывание ненужных страниц веб-ресурса от поисковой индексации очень важно для его SEO-оптимизации, особенно на начальном этапе становления сайта или блога «на ноги». Такое действие способствует продвижению в SERP (СЕРП) и рекомендовано к применению для служебных страниц. К служебным страницам относятся технические и сервисные страницы, предназначенные исключительно для удобства и обслуживания уже состоявшихся клиентов. Эти страницы с неудобоваримым или дублирующим контентом, который не представляет абсолютно никакой поисковой ценности. Сюда входят – пользовательская переписка, рассылка, статистика, объявления, комментарии, личные данные, пользовательские настройки и т.д. А, также – страницы для сортировки материала (пагинация), обратной связи, правила и инструкции и т.п.

Метатег robots
Почему метатег robots лучше файла robots.txt

Метатег robots

Для управления поведением поисковых роботов на веб-странице, в HTML существует метатег robots и его атрибут content. закрытия веб-страницы от поисковой индексации,

Noindex и nofollow

nofollow (Яндекс & Google)

rel="nofollow" – не переходить по ссылке

<a href="http://example.ru" rel="nofollow">анкор (видимая часть ссылки)</a>

content="nofollow" – не переходить по всем ссылкам на странице

<meta name="robots" content="nofollow"/>

Действие атрибутов rel="nofollow" и content="nofollow"
на поисковых роботов Google и Яндекса

Действие атрибутов rel="nofollow" и content="nofollow"
на поисковых роботов Google и Яндекса несколько разное:

Google: Увидев атрибут rel="nofollow" у отдельно стоящей ссылки, поисковые роботы Google не переходят по такой ссылке и не индексируют её видимую часть (анкор). Увидев атрибут content="nofollow" у метатега <meta> в заголовке страницы, поисковые роботы Google сразу «разворачивают оглобли» и катят к себе восвояси, даже не пытаясь заглянуть на такую страницу. Таким образом, чтобы раз и навсегда закрыть от роботов Google отдельно стоящую ссылку (тег <а>) достаточно добавить к ней атрибут rel="nofollow":
<a href="http://example.ru" rel="nofollow">Анкор</a>
А, чтобы раз и навсегда закрыть от роботов Google всю веб-страницу,
достаточно добавить в её заголовок строку с метатегом:
<meta name="robots" content="nofollow"/>
Яндекс: Для роботов Яндекса атрибут rel="nofollow" имеет действие запрета только! на индексацию ссылки и переход по ней. Видимую текстовую часть ссылки (анкор) – роботы Яндекса всё равно проиндексируют.
Для роботов Яндекса атрибут метатега content="nofollow" имеет действие запрета только! на индексацию ссылок на странице и переходов по них. Всю видимую текстовую часть веб-страницы – роботы Яндекса всё равно проиндексируют.
Для запрета индексации видимой текстовой части ссылки или страницы для роботов Яндекса – ещё потребуется добавить его любимый тег или значение noindex

noindex – не индексировать текст
(тег и значение только для Яндекса)

Тег <noindex> – не признанное изобретение Яндекса

Тег noindex – парный тег, закрывающий тег – обязателен!

Тег <noindex> – не индексировать кусок текста

Так, например, можно создать четыре конструкции, где:

Ссылка индексируется полностью: <a href="http://example.ru">Анкор (видимая часть ссылки)</a>
Индексируется только анкор (видимая часть) ссылки: <a href="http://example.ru" rel="nofollow">Анкор</a>
Индексируется только ссылка, без своего анкора: <a href="http://example.ru"><noindex>Анкор</noindex></a>
Ссылка абсолютно НЕ индексируется: <a href="http://example.ru" rel="nofollow"><noindex>Анкор</noindex></a>

Метатег noindex – не индексировать текст всей страницы

Разница в действии тега и метатега noindex

<meta name="robots" content="noindex"/>
Текст страницы, с таким метатегом – Яндекс полностью не индексирует

Особенности метатега noindex

не индексировать текст страницы: <meta name="robots" content="noindex"/>
не переходить по ссылкам на странице: <meta name="robots" content="nofollow"/>
не индексировать текст страницы и не переходить по ссылкам на странице: <meta name="robots" content="noindex, nofollow"/>
что, аналогично следующему:
запрещено индексировать текст и переходить по ссылкам на странице для роботов Яндекса: <meta name="robots" content="none"/>

Вот такой он, тег и значение noindex на Яндексе :):):).

Тег и метатег noindex для Google

Универсальный метатег (Яндекс & Google)

<meta name="robots" content="noindex, nofollow"/>: – запрещено индексировать текст и переходить по ссылкам на странице
для всех поисковых роботов Яндекса и Google

Почему метатег robots лучше файла robots.txt

Самый простой и популярный способ закрыть веб-страницу от индексации – это указать для неё соответствующую директиву в файле robots.txt. Для этого, собственно файл robots.txt и существует. Однако, закрывать через метатег robots – гораздо надёжнее.

И, вот почему.
Алгоритмы обработки роботами метатега robots и файла robots – совершенно различные. Работу этих алгоритмов можно сравнить с действием в известном анекдоте, где бьют не «по паспорту», а – «по морде». Пусть этот пример весьма груб и примитивен, но он, как нельзя лучше – отображает поведение поискового робота на странице:

В случае использования метатега robots, поисковик просто и прямо заходит на веб-страницу и читает её заголовок («смотрит в её морду». Если робот там находит метатег robots – он разворачивается и уходит восвояси. Вуаля! Всё предельно просто. Робот увидел запись, что здесь ловить нечего, и сразу же – «свалил». Ему проблемы не нужны. Это есть работа по факту записи прямо в заголовке страницы («по морде»).
В случае использования файла robots.txt, поисковик, перед заходом на страницу – сверяется с этим файлом (читает «паспорт»). Это есть работа по факту записи в постороннем файле («по паспорту»). Если в файле robots.txt («паспорте») прописана соответствующая директива – робот её выполняет. Если нет, то он – сканирует страницу в общем порядке, поскольку по-умолчанию – к сканированию разрешены все страницы.

Казалось-бы, какая разница.

Тем более, что сам Яндекс рассказывает следующее:

При сканировании сайта, на основании его файла robots.txt – составляется специальный список (пул), в котором ясно и чётко указываются и излагаются директории и страницы, разрешённые к поисковому индексированию сайта.

Ну, чего ещё проще – составил списочек,

прошёлся списочком по сайту,

и всё – можно «баиньки»...

Простота развеется, как майский дым, если мы вспомним, что роботов много, что все они разные, и самое главное – что все роботы ходят по ссылкам. А сей час, представим себе стандартную ситуацию, которая случается в интернете миллионы раз на дню – поисковый робот пришёл на страницу по ссылке из другого сайта. Вот он, трудяга Сети – уже стоит у ворот (у заголовка) странички. Ну, и где теперь файл robots.txt?

У робота, пришедшего на сайт по внешней ссылке, выбор не большой. Робот может, либо лично «протопать» к файлу robots.txt и свериться с ним, либо просто скачать страницу себе в кэш и уже потом разбираться – индексировать её или нет.

Как поступит наш герой, мы не знает. Это коммерческая тайна каждой поисковой системы. Несомненно, одно. Если в заголовке страницы будет указан метатег robots – поисковик выполнит его немедля. И, если этот метатег запрещает индексирование страницы – робот уйдёт немедля и без раздумий.

Вот теперь, совершенно ясно, что прямой заход на страницу, к метатегу robots –
всегда короче и надёжнее, нежели долгий путь через закоулки файла robots.txt

Метатег robots | Закрыть страницу от индексации на tehnopost.info

Метатег robots
Почему метатег robots лучше файла robots.txt

Внимание! У Вас нет прав для просмотра скрытого текста.

---------------------------------------------------------

---------------------------------------------------

------------------------------------------------

Файл robots.txt – набор правил и указаний для роботов поисковых систем, выполняемых ими при обходе и индексации контента сайта. robots.txt – простейший текстовый файл свободного доступа, находится в корне системных файлов движка сайта, по адресу протокол://site/robots.txt, где «site» – домен или поддомен сайта. Например: http://tehnopost.info/robots.txt (протокол://домен/robots.txt).

Сделать самому файл robots.txt, проверить и отредактировать его содержание не сложно. Достаточно уяснить:

Назначение файла robots.txt
Как работает robots.txt
- Структура и содержание
- Имена агентов
- Обязательные директивы
  (указания роботам)
- Работа с директивами
Создание
Проверка текста
Корректировка robots.txt

Назначение файла robots.txt – запрет нежелательных страниц и директорий сайта для поискового индексирования роботами или, наоборот – приглашение роботов поисковика в ранее запрещенную зону для выборочной индексации части запрещенного материала. Дополнительно, текст файла robots.txt содержит информацию про адреса главного зеркала и карты сайта.

Как работает robots.txt

На основании содержимого файла robots.txt, для поисковых роботов формируется список адресов директорий и страниц сайта, разрешенных к индексированию. Далее, роботы-поисковики обходят дозволенные материалы и приступают к анализу результатов обхода (индексированию контента).

Несмотря на громкие слова-директивы в содержании файла robots.txt, файлик не может РЕАЛЬНО-ЖЕСТКО запретить роботам посещать доступные страницы сайта, индексируя их. Поисковики легко переходят по внешней ссылке на запрещенную страницу, минуя robots.txt. Нюанс: поисковый робот на сайте – незарегистрированный пользователь, который не видит материала, предназначенного к просмотру исключительно зарегистрированным пользователям (ежели такое творчество имеет место).

Обращение к роботам (имена агентов)
файл robots.txt, устанавливает правила индексирования сайта роботами разных поисковых систем: Yandex, Google, Mail.ru, Bing, Yahoo, Baidu, DuckDuckGo и т.д. Индивидуальные директивы и правила указывают роботам, использующим алгоритмы индексации, отличные от общепринятых. Личные поклоны поисковым ботам бьют редко, обращаясь одновременно строкой:

User-agent: *

Обязательные директивы (указания)

Host: Главное зеркало сайта. Как правило – имя домена или поддоменя, на котором установлен движок сайта.
Sitemap: Адрес карты сайта в формате .xml. Карту сайта создать предварительно. Не путать с картой сайта в формате .html.
Disallow: Запрещено к индексированию. Директива «Disallow» устанавливает пути к директориям и страницам, запрещенным к индексации.
Allow: Разрешено к индексированию из запрещенного. Директива «Allow» применяется для выборочной индексации запрещенного контента. Устанавливает пути индексации, отдельным директориям и страницам, предварительно закрытым от индексации директивой «Disallow». Всегда указывается после вышестоящей запрещающей директивы «Disallow».

Создание, проверка и корректировка robots.txt

Создание (написание) текста файла robots.txt начинается с ничего не деланья. В оригинальных движках сайтов присутствует файл robots.txt от разработчика CMS. robots.txt от разработчика закрывает технические и сервисные страницы. В «родной» текст достаточно добавить строки:

Host: http://tehnopost.info/
Sitemap: http://tehnopost.info/sitemap.xml
где, tehnopost.info заменить на свой домена.

Что добавить в robots.txt, кроме обязательных строк

Часто, в разрешенные к индексации материалы попадают технические и сервисные страницы сайта, что не есть «гут».

Наличие robots.txt крайне желательно, особенно

При посещении сайта поисковыми роботами,
(директива Disallow)
Принципиально, директив или задать приоритет (директива аллов). Зачем оно надо?
Главные
Рассмотрим тему создания файла robots.txt на примере сайтика на движке ДЛЕ (CMS DLE).

Файл robots.txt чрезвычайно важен для небольших и начинающих сайтов и блогов. Рассмотрим тему на примере сайтика на движке ДЛЕ (CMS DLE). Движок классно развивается, поисковики не тупеют, однако – требуется ручная заточка файла robots.txt именно под сайт tehnopost.info. Потому что при наличии 84 реальных статей на сайте, в поиске Яндекса висит 183. Соотношение статей (84 шт.) и сервисных страниц (103 шт.) сайто-моторчика явно не красит поисковую картину tehnopost.info.
Сделать рабочий файл robots.txt для сайта на любом движке сравнительно легко. Не стоит вычитывать по Интернету заумную чушь от всезнающих советчиков. Достаточно зарегистрироваться в Яндекс Вебмастер и зайти в меню: Яндекс Вебмастер – Инструменты – Анализ robots.txt. Откроется простенькая страница проверки и отладки файла robots.txt. Примерно такой-же сервис есть в Google-инструментах для веб-мастеров. Разницы между ними никакой, кроме названия. Яндекс первый подвернулся под руку, с ним и поработаем. Мануалов по работе с подобными сервисами – немеряно. Мутновато тема изложена, все гораздо проще.
При переходе на страницу отладки файла robots.txt и ее последующем обновлении (клавиша F5), Яндекс Вебмастер выкачивает актуальную версию текста файла прямо из сайта. Текст отображается в верхнем окне. Под ним кнопка «Проверить». Тискаем и смотрим «Результаты анализа robots.txt». Это проверка синтаксиса текста. В оригинальных (родных) файликах движка СМС ДЛЕ нет ошибок в синтаксисе. Просто не все указано.
Переходим к окну «Разрешены ли URL?». В это окно вводим адрес любой страницы проверяемого сайта и тискаем под ним вторую кнопку «Проверить». Еще ниже откроется окно результатов проверки доступности индексации указанного адреса для поисковика.

https://webmaster.yandex.ru/site/http:tehnopost.info:80/tools/robotstxt/

Нет используемых роботом файлов Sitemap

site:tehnopost.info

site:tehnopost.kiev.ua

В корне любого сайта лежит малоприметный файл,
предназначенный для роботов поисковых систем.
Это очень важный файл,
который может отравить всю жизнь своему владельцу,
или наоборот – сделать её сладкой и приятной.

Файл robots.txt

Файл robots.txt
Зачем нужен файл robots.txt
Как создать файл robots.txt

Файл robots.txt

Прежде чем «шоркаться» по этой теме предлагаю «ущучить»,

как это выглядит и как это работает:

– Вопреки распространённому мнению, поисковый робот не может просто так зайти в корневую папку сайта на хостинге. Он не может зайти туда по одной простой причине – этот «сер» не знает пути (урл-а) для входа. Вот это утверждение, как аксиому, положим в фундамент для дальнейших рассуждений.

По-умолчанию, поисковым роботам разрешен для индексации весь материал сайта. Чтобы закрыть от индексации поисковиками нежелательные страницы сайта, существует файл robots.txt

Файл robots.txt лежит в корне сайта, поэтому путь к файлику минимален:
Протокол//Имя_домена/robots.txt
Например, http://tehnopost.info/robots.txt

Зачем нужен файл robots.txt

Файл robots.txt служит для указания параметров индексации материалов сайта поисковыми системами. В файле robots.txt вебмастер указывает параметры индексирования для материалов своего сайта. Как правило, это запреты на индексирование служебных, личных или иных страниц, появление которых в поисковой выдаче не желательно для владельца ресурса. Параметры индексирования для страниц сайта можно указать, как для всех поисковых роботов сразу, так и для каждого робота каждой поисковой системы в отдельности. Нужно только знать имена этих роботов.
Хочется особо отметить, что запрет роботу на индексирование материала не является запретом на его скачивание из сайта. Например, те-же Яндекс-боты выкачают из сайта все, что только найдут, а уже потом будут разбираться – индексировать материал в поиск или нет.

Наблюдение за работой поисковых систем наталкивает на мысль, что они прекрасно различают служебные (технические) страницы, .

Как создать файл robots.txt
Воспользуйтесь любым текстовым редактором (например, Блокнотом или WordPad), создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог вашего сайта.
Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt.

Текст файла robots.txt имеет блочную структуру. Он содержит один или несколько блоков, каждый из которых начинается директивой обращения, за которой следуют директивы запрещения и разрешения с набором правил.

Обязательная директива User-agent

Текст robots.txt содержит минимум один блок, который начинается с директивы обращения к поисковым роботам:

User-agent: * - это, для всех поисковых роботов.

Если, для одного из роботов нужно сделать персональные указания, то тогда такого робота нужно выделять в отдельный блок, где и указывать правила, касающиеся лично его. Такой блок должен начинаться с директивы обращения к конкретному роботу или его поисковой системе, например:

User-agent: googlebot - это, только для роботов Google.
User-agent: Yandex - это, только для роботов Яндекса.

User-agent: YandexBot - это, только для основного индексирующего робота Яндекса.
User-agent: Slurp - это, только для роботов Yahoo.
User-agent: StackRambler - это, только для роботов Рамблера.
и т.д.

Прим: Имена своих роботов каждая поисковая система не держит в секрете и сразу выдает по поисковому запросу, типа: роботы (имя системы). Например, "роботы Google", или "роботы Яндекса".

Директивы запрещения (Disallow) и разрешения (Allow)

После того, как мы вежливо обратились к роботу, ему нужно указать, что именно нужно (не нужно) индексировать в поиск. Для этого существуют директивы Disallow и Allow

Директива Disallow - запрещает к индексации что-либо.
Директива Allow - разрешает к индексации что-либо.

По-умолчанию, всем поисковым роботам разрешен (Allow) для индексации весь материал сайта. Главное назначение файла robots.txt – запретить (Disallow) индексирование нежелательного материала. Поэтому, разрешающая директива (Allow) применяется значительно реже. Ведь роботу и так разрешены все действия.

Совместное использование директив Disallow и Allow

Разрешающая директива (Allow) применима в случае, если необходимо частично проиндексировать материал из запрещенной директории.

Например, в CMS DLE есть директория /user/. В ней находятся страницы с профилями пользователей. Мы хотим запретить к индексации профили всех пользователей, кроме одного - Administrator.html (администратор сайта)

Тогда напишем так:

Allow: /user/Administrator

Disallow: /user/

где, Administrator - действующий ник администратора

Порядок написания директив в этом случае не имеет принципиального значения.

Находим у Яндекса:

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке. Таким образом порядок следования директив в файле robots.txt не влияет на использование их роботом.

Соответственно, наша запись будет сортирована роботом так:

Disallow: /user/

Allow: /user/Administrator

# запрещает скачивать все страницы, начинающиеся с /user/,

# кроме страниц, начинающихся с /user/Administrator

Еще пример из Яндекс-Вебмастер:

# Исходный файл robots.txt:

User-agent:*
Allow: /
Allow: /catalog/auto
Disallow: /catalog

# Сортированный роботом файл robots.txt:
User-agent:*
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с /catalog,
# но разрешает скачивать страницы, начинающиеся с /catalog/auto.

Обязательная директива Host

(для робота Яндекса)

Директивой Host указываем для робота Яндекса главное зеркало сайта. Как правило, это имя домена сайта.

Обязательная директива Sitemap

Директивой Sitemap указываем роботам путь к XML карте сайта.

Пустой файл robots.txt

Если в файле robots.txt совсем нет текста, то он интерпретируется роботами, как:

User-agent: *

Allow: /

Другими словами, пустой robots.txt - это разрешение для всех роботов скачивать все, что они найдут на сайте.

Читать дальше:

По-умолчанию, поисковым роботам разрешен для индексации весь материал сайта. Чтобы закрыть от индексации поисковиками нежелательные страницы сайта, существует файл robots.txt

Что есть файл robots.txt

robots.txt – это текстовый файл. Он находится в корне сайта и содержит директивы для поисковых роботов. Текст файла robots.txt указывает поисковикам, какой материал сайта нужно (можно) индексировать в поиск, а какой – нет.
robots.txt – это общедоступный файл, который находится по адресу: http://имя_сайта/robots.txt Прочитать его может любой желающий. Для этого, достаточно, в адресной строке браузера, к доменному имени сайта, добавить /robots.txt и нажать «Enter». Например, http://sokol-motor.info/robots.txt

Robots.txt для CMS DLE всех версий

Дистрибутив CMS DLE содержит файл robots.txt, который уже, частично оптимизирован его авторами.

Что добавить в «родной» robots.txt

Если в поиске не появляются нежелательные страницы и владельца сайта все устраивает, то не стоит заморачиваться и зря править robots.txt. Можно ограничиться простым добавлением обязательных строк к стандартному тексту robots.txt, который идет в комплекте с CMS DLE 9.6.

Редактируя и подгоняя текст файла robots.txt под потребности своего сайта, не лишне помнить о минимизации действий и о принципе "не навреди". Неправильно сделанная запрещающая запись в robots.txt может резко уменьшить количество индексируемого материала, а то и вовсе закрыть сайт от поисковиков. Добавлять записи в robots.txt нужно только в полной уверенности, что запрещаемые материалы (страницы) не нужны к выдаче поисковой системой. Если таковых на сайте не наблюдается, то, в поставляемый авторами DLE файл robots.txt, больше ничего добавлять не нужно.

Что делать с архивами и постраничной навигацией

Многих (в том числе и меня) раздражает появление в поиске страниц с архивами сайта, его постраничной навигацией, или иными сервисными страницами. Тем не менее, все эти страницы уникальны для каждого сайта. А с точки зрения поисковиков, уникальность - это высшая ценность в Интернете.

Пусть выглядят уныло, не информативно и не релевантно, заголовки страниц, типа:

sokol-motor.info/page/3/
sokol-motor.info/production/page/2/
Последние публикации на сайте » sokol-motor.info
Материалы за 2011/10/09/ » sokol-motor.info
Все новости за 2012/02/08/ » sokol-motor.info
и т.п.

Такие страницы уникальны, и в этом их достоинство. Разрешать или запрещать их поисковую индексацию - дело личное. На начальном этапе раскрутки, когда на сайте еще мало уникального контента - можно и разрешить.

Права поискового робота на сайте под управлением CMS DLE
Поисковый робот заходит на сайт DLE с правами незарегистрированного посетителя. Информация для зарегистрированных пользователей ему не доступна. Например, если на странице есть текст, закрытый "хайдом" (hide), то робот-поисковик не сможет его прочесть, потому что такой текст движок DLE показывает только на страницах, сгенерированных для зарегистрированных пользователей. В случае с применением шаблонных тегов, типа [not-group=5], [group=1,2,3,4] и тому подобных, результат будет аналогичным. Робот-поисковик не увидит ничего из того, что в шаблоне сайта будет прописано, как «не показывать незарегистрированным посетителям».

Как убедиться в работоспособности robots.txt
Файл robots.txt можно проверять, оптимизировать и подгонять под свои потребности, используя бесплатные онлайн-сервисы Google и Яндекса. Это специальные сервисы, которые помогут отладить robots.txt для любого сайта. Сервис Яндекса находится по адресу http://webmaster.yandex.ua/robots.xml. Там же, можно найти и нехитрые правила оформления текста файла robots.txt.

Читать дальше:

А как правильно указывать директиву host:
host: http://www.site.ru
host: www.site.ru
host: http://site.ru
или
host: site.ru?

Цитата: Гость
А как правильно указывать директиву host:
host: http://www.site.ru,
host: www.site.ru,
host: http://site.ru
или
host: site.ru ?
За разъяснениями обратимся к Яндекс.Помощь,
раздел "Использование robots.txt",
пункт "Директива Host":

Директива Host указывает на главное зеркало при условии наличия таковых. При этом, директива Host должна быть одинаковой для всех сайтов-зеркал.

Вопрос первый - зеркало указывать с приставкой www и без неё?
Распространенное использование директивы host для доменных имен с приставкой www и без неё.

host: www.site.ru
host: site.ru
Как правило, при регистрации доменного имени за пользователем закрепляются два доменных имени - с приставкой www и без неё.
Если оба адреса принадлежат одному и тому-же сайту, то можно указать любой из них, а второй целесообразно приклеить к указанному при помощи 301 редиректа. Впрочем, даже без 301 редиректа робот склеит их сам.

Читаем дальше Яндекс.Помощь
Примеры использования директивы Host:
Сайт site.ru является главным зеркалом сайта www.site.ru, тогда корректное использование директивы Host такое:

User-Agent: *
Disallow:
Host: site.ru

Вопрос второй - зеркало указывать с указанием протокола (http) или без него?
Указание протокола в директиве Host
Указание на протокол HTTPS необходимо, если зеркало доступно только по защищенному каналу
Пример:
(Host: https://site.ru)
В других случаях, протокол указывать не нужно, поскольку он и так понятен. Таким образом, будут некорректными выражения вида
host: http://www.site.ru
host: http://.site.ru

Файлик robots.txt для DLE – избитая тема. Честно говоря, я давно хотел удалить эту статью но, жисть показала – что она актуальна. И ныне, как и прежде – на просторах Рунета полно диких юзверей, лобающих жесткий рок на костях здравого смысла. Чего только не пишет народ в этот несчастный файлик, даже не представляя, нафига он вообще нужен. А, по сему – безумству храбрых поём мы славу и мужественно оптимизируем свой файл robots.txt для DLE

За основу, конечно-же – берем стандартный robots.txt для DLE,
который идет в комплекте с движком и выглядит он так:

Смотреть авторский код robots.txt для DLE 10.3

Авторы DLE – гениальные люди. Этим кодом, авторы движка DLE закрывают от поисковой индексации те директории, которые действительно не нужны поисковым системам, но увы! – которые реально важны для работы движка и, поэтому – должны быть доступны для работы из Сети. Поисковую индексацию остального материала сайта разработчики DLE оставляют на наш "укус", в надежде на то, что мы не тупы и понимаем суть сюжета.

Поэтому, в обязательно порядке, добавляем в самый низ строки:
Host: tehnopost.info
Sitemap: http://tehnopost.info/sitemap.xml
где, вместо tehnopost.info, нужно вписать имя своего домена и, естессно – предварительно сгенерировать карту сайта в самом своем DLE.

Остальное добавляем, на свое усмотрение:

Disallow: /*do=search
(уже не актуально)
– закрываем от индексации страницу поиска движка. Страница эта стандартная и не несет никакой смысловой нагрузки. Кстати, в DLE 10.3 эта запись уже присутствует, так что – это не актуально для более новых версий DLE.

Disallow: /*print
(очень важно)
– закрываем от индексации страницы для печати.
Это очень важная запись. На молодых сайтах DLE, поисковики, в первую очередь – индексируют страницы для печати, потому что они легче и меньше по весу. Индексацию страниц для печати можно закрыть в настройках самого движка. Тогда эта запись будет не нужна. Однако, такая директива может понадобиться, чтобы удалить из поиска уже проиндексированные страницы. У меня такое было.

Disallow: /rules.html
Disallow: /*do=rules
- закрываем страницу с типовыми правилами регистрации.

Если написать уникальный текст правил регистрации, то эти записи не нужны.

Disallow: /lastnews/
Disallow: /*do=lastnews
- этими правилами закрываем страницу с последними новостями.

"Последние публикации на сайте » sokol-motor.info"

Спорный вопрос, нужно ли это делать. Эта страница уникальна и постоянно обновляется. Поисковики хорошо ее индексируют. Однако, не могу понять, что пользователю Гугла или Яндекса может дать страница со странным названием "Последние публикации на сайте » sokol-motor.info"? И по какому поисковому запросу такая страница может попасть в топ? Закрыл.

Disallow: /*action=mobile*
- закрываем все страницы с мобильной версией.

В CMS DLE есть функция с отображением мобильной версии сайта. С некоторых пор Яндекс начал предпочитать ее против обычной, поскольку у мобильных страниц меньше вес. Вес то меньше, только внешний вид ужасающий. Закрыл.

Disallow: /*page/*
Disallow: /201*/
- этими правилами закрываем постраничную навигацию и страницы с архивами.

Иначе в поиск будут попадать страницы, типа:
sokol-motor.info/page/3/
sokol-motor.info/production/page/2/
Материалы за 2011/10/09/ » sokol-motor.info
Все новости за 2012/02/08/ » sokol-motor.info

С этими страницами тоже, спорный вопрос. Эти страницы уникальны и поисковики их любят. Вот только тайтлы они имеют не информативные. Закрыл.

Теперь подведем итог и соберем все вышесказанное вместе:
- получим файл robots.txt для сайта sokol-motor.info.

Посмотреть файл можно по адресу http://sokol-motor.info/robots.txt

User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /lastnews/
Disallow: /statistics.html
Disallow: /rules.html
Disallow: /*print
Disallow: /*page/*
Disallow: /201*/
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=lastnews
Disallow: /*do=rules
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*do=search
Disallow: /*action=mobile*
Host: sokol-motor.info
Sitemap: http://sokol-motor.info/sitemap.xml

Синтаксис robots.txt
Правило должно всегда следовать за директивой.
Не допускается пустая строка после директив User-agent, Disallow, Allow.
Правило может начинаться только с символа '/' или '*' (косой слеш или звездочка).
Спецсимвол * (звездочка) означает любую (в том числе пустую)
последовательность любых символов.

В заключение:
В тексте были использованы самые типовые и распространенные правила, которые встречаются в файле robots.txt для сайтов под управлением CMS DLE. Таким образом, свежеиспеченный файлик можно с уверенностью назвать «типовым». Он подойдет большинству сайтов. Например, sokol-motor.info использует этот robots.txt более года. Все нужные страницы, статьи, картинки и категории сайта проиндексированы Google и Яндексом.

Полученный текст robots.txt можно и нужно править по своему усмотрению и подгонять его под свои потребности. Готовый файл robots.txt всегда можно проверить и отредактировать на онлайн-сервисах Google и Яндекса. Сервис Яндекса находится по адресу http://webmaster.yandex.ua/robots.xml. Пользоваться им настолько просто, что я даже не рискую здесь выкладывать к нему инструкцию, дабы не стать обвиняемым в идиотизьме.

nofollow (Яндекс & Google)

rel="nofollow" – не переходить по ссылке

content="nofollow" – не переходить по всем ссылкам на странице

Действие атрибутов rel="nofollow" и content="nofollow"на поисковых роботов Google и Яндекса

noindex – не индексировать текст(тег и значение только для Яндекса)

Тег <noindex> – не признанное изобретение Яндекса

Тег <noindex> – не индексировать кусок текста

Метатег noindex – не индексировать текст всей страницы

Разница в действии тега и метатега noindex

Особенности метатега noindex

Тег и метатег noindex для Google

Универсальный метатег (Яндекс & Google)

Тег noindex не входит в спецификацию HTML-языка

Действие и применение тега noindex

Тег <noindex> – не индексировать кусок текста

Метатег robots

nofollow (Яндекс & Google)

rel="nofollow" – не переходить по ссылке

content="nofollow" – не переходить по всем ссылкам на странице

Действие атрибутов rel="nofollow" и content="nofollow"на поисковых роботов Google и Яндекса

noindex – не индексировать текст(тег и значение только для Яндекса)

Тег <noindex> – не признанное изобретение Яндекса

Тег <noindex> – не индексировать кусок текста

Метатег noindex – не индексировать текст всей страницы

Разница в действии тега и метатега noindex

Особенности метатега noindex

Тег и метатег noindex для Google

Универсальный метатег (Яндекс & Google)

Почему метатег robots лучше файла robots.txt

Как работает robots.txt

Файл robots.txt

Зачем нужен файл robots.txt

Действие атрибутов rel="nofollow" и content="nofollow"
на поисковых роботов Google и Яндекса

noindex – не индексировать текст
(тег и значение только для Яндекса)

Действие атрибутов rel="nofollow" и content="nofollow"
на поисковых роботов Google и Яндекса

noindex – не индексировать текст
(тег и значение только для Яндекса)