Интернетчик » site » Файл robots.txt | Сделать самому

Файл robots.txt | Сделать самому

Файл robots.txt – набор правил и указаний для роботов поисковых систем, выполняемых ими при обходе и индексации контента сайта. robots.txt – простейший текстовый файл свободного доступа, находится в корне системных файлов движка сайта, по адресу протокол://site/robots.txt, где «site» – домен или поддомен сайта. Например: http://tehnopost.info/robots.txt (протокол://домен/robots.txt).

Сделать самому файл robots.txt, проверить и отредактировать его содержание не сложно. Достаточно уяснить:

  1. Назначение файла robots.txt
  2. Как работает robots.txt
    • Структура и содержание
    • Имена агентов
    • Обязательные директивы
      (указания роботам)
    • Работа с директивами
  3. Создание
  4. Проверка текста
  5. Корректировка robots.txt

Назначение файла robots.txt – запрет нежелательных страниц и директорий сайта для поискового индексирования роботами или, наоборот – приглашение роботов поисковика в ранее запрещенную зону для выборочной индексации части запрещенного материала. Дополнительно, текст файла robots.txt содержит информацию про адреса главного зеркала и карты сайта.

Как работает robots.txt

На основании содержимого файла robots.txt, для поисковых роботов формируется список адресов директорий и страниц сайта, разрешенных к индексированию. Далее, роботы-поисковики обходят дозволенные материалы и приступают к анализу результатов обхода (индексированию контента).

Несмотря на громкие слова-директивы в содержании файла robots.txt, файлик не может РЕАЛЬНО-ЖЕСТКО запретить роботам посещать доступные страницы сайта, индексируя их. Поисковики легко переходят по внешней ссылке на запрещенную страницу, минуя robots.txt. Нюанс: поисковый робот на сайте – незарегистрированный пользователь, который не видит материала, предназначенного к просмотру исключительно зарегистрированным пользователям (ежели такое творчество имеет место).

Обращение к роботам (имена агентов)
файл robots.txt, устанавливает правила индексирования сайта роботами разных поисковых систем: Yandex, Google, Mail.ru, Bing, Yahoo, Baidu, DuckDuckGo и т.д. Индивидуальные директивы и правила указывают роботам, использующим алгоритмы индексации, отличные от общепринятых. Личные поклоны поисковым ботам бьют редко, обращаясь одновременно строкой:

User-agent: *

Обязательные директивы (указания)

Host
Главное зеркало сайта. Как правило – имя домена или поддоменя, на котором установлен движок сайта.
Sitemap
Адрес карты сайта в формате .xml. Карту сайта создать предварительно. Не путать с картой сайта в формате .html.
Disallow
Запрещено к индексированию. Директива «Disallow» устанавливает пути к директориям и страницам, запрещенным к индексации.
Allow
Разрешено к индексированию из запрещенного. Директива «Allow» применяется для выборочной индексации запрещенного контента. Устанавливает пути индексации, отдельным директориям и страницам, предварительно закрытым от индексации директивой «Disallow». Всегда указывается после вышестоящей запрещающей директивы «Disallow».

Создание, проверка и корректировка robots.txt


Создание  (написание) текста файла robots.txt начинается с ничего не деланья. В оригинальных движках сайтов присутствует файл robots.txt от разработчика CMS. robots.txt от разработчика закрывает технические и сервисные страницы. В «родной» текст достаточно добавить строки:

Host: http://tehnopost.info/
Sitemap: http://tehnopost.info/sitemap.xml
где, tehnopost.info заменить на свой домена.




Что добавить в robots.txt, кроме обязательных строк



Часто, в разрешенные к индексации материалы попадают технические и сервисные страницы сайта, что не есть «гут».

Наличие robots.txt крайне желательно, особенно

При посещении сайта поисковыми роботами,
(директива Disallow)
Принципиально, директив или задать приоритет (директива аллов). Зачем оно надо?
Главные
Рассмотрим тему создания файла robots.txt на примере сайтика на движке ДЛЕ (CMS DLE).

Файл robots.txt чрезвычайно важен для небольших и начинающих сайтов и блогов. Рассмотрим тему на примере сайтика на движке ДЛЕ (CMS DLE). Движок классно развивается, поисковики не тупеют, однако – требуется ручная заточка файла robots.txt именно под сайт tehnopost.info. Потому что при наличии 84 реальных статей на сайте, в поиске Яндекса висит 183. Соотношение статей (84 шт.) и сервисных страниц (103 шт.) сайто-моторчика явно не красит поисковую картину tehnopost.info.
Сделать рабочий файл robots.txt для сайта на любом движке сравнительно легко. Не стоит вычитывать по Интернету заумную чушь от всезнающих советчиков. Достаточно зарегистрироваться в Яндекс Вебмастер и зайти в меню: Яндекс Вебмастер – Инструменты – Анализ robots.txt. Откроется простенькая страница проверки и отладки файла robots.txt. Примерно такой-же сервис есть в Google-инструментах для веб-мастеров. Разницы между ними никакой, кроме названия. Яндекс первый подвернулся под руку, с ним и поработаем. Мануалов по работе с подобными сервисами – немеряно. Мутновато тема изложена, все гораздо проще.
При переходе на страницу отладки файла robots.txt и ее последующем обновлении (клавиша F5), Яндекс Вебмастер выкачивает актуальную версию текста файла прямо из сайта. Текст отображается в верхнем окне. Под ним кнопка «Проверить». Тискаем и смотрим «Результаты анализа robots.txt». Это проверка синтаксиса текста. В оригинальных (родных) файликах движка СМС ДЛЕ нет ошибок в синтаксисе. Просто не все указано.
Переходим к окну «Разрешены ли URL?». В это окно вводим адрес любой страницы проверяемого сайта и тискаем под ним вторую кнопку «Проверить». Еще ниже откроется окно результатов проверки доступности индексации указанного адреса для поисковика.


https://webmaster.yandex.ru/site/http:tehnopost.info:80/tools/robotstxt/

Нет используемых роботом файлов Sitemap

site:tehnopost.info

site:tehnopost.kiev.ua


В корне любого сайта лежит малоприметный файл,
предназначенный для роботов поисковых систем.
Это очень важный файл,
который может отравить всю жизнь своему владельцу,
или наоборот – сделать её сладкой и приятной.

Файл robots.txt

  1. Файл robots.txt
  2. Зачем нужен файл robots.txt
  3. Как создать файл robots.txt

Файл robots.txt

Прежде чем «шоркаться» по этой теме предлагаю «ущучить»,

как это выглядит и как это работает:

– Вопреки распространённому мнению, поисковый робот не может просто так зайти в корневую папку сайта на хостинге. Он не может зайти туда по одной простой причине – этот «сер» не знает пути (урл-а) для входа. Вот это утверждение, как аксиому, положим в фундамент для дальнейших рассуждений.

 

 

По-умолчанию, поисковым роботам разрешен для индексации весь материал сайта. Чтобы закрыть от индексации поисковиками нежелательные страницы сайта, существует файл robots.txt

Файл robots.txt лежит в корне сайта, поэтому путь к файлику минимален:
Протокол//Имя_домена/robots.txt
Например, http://tehnopost.info/robots.txt

Зачем нужен файл robots.txt

Файл robots.txt служит для указания параметров индексации материалов сайта поисковыми системами. В файле robots.txt вебмастер указывает параметры индексирования для материалов своего сайта. Как правило, это запреты на индексирование служебных, личных или иных страниц, появление которых в поисковой выдаче не желательно для владельца ресурса. Параметры индексирования для страниц сайта можно указать, как для всех поисковых роботов сразу, так и для каждого робота каждой поисковой системы в отдельности. Нужно только знать имена этих роботов.
Хочется особо отметить, что запрет роботу на индексирование материала не является запретом на его скачивание из сайта. Например, те-же Яндекс-боты выкачают из сайта все, что только найдут, а уже потом будут разбираться – индексировать материал в поиск или нет.


Наблюдение за работой поисковых систем наталкивает на мысль, что они прекрасно различают служебные (технические) страницы, .

Как создать файл robots.txt
Воспользуйтесь любым текстовым редактором (например, Блокнотом или WordPad), создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог вашего сайта.
Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt.

 

Текст файла robots.txt имеет блочную структуру. Он содержит один или несколько блоков, каждый из которых начинается директивой обращения, за которой следуют директивы запрещения и разрешения с набором правил.


Обязательная директива User-agent

 Текст robots.txt содержит минимум один блок, который начинается с директивы обращения к поисковым роботам:


User-agent: * - это, для всех поисковых роботов.

 

Если, для одного из роботов нужно сделать персональные указания, то тогда такого робота нужно выделять в отдельный блок, где и указывать правила, касающиеся лично его. Такой блок должен начинаться с директивы обращения к конкретному роботу или его поисковой системе, например:


 User-agent: googlebot - это, только для роботов Google.
 User-agent: Yandex - это, только для роботов Яндекса.

User-agent: YandexBot - это, только для основного индексирующего робота Яндекса.
 User-agent: Slurp - это, только для роботов Yahoo.
 User-agent: StackRambler - это, только для роботов Рамблера.
 и т.д.

 

Прим: Имена своих роботов каждая поисковая система не держит в секрете и сразу выдает по поисковому запросу, типа: роботы (имя системы). Например, "роботы Google", или "роботы Яндекса".



 
Директивы запрещения (Disallow) и разрешения (Allow)

После того, как мы вежливо обратились к роботу, ему нужно указать, что именно нужно (не нужно) индексировать в поиск. Для этого существуют директивы Disallow и Allow


 Директива Disallow - запрещает к индексации что-либо.
 Директива Allow - разрешает к индексации что-либо.

 По-умолчанию, всем поисковым роботам разрешен (Allow) для индексации весь материал сайта. Главное назначение файла robots.txt – запретить (Disallow) индексирование нежелательного материала. Поэтому, разрешающая директива (Allow) применяется значительно реже. Ведь роботу и так разрешены все действия.

 
Совместное использование директив Disallow и Allow

Разрешающая директива (Allow) применима в случае, если необходимо частично проиндексировать материал из запрещенной директории.

 

Например, в CMS DLE есть директория /user/. В ней находятся страницы с профилями пользователей. Мы хотим запретить к индексации профили всех пользователей, кроме одного - Administrator.html (администратор сайта)

 Тогда напишем так:

Allow: /user/Administrator

Disallow: /user/

где, Administrator - действующий ник администратора

 

Порядок написания директив в этом случае не имеет принципиального значения.

 

Находим у Яндекса:

 

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке. Таким образом порядок следования директив в файле robots.txt не влияет на использование их роботом.

 

Соответственно, наша запись будет сортирована роботом так:

 

Disallow: /user/

Allow: /user/Administrator

# запрещает скачивать все страницы, начинающиеся с /user/,

# кроме страниц, начинающихся с /user/Administrator

 

Еще пример из Яндекс-Вебмастер:

 

# Исходный файл robots.txt:

User-agent:*
 Allow: /
 Allow: /catalog/auto
 Disallow: /catalog


 # Сортированный роботом файл robots.txt:
 User-agent:*
 Allow: /
 Disallow: /catalog
 Allow: /catalog/auto
 # запрещает скачивать страницы, начинающиеся с /catalog,
 # но разрешает скачивать страницы, начинающиеся с /catalog/auto.

 
Обязательная директива Host

(для робота Яндекса)

Директивой Host указываем для робота Яндекса главное зеркало сайта. Как правило, это имя домена сайта.

 Обязательная директива Sitemap

Директивой Sitemap указываем роботам путь к XML карте сайта.

Пустой файл robots.txt

Если в файле robots.txt совсем нет текста, то он интерпретируется роботами, как:

 

User-agent: *

Allow: /

 

Другими словами, пустой robots.txt - это разрешение для всех роботов скачивать все, что они найдут на сайте.


Читать дальше:

По-умолчанию, поисковым роботам разрешен для индексации весь материал сайта. Чтобы закрыть от индексации поисковиками нежелательные страницы сайта, существует файл robots.txt

Что есть файл robots.txt

robots.txt – это текстовый файл. Он находится в корне сайта и содержит директивы для поисковых роботов. Текст файла robots.txt указывает поисковикам, какой материал сайта нужно (можно) индексировать в поиск, а какой – нет.
 robots.txt – это общедоступный файл, который находится по адресу: http://имя_сайта/robots.txt Прочитать его может любой желающий. Для этого, достаточно, в адресной строке браузера, к доменному имени сайта, добавить /robots.txt и нажать «Enter». Например, http://sokol-motor.info/robots.txt

Robots.txt для CMS DLE всех версий

Дистрибутив CMS DLE содержит файл robots.txt, который уже, частично оптимизирован его авторами.
 
Что добавить в «родной» robots.txt

Если в поиске не появляются нежелательные страницы и владельца сайта все устраивает, то не стоит заморачиваться и зря править robots.txt. Можно ограничиться простым добавлением обязательных строк к стандартному тексту robots.txt, который идет в комплекте с CMS DLE 9.6.



Редактируя и подгоняя текст файла robots.txt под потребности своего сайта, не лишне помнить о минимизации действий и о принципе "не навреди". Неправильно сделанная запрещающая запись в robots.txt может резко уменьшить количество индексируемого материала, а то и вовсе закрыть сайт от поисковиков. Добавлять записи в robots.txt нужно только в полной уверенности, что запрещаемые материалы (страницы) не нужны к выдаче поисковой системой. Если таковых на сайте не наблюдается, то, в поставляемый авторами DLE файл robots.txt, больше ничего добавлять не нужно.
 
Что делать с архивами и постраничной навигацией

Многих (в том числе и меня) раздражает появление в поиске страниц с архивами сайта, его постраничной навигацией, или иными сервисными страницами. Тем не менее, все эти страницы уникальны для каждого сайта. А с точки зрения поисковиков, уникальность - это высшая ценность в Интернете.

Пусть выглядят уныло, не информативно и не релевантно, заголовки страниц, типа:

sokol-motor.info/page/3/
sokol-motor.info/production/page/2/
Последние публикации на сайте » sokol-motor.info
Материалы за 2011/10/09/ » sokol-motor.info
Все новости за 2012/02/08/ » sokol-motor.info
и т.п.

Такие страницы уникальны, и в этом их достоинство. Разрешать или запрещать их поисковую индексацию - дело личное. На начальном этапе раскрутки, когда на сайте еще мало уникального контента - можно и разрешить.
 
Права поискового робота на сайте под управлением CMS DLE
Поисковый робот заходит на сайт DLE с правами незарегистрированного посетителя. Информация для зарегистрированных пользователей ему не доступна. Например, если на странице есть текст, закрытый "хайдом" (hide), то робот-поисковик не сможет его прочесть, потому что такой текст движок DLE показывает только на страницах, сгенерированных для зарегистрированных пользователей. В случае с применением шаблонных тегов, типа [not-group=5], [group=1,2,3,4] и тому подобных, результат будет аналогичным. Робот-поисковик не увидит ничего из того, что в шаблоне сайта будет прописано, как  «не показывать незарегистрированным посетителям».
 
Как убедиться в работоспособности robots.txt
Файл robots.txt  можно проверять, оптимизировать и подгонять под свои потребности, используя бесплатные онлайн-сервисы Google и Яндекса. Это специальные сервисы, которые помогут отладить robots.txt для любого сайта. Сервис Яндекса находится по адресу http://webmaster.yandex.ua/robots.xml. Там же, можно найти и нехитрые правила оформления текста файла robots.txt.

Читать дальше:


А как правильно указывать директиву host:
host: http://www.site.ru
host: www.site.ru
host: http://site.ru
или
host: site.ru?

Цитата: Гость
А как правильно указывать директиву host:
host: http://www.site.ru,
host: www.site.ru,
host: http://site.ru
или
host: site.ru ?
За разъяснениями обратимся к Яндекс.Помощь,
раздел "Использование robots.txt",
пункт "Директива Host":

Директива Host указывает на главное зеркало при условии наличия таковых. При этом, директива Host должна быть одинаковой для всех сайтов-зеркал.
 
Вопрос первый - зеркало указывать с приставкой www и без неё?
Распространенное использование директивы host для доменных имен с приставкой www и без неё.

host: www.site.ru
host: site.ru
Как правило, при регистрации доменного имени за пользователем закрепляются два доменных имени - с приставкой www и без неё.
Если оба адреса принадлежат одному и тому-же сайту, то можно указать любой из них, а второй целесообразно приклеить к указанному при помощи 301 редиректа. Впрочем, даже без 301 редиректа робот склеит их сам.

Читаем дальше Яндекс.Помощь
Примеры использования директивы Host:
Сайт site.ru является главным зеркалом сайта www.site.ru, тогда корректное использование директивы Host такое:

User-Agent: *
Disallow:
Host: site.ru
 
Вопрос второй - зеркало указывать с указанием протокола (http) или без него?
Указание протокола в директиве Host
Указание на протокол HTTPS необходимо, если зеркало доступно только по защищенному каналу
Пример:
(Host: https://site.ru)
В других случаях, протокол указывать не нужно, поскольку он и так понятен. Таким образом, будут некорректными выражения вида
host: http://www.site.ru
host: http://.site.ru

Файлик robots.txt для DLE – избитая тема. Честно говоря, я давно хотел удалить эту статью но, жисть показала – что она актуальна. И ныне, как и прежде – на просторах Рунета полно диких юзверей, лобающих жесткий рок на костях здравого смысла. Чего только не пишет народ в этот несчастный файлик, даже не представляя, нафига он вообще нужен. А, по сему – безумству храбрых поём мы славу и мужественно оптимизируем свой файл robots.txt для DLE

За основу, конечно-же – берем стандартный robots.txt для DLE,
который идет в комплекте с движком и выглядит он так:

Авторы DLE – гениальные люди. Этим кодом, авторы движка DLE закрывают от поисковой индексации те директории, которые действительно не нужны поисковым системам, но увы! – которые реально важны для работы движка и, поэтому – должны быть доступны для работы из Сети. Поисковую индексацию остального материала сайта разработчики DLE оставляют на наш "укус", в надежде на то, что мы не тупы и понимаем суть сюжета.

Поэтому, в обязательно порядке, добавляем в самый низ строки:
Host: tehnopost.info
Sitemap: http://tehnopost.info/sitemap.xml

где, вместо tehnopost.info, нужно вписать имя своего домена и, естессно – предварительно сгенерировать карту сайта в самом своем  DLE.

Остальное добавляем, на свое усмотрение:

Disallow: /*do=search
(уже не актуально)
 – закрываем от индексации страницу поиска движка. Страница эта стандартная и не несет никакой смысловой нагрузки. Кстати, в  DLE 10.3 эта запись уже присутствует, так что – это не актуально для более новых версий DLE.

Disallow: /*print
(очень важно)
 – закрываем от индексации страницы для печати.
Это очень важная запись. На молодых сайтах DLE, поисковики, в первую очередь – индексируют страницы для печати, потому что они легче и меньше по весу. Индексацию страниц для печати можно закрыть в настройках самого движка. Тогда эта запись будет не нужна. Однако, такая директива может понадобиться, чтобы удалить из поиска уже проиндексированные страницы. У меня такое было.

Disallow: /rules.html
Disallow: /*do=rules
 - закрываем страницу с типовыми правилами регистрации.

Если написать уникальный текст правил регистрации, то эти записи не нужны.

Disallow: /lastnews/
Disallow: /*do=lastnews
- этими правилами закрываем страницу с последними новостями.

"Последние публикации на сайте » sokol-motor.info"

Спорный вопрос, нужно ли это делать. Эта страница уникальна и постоянно обновляется. Поисковики хорошо ее индексируют. Однако, не могу понять, что пользователю Гугла или Яндекса может дать страница со странным названием "Последние публикации на сайте » sokol-motor.info"? И по какому поисковому запросу такая страница может попасть в топ? Закрыл.

Disallow: /*action=mobile*
 - закрываем все страницы с мобильной версией.

В CMS DLE есть функция с отображением мобильной версии сайта. С некоторых пор Яндекс начал предпочитать ее против обычной, поскольку у мобильных страниц меньше вес. Вес то меньше, только внешний вид ужасающий. Закрыл.

Disallow: /*page/*
Disallow: /201*/
- этими правилами закрываем постраничную навигацию и страницы с архивами.

Иначе в поиск будут попадать страницы, типа:
sokol-motor.info/page/3/
sokol-motor.info/production/page/2/
Материалы за 2011/10/09/ » sokol-motor.info
Все новости за 2012/02/08/ » sokol-motor.info

С этими страницами тоже, спорный вопрос. Эти страницы уникальны и поисковики их любят. Вот только тайтлы они имеют не информативные. Закрыл.

Теперь подведем итог и соберем все вышесказанное вместе:
- получим файл robots.txt для сайта sokol-motor.info.

Посмотреть файл можно по адресу http://sokol-motor.info/robots.txt

User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /lastnews/
Disallow: /statistics.html
Disallow: /rules.html
Disallow: /*print
Disallow: /*page/*
Disallow: /201*/
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=lastnews
Disallow: /*do=rules
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*do=search
Disallow: /*action=mobile*
Host: sokol-motor.info
Sitemap: http://sokol-motor.info/sitemap.xml

Синтаксис robots.txt
Правило должно всегда следовать за директивой.
Не допускается пустая строка после директив User-agent, Disallow, Allow.
Правило может начинаться только с символа '/' или '*' (косой слеш или звездочка).
Спецсимвол * (звездочка) означает любую (в том числе пустую)
последовательность любых символов.

В заключение:
В тексте были использованы самые типовые и распространенные правила, которые встречаются в файле robots.txt для сайтов под управлением CMS DLE. Таким образом, свежеиспеченный файлик можно с уверенностью назвать «типовым». Он подойдет большинству сайтов. Например, sokol-motor.info использует этот robots.txt более года. Все нужные страницы, статьи, картинки и категории сайта проиндексированы Google и Яндексом.

Полученный текст robots.txt можно и нужно править по своему усмотрению и подгонять его под свои потребности. Готовый файл robots.txt  всегда можно проверить и отредактировать на онлайн-сервисах Google и Яндекса. Сервис Яндекса находится по адресу http://webmaster.yandex.ua/robots.xml. Пользоваться им настолько просто, что я даже не рискую здесь выкладывать к нему инструкцию, дабы не стать обвиняемым в идиотизьме.