» » robots.txt для всех времён и народов

robots.txt для всех времён и народов

В корне любого сайта лежит малоприметный файл,
предназначенный для роботов поисковых систем.
Это очень важный файл,
который может отравить всю жизнь своему владельцу,
или наоборот – сделать её сладкой и приятной.

Файл robots.txt

  1. Файл robots.txt
  2. Зачем нужен файл robots.txt
  3. Как создать файл robots.txt

Файл robots.txt

Прежде чем «шоркаться» по этой теме предлагаю «ущучить»,

как это выглядит и как это работает:

– Вопреки распространённому мнению, поисковый робот не может просто так зайти в корневую папку сайта на хостинге. Он не может зайти туда по одной простой причине – этот «сер» не знает пути (урл-а) для входа. Вот это утверждение, как аксиому, положим в фундамент для дальнейших рассуждений.

 

 

По-умолчанию, поисковым роботам разрешен для индексации весь материал сайта. Чтобы закрыть от индексации поисковиками нежелательные страницы сайта, существует файл robots.txt

Файл robots.txt лежит в корне сайта, поэтому путь к файлику минимален:
Протокол//Имя_домена/robots.txt
Например, http://tehnopost.info/robots.txt

Зачем нужен файл robots.txt

Файл robots.txt служит для указания параметров индексации материалов сайта поисковыми системами. В файле robots.txt вебмастер указывает параметры индексирования для материалов своего сайта. Как правило, это запреты на индексирование служебных, личных или иных страниц, появление которых в поисковой выдаче не желательно для владельца ресурса. Параметры индексирования для страниц сайта можно указать, как для всех поисковых роботов сразу, так и для каждого робота каждой поисковой системы в отдельности. Нужно только знать имена этих роботов.
Хочется особо отметить, что запрет роботу на индексирование материала не является запретом на его скачивание из сайта. Например, те-же Яндекс-боты выкачают из сайта все, что только найдут, а уже потом будут разбираться – индексировать материал в поиск или нет.


Наблюдение за работой поисковых систем наталкивает на мысль, что они прекрасно различают служебные (технические) страницы, .

Как создать файл robots.txt
Воспользуйтесь любым текстовым редактором (например, Блокнотом или WordPad), создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог вашего сайта.
Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt.

 

Текст файла robots.txt имеет блочную структуру. Он содержит один или несколько блоков, каждый из которых начинается директивой обращения, за которой следуют директивы запрещения и разрешения с набором правил.


Обязательная директива User-agent

 Текст robots.txt содержит минимум один блок, который начинается с директивы обращения к поисковым роботам:


User-agent: * - это, для всех поисковых роботов.

 

Если, для одного из роботов нужно сделать персональные указания, то тогда такого робота нужно выделять в отдельный блок, где и указывать правила, касающиеся лично его. Такой блок должен начинаться с директивы обращения к конкретному роботу или его поисковой системе, например:


 User-agent: googlebot - это, только для роботов Google.
 User-agent: Yandex - это, только для роботов Яндекса.

User-agent: YandexBot - это, только для основного индексирующего робота Яндекса.
 User-agent: Slurp - это, только для роботов Yahoo.
 User-agent: StackRambler - это, только для роботов Рамблера.
 и т.д.

 

Прим: Имена своих роботов каждая поисковая система не держит в секрете и сразу выдает по поисковому запросу, типа: роботы (имя системы). Например, "роботы Google", или "роботы Яндекса".


Зачем роботам нужны персональные правила

Индивидуальные директивы и правила нужно указывать для роботов, которые используют в своей работе алгоритмы индексации, отличные от общепринятых.

 Индивидуальные директивы и правила нужно указывать в том случае, когда на сайте есть материал, который нежелателен для одной из поисковых систем. Например, Яндекс не приветствует махровый варез и извращенное жесткое XXX. Поисковая система Яндекс может легко забанить сайт за такой материал.

Тогда, для роботов Яндекса нужно делать отдельный блок и в нем указывать нужные правила. Например, закрыть от индексации Яндексом категории с варезом и XXX, но, оставить доступными остальные категории - freesoft, музыку, картинки и эротику. Тогда Яндекс будет просматривать и индексировать сайт, не заходя на "стремные" страницы.

Нынешний алгоритм работы Яндекса соответствует международным стандартам и по этому критерию нет смысла выделять Яндекс в отдельный блок. Вопреки распространенному мнению, современные поисковые роботы Яндекса прекрасно знают и понимают общую директиву User-agent: *. Поэтому, если проект – не супер-хитрый и навороченный портал, то, тот же Яндекс рекомендует использовать общую для всех роботов директиву User-agent: * и делать один блок для всех поисковиков.


 

Примечательно: Если поисковый робот не находит в файле robots.txt блока с общей директивой User-agent: *, или блока с директивой для своей поисковой системы, или блока со своей персональной директивой, то считается, что такому роботу разрешены на сайте любые действия.

 

Например, YandexBot - это основной индексирующий робот Яндекса.

Если в файле robots.txt не будет указана одна из следующих директив:

 

User-agent: * - для всех поисковых роботов,

или

User-agent: Yandex - только для роботов Яндекса,

или

User-agent: YandexBot - только для основного индексирующего робота Яндекса,

 

то, YandexBot скачает все, что найдет.

 

При этом, приоритет блоков сдвигается в сторону персонализации робота и его поисковой системы.

 

Например, YandexBot будет руководствоваться блоком User-agent: YandexBot,

если, такой блок есть в в файле robots.txt.

Если, такого блока нет, то YandexBot будет руководствоваться блоком User-agent: Yandex

Если, такого блока нет, то YandexBot будет руководствоваться блоком User-agent: *

Если, и такого блока нет, то YandexBot будет считать, что ему разрешено все.



Прим: Блок может начинаться только с одной директивы обращения. Недопустимо наличие в блоке сразу двух директив обращения, типа:
 User-agent: googlebot
 User-agent: Yandex.

 
Директивы запрещения (Disallow) и разрешения (Allow)

После того, как мы вежливо обратились к роботу, ему нужно указать, что именно нужно (не нужно) индексировать в поиск. Для этого существуют директивы Disallow и Allow


 Директива Disallow - запрещает к индексации что-либо.
 Директива Allow - разрешает к индексации что-либо.

 По-умолчанию, всем поисковым роботам разрешен (Allow) для индексации весь материал сайта. Главное назначение файла robots.txt – запретить (Disallow) индексирование нежелательного материала. Поэтому, разрешающая директива (Allow) применяется значительно реже. Ведь роботу и так разрешены все действия.

 
Совместное использование директив Disallow и Allow

Разрешающая директива (Allow) применима в случае, если необходимо частично проиндексировать материал из запрещенной директории.

 

Например, в CMS DLE есть директория /user/. В ней находятся страницы с профилями пользователей. Мы хотим запретить к индексации профили всех пользователей, кроме одного - Administrator.html (администратор сайта)

 Тогда напишем так:

Allow: /user/Administrator

Disallow: /user/

где, Administrator - действующий ник администратора

 

Порядок написания директив в этом случае не имеет принципиального значения.

 

Находим у Яндекса:

 

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке. Таким образом порядок следования директив в файле robots.txt не влияет на использование их роботом.

 

Соответственно, наша запись будет сортирована роботом так:

 

Disallow: /user/

Allow: /user/Administrator

# запрещает скачивать все страницы, начинающиеся с /user/,

# кроме страниц, начинающихся с /user/Administrator

 

Еще пример из Яндекс-Вебмастер:

 

# Исходный файл robots.txt:

User-agent:*
 Allow: /
 Allow: /catalog/auto
 Disallow: /catalog


 # Сортированный роботом файл robots.txt:
 User-agent:*
 Allow: /
 Disallow: /catalog
 Allow: /catalog/auto
 # запрещает скачивать страницы, начинающиеся с /catalog,
 # но разрешает скачивать страницы, начинающиеся с /catalog/auto.

 
Обязательная директива Host

(для робота Яндекса)

Директивой Host указываем для робота Яндекса главное зеркало сайта. Как правило, это имя домена сайта.

 Обязательная директива Sitemap

Директивой Sitemap указываем роботам путь к XML карте сайта.

Пустой файл robots.txt

Если в файле robots.txt совсем нет текста, то он интерпретируется роботами, как:

 

User-agent: *

Allow: /

 

Другими словами, пустой robots.txt - это разрешение для всех роботов скачивать все, что они найдут на сайте.


Читать дальше:

По-умолчанию, поисковым роботам разрешен для индексации весь материал сайта. Чтобы закрыть от индексации поисковиками нежелательные страницы сайта, существует файл robots.txt

Что есть файл robots.txt

robots.txt – это текстовый файл. Он находится в корне сайта и содержит директивы для поисковых роботов. Текст файла robots.txt указывает поисковикам, какой материал сайта нужно (можно) индексировать в поиск, а какой – нет.
 robots.txt – это общедоступный файл, который находится по адресу: http://имя_сайта/robots.txt Прочитать его может любой желающий. Для этого, достаточно, в адресной строке браузера, к доменному имени сайта, добавить /robots.txt и нажать «Enter». Например, http://sokol-motor.info/robots.txt

Robots.txt для CMS DLE всех версий

Дистрибутив CMS DLE содержит файл robots.txt, который уже, частично оптимизирован его авторами.
 
Что добавить в «родной» robots.txt

Если в поиске не появляются нежелательные страницы и владельца сайта все устраивает, то не стоит заморачиваться и зря править robots.txt. Можно ограничиться простым добавлением обязательных строк к стандартному тексту robots.txt, который идет в комплекте с CMS DLE 9.6.

Host: sokol-motor.info
Sitemap: http://sokol-motor.info/sitemap.xml
 
где, sokol-motor.info - изменить на имя своего домена. 
 
Что добавить в robots.txt, кроме обязательных строк

Редактируя и подгоняя текст файла robots.txt под потребности своего сайта, не лишне помнить о минимизации действий и о принципе "не навреди". Неправильно сделанная запрещающая запись в robots.txt может резко уменьшить количество индексируемого материала, а то и вовсе закрыть сайт от поисковиков. Добавлять записи в robots.txt нужно только в полной уверенности, что запрещаемые материалы (страницы) не нужны к выдаче поисковой системой. Если таковых на сайте не наблюдается, то, в поставляемый авторами DLE файл robots.txt, больше ничего добавлять не нужно.
 
Что делать с архивами и постраничной навигацией

Многих (в том числе и меня) раздражает появление в поиске страниц с архивами сайта, его постраничной навигацией, или иными сервисными страницами. Тем не менее, все эти страницы уникальны для каждого сайта. А с точки зрения поисковиков, уникальность - это высшая ценность в Интернете.

Пусть выглядят уныло, не информативно и не релевантно, заголовки страниц, типа:

sokol-motor.info/page/3/
sokol-motor.info/production/page/2/
Последние публикации на сайте » sokol-motor.info
Материалы за 2011/10/09/ » sokol-motor.info
Все новости за 2012/02/08/ » sokol-motor.info
и т.п.

Такие страницы уникальны, и в этом их достоинство. Разрешать или запрещать их поисковую индексацию - дело личное. На начальном этапе раскрутки, когда на сайте еще мало уникального контента - можно и разрешить.
 
Права поискового робота на сайте под управлением CMS DLE
Поисковый робот заходит на сайт DLE с правами незарегистрированного посетителя. Информация для зарегистрированных пользователей ему не доступна. Например, если на странице есть текст, закрытый "хайдом" (hide), то робот-поисковик не сможет его прочесть, потому что такой текст движок DLE показывает только на страницах, сгенерированных для зарегистрированных пользователей. В случае с применением шаблонных тегов, типа [not-group=5], [group=1,2,3,4] и тому подобных, результат будет аналогичным. Робот-поисковик не увидит ничего из того, что в шаблоне сайта будет прописано, как  «не показывать незарегистрированным посетителям».
 
Как убедиться в работоспособности robots.txt
Файл robots.txt  можно проверять, оптимизировать и подгонять под свои потребности, используя бесплатные онлайн-сервисы Google и Яндекса. Это специальные сервисы, которые помогут отладить robots.txt для любого сайта. Сервис Яндекса находится по адресу http://webmaster.yandex.ua/robots.xml. Там же, можно найти и нехитрые правила оформления текста файла robots.txt.

Читать дальше:


А как правильно указывать директиву host:
host: http://www.site.ru
host: www.site.ru
host: http://site.ru
или
host: site.ru?

Цитата: Гость
А как правильно указывать директиву host:
host: http://www.site.ru,
host: www.site.ru,
host: http://site.ru
или
host: site.ru ?
За разъяснениями обратимся к Яндекс.Помощь,
раздел "Использование robots.txt",
пункт "Директива Host":

Директива Host указывает на главное зеркало при условии наличия таковых. При этом, директива Host должна быть одинаковой для всех сайтов-зеркал.
 
Вопрос первый - зеркало указывать с приставкой www и без неё?
Распространенное использование директивы host для доменных имен с приставкой www и без неё.

host: www.site.ru
host: site.ru
Как правило, при регистрации доменного имени за пользователем закрепляются два доменных имени - с приставкой www и без неё.
Если оба адреса принадлежат одному и тому-же сайту, то можно указать любой из них, а второй целесообразно приклеить к указанному при помощи 301 редиректа. Впрочем, даже без 301 редиректа робот склеит их сам.

Читаем дальше Яндекс.Помощь
Примеры использования директивы Host:
Сайт site.ru является главным зеркалом сайта www.site.ru, тогда корректное использование директивы Host такое:

User-Agent: *
Disallow:
Host: site.ru
 
Вопрос второй - зеркало указывать с указанием протокола (http) или без него?
Указание протокола в директиве Host
Указание на протокол HTTPS необходимо, если зеркало доступно только по защищенному каналу
Пример:
(Host: https://site.ru)
В других случаях, протокол указывать не нужно, поскольку он и так понятен. Таким образом, будут некорректными выражения вида
host: http://www.site.ru
host: http://.site.ru

Файлик robots.txt для DLE – избитая тема. Честно говоря, я давно хотел удалить эту статью но, жисть показала – что она актуальна. И ныне, как и прежде – на просторах Рунета полно диких юзверей, лобающих жесткий рок на костях здравого смысла. Чего только не пишет народ в этот несчастный файлик, даже не представляя, нафига он вообще нужен. А, по сему – безумству храбрых поём мы славу и мужественно оптимизируем свой файл robots.txt для DLE

За основу, конечно-же – берем стандартный robots.txt для DLE,
который идет в комплекте с движком и выглядит он так:

Авторы DLE – гениальные люди. Этим кодом, авторы движка DLE закрывают от поисковой индексации те директории, которые действительно не нужны поисковым системам, но увы! – которые реально важны для работы движка и, поэтому – должны быть доступны для работы из Сети. Поисковую индексацию остального материала сайта разработчики DLE оставляют на наш "укус", в надежде на то, что мы не тупы и понимаем суть сюжета.

Поэтому, в обязательно порядке, добавляем в самый низ строки:
Host: tehnopost.info
Sitemap: http://tehnopost.info/sitemap.xml

где, вместо tehnopost.info, нужно вписать имя своего домена и, естессно – предварительно сгенерировать карту сайта в самом своем  DLE.

Остальное добавляем, на свое усмотрение:

Disallow: /*do=search
(уже не актуально)
 – закрываем от индексации страницу поиска движка. Страница эта стандартная и не несет никакой смысловой нагрузки. Кстати, в  DLE 10.3 эта запись уже присутствует, так что – это не актуально для более новых версий DLE.

Disallow: /*print
(очень важно)
 – закрываем от индексации страницы для печати.
Это очень важная запись. На молодых сайтах DLE, поисковики, в первую очередь – индексируют страницы для печати, потому что они легче и меньше по весу. Индексацию страниц для печати можно закрыть в настройках самого движка. Тогда эта запись будет не нужна. Однако, такая директива может понадобиться, чтобы удалить из поиска уже проиндексированные страницы. У меня такое было.

Disallow: /rules.html
Disallow: /*do=rules
 - закрываем страницу с типовыми правилами регистрации.

Если написать уникальный текст правил регистрации, то эти записи не нужны.

Disallow: /lastnews/
Disallow: /*do=lastnews
- этими правилами закрываем страницу с последними новостями.

"Последние публикации на сайте » sokol-motor.info"

Спорный вопрос, нужно ли это делать. Эта страница уникальна и постоянно обновляется. Поисковики хорошо ее индексируют. Однако, не могу понять, что пользователю Гугла или Яндекса может дать страница со странным названием "Последние публикации на сайте » sokol-motor.info"? И по какому поисковому запросу такая страница может попасть в топ? Закрыл.

Disallow: /*action=mobile*
 - закрываем все страницы с мобильной версией.

В CMS DLE есть функция с отображением мобильной версии сайта. С некоторых пор Яндекс начал предпочитать ее против обычной, поскольку у мобильных страниц меньше вес. Вес то меньше, только внешний вид ужасающий. Закрыл.

Disallow: /*page/*
Disallow: /201*/
- этими правилами закрываем постраничную навигацию и страницы с архивами.

Иначе в поиск будут попадать страницы, типа:
sokol-motor.info/page/3/
sokol-motor.info/production/page/2/
Материалы за 2011/10/09/ » sokol-motor.info
Все новости за 2012/02/08/ » sokol-motor.info

С этими страницами тоже, спорный вопрос. Эти страницы уникальны и поисковики их любят. Вот только тайтлы они имеют не информативные. Закрыл.

Теперь подведем итог и соберем все вышесказанное вместе:
- получим файл robots.txt для сайта sokol-motor.info.

Посмотреть файл можно по адресу http://sokol-motor.info/robots.txt

User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /lastnews/
Disallow: /statistics.html
Disallow: /rules.html
Disallow: /*print
Disallow: /*page/*
Disallow: /201*/
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=lastnews
Disallow: /*do=rules
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*do=search
Disallow: /*action=mobile*
Host: sokol-motor.info
Sitemap: http://sokol-motor.info/sitemap.xml

Синтаксис robots.txt
Правило должно всегда следовать за директивой.
Не допускается пустая строка после директив User-agent, Disallow, Allow.
Правило может начинаться только с символа '/' или '*' (косой слеш или звездочка).
Спецсимвол * (звездочка) означает любую (в том числе пустую)
последовательность любых символов.

В заключение:
В тексте были использованы самые типовые и распространенные правила, которые встречаются в файле robots.txt для сайтов под управлением CMS DLE. Таким образом, свежеиспеченный файлик можно с уверенностью назвать «типовым». Он подойдет большинству сайтов. Например, sokol-motor.info использует этот robots.txt более года. Все нужные страницы, статьи, картинки и категории сайта проиндексированы Google и Яндексом.

Полученный текст robots.txt можно и нужно править по своему усмотрению и подгонять его под свои потребности. Готовый файл robots.txt  всегда можно проверить и отредактировать на онлайн-сервисах Google и Яндекса. Сервис Яндекса находится по адресу http://webmaster.yandex.ua/robots.xml. Пользоваться им настолько просто, что я даже не рискую здесь выкладывать к нему инструкцию, дабы не стать обвиняемым в идиотизьме.

Да, чуть не забыл
Разработчики движка DLE, как всегда - на высоте.
В CMS DLE 9.6, в админпанели, на вкладке для полного редактирования новости (стат-страницы) есть чекбокс:
- «Запретить индексацию страницы для поисковиков»
Теперь не нужно изгаляться над файлом robots.txt из-за какой-либо одной статьи. Можно поставить «галочку» при добавлении (редактировании) новости, и всех делов. Таким образом, обычное администрирование сайта может привести к гибкому подходу по исключению из поискового индекса ненужного материала, без редактирования файла robots.txt.

Читать дальше:
Файл robots.txt | DLE всех версий
Директивы в robots.txt

Ключевые слова статьи: HTML сайт интернет компьютер система

Поделиться ссылкой на статью в социальной сети, добавить в избранное или распечатать:

Добавление комментария

Введите код: *
Кликните на изображение чтобы обновить код, если он неразборчив