Интернетчик » noopener noreferrer | Безопасность и анонимность

noopener noreferrer | Безопасность и анонимность

Самый простой и популярный способ закрыть веб-страницу от поисковой индексации – это указать для неё соответствующую директиву в файле robots.txt. Для этого, собственно, файл robots.txt и существует – устанавливать запрет от поисковой индексации на директории, каталоги, файлы и страницы сайта. Однако, закрывать отдельные! веб-страницы через метатег robots – гораздо надёжнее...







Считается, что для закрытия веб-страницы от поисковой индексации,
метатег robots гораздо надёжнее файла robots.txt. Это верно...

Самый простой и популярный способ закрыть веб-страницу от поисковой индексации – это указать для неё соответствующую директиву в файле robots.txt. Для этого, собственно, файл robots.txt и существует – устанавливать запрет от поисковой индексации на директории, каталоги, файлы и страницы сайта. Однако, закрывать отдельные! веб-страницы через метатег robots – гораздо надёжнее.
И, вот почему:

Метатег robots гораздо надёжнее файла robots.txt

Алгоритмы обработки поисковыми роботами метатега robots и файла robots.txt – это, совершенно различные по своей сложности, серверные операции. Работу этих алгоритмов можно сравнить с действием двух персонажей известного анекдота, которые бьют, каждый по-своему: один – «по паспорту», а второй – «по морде». Пусть этот пример весьма груб и примитивен. Но он, как нельзя лучше – отображает поведение поискового робота при посещении им веб-страницы:

Казалось-бы, какая разница.
Тем более, что сам Яндекс рассказывает следующее:
При сканировании сайта, на основании его файла robots.txt – составляется специальный список (пул), в котором ясно и чётко указываются и излагаются директории и страницы, разрешённые к поисковому индексированию сайта.

Ну, чего ещё проще, для робота? Составил списочек,
прошёлся списочком по сайту, и всех делов-то – можно уже и «баиньки»...

Простота развеется, как майский дым, если мы вспомним, что роботов в Сети много, что все они разные и что самое главное – все роботы ходят по ссылкам. И теперь, представим себе стандартную ситуацию, которая случается в интернете миллионы раз на дню – поисковый робот пришёл на страницу по ссылке из другого сайта. Вот он, трудяга Сети – уже стоит у ворот (у заголовка) нашей странички. Ну, и где теперь этот файл robots.txt?

У робота, пришедшего на сайт по внешней ссылке, выбор не очень большой. Робот может, либо лично «протопать» к файлу robots.txt и свериться с ним, либо просто скачать страницу себе в кэш и уже потом разбираться – индексировать её или нет.

Как поступит наш герой, мы не знает. Это есть коммерческая тайна каждой поисковой системы. Несомненно одно: если в заголовке страницы будет указан запрещающий метатег robots – поисковик выполнит его немедля и уйдёт со страницы без раздумий. А если, в заголовке веб-страницы, метатега robots нет – начинается длительная канитель с выяснением разрешений или запретов на поисковое индексирование.

Вот теперь, совершенно ясно, что прямой заход на страницу, к метатегу robots –
всегда короче и надёжнее, нежели долгий путь через закоулки файла robots.txt

После такого смелого заявления возникает резонный вопрос:
– если метатег robots так прост и надёжен, то почему на всех сайтах,
в обязательном порядке, присутствует файл robots.txt?
И, заметьте – весьма не пустой файл robots.txt...

robots.txt жив

Невероятная живучесть технологии файла robots.txt объясняется бо́льшей универсальностью, гибкостью и простотой его настроек, нежели по сравнению с метатегом robots.

Метатег robots – это поштучная работа
Метатег robots – это индивидуальный подход к индексированию одной единственной веб-странички. Тогда как директивы файла robots.txt позволяют закрывать веб-документы «пачками», группируя их по какому-нибудь «территориальному» признаку. Так, в robots.txt очень легко закрыть от индексирования целую категорию или директорию сайта. Сделать это можно одним движением, глядя только на её адрес:

http://tehnopost.info/site/11-dvizhok-dlya-sayta.html
Disallow: /site/

В приведённом примере, выдержка из веб-адреса /site/, помещённая в файл robots.txt в виде директивы Disallow: /site/ закроет от поисковой индексации сразу всю категорию /site/ и сразу все её публикации. Просто? Более чем просто. С метатегом robots, так просто – не получится никогда.
Метатег robots не так-то легко прописать в заголовок веб-страницы
Все метатеги в заголовке веб-страницы «живут» в контейнере head. За формирование его содержимого отвечают системные файлы движка. И, никак не получится обойтись без ковыряния в этих самых, системных файлах движка, чтобы прописать в контейнере head свой метатег robots. Но, чтобы разобраться в таких файловых дебрях – нужны особые познания. А, иногда и они не помогают.
Например, страница http://tehnopost.info/index.php?do=lastcomments была динамически сформирована из запроса к php-файлу сайтодвижка. Неподготовленный юзер свихнётся в поисках способа записать в заголовок такой страницы метатег robots. А, с файлом robots.txt – опять-таки всё просто. Директива Disallow: /*do=lastcomments закроет эту страницу, раз и навсегда.
Правда, в последнее время, разработчики CMS (движков для сайтов) поняли важность и необходимость метатега robots. В частности, в CMS DLE уже есть пользовательский чекбокс (галочка) «Запретить индексирование страницы», установка которой, как раз и прописывает метатег robots в её заголовок.

Метатег robots или файл robots.txt?

Не буду более распинаться, ни в пользу метатега robots, ни в пользу файла robots.txt. Оба эти инструмента достаточно совершенны и служат одной цели – закрытию контента сайта от поисковой индексации. И, у обеих инструментов есть свои преимущества. У первого – техническая краткость и надёжность, у второго – пользовательская простота, универсальность и широта применения.

Но, есть ещё одно существенное отличие, которое разделяет эти два способа:
Заголовок веб-страницы и метатеги robots генерируются движком сайта во время обработки его php-файлов. Происходит это, так сказать – на машинном уровне. Поэтому, метатег robots облюбован программистами всех мастей, пишущих php-скрипты для управляющей CMS. Таким образом, метатег robots больше относится к программному обеспечению сайта. Тогда как, заполнение содержимого файла robots.txt производится владельцем сайта, исключительно в ручном порядке и относится, таким образом – к пользовательским настройкам сайта.

Метатег robots или файл robots.txt? на tehnopost.info
nofollow и noindex | Закрыть ссылку от индексации
Метатег robots | Закрыть страницу от индексации
Запрет на индексацию ссылок и страниц
Файл robots.txt