Что такое поисковый робот?

Поисковый робот представляет собой особую программу одного из поисковиков, смысл работы которой заключается в индексировании интернет-ресурсов, обнаруженных в пространстве сети. Индексирование в данном случае означает занесение в базу данных своей поисковой системы.

Этот же термин может обозначаться и другими словами:

  • Бот;
  • Паук;
  • Краулер;
  • Automaticindexer;
  • Webcrawler;
  • Bot;
  • Ant;
  • Webspider;
  • Webscutter;
  • Webrobots.

Принцип действия

Поисковые боты – это программные продукты, функционирующие по браузерному принципу. Такие роботы непрерывно сканируют пространство сети. Совершая повторные визиты на уже проиндексированные сайты, они находят ссылки на неизвестные им ранее ресурсы и посещают их. После проведения определенной процедуры, роботы добавляют вновь обнаруженные сайты в индекс своего поисковика.

Помимо этого, поисковые роботы индексируют обнаруженные на веб-ресурсах обновления. Поэтому периодичность обновлений сайта очень важна, ведь робот будет посещать ресурс с той же частотой. Например, если сайт обновляется всего лишь раз в месяц, то и роботы не увидят смысла заходить туда чаще. И напротив, новостные сайты индексируются с молниеносной быстротой, так как новая информация на них появляется несколько раз в день.

Если на какой-либо ресурс нет ссылок с других сайтов, т. е. он не имеет внешней ссылочной массы, то владельцу этого сайта нужно выполнить определенные действия для привлечения поискового робота, чтобы в итоге этот ресурс был проиндексирован. Для этого заполняются особые формы заявок, которые есть у разных поисковых систем. Наибольшей популярностью в данном случае пользуются Центр вебмастеров Гугл и панель вебмастера Яндекс.

Типы поисковых роботов

Когда отстраненно говорят о поисковых роботах, то обычно имеют ввиду всю их совокупность. На самом деле такие роботы подразделяются на разные типы, обладающие своей спецификой. Как правило, функционируют они одновременно. Это позволяет поисковой системе, создавшей данных роботов, сделать процесс сканирования сети более эффективным и усовершенствовать базу проиндексированных сайтов.

В частности, популярный поисковик Yandex пользуется такими роботами:

  • Yandex/1.01.001 (compatible; Win16; I) — главный поисковый бот этой системы. Индексация — его основное предназначение.
  • Yandex/1.01.001 (compatible; Win16; P) — этот робот ответственен за индексацию изображений.
  • Yandex/1.01.001 (compatible; Win16; H) — направлен на выявление зеркал сайтов.
  • Yandex/1.03.003 (compatible; Win16; D) — занимается индексацией новых сайтов, данные которых были внесены в панель вебмастера. Можно сказать, что это робот-первопроходец. Только после его оценки сайт посетит основной поисковый робот Яндекса.
  • Yandex/1.03.000 (compatible; Win16; M) — бывает на сайтах, которые открываются по запросу  «Найденные слова».
  • YaDirectBot/1.0 (compatible; Win16; I) — ищет ресурсы в рекламной сети своего поисковика.
  • Yandex/1.02.000 (compatible; Win16; F) — добавляет в индекс фавиконы сайтов.

Поисковые роботы Гугла имеют аналогичный функционал, зачастую понятный по наименованию:

  • Googlebot — главный робот Гугла.
  • Googlebot News — занимается индексацией новостей.
  • Googlebot Images — предназначен для индексации картинок.
  • Googlebot Video — направлен на индексацию видеофайлов.
  • Google Mobile — индексирует ресурсы, предназначенные для смартфонов и планшетов.
  • Google AdSense и Google Mobile AdSense — индексирует участников рекламной сети Гугла.
  • Google AdsBot — определяет качество целевой страницы.

Прочие поисковики тоже имеют своих роботов. Вот некоторые из них:

  • «StackRambler» — главный робот поисковика Рамблер.
  • «msnbot» — основной бот MSN.
  • «Yahoo! Slurp» — основной робот поисковой системы Yahoo!

Как управлять индексацией

С одной стороны, интернет ресурс должен пройти индексацию, чтобы его появление в сети не осталось незамеченным. А с другой — далеко не всю информацию бывает целесообразно открывать для посетителей и роботов в том числе. В частности, онлайн-магазины закрывают доступ к страницам, содержащим информацию о покупателях. Кроме того, принято закрывать от индексации административные данные.

Чтобы ограничить доступ поисковым роботам к всему сайту или определенным его частям, используют файл robots.txt. По общепринятым правилам в текстовом формате пишутся директивы, содержащие предписания для поисковых ботов. При заходе на сайт, роботы в первую очередь ищут этот файл и выполняют индексацию в соответствии с прописанными в нем указаниями.

Директивы, используемые в robots.txt:

  • User-agent — призыв к определенному роботу определенного поисковика.
  • Disallow — закрывает от индексации весь ресурс или отдельные его части.
  • Host — сообщает, под URL какого зеркала должен индексироваться сайт.

Поделитесь с друзьями

Комментарий (1)

  • Владислав Reply

    Хотелось бы побольше узнать о принципах действия веб-краулеров, а также о том, по каким критериям(параметрам) они оценивают сайт. Можно ли воздействовать на эти параметры, чтобы улучшить своё ранжирование? Спасибо.

    09.01.2016 at 10:29

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *