Поисковой робот это кратко

Обновлено: 05.07.2024

Поисковые роботы или "веб-пауки" выполняют для поисковой системы информационно-разведывательную и аналитическую работу - эти программы осуществляют сбор новой информации в сети интернет. У каждой поисковой системы существует много различных поисковых роботов.

Учитывая, что поисковый робот должен быть минимизирован с точки зрения потребления ресурсов, для анализа содержимого одного веб-документа могут применяться несколько различных "веб-пауков": текстовые, графические, видео-, ссылочные и другие программы.

Простейшее устройство поискового робота предусматривает транспортную и аналитическую часть.

Сведения о том, как анализируется собранная пауками информация и какие результаты извлекаются из обработанной информации, являются частью интеллектуальной системы поискового сервиса и, как правило, защищаются от разглашения.

Различные поисковые системы используют поисковых роботов, которые следуют инструкциям, указанным в:

файле robots.txt;
мета-теге "robots" части "head" html-документа;
микроразметке тела html-документа.

Правильное применение инструкций по управлению поисковыми роботами на исследуемом ресурсе позволяет оптимизировать индексирование сайта в поисковой системе и помогает избежать сбоев в работе сервера при превышении лимита трафика.

Собираемая поисковыми роботами информация, помогает оперативному обновлению в поисковой системе сведений о ресурсе, способствует более точному определению характера самого ресурса, его тематической выдачи, а также корректировке других особенностей релевантного представления пользователю данных о ресурсе.

Подробнее узнать об особенностях индексирования графических файлов поисковыми системами можно на канале "ИНФОРМАЦИОННОЕ ПРАВО в обществе" в статье "Поиск по картинкам - пират?" и "Процитировал фотку - могут взыскать".

Поисковым роботом называется специальная программа какой-либо поисковой системы, которая предназначена для занесения в базу (индексирования) найденных в Интернете сайтов и их страниц. Также используются названия: краулер, паук, бот, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип работы

Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).

Виды поисковых роботов

Пауки Яндекса:

Yandex/1.01.001 I — основной бот, занимающийся индексацией,
Yandex/1.01.001 (P) — индексирует картинки,
Yandex/1.01.001 (H) — находит зеркала сайтов,
Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
Yandex/1.02.000 (F) — индексирует фавиконы сайтов.

Пауки Google:

Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются поисковыми алгоритмами.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью указать на его существование.

Как работают роботы поисковой машины?

Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Прийдя на ваш сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.

Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать вам агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.

Как они читают страницы вашего web-сайта?

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель существляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если вы уже попали в базу данных, роботы будут навещать вас периодически для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.

Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если ваш сайт упал или на сайт идет большое количество посетителей, робот может быть безсилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован, что зависит от частоты его посещения роботом. В большинстве случаев, роботы, которые не смогли достичь ваших страниц, попытаются позже, в надежде на то, что ваш сайт в ближайшее время будет доступен.

Многие поисковые роботы не могут быть идентифицированы, когда вы просматриваете логи. Они могут посещать вас, но логи утверждают, что кто-то использует Microsoft броузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).

В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.

Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов как содержание своего web-сайта.

Собственно, роботы не используются поисковиками лишь для вышеизложенного. Существуют роботы, которые проверяют баз данных на наличие нового содержания, навещают старое содержимое базы, проверяют, не изменились ли ссылки, загружают целые сайты для просмотра и так далее.

По этой причине, чтение лог-файлов и слежение за выдачей поисковой системы помогает вам наблюдать за индексацией ваших проектов.

Читайте также: