Из каких частей состоит поисковая система кратко

Обновлено: 07.07.2024

Во-первых, поисковые системы (Яндекс, Google, Email) призваны работать прежде всего в мире сайтов. Мы показывали уже скриншоты, и то что поисковику теперь нужно искать внутри пабликов, то есть внутри социальных сетей. Ему нужно находить видеоролики в YouTube или Rutube. Если вы сейчас попробуете с помощью поиска Яндекс. Видео найти какой-то видеоролик, то вы узнаете, что поиск Яндекс. Видео тесно связан с поиском по видео внутри Вконтакте. Он ищет ролики там и т.д.

Особенность и значимость сайта внутри поисковика

Но изначально все это появилось на поле сайтов. Это мир сайтов. Еще более правильно называть это – мир HTML документов . Каждый сайт состоит из страниц. Есть один случай, о котором вы знаете. Это landing page – сайты, состоящие из одной страницы . Здесь мы с вами согласны – это синонимы, сайт это или страница. Мы можем, когда говорим о продвижении, говорить о продвижении сайта. Но привыкайте к тому, что вы, как будущий SEO-шник или специалист, который будет анализировать деятельность SEO-шников. Вы должны мыслить не сайтами, а HTML документами.

Каждая страница внутри сайта имеет право быть погруженной в индексную базу Яндекса. Также она имеет право быть найденной, по каком-то своему ключевому запросу. То есть важна каждая страница внутри сайта. Если вы обладатель большого сайта, то у вас большой потенциал для продвижения. У вас есть много HTML документов, мы можете выйти в ТОП по разным запросам, оптимизировать разные страницы. Если у вас landing page, то да, ваше SEO будет странным. Для оптимизации вам доступна всего одна страница. Да, она главная, но других страниц нет. Это значит, что не так много ключевых запросов, под которые вы ее можете оптимизировать.

Вы очень скоро поймете, что оптимизация сайта, работа с текстами и заголовками – ограничена, не так много туда можно вместить. Если вы, например, сайт Авито , и вам нужно продвижение по 100 тысячам или миллионам поисковых запросах, то если бы у вас был landing page – оптимизация бы не удалась. Вы бы не вывели свою единственную страницу под 100 тысяч запросов. Были бы проблемы. То есть, чем больше семантическое ядро, тем больше список запросов, по которым вы хотите быть в ТОП, тем больше арсенал HTML документов, которые вам доступны для оптимизации.

Как выглядит мир сайтов?

Образно мы нарисовали мир сайтов.

Справа – индексное хранилище. Это та самая невероятная библиотека, в которой Яндекс хранит избранные и лучшие HTML документы, как-то их классифицируя. Как устроено индексное хранилище, можно найти с помощью YouTube. Это видеоролики, где рассказывается, как выглядит Google. Там шуточный ролик, где Google – это библиотека, которая сидит за столом. Вокруг него книги и бумаги. К нему приходят люди и спрашивают. Они задают ему вопросы и Google ищет им документы. Мы бы еще дальше развили эту метафору. Представьте, что это не библиотека, а стеллажи с книгами. Сотни миллиардов HTML документов хранит в своей базе Google. Представьте себе библиотеку с сотней миллиардов книг. Пусть это даже одна страничка. Но каждая страничка отвечает какому-то запросу. Все должно быть хорошенько расставлено.

Как устроено индексное хранилище – это действительно одна из самых сложных частей и наук. Она связана как раз с поисковиком. Там, внутри Яндекс и Google, они думают, как раз об этом: как все правильно и гармонично разложить. Это не удивительно, так как Google потребляет несколько процентов электроэнергии мира. Есть открытая статистика Google по Америке – это более 10% электроэнергии. Компания Google стоит больше, чем вся Россия. Так вот, эта библиотека – это индексное хранилище . Это очень важная и ценная наука, а также емкая вещь. Это мы относимся к поисковику несерьезно: вбили запрос, получили информацию, что-то нам не понравилось, начали выставлять претензии к качеству работы поисковика. На самом деле за доли секунды Яндекс или Google находят в своем хранилище подборку нужных документов. Этих документов могут быть десятки миллионов. Потом располагают их в правильном порядке на странице результатов поиска.

Раньше долгое время SEO-шники выделяли Яндекс как систему, в которой aпдейты происходят раз в определенное время. Раз в 3-4 дня. Сейчас Яндекс все чаще обновляет поисковую выдачу. Роботы бегают быстрее, Яндекс становится совершеннее. Ну, а Google уже давно обновляет индексную базу несколько раз в течение дня. Яндекс долгое время к сайтам новостей, сайтам СМИ, социальным сетям относится так, что он информацию оттуда должен получать в реальном времени. Так вот, роботы бывают разные. Есть такой термин – слияние роботов. Они собираются в какое-то время. Возможно эта эпоха прошла в Яндексе, но других данных у нас нет. После слияния роботов происходит aпдейт, то есть обновляется индексное хранилище поисковика.

Вот хороший пример, который мы вас попросим посмотреть. Откройте Википедию – определение поисковой машины и вы увидите подтверждение наших слов. Три фундаментальных сущности в поисковике: робот или машина, которая собирает данные. Это отличие просто индексной базы от целой системы. То есть это индекс и паук, который попал в этот индекс в режиме реального времени. Индексное хранилище, вот эта библиотека – это база данных, в которой нужно правильно все разместить и сохранить, чтобы внутри этого быстро искать. Пункт номер три в Википедии – это то, о чем мы сегодня будем рассуждать в рамках статьи – это поисковый механизм. Согласно каким принципам поисковик находит эти документы, как он их индексирует, а также какие факторы ранжирования. По какому принципу он определяет, что этот HTML документ будет первый, а этот 999. Факторов ранжирования достаточно много. Именно им посвящены следующие наши статьи.

В этой статье я опишу основные элементы поисковой системы, покажу, как они связаны, и затрону немного истории возникновения поисковиков. Но вначале разберем, что такое поисковая система и для чего она нужна?

Поисковая система – это специальный сервис для быстрого поиска информации в Интернете. Пользователь задает в поисковик запрос, в котором формулирует, что хочет найти. Поисковая система в ответ выдает результаты поиска – ссылки на страницы сайтов, где может находиться интересующая пользователя информация.

Давайте разберемся, из чего состоит поисковая система и как она работает. Нужно отметить, что принципы действия у любого поисковика схожи: Яндекс, Google и другие поисковики работают по аналогичным алгоритмам, которые отличаются нюансами.

История развития поисковиков: не путайте Wandex и Yandex!

Начнем с истории: первый в мире поисковик в WWW появился в 1993 году, и это был Wandex. Не путайте с Яндексом. После него появились Aliweb, Webcrawler, Lycos, Altavista, Рамблер, Google и только потом Яндекс.

Первым именно российским поисковиком был Рамблер. Сейчас Рамблер все еще существует, но для поиска использует движок Яндекса. На его долю приходится около 1% от всех поисковых запросов.

Самой популярной поисковой системой в России на момент подготовки статьи является Яндекс, который используют для поиска информации около 61% россиян по данным РБК. На втором месте по количеству пользователей в России идет Google – около 26%, но в последнее время процент пользователей Google растет. Обе поисковые системы были запущены в 1997 году, но в Россию Google пришел гораздо позже (официально – в 2006 году).

Перейдем к вопросу, как устроена и как работает поисковая система

Поисковая система состоит из трех основных элементов:

1. Роботы-пауки (агенты, роботы, обходящие все интернет пространство, и сканирующие сайты)

У поисковой системы существует множество роботов-агентов, каждый из них выполняет свою функцию:

основной работ, сканирующий сайты;
робот, сканирующий картинки;
робот, сканирующий видео;
робот мобильных сервисов;
быстроробот выполняет функцию сбора свежей информации и новостей для индексации;
другие роботы.

У каждого робота есть список адресов, которые он должен обойти. Этот список автоматически увеличивается, если робот находит новую ссылку и адрес сайта. Робот проверяет тип найденного документа, кодировку и язык и отправляет эти данные на дальнейшую обработку.

2. Индекс (база документов и дополнительных параметров в обработанном виде)

Индекс – это хранилище поисковой системы, где вся информация находится в обработанном и упорядоченном виде. Например, документы хранятся в очищенном от html-разметки виде, в индексе имеются данные о местоположении различных слов в документе и другая информация. Индекс обновляется постоянно.

В ряде поисковых систем имеются выраженные апдейты. В этом случае полноценное обновление поискового индекса, на основе которого формируются результаты поиска, происходит не постоянно, а через некоторое время. Апдейт – это момент обновления поисковой системы, в который результаты поиска по многим запросам серьезно меняются.

3. Поисковый алгоритм (механизм, который позволяет формировать выдачу)

Когда в поисковую систему поступает запрос, алгоритмы поисковой системы обрабатывают его. В обработанном виде он поступает дальше в систему.

Если запрос популярный, результаты поиска по нему могут кешироваться (сохраняться в поисковой системе) и в дальнейшем при поступлении такого же запроса результаты поиска поднимаются из кеша. Если запрос уникальный, то поисковые алгоритмы на основе имеющихся в них формул формируют ответ на запрос из индекса поисковой системы.

Формула, по которой формируются результаты поиска, может отличаться в зависимости от запроса, его типа (коммерческий, информационный, навигационный и т.д.), географии (формула для региональных запросов может быть проще, чем для московского региона).

Мы рассмотрели упрощенную модель поисковой системы. Реальные поисковые системы намного сложнее и включают в себя механизмы борьбы по спамом, колдунщики и множество других вещей.

Что такое машинное обучение?

Поисковая система Яндекс создает формулы для ранжирования сайтов на основе машинного обучения.

Очень упрощенно данную систему можно представить так:

Резюме: как работает поисковик?

Как мы видим, даже упрощенная модель работы поисковой системы достаточно сложна и состоит из множества систем. Реальные же поисковые системы намного сложнее, поэтому процесс продвижения сайтов представляется не только сложным, но и крайне интересным.

В данный момент при ранжировании сайтов поисковая система Google учитывает более 200 факторов, а поисковик Яндекс - более 800 факторов. Все они подразделяются на группы: технические, доменные, текстовые, ссылочные, региональные, поведенческие, коммерческие, юзабилити и ряд других.

Чтобы постоянно перенаправлять посетителей, попадающих на сайт, и поисковики на адрес, отличный от запрашиваемого, используется метод 301-го редиректа. Когда сервер отвечает таким образом, это говорит о том, что страница перемещена и предыдущий url больше не актуален. Пройдет переиндексация, после которой поисковикам станет понятно, по какому адресу вы собираетесь вести своих посетителей, и они начнут его демонстрировать. Примечательно, что редирект позволяет сделать потерю преимуществом и усилить поток трафика на свою площадку. Но к этому мы еще вернемся, а пока небольшое вступление.

Для работы со ссылочной массой и составления стратегий продвижения важно классифицировать ссылки. Существует несколько основных типов, например вечные и арендованные, естественные и SEO-ссылки, ссылки, которые зависят от донора, и другие. Эта классификация является основой для разработки ссылочной стратегии. Определить тип ссылки просто, об этом и поговорим в статье.

Поисковая система – это сложный аппаратно-программный комплекс, состоящий из тысяч и даже миллионов серверов, обрабатывающих пользовательские запросы и собирающих данные со всех сайтов сети Интернет, доступных к индексации. Нужно понимать, что компании, которые владеют такими системами, не разглашают информацию об архитектуре, составе и алгоритмах работы своих поисковых комплексов, поскольку это является коммерческой тайной.

аппаратного обеспечения – дата-центров, объединяющих физические серверы в единую систему, и сетевых коммуникаций;
программной части, отвечающей за логику работы поисковых систем и подготовку выдачи на запросы пользователей.

О каждом из этих компонентов следует сказать отдельно.

Физический уровень поисковых систем

Каждый сервер имеет несколько зеркал, между которыми перераспределяется нагрузка. Так обеспечивается надежное резервирование на случай сбоя или выхода из строя одного из элементов такого массива. Технологии репликации обеспечивают идентичность информации на каждом сервере в режиме реального времени.

Кроме серверного оборудования дата-центры, обслуживающие поисковые системы, оснащены высокоскоростной локальной сетью и несколькими подключениями к Интернету, что обеспечивает их высокую доступность, скорость обработки информации и выдачи результатов пользователю.

Логический уровень работы поисковых систем

Алгоритмы ранжирования оказывают значительное влияние на SEO-трафик, успешность интернет-рекламы, однако владельцы поисковых систем оглашают только общие принципы их работы: качественный контент, полезность информации и т. д. Поэтому СЕО-специалистам приходится искать свои эффективные технологии оптимизации страниц сайта для достижения максимальной отдачи от рекламной кампании.

Современные поисковые системы обрабатывают десятки тысяч обращений в секунду, формируя результаты из миллиардов вариантов. Давайте рассмотрим, как устроены механизмы поиска.

Поисковые системы на физическом уровне

Современная поисковая машина – это сложнейшая структура, состоящая из сотен тысяч, а в случае с Google – миллионов физических серверов. Вся информация, которая на них хранится, надежно защищена и распределена по дата-центрам по всему миру.

Еще в 1997 году обработкой запросов для пользователей Яндекса и выдачей результатов поиска занимался всего один сервер, который был слабее любого современного домашнего компьютера. Сервер располагался в кабинете одного из основателей компании. Уже к 2000 году у Яндекса было около 50 серверов. Каждый месяц число серверов увеличивалось, что со временем привело к появлению собственного дата-центра (сейчас у Яндекса их уже четыре). Современный дата-центр – это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Для примера, посещаемость только поиска Яндекса за сентябрь 2012 года составила 27,6 млн человек.

Поисковые системы на логическом уровне

Затем поисковый запрос попадает в метапоиск. Эта система получает все необходимые данные и узнает, к какому типу данных запрос относится. На этом же этапе запрос проверяется на орфографию. Также система определяет, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты.

Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся очень популярными в определенные моменты (значимое событие, катастрофа или даже рекламная кампания нового продукта), а другие популярны постоянно (например, связанные с социальными сетями). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы пользователей в кэше и в случае повторных обращений показывает уже готовые результаты, вместо того чтобы формировать ответы заново.

Стоит обратить внимание, что каждый сервер имеет несколько копий. Это позволяет не только защитить информацию от потери, но и распределить нагрузку. Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера.

Читайте также: