Классификация поисковых систем кратко

Обновлено: 02.07.2024

ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ

Информационно-поисковая система – это прикладная компьютерная среда для обработки, хранения, сортировки, фильтрации и поиска больших массивов структурированной информации.

Классификация информационно-поисковых систем

По характеру предоставления логической организации хранимой информации разделяются на фактографические, документальные и геоинформационные.

Фактографические накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому - либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.

В документальных единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируются, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции - дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов - соподчиненность по смысловому содержанию.

В геоинформационных данные организованы в виде отдельных информационных объектов привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент.

Другим критерием классификации поисковых систем являются функции или решаемые задачи .

Справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов.

Поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно - логического описания предметной области.

Расчетные заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.

МЕТОДЫ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

Можно выделить следующие основные МЕТОДЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

1. Непосредственный поиск с использованием гипертекстовых ссылок

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

"Ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

2. Использование поисковых машин

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать.
Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

3. Поиск с применением специальных средств

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска. Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.

Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин).
В ряде случаев этот метод может быть очень эффективен.
Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ ИНТЕРНЕТ

Состав и принципы работы поисковой системы

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

Статья получилась довольно объёмной – уж больно обширен предмет изучения. На сегодняшний день существуют десятки поисковиков различной степени популярности. Надеюсь, что, осилив текст до конца, вы сможете выбрать тот, который в наибольшей степени соответствует вашим текущим задачам. Итак, начнём.

Для удобства чтения привожу оглавление:

  1. Определение и суть термина
  2. Немного истории
  3. Виды и характеристики
  4. Цифры и факты
  5. Поисковики в деталях

Определение и суть термина

Что, собственно, такое поисковая система? Это механизм поиска информации, основанный на отборе необходимых данных в базе (каталоге сайтов) и формировании выборки (списка сайтов), которая в наибольшей степени отвечает характеру введенного вами запроса.

поисковая система

Примечательно, что современные поисковые системы осуществляют операцию поиска не только сайтов, но и по документам в различных форматах, изображениях и аудиофайлам. Это очень удобно, поскольку если вам понадобится, к примеру, какая-либо музыкальная композиция, вы сможете найти ссылку для её скачивания с помощью поисковика.

Немного истории

Первый поисковый механизм появился относительно недавно – в 1990 году. Программа называлась Archie и осуществляла поиск в специальной базе по именам хранящейся в ней файлов. Настоящий прорыв в этой области произошел в 1994 году, когда появилась первая ПС, работающая с помощью робота, которая так и называлась Web-Crawler. Здесь можно было искать не по заголовкам файлов, но по любым словам на страницах. Именно так работают современные поисковики.

web-crawler

Понятие же поискового робота стало ключевым для всех систем, именно поэтому о нём стоит упомянуть отдельно. Данная программа автоматически посещает новые страницы и разделы веб-сайтов и заносит информацию о них в свою базу. Современные автоматизированные поисковики именно с его помощью оперативно обновляют информацию в своих каталогах.

Упоминание о большинстве первых ПС сегодня можно найти лишь в соответствующих разделах ИТ-энциклопедий. Из сегодняшних лидеров рынка давайте отметим дату появления Яндекс – 1997 год и Google, который был запущен в 1998.

Виды и характеристики

Первое, что отличает различные поисковики друг от друга, – это принцип их работы. Так существуют ПС:

  • Автоматизированные, для работы которых используется вышеупомянутый поисковый робот.
  • Управляемые вручную, когда информацию о новых сайтах в них заносит человек, составляя так называемый каталог ресурсов. Этот тип, широко распространённый ранее, постепенно сдаёт свои позиции – слишком быстро меняется сегодня интернет-среда, без помощи машин за её темпом просто не успеть.
  • Гибридные, совмещающие в себе характеристики первых двух типов. Здесь результаты работы робота проверяет человек. Это обеспечивает и высокую скорость обновления, и достаточно высокую точность выборки.
  • Мета-системы, которые сегодня сильно сдают свои позиции в следствии совершенствования первых трёх типов. В основе их работы лежит не создание собственной базы данных, а анализ и формирование выборки из данных сразу нескольких обычных поисковиков.

google паук

Поскольку поисковики собирают и ранжируют информацию, то и способы их взаимодействия с данными тоже могут сильно различаться. Основной единицей хранения и классификации бывает:

  • Факт, то есть информационная единица, содержащаяся в тексте сайта. Так работают фактографические системы. Чем это полезно конкретному пользователю, то есть Вам? Это самая мелкая из возможных структурных единиц текста, поэтому и точность выборки будет высока. Практически исключается ситуация, когда под релевантным вашему запросу заголовком скрывается совершенно бесполезное содержимое.
  • Другой тип систем – документальные – не осуществляет дробления текста на столь мелкие фрагменты. Его базовой структурной единицей, как видно из названия, является документ.
  • Геоинформационные ПС осуществляют привязку не только к содержимому сайта, но и к его местоположению.

геоинформационные системы

Кроме того, различают глобальные системы, которые анализируют все ресурсы, имеющиеся в мировой сети, а также локальные или региональные системы, ограничивающиеся рамками определённого региона. Иногда при этом учитываются даже культурные и религиозные традиции этой местности. Последнее верно, например, для региона Ближнего Востока. Местные поисковые системы осуществляют дополнительную фильтрацию ссылок, отсеивая нежелательное содержимое и исключая такие сайты из результатов поиска.

Цифры и факты

А какой поисковик предпочитаете Вы? Не нужно быть пророком, чтобы предсказать, что большинство читателей назовут всемирно признанный Google или безусловного лидера российского лидера – Яндекс. Пользуетесь чем-то другим? Тогда вас можно смело назвать пользователем с оригинальным вкусом. Для подтверждения приведу немного статистики.

рейтинг поисковых систем

  1. Google – 69,24% . Несомненный лидер, ни одна другая ПС пока не может даже приблизится к этому результату. Единственный мировой лидер, пользующийся успехом и в России.
  2. Bing – 12,26% . Как видите, разрыв между первой и второй позицией огромен. В России эта ПС почти неизвестна (примерно 0,7% всех запросов в Рунете обрабатывается с её помощью).
  3. Yahoo! – 9,19% . В России его результат ещё скромнее, всего 0,2% поисковых запросов Рунета в месяц.

Другие зарубежные поисковики имеют ещё более скромные результаты.

А что же в России? Здесь лидирующие позиции у Яндекса, который выбирают чуть более 50% пользователей, Google у нас немного отстаёт – его предпочитают немногим более 40% пользователей. При этом многие пользователи используют каждый из этой победной двойки для решения конкретных задач. В частности, с помощью Google удобнее осуществлять поиск во всемирной паутине, если вас интересует именно глобальная выборка, если же нужны в первую очередь русские сайты, Yandex лучше справится с этой задачей.

Среди систем, ориентированных именно на русскоязычный сектор интернета (русские, украинские, белорусские сайты, другие страны СНГ), разрыв в показателях ещё выше, чем у зарубежных:

(За данные спасибо Википедии).

Поисковики в деталях

В этом разделе более подробно поговорим о шестерке лидеров, определившихся в предыдущем разделе: Google, Bing, Yahoo, Яндекс, Mail и Рамблер. Несмотря на то, что некоторые из них лидерами можно назвать пока лишь условно, всё-таки у каждой есть свои поклонники.

google

Google появилась в 1998 году и с тех пор неуклонно наращивает свою аудиторию. В основу работы данной ПС был впервые положен механизм определения релевантности страницы по количеству данных на неё ссылок. Это была настоящая революция, которая и определила направление развития поисковых систем на ближайшие годы.

bing

Датой рождения Bing считается 1 июня 2009 года. Впрочем, если вы уже давно дрейфуете в необъятных пространствах Интернета вы могли быть знакомы с ней и ранее, поскольку возникла она на основе известной мета-системы MSN Search. Её успеху способствовало несколько факторов, например, возможность получить все результаты поисковой выдачи по нужному вам запросу на одной странице. Если Вы, уважаемый читатель, часто ищете в Интернете, информацию в какой-либо крайне узкой сфере, то, наверное, провели довольно много времени, пролистывая страницы с результатами. На популярность Bing играет и возможность изменять объём информации по каждому из сайтов в выдаче в настройках.

yahoo!

Основным достоинством Yahoo! , появившегося ещё в далёком 1995, является ручное добавление сайтов в каталог, обеспечивающее высокую точность поисковой выдачи. Кроме того, в настройках можно выбрать поисковый механизм, с помощью которого будет осуществляться поиск (если найти информация с помощью Yahoo! не удалось, система выполнит повторный поиск на основе AltaVista в автоматическом режиме).

yandeх

Яндекс в данный момент не имеет конкурентов среди российских ПС. Как не сложно догадаться его доля мирового рынка также высока – он занимает 4-е место по популярности. Эта ПС начала работу в 1997 и, хотя на тот момент в России уже были свои поисковики, быстро обошла конкурентов. Несомненным преимуществом для русскоязычных пользователей является высокая морфологическая точность обработки запросов на русском языке с учётом всех его особенностей. Также поиск с помощью Yandex можно вести на украинском, белорусском, казахском и других языках.

Важной особенностью является и достаточно точное региональное ранжирование, что совсем немаловажно с учётом огромных размеров территории нашей страны. Если геолокация важна для вводимого пользователем запроса, то выборка будет составлена с максимальной точностью. Ведь, согласитесь, не слишком приятно, когда вы хотите, например, заказать пиццу в Челябинске, а попадаете на сайт пиццерии, расположенной в Перми? Для того чтобы получить точную выборку, необязательно указывать город в строке поиска, он будет определён системой автоматически. Конечно, другие поисковики также выполняют эту функцию, но именно Яндекс справляется с этой задачей наилучшим образом.

mailru

Вторая по распространённости среди российских ПС – Mail появилась в 1998 году. Сегодня данный ресурс представляет собой серию тематических порталов (Деньги, Работа, Здоровье, Авто, Дети и другие тематики). Соответственно, в поиске могут отображаться не только результаты поисковой выдачи, но и ссылки на соответствующие тематические статьи в нужном разделе самого Mail. Такую поисковую выборку принято называть интегрированной.

Rambler

Если вы успешно добрались до конца данной статьи, то ваши знания об имеющихся поисковых системах несомненно расширились. Надеюсь, что вам было интересно. Не забудьте подписаться на обновления, чтобы не пропустить новые полезные материалы, и заходите почаще.

Цель поисковой системы — извлечь запрашиваемую информацию из огромной базы данных ресурсов, доступных в Интернете. Поисковые системы становятся важным повседневным инструментом для поиска необходимой информации, даже не зная, где именно она хранится. Использование Интернета в последние дни значительно возросло с появлением простых в использовании поисковых систем, таких как Google, Bing и Yahoo! Существуют разные типы поисковых систем, которые могут получить нужную информацию. В этой статье мы объясним различные типы поисковых систем и их назначение.

Популярные поисковые системы

Популярные поисковые системы

Почему поисковые системы важны?

Поисковые системы являются частью повседневной жизни двух типов людей.

  • Пользователи, которые ищут и получают информацию
  • Владельцы сайтов, которые пытаются оптимизировать свои сайты для получения высшего ранга в результатах поиска.

Пользователь выполняет более миллиардов поисков только в Google, чтобы найти релевантную информацию. Это открывает перед предприятиями и издателями онлайн-контента огромные возможности для бесплатного привлечения людей на свои веб-сайты. Поисковые системы следуют рекомендациям и имеют собственный алгоритм определения рейтинга веб-сайтов в результатах поиска. Оптимизация веб-сайтов для Google и других поисковых систем является неотъемлемой частью любого владельца веб-сайта для охвата большой аудитории. Посетители могут приносить доход владельцам сайтов либо за счет рекламы, отображаемой на сайте, либо за счет покупки продуктов.

Различные типы поисковых систем

Поисковые системы делятся на следующие три категории в зависимости от того, как они работают.

  1. Поисковые системы на основе сканера
  2. Справочники, управляемые человеком
  3. Гибридные поисковые системы
  4. Другие специальные поисковые системы

Давайте подробно обсудим все типы поисковых систем в следующих разделах.

1. Поисковые системы на основе краулеров

Все поисковые системы на основе краулеров используют краулеров, ботов или пауков для сканирования и индексации нового контента в базе данных поиска. Есть четыре основных шага, которым следуют все поисковые системы на основе краулера, прежде чем отображать какие-либо сайты в результатах поиска.

  • ползком
  • индексирование
  • Расчет релевантности
  • Получение результата

1.1. ползком

Поисковые системы ползать всю сеть, чтобы получить доступные веб-страницы. Часть программного обеспечения под названием гусеничный трактор или бот или паук выполняет сканирование всей сети. Частота сканирования зависит от поисковой системы, и между сканированиями может пройти несколько дней. Это причина, по которой иногда вы можете видеть, что содержимое вашей старой или удаленной страницы отображается в результатах поиска. В результатах поиска будет отображаться новое обновленное содержание, как только поисковые системы снова просканируют ваш сайт.

1.2. индексирование

индексирование — это следующий шаг после сканирования, который представляет собой процесс определения слов и выражений, которые лучше всего описывают страницу. Идентифицированные слова называются ключевыми словами, и страница назначается идентифицированным ключевым словам. Иногда, когда сканер не понимает смысла вашей страницы, ваш сайт может занимать более низкую позицию в результатах поиска. Здесь вам нужно оптимизировать свои страницы для роботов поисковых систем, чтобы контент был легко понятен. Как только сканеры подберут правильные ключевые слова, ваша страница будет назначена этим ключевым словам и будет занимать высокие позиции в результатах поиска.

1.3. Расчет релевантности

Поисковая система сравнивает строку поиска в поисковом запросе с проиндексированными страницами из базы данных. Так как строка поиска может содержаться более чем на одной странице, поисковая система запускает расчет релевантности каждой страницы в своем индексе со строкой поиска.

Существуют различные алгоритмы расчета релевантности. Каждый из этих алгоритмов имеет разные относительные веса для общих факторов, таких как плотность ключевых слов, ссылки или метатеги. Вот почему разные поисковые системы предоставляют разные страницы результатов для одной и той же поисковой строки. Как известно, все основные поисковые системы периодически меняют свои алгоритмы. Если вы хотите, чтобы ваш сайт оставался на вершине, вам также необходимо адаптировать свои страницы к последним изменениям. Это одна из причин посвятить постоянные усилия SEO, если вы хотите быть на вершине.

1.4. Получение результатов

Последний шаг в деятельности поисковых систем — получение результаты. По сути, он просто отображает их в браузере по порядку. Поисковые системы сортируют бесконечные страницы результатов поиска в порядке от наиболее релевантных до наименее релевантных сайтов.

Примеры поисковых систем на основе сканеров

Большинство популярных поисковых систем основаны на поисковых машинах, использующих краулеры, и используют вышеуказанную технологию для отображения результатов поиска. Пример поисковых систем на основе сканера:

Помимо этих популярных поисковых систем, есть много других поисковых систем, основанных на гусеницах, таких как DuckDuckGo, AOL и Ask.

2. Справочники, созданные человеком

Справочники, управляемые человеком, также называемые открытой системой каталогов, зависят от действий человека для списков. Ниже показано, как работает индексация в каталогах, управляемых человеком:

  • Владелец сайта отправляет в каталог краткое описание сайта вместе с категорией, в которой он должен быть указан.
  • Отправленный сайт затем проверяется вручную и добавляется в соответствующую категорию или отклоняется для включения в список.
  • Ключевые слова, введенные в поле поиска, будут сопоставлены с описанием сайтов. Это означает, что изменения, внесенные в содержание веб-страниц, не принимаются во внимание, поскольку имеет значение только описание.
  • Хороший сайт с хорошим содержанием с большей вероятностью получит бесплатную рецензию, чем сайт с плохим содержанием.

Yahoo! Directory и DMOZ были прекрасными примерами каталогов, управляемых человеком. К сожалению, автоматизированные поисковые системы, такие как Google, вытеснили из Интернета все эти поисковые системы в стиле каталогов, управляемые людьми.

3. Гибридные поисковые системы

Гибридные поисковые системы используют индексирование как на основе сканера, так и вручную для включения сайтов в результаты поиска. Большинство поисковых систем на основе сканеров, таких как Google, в основном используют сканеры в качестве основного механизма, а каталоги, управляемые людьми, в качестве вторичного механизма. Например, Google может взять описание веб-страницы из справочников, управляемых человеком, и отобразить его в результатах поиска. По мере того, как каталоги, управляемые людьми, исчезают, гибридные типы становятся все более и более поисковыми системами на основе поисковых роботов.

4. Другие типы поисковых систем

Помимо трех вышеупомянутых основных типов, поисковые системы можно разделить на многие другие категории в зависимости от использования. Ниже приведены некоторые из примеров:

Заключение

В первые дни Интернета поисковые машины, работающие на людях, были популярным и важным источником информации. Технологический мир очень быстро движется в сторону автоматизации и искусственного интеллекта. Крупные технологические компании, такие как Google и Microsoft, которым принадлежат популярные поисковые системы, продвигают эти изменения и извлекают из них выгоду. Ни одна из поисковых систем, управляемых людьми, не смогла пережить этот быстрый сдвиг. Хотя люди используют специальные поисковые системы в очень малых масштабах, в этот момент искусственные поисковые машины или поисковые машины на основе поисковых роботов действуют как основной источник информации с минимальным вмешательством человека.

Существуют различные, порой полярные мнения, на счет интернета и его содержимого. Одни утверждают, что в интернете есть абсолютно все. Другие же говорят, что в интернете нет ничего интересного, кроме абсолютно ненужной информации. Однако и то, и другое мнение является ошибочным, и так говорят лишь те, кто или бывал в интернете пару-тройку раз, или те, кто вообще далек от компьютеров и сети. Правда, как известно, посередине : в интернете есть практически все, но найти что-либо не так-то просто, как кажется на первый взгляд.

поиск в сети

Сложность поиска необходимой информации заключается в том, что с развитием сети происходит пополнение существующих информационных источников и появляются новые с совершенно разной информацией. За один день, по скромным подсчетам, появляется несколько десятков новых домашних страниц и сайтов. С таким объемом информации найти нужное без помощи специальных инструментов практически невозможно. Проще не искать. А уж если вам нужно найти определенную информацию в кротчайшие сроки, то можете забыть об этом. Так могло бы быть. Если бы не добрые и находчивые люди, создавшие поисковые системы.

Еще один маленький, но удаленький совет. Как правило, человек, осуществляющий поиск, задает вопрос и хочет получить на него ответ. Однако, профессиональный поиск отличается от непрофессионального тем, что вопрос задается в виде ответа. Т.е. попробуйте посидеть, подумать и решить, что вы хотите получить в ответе на свой вопрос. Скорее всего, вы уже имеете небольшое представление о нужной информации и парочка-другая слов у вас найдется. Вот именно их и следует применять при подаче запроса в искалке.

Еще один небольшой совет. Если вы, следуя вышесказанному, получили нужную информацию, то вам лучше всего запомнить (ну или записать) фразу, которую вы использовали при поиске нужной информации. Конечно же, при условии, что, возможно, эта информация (или ресурс) вам еще понадобится. Почему нужно делать именно так, а не, к примеру, записать или запомнить саму ссылку на интересующий ресурс? Дело в том, что уж так сложилось в сети, что достаточно часто ресурсы меняют свои адреса. Причины бывают разные: от того, что сменился хостинг (сервер, на котором размещена страничка), до того, что найденный вами ресурс стал составной частью другого сайта.

Помимо вышеперечисленного, в сети существуют узкоспециализированные каталоги: каталоги программ, каталоги видео-роликов, каталоги графических изображений, музыкальных файлов и т.д. Поиск в этих каталогах идентичен поиску в поисковой машине, за маленьким исключением — в каталогах программ не стоит задавать поиск рецептов приготовления курицы, а в музыкальном каталоге не нужно искать новую игрушку. Хотя, что только в жизни не встретишь:. 🙂

Читайте также: