Технология поиска информации в интернете кратко

Обновлено: 04.07.2024

1. Задача поиска информации, существующие подходы и проблемы

1.1. Основы поиска информации в Интернете

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.

Все найденные за много лет средства и приемы поиска информации доступны и эффективны и при поиске информации в Интернет.

Рассмотрим общую схему: АВТОР создает ДОКУМЕНТ. У ПОЛЬЗОВАТЕЛЯ возникает ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ. Эта информационная потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов - подходит или не подходит. В теории информационного поиска вместо слова “подходит” используют термин “ПЕРТИНЕНТНЫЙ ДОКУМЕНТ”, а вместо “не подходит” - “не пертинентный”. Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся к делу, подходящий по сути”. Субъективно понимаемая цель информационного поиска - найти все пертинентные и только пертинентные документы (мы хотим найти “только то, что хотим, и ничего больше”).

Эта цель - идеальна и пока недостижима. Мы часто в состоянии оценить пертинентность документа только в сравнении с другими документами. Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются - “ШУМ”. Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не дает уверенности в том, что найдено достаточное количество пертинентных документов. Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов - удовлетворительно.

Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые “понимает” ИПС - должен быть сформулирован ЗАПРОС.

Запрос редко может точно выразить информационную потребность. Однако многие ИПС по причинам, описанным ниже не могут определить, соответствует ли тот или иной документ запросу. Для решения этой задачи был введен синтетический критерий - Степень соответствия документа запросу, который называется РЕЛЕВАНТНОСТЬЮ. Релевантный документ может оказаться непертинентным и наоборот.

1.2. Виды информационно поисковых систем

Информационно-поисковые системы (ИПС) Интернет, при всем их внешнем разнообразии, также попадают в один из этих классов. Поэтому, прежде чем знакомиться с этими ИПС, рассмотрим абстрактные алфавитные (словарные), систематические и предметные ИПС. Для этого дадим определение некоторым терминами из теории информационного поиска.

Классификационные информационно-поисковые системы

В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.

Предметная ИПС Web-кольца

Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.

Словарные ИПС

Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.

Теория информационного поиска предполагает два основных алгоритма работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов. В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. Все работающие ИПС по историческим причинам используют этот алгоритм, в различных модификациях.

При работе с дескрипторами индексируемые документы переводятся на некоторый дексрипторный информационный язык. [2] Дескрипторный информационный язык, как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами. Парадигматика предусматривает выявление скрытых в естественном языке лексико- семантических отношений между понятиями. В рамках парадигматических отношений можно рассматривать, например, синонимию, омонимию. Синтагматика исследует такие отношения между словами, которые позволяют объединять их в словосочетания и предложения. Синтагматика включает правила построения слов из элементов алфавита (кодирование лексических единиц), правила построения предложений (текстов) из лексических единиц (грамматика).

То есть, запрос пользователя переводится в дескрипторы и обрабатывается ИПС уже в этой форме. Такой подход более затратен по вычислительным ресурсам но и потенциально более продуктивен, так как позволяет отказаться от критерия релевантности и работать непосредственно с пертинентностью документов.

Ранжирование результатов поиска

Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности (с точки зрения пертинентности) документов с тем, чтобы наиболее важные документы попадали бы в начало списка. Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.

Наиболее часто используемыми критериями при ранжировании в ИПС являются

наличие слов из запроса в документе, их количество, близость к началу документа, близость к друг другу;

наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);

Количество ссылок на данный документ с других документов;

1.3 Современные проблемы поисковых систем

Все основные технологические проблемы Интернет технологий, которые мы сейчас видим и зачастую ощущаем на себе, имеют своей причиной то, что когда эти технологии разрабатывались никто из разработчиков (по их собственным высказываниям) не представлял себе, что Интернет станет глобальной информационной средой. Все это полностью относится и к поисковым системам.

Архитектура

Современная поисковая система имеет трехуровневую архитектуру:

crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений на страницах;

indexer (индексатор) - индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;

gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.

В современных ИПС вся поисковая информации, вплоть до копий исходных документов, хранится в самой ИПС. Это было обусловлено ненадежностью ранних каналов связи и компьютерного оборудования. Это давало возможность пользователю ИПС фактически независимо от доступности документа ознакомиться с ним. Сейчас это ведет к том, что ИПС вынуждены наращивать свою вычислительную мощность пропорционально росту количества документов в Сети, то есть экспоненциально. Так, в Google сейчас работает более 100 компьютеров - серверов.

В современных ИПС Crawler самостоятельно сканирует Сеть в поисках новых документов. В условиях количества документов измеряемого в сотнях тысяч такой способ позволял быстро наполнить базу ИПС и соответственно представить там максимальное количество документов. Сейчас этот подход исчерпал себя, так как ни одна ИПС не охватывает более 30-35% документов в Сети. Более того, все изменения и перемещения документов попадают в базу ИПС со значительным опозданием (до 4 недель), то есть найти актуальную информацию в Сети невозможно.

Алгоритмы поиска и ранжирования

То есть, Основной проблемой современных поисковых систем является то, что из за фактически устаревшей архитектуры они не могут обеспечить качественный поиск информации.

Изначально в Интернете вся информация была представлена в HTML, причем без таблиц, картинок и рисунков. Все эти вещи появились в Сети позже. Естественно, что алгоритмы ИПС ориентированы именно на текст. Сейчас объем мультимедийного наполнения (таблицы, базы данных, рисунки, музыка, видео) по объему уже превышает объем текстов. А найти информационную сводку или (тем более!) нужный музыкальный фрагмент, не зная его дополнительных параметров - просто невозможно.

Резюмируя, существующая архитектура обеспечивает работоспособность поисковой системы в условиях низкой скорости и ненадежности каналов связи, низкой вычислительной мощности клиентского оборудования, не очень больших объемов (сотни тысяч, миллионы) документов, что было актуально в 90-х годах ХХ века. Сейчас все эти предпосылки устарели, высокоскоростные и надежные каналы связи стали обычным явлением, в несколько десятков раз выросла вычислительная мощность клиентских компьютеров, но и число документов в Сети выросло в десятки тысяч раз, приближаясь к 10 миллиардам. Следовательно, необходима иная архитектура, реализующая эти требования.

Основными моментами новой архитектуры ИПС , на наш взгляд, должны стать:

1. Переход к распределенной модели вычислений;

3. Переход от критериев релевантности к критерию пертинентности;

4. Переход от поиска только текстовой информации к распознаванию и поиску мультимедийной информации.

В общем, решения пп. 1,2 достаточно просты технически и организационно, но решения пп. 3 и 4 требуют нового теоретического подхода к поиску информации. Для реализации этого подхода применена теория пространства понятий.

2 Введение в теорию понятий

2.1 Постановка задачи

Целью данной работы является выработка теоретического подхода к математическому анализу смысла понятий как объектов окружающего мира и, с определенным уровнем абстракции, выражаемых в человеческих языках, путем их систематизации в многомерном пространстве ( Пространстве понятий) и разработка математического аппарата преобразования (действия над) понятиями - алгебры понятий.

Для современной технологии поиска необходима такая модель представления информации, которая позволит распознавать хранимые в ней знания без использования человеческого интеллекта или артефактных алгоритмов (таких как нейронные сети). Здесь уместно провести аналогию между растровым и векторным способом хранении графических изображений, то есть если из содержимого растрового файла нельзя однозначно сказать, как построено хранимое изображение, то из векторного формата способ построения очевиден.

Тогда становится возможным описание отношений между понятиями реального мира как расстояний, через уравнения алгебры понятий, в основе которых лежит векторная алгебра, построение карты пространства понятий и дальнейшего изучения его топологии.

Идея пространства понятий ни в коем случае не отменяет иерархических, конструктивных и прочих взаимосвязей, но дополняет их, делая их исчислимыми. Например, можно достаточно долго описывать положение листа на дереве, передвигаясь к нему от ствола, по веткам и веточкам. Его гораздо проще можно найти, задав абсолютные полярные координаты: горизонтальное и вертикальное направление, длину вектора от осевой линии ствола у земли. Вместо достаточно объемного описания путешествия по дереву, мы получаем 3 (!)числа.

2.2 Основные определения

Пространство понятий - набор из N одномерных пространств, каждое из которых содержит в себе определенный ранжируемый признак объекта.

Понятие - область пространства понятий (подпространство), соответствующая какому-то объекту в реальном мире.

Действие - вид области в пространстве понятий - вектор, соответствующий процессу, производимому над объектом в реальном мире и изменяющее координаты объекта в ПП. В общем случае действие - это тоже подпространтсво.

Модификатор- область в пространстве понятий, соответствующий эпитету в реальном языке (прилагательное - Модификатор существительного)

Корректор - вектор - в пространстве понятий, соответствующий эпитету в реальном языке (наречие- Корректор глагола)

2.3 Пространство понятий. Развернутая и свернутая форма представления.

Если принять, что все существующие понятия окружающего мира, описанные в развитых человеческих языках, отражаются в многомерное пространство понятий N (Notion - понятие), то любое понятие, будь то существительное, глагол, прилагательное, или иная часть речи, несущая определенный смысл, может быть отражено как

Entity(существительное, прилагательное, noun, adjective) a’N,,…, ||>, где Not- n-мерная область в n- мерном пространстве, где na’?, а x1…n - измерения (оси координат) данного пространства.

Глагол, Наречие(Verb, adverb) a’ erb <|x1-x1’|,|x2-x2’|,…, |xn-xn’|>, где Verb - вектор в n-мерном пространстве.

В общем случае, действия (глаголы) также могут быть описаны как области пространства понятий, каковыми они на самом деле и являются. Разделение область - векторы сделаны для удобства понимания теории и проведения расчетов.

2.4 Разрешенные области и действия

Если операция над понятием вида:

i+1= i + j где i+1, i - произвольные области понятий, а j - произвольный вектор,

истинна,то есть после выполнения некоего действия над понятием, мы получаем новое известное понятие, то данное действия с понятием является разрешенным, так как в реальном мире оно соответствует некоей реальной операции над реальным объектом, приводящей к реальному результату.

если Ложна, то данное сочетание является еще неописанным в пространстве понятий, “белым пятном”. Ложность выражения не означает неосуществимости данной операции, но дает ресурс для поиска новых решений, открытий и изобретений. Возможно, раньше никто не задумывался о возможности такой операции и такого результата.

3 Построение поисковой системы с позиций теории пространства понятий

3.1 Пертинентный поиск

Для решения проблемы перехода к пертинентности, предлагается использовать для описания страниц дескрипторный язык вместо ключевых слов. Дескриптор - одно или несколько слов данного языка (синонимов), характеризующих данное понятие. Здесь дескриптор соответствует понятию. Данное переименование принято из целей соответствия принятой лингвистической терминологии.

С точки зрения теории понятий дескриптор - вектор, d, где x1,x2,xi, - инверсные расстояния до соответствующих осей координат пространства понятий, или, другими словами, это веса, притягивающие данный дескриптор к тому или иному разделу иерархического каталога тематических областей поиска.

То есть, для реализации задачи пертинентного поиска, необходимо искать те документы которые лежат в той же области пространства понятий, что и запрос.

3.2 Поиск в мультимедийном окружении

Первой задачей поиска в мультимедийном окружении является поиск в базах данных. В настоящее время уже накоплены большие объемы информации в числовых данных которые однако недоступны для поиска через Интернет, так как (очевидно) не индексируются существующими ИПС.

Для организации поиска в табличной информации, необходимо вербализовать эти данные, то есть перевести столбцы чисел в некие текстовые отчеты, в которых будет произведен анализ данных в таблице.

Нужна некая система построения отчетов (генератор отчетов) для написания отчетов на основании заданных рядов данных на естественных языках с элементами математического и статистического (в будущем-эвристического) анализа. Отличительной особенностью предлагаемой системы является то, что она имитирует действия человека, читающего доклад с использованием графиков и таблиц, то есть является следующим шагом в деле построения отчетов.

Второй наиболее реализуемой задачей представляется задача распознавания речи и текста на изображениях, в том числе и рукописного.

Аналогичные проблемы возникают и при распознавании рукописного текста. То есть, вариации в написании символов различными людьми не дают возможности построить однозначное соответствие между рукописным символом и буквой алфавита, что не дает возможности точно построить то или иное слово по его рукописному аналогу.

Проблема распознавания решается построением выражения алгебры понятий для тех гипотез значений, которые наиболее вероятны для звучаний и написаний распознаваемых слов. (То есть рассматриваются все варианты слов, которые могут быть получены из распознанной информации) . Так как распознавание происходит вместе с предыдущим контекстом, то, при проведении отражения в пространство понятий, сразу можно проверить попадание понятия в область, которая соответствует данному контексту (разрешенную область, см. 2.4), используя механизм алгебры понятий. То есть, результат описанных в тексте преобразований понятий попадает в определенную область, разрешенную по данному контексту и значение для распознавания будет выбираться именно из этой (результирующей) области., что решит проблему низкого качества распознавания.

В настоящее время в сети Интернет размещено несколько миллиардов Web-страниц и файлов и с каждым днём продолжает увеличиваться. Возможность осуществления поиска в огромном информационном пространстве сети Интернет, предоставляют поисковые системы.

Поисковые системы можно разделить на каталоги, классификаторы, поисковые машины (роботы индексов), системы метапоиска. Основанием для такой классификации может выступать способ реализации поиска и методы пополнения базы данных.

Различные принципы систем поиска

Информационно-поисковые машины - это службы, включающие в себя огромные базы данных , которые автоматически пополняются с помощью поискового робота (специальная программа, сканирующая содержание сети Интернет).

Робот обращается к Web-страницам, изучает содержимое этих страниц и в зависимости от заложенной программы, может сохранить всю страницу у себя в базе данных, либо формирует и прописывает, в базу данных, ключевые слова со страниц. Такие действия называют индексированием.

Если страницы сайта не связаны с помощью гиперссылок с другими сайтами, вероятность обнаружения данной страницы очень мала. Так же существует механизм ручной индексации в базе данных поисковой системы: владельцы сайтов могут сами поставить свои страницы в очередь на индексирование.

Каталоги представляют собой огромную базу данных URL-адресов сайтов самой различной тематики. Каталоги могут быть устроены по-разному, т.е. имеющие либо линейную, либо иерархическую структуру.

Первоначально осуществляется поиск по общей тематике, затем запрос более конкретизируется. Отличительным признаком каталога является то, что вся информация заносится человеком. Поэтому характерными особенностями каталога является малая скорость пополнения и небольшой, по сравнению с поисковой системой, объём, хотя данная характеристика способствует увеличению точности поиска.

Организация работы с каталогом достаточно проста. На странице Web-сайта обычно представлен список определённых рубрик, каждая из которых соединена гиперссылкой с другими ссылками, где находятся либо список подрубрик, либо список документов, соответствующих заданной рубрике.

К самым популярным российским каталогам можно отнести:

Классификаторы. Выполняют аналогичные функции, что и каталоги. Представляют собой совокупность URL-адресов, только систематизированные по отдельной тематике, либо по определённой рубрике. Часто классификаторы называют просто каталоги.

Системы метапоиска. Система, направляющая запрос основным поисковым системам и возвращающая их отчеты, она не имеет собственных поисковых инструментов и не создаёт собственную базу данных. Основным достоинством метапоисковых систем является возможность предоставления пользователю ресурсов сразу нескольких поисковых систем, без каких-либо усилий с его стороны.

Технология поиска информации в сети Интернет

Организовать поиск можно по-разному, и одна из проблем - это снижение уровня ненужной информации. Необходимо отметить, что поиск и отбор информации не относится к рядовым умениям человека, этому необходимо специально обучать. Здесь требуется владеть основами математической логики, понимать, что чем точнее сформулирован запрос - тем выше соответствие представляемой информации в ответе на запрос.

Правила поиска по ключевым словам

Чтобы начать поиск нужно ввести ключевые слова. Эти слова должны максимально точно отражать суть запроса. Нельзя задавать какое-то одно ключевое слово, имеющее общий смысл, например "информатика" или "история". Лучше сузить область поиска с помощью дополнительных ключевых слов.

Основная задача пользователя: правильно задать сочетание ключевых слов, чтобы поиск не был чрезвычайно широким и привёл к нужному результату. При этом следует придерживаться определённых правил, устанавливаемых поисковой системой.

Так же, при поиске необходимо придерживаться следующих требований:

1. Учитывать особенности естественного языка:

· Полисемия - смысловое многообразие слова или сочетания слов;

· Омонимия - разные по смыслу, но одинаково пишущиеся слова;

· Синонимы - различающиеся по написанию и произношению слова, но тождественные по смыслу;

2. Не допускать орфографических ошибок.

3. Избегать поиска по одному слову, использовать необходимый и достаточный набор слов.

4. Не писать большими буквами.

5. Исключать из поиска не нужные слова.

6. Использовать возможности расширенного поиска.

После задания ключевых слов нужно щелкнуть по кнопке Поиск, расположенной рядом с текстовым полем.

Виды поисковых систем

Во всемирной паутине находится несколько тысяч поисковых систем, среди которых есть как уже хорошо зарекомендовавшие себя, так и менее известные. Из наиболее известных можно назвать среди зарубежных: AltaVista, Google, HotBot, InfoSeek, Lycos, WebCrawler, Yahoo! и др.; среди российских Яndex, Rambler, Апорт! и др.

У каждой поисковой системы есть как достоинства, так и недостатки. Критериями выбора, какой поисковой системой пользоваться, могут служить такие характеристики как:

· принцип работы поисковой машины;

· сложность языка запросов;

· наличием различных расширенных функций (управление форматом и порядком выводимой информации, переводом вводимых слов на другой язык и др.)

· уровнем загруженности в конкретные моменты времени, надёжностью и пр.

Существует 2 основных типа поисковых систем сети Интернет: индексные и классификационные (каталоговые).

Индексные поисковые системы, работая в автоматическом режиме обновления своей информации, просматривают в сети Интернет содержимое серверов, индексируют всю информацию, содержащуюся в них и вносят информацию о расположении слов на страницах сайтов в свои базы данных.

Каталоговые системы поиска содержат тематически структурированный каталог серверов, и чаще всего пополняются вручную. В каталоговой системе поиска можно, начав с более крупной тематической рубрики, постепенно спускаясь дальше по рубрикам, прийти к ссылке на нужный сервер. В одних случаях бывает удобнее воспользоваться первым типом поисковой системы, в других - вторым типом.

Существуют так же специализированные поисковые системы позволяющие искать информацию в других информационных "слоях" Интернета: серверах файловых архивов, почтовых серверах и др. Для поиска файлов на серверах файловых архивов существует специализированные системы двух типов: поисковые системы на основе использования баз данных и каталоги файлов. Для поиска файла в системе с использованием базы данных достаточно ввести имя файла в поле поиска и поисковая система выдаст URL-адрес мест хранения данного файла. Если имя файла неизвестно, но известно его назначение (например, музыкальный файл), то можно воспользоваться тематическим каталогом музыкальных файлов.

Для получения качественного результата поиска, необходимо использовать возможности различных поисковых систем.

Заключение

Зачастую наличие странички в интернете может сказаться на престиже фирмы (юриста). Очень удобно содержать страничку в интернете и в целях рекламы, и в целях распространения информации, привлечения к сотрудничеству.

В сети Интернет много сайтов правовой тематики, что отражает важность права в жизни личности, общества и государства. К правовым информационным ресурсам Интернет можно применить различные критерии классификации.

1. По национально-территориальному признаку.

2. По видам владельцев сайта – государственные организации, коммерческие организации, общественные объединения, образовательные учреждения, частные лица и т.п.

3. По отраслям права – теория государства и права, гражданское право, право интеллектуальной собственности, информационное право и т.д.

4. По характеру содержания (контента) – каталоги правовых ссылок, научные публикации, правовые базы данных, сборники нормативных документов, предложение юридических услуг и пр.

5. По охвату предполагаемой аудитории – международные, федеральные, региональные и местные ресурсы.

6. По популярности ресурса, количеству посетителей сайта (рейтингу).

Многие сайты трудно отнести к той или иной категории по содержанию, так как они содержат комбинацию различных вариантов. Так, например, сайт могут содержать и подборку нормативных документов, и статьи различных авторов, и подборку ссылок, и форум, словом все то, что пожелает и сможет собрать автор сайта. Ясно, что один и тот же сайт может попадать одновременно в несколько категорий классификации.

Пользуясь поисковыми системами, можно получить списки ссылок на правовые ресурсы. В многочисленных поисковых каталогах обычно есть соответствующие разделы правовой тематики.

Конспект учеников по теме Информатики "".

Поиск информации. Поисковые системы

Код ОГЭ по информатике: 2.4.1. Компьютерные энциклопедии и справочники; информация в компьютерных сетях, некомпьютерных источниках информации. Компьютерные и некомпьютерные каталоги, поисковые машины, формулирование запросов

Поиск информации (информационный поиск) — это информационный процесс, цель которого — получение информации из информационного объекта или из хранилища информационных объектов. Поиск информации является разновидностью процесса обработки информации. Для ускорения информационного поиска создают и используют информационно-поисковые системы.

Информационно-поисковая система (ИПС) — система, выполняющая функции хранения больших объёмов информации, быстрого поиска требуемой информации и её вывода в удобном для человека виде.

Информационно-поисковые системы позволяют добавлять, удалять и изменять хранимую информацию. Существуют информационно-поисковые системы двух видов:

документальные (в результате поиска выдаётся документ);
справочные (в результате поиска информация предъявляется или сообщается).

Справочные ИПС, в свою очередь, делятся на:

фактографические (в результате поиска предъявляется искомая информация, факт);
адресные (в результате поиска предъявляется адрес, где информация хранится).

Документальные и фактографические ИПС. Документальными ИПС являются книжные фонды, открытые для доступа в читальных залах библиотек или в магазинах. Однотипные информационные объекты (книги) стоят на стеллажах чаще всего в порядке отраслей знаний (философия, математика, физика и т. п.). Читатель (покупатель), проходя вдоль стеллажей, ищет сначала названия отраслей знаний, а затем книги в разделах.

В словарях однотипные информационные объекты (слова и связанные с ними описания) расположены в алфавитном порядке, что существенно ускоряет поиск нужного слова или словосочетания. В энциклопедиях в аналогичном порядке расположены другие однотипные информационные объекты — статьи с описанием понятий. По такому же принципу организованы алфавитные книжки для записи телефонов и адресов, а также список учеников класса в классном журнале.

В другом порядке — хронологическом — организованы фактографические ИПС, которые называются расписаниями. Имеются в виду расписания занятий, расписания движения поездов, самолётов и т. п.

Адресные ИПС в документах. Адресные ИПС распространены гораздо шире документальных и фактографических. Каждый бумажный документ, исключая словари и энциклопедии, имеет собственную адресную ИПС в виде оглавления (содержания). В оглавлении записаны названия разделов документа и указаны их адреса — номера страниц, на которых эти названия находятся.

Поиск информации в документе состоит из трёх этапов:

поиск в оглавлении подходящего названия раздела с адресом (номером страницы);
поиск в документе страницы по адресу (номеру);
поиск информации в разделе.

Адресные ИПС в хранилищах информационных объектов. В хранилищах бумажных документов (библиотеках, архивах) создаются адресные ИПС, которые называются каталогами.

Традиционные каталоги содержат бумажные карточки с описаниями документов и их адресов в хранилище (номер хранилища, номер стеллажа и т. д.). Адрес документа в хранилище называется шифром. Аналогичным образом организуется хранение и адресация звуко-, кино- и видеозаписей.

Поиск информации в хранилище информационных объектов состоит также из трёх этапов:

поиск в каталоге карточки подходящего информационного объекта с адресом (шифром);
поиск в хранилище информационного объекта по адресу (шифру);
поиск информации в информационном объекте.

Оценка результатов поиска информации. Поиск информации в информационных объектах или в хранилищах информационных объектов редко бывает однократным. Результат поиска всегда оценивается с точки зрения полноты требуемой информации. Если информации недостаточно, поиск других источников информации проводят снова и снова, пока результат не станет удовлетворительным.

Поиск внутри компьютера

Для запуска процесса поиска в поле поиска вводят символы из имени файла или его содержимого. В области просмотра появляется список файлов и папок, которые отвечают запросу. В строке каждого файла указан реальный путь к нему.

Список с результатами поиска анализируется пользователем самостоятельно. Одно можно сказать точно: если файл на самом деле находится в компьютере, то его имя непременно окажется в списке результатов поиска.

Чтобы просмотреть файл в содержащей его папке, по строке файла щёлкают левой, потом правой клавишей мыши, а затем в контекстном меню щёлкают по пункту Расположение файла. В области просмотра открывается папка, содержащая файл.

Поиск в Интернете

Существует несколько сайтов, которые представляют в Интернете поисковые системы (поисковые машины), в том числе русскоязычные:

Поисковые системы представляют собой адресные информационно-поисковые системы. Они обычно включают два компонента:

базу рефератов электронных документов, которые размещены на серверах Интернета, вместе с гиперссылками на эти документы;
поисковый механизм, который позволяет автоматически по запросу найти информацию в этой базе данных (базе рефератов).

Процедура поиска информации. Для проведения автоматического поиска вводят текстовый запрос в поле поиска поисковой системы.

По умолчанию поисковые системы настроены на поиск в Интернете веб-страниц, которые содержат ключевые слова. Иногда требуется сузить область поиска, чтобы, например, найти новостную страницу или страницу-словарь, либо изменить объект поиска, чтобы, например, найти картинку, музыку, видео.

Для выбора объекта и области поиска поисковые системы в Интернете предлагают меню. После ввода данных щёлкают по кнопке Найти (или аналогичной). Через некоторое время окно браузера обновляется и в нём появляются результаты поиска в виде списка гиперссылок на документы. Этот список может содержать тысячи гиперссылок. По первой двадцатке списка всегда видно, точным ли был запрос. Иногда запрос следует уточнить и запустить поисковую систему ещё раз. В любом случае для получения ответа достаточно просмотреть первую сотню документов, обращаясь к ним с помощью гиперссылок из списка.

Поисковые каталоги. Многие поисковые системы на своих веб-страницах имеют поисковые каталоги, которые построены в виде меню, пунктами которого являются разделы каталога. Принцип построения поисковых каталогов аналогичен принципу построения дерева папок в компьютере. Выбор пункта каталога открывает новое меню, в котором также делают выбор. И так до тех пор, пока на экран не будет выведен список ссылок, входящих в конечный пункт каталога. В процессе поиска следует только правильно определяться с выбором пунктов каталога.

Сохранение информации из Интернета. Просмотр веб-страниц может сопровождаться сохранением информации с этих страниц.

Именно так в Интернете можно собрать информацию для подготовки реферата практически на любую тему.

Мировая паутина предоставляет доступ к знаниям и теоретическим навыкам по любому направлению. Но отыскать в этом хаотичном пространстве нужные сведения может быть не так быстро и просто. Для достижения положительного результата нужно разбираться в существующих поисковых серверах и понимать, как осуществляется поиск информации в сети интернет.

Существуют простые стандартные методики поиска нужной информации

Способы поиска информации в интернете

Выделяют основные методы поиска информации:

Используя поисковый сервер.
С помощью адреса веб-страницы.
Через гиперссылки.

Первый вариант является наиболее популярным у клиентов интернета. Он требуется в большинстве ситуаций, когда человеку нужны сведения по конкретной теме, при этом отсутствуют знания о месте (веб-странице, сайте или группе в социальной сети), где можно было получить информацию.

Почему стоит пользоваться несколькими поисковыми системами

Поисковики имеют различные параметры. Например:

Алгоритмы работы.
Уровень сложности языка команд.
Скорость поиска.
Функционал, наличие расширенных опций.
Внешнее оформление.
Удобство использования.

Проанализировав указанные показатели, пользователь может выбрать желаемую систему для своих целей. Но лучшего результата он сможет добиться, если возьмет все ресурсы интернета — будет работать сразу в нескольких браузерах.

Полезно знать! Применение ключевых слов при формировании запроса намного упрощает процесс поиска данных.

Основные типы поисковых систем, какая лучше

Система поиска — это совокупность программ, работающих на основе прописанных алгоритмов, которые позволяют исследовать информацию в интернет-пространстве. Эти автоматизированные структуры имеют основную классификацию:

Индексы, или веб-указатели. Для поиска необходимо ввести главное слово или фразу, после чего машина сканирует доступные ресурсы и дает пользователю ссылки на соответствующие запросу страницы.
Каталоги производят изучение вопроса или темы по четко систематизированных группам сведений. Программка предоставляет аналогичный результат — несколько вариантов сайтов.

Самые популярные поисковые системы рунета

Наиболее часто используются в поисковых целях:

Яндекс: краткая и расширенная версия страницы. Это средство выполняет розыск информации, учитывая языковую специфику. Позволяет осуществлять поиск и по сайтам, и личному каталогу, словарям, документам и блогам, также новостным лентам, изображениям и картам.
Google — ищет информацию на веб-площадках, работает с множеством типов документов, картинок и видео; способен переводить текстовые материалы на 49 языков.
Rambler. Сервис изучает разные интернет-проекты и ресурсы, может использовать каталоговую систему. Берет во внимание морфологию русского и английского языков.

Есть и другие поисковики: NIGMa, Bing, Yahoo! и т.д.

Каждая поисковая система имеет достоинства и недостатки

Что можно найти через поисковики

Специфика нахождения в интернете определяется общей целью исследований, характером сведений, также их форматом и т. д. С помощью классических и нестандартных способов во всемирной паутине можно отыскать почти любую информацию. Это может быть:

Почему нужно предельно четко формулировать поисковый запрос

Верно поставленный вопрос или фраза — половина успеха в поиске необходимой информации.

Правила построения поисковых запросов

Нормы формулирования эффективного обращения к поисковику:

Чем полезно цитирование и как его можно использовать при поиске

Цитатой называют дословную выдержку из произведения или речи автора. В поисковых строчках она вводится нередко и позволяет отыскать пословицу или поговорку, новость, чье-либо интервью, книгу и пр.

Важным условием получения нужной информации при цитировании является максимально точное использование ключевых слов, желательно, в той же форме и порядке.

Быстрая фильтрация помогает эффективно реализовать любой запрос пользователя

Поиск с помощью интернет серфинга

Серфинг — это широкое понятие, представляет собой вариацию сбора информации в сети Internet. Он осуществляется через быстрое перемещение по ссылкам и сайтам в браузере. К нему можно отнести чтение статей, переход по веб-адресам, вход на страничку социальной сети и т.д.

Серфинг позволяет освоить большое количество материала, глубоко погрузившись в тему. Но его недостатком является длительность такого рода исследования.

Примечание! С помощью серфинга на определенных сайтах, где посетитель просматривает рекламу, читает письма или выполняет задания, можно зарабатывать.

Поисковые системы функционируют по определенному принципу. Чтобы разыскать с их помощью материалы, нужно определиться с предметом исследования и четко сформулировать задачу в соответствии с главными правилами запросов. Задействование нескольких сервисов, использование ключевого слова, словосочетания или цитаты облегчат работу с интернетом .

Поиско́вая систе́ма (англ. search engine ) — это компьютерная система, предназначенная для поиска информации.

Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в интернете.

Характеристики поисковых систем

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.

На серверах поисковых служб есть специальные программы (их называют роботами или пауками), которые собирают информацию в Интернете и возвращают на свой сервер все обнаруженные страницы. Из накопленной таким образом информации формируются базы, особым образом проиндексированные.

Основные задачи поисковых серверов:
■ находить новые сайты и вносить их в собственную базу данных (хранилище) адресов;
■ ранжировать сайты в базе данных и делать результаты поиска наиболее соответствующими запросам пользователей.

Поисковые системы стремятся предоставлять пользователям наиболее релевантные результаты поиска.
Примечание. Релевантность (от англ. relevancy) - степень соответствия документа запросу. Релевантность документа запросу пользователя определяется в соответствии с заложенным в поисковую систему .алгоритмом. Алгоритмы у поисковых систем разные, однако построены они на общих принципах, поэтому ищут поисковые системы примерно одинаково. Основные отличия поисковых серверов заключаются не в алгоритмах определения релевантности, а в способах их реализации и хранилищах адресов.

При вводе запросов (ключевых слов) в поисковые серверы пользователь надеется быстро получить ссылки на нужные ресурсы. А поисковые серверы, в свою очередь, конкурируют между собой за выдачу наиболее точных результатов.

Поисковая система Google.

Среди множества поисковых систем с огромным отрывом лидирует Гугл. В 1998 году студенты Стэнфордского университета, Сергей Брин и Ларри Пейдж, создали эту систему. Сергей сделал ошибку в слове Googol (число 10 в 100 степени), так и возникло название Гугл. Сегодня Гугл является крупной поисковой системой и работает со 191 языками.

История начинается в далёком 1998 году, всё начиналось в тесной комнатушке студенческого общежития. Ныне этот поисковый магнат имеет представительства более, чем в сорока странах мира. Сердцем компании является Маутин-Вью, где находится её штаб-квартира.

В самом начале Ларри Пейдж и Сергей Брин начинали работу над поисковиком под названием BackRub. Отличительной особенностью этой системы был тот факт, что сайт является более важным, если на него ссылаются множество других ресурсов и наоборот. Позднее подобную систему ранжирования страниц стал использовать в своих алгоритмах и поисковик Google.

Трудно поверить в то, что менее, чем за 15 лет компания приобрела мировую известность, но это так.

В Америке неоднократно разгорались скандалы вследствие нарушения поисковой системой авторских прав, однако Гугл всегда отстаивал свои позиции и жалобы Церкви саентологии и известной газеты The New York Times были отклонены.

Система имеет сложный язык запросов, однако именно это позволяет ограничивать поиск отдельными доменами, типами файлов или языками. При этом такой мощный механизм может одновременно применяться и хакерами для сканирования страниц на наличие слабых мест.

В 2009 году корпорация реализовала Википоиск, позволяющий всем желающим настроить результаты выдачи поисковых запросов. Пользователь получил возможность самостоятельно удалять или поднимать вверх результаты выдачи. Технология не прижилась и существовала всего полгода.

3 года назад новым функционалом российских пользователей порадовал поисковик Google: возможность поиска по голосу. Для этого возле строки поиска в телефоне следует нажать кнопку, произнести запрос, который впоследствии отправляется на сервер. Через время браузер выдаёт результаты поиска согласно распознанному запросу.

Поисковик Google обладает ещё одной функцией, с которой знакомы все, кто когда-либо пользовался поисковой системой. Логотип поисковика в праздники меняется со стандартного на тематический, но всегда в стиле Гугл. Патент на подобную опцию компании удалось получить после 10 лет ожидания. Компания в настоящее время поддерживает множество проектов, призванных сделать ещё более совершенным глобальную сеть.

Краткая характеристика Яндекс

Яндекс – самая крупная отечественная поисковая система. Дата основания – 23 сентября 1997г. В последнее время Яндекс активно выходит на международный уровень и уже имеет локализованные версии сервиса в Украине, Казахстане, Беларуси и Турции. Помимо поиска Яндекс предоставляет много дополнительных возможностей, в том числе, бесплатный хостинг Народ.ру, сервис для ведения блога Я.ру, почтовый сервис, рекламная сеть Яндекс Директ, и, кроме того, с недавнего времени Яндекс активно продвигает свой собственный браузер. Помимо основного поиска, Яндекс предоставляет возможность поиска по блогам, картинкам и видео.

Кроме того, в 2011 году компания Яндекс разместила акции на американской бирже высоких технологий Nasdaq, что является знаковым событием для отечественных интернет-компаний.

Кроме того, среди нововведений Яндекса можно отметить:

введение геозависимости запросов в зависимости от региональной принадлежности пользователя и сайта;

учет поведенческих факторов;

разработка механизма подсказок, исправления ошибок и распознавания аббревиатур;

активная борьба с продажными ссылками и переоптимизированными текстами;
введение персонализированного поиска;
учет добавочной смысловой стоимости сайта.

Краткая характеристика Google

Общепризнанный лидер среди поисковых систем. Поисковая система появилась в 1996 году, и изначала предназначалась для поиска в картотеке библиотеки Стэнфорда. Корпорация Google была основана в 1998 году. В настоящий момент имеет более 100 региональных версий в различных странах. Кроме того, Google это не только поиск, но и еще более 50 различных сервисов, в том числе самый популярный браузер Google Chrome.

С этих двух самых популярных поисковых систем на сайт приходит больше всего посетителей, так что не теряй времени даром, и начинай продвигать свои запросы. Для того, чтобы определить на каком месте твой сайт находится сейчас, советую прочитать статью о том, как проверить позиции сайта в поисковых системах.

Несмотря на все возможности популярных поисковых систем, они не могут решить все проблемы. В частности, ими не всегда удобно пользоваться для поиска научной информации. Для этих целей существуют специальные научные поисковые системы.

Читайте также: