Средства поиска информации в интернете реферат

Обновлено: 07.07.2024

Поиск информации — непростая задача. По состоянию на начало 2000 г. ресурсы Web оцениваются более чем в 850 миллионов Web-страниц.
Разумеется, рост Web-пространства в геометрической прогрессии не будет продолжаться вечно. Когда-то наступит момент насыщения. Можно пред¬положить, что темпы развития WWW замедлятся на рубеже 3-4 млрд. Web-страниц. Одной из причин замедления, в частности, станет ограниченность поля IP адресов. Впрочем, к тому времени, наверное, уже заработает Интернет-2, и все будет по-другому.

Содержание

Введение 3
Задачи и стратегии поиска 4
Средства поиска информациии в глобальной сети 5
Способы представления информации 9
Как работаю поисковые системы 11
Поисковые каталоги (системы) 14
Язык поисковых запросов. Приминение языка заппросов 16
Заключение 21

Прикрепленные файлы: 1 файл

поиск информации в интернете.doc

Федеральное агентство по образованию

Государственное образовательное учреждение

Высшего профессионального образования

Петрозаводский государственный университет

студент I курса

Марков Александр Викторович

Юлия Васильевна Никонова

Поиск информации — непростая задача. По состоянию на начало 2000 г. ресурсы Web оцениваются более чем в 850 миллионов Web-страниц.

Разумеется, рост Web-пространства в геометрической прогрессии не будет продолжаться вечно. Когда-то наступит момент насыщения. Можно предположить, что темпы развития WWW замедлятся на рубеже 3-4 млрд. Web-страниц. Одной из причин замедления, в частности, станет ограниченность поля IP адресов. Впрочем, к тому времени, наверное, уже заработает Интернет-2, и все будет по-другому.

Задачи и стратегии поиска

Дать общий рецепт эффективной стратегии поиска информации в Интернет, пожалуй, невозможно. Есть лишь некоторые принципы, позволяющие тратить меньше времени. Вот некоторые из них. Например, вам необходимо узнать, где обитает трёхлапый ленивец, то вряд ли вы пойдете в алфавитный каталог библиотеки. Может быть, вы найдете нужную литературу с помощью систематического каталога. С несколько большей вероятностью - с помощью предметного. Но, скорее всего, ни один из библиотечных каталогов вам не поможет. Но, зайдя в информационно- библиографический отдел крупной библиотеки, дежурный библиограф достанет библиографический указатель по животным или какую-то похожую книжицу, из которой вы и найдете ответ на свой вопрос. Подобную стратегию можно с успехом применять и в Интернет. В ИПС(информационно-поисковых сетях) общего назначения можно утонуть в тысячах ссылок, выданных вам на простой запрос. Целью использования универсальной ИПС общего назначения может быть поиск специализированной ИПС, посвященной тематике вашего поиска. Такая ИПС может быть распознана по наличию слов "информация (information)", "документ (document)" и т.п. Но часто специализированная ИПС может скрываться на сервере общественной, профессиональной или специализированной организации, издательства.

Этот пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы мыслите в совершенно не тех терминах, которые используют авторы искомых документов (ведь большую роль играют культурные различия!).

Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее эффективны.

Средства поиска информации в глобальной сети

По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.

  1. число, стоящее в круглых скобках около категории, указывает на количество ссылок в категории.;
  2. обозначение @ говорит о том, что подкатегория входит в состав нескольких категорий;
  3. слово new свидетельствует о том, что ссылка была добавлена недавно;
  4. значок с изображением очков указывает на интересную или полезную, по мнению администрации сайта, ссылку.

Механизм поиска Yahoo! Можно активизировать на любой из страниц каталога. Для поиска в пределах всего каталога или одной из страниц используются специальные переключатели и поисковое окно. Поиск в Yahoo! Производится в соответствии с типом адресов, выбираемых с помощью опций меню (размещённого под поисковым окном). Кроме системы адресации, используемой тематическим каталогом, существует возможность обращения по адресам информационной службы Usenet, а также электронной почты. При выборе опций меню Yahoo! Поиск ведётся среди Web-узлов, включённых в каталог служб новостей, относящихся к данной тематике.

В Internet размещаются узлы и других каталогов, снабжённых поисковыми системами, подобными поисковым системам Yahoo!

Ниже перечислены некоторые поисковые каталоги:

Главный недостаток поисковых каталогов Web-ресурсов в том, что их поисковые системы извлекают огромное число документов, не соответствующих вводимому запросу. Как правило, документы, которые находятся в конце списка, содержат мало полезной информации. Ключевые слова могут быть истолкованы системой поиска совершенно в ином контексте либо отвечают нескольким толкованием.

Поисковые машины. Для детального поиска документов используются специализированные поисковые системы – поисковые машины. Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

В настоящее время в отечественных ресурсах действует довольно много поисковых машин. Есть фирменные и даже индивидуальные сайты, которые включают те или иные поисковые машины. Поисковые элементы существуют практически на всех Интернет-газетах и учебных порталах.

Наиболее распространённые из поисковых машин представлены ниже:

Впрочем, есть возможность программно запретить регистрацию всего сайта, или отдельных элементов его, как всеми, так и определёнными поисковыми системами. Для подобных целей служат так называемые мета-теги или мета-определители. Однако это отдельный разговор, кем и с какой целью подобное запрещение делается.

В последние годы сеть Интернет стала крупнейшим источником информации. В некоторой степени она напоминает огромную библиотеку, в которой содержится информация о любом явлении или объекте. Но главным недостатком и отличием сети Интернет от библиотеки является отсутствие систематизированного каталога, что создает большие трудности в поиске необходимой информации
Тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Содержание работы

Введение 3
1. Задачи и стратегии поиска 4
2. Средства поиска файлов 5
3. Средства WWW - World Wide Web (Всемирная сеть) 6
4. Средства поиска информации в глобальной сети 8
4.1. Каталоги 8
4.2 Поисковые машины 10
Заключение 12
Список использованной литературы 13

Файлы: 1 файл

Средства поиска информации в Интернет.docx

Федеральное агентство по образованию

Средства поиска информации

в сети Интернет

студентка М-102 группы

1. Задачи и стратегии поиска 4

2. Средства поиска файлов 5

3. Средства WWW - World Wide Web (Всемирная сеть) 6

4. Средства поиска информации в глобальной сети 8

4.2 Поисковые машины 10

Список использованной литературы 13

Введение

В последние годы сеть Интернет стала крупнейшим источником информации. В некоторой степени она напоминает огромную библиотеку, в которой содержится информация о любом явлении или объекте. Но главным недостатком и отличием сети Интернет от библиотеки является отсутствие систематизированного каталога, что создает большие трудности в поиске необходимой информации

Тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Напомним, что Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока лишь телефону.

В глобальной сети присутствует гигантской количество информационных ресурсов, которое уже практически невозможно сосчитать. И с каждым днем это число растет. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Средства информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним, а также по типу необходимой информации и по принципу организации и использования. Рассмотрим некоторые из них.

Задачи и стратегии поиска

Дать общий рецепт эффективной стратегии поиска информации в Интернет, пожалуй, невозможно. Есть лишь некоторые принципы, позволяющие тратить меньше времени. Вот некоторые из них. Например, вам необходимо узнать, где обитает трёхлапый ленивец, то вряд ли вы пойдете в алфавитный каталог библиотеки. Может быть, вы найдете нужную литературу с помощью систематического каталога. С несколько большей вероятностью - с помощью предметного. Но, скорее всего, ни один из библиотечных каталогов вам не поможет. Но, зайдя в информационно- библиографический отдел крупной библиотеки, дежурный библиограф достанет библиографический указатель по животным или какую-то похожую книжицу, из которой вы и найдете ответ на свой вопрос. Подобную стратегию можно с успехом применять и в Интернет. В ИПС(информационно-поисковых сетях) общего назначения можно утонуть в тысячах ссылок, выданных вам на простой запрос. Целью использования универсальной ИПС общего назначения может быть поиск специализированной ИПС, посвященной тематике вашего поиска. Такая ИПС может быть распознана по наличию слов "информация (information)", "документ (document)" и т.п. Но часто специализированная ИПС может скрываться на сервере общественной, профессиональной или специализированной организации, издательства.

Этот пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы мыслите в совершенно не тех терминах, которые используют авторы искомых документов (ведь большую роль играют культурные различия!).

Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее эффективны.

2. Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.

Существует расширение этой системы - Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronica автоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.

3. Средства WWW - World Wide Web (Всемирная сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, Netscape Navigator или Microsoft Internet Explorer.

С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском Microsoft Windows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.

1.1 Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.

Существует расширение этой системы - Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronicaавтоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.

1.2 Средства WWW - WorldWideWeb (Всемирная сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, NetscapeNavigator или MicrosoftInternetExplorer.

С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском MicrosoftWindows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.

* Данная работа не является научным трудом, не является выпускной квалификационной работой и представляет собой результат обработки, структурирования и форматирования собранной информации, предназначенной для использования в качестве источника материала при самостоятельной подготовки учебных работ.

Содержание

Информационные ресурсы сети Интернет 2

Типология методов поиска 4

Технология поиска с использованием поисковых машин 6

Владение пользовательскими инструментами и техникой 10

Список литературы 13

Введение

Основная задача Интернет – предоставление необходимой информации. Интернет – это информационное пространство, в котором можно отыскать ответ практически на любой интересующий пользователя вопрос. Это огромная глобальная сеть, в которую как информационные ручейки стекаются потоки более мелких сетей. Любой пользователь, располагающий ПК и соответствующими программами, сможет подключиться к сети, используя её возможности для самых разных целей – проведения досуга, обучения, чтения научных работ, отправки электронной почты и т.д. По различным данным, в 2004 г. количество пользователей глобальной системы Интернет составило от 600 до 900 миллионов человек. Это число продолжает стремительно расти и уже в 2006 г. оно достигло миллиарда человек. Сегодня глобальная сеть превращается в важный социальный и политический фактор современного информационного общества. С развитием Интернет-технологий появился новый гигантский источник информационных ресурсов, доступ к которым является не только относительно дешевым, но и очень быстрым.

Информационные ресурсы сети Интернет

Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д. Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации. Для миллионов людей разных профессий Интернет стал необходимым инструментом в работе и универсальным средством развлечения в часы досуга. В связи с этим возникает потребность в программных средствах, эффективно решающих проблемы поиска необходимой пользователю сети Интернет информации.

Информационные ресурсы, доступные через Интернет, огромны. Это десятки миллионов документов, представленных различными способами, число которых постоянно увеличивается. В зависимости от способа представления, вида и характера информации разнятся и методы доступа к ней, поэтому, прежде чем рассматривать методы поиска, рассмотрим классификацию информационных ресурсов.

По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.

Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.

Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

Типология методов поиска

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит.

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

1. Непосредственный поиск с использованием гипертекстовых ссылок.

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

2. Использование поисковых машин.

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

3. Поиск с применением специальных средств.

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска. Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.

Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.

Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

4. Анализ новых ресурсов.

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

Технология поиска с использованием поисковых машин

Определение географических регионов поиска

Поскольку проведение информационного поиска преследует практические цели - практическая ценность информационного ресурса может зависеть от географического расположения соответствующего источника.

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

Использование законов Зипфа

Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется ранг частоты. Вероятность обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф нашел, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

С = (частота вхождения слов X ранг частоты) / число слов

Это значит, что график зависимости ранга от частоты - равносторонняя гипербола.

Зипф также установил, что зависимость количества слов с данной частотой от частоты - также гипербола и постоянная для всех текстов в пределах одного языка.

Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой как правило являются предлогами, частицами, местоимениями, в английском языке - артиклями (так называемые "стоп-слова"), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую методику.

Составление списка ключевых слов

Для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится таким образом:

Удаление из текста стоп-слов.

Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.

Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.

Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала.

Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

Отбор поисковых машин

Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Составление и выполнение запросов к поисковым машинам

Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа.

Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена.

Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов - как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Анализ ресурсов и сбор информации

Первичный анализ ресурсов основывается на аннотациях - в случае их наличия, и в необходимых случаях - на ознакомлении с информационным наполнением ресурса. Информация с отобранных источников извлекается с использованием соответствующих конкретному источнику методов, что может потребовать значительных коммуникационных, вычислительных и дисковых ресурсов.

В русскоязычной части Интернета в настоящее время доступен ряд ресурсов, предоставляющих вторичную информацию, как правило, в табулированной форме. Предоставление информации для публикации в подобных источниках является более дешевым вариантом для компаний, не имеющих собственного представительства в Интернете.

Владение пользовательскими инструментами и техникой

Следует не забывать о команде Find броузера. Если ваш броузер имеет в меню Файл, Правка или Вид команду Find (Найти), используйте ее для обнаружения трудноуловимых ключевых слов страницы. Чтобы отыскать слово, которое вам нужно, воспользуйтесь комбинацией клавиш CTRL+F в вашем броузере и введите искомое ключевое слово.

Необходимо так же фиксировать результаты ссылками и закладками:

1. Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Добавить в "Избранное". Используйте подобные механизмы для регистрации предварительных результатов поиска в процессе беглого отбора с целью дальнейшего подробного изучения.

2. Поддерживайте свою персональную коллекцию ссылок в рабочем состоянии: актуализируйте и систематизируйте ее, удаляйте устаревшие и ненужные.

3. Некоторые машины поиска, например AltaVista, позволяют отмечать закладкой успешный результат поиска. Благодаря этому позднее можно вернуться к данной подборке документов и просмотреть ее.

4. Существуют специализированные программные средства - интегрируемые модули расширения для стандартных броузеров, которые индексируют информационные ресурсы ранее посещаемых узлов. Они способны выполнять полнотекстовый поиск документов на любом узле, включая результаты обработки запросов.

Сохраняйте копии важных документов. Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл - Сохранить как… для создания копий необходимой вам информации из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите некоторые проблемы:

1) изменчивости и недолговечности WWW (когда со своих адресов со временем исчезают страницы и целые сайты),

2) концентрации внимания исключительно на целях определенного этапа поиска (например отбор адресов или предварительный просмотр найденной информации),

3) экономии времени on-line подключения и перевод изучения отобранных материалов в режим off-line.

Отключайте вывод изображений. Если вы не желаете видеть многочисленные рекламные заставки и для вас важен не дизайн сайтов, а их содержательная информация, измените заданный режим просмотра в броузере на режим вывода только текста (исключив возможности мультимедиа). Это значительно увеличит скорость поиска. При этом, если возникнет необходимость быстрого просмотра важной графической информации, воспользуйтесь пунктом контекстного меню Показать рисунок, кликнув для его вызова правой кнопкой мыши в место невыведенного рисунка.

Заключение

В сети Интернет хранится очень большой объем информации по различной тематике в виде статей в электронных газетах, отчетов, справочников, графических изображений, аудио- и видео-файлов и многого другого. Путешествуя по Интернет, можно найти любую информацию, не выходя из дома или офиса, иначе говоря, если какие-либо данные вводились когда-либо в компьютер, то вероятнее всего их можно найти где-то на необозримых просторах Интернет. Для этого нужен только непосредственно сам компьютер, подключенный к Интернет с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.

С появлением World Wide Web (WWW) - гипертекстовой информационной системы, опутавшей весь мир, связавшей сотни и сотни компьютеров, тысячи и тысячи страниц гипертекстовых документов - без высокоэффективных средств поиска просто не обойтись. Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

Интернет – это информационное пространство, в котором можно отыскать ответ практически на любой интересующий пользователя вопрос. Это огромная глобальная сеть, в которую как информационные ручейки стекаются потоки более мелких сетей. Любой пользователь, располагающий ПК и соответствующими программами, сможет подключиться к сети, используя её возможности для самых разных целей – проведения досуга, обучения, чтения научных работ, отправки электронной почты и т.д. По различным данным, в 2004 г. количество пользователей глобальной системы Интернет составило от 600 до 900 миллионов человек. Это число продолжает стремительно расти и уже в 2006 г. оно достигло миллиарда человек. Сегодня глобальная сеть превращается в важный социальный и политический фактор современного информационного общества. С развитием Интернет-технологий появился новый гигантский источник информационных ресурсов, доступ к которым является не только относительно дешевым, но и очень быстрым.

Поиск в компьютерных сетях становится искусством и требует вполне определённых знаний, которыми современному человеку необходимо овладеть. Я выбрала данную тему реферата, так как считаю что одной из составляющей грамотной работы в Интернет является умение работать в глобальной сети. И для того, чтобы не утонуть во всём изобилии информации необходимо научиться не только её искать, но и находить.

Задачи и стратегии поиска

Дать общий рецепт эффективной стратегии поиска информации в Интернет, пожалуй, невозможно. Есть лишь некоторые принципы, позволяющие тратить меньше времени. Вот некоторые из них. Например, вам необходимо узнать, где обитает трёхлапый ленивец, то вряд ли вы пойдете в алфавитный каталог библиотеки. Может быть, вы найдете нужную литературу с помощью систематического каталога. С несколько большей вероятностью - с помощью предметного. Но, скорее всего, ни один из библиотечных каталогов вам не поможет. Но, зайдя в информационно-библиографический отдел крупной библиотеки, дежурный библиограф достанет библиографический указатель по животным или какую-то похожую книжицу, из которой вы и найдете ответ на свой вопрос. Подобную стратегию можно с успехом применять и в Интернет. В ИПС(информационно-поисковых сетях) общего назначения можно утонуть в тысячах ссылок, выданных вам на простой запрос. Целью использования универсальной ИПС общего назначения может быть поиск специализированной ИПС, посвященной тематике вашего поиска. Такая ИПС может быть распознана по наличию слов "информация (information)", "документ (document)" и т.п. Но часто специализированная ИПС может скрываться на сервере общественной, профессиональной или специализированной организации, издательства.

Этот пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы мыслите в совершенно не тех терминах, которые используют авторы искомых документов (ведь большую роль играют культурные различия!).

Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее эффективны.

Средства поиска информации в глобальной сети


По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.

  1. число, стоящее в круглых скобках около категории, указывает на количество ссылок в категории.;
  2. обозначение @ говорит о том, что подкатегория входит в состав нескольких категорий;
  3. слово new свидетельствует о том, что ссылка была добавлена недавно;
  4. значок с изображением очков указывает на интересную или полезную, по мнению администрации сайта, ссылку.

Механизм поиска Yahoo! Можно активизировать на любой из страниц каталога. Для поиска в пределах всего каталога или одной из страниц используются специальные переключатели и поисковое окно. Поиск в Yahoo! Производится в соответствии с типом адресов, выбираемых с помощью опций меню (размещённого под поисковым окном). Кроме системы адресации, используемой тематическим каталогом, существует возможность обращения по адресам информационной службы Usenet, а также электронной почты. При выборе опций меню Yahoo! Поиск ведётся среди Web-узлов, включённых в каталог служб новостей, относящихся к данной тематике.

В Internet размещаются узлы и других каталогов, снабжённых поисковыми системами, подобными поисковым системам Yahoo!

Ниже перечислены некоторые поисковые каталоги:

Главный недостаток поисковых каталогов Web-ресурсов в том, что их поисковые системы извлекают огромное число документов, не соответствующих вводимому запросу. Как правило, документы, которые находятся в конце списка, содержат мало полезной информации. Ключевые слова могут быть истолкованы системой поиска совершенно в ином контексте либо отвечают нескольким толкованием.


Поисковые машины. Для детального поиска документов используются специализированные поисковые системы – поисковые машины. Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

В настоящее время в отечественных ресурсах действует довольно много поисковых машин. Есть фирменные и даже индивидуальные сайты, которые включают те или иные поисковые машины. Поисковые элементы существуют практически на всех Интернет-газетах и учебных порталах.

Наиболее распространённые из поисковых машин представлены ниже:

Впрочем, есть возможность программно запретить регистрацию всего сайта, или отдельных элементов его, как всеми, так и определёнными поисковыми системами. Для подобных целей служат так называемые мета-теги или мета-определители. Однако это отдельный разговор, кем и с какой целью подобное запрещение делается.

Язык поисковых запросов. Применение языка запросов.


Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать различные знаки препинания. Составлять самые простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова, да ещё и если они находятся на строго ограниченном расстоянии друг от друга. Такой поиск с довольно большой вероятностью закончится отрицательным результатом. И здесь о понятии успешности не может быть и речи. Знание и правильное применение языка запросов поисковой машины поможет сделать поиск быстрым и эффективным.

Что касается регистра, то в общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть слова "реферат", "Реферат", рефеРАт, "РЕФЕРАТ" и "РеФерАт" - все будут восприниматься одинаково. Это полностью касается и латиницы. Так, "Yas" и "yES", и даже "yeS", "yes" и "YES" все они для поиска однообразны. И лишь иногда, в целях повышения качества поиска, регистр поискового запроса принимается во внимание. Если в запросе задано слово с большой буквы, то будут найдены только слова в таком написании, а если с маленькой - оба варианта. Если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например: "М. Лермонтов", "Баден-Баден", "Шарль де Голь", "Федор Михайлович Достоевский" и т.п.

Современные поисковые машины используют операторы для поиска в компьютерных сетях. Под оператором здесь понимается инструкция поиска. По этой причине запрос, включающий несколько слов, может содержать операторы. Поиск указанных операторов в документе не производится. Они служат лишь инструкцией поисковой машине. По этой причине они имеют свою орфографию и синтаксис. Рассмотрим их подробнее.

Логические операторы. Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам, т.е. по запросу “телефон AND мобильный” найдутся только те документы, которые содержат и слово “телефон”, и слово “мобильный” одновременно. Если эти слова встретятся в текстах отдельно, поисковая машина эти тексты не покажет или покажет в конце списка найденных материалов, как только частично отвечающие запросу. Необходимо помнить, что если оператор в явном виде не указан, используется по умолчанию оператор AND. В результате будут выведены документы, содержащие все слова запроса.

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) соответствуют все документы, удовлетворяющие хотя бы одному из этих двух запросов. Например, “телефон OR мобильный” будут найдены документы, в которых присутствует хотя бы одно из этих двух слов, либо оба эти слова вместе.

Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу “телефон NOT мобильный” будут показаны все документы, в которых есть слово “телефон” и при этом в данном документе на установленном расстоянии отсутствует слово “мобильный”.

Каждый из операторов имеет своё сокращенное обозначение, соответствие их приведено в таблице.

В языке запросов обычно один значок оператора означает его действие в пределах абзаца, а два подряд - в пределах всего текста.

Скобки. При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Как правило, в большинстве поисковых машин используют только скобки вида ( ). Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются все правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Кавычки. Для поиска цитат можно использовать типовые (двойные) кавычки, вида « или “. Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том виде и в том порядке, как они были заданы в запросе. Это весьма эффективный способ поиска. Его применение обеспечивает успешность более 60%. Здесь важно учитывать только два момента. Во-первых, цитирование должно быть точным, т.е. без изменения по падежам, числам и лицам, во-вторых, материал, который вы ищите, как минимум должен быть в Интернете. Если при такой форме поиска будет допущена грамматическая ошибка, поиск даст отрицательный результат.

Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу: удовлетворяет документ, содержащий текст '. поезд прибыл для осуществления посадки пассажиров . ', и не удовлетворяют документы: с '.. поезд подошел к платформе для посадки пассажиров . ', или '… поезд был подан для проведения посадки пассажиров…' и т.п.

Метасимволы или маски. Далеко не всякая поисковая машина может поддерживать поиск строк с использованием метасимволов ('*', '?'), которые обычно используются в значении "любая подстрока" и "произвольный (любой) одиночный символ" соответственно. Тем не менее, эти операторы нередко бывают зарезервированы для подобного использования в будущем.

Яndex также позволяет использовать вместо слов целые логические выражения, при этом его необходимо заключить в скобки. Используя наш пример, введём в поле поиска следующее выражение: (информатика учебники) тесты CD-ROM. В результате поиска будет найдено 3564 страниц и не менее 701 сайта, содержащие в себе такую группу слов как (информатика учебники).

Также существуют некоторые слова и символы, которые по умолчанию исключаются из запроса в связи с их малой информативностью. Это - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Очень часто опускаются апострофы и тире. Большинство поисковых машин их знают и сами освобождают от них сформулированный Вами запрос. Это связано с тем, что факт присутствия этих слов может заметно замедлить поиск и отрицательно повлиять на его результат и полноту, а, в конечном итоге, и успешность. В тоже время есть возможность обозначить необходимость этих слов в запросе. Для этого, следует взять запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.

Существует также поиск, с помощью ограничения расстояния. Например, если запрос составлен из нескольких слов без применения операторов и конструкций языка запросов, то машина будет пытаться найти документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда вводится так называемое ограничение контекста - положительное число. По умолчанию принимается расстояние равное 40 словам. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние между словами запроса будет меньше этого числа. В поисковых системах есть возможность задавать порядок следования и расстояние между словами. Расстояние между словами А и В равно: 1 ( В следует сразу за А ), 2 ( В следует за А через одно слово ) и т. д. Или -1 ( В стоит перед А ), -2 … Знак "/" между словами, за которым стоит число, означает, что расстояние между ними не должно превышать этого числа слов.

Если же мы немного изменим наш запрос - информатика/(+1+4)учебники – то мы получим документы, в которых данные ключевые слова будут идти друг за другом в таком порядке на расстоянии от 1 до 4 слов.

Очень часто приходиться также проводить поиск уже в найденной информации, т.е. можно осуществить поиск по документам, найденным по предыдущему запросу. Для этого в конце запроса нужно поставить "$$" или просто сделать отметку в окошке "поиск в найденном", расположенном на странице запроса. Эта функция очень удобна для последовательного сужения поиска.

Язык поисковой машины Яndex обладает наиболее полным набором возможностей в русскоязычном поиске, поэтому, освоив его, вы без труда сориентируетесь в языке запроса любого другого средства поиска.

Владение пользовательскими инструментами и техникой

Заключение

В заключении хотелось бы определить базовый алгоритм поиска.

  1. Прежде всего, определите, к какому разделу относится искомая информация.
  2. Определитесь какую именно поисковую машину лучше использовать. Учитывайте её специфику.
  3. Выявите основные слова (или словосочетания), которые характерны для той информации, которую ищите. Попробуйте выявить ключевые слова.
  4. Задавая отдельные слова и фразы, учитывайте язык запросов, операторы поиска, логические связки искомых слов и т.п. элементы, которые делают поиск значительно более эффективным.
  5. Если вам известна точная фраза из искомых материалов, используйте её как цитату.
  6. После проведения предварительного поиска (или первой ступени поиска), если выдано довольно большое количество документов, воспользуйтесь элементом уточнения: "Искать в избранном". При этом задание поиска следует обязательно уточнить, введя хотя бы одно новое слово или ограничение, которое по вашему мнению поможет провести правильный отбор требуемого материала.
  7. Грамотно располагайте материал и проводите его сортировку по удобным для вас признакам. Это заметно ускорит последующую обработку материала.
  8. Фиксируйте все интересные для вас найденные адреса документов в Интернете (например, с помощью программы Блокнот). Затем выберите среди них нужные для выполнения конкретной работы.

Читайте также: