Доклад на тему поисковые запросы

Обновлено: 17.06.2024

Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.

Файлы: 1 файл

Реферат.doc

Московский технический колледж

«Поисковые системы.

Студента группы П-729

Вахтанга Баргузяна

Москва 2005

Поиск информации

Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее. Различные печатные справочники устаревают ещё до выхода в свет. Единственным надёжным способом поиска информации является использование различных поисковых систем, которые постоянно отслеживают изменение информации в сети.

За время существования Интернета предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие же привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет. Мы рассмотрим поиск информации во Всемирной паутине с помощью нескольких наиболее распространённых систем поиска. Всего же в мире существуют сотни различных поисковых систем, и выбор той или иной системы зависит только от ваших личных пристрастий. Отметим, что поисковые системы часто называют поисковыми машинами или машинами поиска.

Процесс поиска довольно прост: задавая ключевые слова, характерные для искомой информации, мы найдём нужный нам документ. Вне зависимости от того, какой поисковой системой вы пользуетесь, примерный алгоритм поиска информации следующий.

Во многих поисковых системах поле запроса остаётся на странице во время просмотра результатов, и вы можете быстро уточнить запрос и организовать новый поиск. В большинстве систем список включает в себя кроме ссылок несколько строк каждого из найденных документов, чтобы было легче выбрать нужный.

В некоторых системах списки ссылок отсортированы таким образом, что в начале списка вы получите ссылки на документы, наиболее удовлетворяющие вашему запросу. Например, если в документе много раз встречаются слова запроса и несколько слов, включённых в запрос, расположены в документе рядом, то такой документ более полно удовлетворяет запросу. Так как большинство систем осуществляет интеллектуальный поиск в Интернете, то степень соответствия запросу, определённая поисковой системой, не всегда будет совпадать с вашими представлениями.

Следует отметить, что при выполнении запроса поисковая система не ищет документ непосредственно в Интернете. Она обращается к своей базе данных, где в компактном виде собраны данные об информации в Интернете. Возможно, что реальное состояние Интернета несколько отличается оттого, что храниться в базе данных. Поисковые системы постоянно пополняют и обновляют свои базы данных, чтобы минимизировать такое несовпадение. Существует два способа пополнения информации в базы данных поисковых машин:

    1. Разработчик Web-страницы самостоятельно добавляет ссылку на неё в поисковую систему. Большинство систем позволяют это сделать совершенно бесплатно.
    2. Специальная программа, называемая роботом, находит ссылку на новую страницу во Всемирной паутине. Роботы запускаются поисковой системой, что бы проверить, существуют ли ранее найденные документы и не появились ли новые.

Запросы к поисковым системам

Запросы в Google

Языковые инструменты

Оператор intext в свою очередь ищет в самом тексте документа, и только в нем. Это может принести определенную пользу в случае, например, неинформативных или чересчур широких заголовков, зачастую не релевантных основному содержимому страницы.

Еще одна группа операторов так или иначе связана с обработкой ссылок на страницах. Как и в случае с заголовками, здесь тоже можно составлять прямые запросы или же воспользоваться средствами страницы расширенного поиска. Оператор inanchor обеспечивает поиск в тексте ссылок, расположенных на странице. Оператор inurl ищет заданное слово в самой строке адреса, на который ведет ссылка. Оператор link позволяет отловить документы, в которых содержится ссылка на конкретную страницу, найдя тем самым ресурсы, процитировавшие сведения, взятые с конкретной страницы.

Оператор filetype отвечает за поиск по определенным типам файлов (pdf, ps, rtf, doc, xls, ppt и др.) благо Google здесь действительно есть чем похвастаться — набор типов файлов действительно хорош. Наконец, есть группа операторов, предоставляющих ряд дополнительных возможностей Google. Оператор related дает возможность искать страницы, содержание которых подобно контенту уже известной вам страницы (“similar pages”). Пользуясь данным оператором, будьте готовы к тому, что результаты такого поиска не всегда бывают точными. Как известно, Google сохраняет копии индексируемых документов. Получить такую версию можно с помощью оператора cache, после которого указывается URL требуемой страницы. Полезная вещь при работе с часто изменяющимися ресурсами. Еще один служебный оператор — info — выдает сведения о странице, адрес которой вы укажете.

Работа с URL

Любой запрос к Google можно представить в виде ссылки, ведущей на страницу результатов поиска. Эти страницы динамические и генерируются при поступлении вашего запроса. Благодаря этому вы можете получить свой список результатов как воспользовавшись веб-интерфейсом Google, так и перейдя по соответствующим образом сконструированной ссылке, причем результат будет совершенно одинаковый. Такую ссылку можно сохранить в закладках браузера или другом нужном месте. Обращаясь к ней время от времени, вы будете получать свежие результаты поиска по данному запросу, что может быть весьма удобно. Давайте вкратце рассмотрим синтаксис такого прямого URL-запроса. Простейшая ссылка-запрос к Google, которая будет искать страницы о самом Google выглядит так:

При проведении поиска информации в службе www, когда тема задана достаточно широко, целесообразно использовать поисковые каталоги и поисковые указатели. Знание основных понятий и терминов позволяет провести углубленный поиск с применением ключевых слов, наиболее точно характеризующих искомую тему. При этом следует различать приемы простого, расширенного и контекстного поиска.

При использовании расширенного поиска ключевые слова связываются между собою операторами логических отношений(так называемый язык запросов). При помощи логических отношений поисковое задание формулируется так, чтобы более точно детализировать задание и ограничить область отбора.

Контекстный поиск – это поиск по точной фразе. К сожалению доступен не во всех поисковых системах. К тому же эта операции достаточно медленная.

Язык запросов – язык манипулирования данными, позволяющий описывать условия поиска информации, не задавая для этого последовательность действий, нужных для получения ответа.

Порядок действий логических операторов: сначала выполняются действия в скобках ( ), потом операторы AND, NOT и лишь потом OR.

В разных поисковых системах используются различные приемы связывания между собой ключевых слов при помощи логических операторов. В дальнейшем будут приведены правила построения запросов в трех наиболее распространенных русскоязычных системах.

слово1 пробел слово 2

слово 1 & слово 2

слово 1 AND слово 2

Будут найдены все документы, где в одном предложении есть оба слова

машина AND самолёт

Слово 1 or слово 2

Слово 1 | слово 2

Будут найдены документы, содержащие или одно слово, или другое

самолёт or аэродром

Слово 1 not слово 2

Слово 1! слово 2

Будут найдены документы, содержащие первое слово, но без второго

машина not самолёт


Оформление запросов в поисковой системе Яндекс [2]

слово 1 && слово 2

слово 1 & слово 2

+слово 1 +слово 2

одинарный оператор ищет в пределах предложения, двойной – в пределах документа

слово 1 ~~ слово 2

слово 1 ~ слово 2

слово 1 –слово 2

Будут найдены документы с первым словом, но без второго

руководство Visual C ~~ цена

одинарный оператор ищет в пределах предложения, двойной – в пределах документа

именно знак минус, а не тире и не дефис через пробел от предыдущего и слитно с последующим словом

частные объявления продажа

несколько слов, разделённые пробелами, означают, что все они должны входить в одно предложение искомого документа

контекст "а шапочка у неё была красная" найден не будет

поставщики /2 кофе

найдутся "поставщики колумбийского кофе", "поставщики кофе из Колумбии" и т.д.

Будут найдены документы, в которых известны расстояния между словами

+n – это минимальное число слов, а –n – максимальное

музыкальное /(-2 4) образование

музыкальное должно находиться от образования в интервале от 2 слов слева до 4 слов справа

если знаки ограничения стоят после двойных операторов, то употреблённые там числа – это расстояние не в словах, а в предложениях

Код ОГЭ по информатике: 2.4.1. Компьютерные энциклопедии и справочники; информация в компьютерных сетях, некомпьютерных источниках информации. Компьютерные и некомпьютерные каталоги, поисковые машины, формулирование запросов

Поиск информации (информационный поиск) — это информационный процесс, цель которого — получение информации из информационного объекта или из хранилища информационных объектов. Поиск информации является разновидностью процесса обработки информации. Для ускорения информационного поиска создают и используют информационно-поисковые системы.

Информационно-поисковая система (ИПС) — система, выполняющая функции хранения больших объёмов информации, быстрого поиска требуемой информации и её вывода в удобном для человека виде.

Информационно-поисковые системы позволяют добавлять, удалять и изменять хранимую информацию. Существуют информационно-поисковые системы двух видов:

  • документальные (в результате поиска выдаётся документ);
  • справочные (в результате поиска информация предъявляется или сообщается).

Справочные ИПС, в свою очередь, делятся на:

  • фактографические (в результате поиска предъявляется искомая информация, факт);
  • адресные (в результате поиска предъявляется адрес, где информация хранится).

Документальные и фактографические ИПС. Документальными ИПС являются книжные фонды, открытые для доступа в читальных залах библиотек или в магазинах. Однотипные информационные объекты (книги) стоят на стеллажах чаще всего в порядке отраслей знаний (философия, математика, физика и т. п.). Читатель (покупатель), проходя вдоль стеллажей, ищет сначала названия отраслей знаний, а затем книги в разделах.

В словарях однотипные информационные объекты (слова и связанные с ними описания) расположены в алфавитном порядке, что существенно ускоряет поиск нужного слова или словосочетания. В энциклопедиях в аналогичном порядке расположены другие однотипные информационные объекты — статьи с описанием понятий. По такому же принципу организованы алфавитные книжки для записи телефонов и адресов, а также список учеников класса в классном журнале.

В другом порядке — хронологическом — организованы фактографические ИПС, которые называются расписаниями. Имеются в виду расписания занятий, расписания движения поездов, самолётов и т. п.

Адресные ИПС в документах. Адресные ИПС распространены гораздо шире документальных и фактографических. Каждый бумажный документ, исключая словари и энциклопедии, имеет собственную адресную ИПС в виде оглавления (содержания). В оглавлении записаны названия разделов документа и указаны их адреса — номера страниц, на которых эти названия находятся.

Поиск информации в документе состоит из трёх этапов:

  • поиск в оглавлении подходящего названия раздела с адресом (номером страницы);
  • поиск в документе страницы по адресу (номеру);
  • поиск информации в разделе.

Адресные ИПС в хранилищах информационных объектов. В хранилищах бумажных документов (библиотеках, архивах) создаются адресные ИПС, которые называются каталогами.

Традиционные каталоги содержат бумажные карточки с описаниями документов и их адресов в хранилище (номер хранилища, номер стеллажа и т. д.). Адрес документа в хранилище называется шифром. Аналогичным образом организуется хранение и адресация звуко-, кино- и видеозаписей.

Поиск информации в хранилище информационных объектов состоит также из трёх этапов:

  • поиск в каталоге карточки подходящего информационного объекта с адресом (шифром);
  • поиск в хранилище информационного объекта по адресу (шифру);
  • поиск информации в информационном объекте.

Оценка результатов поиска информации. Поиск информации в информационных объектах или в хранилищах информационных объектов редко бывает однократным. Результат поиска всегда оценивается с точки зрения полноты требуемой информации. Если информации недостаточно, поиск других источников информации проводят снова и снова, пока результат не станет удовлетворительным.

Поиск внутри компьютера

Для запуска процесса поиска в поле поиска вводят символы из имени файла или его содержимого. В области просмотра появляется список файлов и папок, которые отвечают запросу. В строке каждого файла указан реальный путь к нему.

Список с результатами поиска анализируется пользователем самостоятельно. Одно можно сказать точно: если файл на самом деле находится в компьютере, то его имя непременно окажется в списке результатов поиска.

Чтобы просмотреть файл в содержащей его папке, по строке файла щёлкают левой, потом правой клавишей мыши, а затем в контекстном меню щёлкают по пункту Расположение файла. В области просмотра открывается папка, содержащая файл.

Поиск в Интернете

Существует несколько сайтов, которые представляют в Интернете поисковые системы (поисковые машины), в том числе русскоязычные:


Поисковые системы представляют собой адресные информационно-поисковые системы. Они обычно включают два компонента:

  • базу рефератов электронных документов, которые размещены на серверах Интернета, вместе с гиперссылками на эти документы;
  • поисковый механизм, который позволяет автоматически по запросу найти информацию в этой базе данных (базе рефератов).

Процедура поиска информации. Для проведения автоматического поиска вводят текстовый запрос в поле поиска поисковой системы.


По умолчанию поисковые системы настроены на поиск в Интернете веб-страниц, которые содержат ключевые слова. Иногда требуется сузить область поиска, чтобы, например, найти новостную страницу или страницу-словарь, либо изменить объект поиска, чтобы, например, найти картинку, музыку, видео.


Для выбора объекта и области поиска поисковые системы в Интернете предлагают меню. После ввода данных щёлкают по кнопке Найти (или аналогичной). Через некоторое время окно браузера обновляется и в нём появляются результаты поиска в виде списка гиперссылок на документы. Этот список может содержать тысячи гиперссылок. По первой двадцатке списка всегда видно, точным ли был запрос. Иногда запрос следует уточнить и запустить поисковую систему ещё раз. В любом случае для получения ответа достаточно просмотреть первую сотню документов, обращаясь к ним с помощью гиперссылок из списка.

Поисковые каталоги. Многие поисковые системы на своих веб-страницах имеют поисковые каталоги, которые построены в виде меню, пунктами которого являются разделы каталога. Принцип построения поисковых каталогов аналогичен принципу построения дерева папок в компьютере. Выбор пункта каталога открывает новое меню, в котором также делают выбор. И так до тех пор, пока на экран не будет выведен список ссылок, входящих в конечный пункт каталога. В процессе поиска следует только правильно определяться с выбором пунктов каталога.

Сохранение информации из Интернета. Просмотр веб-страниц может сопровождаться сохранением информации с этих страниц.

Именно так в Интернете можно собрать информацию для подготовки реферата практически на любую тему.

* Данная работа не является научным трудом, не является выпускной квалификационной работой и представляет собой результат обработки, структурирования и форматирования собранной информации, предназначенной для использования в качестве источника материала при самостоятельной подготовки учебных работ.

Содержание

Информационные ресурсы сети Интернет 2

Типология методов поиска 4

Технология поиска с использованием поисковых машин 6

Владение пользовательскими инструментами и техникой 10

Список литературы 13

Введение

Основная задача Интернет – предоставление необходимой информации. Интернет – это информационное пространство, в котором можно отыскать ответ практически на любой интересующий пользователя вопрос. Это огромная глобальная сеть, в которую как информационные ручейки стекаются потоки более мелких сетей. Любой пользователь, располагающий ПК и соответствующими программами, сможет подключиться к сети, используя её возможности для самых разных целей – проведения досуга, обучения, чтения научных работ, отправки электронной почты и т.д. По различным данным, в 2004 г. количество пользователей глобальной системы Интернет составило от 600 до 900 миллионов человек. Это число продолжает стремительно расти и уже в 2006 г. оно достигло миллиарда человек. Сегодня глобальная сеть превращается в важный социальный и политический фактор современного информационного общества. С развитием Интернет-технологий появился новый гигантский источник информационных ресурсов, доступ к которым является не только относительно дешевым, но и очень быстрым.

Информационные ресурсы сети Интернет

Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д. Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации. Для миллионов людей разных профессий Интернет стал необходимым инструментом в работе и универсальным средством развлечения в часы досуга. В связи с этим возникает потребность в программных средствах, эффективно решающих проблемы поиска необходимой пользователю сети Интернет информации.

Информационные ресурсы, доступные через Интернет, огромны. Это десятки миллионов документов, представленных различными способами, число которых постоянно увеличивается. В зависимости от способа представления, вида и характера информации разнятся и методы доступа к ней, поэтому, прежде чем рассматривать методы поиска, рассмотрим классификацию информационных ресурсов.

По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.

Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.

Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

Типология методов поиска

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит.

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

1. Непосредственный поиск с использованием гипертекстовых ссылок.

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

2. Использование поисковых машин.

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

3. Поиск с применением специальных средств.

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска. Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.

Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.

Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

4. Анализ новых ресурсов.

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

Технология поиска с использованием поисковых машин

Определение географических регионов поиска

Поскольку проведение информационного поиска преследует практические цели - практическая ценность информационного ресурса может зависеть от географического расположения соответствующего источника.

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

Использование законов Зипфа

Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется ранг частоты. Вероятность обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф нашел, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

С = (частота вхождения слов X ранг частоты) / число слов

Это значит, что график зависимости ранга от частоты - равносторонняя гипербола.

Зипф также установил, что зависимость количества слов с данной частотой от частоты - также гипербола и постоянная для всех текстов в пределах одного языка.

Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой как правило являются предлогами, частицами, местоимениями, в английском языке - артиклями (так называемые "стоп-слова"), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую методику.

Составление списка ключевых слов

Для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится таким образом:

Удаление из текста стоп-слов.

Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.

Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.

Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала.

Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

Отбор поисковых машин

Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Составление и выполнение запросов к поисковым машинам

Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа.

Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена.

Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов - как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Анализ ресурсов и сбор информации

Первичный анализ ресурсов основывается на аннотациях - в случае их наличия, и в необходимых случаях - на ознакомлении с информационным наполнением ресурса. Информация с отобранных источников извлекается с использованием соответствующих конкретному источнику методов, что может потребовать значительных коммуникационных, вычислительных и дисковых ресурсов.

В русскоязычной части Интернета в настоящее время доступен ряд ресурсов, предоставляющих вторичную информацию, как правило, в табулированной форме. Предоставление информации для публикации в подобных источниках является более дешевым вариантом для компаний, не имеющих собственного представительства в Интернете.

Владение пользовательскими инструментами и техникой

Следует не забывать о команде Find броузера. Если ваш броузер имеет в меню Файл, Правка или Вид команду Find (Найти), используйте ее для обнаружения трудноуловимых ключевых слов страницы. Чтобы отыскать слово, которое вам нужно, воспользуйтесь комбинацией клавиш CTRL+F в вашем броузере и введите искомое ключевое слово.

Необходимо так же фиксировать результаты ссылками и закладками:

1. Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Добавить в "Избранное". Используйте подобные механизмы для регистрации предварительных результатов поиска в процессе беглого отбора с целью дальнейшего подробного изучения.

2. Поддерживайте свою персональную коллекцию ссылок в рабочем состоянии: актуализируйте и систематизируйте ее, удаляйте устаревшие и ненужные.

3. Некоторые машины поиска, например AltaVista, позволяют отмечать закладкой успешный результат поиска. Благодаря этому позднее можно вернуться к данной подборке документов и просмотреть ее.

4. Существуют специализированные программные средства - интегрируемые модули расширения для стандартных броузеров, которые индексируют информационные ресурсы ранее посещаемых узлов. Они способны выполнять полнотекстовый поиск документов на любом узле, включая результаты обработки запросов.

Сохраняйте копии важных документов. Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл - Сохранить как… для создания копий необходимой вам информации из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите некоторые проблемы:

1) изменчивости и недолговечности WWW (когда со своих адресов со временем исчезают страницы и целые сайты),

2) концентрации внимания исключительно на целях определенного этапа поиска (например отбор адресов или предварительный просмотр найденной информации),

3) экономии времени on-line подключения и перевод изучения отобранных материалов в режим off-line.

Отключайте вывод изображений. Если вы не желаете видеть многочисленные рекламные заставки и для вас важен не дизайн сайтов, а их содержательная информация, измените заданный режим просмотра в броузере на режим вывода только текста (исключив возможности мультимедиа). Это значительно увеличит скорость поиска. При этом, если возникнет необходимость быстрого просмотра важной графической информации, воспользуйтесь пунктом контекстного меню Показать рисунок, кликнув для его вызова правой кнопкой мыши в место невыведенного рисунка.

Заключение

В сети Интернет хранится очень большой объем информации по различной тематике в виде статей в электронных газетах, отчетов, справочников, графических изображений, аудио- и видео-файлов и многого другого. Путешествуя по Интернет, можно найти любую информацию, не выходя из дома или офиса, иначе говоря, если какие-либо данные вводились когда-либо в компьютер, то вероятнее всего их можно найти где-то на необозримых просторах Интернет. Для этого нужен только непосредственно сам компьютер, подключенный к Интернет с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.

С появлением World Wide Web (WWW) - гипертекстовой информационной системы, опутавшей весь мир, связавшей сотни и сотни компьютеров, тысячи и тысячи страниц гипертекстовых документов - без высокоэффективных средств поиска просто не обойтись. Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

Поисковая машина генерирует список документов, релевантных запросу пользователя. Если запрос не выражает то, что нужно найти, – соответственно, результаты поиска будут не те, которых вы ожидали.

Поэтому для эффективного поиска, в первую очередь, необходимо правильно сформулировать поисковый запрос. Его составляют так, чтобы область поиска была максимально конкретизирована и сужена. В запрос следует включать несколько ключевых слов, наиболее полно раскрывающих суть предмета, информацию о котором вы ищете.

Примечание

Основную смысловую нагрузку в поисковом запросе несут имена существительные, гораздо реже нужны прилагательные, а использовать в поисковом запросе глаголы практически бесполезно.

Если в результате вы получите наиболее релевантные ссылки в верхней части списка, то можно считать, что поиск был произведен успешно.

Примечание

Не следует составлять слишком сложный запрос, так как в результате может быть не найдено ни одного документа. Оптимальным результатом поиска является 10–20 ссылок, среди которых можно быстро отыскать две-три нужные.

При поступлении запроса от пользователя поисковая машина просматривает всю проиндексированную информацию и выдает соответствующий список документов. Поисковые механизмы на первом месте располагают документы, которые содержат максимум слов из вашего запроса. Найденные ссылки сортируются в зависимости от месторасположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления. Таким образом, в верхней части списка, полученного с помощью поисковой машины, размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете – получить список ссылок, которые максимально соответствуют поисковому запросу.

Чрезвычайно важно при поиске информации в Интернете – как можно больше сузить область поиска. Найти нужные сайты возможно только в том случае, если пользователь сумел подобрать в поисковом запросе именно те слова, которые действительно несут основную смысловую нагрузку.

В идеале процесс поиска должен выглядеть примерно так. Сначала лучше сформулировать общий запрос и получить результат, в котором следует выделить описания более-менее подходящих ссылок. Затем необходимо добавить к запросу общие ключевые слова, которые есть в описании нужных веб-страниц, и повторить процесс. Если вы все делаете правильно, то каждый запрос должен приближать вас к нужной информации. Вы должны выступать в виде своеобразной обратной связи, с каждым шагом уменьшая несоответствие между необходимой вам информацией и тем, что выдает поисковая система.

У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит результативность поисковика, то есть релевантность полученного списка ссылок, и как результат – успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.

В настоящее время поисковые механизмы ищут документы не только по строгому соответствию введенному запросу. Все поисковые машины, которые работают с русскоязычным текстом, умеют проводить морфологический поиск. Это означает, что программа будет искать формы слов, включенных в поисковый запрос, а также их синонимы. То есть поиск будет касаться не только определенного падежа или числа, но и всей парадигмы слова.

Сегодня многие поисковые машины используют технологии полнотекстового поиска. Этот способ отличается прежде всего тем, что поиск документов в этом случае не зависит от наличия словаря синонимов и форм использованных в запросе слов и позволяет находить документы в тех случаях, когда смысл слова меняется в зависимости от контекста. Второе важное отличие полнотекстовых систем – они работают со всем текстом документа, а не только с ключевыми словами.

Согласно общей классификации, поиск бывает простым, расширенным и сложным.

Чаще всего большинство пользователей применяют именно простой поиск. Принцип его использования описан выше: необходимо сформулировать запрос и получить список ссылок, соответствующих ему.

Самая важная задача этого этапа – правильно подобрать слова для создания поискового запроса. Они должны быть, во-первых, характерными для документов, которые вы ищете, во-вторых, нехарактерными для нерелевантных документов.

Получив список ссылок, следует провести его обработку. В первую очередь, увидев результат и определив ненужные ссылки, вы сможете уточнить поисковый запрос – либо сформулировать его по-другому, либо использовать его для построения дополнительного запроса.

Расширенный поиск (в зарубежных системах – Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. Большинство поисковых машин работают с этой технологией. Для перехода к расширенному поиску предназначена специальная ссылка на главной странице поисковой машины (рис. 9.1).


Рис. 9.1. Окно расширенного поиска поисковой машины Google

В данном режиме с помощью специальных средств можно задать более точные критерии отбора и сузить область поиска. В этом случае расширенным является только набор критериев поиска, а вот область поиска в большинстве случаев существенно сужается.

Параметры расширенного поиска у разных поисковых машин похожи, но их использование и построение запроса могут несколько различаться. Рассматриваемый способ относится к профессиональным инструментам поиска. Здесь доступно гораздо больше параметров запроса, но правильное их применение позволит получить гораздо лучший результат.

Для запуска предназначена специальная ссылка рядом с полем для поиска. Вам необходимо заполнить поля формы, в результате поисковая машина на основе заданных параметров сформирует сложный запрос и выполнит его. Для успешного использования всех возможностей расширенного поиска необходимо изучить его особенности и доступные возможности.

Рассмотрим некоторые инструменты расширенного поиска. В поисковых системах Google и Rambler доступна настройка типа вхождения поискового запроса на искомые страницы. При этом возможны следующие варианты.

• Любое слово. В результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае количество полученных ссылок велико. Такой поиск может быть удобен, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, задайте в поисковом запросе оба названия.

• Все слова. В этом режиме формируется список всех индексированных страниц, содержащих все ключевые слова в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу.


Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки другими параметрами. Например, вы можете задать поиск страниц только на одном языке, ограничить сайты определенным диапазоном дат обновления (это удобно, если вам нужно, например, найти только самые новые документы). Кроме того, вы можете задать поиск документов определенного типа (например, только HTML, DOC, RTF, PPT или PDF-файлы).

Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Например, вы можете указать, что фраза поискового запроса должна встречаться только в заголовке страницы или же в основной части, в адресе или в любом месте документа.

Еще одно удобное решение, доступное среди параметров расширенного поиска, – поиск фразы запроса на определенном сайте. Такая возможность на сегодняшний день доступна для всех поисковых машин, она позволяет получить список документов с одного сайта. Например, на сайте с базой данных рефератов вы хотите найти реферат по нужной теме. Можно, конечно, вручную пересмотреть разделы каталога, приблизительно соответствующие вашей теме, но лучше задать запрос и провести поиск на этом веб-ресурсе. Поисковая машина предоставит вам список страниц, на которых находится нужная информация, только данного сайта (рис. 9.3).


Рис. 9.3. Поиск Rambler для определенных сайтов

Сложный поиск предусматривает возможность использования особенностей специального языка поисковых запросов. Хотя для каждой поисковой системы существует свой, уникальный язык запросов, их возможности похожи.

Язык запросов практически каждой поисковой машины содержит операторы двух типов: логические и операторы расстояния.

• Логические операторы определяют включение/исключение из поиска группы слов.

– AND (и) – поиск документов, содержащих все термины, соединенные данным оператором.

– OR (ИЛИ) – текст должен содержать хотя бы один из терминов, соединенных данным оператором.

– NOT (НЕ) – поиск документов, в тексте которых отсутствуют термины, следующие за оператором.

• Операторы расстояния ограничивают порядок следования и расстояния между словами.

– NEAR – второй термин должен находиться от первого на расстоянии, не превышающем определенного количества слов.

– FOLLOWED BY – термины следуют в заданном порядке.

– ADJ – термины, соединенные оператором, являются смежными.

Наряду с этими, наиболее типичными, в язык поисковых запросов могут входить и другие операторы.

В разных поисковых машинах каждому из этих операторов соответствуют свои обозначения. Обычно детальнее узнать о них можно на странице помощи. Ниже я расскажу о некоторых элементах языка поисковых запросов самых популярных поисковых машин. Работу операторов сложного поиска рассмотрим на примерах решения наиболее типичных задач.

• Найденные ссылки должны содержать точную фразу поискового запроса.

Такую фразу следует заключить в кавычки. Это правило справедливо для всех поисковых машин.

• В найденных документах должно быть несколько слов из поискового запроса.

• В документе должно быть хотя бы одно слово поискового запроса.

• Одно слово поискового запроса должно обязательно входить в результирующие ссылки.

• Из итогового списка ссылок необходимо исключить документы с определенными словами.

• Слова поискового запроса должны располагаться на определенном расстоянии друг от друга.

Если вы точно знаете не только расстояние, но и порядок слов запроса, в котором они должны идти в тексте интересующих вас страниц, укажите между символом / и числом-расстоянием символ + для прямого порядка слов или – для обратного.

Все слова, которые вы приводите в запросе, по умолчанию ищутся с учетом морфологии. Чтобы отключить ее, введите оператор! перед словом (без пробела).

Например, на запрос! день будут найдены страницы, где слово день встречается только в такой форме.

Если одна или несколько форм слова совпадает с другими словами, могут найдены лишние страницы. Указав нормальную форму слова с помощью оператора!! вы уберете из списка ненужное.

Дополнительной возможностью является поиск среди обнаруженных страниц. Если ссылок найдено слишком много, то всегда можно добавить к запросу еще одно ключевое слово и повторить поиск.

Данный текст является ознакомительным фрагментом.

Продолжение на ЛитРес

Получение заголовков запроса

Ввод запроса в строке поиска

Ввод запроса в строке поиска Пользоваться строкой поиска очень просто: откройте папку, в которой нужно найти файл, и наберите в строке поиска имя файла. Уже после ввода первых символов имени начнется фильтрация содержимого папки и в области просмотра отобразятся объекты,

Сохранение поискового запроса

Сохранение поискового запроса Если вам часто приходится выполнять поиск по определенному набору параметров, имеет смысл сохранить этот набор, чтобы при необходимости быстро обратиться к нему, а не вводить запрос каждый раз.Чтобы сохранить запрос, выполните поиск по

Глава 2 Секреты поиска файлов в Интернете

Глава 2 Секреты поиска файлов в Интернете Прежде чем станет возможной загрузка искомого файла, этот самый файл необходимо найти. А чтобы результат поиска был именно таким, каким вы его ожидаете — успешным, необходимо правильно и точно формулировать запросы в поисковой

Глава 4 Секреты поиска в Интернете

12.16.2 Секция запроса

Выполнение поискового запроса

Выполнение поискового запроса В предыдущем упражнении вы выполнили поисковый запрос чтобы познакомиться с интерфейсом системы поиска. Однако запросы предоставляют больше возможностей, чем просто ввод одного слова. Чтобы найти необходимую информацию, может

Наращивание массы контента и ожидания от поискового продвижения

Наращивание массы контента и ожидания от поискового продвижения В условиях работы MatrixNet единственными людьми, которые более или менее достоверно знают, что происходит, являются SEO-аналитики. Это связано с тем, что при ранжировании документов учитываются сотни факторов,

Наращивание ссылочной массы и ожидания от поискового продвижения

Наращивание ссылочной массы и ожидания от поискового продвижения Количество внешних ссылок, ведущих на страницы разных тематических кластеров, относится к числу простых метрик, улучшение которых почти наверняка улучшит позиции портала в поисковой выдаче. Ранее я уже

Создание простого запроса

Создание простого запроса К данным таблиц можно обратиться, затем извлечь их, выполнить какие-либо вычисления – все это осуществляется с помощью запроса на выборку. Та ким способом также можно получить любую информацию о данных, выполнить фильтрацию данных, внести

Изменение запроса

Использование запроса

Использование запроса Если вы создали запрос, то что нужно сделать для его запуска и как вывести на печать результаты выполнения запроса? Ответы на эти вопросы даны в этом разделе.Выполнение запросаЗапрос – это обращение к данным для получения какой-либо информации либо

Ввод запроса в строке поиска

Ввод запроса в строке поиска Надеемся, вы еще не забыли, где находится строка поиска? Да-да, в правом верхнем углу окна папки. Поэтому если хотите найти какой-нибудь файл или папку, просто откройте окно первой попавшейся папки (например, личной) и введите в строку поиска имя

Читайте также: