Полнотекстовые базы данных и технологии поиска документов реферат

Обновлено: 02.07.2024

С точки зрения профессиональной информационной деятельности одной из главных и наиболее ценных составляющих всего совокупного потенциала Интернет являются электронные библиотеки. Само словосочетание "электронная библиотека" относительно новое и еще не имеет общепринятого научного толкования. Под электронными (цифровыми, виртуальными) библиотеками разные исследователи понимают различное содержание: начиная с простого перечня файлов на любом компьютере и заканчивая всем содержательным наполнением Интернет. На наш взгляд электронные библиотеки можно определить как упорядоченные коллекции разнородных электронных документов, снабженные средствами навигации и поиска. Подобное толкование позволяет выделить столь важную отличительную черту электронных библиотек как обязательное наличие заданной структуры и навигационно-поисковых средств, обеспечивающих ориентирование в документах. Это дает возможность исключить из понятия "электронная библиотека" беспорядочные файловые массивы, не объединенные единой иерархической структурой и системой индексации. Термин "разнородные" позволяет отделить электронные библиотеки от архивов периодических изданий, в которых представлены выпуски лишь одного издания. В таком понимании мы и будем рассматривать в дальнейшем данный термин.
Начало созданию электронных библиотек было положено в 60-е годы в Соединенных Штатах Америки. Собрания разнообразных электронных документов формировались в военных, академических и образовательных организациях, а также крупнейших промышленных корпорациях под конкретные задачи. Ситуация периода 50-70-х годов характеризуется весьма распространенным в то время термином - "информационный взрыв". Суть этого явления заключалась в достижении предельного порога, ограничивающего возможности освоения информационного массива потенциальным потребителем информации. Иными словами, количество изданий, посвященных определенной отрасли знания, стало настолько велико, что превзошло физические возможности отдельного человека в освоении всего объема новых данных даже в пределах сравнительно узких отраслей знания. Неудивительно, что этот период характеризовался господством взглядов, согласно которым легче и дешевле повторить исследование, нежели найти результаты уже проведенных аналогичных разработок.
В такой ситуации именно формирование электронных библиотек позволило укротить казавшийся безудержным вал информации и заставило по-новому взглянуть на возможности хранения и поиска данных. Сказалось главное преимущество цифровых документов - разыскания в них могли вестись не только по сведениям титульного листа, но и по всему тексту. Эта особенность кардинально расширяла возможности информационного поиска: гигантские массивы документов, представленные в виде компьютерных файлов, могли быть просмотрены за считанные минуты, с выделением релевантных источников из многих тысяч изданий. Образно говоря, нескончаемые ряды книжных стеллажей с пыльными фолиантами, пугающими своими объемами, стали "прозрачны" для читателей - появилась возможность быстро просматривать все их содержание под любым ракурсом, в любом аспекте, вычленяя необходимое и отсеивая ненужное.
Первоначальные характеристики электронных изданий были более чем скромны. Простейшие текстовые ASCII файлы не допускали даже таких примитивных полиграфических изысков как курсив и выравнивание заголовков по центру. Однако по мере совершенствования технологий в 90-е годы электронные тексты стали обогащаться иллюстрациями, графиками и таблицами, обретая вид, близкий, а порой и полностью идентичный своим бумажным аналогам.
Гигантский импульс развитию электронных библиотек был придан началом эры глобальных компьютерных сетей. Интернет в неизмеримое число раз увеличил аудиторию потенциальных посетителей электронных библиотек, которыми стали фактически все пользователи Сети. Доступность расположенных в глобальных сетях документов для огромной аудитории повсеместно побудило целые корпорации и отдельных граждан серьезно заняться формированием цифровых собраний, число которых исчисляется ныне десятками тысяч и продолжает стремительно увеличиваться.
С точки зрения возможностей применения в информационной деятельности сетевые электронные библиотеки логично разделить на две основные категории: бесплатные электронные коллекции текстов и коммерческие полнотекстовые базы данных.
^ ЭЛЕКТРОННЫЕ КОЛЛЕКЦИИ ТЕКСТОВ
Бесплатные электронные библиотеки формируются, как правило, отдельными энтузиастами или сообществами, заинтересованными в продвижении собственных взглядов. Несколько менее распространенной разновидностью существования бесплатных электронных собраний является их организация и поддержка с целью превратить сайт в посещаемый портал с возможностью получать устойчивый доход от размещаемой рекламы.

^ Первая страница Библиотеки Максима Мошкова. Более чем скромный дизайн и примитивная структура. Зато объемы внушают уважение.

^ Первая страница романа Жюля Верна "Двадцать тысяч лье под водой" из фондов netLibrary.

^ Вид статьи в формате PDF из базы данных ProQuest.

^ Вид списка результатов поиска в ProQuest.

В профессиональных базах данных полные тексты предстают перед пользователем в виде HTML-документов или PDF-файлов. Особенностью последних является способность представлять документ именно в том виде, как он существует в печатной копии, с сохранением колонок, таблиц, иллюстраций и т.д. В тоже время все содержание такого документа может быть доступно для поиска (проиндексировано). Источники в PDF можно не только просматривать (читать) в онлайновом режиме, но и сохранять на собственном компьютере для дальнейшей работы.
Пользование коммерческими базами осуществляется по предварительно подписке, которая оформляется, как правило, на один год. Технически доступ осуществляется по предварительно выданным имени пользователя и паролю или по IP-адресу. Последний способ наиболее выгоден для организаций, в частности библиотек, поскольку позволяет предоставлять пользование такими базами данных с любых компьютеров, расположенных в учреждении (находящихся за одни IP-адресом).
В настоящее время стоимость доступа к полнотекстовым базам данных весьма высока. Серьезные затраты на сканирование и распознавание текста, описание и индексирование документов, приобретение лицензий от владельцев авторских прав делают себестоимость конечного продукта весьма высокой. Сравнительно малое число подписчиков заставляет владельцев электронных собраний держать высокие цены, дабы окупить собственные затраты и получить прибыль (при существенном повышении числа подписчиков стоимость доступа для каждого отдельного пользователя может быть значительно снижена). Однако уже сегодня возможность получения огромного массива данных в любой точке земного шара, где есть доступ к Интернет, привлекает все более значительное число пользователей, среди которых безусловное лидерство держат крупные корпорации, деятельность которых основывается на анализе информации. Высокая стоимость доступа для остальных категорий пользователей несколько смягчается позицией традиционных библиотек, которые в ряде случаев предпочитают подписку на полнотекстовые базы данных, непосредственному приобретению книг и журналов в собственный фонд.
Кроме того, практически все коммерческие базы данных позволяют в той или иной мере воспользоваться своими ресурсами без оформления платной подписки. Некоторые базы можно весьма эффективно применять в качестве библиографических источников, без возможности получать полные тексты документов. Типичным примером является сервис Library Reference Center (http://search.epnet.com/reflogin.asp) компании EBSCO, позволяющий осуществлять библиографический поиск в базе данных статей из более чем 30 ведущих англоязычных библиотечных журналов. Другие полнотекстовые библиотеки открывают доступ для всех желающих в "непиковое" время или на определенный период - в виде "ресурса месяца" и подобных формах. Внимательное изучение характеристик представленных источников поможет выявить те из них, которые обладают дополнительными ценными свойствами. Классическим примером служит предоставление компанией ProQuest доступа к авторефератам диссертаций, защищенных в США, Канаде и Тихоокеанском регионе за последние два года (http://wwwlib.umi.com/dissertations). Эта база позволяет выполнять многоаспектный поиск, просматривать полные тексты авторефератов в виде сканированных копий и выводить их на печать. Наконец последним и практически уникальным "ключом" к ресурсам коммерческих цифровых собраний при ограниченности бюджета является оформление бесплатного "пробного доступа" (free trail). Естественно, что такие методы мало годятся для систематического использования ресурсов, однако крайне полезны для детального ознакомления с возможностями различных баз данных.
В настоящее время к наиболее значимым коммерческим полнотекстовым проектам относятся следующие:

^ Зарубежные коммерческие полнотекстовые базы данных

Один из крупнейших комплексов баз данных, включающий в общей сложности более 31 тысячи источников, многие из которых представляют собой текущие периодические издания. Проект начинался как полнотекстовая база данных юридической тематики, которая была затем дополнена новостными источниками, правительственными документами, финансовой информацией и академическими собраниями. В настоящее время в различной степени охвачены практически все отрасли знания. Помимо прочих, включено некоторое число русскоязычных изданий. В настоящее время LexisNexis - собственность Reed Elsevier Inc.

Dialog - первая онлайновая информационно-поисковая система в мире. Открытие датируется 1972 годом, когда в составе имелось всего две базы. В настоящее время Dialog включает 573 базы данных, относящихся к самым различным отраслям знания. Представлены правительственные документы, архивы периодических изданий, материалы по бизнесу и финансам, энергетике, химии, фармацевтике, медицине, наукам интеллектуальной собственности, технике, естественным и общественным наукам. Ныне собственность Thomson Corporation.

Линия продуктов ProQuest включает порядка сотни основных баз данных, среди которых отраслевые и тематические полнотекстовые собрания, реферативные и библиографические базы данных, электронные архивы известнейших газет и журналов. Имеет договоры с более чем 8.500 издательств по всему миру, в соответствии с которыми получает компьютерные версии изданий в момент или даже до появления печатных оригиналов. Подобным образом пополняются базы периодических изданий, среди которых Washington Post, Wall Street Journal, USA Today, отраслевые базы данных Accounting and Tax Database, Criminal Justice Periodical Index, ProQuest Religion, ProQuest Telecommunications и многие другие.
ProQuest также целенаправленно занимается оцифровкой имеющих большую историческую ценность законченных собраний, которые включаются в линию продуктов под названием "Digital Vault" ("Цифровой свод"). Примерами могут служить полнотекстовые базы "Women's History Online", " Genealogy and Local History Online", "Early English Books Online", полные архивы газет Christen Science Monitor, New York Times и другие.
К настоящему моменту суммарный объем ProQuest превышает 5.5 миллиардов страниц и число их продолжает стремительно увеличиваться. Полные тексты представлены в нескольких вариантах: HTML, HTML с встроенной сканированной иллюстрацией и PDF. Тенденция - полный переход на PDF.

Представлено более 250 баз данных относящихся к бизнесу и финансам, сельскому хозяйству, медицине, фармакологии, естественным и общественным наукам. Среди прочих баз данных - MEDLINE с возможностью получения доступа к полным текстам документов. Предоставляется 30-дневный пробный доступ.

Представлено более 200 баз данных сугубо академической направленности. К некоторым базам данных предоставляется бесплатный пробный доступ сроком на 4 дня (определяется по IP-адресу) - STN Sneak Preview. Однако используемая поисковая система базируется на telnet и потому крайне сложна для освоения.

Проект образован в 1998 году как служба, ориентированная на работу прежде всего с реальными библиотеками. Предлагается более 37 тысяч электронных книг (eBooks). Допускается поиск по полным текстам, обращение к словарю, использование закладок и даже записи на полях. В бесплатном доступе находится десяток книг, демонстрирующих возможности работы с электронными изданиями. В настоящее время netLibrary является структурой OCLC.

^ Российские коммерческие полнотекстовые базы данных

Проект Российского Фонда Фундаментальных исследований, целью которого является обеспечение доступа российских научных организаций, включая научные библиотеки, к зарубежной академической периодике преимущественно естественнонаучного профиля. Включены полные тексты книг и журналов, публикуемых известнейшими зарубежными издательствами, среди которых Blackwell, Kluwer, Elsevier, Springer, Royal Society of Chemistry, а также ISI (Институт научной информации). Доступ ко всему массиву предоставляется бесплатно после заключения договора между Научной Электронной Библиотекой и академической организацией. Есть также частичный бесплатный тестовый доступ.

^ Интерфейс ввода запроса в базе данных Интегрум-Техно.

^ Арнаутов С.А. Роль и место научных электронных библиотек // Электронные библиотеки - 2001.- Т.4, Вып. 6

Земсков А.И. Электронные библиотеки и развитие Информационного Общества в России // Электронные библиотеки. - 2001.- Т.4, Вып. 6

Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта.

Основной задачей, возникающей при работе с полнотекстовыми базами данных, является поиск документов по их содержанию. Однако ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные, в частности, поисковыми машинами в Internet, зачастую не обеспечивают адекватный выбор информации по запросу пользователя.

Проблема заключается в сложности точной формулировки запроса. Это может быть связано с рядом причин, как-то: недостаточным знанием терминологии предметной области, наличием в языке многозначных и синонимичных слов или даже орфографическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе.

Перенос технологий обработки текста с языка на язык не сводится к простой замене лингвистического наполнения. Поэтому реализация совместимости interMedia Text и RCO потребовала включения ряда оригинальных алгоритмов, отличных от используемых Oracle. Необходимо признать, что отсутствие на рынке некоторых важных компонентов лингвистической поддержки, в частности семантического словаря русского языка (который уже существует для английского), также заставило разработчиков искать новые решения.

Новая версия продукта RCO 3.0 в полной мере задействовала лингвистические и аналитические технологии компании, а также многолетний опыт работы в области интеллектуальных информационно-поисковых систем. Поэтому параллельное описание алгоритмов interMedia Text и RCO позволит читателю охватить значительную часть спектра современных языковых технологий и оценить возможности, открытые ныне разработчикам.

В целом иерархия категорий, описанных в тезаурусе, насчитывает до семи уровней вложенности и включает несколько тысяч тем по основным отраслям знаний.

Легко догадаться, что использование тезауруса в interMedia Text может оказать неоценимую помощь при контекстном поиске за счет расширения слов запроса различными видами близких по смыслу слов.

Наиболее примечательной оказывается способность interMedia Text проводить тематический анализ текста на английском языке. Текст каждого документа подвергается процедурам лингвистической и статистической обработки, в результате чего определяются его ключевые темы.

Относя каждое слово текста к соответствующим разделам тезауруса и учитывая частоту встречаемости слов, interMedia Text может выделить до 16 главных тем документа.

Другой замечательной способностью, которой обладает как RCO, так и interMedia Text, является автоматическое реферирование текста, которое происходит в ходе тематического анализа. При этом по каждой из выделенных тем выстраивается тематическое резюме, а также общее — реферат текста. Резюме формируются из фрагментов текста, причем если interMedia Text опирается на формальную разметку (наподобие html-тегов), то алгоритмы RCO способны самостоятельно членить текст на группы предложений, связанных общностью содержания, — сверхфразовые единства. В тематические резюме включаются лишь наиболее представительные, информативные фрагменты по соответствующим темам, в то время как общий реферат строится из фрагментов по всем главным темам документа. Визуализация списка ключевых тем и резюме при просмотре найденных документов ускоряют выбор требуемой информации. Так, взгляд на небольшой реферат может подсказать, следует ли читать документ полностью.

Отсутствие тезауруса в RCO не позволяет пока задействовать все возможности расширения запроса при контекстном поиске документов аналогично тем, которые доступны для английского языка при работе с interMedia Text. Например, невозможно расширение слов запроса синонимичными, более общими или более частными, родственными по смыслу понятиями. Однако взамен этого RCO 3.0 обладает уникальной способностью, отсутствующей в interMedia. В отличие от предопределенных и очевидных связей, которые обычно задаются в тезаурусе, RCO устанавливает смысловые связи между темами, выявляя их в тексте динамически, так что большинство из них оказываются уникальными для каждой коллекции документов.

Заметим, что в следующую версию RCO войдут полноценный тезаурус русского языка, включающий синонимические отношения, и многоуровневый тематический классификатор по устоявшимся отраслям знаний.

Остановимся кратко еще на одной полезной возможности — функции нечеткого поиска, позволяющей расширить запрос словами, близкими по написанию. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании, — фамилии, названия организации и т. п.

Все описанные возможности interMedia Text и RCO могут использоваться совместно в сочетании со средствами контекстного поиска документов по содержащимся в них словам и фразам, при необходимости с булевыми операциями, они поддерживаются языком запросов вместе с традиционным синтаксисом SQL при поиске документов по реляционным атрибутам. Поэтому можно утверждать, что совместное использование interMedia Text и RCO практически покрывает весь спектр услуг, необходимых пользователю для доступа к информации базы данных.

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективных управленческих решений, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах деятельности, в том числе и в управленческой. С одной стороны, современные компьютерные технологии позволяют создать автоматизированную информационно-поисковую систему (ИПС) по документам организации, не только отвечающую требованиям ГСДОУ, но и обладающую высочайшей оперативностью поиска необходимых документов. С другой стороны, эти технологии представляют возможность существенно модернизировать традиционную ИПС, придав ей функции не только поиска документов, но также хранения их текстов в соответствующей памяти (базе данных) и предоставление их пользователю по запросу. Спектр документов (документальной информации), для которых эффективно применение рассматриваемых технологий, весьма и весьма обширен; ограничение его определяется лишь условиями доступности (служебное пользование, секретность и др.).

Цель документального поиска — нахождение и выдача соответствующих запросу пользователя документов или их описаний.

При автоматизации поиска документальной информации важнейшими являются задачи формализации содержания документа и запроса. При решении этих задач могут использоваться различные подходы.

Первый подход состоит в том, что содержание документа, а также его характеристики (дата издания документа, автор и т. п.) отображаются в некую структурированную информацию, представляющую собой, например, запись реляционного файла. В этом случае поиск документа сводится к поиску структурированной информации средствами системы управления базой данных (СУБД).

Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации.

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

В документальных информационно-поисковых системах, их также называют библиографическими, поиск документа происходит по краткому формализованному описанию его содержания - так называемому поисковому образу документа (ПОД).

Основная идея поиска по ПОД состоит в том, что центральная тема документа выражается в виде краткого текста. В простейшем случае функцию такого краткого текста выполняет заглавие документа, в качестве которого в самом начале используется первая фраза документа. Это освобождает пользователя (библиотекаря) от необходимости просматривать весь текст документа, что значительно повышает скорость поиска.

Важнейшей структурной составляющей документальной информационно-поисковой системы является информационно-поисковый язык (ИПЯ).

Информационно-поисковый язык – искусственный язык для выражения содержания документов или запросов с целью последующего поиска. Основное назначение ИПЯ – установить принадлежность того или иного документа к определенной группе понятий. Перевод текстов документов и запросов на ИПЯ называется индексированием. В результате индексирования содержание документа отображается в ПОД, а содержание запроса – в поисковое предписание (ПП). Индексирование может быть ручным (когда его производит человек) или автоматическим.

К настоящему времени разработан ряд ИПЯ, носящих как общеотраслевой, так и специальный характер, например, Универсальная десятичная классификация (УДК), классификаторы документов, отраслевые дескрипторные языки. Однако разработка документальных информационно-поисковых систем (ДИПС) для управленческих документов, как правило, требует разработки собственного ИПЯ, адекватного данной предметной области.

Для общения человека с компьютером разрабатываются специальные искусственные языки. Естественный язык в этом качестве пока не может быть использован без специального предварительного преобразования.

Искусственный язык, как правило, разрабатывается на основе естественного, при этом устраняется многозначность слов последнего. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, состоящие из алфавита, лексики и грамматики.

На практике наиболее часто применяются классификационные информационно-поисковые языки, включающие в себя информационно-поисковый язык иерархического типа, информационно-поисковый язык фасетного типа, алфавитно-предметную классификацию.

Иерархическая классификация – это перечислительная классификация; в ней все возможные классы заранее перечислены, и каждый класс делится на подклассы. Преимущество языков иерархического типа состоит в простоте индексирования и поиска. Классификация наиболее эффективна и том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменяется. Например, классификация документов в организации, имеющей стабильную структуру.

ИПЯ фасетного типа основаны на принципах многоаспектной классификации, в которой каждый конкретный класс строится при индексировании по определенным правилам из предварительно заданных категориальных классов – фасетов. В системах фасетной классификации не ставится задача перечислить все сложные классы. Такие системы предлагают составные элементы, из которых по фасетной формуле составляется индекс. Преимущество ИПЯ фасетного типа по сравнению с ИПЯ иерархического типа состоит в том, что допускается многоаспектное индексирование, так как существует возможность строить классы из разных сочетаний фокусов и получать любые сочетания заранее выбранных характеристик объектов классификации.

На практике иерархическая и фасетная классификации часто используются в сочетании.

Алфавитно-предметная классификация – система классов, каждый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов.

Основной словарный состав (лексика) ИПЯ состоит из упорядоченных по алфавиту множества слов, словосочетаний и фраз естественного языка.

Алфавитно-предметная классификация содержит:

предметный заголовок – слово, словосочетание или фраза ЕЯ, используемые для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;

предметный словник (лексический состав языка) — упорядоченное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;

предметную рубрику – совокупность предметного заголовка с описанием адреса хранения документов, основная тема которых обозначается этим предметным заголовком.

Алфавитно-предметная классификация предназначена для построения каталогов для узкопредметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библиографическое описание) документов, предмет которых обозначен данным заголовком.

Алфавитно-предметная классификация используется, главным образом, для информационного поиска по отдельным предметам и темам и применяется в качестве предметных указателей к каталогам документов.

Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любому, заранее не заданному сочетанию признаков.

В настоящее время в современных автоматизированных системах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили название полнотекстовые базы данных или текстовые базы данных. Они используются прежде всего для хранения и поиска правовой информации, периодических изданий и управленческой документации.

При формировании запросов в полнотекстовых базах данных учитывается логическая взаимосвязь терминов и другие аспекты естественного языка. С этой целью используют различные средства (усечение терминов, запрос по образцу и др.).

Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован различными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами — номерами документов в поисковом массиве. Поиск осуществляется по второй части ИПМ.

В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содержащих информацию о тексте документа (индексах).

В ИПС используют две принципиальные схемы информационного массива – прямую и инверсную.

При прямой организации каждому документу соответствует перечень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой организации будет выглядеть следующим образом (рис. 5.3).

При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т. е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например, для включения нового документа в массив достаточно добавить новую запись в файл. Недостатком прямой организации поиска является необходимость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.

Адрес документа	Ключевые слова
D₁, D₂, D₃, D₄, D₅	S₂,S₃ S₁,S₃,S₅ S₁,S₃ S₃,S₆ S₃,S₄ S

Рис. 5.3. Прямая схема организации информационного массива

Инверсный способ организации поискового массива предусматривает создание инвертированной матрицы, в которой и происходит поиск (инвертированный матричный индекс) (рис. 5.4).

Рис. 5.4. Инверсная схема организации информационного массива

Инвертированная матрица напоминает предметный указатель в книге, где слова, размещенные в алфавитном порядке, сопровождаются перечислением номеров страниц, на которых они встречаются.

Документальный поиск сводится к просмотру соответствующих записей файла инвертированного матричного индекса. Таким образом, отпадает необходимость в последовательном просмотре всего информационного массива и значительно сокращается время поиска.

Индексирование (инвертировании) текста документа может быть частичным или полным.

В случае частичного инвертирования в индекс включаются все значимые слова текста документов, а незначимые удаляются. В качестве незначимых слов выступают союзы, предлоги и прочие служебные части речи.

При полном инвертировании всех значащих слов текста документов файлы инвертированных матричных индексов могут достигать гигантских размеров. Часто для них требуется более 50 % дискового пространства, необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае в матрицу добавляются лишь указатели на новые документы.

При решении задач организации эффективного доступа к данным индексы больших размеров преобразуют в иерархию индексов небольших размеров. Один из способов реализации таких индексных структур состоит в использовании В-деревьев, листьями которых являются ссылки на документы.

В дополнение к прямой и инвертированной схемам в ИПС используется атрибутный индекс. Он позволяет хранить данные о документе, не содержащиеся непосредственно в его тексте, например, имя автора, дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекаться из документа либо вноситься вручную при вводе документа в систему. Структура атрибутного индекса соответствует стандарту представления структурированной информации, т. е. это таблица с заранее заданными полями. На рис. 5.5 представлен пример организации поискового файла – атрибутного индекса, в котором все документы характеризуются одним и тем же набором реквизитов-полей: автор документа, вид документа и его номер, дата издания, название. Поиск по атрибутному индексу осуществляется средствами обработки запросов СУБД – выдаются только те документы, значения атрибутов которых удовлетворяют условиям запроса.

Рис. 5.5. Пример атрибутного индекса

Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному индексу, но имеет значительно меньше поисковых возможностей. Однако атрибутный индекс позволяет находить информацию, не являющуюся составной частью текста документа. Кроме того, файлы атрибутных индексов значительно меньше по размеру файлов инвертированных матричных индексов с полным текстом, поскольку в этом случае с каждым документом связано гораздо меньше хранимой информации.

Реализация современных ИПС как атрибутного, так и инвертированного матричного индексирования позволяет, например, отыскать все документы, созданные за определенный период времени и при этом содержащие конкретную фразу. Первая часть поиска – по дате – выполняется с помощью атрибутного индекса, а вторая часть – по заданному набору слов – на основе инвертированного матричного индекса. Разрешается и обратная последовательность отбора. Так, если пользователь из всей базы предварительно получил список документов, содержащих сведения о льготах по уплате подоходного налога, он может сузить этот список, ограничившись документами, принятыми каким-либо органом или за определенный период (дату).

Поиск документов по гипертекстовым ссылкам базируется на гипертекстовых технологиях поиска документальной информации. Основная идея гипертекстовых технологий состоит в том, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит, более эффективно, чем при традиционных методах поиска.

Гипертекст (нелинейный текст) – это организация текстовой информации, при которой текст представляет собой множество фрагментов с явно указанными ассоциативными связями между этими фрагментами. Его можно рассматривать как своеобразную базу данных, которая организуется в виде открытой, свободно наращиваемой и изменяемой сети, узлы которой (линейные тексты) соединяются самим пользователем. От обычной базы данных гипертекст отличается прежде всего тем, что в нем отсутствуют априорно заданные ограничения на характер связей (как, например, в иерархических структурах).

В самом общем виде взаимодействие пользователя с гипертекстовой системой заключается в следующем. Пользователь читает на экране компьютера некоторый текст и имеет возможность выполнять ряд определенных в системе действий в зависимости от того, какие у него возникают ассоциации от чтения текста на экране.

Гипертекстовые технологии широко используются в различных прикладных системах:

в настольных издательских системах – для создания документов большого объема со свойствами гипертекста (т. е. с системой ссылок);

в системах управления документами (СУД) – например, для сведения в один итоговый документ информации, содержащейся в разнородных документах;

в системах подготовки электронных документов, позволяющих составлять гипертекстовые документы с возможностью осуществления навигации.

В настоящее время гипертекстовые технологии развиваются в нескольких направлениях.

Одно из них концентрируется на представлении в узлах гипертекста разнородной, но семантически связанной информации – текста, рисунков, графики, фотографий, видео, звука.

Важным направлением развития гипертекстовых технологий является аналитическая обработка информации. Например, смысловое упорядочивание документов, обеспечивающих решение многоэтапной задачи или разработку сложных проектов.

Наиболее перспективным направлением являются технологии организации информационных ресурсов, распределенных в сетях различных типов (локальных, корпоративных, глобальных и др.).

В ДИПС поиск документов происходит посредством просмотра поискового образа документа. Такая организация поиска документов имеет свои преимущества и недостатки.

Представление документа в виде ПОД позволяет значительно снизить расходы памяти, сократить время поиска и не требует мощного и дорогого аппаратного и программного обеспечения. Поэтому технология ДИПС успешно использовалась в большинстве созданных до 90-х гг. системах автоматического документного поиска.

В то же время технология ДИПС обладает рядом существенных недостатков. Любой набор информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте. Кроме того, суть процесса образования ПОД состоит в структурировании документа, что может привести к искажению его содержания. Особенно это существенно для нормативных документов, где каждое слово и словосочетание представляются значимыми.

В настоящее время в автоматизированных современных системах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили название - полнотекстовые базы данных (full-text system) или текстовые базы данных.

Полнотекстовые базы данных используются для хранения и поиска правовой информации (справочные правовые системы — СПС), периодических изданий (газет и журналов), корпоративной документации.

В отличие от СУБД в информационно-поисковых системах до сих пор не выработаны стандартные языки запросов. Различные системы используют и различные средства формирования информационных запросов. Чем мощнее поисковые возможности системы, тем богаче ее язык запросов.

Во всех системах для поиска по сочетанию терминов используются логические функции AND (И), OR (ИЛИ), NOT (НЕ), соединяющие ключевые слова информационного запроса. Для иллюстрации процесса выполнения запроса с использованием логических функций рассмотрим следующий пример.

Задано множество документов , содержащих слова таким образом, что SI входит в текст документов D2,D3,D7,D8, S2 входит в текст документов Dl, D7, D9, S3 входит в текст документов Dl, D2, D3, D4, D5, D6, D8, D9, S4 входит в текст документов D5, D6, D7, D8, D9, S5 входит в текст документов D2, D5, D7, D9, S6 входит в текст документа D4.

Читайте также: