Реферат документальные информационные системы

Обновлено: 04.07.2024

3. Системы индексирования документальных информационных систем.

4. Полнотекстовые информационно-поисковые системы.

Введение

Виды документальных информационных систем

Первоначальным направлением развития СУБД стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД.

Однако создание фактографических информационных систем требует предварительной структуризации данных, например, на основе таблиц. Она зачастую требует больших накладных расходов. Вместе с тем накапливаются большие объемы неструктурированной информации: в организационно-распорядительных документах или других текстовых источниках. Представление такой информации в фактографических системах зачастую экономически не оправдано.

Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, полной и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов.

Элементом данных в документальных ИС является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл.

Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.

Документальная информационная система (ДИС) — единое хранилище документов с инструментарием поиска и выдачи необходимых пользователю документов.

Поисковый характер документальных информационных систем (определил еще одно их название — информационно-поисковые системы (ИПС).

Соответствие найденных документов информационным потребностям пользователя называется пертинентностью. В силу теоретических и практических сложностей формализации смыслового содержания документов пертинентность относится скорее к качественным понятиям.

В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы:

· системы на основе индексирования;

Семантика (от греч. semantikos — обозначающий) — значения единиц языка.

В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса — координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.

На основе определенных критериев ДИС осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.

Соответствие найденных документов запросу пользователя называется релевантностью.

Документальные информационные системы (ДИС). Поисковых характер документальных информационных систем. Семантически-навигационные ДИС. Системы ДИС на основе индексирования. Классификация системе индексирования. Схеме ДИС на основе индексирования. Поисковый образ запроса и поисковый образ документа. Релевантность.

Работа содержит 1 файл

Документальные информационные системы.doc

Документальные информационные системы (ДИС). Поисковых характер документальных информационных систем. Семантически-навигационные ДИС. Системы ДИС на основе индексирования. Классификация системе индексирования. Схеме ДИС на основе индексирования. Поисковый образ запроса и поисковый образ документа. Релевантность.

Информационно-поисковый язык (ИПЯ). Понятие ИПЯ. Основные элементы ИПЯ. Требования к ИПЯ.

Документальная информационная система (ДИС) – единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов.

Элементом данных в документальных ИС является документ. Обычно под документом понимается текстовый файл.

Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.

Первоначальным направлением в развитии СУБД стала разработка и использование фактографических ИС, которые ориентированны на разработку структурированных данных. Однако создание фактографических ИС требует предварительной структуризации данных, например электронных таблиц, что влечет за собой большие накладные расходы. Вместе с тем накапливается большой объем неструктурированной информации, представление такой информации в фактографических системах экономически не выгодно.

Поисковый характер документальных информационных систем определил еще одно название – информационно-поисковые системы (ИПС).

В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы:

- системы на основе индексирования;

Семантически-навигационные системы ДИС.

Семантика – значение единиц языка.

В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство.

Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса – координаты в поисковом пространстве.

Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности, посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.

На основе определенных критериев ДИС осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.

Соответствие найденных документов запросу пользователя называется релевантностью.

Схема ДИС на основе индексирования.

Система индексирования (СИ) – совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

Классификация систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

2. По степени контролируемости различают системы:

- с жестким словарем;

- со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

- с последовательным просмотром текста (отбираются все полнозначные слова);

- с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

- со статистическими процедурами выбора слов (отбираются слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля:

- без лексикографического контроля;

- с полным контролем;

- с промежуточным контролем.

5. По характеру морфологического анализа слов:

- с использованием морфологических словарей;

- с использованием основных лексических словарей;

- с использованием морфологического анализа с усечением слов.

Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса.

Основными элементами ИПЯ являются алфавит, лексика и грамматика.

Алфавит ИПЯ – система знаков, используемых для записи слов и выражений ИПЯ.

Лексика, или словарный состав, ИПЯ – совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.

Грамматика ИПЯ – совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.

Требования к ИПЯ.

1. располагать лексико- грамматическими средствами для точного отображения темы документа и запроса;

2. не содержать полисемии, синонимии и омонимии;

Омонимия – это совпадение слов по написанию или звучанию и несовпадение по смыслу.

Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий.

Синонимия – это совпадение слов по значению и несовпадение по смыслу.

3. отображать только объективные характеристики предметов и отношений между ними;

4. быть удобным для алгоритмического сопоставления поисковым образом документа (ПОД) и поисковым образом запроса (ПОЗ).

Построение выражений ИПЯ требует решения, по крайней мере, двух проблем.

Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений.

Выбор слов определяется их смыслом, обусловленным парадигматическими отношениями между предметами и явлениями, которые они определяют.

Парадигматические отношения – это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными словами.

В ИПЯ недопустима многозначность, поэтому необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ.

Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.

Синтагматические отношения – отношения слов при соединении их в словосочетания и фразы.

Типы информационно-поисковых языков (классификационные и дескрипторные). Дескрипторы. Тезаурус. Критерии оценки документальных систем. Полнота и точность информационного поиска. Информационный шум системы. Программные средства реализации документальных ИС. Полнотекстовые информационные системы.

По способу организации понятий различают следующие ИПЯ:

Предкоординироваемые (классификационные) ИПЯ.

Предкоординация – это предварительное построение сложных классов путем логического умножения простых классов.

Классификация – это группировка объектов по признакам.

Словарный запас задается в виде фиксированного списка слов. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка.

К классификационным языкам относят:

1) информационно-поисковый язык иерархического типа;

2) ИПЯ фасетного типа;

3) алфавитно-предметную классификацию.

Информационно поисковые каталоги, основанные на классификации ведений определенной области, были первыми системами информационного поиска документов. Первоначальные подходы к классификации тематики основывались на основании списка предметных заголовков располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенно цифровой или буквенно-цифровой код. Содержание документов индексировались перечислением кода тех рубрик, которые отражали темы документов. Это перечислительная классификация.

При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Недостатком иерархической и перечислительной классификации является принципиальная невозможность заранее перечислить все возможные темы документов.

Фасетная классификация – не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик – фасет – по семантическому принципу, отражающему специфику предметной области.

Фасеты выступают в роли элементов, из которых можно сконструировать самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу.

Основное достоинство фасетной классификации заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик, т.е. более точно и полно проиндексировать содержание документов.

Дескрипторные (посткоординируемые) ИПЯ.

Дескрипторные языки основаны на методе координатного индексирования, который полагает, что основное смысловое содержание документа может быть выражено списком ключевых слов.

К ключевым словам относятся так называемые полнозначные слова – существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются:

1) словарь лексических единиц;

2) правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;

3) правила построения ИПЯ.

В качестве логических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

Дескриптор – понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов (имя класса синонимов). В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

Введение 2
1. Виды документальных информационных систем 3
2. Классификационные информационно-поисковые языки 9
3. Дескрипторные информационно-поисковые языки 10
4. Системы индексирования 14
5. Полнотекстовые информационно-поисковые системы 17
Заключение 25

Введение
Документальная информационная система (ДИС) – единое хранилище документов с инструментарием поиска ивыдачи, необходимых пользователю документов.
Элементом данных в документальных ИС является документ. Обычно под документом понимается текстовый файл.
Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.

Информационные технологии документационного обеспеченияуправленческой деятельности
1. Виды документальных информационных систем
Первоначальным направлением развития СУБД стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованыязыки запросов к БД.
Однако создание фактографических информационных систем требует предварительной структуризации данных, например, на основетаблиц. Она зачастую требует больших накладных расходов. Вместе с тем накапливаются большие объемы неструктурированной информации: в организационно-распорядительных документах или других текстовых источниках. Представление такой информации в фактографическихсистемах зачастую экономически не оправдано.
Теоретические исследования вопросов автоматизации обработ-ки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, полной и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно былобы использовать дляформализованного описания содержания документов и построения запросов.
Элементом данных в документальных ИС является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл.
Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которыхсоответствуют его информационным потребностям.
Документальная информационная система (ДИС) — единое хранилище документов с инструментарием поиска и выдачи необходимых пользователю документов.
Поисковый характер документальных информационных систем (опре-делил еще одно их название — информационно-поисковые системы (ИПС).
Соответствие найденных документов информационным потребностям пользователяназывается пертинентностью. В силу теоретических и практических сложностей формализации смыслового содержания документов пертинентность относится скорее к качественнымпонятиям.
В зависимости от особенностей реализации хранилища документов и ме-ханизмов поиска, ДИС можно разделить на две группы:
* системы на основе индексирования;
* семантически-навигационные системы.
Семантика (отгреч. semantikos — обозначающий) — значения единиц языка.
В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.
В системах на основе индексирования исходные документы помещаются в базубез какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса — координаты в поисковом пространстве. Формализованное представление индекса.

Рис. 7.3. Пример перечислительной классификации

Достоинства метода : простота, достаточная эффективность (особенно в эпоху ручных ИС).

« см. также: 013 Юридические лица

Перекрестные ссылки ориентируют пользователя на смысловую связь некоторых рубрик, позволяя более адекватно строить выражение своих информационных потребностей.

Представление иерархической классификации производится либо в виде древовидного графа (рис.7.4), либо в табличном виде (рис.7.5) .

Рис. 7.4. Графическая форма представления иерархической классификации

Рис. 7.5. Табличная форма представления иерархической классификации

Перечислительный и иерархический подходы к классификации впоследствии воплотились в широко используемых в библиотечной практике алфавитно-предметных каталогах, наиболее распространенным из которых в настоящее время является универсальная десятичная классификация (УДК). В ее основе лежит классификационная схема М. Дьюи, дополненная правилами образования сложных рубрик, а также специальными определителями, служащими для более детального описания документов (определители формы и характера документа, определители времени и т.д.). При этом систематизированная классификация позволяет строить сам каталог (картотеку документов) в структурно-иерархическом виде, что существенно упрощает выражение пользователем своих информационных потребностей, и, тем самым, ускоряет и повышает точность поиска.

Согласно УДК весь универсум знаний делится на 10 больших тематических полей (главных классов):

0 Общие вопросы науки и информационной деятельности

1 Философия, логика, психология

2 Религия, богословие

3 Общественно-экономические науки

4 (Свободный резервный класс)

5 Естественные и точные науки

6 Прикладные области знания (включая медицину, технику и сельское хозяйство)

7 Искусство, развлечения, спорт

8 Язык и литература

9 История и география.

Каждый класс в свою очередь делится на 10 (или менее) подклассов. Подклассы делятся дальше и дальше до любого необходимого уровня подробности. Обычны, например, классы девятого уровня деления, отражающие важные прикладные проблемы – квантовую электронику, защиту техники от коррозии и тому подобное.

Каждое деление обозначается десятичной цифрой, а цифры последовательных делений соединяются в одном индексе, где первая цифра обозначает номер деления на главные классы, вторая – номер подкласса первого уровня, третья – подкласс второго уровня, и так далее. Для облегчения зрительного восприятия индекса через каждые три цифры ставится точка.

3 – первая цифра индекса обозначает – общественно-экономические науки

33 – Экономические науки

336 – Финансы. Банковское дело. Деньги и денежное обращение

336.2 – Налоги, платежи, отчисления и сборы

336.22 – Налоги и сборы

336.225 – Методы налогообложения и налоговая администрация

336.225.6 – Механизм налогообложения

336.225.68 – Нарушения налогового законодательства и регулирования

336.225.682 – Нарушения налогового законодательства.

Кроме тематической характеристики УДК позволяет отразить в индексе некоторые дополнительные особенности документа или его содержания. Для этого в индекс добавляют определители этих особенностей, обозначенные специальными символами:

= – язык документа (=111 английский, =161.1 русский)

(= ) – народ, к которому относится содержание документа: (=111) англоязычное население, (=161.1) русскоязычное население

(0 ) – форма, назначение документа (закон, учебник, справочник, работа по истории предмета или что-либо другое в этом духе)

(…) – страна, к которой относится содержание документа: (4) Европа, (470) Россия в целом, (5) Азия, (571) Сибирь и Дальний Восток России

-0 – свойство основного предмета документа

.0, -1/9, ‘1/9 – специальные определители, значение которых раскрывается в таблицах применительно к каждому конкретному разделу.

Кроме того, допускается комбинировать разные классы для указания на документы, имеющие отношения к различным отраслям знания. Так что конкретный индекс УДК может иметь весьма сложную структуру.

[343.95+340.53](470)(091)=111 – работа по истории судебной психиатрии и судебной медицине России на английском языке,

где 343.95 – судебная медицина;

340.53 – судебная психиатрия;

(091) – история предмета;

=111 – английский язык.

Таким образом, характеристика документа индексом УДК читается и составляется действительно как языковое высказывание, в котором отдельные смысловые элементы (слова) при помощи вспомогательных знаков (препинания) по определённым правилам соединяются в единое целое, и число таких целых высказываний потенциально не ограничено.

Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все темы , по которым существуют или могут существовать документы. Выход из таких ситуаций путем добавления к классификатору новых рубрик (классов, предметов) не может эффективно решить проблему, так как требует в таких случаях переиндексирования всего ранее накопленного документального фонда, что чаще всего невозможно по техническим и технологическим причинам.

Интересная методика классификации, которая частично позволяет снять указанное ограничение, была предложена выдающимся индийским библиографом и математиком Ш. Р. Ранганатаном и впоследствии развита в работах английской группы по исследованию классификаций ( Classification Research Group ). Эта методика получила название фасетной классификации .

  • Тип – анимация, документальный, игровой;
  • Жанр – боевик, комедия, романтика, фантастика;
  • Продолжительность;
  • Год ;
  • Страна ;
  • Режиссер ;
  • Другие параметры: немой/звуковой, цветной/чёрно-белый и т. п.

Очевидно, развитие информационных технологий не могло не повлечь за собой попытки создать такие методы классификации документов, которые бы полностью или хотя бы частично освободили человека от этой работы. В современных автоматизированных системах процедуры рубрицирования выполняются частично вручную (интеллектуально), а частично автоматически с помощью специально разрабатываемого программного обеспечения. Обычно выделяют два основных подхода к автоматизации рубрицирования:

  • Методы рубрицирования, основанные на знаниях . В системах, реализующих данный подход, используются заранее сформированные базы знаний , в которых описываются языковые выражения, соответствующие той или иной рубрике, а также правила выбора между рубриками. Процесс создания подобных систем часто сравнивают с созданием экспертных систем для диагностики и классификации. Наибольшее распространение среди данных методов получили две модели представления знаний: модель семантической сети и продукционная модель .
  • Методы рубрицирования, основанные на обучении по примерам . В системах, реализующих данный подход, машинное обучение производится на основе примеров текстов, которые были заранее отрубрицированы экспертом вручную. Здесь следует обратить внимание на статистические и нейросетевые методы рубрицирования. Идея статистического рубрицирования состоит в определении степени соответствия терминологического портрета документа и терминологического портрета рубрик на основе статистических характеристик субъектов сравнения. Основой нейросетевых методов является использование нейронной сети в качестве обучаемого классификатора. В результате обучения нейронная сеть позволяет оценить, с какой степенью релевантности любой новый текст относится к заданной рубрики.

Следует отметить, что современные автоматизированные ДИПС, в которых реализованы методы автоматического или полуавтоматического рубрицирования, работают, как правило, не с традиционными классификационными системами, а с ИПЯ дескрипторного типа. В этом случае классификация проводится при помощи координатного индексирования , которое позволяет классифицировать каждый документ не по одному направлению, а одновременно с нескольких сторон, описывая его как набор терминов (дескрипторов), включенных в тезаурус языка.

Методы автоматического индексирования

Цель автоматического индексирования – составить по тексту исходного документа фразу на ИПЯ и при необходимости включить ее в поисковый образ документа. Фраза на информационно-поисковом языке может быть простой (однословной) или составной (многословной). Для генерации фраз для ИПЯ со свободной лексикой используются как методы синтаксического анализа исходного текста документа, так и различные эвристические алгоритмы.

Например , можно рассмотреть такой несложный алгоритм:

Если проблема индексирования ставится для множества документов, относящихся только к определенной области знаний, то множество основ фраз может формироваться на базе заранее заданного тезауруса языка. После приведения лексических единиц текста документа к канонической форме, они сопоставляются с тезаурусом языка и выбираются только те словоформы, которые включены в ИПТ. При этом последующая кластеризация терминов может проводиться или не проводиться.

Поскольку основная задача индексирования – обеспечить выдачу релевантных запросу пользователя документов, то при индексировании и формировании ПОД хотелось бы иметь какую-либо количественную оценку вхождения простого или составного термина-фразы в каждый конкретный документ. По этой причине современные методы автоматического индексирования почти всегда присваивают терминам весовые коэффициенты, вычисленные на основе различных статистических характеристик.

Предположим, что имеется совокупность из N документов. Пусть – это частота вхождения терминав документ . Индексирование на основе частоты термина позволяет выделить из массива документов все те, в которых упоминается данный термин, что обеспечивает полноту поиска. Рассмотрим теперь величину – число документов, в которые входит термин. Очевидно, что . Тогда . Величина может использоваться для повышения точности поиска. Если ее значение близко к 1, то термин встречается в большинстве документов, следовательно, он не может являться определяющим при описании документа. Наоборот, если значение этой величины близко к 0, то соответствующий термин в других документах встречается редко и обязательно должен войти в поисковый образ.

Частоту термина и полученную выше величину можно объединить в рамках единой модели индексирования по частоте (обозначает вес термина в документе ):

Указанная модель получила название TFxIDF (Term Frequency × Inverse Document Frequency).

Еще один статистический метод индексирования основывается на дискриминации по термину . Здесь каждый документ рассматривается как точка в пространстве документов . Чем больше сходства у поисковых образов двух документов, тем ближе расположены соответствующие точки друг к другу (то есть, повышается плотность точек в пространстве документов), и наоборот. В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изменения произойдут в пространстве документов после введения термина в индекс . Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминатором, если его добавление к ПОД увеличивает среднее расстояние между документами (снижает плотность в пространстве документов). Дискриминирующая характеристика термина , обозначаемая как , вычисляется как разность между плотностями пространства документов до и после введения в индекс термина (способы задания метрики в пространстве документов довольно сложны, поэтому мы не будем подробно на них останавливаться). Оказалось, что часто встречающиеся термины имеют отрицательные значения дискриминирующих характеристик, термины со средней частотой – положительные, а для редко встречающихся терминов эти значения близки к нулю. Для совместного учета частоты термина и его дискриминирующей характеристики применяют схему взвешивания, основанную на выражении:

Полученные значения весов терминов могут использоваться в процессе принятия решения о включении каждого из терминов в ПОД. Однако чаще всего операцию принятия решения не используют, и в ПОД заносятся все термины, встретившиеся в документе, и их веса.

Поисковый аппарат ДИПС

Модель поиска текстовой информации характеризуется четырьмя параметрами:

  • Представлением документов и запросов;
  • Критерием смыслового соответствия;
  • Методами ранжирования результатов запроса;
  • Механизмами обратной связи, обеспечивающими оценку релевантности пользователем.

Обычно рассматривают следующие модели представления документов и запросов:

  • Булева модель;
  • Модель нечетких множеств;
  • Пространственно-векторная модель;
  • Вероятностно-статистическая модель.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в

документе соответствующая переменная принимает значение True . Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: AND, OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrieval status value ). В булевой модели RSV равно либо 1, если для данного документа вычисление выражения запроса дает True , либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.

Достоинства модели : простота, невысокая стоимость (применяется во многих коммерческих системах), возможность задавать в запросах выражения произвольной сложности, невысокие требования к вычислительным и иным ресурсам ЭВМ при индексировании и поиске.

Недостатки модели : низкая эффективность поиска, невозможность ранжировать результаты, неадекватность результатов, невозможно получить количественную меру релевантности по такой модели.

Модель нечетких множеств основывается на теории нечетких множеств, опускающей (в отличие от обычной теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели.

Достоинства и недостатки : см. Булева модель.

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из L нормализованных векторов терминов. Значение первого компонента вектора представляющего документ отражает вес термина в нем. Запрос пользователя также представляется L -мерным вектором z . Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа:

Чем больше RSV, тем выше релевантность документа запросу.

Достоинства модели: Дает количественное выражение для релевантности, проста и наглядна в использовании.

Недостатки модели : Спецификация запросов, в отличие от булевой модели, потеряла выразительность и простоту; нечувствительность к степени соответствия отсутствующих словоформ в ПОД и ПОЗ.

Интуитивно понятно, что чем ближе содержание документа и запроса, тем меньше в документе должно быть словоформ (терминов), которых нет в запросе. Если, к примеру, в словаре системы всего 6 элементов и имеется два документа D 1 (1,1,0,1,0,0) и D 2 (1,1,1,1,1,1), то для запроса Z (1,1,0,00,0) значение RSV для обоих документов будет равно 2 (33%), хотя интуитивно понятно, что более близким по содержанию является первый документ, а второй документ, скорее всего, затрагивает более широкую тематику, не обязательно интересующую пользователя Такой чувствительностью обладает показатель релевантности, определяемый следующим образом:

где – дополнение к элементами w , и z . Если вернуться к предыдущему примеру с документами D 1 (1,1,0,1,0,0) и D 2 (1,1,1,1,1,1) и запросом Z (1,1,0,00,0), то RSV для первого документа будет равным 5 (83%), а для второго документа 2 (33%).

Более сложным подходом к определению мер близости ПОД и ПОЗ является учет разной значимости терминов и их зависимости друг от друга . В пространственно-векторной модели это означает отход от ортогональности и ортонормированности базисных векторов поискового пространства. В этом случае скалярное произведение векторов ПОД и ПОЗ более гибко и осмысленно отражает близость соответствующих векторов и, тем самым, смысловое содержание документов и запросов. В простейшем варианте подобного расширения пространственно-векторной модели к весам терминов добавляется дополнительная компонента, отвечающая за важность термина для конкретной предметной области.

Идея вероятностных моделей заключается в том, что вероятность вхождения терминов запроса в релевантные и нерелевантные документы существенно различается. Если удастся найти способ подсчета вероятностей вхождения термина в релевантные и нерелевантные части совокупности документов, то для любого документа можно будет вычислить вероятность того, что он будет релевантным (или нерелевантным). К сожалению простых методов подсчета упомянутых вероятностей не существует. Тем не менее, вероятностные модели играют важную роль, объясняя процесс поиска и предлагая теоретическое обоснование методов, которые ранее применялись лишь эмпирически.

Основным методом ранжирования результатов запроса в настоящее время является ранжирование по релевантности, которое возможно только в тех случаях, когда возможно получить количественную оценку соответствия запроса содержанию документа. Это означает, что ранжирование по релевантности нельзя, например, провести при использовании булевой модели представления запросов и документов. Развитые ДИПС включают возможность ранжирования результатов запроса и по иным критериям: по дате поступления документа, по индексу цитируемости и т.п.

Методы введения обратной связи с пользователем

В данной теме мы ограничимся лишь рассмотрением некоторых показателей эффективности ДИПС.

В результате обработки запроса пользователь получает некоторое множество документов, среди которых могут быть как релевантные, так и нерелевантные. Кроме того, в той части массива документов, которая не была выдана пользователю, также могут присутствовать как нерелевантные, так и релевантные документы. Исходя из этого, весь массив документов можно разбить по отношению к запросу на 4 подмассива:

В отличие от фактографических информационных систем, единичным элементом данных в документальных [информационных системах] является неструктурированный на более мелкие элементы документ. В качестве неструктурированных документов в подавляющем большинстве случаев выступают, прежде всего, текстовые документы, представленные в виде текстовых файлов, хотя к классу неструктурированных документированных данных могут также относиться звуковые и графические файлы.

Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты и т. п. которых адекватны его информационным потребностям. Поэтому можно дать следующее определение документальной информационной системы — единое хранилище документов с инструментарием поиска и отбора необходимых документов. Поисковый характер документальных информационных систем исторически определил еще одно их название — информационно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС.

Соответствие найденных документов информационным потребностям пользователя называется пертинентностью.

В силу теоретических и практических сложностей с формализацией смыслового содержания документов пертинентность относится скорее к качественным понятиям, хотя, как будет рассмотрено ниже, может выражаться определенными количественными показателями.

В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС можно разделить на две группы:

· системы на основе индексирования;

В семантически-навигационных системах документы, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую* (смысловую) сеть в базе документов. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.

В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве. Формализованное представление (описание) индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности средствами и языком поискового пространства, формируя поисковый образ запроса (ПОЗ) к базе документов. Система на основе определенных критериев и способов ищет документы, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя, и выдает соответствующие документы. Соответствие найденных документов запросу пользователя называется релевантностью. Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования иллюстрируется на рис.

Рис. Общий принцип устройства и функционирования документальных ИПС на основе индексирования

Особенностью документальных ИПС является также то, что в их функции, как правило, включаются и задачи информационного оповещения пользователей по всем новым поступающим в систему документам, соответствующим заранее определенным информационным потребностям пользователя.

Принцип решения задач информационного оповещения в документальных ИПС на основе индексирования аналогичен принципу решения задач поиска документов по запросам и основан на отображении в поисковое пространство информационных потребностей пользователя в виде так называемых поисковых профилей пользователей (ППП). Информационно-поисковая система по мере поступления и индексирования новых документов сравнивает их образы с поисковыми профилями пользователей и принимает решение о соответствующем оповещении.

Поисковое пространство, отображающее поисковые образы документов и реализующее механизмы информационного поиска документов так же, как и в СУБД фактографических систем, строится на основе языков документальных баз данных, называемых информационно-поисковыми языками (ИПЯ).

Информационно-поисковый язык представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и запросов по поиску необходимых документов. По аналогии с языками баз данных фактографических систем ИПЯ можно разделить на структурную и манипуляционную составляющие.

Структурная составляющая ИПЯ (поискового пространства) документальных ИПС на основе индексирования реализуется индексными указателями в форме информационно-поисковых каталогов, тезаурусов и генеральных указателей.

Информационно-поисковые каталоги являются традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специального кода (индекса) соответствующего по содержанию класса (классов) каталога и создания на этой основе специального индексного указателя.

Генеральный указатель (конкорданс) (глобальный словарь-индекс) в общем виде представляет собой перечисление всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова (№ документа — № абзаца — № предложения — № слова). Индексирование нового документа в таких системах производится через дополнение координатных отсылок тех словоформ генерального указателя, которые присутствуют в новом документе. Так как поисковое пространство в таких системах отражает полностью весь текст документа (все слова документа), а не только его смысловое содержание, то такие системы получили название полнотекстовых ИПС.

В специальной литературе такие системы иногда называют системами без лексического контроля, т. е. без учета возможной синонимичности отдельных групп словоформ, объединения отдельных групп словоформ в общие смысловые группы, семантических отношении между словоформами.

Описание входа в систему



  1. Для поиска документов по известным реквизитам войдите в Карточку поиска (по всем разделам). Для поиска документов следует ввести известные реквизиты в соответствующие поля:




  1. Для поиска информации по практическому вопросу откройте Правовой навигатор.Правовой навигатор позволяет найти информацию по практическому вопросу с использованием перечня возможных ситуаций.


  1. Для быстрого поиска документов используют окно Быстрого поиска:



- Переход к списку кодексов;

- Переход к новостям и обзорам законодательства;

- Поиск книг и публикаций в бухгалтерской и юридической прессе;



- Переход к справочной информации;

- Переход к документам последних наполнений;

- Переход к новостям Консультант-Плюс.

Представление текста в системе Консультант-Плюс

Информационная строка содержит информацию об особенностях применения этого документа. Располагается под названием текста документа в верхней части экрана.


Получить дополнительную информацию:

- Позволяет к документу в целом большой значок [i], расположенный в начале документа и на Правой панели.

- Ко всей статье (главе, разделу) позволяет яркий значок [i], расположенный слева от заголовка статьи (главы, раздела).

- К отдельному абзацу статьи позволяет светлый значок [i], расположенный слева от абзаца.

Оглавление существует для документов со сложной структурой, используется для быстрого перехода в нужный раздел документа. Достаточно щёлкнуть мышкой по названию пункта оглавления документа для перехода в его текст:

- Вызывается одноимённой кнопкой Правой панели окна с текстом документа.


- Наличие у раздела подразделов отмечено символом слева от названия раздела, что позволяет разворачивать/сворачивать оглавление разделов документа.

На Правой панели также расположены:

1. Список всех редакций документа;

2. Обзор изменений документа;

3. Подсчет страниц для печати.

Панель инструментов содержит пиктограммы:


· копирование текста в Word;

· отправка документа по почте;

· печать текста документа;

· связи данного документа с другими материалами;

· изменение размера шрифта и др.


Любой документ можно распечатать, если, находясь в его тексте, нажать кнопку пиктографического меню.

Нужен кодекс

Пример: найдём вторую часть налогового кодекса:


- В появившемся списке найдите Налоговый кодекс (часть вторая) и, щёлкнув мышью по его названию, перейдете в текст документа.

Читайте также: