Тезаурус это кратко в информатике

Обновлено: 02.07.2024

Для уменьшения количества терминов в ПО вводят ИПТ (тезаурус - синоним), в котором отражаются устойчивые связи между понятиями данной предметной области.

Тезаурус – семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями: иерархическими (например целое-часть, имеет место нарушение правильной структуры дерева), ассоциативными, эквивалентности. Тезаурус является лексическим инструментом ИПС для осуществления поиска.

Информационно-поисковые тезаурусы.(ИПТ) позволяют решить проблему соотне­сения:

• авторской терминологии (понятий и слов естественного языка, которые автор использует для обозначения этих по­нятий);

• терминологии системы (понятий и терминов, которые используются для выражения этих понятий при вводе доку­ментов в ИПС);

• терминологии потребителя (понятий и терминов, которые потребитель использует для представления этих понятии при формировании запросов).

Тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи, представляет собой перечень лексических единиц, упорядоченных по систематическому и алфа­витному принципам. Лексические единицы обычно делятся на дескрипторы и аскрипторы.

Дескриптор— лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов. Аскриптор— лексическая единица, которая в поисковых образах документов (запросов) при поиске или об­работке информации подлежит замене на дескриптор. ИПТ подразделяют на два типа:

• тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;

• тезаурусы, все лексические единицы которых являются де­скрипторами.

Лексические единицы тезауруса поделены на дескрипторы (выделены прописными буквами) и ключевые слова— не дескрипторы (строчными буквами) и нормализованы следующим образом:

• имена существительные, обозначающие исчисляемые объекты, представлены в форме именительного падежа множе­ственного числа;


• существительные, обозначающие неисчисляемые объекты, представлены в форме именительного падежа единственно­го числа;

• для всех словосочетаний-дескрипторов, включая словосо­четания с именем собственным, используется естествен­ный (прямой) порядок слов.

Лексические единицы в тезаурусе организованы в виде сло­варных статей. Словарная статья дескриптора состоит из собственно дескриптора (заглавного дескриптора) и списка дескрип­торов и ключевых слов, связанных с заглавным дескриптором по смыслу.

Общеупотребительные аббревиатуры входят в тезаурус в ка­честве дескрипторов. Каждая из них снабжена расшифровкой, которая приводится в косых скобках строчными буквами.

В дескрипторной статье лексические единицы располагают­ся в следующем порядке:

• ключевые слова, условно синонимичные заглавному деск­риптору (с);

• вышестоящие дескрипторы(в) (включают в себя заглавный);

• нижестоящие дескрипторы(н) (наоборот) ;

• дескрипторы, связанные с заглавным дескриптором одним из ассоциативных отношений(а).

Для уменьшения количества терминов в ПО вводят ИПТ (тезаурус - синоним), в котором отражаются устойчивые связи между понятиями данной предметной области.

Тезаурус – семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями: иерархическими (например целое-часть, имеет место нарушение правильной структуры дерева), ассоциативными, эквивалентности. Тезаурус является лексическим инструментом ИПС для осуществления поиска.

Информационно-поисковые тезаурусы.(ИПТ) позволяют решить проблему соотне­сения:

• авторской терминологии (понятий и слов естественного языка, которые автор использует для обозначения этих по­нятий);

• терминологии системы (понятий и терминов, которые используются для выражения этих понятий при вводе доку­ментов в ИПС);

• терминологии потребителя (понятий и терминов, которые потребитель использует для представления этих понятии при формировании запросов).

Тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи, представляет собой перечень лексических единиц, упорядоченных по систематическому и алфа­витному принципам. Лексические единицы обычно делятся на дескрипторы и аскрипторы.




Дескриптор— лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов. Аскриптор— лексическая единица, которая в поисковых образах документов (запросов) при поиске или об­работке информации подлежит замене на дескриптор. ИПТ подразделяют на два типа:

• тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;

• тезаурусы, все лексические единицы которых являются де­скрипторами.

Лексические единицы тезауруса поделены на дескрипторы (выделены прописными буквами) и ключевые слова— не дескрипторы (строчными буквами) и нормализованы следующим образом:

• имена существительные, обозначающие исчисляемые объекты, представлены в форме именительного падежа множе­ственного числа;


• существительные, обозначающие неисчисляемые объекты, представлены в форме именительного падежа единственно­го числа;

• для всех словосочетаний-дескрипторов, включая словосо­четания с именем собственным, используется естествен­ный (прямой) порядок слов.

Лексические единицы в тезаурусе организованы в виде сло­варных статей. Словарная статья дескриптора состоит из собственно дескриптора (заглавного дескриптора) и списка дескрип­торов и ключевых слов, связанных с заглавным дескриптором по смыслу.

Общеупотребительные аббревиатуры входят в тезаурус в ка­честве дескрипторов. Каждая из них снабжена расшифровкой, которая приводится в косых скобках строчными буквами.

В дескрипторной статье лексические единицы располагают­ся в следующем порядке:

• ключевые слова, условно синонимичные заглавному деск­риптору (с);

• вышестоящие дескрипторы(в) (включают в себя заглавный);

• нижестоящие дескрипторы(н) (наоборот) ;

• дескрипторы, связанные с заглавным дескриптором одним из ассоциативных отношений(а).

Тезаурус происходит от от греч. thesauros — сокровище,
1) словарь, в котором максимально полно представлены слова языка с примерами их употребления в тексте (в полном объеме осуществим лишь для мертвых языков).
2) Словарь, в котором слова, относящиеся к каким-либо области знания, расположены по тематическому принципу и показаны семантические отношения (родо-видовые, синонимические и др.) между лексическими единицами. В информационно-поисковых тезаурусах лексические единицы текста заменяются дескрипторами.

Индекс - лат. index,
1) указатель, реестр имен, названий и т. п.
2) Условное обозначение (буквенное, цифровое или комбинированное) в системе какой-либо классификации (напр., почтовый индекс).
3) Числовой или буквенный указатель, которым снабжаются математические выражения для того, чтобы отличать их друг от друга, напр., a1, ai, x5, xn и т. п.
УДАЧИ!

Индекс - идентификационный номер
Тезаурус - что-то вроде словаря, который ищет синонимы к слову в ворде

Тезаурус - это слова подходящие по сыслу
В Ворде глянь, там где проверка на ошибки
А индексы разные бывают.
Тема? или точная формулировка?

Тезаурус по определению - это словарь с неограниченной выборкой, то есть включающий в себя все слова, которые встретились составителю в доступных .
В последнее время под влиянием англоязычного термина под "тезаурусом" чаще стали понимать словарь синонимов.
Информационно-поисковый тезаурус - словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц. Тезаурус содержит список ключевых слов…

Тезаурус - это справочник синонимов в текстовых редакторах, индекс - это записи упорядоченные по определенным правилам (по порядковым номерам, по алфавиту, по числовым величинам и т. д.)

тезаурус обезьян

Тезаурус – такое непонятное слово, что захотелось вынести его в отдельный раздел статьи. И обсудить более детально.

p, blockquote 2,0,0,0,0 -->

Как только математики-информатики определились с определениями, так сразу же источниками и преемниками информации занялись спецслужбы.

p, blockquote 3,0,0,0,0 -->

При этом каналами передачи информации занялись инженеры (и тоже спецслужбы!), а вот информационный тезаурус они оставили математикам-информатикам, так как ни черта в этом не смогли понять! Шутка.

p, blockquote 4,0,0,0,0 -->

Просто тезаурус и стал тем важнейшим компонентом информационного обмена, без которого немыслимо современное информационное обеспечение. Им-то и занялись всерьез.

p, blockquote 5,0,0,0,0 -->

Действительно, а можно ли определить, что такое информационный тезаурус? Математики никогда не боятся давать определений. Они сразу же сказали, что тезаурус – это множество дескрипторов. Коротко и ясно! А ведь действительно, что может быть проще? Например, глюкало – это набор финти-флюшек. Финти-флюшка очень напоминает множество смурзиков. Не так ли?!

p, blockquote 6,0,0,0,0 -->

Но оказалось, что не смешно, а полезно. Все сразу упростилось.

p, blockquote 7,0,0,0,0 -->

Если тезаурусы источника и приемника информации совпадают полностью, то это значит (по определению математиков!), что у них эти тезаурусы состоят из одинаковых дескрипторов. Верно? А как это звучит по-русски?

Если два человека говорят на одном языке, то они пользуются одними и теми же словами. Вот и весь перевод с математического языка на русский.

p, blockquote 9,0,1,0,0 -->

Ну и какой от этого прок? В чем практическая жилка информационных тезаурусов? Можно согласиться, что если под эти понятия подводить только общечеловеческое общение, то ничего, кроме силы абстрактного мышления математиков, мы не увидим. А только сможем восхититься, как эти математики-информатики (возможно, за государственный счет!) обогащают свой научный язык.

p, blockquote 10,0,0,0,0 -->

общение людей с компьютерами

p, blockquote 11,0,0,0,0 -->

p, blockquote 12,0,0,0,0 -->

Увы, обогнать-то обогнали, но английскому компьютер не обучишь, и китайскому тоже, и вообще никакому языку не получится обучить. Тут тоже математики постарались, они и виноваты. Ввели ряд определений (например, об уровнях кибернетических систем), доказали ряд теорем (например, о невозможности адекватно моделировать системы более высокого уровня с помощью систем более низкого уровня).

p, blockquote 13,0,0,0,0 -->

p, blockquote 14,0,0,0,0 -->

Попробуем. Язык (по определению математиков) – это набор воспроизводимых символов средствами языка и невоспроизводимых символов средствами языка, а также набор правил вывода всех понятий языка.

p, blockquote 15,0,0,0,0 -->

Поясню. Предположим мы учим английский (чтобы потом говорить hi и bye). Можно по-английски написать эти два слова, я уже это сделал. Они записываются с помощью букв этого языка. А значит – это относится к набору воспроизводимых символов.

p, blockquote 16,0,0,0,0 -->

p, blockquote 17,0,0,0,0 -->

Но ведь то, что записано в кавычках, записано без использования букв английского языка. Ну, тупые мы, начинающие юзеры английского. Нам надо сначала по-русски растолковать. Это математики и называют невоспроизводимыми символами (или короче, нетерминалами). Это такие понятия, с помощью которых можно давать описание языкам, но в самом языке отсутствуют выразительные средства, чтобы их там можно было бы воспроизвести.

p, blockquote 18,1,0,0,0 -->

Стойте! Бред какой-то. Ведь фразу, записанную в кавычках, можно перевести на английский. И, значит, она станет воспроизводимым символом (или короче, терминалом) по определению математиков. Да, согласен, если говорить о языках общения между людьми. Но машинные языки устроены, к сожалению, так, что в них средства описания структуры языка не могут быть записаны с помощью воспроизводимых символов этого языка. Вот тот-то и начинаются ПРИНЦИПИАЛЬНЫЕ отличия социальных систем высшего уровня сложности (состоящих из сообществ людей) от гораздо более примитивных человеко-машинных систем.

p, blockquote 19,0,0,0,0 -->

Хоть умри, но машине нельзя объяснить, как устроен ее машинный язык. Сам этот язык она понимает, выполняет команды этого языка. Но почему она их выполняет именно таким образом, а не иначе, она (машина) не понимает. И не поймет никогда, потому что в понимаемом ею языке нет ни слов, ни понятий, ни даже намеков на эту тему. Да и нужны ли эти понятия машине? Для надежной работы – не нужны, это точно.

p, blockquote 20,0,0,0,0 -->

p, blockquote 21,0,0,0,0 -->

Люди же по мере освоения иностранного языка перестают нуждаться в объяснениях структуры и понятий этого языка с применением родного языка. Начиная с какого-то момента, развивать знания иностранного языка мы можем, пользуясь только этим иностранным языком.

p, blockquote 22,0,0,0,0 -->

В этом принципиальное отличие человека от машины. В этом принципиальное отличие человеческого интеллекта от программируемых устройств.

p, blockquote 23,0,0,0,0 -->

Математики, кстати, доказали (между прочим, с помощью теорем!) о недостижимости интеллекта человека машинными системами.

Разобравшись с терминалами и нетерминалами, мы легко преодолеем последнюю часть определения языка о правилах вывода (напомню определение, язык – это набор воспроизводимых символов средствами языка и невоспроизводимых символов средствами языка, а также набор правил вывода всех понятий языка – правила вывода).

p, blockquote 25,0,0,0,0 -->

Это есть то, что есть: правила вывода всех конструкций языка. И у них есть общий термин – синтаксис языка (правила написания) и семантика языка (правила употребления). Это мы знаем еще со школьной скамьи.

p, blockquote 26,0,0,0,0 -->

И что же мы имеем сухим остатком, после того, как погрузились в мир абстракций? А то, что в человеко-машинных системах, а мы только о них и говорим, так как постоянно подразумеваем человека (пользователя ПК), общающимся с машиной (персональным компьютером); в человеко-машинных системах информационные тезаурусы не только не совпадают по определению, а еще и относятся к разным классам языков, к разным уровням языков.

p, blockquote 27,0,0,1,0 -->

И между ними настолько большая разница, что

p, blockquote 28,0,0,0,0 -->

компьютер никогда невозможно научить человеческому языку, а машинные языки могут освоить только некоторые представители славного человечества (программисты, особо продвинутые пользователи и т.п.).

О фантастике, когда компьютеры общаются с людьми на равных, мы не говорим. Мы говорим о реалиях, доказанных наукой. Хотя когда-то наука уверенно доказывала, что Земля – плоская. Так что рано или поздно компьютеры все равно заговорят.

p, blockquote 30,0,0,0,0 -->

Но это уже будет совсем другая история, и совершенно иная компьютерная грамотность.

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах экономики.

Организация быстрого и эффективного поиска документальной информации становится все более неразрешимой проблемой.

Цель документального поиска - нахождение и выдача соответствующих запросу пользователя документов или их описаний.

Традиционно информационно-поисковые системы (ИПС) применяются для тематического поиска научно-технической информации в крупных библиотеках, научно-технических центрах, архивах, патентных библиотеках.

Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой.

При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу, а в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Именно на этой технологии основано действие информационно-поискового тезауруса (ИПТ). Цель моей работы – дать необходимые определения, определить цели разработки ИПТ, его структуру и построение, а также значение и перспективы развития.

1. Информационно-поисковые системы

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис Internet World Wide Web (WWW).

Информационно-поисковая система для управленческих документов, как правило, требует раз­работки собственного информационно-поискового языка, адекватного данной предметной области.

В документальных информационно-поисковых системах поиск документа происходит по краткому формализованному описанию его содержания - так называемому поисковому образу документа.

Важнейшей структурной составляющей является информационно-поисковый язык.

Информационно-поисковый язык, ИПЯ (indexing language, retrieval language) - искусственный язык для выражения содержания документов или запросов с целью последующего поиска.

Основное назначение ИПЯ - установить принадлежность того или иного документа к определенной группе понятий.

Перевод текстов документов и запросов на ИПЯ называется индексированием.

В результате индексирования содержание документа отображается в поисковый образ документа, а содержание запроса - в поисковое предписание.

Индексирование может быть ручным (когда его производит человек) или автоматическим.

Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.

Синонимы - слова, различающиеся по написанию, но совпадающие по смыслу (Россия, РФ, Российская Федерация).

Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть - телеграфный, поисковый, к замку, к шкафу и т.д.).

Полисемия - наличие у одного и того же слова нескольких разных, но связанных между собой значений (например: фамилия - как имя и фамилия - как семья).

Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ.

Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические.

Парадигматические отношения - логические отношения, существующие между лексическими единицами ИПЯ независимо от контекста, в котором эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Примеры парадигматических отношений: часть - целое (отдел - организация); род - вид (ценная бумага - акция); причина - следствие; функциональное сходство; ассоциации. Учет парадигматических отношений необходим для правильного выбора и точного употребления слов.

Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий. По способу организации понятий различают: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ.

Дескрипторные языки семантически более сильны, чем классификационные, но более сложны для формальной обработки.

Дескриптор - ключевое слово или словосочетание, служащее именем класса эквивалентных ключевых слов (синонимов). Как правило, в качестве дескриптора выбирают одно, наиболее употребляемое ключевое слово из класса синонимичных ключевых слов.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

2. Информационно-поисковый тезаурус: определение, цель разработки

Тезаурус – термин, широко используемый в информатике как составная часть информационно-поисковых систем.

Можно выделить два определения информационно-поискового тезауруса:

1. Информационно-поисковый тезаурус представляет собой словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка (дескрипторами) и предназначенный для поиска слов по их смысловому содержанию.

2. Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области.

И в том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.

Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.

По первому способу создаются алфавитные словари. По второму способу - тезаурусы. Алфавитные словари служат для раскрытия значения данного слова. Тезаурусы служат для поиска слов для выражения данного понятия. Т.е., если в обычном словаре по слову ищется его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл выражают.

Цели разработки ИПТ:

- перевод языка авторов на контролируемый язык, используемый для индексации и поиска;

- обеспечение последовательности в присваивании индексных терминов;

- обозначение отношений между терминами;

- облегчение информационного поиска.

Раздел: Информатика, программирование
Количество знаков с пробелами: 17826
Количество таблиц: 1
Количество изображений: 0

Читайте также: