Компьютерный анализ текста кратко

Обновлено: 30.06.2024

Программные системы анализа текста (САТ, англ. Text processing, TP) позволяют обрабатывать текстовую информацию, позволяя пользователям лучше анализировать настроения клиентов или сотрудников, реализовать актуальную классификацию документов и улучшить текстовый контент.

Сравнение Системы анализа текста

Выбрать по критериям:

IQPLATFORM от Айкумен ИБС

IQPLATFORM – это цифровая аналитическая платформа, позволяет выполнять продвинутую аналитику на базе больших объёмов информации, синтез новых знаний и мониторинг и контроль информационных объектов. Узнать больше про IQPLATFORM

M-Brain Intelligence Plaza от M-Brain

M-Brain Intelligence Plaza – это ИТ-платформа для управления потоками информации о рынках и конкурентах для отделов аналитики, продаж, маркетинга, менеджмента. Хранение в облаке, структурирование и внутрикорпоративная рассылка информации по темам, как: отрасли, компании . Узнать больше про M-Brain Intelligence Plaza

Megaputer PolyAnalyst от Мегапьютер Интеллидженс

PolyAnalyst – это программная платформа визуальной разработки сценариев анализа данных и текстов, а также построения интерактивных отчётов, не требующая навыков программирования для аналитики. Узнать больше про Megaputer PolyAnalyst

Elasticsearch от Elastic NV

Платформа Elasticsearch – это программное обеспечение с открытым исходным кодом, предназначенное для поиска, сбора, анализа и хранения текстовых данных с использованием интеллектуальных алгоритмов. Узнать больше про Elasticsearch

Руководство по покупке Системы анализа текста

Содержание

Что такое Системы анализа текста

Обзор основных функций и возможностей Системы анализа текста

Администрирование Возможность администрирования позволяет осуществлять настройку и управление функциональностью системы, а также управление учётными записями и правами доступа к системе. Импорт/экспорт данных Возможность импорта и/или экспорта данных в продукте позволяет загрузить данные из наиболее популярных файловых форматов или выгрузить рабочие данные в файл для дальнейшего использования в другом ПО. Многопользовательский доступ Возможность многопользовательской доступа в программную систему обеспечивает одновременную работу нескольких пользователей на одной базе данных под собственными учётными записями. Пользователи в этом случае могут иметь отличающиеся права доступа к данным и функциям программного обеспечения. Наличие API Часто при использовании современного делового программного обеспечения возникает потребность автоматической передачи данных из одного ПО в другое. Например, может быть полезно автоматически передавать данные из Системы управления взаимоотношениями с клиентами (CRM) в Систему бухгалтерского учёта (БУ). Для обеспечения такого и подобных сопряжений программные системы оснащаются специальными Прикладными программными интерфейсами (англ. API, Application Programming Interface). С помощью таких API любые компетентные программисты смогут связать два программных продукта между собой для автоматического обмена информацией. Отчётность и аналитика Наличие у продукта функций подготовки отчётности и/или аналитики позволяют получать систематизированные и визуализированные данные из системы для последующего анализа и принятия решений на основе данных.

К сожалению, внедрение математических методов в обработку текста происходит в то время, когда собственно лингвистическая составляющая алгоритмов представлена явно недостаточно, и это не позволяет достичь высокого качества работы прикладных систем. Устойчивый уклон в область статистических методов анализа привел к тому, что компьютерная лингвистика оказалась невостребованной. В самом деле, во всех известных русскоязычных системах подобного класса из лингвистического обеспечения используется лишь морфологический словарь, позволяющий отождествлять различные словоформы, тогда как алгоритмы синтаксического анализа реализованы исключительно в автоматических переводчиках и вызывают множество нареканий в связи с невысокой точностью.

Порядок применения правил разбора управляется его алгоритмом, который на каждом шаге проверяет возможность применения следующего правила к очередному фрагменту фразы (двум-трем словам, знакам препинания и т. п.). В случае удачи фрагмент сворачивается. Обычно это приводит к его замене одним главным словом, т. е. удалением подчиненных слов. После чего разбор продолжается. Если дальнейшее применение правил невозможно, на любом из шагов совершается откат. При этом последний свернутый фрагмент восстанавливается, и предпринимается попытка применить другие правила. Окончательным вариантом разбора следует считать такую последовательность применения правил, которая приводит к максимальной свертке предложения.

(усталые -> гуси + утки ) ) ~> (стали (усталые -> гуси ) и (утки ~> стали ((усталые -> гуси ) + (утки (мастерами (символами (поколений (поколений

Вершиной компьютерного анализа текста является автоматическое реферирование. Наличие семантической сети понятий, соединенных глаголами, позволяет сформулировать основные идеи текста документа, отраженные в часто встречающихся понятиях и связях, в виде простых предложений, например:

Клинки изготавливаются японскими мастерами. Запрещен вывоз старинных клинков. Технология производства известна. Русские мастера воспроизводят клинки. Клинки продаются.

Задача тема-рематического анализа решается в ходе синтаксического разбора фразы: понятия из группы подлежащего представляют темы; понятия-дополнения глагола — ремы, которые могут стать темами последующих фраз; обстоятельства — лишь некий фон, на котором развертываются описываемые события.

Документ из архива "Компьютерный анализ текста", который расположен в категории " ". Всё это находится в предмете "информатика (программирование)" из раздела "", которые можно найти в файловом архиве Студент. Не смотря на прямую связь этого архива с Студент, его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.

Онлайн просмотр документа "50377"

Текст 2 страницы из документа "50377"

Компьютерный анализ текста на естественном языке активно развивается в последние годы многими коллективами. Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных.

Поговорим о проблемах компьютерной лингвистики, касающихся, прежде всего грамматического разбора текста на естественном языке. Создание качественного синтаксического анализатора позволяет надеяться на эффективное решение задачи поиска в информации на естественном языке.

Сложность практической реализации приемлемого анализатора текста обусловлена наличием тесной связи между синтаксисом и надъязыковой семантикой. Для решения проблем (называемых синтаксической омонимией) необходимо создание специального толково-комбинаторного словаря, включающего в себя синтаксическую и семантическую информацию о сочетаемости слов.

Формально целью синтаксического разбора является построение дерева зависимостей между словами во фразе. В случае удачи предложение сворачивается в полносвязное дерево с единственной корневой вершиной. Поскольку одна словоформа может соответствовать нескольким грамматическим формам слова, в том числе для различных слов (например, "стали" у существительного "сталь" и глагола "стать"), в ходе анализа необходимо производить свертку предложения для всех возможных вариантов. Те же из них, которые приводят к максимальной свертке фразы (с минимальным числом висячих вершин), предлагается считать наиболее достоверными при разборе предложения.

Порядок применения правил разбора управляется его алгоритмом, который на каждом шаге проверяет возможность применения следующего правила к очередному фрагменту фразы (двум-трем словам, знакам препинания). В случае удачи фрагмент сворачивается. Обычно это приводит к его замене одним главным словом, т. е. удалением подчиненных слов. После чего разбор продолжается. Если дальнейшее применение правил невозможно, на любом из шагов совершается откат. При этом последний свернутый фрагмент восстанавливается, и предпринимается попытка применить другие правила. Окончательным вариантом разбора следует считать такую последовательность применения правил, которая приводит к максимальной свертке предложения.

Так как процессу разбора соответствует целое дерево вариантов свертки фразы, то производительность алгоритма падает экспоненциально с ростом числа используемых правил и количества слов в предложении. Сложные предложения могут порождать тысячи вариантов разбора, ввиду чего на практике приходится ограничивать допустимое число рассматриваемых вариантов.

Наиболее просто решается проблема выделения в тексте именных групп - устойчивых словосочетаний, состоящих из существительных и связанных с ними прилагательных, например "развитие сельского хозяйства". Такие группы характеризуют содержание текста и служат для тематического индексирования, автоматической рубрикации, уточнения запроса при поиске.

В ходе полного синтаксического разбора фразы возможно установление синтаксических ролей именных групп в предложении. Это позволяет ранжировать их по степени значимости для автора, что соответствует пониманию ключевых идей текста. Наиболее важными являются слова из группы подлежащего, затем сказуемого, прямого дополнения, косвенного дополнения, обстоятельства - таковы особенности русского языка.

Смысловая связь между понятиями предложения в общем случае может быть описана глаголом-предикатом, аргументами которого выступают данные понятия. Установление таких синтактико-семантических связей позволяет сформировать логическую схему ситуации, описываемой во фразе.

Однако для этого требуется словарь моделей управления глаголов. В таком словаре для всех глаголов (около 20 тыс. в русском языке) должно быть указано, какими падежами и с какими предлогами производится это управление.

Словарь моделей управления и семантической сети с дифференцированными связями значительно облегчает подобный синтез. Отдельной проблемой является выбор оптимального порядка фраз. Возможно, при этом будет полезно знание коммуникативной структуры текста - иерархии тем и рем, которая отражает логику изложения автором материала. Задача тема-рематического анализа решается в ходе синтаксического разбора фразы: понятия из группы подлежащего представляют темы; понятия-дополнения глагола - ремы, которые могут стать темами последующих фраз; обстоятельства - лишь некий фон, на котором развертываются описываемые события.

Общая схема подобного анализа текста приведена на рисунке.

Общая схема синтаксического анализа текста в информационно-поисковой системе

В заключение хотелось бы отметить, что, несмотря на ограниченность синтаксических анализаторов, работающих пока без привлечения семантики, их применение уже сейчас открывает качественно новые возможности для систем компьютерного анализа текста. Синтаксический анализатор русского языка, реализующий выделение именных групп и снятие омонимии, уже внедряется в поисковые системы.

2.3 Извлечение информации

Извлечение информации (англ. information extraction) - в области обработки естественного языка, это разновидность информационного поиска, при которой из неструктурированного машинно-читаемого текста (то есть электронных документов) выделяется некая структурированная информация, то есть категоризированные, семантически значимые данные по какой-либо проблеме или вопросу. Примером извлечения информации может послужить выискивание случаев деловых визитов - формально это записывается так: Нанесли Визит (Компания-Кто, Компания-Кому, Дата Визита), - из новостных лент, таких как: "Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз". Главная цель такого преобразования - возможность анализа изначально "хаотичной" информации с помощью стандартных методов обработки данных. Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.

В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает - из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.

Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) - часто только на одну тему.

Тексты на естественном языке могут потребовать некоего предварительного упрощения, для создания текста, который будет лучше "пониматься" компьютером.

Типичные подзадачи извлечения информации:

Распознавание именованных элементов: распознавание имён людей, названий организаций, мест, временных обозначений и некоторых типов численных выражений.

Ссылки: выделение словесных оборотов, ссылающихся на один и тот же объект. Типичный случай таких ссылок - анафора и использование местоимений.

Выделение терминологии: нахождение для данного текста ключевых слов.

2.4 Обработка естественного языка

Обработка естественного языка - общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез - генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.

Задачи и ограничения.

Теоретически, построение естественно-языкового интерфейса для компьютеров - очень привлекательная цель. Ранние системы, такие как SHRDLU, работая с ограниченным "миром кубиков" и используя ограниченный словарный запас, выглядели чрезвычайно хорошо, вдохновляя этим своих создателей. Однако оптимизм быстро иссяк, когда эти системы столкнулись со сложностью и неоднозначностью реального мира.

Понимание естественного языка иногда считают AI-полной задачей, потому как распознавание живого языка требует огромных знаний системы об окружающем мире и возможности с ним взаимодействовать. Само определение смысла слова "понимать" - одна из главных задач искусственного интеллекта.

Сложности понимания.

Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника. Вот некоторые примеры сложностей, с которыми сталкиваются системы понимания текстов.

Предложения "Мы отдали бананы обезьянам, потому что они были голодные" и "Мы отдали бананы обезьянам, потому что они были перезрелыми" похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом - к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны. По нормам русского языка второе предложение некорректно, потому что в нем местоимение ссылается не на последнее подходящее слово, однако в живой речи такое предложение очень даже может встретиться.

Свободный порядок слов может привести к совершенно иному толкованию фразы: "Бытие определяет сознание" - кто кого определяет?

В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему.

В речи могут встретиться неологизмы, например, глагол "Пятидесятирублируй" - то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.

Правильное понимание омонимов - ещё одна проблема. При распознавании речи, помимо прочих, возникает проблема фонетических омонимов. Во фразе "Серый волк в глухом лесу встретил рыжую лису" выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (Кроме того, что лиса, может быть, рыжей, а лес - глухим, лес также может быть рыжим (преобладание цвета листвы в лесу), в то время как лиса может быть глухой, что порождает дополнительную проблему, вытекающую из предыдущей).

Глава 3. Программы для компьютерного анализа текста

3.1 Машинный перевод

Машинный перевод - процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы.

Хотелось бы отметить, что вместо "машинного перевода" иногда употребляется слово автоматический, что не влияет на смысл. Однако термин автоматизированный перевод имеет совсем другое значение - при нём программа просто помогает человеку переводить тексты. Автоматизированный перевод предполагает такие формы взаимодействия как:

1) Частично автоматизированный перевод: например, использование переводчиком-человеком компьютерных словарей.

2) Системы с разделением труда: компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё, не уложившееся в схему, отдаёт человеку.

В англоязычной терминологии также различаются термины англ. machine translation, MT (полностью автоматический перевод) и англ. machine-aided или англ. machine-assisted translation (MAT) (автоматизированный); если же надо обозначить и то, и другое, пишут M(A)T.

Если же говорить о качестве перевода, то оно зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее, для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бродящих по Интернету шуток. Из пространных примеров наиболее известен текст "Гуртовщики Мыши" (перевод компьютерной документации программой Poliglossum на основе медицинского, коммерческого и юридического словарей); из кратких - фраза "My cat has given birth to four kittens, two yellow, one white and one black", которую переводчик компании ПРОМТ превращает в "Моя кошка родила четырёх котят, два желтых цвета, одного белого и одного афроамериканца". Главной причиной того, почему программа перевела именно так, было то, что после слова black нужно было добавить kitten, тогда программа переведёт правильно: "Моя кошка родила четырёх котят: двух жёлтых, одного белого и одного чёрного котёнка".

Анализ текста — процесс получения высококачественной информации из текста на естественном языке. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных. Также используется и в литературе

Содержание

Применение

В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука.

В безопасности

Многие пакеты анализа текста, такие как Aerotext и Attensity, нацелены на рынок приложений безопасности, в частности на анализ источников простого текста, например новостных сайтов.

В программном обеспечении

Исследования и разработки подразделений крупных компаний, таких как IBM, Apple и Microsoft, исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных.

См. также

Классификация текста иногда рассматривается как подзадача анализа текста.
Веб-анализ — анализ текстов веб-страниц, найденных поисковыми машинами.
Концептуальный анализ

Wikimedia Foundation . 2010 .

Полезное

Смотреть что такое "Анализ текста" в других словарях:

анализ текста — стилистический разбор и толкование текстов на уроках иностранного языка как методический прием … Толковый переводоведческий словарь

анализ текста количественный — Общенаучный метод количественного исследования текста, основанный на выявлении вероятностно статистических данных, подсчете наиболее частотных, ведущих элементов текста или тех компонентов текста, которые интересуют исследователя. Метод… … Словарь лингвистических терминов Т.В. Жеребило

филологический анализ текста — Метод исследования текста, нацеленный на то, чтобы показать культурологический статус текста через взаимную обусловленность формы и содержания текста и их соответствие замыслу автора. Этому методу присущи следующие принципы: историзм,… … Словарь лингвистических терминов Т.В. Жеребило

филологический анализ текста — Метод исследования текста, нацеленный на то, чтобы показать культурологический статус текста через взаимную обусловленность формы и содержания текста и их соответствие замыслу автора. Этому методу присущи следующие принципы: историзм,… … Методы исследования и анализа текста. Словарь-справочник

лингвосмысловой анализ текста — Глубинный анализ текста, нацеленный на постижение концептуального содержания текста, ориентированный на комплексное изучение всех языковых средств. Цель Л.а.т. – дать адекватную смысловую интерпретацию содержательного плана произведения, опираясь … Словарь лингвистических терминов Т.В. Жеребило

лингвосмысловой анализ текста — Глубинный анализ текста, нацеленный на постижение концептуального содержания текста, ориентированный на комплексное изучение всех языковых средств. Цель Л.а.т. – дать адекватную смысловую интерпретацию содержательного плана произведения,… … Методы исследования и анализа текста. Словарь-справочник

лингвистический анализ текста — 1) Вид языкового анализа, направленного на выявление системы языковых средств, с помощью которых передается идейно тематическое и эстетическое содержание литературно художественного произведения. В этом случае лингвистический анализ смыкается с… … Словарь лингвистических терминов Т.В. Жеребило

КВАЛИТАТИВНЫЙ (КАЧЕСТВЕННЫЙ) АНАЛИЗ ТЕКСТА — изучение текста в его неформализованном виде. Процесс изучения сводится к тем или иным видам интерпретации содержания текста: интерпретации когнитивной информации с использованием общих логических операций (анализ, синтез, сравнение, оценивание); … Социология: Энциклопедия

смысловой анализ текста — 1. Изучение ключевых лексических средств и словесно художественное структурирование текста в целом. 2. Изучение языковой доминанты текста (стилистической или эстетической). 3. Поуровневое изучение текста, при котором лексический уровень является… … Словарь лингвистических терминов Т.В. Жеребило

Читайте также: