Программы анализа и лингвистической обработки текстов реферат

Обновлено: 30.06.2024

  • Для учеников 1-11 классов и дошкольников
  • Бесплатные сертификаты учителям и участникам

ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ

Кафедра прикладной лингвистики и образовательных технологий в филологии

КУРСОВАЯ РАБОТА

Выполнила: Завьялова Светлана Романовна

Курс4, заочное отделение

Научный руководитель: Антонова Н.Л.

Москва, 2009 год

II Методика лингвистического анализа текста…………………………………………………………………………..18

2.1Текст на уроках развития связной речи учащихся…………………………………………….18

А) Текст как дидактическая единица в работе над связной речью.18

2.2 Методы и приёмы обучения лингвистическому анализу текста……………… 21

Обогащение речи учащихся предполагает развитие их коммуникативных способностей. Тем самым даёт учителю-словеснику реальную возможность обучать детей эффективному речевому общению и одновременно расширять культурный кругозор обучаемых, соединить обучение с эмоционально-нравственным воспитанием. Осмысление этого является той основой, на которой строится обучение работе с текстом, умению составлять текст, анализировать его.

Для исследователя данная проблема является актуальной, также потому, что умения правильно выстраивать ход своих мыслей, рассуждать и делать выводы, а также связно выражать свои мысли, наконец, умение грамотно говорить является важной задачей в развитии монологической речи современных школьников.

Лингвистические основы текста, то есть рассмотрение текста как лингвистической единицы, его типов, стилей, построения мы обнаружили в трудах И.Р. Гальперина, М.М. Бахтина, Н.Д.Зарубиной, Л.М.Лосевой, И.О. Москальской, Т. Я. Солганика, Г.Л. Заметовой и других.

Проблему развития связной речи в школе рассматривали многие методисты и учителя русского языка : Т.А. Ладыженская, В.Н Мещеряков, Ф.И.Буслаев, Е.И Никитина и др.

Предмет исследования: формы работы по развитию умений лингвистического анализа текста.

Объект исследования: процесс развития связной речи учащихся средней школы.

В связи с этим мы ставим следующую цель: выявить наиболее эффективные приёмы работы над понятием текст и обучение лингвистическому анализу текста.

Задачи работы:

Установить степень разработанности проблемы обучения лингвистическому анализу текста в методической литературе и практике школы.

Определить исходный уровень знаний учащихся о понятии текст и его лингвистическом анализе.

Разработать систему заданий, направленных на формирование умений отличать текст от других продуктов речи, анализировать текст с точки зрения лингвистики.

Проверить эффективность используемых приёмов и верность гипотезы.

Методы исследования:

Анализ методической и лингвистической литературы по теме.

Методическое изучение педагогической документации

Методический анализ продуктов деятельности учащихся.

Таким образом, первая глава будет посвящена лингвистике текста. Будут рассмотрены признаки текста, структурные элементы текста, типы речи, стили речи. Это нужно, для того чтобы понять как строится текст.

Во второй главе будет рассмотрена методика работы с текстом и его лингвистического анализа текста. Нашей задачей будет являться представление некоторых методов обучения приёмам работы с текстом.

I Лингвистика текста.

Подходы к пониманию текста.

Текст стал предметом активного внимания и изучения сравнительно недавно—последние 3-4 десятилетия. Область языкознания, исследующая содержательную и структурную стороны текста, получила название лингвистики текста.

Понятие текста существовало в лингвистике и раньше, но воспринималось лингвистами иначе—как материал для наблюдений над формой и употреблением различных языковых единиц. Теперь же к тексту подошли как к объекту изучения, как к целому и задачу изучения видят в выявлении общих закономерностей построения текста.

Хотя интуитивное представление о том, что такое текст, имеют все, тем не менее ,в настоящее время нет единой точки зрения на то, с каким классом явлений его следует соотносить: считать ли его единицей языка или рассматривать текст как сугубо речевое явление., так как порождается он в процессе коммуникации и является продуктом речевой деятельности.

Одно направление в исследовании текста основано на познании грамматической природы познания текста, описании его грамматических признаков, так как текст в данном случае характеризуется как явление, которое занимает высшую ступень в системе языковых единиц.

Другое направление в исследовании текста связано с отнесением его к явлениям речевого характера, и поэтому при описании текста делается упор на такие признаки, которые раскрывают его коммуникативные возможности. Это различие исходных позиций находит отражение в определениях текста, которые содержатся в лингвистической и методической литературе.

Текст, по мнению Г.В.Колшанского, это связь по меньшей мере двух высказываний, в которых может завершаться минимальный акт общения—передача информации или обмен мыслями между партнёрами.(

Л.М.Лосева выделяет следующие признаки текста:

2) текст характеризуется содержательной и структурной завершённостью;

3) в тексте выражается отношение автора к сообщаемому (авторская установка).

Вот, например, как решается задача типизации текстовых структур в исследованиях Г.А. Золотовой. Г.А.Золотова выделяет два типа текста(речи), или речевые регистры: изобразительный и информативный. Для изобразительного регистра характерны сложность временных значений, наблюдаемость конкретных действий, наблюдаемость конкретных действий и т.п. Говорящий сообщает, что ему известно о том или ином явлении, факте. Г.А.Золотова выделяет следующие коммуникативные типы: изобразительно-повествовательный, изобразительно-описательный, информативно-повествовательный, информативно- описательный, информативно- логический, оценочно- квалифицирующий.

Таким образом, текст(высказывание) будет анализироваться нами как продукт(результат) речевой деятельности, но с учётом тех механизмов и условий, которые определяют его структуру и содержание в целом.

Категории текста.

В литературе выделены и описаны следующие текстовые категории: информативность, завершенность, цельность, связность.

Кратко охарактеризуем некоторые из названных категорий текста.

Текст передаёт определённую последовательность фактов, которые развёртываются во времени и пространстве по особым правилам в зависимости от содержания и типов текста.

В связи с этим в процессе создания и осмысления текста реализуются такие текстовые категории, как ретроспекция (элементы, обеспечивающие возвращение читателя или слушателя к изложенным ранее фактам, событиям, оценкам). И проспекция (элементы, обеспечивающие перспективу высказывания). Эти категории обеспечивают осмысление уже воспринятой(или изложенной) информации, позволяют наметить перспективу процесса создания или восприятия текста.

Важнейшими текстовыми категориями являются связность и цельность (целостность).

Очевидно, что все коммуникативные элементы текста(предложения, группы предложений, коммуникативные блоки) должны быть связны, сцеплены между собой. В каждом тексте, как правило, обнаруживаются, поддаются наблюдению и описанию формальные, внешние связи между отдельными частями текса.

Структурные элементы текста.

Каждый текст создаётся на определённую тему. Тема —это то, о чём (или о ком)в нём говорится. Очень часто тема текста отражается в его заглавии.

В словаре литературоведческих терминов даётся такое толкование понятия тема:

В тексте предложения связаны не только общей темой, но и определённой идеей, основной мыслью. Основная мысль текста —это то, к чему он призывает, чему учит, ради чего он написан. Основная мысль может быть выражена в заглавии или одном из предложений текста. Но чаще всего её надо найти и сформулировать.

Выражая мысль, автор чаще всего движется как бы по ступенькам, переходя от одной его части к другой. Часть одной общей темы (части сочинения) называется микротемой . Микротема отражает содержание нескольких самостоятельных предложений большого текста, связанных одной мыслью. Микротема раскрывается в микротексте— части текста.

Композиция— (исходя из определения словаря литературоведческих терминов)—построение произведения, обусловленное его содержанием и жанром, определённая организация образов, их связей и отношений, характеризующих жизненный процесс в произведении. Композиция обладает самостоятельной содержательностью, её средства и приёмы преображают и углубляют смысл изображаемого.

Композиция текста -- построение текста , расположение и взаимосвязь частей в соответствии с замыслом пишущего, с коммуникативной целесообразностью. Композиция зависит от типа речи: в повествовании композиция определяется чаще всего ходом событий, положенных в его основу; в описании- - ходом наблюдений или задачей выделения главного, рассуждение строится по классической модели: тезис—развитие тезиса(доказательство)—вывод.

Для подготовки к устному или письменному высказыванию используют план. План это намечаемая на этапе подготовки краткая программа, предусматривающая выделение частей текста и их взаимного расположения. План может быть мысленным, устным или письменным, простым или сложным, пункты планов могут иметь форму вопросов, повествовательных или назывных предложений, цитат. Сложный план отличается от простого тем, что отдельные пункты его являются заглавием значительных частей текста, включают в себя подпункты. (то есть заголовки более мелких частей). Работая над сложным планом, ученики учатся обобщать, группировать, систематизировать. При записи сложного плана необходимо внимательно следить за употреблением знаков препинания, а также заглавных и прописных букв

План, в отличие от композиции, которая, опираясь на план, допускает перестановки частей, введение дополнительных эпизодов, картин, лирических отступлений и прочее, предусматривает полноту и ясность содержания.

Эпиграф —цитата, изречение, пословица, помещаемые автором перед текстом всего художественного(публицистического, научного) произведения или его части. При помощи эпиграфа автор поясняет главную мысль произведения или своё отношение к герою, к сюжету.

Предложения в тексте могут быть связаны по смыслу и грамматически. Основные средства грамматической связи предложений в тексте—порядок предложений, , порядок слов в предложениях, интонация и др. предложения в тексте могут быть связаны при помощи повторения одного и того же слова. Например: леса-лесах, соснами-сосны. Такие средства связи предложений в тексте называют лексическим повтором.

Предложения в тексте могут сцепляться при помощи синонимов. (Пр.лось-сохатый, обрыв- круча). Текстовые синонимы позволяют избегать неуместного повторения слов, могут сцеплять связные по смыслу предложения. Также, предложения в тексте могут связываться при помощи родо-видовых слов.

В тексте предложения могут быть связаны по смыслу, последовательно, как бы по цепочке: второе с первым, третье со вторым. Такую связь называют цепной . ( см. раздел Иллюстрации схема.№2 а))

Предложения в тексте могут связываться без сцепляющих слов, при этом все предложения, начиная со второго, и по смыслу, и грамматически связаны с первым. Они как бы развертывают, конкретизируют его смысл. Порядок главных членов в них обычно такой же, как и в первом положении. Такая связь предложений в тексте называется параллельной . (См.раздел Иллюстрации схема№2 Б))

Важным компонентом текста является абзац. Абзац —это единица текста, представляющаяся собой единство тематически объединённых предложений, в одном из которых указывается главная мысль абзаца. Правильно построенный абзац должен удовлетворять следующим требованиям:

В абзаце должна излагаться только одна тема. Должно быть включено всё, что необходимо для развития темы; не должно быть ничего, что не относится к этой теме.

Расположение предложений внутри абзаца должно быть продуманным. Для читателя должна быть ясна связь каждого предложения с тематическим предложением абзаца; каждое предложение должно подготовить читателя к восприятию следующего предложения.

Предложения в абзаце должны располагаться таким образом, чтобы самое главное предложение было выдвинуто на первый план. Начало и конец абзаца в наибольшей мере способны подчеркнуть выраженную мысль. Следует стремиться выразить главную мысль в начале или конце абзаца.

Абзац имеет зачин или начало, разработку или развитие мысли, концовку или конец.

Структура абзаца хорошо видна на таком примере.

Был конец ноября—самое грустное время в деревне. Кот спал весь день, свернувшись на старом кресле. Темная вода хлестала в окна. Дороги размыло. Вот уже больше недели, как никто нас не навещал. (По К. Паустовскому).

Первое предложение—это зачин, в котором заключается основная мысль отрывка, второе, третье и четвёртое—разработка масли, высказанной в зачине; последнее—концовка, оно отчётливо свидетельствует о том, что микротема исчерпана.

В речевой практике возможны различные отступления от такой классической структуры. Иногда может отсутствовать концовка, когда мысль, выраженная вначале, основной частью абзаца полностью исчерпана и нет необходимости специально оформить её окончание. Иногда в абзаце может отсутствовать начало, но иногда основная мысль отрывка будет сформулирована в конце.

Заключение … 8 стр.

Список использованной литературы

На данный момент лингвистика является одной из самых динамично развивающихся наук. От её достижений зависит развитие и совершенствование технологий информационных.

Активное использование результатов лингвистических исследований в обществе непосредственно связано с рационально организованными информационными ресурсами в этой области (ИР Л).

Становление современного информационного общества приводит к коренным изменениям во всех сферах жизни и деятельности человека. Всё большее количество людей убеждается том, что "будущий стратегический потенциал общества будут составлять не вещество и энергия, а информация и научные знания", что "мощь любого государства будет определяться не уровнем развития промышленности, новизной и эффективностью ее технической базы, а уровнем информатизации общества" . В скором времени реально защищенным в социальном плане может себя считать лишь только тот человек, который способен гибко перестраивать направление и содержание своей деятельности в связи со сменой технологий или требований рынка.

В наши дни владение ИТ становится в один ряд с такими качествами, как умение читать и писать. На сегодняшний день специалист с высшим образованием должен "свободно ориентироваться в мировом информационном пространстве, иметь необходимые знания и навыки поиска, обработки и хранения информации с использованием современных ИТ, компьютерных систем и сетей".

Наше общество вступило в век компьютерных технологий, и поэтому появились возможности более эффективной обработки и представления информации. Всё это позволило эффективно обрабатывать и хранить большой объём информации. Но на современном этапе развития информационной культуры знания устаревают крайне быстро, вследствие чего человеку приходится учиться всю жизнь. Огромный объём знаний, накопленный человечеством, заставляет искать иные подходы к организации процесса обучения.

Глава 1

Исследования в сфере информационных ресурсов.

К.В. Вигурский и И.А. Пильщиков отмечают в своей статье "Филология и современные информационные технологии: "осознание фундаментальной роли информации в общественном развитии и огромные темпы роста ИТ обусловили необходимость формирования особой информационной культуры личности. Для использования новых компьютерных технологий в жизни требуется новое мышление, которое должно воспитываться у ребёнка с младших классов. Развитие и широкое внедрение информационных технологий воздействует на все сферы современной жизни, включая экономику, политику, науку и образование"

Целью работы этих учёных является поиск и анализ эффективности применения ИТ в лингвистике.

Так же существует множество других работ, посвящённых этой же теме. Одной из них является следующее исследование - "Информационные технологии в лингвистике" А.В. Зубова. Помимо этой работы можно привести в пример и такие как "Основы искусственного интеллекта для лингвистов" А.В. Зубова и И.И Зубовой, "Автоматическое понимание текстов: системы, модели, ресурсы" Н.Н. Леонтьева , "Новые информационные технологии и лингвистика" Р.К. Потаповой , "Компьютерная обработка лингвистических данных" А.В. Всеволодовой.

В учебном пособии "Информационные технологии в лингвистике" А.В. Зубов определяет прикладную лингвистику (ПЛ) как особую область лингвистики, "которая осуществляет реализацию лингвистических знаний с целью решения всякого рода практических задач" , а также как "раздел языкознания, в котором разрабатываются методы решения практических задач, связанных с оптимизацией использования языка как важнейшего средства человеческой коммуникации"

Далее следует определение ИТ как "совокупности законов, методов и средств получения, хранения, передачи, распространения, преобразования информации с помощью компьютеров". Помимо этого, А.В. Зубов конкретизирует определение понятия "ИТ" по отношению к лингвистике и подмечает, что ИТ в лингвистике – "это совокупность законов, методов и средств получения, хранения, передачи, распространения, преобразования информации о языке и законах его функционирования с помощью компьютеров"

Автор пособия смог сформулировать задачи прикладной лингвистики. Они звучат так:

создание систем искусственного интеллекта;

создание систем автоматического перевода;

создание систем автоматического аннотирования и реферирования текстов;

создание систем порождения текстов;

создание систем обучения языку;

создание систем понимания устной речи;

создание систем генерации речи;

создание автоматизированных информационно-поисковых систем;

создание систем атрибуции и дешифровки анонимных и псевдоанонимных текстов;


За последнее десятилетие наметился прогресс в области обработки текстов на естественном языке, однако многие задачи по-прежнему остаются нерешенными, хотя появляются новые, связанные с мониторингом социальных сетей и обработкой искаженных текстов.

За последнее десятилетие наметился прогресс в области обработки текстов на естественном языке, однако многие задачи по-прежнему остаются нерешенными, хотя появляются новые, связанные с мониторингом социальных сетей и обработкой преднамеренно искаженных текстов. Все это заставляет по-иному взглянуть на системы обработки текстов.

Все эти задачи заставляют задуматься о том, всегда ли при обработке текстов следует отталкиваться от методов компьютерной лингвистики.

Во всех современных системах обработки текстов, начиная от простейшего поиска вхождения слов и заканчивая машинным переводом, предусмотрено несколько этапов, инвариантных к выбору естественного языка (рис. 1).

Рис. 1. Классическая поэтапная обработка текстов
Рис. 1. Классическая поэтапная обработка текстов

Задачи обработки текстов возникли сразу за появлением вычислительной техники, но, несмотря на полувековую историю исследований в области искусственного интеллекта, скачок в развитии ИТ и смежных дисциплин, удовлетворительного решения таких задач пока нет.

На следующем этапе происходит обработка отдельных слов, которая часто сводится к морфологическому анализу — определению характеристик слова (граммем) и основной словоформы. Существует два подхода к проведению морфологического анализа. Первый (точная морфология) подразумевает построение одного большого словаря, содержащего характеристики каждого слова (для русского языка такой словарь строится на основе словаря А. А. Зализняка, содержащего более 8 млн слов). Этот подход сравнительно прост в реализации, но имеет два важных недостатка. Во-первых, система будет корректно обрабатывать только слова, которые есть в словаре. Во-вторых, во многих языках этот словарь будет слишком большим.

Альтернативный подход (неточная морфология) к проведению анализа слов заключается в использовании системы правил, согласно которым по заданному слову предсказываются его характеристики. Недостатком подхода является то, что он не всегда может гарантировать 100-процентную точность результатов.

При синтаксическом анализе последовательность слов исходного текста преобразуется в древовидную иерархию, у которой листья соответствуют отдельным словам, узлы — группам слов, а дуги — взаимосвязям между словами и группами слов. Это преобразование осуществляется на основе заданной грамматики языка, которая по сути является фиксированным набором правил. Использование грамматик связано с очевидными трудностями — для естественного языка сложно разработать описывающую его систему правил, причем это особенно трудно для языков со сложной морфологической моделью и произвольным порядком слов (таких как русский). Кроме того, подавляющее большинство написанных человеком текстов содержат ошибки или опечатки. По этой причине любая грамматика может оказаться неприменимой, а попытки учесть все возможные варианты ошибок результата не дадут.

Положение синтаксического анализа среди других методов предварительной обработки текстов двояко. С одной стороны, синтаксическая структура предложения достаточно точно определяет связи между словами, что необходимо в ряде практических приложений, таких как машинный перевод или извлечение информации. С другой, некоторые задачи (например, полнотекстовый поиск или классификация текстов) решаются и без синтаксического анализа, без следования традициям и глубокого анализа текста.

Качественно выполненный семантический анализ приводит к построению локального тезауруса, у которого узлы соответствуют словам и словосочетаниям исходного текста, а дуги задают синтаксические и семантические связи. Часть семантических связей может указывать на глобальный тезаурус, который может быть построен вручную, а может быть комбинацией локальных тезаурусов других текстов. Во втором случае возникает любопытная идея — смысл слова состоит в его связях с фрагментами накопленных и обработанных текстов.

Локальный тезаурус способен формализованно задать содержание любого документа, но такое представление может быть крайне неудобным для дальнейшей обработки, поскольку один и тот же факт представим множеством различных способов. Необходимо более строгое и унифицированное представление, которое позволит формально и однозначно задавать любой смысл. Оно может быть основано на каком-либо способе представления знаний, в том числе и с помощью семантических сетей. В этом случае необходимо детальное описание возможных типов узлов и связей в таких сетях, а также система правил для преобразования информации из локального тезауруса в семантическую сеть. Попытки решить указанные задачи предпринимались давно, но не увенчались успехом, хотя сообщается, что эти задачи решены в Abbyy Compreno.

Ограничения существующих методов

Обработка текста происходит в несколько этапов, при этом выходные данные одного этапа передаются либо на вход следующего этапа, либо модулям, предназначенным для решения конкретной практической задачи, например машинного перевода. Результаты работы любого этапа неоднозначны — одни и те же входные данные дают несколько возможных результатов, и наоборот — один и тот же результат может получаться из совершенно разных входных данных. Это приводит к тому, что объем обрабатываемой информации при переходе с этапа на этап может резко увеличиваться.

Рис. 2. Двухфазная обработка текстов
Рис. 2. Двухфазная обработка текстов

Как уже говорилось, модули нужно тестировать на реальных входных данных системы, и попытки сделать универсальные модули анализа, пригодные для решения любых задач, сталкиваются с одной и той же проблемой — модули оказываются оптимизированы для одной задачи и не оптимальны для других, а если анализ текста выполняется плохо, то и качество работы всей системы невысокое. При двухфазной обработке текста система способна влиять на то, какие модули необходимо задействовать и насколько эффективен оказывается именно лингвистический анализ текста.

Обработка отдельных текстов

При решении практических задач важно разделить их на две большие группы (рис. 3): обработка отдельных документов и обработка их массивов.

Рис. 3. Классификация практических задач
Рис. 3. Классификация практических задач

Группу задач обработки отдельных документов следует разделить на две подгруппы: корректировка документов и извлечение информации. Первая подразумевает, что на входе и на выходе будет текстовый документ (задачи исправления ошибок, корректировки текста, определения его структуры, реферирования, машинный перевод). Вторая подгруппа включает в себя задачи, связанные с обработкой формально представленного смысла: извлечение фактов, выполнение запросов на естественном языке, организация естественно-языковых интерфейсов, а также генерация корректных текстов.

Реализация всех задач первой подгруппы может быть основана либо на правилах, сформулированных экспертами, либо на закономерностях, полученных в результате применения методов машинного обучения. Использование системы правил потенциально дает более точные и предсказуемые результаты, но подразумевает большие затраты на ее создание. В свою очередь, применение методов машинного обучения не столь трудоемко, но требует большого количества качественных примеров. Скажем, можно найти множество хороших переводов английского текста на другие европейские языки и обратно, но трудно найти примеры переводов для редких языков.

Генерация текстов состоит в построении корректных документов, содержащих описание формально заданной информации. Как и выполнение запросов на естественном языке, данная задача востребована только для сложных предметных областей. Кроме того, поскольку на выходе получается текстовый документ, то действует особенность систем корректировки документов: пользователь не станет доверять системе полностью и всегда будет просматривать выходную информацию.

Организацию естественно-языковых интерфейсов можно рассматривать как комбинацию сразу трех задач, решенных сегодня в системе IBM Watson: извлечение информации, поиск ответа на уровне базы знаний и генерация текста. Пока еще сложно сказать, как эти технологии будут востребованы, но планируется использовать систему для медицинской диагностики, хотя неясно, будет ли естественно-языковой интерфейс удобнее других способов взаимодействия с экспертными системами.

Обработка массивов текстовых документов

Сегодня основная работа с массивами текстовых документов сводится к поиску необходимых документов или их фрагментов, что является обобщением задачи информационного поиска. Данный процесс включает в себя как собственно поиск документов, так и смежные с ним задачи определения ключевых слов, дубликатов документов и цитат, классификации и рубрикации документов, построения сниппетов (фрагментов) документов, построение кратких обзоров нескольких документов и так далее, вплоть до машинного перевода найденных документов с языка оригинала на язык запроса.

Системы информационного поиска можно разделить на две группы: поиск в локальных коллекциях и поиск в Интернете. Суммарный объем документов при поиске в локальных коллекциях сравнительно небольшой, и документы обычно не содержат преднамеренных ошибок.

Сегодня приходится решать разные задачи обработки текстов, учитывая множество характеристик (язык, наличие ошибок, вероятность преднамеренных искажений и т. д.), что ставит под сомнение возможность создания и использования универсальных модулей анализа. Вместе с тем многие задачи могут быть решены без использования популярной сегодня, но трудоемкой и неэффективной в ряде случаев компьютерной лингвистики — ряд проблем можно решать без учета особенностей естественного языка.

В статье был проведен анализ работы лингвистических процессоров при обработке текстов на естественном языке, обозначена важность повышения эффективности алгоритмов обработки неструктурированной информации, объём которой увеличивается с каждым годом. Определены задачи, для решения которых служат современные лингвистические процессоры. Были подробно рассмотрены этапы процесса анализа и синтеза текстов на естественном языке при помощи морфологического, синтаксического и семантического анализаторов. Определены задачи и функции анализаторов на каждом из этапов. Рассмотрены наиболее частые способы обработки текста морфологического, синтаксического и семантического анализаторов. Предложены алгоритмы анализа и синтеза текстов на естественном языке. Выявлены факторы, определяющие качество лингвистического процессора. Обозначена актуальность разработки и совершенствования лингвистических процессоров при работе над созданием искусственного интеллекта.


1. Волкова И.А., Головин И.Г. Лингвистический процессор русского языка: анализ устойчивых словосочетаний // Научные труды SWorld. – 2015. – Т. 2, № 4 (41). – С. 36–46.

3. Золотарев О.В., Козеренко Е.Б., Шарнин М.М. Принципы построения моделей бизнес-процессов предметной области на основе обработки текстов естественного языка // Вестник РосНОУ. – 2014. – № 4. – С. 82–88.

Исследования показывают, что совокупный объем данных в 2016 году составил 16 Збайт, а к 2025–му эта цифра увеличится до 163 Збайт. На более чем 80 % такая информация является неструктурированной, то есть представляет собой тексты на естественном языке (ЕЯ). Человеку становится с каждым годом труднее ориентироваться в таких огромных потоках поступающей информации.

Многие пользователи имеют определенные служебные обязанности, при выполнении которых не обойтись без постоянного поиска информации в сети Интернет. Обычно необходима вполне конкретная информация, которая называется информационными объектами. Эти объекты различны по своим типам, которые интересуют определённые категории пользователей. Поиск этих объектов в потоке текстов на ЕЯ во многих областях отнимает много времени, что тормозит решение конкретных прикладных задач. Может возникнуть и необходимость в переводе текстов с одного ЕЯ на другой, в конвертации/деконвертации различных языков, создании компьютерных учебников, размеченных корпусов текстов, программ анализа, синтеза, аннотирования и реферирования текстов.

Ключевым элементом информационных систем, ориентированных на ЕЯ, является лингвистический процессор. Он облегчает обмен информацией между экспертной системой и пользователем-человеком.

Лингвистическим процессором называется формальная лингвистическая модель, реализованная на ЭВМ, которая способна понимать и производить тексты на ЕЯ. Основной задачей для лингвистического процессора является извлечение требуемого смысла из предложения или же текста и его интерпретация при помощи набора формальных средств, понятных машине. Система включает в себя три уровня преобразования информации: морфологический, синтаксический и семантический, каждый из них определяется набором правил. Эти компоненты обеспечивают преобразование текста в набор морфологических, синтаксических и семантических структур и обратно. Обработка текста при помощи лингвистического процессора всегда происходит от простого, легко формализуемого уровня к сложному. В первую очередь осуществляется морфологический анализ, то есть анализ строения слов с подробным описанием их морфологических характеристик. Затем следует синтаксический анализ, который формально описывает порядок слов в предложении и синтаксические связи между ними, указывая слова с описанием частей речи и их набора грамматических характеристик, особое внимание уделяя отношениям синтаксического подчинения. Зачастую синтаксический анализ заканчивается построением синтаксического древа каждого анализируемого предложения. Третьим и самым сложным этапом в процессе анализа информации является построение семантической структуры предложения или текста. Чаще всего она представляется так же древом зависимостей, в котором указываются предметные имена с дугами семантического подчинения (атрибутивные, конъюнкция, дизъюнкция, равенство, неравенство и т.д.).

Для морфологического анализа и морфологического синтеза служит один из компонентов лингвистического процессора – морфологический анализатор. Он позволяет преобразовать морфологические структуры исходной информации в последовательность входящих в текст словоформ с указанием их грамматических характеристик, в том наборе, который характерен для данной части речи. Морфологический синтез же выполняет обратный процесс, то есть преобразует лексемы с указанием их грамматических характеристик в выходной текст, определяя все возможные словоформы по заданной морфологической структуре.

Промежуточным звеном между морфологическим и семантическим анализаторами является синтаксический анализатор. С одной стороны, он отвечает за переход морфологических структур ряда исследуемых словоформ в синтаксическую структуру, с другой – является способом дальнейшего смыслового представления текста. Синтаксический анализатор – программа, осуществляющая сопоставление линейной последовательности лексем с их грамматическими характеристиками. Важнейшей задачей любого синтаксического анализатора является построение синтаксической структуры входного предложения на естественном языке, используя при этом морфологическую информацию о лексемах, полученную при морфологическом анализе, и сведений из словаря. Так же, как и морфологический, синтаксический анализатор включает в себя синтаксический анализ и синтаксический синтез. Синтаксический анализ представляет собой процедуру преобразования морфологической структуры входного предложения на естественном языке в синтаксическую структуру или синтаксическое древо, а синтаксический синтез – это обратное преобразование синтаксической структуры в морфологическую.

Для одновременного морфологического и синтаксического анализа текстов на ЕЯ могут использоваться парсеры, которые позволяют разбить текст на слова и предложения, определить части речи, падеж, род, числа и других грамматические признаки, учитывая контекст слова, привести слово к его начальной форме, определить синтаксические связи слов в предложении, найти подлежащее, сказуемое и т.д. Кроме того, можно включить режим опечаток, чтобы морфологический анализатор исправлял допущенные в тексте орфографические ошибки [1–3].

Таким образом, можно составить следующие два алгоритма обработки текста на ЕЯ: алгоритм анализа текста (рис. 1) и алгоритм синтеза текста (рис. 2).

mus1.tiff

Рис. 1. Алгоритм анализа

mus2.tif

Рис. 2. Алгоритм синтеза

Как видно, синтез текста на естественном языке является обратным алгоритмом анализа текста на естественном языке.

Качество лингвистического процессора в настоящее время определяется рядом важных факторов. А именно, возможностью выделения информационных объектов и связей между ними, избирательностью правил и процедур идентификации, возможностью и трудоемкостью настройки на нужный корпус текстов естественного языка, а также настройки на новые информационные объекты, скоростью, с которой работает лингвистический процессор, временем, которое потребуется для анализа текста.

Разработка лингвистических процессоров является ещё одним шагом к созданию искусственного интеллекта, ведь создание идеального алгоритма точного анализа текста на естественном, человеческом языке станет ключом к пониманию того, как устроен наш язык, а значит и наше мышление.

Комментарий

Комплекс программ для синтаксического и морфологического анализа русскоязычных текстов. Модули лингвистического анализа включают: морфологические словари, словари графем, синтаксические правила, семантический классификатор, словари синонимов. Инструментарий разработчика представлен модулями морфологического и фактографического анализа. Используется морфологический словарь объемом ~ 115000 лексем. Программы разработаны для Windows, Oracce, SDK работает на платформах Windows и Unix. Программы и SDK распространяются на коммерческой основе. Уровни лингвистического анализа: графематический, морфологический, синтаксический, семантический.

Программно-аппаратный комплекс Google Mini и программа Google Desktop для поиска информации на компьютерах корпоративной локальной сети и на компьютере пользователя соответственно. Реализует поиск по ключевым словам с учетом морфологии для основных языков (русского, английского и др.). Уровни лингвистического анализа: графематический, морфологический.

Программа позволяет выявлять значимые слова и словосочетания документа, проводить поиск документов по вводимым пользователем ключевым словам с учетом их синонимов, а также формировать отчеты по частоте встречаемости слов в документах. Программа обеспечивает обработку русскоязычных текстов. Алгоритмы основаны на использовании морфологического и статистического анализа.
Уровни лингвистического анализа: графематический, морфологический.

Система обеспечивает автоматизацию аналитической обработки однотипной текстовой информации и представление отчетов в различном виде. Однако она не обеспечивает высокие показатели по достоверности выявления связей фактографической информации и наглядности их представления ввиду отсутствия реализации синтаксического и семантического анализа текстов. Программа требует большого объема ручного труда для настройки системы на новые прикладные области, а также ввиду отсутствия автоматического определения словоформ неизвестных системе слов. Система неудобна в работе ввиду отсутствия возможности ведения диалога с ней на естественном языке. Она не обеспечивает оперативной настройки на новые прикладные области применения ввиду большого объема работы, выполняемой подготовленными IT специалистами.
Уровни лингвистического анализа: графематический, морфологический.

Метапоисковые системы с кластеризацией результатов поиска обеспечивают возможность выделения слов, часто встречающихся совместно со словами поискового запроса. Однако использование только кластерного анализа не дает существенных преимуществ метапоисковым системам данного типа. Улучшение качества поиска, особенно при обработке запросов на естественном языке возможно только на основе использования синтаксического и семантического анализа.
Уровни лингвистического анализа: графематический, морфологический.

Читайте также: