Системы понимания естественного языка машинный перевод доклад

Обновлено: 05.07.2024

Обработка естественного языка включает обучение, понимание и создание контента на человеческом языке машинами с помощью вычислительных методов. Ранние математические подходы к языку фокусировались на автоматизации анализа лингвистической структуры, а также на разработке базовых технологий обработки языка (машинный перевод, распознавание и синтез речи). Сегодня исследователи совершенствуют эти инструменты и используют их в реальных приложениях: для создания систем голосового общения и механизмов автоматического перевода; для извлечения из социальных сетей полезной информации (например, о здоровье или финансах, или о чувствах и эмоциях в отношении продуктов и услуг). Мы опишем достижения и основные задачи в этой быстроразвивающейся области.

За последние 20 лет математическая лингвистика превратилась в захватывающую область научных исследований, а также в практически применимую технологию: она всё чаще используется в бытовой технике (например, в приложениях Apple Siri и Skype Translator). Четыре ключевых фактора способствовали такому развитию: (1) значительно увеличилась вычислительная мощность компьютеров, (2) стало доступно большое количество лингвистических данных, (3) были изобретены высокоэффективные методы машинного обучения (machine learning, ML), и (4) улучшилось понимание структуры человеческого языка и его использования в социальных контекстах. В этом обзоре мы опишем некоторые интересные области применения технологий обработки естественного языка (ОЕЯ, natural language processing), использующих подход больших данных (big data), основанный на современных передовых методологиях и объединяющий статистический анализ, и машинное обучение с пониманием естественного языка.

Математическая лингвистика, также известная как обработка естественного языка, является подполем компьютерной науки, использующим вычислительные технологии для исследования, понимания и создания контента на человеческом языке. У компьютерных лингвистических систем множество практических применений. Они могут помогать общению между людьми, например, осуществлять перевод с одного естественного языка на другой; способствовать взаимопониманию людей и машин, — эту функцию выполняют разговорные агенты типа Siri; приносить пользу как людям, так и машинам, анализируя и изучая огромное количество контента на человеческом языке, доступное в интернете.

Центральной находкой статистического подхода к ОЕЯ стало то, что простые методы, использующие шаблоны из слов и последовательностей частей речи, часто показывают хорошие результаты при обучении на большом количестве данных. Многие классификаторы текстов и детекторы эмоциональной окраски по-прежнему основаны исключительно на наборах слов (подход bag of words), они не учитывают структуру дискурса и предложений, или значение текста. Достичь значительных улучшений по сравнению с результатами этого подхода может быть непросто, но это возможно с помощью нейронных сетей. Наиболее эффективные системы сейчас основываются на подходах машинного обучения и на лучшем понимании лингвистической структуры. В настоящее время доступны высокопроизводительные инструменты, способные выделять из текста синтаксическую, семантическую и дискурсивную информацию. Одним из примеров является Stanford CoreNLP, который предоставляет стандартную последовательность процедур предварительной обработки текста, включающую разметку частей речи (существительное, глагол и предлог); идентификацию имён собственных, таких как люди, места и организации; анализ грамматической структуры предложения; определение согласования между местоимениями и существительными (рис.1).


Рисунок 1. Многие инструменты ОЕЯ на первой стадии обработки анализируют лингвистическую структуру предложения. На изображении показан результат работы Stanford CoreNLP. Сверху вниз расписаны шаги работы алгоритма. Сначала программа определяет часть речи каждого слова и помечает его в соответствии с семантикой. Затем она определяет, какое местоимение относится к какому существительному. В конце она устанавливает синтаксическую структуру каждого предложения.

Сегодня основным ограничением ОЕЯ является то, что большинство ресурсов и систем ОЕЯ доступны только для высокоресурсных языков (High Resource Language, HRL — таких языков, для которых накоплено много данных. — Прим. XX 2 век ), таких как английский, французский, испанский, немецкий и китайский. Многие языки с низким уровнем ресурсов (Low Resource Language, LRL), такие как бенгальский, индонезийский, панджабский, себуано и суахили, на которых говорят и пишут миллионы людей, не имеют таких ресурсов и систем. Вопрос, который будет стоять в будущем перед языковым сообществом — это как разработать ресурсы и инструменты ОЕЯ для сотен или тысяч разных языков, а не ограничиться парой-тройкой языков.

Машинный перевод

Такая технология легла в основу сервисов, которые мы используем сейчас, и которые обеспечивают свободный и мгновенный перевод между многими языками. К сожалению, этот перевод всё ещё недостаточно точный, его хватает лишь для задачи определения общего смысла текста на уровне абзаца. Многочисленные последующие исследования пытались улучшить использование структуры предложений естественного языка (то есть их синтаксиса) в системах машинного перевода, разработать более глубокие смысловые представления языка.

По-прежнему малоисследованная область машинного перевода — это вопрос, как снабдить машины лучшим пониманием дискурса, чтобы предложения в переводе согласовывались друг с другом. Но работа в этой области уже началась. Наконец, машинный перевод не обязательно должен осуществляться машиной в одиночку. Скорее, он может быть переосмыслен как возможность совместной работы человека и компьютера (машинная помощь человеку-переводчику). В такой системе, компьютерный интеллект может быть использован в роли интерфейса взаимодействия человека и машины, он будет давать полезные советы и продуктивно реагировать на то, что человек подал на вход (вместо того, чтобы полностью заменить навыки и знания человека-переводчика).

Разговорные системы и диалоговые агенты

Практические РДС стали возможны благодаря прорывам в точности распознавания речи, главным образом, благодаря замене традиционных механизмов акустического распознавания на механизмы распознавания речи с помощью глубокого обучения, которые сопоставляют поступающие звуковые сигналы последовательностям звуков и слов человеческого языка. Несмотря на то, что РДС работают достаточно хорошо в некоторых областях, где темы взаимодействия известны заранее, и где слова, которые люди используют, могут быть предопределены, они ещё не очень успешны во взаимодействиях без явно заданной темы, где пользователи могут говорить о чём угодно.


Рисунок 3. РДС. Три основных компонента (автоматическое распознавание речи — сверху, управление диалогом — посередине, преобразование текста в речь — снизу) представлены прямоугольниками; стрелки обозначают поток информации.

Открытым вопросом уже давно было определение того, как спроектировать нормальный ход диалога, когда речь идёт на тему, где существующих экспериментальных данных недостаточно (такие ситуации ещё не происходили или их нет в базе данных). В настоящее время наиболее широко используемым подходом является POMDP (Partially Observable Markov Decision Process, частично наблюдаемый марковский процесс принятия решений), в котором предпринята попытка определить оптимальное поведение системы с помощью хранения распределения вероятностей возникновения определённых состояний РДС и обновления этого распределения, когда система наблюдает новое диалоговое поведение. Этот подход опирается, в частности, на характер речевых актов (например, представляет ли пользовательский ввод вопрос, утверждение или согласие).

Машинное чтение

В первые десятилетия развития ИИ внимание многих исследователей сосредоточилось на подходе к созданию интеллектуальных агентов с помощью построения вручную больших структурированных баз знаний на формальном логическом языке, а также на разработке автоматизированных методов логического вывода для выделения фактов из этих данных. Однако с появлением современного онлайн-мира, информация всё чаще хранится в свободной текстовой форме, а не в базах данных. Это, например, справедливо для научной литературы, когда результаты публикуются в основном на естественном языке (и сопровождаются таблицами и диаграммами). Такое утверждение работает и для более общих знаний — у нас теперь есть огромные хранилища информации, такие как Wikipedia. Количество научной литературы быстро увеличивается. Например, индекс статей Национальной библиотеки медицины США Medline растёт экспоненциально. С такими скоростями учёные не могут быть в курсе всех новых исследований даже в узких областях знаний. Таким образом, увеличивается потребность в применении машинного чтения для понимания и обобщения текста и извлечения из него фактов и гипотез.

Во многих научных областях были предприняты попытки создания баз данных на основе научных текстов. Среди них — медицинская база данных Gene Ontology или база палеонтологических данных PaleoBiology Database с информацией о сохранившихся окаменелостях. Обычно извлечение данных делается вручную, посредством работы обученных специалистов. Использование ИИ для извлечения информации для заполнения баз данных, а также для выполнения последующего логического вывода и генерации гипотез, стало одной из ключевых задач в этой области. Такие инструменты активно разрабатываются для фармакогеномики. Или другое применение — Бетани Перча (Bethany Percha) и коллеги из университета Стенфорда сделали ИИ-модель взаимодействия лекарственных средств на основе известных взаимодействий между лекарствами и генами (информация о которых была извлечена из научных текстов).

Если база знаний частично уже составлена (как, например, Freebase, DBpedia, Wikidata или Gene Ontology), тогда можно для каждого известного факта из базы данных найти предполагаемые его констатации в научной литературе. Когда такие соответствия найдены, они могут быть использованы для обучения ИИ-систем по извлечению фактов из текста. Это называется удалённо контролируемой экстракцией отношений (Рис. 4). Ранние системы выделения отношений устанавливали связь между сущностью и её упоминанием, и затем делали наивное предположение, что предложения, содержащие пару сущностей, выражают каждое известное отношение между двумя объектами в базе данных. Более поздние системы использовали всё более сложные типы вероятностного вывода, чтобы различить, какие текстовые паттерны соответствуют определённым отношениям в базе знаний. Последним впечатляющим применением этого подхода была система DeepDive, которая автоматизирует построение таких систем. Она предоставляет инструменты широкомасштабного обучения и логического вывода, таким образом облегчая жизнь пользователю и давая ему больше времени, чтобы сосредоточиться на своей области. Недавно было показано, что PaleoDeepDive, применение DeepDive в области палеоантологии, лучше находит факты в журнальных статьях, чем учёные-волонтёры, которые поддерживают базу данных PaleoBiology.

Интеллектуальный анализ данных социальных медиа

Классификация эмоций широко используется при идентификации мнений (положительных или отрицательных взглядов на людей, учреждения или идеи) в текстах на разнообразных языках и в разных жанрах. Применение этой технологии можно найти в изобилии в различных областях. Например, можно выявить положительные и отрицательные обзоры фильмов или продуктов; предсказать результаты голосования в Конгрессе; решения верховного суда по поводу судебных разбирательств. На рисунке 5 показан типичный обзор ресторана, в котором обозначены положительные, отрицательные и нейтральные впечатления, а также в целом эмоциональное отношение к ресторану.

Заключение и перспективы

В течение последних 50-ти лет восторженные исследователи часто возлагали большие надежды на то, что не за горами изобретение роботов, понимающих естественный язык, как это было предсказано в научно-фантастических фильмах. Однако на самом деле методы ОЕЯ в то время не обладали достаточной эффективностью даже для использования в простых приложениях. За последние пять лет ситуация сильно изменилась. Были достигнуты значительные улучшения в распознавании речи, и теперь говорить со своим телефоном — это привычное дело, особенно для молодёжи. Поисковые системы теперь гораздо лучше работают со сложными запросами. С помощью машинного перевода можно получить текст, который будет, по крайней мере, передавать сущность материала, даже если ИИ ещё не может заменить человека-переводчика. Компьютерные системы торгуют акциями и фьючерсами автоматически, исходя из эмоций в отчётах о компаниях. В настоящее время существует большой коммерческий интерес к внедрению технологий ОЕЯ в различных областях, особенно потому, что естественный язык представляет собой очень простой интерфейс для взаимодействия с мобильными телефонами. Мы уверены, что в краткосрочной перспективе увеличение количества информации и вычислительных мощностей, в дополнение к недавним достижениям в области машинного перевода и глубокого обучения, приведёт к дальнейшему усовершенствованию методов ОЕЯ. Однако по-настоящему сложные проблемы семантики, контекста и знания, вероятно, потребуют новых открытий в лингвистике и логическом выводе. В этом контексте стоит отметить, что развитие вероятностных подходов к языку — это не просто решение технических проблем: вероятностные модели языка также были использованы в теоретической лингвистике. Исследователи находят новые способы описания фонологии, понимания того, как человек работает с языком, и моделирования семантики и прагматики. Многие лингвистические подходы сами становятся более эмпирическими и более количественными.

  • Для учеников 1-11 классов и дошкольников
  • Бесплатные сертификаты учителям и участникам

Доклад. Разработка естественно-языковых интерфейсов и машинный перевод

• ассоциативный поиск аналогичных фрагментов текста и их переводов в специальных текстовых репозиториях или базах данных;

1. Морфологический анализ — анализ слов в тексте.

2. Синтаксический анализ — разбор состава предложений и грамматических связей между словами.

3. Семантический анализ — анализ смысла составных частей каждого предложения на основе некоторой предметно-ориентированной базы знаний.

4. Прагматический анализ — анализ смысла предложений в реальном контексте на основе собственной базы знаний.

Классификации систем машинного перевода

Современные технологии машинного перевода далеко ушли от первых попыток "научить" компьютер переводить текст. Сегодня системы машинного перевода по праву принадлежат к классу систем искусственного интеллекта, поскольку выполняют отдельные функции интеллекта человека: они конструируют текст на выходном языке на основе входного текста, пользуясь сводом определенных правил, заданных в виде структур данных и алгоритмов.

1. Системы машинного перевода (МП)

Системы машинного перевода - программы, осуществляющие полностью автоматизированный перевод. Главным критерием программы является качество перевода. Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики систем машинного перевода включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронной корреспонденции и онлайновых разговорных сеансов.

Ассоциации машинного перевода:

На их сайтах можно найти сведения о ежегодных конференциях по проблемам МП, информацию о новейших технологиях перевода, материалы о научных организациях, работающих в области машинного перевода.

Japan Electronic and Information Technology Industries Association (JEITA)

2. Системы перевода с функцией Translation Memory (TM)

Предоставляют средства для так называемого Machine Assisted Human Translation (MAHT) - перевода, выполняемого человеком с помощью машины. Первоначальное предназначение систем ТМ - облегчение работы переводчиков при локализации программных продуктов и создании терминологических баз данных, в дальнейшем системы стали развиваться как вспомогательный инструментарий переводчика. Особое внимание уделяется поддержке форматов всевозможных процессоров.

3. Контролируемый язык и машинный перевод на основе базы знаний

В системах на основе контролируемого языка реализован переход от свободного входного языка к контролируемому входному языку. Контроль входного языка предусматривает определённые ограничения лексики, грамматики, семантики. Контролируемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

4. Онлайн переводчики

Службы онлайн перевода выполняют перевод непосредственно в окне Web-браузера, не требуя установки программы-переводчика на компьютер пользователя.

Как правило, существует ограничение на объем вводимого текста. Так же существует различие в количестве языков, на которые переводчик способен переводить и с которых.

· Компания ПРОМТ Текст 500/2000 знаков, web.

· Babel Fish Translation Текст 150 слов , web . Англ .

· Free2Professional Текст 750 слов. Англ.

· Google Переводчик Текст ? слов, web.

· Im Translator Текст 1000 знаков. Англ.

· Pragma онлайн перевод Текст 1 Кб.

· Systran Текст ~800 знаков, web. Англ.

Коллекция ссылок на онлайн переводчики :

5. Онлайн словари

Существует возможность поиска, есть строка ввода и меню для выбора входного и выходного языка, среди словарей - SDL-TRADOS MultiTerm, Langenscheidt's New College Dictionary online, ABBYY Ling vo и т.д.

Яркие примеры СМП

Ace Translator - интернет переводчик, работающий на мощном движке, который позволяет быстро и качественно переводить как любой сложности тексты, так и Веб-страницы, электронные письма, чаты и т.д. Программа имеет многоязычный интерфейс (включая русский) и поддерживает перевод около 58 языков мира.

Dicter 3 является неофициальным клиентом Google-переводчика. Всего 1,2 Mb и вы в один клик можете сделать перевод с / на 42 языка в любых программах и приложениях Windows в любое время, при условии подключения к Интернету. Выделите текст и нажмите комбинацию клавиш Ctrl + Alt, чтобы получить перевод во всплывающем окне. Программа бесплатна, полезна и удобна - не требует никаких дополнительных словарей.

Multitran - автоматический словарь Мультитран - система для переводчиков с русского, английского, немецкого, французского, итальянского, испанского, нидерландского, латышского, эстонского и японского языка. Содержит более пяти миллионов терминов и предоставляет возможности алфавитного, морфологического и фразового поиска.

Babylon Pro 8 - словарь, позволяющий переводить слова с одного языка на другой. Словарь Babylon имеет более 75 языков для перевода. Работать со словарем очень просто - после нажатия кнопкой мыши на интересующее слово появляется окно с его переводом. Babylon прост в использовании, доступ к 1300 словарям и энциклопедиям, проверка правильности написания, пересчет валют, времени и физических величин посредством одного щелчка, широкий спектр тем: наука, техника, спорт, медицина, военное дело, аппликатура аккордов и т.д, вывод переведенного текста в разных вариантах перевода подходящего к предложению.


В данной работе описываются основные достижения за историю существования машинного перевода. Статья раскрывает суть работы двух современных систем машинного перевода, использующихся на практике — система статистического перевода и перевода, основанного на правилах. Особое внимание уделяется анализу и сравнению этих систем, а также выделению достоинств и недостатков каждой из них. Кроме того, автором описаны некоторые нерешенные проблемы автоматического понимания и перевода текстов.

В середине прошлого века родилась идея о том, чтобы переводить тексты с одного языка на другой автоматическим способом без помощи человека. Несмотря на то, что эта задача до сих пор не имеет удовлетворительного решения, за последнее время в этой области достигнут существенный прогресс, а сама постановка проблемы дала почву для развития новых лингвистических теорий.

Системы машинного перевода за долгие годы своей разработки претерпевали значительные изменения. Так, первое поколение таких систем, которое принято датировать до середины 1960-х гг., приближено по своей технике к пословному переводу: каждому слову или речевому обороту в исходном тексте подбирается эквивалент на выходном языке, найденный в словаре. Системы первого поколения не обладали возможностями решения проблем многозначности, не проводили никакого лингвистического анализа, в связи с чем выдавали довольно низкое качество перевода.

Следующий период систем машинного перевода (середина 1960–1970-х гг.) называют вторым поколением. Их внутреннее устройство несколько сложнее, чем у первого поколения: вместо пословного перевода для каждого предложения строится своя синтаксическая структура, основанная на правилах грамматики входного языка. После этого такая структура преобразовывается в синтаксическую структуру выходного языка, а затем выполняется подстановка слов из словаря, то есть синтез предложения на выходном языке.

На этом этапе в технике машинного перевода уже широко применялись как методы морфологического, так и синтаксического анализа, что существенно улучшило качество выходных текстов, однако оставались трудности, связанные с семантикой. В связи с этим следующим этапом в развитии машинного перевода можно считать 1980-е года, когда впервые появляются системы семантического типа. К этому классу относятся системы машинного перевода, в основу которых легла теория “Cмысл ↔ Текст”.

Теория “Cмысл ↔ Текст” была создана прежде всего И. А. Мельчуком в 60–70-е гг. прошлого века. Активное участие в разработке также принимали два других советских лингвиста — Ю. Д. Апресян и А. К. Жолковский. Данная теория представляет собой многоуровневую модель, позволяющую перейти от текста к его смысловой структуре, записанной на некотором универсальном языке, после чего совершить обратный переход от записанной смысловой структуры к любому естественному языку. Переход от текста к смыслу и обратно происходит не непосредственно, а в несколько этапов. Выделяют шесть уровней этого перехода. Предельные уровни: фонологический и семантический; промежуточные уровни: поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический. Семантический уровень описывается графом, синтаксические уровни описываются в виде дерева зависимостей, а морфологический и фонологический уровни описываются линейно.

Несмотря на универсальность и весь потенциал данной теории, ее применение в системах машинного перевода пока не дало качественного прорыва. Десятилетия работ по машинному переводу показали, насколько на самом деле велеки трудности перехода от естественного языка к универсальному метаязыку, хранящему в себе смысл текста. Однако, на данный момент на основе теории “Cмысл ↔ Текст” в институте проблем передачи информации РАН создан лингвистический процессор ЭТАП-3, который занимается переводом между английским и русским языками.

В дополнение к сказанному стоит упомянуть появление интерактивных систем машинного перевода, в которых на разных стадиях перевода привлекается участие человека. Такое участие может быть выражено в разных формах:

- Постредактирование: человек редактирует уже переведенный машиной текст.

- Предредактирование: человек редактирует входной текст, приспосабливая его для более легкого понимания машиной.

- Частично автоматизированный перевод: человек и машина взаимодействуют в процессе перевода. Например, использование человеком электронных словарей при переводе; участие человека в процессе машинного перевода для разрешения трудностей.

- Смешанные системы: например, с пост- и предредактированием.

Из всех разработанных ранее систем машинного перевода на сегодняшний день существует два основных самых распространенных типа: основанный на правилах и основанный на статистике. Рассмотрим подробнее каждый из них.

Системы, основанные на правилах, по сути являются системами второго поколения. Среди них можно выделить два подтипа: трансферные и интерлингвистические, которые в своем фундаменте имеют общую идею — связь структуры входного и выходного предложения.

Трансферные системы включают в себя три этапа: анализ, трансфер и синтез. Для создания внутреннего представления сначала производится морфологический, лексический и семантико-синтаксический анализ входного текста. Затем для каждого предложения строится дерево разбора и производится так называемый трансфер: преобразование структуры входного предложения с учетом требований языка перевода. Последним этапом является синтез, то есть формирование выходного предложения. Классическим примером трансферной системы перевода может служить распространенная система PROMT.

В основе интерлингвистических систем лежит идея существования универсального метаязыка, представляющего смысл предложения на любом естественном языке. Такие системы включают в себя два этапа: анализ и синтез. На этапе анализа входной текст трансформируется при помощи словаря и грамматических правил исходного языка в представление на универсальном метаязыке. На втором этапе это представление преобразуется в предложение выходного языка при помощи словаря и грамматических правил языка перевода. Основным недостатком такого типа систем является до сих пор неразрешенная проблема нахождения универсального для всех естественных языков смыслового представления.

Основными преимуществами систем, основанных на правилах, является высокая точность перевода. Однако, вместе с ней нередко появляется некоторый “машинный” акцент, неестественность выходного текста.

В конце двадцатого века стал доминировать статистический подход машинного перевода. Как можно догадаться, статистический перевод основывается не на правилах, а на статистике. Основной метод такого перевода — обучение машины посредством предоставления достаточно большого (сотни тысяч) количества параллельных текстов — содержащих одинаковую информацию на разных языках.

Рассмотрим методы статистического перевода на примере тех, что использует Яндекс в системе Яндекс.Перевод. Она состоит из трех этапов: модель перевода, модель языка и декодер. Модель перевода для пары языков представляет из себя таблицу, состоящую из всех известных машине слов и фраз входного языка и их переводов на выходной язык с указанием вероятности такого превода. Система учитывает не только отдельные слова, но и речевые обороты, состоящие из нескольких слов. Далее идет модель языка, а именно модель языка, на который необходимо перевести текст. Она представляет из себя список, состоящий из всех встречаемых в предоставленных текстах слов и словосочетаний вместе с частотой их использования. Перейдем непосредственно к процессу перевода, которым занимается декодер. Каждому предложению исходного текста подбираются все варианты перевода, комбинируя между собой фразы из модели перевода, и располагая их в порядке убывания вероятности. Таким образом модель языка подсказывает декодеру, какой вариант перевода больше подходит данной фразе, основываясь на статистических данных.

Основным преимуществом статистических систем является их качество не отставать от развития и подвижности языка: если в языке происходят какие-либо изменения, система сразу это распознает и самостоятельно обучается. Статистические системы также обладают высокой гладкостью, то есть выдаваемый текст похож на речь, произнесенную человеком. Однако, для существования такой системы необходимы серьезные технические ресурсы, качественные параллельные тексты большого объема. Еще одним существенным недостатком такой системы является отсутствие чувствительности к тонкой структуре текста, из-за чего в выходном тексте может содержаться большое количество грамматических ошибок.

Еще одна задача для улучшения качества перевода — обучить машину понимать текст как единое целое образование. Это необходимо при переводе машиной заголовков, подписей и других изолированных от контекста частей текста. Существует также необходимость подключения компонента специальных знаний в лингвистические процессоры.

Полное решение задачи машинного перевода до сих пор не реализовано ни в одном проекте, однако, развитие новых лингвистических теорий, современные достижения в области машинного обучения, развитие электронных словарей, тезаурусов, прогресс вычислительной техники оставляют надежду на то, что в будущем удастся получить удовлетворительное решение этой задачи.

1. Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5. — 107 с.

2. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие — М.: Академия, 2006. — 304 с.

3. Марчук Ю. Н. Проблемы машинного перевода / Ю. Н. Марчук. — М.: Наука, 1983. — 112 с.

Основные термины (генерируются автоматически): машинный перевод, система, выходной язык, естественный язык, модель языка, перевод, текст, входной текст, русский язык, статистический перевод.


Технологии обработки естественного языка сегодня шагнули далеко вперед, и немалая заслуга в этом принадлежит машинному обучению, применяемому, в частности, для понимания текстов.

  • Ключевые слова / keywords:
  • Глубинное обучение
  • Deep Learning
  • Машинное обучение
  • Machine learning
  • понимание текстов
  • understanding of texts

Технологии обработки естественного языка сегодня шагнули далеко вперед, и немалая заслуга в этом принадлежит машинному обучению, применяемому, в частности, для понимания текстов.

В 2010 году была предложена модель лексикализованной вероятностной грамматики, которая позволила повысить точность грамматического разбора до 93%, что, конечно, далеко от идеала. Точность разбора — это процент правильно построенных грамматических связей, и вероятность того, что длинное предложение будет разобрано правильно, обычно очень низка. Одновременно, благодаря новым алгоритмам и подходам, включая глубокое обучение, увеличилась скорость грамматического разбора. Кроме того, практически все ведущие алгоритмы и модели стали доступны широким массам исследователей, и, наверное, самой известной работой в области глубокого обучения для NLP (Natural Language Processing) стал алгоритм Томаса Миколова [1].

Сегодня для создания интеллектуальных систем у исследователей, работающих с естественным языком, имеется много инструментов (см. таблицу), которые можно условно разбить на три класса: методы работы с индивидуальными словами, методы работы с предложениями и методы для обработки произвольных текстов из нескольких предложений.

Пакеты для NLP и глубокого обучения
Пакеты для NLP и глубокого обучения

Представления слов

Вместе с тем в задачах обработки текстов глубокие модели используются редко — например, в word2vec не используется глубокая нейросеть, однако этот алгоритм укладывается в парадигму глубокого обучения: он сам находит признаки в режиме обучения без учителя, тем самым напоминая процесс обучения в мозге человека. Например, изучая новый язык, мы несколько раз встречаем неизвестное слово и сначала не знаем его значения, но затем начинаем догадываться о смысле из контекста его применения. При этом мы не можем дать строгого определения слова, а оперируем интуитивными понятиями близости и похожести.

Дополнительные отношения (признаки), которым обучается word2vec, могут оказаться полезными для задач обработки текстов, но, к сожалению, непонятно, какие отношения действительно содержатся в векторах после обучения и насколько надежно они закодированы — выполняются ли они для всех сущностей отношений. Правда, имеются методы, которые позволяют дополнять векторные представления слов онтологиями, гарантирующими, что отношения будут надежно закодированы в векторы. Например, в статье [2] исследователи предложили метод обучения векторов, в котором любые отношения и таксономии надежно кодируются в векторные представления.

Предложения, синтаксис и семантика

Обычно при работе с предложениями бывает полезно восстановить их синтаксическую структуру. Инструменты работы с синтаксисом заметно прогрессировали за последние годы — лексикализированные вероятностные грамматики значительно повысили качество синтаксического разбора, а более удобные для многих случаев грамматики зависимостей достигли качества, достаточного для решения большого класса задач обработки текстов. Кроме того, за последние несколько лет в сотни раз увеличилась эффективность алгоритмов, восстанавливающих синтаксис. Например, если еще недавно грамматический парсер Стэнфорда обрабатывал несколько предложений в секунду на компьютере стандартной архитектуры, то сегодня можно за минуту получить грамматику составляющих и грамматику зависимостей для всего корпуса Penn Treebank (1 млн лингвистически размеченных предложений, которые обычно используются для обучения).

В отличие от рекуррентных, рекурсивные сети работают не поверх последовательности слов в предложении, а на основе грамматики зависимостей предложения — для каждого предложения строится бинарное дерево для его разбора. Работу рекурсивной сети м ожно представить себе следующим образом. Сначала она обрабатывает листья дерева разбора (листья дерева — указатели на два слова предложения и на тип грамматической зависимости между ними), замещая листья полученным вектором той же размерности, что и вектора слов. И продолжает работать дальше, но теперь листья уже объединяют фразы, а не слова — строятся векторные представления фраз предложения. Итак, имея дерево разбора, можно построить рекурсивную сеть с такой же топологией, как и наше дерево, заменив каждый узел дерева на нейронную сеть. Естественно, все размноженные сети имеют общие параметры, то есть при обучении и эксплуатации мы работаем с одной сетью. Предсказания в виде классификации или регрессии могут происходить поверх любых узлов размноженной сети, включая верхний узел.

При обучении рекурсивная сеть может научиться делать качественные представления не только для полных предложений, но и для всех фраз предложения. При этом нейросеть может ослабить эффект ошибок грамматического разбора, особенно влияющих на задачу, на которой обучается рекурсивная нейросеть. Таким образом, мы получаем меру семантической близости как для слов, так и для всех фраз в предложении. При этом в рекурсивную нейронную сеть можно добавить элементы памяти LTSM и получить очень качественные векторные представления [4].

Другой подход для получения векторов предложений состоит в том, что для каждого предложения, параграфа или целого документа тренируется отдельный вектор, который также участвует в предсказании контекста каждого слова предложения или параграфа, и в процессе обучения выбираются векторы, в наибольшей мере улучшающие предсказания. По качеству полученных векторов этот метод (его обычно называют doc2vec) соперничает с рекурсивными нейросетями, при этом для обучения не нужна размеченная обучающая выборка. Правда, у этого метода есть два существенных недостатка: ему требуются большие предложения или целые параграфы — он не работает на уровне коротких фраз; он вычислительно более дорогой, чем нейросети, — каждый вектор предложения оптимизируется отдельно.

Следует упомянуть еще о двух подходах к моделированию слов и предложений — сверточных нейросетях и нейросетях, работающих с символьными представлениями слов или смешанными представлениями. Обычно в сверточных нейросетях на вход сети подается сразу все предложение в виде матрицы векторных представлений отдельных слов. Сверточная сеть обрабатывает произвольно длинную последовательность подсетями фиксированного размера, которые применяются на последовательности окон поверх входных данных. Таким образом эмулируется операция свертки, причем сеть обучается самому фильтру, используемому в свертке. Сверточные сети также показывают отличные результаты на уровне рекурсивных сетей.

С помощью рекуррентных и рекурсивных нейросетей можно эффективно решать простые задачи, связанные с автоматической обработкой текстов: классификации, определение тональности, выделение именованных сущностей и простых фактов и т. д.

В традиционных способах получения семантики из предложения следует отметить прогресс в создании семантических словарей с широким охватом, таких как ConceptNet и FrameNet, а также в методах машинного обучения, осуществляющих привязку слов из текстов к словарям. Правда, в случае FrameNet, который содержит в себе различные семантические роли, качество автоматической привязки еще достаточно низкое — точность не превышает 60%.

Текст из нескольких предложений

Литература

Машинное обучение,Распознавание речи,глубокое обучение,понимание текстов,Machine learning,deep learning

image

Многие программисты пытались и пытаются сделать какую-нибудь диалоговую программу для общения с машиной на ЕЯ. Не счесть всяких ботов и тому подобных самоделок.

Кроме того, существует огромное количество коммерческих программ, которые как-то, приблизительно, решают проблемы машинного понимания ЕЯ. Примеры всем известны – поисковые системы, так называемые системы машинного перевода, системы анализа тональности, справочные системы, да и тот же FAQ – все они далеки от удовлетворительного решения проблемы общения с машиной на ЕЯ.

Причина видна невооруженным глазом – используются приблизительные, поверхностные, упрощенные способы обработки естественно-языковых предложений – поиск ключевых слов, использование статистических данных о встречаемости тех или иных синтаксических структур в языке. Тем самым как бы подразумевается, что ЕЯ слишком сложен для реализации полного машинного понимания, поэтому надо применять упрощающие задачу подходы.

Каким должно быть полное, бескомпромиссное решение проблемы? Очевидно, для этого машина должна обеспечивать такую же работу с естественным языком, какую выполняем мы, люди, когда читаем, слушаем, говорим, пишем и думаем. В чем наше отличие в этом деле от нынешних компьютерных программ? Человек работает со смысловым содержанием предложений, понимая, что одну и ту же мысль можно выразить множеством способов, хотя и не полностью эквивалентных. Значит, надо научить машину так обрабатывать предложения на естественном языке, чтобы извлекать мысль, смысловое содержание содержащуюся в этих предложениях. Машина должна работать с мыслью, а не с буквой.

Тут возникают два взаимосвязанных вопроса:

— как построить механизм извлечения смыслового содержания из текста?
— как формально представить это смысловое содержание текста?

Конечно, главной проблемой здесь является вторая, поскольку обеспечивает необходимую начальную формализацию задачи. Решения этой проблем известны достаточно давно. Кратко рассмотрим некоторые из них.

image

Подход Шенка основан на применение специального, разработанного им языка для описания мыслительных (концептуальных) операций и объектов. Он назвал свой подход теорией концептуальной зависимости (ТКЗ).

Для того чтобы дать начальное представление о ТКЗ приведем некоторые минимальные сведения о нем. Концептуализация – базовая единица концептуального уровня, из которой конструируются мысли. Концептуализация строится из следующих элементов:

— ДЕЯТЕЛЬ – понятие исполнителя АКТа;
— АКТ – действие, производимое по отношению к объекту;
— ОБЪЕКТ – нечто над которым производится действие;
— РЕЦИПИЕНТ – получатель ОБЪЕКТА в результате АКТа;
— НАПРАВЛЕНИЕ – местоположение, к которому направлен АКТ;
— СОСТОЯНИЕ – состояние ОБЪЕКТА.

Действия, объекты, отношения, состояния – вот основные элементы созданного им языка (для которого он не придумал имени).
Основные типы концептуальных действий в ТКЗ следующие:

Здесь мы не будем давать описание или хотя бы введение в язык ТКЗ, поскольку это не является целью данного текста. В книге Р. Шенка есть подробное описание этого языка.

Теория Шенка направлена на описание поведения и мышления человеческих субъектов, что очень интересно и актуально для моделирования личности. На основе ТКЗ можно создавать программы, обеспечивающие диалог мыслящих индивидуумов, когда диалог с машиной будет неотличим от диалога с человеком.

Концептуальный граф представляет собой связную сеть бинарных отношений, описывающих смысловые связи соответствующего предложения. Этот подход превратился в целое научное направление, в котором есть различные ветви, имеется множество экспериментальных разработок, проводятся научные конференции.

В КГ тоже есть абстрактные концепты и отношения, но при описании концептуализации приводятся только непосредственно высказанные смысловые утверждения и концептуальные объекты, поэтому конкретная концептуализация выглядит намного проще.

image

В качестве одной из практических реализаций теории КГ можно рассматривать UNL – универсальный сетевой язык, созданный и развиваемый в институте развития ООН. UNL предназначен для решения проблемы машинного перевода в Интернет — планируется, что для каждого из существующих естественных языков будет создан транслятор в UNL и генератор из текста UNL в каждый ЕЯ, что позволит людям свободно общаться в Интернет, не зависимо от используемого языка. Несмотря на понятную и четкую концепцию, изложенную в соответствующих стандартах, язык UNL все еще развит не в такой мере, чтобы обеспечить решение проблемы машинного перевода.

Язык CONST является одним из вариантов реализации теории КГ и предназначен для построения всех типов интеллектуальных систем, связанных с пониманием ЕЯ-текстов и ЕЯ-диалогом. Структура семантического процессора аналогична системе MARGIE, но предназначена для коммерческого использования.

Читайте также: