Направления компьютерной лингвистики кратко

Обновлено: 05.07.2024

Компьютерная лингвистика является междисциплинарный область, связанная с компьютерным моделированием естественный язык, а также изучение соответствующих вычислительных подходов к лингвистическим вопросам. В целом компьютерная лингвистика опирается на лингвистика, Информатика, искусственный интеллект, математика, логика, философия, наука о мышлении, когнитивная психология, психолингвистика, антропология и нейробиология, среди прочего.

Компьютерная лингвистика имеет как теоретические, так и прикладные компоненты. Теоретическая компьютерная лингвистика фокусируется на проблемах в теоретическая лингвистика и когнитивная наука. [3] Прикладная компьютерная лингвистика фокусируется на практических результатах моделирования использования человеческого языка. [3] Теоретическая компьютерная лингвистика включает развитие формальных теорий грамматики (разбор) и семантика, часто основанная на формальная логика и символический (основанный на знаниях) подходы. В прикладной компьютерной лингвистике преобладают машинное обучение, традиционно использующие Статистические методы, с середины 2010-х гг. нейронные сети: Socher et al. (2012) [4] был ранним Глубокое обучение на ACL 2012 и встретил как интерес, так и (в то время) скептицизм большинства участников. До тех пор нейронное обучение в основном отвергалось из-за отсутствия статистической интерпретируемости. До 2015 года глубокое обучение превратилось в основную основу НЛП.

Ассоциация компьютерной лингвистики определяет компьютерную лингвистику как:

. научное исследование язык с вычислительной точки зрения. Компьютерные лингвисты заинтересованы в предоставлении вычислительные модели различного рода языковых явлений. [5]

Содержание

Происхождение

Вычислительную лингвистику часто относят к области искусственного интеллекта, но она присутствовала до появления искусственного интеллекта. Вычислительная лингвистика зародилась в 1950-х годах в Соединенных Штатах, чтобы использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно из российских научных журналов, на английский. [6] Поскольку компьютеры могут делать арифметика (систематические) вычисления намного быстрее и точнее, чем у людей, и считалось, что это лишь короткий вопрос времени, прежде чем они смогут также начать обрабатывать язык. [7] Вычислительные и количественные методы также исторически используются при попытках реконструкции более ранних форм современных языков и подгруппе современных языков в языковые семьи. Ранние методы, такие как лексикостатистика и глоттохронология, оказались преждевременными и неточными. Однако недавние междисциплинарные исследования, которые заимствуют концепции из биологических исследований, особенно генное картированиедоказали, что позволяют получать более сложные аналитические инструменты и получать более надежные результаты. [8]

Было замечено, что для перевода одного языка на другой нужно понимать грамматика обоих языков, включая оба морфология (грамматика словоформ) и синтаксис (грамматика структуры предложения). Чтобы понять синтаксис, нужно было также понимать семантика и лексикон (или словарный запас), и даже что-то прагматика использования языка. Таким образом, то, что начиналось как попытка перевода между языками, превратилось в целую дисциплину, посвященную пониманию того, как представлять и обрабатывать естественные языки с помощью компьютеров. [10]

В настоящее время исследования в области компьютерной лингвистики проводятся на кафедрах компьютерной лингвистики. [11] лаборатории компьютерной лингвистики, [12] Информатика отделы, [13] и лингвистические факультеты. [14] [15] Некоторые исследования в области компьютерной лингвистики направлены на создание рабочих систем обработки речи или текста, в то время как другие нацелены на создание системы, обеспечивающей взаимодействие человека с машиной. Программы, предназначенные для человеко-машинного общения, называются разговорные агенты. [16]

Подходы

Эта секция может быть слишком долго и чрезмерно подробный. Пожалуйста, рассмотрите возможность обобщения материала, пока со ссылкой на источники по мере необходимости.

Подобно тому, как компьютерная лингвистика может выполняться экспертами в самых разных областях и через широкий спектр отделов, также области исследований могут охватывать широкий круг тем. В следующих разделах обсуждается некоторая литература, доступная во всей области, разбитая на четыре основные области дискурса: лингвистика развития, структурная лингвистика, лингвистическое производство и лингвистическое понимание.

Подходы к развитию

Язык - это когнитивный навык, который развивается на протяжении всей жизни человека. Этот процесс развития был исследован с использованием нескольких методов, и вычислительный подход является одним из них. Человек развитие языка действительно предоставляет некоторые ограничения, которые затрудняют применение вычислительного метода для его понимания. Например, во время овладение языком, человеческие дети в основном подвергаются только положительным свидетельствам. [17] Это означает, что во время языкового развития человека предоставляется единственное доказательство того, что является правильной формой, и никаких доказательств того, что является неправильным. Этой информации недостаточно для простой процедуры проверки гипотез для такой сложной информации, как язык, [18] и тем самым устанавливает определенные границы для вычислительного подхода к моделированию развития и усвоения языка индивидуумом.

Были предприняты попытки смоделировать процесс развития овладения языком у детей с вычислительной точки зрения, что привело к как статистические грамматики и коннекционистские модели. [19] Работа в этой сфере также была предложена как метод объяснения эволюция языка через историю. Используя модели, было показано, что языки можно изучать с помощью комбинации простых входных данных, которые вводятся постепенно, по мере того, как ребенок развивает лучшую память и большую продолжительность внимания. [20] Одновременно это выдвигалось как причина длительного периода развития человеческих детей. [20] Оба вывода были сделаны из-за силы искусственная нейронная сеть которую создал проект.

Способность младенцев развивать речь также была смоделирована с помощью роботов. [21] для проверки лингвистических теорий. Модель, позволяющая учиться наравне с детьми, была создана на основе аффорданс модель, в которой были созданы сопоставления между действиями, восприятием и эффектами и связаны с произнесенными словами. Что особенно важно, эти роботы смогли получить действующие преобразования слова в значение без необходимости грамматической структуры, что значительно упростило процесс обучения и пролило свет на информацию, которая способствует нынешнему пониманию языкового развития. Важно отметить, что эту информацию можно было проверить только эмпирически с использованием вычислительного подхода.

Поскольку наше понимание языкового развития человека в течение жизни постоянно улучшается с помощью нейронных сетей и обучающие робототехнические системы, также важно помнить, что сами языки со временем меняются и развиваются. Вычислительные подходы к пониманию этого явления открыли очень интересную информацию. С использованием Ценовое уравнение и Урна Pólya В динамике исследователи создали систему, которая не только предсказывает будущую языковую эволюцию, но и дает представление об эволюционной истории современных языков. [22] С помощью компьютерной лингвистики удалось добиться того, что в противном случае было бы невозможно.

Ясно, что понимание лингвистического развития у людей, а также на протяжении всего эволюционного времени было фантастически улучшено благодаря достижениям компьютерной лингвистики. Способность моделировать и модифицировать системы по своему желанию дает науке этический метод проверки гипотез, которые в противном случае были бы трудноразрешимыми.

Структурные подходы

Чтобы создать лучшие вычислительные модели языка, понимание структуры языка имеет решающее значение. С этой целью английский язык был тщательно изучен с использованием вычислительных подходов, чтобы лучше понять, как язык работает на структурном уровне. Одним из наиболее важных аспектов изучения лингвистической структуры является наличие больших лингвистических корпусов или образцов. Это дает компьютерным лингвистам необработанные данные, необходимые для запуска их моделей и лучшего понимания базовых структур, присутствующих в огромном количестве данных, содержащихся на любом отдельном языке. Один из самых цитируемых английских лингвистических корпусов - Penn Treebank. [23] Этот корпус, заимствованный из самых разных источников, таких как компьютерные руководства IBM и расшифровки телефонных разговоров, содержит более 4,5 миллионов слов американского английского. Этот корпус в основном аннотирован с использованием часть речи тегами и синтаксическими скобками и дала существенные эмпирические наблюдения, связанные со структурой языка. [24]

Также были разработаны теоретические подходы к структуре языков. Эти работы позволяют компьютерной лингвистике иметь основу для выработки гипотез, которые будут способствовать пониманию языка множеством способов. Один из оригинальных теоретических тезисов об интернализации грамматика и структура языка предложила два типа моделей. [18] В этих моделях усвоенные правила или паттерны усиливаются с частотой их встреч. [18] Работа также поставила вопрос перед компьютерными лингвистами, на который они должны были ответить: как младенец изучает специфическую и ненормальную грамматику (Нормальная форма Хомского) без изучения сверхобобщенной версии и зависания? [18] Подобные теоретические усилия задают направление исследованиям на ранних этапах существования области исследования и имеют решающее значение для развития этой области.

Структурная информация о языках позволяет обнаруживать и реализовывать распознавание сходства между парами текстовых высказываний. [25] Например, недавно было доказано, что на основе структурной информации, присутствующей в паттернах человеческого дискурса, концептуальные графики повторяемости может использоваться для моделирования и визуализации тенденций в данных и создания надежных мер сходства между естественными текстовыми высказываниями. [25] Этот метод является мощным инструментом для дальнейшего исследования структуры человеческого тела. дискурс. Без вычислительного подхода к этому вопросу чрезвычайно сложная информация, содержащаяся в данных дискурса, осталась бы недоступной для ученых.

Информация о структурных данных языка доступна для английский а также другие языки, такие как Японский. [26] С помощью вычислительных методов были проанализированы японские корпуса предложений и логарифмическая нормальность был найден в зависимости от длины приговора. [26] Хотя точная причина этой логнормальности остается неизвестной, именно такую ​​информацию компьютерная лингвистика предназначена для обнаружения. Эта информация может привести к дальнейшим важным открытиям, касающимся основной структуры японского языка, и может иметь любое количество эффектов на понимание японского языка как языка. Вычислительная лингвистика позволяет очень быстро пополнять базу научных знаний, не оставляя места для сомнений.

Без вычислительного подхода к структуре лингвистических данных большая часть информации, которая доступна сейчас, все равно была бы скрыта под огромным объемом данных на любом отдельном языке. Вычислительная лингвистика позволяет ученым надежно и эффективно анализировать огромные объемы данных, создавая возможность для открытий, которых нет в большинстве других подходов.

Производственные подходы

В производство языка столь же сложен в плане предоставляемой информации и необходимых навыков, которыми должен обладать свободный продюсер. То есть, понимание это только половина проблемы общения. Другая половина - это то, как система производит язык, и компьютерная лингвистика сделала интересные открытия в этой области.


Алан Тьюринг: компьютерный ученый и одноименный разработчик Тест Тьюринга как метод измерения интеллекта машины.


Йозеф Вайценбаум: бывший профессор Массачусетского технологического института и специалист по информатике, разработавший ELIZA, примитивная компьютерная программа, использующая обработка естественного языка.

Некоторые проекты все еще пытаются решить проблему, из-за которой компьютерная лингвистика изначально была сферой деятельности. Однако методы стали более совершенными, и, следовательно, результаты, полученные компьютерными лингвистами, стали более информативными. Улучшить компьютерный перевод, было проведено сравнение нескольких моделей, в том числе скрытые марковские модели, техники сглаживания и особые уточнения тех, кто применяет их к переводу глаголов. [38] Модель, которая, как выяснилось, дает наиболее естественные переводы Немецкий и Французский Words - это усовершенствованная модель согласования с зависимостью первого порядка и модель фертильности. Они также предоставляют эффективные алгоритмы обучения для представленных моделей, которые могут дать другим ученым возможность улучшить свои результаты. Этот тип работы специфичен для компьютерной лингвистики и имеет приложения, которые могут значительно улучшить понимание того, как язык создается и воспринимается компьютерами.

Также была проделана работа по созданию компьютеров более естественным образом. Используя лингвистический ввод от людей, были созданы алгоритмы, которые могут изменять стиль производства системы на основе такого фактора, как лингвистический ввод от человека, или более абстрактных факторов, таких как вежливость или любые другие факторы. пять основных измерений личности. [39] В этой работе используется вычислительный подход через оценка параметров модели для категоризации огромного количества языковых стилей, которые мы видим у разных людей, и упрощения работы компьютера таким же образом, что позволяет взаимодействие человека с компьютером намного естественнее.

Текстовый интерактивный подход

Многие из самых ранних и простых моделей взаимодействия человека с компьютером, такие как, например, ELIZA, предполагают ввод текста от пользователя для генерации ответа от компьютера. С помощью этого метода слова, введенные пользователем, заставляют компьютер распознавать определенные шаблоны и отвечать соответствующим образом посредством процесса, известного как определение ключевых слов.

Речевой интерактивный подход

Последние технологии сделали больший упор на речевые интерактивные системы. Эти системы, такие как Siri из iOS операционной системы, работают по той же методике распознавания шаблонов, что и текстовые системы, но с первой, пользовательский ввод осуществляется через распознавание речи. Эта ветвь лингвистики включает в себя обработку речи пользователя в виде звуковых волн и интерпретацию акустических и языковых паттернов, чтобы компьютер распознал ввод. [40]

Понимание подходов

Большая часть внимания современной компьютерной лингвистики уделяется пониманию. С распространением Интернета и обилием легкодоступного письменного человеческого языка возможность создавать программы, способные понимание человеческого языка будет иметь много широких и захватывающих возможностей, включая улучшенные поисковые системы, автоматизированное обслуживание клиентов и онлайн-обучение.

Первоначальные попытки понять разговорный язык были основаны на работе, проделанной в 1960-х и 1970-х годах в области моделирования сигналов, когда неизвестный сигнал анализируется для поиска закономерностей и прогнозирования на основе его истории. Первоначальный и в некоторой степени успешный подход к применению этого вида моделирования сигналов к языку был достигнут с использованием скрытых марковских моделей, подробно описанных Рабинером в 1989 году. [45] Этот подход пытается определить вероятности для произвольного количества моделей, которые могут быть использованы при генерации речи, а также моделировать вероятности для различных слов, генерируемых из каждой из этих возможных моделей. Подобные подходы использовались в раннем распознавание речи попытки, начавшиеся в конце 70-х в IBM, с использованием пар вероятностей слово / часть речи. [46]

Совсем недавно эти виды статистических подходов стали применяться к более сложным задачам, таким как идентификация темы с использованием оценки байесовских параметров для определения вероятностей темы в текстовых документах. [47]

Приложения

Прикладная компьютерная лингвистика во многом эквивалентна обработка естественного языка. Примеры приложений для конечных пользователей включают программное обеспечение для распознавания речи, такое как функция Apple Siri, инструменты проверки орфографии, синтез речи программы, которые часто используются для демонстрации произношения или помощи инвалидам, а также программы и веб-сайты машинного перевода, такие как Google Translate. [48]

Вычислительные подходы также важны для поддержки лингвистических исследований, например, в корпусная лингвистика [51] или же историческая лингвистика. Что касается изучения изменений во времени, вычислительные методы могут способствовать моделированию и идентификации языковых семей. [52] (см. далее количественная сравнительная лингвистика или филогенетика), а также моделирование изменения звука [53] и смысл. [54]

Подполя

Вычислительную лингвистику можно разделить на основные области по различным критериям, включая:

  • средний обрабатываемого языка, будь то разговорный или текстовый: распознавание речи и синтез речи разбираться в том, как можно понимать или создавать разговорный язык с помощью компьютеров.
  • задача выполняется, например, анализирует ли язык (распознавание) или синтезирующий язык (поколение): Синтаксический анализ и генерация являются подразделами компьютерной лингвистики, занимающимися, соответственно, разделением языка и его объединением.
  • намерение: мотивировано ли оно реальными приложениями (прикладная компьютерная лингвистика) или фундаментальными исследованиями (теоретическая компьютерная лингвистика).

По поводу задач, решаемых прикладной компьютерной лингвистикой, см. Обработка естественного языка статья. Сюда входят такие классические проблемы, как проектирование POS-тегеры (тегеры части речи), парсеры за естественные языки, или такие задачи, как машинный перевод (MT), подраздел компьютерной лингвистики, занимающийся компьютерным переводом между языками. Как одно из самых ранних и сложных приложений компьютерной лингвистики, машинное обучение опирается на множество подполей, как теоретических, так и прикладных аспектов. Традиционно автоматический языковой перевод считался печально известным разделом компьютерной лингвистики. [55]

Теоретическая компьютерная лингвистика изучает следующие области исследований:

    естественного языка, в значительной степени смоделированного теория автоматов, с применением контекстно-зависимая грамматика и линейно ограниченныйМашины Тьюринга. включает определение подходящей логики для языковое значение представления, автоматически конструируя их и рассуждая с ними

Традиционно применение компьютеров для решения исследовательских задач в других отраслях лингвистики описывалось как задачи компьютерной лингвистики. Среди прочего, это включает

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Инструментарий компьютерной лингвистики.

Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.

Направления компьютерной лингвистики.

Среди компьютерных систем обработки естественного языка обычно выделяются вопросно-ответные системы, диалоговые системы решения задач и системы обработки связных текстов. Изначально вопросно-ответные системы стали разрабатываться как реакция на плохое качество кодировки запросов при поиске информации в информационно-поисковых системах. Поскольку проблемная область таких систем была сильно ограничена, это несколько упрощало алгоритмы перевода запросов в представление на формальном языке и обратную процедуру преобразования формального представления в высказывания на естественном языке. Из отечественных разработок к программам такого типа относится система ПОЭТ, созданная коллективом исследователей под руководством Э.В.Попова. Система обрабатывает запросы на русском языке (с небольшими ограничениями) и синтезирует ответ. Блок-схема программы предполагает прохождение всех этапов анализа (морфологического, синтаксического и семантического) и соответствующих этапов синтеза.

Диалоговые системы решения задач, в отличие от систем предшествующего типа, играют в коммуникации активную роль, поскольку их задача заключается в том, чтобы получить решение проблемы на основе тех знаний, которые представлены в ней самой, и той информации, которую можно получить от пользователя. Система содержит структуры знаний, в которых фиксируются типичные последовательности действий для решения задач в данной проблемной области, а также сведения о необходимых ресурсах. Когда пользователь задает вопрос или ставит определенную задачу, активизируется соответствующий сценарий. Если какие-то компоненты сценария пропущены или отсутствуют какие-то ресурсы, система выступает инициатором коммуникации. Так работает, например, система SNUKA, решающая задачи планирования военных операций.

Важнейшим направлением компьютерной лингвистики является разработка информационно-поисковых систем (ИПС). Последние возникли в конце 1950-х – начале 1960-х годов как ответ на резкое возрастание объемов научно-технической информации. По типу хранимой и обрабатываемой информации, а также по особенностям поиска ИПС разделяются на две больших группы – документальные и фактографические. В документальных ИПС хранятся тексты документов или их описания (рефераты, библиографические карточки и т.д.). Фактографические ИПС имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и другие виды представления данных. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). Для обеспечения информационного поиска в ИПС создаются специальные информационно-поисковые языки, в основе которых лежат информационно-поисковые тезаурусы. Информационно-поисковый язык – это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на информационно-поисковом языке называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на информационно-поисковом языке – поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса и поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении поискового образа документа и поискового предписания. В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью. В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Часто в дескрипторном информационно-поисковом языке налагаются ограничения на сочетаемость дескрипторов. В этом случае можно говорить о том, что информационно-поисковый язык обладает синтаксисом.

Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная М.Таубе. В качестве дескрипторов в этой системе функционировали ключевые слова документа – унитермы. Особенность этой ИПС заключается в том, что изначально словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Развитие современных информационно-поисковых систем связано с разработкой ИПС бестезаурусного типа. Такие ИПС работают с пользователем на ограниченном естественном языке, а поиск осуществляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка.

В компьютерной системе гипертекст представлен в виде графа, в узлах которого находятся традиционные тексты или их фрагменты, изображения, таблицы, видеоролики и т.д. Узлы связаны разнообразными отношениями, типы которых задаются разработчиками программного обеспечения гипертекста или самим читателем. Отношения задают потенциальные возможности передвижения, или навигации по гипертексту. Отношения могут быть однонаправленными или двунаправленными. Соответственно, двунаправленные стрелки позволяют двигаться пользователю в обе стороны, а однонаправленные – только в одну. Цепочка узлов, через которые проходит читатель при просмотре компонентов текста, образует путь, или маршрут.

Отношения между элементами гипертекста могут изначально фиксироваться создателями, а могут порождаться всякий раз, когда происходит обращение пользователя к гипертексту. В первом случае речь идет о гипертекстах жесткой структуры, а во втором – о гипертекстах мягкой структуры. Жесткая структура технологически вполне понятна. Технология организации мягкой структуры должна основываться на семантическом анализе близости документов (или других источников информации) друг к другу. Это нетривиальная задача компьютерной лингвистики. В настоящее время широко распространено использование технологий мягкой структуры на ключевых словах. Переход от одного узла к другому в сети гипертекста осуществляется в результате поиска ключевых слов. Поскольку набор ключевых слов каждый раз может различаться, каждый раз меняется и структура гипертекста.

В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы – базы данных, компьютерные картотеки, программы обработки текста – позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографических программ разделяются на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных. Автоматический словарь – это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различаются автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста. Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д. Чаще всего они являются компьютерными версиями хорошо известных обычных словарей. На рынке программного обеспечения имеются компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), существует и компьютерная версия словаря Ожегова. Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.

Компьютерное моделирование структуры сюжета – еще одно перспективное направление компьютерной лингвистики. Изучение структуры сюжета относится к проблематике структурного литературоведения (в широком смысле), семиотики и культурологии. Имеющиеся компьютерные программы моделирования сюжета основываются на трех базовых формализмах представления сюжета – морфологическом и синтаксическом направлениях представления сюжета, а также на когнитивном подходе. Идеи о морфологическом устройстве структуры сюжета восходят к известным работам В.Я.Проппа (см.) о русской волшебной сказке. Пропп заметил, что при обилии персонажей и событий волшебной сказки количество функций персонажей ограничено, и предложил аппарат для описания этих функций. Идеи Проппа легли в основу компьютерной программы TALE, моделирующей порождение сюжета сказки. В основу алгоритма программы TALE положена последовательность функций персонажей сказки. Фактически функции Проппа задавали множество типизированных ситуаций, упорядоченных на основе анализа эмпирического материала. Возможности сцепления различных ситуаций в правилах порождения определялись типичной последовательностью функций – в том виде, в котором это удается установить из текстов сказок. В программе типичные последовательности функций описывались как типовые сценарии встреч персонажей.

В начале 1980-х годов одной из учениц Р.Шенка – В.Ленерт в рамках работ по созданию компьютерного генератора сюжетов был предложен оригинальный формализм эмоциональных сюжетных единиц (Affective Plot Units), оказавшийся мощным средством представления структуры сюжета. При том, что он был изначально разработан для системы искусственного интеллекта, этот формализм использовался в чисто теоретических исследованиях. Сущность подхода Ленерт заключалась в том, что сюжет описывался как последовательная смена когнитивно-эмоциональных состояний персонажей. Тем самым в центре внимания формализма Ленерт стоят не внешние компоненты сюжета – экспозиция, событие, эпизод, мораль, – а его содержательные характеристики. В этом отношении формализм Ленерт отчасти оказывается возвращением к идеям Проппа.

К компетенции компьютерной лингвистики относится и машинный перевод, переживающий в настоящее время второе рождение.

Попов Э.В. Общение с ЭВМ на естественном языке. М., 1982
Садур В.Г. Речевое общение с электронно-вычислительными машинами и проблемы их развития. – В кн.: Речевое общение: проблемы и перспективы. М., 1983
Баранов А.Н. Категории искусственного интеллекта в лингвистической семантике. Фреймы и сценарии. М., 1987
Кобозева И.М., Лауфер Н.И., Сабурова И.Г. Моделирование общения в человеко-машинных системах. – Лингвистическое обеспечение информационных систем. М., 1987
Олкер Х.Р. Волшебные сказки, трагедии и способы изложение мировой истории. – В кн.: Язык и моделирование социального взаимодействия. М., 1987
Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения. – Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика. М., 1989
Маккьюин К. Дискурсивные стратегии для синтеза текста на естественном языке. – Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика. М., 1989
Попов Э.В., Преображенский А.Б. Особенности реализации ЕЯ-систем. – Искусственный интеллект. Кн. 1, Системы общения и экспертные системы. М., 1990
Преображенский А.Б. Состояние развития современных ЕЯ-систем. – Искусственный интеллект. Кн. 1, Системы общения и экспертные системы. М., 1990
Субботин М.М. Гипертекст. Новая форма письменной коммуникации. – ВИНИТИ, Сер. Информатика, 1994, т. 18
Баранов А.Н. Введение в прикладную лингвистику. М., 2000


Для начала нужно определиться с терминологией. Итак, компьютерная лингвистика – это наука, с одной стороне, о языке, а с другой стороны – о том, как работать с языком (не всегда естественным) с помощью компьютерных методов. Это наука, возникшая на стыке лингвистики и computer science. Компьютерная лингвистика под разными углами рассматривает естественный, формальный язык. В центре этой науки понятие языка, которое можно рассматривать с разных сторон. Его можно рассматривать, например, формально. Есть еще такая область, как математическая лингвистика, она возникла раньше компьютерной и представляет собой раздел математики, в котором есть свои теоремы, доказательства, формальные объекты.

В компьютерной лингвистике важно, что всегда в центре стоит практическая конкретная задача, которую нужно решить. Например, синтаксический автоматический анализ, машинный перевод, распознавание речи.

Что такое синтаксический анализ: когда есть стандартная для школьников задача – определить, где в предложении какие члены, какие слова главные, а какие – подчиненные, но сделать это без участия человека, автоматическим способом. Для этого у компьютера на входе есть цепочка символов, которую нужно правильно проинтерпретировать, разбить на слова, связать их между собой и построить синтаксическое дерево. Так как структура предложения естественного языка – древесная, и это понятный факт из обычной, не компьютерной лингвистики.


Омоним как проблема

Основной трудностью в синтаксическом анализе является проблема омонимии, когда два слова одинаково пишутся, но имеют разное значение, в этом случае машина должна понять, что именно имеется в виду.

Проблема в том, как автоматическим способом считывать контекст предложения и решать омонимы. Это одно из направлений в компьютерной лингвистике.


История

Компьютерная лингвистика как направление возникла в середине XX века. И первой задачей стразу стало сильно амбициозное по тем временам желание создать программу по автоматического перевода текста. При этом надо помнить, что компьютеры не отличались мощностью. И со временем люди пришли к осознанию того, насколько сложна эта задача.

Одновременно с этим было популярно направление, которое называется искусственный интеллект. Люди хотели, чтобы компьютер решал интеллектуальные задачи. Хотя искусственный интеллект – это более широкая область, чем компьютерная лингвистика, обработка естественного языка рассматривалась как его часть.


Есть несколько основных профессий, использующихся для компьютерной лингвистики. Одна профессия – это программист. Другое дело, что обычно все программисты приходят работать недоученными, и их нужно доучивать. Но нужны и лингвисты, потому что они носители знаний о естественном языке. Лингвисты, попадая в зону компьютерной лингвистики, тоже должны получить новые знания, стать более структурными и формальными для работы в Computer science.


Онтоинженеры в ABBYY

Базовый лингвистический компонент, который является фундаментом технологии Compreno, разрабатывают в ABBYY последние много лет. Это программа, которая строит семантико-синтаксические деревья.

Используя базовую прослойку, которая любое предложение на естественном языке превращает в семантико-синтаксическое дерево, можно решать более высокоуровневые задачи. В частности извлечение информации. Это разные аббревиатуры, в основном англоязычные, но они все имеют и русские аналоги. Собственно это комплекс задач вокруг анализа информации. Если на входе есть текст, то нужно его определенным образом проинтерпретировать. Этим Анатолий и занимается в своей группе в ABBYY.

Сами онтологии бывают очень разные, обычно они тематические. Это может быть онтология медицины, бизнеса, это может быть онтология спорта. Всегда сначала описывается онтология. Дальше начинается разработка. Это делают специальные люди, которые называются онтоинженерами.

Онтоинженеры — хороший пример симбиоза лингвиста и программиста, обычно, это выпускники математических вузов, потому что они должны хорошо концептуализировать действительность, разбивать задачи на подзадачи, понимать, где какие сущности, как они связаны. С другой стороны, они должны хорошо представлять себе, что такое семантико-синтаксические деревья, то есть иметь лингвистические знания.

Если подытожить, что можно сказать, что компьютерная лингвистика становится инструментом извлечения информации оттуда, откуда раньше ее не могли извлечь.

Поскольку дальнейшее обучение автор мечтает связать с лингвистикой, то выбранная тема исследования не случайна. Проблемные вопросы, поставленные автором:

Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли автору знаний, чтобы использовать и дополнять существующие компьютерные словари? Ответы на эти вопросы автор стремилась представить в своей работе. Отчет по теме - в прикрепленном файле, продукт проектной деятельности - на школьном портале

ВложениеРазмер
novoselova_togliatty_39.doc 578 КБ

Предварительный просмотр:

старшеклассников и студентов

Выполнила Новосёлова Ирина

Чигринёва Татьяна Дмитриевна,

учитель английского языка высшей категории

Осипова Светлана Леонидовна,

учитель информатики высшей категории

Язык - самое древнее и самое загадочное приобретение человека, а лингвистика, наука о языке, древнейшая из наук. Компьютерная лингвистика занимается проблемой компьютерного понимания естественного языка.

Человек придумал электронные устройства, облегчающие арифметический счет. Вскоре обнаружилось, что эти машины можно легко приспособить для решения многих творческих задач, связанных с человеческим знанием.

Накапливались факты, писались специальные компьютерные программы, изобретались искусственные языки обработки знаний. Этот процесс привел к становлению новой науки, названной искусственный интеллект.

В наше время многие теоретические исследования по искусственному интеллекту получили практическое применение. Роботы осуществляют точные механические операции, распознают образы, ведут поиск в сложных условиях, пишут музыку, сочиняют стихи.

В классификации наук США работы по искусственному интеллекту из разряда теоретических переведены в разряд прикладных наук. Одна из главных проблем искусственного интеллекта - компьютерное понимание естественного языка. Эта проблема относится области компьютерной лингвистики.

Компьютерная лингвистика; занимается поиском алгоритмов реализации взаимодействия человека с компьютером на естественном человеческом языке [1].

Актуальность:

Поскольку дальнейшее обучение я хотела бы связать с лингвистикой, то выбранная тема исследования не случайна. Мне интересно узнать теорию компьютерной лингвистики, технологию машинного перевода и ответить на проблемные вопросы:

Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли мне знаний, чтобы использовать и дополнять существующие компьютерные словари? Чтобы ответить на эти вопросы я поставила перед собой цель

Изучение существующих систем машинных переводов и разработка алгоритма работы с электронным словарем Lingvo Tutor.

  1. Представить историю развития компьютерной лингвистики
  2. Рассмотреть направления развития КЛ
  3. Изучить систему машинных переводов и создания электронных словарей
  4. Создать англоязычный словарь компьютерных терминов и слэнгов
  5. Разработать алгоритм работы с электронным словарём Lingvo Tutor
  6. Провести эксперимент - сравнение возможностей различных компьютерных лингвистических словарей по более точно-приближенному переводу с английского на русский
  7. По материалам исследования создать сайт

Область исследования:

Область исследования – информатика и английский язык.

Предмет исследования:

Предметом исследования в настоящей работе является компьютерная лингвистика.

Что такое КЛ

Лингви́стика ( языкозна́ние , языкове́дение ; от лат. lingua — язык) — наука, изучающая языки. Это наука о естественном человеческом языке вообще и о всех языках мира как индивидуальных его представителях. В широком смысле является частью семиотики как науки о знаках [2]/

Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика , англ. computational linguistics ) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.

Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

КЛ - направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

История развития КЛ

Компьютерная лингвистика возникает как одно из направлений искусственного интеллекта в 50-х годах 20-го века и основные этапы его развития во многом соотносятся с эволюцией подходов и методов в искусственном интеллекте в целом [5].

Итак, компьютерная лингвистика родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу.
В конце 80-х гг. связи с развитием сети Интернет и Всемирной паутины объем доступных в электронном виде текстов возрос в разы. Это привело к качественному скачку в технологиях информационного поиска. Возникли совершенно новые задачи и технологии обработки текстов на естественном языке. Необходимость быстрой обработки огромного потока неструктурированных данных привела к тому, что основной интерес в сфере автоматической обработки естественного языка переместился на разработку статистических методов.

Современные поисковые машины в условиях жесткой конкуренции вынуждены предлагать пользователю все новые сервисы интеллектуального анализа текстов: автоматический анализ новостей: автоматическое объединение текстов, поступающих от новостных агентств в “новостные” сюжеты, определение “тональности” публикации, снабжение текста переводом на язык пользователя и др. Таким образом, возникшие за последние несколько лет огромные электронные текстовые ресурсы из самых различных областей знаний и практик, поставили традиционную задачу лингвистики и филологии - анализ текста - на совершенно новый уровень: Для того, чтобы современный специалист мог эффективно справляться с такими большими информационными потоками, необходима их предварительная содержательная обработка. Оказалось, что большинство современных информационных технологий немыслимы без лингвистического компонента, обеспечивающего анализ текста на всех языковых уровнях:

  1. Фонетики (для систем обработки устной речи)
  2. Морфологии, синтаксиса (например, для современных поисковых систем)
  3. семантики и лексики (например, для создания современных электронных словарных систем и семантического веба)

Машинный перевод

Маши́нный перево́д — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем [4].

Формы организации взаимодействия ЭВМ и человека при машинном переводе:

  1. С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
  2. С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
  3. С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
  4. Смешанные системы (например, одновременно с пред- и постредактированием).

История машинного перевода

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 250 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

  1. MARK (в Департаменте иностранной техники ВВС США);
  2. GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).

Качество перевода

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Интересные факты

Электронные словари

Электронный словарь — словарь в компьютере или другом электронном устройстве.

Позволяет быстро найти нужное слово, часто с учетом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Внутренне устроен как база данных со словарными статьями.

Электронные словари не стоит путать с компьютерными словарями, предназначенными не для пользователей, а для компьютерных программ, работающих с текстами на естественных языках.

Lingvo Tutor и его наполнение

Lingvo Tutor – достаточно популярная функция электронного словаря, которая помагает тем, кто начинает изучать английский язык или тем, кто уже свободно говорит, но ставит цель освоить новый блок слов (возможно, терминов, профессиональных высказываний и оборотов). Если Вы проявите желание выучить 30 -50 новых английских слов, программа самостоятельно может сгенерировать урок, в котором по очереди, в случайном порядке будут предложены слова для перевода. Выполнив задания, Вы получите звуковые подтверждения правильности проделанного[6].

Вот какие я вижу плюсы этой технологии:

  1. Вы запоминаете слово зрительной памятью.
  1. Вы знаете как писать слово (что не маловажно для студентов иняза).
  1. Хорошая методика: проговаривайте изучаемое слово! – и вы будете знать правильное произношение.
  1. Для некоторых людей – это единственный способ изучать английский (кто занят на работе с помощью мобильных устройств).

В базе есть около 200 словарей, поэтому выбор есть. Совсем недавно словари к Lingvo Tutor начали выходит и со списками слов в Word такого формата:

Теперь вы можете скачать такие списки слов в формате word ко всем словарям. На сайте же, пока не все словари идут в WORD формате.

Чем полезный список слов в WORD:

  1. Вы можете начитывать слова и правильное произношение (ведь есть правильная транскрипция).
  1. Вы можете закрыть одну сторону и учить слова по переводу (или наоборот).
  1. Есть пример употребления изучаемого слова в контексте (способствует запоминанию).
  1. Есть возможность распечатать и взять с собой.
  1. Можете учить с друзьями.
  1. Можете делать свои пометки.

Англоязычные слова в ИКТ

Смотрите на сайте

Одна из задач – провести эксперимент, который заключен в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский.

Были протестированы следующие сайты:

Для чистоты эксперимента, я выбирала предложения с разной степенью сложности стилистического перевода. Фразы для ввода следующие:

1. A new report says today’s teenagers are more selfish than they were 20 years ago

(Новый доклад говорит, что современные подростки более эгоистичны, чем они были 20 лет назад)

2. She believes video games and the Internet are the biggest reasons for this increased selfishness.

(Она верит, что видео игры и Интернет являются наиболее значимыми причинами для этой возрастающей эгоистичности)

3. They want to be better than others

(Они хотят быть лучше, чем остальные)

4. She found the big increase started from the year 2000, which is when violent video games became really popular.

(Она нашла большой рост, начавшийся с 2000 года, когда жестокие видео игры стали действительно популярны)

Переведя эти предложения на сайтах онлайн-переводчиков, я получила следующие результаты:

Читайте также: