Лингвистика и машинный перевод реферат

Обновлено: 05.07.2024

Целью данной работы является определение целесообразности и перспективности использования современных систем машинного перевода, доступных на сегодняшний день массовому потребителю, не владеющему в достаточной мере английским языком, а также анализ качества и эффективность выполнения машинного перевода.

Содержание

Введение …………………………………………………………………………..3
Теоретическая часть……………………………………………………………..6
1. Машинный перевод…………………………………………………………. 6
1.1. Определение машинного перевода………………………………………..6
1.2. Из истории машинного перевода…………………………………………7
1.2.1 Развитие машинного перевода в СССР…………………………………..10
2. Системы машинного перевода……………………………………………..12
2.1. Основные принципы работы программ машинного перевода…………..12
2.2 Современные системы машинного перевода……………………………..12
2.3. Описание программ………………………………………………………. 16
2.3.1. Promt………………………………………………………………………..16
2.3.2. Pragma………………………………………………………………………19
2.3.3. Google Translate…………………………………………………………. 20
Практическая часть……………………………………………………………23
3. Перевод текстов различных функциональных стилей с помощью систем машинного перевода…………………………………………………..23
3.1 Понятие функционального стиля речи…………………………………….23
3.2. Классификация функциональных стилей речи…………………………. 25
3.3. Сравнительный анализ перевода текстов публицистического и научного стиля, выполненного программами машинного перевода Promt, Pragma и Google Translate…………………………………………………………………..28
Заключение ……………………………………………………………………. 37
Библиография…………………………………………………………………. 39
Приложение А
Приложение Б

Работа содержит 1 файл

Курсовая работа .docx

О Г Л А В Л Е Н И Е

    1. Определение машинного перевода………………………………………..6
    2. Из истории машинного перевода…………………………………………7

    1.2.1 Развитие машинного перевода в СССР…………………………………..10

    2. Системы машинного перевода……………………………………………..12

    2.1. Основные принципы работы программ машинного перевода…………..12

    2.2 Современные системы машинного перевода……………………………..12

    3. Перевод текстов различных функциональных стилей с помощью систем машинного перевода………………………………………………….. 23

    3.1 Понятие функционального стиля речи…………………………………….23

    3.2. Классификация функциональных стилей речи…………………………. 25

    3.3. Сравнительный анализ перевода текстов публицистического и научного стиля, выполненного программами машинного перевода Promt, Pragma и Google Translate……………………………………………………… …………..28

    Приложение А

    Приложение Б

    Создание эффективно работающих систем машинного перевода, способных обеспечить приемлемое качество переводимого текста, то есть достаточное для его понимания и дальнейшего практического использования, - одна из актуальных и перспективных областей не только в современной лингвистике, но также и в других прикладных науках.

    Возросший в настоящее время интерес к данной области знания, сопровождается многочисленными спорами о целесообразности применения подобных систем, а также о качестве получаемого перевода, обусловленной недостаточной, на наш взгляд, проработкой методики анализа и критериев оценки качества машинного перевода. Эти вопросы повлияли на наш выбор темы исследования и ее актуальность.

    Целью данной работы является определение целесообразности и перспективности использования современных систем машинного перевода, доступных на сегодняшний день массовому потребителю, не владеющему в достаточной мере английским языком, а также анализ качества и эффективность выполнения машинного перевода.

    Целью исследования продиктовано решение следующих конкретных задач в данной работе:

    1. Рассмотреть историю развития машинного перевода, современное состояние дел в данной области.
    2. Представить современную классификацию систем машинного перевода.
    3. Провести анализ качества машинного перевода текстов , относящихся к различным функциональным стилям с точки зрения грамматики и лексики.
    4. Выявить наиболее характерные ошибки в машинном переводе.
    5. Определить критерии оценки качества машинного перевода.

    Объектом исследования является перевод, получаемый при использовании современных общедоступных систем машинного перевода, а именно Promt, Pragma, Google Translate.

    Материалами исследования послужили образцы текстов, относящиеся к различным функциональным стилям речи, а именно: публицистический и деловой.

    Работа состоит из введения, теоретической и практической части, заключения, библиографии и приложений.

    В теоретической части рассматриваются первые два параграфа работы:

    - определение машинного перевода;

    - история машинного перевода;

    - развитие машинного перевода в СССР;

    -системы машинного перевода, доступные на сегодняшний день с примерами программ.

    В практической части мы изучили определение функционального стиля, для того, чтобы далее в работе использовать два текста различного стиля для перевода при помощи программам, описанных в теоретической части работы. Далее мы выполнили анализ переводов при помощи систем машинного перевода, таких как Promt, Pragma и Google Translate, выявили наиболее грубые и частые ошибки, и предприняли попытки подобрать критерии успешности выполнения машинного перевода.

    В заключении приводятся основные выводы, сделанные при анализе результатов проведенной работы.

    Библиография содержит список использованной научной литературы, а также материалов по данной тематике, представленных в сети Интернет.

    В приложениях мы предлагаем оригиналы рассматриваемых нами текстов, а также переводы, полученные при переводе программами машинного перевода.

    Теоретическая часть

    1. Машинный перевод

    Под машинным переводом или автоматическим переводом (aнгл.: machine translation, automatic translation) понимают выполняемое компьютером действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалентности содержания, а также результат такого действия [4, с. 250 - 251].

    В Большой Советской энциклопедии различают два направления исследований по машинному переводу: 1) прикладное (промышленная реализация машинного перевода научно-технических текстов, автоматизация информационного дела и т. п.), 2) теоретическое (моделирование речевой деятельности людей как один из методов её исследования; разработка математических формализмов для лингвистических описаний; поиск алгоритмов переработки языковых объектов; исследование соотношения между человеческим мышлением и машинами и т. п.) [9].

    В данной работе мы не будем рассматривать машинный перевод с точки зрения компьютерной лингвистики, поэтому определив понятие машинного перевода, перейдем к его истории.

    1.2. Из истории машинного перевода

    По свидетельству биографов, еще выдающийся математик XIX века Чарльз Бэббидж пытался убедить британское правительство в необходимости финансировать его исследования по разработке “вычислительной машины”. В числе прочих благ он обещал, что когда-нибудь эта машина сможет автоматически переводить разговорную речь. В марте 1947 г. Уоррен Уивер (Warren Weaver), директор отделения естественных наук Рокфеллеровского фонда (Rockefeller Foundation), в переписке с Эдрю Бутом (Andrew D. Booth) и Норбертом Винером (Norbert Wiener) впервые сформулировал концепцию машинного перевода, которую несколько позже развил в своем меморандуме [7].

    В 1952 г. состоялась первая конференция по машинному переводу в Массачусетском технологическом университете, а в 1954 г в Нью-Йорке была представлена первая система машинного перевода — IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом. Была представлена очень ограниченная в своих возможностях программа, которая имела словарь в 250 единиц и 6 грамматических правил, и осуществляла перевод с русского языка на английский.

    В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический машинный перевод (FAHQMT) не может быть достигнут в принципе. Однако Бар-Хиллел не отрицал идею машинного перевода как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз").

    Это выступление самым неблагоприятным образом отразилось на развитии машинного перевода в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества машинного перевода было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов [9].

    Следующие десять лет разработка систем машинного перевода осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе — группами GENA (Гренобль) и SUSY (Саарбрюкен).

    О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского языка на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итальянско-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы машинного перевода (МП) в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO, которая использовалась в основном для перевода метеорологических сводок. Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы. [ 14 ]

    1.2.1 Развитие машинного перевода в СССР

    Советские ученые также занимались изучением и развитием машинного перевода. В 1954 году первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны, были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска и др.

    Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить (см. Апокин и др.Чарльз Бэббидж. М., Наука, 1981).

    Другое направление работ возникло в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М. В. Келдыша РАН) по инициативе А. А. Ляпунова. К работам по машинному переводу математических текстов с французского языка на русский он привлек О. С. Кулагину, аспирантку МИАН, своих учениц Т. Д. Вентцель и Н. Н. Рикко. С конца 1955 г. в этих работах принимала участие Т. Н. Молошная, которая затем приступила к самостоятельной работе над алгоритмом англо-русского перевода. А. А. Ляпунов и О. С. Кулагина свои представления об использовании вычислительных машин для перевода с одного языка на другой опубликовали в журнале "Природа",1955, № 8. Первые программы машинного перевода, разработанные этим коллективом, были реализованы на машине "Стрела".

    Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода "слово за словом", "фраза за фразой". Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения (так же, как учат детей языку в средней школе), а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (Т - от английского слова "transfer - преобразование").

    Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

    Как большой ученый, которому свойственно видеть всю проблему в целом, А. А. Ляпунов с самого начала работ по машинному переводу говорил о переводе путем извлечения смысла переводимого текста и его представления на другом языке. Однако такая постановка проблемы перевода оказалась в то время преждевременной. Более того, она не решена в общем виде мировой информатикой и в настоящее время, несмотря на усилия, предпринимавшиеся Международной федерацией IFIP - мировым сообществом ученых в области обработки информации. Однако многие частные результаты, связанные с семантическим анализом текстов, были получены и опубликованы в трудах IFIP.

    Первый опыт создания программ машинного перевода показал, что необходимо решать эти задачи постепенно и по частям.

    Слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.

    Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

    Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

    Потребность в создании теоретических основ машинного перевода привела к формированию нового направления в лингвистике, называемого структурной, прикладной, математической лингвистикой. Формирование этого направления в СССР относится ко второй половине 50-х годов. Ведущую роль в нем сыграли математики А. А. Ляпунов, В. А. Успенский, (ученик А. Н. Колмогорова), О. С. Кулагина, лингвисты В. Ю. Розенцвейг, П. С. Кузнецов, А. А. Реформатский, И. А. Мельчук, В. В. Иванов.

    6 мая 1960 г. было принято Постановление Президиума АН СССР "О развитии структурных и математических методов исследования языка", во исполнение которого были созданы подразделения по структурной лингвистике в Институте языкознания, Институте русского языка АН СССР. В Постановлении Президиума АН СССР отмечалось, что "недостаточное развитие теоретических исследований в области структурных и математических методов в лингвистических учреждениях тормозит практически важные работы по теории и практике машинного перевода, построению информационных языков и информационных машин, логической семантике и другим приложениям языкознания, разрабатываемым в настоящее время в ряде технических и математических научно-исследовательских институтов". С 1960 г. началась подготовка кадров в области автоматической переработки текстов на филологическом факультете МГУ, в Ленинградском и Новосибирском университетах, МГПИИЯ. Под математической лингвистикой понималось изучение языка как абстрактной знаковой системы с целью построения теоретической основы машинного перевода и создания конкретных алгоритмов перевода. В таком понимании математическая лингвистика составляла часть семиотики - общей теории знаковых систем.

    Исследованию формальной теории грамматик, была посвящена диссертация О. С. Кулагиной, выполненная под руководством А. А. Ляпунова.

    Заметим, что в те же годы формальная теория грамматик развивалась в США в трудах Н. Хомского, ставших классическими для области искусственных языков, в частности языков программирования.

    Двадцатилетие (1956-1976) один из основателей направления математик В. А. Успенский в своих воспоминаниях назвал "серебряным веком" структурной, прикладной и математической лингвистики в СССР (видимо, по аналогии с "серебряным веком" русской поэзии).

    Практическое применение принципов смыслового анализа текстов потребовалось при создании систем машинного перевода с иероглифических языков (китайского, японского и др.). Вопросы создания таких систем были разработаны в диссертации В. М. Зелко в 80-х годах.

    Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.

    Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:

    "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;

    ПРОМТ, образованная в 1991 г.;

    Однопользовательская "коробочная" версия продукта Retrans Vista фирмы "Виста текнолоджиз" предназначена для автоматизированного перевода текстов с русского языка на английский и обратно. В ней использованы оригинальные алгоритмы сжатия словарных баз и поиска переводных эквивалентов, позволяющих транслировать "на лету" не только фрагменты текста, импортируемые из текстового редактора MS Word, но и Web-страницы.

    В словарях Retrans Vista хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в повседневной речи. Кроме того, есть программа концептуального анализа, автоматически выделяющая из текста новые словосочетания и включающая их в словарь. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней "длиной" в 2,2 слова.

    Продукт Retrans Vista реализован на ПК с процессором, имеющим частоту от 166 МГц и ОЗУ от 32 Мб и выше и жестким диском от 170 Мб. Продукт работает под управлением ОС Windows 98/NT/2000.

    Фирма ПРОМТ (http://www.promt.ru/rus1/news/news.htm) разработала и поставляет Интернет-переводчик PROMT Internet Translation Server, обеспечивающий перевод "на лету" Web-страниц, запросов к поисковым системам или к базам данных, представленным в Интернете.

    Для корпоративных сетей многонациональных корпораций фирма ПРОМТ предлагает аналогичный продукт PROMT Intranet Server.

    PROMT Internet Translator Server установлен на поисковой системе Voila, принадлежащей оператору France Telecom.

    Для систем офисной автоматизации предлагается коммерческий пакет PROMT Lingvo OFFICE - результат сотрудничества двух лидеров российского рынка лингвистического программного обеспечения - ПРОМТ и ABBYY.

    Компания "Медиа Лингва" выпустила электронные словари серии "МультиЛекс 3.5. Новый большой англо-русский словарь" и "МультиЛекс3.5. Английский. Экономика и право". Такие словари, работающие под управлением операционных систем Windows CE или PalnOS, могут быть размещены на карманных компьютерах.

    С практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:

    полностью автоматический перевод;

    автоматизированный машинный перевод при участии человека;

    перевод, осуществляемый человеком с использованием компьютера.

    Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.

    Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка.

    В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.

    К МТ-программам относятся и продукты машинного перевода фирмы ПРОМТ, упомянутые выше, в том числе программы для просмотра содержимого Web-страниц в сети Интернет с целью поиска нужного документа.

    Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Основу ТМ-программ составляют специализированные словари, соответствующие тематике переводимого текста. При переводе используются конструкции и значения слов и устойчивых словосочетаний, выбранные профессиональным переводчиком и занесенные в словари системы, а полученный текст подвергается интенсивному редактированию. Словари и уже переведенные фрагменты текстов, запоминаемые в ТМ-системе, могут быть повторно использованы в больших коллективных проектах, ими можно обмениваться. Поэтому ТМ-системы представляют собой важное средство автоматизации труда профессиональных переводчиков.

    Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation's Workbench фирмы Trados (для краткости часто также называемый Trados).

    За 17 лет своего существования фирма Trados продала 45 тыс. лицензий на свою систему. Все они приобретены профессиональными переводчиками. В конце 2001 г. Российская фирма ПРОМТ, известная своими продуктами машинного перевода категории МТ, объявила о получении статуса эксклюзивного дистрибьютера системы Trados в России и других странах СНГ. Для совместного использования своих МТ-программ и продуктов Trados фирма ПРОМТ предлагает специальные средства их сопряжения.

    История машинного перевода насчитывает немногим более 50 лет. За это время сменилось несколько поколений систем машинного перевода - от первых программ, использовавших ограниченные ресурсы универсальных компьютеров первого поколения до современных коммерческих продуктов, использующих мощные ресурсы серверов и персональных компьютеров, включая ПК, в которых можно размещать карманные словари, а также компьютерные сети.

    По мере снятия технических ограничений, налагаемых возможностями компьютеров по производительности и памяти, становилось ясно, что проблема перевода текста с одного естественного языка на другой принципиально не сводится только к перекодировке слов. Для преодоления основных трудностей проблемы машинного перевода должны быть решены задачи автоматизированного представления контекста, смыслового содержания переводимого текста, знаний о понятиях предметной области, к которой относится переводимый текст.

    Вместе с тем современные достижения в области вычислительной техники, информационных технологий и технологий телекоммуникаций позволяют выдвигать на перспективу практические задачи поиска и выбора требуемой информации, представленной на разных языках, из разнородных источников, находящихся в корпоративных и глобальных информационно-телекоммуникационных сетях.

    Список литературы

    Ляпунов А. А., Кулагина О. С.Использование вычислительных машин для перевода с одного языка на другой. Природа, 1955, № 8.

    Кузнецов П. С., Ляпунов А. А., Реформатский А. А.Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5.

    Панов Д. Ю., Ляпунов А. А., Мухин И. С.Автоматизация перевода с одного языка на другой. В сб.: Сессия по научным проблемам автоматизации производства. М., Изд. АН СССР, 1956.

    Кулагина О. С.О роли А. А. Ляпунова в развитии работ по машинному переводу в СССР. Проблемы кибернетики, 1977, вып. 32 (в переработанном и дополненном варианте - в книге "Очерки истории информатики в России". Новосибирск, ОИГГМ СО РАН, 1998)

    Кулагина О. С.Исследования по машинному переводу. М., Наука, 1979.

    Молошная Т. Н.Алгоритм перевода с английского языка на русский. Проблемы кибернетики, 1960, вып. 3.

    Багриновская Г. П., Кулагина О. С., Ляпунов А. А.О некоторых методологических вопросах, относящихся к машинному переводу. В сб.: О некоторых вопросах теоретической кибернетики и алгоритмах программирования. Новосибирск, Изд. СО АН СССР, 1971.

    Успенский В. А.Серебряный век структурной, прикладной и математической лингвистики в СССР и В. Ю. РозенцвейгКак это начиналось (заметки очевидца) в кн.: Очерки истории информатики в России. Новосибирск, НИЦ ОИГГМ СО РАН, 1998.

    Панов Д. Ю.Автоматический перевод. М., Изд. АН СССР, 1958 (первое издание - 1956.)

    Стеблин-Каменский М. И.Значение машинного перевода для языкознания. В сб.: Материалы по машинному переводу. Сб. 1. Л., Изд. ЛГУ, 1958

    Зелко В. И. Автореферат кандидатской диссертации.

    MacDonald N.Language translation by machine - a report of the first successful trial. Computors and automation. 1954, v. 3, № 2, p. 6-10.

    Машинный перевод. Сб. статей. М., АН СССР, 1958.

    Кулагина О. С.Машинный перевод: современное состояние. В сб.: Семиотика и информатика. Вып. 29. М., ВИНИТИ, 1989.

    Иванов В. В.Некоторые вопросы машинного перевода в СССР. Доклады Конференции по обработке информации, машинному переводу и автоматическому чтению текста. М., ВИНИТИ АН СССР, 1961. Вып. 10.

    Компьютерра, 2002, № 21. Тема номера: "Ты меня понимаешь?" Проблемы машинного перевода, с. 26-37. Статьи: Жигалов В.Тестер Тьюринга; Жигалов В.Отложенный разговор; Ножов И.Синтаксический анализ; Сокурко А.Будущее машинного перевода.


    В данной работе описываются основные достижения за историю существования машинного перевода. Статья раскрывает суть работы двух современных систем машинного перевода, использующихся на практике — система статистического перевода и перевода, основанного на правилах. Особое внимание уделяется анализу и сравнению этих систем, а также выделению достоинств и недостатков каждой из них. Кроме того, автором описаны некоторые нерешенные проблемы автоматического понимания и перевода текстов.

    В середине прошлого века родилась идея о том, чтобы переводить тексты с одного языка на другой автоматическим способом без помощи человека. Несмотря на то, что эта задача до сих пор не имеет удовлетворительного решения, за последнее время в этой области достигнут существенный прогресс, а сама постановка проблемы дала почву для развития новых лингвистических теорий.

    Системы машинного перевода за долгие годы своей разработки претерпевали значительные изменения. Так, первое поколение таких систем, которое принято датировать до середины 1960-х гг., приближено по своей технике к пословному переводу: каждому слову или речевому обороту в исходном тексте подбирается эквивалент на выходном языке, найденный в словаре. Системы первого поколения не обладали возможностями решения проблем многозначности, не проводили никакого лингвистического анализа, в связи с чем выдавали довольно низкое качество перевода.

    Следующий период систем машинного перевода (середина 1960–1970-х гг.) называют вторым поколением. Их внутреннее устройство несколько сложнее, чем у первого поколения: вместо пословного перевода для каждого предложения строится своя синтаксическая структура, основанная на правилах грамматики входного языка. После этого такая структура преобразовывается в синтаксическую структуру выходного языка, а затем выполняется подстановка слов из словаря, то есть синтез предложения на выходном языке.

    На этом этапе в технике машинного перевода уже широко применялись как методы морфологического, так и синтаксического анализа, что существенно улучшило качество выходных текстов, однако оставались трудности, связанные с семантикой. В связи с этим следующим этапом в развитии машинного перевода можно считать 1980-е года, когда впервые появляются системы семантического типа. К этому классу относятся системы машинного перевода, в основу которых легла теория “Cмысл ↔ Текст”.

    Теория “Cмысл ↔ Текст” была создана прежде всего И. А. Мельчуком в 60–70-е гг. прошлого века. Активное участие в разработке также принимали два других советских лингвиста — Ю. Д. Апресян и А. К. Жолковский. Данная теория представляет собой многоуровневую модель, позволяющую перейти от текста к его смысловой структуре, записанной на некотором универсальном языке, после чего совершить обратный переход от записанной смысловой структуры к любому естественному языку. Переход от текста к смыслу и обратно происходит не непосредственно, а в несколько этапов. Выделяют шесть уровней этого перехода. Предельные уровни: фонологический и семантический; промежуточные уровни: поверхностно-морфологический, глубинно-морфологический, поверхностно-синтаксический и глубинно-синтаксический. Семантический уровень описывается графом, синтаксические уровни описываются в виде дерева зависимостей, а морфологический и фонологический уровни описываются линейно.

    Несмотря на универсальность и весь потенциал данной теории, ее применение в системах машинного перевода пока не дало качественного прорыва. Десятилетия работ по машинному переводу показали, насколько на самом деле велеки трудности перехода от естественного языка к универсальному метаязыку, хранящему в себе смысл текста. Однако, на данный момент на основе теории “Cмысл ↔ Текст” в институте проблем передачи информации РАН создан лингвистический процессор ЭТАП-3, который занимается переводом между английским и русским языками.

    В дополнение к сказанному стоит упомянуть появление интерактивных систем машинного перевода, в которых на разных стадиях перевода привлекается участие человека. Такое участие может быть выражено в разных формах:

    - Постредактирование: человек редактирует уже переведенный машиной текст.

    - Предредактирование: человек редактирует входной текст, приспосабливая его для более легкого понимания машиной.

    - Частично автоматизированный перевод: человек и машина взаимодействуют в процессе перевода. Например, использование человеком электронных словарей при переводе; участие человека в процессе машинного перевода для разрешения трудностей.

    - Смешанные системы: например, с пост- и предредактированием.

    Из всех разработанных ранее систем машинного перевода на сегодняшний день существует два основных самых распространенных типа: основанный на правилах и основанный на статистике. Рассмотрим подробнее каждый из них.

    Системы, основанные на правилах, по сути являются системами второго поколения. Среди них можно выделить два подтипа: трансферные и интерлингвистические, которые в своем фундаменте имеют общую идею — связь структуры входного и выходного предложения.

    Трансферные системы включают в себя три этапа: анализ, трансфер и синтез. Для создания внутреннего представления сначала производится морфологический, лексический и семантико-синтаксический анализ входного текста. Затем для каждого предложения строится дерево разбора и производится так называемый трансфер: преобразование структуры входного предложения с учетом требований языка перевода. Последним этапом является синтез, то есть формирование выходного предложения. Классическим примером трансферной системы перевода может служить распространенная система PROMT.

    В основе интерлингвистических систем лежит идея существования универсального метаязыка, представляющего смысл предложения на любом естественном языке. Такие системы включают в себя два этапа: анализ и синтез. На этапе анализа входной текст трансформируется при помощи словаря и грамматических правил исходного языка в представление на универсальном метаязыке. На втором этапе это представление преобразуется в предложение выходного языка при помощи словаря и грамматических правил языка перевода. Основным недостатком такого типа систем является до сих пор неразрешенная проблема нахождения универсального для всех естественных языков смыслового представления.

    Основными преимуществами систем, основанных на правилах, является высокая точность перевода. Однако, вместе с ней нередко появляется некоторый “машинный” акцент, неестественность выходного текста.

    В конце двадцатого века стал доминировать статистический подход машинного перевода. Как можно догадаться, статистический перевод основывается не на правилах, а на статистике. Основной метод такого перевода — обучение машины посредством предоставления достаточно большого (сотни тысяч) количества параллельных текстов — содержащих одинаковую информацию на разных языках.

    Рассмотрим методы статистического перевода на примере тех, что использует Яндекс в системе Яндекс.Перевод. Она состоит из трех этапов: модель перевода, модель языка и декодер. Модель перевода для пары языков представляет из себя таблицу, состоящую из всех известных машине слов и фраз входного языка и их переводов на выходной язык с указанием вероятности такого превода. Система учитывает не только отдельные слова, но и речевые обороты, состоящие из нескольких слов. Далее идет модель языка, а именно модель языка, на который необходимо перевести текст. Она представляет из себя список, состоящий из всех встречаемых в предоставленных текстах слов и словосочетаний вместе с частотой их использования. Перейдем непосредственно к процессу перевода, которым занимается декодер. Каждому предложению исходного текста подбираются все варианты перевода, комбинируя между собой фразы из модели перевода, и располагая их в порядке убывания вероятности. Таким образом модель языка подсказывает декодеру, какой вариант перевода больше подходит данной фразе, основываясь на статистических данных.

    Основным преимуществом статистических систем является их качество не отставать от развития и подвижности языка: если в языке происходят какие-либо изменения, система сразу это распознает и самостоятельно обучается. Статистические системы также обладают высокой гладкостью, то есть выдаваемый текст похож на речь, произнесенную человеком. Однако, для существования такой системы необходимы серьезные технические ресурсы, качественные параллельные тексты большого объема. Еще одним существенным недостатком такой системы является отсутствие чувствительности к тонкой структуре текста, из-за чего в выходном тексте может содержаться большое количество грамматических ошибок.

    Еще одна задача для улучшения качества перевода — обучить машину понимать текст как единое целое образование. Это необходимо при переводе машиной заголовков, подписей и других изолированных от контекста частей текста. Существует также необходимость подключения компонента специальных знаний в лингвистические процессоры.

    Полное решение задачи машинного перевода до сих пор не реализовано ни в одном проекте, однако, развитие новых лингвистических теорий, современные достижения в области машинного обучения, развитие электронных словарей, тезаурусов, прогресс вычислительной техники оставляют надежду на то, что в будущем удастся получить удовлетворительное решение этой задачи.

    1. Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5. — 107 с.

    2. Леонтьева Н. Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие — М.: Академия, 2006. — 304 с.

    3. Марчук Ю. Н. Проблемы машинного перевода / Ю. Н. Марчук. — М.: Наука, 1983. — 112 с.

    Основные термины (генерируются автоматически): машинный перевод, система, выходной язык, естественный язык, модель языка, перевод, текст, входной текст, русский язык, статистический перевод.


    Я также расскаж у о том, как осуществляется машинный перевод, кто

    занимается составлением программ-переводчиков и как они работают. Особое

    внимание мне хотелось бы уделить проблем атике м ашинного перевода,

    поскольку машинный перевод для нас пока еще новшество, область мало в

    литературе освещенная, поэтому и поле для работы огромно. К тому же я ни за

    что не поверю, чтобы Вы ни разу не задавали себе вопрос: «А может очень

    скоро в результате новых ком пьютерных технологий спрос на переводчиков

    не вытеснит профессию переводчика, ведь любая ком пьютерная программа –

    результат деятельности человека, а главное, мы м ожем чувствовать, в отличие

    нужен ли вообще машинный перевод? Что ж, не будем забегать вперед, и

    По свидетельству биографов, еще выдающийся математик XIX века Чарльз

    Бэббидж пытался убедить британское правительство в необходимости

    финансировать его исследования по разработке “вычислительной машины”. В

    числе прочих благ он обещал, что когда-нибудь эта машина сможет

    автоматически переводить разговорную речь. Но, хотя сегодня Бэббидж и

    считается признанным автором множества идей, лежащих в основе работы

    компьютера, он так и не сумел ни построить свою машину, ни выполнить

    обещания по поводу МП. И сегодня эта идея по-прежнему остается в

    значительной степени нереализованной. Однако в последнее время благодаря

    появлению Интернет как платформы глобальной связи она вновь начала

    Вообще, первые программы МП появились в 50-х годах, всего несколько лет

    спустя после появления компьютера, но до широкого распространения ПК МП

    был скорее интересным объектом научных исследований, чем важной сферой

    использования вычислительной техники, по двум причинам: дороговизна

    времени работы компьютера и ко ллективное пользование его ресурсами.

    Последнее обстоятельство часто не позволяло нем едленно обратиться к

    электронному пом ощнику, сводя на нет важнейшее преимущество МП перед

    Датой рождения МП (как области исследований) принято считать 1947 г., и

    все началось с письма Уоррена Уивера, директора отделения естественных наук

    Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором

    задача перевода сравнивалась с задачей дешифровки текстов. Последняя в то

    время уже стала выполняться на электромеханических устройствах. За этим

    письмом последовало множество дискуссий, появился меморандум о целях, и

    наконец, были выделены средства на исследования. И в 1952 г. состоялась

    первая конференция, организованная знаменитым математиком Бар-Хиллелем,

    на которой исследователи обменялись мыслями относительно организации

    множества синтаксических правил языка, способов описания семантики,

    морфологических структур, структуры словарей для систем перевода.

    Достижения в академических исследованиях стимулировали ком мерческий

    интерес к проблеме МП, и фирма IBM совместно с Джорджтаунским

    университетом в США в 1954 г. сум ела показать первую систему,

    базирующуюся на словаре из 250 слов и 6 синтаксических правил и

    обеспечивающую перевод 49 заранее отобранных предложений. Этот

    эксперимент положил начало исследовательскому бум у: в следующие 10 лет

    правительство и военные ведомства США затратили на исследования в области

    От эйфории, связанной с первыми результатами, до практически полного

    отрицания осуществимости МП прошло всего восемь лет. К подобном у выводу

    пришли на основании обзора, выполненного специальным ко митетом по

    прикладной лингвистике (ALPAC) Национальной Академии наук США. В нем

    констатировалось, что системы автоматического перевода не смогут обеспечить

    приемлемое качество в обозримом будущем. Этот отчет драматически повлиял

    на развитие МП, так как были практически прекращены какие бы то ни было

    исследования из-за отсутствия финансирования, по крайней мере, в США и

    Европе. И лишь в конце 70-х годов занятия МП возобновились вместе с

    возрастанием интереса со стороны проектировщиков и исследователей к

    лингвистическим проблемам искусственного интеллекта и компьютерного

    И т олько с начала 80-х годов, когда ПК уверенно и мощно нач али

    завоевывать мир, время их работы, естественно, подешевело и доступ к ним

    можно было получить в любую минуту. А значит, МП наконец-то стал

    экономически выгодным. К тому же в эти и последующие годы

    совершенствование программ позволило достаточно точно переводить многие

    виды текстов, однако некоторые проблемы МП остались нерешенными и по сей

    90-е годы можно считать подлинной эпохой возрождения в развитии МП, что

    связано не только с высоким уровнем возможностей персональных

    компьютеров, появлением сканеров и программ OCR (Optical Character

    Recognition) , но и с распространением Интернет, обусловившего реальный

    спрос на МП. Он вновь стал привлекательной областью вложения капиталов как

    для частных инвесторов, так и для государственных структур.

    И хотя технологии МП по-прежнему страдают м ножеством недостатков,

    многие организации вновь стали серьезно относиться к обещанию Бэббиджа.

    “Машинный перевод все еще далек от совершенства, но любой желающий с его

    помощью сможет, по крайней мере, понять основной смысл документа”, —

    считает Луи Монье, технологический директор Alta Vista, крупного поискового

    Web-узла, который начал эксперимент с МП в онлайновом режиме.

    В 2000-е годы, с еще более ускорившимся распространением Интернета в

    мире, необходимость он-лайн перевода Интернет-страниц выросла в несколько

    раз. Решением этой проблемы занялись очень крупные компании. Например, у

    компьютерной мыши перевести Интернет-страницу с сохранением ее верстки и

    Страны Европейского Союза потратили за последние 15 лет более 70 млн.

    долл. на исследования по этой проблеме, а японские государственные

    Электронные словари (ЭС) начали разрабатываться значительно раньше, чем

    альтернативные им систем ы МП, поэтому в настоящее время на рынке

    программного обеспечения имеется чрезвычайно широ кий выбор словарей —

    от самых простейших (например, DIC) до мощных систем, объединяющих в

    одной программной обо лочке несколько лексических баз данных —

    специализированных тематических словарей, последовательность подключения

    которых определяется пользователем (LINGVO). Выбор того или иного

    программного продукта зависит исключительно oт аппаратных возможностей

    компьютера, которым располагает пользователь, ф инансовых соображений и

    Потенциальную аудиторию этих программ можно определить совершенно

    точно – это учащиеся и студенты, использующие словарь как одно из пособий

    при изучении иностранного языка, а такж е домашние и бизнес- пользователи,

    которым нужен универсальный и простой в применении словарь-справочник

    Ниже представлена классиф икация электронных словарей по их основным

    техническим и эксплуатационным характерис тикам. Всю совокупность ЭС

    1. По используемой операционной системе. ЭС словари могут работать

    под управлением различных операционных систем. Разные версии ЭС

    существуют для всех современных используемых операционных систем – MS

    2. По способу загрузки. Можно подразделить на нерезид ентные и

    резидентные. К первым относятся простейшие про граммы (например,

    подстрочечный словарь DIC), которые работают только в собственной среде и

    не вызываются из других оболочек, например из текстовых редакторов. В

    большинстве случаев они функционируют в режиме автоматического ("па -

    кетного") перевода. Вт орые з агружают свое ядро в оператив ную па мять

    компьютера (например, " LINGVO") и могут вызываться в лю бой момент работы

    компьютера, напри мер из любого текстового редактора, при помощи нажатия

    комбинации "горячих клавиш" — клавиш оперативного вызова. Эти словари

    обеспечивают работу переводчика в интерактив ном режиме.

    3. По количеству подключаемых словарных баз ( словарей). Ранние версии

    ЭС позволяли подключать только один словарь. Современные программы,

    например "Система электронных словарей LINGVO", независимо от того в

    какой ОС они работают, позволяют подключать до нескольких десятков

    4. По возможностям расширения словарной базы. Уста ревшие ЭС не

    имели возможности расширения словарных баз пользователем, соврем енные

    версии, наприм ер LI NGVO 4.6 и выше, имеют специальные утилиты для

    создания пользователем собственных и расширения существующих словарей.

    5. По режиму перевода. Можно выделить два основных режима перевода:

    автоматический пакетный (подстрочечный) и интерактивный (режим

    В первом случае программа вызывается с указанием им ени текстового

    файла, который необходимо перевести, или маски для целой группы текстовых

    файлов, предназначенных для перевода. Далее автом атически, без участия

    переводчика, производится прямой перевод каждого отдельного слова с вы -

    водом на экран монитора или на печатающее устройство толь ко переведенных

    слов или исходного текста, под каждым пере веденным словом которого будет

    стоять его значение на русском языке, под теми словами, которых не оказалось

    в ЭС обычно ставится знак "?". Такой режим называется подстрочечным.

    Словарные базы подобных ЭС весьма ограниченны, качество перевода

    оставляет ж елать лучшего. Подобные про грамм ные продукты вряд ли см огут

    Во втором случае программа работает следующим образом. После загрузки

    резидентной части программы в оперативную память компьютера,

    пользователь, работая, например, в текстовом редакторе либо непосредственно

    в оболочке словаря, вводит с клавиатуры неизвестное слово на языке оригина-

    ла, а затем, выделив его, чаще при помощи "мыши", нажатием комбинации

    " горячих клавиш" активизирует ЭС, который зам еняет текст оригинала на

    русскоязычный перевод. Время доступа к переводу составляет примерно 0,2

    секунды, что значи тельно ускоряет работу переводчика. Именно такие

    электронные словари, с учетом возмож ности расширения и одновремен ного

    подключения нескольких словарных баз, могут значительно облегчить и

    ускорить работу переводчика любого уровня профессионализма.

    Вычислительная техника, как известно, хорошее подспорье человеку в

    рутинной работе. Относится ли к таким занятиям перевод текстов? Есть,

    например, технический перевод, где важно знать принятые за рубежом

    стандарты обозначений тех или иных понятий. И есть литературный перевод,

    когда требуется получить текст, по художественной ценности максимально

    близкий к оригиналу. Возможно ли поручить подобную работу компьютеру?

    Говоря о МП, следует прежде всего помнить, что компьютер — создание

    бездушное. Он не понимает языковых нюансов, намеков в тексте, того, что

    называется тонкой игрой слов. Да и, собственно, понять содержание текста в

    полной м ере ему не под силу. Мышления как такового при МП не происходит:

    предложение расчленяется на части речи, в нем выделяются стандартные

    конструкции, слова и словосочетания переводятся по находящимся в памяти

    машины словарям. Затем переведенные части речи собираются по правилам

    Этого недостаточно для полноценного перевода. В зависимости от того или

    иного стиля и назначения текста одно и то же слово нередко имеет разные

    значения. В какой-то м ере эта особенность учитывается в системах МП:

    предусмотрены сменные словари, иногда для каждого вида текста предусмотрен

    свой словарь. Если лексики одного м ашинного словаря не хватает и

    применяются несколько словарей одновременно, можно указать системе, из

    какого словаря нужно брать слово, если есть несколько вариантов его перевода.

    Наконец, программа сама может предлагать на выбор пользователю несколько

    вариантов перевода, и он выбирает подходящий вариант вручную. Могут

    возникнуть и проблемы с переводом слов в устойчивых словосочетаниях и

    Наряду с установленными правилами построения предложения в каждом

    языке существуют и свои неписаные законы, которые иногда называются

    красотами языка. Например, предложение на английском языке «This is my

    правильным, но по-русски так не говорят. В данном случае можно сказать, что

    приведенный пример является простейшим, и возможность исключения слова

    Текст также может содержать слова, которые нужно понимать в контексте

    США подразумеваются политики, выступающие за большее вмешательство

    государства в эконом ику, а в России те, кто выступает за большую свободу

    Заглавные буквы и сокращения таят в себе и другие подвохи. Когда слово

    начинается с большой буквы, его перевод будет начинаться тоже с большой

    буквы. Слово, целиком состоящее из таких букв, также будет в переводе

    записано заглавными. В англоязычной литературе достаточно часто

    встречаются внешне эффектные аббревиатуры, которые могут быть прочитаны

    как одно слово. Такая аббревиатура и будет переведена единым словом.

    Таким образом, результаты МП часто требуют редактирования. Насколько

    адекватными можно считать результаты перевода на компьютере? Это

    определяется не только качеством систем ы МП, но и качеством последующего

    редактирования. Нередко систему МП использует в качестве подспорья

    специалист, которому нужно быстро перевести, например, техническую

    документацию. Тогда проблема корректного употребления терминов решается

    Во-первых, ясно, что чем больше словарь, тем лучше перевод, значит, первая

    проблема – проблема создания больших словарей для систем.

    Во-вторых, ясно, что система должна переводить такие предложения:

    В-третьих, понятно, что предложение для перевода пишется по

    определенным правилам, по определенным правилам переводится, а значит,

    есть еще одна проблема: записать все эти правила в виде программы.

    Самое интересное, что эти проблемы действительно являются основными при

    разработке систем МП, другое дело, что м етоды их решения известны далеко не

    Системы МП семейства PROMT (PROgrammer's Machine Translation) - очень

    хороший объект, чтобы продемонстрировать, каким образом эти проблем ы

    Для качественного перевода очень важно, чтобы практически все слова

    исходного текста легко было найти и в словаре системы. А те из них, которых в

    нем нет, переносятся в текст непереведенными уже на выходе из системы, и их

    впоследствии переводят вручную при редактировании результатов перевода.

    Такие слова могут повлиять на качество перевода предложения. Дело в том, что

    для определения, к какой части речи относится рассматриваемое слово, система

    производит анализ всего предложения в целом. При этом имитируется

    мыслительная деятельность человека (такую систему принято называть

    системой с элементами искусственного интеллекта). Если значение хотя бы

    одного слова в предлож ении не определено, то это может исказить анализ всего

    Методы организации больших баз данных достаточно хорошо разработаны,

    но для перевода не менее, а может быть, и более важно правильно

    структурировать информацию, которая приписывается элементу базы,

    правильно выбрать этот самый элемент. Сколько, например, записей в словаре

    должно соответствовать обыкновенному русскому слову "программа"? И,

    вообще, большой словарь – это словарь, который содержит много словарных

    статей, или словарь, который позволяет распознать много слов из текста?

    При ближайшем рассм отрении оказывается, что, например, существительные

    в русском языке изменяются по падежам и по числам, то есть для одного

    существительного может существовать до 12 разных форм, а для глаголов и

    прилагательных, как правило, существует еще большее количество различных

    форм (более тридцати). Следовательно, чтобы переводить предложения,

    содержащие слова "программу", "программе", "программы" и т.д., нужно иметь

    способ соотнесения словарной статьи из автоматического словаря для слова

    "программа" с соответствующей словоформой из текста. Поэтому для описания

    и входного, и выходного языка в системе должен существовать некоторый

    формальный метод описания морфологии, на котором основывается выбор

    В системах семейства PROMT разработано практически уникальное по

    полноте морфологическое описание для всех языков, с которыми системы

    умеют обращаться. Оно содержит 800 типов словоизменений для русского

    языка, более 300 типов как для немецкого, так и для французского языка, и даже

    Читайте также: