История машинного перевода кратко

Обновлено: 02.07.2024

Точно не установлено, кто первым задумался о создании машинного перевода. Уже в древние времена представители различных народов начали заниматься решением проблемы кодирования своих языков в целях обеспечения их доступности иноземцам. Этот вопрос был актуальным у древних египтян, вавилонян, индийцев и китайцев. В течение многих столетий люди не оставляли попыток создать единый язык, который был бы понятен всем и использовал бы в своей письменности определенные универсальные пиктограммы. Но еще ни один язык, созданный искусственным путем, не смог прийти на замену естественным языкам, которые очень сложно подвергнуть кодированию. Впервые идея применения специальных машин для перевода слов с одного языка на другой была предложена в XVII в. знаменитыми математиками, естествоиспытателями и философами Готфридом Вильгельмом Лейбницем и Рене Декартом. Однако уровень развития науки того времени не позволил ученым даже по-настоящему сформулировать задачу.

Впервые к решению данной проблемы с действительно научной точки зрения приступил Чарльз Бэббидж, который спроектировал в 1836–1848 гг. первую цифровую вычислительную машину, умевшую выполнять аналитические операции. Идея Бэббиджа заключалась в использовании памяти объемом в тысячу 50-разрядных десятичных чисел для хранения словарных баз. Эта идея была приведена как основание для запроса у правительства Англии финансовых средств, необходимых для реализации задуманного проекта и создания такой аналитической машины [1]. К сожалению, проекту по созданию прототипа системы Бэббиджа так и не было суждено завершиться, да и вряд ли его воплощение принесло бы какие-то значимые результаты.

Рождение машинного перевода как самостоятельного научного направления приходится на март 1947 г., когда криптограф Уоррен Уивер, руководивший отделением естественных наук Рокфеллеровского фонда, обратился с письмом к Норберту Винеру, в котором высказал мысль о рассмотрении задачи перевода с одного языка на другой как новую область использования технологий декодирования. Уивер уверял, что перевести текст с одного иностранного языка на другой – не такая уж сложная задача. Стоит лишь представить, что исходный текст написан на родном языке, но закодирован с помощью специальных знаков, поэтому, чтобы понять смысл информации, заложенной в данный текст, достаточно взломать этот код. Сравнение технологии перевода и дешифрования казалось вполне естественным в условиях послевоенного времени, особенно с учетом блестящих успехов, которые были достигнуты в области криптографии во время второй мировой войны.

Первый успех в сфере автоматизации переводов связан с "Джорджтаунским экспериментом", который был осуществлены 1954 г. на машине IBM-701. Программно-языковое обеспечение данного эксперимента было очень скромным: словарная база состояла лишь из 250 слов, а грамматика была представлена 6 синтаксическими правилами, вся же система могла перевести всего 49 предварительно отобранных предложений. Эксперимент положил начало настоящему исследовательскому буму, в течение следующего десятилетия правительство США потратило на исследования в области машинного перевода примерно 40 млн. долл. Следует отметить, что перевод выполнялся с русского языка на английский, что, возможно, в какой-то мере объясняет последующую резкую активизацию разработок в этой области также в СССР. К концу 1955 г. во многих академических центрах СССР были созданы и протестированы программы машинного перевода, в основу которых легла имевшаяся в то время вычислительная база (БЭСМ и "Стрела").

Первые успехи вызвали настоящую эйфорию среди специалистов. Сразу же после достижения положительных результатов было создано несколько глобальных проектов, направленных на решение проблемы машинного перевода для современных языков, а также большое количество мелких проектов для отдельных направлений. Особое внимание стало уделяться вопросам моделирования языка и языковых аспектов, языковой и мыслительной деятельности, изучению языковой формы. В 50-х гг. прошлого века во многих странах мира были созданы отделения машинного перевода и прикладной лингвистики.

Но, несмотря на то, что машинный перевод был признан бесперспективным, данная проблема всегда вызывала высокий интерес, и лишь на заре 80-х гг. тема машинного перевода снова приобрела актуальность - наряду с изучением систем информационного поиска и искусственного интеллекта началось восстановление незаконченных разработок в области автоматизации переводов. В течение этого времени были выработаны способы морфологического анализа (автоматического) для основных языков Европы, сформулированы основные требования к семантическим элементам таких систем и разработаны методы автоматического анализа синтаксических структур. В условиях международного терминологического обмена были составлены крупные электронные словари, оснащенные богатым словарным запасом и терминологической базой по различным научно-техническим отраслям. За это время были созданы крупные международные проекты с солидными бюджетами, к числу которых относятся EU ROTRA (Европейское экономическое сообщество), METAL (США и Германия), ARIANE (Франция), KANT (США) и пр. Но, как и раньше, ни один из этих проектов не смог предложить уникальное решение, применимое в рамках массового использования.

Зато 90-е годы, в течение которых индустрия информационных и коммуникационных технологий пережила бурный прогресс, стали эпохой возрождения машинного перевода: создание персональных компьютеров, внедрение Интернета и локальных сетей обусловили стремительный рост интереса к машинному переводу. Созданные программы машинного перевода стали перспективной сферой для капиталовложений для частных предпринимателей и государственных структур. В условиях такого расцвета совершенствование систем машинного перевода казалось более реальной задачей, а достигнутые результаты – пользующимися еще большим спросом.

В целом, история становления машинного перевода насчитывает чуть больше 50 лет. За все это время одни системы машинного перевода сменялись другими – начиная с программ, основанных на ресурсах первых прототипов современных компьютеров и заканчивая коммерческими системами, предлагаемыми конечным пользователям и использующими мощные ресурсы онлайн-серверов и персональных компьютеров. В ходе устранения технических недостатков, становилось очевидным, что перевод текстов с одних языков на другие не ограничивается примитивной перекодировкой слов. Основные трудности, возникающие в процессе перевода, должны устраняться путем автоматизированного представления смыслового содержания текста, а также фоновых знаний о понятиях той предметной области, к которой относится исходный текст.

© Copyright © 2017 all rights reserved.

We accept Bitcoins

Краткая история машинного перевода

Машинный, а точнее, перевод, сделанный на основании какого либо алгоритма – это, как правило, письменный перевод, поскольку в результате мы получаем как правило письменный текст иногда этот текст в последствии озвучивается синтезатором речи. Однако осуществляет его не переводчик, а особая компьютерная программа. Современные компьютерные программы перевода достаточно совершенны, но они до сих пор не могут разрешить самую сложную задачу процесса перевода: выбор контекстуально необходимого варианта, который в каждом тексте обусловлен многими причинами. В настоящее время результат этого вида перевода может быть использован как черновой вариант будущего текста, который будет редактировать переводчик, а также средство, чтобы в крайней ситуации отсутствия переводчика получить абстрактное, общее представление о теме и содержании текста.

1947 - появление машинного перевода как научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие как еще одну область применения техники дешифрования. Это вызвало бурные дискуссии. 1947 год - А.Бут и Д.Бриттен разработали подробный код для пословного машинного перевода.

1952 - в Массачусетском технологическом институте проведена первая конференция, посвященная машинному переводу.

1954 - Джорджтаунский эксперимент - представлена первая система машинного перевода- IBM Mark II. Эта русско-английская система имела словарь в 250 единиц и 6 грамматических правил. Последующее десятилетие было временем бурного развития машинного перевода

1966 - Американский комитет по проблемам автоматической обработки речи публикует отчет с выводами о том, что годы исследований машинного перевода не принесли ожидаемого результата. Это приводит к прекращению государственного финансирования. Доклад существенно затормозил развитие машинного перевода в целом.

За доступностью, простотой и удобством компьютерных переводчиков стоит колоссальный труд ученых, математиков, инженеров, лингвистов. В этой статье мы расскажем, как зарождались и развивались технологии машинного перевода с XVII века до наших дней.

Предыстория: XVII век

Испокон веков люди задумывались о том, как разрушить языковой барьер – создать единый язык для всех людей, найти возможность изучить все существующие языки или же разработать такую технологию, которая позволит понимать иностранные языки, не тратя время и силы на их изучение. Первые идеи зародились еще в XVII веке, когда Рене Декарт и Готфрид Лейбниц независимо друг от друга предлагали создать универсальный язык как новую основу для логического мышления, а также для устранения взаимного недопонимания, которое происходит из-за нелогичности языков.

Много позже, в XIX-XX веке, ученые вернулись к разработке единого международного языка, вследствие чего было создано Эсперанто. Однако до первых попыток создания машинного перевода еще оставалось несколько десятилетий.

1930-е: система Троянского – первый шаг к машинному переводу

Изобретение Троянского представляло собой стол с наклонной поверхностью и фотокамерой, совмещенной с печатной машинкой. Клавиши машинки позволяли кодировать морфологическую и грамматическую информацию, а ее лента подавалась синхронно с фотопленкой. На поверхности устройства была установлена подвижная пластина с напечатанными словами, называемая глоссарным полем. Слова на глоссарном поле сопровождались переводами как минимум на три языка и располагались, подобно буквам на клавиатуре: наиболее часто используемые – ближе к центру поля. Идеи Петра Троянского долгое время оставались неизвестными даже ученым. Вновь открыты они были только в 1950-е.

1949 год: первые наработки МП на базе компьютера

Концепция машинного перевода была сформулирована только в конце 1940-х годов – ее автором выступил криптограф Уоррен Уивер, директор отделения естественных наук Рокфеллерского фонда. В своем письме к коллеге Норберту Винеру он предложил рассматривать задачу перевода с одного языка на другой как новую область применения технологий декодирования. Стоит лишь представить, что исходный текст написан на родном языке, но закодирован с помощью специальных знаков, и, чтобы понять смысл заложенной в тексте информации, достаточно взломать этот код.

Письмо Уивера вызвало большой резонанс, и в 1949-м году криптограф опубликовал меморандум, в котором обосновал возможность реализации технологии машинного перевода, основанной на декодировании. Этот документ стал важной вехой в развитии машинного перевода. В нем ученый описал концепцию interlingva, при которой процесс передачи информации осуществляется в два этапа:

- исходное предложение переводится на упрощенный вариант английского (язык-посредник);

- результат преобразуется в предложение на искомом языке.

1950-1960-е: Джорджтаунский эксперимент и отчет ALPAC

Важным событием в развитии МП стал Джорджтаунский эксперимент, который провели 7 января 1954 года в Нью-Йорке, в штаб-квартире корпорации IBM. В рамках этого эксперимента компьютер IBM 701 впервые в мире перевел 60 предложений с русского на английский язык.

Эксперимент IBM дал мощный толчок развитию технологий машинного перевода, однако все проекты оказались чересчур сложными, дорогостоящими и в конечном итоге вызывающими неоднозначную оценку. В 1964 году группа ученых, входивших в образованный Пентагоном и Национальным научным фондом США Консультативный комитет по автоматической языковой обработке (Automatic Language Processing Advisory Committee, ALPAC), провела оценку технологий машинного перевода и двумя годами позже, по сути, уничтожила это направление исследований печально известным отчетом. В результате его публикации финансирование исследований в области машинного перевода в США прекратилось примерно на двадцать лет. Возможно, еще более серьезным последствием стало то, что широкая публика и научное сообщество начали воспринимать машинный перевод как нечто нереализуемое.

Первые коммерческие разработки систем перевода

При разработке первых переводчиков специалисты Systran использовали Rule-based Machine Translation (МП на основе правил) – подход, предполагающий работу системы МП на основе лингвистической информации об исходном языке и языке перевода. Этот подход к МП считается классическим, позднее в мире появятся и другие компании-разработчики, которые будут использовать схожий подход к решению задач перевода текста компьютером.

Первые переводчики Systran оказались очень востребованными на рынке – их приобретение стало обязательным почти для каждой международной компании.

МП в СССР

В Советском Союзе большое внимание технологиям МП начали уделять в 1950-х годах – после Джорджтаунского эксперимента. В 1955-м году в Академии Наук СССР создали две исследовательские группы: одну, при Математическом Институте имени В.А. Стеклова, возглавил выдающийся советский математик, основоположник кибернетики Алексей Ляпунов, а вторую, при Институте точной механики и вычислительной техники, математик Дмитрий Панов.

Свои исследования группы специалистов начали с детального изучения Джорджтаунского эксперимента, а уже год спустя опубликовали результаты первых экспериментов в СССР, проведенных на компьютере БЭСМ.

Еще через год в Институте точной механики и вычислительной техники представили первый советский компьютерный переводчик, включавший словарь из 2300 слов. В это же время, в Институте прикладной математики, аспирантка Ольга Кулагина и студент филологического факультета МГУ Игорь Мельчук, под руководством Алексея Ляпунова, работали над созданием еще одного переводчика.

В 1971-м году в Ленинграде, при ЛГПИ им. Герцена (ныне – РГПУ им. Герцена), по инициативе профессора Раймонда Пиотровского, была создана Научно-исследовательская лаборатория инженерной лингвистики. Специалисты лаборатории также активно занимались разработкой технологий для автоматической обработки текста. В 1991-м году, бывшие сотрудники лаборатории под руководством Светланы Соколовой основали компанию PROMT.

1990-е – начало 2000-х: развитие компании PROMT на международном рынке

В год основания компании специалисты выпустили первую в стране коммерческую систему машинного перевода, получившую название PROMT (аббревиатура «PROject Machine Translation) для MS DOS. Отличительной чертой этой системы стала возможность переводить тексты со специализированной лексикой – по компьютерной тематике.

В 1992 году компания PROMT выиграла тендер NASA на поставку систем машинного перевода с английского на русский. Эта сделка положила начало и дальнейшему сотрудничеству с космическим агентством: 13 лет спустя переводчики PROMT с комплектом специализированных словарей взяли на МКС. ПО устанавливалось на карманные и персональные компьютеры астронавтов.

В 2000 году компания PROMT предоставила системы машинного перевода для одного из наиболее крупных проектов по нормализации международных стандартов ISO и российских стандартов ГОСТ. Этот проект реализовывался американским подрядчиком Global Management and Consulting Services по заказу Госстандарта России и финансировался Всемирным банком.

Машинный перевод в XXI веке

В наши дни для развития машинного перевода сложились все условия: широкое распространение интернета, компьютеров, смартфонов и других гаджетов, появление облачных технологий, позволяющих хранить данные, не занимая лишнюю память устройства, а также рост контента на разных языках во всем мире.

За последние полвека ученые, математики и лингвисты проделали огромную работу – ее следствием стали технологии машинного перевода, которыми мы сегодня активно пользуемся. Сейчас в нашем распоряжении и быстрые онлайн-сервисы, и сложные клиент-серверные решения для бизнеса, и мобильные переводчики, работающие как через интернет, так и в офлайн-режиме.

50 лет назад люди и подумать не могли, насколько популярными станут технологии машинного перевода в XXI веке. Какими они будут еще через 50 лет, остается только догадываться.

Машинный перевод в последние годы получил очень широкое распространение. Наверняка, большинство моих читателей хоть раз пользовались сервисами Google.Translate или Яндекс.Перевод. Также вероятно, что многие помнят, что не так уж и давно, лет 5 назад пользоваться автоматическими переводчиками было очень непросто. Непросто в том смысле, что они выдавали перевод очень низкого качества. Под катом краткая и неполная история машинного перевода, из которой будет виден в этой задаче и некоторые его причины и последствия. А для начала картинка, которая показывает важную концепцию относительно машинного перевода:

Концептуально это выглядит красиво, но встает вопрос, как это реализовать. Сильно забегая вперед по времени, реализовано это было на основании так называемого фразового перевода.

Но давайте пойдем по порядку. Какой самый простой способ перевода приходит на ум? Перевод по словарю — то есть берется готовый словарь, и все слова в предложении заменяются на их эквиваленты в другом языке. Именно такой подход был предложен небезызвестной компанией IBM в 1989 году. У данного подхода есть очевидный недостаток: порядок слов в разных языках может отличаться, и порой весьма сильно. Следующий шаг в данной модели — это допустить перестановки слов. А каким образом можно предсказать данные перестановки? В той же работе была предложена другая модель (если первая называется Model 1, то вторая называется очень логично Model 2). В этой системе помимо словаря есть так называемая модель выравнивания (alignment) — соотнесения слов в двух предложениях между собой. Выравнивание выучивается на основе статистики по корпусу. Очевидным недостатком данной модели является также то, что для подготовки корпуса, в котором сделано выравнивание, требуются очень значительные усилия, профессиональные переводчики должны не просто перевести текст, но и указать, какое слово является переводом какого.

Стоит отметить, что помимо разного порядка слов существует еще, например, проблема того, что какие-то слова будут вовсе без перевода (например, артикли не существуют в русском языке), а какие-то слова будут для своего перевода требовать более, чем одно слово (например, предлог + существительное). Коллеги из IBM назвали это коэффициентом фертильности (fertility rate) и строили модели для него также на основании статистики. Это уже Model 3 (довольно предсказуемо, не правда ли?). В той же работе описаны еще несколько моделей, они развивают описанные идеи путем добавления условий на предсказание перевода слова — например, на предыдущее слово, так как некоторые слова лучше сочетаются между собой и поэтому встречаются чаще. Вся эта группа моделей дала начало так называемому фразовому переводу (phrase-based translation).

Это направление существовало и развивалось, в частности, был разработан открытый фреймворк для машинного перевода Moses (по официальному сайту можно заметить, что он несколько пришел в упадок). В свое время — это было основное средство машинного перевода, хотя в то время и машинный перевод не был так распространен. Но в 2014 году случилось страшное — глубокое обучение добралось и до области машинного перевода. Если вы помните годом ранее оно добралось до векторных представлений слов, я это описывал статье, посвященной эмбеддингам. А в 2014-ом вышла статья за авторством Дмитрия Богданова (и соавторов, одним из которых был знаменитый Йошуа Бенжио (Yoshua Bengio)) под названием Neural Machine Translation by Jointly Learning to Align and Translate (или — нейронный машинный перевод путем совместного обучения выравнивания и перевода). В этой работе Дмитрий предложил использовать механизм внимания для рекуррентных нейронных сетей и с помощью него смог побить вышеупомянутый Moses на существенную величину.

Здесь нужно сделать отступление и поговорить о том, как же измерять качество машинного перевода. В работе Папинени 2002-ого года была предложена метрика BLEU (bilingual evaluation understudy — изучение двуязычного сравнения). Эта метрика в своей основе сравнивает, сколько слов из машинного перевода совпало со словами из человеческого варианта. Потом сравниваются словосочетания из двух слов, трех, четырех. Все эти цифры усредняются и получается ровно одна цифра, описывающая качество работы системы машинного перевода на данном корпусе. У данной метрики есть свои недостатки, например, могут существовать разные человеческие варианты перевода одного текста, но как ни удивительно за почти 20 лет не было предложено ничего более хорошего для оценки качества перевода.


image

С тех пор утекло довольно много воды, но тем не менее, осталось еще много интересного. Например, два года назад, в начале 2018 года исследователи из компании Майкрософт заявили о достижении равенства по качеству с человеческим переводом на переводе с английского на китайский новостных документов. Данная статья много критиковалась, прежде всего с той позиции, что достижение равных цифр по BLEU — это показатель не полной адекватности метрики BLEU. Но хайп был порожден.

Другое интересное направления развития машинного перевода — это машинный перевод без параллельных данных. Как вы помните, применение нейронных сетей позволило отказаться от разметки выравнивания в переводных текстах для обучения модели машинного перевода. Авторы работы Unsupervised Machine Translation Using Monolingual Corpora Only (машинный перевод с использованием только одноязычных данных) представили систему, которая с некоторым качеством была способна переводить с английского на французский (качество было, конечно, ниже тогдашних лучших достижений, но всего лишь на 10%). Что интересно, те же авторы улучшили свой подход с использованием идей фразового перевода позже в том же году.

Наконец, последнее, что хотелось бы осветить, это так называемый неавторегрессивный перевод. Что это такое? Все модели, начиная, с IBM Model 3 при переводе опираются на предыдущие уже переведенные слова. А авторы работы, которая так и называется — неавторегрессивный машинный перевод, — попробовали избавить от этой зависимости. Качество получилось также несколько меньше, зато скорость такого перевода может быть в десятки раз быстрее, чем для авторегрессивных моделей. Учитывая, что современные модели могут быть очень большими и неповоротливыми, это уже существенный выигрыш, особенно под большой нагрузкой.

Само собой, что область не стоит на месте и предлагаются новые идеи, например, так называемый back-translation, когда переведенные самой моделью одноязычные данные используются для дальнейшей тренировки; использование сверточных сетей, что также быстрее стандартного в наши дни трансформера; использование предобученных больших языковых моделей (про них у меня есть отдельная статья). Все, к сожалению, не перечислить.

В нашей компании работает один ведущих ученых в области машинного перевода — профессор Цунь Лю (Qun Liu). Профессор Лю и я ведем курс по обработке естественного языка, в котором существенное внимание уделено именно машинному переводу. Если вы заинтересовались этой областью, то вы еще можете присоединиться к нашему курсу, который начался месяц назад.

А если вы чувствуете в себе силы, то мы будем рады видеть вас среди участников нашего соревнования по переводу с китайского на русский! Соревнование начнется 14 апреля и продлится ровно месяц. Надеемся, что наши участники добьются новых результатов в этой задаче и смогут продвинуть всю область машинного перевода. Соревнование пройдет на платформе MLBootCamp, и мы очень благодарны команде MLBootCamp и лично Дмитрию Санникову за помощь в организации.

В 1954 году занимающему несколько комнат компьютеру IBM 701 хватило словарного запаса в 250 слов и нескольких простых правил, чтобы точно перевести 60 фраз с русского на английский. Это достижение (знаменитый Джорджтаунский эксперимент) широко освещалось в СМИ, и власти США поверили в светлое будущее — машинный перевод текстов врага на английский уже через десять лет.

Однако этого не случилось. И вот почему .

Обратимся сначала к истории.

История машинного перевода берет начало в XVII веке, когда такими философами, как Лейбниц и Декарт было выдвинуто предположение о существовании некоего кода, соединяющего между собой слова разных языков. Все предположения носили гипотетический характер, и никому не удавалось в действительности создать машину для перевода.


Первый план по созданию машин для перевода на базе компьютеров был предложен Уорреном Уивером, исследователем Фонда Рокфеллера, в его меморандуме от июля 1949 года. Данные предложения базировались на теории информации, получившей успех во время Второй Мировой войны в связи с криптографией и распространения идеи об универсальных принципах естественных языков.

Несколько лет спустя, во всех университетах США началась исследовательская деятельность, связанная с машинным переводом. 7 января 1954 года фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первую демонстрацию новой системы машинного перевода, которая проходила в Нью-Йорке в головном офисе IBM. Результаты демонстрации были освещены в печати и привлекли большой общественный интерес. Система сама по себе была не более чем, по сегодняшним меркам, игрушечной, поскольку она использовала словарь из 250 слов и осуществила перевод с русского на английский 49 заранее отобранных предложений, имеющих химическую тематику. Однако демонстрация стимулировала распространение идеи о неотвратимости появления машинного перевода, а в частности привлечение финансирования в исследовательские институты не только на территории США, но и по всему миру.

Ранние системы использовали большие двуязычные словари и запрограммированные вручную правила, по выстраиванию на выходе слов в правильном порядке. В конечном итоге, такой способ был признан ограниченным, и развитие лингвистических наук, например, генеративной лингвистики или трансформационной грамматики, было нацелено на улучшение качества перевода.

В это время устанавливались операционные системы. Военно-воздушные силы США пользовались программой, разработанной компанией IBM и Вашингтонским университетом, в то время как комиссия по атомной энергии США и Евроатом в Италии пользовались системой, разработанной Джорджтаунским университетом. И хотя качество выхода было низким, система пользовалась популярностью среди потребителей, в связи с увеличением скорости перевода.

Русские пишут!

В конце XIX века американские ученые и инженеры научились читать по-немецки. Но кто же мог подумать, что за каких-то пять лет войны немецкий уйдет на периферию и придется осваивать таинственные кириллические символы! В 1953 году из 400 тысяч опрошенных ученых и инженеров свободно читали по-русски всего 400 человек.

Одна из перфокарт с фразой на русском


Машины, на помощь!

Пионером машинного перевода парадоксальным образом стал человек, далекий как от структурной лингвистики, так и от вычислительной техники — личный переводчик генерала Эйзенхауэра Леон Достер (Leon Dostert). Он родился в 1904 году во Франции. В Первую мировую, в годы германской оккупации Леон быстро выучил немецкий и был привлечен к работе в качестве переводчика. То же самое произошло, когда его родной город Лонгви заняли американцы: оценив таланты юного переводчика, офицеры оплатили его обучение в США. В 1939 году он уже был профессором французского в Джорджтаунском университете. После поражения Франции в 1940-м Достер принял американское гражданство и прошел войну в штабе Эйзенхауэра, дослужившись до полковника.

Неудивительно, что этот полиглот, судьбу которого радикально изменили две мировые войны, хотел предотвратить третью. Выступая в 1951 году на страницах ARMOR, журнала бронетанковых войск США, Достер скептически отозвался о боеспособности блока НАТО — именно из-за неспособности разноязычных солдат стран-участниц понимать друг друга.

Но Уивер получал от Фонда достаточно средств, чтобы и дальше продвигать свои идеи. В 1952 году он спонсировал первую конференцию по машинному переводу, где были озвучены главные технические и философские проблемы этого проекта. Участвовал в симпозиуме и Достер — и быстро смекнул, что для успеха машинного перевода надо не спорить о фундаментальных проблемах, а сконструировать аппарат, который докажет всем осуществимость этой затеи.

KRAXMAL VIRABATIVAYETSYA MYEKHANYICHYESKYIM PUTYEM YIZ KARTOFYELYA
Starch is produced by mechanical methods from potatoes

VYELYICHYINA UGLYA OPRYEDYELYAYETSYA OTNOSHYENYIYEM DLYINI DUGI K RADYIUSU
Magnitude of angle is determined by the relation of length of arc to radius

MI PYERYEDAYEM MISLYI POSRYEDSTVOM RYECHYI
We transmit thoughts by means of speech

Чем опасны деньги от ЦРУ

Сенсационный успех демонстрации 1954 года привлек к проектам Достера внимание ВМФ, ЦРУ и других подобных ведомств. Но силовики не спешили раскошеливаться. Тут неожиданную помощь оказал СССР. На статью о Джорджтаунском эксперименте обратил внимание отец советской кибернетики Алексей Ляпунов и вскоре создал в Математическом институте исследовательскую группу. За ним последовал Дмитрий Панов из Института точной математики и вычислительной техники, а к 1958 году машинным переводом занимались уже 79 различных учреждений.

Достер и Уотсон (справа) во время Джорджтаунского эксперимента

Машины — в отставку

Фактически именно сногсшибательный успех Джорджтаунского эксперимента вырыл проекту могилу. Первые фразы были слишком хороши, а переводы более сложных текстов оказались неточными, корявыми или вообще непонятными без дополнительного редактирования.

По словам Гордина, фатальной ошибкой Достера было невнимание к потребителям машинных переводов. Он ориентировался исключительно на госструктуры, которые в любой момент могли прекратить финансирование (что они и сделали).

Публикация отчета в большей степени повлияла на исследования машинного перевода в США и в гораздо меньшей в СССР и Великобритании. По крайней мере, в США такого рода исследования были остановлены на целое десятилетие. В Канаде, Франции и Германии исследования все-таки продолжались. В США главными исключениями стали основатели компаний Systran (Питер Тома)

Если в 60е годы упор был на определенные языковые пары и ввод, то требованием в 70е годы стали малые затраты на системы, способные переводить ряд текстов технической и коммерческой направленности. Спрос был спровоцирован ростом глобализации и спрос на перевод в Канаде, Европе и Японии.

80-е начало 90-х годов

К 80-м годам разнообразие и число программ для машинного перевода увеличилось. Использовались такие переводческие системы, основывающиеся на технологии универсальной вычислительной машины, как Metal.

В результате увеличения пригодности микрокомпьютеров, появился рынок бюджетных программ машинного перевода. Многие компании Европы, Японии и США воспользовались данной возможностью. Системы были представлены на рынке Китая, Восточной Европы, Кореи и СССР.

В 80-е годы в Японии был большой ажиотаж, связанный с машинным переводом. С появлением компьютеров пятого поколения Япония планировала прыгнуть выше всех в области техники и программирования, проект, связанный с созданием программ для перевода с/на английский, заинтересовал многие компании (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

Исследования 80-х годов основывались на переводе лингвистических единиц при помощи морфологического, синтаксического и семантического анализа.

Первые коммерческие продукты машинного перевода, нашедшие практическое использование в России, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.

Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:

- "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;
- ПРОМТ, образованная в 1991 г.;
- "Медиа Лингва".

Например в словарях Retrans Vista хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в повседневной речи. Кроме того, есть программа концептуального анализа, автоматически выделяющая из текста новые словосочетания и включающая их в словарь. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней "длиной" в 2,2 слова.

В конце 80-х годов произошел рост числа методов, используемых при машинном переводе. Система, разработанная компанией IBM, базировалась на статистическом методе. Другие группы использовали методы, основывающиеся на большом числе примеров переводов, такая техника называется машинный перевод на основе примеров. Определяющая черта обоих подходов стал недостаток семантических и синтаксических правил и опора на манипуляции с корпусами текстов.

В 90-х годах после успеха программ по распознаванию речи и ее синтеза и с развитием Verbmobil, начались разработки по переводу речи.

В результате появления бюджетных и более мощных компьютеров вырос спрос на программы машинного перевода. Именно в начале 90х годов перевод стал осуществляться не громоздкими ЭВМ, а персональными компьютерами и дисплейными терминалами. Одна из компаний, которая стояла во главе рынка ПК на тот момент были Systran.

Недавние исследования

За последние несколько лет машинный перевод пережил значительные изменения. В настоящий момент большое количество исследований ведется в области статистического машинного перевода и машинного перевода на базе примеров перевода. Сегодня немногие компании используют статистический машинный перевод в коммерческих целях, например, Microsoft (использует свою собственную патентованную статистическую программу МП для перевода статей базы). Возобновился интерес к гибридизации, исследователи совмещают синтаксические и морфологические (т. е. лингвистические) знания в статистических системах с уже существующими правилами.

Читайте также: