Научный доклад на тему качество автоматического перевода текстов

Обновлено: 05.07.2024

Много положительного можно сказать о предлагаемом приборе и эффективности его применения. Хочу поблагодарить особо за то, что данная разработка ускорит и позволит менее затратно навести порядок на рынке минеральной воды, так как она, в отличии от алкогольной продукции зачастую предназначена для излечения и поддержания здоровья.

Разработка системы на базе микроконтроллеров, особенно ATMega328, является очень перспективной и наверняка позволит облегчить контроль микроклимата теплиц. А за счет использования недорогостоящих компонентов будет сделано меньше затрат на строительство и эксплуатацию.

Практически в каждой семье переживали ситуацию, когда их заливали соседи и всем ясны размеры последствий этого бедствия. При этом, предлагаемое устройство способно с минимальными затратами решить данную потенциальную проблему, а применение подобных систем в промышленности будет иметь превосходный экономический эффект.

Автор пишет: "Водно-болотные угодья являются неотъемлимой частью ГОРОДСКОЙ экосистемы".---Приведите, пожалуйста, примеры городов, на территории которых находятся водно-болотные угодья. Спасибо.

Добрый вечер! Очень интересная статья! Я познакомилась с сервисом Wordwall. Действительно, использование образовательного ресурса Wordwall на уроках информатике может способствовать лучшему пониманию и усвоению знаний, а также эффективному закреплению материала. Wordwall повышает результативность обучения. Обязательно воспользуюсь представленным сервисом.

Добрый день! Мне, как будущему педагогу очень понравилась эта статья. Действительно, внеурочная деятельность по математике необходима, ведь многие школьники теряют к ней интерес, считая математику скучным предметом. Большое спасибо за работу!









ПЛЮСЫ И МИНУСЫ МАШИННОГО ПЕРЕВОДА

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

В современном обществе происходит стремительное развитие международных отношений, поэтому у многих специалистов в различных областях деятельности появляется необходимость перевода текста, документов и деловых писем с одного языка на другой. Люди, которые не владеют необходимым иностранным языком в достаточной мере прибегают к помощи систем машинного перевода (различных программ для перевода текста). В данной статье рассматриваются проблемы, которые возникают в ходе использования машинного перевода, включая в себя историю развития таких систем, типы систем машинного перевода по степени автоматизации, преимущества, и недостатки данного способа перевода, а также приведен сопоставительный анализ двух вариантов перевода отрывка текста разными программами.

Машинный перевод (МП) как термин понимается как минимум в двух смыслах. В узком смысле это означает процесс перевода некоторого текста с одного естественного языка на другой, реализуемый компьютерной программой полностью или почти полностью. Процесс заключается в том, что на вход машины подается текст, словесная часть которого не сопровождается никакими дополнительными указаниями, а на выходе получается текст на другом языке, являющийся переводом входного, причем преобразование входного текста в выходной происходит без вмешательства человека [1, 8].

Если же рассматривать этот термин в широком смысле, то это область научных исследований, находящаяся на стыке лингвистики, математики, кибернетики, и имеющая целью построение систем, реализующих машинный перевод в узком смысле.

Существует несколько типов машинного перевода по степени автоматизации: полностью автоматический; автоматизированный машинный перевод при участии человека (с пред-, интер- или постредактированием); перевод, осуществляемый человеком, с использованием компьютера (например, с использованием электронных словарей) [2, 24].

Преимуществами машинного перевода является скорость, использование МП существенно сокращает время, затрачиваемое для перевода того или иного слова, предложения или текста. Также значительным плюсом является большое количество бесплатных интернет-ресурсов, которые предоставляют услуги МП, в то время как в специальных бюро переводов приходится платить значительные суммы за перевод. Так как доскональный анализ текста и высококачественный перевод нужен не всегда, иногда требуется только уловить краткую суть текста, в этом случае идеальный вариант – воспользоваться бесплатными услугами компьютерных программ-переводчиков. Третьим преимуществом МП является полная конфиденциальность, когда нужно перевести какое-либо важное письмо или документ. Еще одним, но не менее важным, является тот факт, что МП универсален, он способен перевести слова, предложения, тексты на разные темы, хотя чаще всего профессиональные переводчики специализируются на конкретных узконаправленных темах.

Но какой бы развитой сфера технологий ни была, до сих пор существуют некоторые проблемы, которые встречаются при использовании МП. Одной из главных лингвистических проблем, возникающих при переводе текстов с одного языка на другой, является проблема многозначности лексических единиц. Такое явление носит название полисемия (от греч. polysemos – многозначный) – наличие у языковой единицы более одного значения. Эта проблема, возникающая в ходе МП, активно решается, к примеру, с помощью использования контекстологических словарей, в которых для каждого многозначного слова указывается его приоритетный переводной эквивалент, специфичный для рассматриваемой предметной области. Но в целом проблема неоднозначности может быть решена только интерактивным путем, поскольку одно слово может иметь два и более значения, что значительно усложняет работу и потенциально может ухудшить качество перевода текста [3,15].

Также наиболее частой является проблема особенности структурного и лексического различия языков, а также существование грамматических конструкций, состоящих из нескольких слов. Так, к примеру, существует проблема перевода фразеологических сочетаний, идиом, которые изобилуют во всех языках. Решение этой проблемы следущее: при разработке той или иной системы МП необходимо изначально закладывать значение таких словосочетаний, и обрабатываться они должны как одно слово.

Однако, создание качественных переводов художественных текстов без участия профессиональных переводчиков до сих пор невозможно. Потому что человек анализирует иностранный текст более подробно, способен передать эмоциональный фон художественного произведения, отразить переживания персонажей, вкладывая в перевод собственное понимание написанного, улавливая все особенности языка оригинала, а также языка перевода.

До сих пор нерешенной остается задача создания такой компьютерной программы, которая бы смогла перевести исходный текст с учетом всех тонкостей, чтобы после не было необходимости дорабатывать полученный текст перевода вручную. Необходимо совершенствование подсистем грамматического анализа и синтеза в направлении развития систем машинного перевода.

Отрывок текста взят из открытого источника “ Wikipedia ” [4].

“ The Type 45 destroyers are primarily designed for anti-air warfare with the capability to defend against targets such as fighter aircraft and drones as well as highly maneuverable sea skimming anti-ship missiles travelling at supersonic speeds. The Royal Navy describes the destroyers' mission as being "to shield the Fleet from air attack". The Type 45 destroyer is equipped with the Sea Viper (PAAMS) air-defense system utilizing the SAMPSON active electronically scanned array multi-function radar and the S1850M long-range radar. PAAMS is able to track over 2,000 targets and simultaneously control and coordinate multiple missiles in the air at once, allowing a large number of tracks to be intercepted and destroyed at any given time. This makes it particularly difficult to swamp PAAMS during a saturation attack, even if the attacking elements are supersonic. The US Naval War College has suggested that the SAMPSON radar is capable of tracking 1,000 objects the size of a cricket ball travelling at three times the speed of sound (Mach 3), emphasizing the system's capabilities against high performance stealth targets.”

«Эсминцы типа 45 в первую очередь предназначены для противовоздушной обороны с возможностью защиты от таких целей, как истребители и беспилотные летательные аппараты, а также от высокоманевренных морских противокорабельных ракет, движущихся со сверхзвуковой скоростью. Королевский военно-морской флот описывает миссию эсминцев как "защиту флота от воздушного нападения".

Анализируя полученные варианты перевода можно сделать вывод, что обе программы выполнили перевод достаточно адекватно, с небольшим количеством неточностей, не влияющих на общее понимание смысла текста.

Данный анализ результатов работы двух программ-переводчиков позволяет сделать вывод об их достаточно высокой эффективности и адекватности, однако, следует отметить тот факт, что необходимость в проверке и правке машинных переводов человеком-специалистом остается актуальной, ибо в них имеют место искажения смысла и некоторые неточности.

В итоге хотелось бы отметить, что системы машинного перевода являются необходимым помощником в работе с иностранным текстом, главной задачей которого является перевод. К сожалению, письменный машинный перевод является слишком прямым, не учитывающим тонкостей языка, но это ставит задачу для разработчиков, которые улучшают эти системы уже более полувека. И также следует сказать, что это инструмент, который позволяет ускорить и упростить очень трудоемкий процесс перевода, но его эффективность зависит от правильного использования и качественной обработки полученного материала.

Кулагина О.С. О современном состоянии машинного перевода // Математические вопросы кибернетики. Вып. 3. М., 1991.

Юлия Епифанцева

Юлия Епифанцева

Если говорить о более объективных оценках качества перевода, то, например, в связи с развитием статистического машинного перевода, для которого вместо словарей перевода использую корпуса (или базы) параллельных текстов, была разработана специальная метрика для оценки качества перевода – BLEU. Эту метрику создали сотрудники IBM, чтобы отслеживать на больших объемах результат изменений в переводе в процессе разработки системы (как меняется перевод при добавлении новых корпусов текстов для тренировки системы, при изменении программного кода и т.д.).

Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения человеческого перевода и машинного перевода и поиска общих фрагментов. Основная идея состоит в том, что чем больше совпадений, тем лучше перевод.

Не вдаваясь в технологические тонкости, можно сказать, что данная метрика на практике объективна только для статистических или гибридных систем и для языков с неразвитой морфологической структурой, поэтому для перевода на русский эта метрика всегда показывает не такой высокий результат перевода как, например, при переводе на английский или французский. Тем не менее, метрика очень популярна среди специалистов, так как все-таки позволяет хоть как-то сравнивать разные системы или разные версии систем.

Chinese_Language_Translator

У профессионалов перевода существуют свои технологии для измерения качества машинного перевода. Например, в локализационных компаниях или в бюро перевода, применяющих машинный перевод, используется технология post-editing distance. С помощью данной технологии измеряют посимвольно, сколько изменений было сделано редактором в машинном переводе, прежде чем этот перевод был отредактирован до фактически и стилистически верного. Таким образом, тестируют, например, целесообразность использования машинного перевода в переводческих проектах или сравнивают разные системы машинного перевода, чтобы выбрать лучшую. Чем меньше пришлось редактору исправлять текст, тем лучше система. А если все переводы пришлось переписывать, значит, машинный перевод на данных текстах неэффективен или он был недостаточно настроен.

Один из способов борьбы с экспертной субъективностью –привлечение большого количества экспертов (или даже просто носителей языка), т.е. использование популярного сейчас краудсорсинга. Именно такой способ оценки качества автоматического перевода, полученного с помощью разных систем, используется в конкурсе, который проводится ежегодно в рамках Семинара по статистическому машинному переводу.

Конкурс организуется и проходит под эгидой Ассоциации компьютерной лингвистики (ACL), основанной еще в 1962 году. Она ведет большую научную и прикладную деятельность, в частности, проводит ежегодные конференции для специалистов в области компьютерной лингвистики и обработки информации на естественных языках, конкурсы систем машинного перевода и выпускает с 1974 года журнал Computational Linguistics.

Конкурс машинных переводчиков организован следующим образом: организаторы выкладывают в открытый доступ корпуса параллельных текстов и программные средства для создания систем статистического машинного перевода или тренировки на этих корпусах любых других систем машинного перевода.

Принять участие в конкурсе могут все желающие, количество участников доходит полутора сотен. Обычно участвуют лаборатории различных университетов (из Англии, Германии, Швеции, Австралии и других стран), занимающиеся исследованием и разработкой статистических систем перевода в научных целях, и разработчики коммерческих систем (SYSTRAN, PROMT).

Введение специального конкурса было связано с землетрясением 2010 года на Гаити и нашумевшей статьей двух исследователей из Стэнфордского университета и из Microsoft о создании статистической системы машинного перевода на основе имеющихся разработок фактически за несколько дней.

Как понятно из этой истории, выбор языковых пар для конкурса обусловлен в первую очередь наличием параллельных текстов, необходимых для тренировки систем машинного перевода. Поэтому в первую очередь используются тексты стенограммы заседаний и тексты документов Европарламента, доступные как раз для основных европейских языков, а также новостные тексты.

В определенный момент организаторы публикуют тестовый корпус текстов для перевода. Участники конкурса должны подготовить автоматический перевод этого корпуса своими системами в течение недели и разместить на сайте организаторов.

Затем идет этап экспертной оценки, во время которого эксперты, среди которых могут быть и участники конкурса, добровольцы, сравнивают и оценивают переводы друг с другом. Оценка производится через веб-интерфейс специально разработанной системы для оценки переводов — Amazon Mechanichal Turk (краудсорсинговый сервис от компании Amazon) и представляет собой некоторый нормализованный коэффициент сравнения вариантов переводы, выполненных различными системами.

Переводы всех участников анонимны, поэтому эксперт не знает, с помощью какой системы получен перевод. Оценка производится таким образом: эксперт видит исходное предложение, несколько автоматических переводов и человеческий перевод исходного предложения. Задача состоит в том, чтобы ранжировать (разместить в порядке от лучшего к худшему) автоматические переводы. После этого организаторы обобщают результаты оценки по всем участникам, подводят итоги и публикуют их на своем сайте.

В 2013 году организаторы, как уже было сказано, выложили данные и для русского языка, и появилась возможность участвовать в конкурсе с переводом с английского на русский. По результатам конкурса в 2013 и в 2014 году у технологии PROMT первое место для перевода с английского на русский.

Русский и немецкий, конечно, не самые сложные языки для перевода с английского, перевод на арабский сложнее, но все же получить качественный перевод на эти языки труднее, чем, например, на французский. И в русском, и в немецком развитая падежная система, много окончаний, в немецком предложении строгий порядок слов – все это создает дополнительные трудности разработчикам.

Качество машинного перевода за последнее десятилетие заметно выросло. В первую очередь это связано с развитием технологий, с доступностью больших текстовых данных для анализа и тренировки систем, а также с тем, что накопленный опыт практического применения (в коммерческих компаниях, у частных пользователей, на онлайн-сервисах) позволяет разработчикам получать ценную информацию об использовании технологии для решения разных задач и использовать этот опыт в дальнейших разработках.

Об авторе:

Юлия Епифанцева, директор по развитию бизнеса PROMT.

Окончила филфак СПбГУ. Разработчик технологий машинного перевода.

Научная деятельность и участие в конференциях в последние годы:

Гост

ГОСТ

Общее представление о машинном переводе текстов и его разновидности

Машинный перевод текстов – это процесс перевода как письменных, так и устных текстов с одного человеческого языка на другой, который осуществляется благодаря использованию специальной компьютерной программы.

Кроме, того машинным переводом может называться направление научно-исследовательской деятельности, которая связана с построением подобных систем перевода.

Выделяют несколько разновидностей систем машинного перевода, которые отличаются друг от друга в зависимости от установленной формы организации взаимодействия человека и компьютера (или другой подобной электронной вычислительной машины):

  • система машинного перевода с предредактированием, которая предполагает предварительное приспосабливание человеком текста (упрощение текста и устранение потенциальных неоднозначных прочтений) для его последующей программной обработки машиной;
  • система машинного перевода с интерредактированием, которая предполагает вмешательство человека в непосредственную работу системы перевода, направленное на разрешение трудных случаев;
  • система машинного перевода с постредактированием, которая предполагает первоначальную переработку машиной исходного текста, вслед за чем следует исправление человеком-редактором полученного результата;
  • смешанные системы машинного перевода, которые предполагают сочетание методов перечисленных выше систем.

Кроме того, разработано несколько принципиально разных подходов к построению алгоритмов, лежащих в основе проведения машинного перевода. Всего существует три подхода:

  • подход, который основан на правилах (rule-based) – это традиционный подход, который используется большинством разработчиков систем машинного перевода (например, в России – ПРОМТ, в Германии – Linguatec, во Франции – SYSTRAN и др.)
  • подход, который основан на статистике (Статистический подход / statistical-based) – это подход, который воплощён такими интернет-сервисами, как Переводчик Google, Яндекс.Переводчик и т.п.
  • NMT подход – это машинный перевод искусственными нейронными сетями.

В настоящее время большинство систем машинного перевода являются гибридными, которые сочетают в себе как правила, так и статистику, и нейронные сети.

Готовые работы на аналогичную тему

В рамках автоматизированного перевода принято различать две возможные формы взаимодействия. С одной стороны, речь идёт о частично автоматизированном переводе, который, в частности, может быть выражен в использовании переводчиком-человеком компьютерных словарей. С другой стороны, автоматизированный перевод может быть устроен как система с разделением труда. То есть компьютеру на откуп отдаётся перевод только жёстко структурированных фраз, что ликвидирует необходимость последующего исправления перевода. Все остальные фразы, которые не укладываются в выбранную схему, переводятся людьми.

История внедрения и развития машинного перевода

Впервые идея о том, чтобы использовать электронные вычислительные машины в качестве переводчиков текстов, была озвучена в США в 1947 году (вскоре после появления первых компьютеров). На практике эта идея была реализована в 1954 году в ходе проведения, так называемого, Джорджтаунского эксперимента.

Та система по современным параметрам была довольно примитивной – она состояла из словаря в 250 слов, грамматики из 6 правил, что позволяло переводить только несколько простых фраз. Однако этот эксперимент получил широкий резонанс, благодаря чему в 1954 году начались подобные исследования и в других странах мира (в Англии, СССР, ФРГ, ГДР, Франции, Китае, Японии и др.).

В середине 1960-х гг. специальная американская комиссия ALPAC указала на низкое качество текстов, переведённых машинами. Поэтому она пришла к выводу, что эта деятельность в условиях США является нерентабельной. Это дало толчок росту пессимизму, что впоследствии вылилось в снижении финансирования и зачастую к полному прекращению работ по этой тематике.

Однако постоянный прогресс вычислительной техники способствовал продолжению в ряде стран исследований. Кроме того, появление мини- и персональных компьютеров и рост международных связей стали существенным фактором в развитии машинного перевода и подъёму этой области. В 1980-е гг. сформировались сложные словарные, поисковые системы, которые направлены на работу с данными естественных языков, что привело к широкому практическому использованию переводческих систем.

В результате сложился рынок коммерческих разработок по теме машинного перевода. В России в настоящее время также существует множество коммерческих проектов машинного перевода.

Качество машинного перевода

В машинном переводе особое значение придаётся качеству переводу текста. Факторами, от которого зависит качество перевода, являются:

  • тематика исходного текста;
  • стиль исходного текста;
  • грамматическая родственность языков;
  • синтаксическая родственность языков;
  • лексическая родственность языков.

Как правило, машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Получение перевода приемлемого качества возможно только при наличии специализированных машинных словарей. Они помогут достичь наилучших результатов, но обычно это касается лишь текстов, которые написаны в официально-деловом и техническом стиле (например, руководства, описания).

Нажмите, чтобы узнать подробности

В процессе изучения немецкого языка мне и моим одноклассникам приходится прибегать к переводу с одного языка на другой довольно часто. Думаю, каждый, кто хоть раз сталкивался с переводом, знает, как утомительно листать толстые словари в поисках неизвестного иностранного слова, тем более, что для современных детей переводить текст через обычный книжный словарь стало не модно. Зачем идти за словарём, если можно перевести фразу не выходя из интернета при помощи онлайн – переводчика за считанные секунды? Однако при выполнении домашних заданий таким способом часто понять смысл полученного перевода становится затруднительно.

Поэтому актуальность выбранной темы я вижу в том, что помощью машинного перевода пользуется очень большое количество людей, в том числе очень многие учащиеся при выполнении домашних заданий по иностранному языку, но при этом далеко не все осознают, насколько несовершенен во многих случаях полученный результат. Также важно уметь ориентироваться в многообразии существующих сегодня электронных словарей и компьютерных переводчиков.

Цель исследовательской работы - изучение эффективности и качества онлайн - переводчика при работе с текстом на немецком языке.

Задачи исследования:

познакомиться с историей появления машинного перевода;

выявить наиболее популярные и качественные онлайн - переводчики;

классифицировать функциональные возможности популярных онлайн-переводчиков;

провести апробирование этих переводчиков;

составить рекомендации по использованию онлайн – переводчиков при работе с текстами;

Объектом исследования послужили переводы известных стихов и текстов, в том числе из учебника 6 класса автор И.Л.Бим, выполненные при помощи различных компьютерных переводчиков. Предмет исследования - онлайн - переводчики и их качество.

Новизна исследования состоит в том, что анализу были подвергнуты тексты учебных заданий по немецкому языку, таким образом, работа освещает проблемы, с которыми непосредственно сталкиваются школьники при выполнении домашних заданий.

Проблему исследования можно сформулировать следующим образом: какова роль и качество онлайн-переводчиков при переводе немецких текстов? Я предположила, что использование онлайн- переводчиков является эффективным средством при работе с текстами.

Изученные источники литературы дают возможность полного раскрытия исследуемой проблемы. Правильно отобранные методы исследования дают возможность подробно проанализировать состояние исследуемой проблемы в школе и проверить выдвинутую гипотезу.

При решении задач были использованы следующие методы:

Практическая значимость работы состоит в привлечении внимания учащихся к несовершенствам компьютерного перевода и предостережении против бездумного использования его результатов. Так как без использования электронных и онлайн – переводчиков сегодня ни один ученик не представляет себе процесс изучения иностранного языка, выводы этой работы будут полезны всем, кто нуждается в двуязычном переводе, а предложенные рекомендации можно использовать при редактировании текста, выполненного с помощью электронного переводчика.

1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

1.1. История развития машинного перевода

Начать своё исследование мне захотелось с изучения истории развития машинного перевода. Оказалось, что точно не установлено, кто первым задумался о создании машинного перевода. Уже в древние времена представители разных народов начали заниматься решением проблем кодирования своих языков в целях обеспечения их доступности иноземцами. Этот вопрос был актуален для египтян, индийцев и китайцев.

Рождение машинного перевода как самостоятельного научного направления приходится на 1947 год, когда математик Уоррен Уивер пытался перевести текст с одного языка на другой, используя специальный промежуточный язык. Удивительно, но добиться реального успеха удалось лишь в1954 году. Автоматизированный перевод текста был осуществлён на машине IBM -70. Словарная база данной программы состояла только из 250 слов, шести грамматических правил и могла перевести лишь 49 предложений.

Первые успехи вызвали восторг среди специалистов. Было создано несколько глобальных проектов. Но, к сожалению, эта работа была не лёгкой. В 60-ых годах все проекты были прекращены и признаны бесперспективными. Но данная проблема всегда вызывала интерес и в 80-ых годах вновь приобрела актуальность. В условиях международного обмена были созданы крупные электронные словари, но они не стали массово использоваться.

XXI век ставит новые задачи в информационном пространстве человечества. Благодаря массовой информатизации роль перевода в жизни человечества неуклонно возрастает. Сегодня переводческие связи охватывают почти все сферы человеческой деятельности. Движение информационных потоков не знает ни границ, ни времени, ни пространства.

1.2. Обзор онлайн-переводчиков.

В процессе изучения немецкого языка часто приходится прибегать к переводу с одного языка на другой.

Перевод может осуществляться с помощью следующих средств: двуязычный словарь, электронный переводчик, онлайн – переводчик. Самым популярным из перечисленных является онлайн-переводчик.

Google Translate, Yandex Translate, Promt. Согласно данным Интернета на сегодняшний день сервис онлайн-перевода Promt является лучшим по качеству.

У таких онлайн - переводчиков имеется большое преимущество – это быстрота и точность перевода. К тому же они бесплатны и доступны круглосуточно. Такие переводчики, в основном, и используют школьники.

Прежде чем сравнивать программы электронного перевода, я обратилась к истории вопроса, а также изучила основные принципы работы переводчиков.

Таким образом, выявив наиболее популярные онлайн- переводчики, я составила таблицу, которая наглядно показывает их функциональные возможности.

Читайте также: