Доклад по теме системы компьютерного перевода

Обновлено: 01.05.2024

Словари необходимы для пере­вода текстов с одного языка на другой. Первые словари были созданы около 5 тысяч лет назад в Шумере и представ­ляли собой глиняные таблички, разделенные на две части. В одной части записывалось слово на шумерском языке, а в другой — аналогичное по значению слово на другом язы­ке, иногда с краткими пояснениями.

Современные словари построены по такому же принци­пу. В настоящее время существуют тысячи словарей для перевода между сотнями языков (англо-русский, немец­ко-французский и т. д.), причем каждый из них может со­держать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, в которой поиск нужного слова — процесс достаточно трудо­емкий.

прослушивания слов в исполнении дикторов, носите­лей языка;

• онлайновые компьютерные словари в Интернете обес­печивают выбор тематического словаря и направления перевода.

Системы компьютерного перевода.


Происходящая в на­стоящее время глобализация нашего мира приводит к необ­ходимости обмена документами между людьми и организа­циями, находящимися в разных странах мира и говорящими на различных языках.

Онлайновые компьютерные переводчики в Интернете обеспечивают выбор тематического словаря и направления перевода. Они позволяют переводить любые тексты, набран­ные в окне перевода или скопированные из буфера обмена, Web-стракицы, включая гиперссылки, с сохранением исход­ного форматирования, а также электронные письма.

Современные системы компьютерного перевода позволя­ют с приемлемым качеством переводить техническую доку­ментацию, деловую переписку и другие специализированные тексты. Но на эти системы нельзя полностью полагаться. Они допускают смысловые и стилистические ошибки и непри­менимы, например, для перевода художественных произве­дений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека и т. д.

Формы организации взаимодействия ЭВМ и человека при машинном переводе:

  • С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
  • С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
  • С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
  • Смешанные системы (например, одновременно с пред- и постредактированием).

Компьютерные словари (примеры):

омпания ПРОМТ — лидер в разработке систем автоматического перевода — предлагает широкий спектр продуктов для разных языковых пар.

Переводчики и словари ПРОМТ

Pragma

Pragma 3.0 работает со всеми популярными офисными пакетами (Microsoft Office, StarOffice, Lotus Notes), а также с почтовыми клиентами (Outlook Express, MS Outlook, Netscape, Eudora) и браузерами (Internet Explorer, Netscape, Mozilla).

Retrans Vista

Retrans Vista предоставляет интерактивный режим перевода, при котором пользователь может выбрать из предлагаемых вариантов перевода слов и словосочетаний собственный вариант перевода, зарезервировать слово, которое не нужно переводить, объединить слова в словосочетание или предложение. Интерактивный режим представлен в двух формах — табличной и текстовой.

Словарь пользователя позволяет сохранять результаты перевода и использовать их в дальнейшей работе, что существенно облегчает труд переводчика и обеспечивает единообразие стиля и терминологии.

Перевод в Интернете дает возможность быстро понять смысл содержания страницы на английском языке, при этом формат страницы сохраняется.

Функция быстрого автоматического перевода обеспечивает скорость до 7200 слов в минуту.

В системе Retrans Vista реализована концепция фразеологического машинного перевода, основанная на переводе целостных понятий, выражаемых словами, словосочетаниями или предложениями. Поэтому система в первую очередь находит эквиваленты для максимально длинных фраз и словосочетаний, а если это не удается, переводит входящие в их состав более короткие словосочетания и отдельные слова.

ABBYY Lingvo имеет три версии:

• ABBYY Lingvo 9.0. Англо-русский — словарь для PC и Pocket PC, который содержит около 1 млн. 400 тыс. словарных статей в 22 словарях общей, разговорной и тематической лексики, русско-английский разговорник, лингвострановедческий словарь Великобритании и новый словарь разговорной лексики;

• ABBYY Lingvo 9.0. Многоязычный — электронный словарь для PC и Pocket PC, включающий более 3 млн. 500 тыс. словарных статей в 49 словарях (более 7 млн. 400 тыс. переводов) на пяти европейских языках (английский, немецкий, французский, испанский, итальянский), а также пять новых разговорников, содержащих по 500 наиболее употребительных фраз;

• ABBYY Lingvo 9.0. Популярный — многоязычная версия стоимостью 100 руб., которая содержит самую необходимую лексику на пяти языках (английском, немецком, французском, итальянском и испанском). Всего — более 370 тыс. словарных статей.

Основные достоинства англо-русской и многоязычной версии:

• самые полные словари, актуальная лексика;

• всесторонняя тематика, включающая такие тематические специализированные словари, как медицинский и компьютерный, а также справочник по грамматике английского языка;

• подробный перевод, многочисленные примеры словоупотребления;

• перевод слова из любой формы с учетом морфологии);

• говорящий словарь — 25 тыс. самых наиболее употребительных слов озвучены дикторами из Великобритании и Германии;

Феофилактович

В многонациональном и мультиязычном мире существует проблема международной коммуникации. Людей, свободно говорящих на многих языках, меньше, чем людей, которым требуется перевод речи собеседника, научных текстов или видеоматериалов. Для разрешения подобных проблем появились системы компьютерного перевода.

Прообразы систем компьютерного перевода появились в начале 1930-х годов, работали такие системы по принципу словарей: на вход механизму подавались специально подготовленные наборы слов, которые переводились машиной, результат интерпретировался человеком, создававшим из него осмысленный текст.

Первые системы компьютерного перевода появились после второй мировой войны, содержали списки переводов слов и небольшой набор правил грамматики. В первой публичной демонстрации машинного перевода (1954 год, Джорджтаун) использовалась система, основанная на словаре из 250 записей, и всего на 6 правилах грамматики. Несмотря на позитивный настрой разработчиков, значительное финансирование и интерес со стороны средств массовой информации, переводчик был скорее игрушкой, качество перевода было невысоким. В последующие годы предпринимались многочисленные попытки улучшить качество перевода.

В 1980-х годах обрели широкое распространение микрокомпьютеры, на базе которых были созданы портативные компьютерные переводчики. Это подогрело интерес к системам компьютерного перевода со стороны промышленности и, как следствие, и мотивацию учёных. В это же время начали развиваться системы распознавания и генерации речи, что давало надежды на машинный перевод в режиме "on-air", во время разговора.

В настоящее время используется множество систем компьютерного перевода. К системам с заранее заданными правилами перевода добавляют статистические модели, самообучающиеся алгоритмы. Популярен подход с использованием нейронных сетей - алгоритмов, которые состоят из множества изменяющихся под действием обучения частей (нейронов), которые выдают ответ, интерпретируя сигналы, возвращаемые нейронами. Усложнения используемых алгоритмов позволяют получать результаты, приближенные к переводам переводчиков-людей.

Основные проблемы у компьютерных переводчиков возникают с неоднозначностью перевода. Много слов имеют разные значения, в языках существуют разные диалекты, в которых одинаковые на вид понятия могут иметь противоположные значения. Человек при переводе может догадаться, о чём идёт речь, компьютер же сам "додумать" ничего не может, поэтому использует то, что уже знает. При переводе технических текстов, инструкций или устойчивых выражений системы компьютерного перевода почти всех выбирают верные варианты, исходя из контекста. В случае художественных текстов задача усложняется, в том числе из-за того, что определённые метафоры в культуре одного народа могут не совпадать с традициями другого. Поэтому качество перевода художественных текстов как правило ниже, чем всех остальных.

Использование самообучающихся алгоритмов позволяет улучшить качество перевода за счёт анализа новых источников. Часто это бывает полезным, но эту систему можно использовать, чтобы ухудшить качество перевода, сделать его нелепым. В интернете можно найти много примеров из онлайн-переводчиков компаний Goоgle и Яндeкс, например, когда-то "Константин Хабенский" переводилось на английский как "Keira Knightley" - Кира Найтли. Скорее всего, это было сделано интернет-троллями, часто поправлявшими правильный вариант на неправильный, из-за чего изменились настройки алгоритма перевода.

Системы компьютерного перевода входят в большую группу алгоритмов, занимающихся обработкой естественного языка. Их развитие поможет людям как общаться между собой, получать информацию из иноязычных источников, так и научит компьютеры лучше понимать человека и его запросы, что повысит эффективность, простоту использования компьютера и увеличит возможные плюсы от такого взаимодействия.


Основные приемы работы с текстом заключаются не только в создании, редактировании и оформлении текстового материала, которые реализуют текстовые редакторы. Существует ряд специальных приложений, автоматизирующих действия по обработке текстов. Кратко о системах перевода и распознавания текста можно прочитать в данной статье.

Что такое системы перевода и распознавания текста

Для упрощения работы с текстом разработчики программного обеспечения создали специальные приложения, позволяющие автоматизировать ввод больших объемов текстовых данных. Также текст большими объемами можно не только вводить, но и переводить. Для автоматизации процессов работы с текстом используются системы перевода и распознавания текста.

Системы распознавания текста

Вводить информацию в компьютер можно не только с клавиатуры, но и с помощью специального устройства – сканера. В процессе сканирования текст из журнала или книги из бумажного формата переводится в электронный. Первоначально отсканированный текст имеет вид графического изображения, то есть воспринимается компьютером как картинка. Для того чтобы из картинки получить текстовый формат и далее работать с ней как с текстом, используются специальные программы, выполняющие распознавание текста.

Процесс распознавания происходит так. Программа анализирует полученное изображение, выделяя в нем текстовые, табличные и графические области. Затем строки в текстовых блоках разбиваются на отдельные слова, слова – разбиваются на символы. И затем каждый символ сравнивается с имеющимся в базе изображением букв, цифр или специальных символов. Найдя оптимальный вариант, программа выдает его пользователю в виде распознанного текста.

Самым популярным программным продуктом, выполняющим распознавание текста, является Fine Reader от компании ABBYY.

Компания ABBYY на современном рынке программных продуктов является лидером мирового масштаба в разработке программных решений, использующих технологию распознавания документов. Более 1000 компаний в 150 странах сотрудничают с ABBYY, включая таких мировых лидеров, как Fujitsu, Panasonic, Microsoft, Sharp, Samsung, Xerox.

Рис. 1. Логотип ABBYY Fine Reader.

Приложение Fine Reader конвертирует изображения в электронные редактируемые форматы. В качестве графических объектов могут быть фотографии, PDF-файлы, а также полученные в результате сканирования копии бумажных документов. После преобразования результаты можно сохранить в форматах приложений Microsoft Word, Excel, Powerpoint, а также в текстовом формате RTF и в формате разметки гипертекста HTML. Самые новые версии этого программного продукта позволяют сохранять результаты распознавания в формате DJVU.

Достоинством данного программного продукта является распознавание более чем на 190, а также встроенная проверка орфографии.

Системы перевода

Высокий уровень развития технологий, обеспечивающих реализацию информационных процессов хранения и поиска информации, способствовал популяризации программ-переводчиков.

Программа переводчик представляет собой программный продукт, который позволяет осуществлять перевод с одного языка на другой отдельных слов, словосочетаний и предложений. Действие таких систем перевода строится на применении правил построения словосочетаний и предложений естественного языка. Переводчик анализирует текст на исходном языке, а затем составляет такой же текст на новом языке.

Как правило, такие программные продукты можно устанавливать на свой персональный компьютер как отдельные приложения (например, ABBYY Lingvo), но чаще их используют в режиме on-line в сети интернет. Свои услуги по переводу предлагают Яндекс-переводчик, Google-переводчик. Объем переводимого текста в Google может достигать до 5000 знаков, программа позволяет осуществлять перевод с 103 языков.

С 2017 года компания Google использует технологию перевода, основанную на применении нейросетей. Такой механизм позволяет предлагать более точные по смыслу, с учетом различных тонкостей языков, варианты слов.

Рис. 3. Логотип переводчика Google Translate.

Что мы узнали?

Для работы с текстом разработчики программных решений предлагают ряд специальных программных продуктов, предназначенных для машинного перевода и распознавания текста. Приложения для распознавания текста конвертируют фотографии, pdf-документы и друге изображения в электронные редактируемые форматы doc, xlsx, pptx, rtf, html. Программы-переводчики предназначены для перевода текстовых документов с одного языка на другой.

Распознавания текстов

Информатика

Использование текстовых редакторов позволяет не только переводить информацию в набранный документ, но и проводить ряд действий для того, чтобы она выглядела привлекательнее и быстрее усваивалась читателями. Благодаря специальным приложениям стало возможным обрабатывать тексты автоматически, без уделения времени и выбора каждой команды. В информатике за 7 класс системы перевода и распознавания текста описаны как основные механизмы в работе с большими объёмами материала.

Системы перевода

Сначала программа-переводчик анализирует текст на родном языке и после этого переводит его на желаемый с использованием тех форм и правил, которые присущи нужному языку. Перевод занимает от нескольких секунд до минуты, а его качество зависит от используемых словарей, которые вписаны в основу программы.

Системы перевода и распознавания текста (информатика 7 класс)

Переводчик можно установить на персональный компьютер или на мобильный или использовать онлайн-версию. Второй вариант будет более подходящим в плане высокого качества, ведь классические переводчики, встроенные в поисковые системы, обладают большим словарным запасом и максимально приближаются к реальной речи. А также здесь имеется голосовой набор и возможность прослушать перевод на новый язык, чтобы уловить интонацию и стиль проговаривания фразы.

Отдельные предложения могут иметь платные опции или требовать много места на гаджете из-за постоянных обновлений. Такой вариант подойдёт для туристов или для любителей путешествий. Для стабильной работы и перевода лучше пользовать стандартными переводчиками в онлайн-системе. Что касается возможного объёма в системе перевода текста, то в гугл он может достичь 5 тысяч знаков и осуществить перевод со 103 языков мира. Эта система считается одной из наиболее популярных и широко используемых в мире.

Список преимуществ

В любой компьютерной программе можно найти как положительные, так и негативные качества. Всё зависит от технических возможностей и задания, которое необходимо выполнить. К преимуществам переводчиков специалисты относят следующие факторы:

Программы переводчики

  • Большое разнообразие словарей по специальностям, что делает возможным перевод разных текстов и материалов.
  • Возможность организовать быстрый поиск по любой теме. В программах-переводчиках возможности систем распознавания текстов зависят от типа программы, онлайн-версии постоянно обновляются и дополняются.
  • Одновременно можно просматривать несколько вариантов перевода и выбирать для себя наиболее подходящий с нужными формами.
  • Можно самостоятельно вписывать фразы и формировать свой словарь на нужном языке.
  • Сочетание с текстовыми редакторами и возможность быстро переводить текст с формата поиска в вордовский документ.

Благодаря удобному интерфейсу, простоте и большому словарному запасу можно переводить тексты и работать с коррекцией в одном и том же переводчике. К плюсам программы можно отнести и компактность, переводчики могут устанавливаться как на компьютеры, так и на телефоны или другие мобильные гаджеты.

Возможности систем распознавания текстов

Современные технологии не стоят на месте, и благодаря работе компьютерщиков можно сравнить современные версии со старыми, более примитивными и несложными. Начиная с 2017 года, компания Google использует технологию, в основе которой находится применение нейросети. Это позволяет не только использовать более подходящие по смыслу фразы и создавать точный перевод, но и учитывать в процессе разные тонкости языков, подбирать подходящие варианты слов.

Машинный перевод и распознавание текста являются сложным автоматизированным процессом. который требует от пользователя только введения данных. Получить таким образом перевод из одного языка на другой достаточно просто, нужно только подобрать свой тип переводчика с нужным словарём.

Описание недостатков

Возможности распознавания текстов в программах-переводчиках постоянно улучшаются и расширяются, но при этом специалисты выделяют и ряд недостатков. К основным можно отнести следующие факторы:

Системы перевода и распознавания текстов

  • Ограниченный обзор, который зависит от размеров экрана.
  • Большой словарь позволяет увидеть сразу много вариантов слова, но нужно самостоятельно выбирать ту форму, которая будет кстати. Для людей, которые недостаточно хорошо владеют иностранным языком, сделать это будет тяжело.
  • Словари-переводчики не учитывают игру слов и возможных художественных приёмов, поэтому перевод будет больше механическим и сухим. Электронный вид текста после переводчика нужно исправлять и редактировать возможные ошибки в формах.
  • Если фразы в словаре нет, то переводчик не переводит её.
  • Из нескольких вариантов многозначного слова переводчик выбирает тот тип, что используется чаще всего, а это не всегда может подходить по смыслу в конкретный текст.
  • Иногда в словарях предложено несколько вариантов одного слова, которые могут отличаться смыслом. Само же трактование не указывается, и поэтому выбрать из нескольких правильный ответ тяжело.

Описание специальных программ, особенности перевода текстов и краткое содержание предоставляемых возможностей позволяют сделать правильный выбор и установить нужный вариант для работы. К сожалению, осуществить адекватный перевод с помощью программы не получится, но заметно облегчить себе задачу вполне реально.

Распознавание текста

Информацию на компьютер можно вводить не только стандартным методом, с помощью клавиатуры, но и используя сканнер. Благодаря устройству можно перевести страницу из книги или журнала в электронный формат за некоторое время. Большим плюсом программы является то, что можно перевести не только текст, но и картинки, и сделать это как в чёрно-белом, так и в цветном формате.

Первоначально отсканированный текст воспринимается компьютером как картинка, нужна дополнительная работа и использование специальной программы, чтобы изображение превратилось в текст. Процесс распознавания несложный, но многоэтапный. Он состоит из таких пунктов:

Перевод текстов и краткое содержание программы

  • Программа начинает анализировать полученное изображение, выделяет в нём текстовые, графические и области таблицы.
  • После этого строки в текстовых блоках начинают разбиваться на слова, а слова, в свою очередь, — на символы.
  • Каждый символ сравнивается с имеющейся в базе буквой и подбирается наиболее подходящий тип.
  • После окончания программа выдаёт обработанный текст пользователю в готовом виде.

Конечно, после сканирования документ нужно дополнительно перечитывать и исправлять ошибки, но это существенно экономит время в сравнении с простым набором текста. Благодаря программам распознавания можно обрабатывать и переводить в формат документа не только текстовые блоки, но и материалы в таблицах и схемах.

Переводчики возможности

Популярной является программа Fine Reader, она позволяет быстро отсканировать картинку и перевести её в электронный вариант за короткий промежуток времени. Благодаря постоянному обновлению элементов программы, она совместима с разными моделями сканеров и быстро настраивается для работы. После сканирования результаты можно хранить в разных форматах приложений и в формате разметки гипертекста HTML. Большим преимуществом программы является возможность орфографической проверки, которая уже встроена в программу, и удобный интерфейс, что делает использование ещё проще.

Применение на практике программ с распознаванием и переводом текста заметно упрощает работу и позволяет почувствовать все преимущества современных возможностей. Текстовые редакторы, программы для установки постоянно обновляются и наполняются новыми функциями, благодаря чему работать с разными форматами намного проще и эффективнее. Нейросети, качественное оборудование, большие объёмы памяти помогают работать с разной информацией и хранить копии в доступных облачных хранилищах. Даже начинающим пользователям будет комфортно выполнять разные задачи и обрабатывать тексты благодаря простому функционалу и подсказкам онлайн.

Читайте также: