Реферат на тему корпусная лингвистика

Обновлено: 02.07.2024

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.

Целесообразность создания текстовых корпусов объясняется:

представлением лингвистических данных в реальном контексте;
достаточно большой представительностью данных (при большом объёме корпуса);
возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др. [1]

Содержание

История

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus , BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) в Бирмингемском Университете и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

Современное состояние

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.

Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 300 млн словоупотреблений. [2]

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).

Проблемы

Проблема представительности

Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

Проблема разметки

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

токенизация (разбиение на орфографические слова) (приведение словоформ к словарной форме)
морфологический анализ

Проблема представления результатов

В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.

Веб как корпус

Использование поисковых машин

В качестве корпуса может использоваться множество текстов, доступных в интернете (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. В английском языке такая методология получила название англ. Googleology [3] , для русского более подходящим названием может стать Яндексология. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.). Кроме того дело осложняется малой распространённостью семантической вёрстки.

Использование веб-страниц

Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета. [4]

Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов. [5]

Проект Татоэба

В 2006 году появился сайт Татоэба (Tatoeba), позволяющий на свободной основе добавлять новые и изменять существующие предложения на различных языках, связанные между собой по смыслу. В его основу лёг лишь англо-японский корпус, а уже сейчас число языков превышает 80, а число предложений — 600000 [6] . Любой желающий может добавлять новые предложения и их переводы, а при необходимости — бесплатно скачать целиком или частично все языковые корпуса.

Открытый корпус русского языка

См. также

Примечания

Ссылки

Wikimedia Foundation . 2010 .

Полезное

Смотреть что такое "Корпусная лингвистика" в других словарях:

КОРПУСНАЯ ЛИНГВИСТИКА — КОРПУСНАЯ ЛИНГВИСТИКА. Лингвистические исследования, построенные на основе анализа аутентичных корпусов (баз данных) текстов. Корпусы письменных и устных текстов успешно применяются при обучении иностранному языку и в лингвистической педагогике.… … Новый словарь методических терминов и понятий (теория и практика обучения языкам)

ЛИНГВИСТИКА КОРПУСНАЯ — См. корпусная лингвистика … Новый словарь методических терминов и понятий (теория и практика обучения языкам)

Компьютерная лингвистика — Лингвистика … Википедия

Прикладная лингвистика — Лингвистика … Википедия

Квантитативная лингвистика — (англ. quantitative linguistics) это раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика (КЛ) занимается исследованием процесса изучения языка, его изменения и сферы применения, а также… … Википедия

Герд, Александр Сергеевич — В Википедии есть статьи о других людях с такой фамилией, см. Герд. Александр Сергеевич Герд Дата рождения: 23 июня 1936(1936 06 23) (76 лет) Научная сфера … Википедия

Кафедра математической лингвистики Санкт-Петербургского университета — Эта статья предлагается к удалению. Пояснение причин и соответствующее обсуждение вы можете найти на странице Википедия:К удалению/7 октября 2012. Пока процесс обсуждения не завершён, статью можно … Википедия

Кафедра математической лингвистики — факультета филологии и искусств Санкт Петербургского университета (создана в 1962 году) выпускающая кафедра для студентов отделения прикладной лингвистики СПбГУ, старейшего отделения такого профиля в России. Содержание 1 История 2 Персоналии 2.1 … Википедия

Кафедра математической лингвистики (Санкт-Петербургский госуниверситет) — Кафедра математической лингвистики факультета филологии и искусств Санкт Петербургского университета (создана в 1962 году) выпускающая кафедра для студентов отделения прикладной лингвистики СПбГУ, старейшего отделения такого профиля в России.… … Википедия

Нина Леонтьева — Нина Николаевна Леонтьева русский лингвист, специалист по структурной и прикладной лингвистике (ПЛ), преподаватель. Содержание 1 Биография 1.1 Основные труды 1.1.1 1958 1.1.2 1959 1.1.3 1961 … Википедия

Понятие корпусной лингвистики. Опосредованное и непосредственное применение корпусов в обучении иностранному языку. Основные методы обработки естественного языка. Автоматизированное извлечение информации. Текстовые поиски в крупномасштабных корпусах.

Рубрика	Иностранные языки и языкознание
Вид	реферат
Язык	русский
Дата добавления	19.06.2016
Размер файла	1,0 M

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

на тему: Корпусная лингвистика и обучение языку

В ведущих вузах мира становится повседневнои? практикои? использование корпусных данных в качестве эмпирическои? составляющеи? лекционных курсов, студенческих задании? и самостоятельных проектов. При этом оказывается, что корпусныи? подход оптимален для наглядного представления таких аспектов языка, как историческая, географическая и социальная вариация и изменения в языковои? системе, параллельно давая живую возможность овладеть базовыми принципами корпусных методов лингвистического анализа. Значительную помощь в даннои? области может оказать привлечение методов корпуснои? лингвистики: автоматизированное извлечение информации, обучение на основе данных, текстовые поиски в крупномасштабных корпусах с использованием методов обработки естественного языка.

корпус лингвистика иностранный

1. Опосредованное применение корпусов в обучении иностранному языку

В последние 10-15 лет исследователи методик преподавания иностранных языков использовали обширные корпуса текстов для оценки реалии? языка в его естественном состоянии. Эти корпуса текстов в значительнои? степени повлияли на повышение качественного уровня выпускаемых языковых пособии?. Вместо традиционных прескриптивистских указании?, как надлежит правильно использовать язык, новые корпусные исследования описывают, эмпирически обоснованно анализируют то, что люди деи?ствительно говорят. Особого упоминания заслуживают новые словари, создаваемые с использованием методик корпуснои? лингвистики, такие как Longman, Oxford, Collins, а также опыт критического переосмысления постулатов описательнои? грамматики англии?ского языка (Longman Grammar of Spoken and Written English, опубликованнои? в 2000 г.).

Языковой корпус представляет не только базу эмпирических данных для проверки наших представлений о языке, но и позволяет выявить те особенности языка, которые до этого ускользали из нашего поля зрения (например, частота употребления тех или иных устойчивых фраз и идиом). Однако исследования показали, что до сих пор в многих учебниках был представлен язык, скорее основанный на наших представлениях о его использовании, а не на достоверных данных. Так, несмотря на педагогически обоснованное использование скриптованных диалогов, их статус как средства совершенствования разговорных навыков оспаривается на протяжении последних лет такими учеными как Р. А. Картер, А. Бернс, М. Маккарти, А. О`Киффе и др. А. Бернс отмечает, что скриптованные диалоги редко отражают непредсказуемость и динамизм беседы, а также черты и структуры естественного разговорного дискурса [2]. Следовательно, студенты, обученные только с использованием скриптованного устного языка, будут иметь меньше возможностей расширить свой языковой репертуар для непредвиденных ситуаций общения, выходящих за рамки аудиторных занятий.

Анализ различий между речевыми актами в диалогах в учебниках и реальными спонтанными беседами, отраженными в корпусе, можно найти в работах Д. Боксера и Л. Пикеринга. Р. А. Картер также сравнивает данные из Кембриджского и Ноттингемского корпусов английского языкя (CANCODE) с диалогами из учебников и обнаруживает, что последние включают недостаточное количество основных средств разговорного языка, таких как дискурсные маркеры, неоднозначные выражения, эллипсис и т.д. [3]. А. Гилмор исследует дискурсные средства семи диалогов, опубликованных в учебниках с 1981 по 2000 гг., сравнивает их с похожими аутентичными беседами в корпусе и приходит к выводу, что первые значительно отличаются от последних по длине и моделям высказываний, лексической насыщенности, количеству фальстартов и повторений, расстановке пауз, использованию средств выражения неуверенности и ответных знаков. Однако, проанализировав учебники, опубликованные позже, ученый указывает на нарастающее внимание авторов к более естественным дискурсным средствам [4]. Корпуса оказываются все более и более незаменимым ресурсом для составления учебных программ с акцентом на комммуникативных компетенциях и дают шанс студентам при изучении языка столкнуться с языковыми явлениями, которые ожидают их в реальном общении. В контексте такого преподавания, вероятно, пионером был Collins COBUILD English Course (1989 г.), ветвь проекта COBUILD, посвященного педагогически ориентированной лексикографии. Содержание этого нового курса, основанного на корпусе, представляло собой самые распространенные слова и фразы английского языка. Курс концентрировался на лексике, собранной в результате корпусных исследований и на идеях, лежащих в основе корпусных исследований, а именно, том, что язык состоит в большой степени из повторяющихся комбинаций слов, а не отдельных слов, а также из идеи тесной связи лексики и грамматики.

Из современных учебников можно указать, к примеру, серию учебников Touchstone представляет собой попытку показать, как диалоги в учебниках и весь учебный материал в целом могут базироваться на корпусных данных. В дополнение к традиционному содержанию с учетом четырех видов речевой деятельности - говорения, аудирования, чтения, письменной речи, авторы Touchstone включают сквозные разделы, направленные на обучение стратегиям ведения беседы с основой на самые распространенные слова и фразы из североамериканского разговорного сегмента Кембриджского международного корпуса.

Рассмотрим пример того, как сильно может отличаться вид скриптованного и нескриптованного речевого высказывания (необходимо обратить внимание на дискурсивные маркеры, филлеры, повторы и т.д.)

New English File, Уровень Intermediate New Total English, Уровень Intermediate

2. Непосредственное примение корпусов в обучении иностранному языку (data-driven learning)

Однако при непосредственном использовании подготовленных материалов и преподаватель, и студент работают вместе. Их сотрудничество до некоторой степени взаимовыгодно. И если помощь со стороны преподавателя очевидна и обычна, студент может при таком обучении выступить в нетипичной для себя роли. Часто человек, изучающий язык на первых этапах, может заметить такие лексико-грамматические особенности, которые ускользают от внимания преподавателей и филологов (например, очевидные для человека, не владеющего иностранным языком, схожие черты родного и изучаемого языков).

Существуют солидные эмпирические доказательства того, что студенты могут гораздо более эффективно осваивать язык, когда в процессе обучения поощряется использование модели наблюдаи? - предполагаи? - экспериментируи? (observe - hypothesize - experiment model), т.е. когда они имеют возможность делать собственные выводы относительно значении? слов, фраз, грамматических правил на основе аутентичного язы- кового материала. Этот индуктивныи? метод дополняет более распространенныи? дедуктивныи? подход, известныи? также как слушаи? - практикуи?ся - говори, при котором студенты получают знание о правилах и определениях из объяснении? инструктора и справочнои? литературы [3].

Процесс не обязательно ограничен терминалом компьютера. Результаты корпусных поисков (конкордансов) в распечатанном виде могут быть легко инкорпорированы в раздаточныи? материал, методические пособия и т.п. и использованы в процессе традиционного преподавания на уроке. Кроме этого, достаточно распространенным является формирование специализированных корпусов текстов на жестком диске. Современные средства позволяют быстро сформировать весьма обширныи? (несколько десятков миллионов слов) корпус текстов практически по любои? тематике, и сделать это может каждыи?, кто владеет основными навыками работы с персональным компьютером и Интернетом.

3. Методы обработки естественного языка

Обучение языку при помощи компьютерных технологии? отходит от основных, традиционных, чаще всего деконтекстуализованных способов подачи материала, и фокусирует внимание на тех видах деятельности, которые стимулируют или, даже можно сказать, требуют элемент творчества. В рамках курса грамматического анализа возможно вовлекать студентов в анализ компьютерного корпуса, что, во-первых, влияет на их восприятие самого анализа, во-вторых, на их способность самостоятельно проводить подобный? анализ и, в-третьих, на то, как они сами будут преподавать грамматику.

Содержание методических материалов и практика преподавания иностранных языков и языкознания как у нас в стране, так и повсеместно имеют тенденцию отражать то разделение, которое существует на данныи? момент между эмпирическим и рационалистским подходами в гуманитарных науках, в частности в языкознании. Многие учебники изобилуют искусственными примерами, в то время как грамматические и стилистические описания основываются в большеи? мере на интуиции их составителей? или на вторичных источниках. Однако существует небольшое число учебных пособии?, которые основаны на эксплицитно эмпирическом подходе и используют примеры и описания, почерпнутые из корпусов реально используемых языковых средств.

Естественные языковые средства (Naturally-occurring Language) чрезвычаи?но важны в процессе обучения иностранным языкам, т.к. предоставляют студентам возможность иметь дело с теми предложениями, которые они встретят в реальнои? ситуации общения на иностранном языке. Студенты, которые обучаются на основе консервативных учебных материалов с традиционными описаниями письменного синтаксиса типа Mary puts her book on the table, порои? не готовы воспринимать и корректно анализировать естественную речь, изобилующую сложными предложениями типа The government has welcomed a report by an Australian royal commission on the effects of Britain's atomic bomb testing programme in the Australian desert in the fifties and early sixties (из Корпуса Разговорного Англии?ского = Corpus of Spoken English) [3].

Кроме прямого применения в процессе преподавания иностранного языка на основе естественного эмпирического подхода, корпус как метод может быть использован для критическои? оценки существующих методических материалов. Так, Кэннеди, Холмс, Миндт анализировали освещение различных аспектов грамматики англии?ского языка в существующих традиционных пособиях, используя методику сравнительного анализа соответствующих конструкции? и вокабуляра в учебниках и в корпусе стандартного англии?ского. В ходе большинства таких исследовании? было обнаружено, что существуют значительные расхождения между тем, что предписывается учебниками и тем, как язык деи?ствительно используется носителями, о чем свидетельствует корпус разговорного языка. Порои? в некоторых учебных пособиях на переднии? план ставятся отдельные аспекты использования языка и его стилистических особенностеи?, которые оказываются периферии?ными и менее типичными, в то время как более центральные игнорируются. Общим выводом этих исследовании? является то, что традиционные прескриптивистские учебные материалы, не основанные на эмпирических методах отбора и анализа языкового материала, неадекватны реальному естественному состоянию языка и реалиям его типичного применения, а также то, что методы корпуснои? лингвистики должны быть обязательны при разработке и оценке эффективности учебных материалов и методических пособии? с тем, чтобы наиболее распространенные употребления получали приоритетное внимание, а периферии?ные употребления занимали соответствующее им место [3].

Таким образом, роль корпусного подхода в такои? области, как компьютеризированное обучение иностранным языкам центральна. Последние исследования Университета Ланкастера, посвященные программному обеспечению для обучения студентов младших курсов грамматике и основам грамматического анализа, показали, что такие программы, как Cytor и аналогичные им, создаваемые достаточно легко на основе корпуса текстов аннотированного или по частям речи или по грамматическим/синтаксическим ролям, чрезвычаи?но эффективны и обеспечивают нужную степень интерактивности наряду с автономностью [3]. Получая задание грамматического разбора текста со скрытои? аннотациеи?, студенты самостоятельно разбирают предложения, имея возможность запросить у программы помощь в виде списка обозначении? информации о частотности употребления тои? или инои? лексическои? единицы или частотности совместного употребления примеров (коллокации).

6. Clive Oxenden, Christina Latham Koenig. New English File. Intermediate Student's Book: Oxford University Press, 2010 - 159 p.

7. Rachel Roberts, Antonia Clare, JJ Wilson. New Total English. Intermediate Student's Book: Pearson Longman, 2011 - 165 p.

Подобные документы

Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.

дипломная работа [95,5 K], добавлен 07.11.2013

Цели, функции и формы контроля в обучении английскому языку, его виды и требования к проведению. Основные недостатки при осуществлении проверки знаний и особенности комплексного подхода. Введение единого государственного экзамена по иностранному языку.

курсовая работа [65,3 K], добавлен 20.12.2011

Основные положения проблемного подхода. Главные направления обучения иностранному языку на основе проблемности. Способы создания и условия присвоения проблемных ситуаций при обучении иностранному языку. Особенности и примеры проблемных упражнений.

курсовая работа [54,7 K], добавлен 29.04.2009

Место и роль произносительных навыков в обучении иностранному языку. Цели и задачи фонетической зарядки на уроке немецкого языка у младших школьников. Упражнения и технология обучения. Подборка дополнительного материала на различных этапах урока.

дипломная работа [65,4 K], добавлен 24.01.2009

Информатизация образования в современном мире. Обучение иностранному языку с использованием персонального компьютера. Применение компьютерных программ и обучающих дисков при обучении иностранным языкам. Использование интернета для обучения языкам.

В данной работе мы рассмотрим возможности использования национальных корпусов языков в различных исследованиях. Актуальность данной темы обусловлена стремительным развитием такой дисциплины, как корпусная лингвистика, и разработкой новых сфер её применения.

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники.

Целесообразность создания текстовых корпусов объясняется:

представлением лингвистических данных в реальном контексте;

достаточно большой представительностью данных (при большом объёме корпуса);

возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годов в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

Национальный корпус русского языка (НКРЯ), создаваемый при РАН, содержит на сегодняшний день более 140 млн. словоупотреблений.

В данной работе мы рассмотрим следующие вопросы.

1. Принципы создания корпусов, используемые в них программные средства.

2. Возможности использования материалов корпусов в лингвистических исследованиях и в учебном процессе.

Глава 1. О содержании корпусов и возможностях использования материалов корпусов.

Зачем нужен национальный корпус?

Прежде всего, необходимо пояснить, что такое корпус вообще и Национальный корпус в частности.

Тем более это понимание необходимо, если мы хотим искать не слова, а формы. Представим себе такую задачу: найти в достаточно длинном тексте все формы дательного падежа единственного числа. Текстовый редактор с этой задачей вряд ли справится. Для того чтобы грамматические формы можно было автоматически найти в тексте, этот текст как раз и необходимо предварительно разметить. Иначе поиск возможен только вручную, а это процедура долгая и трудоемкая.

Это только один, самый простой пример, который показывает, для чего может быть нужна разметка. На самом деле, хорошо размеченный текст оказывается бесценным для специалиста. Ведь в своей исследовательской работе лингвисты зависят, прежде всего, от количества и качества собранного материала. У многих еще свежи в памяти те времена, когда примеры выписывались из текста и заносились на карточки. Сейчас карточки ушли в прошлое, но сама процедура выбора примеров из текста делается человеком и с трудом поддается автоматизации. Размеченные корпуса — первый серьезный инструмент, позволяющий существенно ускорить и упростить эту процедуру. Иными словами, то, на что у исследователей предшествующих поколений уходили недели, а то и месяцы напряженного труда, с помощью корпуса можно сделать за минуты.

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

С этой точки зрения основными потребителями национальных корпусов являются, конечно, исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как развивается Национальный корпус?

Национальный корпус русского языка охватывает, прежде всего, период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Именно поэтому Национальный корпус русского языка не ограничивается, например, только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные, и журнальные статьи разной тематики (от общественно-политических до спортивных), и специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), и рекламу, и частную переписку, и дневники. В корпус попадают образцы практически любого существующего в русском языке письменного дискурса: от статьи современного музыкального критика до инструкции по уходу за кактусами. Более того, составители корпуса хорошо понимали, что для полного и адекватного представления о том, что происходит в современном русском языке необходимо еще в большей степени расширить рамки корпуса и включить в него, наряду с письменными текстами, также и записи устной речи. В настоящее время эта работа ведется.

Все это позволяет любому человеку искать любые слова или сочетания слов в определенной грамматической форме или просто определенные грамматические формы. Говоря техническим языком, возможен поиск по морфологическим параметрам. Кроме того, поиск возможен не только по всему корпусу, но и по определенному подмножеству текстов, выбранному пользователем: например, тексты определенного автора, определенного периода, определенного жанра и т. п. (в любых комбинациях: например, тексты о спорте, написанные женщинами после 1995 года).

Национальный корпус русского языка в настоящее время включает следующие подкорпуса :

· глубоко аннотированный корпус , в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

· параллельный русско-английский корпус текстов , в котором можно найти все переводы для определенного русского или английского слова или словосочетания;

· корпус диалектных текстов , включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

· корпус поэтических текстов , в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

· обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

· корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.

Области применения корпусов.

Отчасти на этот вопрос ответ был уже дан выше. Прежде всего, корпус нужен — даже не просто нужен, а необходим — профессиональным лингвистам, тем, кто, так или иначе, имеет дело с фактами языка, а значит, должен эти факты собирать и систематизировать. Для лингвистов корпус — как минимум неоценимый инструмент, сокращающий затраты времени на техническую работу. Корпус — это также фактически справочно-информационная система по современному русскому языку, позволяющая получать ответы на самые неожиданные вопросы, — более того, позволяющая ставить новые проблемы, которых лингвистика прошлого почти не касалась.

Вот один из примеров, взятых из недавней исследовательской практики. На приведенный вопрос лингвист может ответить с помощью Корпуса буквально за считанные минуты.

В русском языке есть глагол несовершенного вида реагировать. Его коррелятами совершенного вида могут быть несколько разных приставочных глаголов: прореагировать, отреагировать, среагировать (явление нередкое, особенно среди заимствований). Какой из этих приставочных коррелятов употребляется чаще? К каким контекстам тяготеет каждый из этих приставочных коррелятов (например, какой из них охотнее сочетается с наречием быстро)? Наконец, в какой последовательности они появляются в современном языке — одновременно или по очереди? Различается ли частота их употребления в разные периоды?

Совершенно ясно, что число таких примеров можно многократно увеличить, а задачи — усложнить. Но этот пример показывает, насколько Корпус технически сокращает и революционизирует работу с материалом даже и в этих случаях, позволяя простым нажатием кнопки получить данные, на сбор которых в иной ситуации потребовались бы месяцы.

Языковое сознание иностранца — не русское. И он в высшей степени нуждается в инструменте, открывающем ему максимально широкий (и максимально комфортный) доступ в мир русского языка. Ничего лучше Корпуса современная наука в этом случае предложить не может. Именно в Корпусе преподаватель и студент могут найти ответы на многие интересующие их вопросы — причем такие ответы, которые даже носитель не сразу догадается предложить. Поэтому не случайна высокая популярность корпусов в иноязычной среде. И именно от зарубежных русистов (в особенности преподавателей русского языка) создатели корпусов получали самые заинтересованные отклики.

В качестве небольшого отступления следует отметить, что первые электронные корпуса русского языка, доступные для всеобщего пользования, начали появляться не в России, а в Европе, и создателями их были европейские русисты. Специалисты хорошо знают так называемый Упсальский корпус русского языка. Этот корпус был создан в Швеции, а в настоящее время хранится на сервере Тюбингенского университета в Германии, и в свое время немало пригодился специалистам. Интересные разработки по русской корпусной лингвистике ведутся в Финляндии — эта страна является одним из лидеров корпусной лингвистики в мире, в том числе и в области русской корпусной лингвистики. Весь этот опыт наши разработчики старались учесть — наряду с отечественным опытом последних десятилетий.

Еще одна группа людей, для которых Корпус может представлять бесспорный интерес, — люди пишущие или в своей повседневной деятельности связанные со словом. Например, редакторы газет и журналов. Редакторам в своей практической деятельности гораздо чаще, чем академическим исследователям, приходится решать вопросы узуса: допустимо ли такое слово или конструкция? Кто, где, когда употребил впервые такой оборот? Для каких типов текста он наиболее характерен? Трудно представить себе, где можно быстро найти ответы на такие вопросы, кроме Корпуса. Корпусом можно пользоваться и для проверки каких-то сведений, т. е. как справочником, но в этом отношении необходимо соблюдать известную осторожность, помня, что не всё действительное может быть разумно (по крайней мере, если речь идет о тексте, предназначенном для публикации в газете или журнале).

Глава 2. Программные средства.

Программные средства

Программа метатекстовой разметки для НКРЯ подготовлена С. А. Шаровым; упрощенная метатекстовая разметка проводилась при помощи программного обеспечения, созданного А. Е. Поляковым.

При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений использовались программы морфологического анализа Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов анализа в этих программах занимались Л. Л. Иомдин и В. З. Санников (Mystem), Н. Н. Леонтьева (Dialing).

Программы Mystem и Dialing распространяются свободно и доступны для некоммерческого использования согласно соответстветствующим лицензионным соглашениям. Для их получения можно обратиться на сайты авторов — Яндекса и АОТ.

В создании и усовершенствовании программного обеспечения Национального корпуса принимали участие также А. А. Аброскин, Н. В. Григорьев, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов.

О программе Mystem

AOT – Автоматическая обработка текста

Начиная с 2002 года, группа АОТ выкладывает свои разработки с лицензией LGPL. Теперь каждый может бесплатно использовать эти библиотеки в своих программах, в том числе и в коммерческих приложениях.

Заключение.

В заключение следует сказать, что Корпус дает огромные возможности для изучения русского языка и понимания закономерностей его развития. В своей преподавательской деятельности нами уже широко использовались материалы Корпуса, а в будущем планируется создать методическое пособие для студентов-иностранцев и преподавателей русского языка как иностранного на основе материалов НКРЯ и корпусов других языков (в частности, английского, немецкого, польского, китайского, персидского).

З-38Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005. – 48 с.

Для студентов и аспирантов, специализирующихся в области прикладной лингвистики и автоматизированных систем обработки текста.

ББК 81.1

ã В.П. Захаров, 2005

ã Санкт-Петербургский
государственный
университет, 2005

1. Основные понятия

Введение: корпусы и корпусная лингвистика

Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:

1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;

2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;

3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях.

Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. Спрос на корпусные данные совпал с появлением соответствующих технических возможностей.

Первые лингвистические корпусы текстов появились в 60-е гг. прошлого столетия. В 1963 г. в Брауновском университете (США) впервые был создан большой корпус текстов на машинном носителе (Brown Corpus). Авторы корпуса У. Френсис (W. Francis) и Г. Кучера (H. Kucera) спроектировали его как набор из пятисот двухтысячесловных прозаических печатных текстов американского варианта английского языка. Тексты принадлежали пятнадцати наиболее массовым жанрам англоязычной печатной прозы США и были напечатаны в 1961 г. Корпус сопровождался большим количеством материалов его первичной статистической обработки — частотный и алфавитно-частотный словарь, разнообразные статистические распределения. Появление Брауновского корпуса вызвало всеобщий интерес и оживленные дискуссии. Прежде всего они коснулись принципов отбора текстов и состава потенциально решаемых на таком корпусе задач. Затем последовали Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB), Уппсальский корпус русского языка. Среди современных корпусов английского языка наиболее известны Британский национальный корпус (British National Corpus), Международный корпус английского языка (International Corpus of English), лингвистический Банк английского языка (Bank of English) и др. В настоящее время корпусы созданы для многих языков мира (см. Приложение 1). Ведется работа и над созданием Национального корпуса русского языка.

В первой половине 90-х гг. корпусная лингвистика окончательно сформировалась как отдельный раздел науки о языке. При этом она тесно взаимодействует с компьютерной лингвистикой, используя ее достижения и в свою очередь обогащая ее.

Поиск в корпусе данных позволяет по любому слову построить конкорданс – список всех употреблений данного слова в контексте со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. В частности, на основе корпусов можно получить данные о частоте словоформ, лексем, грамматических категорий, проследить изменение частот и контекстов в различные периоды времени, получить данные о совместной встречаемости лексических единиц и т.д. Представительный массив языковых данных за определенный период позволяет изучать динамику процессов изменения лексического состава языка, проводить анализ лексико-грамматических характеристик в разных жанрах и у разных авторов, и т.д. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по подготовке разнообразных исторических и современных словарей. Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку.

Можно сказать, что корпусная лингвистика имеет своим предметом теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.

Читайте также: