Машинный фонд национального языка и его основные компоненты реферат

Обновлено: 04.07.2024

В данной работе мы рассмотрим возможности использования национальных корпусов языков в различных исследованиях. Актуальность данной темы обусловлена стремительным развитием такой дисциплины, как корпусная лингвистика, и разработкой новых сфер её применения.

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники.

Целесообразность создания текстовых корпусов объясняется:

представлением лингвистических данных в реальном контексте;

достаточно большой представительностью данных (при большом объёме корпуса);

возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годов в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского и других языков.

Национальный корпус русского языка (НКРЯ), создаваемый при РАН, содержит на сегодняшний день более 140 млн. словоупотреблений.

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).

В данной работе мы рассмотрим следующие вопросы.

1. Принципы создания корпусов, используемые в них программные средства.

2. Возможности использования материалов корпусов в лингвистических исследованиях и в учебном процессе.

Глава 1. О содержании корпусов и возможностях использования материалов корпусов.

Зачем нужен национальный корпус?

Прежде всего, необходимо пояснить, что такое корпус вообще и Национальный корпус в частности.

Тем более это понимание необходимо, если мы хотим искать не слова, а формы. Представим себе такую задачу: найти в достаточно длинном тексте все формы дательного падежа единственного числа. Текстовый редактор с этой задачей вряд ли справится. Для того чтобы грамматические формы можно было автоматически найти в тексте, этот текст как раз и необходимо предварительно разметить. Иначе поиск возможен только вручную, а это процедура долгая и трудоемкая.

Это только один, самый простой пример, который показывает, для чего может быть нужна разметка. На самом деле, хорошо размеченный текст оказывается бесценным для специалиста. Ведь в своей исследовательской работе лингвисты зависят, прежде всего, от количества и качества собранного материала. У многих еще свежи в памяти те времена, когда примеры выписывались из текста и заносились на карточки. Сейчас карточки ушли в прошлое, но сама процедура выбора примеров из текста делается человеком и с трудом поддается автоматизации. Размеченные корпуса — первый серьезный инструмент, позволяющий существенно ускорить и упростить эту процедуру. Иными словами, то, на что у исследователей предшествующих поколений уходили недели, а то и месяцы напряженного труда, с помощью корпуса можно сделать за минуты.

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

С этой точки зрения основными потребителями национальных корпусов являются, конечно, исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как развивается Национальный корпус?

Национальный корпус русского языка охватывает, прежде всего, период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Именно поэтому Национальный корпус русского языка не ограничивается, например, только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные, и журнальные статьи разной тематики (от общественно-политических до спортивных), и специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), и рекламу, и частную переписку, и дневники. В корпус попадают образцы практически любого существующего в русском языке письменного дискурса: от статьи современного музыкального критика до инструкции по уходу за кактусами. Более того, составители корпуса хорошо понимали, что для полного и адекватного представления о том, что происходит в современном русском языке необходимо еще в большей степени расширить рамки корпуса и включить в него, наряду с письменными текстами, также и записи устной речи. В настоящее время эта работа ведется.

Все это позволяет любому человеку искать любые слова или сочетания слов в определенной грамматической форме или просто определенные грамматические формы. Говоря техническим языком, возможен поиск по морфологическим параметрам. Кроме того, поиск возможен не только по всему корпусу, но и по определенному подмножеству текстов, выбранному пользователем: например, тексты определенного автора, определенного периода, определенного жанра и т. п. (в любых комбинациях: например, тексты о спорте, написанные женщинами после 1995 года).

Национальный корпус русского языка в настоящее время включает следующие подкорпуса :

· глубоко аннотированный корпус , в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

· параллельный русско-английский корпус текстов , в котором можно найти все переводы для определенного русского или английского слова или словосочетания;

· корпус диалектных текстов , включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

· корпус поэтических текстов , в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

· обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

· корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.

Области применения корпусов.

Отчасти на этот вопрос ответ был уже дан выше. Прежде всего, корпус нужен — даже не просто нужен, а необходим — профессиональным лингвистам, тем, кто, так или иначе, имеет дело с фактами языка, а значит, должен эти факты собирать и систематизировать. Для лингвистов корпус — как минимум неоценимый инструмент, сокращающий затраты времени на техническую работу. Корпус — это также фактически справочно-информационная система по современному русскому языку, позволяющая получать ответы на самые неожиданные вопросы, — более того, позволяющая ставить новые проблемы, которых лингвистика прошлого почти не касалась.

Вот один из примеров, взятых из недавней исследовательской практики. На приведенный вопрос лингвист может ответить с помощью Корпуса буквально за считанные минуты.

В русском языке есть глагол несовершенного вида реагировать. Его коррелятами совершенного вида могут быть несколько разных приставочных глаголов: прореагировать, отреагировать, среагировать (явление нередкое, особенно среди заимствований). Какой из этих приставочных коррелятов употребляется чаще? К каким контекстам тяготеет каждый из этих приставочных коррелятов (например, какой из них охотнее сочетается с наречием быстро)? Наконец, в какой последовательности они появляются в современном языке — одновременно или по очереди? Различается ли частота их употребления в разные периоды?

Совершенно ясно, что число таких примеров можно многократно увеличить, а задачи — усложнить. Но этот пример показывает, насколько Корпус технически сокращает и революционизирует работу с материалом даже и в этих случаях, позволяя простым нажатием кнопки получить данные, на сбор которых в иной ситуации потребовались бы месяцы.

Языковое сознание иностранца — не русское. И он в высшей степени нуждается в инструменте, открывающем ему максимально широкий (и максимально комфортный) доступ в мир русского языка. Ничего лучше Корпуса современная наука в этом случае предложить не может. Именно в Корпусе преподаватель и студент могут найти ответы на многие интересующие их вопросы — причем такие ответы, которые даже носитель не сразу догадается предложить. Поэтому не случайна высокая популярность корпусов в иноязычной среде. И именно от зарубежных русистов (в особенности преподавателей русского языка) создатели корпусов получали самые заинтересованные отклики.

В качестве небольшого отступления следует отметить, что первые электронные корпуса русского языка, доступные для всеобщего пользования, начали появляться не в России, а в Европе, и создателями их были европейские русисты. Специалисты хорошо знают так называемый Упсальский корпус русского языка. Этот корпус был создан в Швеции, а в настоящее время хранится на сервере Тюбингенского университета в Германии, и в свое время немало пригодился специалистам. Интересные разработки по русской корпусной лингвистике ведутся в Финляндии — эта страна является одним из лидеров корпусной лингвистики в мире, в том числе и в области русской корпусной лингвистики. Весь этот опыт наши разработчики старались учесть — наряду с отечественным опытом последних десятилетий.

Еще одна группа людей, для которых Корпус может представлять бесспорный интерес, — люди пишущие или в своей повседневной деятельности связанные со словом. Например, редакторы газет и журналов. Редакторам в своей практической деятельности гораздо чаще, чем академическим исследователям, приходится решать вопросы узуса: допустимо ли такое слово или конструкция? Кто, где, когда употребил впервые такой оборот? Для каких типов текста он наиболее характерен? Трудно представить себе, где можно быстро найти ответы на такие вопросы, кроме Корпуса. Корпусом можно пользоваться и для проверки каких-то сведений, т. е. как справочником, но в этом отношении необходимо соблюдать известную осторожность, помня, что не всё действительное может быть разумно (по крайней мере, если речь идет о тексте, предназначенном для публикации в газете или журнале).

Глава 2. Программные средства.

Программные средства

Программа метатекстовой разметки для НКРЯ подготовлена С. А. Шаровым; упрощенная метатекстовая разметка проводилась при помощи программного обеспечения, созданного А. Е. Поляковым.

При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений использовались программы морфологического анализа Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов анализа в этих программах занимались Л. Л. Иомдин и В. З. Санников (Mystem), Н. Н. Леонтьева (Dialing).

Программы Mystem и Dialing распространяются свободно и доступны для некоммерческого использования согласно соответстветствующим лицензионным соглашениям. Для их получения можно обратиться на сайты авторов — Яндекса и АОТ.

В создании и усовершенствовании программного обеспечения Национального корпуса принимали участие также А. А. Аброскин, Н. В. Григорьев, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов.

О программе Mystem

AOT – Автоматическая обработка текста

Начиная с 2002 года, группа АОТ выкладывает свои разработки с лицензией LGPL. Теперь каждый может бесплатно использовать эти библиотеки в своих программах, в том числе и в коммерческих приложениях.

Заключение.

В заключение следует сказать, что Корпус дает огромные возможности для изучения русского языка и понимания закономерностей его развития. В своей преподавательской деятельности нами уже широко использовались материалы Корпуса, а в будущем планируется создать методическое пособие для студентов-иностранцев и преподавателей русского языка как иностранного на основе материалов НКРЯ и корпусов других языков (в частности, английского, немецкого, польского, китайского, персидского).

Усложнение информационной структуры общества приводит к расширению новой виртуальной коммуникационной среды. С рас­пространением доступа к глобальной сети Интернет в создание информационных баз данных на основе обмена информацией во­влекается все большее число людей. Возникает необходимость создания программной поддержки для интеграции в мировое со­общество, в том числе и представителей различных этносов, наи­более актуальным в данном вопросе является внедрение нацио­нальных языков в компьютерные технологии.

Новые информационные технологии уже в 70-80 годах двадца­того века стали использоваться для реализации концепции машин­ного фонда национальных языков в различных странах. Фактиче­ски машинный фонд (корпус) представляет собой сложную иерар­хическую, разветвленную автоматизированную систему, способ­ную решать как информационно-поисковые, так и исследователь­ские лингвистические задачи. Однако, первоначально основными составляющими машинного фонда являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий, предназначенный для ведения коллекции.

В машинных фондах различных языков хранится информация о многих возможных зафиксированных единицах языка, начиная с древних текстов и до современных, включая научные и вообще все возможные типы текстов. Фонды должны охватывать десятки мил­лионов словоупотреблений. Накопленную таким образом инфор­мацию можно будет использовать для самых разнообразных целей.

К настоящему времени созданы языковые корпуса, включаю­щие разнообразные языковые базы данных. Корпусная лингвисти­ка - новое направление лингвистической науки, возникшее благо­даря развитию компьютерных технологий и исследующее пробле­мы создания компьютерных баз данных. В России основные ис­следования в этой области еще впереди. За рубежом - в Велико­британии, США, Германии, скандинавских странах исследования по теории корпусной лингвистики ведутся с 60-х годов прошлого столетия. Корпус текстов представляет множество упорядоченных между собой текстов естественного языка, обеспечивающих мате­риал для лингвистических исследований разного рода языковых аспектов и явлений, хранящихся на электронном носителе. Таким образом, корпус является полнотекстовой базой данных, форми­рующей один из модулей (составляющие модули: словарный, до­кументально-фактографический и объектно-характеристический) базы лексикографических данных словаря. Корпусная лингвистика имеет неоценимое значение для развития лингвистической науки. В настоящее время подлинно научные описания грамматического строя языков, а также авторитетные академические словари со­ставляются на основе корпусов этих языков. Таким образом, раз­вивается новое направление в лексикографии - корпусная лекси­кография.

Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко- культурных и политических мероприятий современности. На эти цели во многих зарубежных государствах тратятся огромные сред­ства. И в России в полной мере встает проблема создания этого языкового инструмента, представляющего государственный язык во всем его богатстве, многообразии стилей, жанров, только ему присущих особенностей, причем в удобной для использования со­временной форме.

Основные вехи создания компьютерных корпусов:

1960-е г.г.: Брауновский корпус, (США), 1 млн. слов; 1970-е г.г.: Ланкастерско-Осло-Бергенский (LOB) корпус (Великобрита­ния, Норвегия), 1 млн. слов; 1980-е г.г.: Машинный Фонд русского языка, Уппсальский корпус русского языка (Швеция), 1 млн. слов,TheBankofEnglish,Birmingham, 20 млн. слов; 1990-е г.г.:BritishNationalCorpus, 100 млн. слов, национальные корпуса (венгерский, итальянский, хорватский, чешский, японский) объемом 100 млн. слов,TheBankofEnglish,Birmingham, 600 млн. слов; 2000-е г.г.:AmericanNationalCorpus, 100 млн. слов,Gigawordcorpora: англий­ский, арабский, китайский языки, 1 млрд. слов.

В Машинном фонде русского языка хранится богатейший ма­териал по русскому языку в виде текстовых и звуковых файлов. Он начал создаваться в Институте русского языка Российской Акаде­мии Наук по инициативе А.П. Ершова в 1985 г. Важным результа­том работы отдела Машинного фонда явилось развитие приклад­ных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, провод­ником результатов фундаментальных исследований в практику, а с другой - источником новых идей и данных для фундаментальной науки. В Машинном фонде русского языка разработаны программ­ные средства первичной обработки источников: программы созда­ния и использования автоматических конкордансов, программы ведения лексикографических баз данных и автоматизации словар­ных работ и др.

Информационные технологии Машинного фонда русского языка - это методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественно­языковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, раз­личные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов и др.

Также достаточно активно происходит в настоящее время ста­новление и развитие татарского этнического сектора сети Интер­нет, немалое значение для этого процесса имеют научно- практические исследования в области национальной локализации компьютерных технологий, проводимые по программам Академии наук Татарстана. Одно из направлений, способствующих включе­нию татарского языка в новое информационное пространство - привлечение возможностей вычислительной техники для создания и изучения языковых моделей - позволяет разрабатывать машин­ный фонд татарского языка как информационно-справочную базу для разработки и эксплуатации обучающих программ, создания словарей и программ, ориентированных на обработку татарских текстов.

В настоящее время ведется работа по созданию и развитию машинных фондов языков многих народов России, что потребует у ученых-лингвистов больших затрат времени, сил и средств.

Библиографический список

Баранов, А Н.Введение в прикладную лингвистику: учебник / А. Н. Ба­ранов; МГУ им. М.В. Ломоносова, Филол. фак. Изд. 3-е. Москва: Изд-во ЛКИ, 2007. 358 с. (Новый лингвистический учебник).

Герд, А.С.Прикладная лингвистика / А.С. Герд; С.-Петерб. гос. ун-т. - Санкт-Петербург: Изд-во С - Петербургского университета, 2005. 268 с.

Гринев-Гриневич, С. В.Терминоведение: учеб. пос. для студентов выс­ших учебных заведений / С.В. Гринев-Гриневич. Москва: Академия, 2008. - 303 с. - (Высшее профессиональное образование. Филология).

Зубов, А.В.Информационные технологии в лингвистике: учеб. пос. для студентов вузов, обучающихся по спец. 021800 Теорет. и прикл. лингвистика / А.В. Зубов, И.И. Зубова. М.:Academia, 2004. 208 с. (Высшее профессиональное образование. Языкознание).

Лейчнк, В.М.Терминоведение: предмет, метод, структура / В. М. Лейчик. Изд. 4-е. М.:URSS, 2009. 255 с.

Машинный фонд русского языка — проект создания большого представительного корпуса русского языка в СССР в 1980-е годы.

Содержание

История

Проект создания Машинного фонда русского языка был поддержан Президиумом АН и ГКНТ СССР. В соответствии с заданием 06.01 Создать Машинный фонд русского языка (1-я очередь) Научно-технической программы 0.80.18 на 1986—1990 гг., утвержденной Постановлением ГКНТ и АН СССР № 573/137 от 10.11.85 г, в 1986—1990 гг. в создании Машинного фонда русского языка принимали участие более 40 организаций-соисполнителей, среди них Московский, Санкт-Петербургский, Харьковский, Гродненский, Сыктывкарский и Саратовский университеты, выполнявшие прямые заказы Института русского языка.

Под комплексной информатизацией научных исследований и прикладных разработок в русистике понималось:

  • Последовательное оснащение отделов Института русского языка и организаций-соисполнителей современными вычислительными машинами с перспективой объединения их в вычислительную сеть;
  • Последовательное накопление на машинных носителях и в базах данных главнейших источников, необходимых как для научного изучения русского языка, так и для осуществления прикладных разработок;
  • Создание программных средств, необходимых как для подготовки научных трудов по филологии, так и для проведения прикладных разработок;
  • Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой — источником новых идей и данных для фундаментальной науки.

В 1985—1992 гг. отделом Машинного фонда русского языка (частично с участием соисполнителей) были осуществлены:

После 1991 г., когда нарушилась старая система финансирования и координации научно-исследовательских работ и до 1996 г., деятельность Отдела Машинного фонда русского языка приобрела несколько хаотический характер. Этому способствовала также необходимость постоянного совершенствования технической базы в связи с резким ускорением научно-технического прогресса. Тем не менее можно выделить главные направления деятельности отдела того времени:

  1. Создание и совершенствование сервера Института русского языка и Машинного фонда русского языка в Интернет; (в 1995—1998 гг. этот сервер успешно функционировал, но позднее от этого решения пришлось отказаться в пользу размещения сайтов у независимых провайдеров);
  2. Полномасштабные испытания систем обработки лингвистических данных UNILEX путем участия в подготовке Орфографического словаря и Словаря поэзии ХХ в.;
  3. Ускоренное накопление новых источников на основе электронных изданий газет и сканирования произведений русского классической литературы. Полный архив источников Машинного фонда русского языка сейчас составляет более 100 млн словоупотреблений;
  4. Участие под руководством Ю. Н. Караулова в работе над словарем языка Ф. М. Достоевского.

После 1992 г., когда началась поддержка научных исследований различными фондами — фондом Сороса, Российским гуманитарным научным фондом и Российским фондом фундаментальных исследований, — развитие Машинного фонда русского языка приобрело более упорядоченное очертание. Выделились четыре направления:

Более отдаленные перспективы развития Машинного фонда русского языка мы связывали с полным осуществлением концепции, выработанной 1-ой Всесоюзной конференцией по созданию Машинного фонда русского языка 1983 г. В основе этой концепции лежали две главные задачи:

  1. Создание компонентов лингвистического обеспечения задач информатики и
  2. Информатизация научных исследований в русистике.

Уже тогда было понятно, что эти задачи взаимосвязаны: создание компонентов лингвистического обеспечения задач информатики силами профессиональных лингвистов возможно только при условии информатизации русистики. В то же время информатизация русистики требует использования всех достижений прикладной (вычислительной) лингвистики. Но использование достижений прикладной лингвистики в русистике может быть осуществлено только на достаточно богатой источниковой базе и должно быть нацелено на выдачу результатов в полиграфической форме. В соответствии с этим логика развития Машинного фонда русского языка должна быть выстроена так, чтобы создавались прежде всего базовые компоненты (источники на машинных носителях и в базах данных, лингвистические программно-источниковые пакеты, компьютерные технологии подготовки научных трудов). Эти направления никогда не исчерпают себя, так как источниковая база русистики бесконечна, а программные средства и технологии требуют постоянного совершенствования и обновления. Вместе с тем необходимо расширять поле разработок, сейчас — в направлении реализации методов дистрибутивно-статистического анализа и накопления лингвистических ресурсов в Интернет.

Функциональная грамматика — направление лингвистики, в основе которого лежит изучение универсальных категорий языка. Это грамматика, нацеленная на изучение и описание функций единиц строя языка и закономерностей функционирования этих единиц во взаимодействии с разноуровневыми элементами окружающей среды. Грамматика данного типа рассматривает в единой системе средства, относящиеся к разным ярусам языка, но объединённые на основе общности их семантических функций. При анализе языкового материала используется.

Теоретическая лингвистика представляет собой раздел общей лингвистики, занимающийся в основном проблемами лингвистических моделей, поиском языковых универсалий (характеристик или особенностей, в той или иной мере распространяющихся на большие группы языков или на все языки).

Контрасти́вная лингви́стика (конфронтати́вная, сопостави́тельная лингвистика) — направление в общем языкознании, задачей которого является сопоставительное изучение нескольких (обычно двух) языков для выявления их сходств и различий на всех языковых уровнях.

История науки и техники — научная специальность, предусмотренная классификацией ВАК РФ (код 07.00.10). По этой специальности присуждаются степени кандидата исторических, физико-математических, химических, биологических, геолого-минералогических, технических, сельскохозяйственных, географических, медицинских и ветеринарных наук, а также по архитектуре. Большая часть диссертационных советов по этой специальности сосредоточена в Институте истории естествознания и техники им. С. И. Вавилова РАН в Москве.

Морфе́мика — морфемный строй языка (совокупность и типы вычленяемых в словах морфем), а также раздел языкознания, изучающий морфологические модели языка: типы и структуру морфем, их формальные разновидности (морфы) и закономерности расположения морфем в более протяжённых языковых единицах (основах, словоформах). Поскольку аффиксы — грамматические морфемы — относятся к сфере грамматики, морфемика может рассматриваться как часть грамматики, охватывающая аспекты морфологии и словообразования, описывающие.

Акмеоло́гия (от др.-греч. ακμή, akme — вершина, др.-греч. λόγος, logos — учение) — раздел психологии развития, исследующий закономерности и механизмы, обеспечивающие возможность достижения высшей ступени (акме) индивидуального развития. В более широком понимании является междисциплинарной научной отраслью.Статус акмеологии спорен. Артемий Магун, рассматривающий состояние российских университетов, указывает на возникновение в них новых таких, по его мнению, экзотических, причудливых и «эндемичных.

Диалектологический атлас (лингвистический атлас) — систематизированное собрание диалектологических карт, показывающих распространение диалектов данного языка на территории, занятой его носителями. Материалы для диалектологического атласа собираются по специальной программе, которая охватывает все стороны языка (фонетику, морфологию, синтаксис, лексику). Вся совокупность карт диалектологического атласа дает системное представление о диалектном варьировании языка применительно ко всем сторонам его.

Моско́вская лингвисти́ческая шко́ла (Московская фортунатовская школа) — направление в языкознании, сформировавшееся под воздействием научных трудов и преподавательской деятельности академика Филиппа Фортунатова в Московском университете в 1876—1902 годах.

Институ́т мирово́й культу́ры МГУ — научно-исследовательский институт при Московском государственном университете имени М. В. Ломоносова. Институт был организован в 1992 году на основе Отделения истории и теории мировой культуры философского факультета МГУ.

Типология — классификация по существенным признакам. Основывается на понятии типа как единицы расчленения изучаемой реальности, конкретной идеальной модели исторически развивающихся объектов. Разделы наук, занимающиеся выявлением типов, близких по набору своих внутренних характеристик явлений или объектов.

Лингвистическая задача — задача, моделирующая деятельность лингвиста, для решения которой не требуется владение языком задачи (все материалы, существенные для решения, есть в условии). Бывает разных видов и типов. Довольно часто это задачи на перевод текста с/на незнакомый решателю язык и установление соответствий между словами.

Петербу́ргская шко́ла функциона́льной грамма́тики (ПШФГ) — направление функциональной грамматики, ориентированное на описание системы семантических категорий в их языковом выражении, центром разработки которого с начала 1990-х годов является Отдел теории грамматики Института лингвистических исследований РАН.

Интеллектуа́льная систе́ма (ИС, англ. intelligent system) — это техническая или программная система, способная решать задачи, традиционно считающиеся творческими, принадлежащие конкретной предметной области, знания о которой хранятся в памяти такой системы. Структура интеллектуальной системы включает три основных блока — базу знаний, механизм вывода решений и интеллектуальный интерфейс.

Институ́т украи́нского нау́чного языка́ — научно-исследовательское учреждение Всеукраинской академии наук (ВУАН).

Теоретическая география — область высоко формализованных исследований пространственной организации географических явлений, делающих упор на выявление фундаментальных законов или закономерностей. Теоретическая география работает с идеальными объектами — моделями реально существующих процессов и явлений (идеальный материк, идеальная система расселения, идеальный тип культурного ландшафта), наделяемых заданными свойствами. В теоретической географии любое отношение объектов редуцируется к пространственному.

Прикладная социология — область социологических наук, направленная на использование полученных социологических законов и знаний для решения жизненно важных задач общества, таких как.

Орфографи́ческий слова́рь — словарь, содержащий перечень слов в их нормативном написании. Отличается от толкового словаря по способу описания слова, поскольку раскрывает слово лишь в аспекте его правописания. Является показателем современной ему орфографии.

Истори́ческая информа́тика — междисциплинарная область исторических исследований, целью которой является расширение информационного, методического и технологического обеспечения исторической науки, а также апробация новых информационных технологий и методов в конкретно-исторических исследованиях. В основе исторической информатики лежит совокупность теоретических и прикладных знаний, необходимых для создания, обработки и анализа оцифрованных исторических источников всех видов,.

Лексическая семантика является частью семантики, которая занимается значениями (подразделяя их на денотат и коннотат) отдельных лексических элементов слов, морфем и лексем, отличаясь, таким образом, от семантики предложений.

Курсовая работа — задание, которое выполняется студентами высших и средне-специальных учебных заведений, обычно на втором—третьем курсах(иногда и на первом курсе) в виде рефератов, на старших — в виде исследовательской работы. Часто курсовые работы выполняют по предметам, которые являются основными по специальности.

Центр португальско-бразильских исследований (порт. Centro de estudos luso-brasileiros, англ. Center for Portuguese and Brazilian Studies) — один из международных культурных центров, действующих в Санкт-Петербургском государственном университете.

Библиотечное дело — отрасль информационной, культурной, образовательной деятельности общества, включающая создание и развитие сети библиотек, формирование и обработку библиотечных фондов, организацию библиотечного, информационного и справочно-библиографического обслуживания пользователей библиотек, подготовку библиотечных кадров, научное и методическое обеспечение развития библиотек.

Вопросы новой экономики — специализированный научно-методический журнал по современным экономическим и социально-экономическим вопросам, объединенным общей темой неоэкономики; издание Вятского социально-экономического института.

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной.

Трансформа́ция — понятие языкознания, восходящее к З. Харрису и первоначально обозначавшее то или иное правило, по которому из так называемых ядерных предложений языка (таковыми считались простые утвердительные предложения с глаголом в изъявительном наклонении активного залога настоящего времени без модальных слов и осложняющих элементов) получаются производные:102. Так предполагалось объяснять явления парадигматики в синтаксисе — случаи, когда определённое изменение значения ядерного предложения.

Формальная семантика — дисциплина, изучающая семантику (интерпретации) формальных и естественных языков путём их формального описания в математических терминах.

Региональная политика — это составная часть государственного регулирования; комплекс законодательных, административных и экономических мероприятий, способствующих наиболее рациональному размещению производительных сил и выравниванию уровня жизни населения.

Автореферат диссертации (от др.-греч. αὐτός — сам и лат. refero — докладываю, сообщаю) — краткое изложение основных результатов диссертационной работы на соискание учёной степени доктора или кандидата наук, составленное самим автором диссертации.

Общее землеведение (от рус. Земля и ведать) — основа географического образования, его фундамент в системе физико-географических наук. Первая учебная дисциплина (Введение в физическую географию, общая физическая география), изучаемая на географических специальностях вузов. Основной задачей учебного курса (предметом изучения) является изучение географической оболочки, законов и закономерностей в природе с целью оптимизации окружающей среды.

Общее языкознание (общая лингвистика) – раздел языкознания, занимающийся свойствами, которыми обладают все языки, чем отличается от частного языкознания, которое занимается отдельными языками.

Лингводидактика — прикладная лингвистическая дисциплина, рассматривающая как обучение иностранному языку, так и усвоение иностранного языка. Лингводидактика исследует общие закономерности обучения языкам, разрабатывает методы и средства обучения определённому языку в зависимости от дидактических целей, изучает влияние монолингвизма (одноязычия) или билингвизма (двуязычия) на усвоение языка и решает целый ряд смежных задач.

Криминологи́ческое прогнози́рование — это предсказание будущего состояния преступности и связанных с ней явлений и факторов (криминологической обстановки), а также выявление основных тенденций их развития.

Хороло́гия (хорологическая концепция) — научное направление в географии, основной идеей которого является рассмотрение объекта географии как пространства, заполняемого предметами и явлениями, локальные связи между которыми носят причинно-следственный характер.

Библиографическая база данных, также Система управления библиографической информацией — электронная система, в которой размещают, хранят, обменивают данные и информацию, а также позволяют исследователям, ученым и писателям создавать и повторно использовать библиографические ссылки. Библиографические базы данных заменили традиционные печатные каталоги и являются общими или специальными, которые пытаются собрать данные по всем статьям по выбранной дисциплине или группе дисциплин.

Макет аннотированной каталожной карточки — один из основных элементов выходных сведений печатного издания, до внедрения электронных каталогов.

Дискурси́вный ана́лиз — изучение языка, используемого членами некоторого языкового сообщества. В ходе такого анализа рассматривается как форма языка, так и его функция. В качестве исходного материала берутся разговорная речь и письменные тексты. Идентифицируются лингвистические особенности понимания различных текстов и типов устной речи.

Форма́льные нау́ки — совокупность наук, занимающихся исследованием формальных систем. К формальным наукам относятся: математика, логика, кибернетика, теоретическая информатика, теория информации, теория систем, теория принятия решений, статистика, некоторые аспекты лингвистики.

Мировая худо́жественная культу́ра (МХК) — в российском образовании учебный предмет в школе и высшей школе, изучающий основы художественной культуры.

Компью́терная лексикогра́фия — прикладная научная дисциплина в языкознании, которая изучает методы использования компьютерной техники для составления словарей. Это временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям.

Соискатель — лицо, имеющее высшее образование, прикрепленное к организации или учреждению, которые имеют аспирантуру (адъюнктуру) и (или) докторантуру, и подготавливающее диссертацию на соискание учёной степени кандидата наук без обучения в аспирантуре (адъюнктуре), либо лицо, имеющее учёную степень кандидата наук и подготавливающее диссертацию на соискание учёной степени доктора наук.

Техни́ческая киберне́тика — отрасль науки, изучающая технические системы управления. Важнейшие направления исследований — разработка и создание автоматических и автоматизированных систем управления, а также автоматических устройств и комплексов для передачи, переработки и хранения информации. Одно из важнейших её направлений — разработка и создание различных автоматических устройств: технологических (например, станков-автоматов, автоматических регуляторов и др.), измерительных (автоматических датчиков.

Вычисли́тельная меха́ника — раздел механики сплошных сред, в котором строятся конечномерные модели сплошных сред, используется компьютерное моделирование и численные методы для решения задач механики деформируемого твёрдого тела и механики жидкостей.

Читайте также: