Сообщение должно быть ярко эмоционально окрашено

Обновлено: 07.07.2024

Как и преподаватели любого неродного языка, преподаватели русского языка как иностранного языка стоят перед непростой задачей - научить своих студентов разговаривать на изучаемом языке, как на родном. Однако родной язык люди начинают познавать с детства, как в виде отдельных символов или образов, так и готовых конструкций, в школе лишь закрепляя и проверяя полученные знания в процессе освоения грамматики.

Совсем по-другому обстоят дела с освоением иностранного языка. Л.С. Выготский писал, что человек в процессе освоения родного языка развивает речевые навыки, начиная со свободного спонтанного пользования речью, а заканчивая осознанием речевых форм и овладением ими. В противоположность этому процессу развитие иностранного языка начинается с осознания языка и произвольного его овладения и заканчивается свободной спонтанной речью. Оба пути оказываются противоположно направленными. [3, c. 292]

В отличие от письменной речи, в которой человек может дать себе возможность подумать, осмыслить сказанное, спонтанность речи можно проверить именно в устной речи, а именно в монологическом высказывании, так как говорящему необходимо высказать свою точку зрения без чьей-либо помощи. В то же время любое монологическое высказывание диалогично по своей природе, всегда кому-то адресовано, даже если этот адресат – сам говорящий.

Актуальность данного исследования определяется возросшей за последние два десятилетия потребности в переосмыслении изучения русского языка, в изменении имиджевой составляющей языка как иностранного. Бостонский сайт World Languages & Literatures сообщает о том, что книги Достоевского, Толстого, Чехова, Белого, Булгакова, Пастернака и др. лучше читать в оригинале, для чего и можно и нужно изучать русский язык. И если иностранный студент пришёл изучать язык после того, как заинтересовался прозой известного русского писателя, имеет смысл отрабатывать речевые умения с привлечением отрывков из полюбившихся произведений.

В качестве примеров мы взяли произведения Фёдора Михайловича Достоевского, стоящего на первом месте во многих зарубежных списках наиболее популярных русских авторов. Именно в его произведениях можно увидеть ярко выраженные эмоционально окрашенные высказывания, которые дают иностранным студентам возможность увидеть разнообразие способов выражения эмоций и мыслей.

В этой связи мы начнем с определения монологического высказывания ­­— такого отрезка речи, который находится между двумя соседними высказываниями и обладает определенными параметрами. Это означает, что монологическое высказывание рассматривается как компонент процесса любого уровня парного, группового, массового и что любое монологическое высказывание диалогично по своей природе, всегда кому-то адресовано, даже если этот адресат — сам говорящий [11].

Монологическое высказывание может быть разного уровня:

1. Слово (словоформа)

4. Сверхфразовое единство

На любом из уровней монологическое высказывание выступает в процессе общения в качестве речевой единицы, будь то реплика, вопрос, утверждение, вопрос, убеждение или доклад, рассказ.

Монологическое высказывание может иметь следующие коммуникативные функции:

• воздейственная — убеждение кого-либо в правильности тех или иных мыслей, взглядов, убеждений, действий; побуждение к действию или предотвращение действия

Таким образом, в функциональной составляющей монологического высказывания прослеживаются не только цели высказывания, но и уровень владения языком. И чтобы монологическое высказывание было эффективным, говорящий должен быть вовлечён в то, что он описывает в текущий момент времени.

В современной науке о языке эмоции изучают через эмотивность как когнитивную категорию, поскольку она мотивирует всю номинативную деятельность человека и является внутренней формой языка [3]

Эмотиологическая школа В.И Шаховского предлагает понимать под категориальным понятием эмоций:

• эмоциональные отношения, состояния, реакции

• эмоциональность, категоризация эмоций

• содержание индуктивно-прагматического (эмпирического) понятия

• выражение, называние, описание эмоций. [14, с. 26]. эмоциональное мышление, сознание, содержание индуктивно-прагматического (эмпирического) понятия; выражение, называние, описание эмоций. [14, с. 26]. По сути, эмоция является психологической категорией, а эмотивность — языковой [14, с. 26].

По сути, эмоция является психологической категорией, а эмотивность – языковой [14, с. 26]. Чтобы высказывание было эмоционально окрашенным, для раскрытия его эмоциональной составляющей, предложение должно обладать особой эмоциональной окраской, то есть передавать чувства радости, удивления, восхищения, недоумения, презрения, гнева и так далее. Все эти и другие значения выражаются особой интонацией (выделяющей слова, непосредственно выражающие эмоцию), междометиями, восклицательными частицами междометного характера [13].

В художественном тексте эмоции наблюдаются через специфические знаки, эмотивные шифтеры, которые материальны, наблюдаемы и служат для выражения эмоций [14, с. 190]

Рассмотрим эмотивные шифтеры, исходя из понимания эмотивности в ее ингерентной и адгерентной разновидностях, что означает следующее:

Ингерентный тип категоризации эмотивности предполагает отражение эмоционального состояния человека в лексико-семантической системе языка, что фиксируется в словарных толкованиях [11, с. 25].

Эмотивная лексика делится на аффективы, коннотативы и эмотивы-номинативы.

• Аффективы (лат. aflectus — душевное волнение, страсть) — языковые единицы, основное значение которых является всегда эмотивным и одновременно зафиксированным в словаре – междометия, инвективы, бранные слова, эмоционально-оценочные прилагательные. Рассмотрим пример:

Терпеть не могу эту харю нюрнбергскую! — Тот откланялся и вышел, конечно, не поняв комплимента бабушки [4, с.98].

В словаре Ефремовой дается значение слова харя как бранное слово, которым обзывают неприятного человека. Харя является эмотивным аффективом [7].

— Ба! вот как вы следите за старыми друзьями! — ответил я [4, с. 135].

Ба – это междометие, выражает удивления при узнавании кого-либо, воспоминании о чем-либо, при внезапно пришедшей мысли как действие [7].

• Коннотативы — языковые единицы, обладающие дополнительной эмоциональной, оценочной или стилистической окраской узуального или окказионального характера. Это тропы, фразеологизмы, формообразующие и словообразовательные аффиксы, усилительные наречия.

Приезжаю лет семь назад в один городишко, были там делишки, а я кой с какими купчишками завязал было компаньишку [6, с.55].

Суффикс –ишк — это формообразующий аффикс, образующий имена существительные трех родов со значением пренебрежительности, уничижительности [7]. Из предложения видно, что Фёдор Павлович Карамазов хочет показать одновременно несущественность предприятия и неуважение к слушателям, снижая уровень важности высказывания.

-Эмотивы-номинативы называют чувства и эмоции.

Я нарочно удвоила мое к нему презрение, — начала она опять, — я ждала, что от него будет? Если б пришла телеграмма о наследстве, я бы швырнула ему долг этого идиота (отчима) и прогнала его! Он мне был давно, давно ненавистен. О, это был не тот человек прежде, тысячу раз не тот, а теперь, а теперь. О, с каким бы счастием я бросила ему теперь, в его подлое лицо, эти пятьдесят тысяч и плюнула бы. и растерла бы плевок! [4, с. 107]

В данном отрывке используется сразу два эмотива-номинатива: презрение и счастье:

Так, в словаре слово презрение означает чувство полного пренебрежения, крайнего неуважения к кому-либо, чему-либо, а счастье — состояние абсолютной удовлетворенности жизнью, чувство наивысшего удовольствия, радости [7].

Адгерентная разновидность реализации эмоций – это все остальные проявления эмотивности: употребление слова в особых эмотивных контекстах и в эмоциональных ситуациях, специфическая синтаксическая сочетаемость эмотивов. Типичные для эмотивного текста конструкции становятся знаками аффективности [11, с. 42].

К экспрессивным конструкциям можно отнести:

• сегментированные и парцеллированные построения [2].

— Полина! Дай мне только один час! Подожди здесь только час и. я вернусь! Это. это необходимо! Увидишь! Будь здесь, будь здесь! [4, с. 108]

В данном примере используются парцеллированные конструкции. Таким образом, одно предложение делится на несколько, и тем более эмоциональная составляющая подчеркивается восклицательными знаками в конце предложений.

• конструкции с особыми формами сказуемых, например:

Ехать так ехать; Ждал-ждал и дождался; Ну и умен же!

Эти конструкции усиливают личностное начало в речи, повышают ее диалогичность, снимают безликость и безадресность речи.

Зная, как эмоции реализуются в тексте, с привлечением отрывков из произведений неадаптированной художественной литературы можно легко развивать умения, необходимые для говорения.

Умение – разноплановое понятие, которое состоит из множества параметров, и выделение стадий его развития по какому-либо одному параметру может оказаться слишком узким. Преподавателю русского языка как иностранного необходимо учитывать параметры, указанные ниже:

1. Уровень автоматизированности, который проявляется в речи студентов в автоматической пробежке, а именно отрезке речи, произносимом без вынужденных пауз.

2. Уровень самостоятельности говорящего, который определяется наличием либо отсутствием опор, с помощью которых студент строит свою речь. Также стоит учитывать наличие или отсутствие речевых задач, стоящих перед учащимся.

3. Уровень сложности решения задачи, которую решает говорящий. Сложность в данном случае зависит от персонального опыта, знания говорящего.

4. Уровень сочетаемости материала, определяемый широтой охвата проблем и предметов обсуждения [1].

• В зависимости от вида умения нужно подбирать различные упражнения. Также надо учитывать, что речевая единица любого уровня, а именно слово, словосочетание, фраза, сверхфразовое единство, — обладает определенными трудностями овладения:

• Уровень слов и словосочетаний – морфологические трудности, достаточно бедный вокабуляр

• Уровень фраз — синтаксические трудности: неверное построение предложений, неуверенность в построении ответа, речь обычно характеризуется однообразием синтаксических конструкций.

• Уровень сверхфразового единства и текста – логико-синтаксические трудности.

Определим умения, которые необходимы для построения правильного эмоционально окрашенного высказывания:

1. Технические умения, к которым относится артикуляция (правильное произношение звуков, интонация, ритмика), а также соотнесение значения слова с его артикуляционным оформлением. Способы, развивающие умения:

• Знание механизма получения нужного звука, интонации

• Подвижность артикуляционного аппарата (язык, губы)

• Знание ритма (память)

В качестве упражнения стоит дать студентам послушать текст, который им предстоит усвоить. Так в сознании учащегося создается необходимый звуковой образ. Именно звуковой образ, хранимый в нашей памяти, становится основой правильного произношения, тем эталоном, с которым мы сверяем услышанное и произносимое, замечая ошибку.

В зависимости от уровня владения языком можно давать разные по сложности и длительности тексты из произведений Ф.М. Достоевского.

2. Языковые умения – необходимо демонстрировать знание слов, грамматических форм.

Преподаватель перед занятием может составить на основе оригинальных текстов перечень эмотивных языковых единиц, который студентам будет необходимо проанализировать, отработать умение выявлять различные языковые единицы – междометия, инвективы, бранные слова, эмоционально-оценочные прилагательные, усилительные наречия, а также формообразующие и словообразовательные аффиксы,

3. Речевые умения – соотношение речевых моделей и ситуаций.

В качестве способа, развивающего умения, можно проигрывать ситуации с использованием различных моделей. Студенты на основе данного им текста пробуют составить монолог самостоятельно, сравнивают собственные монологи с монологами других студентов. В данном процессе общения будет важен не абсолютный темп, то есть не количество речевых единиц, произнесенных за определенное количество времени, а синтагматичность — расчлененность высказывания на синтагмы (речевые отрезки, имеющие свой смысл и логическое ударение).

4. Коммуникативные умения — соотношение отбора фраз с целью высказывания (от цели, от смысла к фразе).

Студентам можно предложить объяснить, чем вызвана та или иная последовательность событий, описанных в тексте, дать характеристику действующих лиц (места действия, эпохи), высказать свое собственное отношение к фактам, изложенным в тексте, и обосновать его. Преподаватель может предложить студентам передать содержание текста от разных лиц - героев текста, причем в этом случае каждый студент будет вести повествование с точки зрения персонажа, от лица которого он говорит, защищая или опровергая их позиции, мнения, действия. Наконец, преподаватель предлагает учащимся лишь тему для монологического высказывания, и студенты уже самостоятельно, опираясь на собственные знания, в том числе и на знание правил построения текста, конструируют самостоятельное монологическое высказывание.

Итак, благодаря подобранным упражнениям мотивация к изучению иностранного языка не будет теряться со временем благодаря интересу к великим произведениям русского классика, что позволит студентам-иностранцам непрерывно развивать речевые умения

Все слова в общепринятой лексике русского языка можно подразделить на 2 группы: эмоционально окрашенные слова и эмоционально нейтральные.

Своей речью человек может выразить личное отношение к людям, вещам или действиям с помощью этих групп слов.

Эмоционально нейтральные слова

Наиболее тематически стилистическим слоем лексики языка являются общеупотребительные (нейтральные) слова. Используются они свободно, без определенных ограничений. Их употребление возможно как в разговорной речи, так и в письменной.

Эмоционально нейтральные слова

Эмоционально нейтральные слова используются для четкого определения действительности, без какой-либо ее личностной оценки (положительной, отрицательной). К примеру: класс, доска, новый, сильный, стоять, мало, сын, семь.

Их характеризует устойчивость основных значений. Большая часть этих слов в современном языке обозначает сейчас то же самое, что и во времена древней письменности.

Состав этих слов постоянно пополняется новыми общеизвестными понятиями, многие из которых имеют зарубежное происхождение.

Эмоционально окрашенные слова

Наравне со стилистически нейтральными словами, в разговорной речи встречаются слова, которые отличаются своей эмоциональной окраской.

К примеру: сестренка, избушка, братик, зимушка, колечко, любушка, дворик. Это своеобразное выражение чувств как положительного, так и отрицательного характера.

Эмоционально окрашенные слова

К примеру: дом (нейтральная оценка) – домик (добрая оценка) – домишко (предвзятое отношение).

Слова, которые выражают отношение к чему-либо, называются эмоционально окрашенными. Ими люди как обозначают фактическую характеристику объектов, так и проявляют к ним свое личностное отношение:

бутуз — не обычный ребенок, а небольшой, упитанный малыш (шутливая форма);

лошаденка — не обычная лошадь, а бесполезная (с пренебрежением);

колымажка — не стандартная телега, а неудобная и массивная (с иронией и пре­небрежительностью);

лохмы — не обычные волосы, а неухоженные и не расчесанные (с презрением).

Используя суффиксы в тексте, можно добавить слову оценочную характеристику:

сынуля (ласково о сыне);

детина (негативное обращение к подростку).

Слова с эмоциональной оценкой

Чтобы выражать разные оттенки чувств, в русском языке распространено использование суффиксов для оценивания:

уменьшительно-ласкательные: -еньк-, -ущк-, -ишк-, -ек-, -ик- (доченька, домик, ножка, носик, зимушка, сыночек, котик);

осуждающие с оттенком пренебрежения: -ан-, -ян- (грубиян, мужлан);

увеличительные: -ищ- (ножища, ручища).

В грамматике эмоциональное отношение к чему-либо можно выражать, используя приставки эмоциональной оценки: превеликий, премудрый, премилый.

Существуют синонимы, отличающиеся друг от друга своей эмоциональной окраской:

глаза – нейтральное слово, просто данность;

очи – устаревшее, поэтическое;

гляделки – пренебрежительное, просторечное.

Значение слов в этом случае может быть специфическим.

Эмоционально окрашенная лексика

Экспрессивность может выступать отличительной чертой эмоционально окрашенных синонимов. Это выражается степенью выразительности обозначения.

Слова с эмоциональной окраской составляют большую часть нашего словарного оборота и являются незаменимой составляющей стихотворений.

Обозначение в словарях

Не только разговорная речь богата эмоциональными словами, в словарях их обозначают определенными отметками: просторечное, высокое, ирониче­ское, бранное, разговорное и пр.

Сегодня мы вновь говорим о стилистике русского языка, и темой нашей беседы станет эмоционально-экспрессивная окраска речи. Не секрет, что стиль художественных произведений сильно отличается от прочих языковых стилей (разговорного, публицистического, официально-делового). Отличия его лежат в плоскости не только диапазона используемых лексем, но и категорий количества/качества эмоционально окрашенных слов. По количеству таких слов художественная речь близка речи разговорной, но знак равенства между сними ставить ни в коем случае нельзя: то, что допустимо в устном общении, не всегда применимо на страницах книги. Скажем так, автору дозволено многое, но далеко не все.

Поэтому для того, чтобы овладеть грамотной и искусной художественной речью, автор должен разбираться во многих тонкостях, к числу которых, бесспорно, относится и употребление эмоционально-оценочной лексики. О ней сегодня и поговорим.

Экспрессия

Эмоционально-экспрессивная окраска речи.

По этой причине эмоциональную лексику часто называют оценочной или эмоционально-оценочной. Однако важно понимать, что сами по себе эмоциональные слова могут и не содержать оценки. Например, междометия ах, ох и прочие ничего не оценивают. И напротив – слова, где оценка является сутью их лексического значения, могут не относиться к эмоциональной лексике (хороший, дурной, радовать, ругать). Во втором случае оценка является не эмоциональной, а скорее интеллектуальной, логической.

Главной отличительной чертой эмоционально-оценочной лексики является все же факт наложения эмоциональной окраски на самостоятельное лексическое значение слова. Проще, такая лексика выражает отношение самого говорящего к называемому явлению.

Далее не лишним будет привести небольшую классификацию эмоциональной лексики:

  1. Однозначные слова с ярким оценочным значением. Заключенная в них оценка столь ярко и определенно выражена, что слово просто невозможно употребить в другом значении. К ним относятся так называемые слова-характеристики (хапуга, пустозвон, подкаблучник, разгильдяй и др.), а также слова, содержащие оценку действия, явления или признака (предначертание, надувательство, очаровательный, безответственный, допотопный, воодушевить, осрамить).
  2. Многозначные слова, обычно нейтральные в основном значении, но получившие яркую эмоциональную окраску при употреблении в качестве метафоры. Например, следующие контексты употребления глаголов: пилить мужа, проморгать автобус, напеть начальству и т.д. В этом случае слово, первоначально нейтральное, становится эмоционально-оценочным исключительно из-за соответствующего контекста.
  3. Слова с суффиксами субъективной оценки, передающие различные оттенки чувств. Они могут транслировать как положительную оценку – дружочек, травушка, аккуратненько, так и отрицательную – кулачище, детина, казенщина и т.п. Оценочный результат здесь обусловлен не столько первичным значением слова, а самим словообразованием: одному и тому же слову можно дать как позитивную, так и негативную оценку – стол, столик, столище.

Экспрессивность.

Часто в отношении эмоционально-оценочной лексики применяют понятие экспрессивная. Что же это значит?

Экспрессивность (от лат. еxpressio – выражение) – значит выразительность. На практике это чаще всего означает надстройку над номинальным значением слова особых стилистических оттенков, особой экспрессии. Например, вместо слова плохой можно употребить слова дурной, отрицательный, неверный. В таком случае обычное лексическое значение слова осложняется экспрессией. И как мы можем заметить, в художественной речи количество экспрессивных слов иногда превосходит долю слов нейтральных.

Следует помнить, что одно нейтральное слово может иметь сразу несколько экспрессивных синонимов, различных по степени эмоционального напряжения (несчастье – горе – бедствие – катастрофа). Бывает, что экспрессивная окраска уже изначально присуща некоторым словам: торжественным (незабвенный, глашатай, свершения), поэтическим (лазурный, воспевать, неумолчный), ироническим (благоверный, соблаговолить, донжуан), фамильярным (смазливый, мыкаться, шушукаться), неодобрительным (претенциозный, высокомерный), пренебрежительным (малевать, крохоборство), презрительным (наушничать, холуйство, подхалим), уничижительным (юбчонка, хлюпик, тарантас), вульгарным (хапуга, фартовый) и, конечно же, бранным (дурак, хам). Как видите, экспрессивно окрашенные слова можно условно разделить на слова, выражающие положительную оценку, и на слова с отрицательной оценкой. Подобное разделение просматривается и на примере синонимических рядов: бояться – трусить – опасаться; лицо – морда – лик и т.д.

Экспрессивная окраска постоянно наслаивается на эмоционально-оценочное значение слова, причем в одних случаях преобладает экспрессия, а в других – эмоциональная окраска. Поэтому на практике строго разграничить эмоциональную и экспрессивную лексику не представляется возможным.

На эмоционально-экспрессивную окраску слова, безусловно, влияет и его значение. Резко отрицательную оценку имеют такие слова, как фашизм, терроризм, коррупция, мафия. За словами законность, правопорядок, равенство закрепилась положительная окраска.

Известно, что метафоризация способствует развитию эмоционально-экспрессивных оттенков того или иного слова. В этом случае стилистически нейтральные слова, употребленные в качестве метафор, наделяются сильной экспрессией: гореть на работе, валиться от усталости, пылающий взор, летящая походка и т.д. Автор обязан помнить, что главным фактором определения экспрессивной окраски слова является контекст, в котором оно употреблено. Именно он привносит дополнительные оттенки чувств, а подчас способен полностью перевернуть его значение (например, торжественное сделать ироничным).

Главное для писателя.

Из всего вышеизложенного следует, что автор, работая над текстом, может изменять его эмоциональную окраску, воздействуя тем самым на эмоциональное состояние читателя. С этой целью он и использует эмоционально-оценочную лексику. Таким образом, если писатель хочет рассмешить или растрогать, вызвать воодушевление или, наоборот, сформировать отрицательно отношение к предмету, он волен в каждом случае выбирать отдельный набор языковых инструментов. При таком подходе можно заранее наметить несколько вариантов речи даже в рамках одного текста: например, риторически-торжественную, холодную официальную, интимно-ласковую, шутливую и т.д. В противовес им используется речь нейтральная, в основе которой лежат слова и выражения, лишенные сильной стилистической окраски.

Момент использования эмоционально-экспрессивной речи является одним из важнейших при формировании авторского стиля. Полагаю, что умение грамотно и своевременно пользоваться этими приемами во многом и отличает начинающих авторов, которые не чувствуют настроения и контекста, от профессионалов.

На этом все на сегодня. В этот раз мы разобрались с теоретической основой использования эмоционально окрашенной лексики, а вот практика применения – в одной из ближайших статей блога. Следите за обновлениями, оставляйте свои вопросы и комментарии. До скорых встреч!

2 комментария для “ Эмоционально-экспрессивная окраска слов ”

Максим, отлично понимаю то, о чем вы говорите. Смайлики — чрезвычайно удобный инструмент повседневного общения, но они снимают необходимость подбора нужных эмоционально окрашенных слов в письменной речи. А автор, как ни крути, должен уметь передавать эмоции при помощи слов.

Рассмотрим, как это работает – проанализируем ряд статей на основании датасета Linis Crowd. Предлагаем определить, какие модели наиболее перспективны, например, для разработки всевозможных сервисов мониторинга. В качестве предметной области выберем статьи технического характера (например, на Хабре), что может быть полезно для реализации автоматического сбора мнений.


Тональность – выявление в текстах эмоционально окрашенной лексики, а также эмоциональной оценки мнений, высказанных авторами.

Для одного из внутренних проектов исследовательского характера мы разобрали, с помощью каких инструментов можно решить задачу по сентимент-анализу. Делимся этапами анализа и полученными результатами, которые могут быть полезны для тех специалистов, которые сейчас находятся на первых этапах знакомства с этой областью знаний.

Что мы делали

Задача: определить тональность текстов технического характера на Хабре. Ожидаемый результат – оценка тональности с точностью около 70-80%, как правило, наблюдаемой при анализе естественного языка.

Для решения этой задачи зачастую используют следующие основные алгоритмы:

Статистический метод. Для его использования необходимы заранее размеченные по тональности коллекции (корпуса) текстов. Они служат для обучения модели, с помощью которой и происходит определение тональности текста или фразы.

Метод, основанный на словарях и правилах. Для этого нужно заранее составить словари позитивных и негативных слов и выражений. Этот метод может использовать как списки шаблонов, так и правила соединения тональной лексики внутри предложения, основанные на грамматическом и синтаксическом разборе.

-1 текст с отрицательной окраской

0 нейтральный;

1 положительный текст;

При этом для выполнения анализа нужно было решить 2 дополнительные задачи:

Подбор русскоязычного датасета с размеченной тональностью для обучения системы. В ходе исследования мы убедились, что таких датасетов не очень много, и после их оценки приняли решение использовать корпус Linis Crowd.

Создать алгоритм для автоматической подготовки датасета, чтобы дать на обучение модели сформулированные тексты в рамках заданной предметной области. Для этого был использован скрипт на python, который подбирает нужный текст из корпуса текстов по имеющимся ключевым словам на техническую тематику.

Что мы использовали

Поскольку в рамках исследовательской задачи у нас не было жестких требований к полученному веб-приложению, мы выбрали легковесный фреймворк Flask, который позволяет быстро разработать веб-приложение без лишнего функционала.

Библиотека nltk для исключения стоп-слов русского языка. На ее основе мы создали свой словарь с исключением слов, не влияющих на тональность.

Для векторизации текста и удобной работы с моделями машинного обучения мы использовали открытую библиотеку Fasttext. Она является модификацией привычного всем в мире эмбединга Word2Vec и хорошо подходит для морфологически богатых языков, в том числе русского языка, рассматриваемого в задаче. Полученные из векторов тексты мы отправляли в модель и после этого выполняли расчет тональности. Для этого мы выбираем первые 500 слов, которые прошли обработку с исключением.

Принцип работы Fasttext поясняют следующие примеры (источник):

Модели анализа

Для классификации текстов по тональности мы использовали следующие модели – наиболее простые и высокоскоростные, что было предпочтительно для нашего исследования.

1) Наивный байесовский классификатор

Основан на алгоритме с байесовского классификатора, где для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по которым, в свою очередь, определяют апостериорные вероятности классов. Объект относится к тому классу, для которого апостериорная вероятность максимальна. Для работы модели вводится допущение о независимых признаках.

Параметры, которые мы применили:

alpha = 0.3; fitprior = True; classprior = None

2) Случайный лес

Данный алгоритм является модификацией применения решающих деревьев, где для задач классификации решение выносится согласно выбору большинства деревьев.

Схема работы:

Выбирается подвыборка обучающего корпуса размера samplesize, при этом она может быть с возвращением. Далее строится дерево, и здесь для каждого дерева нужна своя подвыборка.

Для построения каждого расщепления в дереве просматриваем max_features случайных признаков (для каждого нового расщепления — свои случайные признаки).

Выбираем наилучшие признак и расщепление по нему (по заранее заданному критерию). Дерево строится, как правило, до исчерпания выборки (пока в листьях не останутся представители только одного класса). При этом в современных реализациях есть параметры, которые ограничивают высоту дерева, число объектов в листьях и число объектов в подвыборке, при котором проводится расщепление.

Подробнее с работой алгоритма можно познакомиться в источнике.

Параметры, которые мы применили:

nestimators = 200; maxdepth = 3; random_state = 0


3) Рекуррентная нейронная сеть

Вид нейронных сетей, где связи между элементами образуют направленную последовательность.

Архитектура сети включает слой Embedding, который преобразует данные в 64-мерный вектор, слой LSTM (128 узлов) и слой Dense (10 узлов).

Датасет

Для реализации обучения с учителем мы взяли открытый датасет Linis Crowd, который содержит 29 тысяч размеченных текстов наиболее крупный датасет для неформальных текстов на русском языке. Для обучения модели были использованы размеченные тексты с разделением на заданные по задачам исследования классы.

В нашем исследовании датасет был ограничен в рамках предметной области путем выборки текстов из корпуса по ключевым словам.

Время обработки

По результатом тестов выяснилось, что решение моделей по определению тональности слабо влияет на время выполнение запроса. Основную нагрузку вносит использование fasttext для эмбеддинга входящего текста, занимающее в районе 5 - 10 секунд с использованием вычислений на CPU. При работе с GPU показатели стали в диапазоне 0.7 – 1.

Показатели точности

Для тестирования мы разделили модели со следующим соотношением:

Обучающая выборка 60%.

Валидационная проверка 20%

Тестирование 20% с балансировкой датасета.

Как отмечено ранее, в начале исследования мы рассчитывали на оценку тональности с точностью на уровне 70-80%.

Выводы

По итогам исследования мы получили следующие оценки точности:

Наивный байесовский классификатор (88,32%)

Случайный лес (78,91%)

Рекуррентная нейронная сеть. RNN (83,26%)

Таким образом, наиболее перспективные результаты 88,32% показал наивный байесовский классификатор. Получение показателей выше, чем 80%, можно считать успешным при работе с естественными языками.

Спасибо за внимание! Надеемся, что описанный пример был для вас полезен.

А если вы хотите больше узнать о сентимент-анализе, рекомендуем несколько статей по теме:

Читайте также: