ЛЕКСИКО-ГРАММАТИЧЕСКИЕ МАРКЕРЫ ЭМОЦИЙ В КАЧЕСТВЕ ПАРАМЕТРОВ ДЛЯ СЕНТИМЕНТ-АНАЛИЗА РУССКОЯЗЫЧНЫХ ИНТЕРНЕТ-ТЕКСТОВ : научное издание

Перевод названия: LEXICAL AND GRAMMATICAL MARKERS OF EMOTIONS AS PARAMETERS FOR SENTIMENT ANALYSIS OF INTERNET TEXTS IN RUSSIAN

Тип публикации: статья из журнала

Год издания: 2019

Ключевые слова: вербальные маркеры, машинное обучение, сентимент-анализ, эмоциональная тональность, ранжированный классификатор, классификация базовых эмоций, компьютерная лингвистика, социальные медиа, verbal markers, machine learning, sentiment analysis, ranked classifier, classification of basic emotions, computational linguistics, social media

Аннотация: Рассматриваются промежуточные результаты создания автоматического классификатора русскоязычных интернет-текстов, распределяющего тексты на 8 классов в соответствии с 8 базовыми эмоциями, выделяемыми шведским биологом Гуго Левхеймом: «злость / гнев», «интерес / возбуждение», «удовольствие / радость», «брезгливость / отвращение», «удивление», «стыд / унижение», «страх / ужас», «страдание / тоска». Материалом для формирования обучающей выборки для классификатора послужили анонимные текстовые записи в жанре «интернет-откровения» пользователей в социальной сети «ВКонтакте». В основе работы классификатора лежит алгоритм машинного обучения с использованием метода опорных векторов. На вход классификатору подаются различные лингвистические параметры: например, частотность использования пунктуационных знаков «?», «!», «?!», «…», усилительных наречий, а также коллокации «когда люди говорят»; наличие в обрабатываемом тексте отрицательной частицы «не», конструкций «такой + прилагательное», «так + наречие», парцелляции, вопросительных слов, частицы «-то», лемм из лексико-семантических полей «смерть», «болезнь», «семья», «одиночество». На выходе получаем на основе учета статистической значимости «входящих» параметров текста его атрибуцию к одному из 8 эмоциональных классов текстов. Результаты, рассматриваемые в публикации, заключаются в валидации дискриминантных черт текстов различных эмоциональных классов, выделенных исследовательской группой в предыдущих публикациях в качестве параметров для автоматической атрибуции текстов. Рассматривается степень их влияния на точность работы классификатора. Достигнутая точность классификатора сравнивается с показателями фиктивного классификатора, осуществляющего атрибуцию случайным образом. В заключение делаются выводы о наиболее эффективных для работы классификатора лингвистических параметрах, оценивается перспективность данного проекта с точки зрения практических задач, а также поднимается вопрос о продолжении исследования для увеличения точности атрибуции. The article covers intermediate results of the creation of an automatic classifier for Russian-language Internet texts, which distributes those into 8 classes, in accordance with 8 basic emotions proposed by the Swedish biologist Hugo Levheim: ‘anger / rage’, ‘interest / excitement’, ‘enjoyment / joy’, ‘contempt / disgust’, ‘surprise’, ‘shame / humiliation’, ‘fear / terror’, ‘distress / anguish’. The material of the training sample are anonymous texts in the genre of ‘Internet revelations’ posted by users of the social network VKontakte. The operation of the classifier is based on the machine learning algorithm using the support vector machine method. The input parameters are the frequency of the punctuation marks ‘?’, ‘!’, ‘?!’, ‘...’ used, the presence of the negative particle ‘ne’ , the use of constructions ‘takoi + adjective’, ‘tak + adverb’, the collocation ‘kogda lyudi govoryat’ , the presence of parceling, question words, particle ‘-to’, lexemes from lexical fields ‘death’, ‘disease’, ‘family’, ‘loneliness’, as well as measure and degree adverbs. The results considered in the paper consist in the validation of the most characteristic verbal markers of specific emotions as parameters that determine the accuracy of the classifier. We conclude that there is a dependence between the efficiency of parameters and the frequency of correlating verbal markers occurrence within emotional text corpora. The achieved accuracy of the classifier is compared with the results of a dummy classifier that performs attribution randomly. In conclusion, the paper highlights the most useful verbal markers, assesses the prospects of this project in terms of practical problems, and raises the question of continuing the study to increase the accuracy of attribution.

Ссылки на полный текст

Издание

Журнал: Вестник Пермского университета. Российская и зарубежная филология

Выпуск журнала: Т. 11, № 3

Номера страниц: 38-46

ISSN журнала: 20736681

Место издания: Пермь

Издатель: Федеральное государственное бюджетное образовательное учреждение высшего образования Пермский государственный национальный исследовательский университет

Персоны

Колмогорова Анастасия Владимировна (Сибирский федеральный университет)
Вдовина Любовь Александровна (Сибирский федеральный университет)

Вхождение в базы данных

РИНЦ (eLIBRARY.RU)
Список ВАК

Информация о публикациях загружается с сайта службы поддержки публикационной активности СФУ. Сообщите, если заметили неточности.