Автоматическое определение этнической речи ненависти в текстах русскоязычных блогов (EthnoHate) (original) (raw)

Руководитель проекта: Олеся Кольцова
Участники проекта от SCILA: Екатерина Проноза, Полина Паничева, Татьяна Ефимова, Максим Терпиловский
Международные партнеры: Paolo Rosso

Данное исследование являлось продолжением проекта 2015-2017 годов«Разработка концепции и методологии многоуровневого мониторинга состояния межнациональных отношений по данным социальных сетей», грант РНФ № 15-18-00091. Он был направлен на совершенствование системы мониторинга этносоциальных процессов, и в рамках этого проекта решались задачи автоматического выявления этнорелевантных текстов, автоматического анализа тональности таких текстов, а также разработки онлайн-системы мониторинга этнокультурных и политических процессов. Исследование «EthnoHate» было нацелено на распознавание исключительно этнической речи ненависти в текстах русскоязычных блогов. Задачи исследования включали в себя подготовку обучающего корпуса для распознавания отношения к этническим группам, а также разработку модели автоматического выявления речи этнической ненависти с использованием традиционных классификаторов (Naïve Bayes, SVM, Logistic Regression и т.д.) и нейронных сетей (LSTM, BERT). В частности, в ходе проекта проводилось масштабное тестирование различных способов дообучения и настройки (на задачу выявления этнической ненависти) предобученной на русскоязычных неформальных текстах сети BERT.

Публикации:

Статьи предыдущего этапа:

Материалы по проекту EthnoHate

Cтатистика этничностей в РФ и в корпусе EhnoHate (XLSX, 57 Кб)

Корпус RuEthnoHate (ZIP, 1.49 Мб)

Корпус RuEthnoHateExtended (ZIP, 4.53 Мб)