Создание нейросетевых моделей и наборов данных, мотивированных лингвистической теорией (original) (raw)

В старых версиях браузеров сайт может отображаться некорректно. Для оптимальной работы с сайтом рекомендуем воспользоваться современным браузером.

Создание нейросетевых моделей и наборов данных, мотивированных лингвистической теорией

Проект завершен

Актуальность проекта

Наращивание параметров предобученных языковых моделей не продвигает нас к решению задачи понимания естественного языка (Natural Language Understanding), поскольку такие лингвистические модели подменяют понимание манипуляциями со словоформами. Разрыв между языковой моделью и системой языка формулируется следующим образом: языковая система состоит из соотношения форм и их значений. Обучающие данные, используемые языковыми моделями – это только формы без значений.

Цель проекта

Создание обучающих наборов данных, снабженных экспертной лингвистической разметкой, сфокусированной на наиболее проблемных местах современных языковых моделей: дискурсивная связность, различия типов речевых актов, глубинная синтаксическая структура, обеспечивающая вариативность языковых выражений с общей семантикой.

Преимущества предложенного решения:

Разрабатываемые наборы данных будут содержать лингвистическую информацию, определяющую значимые компоненты коммуникативной ситуации, структуры нарратива, языковой вариативности – информацию, очевидную для человека, однако пока что практически не воспроизводимую на уровне искусственного моделирования.
Полученные нейросетевые модели могут быть использованы для улучшения разговорных и генеративных чат-ботов, для автоматического анализа сложных нарративных структур, для поиска парафраз и синтаксических синонимов.

Значение результатов проекта ↓

Интерес к сближению лингвистической науки и автоматическому анализу естественного языка, который в последнее время самым активным образом проявляется и в лингвистическом, и в NLP-сообществах.

Выход на решения нового уровня, преодолевающие разрыв между искусственным и естественным интеллектом в области естественного языка.

Проект реализован совместно с партнером

Команда проекта

Бонч-Осмоловская Анастасия Александровна

Доцент

Сериков Олег Алексеевич

Стажер-исследователь