Создание нейросетевых моделей и наборов данных, мотивированных лингвистической теорией (original) (raw)
В старых версиях браузеров сайт может отображаться некорректно. Для оптимальной работы с сайтом рекомендуем воспользоваться современным браузером.
Создание нейросетевых моделей и наборов данных, мотивированных лингвистической теорией
Проект завершен
Актуальность проекта
Наращивание параметров предобученных языковых моделей не продвигает нас к решению задачи понимания естественного языка (Natural Language Understanding), поскольку такие лингвистические модели подменяют понимание манипуляциями со словоформами. Разрыв между языковой моделью и системой языка формулируется следующим образом: языковая система состоит из соотношения форм и их значений. Обучающие данные, используемые языковыми моделями – это только формы без значений.
Цель проекта
Создание обучающих наборов данных, снабженных экспертной лингвистической разметкой, сфокусированной на наиболее проблемных местах современных языковых моделей: дискурсивная связность, различия типов речевых актов, глубинная синтаксическая структура, обеспечивающая вариативность языковых выражений с общей семантикой.
Преимущества предложенного решения:
- Разрабатываемые наборы данных будут содержать лингвистическую информацию, определяющую значимые компоненты коммуникативной ситуации, структуры нарратива, языковой вариативности – информацию, очевидную для человека, однако пока что практически не воспроизводимую на уровне искусственного моделирования.
- Полученные нейросетевые модели могут быть использованы для улучшения разговорных и генеративных чат-ботов, для автоматического анализа сложных нарративных структур, для поиска парафраз и синтаксических синонимов.
Значение результатов проекта ↓
Интерес к сближению лингвистической науки и автоматическому анализу естественного языка, который в последнее время самым активным образом проявляется и в лингвистическом, и в NLP-сообществах.
Выход на решения нового уровня, преодолевающие разрыв между искусственным и естественным интеллектом в области естественного языка.
Проект реализован совместно с партнером
Команда проекта
Бонч-Осмоловская Анастасия Александровна
Доцент
Сериков Олег Алексеевич
Стажер-исследователь