Делает непростительные ошибки: искусственный интеллект проверили на компетентность в образовании (original) (raw)
В старых версиях браузеров сайт может отображаться некорректно. Для оптимальной работы с сайтом рекомендуем воспользоваться современным браузером.
Делает непростительные ошибки: искусственный интеллект проверили на компетентность в образовании
Кто работал с искусственным интеллектом, уже оценил его пользу и удобство. ИИ быстро обрабатывает информацию и генерирует текст, что делает его потенциальными помощниками в образовательной среде. Но можно ли ему доверять? Эксперты ВШЭ разработали первую научную методику для проверки компетентности ИИ в роли образовательного ассистента.

Основываясь на таксономии Блума, исследователи предложили новый подход к оценке больших языковых моделей в образовании. Система проверяет качество работы ChatGPT и подобных систем в 16 педагогических областях: от методики преподавания до управления классом. В тестировании использовали более 3900 заданий разной сложности.
«В нашем подходе мы опираемся на принципы доказательной оценки. Проверяем главные для преподавания навыки ИИ — от базовых знаний до умения решать сложные практические задачи», — объясняет ведущий автор проекта Елена Карданова.
Результаты исследования показали, что даже современные модели, такие как ChatGPT-4, уверенно справляются с проверкой фактических знаний, но испытывают затруднения при решении реальных педагогических задач.
«Мы все еще сталкиваемся с ошибками ИИ — он придумывает ответы, когда не знает их, или не понимает контекст. До уверенного использования в педагогике еще далеко», — говорит Тарас Пащенко, заведующий Лабораторией проектирования содержания образования.
«У современных ИИ-систем есть фундаментальное ограничение, — отмечает научный руководитель ВШЭ Ярослав Кузьминов. — Они ошибаются даже в простых заданиях. А помощник, которого надо постоянно проверять, вряд ли будет востребован».
Тем не менее исследователи видят перспективы ИИ как помощника учителя — в создании учебных материалов, проверке заданий и составлении планов. Однако для широкого внедрения технологии нужно существенно доработать модели и оценить риски их применения, в том числе этические