Texterra: инфраструктура для анализа текстов (original) (raw)
Related papers
Художественият текст – лабораторя за компетентности
сп. Български език и литература, 2016
The article aims to analyze one of the basic elements of reading competence, namely reading with comprehension of students from the 11th grade based on an excerpt from the novel "Bel Ami" by Guy de Maupassant. We outline the theoretical concepts which determine the idea of communicative competence, functional literacy, reading literacy, active reader. We present a practical analysis of the first three tasks from a test focused on verifying the basic knowledge of literature. Following our observations we reach a conclusion on the specific capability of the literary text to be converted into a training "lab" for building competencies in Bulgarian language and literature education.
Интеллектуальная система анализа качества текста с применением машинного обучения
2017
Целью данной работы было создание программного продукта, который позволил бы проводить качественный анализ текстов в соответствии с рядом критериев. Для достижения поставленной цели, прежде всего, необходимо было определить критерии оценки, которые способны наиболее полно отразить качество текстов. В рамках данной работы также была поставлена задача определения этих критериев. Кроме того, необходимо было разработать систему преобразования текста в некоторый набор чисел, пригодный для машинного обучения.
Обзор больших русскоязычных корпусов текстов
Компьютерная лингвистика и вычислительные онтологии: сборник научных статей, 2016
В последнее время появляется все больше корпусов текстов, создаваемых автоматическими методами и отличающихся от традиционных текстовых коллекций как по объему, так и по содержанию. В статье дается обзор корпусов русского языка RuTenTen, Генерального корпуса русского языка, корпусов проекта Aranea, а также обсуждаются вопросы, связанные с построением подобных корпусов. Компьютерная лингвистика и вычислительные онтологии: сборник научных статей. Труды XIX Международной объединенной научной конференции «Интернет и современное общество» (IMS-2016), Санкт-Петербург, 22 – 24 июня 2016 г. — СПб: Университет ИТМО, 2016.С. 74–77.
Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK
2016
Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.
Технология построения текста на основе анализа семантической сети понятий
ГУМАНИТАРНЫЕ НАУКИ, 2020
Результаты представленного в статье исследования, целью которого стало установление количественных и качественных предикторов освоения информации, представленных в виде текста на основе анализа семантической сети понятий, могут быть использованы в качестве основы деятельности специалистов по подготовке учебной информации, предлагаемой учащимся к освоению, с целью обеспечения высоких результатов их обученности. На примере двух текстов в ходе педагогического эксперимента была продемонстрирована возможность применения предложенных решений в контексте темы исследования, что позволило его авторам сделать вывод о целесообразности использования универсального метода построения учебной информации для достижения высоких результатов обученности учащихся в ходе освоения знаний в рамках программного материала.