Building of Networks of Natural Hierarchies of Terms Based on Analysis of Texts Corpora (original) (raw)
Related papers
On the Differences between Traditional and Web-Corpora based on the Analysis of High-Frequency Nouns
2017
The paper gives a survey of corpora and analyzes a number of Russian nouns across the following corpora: ruTenTen (18.3 bln tokens) and Araneum Russicum Maximum (13.7 bln tokens). The research focuses on the discussion on these corpora, their comparison and the study of frequency properties for the highfrequency Russian nouns comparing them with data published in the Frequency Dictionary. Ключевые слова: корпус текстов, Интернет-корпус, частотный словарь, существительные.
Технология построения текста на основе анализа семантической сети понятий
ГУМАНИТАРНЫЕ НАУКИ, 2020
Результаты представленного в статье исследования, целью которого стало установление количественных и качественных предикторов освоения информации, представленных в виде текста на основе анализа семантической сети понятий, могут быть использованы в качестве основы деятельности специалистов по подготовке учебной информации, предлагаемой учащимся к освоению, с целью обеспечения высоких результатов их обученности. На примере двух текстов в ходе педагогического эксперимента была продемонстрирована возможность применения предложенных решений в контексте темы исследования, что позволило его авторам сделать вывод о целесообразности использования универсального метода построения учебной информации для достижения высоких результатов обученности учащихся в ходе освоения знаний в рамках программного материала.
Метод построения словарей предметных областей для извлечения фактов из текстов на естественном языке
2012
A method to build a dictionary of terms is developed, which is based on a processing of preliminary set of texts from the given domain. Building a set of frames is described, which determine the domain knowledge model, based on a resulting dictionary.Разработан метод построения словаря терминов, основанный на предварительной обработке множества текстов из заданной предметной области. Описано построение множества фреймов, определяющих модель знаний предметной области, на основе полученного словаря.Розроблений метод побудови словника термінів, що базується на попередній обробці множини текстів з заданої предметної області. Описана побудова множини фреймів, що визначають модель знань предметої області, на основі отриманого словника
Naukovì zapiski Nacìonalʹnogo unìversitetu «Ostrozʹka akademìâ», 2020
У статті робиться спроба доповнити класифікацію корпусів текстів. Представлено класифікаційну парадигму текстових корпусів з огляду на те, яка його структура та дизайн, зокрема за цим параметром виділено збалансований / репрезентативний корпус, корпус з гнучкою структурою, завершений, повнотекстовий корпус, фрагментарний, паралельний та порівнянний корпуси, а також cтатичний та динамічний / моніторинговий корпуси. Виявлено, що парадигму за параметром «спосіб фіксації та індексації текстових даних у корпусі» складають друкований корпус, корпус електронних текстів, корпус транскрибованого мовлення, аудіо/відео корпус, мультимедійний корпус, а також простий / нерозмічений / неіндексований / нетегований корпуси та анотований / розмічений / індексований / тегований корпус. Корпуси, в залежності від того, як ними користуються, поділено на категорії "за метою" (як, наприклад, дослідницький та ілюстративний корпуси) та "за доступністю" (корпуси у вільному доступі, закриті корпуси, а також, комерційні корпуси). Також представлено приклади згаданих типів корпусів текстів. У статті представлено термінологічні еквіваленти назв корпусів за типом мовних даних в українській та англійській мовах.
Corpora with Special Markup for Studying Concept Statistics
Critique and Semiotics, 2020
Изучение статистики концептов предполагает работу с размеченными корпусами. В принципе, такая разметка может быть только ручной на основе экспертных оценок с привлечением нескольких экспертов. Однако в ряде случаев такая возможность исключена, и разметка делается одним разметчиком – автором исследования. Экспликация принципов разметки и воспроизводимые количественные закономерности (покрытие 80 % использования концептов 7 ± 2 из них), полученные на материале русского, китайского, французского, английского языков семью разметчиками (6 русскими и 1 китаянкой, 6 девушками и 1 юношей), дают основание считать такую разметку удовлетворительной.
Компьютерная лингвистика и вычислительные онтологии
Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей из корпуса русскоязычных текстов социальной сети Facebook с помощью алгоритмов и инструментов дистрибутивной семантики. Для лексем, выражающих ключевые понятия русскоязычной картины мира, автоматически извлечены ассоциаты из корпуса Facebook с использованием нейросетевых архитектур Word 2 Vec ( CBOW и Skip - gram ). Был проведен сопоставительный анализ полученных данных и данных Русского ассоциативного словаря и Русского дистрибутивного тезауруса. Полученные результаты позволяют провести лингвистический анализ языкового сознания современных пользователей социальных сетей.
Философия науки и техники, 2017
Some non-trivial properties of network structures in social media, which are revealed on the basis of the methodology of network analysis, are considered in the article. It is shown, in particular, that nowadays the emphasis shifts from the study of social complexity to the study of social network structures. The evolutionary trend is the transition from hierarchies to networks, and the process of forming network structures is explored as a phenomenon of networkization. The processes of rapid growth of network structures and the risks of their destruction are essentially non-linear. Of great interest are also the small-world phenomenon and the strength of weak links in network structures. В статье рассматриваются некоторые нетривиальные свойства сетевых структур в социальных средах, которые выявляются благодаря методологии сетевого анализа. Показывается, в частности, что ныне акцент смещается с изучения социальной сложности на изучение социальных сетевых структур. Эволюционным трендом является переход от иерархий к сетям, а процесс формирования сетевых структур исследуется как феномен сетизации. Процессы быстрого роста сетевых структур и риски их разрушения являются существенно нелинейными. Значительный интерес представляет также феномен малого мира и силы слабых связей в сетевых структурах.