Ольга Митрофанова | Saint-Petersburg State University (original) (raw)

Uploads

Papers by Ольга Митрофанова

Research paper thumbnail of Automatic assignment of labels in Topic Modelling for Russian Corpora

ExLing 2016: Proceedings of 7th Tutorial and Research Workshop on Experimental Linguistics, 2019

The main goal of this paper was to improve topic modelling algorithms by introducing automatic to... more The main goal of this paper was to improve topic modelling algorithms by introducing automatic topic labelling, a procedure which chooses a label for a cluster of words in a topic. Topic modelling is a widely used statistical technique which allows to reveal internal conceptual organization of text corpora. We have chosen an unsupervised graph-based method and elaborated it with regard to Russian. The proposed algorithm consists of two stages: candidate generation by means of PageRank and morphological filters, and candidate ranking. Our experiments on a corpus of encyclopedic texts on linguistics has shown the advantages of labelled topic models for NLP applications.

Research paper thumbnail of Statistical Word Sense Disambiguation in Contexts for Russian Nouns Denoting Physical Objects

Lecture Notes in Computer Science, 2008

The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts fo... more The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts for polysemous and/or homonymic Russian nouns denoting physical objects serve as an empirical basis of the study. Sets of contexts were extracted from the Russian National Corpus (RNC). Machine learning software for WSD was developed within the framework of the project. WSD tool used in experiments is aimed

Research paper thumbnail of Automatic Word Clustering in Russian Texts

Lecture Notes in Computer Science, 2007

The paper deals with development and application of automatic word clustering (AWC) tool aimed at... more The paper deals with development and application of automatic word clustering (AWC) tool aimed at processing Russian texts of various types, which should satisfy the requirements of flexibility and compatibility with other linguistic resources. The construction of AWC tool requires computer implementation of latent semantic analysis (LSA) combined with clustering algorithms. To meet the need, Python-based software has been developed. Major procedures performed by AWC tool are segmentation of input texts and context analysis, co-occurrence matrix construction, agglomerative and Kmeans clustering. Special attention is drawn to experimental results on clustering words in raw texts with changing parameters.

Research paper thumbnail of Automatic Word Sense Disambiguation and Construction Identification Based on Corpus Multilevel Annotation

Lecture Notes in Computer Science, 2011

The research project reported in this paper aims at automatic extraction of linguistic informatio... more The research project reported in this paper aims at automatic extraction of linguistic information from contexts in the Russian National Corpus (RNC) and its subsequent use in building a comprehensive lexicographic resource–the Index of Russian lexical constructions. The proposed approach implies automatic context classification intended for word sense disambiguation (WSD) and construction identification (CxI). The automatic context processing procedure takes into account the following types of contextual ...

Research paper thumbnail of Russnet: Building a lexical database for the russian language

Co-operating …

The paper describes the ongoing work on creating the WordNet-type lexicon for Russian, so called ... more The paper describes the ongoing work on creating the WordNet-type lexicon for Russian, so called RussNet. The project started 3 years ago; preliminary results will be available at www.phil.pu.ru. The existing database contains verbs, nouns, and adjectives, the number of senses amounting to 2500. The Top Ontology of RussNet is under construction, it will be coordinated with that of EuroWN. RussNet has inherited EuroWN language-internal relations. Several types of derivational links are added to describe Cross-Part-Of-Speech relations as well as Inner-Part-Of-Speech ones. Adjective-to-noun and verb-to-noun relations of words in collocations are described in details. An overview of methods used for construction of the Russian WordNet is presented; the procedure of sense definition generation is also discussed.

Research paper thumbnail of Probabilistic Topic Modeling of the Russian Text Corpus on Musicology

Communications in Computer and Information Science, 2015

The paper describes the results of experiments on the development of a statistical model of the R... more The paper describes the results of experiments on the development of a statistical model of the Russian text corpus on musicology. We construct a topic model which is based on Latent Dirichlet Allocation and process corpus data with the help of GenSim statistical toolkit. Results achieved in course of experiments allow to distinguish general and special topics which describe conceptual structure of the corpus in question and to analyse paradigmatic and syntagmatic relations between lemmata within topics.

Research paper thumbnail of Automatic Word Clustering in Russian Texts

The paper deals with development and application of automatic word clustering (AWC) tool aimed at... more The paper deals with development and application of automatic word clustering (AWC) tool aimed at processing Russian texts of various types, which should satisfy the requirements of flexibility and compatibility with other linguistic resources. The construction of AWC tool requires computer implementation of latent semantic analysis (LSA) combined with clustering algorithms. To meet the need, Python-based software has been developed. Major procedures performed by AWC tool are segmentation of input texts and context analysis, co-occurrence matrix construction, agglomerative and Kmeans clustering. Special attention is drawn to experimental results on clustering words in raw texts with changing parameters.

Research paper thumbnail of Statistical Word Sense Disambiguation in Contexts for Russian Nouns Denoting Physical Objects

The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts fo... more The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts for polysemous and/or homonymic Russian nouns denoting physical objects serve as an empirical basis of the study. Sets of contexts were extracted from the Russian National Corpus (RNC). Machine learning software for WSD was developed within the framework of the project. WSD tool used in experiments is aimed

Research paper thumbnail of Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK

Целью проекта является создание синтаксического анализатора для русского языка с использованием и... more Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.

Research paper thumbnail of Disambiguation of Taxonomy Markers in Context: Russian Nouns

The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns tha... more The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns that refer to tangible objects and abstract notions. The body of contexts has been extracted from the Russian National Corpus (RNC). The tool used in our experiments is aimed at statistical processing and classification of noun contexts. The WSD procedure takes into account taxonomy markers of word meanings as well as lexical markers and morphological tagsets in the context. A set of experiments allows us to establish preferential conditions for WSD in Russian texts.

Research paper thumbnail of Структурная и прикладная лингвистика. Межвузовский сборник

Research paper thumbnail of Компьютерная лингвистика и вычислительные онтологии. Труды ХХ Международной объединенной научной конференции "Интернет и современное общество", IMS-2017

Research paper thumbnail of Труды международной конференции «Корпусная лингвистика-2015»

Research paper thumbnail of Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции

Компьютерная лингвистика и вычислительные онтологии

Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, нап... more Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В статье изложена работа алгоритма и приведены результаты его применения в автоматической обработке корпусов специальных текстов.

Research paper thumbnail of Автоматическое извлечение ключевых слов и словосочетаний из русскоязычных текстов с помощью алгоритма KEA

Компьютерная лингвистика и вычислительные онтологии

В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algo... more В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algorithm ), используемого для извлечения ключевых слов и словосочетаний. KEA широко известен своей эффективностью для извлечения ключевых слов и словосочетаний из англоязычных текстов. В статье представлены результаты применения данного алгоритма к текстам на русском языке. Для определения качества работы алгоритма с русскоязычными текстами были проведены эксперименты на материале представительных корпусов.

Research paper thumbnail of Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK

Целью проекта является создание синтаксического анализатора для русского языка с использованием и... more Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.

Research paper thumbnail of Исследование ассоциативных связей слов в корпусе социальных сетей с помощью дистрибутивно-семантических моделей

Компьютерная лингвистика и вычислительные онтологии

Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей... more Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей из корпуса русскоязычных текстов социальной сети Facebook с помощью алгоритмов и инструментов дистрибутивной семантики. Для лексем, выражающих ключевые понятия русскоязычной картины мира, автоматически извлечены ассоциаты из корпуса Facebook с использованием нейросетевых архитектур Word 2 Vec ( CBOW и Skip - gram ). Был проведен сопоставительный анализ полученных данных и данных Русского ассоциативного словаря и Русского дистрибутивного тезауруса. Полученные результаты позволяют провести лингвистический анализ языкового сознания современных пользователей социальных сетей.

Research paper thumbnail of Disambiguation of Taxonomy Markers in Context: Russian Nouns

Abstract The paper presents experimental results on WSD, with focus on disambiguation of Russian ... more Abstract The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns that refer to tangible objects and abstract notions. The body of contexts has been extracted from the Russian National Corpus (RNC). The tool used in our experiments is aimed at statistical processing and classification of noun contexts. The WSD procedure takes into account taxonomy markers of word meanings as well as lexical markers and morphological tagsets in the context.

Research paper thumbnail of Automatic assignment of labels in Topic Modelling for Russian Corpora

ExLing 2016: Proceedings of 7th Tutorial and Research Workshop on Experimental Linguistics, 2019

The main goal of this paper was to improve topic modelling algorithms by introducing automatic to... more The main goal of this paper was to improve topic modelling algorithms by introducing automatic topic labelling, a procedure which chooses a label for a cluster of words in a topic. Topic modelling is a widely used statistical technique which allows to reveal internal conceptual organization of text corpora. We have chosen an unsupervised graph-based method and elaborated it with regard to Russian. The proposed algorithm consists of two stages: candidate generation by means of PageRank and morphological filters, and candidate ranking. Our experiments on a corpus of encyclopedic texts on linguistics has shown the advantages of labelled topic models for NLP applications.

Research paper thumbnail of Statistical Word Sense Disambiguation in Contexts for Russian Nouns Denoting Physical Objects

Lecture Notes in Computer Science, 2008

The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts fo... more The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts for polysemous and/or homonymic Russian nouns denoting physical objects serve as an empirical basis of the study. Sets of contexts were extracted from the Russian National Corpus (RNC). Machine learning software for WSD was developed within the framework of the project. WSD tool used in experiments is aimed

Research paper thumbnail of Automatic Word Clustering in Russian Texts

Lecture Notes in Computer Science, 2007

The paper deals with development and application of automatic word clustering (AWC) tool aimed at... more The paper deals with development and application of automatic word clustering (AWC) tool aimed at processing Russian texts of various types, which should satisfy the requirements of flexibility and compatibility with other linguistic resources. The construction of AWC tool requires computer implementation of latent semantic analysis (LSA) combined with clustering algorithms. To meet the need, Python-based software has been developed. Major procedures performed by AWC tool are segmentation of input texts and context analysis, co-occurrence matrix construction, agglomerative and Kmeans clustering. Special attention is drawn to experimental results on clustering words in raw texts with changing parameters.

Research paper thumbnail of Automatic Word Sense Disambiguation and Construction Identification Based on Corpus Multilevel Annotation

Lecture Notes in Computer Science, 2011

The research project reported in this paper aims at automatic extraction of linguistic informatio... more The research project reported in this paper aims at automatic extraction of linguistic information from contexts in the Russian National Corpus (RNC) and its subsequent use in building a comprehensive lexicographic resource–the Index of Russian lexical constructions. The proposed approach implies automatic context classification intended for word sense disambiguation (WSD) and construction identification (CxI). The automatic context processing procedure takes into account the following types of contextual ...

Research paper thumbnail of Russnet: Building a lexical database for the russian language

Co-operating …

The paper describes the ongoing work on creating the WordNet-type lexicon for Russian, so called ... more The paper describes the ongoing work on creating the WordNet-type lexicon for Russian, so called RussNet. The project started 3 years ago; preliminary results will be available at www.phil.pu.ru. The existing database contains verbs, nouns, and adjectives, the number of senses amounting to 2500. The Top Ontology of RussNet is under construction, it will be coordinated with that of EuroWN. RussNet has inherited EuroWN language-internal relations. Several types of derivational links are added to describe Cross-Part-Of-Speech relations as well as Inner-Part-Of-Speech ones. Adjective-to-noun and verb-to-noun relations of words in collocations are described in details. An overview of methods used for construction of the Russian WordNet is presented; the procedure of sense definition generation is also discussed.

Research paper thumbnail of Probabilistic Topic Modeling of the Russian Text Corpus on Musicology

Communications in Computer and Information Science, 2015

The paper describes the results of experiments on the development of a statistical model of the R... more The paper describes the results of experiments on the development of a statistical model of the Russian text corpus on musicology. We construct a topic model which is based on Latent Dirichlet Allocation and process corpus data with the help of GenSim statistical toolkit. Results achieved in course of experiments allow to distinguish general and special topics which describe conceptual structure of the corpus in question and to analyse paradigmatic and syntagmatic relations between lemmata within topics.

Research paper thumbnail of Automatic Word Clustering in Russian Texts

The paper deals with development and application of automatic word clustering (AWC) tool aimed at... more The paper deals with development and application of automatic word clustering (AWC) tool aimed at processing Russian texts of various types, which should satisfy the requirements of flexibility and compatibility with other linguistic resources. The construction of AWC tool requires computer implementation of latent semantic analysis (LSA) combined with clustering algorithms. To meet the need, Python-based software has been developed. Major procedures performed by AWC tool are segmentation of input texts and context analysis, co-occurrence matrix construction, agglomerative and Kmeans clustering. Special attention is drawn to experimental results on clustering words in raw texts with changing parameters.

Research paper thumbnail of Statistical Word Sense Disambiguation in Contexts for Russian Nouns Denoting Physical Objects

The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts fo... more The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts for polysemous and/or homonymic Russian nouns denoting physical objects serve as an empirical basis of the study. Sets of contexts were extracted from the Russian National Corpus (RNC). Machine learning software for WSD was developed within the framework of the project. WSD tool used in experiments is aimed

Research paper thumbnail of Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK

Целью проекта является создание синтаксического анализатора для русского языка с использованием и... more Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.

Research paper thumbnail of Disambiguation of Taxonomy Markers in Context: Russian Nouns

The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns tha... more The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns that refer to tangible objects and abstract notions. The body of contexts has been extracted from the Russian National Corpus (RNC). The tool used in our experiments is aimed at statistical processing and classification of noun contexts. The WSD procedure takes into account taxonomy markers of word meanings as well as lexical markers and morphological tagsets in the context. A set of experiments allows us to establish preferential conditions for WSD in Russian texts.

Research paper thumbnail of Структурная и прикладная лингвистика. Межвузовский сборник

Research paper thumbnail of Компьютерная лингвистика и вычислительные онтологии. Труды ХХ Международной объединенной научной конференции "Интернет и современное общество", IMS-2017

Research paper thumbnail of Труды международной конференции «Корпусная лингвистика-2015»

Research paper thumbnail of Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции

Компьютерная лингвистика и вычислительные онтологии

Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, нап... more Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В статье изложена работа алгоритма и приведены результаты его применения в автоматической обработке корпусов специальных текстов.

Research paper thumbnail of Автоматическое извлечение ключевых слов и словосочетаний из русскоязычных текстов с помощью алгоритма KEA

Компьютерная лингвистика и вычислительные онтологии

В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algo... more В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algorithm ), используемого для извлечения ключевых слов и словосочетаний. KEA широко известен своей эффективностью для извлечения ключевых слов и словосочетаний из англоязычных текстов. В статье представлены результаты применения данного алгоритма к текстам на русском языке. Для определения качества работы алгоритма с русскоязычными текстами были проведены эксперименты на материале представительных корпусов.

Research paper thumbnail of Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK

Целью проекта является создание синтаксического анализатора для русского языка с использованием и... more Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.

Research paper thumbnail of Исследование ассоциативных связей слов в корпусе социальных сетей с помощью дистрибутивно-семантических моделей

Компьютерная лингвистика и вычислительные онтологии

Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей... more Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей из корпуса русскоязычных текстов социальной сети Facebook с помощью алгоритмов и инструментов дистрибутивной семантики. Для лексем, выражающих ключевые понятия русскоязычной картины мира, автоматически извлечены ассоциаты из корпуса Facebook с использованием нейросетевых архитектур Word 2 Vec ( CBOW и Skip - gram ). Был проведен сопоставительный анализ полученных данных и данных Русского ассоциативного словаря и Русского дистрибутивного тезауруса. Полученные результаты позволяют провести лингвистический анализ языкового сознания современных пользователей социальных сетей.

Research paper thumbnail of Disambiguation of Taxonomy Markers in Context: Russian Nouns

Abstract The paper presents experimental results on WSD, with focus on disambiguation of Russian ... more Abstract The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns that refer to tangible objects and abstract notions. The body of contexts has been extracted from the Russian National Corpus (RNC). The tool used in our experiments is aimed at statistical processing and classification of noun contexts. The WSD procedure takes into account taxonomy markers of word meanings as well as lexical markers and morphological tagsets in the context.