Ольга Митрофанова | Saint-Petersburg State University (original) (raw)
Uploads
Papers by Ольга Митрофанова
ExLing 2016: Proceedings of 7th Tutorial and Research Workshop on Experimental Linguistics, 2019
The main goal of this paper was to improve topic modelling algorithms by introducing automatic to... more The main goal of this paper was to improve topic modelling algorithms by introducing automatic topic labelling, a procedure which chooses a label for a cluster of words in a topic. Topic modelling is a widely used statistical technique which allows to reveal internal conceptual organization of text corpora. We have chosen an unsupervised graph-based method and elaborated it with regard to Russian. The proposed algorithm consists of two stages: candidate generation by means of PageRank and morphological filters, and candidate ranking. Our experiments on a corpus of encyclopedic texts on linguistics has shown the advantages of labelled topic models for NLP applications.
Lecture Notes in Computer Science, 2008
The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts fo... more The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts for polysemous and/or homonymic Russian nouns denoting physical objects serve as an empirical basis of the study. Sets of contexts were extracted from the Russian National Corpus (RNC). Machine learning software for WSD was developed within the framework of the project. WSD tool used in experiments is aimed
Lecture Notes in Computer Science, 2007
The paper deals with development and application of automatic word clustering (AWC) tool aimed at... more The paper deals with development and application of automatic word clustering (AWC) tool aimed at processing Russian texts of various types, which should satisfy the requirements of flexibility and compatibility with other linguistic resources. The construction of AWC tool requires computer implementation of latent semantic analysis (LSA) combined with clustering algorithms. To meet the need, Python-based software has been developed. Major procedures performed by AWC tool are segmentation of input texts and context analysis, co-occurrence matrix construction, agglomerative and Kmeans clustering. Special attention is drawn to experimental results on clustering words in raw texts with changing parameters.
Lecture Notes in Computer Science, 2011
The research project reported in this paper aims at automatic extraction of linguistic informatio... more The research project reported in this paper aims at automatic extraction of linguistic information from contexts in the Russian National Corpus (RNC) and its subsequent use in building a comprehensive lexicographic resource–the Index of Russian lexical constructions. The proposed approach implies automatic context classification intended for word sense disambiguation (WSD) and construction identification (CxI). The automatic context processing procedure takes into account the following types of contextual ...
Co-operating …
The paper describes the ongoing work on creating the WordNet-type lexicon for Russian, so called ... more The paper describes the ongoing work on creating the WordNet-type lexicon for Russian, so called RussNet. The project started 3 years ago; preliminary results will be available at www.phil.pu.ru. The existing database contains verbs, nouns, and adjectives, the number of senses amounting to 2500. The Top Ontology of RussNet is under construction, it will be coordinated with that of EuroWN. RussNet has inherited EuroWN language-internal relations. Several types of derivational links are added to describe Cross-Part-Of-Speech relations as well as Inner-Part-Of-Speech ones. Adjective-to-noun and verb-to-noun relations of words in collocations are described in details. An overview of methods used for construction of the Russian WordNet is presented; the procedure of sense definition generation is also discussed.
Communications in Computer and Information Science, 2015
The paper describes the results of experiments on the development of a statistical model of the R... more The paper describes the results of experiments on the development of a statistical model of the Russian text corpus on musicology. We construct a topic model which is based on Latent Dirichlet Allocation and process corpus data with the help of GenSim statistical toolkit. Results achieved in course of experiments allow to distinguish general and special topics which describe conceptual structure of the corpus in question and to analyse paradigmatic and syntagmatic relations between lemmata within topics.
The paper deals with development and application of automatic word clustering (AWC) tool aimed at... more The paper deals with development and application of automatic word clustering (AWC) tool aimed at processing Russian texts of various types, which should satisfy the requirements of flexibility and compatibility with other linguistic resources. The construction of AWC tool requires computer implementation of latent semantic analysis (LSA) combined with clustering algorithms. To meet the need, Python-based software has been developed. Major procedures performed by AWC tool are segmentation of input texts and context analysis, co-occurrence matrix construction, agglomerative and Kmeans clustering. Special attention is drawn to experimental results on clustering words in raw texts with changing parameters.
The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts fo... more The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts for polysemous and/or homonymic Russian nouns denoting physical objects serve as an empirical basis of the study. Sets of contexts were extracted from the Russian National Corpus (RNC). Machine learning software for WSD was developed within the framework of the project. WSD tool used in experiments is aimed
Целью проекта является создание синтаксического анализатора для русского языка с использованием и... more Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.
The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns tha... more The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns that refer to tangible objects and abstract notions. The body of contexts has been extracted from the Russian National Corpus (RNC). The tool used in our experiments is aimed at statistical processing and classification of noun contexts. The WSD procedure takes into account taxonomy markers of word meanings as well as lexical markers and morphological tagsets in the context. A set of experiments allows us to establish preferential conditions for WSD in Russian texts.
Компьютерная лингвистика и вычислительные онтологии
Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, нап... more Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В статье изложена работа алгоритма и приведены результаты его применения в автоматической обработке корпусов специальных текстов.
Компьютерная лингвистика и вычислительные онтологии
В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algo... more В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algorithm ), используемого для извлечения ключевых слов и словосочетаний. KEA широко известен своей эффективностью для извлечения ключевых слов и словосочетаний из англоязычных текстов. В статье представлены результаты применения данного алгоритма к текстам на русском языке. Для определения качества работы алгоритма с русскоязычными текстами были проведены эксперименты на материале представительных корпусов.
Целью проекта является создание синтаксического анализатора для русского языка с использованием и... more Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.
Компьютерная лингвистика и вычислительные онтологии
Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей... more Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей из корпуса русскоязычных текстов социальной сети Facebook с помощью алгоритмов и инструментов дистрибутивной семантики. Для лексем, выражающих ключевые понятия русскоязычной картины мира, автоматически извлечены ассоциаты из корпуса Facebook с использованием нейросетевых архитектур Word 2 Vec ( CBOW и Skip - gram ). Был проведен сопоставительный анализ полученных данных и данных Русского ассоциативного словаря и Русского дистрибутивного тезауруса. Полученные результаты позволяют провести лингвистический анализ языкового сознания современных пользователей социальных сетей.
Abstract The paper presents experimental results on WSD, with focus on disambiguation of Russian ... more Abstract The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns that refer to tangible objects and abstract notions. The body of contexts has been extracted from the Russian National Corpus (RNC). The tool used in our experiments is aimed at statistical processing and classification of noun contexts. The WSD procedure takes into account taxonomy markers of word meanings as well as lexical markers and morphological tagsets in the context.
ExLing 2016: Proceedings of 7th Tutorial and Research Workshop on Experimental Linguistics, 2019
The main goal of this paper was to improve topic modelling algorithms by introducing automatic to... more The main goal of this paper was to improve topic modelling algorithms by introducing automatic topic labelling, a procedure which chooses a label for a cluster of words in a topic. Topic modelling is a widely used statistical technique which allows to reveal internal conceptual organization of text corpora. We have chosen an unsupervised graph-based method and elaborated it with regard to Russian. The proposed algorithm consists of two stages: candidate generation by means of PageRank and morphological filters, and candidate ranking. Our experiments on a corpus of encyclopedic texts on linguistics has shown the advantages of labelled topic models for NLP applications.
Lecture Notes in Computer Science, 2008
The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts fo... more The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts for polysemous and/or homonymic Russian nouns denoting physical objects serve as an empirical basis of the study. Sets of contexts were extracted from the Russian National Corpus (RNC). Machine learning software for WSD was developed within the framework of the project. WSD tool used in experiments is aimed
Lecture Notes in Computer Science, 2007
The paper deals with development and application of automatic word clustering (AWC) tool aimed at... more The paper deals with development and application of automatic word clustering (AWC) tool aimed at processing Russian texts of various types, which should satisfy the requirements of flexibility and compatibility with other linguistic resources. The construction of AWC tool requires computer implementation of latent semantic analysis (LSA) combined with clustering algorithms. To meet the need, Python-based software has been developed. Major procedures performed by AWC tool are segmentation of input texts and context analysis, co-occurrence matrix construction, agglomerative and Kmeans clustering. Special attention is drawn to experimental results on clustering words in raw texts with changing parameters.
Lecture Notes in Computer Science, 2011
The research project reported in this paper aims at automatic extraction of linguistic informatio... more The research project reported in this paper aims at automatic extraction of linguistic information from contexts in the Russian National Corpus (RNC) and its subsequent use in building a comprehensive lexicographic resource–the Index of Russian lexical constructions. The proposed approach implies automatic context classification intended for word sense disambiguation (WSD) and construction identification (CxI). The automatic context processing procedure takes into account the following types of contextual ...
Co-operating …
The paper describes the ongoing work on creating the WordNet-type lexicon for Russian, so called ... more The paper describes the ongoing work on creating the WordNet-type lexicon for Russian, so called RussNet. The project started 3 years ago; preliminary results will be available at www.phil.pu.ru. The existing database contains verbs, nouns, and adjectives, the number of senses amounting to 2500. The Top Ontology of RussNet is under construction, it will be coordinated with that of EuroWN. RussNet has inherited EuroWN language-internal relations. Several types of derivational links are added to describe Cross-Part-Of-Speech relations as well as Inner-Part-Of-Speech ones. Adjective-to-noun and verb-to-noun relations of words in collocations are described in details. An overview of methods used for construction of the Russian WordNet is presented; the procedure of sense definition generation is also discussed.
Communications in Computer and Information Science, 2015
The paper describes the results of experiments on the development of a statistical model of the R... more The paper describes the results of experiments on the development of a statistical model of the Russian text corpus on musicology. We construct a topic model which is based on Latent Dirichlet Allocation and process corpus data with the help of GenSim statistical toolkit. Results achieved in course of experiments allow to distinguish general and special topics which describe conceptual structure of the corpus in question and to analyse paradigmatic and syntagmatic relations between lemmata within topics.
The paper deals with development and application of automatic word clustering (AWC) tool aimed at... more The paper deals with development and application of automatic word clustering (AWC) tool aimed at processing Russian texts of various types, which should satisfy the requirements of flexibility and compatibility with other linguistic resources. The construction of AWC tool requires computer implementation of latent semantic analysis (LSA) combined with clustering algorithms. To meet the need, Python-based software has been developed. Major procedures performed by AWC tool are segmentation of input texts and context analysis, co-occurrence matrix construction, agglomerative and Kmeans clustering. Special attention is drawn to experimental results on clustering words in raw texts with changing parameters.
The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts fo... more The paper presents experimental results on automatic word sense disambiguation (WSD). Contexts for polysemous and/or homonymic Russian nouns denoting physical objects serve as an empirical basis of the study. Sets of contexts were extracted from the Russian National Corpus (RNC). Machine learning software for WSD was developed within the framework of the project. WSD tool used in experiments is aimed
Целью проекта является создание синтаксического анализатора для русского языка с использованием и... more Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.
The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns tha... more The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns that refer to tangible objects and abstract notions. The body of contexts has been extracted from the Russian National Corpus (RNC). The tool used in our experiments is aimed at statistical processing and classification of noun contexts. The WSD procedure takes into account taxonomy markers of word meanings as well as lexical markers and morphological tagsets in the context. A set of experiments allows us to establish preferential conditions for WSD in Russian texts.
Компьютерная лингвистика и вычислительные онтологии
Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, нап... more Исследование посвящено усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В статье изложена работа алгоритма и приведены результаты его применения в автоматической обработке корпусов специальных текстов.
Компьютерная лингвистика и вычислительные онтологии
В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algo... more В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algorithm ), используемого для извлечения ключевых слов и словосочетаний. KEA широко известен своей эффективностью для извлечения ключевых слов и словосочетаний из англоязычных текстов. В статье представлены результаты применения данного алгоритма к текстам на русском языке. Для определения качества работы алгоритма с русскоязычными текстами были проведены эксперименты на материале представительных корпусов.
Целью проекта является создание синтаксического анализатора для русского языка с использованием и... more Целью проекта является создание синтаксического анализатора для русского языка с использованием инструментов NLTK для Python . В NLTK есть возможность создавать категориальные грамматики ( feature - based grammars ), основывающиеся на морфологической информации о входном тексте. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy 2. На данный момент создано ядро синтаксического анализатора, рассчитанное на обработку основных синтаксических групп внутри простого предложения для русского языка. В будущем мы планируем расширить функционал парсера так, чтобы он мог анализировать любые грамматически верные предложения русского языка.
Компьютерная лингвистика и вычислительные онтологии
Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей... more Данная статья отражает результаты эксперимента по автоматическому извлечению ассоциативных связей из корпуса русскоязычных текстов социальной сети Facebook с помощью алгоритмов и инструментов дистрибутивной семантики. Для лексем, выражающих ключевые понятия русскоязычной картины мира, автоматически извлечены ассоциаты из корпуса Facebook с использованием нейросетевых архитектур Word 2 Vec ( CBOW и Skip - gram ). Был проведен сопоставительный анализ полученных данных и данных Русского ассоциативного словаря и Русского дистрибутивного тезауруса. Полученные результаты позволяют провести лингвистический анализ языкового сознания современных пользователей социальных сетей.
Abstract The paper presents experimental results on WSD, with focus on disambiguation of Russian ... more Abstract The paper presents experimental results on WSD, with focus on disambiguation of Russian nouns that refer to tangible objects and abstract notions. The body of contexts has been extracted from the Russian National Corpus (RNC). The tool used in our experiments is aimed at statistical processing and classification of noun contexts. The WSD procedure takes into account taxonomy markers of word meanings as well as lexical markers and morphological tagsets in the context.