Automatic selection of algorithm parameters (Russian language) (original) (raw)

Analizes and syntheses of parameters algorithm for weapon

2015

Основни циљ овог рада је да се формирају заједнички критеријуми за оцену и мерење ефикасности ваздухопловних и копнених вишецевних бацача ракета смештених на копнене и ваздухопловне борбене платформе, ради употребе у јединственим војно - тактичким задацима ''здружене ватрене подршке''. У овом раду дефинисан је коефицијент моћи наоружања, као параметар квалитета ватрене моћи невођеног ракетног наоружања. Помоћу њега је мерена и дефинисана величина снаге ватрене моћи, као површински борбени еквивалент и нови исказ квалитета деловања на циљу. Анализом појединачне ефикасности ваздухопловних борбених платформи, у појединачним или групним тактикама деловања, појам организованог ракетирања из ваздуха сведен је на редно, паралелно и комбиновано дејство. Свођењем масе летелице на ЈУРИШНУ и СЛЕТНУ масу, уведена је нова класификација корисних терета ваздухопловних платформи погодна за директну оцену квалитета непосредне ваздухопловне ватрене подршке. Одговарајућим релативним ко...

Automatic Extraction of Formulaic Expressions from Russian Texts

Вестник Новосибирского государственного университета, 2018

Статья посвящена проблеме создания модуля автоматического извлечения из текстов русского языка особых единиц-дискурсивных формул. Под дискурсивными формулами (ДФ) мы понимаем неоднословные конструкции, которые, однако, не содержат переменных и выступают в роли ответных реплик на вербальный стимул. Работа над программным модулем включала в себя несколько этапов, в том числе ручную разметку пьес по выявленным в ходе работы критериям. Процесс автоматического извлечения ДФ предусматривает деление текста на синтаксические единицы, соотносимые с клаузой, предсказание принадлежности каждой из единиц к классу ДФ на основании выделенного нами набора признаков и формирование итогового списка ДФ. В качестве алгоритма классификации используется равновесное голосование четырех классификаторов: Random Forest Classifier, Logistic Regression, Ridge Classifier, Support Vector Classifier. Ключевые слова: дискурсивные формулы, грамматика конструкций, машинное обучение, автоматическое извлечение сущностей.

A New Approach to Automatic Detection and Correction of Derivational Errors in L2 Russian

Вестник Новосибирского государственного университета, 2021

Учебные корпуса представляют собой один из наиболее ценных источников статистических данных об ошибках учащихся. Например, информация из корпусов учащихся, которые изучают язык как иностранный, используется для исследований в области усвоения второго языка [Granger, 1996]. Однако достоверность содержащихся в корпусах данных зависит от качества разметки ошибок, которая чаще всего выполняется вручную и, таким образом, представляет собой трудоемкую и кропотливую процедуру для аннотаторов. Чтобы облегчить процесс разметки, в корпусах используются дополнительные инструменты, в частности спеллчекеры. В данной статье основное внимание уделяется созданию системы автоматического поиска и исправления словообразовательных ошибок. Этот тип ошибок, почти никогда не возникающий у взрослых носителей русского языка, но появляющийся у изучающих русский язык как иностранный [Chernigovskaya, Gor, 2000], был выбран потому, что их исправление вызывает большие сложности у существующих спеллчекеров. В рамках работы на материале Русского учебного корпуса (Russian Learner Corpus, http://www.web-corpora.net/RLC/) было протестировано два подхода, помогающих в решении данной проблемы. Первый, который основывается на принципе конечных автоматов [Dickinson, Herring, 2008], имеет целью обнаружить морфологические нарушения в текстах изучающих русский как иностранный. Второй, в основе работы которого лежит модель шумного канала [Brill and Moore, 2000], обеспечивает исправление выявленных ошибок. После тестирования эффективности этих двух подходов с учетом результатов их работы была предложена собственная система автокоррекции словообразовательных ошибок. В ней используются алгоритм обнаружения морфологических ошибок из подхода Dickinson, Herring и модель Continuous Bag of Words FastText, которая основывается на теории дистрибутивной семантики [Harris, 1954]. В дополнение к ним вводятся правила исправления для распространенных случаев словотворчества, а также словарь парадигм для приведения слова к той грамматической форме, в которой было употреблено исправляемое слово. Результаты работы авторской системы были апробированы на данных Русского учебного корпуса и показали свою валидность. Ключевые слова словообразовательные ошибки, словотворчество, машинное обучение, автоматическое обнаружение ошибок, автоматическое исправление ошибок, русский как иностранный, учебный корпус, разметка Благодарности Исследование осуществлено в рамках Программы фундаментальных исследований НИУ ВШЭ Для цитирования Выренкова А. С., Смирнов И. Ю. Автоматическое обнаружение и исправление деривационных ошибок в письменной речи на русском как иностранном // Вестник НГУ. Серия: Лингвистика и межкультурная коммуника

Semiparametric analysis (in Russian)

Quantile, 2008

Настоящее эссе-обзор двух сфер применения полупараметрической эконометрики: анализа цензурированных данных о продолжительности занятости и анализа данных о заявленной готовности платить за природные ресурсы. 1 Введение Многие эконометрические задачи можно рассматривать как один из вариантов следующей модели. Имеется случайный вектор (Y, X) ∈ R k × R m , такой, что X имеет (неизвестную) плотность распределения g(x), а Y почти наверное характеризуется (неизвестной) функцией условной плотности f (y|x). Также известно преобразование t(y, x) из R k × R m в множество действительных чисел R, и условное математическое ожидание этого преобразования, θ(x) = E[t(Y, x)|X = x], является объектом эконометрического исследования. Примерами подобных преобразований могут быть: (1) t(y, x) ≡ y, когда θ(x) = E[Y |X = x]-математическое ожидание Y при условии X = x, или функция регрессии Y на x; (2) t(y, x) = yy , когда θ(x) = E[Y Y |X = x]-матрица вторых условных моментов, а в комбинации с первым примеромусловная дисперсия E[Y Y |X = x] − (E[Y |X = x])(E[Y |X = x]) ; и (3) t(y, x) = I A (y), то есть индикатор-функция множества A, когда θ(x)-вероятность события A при условии X = x. Примерами из экономических приложений могут быть вектор потребительского спроса Y и вектор дохода и цен x, или вектор чистого выпуска фирмы Y и вектор уровней постоянных затрат и цен на переменные факторы x. Определим возмущение ε = ε(y, x) ≡ t(y, x) − θ(x). Тогда описанную выше постановку можно сформулировать в виде обобщенной регрессионной модели t(y, x) = θ(x) + ε, где E[ε|x] = 0. Эконометрические задачи, подходящие под эту модель, можно классифицировать как полностью параметрические, полупараметрические или непараметрические. Модель является полностью параметрической, если априори известно, что функция θ и распределение ошибки ε принадлежат семействам с конечным числом параметров. Модель является непараметрической, если о функциональных формах θ и ε ничего неизвестно, за исключением, возможно, некоторых свойств регулярности и формы, таких как непрерывная дифференцируемость или вогнутость. Модель является полупараметрической, если она содержит конечный вектор параметров, обычно представляющий первостепенный интерес, но части θ и/или распределение ε не ограничены семействами с конечным числом параметров. Это определение полупараметрической модели в довольно широком смысле, и оно включает, например, модель линейной регрессии при условиях Гаусса-Маркова, когда распределение ошибок не ограничено параметрическим семейством, и только первые два момента параметризованы. Некоторые эконометристы предпочитают применять термин полупараметрическая модель в тех ситуациях, когда задачу можно охарактеризовать с помощью

Подходы к автоматической генерации числовых и словарных ребусов Approaches to automatic generation of numerical and dictionary rebuses (in Russian)

The paper describes approaches to the automatic generation of numeric (crypto rhythms) and vocabulary (metagrams, log logs, etc.) riddles using extended numbers. A generator of numerical rebus and examples of its work are presented (generation of rebuff samples with different parameter settings). Arrays of all metagram, anagram and logogrifical connections were obtained for a certain subset of nouns as part of the general lexicographic base of the Russian language. A program for generating labyrinths of metagrams and examples of generating labyrinths of metagrams with different settings of parameters (form, word length, etc.) is presented.

Автоматическое извлечение словарных помет из Русского Викисловаря

Автоматическое извлечение словарных помет из Русского Викисловаря. Аннотация. Разработана методология извлечения словарных помет из интернет-словарей. В соответствие с этой методологией экспертами построено отображение (соответствие один к одному) системы словарных помет Русского Викисловаря (385 помет) и системы словарных помет Английского Викисловаря (1001 помета). Таким образом, построена интегральная система словарных помет (1096 помет), включающая пометы обоих словарей. Разработан синтаксический анализатор (парсер), который распознаёт и извлекает известные и новые словарные пометы, сокращения и пояснения, указанные в начале текста значений слов в словарных статьях Викисловаря. Следует отметить наличие в парсере большого количества словарных помет известных заранее (385 словарных помет для Русского Викисловаря). С помощью парсера на основе данных Русского Викисловаря была построена база данных машиночитаемого Викисловаря, включающая информацию о словарных пометах. В работе приводятся численные параметры словарных помет в Русском Викисловаре, а именно: с помощью разработанной программы было подсчитано, что в базе данных машиночитаемого Викисловаря к 133 тыс. значений слов приписаны пометы и пояснения; для полутора тысяч значений слов был указан регион употребления слова, подсчитано число словарных помет для разных предметных областей. Вкладом данной работы в компьютерную лексикографию является оценка численных параметров словарных помет в больших словарях (пятьсот тысяч словарных статей). Ключевые слова: вычислительная лингвистика, компьютерная лексикография, русский язык. Krizhanovsky A.А., Smirnov A.V., Kruglov V. M., Krizhanovskaya N.B., Kipyatkova I.S. Automatic extraction of context labels from the Russian Wiktionary.

Fedorchenko S. Political and managerial software of the Russian Election System

2013

The scientific work is focused on the analysis of the role of political management in ensuring the effective functioning of the Russian election system. The political management is considered as an alternative to traditional methods of «administrative resources». Having identified the interrelation of political culture with the political management, the author proposes a draft decision in the field of promotion of domestic electoral process and democracy. The research is based on the data of public opinion polls.

ИЗМЕРЕНИЕ ВЫБОРОВ ПРИ ЭЛЕКТОРАЛЬНОМ АВТОРИТАРИЗМЕ: ИНДЕКС ДИСПРОПОРЦИОНАЛЬНОСТИ ДЛЯ РОССИЙСКИХ ВЫБОРОВ

Индекс диспропорциональности выборов демонстрирует, насколько результаты выборов соразмерны воле избирателей. Традиционно индекс диспропорциональности рассчитывается через разницу между долей голосов, отданных за партию, и долей полученных ею мандатов. В статье предложена методика расчета индекса диспропорциональности, адаптированного для российского случая, которая позволяет оценить соразмерность результатов выборов ожиданиям элит. Используя территориальное распределение кандидатов на выборах, индекс при измерении диспропорциональности учитывает косвенное воздействие на предложение избирательной системы. Таким образом, создан инструмент для точной оценки диспропорциональности результатов выборов относительно голосования избирателей при учете особенностей российской избирательной системы.

Автоматическое извлечение ключевых слов и словосочетаний из русскоязычных текстов с помощью алгоритма KEA

Компьютерная лингвистика и вычислительные онтологии

В докладе представлены результаты работы по модификации алгоритма KEA ( Keyphrase Extraction Algorithm ), используемого для извлечения ключевых слов и словосочетаний. KEA широко известен своей эффективностью для извлечения ключевых слов и словосочетаний из англоязычных текстов. В статье представлены результаты применения данного алгоритма к текстам на русском языке. Для определения качества работы алгоритма с русскоязычными текстами были проведены эксперименты на материале представительных корпусов.