Национальный корпус русского языка (original) (raw)

Поиск по корпусам

13.06.2024

В Портрете слова теперь можно исследовать отношение количества вхождений слова в категорию к объёму этой категории, умноженное на миллион (ipm). С помощью этого виджета можно определить, например, действительно ли Лев Толстой употреблял слово мир чаще других русских классиков, учитывая объём написанных ими текстов, и в чьих текстах больше всадников — М. Ю. Лермонтова или А.С. Пушкина.

Новая диаграмма доступна в виджете «Статистика текстов» Портрета слова. Пользователь может выбрать метаатрибут, для которого нужно построить диаграмму, из списка наиболее показательных атрибутов корпуса. Чтобы увидеть круговую диаграмму, содержащую точное число вхождений слова в категорию или число текстов, содержащих искомое слово, нужно переключиться с ipm на слова или тексты.

Кроме того, в виде выдачи «Статистика» появилась информация об ipm в таблице. По умолчанию таблица отсортирована по количеству вхождений. Чтобы изменить критерий сортировки, кликните на название колонки.

13.06.2024

В корпусе «‎Социальные сети» появилась разметка тональностей текстов. Теперь для исследования можно отобрать тексты положительной или отрицательной тональности. Тексты, тональность которых определить не удалось, отнесены к неопределенной категории.

Разметка тональностей в корпусе «‎Социальные сети»‎ появилась благодаря нашим Друзьям НейроКРЯ – с их помощью мы собрали данные для обучающего датасета, а затем обучили нейросетевую модель и разметили основной массив текстов корпуса. Поле в форме отбора подкорпуса и в информации о тексте отмечено специальным значком, означающим, что значения для атрибута сгенерированы НейроКРЯ.

В автоматической разметке могут встречаться ошибки. Если вы обнаружите их, пожалуйста, сообщите нам об этом с помощью кнопки «Сообщить об ошибке» в информации о тексте. Это поможет нам улучшить качество разметки.

27.05.2024

Древнерусский корпус пополнен на 31 тыс. словоупотреблений. В него включены, в частности, памятники древнерусской литературы «Слово о погибели Русской земли» и «Задонщина», а также официально-деловые документы: «Устав князя Ярослава» и грамоты XIII—XV веков из Украины, Молдовы, литовско-белорусских земель, Смоленска, Новгорода, Пскова и Москвы. Словарь корпуса пополнился почти на тысячу лексем, в том числе добавлены более ранние упоминания таких современных слов, как чемодан, таможенник и странствие.

В Портрете слова Древнерусского корпуса появился виджет «Похожие слова». Как и в других корпусах, где доступен этот виджет, ближайшие семантические ассоциаты слова сгенерированы автоматически. Модель, использованная для поиска слов-ассоциатов в Древнерусском корпусе, а также обновленная векторная модель для Старорусского корпуса доступны для скачивания в разделе Нейросетевые модели НКРЯ.

27.05.2024

В мае мы значительно расширили возможности сразу нескольких корпусов: Старорусского, Церковнославянского и Устного. В этих корпусах теперь доступны новые виды выдачи: Статистика, Частотность и n-граммы. Благодаря новому функционалу можно узнать, например, какие сочетания глаголов в богослужебных текстах встречаются чаще — пойте и превозносите или радуйтеся и веселитеся, а также определить, какие глаголы в императиве чаще встречаются с дополнением руку.

Статистические данные также появились в Портрете слова и Портрете корпуса. Кроме того, пользователям Старорусского, Церковнославянского и Устного корпусов доступна настройка выгрузки примеров и сортировки в режиме KWIC.

В этих корпусах, а также в Древнерусском корпусе и корпусах «Русская классика» и «От 2 до 15» теперь действует поиск по лемме и словоформе с помощью регулярных выражений.