Лингвистический анализ: Андрей Белянин «Отстрел невест» (original) (raw)

Лингвистический анализ произведения


Длина текста, знаков: 425779
Слов в произведении (СВП): 61601
Приблизительно страниц: 215
Средняя длина слова, знаков: 5.28
Средняя длина предложения (СДП), знаков: 67.08
СДП авторского текста, знаков: 91.39
СДП диалога, знаков: 57.09
Доля диалогов в тексте: 60.4%
Доля авторского текста в диалогах: 6.01%
Использование диалогов по тексту
(по горизонтали: счётчик знаков; по вертикали: процент диалогов; размер скользящего окна: знаков, шаг: 1000 знаков)
Активный словарный запас
Использовано уникальных слов: 10432
Активный словарный запас (АСЗ): 9320
Активный несловарный запас (АНСЗ): 1112
Удельный АСЗ на 3000 слов текста: 1398.17
Удельный АСЗ на 10000 слов текста: 3363.32 —> 736-е место в рейтинге УАСЗ-10000
Динамика изменения УАСЗ-3000 от начала до конца произведения
(по горизонтали: счётчик слов; по вертикали: УАСЗ-3000)
Максимальное значение УАСЗ-3000 (0) приходится приблизительно на 0-ю страницу текста.
Миниимальное значение УАСЗ-3000 (10000000) приходится приблизительно на 0-ю страницу текста.
Части речи
Неопределённых частей речи (НОЧР), слов: 14685 (23.84% от СВП)
Определённых частей речи (ОЧР), слов: 46916 (76.16% от СВП)
Из них (принимая ОЧР за 100%):
Существительное 15452 (32.94%)
Прилагательное 5682 (12.11%)
Глагол 10610 (22.61%)
Местоимение-существительное 4661 (9.93%)
Местоименное прилагательное 2287 (4.87%)
Местоимение-предикатив 9 (0.02%)
Числительное (количественное) 538 (1.15%)
Числительное (порядковое) 110 (0.23%)
Наречие 2706 (5.77%)
Предикатив 520 (1.11%)
Предлог 5704 (12.16%)
Союз 4892 (10.43%)
Междометие 1107 (2.36%)
Вводное слово 213 (0.45%)
Частица 4164 (8.88%)
Причастие 663 (1.41%)
Деепричастие 176 (0.38%)
Служебных слов: 23213 (49.48%)
Биграммы частей речи
В таблице показаны частоты словопар типа «существительное+прилагательное», «прилагательное+глагол» и т.д. Для удобства восприятия частота выражена в среднем количестве пары на 1000 слов текста. Вертикаль отражает часть речи первого слова биграммы, горизонталь — второго.
СуществительноеПрилагательноеГлаголМестоимение-существительноеМестоименное прилагательноеМестоимение-предикативЧислительное (количественное)Числительное (порядковое)НаречиеПредикативПредлогСоюзМеждометиеВводное словоЧастицаПричастиеДеепричастиеСуществительное432850129.041.8.15111.532245.2.61143.9.52Прилагательное506.8182.51.1.02.31.062.5.584.851.3.122.61.1.33Глагол361520156.7.041.4.358.61.427164.2.71112.1.38Местоимение-существительное117.6205.53.5.02.94.126.4.679.46.1.79.469.6.35.35Местоименное прилагательное1874.81.2.81.00.19.101.2.332.21.8.19.082.7.42.10Местоимение-предикатив.02.02.00.02.00.00.00.00.00.00.02.02.02.00.00.00.00Числительное (колич-ое)3.91.21.00.50.33.02.13.02.19.10.56.71.06.00.54.15.04Числительное (порядковое)1.1.13.13.00.06.00.00.00.06.02.06.25.02.02.17.02.00Наречие4.64.8153.71.2.02.50.042.4.633.83.6.67.155.3.90.21Предикатив.83.481.5.79.25.00.08.02.50.17.73.98.21.06.83.04.00Предлог62133.78.911.002.1.77.58.13.121.4.10.02.601.3.04Союз167.317113.7.00.56.135.8.968.36.21.1.549.5.79.23Междометие6.51.61.44.4.63.00.02.04.81.121.11.8.38.021.1.13.04Вводное слово.48.19.65.65.13.00.02.00.23.06.25.29.02.00.54.00.02Частица8.84.3295.51.6.021.1.103.41.15.46.9.71.296.3.75.13Причастие6.98.67.19.21.00.04.02.19.021.9.67.19.00.36.06.06Деепричастие.65.25.52.15.06.00.00.00.15.06.86.21.04.00.19.00.00
Части речи на позициях в предложении
Таблица показывает, с какой частотой употреблены автором различные части на позициях в предложении. Например, ячейка «глагол – 3» показывает с какой вероятностью третье слово в случайно взятом предложении произведения является глаголом. Вероятность выражена в процентах. В каждом столбце максимальное значение отмечено жирным шрифтом, что позволяет по первым трём-пяти столбцам примерно представить типичное для произведения начало предлоджения. Например, последовательность «местоимение-существительное, глагол, прилагательное, существительное» может быть чем-то вроде «Он срубил старое дерево...»
Номер слова в предложении 12345678910Существительное172025 25 26 27 28 28 28 29Прилагательное7.17.58.19.9109.88.9109.69.8Глагол14212018181918171817Местоимение-существительное1311119.27.76.97.15.85.85.9Местоименное прилагательное2.53.44.54.54.13.83.94.13.84.3Местоимение-предикатив.00.00.00.00.00.00.00.00.00.00Числительное (колич-ое).80.80.8011.1.7011.901.3Числительное (порядковое).20.30.10.10.10.20.10.20.20.10Наречие6.25.94.34.83.94.24.344.33.9Предикатив1.71.2.90.60.801.50.60.80.60Предлог7.87.48.3109.89.410111012Союз138.67.37.77.287.68.47.57.9Междометие4.71.31.41.81.91.81.81.51.91.6Вводное слово.80.50.40.20.40.20.20.30.30.30Частица109.37.95.67.26.45.66.465.6Причастие.60.50.80.801.61.21.31.21.81.1Деепричастие.70.40.20.30.30.30.20.40.30.10
Знаки препинания
Частоты знаков препинания (среднее количество на 1000 слов):
, запятая 127.61
. точка 55.02
- тире 29.25
! восклицательный знак 19.30
? вопросительный знак 11.51
... многоточие 26.36
!.. воскл. знак с многоточием 0.15
?.. вопр. знак с многоточием 0.24
!!! тройной воскл. знак 0.32
?! вопр. знак с восклицанием 4.30
" кавычка 5.37
() скобки 0.86
: двоеточие 3.59
; точка с запятой 0.13

Распознавание автора текста

Алгоритм распознавания автора текста, разработанный в 2008 году Львовым Алексеем (creator) для Лаборатории Фантастики, основан на сравнении лингвистического профиля текста с идентичными по структуре лингвистическими профилями авторов для выявления наиболее точного совпадения. Лингвопрофили авторов вычисляются заблаговременно и хранятся в базе данных как массивы усреднённых показателей и их среднеквадратичных отклонений по всем текстам автора. Таких показателей насчитывается более тысячи, часть из которых приведена выше.

Эмпирический подсчёт показал, что совокупный анализ этих данных, взятых в весовых долях, позволяет определить автора романа с точностью 98.79%, рассказа — 84.32% (при условии, что в базе данных имеется лингвистический профиль истинного автора). Алгоритм сложен и обладает рядом инновационных решений, что позволяет достичь высокой точности в сравнении с прототипами, основанными на анализе одних лишь символьных биграмм.

Алгоритм работы лингвоанализатора кратко описан в статье «Лингвистический анализ текста и распознавание автора».