Вялые Записки Скучного Человека (original) (raw)

Про саратовскую аномалию 62,2% и количественную оценку (не)вероятности тамошней кучности результатов Единой России я уже писал. Заодно я там рассказал про методику оценки того, что более чем на сотне участков доля голосов за ЕР случайным образом совпадет с точностью до десятой доли процента - это делается через два биномиальных распределения (краткий пересказ методики см. в конце данного поста). Но Саратов - лишь один из примеров. Всего удалось выявить 51 "сгусток" со статистически невероятной концентрацией результатов Единой России на том или ином проценте в пределах одного ТИКа (города, района, городского района).

Все эти 51 "сгусток" приходятся на 11 регионов - это Саратовская и Тюменская области (в обоих случаях - только районы областного центра), Кемеровская область, Ханты-Мансийский округ и республики - Дагестан, Чечня, Ингушетия, Кабардино-Балкария, Карачаево-Черкессия (т.е. все северокавказские, кроме Осетии и Адыгеи), а также Татарстан и Башкирия. Примечательно, что в большинстве из этих регионов - во всех, кроме ХМАО и КЧР - "сгустков" сразу несколько: не менее трех на регион.

Ниже в таблице перечислены все "сгустки", для которых вероятность их случайного образования составляет менее 0,006% (1 случай на 17 тысяч). Казалось бы, 0.006% - не такая уж и маленькая вероятность. Но: как сказано выше, в этих же регионах (за исключением ХМАО) встречаются и другие "сгустки" - уже с вероятностями менее 0,000005% (менее 1 случая на 20 миллионов). Получается, что концептуально между вероятностью 10-5 и скажем 10-12 нет никакой разницы - и те, и те "совпадения" возможны только в одних и тех же специфических регионах, и совпадение их географии - наглядное доказательство того, что "сгустки" с вероятностью 10-5 - это тоже фальсификации, прямые "рисовки" результатов.

В сумме на 51 "сгусток" приходится 1566 участков, на которых проголосовало почти 2 миллиона человек (1984 тысячи), из них 1417 тыс. за Единую Россию. То есть каждый 20-ый голос, полученный ЕР по стране, нарисован в этих "сгустках". И по хорошему результаты по всем этим участкам надо отменять. Или как минимум инициировать проверку ЦИКа - с привлечением к ней представителей партий и общественных организаций

Итак, таблица (полная версия)

ТИК диапазон кол-во и доля УИКов вероятность
Кабардино-Балкарская Республика
Прохладненская городская 78,35%-78,46% 20 УИКов (100%) 5,3E-27
Эльбрусская 78,43%-79,72% 21 УИКов (100%) 3,6E-10
Нальчикская городская 76,03%-77,97% 86 УИКов (84%) 2,3E-07
Карачаево-Черкесская Республика
Черкесская городская 76,41%-78,14% 51 УИКов (98%) 6,1E-12
Прикубанская 83,08%-83,71% 18 УИКов (78%) 3,3E-10
Кемеровская область
Полысаевская городская 72,45%-73,22% 20 УИКов (100%) 2,3E-14
Топкинская 80,57%-81,93% 34 УИКов (69%) 4,0E-08
Юргинская городская 80,48%-82,47% 40 УИКов (98%) 6,6E-07
Березовская городская 72,46%-73,41% 17 УИКов (68%) 4,0E-08
Анжеро-Судженская городская 72,16%-74,15% 45 УИКов (75%) 4,6E-05
Мысковская городская 71,76%-72,75% 18 УИКов (72%) 6,0E-05
Республика Башкортостан
Стерлитамакская городская 54,41%-56,4% 97 УИКов (84%) 2,1E-12
Октябрьская 52,74%-53,68% 30 УИКов (73%) 4,5E-10
Салаватская городская 50,99%-51,05% 12 УИКов (19%) 1,2E-08
Уфа, Калининская 47,54%-49,04% 52 УИКов (76%) 1,1E-07
Уфа, Кировская 46,21%-48,16% 56 УИКов (74%) 3,5E-06
Уфа, Орджоникидзевская 49,92%-50,1% 15 УИКов (23%) 4,3E-06
Стерлибашевская 61,73%-62,71% 16 УИКов (48%) 6,6E-06
Уфа, Демская 50,96%-51,42% 14 УИКов (42%) 1,0E-05
Республика Дагестан
Дахадаевская 91,07%-92,45% 42 УИКов (75%) 2,6E-08
Сулейман-Стальская 89,85%-90,35% 23 УИКов (55%) 1,9E-07
Сергокалинская 95,89%-96,06% 13 УИКов (45%) 3,1E-07
Республика Ингушетия
Назрановская 70,24%-71,05% 23 УИКов (79%) 7,4E-09
Малгобекская городская 72,34%-73,7% 19 УИКов (90%) 5,3E-07
Сунженская 73,93%-74,1% 10 УИКов (38%) 1,6E-06
Республика Татарстан (Татарстан)
Зеленодольская городская 79,97%-80,14% 15 УИКов (39%) 4,3E-08
Нурлатская 98,97%-99,84% 43 УИКов (98%) 9,0E-07
Набережные Челны, Комсомольская 79,54%-80% 23 УИКов (49%) 3,5E-06
Лениногорская городская 86,93%-87,12% 11 УИКов (46%) 6,4E-06
Елабужская городская 84,78%-86,01% 31 УИКов (79%) 8,3E-06
Казань, Приволжская 74,82%-75,32% 30 УИКов (34%) 2,2E-05
Казань, Советская 74,04%-76,04% 78 УИКов (75%) 4,7E-05
Саратовская область
Саратов, Заводская 61,69%-62,82% 54 УИКов (76%) 5,5E-13
Саратов, Кировская 62,14%-62,29% 17 УИКов (27%) 2,8E-09
Саратов, Октябрьская 61,99%-62,81% 30 УИКов (56%) 2,5E-07
Саратов, Ленинская 61,48%-63,46% 83 УИКов (73%) 2,6E-06
Саратов, Фрунзенская 62,14%-62,34% 9 УИКов (36%) 1,0E-05
Тюменская область
Тюмень, Центральная 47,72%-47,96% 26 УИКов (36%) 2,1E-09
Тюмень, Центральная 38,21%-38,66% 30 УИКов (41%) 2,1E-09
Тюмень, Восточная 48,9%-50,13% 41 УИКов (71%) 2,1E-07
Тюмень, Ленинская 48,37%-48,46% 10 УИКов (22%) 1,2E-06
Тюмень, Калининская 48,96%-49,44% 28 УИКов (35%) 1,7E-06
Ханты-Мансийский автономный округ – Югра
Нефтеюганская 91,95%-92,03% 9 УИКов (36%) 2,8E-06
Чеченская Республика
Урус-Мартановская 97,37%-97,66% 36 УИКов (100%) 1,7E-19
Шалинская 95,42%-95,66% 27 УИКов (100%) 1,2E-19
Ножай-Юртовская 95,7%-96,21% 32 УИКов (100%) 1,8E-18
Гудермесская 97,53%-97,91% 45 УИКов (96%) 3,2E-16
Наурская 96,35%-96,55% 19 УИКов (100%) 9,7E-15
Грозный, Заводская 95,19%-95,39% 15 УИКов (100%) 1,7E-12
Шелковская 95,6%-96,17% 26 УИКов (100%) 4,7E-12
Сунженская 93,52%-93,72% 6 УИКов (86%) 2,9E-05

Примечательно, что за пределами вышеперечисленных 11 регионов случилось только два совпадения, вероятность которых получается меньше 0,1% - в одном из районов Челябинска 8 участков попали в диапазон от 31,79% до 31,88% за Единую Россию (вероятность такого совпадения в 4 раза выше, чем у замыкающего приведенную ниже таблицу "сгустка" в городе Мыски) , а в Большемурашкинском районе Нижегородской области сразу 9 участков (из 19) показали результат ЕР от 65,00% до 65,50% - но последний случай это как раз тоже явная фальсификация.

Про некоторые из "сгустков", попавших в таблицу выше, хочется сказать подробнее

(1) Город Прохладный в Кабардино-Балкарии. Безусловный рекордсмен, где все 20 участков уложились в диапазон от 78,35% до 78,46% за Единую Россию (не спрашивайте меня, почему именно 78,4% - не знаю). Там еще и явка почти совпадает (разброс от 88,6% до 90,3%), и проценты за другие партии (например, у КПРФ везде 18,8%, и только на одном участке 1 лишний голос - так что получилось 18,9%; у "эсеров" 2,0% плюс минус 0,1%; на четвертом месте везде "зеленые" везде с 0,3%; у Яблока ни одного голоса во всем городе; также в городе ни одного недействительного и ни одного попутавшего КПРФ и КПКР)
(2) Центральный район Тюмени. Это единственный ТИК, в котором обнаружилось сразу два "сгустка". Но примечательно даже не это, а то, какие именно проценты там рисовались. Более трети участков (36%) попали по голосованию за ЕР в диапазон чуть шире 0,2% - от 47,72% до 47,96%. Рисовали менее 48% - тогда как в большинстве других "сгустков" у Единой России 70% и более. Но это еще не все: в том же Центральном районе еще 30 участков (41% от всех УИКов района) показали результат за ЕР между 38% и 39% - что как раз примерно соответствует среднему результату ЕР по нефальсифицированным участкам в крупных городах. Притом в сытой, осыпанной нефтяными деньгами Тюмени даже в центре города поддержка Единой России должна быть выше среднего - так что похоже, что на части участков в Центральном районе Тюмени ЕР нарисовали процент меньше реального (впрочем, при рисованной явке около 75-80% ЕР все равно осталась в выигрыше по количеству полученных голосов). При 38,х% за Единую Россию совпадают и результаты других партий - у эсеров всегда 22% с копейками, у КПРФ 21%, у ЛДПР 17%, у остальных не более 0,2%.
Замечательная иллюстрация рисования результатов - участок 2220. Там при вводе данных промахнулись, и у КПРФ и эсеров оказалось по 0 голосов, тогда как их стандартные результаты - 21% и 22% - сместились на одну строчку вверх и оказались записаны соответственно на Яблоко и Патриотов России. Понятно, что это просто ошибка при вводе данных - но показательно, что подобные ошибки встречаются только там, где рисовали результаты.
В завершение темы Тюмени - "сгустки" есть и в других районах города, но только по одному на район. И в отличие от Саратова, где во всех районах "метились" в одинаковый процент, в Тюмени в каждом районе была своя цель - где-то 48,4%, где-то 49-50%. Но всегда около 50%, чуть ниже
(3) башкирский Стерлитамак - рекордсмен среди ТИКов по количеству совпадающих участков: 97 из 116. Город отличается второй раз подряд - в 2011 г. там на большинстве участков была явка 75% и за ЕР 75%. Теперь все скромнее - только 55%. Высвободившиеся проценты не стали распылять по разным партиям или оставлять на усмотрение избирателям - а записали КПРФ, у которой на 85 участках из 97 результат составил фантастические 31% плюс-минус 0,5%. Подробнее у kireev
(4) Уфа. Аналог Тюмени - "сгусток" в каждом или почти каждой районе, у каждого района своя "цель", но это всегда число около 50% (47-48% в Кировском районе до 51% в Демском). Особо примечателен Орджоникидзевский район, где 15 участков не просто совпали в узком диапазоне шириной 0,2%, но еще и диапазон этот оказался ровно на 50%. Похожая на Уфу картина - только чуть более высокие проценты за ЕР - и в башкирских "сгустках" за пределами Уфы (например, в Салавате и Октябрьском)
(5) Саратов. Тут нужны пояснения. Во-первых, использованный мною алгоритм ищет "сгустки" в пределах ТИКа, а не города. Поэтому 107 саратовских участков с попаданием в 62,2% в таблице показаны 5 отдельными строчками. Во-вторых, алгоритм заточен под обнаружение максимально больших "сгустков" с аномально большой плотностью распределения. Поэтому если в диапазоне шириной скажем 2% обнаруживается аномально много участков, то дальнейший анализ будет вестись по этому диапазону - а не по более узкому (и менее вероятному), но включающему в себя меньшее количество участков диапазону в 1% или меньше. Соответственно, указанные в таблице границы диапазонов для районов Саратова шире, чем реальная ширина "сгустка" (которая составляет 0,11% - 62,135% до 62,245%)

Как считается вероятность случайного совпадения? Шаг 1. Если представить голосование на каждом участке как биномиальное распределение, то у нас есть матожидание - средний результат ЕР по группе участков с похожими результатами и есть количество "испытаний" (количество проголосовавших). Далее по формуле биномиального распределения считаем вероятность, что количество "успехов" (голоса за ЕР) попадет в искомый интервал [все считается в экселе через формулу биномиального распределения - БИНОМРАСП]. По сути мы считаем, что доля голосов за ЕР в "выборке" (на конкретном участке) будет отличаться от доли голосов за ЕР в "генсовокупности" (все совпадающие участки) не более чем на 1/2 ширины диапазона

Шаг 2. После того, как мы посчитали вероятность попадания результат ЕР на отдельном участке в определенный диапазон (у каждого участка эта вероятность будет своя, можно взять среднюю по всей группе совпадающих участков), мы можем посчитать вероятность того, что в целом по ТИКу из m участков n участков попадет в искомый диапазон

ВАЖНО: моя оценка строится на допущении, что отклонения результатов голосования по участкам носят случайный характер (как будто избирательный участок - это случайная выборка из генеральной совокупности). Это предположение пусть и не соответствует действительности, но оно максимально лояльно к избиркомам и дает самую высокую оценку вероятности попадания результата в одно и то же значение. Любая модель, включающая учет социально-демографических и экономических различий между участками, покажет большую дисперсию результатов и еще меньшую вероятность кучкования результатов вокруг одного числа

Непосредственно поиск "сгустков" осуществлялся путем подсчета для каждого участка количества других участков в том же ТИКе, которые по результату Единой России отстают от него не более чем на 2%, на 1%, на 0,5%, на 0,2% или 0,1% (для каждого размера шага делались свои подсчеты). Далее для каждого совпадения нескольких участков ТИКа в одном диапазоне считалась вероятность того, что это получилось случайно. Если в одном ТИКе получалось несколько наборов участков с вероятностью совпадения менее 0,01%, то выбирался диапазон, включающий наибольшее количество участков. Далее проводился повторный (финальный) подсчет вероятности случайного совпадения - исходя не из стандартной, а из фактической ширины диапазоны. В ряде случаев из выявленных скоплений участков вручную исключались УИКи, которые формально попадают в тот же диапазон - но по проценту за ЕР сильно отстают от основной масся участков внутри диапазона