vsvor (vsvor) wrote,
vsvor
vsvor

О способах подсчета бюллетеней и целочисленных процентах

После предыдущих думских выборов было написано немало текстов, касающихся статистических аномалий в результатах, и сломано неисчислимое множество копий. См., например, статьи:
Сергей Шпилькин. Математика выборов - 2011 (Троицкий вариант)
Александр Шень. Выборы и статистика: казус "Единой России" (2009–2012) (arxiv, pdf)
Сергей Кузнецов. Математические распределения и выборы в ГосДуму 2011 (сайт автора)

Разумеется, уже в первые часы выборов 2016 г. все орудия и программы разоблачителей были нацелены на сайт Центризбиркома. Благодаря тому, что данные доступны, а энтузиасты написали скрипты для перевода в текстовый формат, наблюдать закономерности имеет возможность каждый, кто хоть когда-нибудь имел дело со статистикой.

Чуть ли не первая картинка, которую выдал мне Matlab:



По оси абсцисс явка с шагом 0.1% до 99.9%. Для большей информативности пик на 100% (~700 тыс.) отброшен. По оси ординат число проголосовавших на участках с данным показателем явки.

Использованы данные на 23:09 21.09.16 (источник) по 90005 УИК. Явку находим как число всех бюллетеней (действительные + недействительные), деленное на число избирателей в списках; после домножения на 1000 округляем до ближайшего целого числа и добавляем к элементу массива с этим индексом число избирателей, голосовавших на участке.

При построении графика именно с этим шагом (что и неудивительно, поскольку среднее число избирателей на участке ~1140) очень хорошо видны пики на целочисленных процентах (в особенности - 85% и 95% явки). Перечислим значения на интервале от 60% до 90%, которым соответствует более 60000 проголосовавших: 61, 64.3, 70, 71, 80, 81, 82, 83, 85, 86, 87, 89, 89.9, 90. Пики на 84% и 88% немного не дотянули до этого рубежа, но на рисунке они заметны. Далее пики на целочисленных процентах становятся выше, а отметку 95% украшает профиль Останкинской телебашни, разве что без утолщений.

О чем это говорит? Как минимум, о том, что среди участков с условно-целочисленными показателями явки весьма много (от половины до трети; можно оценить точнее) таких, где явка получена искусственным путем, а именно на калькуляторе (явка = число избирателей*заданный процент). Когда речь идет о случайном распределении, целые числа - дело рук человеческих. Несколько позже можно будет оценить и статистическую значимость.

В приведенных выше статьях объясняется, почему могут возникать пики на 1/2, 1/3, 2/3 и других дробях с небольшими знаменателями, особенно если построена зависимость числа участков с данной явкой от явки, но к нашей картинке эти соображения привести не могут.

Некоторую загадку представляет пик на 64.3%. Число как будто ничем не примечательное. Прежде чем открывать закон, который мог бы отвечать за появление этой константы, лучше для начала проверить, в каких округах находятся УИК с данным значением явки. Оказывается, что из 152 таких УИК 68 (!) относятся к ОИК №163 (где их насчитывается 49 из 373) и №165 (19 из 531), Саратовский и Балашовский, Саратовская область. В аномальных УИК голосовало ~89 тыс. человек. Примерно на такую же величину возвышается таинственный пик над соседними значениями.

---

Тот же график для результатов ЕР, отношение голосов за ЕР к числу действительных бюллетеней.



Пик на 62.2% - это снова Саратов, 56 участков из ОИК №163, 41 из №165, 12 из №166, 3 из №164. Перемножение двух "саратовских констант" дает в точности 40% от общего числа избирателей.

ЛДПР:



Пик на 9.1% - Саратов, 145 (!) участков в тех же двух злополучных ОИК. Примерно на 140 участках нарисованы 11.8% КПРФ и 6.1% СР.


Хорошо, что генератором псевдослучайных чисел пользоваться сложнее, чем обычным калькулятором, не правда ли?

---
27.09.16

Нетрудно выделить и округи, отвечающие за "гребенку" на целых значениях процента явки. Пусть y - отношение общего числа опущенных в урны бюллетеней (действительные+недействительные) к числу n зарегистрированных избирателей на участке; Y=round(y*1000), где round() означает округление до ближайшего целого. Очевидно, Y делится на 10 с вероятностью ~0.1, и эта вероятность тем ближе к 0.1, чем больше n (строго говоря, зависимость здесь довольно сложная, и следует оценивать вероятность отдельно для каждого n).

Пусть i - номер округа (от 1 до 225); N(i) - число участков в округе, на которых больше 500 зарегистрированных избирателей; k(i) - сколько из N(i) таких участков, где Y(j) делится на 10 и Y(j)<1000 (чтобы не учитывать военные части). Типичное значение N(i) - 200-300, поэтому биномиальное распределение можно аппроксимировать нормальным, а отклонение выразить в сигмах. После сортировки по убыванию видим следующую таблицу:




P.S. Подробные разъяснения, обоснование метода и аналогичные расчеты для отдельно взятых регионов на материале предыдущих выборов есть в статье: Dmitry Kobak, Sergey Shpilkin, and Maxim S. Pshenichnikov, 2016, Integer percentages as electoral falsification fingerprints. Ann. Appl. Stat. 10 (1), 54-73.
arXiv
Могу добавить разве что забавную деталь: если делать те же расчеты, но в другой системе счисления, то в аномальных округах количество участков с "почти целым" процентом отклоняется в меньшую сторону. Задача на сообразительность: почему так происходит?
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 0 comments