Шрифт:
Интервал:
Закладка:
Даррелл показал на висевшую на стене рамку, в которую была помещена первая страница газеты со статьей о вынесении приговора Уэсли Родсу — местному финансовому консультанту, укравшему у инвесторов миллионы долларов, чтобы покупать на эти деньги классические модели автомобилей. «Закон Бенфорда помог нам привлечь его к ответственности», — сообщил Даррелл. Отчеты, которые Родс отправлял инвесторам, не прошли проверку на соответствие закону первой цифры, а это означало, что что-то с ними не так. Проанализировав отчеты более внимательно, Даррелл обнаружил, что Родс сфальсифицировал данные. Теперь Даррелл характеризует закон Бенфорда так: «Это ДНК количественного исследования, исходное предположение о том, как работают цифры. И, как я уже неоднократно объяснял в суде, хорошо то, что здесь речь идет о науке. Открытие Бенфорда — не теория. Это закон».
Метод анализа чисел на предмет их соответствия закону Бенфорда все чаще используется для выявления манипуляций с данными, причем не только в контексте финансовых махинаций, но и во всех тех случаях, к которым этот закон применим. В 2006 году Скотт де Марчи и Джеймс Гамильтон из Университета Дьюка написали, что предоставленные промышленными предприятиями сведения об уровне выброса свинца и азотной кислоты не удовлетворяют закону Бенфорда, а это говорит о вероятности искажения информации[39]. На основании закона Бенфорда политолог Мичиганского университета Уолтер Мибейн заявил о возможной фальсификации результатов президентских выборов в Иране. Мибейн проанализировал все протоколы голосования и обнаружил существенные расхождения в количестве голосов за Махмуда Ахмадинежада с законом Бенфорда, тогда как в результатах его соперника, сторонника реформ Мир-Хосейна Мусави, никаких отклонений от этого закона не наблюдалось. «Самое простое объяснение, — писал Мибейн, — состоит в том, что в результаты Ахмадинежада были искусственным образом включены дополнительные голоса, тогда как результаты Мусави остались нетронутыми». Ученые используют закон Бенфорда и в качестве инструмента диагностики. Так, во время землетрясений верхние и нижние значения показаний сейсмографа подчиняются данному закону. Малколм Сэмбридж из Австралийского национального университета проанализировал две разные сейсмограммы, на которых было зафиксировано землетрясение в Индонезии в 2004 году, — одна была записана в Перу, а другая в Австралии. Данные, отображенные на первой сейсмограмме, полностью соответствовали закону Бенфорда, тогда как на второй имели место небольшие отклонения. Сэмбридж объяснил это тем, что в районе Канберры могло произойти незначительное сейсмическое возмущение. Так проверка данных на соответствие закону первой цифры позволила выявить землетрясение, которое осталось незамеченным.
Цифра 1 встречается чаще цифры 2 не только на первой, но и на второй, третьей, четвертой и фактически любой позиции в записи числа. На представленном ниже рисунке продемонстрирована частотность вторых цифр в процентном выражении (среди которых есть теперь и цифра 0). Различия между этими показателями не столь ощутимы, как в случае первых цифр, но их все же можно использовать в целях диагностики, скажем в процессе анализа финансовых данных и результатов выборов. По мере продвижения к следующим позициям данные о частоте появления цифр стремятся к одному значению. Следовательно, закон Бенфорда касается не только первых цифр. В мире действительно гораздо больше единиц!
В суде Доррелла часто просят обосновать закон Бенфорда. В таких случаях Даррелл становится перед лекционной доской и начинает считать от единицы и далее, записывая названные цифры. При этом он чувствует себя школьным учителем, проводящим урок математики. «Это просто выводит из себя судью и адвоката», — иронизирует он.
Мы можем сделать то же самое. Вот числа от 1 до 20:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20
Больше половины этих чисел начинаются с цифры 1, поскольку от 11 до 19 все числа начинаются с единицы. Продолжаем считать. Где бы мы ни остановились, чисел с первой цифрой 1 будет не меньше, чем чисел с первой цифрой 2, поскольку для того, чтобы добраться до второго десятка, второй сотни или второй тысячи, необходимо назвать все числа первого десятка, первой сотни и первой тысячи. Точно так же чисел с первой цифрой 2 будет не меньше, чем чисел с первой цифрой 3 и т. д., вплоть до чисел с первой цифрой 9. Такое обоснование помогает понять закон Бенфорда на интуитивном уровне, и его вполне достаточно для суда как государственного органа, а вот для суда математики требуется более строгое доказательство.
Одно из самых поразительных свойств закона Бенфорда — что последовательность цифр не зависит от единицы измерения. Когда массив финансовых данных подчиняется закону Бенфорда в случае, если они выражены в фунтах, он будет подчиняться этому закону и после их конвертации в доллары. Если массив географических данных соответствует закону Бенфорда в километрах, он будет соответствовать ему и в случае их представления в милях. Это свойство, обозначаемое термином «масштабная инвариантность», верно всегда, поскольку числа, взятые из газет, банковских счетов и атласов мира показывают одно и то же распределение первых цифр независимо от используемых систем измерения и валюты.
Для перевода расстояния из миль в километры необходимо умножить его на 1,6; для конвертации денежной суммы из фунтов в доллары ее тоже следует умножить на фиксированное число, соответствующее текущему обменному курсу. Простейший способ понять масштабную инвариантность закона Бенфорда сводится к анализу поведения чисел в случае их умножения на два. Если число, начинающееся с цифры 1, умножить на 2, результат будет начинаться с цифры 2 или 3. (Например, 12 × 2 = 24; 166 × 2 = 332.) Если число, начинающееся с цифры 2, умножить на 2, первой цифрой произведения будет 4 или 5. (Например, 2,1 × 2 = 4,2; 25 × 2 = 50.) Первые две строки представленной ниже таблицы показывают, что происходит с первой цифрой числа в случае его умножения на два.
Первая цифра числа n/Первая цифра числа 2n/Процент чисел в распределении Бенфорда
1/2 или 3/30,1
2/4 или 5/17,6
3/6 или 7/12,5
4/8 или 9/9,7
5/1/7,9
6/1/6,7
7/1/5,8
8/1/5,1
9/1/4,6
Предположим, S — это массив данных, подчиняющихся закону Бенфорда. Давайте умножим на два каждое число, входящее в массив S, и обозначим новый массив чисел буквой T. Согласно таблице, числа из массива S, начинающиеся с цифры 5, составляют 7,9 процента от общего количества чисел в массиве; числа, первая цифра которых 6, — 6,7 процента, 7, 8 и 9–5,8; 5,1 и 4,6 процента соответственно. Следовательно, в массиве S доля чисел, начинающихся с 5, 6, 7, 8 или 9, равна 7,9 + 6,7 + 5,8 + 5,1 + 4,6 = 30,1 процента. Если числа, первая цифра которых 5, 6, 7, 8 или 9, умножить на два, произведение всегда будет начинаться с цифры 1, как показано в таблице. Другими словами, 30,1 процента чисел в массиве T начинается с цифры 1, что соответствует закону Бенфорда!