В России живут два разных народа
1ая часть
Цитата:
Источник: http://www.livejournal.ru/themes/id/7290
В России живут два разных народа
44, 15 мая 2008 в 09 ч. 30 мин.
Выступая в Госдуме на обсуждении кандидатуры В.В. Путина на пост председателя правительства лидер КПРФ Геннадий Зюганов заявил, что из 74 миллионов работающих 55 миллионов живут на 5-6 тысяч рублей в месяц. "Как такое может быть?" – недоумевают жители Москвы и Санкт–Петербурга.
lex-kravetski Средняя зарплата в России – 15 000 рублей, значит, все живут ну никак не меньше, чем на десять. Рассуждения оной общественности, как водится, базировались на мощном методе рассуждений, называемом "вдумчивый анализ ближайшего окружения". Пользоваться им следует примерно так: у меня зарплата – тысяча баксов, у моего друга Пети – полторы тысячи, а у Васи – восемьсот. Поэтому средняя зарплата, – что сразу понятно думающему человеку, – где-то в районе тысячи ста долларов. Иными словами – 30 000 рублей.
Думающая общественность обычно не заморачивается статистикой, поскольку вся статистика подделана, однако свободно оперирует статистическими терминами, смысла которых не понимает и определения которых не в состоянии сформулировать.
Про среднее общественность знает две вещи: анекдот про "среднюю температуру по больнице", из которого думающему человеку сразу понятно, что среднее ничего не значит, и тезис "среднее – это такой показатель, которому соответствует большинство объектов, о которых мы рассуждаем. Из этих прямо противоречащих друг другу знаний, в каждом конкретном случае выбирается то, которое лучше подходит для доказательства нравящегося думающему субъекту тезиса. Подобным же образом думающие, которых лично я называю Альтернативно Одарённые, поступают с идеей "вся статистика подделана". Так, если из статистики следует, что АО (альтернативно одарённый) неправ, то очевидно, что статистика подделана. Если следует, что прав – статистика верна. В качестве промежуточного случая может выступать произвольная трактовка статистических данных.
Само собой, крайние состояния можно комбинировать. Например, в одной и той же таблице одни колонки могут быть подделаны (производство зерна в СССР), а другие – абсолютно верны (производство зерна в Испании). При этом неважно, что таблицу составляли, например, шведы. Всё равно очевидно, что это коварный КГБ подтасовало данные.
Таким образом достигается невероятная гибкость: желаемый вывод следует в независимости от наличия или отсутствия чисел и от самих чисел тоже.
Однако стоит всё-таки разобраться с тем, что такое вообще это самое "среднее" и каким образом вдруг может получиться, что проклятый коммунист Зюганов сказал правду, хотя "здравый смысл" подсказывает, что коммунисты всегда врут.
Интересно, что не смотря на очевидность термина "среднее, не все могут сказать, каким образом его вычисляют. Лично меня это сильно поражает, как поразит и многих читателей, однако и такие варианты я встречал. Так вот, для тех, кто не знает: под "средним" в большинстве случаев подразумевают среднее арифметическое, которое вычисляется по формуле "сумма слагаемых, делённая на их количество". Иными словами, если у нас есть числа 1, 2 и 3, то их среднее (арифметическое) равно:
(1 + 2 + 3) / 3 = 2
Теперь к сути вопроса: что это самое "среднее" вообще показывает.
В общем случае оно показывает, что получится, если просуммировать некоторое количество чисел, а результат поделить на количество слагаемых. Однако эти бесценные сведения мало кому нужны. При этом, каждый неглухой постоянно слышит (а неслепой – ещё и читает) про широкую распространённость данного показателя. Спрашивается, а на хрена им так часто пользуются, если оно ничего не показывает?
Отвечаю: пользуются им потому, что есть некоторое множество случаев, когда среднее показывает вполне осмысленные вещи. В частности, если мы много раз измерим силу тока в цепи при неизменных её параметрах, то каждый раз прибор амперметр будет показывать нам немного разные значения. Если же мы вычислим среднее по полученным результатам, то эту величину вполне можно принять за силу тока в цепи.
Эта мысль появилась не с бухты барахты, а вытекла из множества опытов. Оказалось, что если построить график, на котором по оси x будет отложена величина, а по оси y – количество измерений силы тока, в которых была получена именно эта величина, то график будет иметь колоколообразную форму с пиком, примерно совпадающим со средним арифметическим по всем измерениям.
Если быть более точным, то на графике откладываются не сами величины, а диапазоны величин. Понятно, что измеренная с бесконечной точностью величина встретится ровно один раз. Зато, если построить график, сколько раз нам встречаются значения от 1 до 2, от 2 до 3 и так далее, то результатом будет тот самый "колокол". Именно про него и ведётся речь.
Иными словами, ошибки измерений "природных" величин имеют гауссово распределение (то есть, если для них построить означенный график, то выйдет примерно тот самый "колокол"). Если результаты измерений представить как сумму среднего арифметического и некоторого отклонения, то пик "колокола" придётся на среднее арифметическое. Понятное дело, что везде следует читать "примерно", однако эта "примерность" становится всё более точной с увеличением количества экспериментов.
Как выглядит описанное, можно засмотреть на спец-рисунке:

Графиков я специально нарисовал два. Легко видеть, что среднее у них совпадает, однако сразу понятно, что графики чем-то отличаются. Это самое отличие принято характеризовать дисперсией (или производным от неё среднеквадратическим отклонением – корнем из дисперсии). Эта характеристика по смыслу означает "ширину" графика. А статистический её смысл таков: большое количество элементов выборки (в вышеописанном примере под элементами выборки следует понимать отдельные измерения) будет лежать в диапазоне от среднего арифметического минус среднеквадратическое отклонение до среднего арифметического плюс среднеквадратическое отклонение. Про это ещё можно сказать: "величина будет распределяться в некотором диапазоне вокруг среднего, определяемом среднеквадратическим отклонением".
Скажем так, подразумевается, что выход отдельных элементов выборки за пределы этой самой "ширины" возможен, но маловероятен.
Итак, для характеристики особого рода распределений используются две величины. При манипуляционном же обнародовании статистики нам часто указывают одну, что приводит к недопониманию, но может вызвать нужный манипулятору эффект – как мы видели, графики с одним и тем же средним показывают разные состояния, однако если упомянуть одно только среднее, то можно сделать вид, что состояния идентичны.
Теперь вернёмся к зарплатам. По сути, сведения о доходах, описывающие положение вещей в стране, весьма похожи на способ построения графика. А именно: по оси x откладываются диапазоны доходов (0-1000, 1000-2000, 2000-3000...), а по оси y – количество людей, чей доход лежит в данном диапазоне. Казалось бы, самое оно ввести среднее, как характеристику знакомого нам "колокола". И альтернативно одарённые, вкупе с манипуляторами его вводят. Однако...
Среднее и дисперсия описанным образом характеризуют только гауссово распределение. Если распределение иное, то смысл этих величин меняется. Например, для распределения на нижеприведённом рисунке среднее ни с каким "пиком колокола" не совпадает.

Отчасти дисперсия намекнёт нам, что налицо какой-то подвох, но в явном виде о принципиально иной форме графика не скажет. А среднее не скажет вообще ни о чём.
Однако при ловком оперировании "средней зарплатой" такого рода подробностей не сообщают. И народ уверен, что всё научно и поэтому всё нормально. Средняя зарплата – вон она какая. Пятнадцать тысяч!
Какие-то обрывки воспоминаний из прошлого при этом напоминают о "колоколах", но роль этих обрывков скорее негативная. Ведь благодаря этим обрывкам граждане машинально представляют себе колоколообразное распределение доходов вокруг среднего по зарплате, хотя никто ведь не доказал, что распределение доходов в России именно такое.
Теперь уже легко предположить ситуации, при которых описанное Зюгановым будет реальностью. Например, если один человек имеет зарплату в миллион рублей, а другие 99 – тысячу рублей, то среднее по их зарплатам – примерно 11 000. Легко видеть, что 99% людей из данного расклада в одиннадцать раз не добирают до средней зарплаты. Зато как звучит!
Следует отметить, что в предыдущем абзаце на данный момент приведена только лишь иллюстрация, а не реальное положение вещей. Для анализа реальности же следует припасть к истокам. В качестве истоков воспользуемся сайтом Федеральной службы государственной статистики .
К сожалению, на сайте пока отсутствуют данные за 2007-й, поэтому анализ проведём на основе 2006-го.
Засмотрим таблицу распределения среднедушевых ежемесячных доходов .
|
|