Вариационный ряд распределения это: Вариационные ряды распределения

Содержание

Дискретный вариационный ряд и его характеристики — классификация, дисперсия, стандартное отклонение выборки

  1. Классификация рядов распределения
  2. Дискретный вариационный ряд, полигон частот и кумулята
  3. Выборочная средняя, мода и медиана
  4. Степень асимметрии вариационного ряда
  5. Выборочная дисперсия и СКО
  6. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
  7. Алгоритм исследования дискретного вариационного ряда
  8. Примеры

п.1. Классификация рядов распределения

Статистический ряд распределения – это количественное распределение единиц совокупности на однородные группы по некоторому варьирующему признаку.

В зависимости от природы признака различают атрибутивные и вариационные ряды.
Атрибутивный ряд распределения построен на качественном признаке.
Вариационный ряд распределения построен на количественном признаке.

Например:
Качественными признаками, которые не поддаются измерению, являются: профессия, пол, национальность и т. п.
Количественными признаками, которые можно подсчитать или измерить, являются: количество людей в группе, число повторений в опыте, возраст, вес, рост, скорость, температура и т.п.

По упорядоченности вариационные ряды делятся на упорядоченные (ранжированные) и неупорядоченные. Упорядочить ряд можно по возрастанию или убыванию исследуемого признака.

По характеру непрерывности признака вариационные ряды делятся на дискретные и интервальные.

Например:
Дискретными признаками, которые принимают отдельные значения, являются: количество людей в группе, число детей в семье, количество домов, число опытов и т.п.
Непрерывными признаками, которые могут принимать любые значения в интервале, являются: возраст, вес, рост, скорость, температура и т.п.

Варианты – это отдельные значения признака, которые он принимает в вариационном ряду.
Частоты – это численности отдельных вариант.

Например:

Распределение учеников по оценкам за контрольную работу

Оценка, \(x_i\)2345Всего
К-во учеников, \(f_i\)31510533

В данном ряду признак – это оценка, варианты признака \(x_i\) – это множество {2;3;4;5}, частоты \(f_i\) – это количество учеников, получивших каждую из оценок.

k f_i\)

Полигон частот – это ломаная, которая соединяет точки \((x_i,f_i)\).

Например:

Для распределения учеников по оценкам из нашего примера получаем такой полигон:

Относительная частота варианты \(x_i\) — это отношение частоты \(f_i\) к общему количеству исходов: $$ w_i=\frac{f_i}{N},\ \ i=\overline{1,k} $$ Относительная частота \(w_i\) является эмпирической оценкой вероятности варианты \(x_i\) в исследуемом ряду.

Полигон относительных частот – это ломаная, которая соединяет точки \((x_i,w_i)\).
Полигон относительных частот является эмпирическим законом распределения исследуемого признака.

Накопленные относительные частоты – это суммы: $$ S_1=w_1,\ \ S_i=S_{i-1}+w_i,\ \ i=\overline{2,k} $$ Кумулята – это ломаная, которая соединяет точки \((x_i,S_i)\).
Ступенчатая кривая \(F(x_i)\), построенная по точкам \((x_i,S_i)\), является эмпирической функцией распределения исследуемого признака.

Например:
Проведем необходимые расчеты и построим полигон относительных частот, кумуляту и эмпирическую функцию распределения учеников по оценкам.

Оценка, \(x_i\)2345Всего
К-во учеников, \(f_i\)31510533
\(w_i\)0,09090,45450,30300,15151
\(S_i\)0,09090,45450,84851

Полигон относительных частот (эмпирический закон распределения)

Кумулята (красная ломаная) и эмпирическая функция распределения (ступенчатая синяя кривая).

Эмпирическая функция распределения: $$ F(x)= \begin{cases} 0,\ x\leq 2\\ 0,0909,\ 2\lt x\leq 3\\ 0,5455,\ 3\lt x\leq 4\\ 0,8485,\ 4\lt x\leq 5\\ 1,\ x\gt 5 \end{cases} $$

п.

k x_iw_i $$

Мода дискретного вариационного ряда – это варианта с максимальной частотой: $$ M_o=x*,\ \ f(x*)=\underset{i=\overline{1,k}}{max}f_i $$ Мод может быть несколько. Тогда говорят, что ряд мультимодальный.

На полигоне частот мода – это абсцисса самой высокой точки.

На графике кумуляты медиана – это абсцисса первой точки слева, ордината которой превысила 0,5.
Например:
1) Найдем выборочную среднюю для распределения учеников по оценкам:

Оценка, \(x_i\)2345Всего
К-во учеников, \(f_i\)31510533
\(x_if_i\)6454025116

$$ X_{cp}=\frac{6+45+40+25}{33}=\frac{116}{33}\approx 3,5 $$ Средняя оценка за контрольную – 3,5.
2) Найдем моду. Максимальная частота – 15 человек – у троечников. Значит: \(M_o=3\).
3) Найдем медиану. Общее количество измерений N=33 — нечетное.

Находим: \(m=\lceil\frac N2\rceil=17\)
Смотрим на ряд слева направо. Сначала у нас идет 3 двоечника, затем 15 троечников.
Вместе их 18, и 17-й человек в ряду — троечник. Группа троечников является медианной: \(M_e=3\).
Также, медиану можно найти по графику кумуляты. (3;0,5455) – это первая слева точка, в которой ордината больше 0,5. Значит, медиана равна абсциссе этой точки, т.е. \(M_e=3\).

п.4. Степень асимметрии вариационного ряда

В рядах с асимметрией или выбросами выборочная средняя не отражает в полной мере особенности исследуемого признака. Типичный случай – значение среднего уровня доходов в странах с высоким индексом Джини, где 5% населения получает 95% доходов. Или анекдотичный случай со «средней температурой по больнице».
Поэтому, кроме средней, в статистическом исследовании всегда следует определять моду и медиану.

Мода, медиана и выборочная средняя совпадут, если вариационный ряд является симметричным: $$ X_{cp}=M_o=M_e $$ Если вершина распределения сдвинута влево и правая часть ветви длиннее левой (длинный правый хвост), такая асимметрия называется правосторонней. При правосторонней асимметрии: $$ M_o\lt M_e\lt X_{cp} $$ Если вершина распределения сдвинута вправо и левая часть ветви длиннее правой (длинный левый хвост), такая асимметрия называется левосторонней. При левосторонней асимметрии: $$ M_o\gt M_e\gt X_{cp} $$ Для умеренно асимметричных рядов (по Пирсону) модуль разности между модой и средней не более 3 раз превышает модуль разности между медианой и средней: $$ \frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}\geq 3 $$

Например:
Для распределения учеников по оценкам мы получили \(X_{cp}=3,5;\ M_o=3;\ M_e=3\).
Т.к. средняя оказалась больше моды и медианы, наше распределение имеет правостороннюю асимметрию (что видно на полигоне частот – правый хвост длиннее).
При этом \(\frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=\frac{0,5}{0,5}=1\lt 3\), т.е. распределение умеренно асимметрично.

п.5. Выборочная дисперсия и СКО

Выборочная дисперсия дискретного вариационного ряда определяется как средняя взвешенная для квадрата отклонения от средней: \begin{gather*} D=\frac{(x_1-X_{cp})^2 f_1+(x_2-X_{cp})^2 f_2+. 2f_i\)
Шаг 2. Построить полигон относительных частот (эмпирический закон распределения) и график кумуляты с эмпирической функцией распределения. Записать эмпирическую функцию распределения.
Шаг 3. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 4. Найти выборочную дисперсию и СКО.
Шаг 5. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.

п.8. Примеры

Пример 1. На площадке фриланса была проведена выборка из 100 фрилансеров и подсчитано количество постоянных заказчиков, с которыми они работают.
В результате было получено следующее распределение:

Число постоянных заказчиков012345
Число фрилансеров2235271131

Исследуйте полученный вариационный ряд. 2}\approx 1,109 $$ Коэффициент вариации: $$ V=\frac{s}{X_{cp}}\cdot 100\text{%}=\frac{1,109}{1,39}\cdot 100\text{%}\approx 79,8\text{%}\gt 33\text{%} $$ Представленная выборка неоднородна. Полученное значение средней \(X_{cp}=1,39\) не может быть распространено на генеральную совокупность всех фрилансеров.

ВАРИАЦИОННЫЙ РЯД И СРЕДНИЕ ВЕЛИЧИНЫ.

Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь

КАТЕГОРИИ:

Археология
Биология
Генетика
География
Информатика
История
Логика
Маркетинг
Математика
Менеджмент
Механика
Педагогика
Религия
Социология
Технологии
Физика
Философия
Финансы
Химия
Экология

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву



Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

⇐ ПредыдущаяСтр 2 из 7Следующая ⇒

Вариационный ряд. Построение вариационного ряда.

Характер распределения изучаемых явлений, как правило, выявляют при анализе вариационных рядов, которые в силу этого носят еще название рядов распределения.

Результаты многих клинических, лабораторных и других исследований, представленные в количественном выражений, часто многочисленны и вместе с тем малодоступны для общего их обозрения. В силу этого без соответствующей обработки они не пригодны для анализа. Необходимо получить обобщенные характеристики в виде средних величин и различных критериев разнообразия.

Методику построения вариационного ряда рассмотрим на следующем примере. При измерении времени задержки дыхания у 50 женщин в возрасте 30-45 лет, приступивших к занятиям по общефизической подготовке, получены следующие данные (табл. 1).

Таблица 1

Результаты измерения задержки дыхания после вдоха у 50 женщин в возрасте 30-45 лет (в секундах).

Материалы, приведенные в таблице 1 не могут быть проанализированы без предварительной обработки и систематизации, что позволит сделать их удобными для анализа, доступными для вычисления показателей. Следовательно из этих данных надо построить вариационный ряд.


Вариационный ряд – это ряд числовых измерений определенного признака, отличающихся друг от друга по своей величине расположенных в определенном порядке.

Вариационный ряд состоит из вариант (V) и соответствующих им частот (p). Вариантой (V)называют каждое числовое значение изучаемого признака. Частота(p) — абсолютная численность отдельных вариант в совокупности, указывающая, сколько раз встречается данная варианта в вариационном ряду.

Общее число случаев наблюдений, из которых вариационный ряд состоит, обозначают буквой (n).

Построить вариационный ряд – значит упорядочить количественное распределение единиц совокупности по значениям признака, а затем подсчитать числа единиц совокупности с этими значениями (построить групповую таблицу).

Ряд вариант одного и того же признака, расположенных в определенном порядке (по степени возрастания или убывания), с соответствующими им частотами, образуют вариационный ряд (пример: распределение новорожденных по весу, призывников по росту, и т.п.).

 

Формы вариационного ряда

Выделяют три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный ряд – это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

По характеру вариации различают дискретные (прерывные) и непрерывные признаки.

Дискретный ряд – это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести тарифный разряд, количество детей в семье, число работников на предприятии и т.д. Эти признаки могут принимать только конечное число определенных значений.

Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй – число единиц совокупности с определенным значением признака.

Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака нужно строить интервальный вариационный ряд.

Групповая таблица здесь также имеет две графы. В первой указывается значение признака в интервале «от — до» (варианты), во второй – число единиц, входящих в интервал (частота).

Вариационные ряды бывают простые или несгруппированные, которые составляют, как правило, при малом числе наблюдений (до 30 единиц наблюдения), и сгруппированные, которые составляют при большом числе наблюдений (более 30 единиц наблюдения).

Если исследователь имеет не более 30 наблюдений, то достаточно все значения признака расположить в нарастающем или в убывающем порядке (от максимальной варианты до минимальной или наоборот) и указать частоту каждой варианты. При большом числе наблюдений (более 30) вариационный ряд рекомендуется сгруппировать.

Для выбора количества групп в вариационном ряду необходимо учитывать число наблюдений, а также разность между максимальным и минимальным значениями вариант.

При числе наблюдений от 31 до 100 рекомендуется иметь 5-6 групп, от 101 до 300 — от 6 до 8 групп, от 300 до 1000 наблюдений можно использовать от 10 до 15 групп (табл. 2).

Таблица 2

Число групп в зависимости от числа наблюдений

 

n – число наблюдений 31-100 101-300 300-1000
r – число групп 5-6 6-8 10-15

 

Этапы построения сгруппированного вариационного ряда.

Построение сгруппированного ряда складывается из нескольких этапов (рис. 1):

 

 

Рис. 1. Этапы построения сгруппированного вариационного ряда.

I этап: определение количества групп в вариационном ряду.

При большом количестве групп ряд получается громоздким, что ведет к трудностям вычисления показателей. При малом числе групп в ряду интервал велик. Это приводит к крайне нежелательному снижению точности характеристик ряда, рассчитываемых на следующем этапе работы.

При большом колебаний признака его максимальные величины могут не соответствовать размерам последней группы и будут вне ее. В этом случае необходимо увеличить число групп с тем, чтобы можно было включить эти крайние варианты.

II этап: определение величины интервала (i) между группами. Определяя величину интервала между группами, амплитуду вариационного ряда (разность между максимальным и минимальным значениями вариант) делят на число групп (см. табл.1) n = 50 и тогда r = 10.

Величина интервала i = = = = 4,6 сек.

Полученный интервал округляется до целого числа – 5.

III этап: определение начала, середины и конца группы. Прежде всего, необходимо определить середину для первой группы. В нашем примере максимальная варианта равна 64. Поскольку середина группы должна делиться на величину интервала, то за середину первой группы следует взять варианту, равную 65, которая будет ближайшей к максимальному значению и без остатка разделится на величину интервала, равного 5. Середины для других групп находят следующим образом: от середины каждой предыдущей группы отнимают величину интервала. Так, если середина первой группы – 65, то середина второй группы равна 60 (65-5), середина третьей группы – 55 (60-5) и т. д. (табл. 3).После составления ряда из величин, принятых за середину группы – 65, 60, 55, 50 и т.д., нужно определить границы (начало и конец) этих групп. При этом следует иметь в виду, что границы не должны повторяться, иначе трудно будет распределить варианты по группам и построить вариационный ряд.

Определяя начало группы, к ее середине прибавляют величину , вычитая же ее из середины, получают конец группы. В нашем примере Прибавив 2 к середине первой группы, получим 67 (начало группы), ее концом будет: 65-2 = 63 (см. табл. 3).

Границы должны составленный так, чтобы значения вариант не оказывались между группами, нежелательны также открытые группы. Например, «свыше 60» или «менее 20» и т. д.

Таблица 3

⇐ Предыдущая1234567Следующая ⇒



Читайте также:



Алгоритмические операторы Matlab

Конструирование и порядок расчёта дорожной одежды

Исследования учёных: почему помогают молитвы?

Почему терпят неудачу многие предприниматели?



Последнее изменение этой страницы: 2016-04-23; просмотров: 2200; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia. su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь — 38.242.236.216 (0.007 с.)

Предельные распределения случайного члена вариационного ряда

Предельные распределения случайного члена вариационного ряда

Скачать PDF

  • Опубликовано:
  • Ю. Н. Благовещенский 1  

Журнал математических наук том 220 , страницы 672–681 (2017)Цитировать эту статью

  • 63 доступа

  • 1 Цитаты

  • Детали показателей

Имеется много работ, посвященных изучению порядковой статистики, в частности, асимптотики k -го члена вариационного ряда для выборки объемом n независимых одинаково распределенных случайных величин с распределением F ( x ) с различными соотношениями между k и п . В «центральной» части, где min( k , n k ) → ∞, преобладает нормальное предельное распределение. В настоящей работе исследуется асимптотическое поведение случайного члена вариационного ряда: его число ν является случайной величиной, принимающей значения 1, 2,…, n с равной вероятностью. При мягких предположениях о плотности основного распределения мы находим все возможные предельные распределения для ν -го члена вариационного ряда.

Скачайте, чтобы прочитать полный текст статьи

Литература

  1. Б. В. Гнеденко, Предельные теоремы для максимального члена вариационного ряда, , Тр. акад. СССР наук, 32 , 51–53 (1941).

    MathSciNet Google ученый

  2. А. Реньи, «К теории порядковых статистик», Acta Math. акад. науч. Повесили. , 4 , 191–232 (1953).

    Артикул MathSciNet МАТЕМАТИКА Google ученый

  3. Смирнов Н. В. Предельные законы распределения членов вариационного ряда // Trans. Математика Стеклова. Инст. , XXV , 5–60 (1949).

    Google ученый

  4. Д.М. Чибисов, “О предельных распределениях членов вариационного ряда”, , Теор. Вероятно. заявл. , IX , № 1, 159–164 (1964).

    Google ученый

  5. Ю.Н. Благовещенский, “О распределении членов крайних вариационных рядов”, , Тр. акад. СССР науч. , 188 , № 4, 735–738 (1969).

    Google ученый

  6. H. David, Order Statistics , Wiley, New York (1970).

    МАТЕМАТИКА Google ученый

  7. «>

    Ю.Н. Благовещенский, «Многомерные T-нормальные распределения в прикладной статистике», J. Math. науч. , 103 , № 5, 556–567 (2001).

    Артикул Google ученый

  8. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики . М.: Наука, 1983.

    Google ученый

  9. Чжан Ли-Цян, “О точном распределении статистики Н.В. Смирнова и ее асимптотическом разложении”, Мат. Периодический сборник переводов иностранных статей , 4 , № 2, 121–134 (1960).

    Google ученый

Скачать ссылки

Информация об авторе

Авторы и организации

  1. Региональный общественный фонд «Информатика для демократии», Москва, Россия

    Ю.А. Н. Благовещенский

Авторы

  1. Ю. Н. Благовещенский

    Просмотр публикаций автора

    Вы также можете искать этого автора в PubMed Google Scholar

Автор, ответственный за переписку

Ю. Н. Благовещенский.

Дополнительная информация

Перевод с Статистические Методы Оценки и Проверки Гипотез , Vol. 19, стр. 105–117, 2006

Права и разрешения

Перепечатка и разрешения

Об этой статье

Центральная тенденция и изменчивость — Социология 3112 — Факультет социологии

Цели обучения

  1. Понимание и расчет трех способов определения центра распределения
  2. Понять и рассчитать четырьмя способами величину дисперсии или изменчивости в распределении можно определить
  3. Понять, как перекос и уровень измерения могут помочь определить, какие меры центральная тенденция и изменчивость наиболее подходят для данного распределения

Ключевые термины

Показатели центральной тенденции: категории или оценки, описывающие, что является «средним» или «типичным» для данного распределения. К ним относятся мода, медиана и среднее значение.
Процентиль: показатель, ниже которого падает определенный процент данного распределения.
Распределение с положительной асимметрией: распределение с несколькими очень большими значениями.
Распределение с отрицательной асимметрией: дистрибутив с несколькими чрезвычайно низкими значениями.
Показатели изменчивости: числа, которые описывают разнообразие или дисперсию в распределении данного переменная.
Блочная диаграмма: графическое представление диапазона, межквартильного диапазона и медианы заданного переменная.

Мода

Мода — это категория с наибольшей частотой (или процентом). Это не сама частота. Другими словами, если кто-то спросит вас о режиме раздачи показано ниже, ответом будет кокосовый орех, а НЕ 22. Возможно иметь более один режим в распределении. Такие распределения считаются бимодальными (если два режима) или мультимодальный (если режимов больше двух). Дистрибутивы без четкая мода называется однородной. Режим не особо полезный, но он есть единственная мера центральной тенденции, которую мы можем использовать с номинальными переменными. Ты найдешь почему это единственная подходящая мера для номинальных переменных, когда мы узнаем о медиана и среднее значение рядом.

Любимые вкусы мороженого:

Кокос = 22
Шоколад = 15
Ваниль = 7
Клубника = 9

Медиана

Медиана — это самое среднее число. Другими словами, это число, которое делит распределение ровно пополам, так что половина случаев выше медианы, и половина ниже. Он также известен как 50-й процентиль, и его можно рассчитать для порядковые переменные и переменные интервала/отношения. Концептуально найти медиану довольно просто. и влечет за собой только упорядочивание всех ваших наблюдений от наименьшего к наибольшему. а затем найти любое число, попадающее в середину. Обратите внимание, что нахождение медианы требует сначала упорядочить все наблюдения от меньшего к большему. Вот почему медиана не является подходящей мерой центральной тенденции для номинальных переменных, поскольку номинальные переменные не имеют внутреннего порядка. (На практике нахождение медианы может быть немного более вовлеченным, особенно если у вас есть большое количество наблюдений — см. ваш учебник для объяснения того, как найти медиану в таких ситуациях).

Некоторые из вас, вероятно, уже задаются вопросом: «Что произойдет, если у вас есть четное число случаев? Тогда среднего числа не будет, верно?» Это очень проницательное замечание, и я рад, что вы спросили. Если в вашем наборе данных четное количество случаев, медиана равна среднее из двух средних чисел. Например, для чисел 18, 14, 12, 8, 6 и 4 медиана равна 10 (12 + 8 = 20; 20/2 = 10).

Одним из преимуществ медианы является то, что она не чувствительна к выбросам. Выброс это наблюдение, которое находится на аномальном расстоянии от других значений в выборке. Наблюдения которые значительно больше или меньше других в выборке, могут повлиять на некоторые статистические показатели таким образом, что они вводят в заблуждение, но медиана невосприимчив к ним. Другими словами, не имеет значения, является ли самое большое число 20 или 20 000; он по-прежнему считается только одним числом. Рассмотрим следующее:

Распределение 1: 1, 3, 5, 7, 20
Распределение 2: 1, 3, 5, 7, 20 000

Эти два распределения имеют одинаковые медианы, хотя распределение 2 имеет очень большой выброс, что в конечном итоге приведет к довольно значительному искажению среднего значения, как мы увидеть через мгновение.

Среднее

Среднее — это то, что люди обычно называют «средним». это высшая мера центральной тенденции, под которой я подразумеваю, что он доступен для использования только с интервалом/соотношением переменные. Среднее значение учитывает ценность каждого наблюдения и, таким образом, обеспечивает самая информативная из всех мер центральной тенденции. Однако, в отличие от медианы, среднее значение чувствительно к выбросам. Другими словами, один чрезвычайно высокий (или низкий) значение в вашем наборе данных может значительно повысить (или понизить) среднее значение. Среднее, часто отображается как переменная x или y с линией над ней (произносится как «x-bar» или «y-bar»), это сумма всех баллов, деленная на общее количество баллов. В статистическом обозначение, мы бы записали его следующим образом:

В этом уравнении — среднее значение, X — значение каждого наблюдения, а N — общее количество дел. Сигма (Σ) просто говорит нам сложить все оценки вместе. Тот факт, что вычисление среднего требует сложения и деления, является той самой причиной. его нельзя использовать ни с номинальными, ни с порядковыми переменными. Мы не можем вычислить среднее для расы (белый + белый + черный/3 = ?) не больше, чем мы можем вычислить среднее значение за год в школе (первокурсник + первокурсник + старший/3 = ?)

Процентили

Процентиль — это число, ниже которого падает определенный процент распределения. Например, если вы набрали 90-й процентиль на тесте, 90 процентов учащихся кто прошел тест набрал меньше вас. Если вы набрали 72-й процентиль на тесте, 72 процента учащихся, сдавших тест, набрали меньше, чем вы. Если забит в 5-м процентиль на тесте, возможно, этот предмет не для вас. Медиана, как вы помните, падает на 50-м процентиле. Пятьдесят процентов наблюдений попадают ниже него.

Симметричное и асимметричное распределения

Симметричное распределение – это распределение, в котором среднее значение, медиана и мода являются такой же. С другой стороны, асимметричное распределение — это распределение с экстремальными значениями. с той или иной стороны, которые заставляют медиану отклоняться от среднего в одном направлении или другое. Если среднее значение больше медианы, говорят, что распределение быть положительно перекошены. Другими словами, существует чрезвычайно большое значение, которое «тянет» среднее к верхнему концу распределения. Если среднее значение меньше, чем медиану, говорят, что распределение имеет отрицательную асимметрию. Другими словами, существует чрезвычайно малое значение, которое «тянет» среднее значение к нижнему концу распределения. Распределение доходов обычно имеет положительную асимметрию из-за небольшого количества люди, которые зарабатывают невероятные суммы денег. Рассмотрим (по общему признанию датированный) случай Футболисты Высшей лиги как крайний пример. Средняя годовая зарплата MLS игрок в 2010 году составлял примерно 138 000 долларов, но средняя годовая зарплата составляла всего около 53 000 долларов. Среднее значение было почти в три раза больше, чем медиана, в немалой степени благодаря часть к тогдашней зарплате Дэвида Бекхэма в размере 12 миллионов долларов.

Пытаясь решить, какую меру центральной тенденции использовать, вы должны учитывать как уровень измерения, так и перекос. Дело обстоит не так для именных и порядковых переменные. Если переменная является номинальной, очевидно, что мода является единственной мерой центральной склонность к употреблению. Если переменная порядковая, медиана, вероятно, ваш лучший выбор потому что он предоставляет больше информации об образце, чем режим. Но если переменная — интервал/отношение, вам нужно определить, является ли распределение симметричным или перекошенный. Если распределение симметрично, то среднее является лучшей мерой центральной тенденция. Если распределение асимметрично как в положительную, так и в отрицательную сторону, медиана является более точным. В качестве примера того, почему среднее значение может быть не лучшим показателем центрального тенденцию к асимметричному распределению, рассмотрите следующий отрывок из книги Чарльза Уилана. Обнаженная статистика: избавление от ужаса данных (2013):

«Среднее, или среднее, оказывается, имеет некоторые проблемы, а именно, что оно склонно к искажение «выбросами», которые являются наблюдениями, лежащими дальше от центра. Чтобы понять эту концепцию, представьте, что десять парней сидят на барных стульях. в питейном заведении среднего класса в Сиэтле; каждый из этих парней зарабатывает 35 000 долларов в год, что составляет средний годовой доход группы 35 000 долларов. Билл Гейтс ходит в бар с говорящим попугаем на плече. (У попугая нет ничего как пример, но это как бы оживляет ситуацию.) Давайте предположим, ради Например, годовой доход Билла Гейтса составляет 1 миллиард долларов. Когда Билл сидит сидя на одиннадцатом барном стуле, средний годовой доход посетителей бара возрастает до около 9 долларов1 миллион. Очевидно, что никто из первых десяти пьющих не стал богаче (хотя было бы разумно ожидать, что Билл Гейтс купит раунд или два). Если бы я описал посетители этого бара имеют средний годовой доход в размере 91 миллиона долларов, говорится в заявлении. будет одновременно статистически правильным и вводит в заблуждение [Примечание: медиана будет оставаться без изменений]. Это не бар, где тусуются мультимиллионеры; это бар, где куча парней с относительно низким доходом сидит рядом с Биллом Гейтсом и его говорящий попугай».

Показатели изменчивости

В дополнение к определению показателей центральной тенденции нам может понадобиться подвести итоги. количество изменчивости, которое мы имеем в нашем распределении. Другими словами, нам необходимо определить, имеют ли наблюдения тенденцию группироваться вместе или они имеют тенденцию к разбросу вне. Рассмотрим следующий пример:

Образец 1: {0, 0, 0, 0, 25}
Образец 2: {5, 5, 5, 5, 5}

Обе эти выборки имеют одинаковые средние значения (5) и одинаковое количество наблюдений (n = 5), но степень вариации между двумя выборками значительно различается. Образец 2 не имеет изменчивости (все оценки одинаковы), тогда как образец 1 имеет относительно больше (один случай существенно отличается от четырех других). В этом курсе мы рассмотрим четыре показателя изменчивости: диапазон, межквартильный диапазон (IQR), дисперсия и стандартное отклонение.

Диапазон

Диапазон — это разница между самым высоким и самым низким баллом в наборе данных и является простейшей мерой распространения. Мы рассчитываем диапазон, вычитая наименьший значение от наибольшего значения. В качестве примера рассмотрим следующий набор данных:

23

56

45

65

69

55

62

54

85

25

 

Максимальное значение равно 85, а минимальное значение равно 23. Это дает нам диапазон 62 (85 – 23 = 62). Хотя использование диапазона в качестве меры изменчивости мало что нам говорит, это дает нам некоторую информацию о том, насколько далеко друг от друга самые низкие и самые высокие оценки находятся.

Квартили и межквартильный диапазон

«Квартиль» — еще одно слово, которое знатоки статистики используют, чтобы почувствовать себя важными. В основном это означает «четверть» или «четверть». Футбольный матч имеет четыре квартили, как и Твикс королевского размера. Найти квартили распределения так же просто, как разбить на четверти. Каждая четвертая содержит 25 процентов от общего числа наблюдений.

Квартили делят ранжированный набор данных на четыре равные части. Ценности, которые разделяют каждая часть называется первой, второй и третьей квартилями; и они обозначаются на Q1, Q2 и Q3 соответственно.

Q1 — это «среднее» значение в первой половине ранжированного набора данных.
Q2 — среднее значение набора данных
Q3 — «среднее» значение второй половины ранжированного набора данных
Q4 технически было бы самым большим значением в наборе данных, но мы игнорируем его при расчете IQR (мы уже имели дело с ним, когда рассчитывали диапазон).

Таким образом, межквартильный размах равен Q3 минус Q1 (или 75-й процентиль минус 25-й процентиль, если вы предпочитаете так думать). В качестве примера рассмотрим следующие числа: 1, 3, 4, 5, 5, 6, 7, 11. Q1 — среднее значение в первой половина набора данных. Поскольку в первой половине четное количество точек данных набора данных среднее значение является средним из двух средних значений; то есть, Q1 = (3 + 4)/2 или Q1 = 3,5. Q3 — среднее значение во второй половине данных. установлен. Опять же, поскольку вторая половина набора данных имеет четное количество наблюдений, среднее значение является средним из двух средних значений; то есть Q3 = (6 + 7)/2 или Q3 = 6,5. Межквартильный размах равен Q3 минус Q1, поэтому IQR = 6,5 — 3,5 = 3.

Блочные диаграммы

Блочная диаграмма (также известная как диаграмма с ячейками и усами) разбивает набор данных на квартили. Тело боксплота состоит из «коробки» (отсюда и название), которая происходит от от первого квартиля (Q1) до третьего квартиля (Q3). Внутри поля горизонтальная линия рисуется в Q2, что обозначает медиану набора данных. Две вертикальные линии, известные как усы, простираются от верхней и нижней части коробки. Нижний ус идет от Q1 до наименьшего значения в наборе данных, а верхний ус идет от Q3 до наибольшее значение. Ниже приведен пример коробчатой ​​диаграммы с положительной асимметрией с различными компоненты промаркированы.

Выбросы — это экстремальные значения, которые по той или иной причине исключены из набора данных. Если набор данных включает один или несколько выбросов, они отображаются на графике. отдельно как точки на графике. На приведенной выше диаграмме есть несколько выбросов внизу.

Как интерпретировать прямоугольную диаграмму

Горизонтальная линия, проходящая через центр прямоугольника, указывает, где находится медиана падает. Кроме того, ящичные диаграммы отображают две общие меры изменчивости или разброса. в наборе данных: диапазон и IQR. Если вас интересует распространение всех данные, он представлен на диаграмме вертикальным расстоянием между наименьшими значение и наибольшее значение, включая любые выбросы. Средняя половина набора данных попадает в межквартильный диапазон. На диаграмме представлен межквартильный диапазон по ширине коробки (Q3 минус Q1).

Дисперсия

Дисперсия — это мера изменчивости, которая показывает, насколько далеко каждое наблюдение падает из среднего распределения. Для этого примера мы будем использовать следующее пять цифр, которые представляют собой мои ежемесячные покупки комиксов за последний пять месяцев:

2, 3, 5, 6, 9

Формула расчета дисперсии обычно записывается так:

Это уравнение выглядит пугающе, но оно не так уж плохо, если разбить его на его составные части. S2x — это обозначение, используемое для обозначения дисперсии выборки. Эта гигантская сигма (Σ) является знаком суммирования; это просто означает, что мы собираемся добавлять вещи вместе. X представляет каждое из наших наблюдений, а x с линией над ним (часто называемый «x-bar») представляет собой среднее значение нашего распределения. Столица «N» на внизу общее количество наблюдений. В принципе, эта формула говорит нам вычесть среднее значение из каждого из наших наблюдений, возвести в квадрат разницу, добавить их все вместе и разделить на N-1. Давайте сделаем пример, используя приведенные выше числа.

1. Первым шагом в вычислении дисперсии является нахождение среднего значения распределения. В этом случае среднее значение равно 5 (2+3+5+6+9 = 25; 25/5 = 5).

2. Второй шаг – вычесть среднее значение (5) из каждого наблюдения:

2-5 = -3
3-5 = -2
5-5 = 0
6-5 = 1
9 -5 = 4

Обратите внимание: мы можем проверить нашу работу после этого шага, сложив все наши значения вместе. Если их сумма равна нулю, мы знаем, что мы на правильном пути. Если они добавляют к чему-то помимо нуля, нам, вероятно, следует еще раз проверить нашу математику (-3+-2+0+1+4 = 0, мы золотые).

3. В-третьих, мы возводим каждый из этих ответов в квадрат, чтобы избавиться от отрицательных чисел:

(-3)2 = 9
(-2)2 = 4
(0)2 = 0
(1)2 = 1
(4)2 = 16

4. В-четвертых, складываем их все вместе:

9+4+0+1+16=30

5. Наконец, делим на N-1 (общее количество наблюдений равно 5, поэтому 5-1 =4)

30/4 = 7,5

После всех этих довольно утомительных вычислений у нас осталось одно число, которое быстро и кратко суммирует количество изменчивости в нашем распределении. чем больше число, тем больше изменчивость в нашем распределении. Пожалуйста, обрати внимание: дисперсия никогда не может быть отрицательной. Если вы получите дисперсию меньше, чем ноль, вы сделали что-то не так.

Стандартное отклонение

Однако существует одно ограничение на использование дисперсии в качестве единственной меры изменчивости. Когда мы возводим числа в квадрат, чтобы избавиться от минусов (шаг 3), мы также непреднамеренно квадрат наша единица измерения. Другими словами, если бы мы говорили о милях, мы случайно превратил нашу единицу измерения в квадратные мили. Если бы мы говорили про комиксы, мы случайно превратили нашу единицу измерения в комиксы в квадрате (что, разумеется, не всегда имеет большой смысл). Чтобы решить эту проблему, мы вычисляем стандартное отклонение. Формула стандарта отклонение выглядит следующим образом:

Другими словами, рассчитать стандартное отклонение так же просто, как взять квадрат корень из дисперсии, обращая в квадрат квадрат, который мы сделали при вычислении дисперсии. В нашем примере стандартное отклонение равно квадратному корню из 7,5 или 2,74. Интерпретация не меняется; большое стандартное отклонение свидетельствует о большей изменчивость, в то время как небольшое стандартное отклонение свидетельствует об относительно небольшой количество изменчивости. Как и в случае с дисперсией, стандартное отклонение равно всегда позитивный.

Помните: основное различие между дисперсией и стандартным отклонением заключается в единица измерения. Мы вычисляем стандартное отклонение, чтобы положить нашу переменную обратно в исходную метрику. «Мили в квадрате» возвращаются к просто милям, и «Комиксы в квадрате» снова стали просто комиксами.

Основные моменты

  • Показатели центральной тенденции говорят нам, что является общим или типичным в нашей переменной.
  • Тремя мерами центральной тенденции являются мода, медиана и среднее значение.
  • Режим используется почти исключительно с данными номинального уровня, так как это единственная мера центральной тенденции, доступной для таких переменных. Медиана используется с порядковым номером данных или когда переменная уровня интервала/отношения искажена (вспомните пример Билла Гейтса). Среднее значение можно использовать только с данными уровня интервала/отношения.
  • Показатели изменчивости — это числа, описывающие степень изменчивости или разнообразия есть в раздаче.
  • Четыре меры изменчивости — диапазон (разница между большим и наименьшие наблюдения), межквартильный размах (разница между 75-м и 25-й процентиль) дисперсия и стандартное отклонение.
  • Дисперсия и стандартное отклонение являются двумя тесно связанными показателями изменчивости. для переменных уровня интервала/отношения, которые увеличиваются или уменьшаются в зависимости от того, насколько близко наблюдения сгруппированы вокруг среднего значения.
  • Показатели центральной тенденции и изменчивости в SPSS

Чтобы программа SPSS рассчитала для вас показатели центральной тенденции и изменчивости, щелкните «Анализ», «Описательная статистика», затем «Частоты». Меры центральной тенденции и изменчивость также можно рассчитать, нажав «Описание» или «Исследовать», но «Частоты» дает вам больше контроля и имеет наиболее полезные параметры для выбора из. Открывшееся диалоговое окно должно быть вам уже знакомо. Как вы сделали при расчете частотных таблиц переместите переменные, для которых вы хотите рассчитать меры центральной тенденции и изменчивости в правой части коробка. Вы можете снять флажок «Отображать частотные таблицы», если не хотите видеть любые таблицы и предпочел бы видеть только статистику. Затем нажмите кнопку справа с надписью «Статистика». В открывшемся диалоговом окне вы можете выбрать любую статистику по вашему желанию (Примечание: SPSS использует термин «дисперсия», а не «Изменчивость», но эти два слова являются синонимами). Также имейте в виду, что SPSS вычислит статистику для любой переменной независимо от уровня измерения. Это будет, например, вычислять среднее значение для расы или пола, даже если это не имеет смысла что угодно. Мужчина + мужчина + женщина/3 = 0,66? Совершенно нелогично. Это один из многих обстоятельства, в которых вам придется быть умнее, чем пакет анализа данных ты используешь. То, что SPSS позволяет вам что-то делать, не обязательно означает это хорошая идея.

При расчете показателей изменчивости иногда полезно включить квадрат участок. Для этого нажмите «Графики», затем «Устаревшие диалоги» и выберите «Коробчатая диаграмма». В качестве было в случае с графиками, которые вы создали в предыдущей главе, у вас будет несколько варианты, из которых можно выбрать. Вообще говоря, вам понадобится по одной ящичковой диаграмме для каждого переменной, поэтому выберите «Сводка отдельных переменных». Переместите переменные, которые вы хотел бы, чтобы отображались в виде диаграмм в пустом поле справа, и нажмите «ОК». Если вы хотите отредактировать свои боксплоты, вы можете сделать это почти так же, как вы это делали. графики в главе 2. Вот пошаговое видео:

Упражнения

  1. Выберите три переменные из любого из трех наборов данных (одну номинальную, одну порядковую и один интервал/отношение) и рассчитать все соответствующие меры центральной тенденции для каждый.
  2. Используя набор данных ADD Health, набор данных NIS и обзор мировых ценностей, рассчитайте стандартное отклонение, дисперсия и диапазон для переменной «ВОЗРАСТ» в каждом из них. Какой опрос имеет наибольшую вариацию по возрасту? Какое обследование имеет наименьшую вариацию по возрасту? (Примечание: для этого вам потребуется открыть набор данных, рассчитать меры изменчивости и затем откройте следующий набор данных.