Статистический группированный ряд это: The page cannot be found
Характеристики выборки и генеральной совокупности
Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использованию статистических данных для научных и практических выводов. При этом статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.
Статистическая совокупность, из которой отбирают часть объектов, называется генеральной совокупностью. Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой. Число объектов N из генеральной совокупности и из выборки n называются соответственно объемом генеральной совокупности N и объемом выборки n.
Статистическое описание и вероятностные модели применяются к физическим, экономическим, социологическим, биологическим процессам, обладающим тем свойством, что хотя результат отдельного измерения физической величины
Наиболее известные статистики – относительная частота, выборочные средние, дисперсия. Когда возрастает объем выборки n, многие выборочные статистики сходятся по вероятности к соответствующим параметрам теоретического распределения величины X. Поэтому каждую выборку рассматривают как выборку из теоретически бесконечной генеральной совокупности, распределение признака в которой совпадает с теоретическим распределением вероятности случайной величины. Во многих случаях теоретическая генеральная совокупность есть идеализация действительной совокупности, из которой получена выборка.
Различные значения наблюдаемого признака, встречающегося в совокупности, называются вариантами. Частоты вариантов выражают доли (удельные веса) элементов совокупности с одинаковыми значениями признака. Вариационным рядом называется ранжированный в порядке возрастания или убывания ряд вариантов с соответствующим им частотами.
Значения, находящиеся в середине вариационного ряда, принято делить на собственно средние и структурные средние. Собственно среднее — это арифметическое среднее. Структурные средние — мода и медиана. Кроме того, чтобы охарактеризовать структуру вариационного ряда, используют квартили, квинтили, децили и процентили. Теперь обо всём по порядку.
Среднее арифметическое значение генеральной совокупности находят по формуле:
(1)
где
— число единиц генеральной совокупности,
— значение j-го наблюдения.
Если величина выборки
или
или же (2)
для негруппированных выборок и
(3)
для группированных выборок, где
— число единиц выборки,
— число классов,
— значение i-го класса,
— частота i-го класса.
Пример 1. В таблице даны значения средней температуры воздуха в населённом пункте
Месяц | |
1 | -2,3 |
2 | -4,0 |
3 | 2,0 |
4 | 9,0 |
5 | 10,0 |
6 | 19,4 |
7 | 19,9 |
8 | 17,1 |
9 | 14,9 |
10 | 7,3 |
11 | 2,2 |
12 | -0,3 |
Найти среднюю температуру воздуха.
Решение. Найдём среднюю температуру воздуха как среднее значение для негруппированной выборки:
Пример 2.
Урожайность зерновых в центнерах с га |
Число сельских хозяйств – абсолютное |
Удельный вес сельских хозяйств – в процентах |
до 5,0 |
4244 |
6,2 |
5,1-10,0 |
10446 |
15,2 |
18956 |
27,5 |
|
15,1-20,0 |
20207 |
29,3 |
20,1-25,0 |
8159 |
11,9 |
25,1-30,0 |
4145 |
6,0 |
30,1-35,0 |
1316 |
1,9 |
35,1-40,0 |
792 |
1,2 |
40,1-45,0 |
183 |
0,3 |
45,1-50,0 |
182 |
0,3 |
50,1-55,0 |
161 |
0,2 |
Всего |
68791 |
100,0 |
Найти среднюю урожайность зерновых.
Решение. Так как имеем только группированные данные и неизвестна средняя урожайность каждой группы, как приближенные значения к средней каждой группы примем центры интервалов:
Центры интервалов |
||
2,5 |
4222 |
10610,0 |
7,5 |
10446 |
78345,0 |
12,5 |
18956 |
236950,0 |
17,5 |
20207 |
363622,5 |
22,5 |
8159 |
183577,5 |
27,5 |
4145 |
113987,5 |
32,5 |
1316 |
42770,0 |
37,5 |
792 |
29700,0 |
42,5 |
183 |
7777,5 |
47,5 |
182 |
8645,0 |
52,5 |
161 |
8452,5 |
Всего |
68791 |
1074437,5 |
Найдём требуемую в условии задачи среднюю урожайности зерновых:
Итак, средняя урожайность по выборке составляет 15,6 центнеров с га.
Модой называют значение, которое в вариационном ряду встречается чаще других. Моду можно найти на гистограмме как самый высокий столбец.
Например, в выборке, значения которой 20, 50, 60, 70, 80, 20, 20, 75, 70, 20, 80, 20, 50, 60, модой является 20.
Медианой называют значение, которое находится в середине вариационного ряда. Первая половина элементов выборки меньше этого значения, а вторая половина — больше.
Если в выборке нечётное число элементов, то за медиану принимают собственно серединное значение. Например, в выборке, значения которой 14, 15, 18, 21, 27, медианой является 18.
Если в выборке чётное число элементов, то медиану находят, выбирая два значения, которые находятся в середине и вычисляя их среднее арифметическое. Например, есть выборка 11, 14, 15, 18, 21, 27. Медиану находят так: (15+18)/2 = 16,5.
По аналогии с медианой, которая делит значения выборки на две части, вводят понятие квартилей, которые делят вариационный ряд на 4 равные части.
Децили делят вариационный ряд уже на 10 одинаковых частей, а квинтили — на 5. Процентили делят вариационный ряд на 100 равных частей.
Дисперсией величины называется среднее значение квадрата отклонения величины от её среднего значения. Дисперсию генеральной совокупности рассчитывают по формуле:
(4)
Дисперсию выборки рассчитывают по формуле:
(5)
для негруппированных выборок и
(6)
для группированных выборок.
Пример 3. В таблице – данные о возрасте жителей административной территории Т в 2013 году. Не будем приводить эту таблицу из-за её громоздкости. Отметим лишь, что в таблице дана численность каждого из возрастов (по одному году, например, 33 года, 40 лет, 65 лет и т.д.) в группах от 0 лет по 94 года (включительно) и численность всей возрастной группы в интервале 95-99 лет, а также численность жителей старше 100 лет.
Требуется найти средний возраст жителей административной территории и дисперсию среднего возраста.
Решение. Найдём средний возраст. Так как данные в таблице являются данными генеральной совокупности, находим средний возраст генеральной совокупности:
В таблице – данные о числе жителей каждого возраста, исключение же – жители в возрасте 95-99 лет и старше 100 лет. Поэтому рассчитали центр интервала возрастной группы 95-99 лет: 97 лет и в расчётах использовали его.
Так как число жителей старше 100 лет относительно небольшое, чтобы упростить расчёты, нижнюю границу интервала приняли за значение признака.
Итак, средний возраст жителей административной территории Т – 38,2 года
Найдём теперь его дисперсию:
Пример 4. Найти дисперсию урожайности зерновых в сельских хозяйствах, используя данные примера 2.
Решение. Средняя урожайность по выборке составляет 15,6 центнеров с га. Чтобы найти дисперсию, создадим дополнительную таблицу.
Центры интервалов |
Число хозяйств |
|||
2,5 |
4244 |
-13,1 |
172,1 |
730412,3 |
7,5 |
10446 |
-8,1 |
65,9 |
688558,6 |
12,5 |
18956 |
-3,1 |
9,7 |
184391,3 |
17,5 |
20207 |
1,9 |
3,5 |
71505,7 |
22,5 |
8159 |
6,9 |
47,3 |
386328,5 |
27,5 |
4165 |
11,9 |
141,2 |
585113,6 |
32,5 |
1316 |
16,9 |
285,0 |
375024,0 |
37,5 |
792 |
21,9 |
478,8 |
379196,9 |
42,5 |
183 |
26,9 |
722,6 |
132234,9 |
47,5 |
182 |
31,9 |
1016,4 |
184986,0 |
52,5 |
161 |
36,9 |
1360,2 |
218995,1 |
Всего |
68791 |
— |
— |
393679,1 |
Теперь у нас есть всё, чтобы найти дисперсию:
Пример 5. Найти дисперсию температуры в населённом пункте N в 2009 году, используя данные примера 1.
Решение. Данная выборка – негруппированная, найдём дисперсию температуры для негруппированной выборки:
Стандартное отклонение равно положительному корню из дисперсии. Стандартное отклонение генеральной совокупности находят по формуле
(7)
Стандартное отклонение выборки находят по формуле
. (9)
для негруппированных выборок и
(10)
для группированных выборок.
Погрешности выборки характеризуют, насколько значительная ошибка допущена при замещении генеральной совокупности выборкой. Сколь бы тщательно ни подбирали выборку, параметр генеральной совокупности и оценка выборки Т всегда будут отличаться. Их разница является погрешность выборки .
Среднюю стандартную погрешность выборки находят по формуле
(11)
Средняя стандартная погрешность выборки характеризует рассеяние средних арифметических выборки по отношению к средним генеральной совокупности: чем больше погрешность, тем дальше среднее арифметическое выборки может находиться от среднего генеральной совокупности. В свою очередь, чем меньше погрешность, тем ближе к среднему генеральной совокупности находится среднее выборки. При увеличении числа наблюдений n стандартная погрешность уменьшается.
Стандартную погрешность называют также абсолютной погрешностью средней величины и нередко записывают .
Пример 6. Найти стандартную погрешность средней урожайности сельских хозяйств и интервал оценки, используя результаты примеров 2 и 4.
Решение. В примере 2 найдена средняя урожайность зерновых, равная 15,6 центнеров с га. В примере 4 найдена дисперсия урожайности, равная 57,2. Найдём стандартное отклонение урожайности:
Найдём теперь стандартную погрешность:
Интервал оценки средней урожайности:
Всё по теме «Математическая статистика»
Статистическое распределение выборки | Высшая математика | Студенту | Статьи и обсуждение вопросов образования в Казахстане | Образовательный сайт Казахстана
При систематизации данных выборочных обследований используются статистические дискретные и интервальные ряды распределения. 1. Статистическое дискретное распределение. Полигон.
Пусть из генеральной совокупности извлечена выборка, причем х1 наблюдалось n1 раз, х2 – n2 раз, хk – nk раз и ∑ni=n — объем выборки. Наблюдаемые значения х1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом. Число наблюдений варианты называют частотой, а ее отношение к объему выборки — относительной частотой ni/n=wi
ОПРЕДЕЛЕНИЕ. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант хi и соответствующих им частот ni или относительных частот wi.
Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:
(сумма всех частот равна объему выборки ∑ni=n)
или в виде таблицы распределения относительных частот:
(сумма всех относительных частот равна единице ∑wi=1)
Пример 1. При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72, 74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.
Решение. 1) Статистический ряд распределения частот:
xi | 70 | 71 | 72 | 73 | 74 |
ni | 2 | 4 | 8 | 2 | 4 |
2) Объем выборки: n=2+4+8+2+4=20. Найдем относительные частоты, для чего разделим частоты на объем выборки ni/n=wi: wi=2/20=0.1; w2=4/20=0.2; w3=0.4; w4=4/20=0.1; w5=2/20=0.2. Напишем распределение относительных частот:
xi | 70 | 71 | 72 | 73 | 74 |
wi | 0.1 | 0.2 | 0.4 | 0.1 | 0.2 |
Контроль: 0,1+0,2+0,4+0,1+0,2=1.
Полигоном частот называют ломаную, отрезки, которой соединяют точки (х1,n1),(х2,n2),…,(хk,nk). Для построения полигона частот на оси абсцисс откладывают варианты х2, а на оси ординат – соответствующие им частоты ni. Точки (хi,ni) соединяют отрезками и получают полигон частот.
Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки (х1,w1),(х2,w2),…,(хk,wk). Для построения полигона относительных частот на оси абсцисс откладывают варианты хi, а на оси ординат соответствующие им частоты wi. Точки (хi,wi) соединяют отрезками и получают полигон относительных частот.
Пример 2. Постройте полигон частот и относительных частот по данным примера 1.
Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:
2. Статистический интервальный ряд распределения. Гистограмма. Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интересующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно ( или невозможно) учитывать, то варианты группируются в интервалы.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).
Замечание. Часто hi-hi-1=h при всех i, т.е. группировку осуществляют с равным шагом h. В этой ситуации можно руководствоваться следующими эмперическими рекомендациями по выборке а, k и hi:
1. Rразмах=Xmax-Xmin
2. h=R/k; k-число групп
3. k≥1+3.321lgn (формула Стерджеса)
4. a=xmin, b=xmax
5. h=a+ih, i=0,1…k
Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:
Интервалы группировки | [h0;h1) | [h1;h2) | … | [hk-2;hk-1) | [hk-1;hk) |
Частоты | n1 | n2 | … | nk-1 | nk |
Аналогическую таблицу можно образовать, заменяя частоты ni относительными частотами:
Интервалы группировки | [h0;h1) | [h1;h2) | … | [hk-2;hk-1) | [hk-1;hk) |
Отн. частоты | w1 | w2 | … | wk-1 | wk |
Пример 3. Из очень большой партии деталей извлечена случайная выборка объема 50 интересующий нас признак Х-размеры деталей, измеренные с точностью до 1см, представлен следующим вариоционным рядом: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 36, 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 50. Найти статистический интервальный ряд распределения.
Решение. Определим характеристики группировки с помощью замечания.
k≥1+3.321lg50=1+3.32lg(5•10)=1+3.32(lg5+lg10)=6.6
Имеем, a=22, k=7, h=(50-22)/7=4, hi=22+4i, i=0,1,…,7.
Интервалы группировки | 22-26 | 26-30 | 30-34 | 34-38 | 38-42 | 42-46 | 46-50 |
Частоты ni | 1 | 4 | 10 | 18 | 9 | 5 | 3 |
Отн.частоты wi | 0.02 | 0.08 | 0.2 | 0.36 | 0.18 | 0.1 | 0.06 |
Десятичные логарифмы от 1 до 10
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
lnn≈ | 0 | 0.3 | 0.48 | 0.6 | 0.7 | 0.78 | 0.85 | 0.9 | 0.95 | 1 |
Наиболее информативной графической формой частот является специальный график, называемы гистограммой частот.
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению ni/h (плотность частоты).
Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni/h. Площадь i-го частичного прямоугольника равна h•ni/h=ni — сумме частот вариант i-го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению wi/h (плотность относительной частоты).
Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии wi/h. Площадь i-го частичного прямоугольника равна h•wi/h=wi — относительной частоте вариант, попавших в i-й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.
Пример 4. Постройте гистограмму частот и относительных частот по данным примера 3.
Выборочная медиана – это середина вариационного ряда, значение, расположенное на одинаковом расстоянии от левой и правой границы выборки.
Выборочная мода – это наиболее вероятное, т.е. чаще всего встречающееся, значение в выборке.
Найти моду, медиану, дисперсию может каждый!
Найти моду, медиану, дисперсию и другие характеристики учат в курсе теории вероятностей для анализа статистического распределения выборки. Если Вы имеете заготовленные формулы или методичку, то само по себе вычисления числовых характеристик статистических выборок не является сложным. Однако на контрольных, индивидуальных заданиях, а еще для заочников все всегда выглядит сложнее, чем есть на самом деле. Ниже приведены решения которые многие вещи из вероятности сделают для Вас простыми и понятными. Главное не спешите и в подобных примерах поступайте по аналогии.
Индивидуальное задание 1
Вариант 8
Задача 1. Составить статистическое распределение выборки, записать эмпирическую функцию распределения и вычислить такие числовые характеристики:
- выборочное среднее;
- выборочную дисперсию;
- подправленную дисперсию;
- выборочное среднее квадратичное отклонение;
- подправленное среднее квадратичное отклонение;
- размах выборки;
- медиану;
- моде;
- квантильное отклонения;
- коэффициент вариации;
- коэффициент асимметрии;
- эксцесс для выборки:
Выборка задана следующими значениями
4, 9, 7, 4, 7, 5, 6, 3, 4, 5, 7, 2, 3, 8, 5, 6, 7, 4, 3, 4.
Решение: Записываем выборку в виде вариационного ряда (в порядке возрастания):
2; 3; 3; 3; 4; 4; 4; 4; 4; 5; 5; 5; 6; 6; 7; 7; 7; 7; 8; 9.
Запишем статистическое распределение выборки в виде дискретного статистического распределения частот:
Значение эмпирической функции распределения определяем по формуле
где nx количество элементов выборки меньше х. Используя таблицу, а также учитывая, что объем выборки n=1+3+5+3+2+4+1+1=20, запишем эмпирическую функцию распределения:
Далее вычислим числовые характеристики статистического распределения выборки.
1. Выборочное среднее вычисляем по формуле
2. Выборочную дисперсию вычисляем по формуле
3. Подправленную дисперсию находим по формуле
4. Выборочное среднее квадратичное отклонение вычисляем по формуле
5. Подправленное среднее квадратичное отклонение находим по формуле
6. Размах выборки вычисляем как разность между наибольшим и наименьшим значениями вариант, то есть:
7. Медиану вычисляют по формулам:
если число n — четное;
если число n — нечетное.
Здесь берем индексы в x[i] согласно нумерации вариант в вариационном ряду.
В нашем случае п=20, поэтому
8. Мода — это варианта которая в вариационном ряду случается чаще всего, то есть
9. Квантильное отклонение найдем по формуле
половины разницы – третьего и – первого квантилей.
Сами же квантили получаем искусственной разбивкой вариационного ряда на 4 равные части. В нашем случае
10. Коэффициент вариации вычисляем по формуле
11. Коэффициент асимметрии находим по формуле
Здесь m3 центральный эмпирический момент 3-го порядка,
Отсюда коэффициент асимметрии равен 0,3
12. Эксцессом статистического распределения выборки называется число которое находят по формуле:
В числителе имеем центральный эмпирический момент 4-го порядка
Момент и среднее квадратичное отклонение подставляем в формулу и определяем эксцесс
По тому как все доступно и понятно на практике выглядит делаем вывод, что найти моду, медиану и дисперсию должен уметь каждый студент, который изучает теорию вероятностей.
Готовые решения по теории вероятностей
Группировка статистических данных
Поможем написать любую работу на аналогичную тему
Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Узнать стоимостьОдним из основных и распространенных методов обработки и анализа первичной статистической информации является группировка. Например, ограничиться знанием численности всего населения нельзя. Надо знать численность мужского и женского населения, лиц, занятых в производстве, в сельском хозяйстве, размещение населения по районам и др. Подробное описание населения необходимо для государственного управления, организации хозяйства, строительства и т.д. Другими словами, от статистики требуется не только характеристика всего наблюдаемого объекта, но и знание отдельных его частей, групп. Сравнение отдельных групп позволяет сделать выводы об их различии и об их развитии. Обобщение данных о развитии групп дает представление о характере развития объекта в целом.
Чтобы иметь сведения о группах изучаемой совокупности, необходимо эту совокупность расчленить.
Расчленение множества единиц статистической совокупности на однородные группы по существенным для них признакам, называется группировкой. Несмотря на кажущуюся легкость проведения группировок и технический характер дела, эта операция является трудным этапом статистической работы.
Метод группировок позволяет решать следующие основные типы задач:
— выявление социально-экономических типов;
— изучение структуры явления и структурных сдвигов, происходящих в нем;
— выявление связи и взаимосвязи между явлениями.
Решаются эти задачи с помощью типологических, структурных и аналитических группировок.
Прежде чем проводить любую группировку, необходимо определить группировочный признак, или основание группировки.
Основанием группировки является признак, по которому статистическая совокупность расчленена на группы.
Выбор основания группировки зависит от цели статистического исследования и предварительного экономического анализа.
Основанием группировки может служить либо атрибутивный (выражает свойства данного явления их наименованиям), либо количественный (цифровое выражение свойств данного явления) признак. Расчленение статистической совокупности на группы проиллюстрируем следующим примером.
Пусть нас интересует тарифный разряд рабочих механического цеха одного их машиностроительных предприятий. В этом цехе работает 100 человек. Информацию о разрядах рабочих нетрудно получить в отделе кадров предприятия.
Ниже приводятся эти сведения:
5 | 1 | 4 | 5 | 4 | 3 | 5 | 5 | 2 | 5 | 5 | 6 | 4 | 3 | 1 | 5 | 2 |
5 | 5 | 5 | 3 | 3 | 3 | 6 | 6 | 5 | 6 | 5 | 3 | 4 | 5 | 4 | 6 | 6 |
5 | 2 | 1 | 5 | 4 | 5 | 5 | 3 | 6 | 4 | 5 | 5 | 4 | 3 | 5 | 5 | 5 |
4 | 5 | 6 | 1 | 5 | 2 | 6 | 4 | 4 | 3 | 5 | 6 | 3 | 5 | 6 | 2 | 5 |
4 | 5 | 5 | 4 | 6 | 5 | 2 | 5 | 3 | 4 | 5 | 6 | 5 | 5 | 3 | 5 | 4 |
6 | 6 | 5 | 5 | 4 | 5 | 5 | 6 | 5 | 6 | 5 | 5 | 6 | 5 | 5 |
|
|
В этом массиве статистических данных группировочным признаком является тарифный разряд рабочих.
Для изучения этих данных их необходимо сгруппировать. Расположим численные значения признака в порядке возрастания. Эта операция называется ранжированием статистических данных. В результате получим ранжированный ряд данных, который имеет вид:
1,1,1,1 | 2,2,…2,2 | 3,3,…3,3 | 4,4. .4,4 | 5,5,…5,5 | 6,6…6,6 |
4 раза | 6 раз | 12 раз | 16 раз | 44 раза | 18 раз |
Таким образом, мы получили статистический ряд распределения – упорядоченное распределение единиц совокупности по определенному варьирующему признаку, то есть упорядоченный ряд чисел по мере их возрастания или убывания.
Из ранжированного ряда распределения следует, что признак (тарифный разряд) принял шесть различных значений: 1,2,3,4,5 и 6 разряды.
В дальнейшем различные значения одного и того же признака будем называть вариантами, а под варьированием – понимать изменения значения признака.
Если признак по своей сущности таков, что различные значения его не могут отличаться друг от друга меньше, чем на некоторую конечную величину, то говорят, что это дискретно варьирующий признак.
Тарифный разряд – это дискретно варьирующий признак: его различные значения не могут отличаться друг от друга меньше, чем на единицу. В нашем примере этот признак принял шесть различных значений или 6 вариант: варианта 1 повторилась 4 раза, варианта 2 – 6 раз, варианта 3 – 12 раз и т.д.
Варианты признака в статистике принято обозначать буквой х, а число, показывающее, сколько раз встречается варианта х в ряде распределения, называется частотой и обозначается буквой f.
Наряду с понятием частоты в статистике часто используется понятие накопленной частоты (Sf), которая показывает, во скольких наблюдениях в сумме признак х принял значение с учетом предыдущих его значений.
Для удобства пользования и анализа статистической информации результаты группировки удобно представить в табличном виде. Для нашего примера сгуппированные данные представлены в табл.1.
Таблица 1
Тарифные разряды рабочих механического цеха
Тарифный разряд, х | Количество рабочих, f | Накопленная частота, Sf |
1 | 4 | 4 |
2 | 6 | 10 |
3 | 12 | 22 |
4 | 16 | 38 |
5 | 44 | 82 |
6 | 18 | 100 |
ВСЕГО: | 100 |
|
Таблица, позволяющая судить о распределении частот между вариантами, называется дискретным вариационным рядом или группированной таблицей.
Итак, подведем итог.
Вариационными рядами называют ряды распределения, построенные по количественному признаку.
Любой вариационный ряд состоит как минимум из двух элементов: вариант и частот.
Варианта – отдельное значение признака, который он принимает в вариационном ряду.
Частота – число, показывающее, как часто встречаются те или иные варианты в ряду распределения.
Накопленная частота – результат последовательного суммирования частот.
В зависимости от признака, положенного в основу образования ряда различают структурные (см. предыдущий пример) и атрибутивные ряды распределения
Атрибутивными называют ряды распределения, построенные по качественным признакам.
Ниже (табл. 2) приведен пример атрибутивного ряда распределения юридической помощи адвокатов гражданам.
Таблица 2
Юридическая помощь адвокатов гражданам
№ п/п | Виды юридической помощи | Количество обращений за помощью | |
всего, тыс. чел. | в % к итогу | ||
1. | Устные советы | 5109 | 69,43 |
2. | Составление документов | 991 | 13,47 |
3. | Поручения по ведению уголовных дел | 1021 | 13,87 |
4. | Поручения по ведению гражданских дел | 238 | 3,23 |
| ВСЕГО: | 7359 | 100,00 |
Элементами этого ряда распределения являются значения атрибутивного признака, представленного названиями видов правовой помощи, оказанной адвокатами, и числа случаев, относящихся к каждому виду и форме помощи.
Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменения структуры.
В случае непрерывного изменения численного значения наблюдаемого признака, варианта может принимать любые значения, отличающиеся друг от друга на сколько угодно малую величину. Такой признак называется непрерывно варьирующим.
Рассмотрим пример построения ряда распределения для случая, когда признак непрерывно варьирует.
Пусть, необходимо изучить выработку производственных рабочих механического цеха за 1 год. Всего рабочих в цехе работает — 117 человек. Ниже представлены сведения о выработке продукции каждым рабочим (в %):
111 | 85 | 85 | 91 | 101 | 109 | 86 | 102 | 111 | 98 |
105 | 85 | 112 | 98 | 112 | 113 | 87 | 109 | 109 | 115 |
99 | 105 | 111 | 94 | 107 | 99 | 107 | 125 | 89 | 104 |
113 | 96 | 104 | 103 | 145 | 105 | 88 | 103 | 97 | 115 |
109 | 89 | 108 | 107 | 97 | 107 | 106 | 96 | 109 | 116 |
109 | 117 | 108 | 109 | 139 | 116 | 117 | 103 | 127 | 119 |
118 | 125 | 105 | 117 | 116 | 106 | 101 | 113 | 107 | 105 |
119 | 107 | 119 | 111 | 112 | 129 | 113 | 106 | 104 | 106 |
98 | 123 | 108 | 93 | 105 | 106 | 139 | 108 | 109 | 93 |
107 | 117 | 107 | 118 | 99 | 108 | 108 | 119 | 98 | 108 |
101 | 109 | 109 | 128 | 128 | 127 | 121 | 118 | 122 | 116 |
124 | 125 | 114 | 126 | 131 | 141 | 143 |
|
|
|
В этом примере наблюдаемым признаком является выработка каждого рабочего в отчетном году, очевидно, в % к предыдущему году. Значения, принимаемые этим признаком, могут отличаться одно от другого на сколь угодно малую величину, т.е. признак может принять любое значение в некотором числовом интервале (в примере выработка округлена до целых процентов)
По приведенным данным трудно выявить характерные черты варьирования значений признака. Построение дискретного вариационного ряда также не даст желаемого результата (слишком велико число наблюдаемых вариант признака).
Для получения ясной картины объединим в группы рабочих, у которых величина выработки колеблется, например, в пределах 10%. Сгруппированные таким образом данные можно представить в виде таблицы. Эти данные представлены в табл. 3.
В таблице частоты f показывают, во скольких наблюдениях признак принял значения, принадлежащих тому или иному интервалу. Такую частоту называют интервальной.
Группированную таблицу, позволяющую судить о распределении частот между интервалами варьирования значений признака, называют интервальным вариационным рядом.
Таблица 3
Выработка рабочих механического цеха, (%)
Выработка рабочих, х | Количество рабочих (частота), f | Накопленная частота, Sf |
80-90 | 8 | 8 |
90-100 | 15 | 23 |
100-110 | 46 | 69 |
110-120 | 29 | 98 |
120-130 | 13 | 111 |
130-140 | 3 | 114 |
140-150 | 3 | 117 |
ВСЕГО: | 117 |
|
Для построения интервального вариационного ряда, в первую очередь, необходимо определить величину интервала и установить полную шкалу интервалов, а в соответствии с ней — сгруппировать результаты наблюдений.
В предыдущем примере при выборе величины интервала учитывались требования наибольшего удобства отсчета. Интервал был принят равным 10% и оказался удачным. Построенный интервальный ряд позволил выявить закономерность варьирования значений признака.
Однако, вопрос о размерах интервалов и о количестве групп не так уж прост, как это кажется на первый взгляд
Интервалы группировок могут быть равными и не равными. Равные интервалы применяются в тех случаях, когда изменение количественного признака внутри совокупности происходит равномерно. Неравные интервалы применяются, главным образом, как интервалы прогрессивно-увеличивающиеся.
Вопрос о числе групп при группировке по количественному признаку зависит от изменчивости признака и числа наблюдений. Чем интенсивнее меняется признак, чем больше совокупность единиц, тем групп образуется тоже больше. Однако это правило надо применять разумно, руководствуясь логикой и здравым смыслом. Выделение слишком большого числа групп также неразумно, как и выделение их малого числа
Расчет оптимальной величины интервала, т е. такого, при котором построенный интервальный ряд не был бы слишком громоздким и в то же время позволял бы выявить характерные черты изучаемого явления, производятся по формуле:
, (1)
где хтах – максимальная величина признака;
хmin – минимальная величина признака;
m – число групп;
R – размах вариации.
Если подходить к определению равных интервалов формально, то можно воспользоваться формулой Стерджесса:
, (2)
где N – число единиц совокупности.
Если величина интервала h – дробное число, то его следует округлить до ближайшего целого числа, либо до ближайшей несложной дроби.
Чтобы составить группировку надо сначала определить начало отсчета интервалов – нижнюю границу первого интервала.
За начала первого интервала берется число, ближайшее к минимальному значению признака.
Построение интервалов продолжается до тех пор, пока максимальное значение признака не окажется в последнем интервале.
Как уже отмечалось, решение всех типов задач методом группировки можно с использованием типологических, структурных и аналитических группировок.
При проведении типологической группировки происходит разделение исследуемого общественного явления на классы, социально-экономические типы.
Техника распределения единиц на типические группы – дело очень сложное. Основное затруднение состоит в определении признака, который должен лечь в основание группировки. Выделить типичное можно не по любому признаку, а только по определенному. Он должен изменяться от условий места и времени.
Примером типологической группировки может служить расчленение населения, занятого в народном хозяйстве, на работников физического и умственного труда
Выделенные в результате типологической группировки отдельные типы явления изучаются с точки зрения их состава.
Структурной группировкой называется расчленение однородной в качественном отношении совокупности единиц на группы, характеризующие строение совокупности, ее структуру.
Велико значение структурных группировок в области изучения концентрации промышленных, сельскохозяйственных, торговых, строительных, транспортных и других предприятий. Для изучения процесса концентрации, например, в промышленности, можно группировать предприятия по числу работающих, по стоимости промышленно-производственных основных фондов, по выпускаемой продукции, по степени выполнения плана и т.д.
Аналитические группировки дают возможность установить связь между отдельными признаками изучаемого социально-экономического явления.
Примером аналитической группировки может служить изучение связи между размером предприятий и заработной платой. Например, чем больше предприятие, тем больше заработная плата.
Внимание!
Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.
сгруппированных данных / разгруппированных данных: определение, примеры
Описательная статистика> Сгруппированные данные
Состав:
- Что такое сгруппированные данные?
- Разгруппированные данные
- Среднее значение сгруппированных данных
Посмотрите видео, чтобы получить обзор и узнать, как найти среднее значение сгруппированных данных:
Не можете посмотреть видео? Кликните сюда.
Сгруппированные данные — это данные, сгруппированные по категориям.Гистограммы и частотные таблицы могут использоваться для отображения этого типа данных:
Гистограмма относительной частоты, показывающая продажи книг за определенный день, отсортированные по цене.
Таблица частот, показывающая данные, сгруппированные по высоте. Изображение: SHU.edu
Данные сгруппированы по классам или ячейкам .
Разгруппированные данные — это данные, которые вы впервые собираете в ходе эксперимента или исследования. Данные являются необработанными, то есть не отсортированы по категориям, не классифицированы или не сгруппированы иным образом.Разгруппированный набор данных в основном представляет собой список чисел.
Когда у вас есть таблица частот или другая группа данных, исходный набор данных теряется — он заменяется статистикой для группы. Вы не можете найти точное выборочное среднее (поскольку у вас нет исходных данных), но вы, , можете найти приблизительное значение, . Формула для оценки выборочного среднего для данных, которые были сгруппированы:
Пример вопроса: Найдите среднее значение выборки для следующей таблицы частот.
Оценка | Частота ( f ) |
---|---|
От 5 до 10 | 1 |
10 ≤ t <15 | 4 |
15 ≤ t <20 | 6 |
20 ≤ t <25 | 4 |
25 ≤ t <30 | 2 |
30 ≤ t <35 | 3 |
ИТОГО | 20 |
Шаг 1. Найдите среднюю точку для каждого интервала класса.средняя точка — это просто середина каждого интервала. Например, середина 10 и 15 будет 12,5:
.Оценка | Частота ( f ) | Средняя точка ( x ) |
---|---|---|
От 5 до 10 | 1 | 7,5 |
10 ≤ t <15 | 4 | 12,5 |
15 ≤ t <20 | 6 | 17,5 |
20 ≤ t <25 | 4 | 22.5 |
25 ≤ t <30 | 2 | 27,5 |
30 ≤ t <35 | 3 | 32,5 |
ИТОГО | 20 |
Шаг 2: Умножьте среднюю точку (x) на частоту (f):
Оценка | Частота ( f ) | Средняя точка ( x ) | Средняя точка x * частота f |
---|---|---|---|
От 5 до 10 | 1 | 7.5 | 7,5 |
10 ≤ t <15 | 4 | 12,5 | 50 |
15 ≤ t <20 | 6 | 17,5 | 105 |
20 ≤ t <25 | 4 | 22,5 | 90 |
25 ≤ t <30 | 2 | 27,5 | 55 |
30 ≤ t <35 | 3 | 32.5 | 97,5 |
ИТОГО | 20 | 405 |
Сложите все итоги для этого шага. Другими словами, сложите все значения в последнем столбце (должно получиться 405).
Шаг 3: Разделите последний столбец (f * x) на второй столбец (f):
Среднее значение (x) = 405/20 = 20,25.
Список литературы
Агрести А. (1990) Анализ категориальных данных.Джон Вили и сыновья, Нью-Йорк.
Кляйн, Г. (2013). Карикатура Введение в статистику. Hill & Wamg.
Нужна помощь с домашним заданием или контрольным вопросом? С Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области. Ваши первые 30 минут с репетитором Chegg бесплатны!
Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице в Facebook .
Статистические данные и группировка данных
Данные могут быть определены как группы информации, которые представляют качественные или
количественные атрибуты переменной или набора переменных, что аналогично
, в котором говорится, что данные могут быть любым набором информации, описывающим данную сущность. Данные
в статистике можно классифицировать на сгруппированные данные и несгруппированные данные.
Любые данные, которые вы собираете в первую очередь, не сгруппированы. Негруппированные данные — это данные в необработанном виде
.Примером разгруппированных данных является любой список чисел, который вы можете придумать.
Сгруппированные данные
Сгруппированные данные — это данные, организованные в группы, известные как классы. Сгруппированные данные
были «засекречены», и, таким образом, был проведен некоторый уровень анализа данных,
, что означает, что данные больше не являются необработанными.
Класс данных — это группа данных, которая связана некоторым свойством, определяемым пользователем. Для примера
, если вы собирали возраст людей, которых вы встретили, когда шли по улице
, вы могли бы сгруппировать их по классам: подросткам, двадцатилетним,
, тридцатым, сороковым и так далее.Каждая из этих групп называется классом.
Каждый из этих классов имеет определенную ширину, и это называется Class
Interval или Class Size . Этот интервал классов очень важен, когда
нужно рисовать гистограммы и частотные диаграммы. Все классы могут иметь
одинаковый размер класса или они могут иметь разные размеры классов в зависимости от того, как вы
группируете свои данные. Интервал занятий всегда целое число.
Ниже приведен пример сгруппированных данных, в которых классы имеют одинаковый интервал классов.
Возраст (лет) | Частота |
---|---|
0–9 | 12 |
10-19 | 30 |
20 — 29 | 18 |
30 — 39 | 12 |
40–49 | 9 |
50–59 | 6 |
60 — 69 | 0 |
Решение:
Ниже приведен пример сгруппированных данных, где классы имеют разный интервал классов.
Возраст (лет) | Частота | Интервал занятий |
---|---|---|
0–9 | 15 | 10 |
10-19 | 18 | 10 |
20 — 29 | 17 | 10 |
30–49 | 35 год | 20 |
50–79 | 20 | 30 |
Расчет интервала между занятиями
Учитывая набор необработанных или разгруппированных данных, как бы вы сгруппировали эти данные в подходящие классы
, с которыми легко работать и в то же время значимыми?
Первый шаг — определить, сколько классов вы хотите иметь.Затем вы вычитаете
наименьшее значение в наборе данных из наибольшего значения в наборе данных, а затем
делите на количество классов, которые вы хотите иметь:
Пример 1:
Сгруппируйте следующие необработанные данные в десять классов.
Решение:
Первый шаг — определить наибольшее и наименьшее число
. Интервал класса всегда должен быть целым числом, и все же в этом случае у нас есть десятичное число
.Решение этой проблемы — округлить до ближайшего целого числа.
В этом примере 2,8 округляется до 3. Итак, теперь ширина нашего класса будет 3; Это означает
, что мы группируем вышеуказанные данные в группы по 3, как в таблице ниже.
Номер | Частота |
---|---|
1–3 | 7 |
4–6 | 6 |
7–9 | 4 |
10–12 | 2 |
13–15 | 2 |
16–18 | 8 |
19 — 21 | 1 |
22–24 | 2 |
25 — 27 | 3 |
28 — 30 | 2 |
Пределы классов и границы классов
Пределы класса относятся к фактическим значениям, которые вы видите в таблице.Если взять пример
из вышеприведенной таблицы, 1 и 3 будут границами первого класса
. Пределы класса делятся на две категории: нижний предел класса и верхний предел класса
. В приведенной выше таблице для первого класса 1 — это нижний предел класса
, а 3 — верхний предел класса.
С другой стороны, границы классов не всегда соблюдаются в частотной таблице.
Границы классов дают истинный интервал классов, и, как и ограничения классов,
также делятся на нижние и верхние границы классов.
Связь между границами классов и интервалом классов задается следующим образом:
:
Границы класса связаны с пределами класса заданными отношениями:
В результате вышеизложенного нижняя граница одного класса равна верхней границе класса
предыдущего класса.
Пределы классов и границы классов играют разные роли, когда дело доходит до графического представления статистических данных
, как мы сейчас увидим.
Разница между сгруппированными и несгруппированными данными
Слово «данные» относится к информации, которая собирается и записывается. Это могут быть числа, слова, измерения и многое другое.
Есть два типа данных: качественные и количественные. Разница между двумя типами данных заключается в том, что количественные данные используются для описания числовой информации. Например, к таким данным относится измерение температуры.
С другой стороны, качественные данные используются для описания информации словами. После сбора данных их необходимо организовать, следовательно, необходимо отделить сгруппированные данные от несгруппированных данных. Оба являются полезными формами данных, но разница между ними в том, что несгруппированные данные являются необработанными данными. Это означает, что он только что был собран, но не рассортирован по группам или классам. С другой стороны, сгруппированные данные — это данные, которые были организованы в группы на основе необработанных данных.
Что такое сгруппированные данные?
Как упоминалось выше, сгруппированные данные — это тип данных, которые после сбора классифицируются по группам.Необработанные данные распределяются по различным группам, и создается таблица. Основная цель таблицы — показать точки данных, встречающиеся в каждой группе. Например, когда выполняется тест, результаты представляют собой данные в этом сценарии, и есть много способов сгруппировать эти данные. Например, можно записать количество студентов, набравших больше каждых 20 баллов.
В качестве альтернативы можно использовать марки. Например, от 90–100 до F 0–59 с каждой категорией, показывающей, сколько студентов в каждой категории.Гистограммы и частотная таблица лучше всего подходят для отображения и интерпретации сгруппированных данных. Вот пример
Группировка данных имеет следующие преимущества:
- Помогает повысить эффективность оценок.
- Позволяет лучше сбалансировать статистическую мощность тестов различий между слоями, анализируя одинаковое количество слоев.
- Нерелевантные субпопуляции игнорируются, в то время как значимые — сосредоточены.
Что такое разгруппированные данные?
Разгруппированные данные, также известные как необработанные данные, — это данные, которые не были помещены в какую-либо группу или категорию после сбора.Данные классифицируются по номерам или характеристикам, поэтому данные, которые не были помещены ни в одну из категорий, разгруппированы. Например, при проведении переписи, и вы хотите проанализировать, сколько женщин старше 45 лет проживает в определенном районе, вам сначала нужно знать, сколько человек проживает в этом районе.
Число людей, проживающих в этой области, представляет собой разгруппированные данные или необработанную информацию, поскольку ничего не было категоризировано. Таким образом, мы можем сделать вывод, что разгруппированные данные — это данные, используемые для отображения информации об отдельном члене выборки или совокупности.
Ниже перечислены некоторые преимущества разгруппированных данных;
- Большинство людей могут легко его интерпретировать.
- Когда размер выборки невелик, легко вычислить среднее значение, моду и медианное значение.
- Для его анализа не требуется технических знаний.
Различия между сгруппированными и несгруппированными данными
Классификация сгруппированных данных и несгруппированных данных
Сгруппированные данные — это данные, которые были организованы в классы после их анализа.Например, сколько мешков кукурузы, собранных в сезон дождей, оказалось плохим. С другой стороны, разгруппированные данные — это данные, которые не попадают ни в одну группу. Это все еще необработанные данные.
Предпочтение сгруппированных данных по сравнению с разгруппированными данными
При сборе данных предпочтительны разгруппированные данные, потому что информация все еще находится в своей исходной форме. Он не был изменен классификацией или подразделением. Однако при анализе и построении графиков предпочтительнее использовать сгруппированные данные, поскольку их легко интерпретировать.
Точность сгруппированных данных по сравнению с несгруппированными данными
При вычислении средних значений сгруппированных и несгруппированных данных возможны отклонения. Среднее значение сгруппированных данных предпочтительнее, поскольку оно более точное по сравнению со средним значением разгруппированных данных. Среднее значение разгруппированных данных может привести к неправильному изменению медианы, поэтому в большинстве случаев оно считается неэффективным.
Представление сгруппированных данных по сравнению с разгруппированными данными
Таблицы частот используются для отображения информации о сгруппированных данных, тогда как в случае несгруппированных данных информация отображается как большой список чисел.Это связано с тем, что информация еще сырая.
Сгруппированные данные — это данные, которые были организованы в частотное распределение, в то время как несгруппированные данные никаким образом не суммировались.
Сгруппированные данные против несгруппированных данных
Сводка сгруппированных данных по стихам Разгруппированные данные
- В статистике термин «данные» используется для обозначения информации, которая была собрана и записана для конкретных проектов и может быть как качественной, так и количественной.
- Как сгруппированные, так и разгруппированные данные являются типами данных, однако сгруппированные данные были классифицированы по категориям на основе схожих характеристик, тогда как разгруппированные данные являются необработанными данными.
- Оба типа данных могут быть представлены частотными таблицами. Однако для сгруппированных данных ограничений по классам нет, поэтому используются счетные метки. Сгруппированные данные в таблице частот имеют пределы, и это верхний предел класса и нижний предел класса.
- Оба типа данных могут использоваться для расчета среднего, модового и медианного значений выборок населения, поэтому они полезны.
: Если вам понравилась эта статья или наш сайт. Пожалуйста, расскажите об этом. Поделитесь им с друзьями / семьей.
Cite
APA 7
Kungu, E. (2018, 16 апреля). Разница между сгруппированными и несгруппированными данными. Разница между похожими терминами и объектами. http://www.differencebetween.net/language/words-language/difference-between-grouped-data-and-ungrouped-data/.
MLA 8
Kungu, Evah.«Разница между сгруппированными и несгруппированными данными». Разница между похожими терминами и объектами, 16 апреля 2018 г., http://www.differencebetween.net/language/words-language/difference-between-grouped-data-and-ungrouped-data/.
Статистика 101: сгруппированные и разгруппированные данные. Давайте поговорим о данных! | Рохан Бали | Аналитика Видхья
Данные можно классифицировать в различных формах. Один из способов различать данные — это сгруппированные и несгруппированные данные.
ДАННЫЕ есть у всех!Что такое разгруппированные данные?
Если данные не были помещены ни в одну категорию и не было выполнено агрегирование / суммирование данных, они называются несгруппированными данными.Негруппированные данные также называются необработанными данными.
Что такое сгруппированные данные?
Когда необработанные данные сгруппированы по разным классам, они называются сгруппированными данными.
Например, рассмотрим следующее:
Рост студентов: (171,161,155,155,183,191,185,170,172,177,183,190,139,149,150,150,152,158,159,174,178,179,190,170,143,165,167,187,187,169,182,163,149,174,170,170,170ngroup Это необработанные данные.
В следующей таблице показаны сгруппированные данные из вышеупомянутых необработанных данных
ПРИМЕЧАНИЕ. Среднее значение сгруппированных данных будет объяснено позже в этом блоге.Щелкните здесь, чтобы узнать больше о совокупной частотеПрежде чем мы изучим сгруппированные и несгруппированные данные, важно понять, что мы подразумеваем под « Central Tendencies »?
Судя по названиям, центральные тенденции как-то связаны с центром. Центральная тенденция — это центральное место в распределении вероятностей. Существует множество способов измерения центральных тенденций, таких как среднее, мода, медиана, межквартильный размах, процентили, среднее геометрическое, среднее гармоническое и т. Д.Наиболее часто используемые меры центральных тенденций обсуждаются ниже.
Понимание мер основных тенденций несгруппированных данных.
(i) РЕЖИМ: Наиболее часто встречающийся элемент / значение в наборе данных называется режимом. Бимодальный режим используется в том случае, когда существует связь ч / б двух значений. Мультимодальный — это когда в заданном наборе данных есть более двух значений с одинаковой частотой встречаемости.
например, 7,11,14,25,15,15,15,15,15,19,19,29,81. Режим: 15
(ii) МЕДИАНА: Медиана набора данных описывается как самое среднее значение в упорядоченном расположении значений в наборе данных.
ПРИМЕЧАНИЕ. Для нечетного номера набора данных медиана является средним значением. Для четного числа набора данных медиана является средним из двух средних значений.
например 15,11,14,3,21,17,22,16,19,16,5,7,9,20,4
Расположим эти данные в порядке возрастания
3,4,5,7 , 8,9,11,14,15,16,16,17,19,19,20,22,22. Медиана равна n + 1/2 = 17 + 1/2 = 18/2 = 9
Преимущество медианы: на нее не влияют большие значения. Он остается невосприимчивым к выбросам.
«Данные должны быть по крайней мере порядковыми, чтобы медиана была значимой»
(iii) СРЕДНЕЕ: Также известно как среднее арифметическое.Он рассчитывается путем суммирования всех значений, разделенных на количество значений.
Например, среднее значение «15,11,14,3,21,17,22,16,19,16,5,7,9,20,4» равно 13,26667.
(iv) ПРОЦЕНТИЛЬ: Эта форма центральной тенденции делит группу данных на 100 частей. N-й процентиль набора данных описывается как n значений ниже этого «n-го значения» и (100-n) значений выше этого «n-го значения».
Теперь давайте посмотрим, как рассчитать процентили.
ШАГ 1: Расположите данные в порядке возрастания.
ШАГ 2: Положение i-го процентиля:
i = (P / 100) * N
i: положение процентиля
N: общее количество в наборе данных
P: интересующий процентиль.
ШАГ: Определение местоположения с помощью (a) или (b)
(a) Если «i» — целое число, то процентиль в среднем соответствует положению «i» и «i + 1».
(b) Если «i» не является целым числом, тогда значение процентиля находится в позиции «i + 1».
например. Предположим, мы хотим определить 70-й процентиль из 1450 чисел.
i = (70/100) * 1450
i = 1015
P = 1015-е число + 1016-е число / 2
(v) КВАРТИЛЬ: Эта форма центральной тенденции делит группу на четыре части.
Первый квартиль = 25-й процентиль
Второй квартиль = 50-й процентиль
Третий квартиль = 75-й процентиль
Четвертый квартиль = 100-й процентиль.
ПРИМЕЧАНИЕ. Второй квартиль равен медиане данных.
Понимание мер изменчивости несгруппированных данных.
Мера изменчивости описывает разброс или разброс набора данных.
ПРИМЕЧАНИЕ: аспект изменчивости любых данных позволяет нам лучше описать данные.
Обе кривые имеют одинаковое среднее значение, но их разброс разный.(i) ДИАПАЗОН: Разница между наибольшим значением и наименьшим значением в наборе данных называется диапазоном набора данных. Диапазон также является представлением конечных / крайних значений.
Диапазон помогает в построении контрольных диаграмм на основе данных.
(ii) МЕЖКВАРТИЛЬНЫЙ ДИАПАЗОН: Межквартильный диапазон — это разница между первым и третьим квартилями.
Это удобно, потому что пользователей больше интересуют средние значения, чем крайние значения.
(iii) СРЕДНЕЕ АБСОЛЮТНОЕ ОТКЛОНЕНИЕ: Это среднее абсолютных значений отклонений вокруг среднего значения набора данных.
(iv) РАЗНИЦА: Это квадрат отклонений от среднего арифметического для набора чисел.
ПРИМЕЧАНИЕ. Окончательный результат выражается в единицах измерения, возведенных в квадрат.
(v) СТАНДАРТНОЕ ОТКЛОНЕНИЕ: Это квадратный корень из дисперсии.
Например, стандартное отклонение данных в приведенном выше примере составляет 6,086
ПРИМЕЧАНИЕ. Стандартные отклонения используются при вычислении доверительных интервалов и проверке гипотез. Стандартное отклонение имеет ту же единицу, что и исходные данные.
«Реальное использование стандартного отклонения можно понять с помощью эмпирического правила и теоремы Чебышева.Оба будут подробно обсуждены в следующих блогах »
(vi) КОЭФФИЦИЕНТ ВАРИАЦИИ: Это отношение стандартного отклонения к среднему значению данных.
например, коэффициент вариации в приведенном выше примере равен (6,086 / 9,4) * 100 = 64,7.
Расчет показателей центральных тенденций сгруппированных данных.
Рассмотрим следующие данные:
Среднее = ∑fx / n = 6,93
Медиана = i + (N / 2 — CW) / MED = 7,105
Mode = Режим групповых данных — это частота модального класса .Максимальная частота в приведенном выше примере предназначена для интервалов с 7 по 9, т.е. 19. Следовательно, режим равен 8
Сокращения:
f: частота
N: общая частота
CW: ширина класса
i: начальная точка (N / 2 даст нам местоположение среднего значения, то есть 30 в приведенном выше примере). В интервале классов «от 7 до 9» уместится 29 записей. Следовательно, значение «i» равно 7.
MED: частота класса, в котором существует медиана. В приведенном выше примере значение MED = 19.
Это все для этого блога.
Скоро: Статистика 101: Проверка гипотез и p-значение — Что за шум!
Предыдущий блог: Статистика 101: Основы Визуализации — Хорошо, чтобы «на вас смотрели»!
Групповое распределение частот
Частота
Частота — это то, как часто что-то происходит.
Пример: Сэм играл в футбол на:
- Субботнее утро,
- Субботний полдень
- Четверг, полдень
Частота была 2 в субботу, 1 в четверг и 3 в течение всей недели.
Распределение частот
Посчитав частоты, мы можем составить таблицу распределения частот.
Пример: Газеты
Это количество газет, проданных в местном магазине за последние 10 дней:
22, 20, 18, 23, 20, 25, 22, 20, 18, 20
Давайте посчитаем, сколько там каждого числа:
Продано статей | Частота |
---|---|
18 | 2 |
19 | 0 |
20 | 4 |
21 | 0 |
22 | 2 |
23 | 1 |
24 | 0 |
25 | 1 |
Также можно сгруппировать значений.Здесь они сгруппированы по 5 сек:
Продано статей | Частота |
---|---|
15-19 | 2 |
20-24 | 7 |
25–29 | 1 |
Групповое распределение частот
Мы только что видели, как можно группировать частоты. Это очень полезно, когда оценки имеют много разных значений.
Пример: листья
Алекс измерил длину листьев на дубе (с точностью до сантиметра):
9,16,13,7,8,4,18,10,17,18,9,12,5,9,9,16,1,8,17,1,
10,5,9,11, 15,6,14,9,1,12,5,16,4,16,8,15,14,17
Давайте попробуем сгруппировать их, но какие группы мы должны использовать?
Для начала расположите числа в порядке , затем найдите наименьших значений и наибольших значений в ваших данных и вычислите диапазон (диапазон = наибольший — наименьший).
Пример: листья (продолжение)
Для заказа длины:
1,1,1,4,4,5,5,5,6,7,8,8,8,9,9,9,9,9,9,10,10,11,12,12,
13,14,14,15,15,16,16,16,16,17,17,17,18,18
Наименьшее значение («минимум») — 1 см
Наибольшее значение («максимум») 18 см
Диапазон 18−1 = 17 см
Размер группы
Теперь рассчитайте приблизительный размер группы, разделив диапазон на количество групп, которое вы хотите.
Затем округлите этот размер группы до до некоторого простого значения (например, 2 вместо 1,83 или 5 вместо 4,26).
Пример: листья (продолжение)
Допустим, мы хотим около 5 групп.
Разделите диапазон на 5:
17/5 = 3,4
Затем округлите до 4
Начальное значение
Выберите начальное значение, которое меньше или равно наименьшему значению.Если можете, постарайтесь сделать его кратным размеру группы.
В нашем случае наиболее разумным является начальное значение 0 .
Группы
Теперь посчитаем список групп. (Мы должны увеличивать или превышать наибольшее значение).
Пример: листья (продолжение)
Начиная с 0 и с размером группы 4 мы получаем: 0, 4, 8, 12, 16
Запишите группы.
Включите конечное значение каждой группы, которое должно быть на меньше, чем следующая группа :
Длина (см) | Частота |
---|---|
0-3 | |
4-7 | |
8-11 | |
12-15 | |
16-19 |
Последняя группа идет до 19, что больше наибольшего значения.Это нормально: главное, чтобы в нем было самое большое значение.
(Примечание: если вам не нравятся группы, вернитесь назад, измените размер группы или начальное значение и повторите попытку.)
Верхние и нижние значения для каждой группы
Несмотря на то, что Алекс измерял только целые числа, данные непрерывны, поэтому «4 см» означает, что фактическое значение могло быть от 3,5 до 4,5 см. Алекс просто округлил числа до целых сантиметров.
Пример: листья (продолжение)
Вот группы с показанными нижним и верхним пределами:
Длина | Нижний / Верхний | Частота |
---|---|---|
0-3 см | 0-3.5 | |
4-7 см | 3,5-7,5 | |
8-11 см | 7,5-11,5 | |
12-15 см | 11,5-15,5 | |
16-19 см | 15,5-19,5 |
Подсчет и всего
Теперь подсчитайте результаты, чтобы найти частоты.И сделайте всего.
Пример: листья (продолжение)
1,1,1,4,4,5,5,5,6,7,8,8,8,9,9,9,9,9,9,9,10,10,11,12,12,
13,14,14,15,15,16,16,16,16,17,17,17,18,18:
Длина | Нижний / Верхний | Частота |
---|---|---|
0-3 см | 0–3,5 | 3 |
4-7 см | 3,5-7,5 | 7 |
8-11 см | 7.5-11,5 | 12 |
12-15 см | 11,5-15,5 | 7 |
16-19 см | 15,5-19,5 | 9 |
Всего: | 38 |
Готово!
Гистограмма
Вы также можете построить гистограмму ваших данных.
Статистика: сгруппированные данные
Статистика: сгруппированные данныеСгруппированные данные
Цели: К концу этой главы вы будете
уметь
(i) представить сгруппированные данные с помощью таблицы частот,
(ii) представить сгруппированные дискретные данные с помощью гистограммы,
(iii) представляют сгруппированные непрерывные данные с использованием гистограммы, а
(iv) определить модальную группу и многоугольник частот.
Сгруппированные данные
- Группировка означает размещение данных в нескольких классах.
- Количество элементов данных, попадающих в любой класс, называется частотой. класса.
Сгруппированные дискретные данные
Давайте посмотрим на это на примере. Вот список 23 студентов, которые только что закончили тест на 7 вопросов «верно-неверно».Оценка | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
Tally | // | // | / | //// | / | //// |
Группа / класс | Tally | Частота, f |
---|---|---|
0-1 | // | 2 |
2-3 | /// | 3 |
4-5 | /// | 8 |
6-7 | 10 |
Мы могли бы представить эти сгруппированные данные с помощью гистограммы. Эти полосы можно нарисовать, касаясь друг друга для эстетики. обращаться.
Группа с наиболее частым наблюдением называется модальной группой . В нашем случае ответ — группа 6-7.
Возможно распределение, которое имеет более одной модальной группы.
Аналогичным образом мы могли бы сгруппировать категориальные данные. Например, 22 путешественника спрашивают, в какой стране он / она побывал в последний раз перед прибытием в Гонконг. Поскольку иметь дело с более чем 150 странами мира может быть неудобно. тогда мы могли бы сгруппировать данные по разным континентам, таким как Азия, Европа, Африка, Америка и Океания.
континент | Азия | Европа | Африка | Америка | Океания |
---|---|---|---|---|---|
Частота, f & nbsp | 8 | 5 | 4 | 3 | 2 |
Эти данные могут быть представлены в виде столбчатой диаграммы.Обратите внимание, что у нас есть два представления, и оба они верны. Однако акцент делается на том, чтобы презентация была простой для понимания и не вводила в заблуждение. Тот, что слева, вероятно, более приятен, чем тот, что справа.
Категориальные данные также могут быть эффективно представлены с помощью круговых диаграмм .
Есть ли смысл говорить о форме распределения для сгруппированных категориальных данных? [подсказка: посмотрите на гистограммы выше]
Схема ствола и листа
Вес 30 студентов в кг:
45 45 50 60 62 63 47 69 51
61
58 59 61 63 69 63 75 78 70
51
50 79 71 52 59 55 79 88 75
55
Один из способов представить эти данные, чтобы получить некоторое представление о распределении, но без
потеря индивидуальной информации (данных) заключается в построении диаграммы ствола и листа
как показано ниже.
Шток | Лист |
4 | | 5 5 7 |
5 | | 0 0 1 1 2 5 5 8 9 9 |
6 | | 0 1 1 2 3 3 3 9 9 |
7 | | 0 1 5 5 8 9 9 |
8 | | 8 |
Ключ: 4 | 5 = 45 кг.
Вы всегда должны предоставлять ключ к диаграмме стебля и листа. Это упорядоченная диаграмма ствола и листа, потому что значения находятся в возрастающем порядке. порядок.
Паровую и листовую диаграмму можно использовать для простого сравнения двух наборов данных.
Рост в см группы студентов мужского и женского пола
Мужской: 168 170 171 175 180 163 188
176 176
Женский: 180155160165168165159157
158 155 154
Женский | Шток | Мужской |
9 8 7 5 5 4 | | 15 | | |
8 5 5 0 | | 16 | | 3 8 |
| 17 | | 0 1 5 6 6 | |
0 | | 18 | | 0 8 |
Ключ 0 | 16 | 3 = 160 см для студентки и 163 см для мужчины.
Это простое сравнение позволяет нам увидеть, что у большинства студенток рост менее 170 см, а рост большинства студентов мужского пола составляет 170 см и выше. см. Также обратите внимание, что основа остается пустой, если в этой группе нет данных, например, ни один студент мужского пола не имеет роста от 150 до 159 см.
Упражнение. 2.
Сформируйте диаграмму пара и листа для скорости чтения слов в минуту
для двух групп студентов. Не забудьте предоставить ключ для каждой схемы ствола и листа. |
Сгруппированные непрерывные данные.
- Непрерывные данные не могут принимать точные значения, а могут быть даны только в пределах определенная степень точности. Примеры:
- Рост Тома (в) 178 см (с точностью до сантиметра). Настоящий Том высота может быть от любого значения в интервале
177,5 ≤ ч Температура чашки кофе (T) 41.8 o C (измерено с точностью до десятых долей градуса).
В действительности 41,75 o C ≤ T o C. - Глубина океана (d0 дается как 9200 м с точностью до ближайшего 100м.
На самом деле, 9150 м ≤ d. Время ожидания (t) дается как 11 минут с точностью до ближайшего минута.
Реально 10,5 минут ≤ t - Давайте посмотрим на это на примере.Мы будем использовать вышеупомянутые понятия интервала ширина и граница класса в этом примере. Воспользуемся примером веса усиление выше.
Вот прибавка в весе w (в кг) 18 студентов после определенного количества кормлений. рацион питания.
0,1 0,2 0,7 0,5 0,8 1,3
1,2 1,5 0,8 1,4 1,3 1,3
1,5 1,6 1,5 1,8 1,9 2,0 - Давайте сначала организуем это в таблицу распределения частот.Мы имея дело с непрерывными данными, поэтому записанное значение w = 1,5 кг фактически означает 1,45 ≤ Вт
класс (кг) [0,05; 0,55) [0,55,1,05) [1.05,1.55) [1,55,2,05) [2,05,2,55) Границы классов равны 0.05, 0,55, 1,05, 1,55, 2,05 и 2,55.Частота, f & nbsp 2 4 5 6 1
Ширина всех классов в этом случае составляет 0,5 кг. - Распределение частот выше можно представить с помощью специальной гистограммы. называется гистограммой .
- Обратите внимание, что границы из этих столбцов ЯВЛЯЮТСЯ вышеуказанными границами классов.
- Все классы имеют одинаковую ширину класса.
- Между прямоугольниками НЕТ промежутков, потому что эти данные непрерывны.
- Модальная группа / класс — это класс с самой высокой частотой или с самой высокой частотой. бар. В этом случае очевидно, что модальный класс — [1.55,2.05).
- Многоугольник частот формируется путем объединения значений среднего интервала и экстремумы на гистограмме, гистограмме частот или гистограмме плотности частоты. Значения среднего интервала находятся путем усреднения границ классов. Например класс [0.05,0,55) равно (0,05 + 0,55) / 2 = 0,30. Красные линии накладываются на гистограмма частот — это многоугольник частот. Как видите, многоугольник гистограмма передает ту же информацию, что и гистограмма. Разница в форма.
Использование GDC.
[СТАТИСТИКА] Выберите 1: РЕДАКТИРОВАТЬ [ВВОД]
{Введите значение среднего интервала для каждого x в столбец под L1 и частоты в другой столбец под L2}По завершении нажмите [2nd] [MODE] для выхода.Прежде чем вы начнете строить свой гистограмме, убедитесь, что в [Y =] нет функции, потому что они будут вмешиваться в ваш сюжет последний.
[2nd] [Y =] выберите 1: Plot1, чтобы активировать график, выбрав ON [ENTER]. Затем переместите курсор на Тип и выберите Значок с полосами и [ENTER]. Убедитесь, что Xlist и Freq (частота) соответствуют вашим спискам соответственно.Если не, внести соответствующие изменения.Перед тем, как строить график, убедитесь, что вы установили [ОКНО] в соответствии с вашим данные. В приведенном выше примере мы могли бы иметь Xmin = -1, Xmax = 3, Xscl = 0,5, Ymin = -0,5, Ymax = 7, Yscl = 1, Xres = 1.
Этот параметр оставит некоторые значения слева и справа от гистограммы.
[График] для построения гистограммы. Нажмите [TRACE] и соответствующую стрелку кнопки для чтения этих столбцов.Эта гистограмма может помочь вам построить точную гистограмму для сгруппированных данных или нарисуйте быструю гистограмму как часть вашей работы.
Разведка
- Вот записанное время в секундах, в течение которого группа студентов должна завершить Спринт на 100 метров.
100 м время (t) в секундах [8,9.5) [9,5,11) [11,12,5) [12,5,14) [14,15,5) Частота, f & nbsp 1 3 9 10 9 - Нарисуйте частотную гистограмму с приведенной выше информацией.
- Сколько учеников приняли участие в беге на 100 метров?
- Что такое модальный класс?
- Подтвердите гистограмму с помощью GDC.
- Рост Тома (в) 178 см (с точностью до сантиметра). Настоящий Том высота может быть от любого значения в интервале
Статистика: сгруппированные распределения частот
Статистика: сгруппированные распределения частотСтатистика: сгруппированные распределения частот
Указания для занятий
- Должно быть от 5 до 20 классов.
- Ширина класса должна быть нечетным числом. Это гарантирует, что средние точки класса будут целые числа вместо десятичных.
- Классы должны быть взаимоисключающими. Это означает, что никакое значение данных не может быть разделено на две части. разные классы
- Классы должны быть всеобъемлющими или исчерпывающими. Это означает, что все значения данных должны быть включены.
- Занятия должны быть непрерывными. В частотном распределении нет пропусков. Классы, которые не должны быть включены в них значения (если только это не первый или последний класс, которые были отброшены).
- Классы должны быть равны по ширине. Исключение составляет первый или последний класс. Возможно иметь класс «ниже …» или «… и выше». Это часто используется с возрастом.
Создание сгруппированного распределения частот
- Найдите наибольшее и наименьшее значения
- Вычислить диапазон = максимум — минимум
- Выберите желаемое количество классов. Обычно это от 5 до 20.
- Найдите ширину класса, разделив диапазон на количество классов и округлив в большую сторону.Есть Здесь нужно быть осторожным с двумя вещами. Вы должны округлить до , а не выкл. Обычно 3,2 округляется до равняется 3, но при округлении в большую сторону получается 4. Если диапазон, разделенный на количество классов, дает целочисленное значение (без остатка), то вы можете либо добавить единицу к количеству классов, либо добавить единицу в ширину класса. Иногда вы заперты в определенном количестве классов из-за инструкции. В тексте Блюмана не упоминается случай, когда нет остатка.
- Выберите подходящую начальную точку, меньшую или равную минимальному значению.Вы сможете cover: значения «ширина класса, умноженная на количество классов». Вам нужно прикрыть еще один значение, чем диапазон. Следуйте этому правилу, и все будет в порядке: Начальная точка плюс число классов, умноженное на ширину класса, должно быть больше максимального значения . Ваша отправная точка это нижняя граница первого класса. Продолжайте добавлять ширину класса к этому нижнему пределу, чтобы получить остальные нижние пределы.
- Чтобы найти верхний предел первого класса, вычтите единицу из нижнего предела второго класса.Затем продолжайте добавлять ширину класса к этому верхнему пределу, чтобы найти остальные верхние пределы.
- Найдите границы, вычтя 0,5 единицы из нижних пределов и прибавив 0,5 единицы из верхние пределы. Границы также находятся на полпути между верхней границей одного класса и нижняя граница следующего класса. В зависимости от того, чего вы пытаетесь достичь, это может быть не так. необходимо найти границы.
- Подсчитайте данные.
- Найдите частоты.
- Найдите совокупные частоты.В зависимости от того, чего вы пытаетесь достичь, это может не необходимо найти совокупные частоты.
- При необходимости найдите относительные частоты и / или относительные совокупные частоты.
Калькулятор TI-82 может подобрать частоты за вас.