Описательная статистика.
Для чего нужна описательная статистика?
Для обработки эмпирических данных, их систематизации, наглядного представления в форме графиков и таблиц, а также их количественного описания посредством основных статистических показателей
Основные статистические показатели можно разделить на две группы:
меры центральной тенденции (меры среднего уровня)
Среднее арифметическое (выборочная средняя) – это средняя арифметическая всех вариант в выборке. Характеризует среднее значение признака в выборке.
Сущность среднего арифметического состоит в следующем: если каждое наблюдение заменить средним, то общая сумма не изменится. Это среднее можно интерпретировать еще и так: если все наблюдения будут равны между собой, а сумма наблюдений останется неизменной, то каждое наблюдение будет равно среднему.
Выборочная средняя наиболее полезна в качестве обобщающего показателя при отсутствии резко выделяющихся наблюдений, или как их называют, выбросов, т. е. когда набор данных представляет собой более менее однородную группу.
формула нахождения среднего арифметического
Медиана (обозначается Ме) – это значение, которое делит упорядоченное множество данных пополам, при этом одна половина значений оказывается больше медианы, а другая – меньше.
При нахождении медианы следует различать два случая:
1) Если объем совокупности нечетный и равен 2n + 1, и варианты размещены в порядке возрастания их значений, то Me = xn + 1.
2) Если же количество элементов четное и равно 2n, то нет варианты, которая бы делила совокупность на две равные по объему части:
Вычисление медианы имеет следующие преимущества:
• она мало чувствительна к выбросам
• ее возможно вычислять не только для метрических данных, но и для данных, измеренных в ранговой шкале
Мода - это такое значение признака, которое встречается наиболее часто. В случае дискретных рядов вычислить моду нетрудно. Достаточно найти варианту, которая имеет наибольшую частоту или относительную частоту, это и будет мода. Будем обозначать моду символом Мо.
1) Если все значения в группе встречаются одинаково часто, то мода отсутствует.
Например: в группе 1,1,2,2,13,13 моды нет
2) Когда два соседних значения имеют одинаковые частоты и они больше частоты любого другого значения, мода есть среднее этих двух значений.
Например: 1,2,2,5,5,5,6,6,6,9,9,10. Наиболее часто встречаются значения 5 и 6, причем они являются соседними. Поэтому мода будет равна их полусумме, т.е. 5,5.
3) Если два несмежных значения в группе имеют равные частоты и они больше частот любого другого значения, то существуют две моды. В этом случае говорят, что группа оценок является бимодальной.
Например: 1,4,4,4,7,7,9,9,9,10. Наиболее часто встречаются значения 4 и 9, причем они не являются соседними. Поэтому в данной выборке будет две моды – 4 и 9.
меры разброса (меры рассеяния)
Чтобы определить, насколько хорошо та или иная мера центральной тенденции выражает «типичного» представителя совокупности, следует воспользоваться какой-либо мерой изменчивости, разброса.
Размах просто измеряет на числовой шкале расстояние, в пределах которого изменяются значения. Это разность максимального и минимального значений выборки.
Например, размах значений 0, 2, 3, 5, 8 равен 8 – 0 = 8. Значения: –0,2; 0,4; 0,8; 1,6 имеют размах, равный 1,6 – (–0,2) = 1,8.
Кванти́ль в математической статистике – такое число, что заданная случайная величина не превышает его с фиксированной вероятностью.
• 0-квантиль называется нулевым квартилем или минимальным значением выборки
• 0,25-квантиль называется первым (или нижним) квартилем;
• 0,5-квантиль называется медианой или вторым квартилем;
• 0,75-квантиль называется третьим (или верхним) квартилем;
• 1-квантиль называется четвертым квартилем или максимальным значением выборки
Таким образом, квартили – это значения признака, делящие упорядоченную совокупность на четыре равновеликие части.
Квартильный размах – это интервал, в котором вокруг медианы сосредоточилось 50% значений выборки. Он равен разности значений 0,75-й квантили и 0,25-й квантили (верхней квартили и нижней квартили).
Термин был впервые использован Гальтоном в 1882 г. Это единственная мера вариации для порядковых (ранговых) шкал.
Выборочная дисперсия – это средняя арифметическая квадратов отклонений вариант от выборочной средней
Описывает разброс вариант относительно выборочной средней и характеризует точность измерений. Выборочная дисперсия всегда положительна.
Исправленная выборочная дисперсия описывает то же самое, что и выборочная дисперсия
Среднее квадратическое отклонение равно квадратному корню из выборочной дисперсии (обозначается σx)
Стандартное отклонение, обозначаемое sx для выборки, равно квадратному корню из исправленной выборочной дисперсии.
Стандартная ошибка (или ошибка средней):
Мера центральной тенденции - это число, характеризующее выборку по уровню выраженности измеряемого признака. Это такие значения признака, вокруг которых группируются отдельные наблюдаемые значения, т.е. они характеризуют центр статистического распределения (отсюда и произошло их название)
Измерительные шкалы.
Измерительное шкалой называется множество обозначений, используемых для регистрации состояний наблюдаемого объекта.
Выделяют два основных атрибута измерительных шкал, наличие или отсутствие которых определяет принадлежность шкалы к той или иной категории:
1. упорядоченность данных означает, что один пункт шкалы, соответствующий измеряемому свойству, больше, меньше или равен другому пункту;
2. нулевая точка (или точка отсчета) означает, что набор чисел, соответствующих измеряемым свойствам, имеет точку отсчета, обозначаемую за ноль, что соответствует полному отсутствию измеряемого свойства.
Наиболее общей классификацией измерительных шкал является разделение на метрические (количественные), в которых может быть установлена единица измерения, и неметрические (качественные), в которых единица измерения отсутствует. Метрические шкалы являются более мощными, т.е. они лучше дифференцируют измеряемые объекты (отражают больше информации о различии измеряемых объектов).
Шкала наименований (синонимы - номинальная, номинативная, классификационная, категориальная) применяется для явлений, дискретных по своей природе. Измерение состоит в определении принадлежности объекта к одному из классов, расположенных на шкале. При этом все объекты одного класса считаются одинаковыми, а каждый класс обозначается некоторым образом. Множество таких обозначений и образует шкалу наименований.
Например, группы крови (А, В, АВ и 0), болезни, национальность (русский, украинец, белорус, поляк, немец и т.д.), предпочтение какого-либо вида домашних животных (один предпочитает собак, другой - кошек, третий крыс или морских свинок, и т.д.). Классический пример измерений в номинативной шкале в психологии — темпераменты людей: сангвиник, холерик, флегматик и меланхолик.
Номинативная шкала определяет, что разные свойства или признаки качественно отличаются друг от друга, но не подразумевает каких-либо количественных операций с ними. Особый вид номинативной шкалы - дихотомическая. Признак такого типа имеет лишь два возможных значения. Например, пол, отсутствие или наличие некоторого заболевания.
Порядковая шкала (синонимы - ранговая, ординальная) используется, если классы могут быть упорядочены. Обозначив такие классы любыми знаками и установив между этими знаками отношения порядка (больше, меньше, лучше, хуже), мы получим порядковую шкалу. В этой шкале все признаки располагаются по рангу — от самого большего (высокого, сильного, умного и т.п.) до самого меньшего (низкого, слабого, глупого и т. п.), либо наоборот.
подтема
Можно привести разные примеры признаков, измеряемых в ранговой шкале: сила ветра ("штиль", "слабый ветер", "умеренный ветер" и т.д.), сила землетрясений, разряды в спорте, звания в армии.
Измерение в шкале интервалов - это такое измерение, при котором числа отражают не только различия между объектами в уровне выраженности свойства (это характерно для порядковой шкалы), но и насколько больше или меньше выражено свойство. Равным разностям в этой шкале соответствуют равные разности в уровне выраженности измеренного свойства. То есть, в этой шкале присутствует единица измерения и любому объекту приписывается число единиц измерения, пропорциональное выраженности свойства.
Важная особенность шкалы - условность нулевой точки (это не дает возможности сравнивать во сколько раз больше или меньше два разных значения).
Особенностью шкалы отношений является наличие фиксированного нуля, который означает полное отсутствие какого-либо свойства или признака. Шкала отношений является наиболее информативной шкалой, допускающей любые математические операции и использование разнообразных статистических методов.