Описательная статистика. Измерительные шкалы.
Измерительное шкалой называется множество обозначений, используемых для регистрации состояний наблюдаемого объекта.
Наиболее общей классификацией измерительных шкал является разделение на:
Неметрические (качественные), в которых единица измерения отсутствует.
Порядковая шкала (синонимы - ранговая, ординальная) используется, если классы могут быть упорядочены. Обозначив такие классы любыми знаками и установив между этими знаками отношения порядка (больше, меньше, лучше, хуже), мы получим порядковую шкалу. В этой шкале все признаки располагаются по рангу — от самого большего (высокого, сильного, умного и т.п.) до самого меньшего (низкого, слабого, глупого и т. п.), либо наоборот. Пример: оценка знаний учащихся.
Характерная ее особенность в том, что указанное отношение ничего не говорит о расстоянии между сравниваемыми классами.
Шкала наименований (синонимы - номинальная, номинативная, классификационная, категориальная) применяется для явлений, дискретных по своей природе. Измерение состоит в определении принадлежности объекта к одному из классов, расположенных на шкале. При этом все объекты одного класса считаются одинаковыми, а каждый класс обозначается некоторым образом. Множество таких обозначений и образует шкалу наименований. Например, группы крови (А, В, АВ и 0); классический пример измерений в номинативной шкале в психологии — темпераменты людей: сангвиник, холерик, флегматик и меланхолик.
Присваиваемые классам объектов обозначения могут быть произвольными (текст, символ, номер), единственным требованием является их отличие друг от друга. В любом случае обозначения классов имеют смысл символов, а не чисел. Естественно, что и арифметические операции над ними, и определение, какое из них больше (лучше) другого, бессмысленны.
Особый вид номинативной шкалы - дихотомическая. Признак такого типа имеет лишь два возможных значения. Например, пол, отсутствие или наличие некоторого заболевания.
Метрические (количественные), в которых может быть установлена единица измерения. Метрические шкалы являются более мощными, т.е. они лучше дифференцируют измеряемые объекты (отражают больше информации о различии измеряемых объектов).
Обязательным для шкалы отношений является наличие фиксированного нуля, который означает полное отсутствие какого-либо свойства или признака. Шкала отношений является наиболее информативной шкалой, допускающей любые математические операции и использование разнообразных статистических методов.
Шкала отношений по сути очень близка к интервальной, поскольку если строго фиксировать начало отсчета, то любая интервальная шкала превращается в шкалу отношений. Например, измерение температуры по Кельвину. В этой шкале достижение 0о означает отсутствие кинетической энергии у молекул.
Примерами величин, измеренных в шкале отношений, являются длина, вес, время выполнения задачи, деньги и др.
Шкала интервалов - это такое измерение, при котором числа отражают не только различия между объектами в уровне выраженности свойства (это характерно для порядковой шкалы), но и насколько больше или меньше выражено свойство. Равным разностям в этой шкале соответствуют равные разности в уровне выраженности измеренного свойства. То есть, в этой шкале присутствует единица измерения и любому объекту приписывается число единиц измерения, пропорциональное выраженности свойства.
Важная особенность шкалы - условность нулевой точки (это не дает возможности сравнивать во сколько раз больше или меньше два разных значения).
Примеры:
1. Наиболее типичный пример измерения в интервальной шкале - температура по шкале Цельсия (или по шкале Фаренгейта).
2. Высота местности.
Выделяют два основных атрибута измерительных шкал, наличие или отсутствие которых определяет принадлежность шкалы к той или иной категории:
2. нулевая точка (или точка отсчета) означает, что набор чисел, соответствующих измеряемым свойствам, имеет точку отсчета, обозначаемую за ноль, что соответствует полному отсутствию измеряемого свойства.
1. упорядоченность данных означает, что один пункт шкалы, соответствующий измеряемому свойству, больше, меньше или равен другому пункту
Основные статистические показатели можно разделить на две группы:
Меры разброса (меры рассеяния) к ним относят размах, квартильный размах, дисперсию, среднее квадратическое и стандартное отклонение, стандартную ошибку.
Стандартная ошибка среднего в математической статистике — величина, характеризующая стандартное отклонение выборочного среднего, рассчитанное по выборке размера n из генеральной совокупности. Термин был впервые введён Удни Юлом в 1897 году. Величина стандартной ошибки зависит от дисперсии генеральной совокупности и объёма выборки.
Среднее квадратическое отклонение в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания. При ограниченных массивах выборок значений вместо математического ожидания используется среднее арифметическое совокупности выборок.
Среднее квадратическое отклонение равно квадратному корню из выборочной дисперсии (обозначается σx).
Стандартное отклонение показывает, как распределены значения относительно среднего в нашей выборке. Другими словами, можно понять на сколько велик разброс величины стока от недели к неделе.
Стандартное отклонение, обозначаемое sx для выборки, равно квадратному корню из исправленной выборочной дисперсии.
Выборочная дисперсия - это оценка теоретической дисперсии распределения, рассчитанная на основе данных выборки.
Выборочная дисперсия описывает разброс вариант относительно выборочной средней и характеризует точность измерений. Выборочная дисперсия всегда положительна.
Исправленная выборочная дисперсия описывает то же самое, что и выборочная дисперсия.
Вычисление исправленной выборочной дисперсии связано с переносом данных на генеральную совокупность (она является точечной оценкой дисперсии в генеральной совокупности).
Кванти́ль в математической статистике – такое число, что заданная случайная величина не превышает его с фиксированной вероятностью.
0-квантиль называется нулевым квартилем или минимальным значением выборки
0,25-квантиль называется первым (или нижним) квартилем;
0,5-квантиль называется медианой или вторым квартилем;
0,75-квантиль называется третьим (или верхним) квартилем;
1-квантиль называется четвертым квартилем или максимальным значением выборки
Таким образом, квартили – это значения признака, делящие упорядоченную совокупность на четыре равновеликие части. Первый квартиль отсекает 25% наблюдений с наименьшим значением признака, второй (медиана) – 50%, третий – 75%. Чем более однородным является изучаемый признак, тем меньше квартильный размах и более вероятность того, что медиана действительно выражает «типичный» случай.
Размах представляет собой меру рассеяния, разброса, неоднородности или изменчивости. Эта величина возрастает с ростом рассеяния и уменьшением однородности. Заметим, что, так же как и для моды и медианы, в ходе вычисления этой меры не учитывается каждое отдельное значение.
Размах просто измеряет на числовой шкале расстояние, в пределах которого изменяются значения. Это разность максимального и минимального значений выборки.
Например, размах значений 0, 2, 3, 5, 8 равен 8 – 0 = 8. Значения: –0,2; 0,4; 0,8; 1,6 имеют размах, равный 1,6 – (–0,2) = 1,8.
Если в выборке имеются выбросы (значения, сильно отличающиеся от основной совокупности), то размах будет сильно увеличен.
Меры центральной тенденции (меры среднего уровня) - это число, характеризующее выборку по уровню выраженности измеряемого признака. Это такие значения признака, вокруг которых группируются отдельные наблюдаемые значения, т.е. они характеризуют центр статистического распределения (отсюда и произошло их название). К мерам центральной тенденции относятся среднее арифметическое (выборочная средняя), мода, медиана.
Медиана (обозначается Ме) – это значение, которое делит упорядоченное множество данных пополам, при этом одна половина значений оказывается больше медианы, а другая – меньше.
При нахождении медианы следует различать два случая:
1) Если объем совокупности нечетный и равен 2n + 1, и варианты размещены в порядке возрастания их значений, то Me = xn + 1.
2) Если же количество элементов четное и равно 2n, то нет варианты, которая бы делила совокупность на две равные по объему части.
Вычисление медианы имеет следующие преимущества:
1) Она мало чувствительна к выбросам.
2) Её возможно вычислять не только для метрических данных, но и для данных, измеренных в ранговой шкале.
подтема
Мода - это такое значение признака, которое встречается наиболее часто. В случае дискретных рядов вычислить моду нетрудно. Достаточно найти варианту, которая имеет наибольшую частоту или относительную частоту, это и будет мода. Будем обозначать моду символом Мо.
1) Если все значения в группе встречаются одинаково часто, то мода отсутствует.
Например: в группе 1,1,2,2,13,13 моды нет
2) Когда два соседних значения имеют одинаковые частоты и они больше частоты любого другого значения, мода есть среднее этих двух значений.
Например: 1,2,2,5,5,5,6,6,6,9,9,10. Наиболее часто встречаются значения 5 и 6, причем они являются соседними. Поэтому мода будет равна их полусумме, т.е. 5,5.
3) Если два несмежных значения в группе имеют равные частоты и они больше частот любого другого значения, то существуют две моды. В этом случае говорят, что группа оценок является бимодальной.
Например: 1,4,4,4,7,7,9,9,9,10. Наиболее часто встречаются значения 4 и 9, причем они не являются соседними. Поэтому в данной выборке будет две моды – 4 и 9.
Среднее арифметическое (выборочная средняя) – это средняя арифметическая всех вариант в выборке. Выборочная средняя характеризует среднее значение признака в выборке.
Сущность среднего арифметического состоит в следующем: если каждое наблюдение заменить средним, то общая сумма не изменится. Это среднее можно интерпретировать еще и так: если все наблюдения будут равны между собой, а сумма наблюдений останется неизменной, то каждое наблюдение будет равно среднему.
Выборочная средняя наиболее полезна в качестве обобщающего показателя при отсутствии резко выделяющихся наблюдений, или как их называют, выбросов, т. е. когда набор данных представляет собой более менее однородную группу.
Ценность описательной статистики заключается в том, что она дает сжатую и концентрированную характеристику изучаемого явления.
Цель описательной (дескриптивной) статистики — обработка эмпирических данных, их систематизация, наглядное представление в форме графиков и таблиц, а также их количественное описание посредством основных статистических показателей.
Описательная статистика предназначена для представления данных в удобном виде и описания информации в терминах математической статистики и теории вероятностей.