Статистическая гипотеза
Определение
- предположение о законе распределения случайной величины или о параметрах этого закона в генеральной совокупности, формулируемое на основе анализа выборки.
Закон распределения – функция (таблица, график, формула), позволяющая определять вероятность pi того, что случайная величина Х принимает определеное значение хi или попадает в некоторый интервал. Вероятность рi считается как число появлений xi в выборке делённое на объём выборки n
некоторые теоретические законы распределения СВ (в генеральной совокупности)
подтема
другие
примеры идентификации закона распределения
Параметры распределения. Закон распределения представляет собой некоторую формулу. Переменные величины, которые можно в нее подставлять называют параметрами - это дисперсия, среднее арифметическое, число степеней свободы и т.д.
Дисперсия: -средний квадрат отклонений индивидуальных значений случайной величины от их средней величины.
- является мерой изменчивости случайной величины и служит для оценки степени разброса (отклонения) её значений относительно среднего.
Вероятность: если в обществе 60% рабочих, то при выборе случайного человека на улице, вероятность (pi) того, что он рабочий (xi) составляет 60%
Типы гипотез
1
Статистическая гипотеза о равенстве среднего нормальной генеральной совокупности определённому числу
Пусть имеется выборка n значений случайной величины: х1, х2, ..., xn из нормально распределенной генеральной совокупности (дисперсия неизвестна). Требуется проверить гипотезу H0 о равенстве генеральной средней нормальной совокупности определённому гипотетическому значению «а».
В качестве статистического критерия (тестовой статистики) задаём случайную величину t, которая распределена по закону Стьюдента если H0 верна
2
Статистическая гипотеза о равенстве параметра регрессионной модели нулю
другие
Два способа проверки статистической гипотезы (1 - сравнить по модулю расчётное и критическое значение критерия 2 - сравнить уровень значимости и p-value)
Алгоритм
Общий алгоритм статистической проверки гипотез
1. Формулировка основной гипотезы H0 и альтернативной гипотезы H1
2. Задание уровня значимости критерия α
3. Выбор статистического критерия как функции от результатов наблюдения t(x)=f(x1,x1,…,xn) и нахождение его критического значения (tкр) по статистической таблице для выбранного закона распределения
4. По выборке вычисляется наблюдаемое или расчётное значение критерия tр(х) (по наблюдаемым значениям СВ Х).
5. По его значению делается вывод об истинности гипотезы Н0. Если расчётное значение критерия попадает в критическую область (tp>tкр), то нулевая гипотеза отвергается, а при попадании его в область принятия гипотезы нулевая гипотеза принимается (tp<tкр).
ИЛИ
Определяется p-value, если оно меньше уровня значимости, то принимаем H1
(p-value<α, то H1)
Классификация гипотез
Нулевая гипотеза Н0
утверждает, что различие между сравниваемыми характеристиками отсутствует, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках;
Альтернативная гипотеза Н1
утверждает, что данное различие присутствует. Если нулевая гипотеза будет отвергнута, то будет иметь место альтернативная гипотеза.
Критическая область - множество возможных значений критерия, при которых гипотеза H0 отвергается (принимается H1);
Область принятия гипотезы -множество возможных значений критерия, при которых нулевая гипотеза H0 принимается (H1 отвергается);
Уровень значимости
Вероятность «α» ошибки первого рода (если отклонена верная нулевая гипотеза H0) называется уровнем значимости. Также это вероятность ошибиться при принятии гипотезы Н1 и вероятность получить значение критерия по модулю больше критического (tкр), если Н0 верна. Он выбирается равным 0.01, 0.05, или 0.1 и по этому значению подбирают критическую область.
P-value (-значение)
Вероятность того, что в условиях справедливости гипотезы Н0 значение критерия будет по модулю больше расчётного (tp)
Статистический критерий (тестовая статистика) - это случайная величина с известным (если H0 принимается) законом распределения вероятностей (например,t – Стьюдента, χ2 – Пирсона, F – Фишера), которая служит для проверки гипотезы и характеризует степень различия между сравниваемыми характеристиками (например, среднего генеральной совокупности и эталонного значения).
Критические значения критерия. Значения критерия, отделяющие критическую область от области принятия гипотезы, называются критическими точками tкр. Их значения содержатся в статистических таблицах;
Расчётное значение критерия tp - вычисляется по выборке и сравнивается с критическим (по модулю)