Categories: All - вероятность - критерий - распределение - проверка

by Софья Крикова 8 years ago

991

Статистические гипотезы. Критерии согласия

В статистике гипотеза представляет собой предположение о виде неизвестного распределения или его параметрах. Цель проверки гипотез состоит в принятии или отклонении гипотезы на основе выборочных данных.

Статистические гипотезы. Критерии согласия

Если нет оснований отвергать нулевую гипотезу, то генеральные дисперсии равны, выборочные дисперсии различаются не значимо.

Если нулевую гипотезу отвергаем, то генеральные дисперсии не равны, выборочные дисперсии различаются значимо.

Прежде, чем выполнить любой эксперимент, необходимо:

Типы экспериментов

Сравнение
Необходимо знать:

Вид закона распределения исследуемой случайной величины.


Вид закона распределения исследуемой случайной величины. Знание закона распределения позволяет сделать выбор между параметрическими и непараметрическими критериями.

Критерий Шапиро - Уилка


Критерий Шапиро - Уилка W
Критерий Шапиро – Уилка основан на отношении оптимальной оценки дисперсии к ее обычной оценке. Применение критерия требует специальных таблиц с коэффициентами. Поэтому для числа наблюдений больше 2000, этот критерий неприменим (в этом случае можно применить критерий Колмогорова, не имеющий ограничения по объему). Но при объеме выборки, не превышающем 50, мощность критерия Шапиро-Уилка выше мощности критерия Колмогорова.
Критерий Шапиро-Уилка считают лучшим критерием нормальности, так как он обладает большей мощностью перед широким выбором альтернативных критериев нормальности.

Критерий Колмогорова (или Колмогорова-Смирнова)


Критерий предложен русским математиком Андреем Николаевичем Колмогоровым и применим только для непрерывной случайной величины (Смирнов Николай Васильевич предложил модификацию данного критерия для 2 выборок, но во многих учебниках и критерий согласия называется критерием Колмогорова-Смирнова). В качестве величины, которая характеризует согласие распределения  изучаемой величины с теоретическим распределением используется разность между эмпирической и гипотетической функцией распределения.
Но следует помнить, что для применения данного критерия нужно знать параметры нормального закона распределения (а и σ). В реальных ситуациях это бывает редко. Тогда исследователь разрешает проблему простейшим способом – проводит оценку параметров по самой выборке. Но достоверность полученных таким образом статистических выводов может быть сильно искажена. Проблему можно решить с помощью модификаций критериев или введения специальных поправок.  В данном критерии при проверке нормальности распределения с в случае сложной гипотезы (когда параметры распределения оцениваются по выборке), вводится поправка Лиллиефорса.
Критерий Колмогорова позволяет оценить вероятность того, что данная выборка принадлежит генеральной совокупности с нормальным распределением. Если эта вероятность р < 0,05, то данное эмпирическое распределение существенно отличается от нормального, а если р > 0,05, то делают вывод о приблизительном соответствии данного эмпирического распределения нормальному.
Критерий Колмогорова считается наиболее состоятельным для определения степени соответствия эмпирического распределения нормальному, но он мало применим для выборок небольшого объема. В этом случае лучше использовать критерий Шапиро-Уилка.

Критерии согласия


Критерии согласия – это критерии,  позволяющие оценить степень согласия наблюдаемого статистического распределения выборки с гипотетическим распределением.

H1 - функция распределения изучаемой величины не соответствует функции нормального распределения

H0 - функция распределения изучаемой величины соответствует функции нормального распределения

Непараметрические критери


Непараметрические критерии не базируются на предположении о виде распределения изучаемой величины и используют непосредственно выборочные данные, а не параметры выборки.

Параметрические критерии

Параметрические критерии основаны на конкретном виде распределения изучаемой случайной величины (как правило, на нормальном распределении) и используют числовые характеристики выборочной совокупности (выборочную среднюю, выборочную дисперсию и т.п.), которые являются точечными оценками параметров генеральной совокупности.

Для практического применения методов теории вероятностей и математической статистики чрезвычайно важным является знание закона распределения вероятностей изучаемой величины. Это знание позволяет также решать многие практические задачи, связанные с прогнозированием.
Попытка применить методы анализа результатов наблюдений, разработанные для конкретных законов распределения вероятностей, в условиях, когда реальное распределение отличается от гипотетического, является самой распространенной на практике ошибкой, приводящей к неверным выводам.
Именно поэтому любая обработка результатов наблюдений должна неизменно начинаться с ответа на главный вопрос: каково распределение вероятностей обрабатываемого ряда случайных величин? На практике эта проблема обычно формулируется следующим образом: выдвигается гипотеза – «наблюдаемое распределение описывается некоторым конкретным законом (нормальным, показательным и т.п.)». Задача первичного исследования – принять или отклонить выдвинутую гипотезу.
Нормальный закон распределения вероятностей получил наибольшее распространение в практических задачах обработки экспериментальных данных. Многие задачи математической статистики исходят из предположения о нормальности распределения вероятностей изучаемых величин. Широкое распространение этого распределения вызвало необходимость разработки специальных критериев согласия эмпирических распределений с нормальным.

Критерий Стьюдента


Проверка гипотезы о равенстве генеральных средних имеет важное практическое значение. Часто возникает ситуация, когда средний результат одной серии испытаний отличается от среднего результата другой серии испытаний. Возникает вопрос, можно ли различие средних объяснить случайной ошибкой эксперимента или оно обусловлено некоторыми закономерностями, воздействием некоторого фактора.
Проверка данной гипотезы осуществляется с помощью t-критерия Стьюдента. Критерий используется чаще всего в том случае, когда нужно проверить влияние какого-либо фактора на исследуемую величину.

Применение критерия Стьюдента возможно лишь тогда, когда

1. выборки извлечены из нормально распределенных генеральных совокупностей

2. генеральные дисперсии равны

Две зависимые выборки


В этом случае используется t-критерий Стьюдента для зависимых выборок.
В зависимых выборках сравнение величин X и Y осуществляется с помощью величины d, являющейся разностью между величинами  X и Y.
Критическое значение находится по таблице критических точек распределения Стьюдента (двусторонняя критическая область). Оно зависит от уровня значимости α и числа степеней свободы f = n - 1.
Если нулевая гипотеза отвергается и принимается конкурирующая, то выборочные средние различаются значимо, генеральные средние в исследуемых совокупностях не равны между собой. Можно говорить о влиянии фактора на изучаемую величину.
Если нет оснований отвергать нулевую гипотезу, то выборочные средние различаются не значимо, генеральные средние в исследуемых совокупностях  равны. Фактор не влияет на изучаемую величину, полученное различие объясняется только случайными причинами.

Две независимые выборки


В этом случае используется t-критерий Стьюдента для независимых выборок.
 

Если нет оснований отвергать гипотезу H0, то

Фактор не влияет на исследуемую величину

Выборочные средние различаются незначимо

Генеральные средние равны

Если гипотеза H0 отвергается и принимается гипотеза H1

Фактор влияет на исследуемую величину

Выборочные средние различаются значимо

Генеральные средние не равны

H1 - генеральные средние не равны

H0 - генеральные средние равны

Если различие между средними не значимо, то фактор не оказывает влияния на исследуемую величину, различие между выборочными средними обусловлено воздействием случайных причин.

Если различие между выборочными средними статистически значимо, то фактор оказывает влияние на исследуемую величину.

Критерий Фишера -Снедекора


Такая задача на практике возникает при необходимости сравнить точность двух приборов или методик исследования, однородность (степень разброса признака в 2 группах). Дисперсия характеризует разброс значений признака относительно генеральной средней. Чем меньше разброс результатов измерений, тем более точен прибор или метод (или однороднее группы).

Применяется F-критерий Фишера - Снедекора. В качестве критерия используется случайная величина F, имеющая распределение Фишера – Снедекора (в случае истинности нулевой гипотезы ). F равна отношению большей из исправленных выборочных дисперсий к меньшей.

Гипотезы

H1 - генеральные дисперсии не равны

H0 - генеральные дисперсии равны

Нормальное распределение


Нормальное распределение играет большую роль в математической статистике, поскольку многие статистические методы предполагают, что анализируемые экспериментальные данные распределены нормально. График нормального распределения имеет вид колоколообразной кривой и описывается формулой:

Нормальное распределение зависит от двух параметров а и σ, где а – математическое ожидание (оно характеризует центр распределения, в статистике – это среднее значение параметра в генеральной совокупности, оно примерно равно выборочной средней),
σ – среднеквадратическое отклонение (оно характеризует разброс, примерно равно стандартному отклонению, полученному по выборке).
График плотности распределения вероятностей выглядит следующим образом:

Параметры


Важной особенностью является то, что форма и положение графика нормального распределении определяется также двумя параметрами: а и σ.  Если стандартное отклонение σ постоянно, а величина средней а меняется, то собственно форма нормальной кривой остается неизменной, а лишь ее график смещается вправо (при увеличении а) или влево (при уменьшении а) по оси абсцисс OX. При условии постоянства а изменение  влечет за собой изменение ширины кривой. Неизменной остается вероятность (или относительная частота) попадания в интервалы, симметричные относительно  и выраженные в σ (см. рис.).
 

"Правило трех сигм"


Для нормальной случайной величины характерно свойство, называемое «правилом трех сигм»: вероятность того, что значение нормально распределенной случайной величины отклонится от математического ожидания не более чем на 3σ, примерно равна единице.
Это означает, что если признак имеет нормальное распределение, то подавляющее большинство вариант (99,7%) будут отдаляться от среднего значения не далее, чем на 3σ.

График

Формула

Тип организации эксперимента


Тип организации эксперимента – являются выборки зависимыми или независимыми.

Зависимые (или связные) выборки


Выборки называются зависимыми (или связными), если процедура эксперимента и результаты измерения, полученные на одной выборке, оказывают влияние на особенности протекания эксперимента и результаты измерения у другой выборки. Например, измерения каких-либо параметров в одной и той же группе: первый раз – до начала лечения, второй раз – после окончания курса лечения.

Независимые (или несвязные) выборки

Выборки называются независимыми (или несвязными), если процедура эксперимента и результаты измерения, полученные на одной из выборок, не оказывают влияния на особенности протекания эксперимента и результаты измерения у другой выборки. Например, измерения каких-либо параметров в двух разных группах, одна из которых получала препарат А, а другая – препарат В.

выбрать соответствующий статистический метод, наиболее эффективный для решения поставленных в исследовании задач.

определить экспериментальную гипотезу;

четко сформулировать его задачи;

если p - уровень меньше 0,05, то нулевую гипотезу отвергаем, принимаем конкурирующую (при уровне значимости 0,05)

НО:возможны некоторые погрешности

Статистические гипотезы


Поэтому оценки подобного рода должны рассматриваться как предположительные, а не как окончательные утверждения. Подобные предположения носят название статистических гипотез.

Статистическая гипотеза – это предположение о виде неизвестного распределения или об его параметрах.

Цель проверки состоит в том, чтобы на основании выборочных данных принять решение о справедливости основной гипотезы или отклонить ее в пользу конкурирующей.

Проверка
Р-уровень

p - уровень представляет собой вероятность ошибки, которую мы сделаем, если отвергнем нулевую гипотезу

если p - уровень больше 0,05, то нет оснований отвергать нулевую гипотезу

В результате проверки статистических гипотез возможны четыре случая:

1) гипотеза Н0 верна и не отвергается

2) гипотеза Н0 верна, но отвергается

статистическая ошибка I рода

Уровень значимости

Вероятность статистической ошибки I рода обозначают α и называют уровнем значимости. В биологических и медицинских исследованиях ее принимают равной 0,01 или 0,05.

3) гипотеза Н0 не верна и отвергается

4) гипотеза Н0 не верна, но не отвергается

статистическая ошибка II рода

Мощность критерия


Мощность критерия – это способность выявлять различия или отклонять нулевую гипотезу, если она не верна.

Основной принцип принятия решения


Основной принцип принятия решения при проверке статистических гипотез состоит в следующем: гипотеза  отвергается, если наблюдаемое значение критерия, принадлежит критической области, и не отвергается, если наблюдаемое значение принадлежит допустимой области.

Альтернативная (или конкурирующая) – гипотеза о различиях, обозначается H1
Нулевая (или основная) – гипотеза о сходстве, обозначается H0

Статистический критерий(К)

Для проверки основной гипотезы используется специально подобранная случайная величина К, которая должна удовлетворять определенным требованиям:
1. она должна являться функцией выборочных данных;
2.характеризовать меру расхождения выборочных данных с основной гипотезой;
3.ее закон распределения в случае истинности гипотезы  должен быть известен.
Такая случайная величина К называется статистическим критерием.

Критические точки


Критические точки – это точки, отделяющие критическую область от допустимой.

Критическая область


Критическая область – это область значений критерия, при которых отвергается нулевая гипотеза и принимается конкурирующая.

Допустимая область

Допустимая область – это область значений критерия, которые не противоречат нулевой гипотезе.

Наблюдаемое значение критерия

Наблюдаемое значение критерия  – это значение критерия, вычисленное по выборке, то есть зависящее от выборочных значений.

Выборочные данные могут служить основанием для суждения о генеральной совокупности

В качестве примера, иллюстрирующего первые две приведенные выше причины, можно привести пример 2 (население города Томска велико и не все  доступно для исследования).


Генеральная совокупность

Генеральной совокупностью называют множество всех объектов, обладающих изучаемым признаком.

Генеральная совокупность определяется задачей исследования.

Выборка или выборочная совокупность


Выборкой или выборочной совокупностью называют множество объектов, отобранных случайным образом из генеральной совокупности для изучения.

Объем выборки

Количество объектов в выборке называют объемом выборки.

Чтобы выборка являлась хорошей моделью генеральной совокупности, она должна быть репрезентативной (или представительной). 

Репрезентативность

Репрезентативность - это показатель того, насколько хорошо выборка отражает основные свойства той генеральной совокупности, частью которой является. Чтобы получить репрезентативную выборку, все объекты генеральной совокупности должны иметь одинаковые шансы попасть в нее.

В силу закона больших чисел (законом больших чисел называют ряд теорем в теории вероятностей) выборка будет репрезентативной, если она сделана случайным образом.

Объем генеральной совокупности

Число объектов генеральной совокупности называют объемом генеральной совокупности.

Причины недоступности для изучения генеральной совокупности:

В подавляющем большинстве случаев генеральная совокупность недоступна для изучения в силу следующих причин:

большой объем генеральной совокупности, что ведет к трудоемким и дорогостоящим исследованиям;

недоступность всех объектов генеральной совокупности;

изучение объекта генеральной совокупности в ряде случаев ведет к его разрушению.

Разрушение

изучение объекта генеральной совокупности в ряде случаев ведет к его разрушению.

Пример


Для иллюстрации третьей причины подходит третий пример: если все таблетки партии, поступившей на склад, изучить на содержание действующего вещества, то вся партия будет уничтожена.

Недоступное всех объектов

недоступность всех объектов генеральной совокупности;

Большой объем

большой объем генеральной совокупности, что ведет к трудоемким и дорогостоящим исследованиям;

Примеры


Пример 1. Изучается  уровень лейкоцитов у сотрудников некоторого предприятия. Генеральной совокупностью в данном случае будут все сотрудники данного предприятия.

Пример 2. Определяется наличие йододефецита  у населения города Томска. Генеральная совокупность - все население города Томска.

Пример 3. Изучается партия психотропных таблеток, поступивших на склад, на содержание действующего вещества. Генеральная совокупность - данная партия таблеток.

Персональный компьютер

Компьютер (англ. Computer — вычислитель) — устройство или система, способное выполнять заданную, чётко определённую изменяемую последовательность операций.
Персональный компьютер (ПК, англ. PC — рersonal computer) — компьютер, предназначенный для эксплуатации одним пользователем, т. е. для личного использования.

Корпус

Внешние устройства

Порты – обычно соединение (физическое или логическое), через которое принимаются и отправляются данные в компьютерах. Бывают входными и выходными, универсальными (ввод - вывод), они служат для обеспечения обмена информацией ПК с внешними, не очень быстрыми устройствами. Информация, поступающая через порт, направляется в микропроцессор, а потом в оперативную память.

Манипуляторы - компьютерные устройства, управляемые руками оператора:
Клавиатура


Клавиатура — устройство для ввода информации в память компьютера. Внутри расположена микросхема, клавиатура связана с системной платой, нажатие любой клавиши продуцирует сигнал (код символа в системе ASCII), в памяти ЭВМ специальная программа по коду восстанавливает внешний вид нажатого символа и передает его изображение на монитор.

Дигитайзер

Дигитайзер или оцифровывающий планшет — устройство для точного ввода графической информации (чертежей, графиков, карт) в компьютер. Он состоит из плоской панели (планшета) и связанного с ней ручного устройства - пера

Джостик


Джойстик — рычажный указатель - устройство для ввода направления движения руки оператора, их чаще используют для игр на компьютере

Мышь

мышь — устройство для определения относительных координат (смещения относительно предыдущего положения или направления) движения руки оператора. Относительные координаты передаются в компьютер и при помощи специальной программы, чем вызывают перемещения курсора на экране. Для отслеживания перемещения мыши используются различные виды датчиков.

Сканеры

Сканеры - устройства ввода информации в ЭВМ непосредственно с бумажного документа. Можно вводить тексты, схемы, рисунки, графики, фотографии и другую информацию. Файл, создаваемый сканером в памяти ЭВМ называется битовой картой. Существует два формата представления графической информации в ЭВМ:

Принтеры

Принтеры — это устройства вывода данных из ЭВМ, преобразовывающие информационные ASCII-коды в соответствующие им графические символы и фиксирующие эти символы на бумаге.

Лазерные

лазерные — используется электрографический способ формирования изображений. Лазер служит для создания сверхтонкого светового луча, вычерчивающего на поверхности светочувствительного барабана контуры невидимого точечного электронного изображения. После проявления изображения порошком красителя (тонера), налипающего на разряженные участки, выполняется печать - перенос тонера на бумагу и закрепление изображения на бумаге при помощи высокой температуры. Разрешение у таких принтеров до 50 точек/мм, скорость печати - 100символов/сек.

Термографические

термографические — матричные принтеры, оснащенные вместо игольчатой печатающей головки головкой с термоматрицей, при печати используется специальная термобумага;

Струйные

струйные — в печатающей головке имеются вместо иголок тонкие трубочки - сопла, через которые на бумагу выбрасываются мельчайшие капельки чернил (12 - 64 сопла), скорость печати до 500 символов/сек, разрешающая способность - 20 точек на мм;

Матричные

матричные — в этих принтерах изображение формируется из точек ударным способом: игольчатая печатающая головка ударяет бумагу через красящую ленту. Количество игл определяет качество печати (от 9 до 24), скорость печати 100-300 символов/сек, разрешающая способность (т.е. способность принтера напечатать на отрезке в один дюйм 300 отдельных точек);

Мониторы


Монитор, дисплей — устройства, предназначенные для вывода информации c ПК пользователю. Мониторы по технологии работы делятся на:

Основные характеристики мониторов - разрешающая способность (от 600×350 до 1024×768 точек), число цветов (для цветных) -от 16 до 256, частота кадров фиксированная 60 Гц.
Принтеры — это устройства вывода данных из ЭВМ, преобразовывающие информационные ASCII-коды в соответствующие им графические символы и фиксирующие эти символы на бумаге.

ЖК

2. ЖК (жидкокристаллический, LCD-мониторы) –жидкие кристаллы являются основой их работы, в данной технологии используются люминесцентные лампы. Также существуют LED-мониторы (LED — Light Emitting Diode). В них используется LED-подсветка (на основе светоизлучающих диодов).

ЭЛТ

1. ЭЛТ (электронно-лучевая трубка) это устройство, содержащее в себе кинескоп, такой же, как в старых телевизорах. Использование такого монитора довольно вредно для здоровья и сегодня они мало применяются.

Внешняя память(ВЗУ)

Внешняя память (ВЗУ) предназначена для длительного хранения программ и данных. Целостность её содержимого не зависит от того, включен или выключен компьютер. В отличии от оперативной памяти, внешняя память не имеет прямой связи с процессором. Информация от ВЗУ к процессору и наоборот циркулирует


В состав внешней памяти компьютера входят:
НГМД(накопитель на гибких магнитных дисках)
НЖМД(накопитель на жестких магнитных дисках)
Стримеры
Flash-картаОптические CD,DVD,BD

Магнитно-оптические дискиНГМД (накопитель на гибких магнитных дисках) – использование гибких дисков уходит в прошлое. Бывают двух типов и обеспечивают хранение информации на дискетах одного из двух форматов: 5,25' или 3,5'. Для дискет формата 3,5' максимальная емкость составляет 2,88 Мб, самый распространенный формат емкости для них – 1,44 Мб.
НЖМД («винчестеры») изготовлены из сплавов алюминия или из керамики и покрытыферролаком, вместе с блоком магнитных головок помещены в герметически закрытый корпус. Емкость накопителей за счет чрезвычайно плотной записи достигает нескольких гигабайт, быстродействие также выше, чем у съемных дисков. Первая модель появилась на фирме IBM в 1973 г. Каждый ЖМД проходит процедуру низкоуровневого форматирования - на носитель записывается служебная информация, которая определяет разметку цилиндров диска на сектора и нумерует их, маркируются дефектные сектора для исключения их из процесса эксплуатации диска. В ПК имеется один или два накопителя.
Накопители на магнитной ленте исторически появились раньше, чем накопители на магнитном диске. Ленточные накопители называются стримерами, они предназначены для создания резервных копий программ и документов, представляющих ценность. Емкость стримера достигает нескольких Гбайт, что меньше емкости современных винчестеров, а время доступа во много раз больше.
Flash-карта – компактное электронное запоминающее устройство, используемое для хранения цифровой информации. Современные карты памяти изготавливаются на основе флеш-памяти, хотя принципиально могут использоваться и другие технологии. Карты памяти широко используются в электронных устройствах, включая цифровые фотоаппараты, сотовые телефоны, ноутбуки, портативные цифровые аудиопроигрыватели .
CD (Compact Disc)-оптический носитель информации в виде пластикового диска, процесс записи/считывания информации на/c который осуществляется при помощи лазера. Наибольшее распространение получили 5-дюймовые диски CD емкостью 670 Мбайт. Данные на диске записываются в виде спирали.
DVD (Digital Versatile Disk, ранее Digital Video Disk), т. е. многоцелевой цифровой диск – тип компакт-дисков, хранящий от 4,7 до 17 Гбайт информации. Спецификаций DVD-ROM рассматривает диски и технологию DVD в качестве средства хранения компьютерных данных, обладающего громадной емкостью.
BD (Blu-ray - англ. blue ray — синий луч и disc — диск) — формат оптического носителя, используемый для записи и хранения цифровых данных, включая видео высокой чёткости с повышенной плотностью. Стандарт Blu-ray был совместно разработан консорциумом BDA. Более короткая длина волны сине-фиолетового лазера позволяет хранить больше информации на 12 см дисках того же размера, что и у CD/DVD. BD является продуктом нового поколения, наиболее прогрессивным, отвечающим "требованиям нашего времени", чем CD и DVD.
Магнитооптические диски (ZIP) — запись на такой диск производится под высокой температурой намагничиванием активного слоя, а считывание — лучом лазера. Эти диски удобны для хранения информации, но оборудование стоит дорого.
Диски относятся к носителям информации с прямым доступом, т.е. ПК может обратиться к дорожке, на которой начинается участок с искомой информацией или куда нужно записать новую информацию, непосредственно.

ОЗУ

Жесткий дик


Жесткий диск (HDD, винчестер) состоит из одной или нескольких стеклянных или металлических пластин, каждая из которых покрыта с одной или двух сторон магнитным материалом. Как правило, диск состоит из нескольких пластин, соединенных общим стержнем или шпинделем (spindle). Когда диск вращается, элемент, называемый головкой, считывает или записывает двоичные данные на магнитный носитель. Контроллер диска определяет используемый метод кодирования и плотность записи данных на диске. Некоторые современные диски имеют по головке на каждую дорожку и, следовательно, не тратят время на перемещение головок к нужной дорожке для считывания информации.
Для записи информации на магнитную поверхность дисков применяется следующий способ: поверхность рассматривается как последовательность точечных позиций, каждая из которых считается битом и может быть установлена в 0 или 1. Так как расположения точечных позиций определяется неточно, то для записи требуются заранее нанесенные метки, которые помогают записывающему устройству находить позиции записи. Процесс нанесения таких меток называется физическим форматированием и является обязательным перед первым использованием накопителя.
Физическое форматирование - это процесс записи на поверхность диска служебной информации, обозначающей сектора на диске (пометка начала и конца дорожки и сектора).
На каждой стороне каждой пластины размечены тонкие концентрические окружности (по ним располагаются синхронизирующиеся метки). Каждая концентрическая окружность называется дорожкой.
Количество дорожек зависит от типа диска. Нумерация дорожек начинается с 0 от внешнего края к центру диска. Когда диск вращается, головка чтения/записи считывает двоичные данные с магнитной дорожки или записывает их на нее. Нумерация сторон начинается с 0.
Группы дорожек (треков) одного радиуса, расположенных на поверхностях магнитных дисков, называются цилиндрами. Номер цилиндра совпадает с номером образующей дорожки. Жесткие диски могут иметь по несколько десятков тысяч цилиндров, на поверхности дискеты, как правило, их восемьдесят. Зная количество рабочих поверхностей, дорожек на одной стороне, размер сектора, можно определить емкость диска.

Особенности и Принципы работы SSD жесткого диска

SSD жесткий диск (Solid State Drive, твердотельный привод). Они снабжены точно такими же интерфейсами IDE, SATA (SAS), как и у жестких дисков. Со стороны внешнего интерфейса SSD идентичны обычным винчестерам.

Особенности SSD накопителейПрежде всего, это развитая схема чередования блоков (в SSD чипов флеш-памяти всегда несколько) и технология выравнивания износа ячеек. Флеш-память часто представлена чипами MLC (Multi-Level Cell), в которых каждая ячейка памяти может находиться не в одном из двух, а в одном из нескольких дискретных состояний.

Наконец, SSD жестким дискам своим появлением обязана новая команда TRIM.  Она опровергает казавшееся незыблемым положение о том, что "удаленные данные физически остаются на диске, пока блоки не будут перезаписаны новыми данными"
Принцип работы SSD жестких дисковАрхитектурно диск подключен к контроллеру IDE или SATA (это видно и в BIOS, и в диспетчере устройств), однако конструктивно он является самой настоящей встроенной памятью.Работа флеш-памяти основана на явлении диффузии электронов в полупроводнике. Из этого следуют два не очень приятных вывода:
- Срок хранения зарядов на плавающих затворах пусть и велик, но все же конечен. 
- Каждый цикл записи понемногу "подтачивает" слой, отделяющий затвор от остальной массы кристалла. Примерно так же газон на футбольном поле сильнее всего бывает вытоптан перед воротами. Кроме того, со временем неизбежно происходит деградация самого материала. Из-за этого срок жизни ячейки ограничен некоторым числом циклов записи-перезаписи.
Типичный твердотельный диск состоит из управляющего процессора, нескольких микросхем флеш-памяти NAND, микросхемы (иногда нескольких) памяти DDR — кеша данных, чипа EEPROM с микропрограммой и элементов обвязки.
Физически SSD состоят из миллионов ячеек флеш-памяти NAND.

Кластеры
Дефрагментация - процесс упорядочивания файлов таким образом, чтобы они лежали без пропусков
Узнать размер кластера можно следующими способами:

1. В ОС Windows: Панель управления — Администрирование — Управление компьютером — Дефрагментация диска — Выделить логический диск — Анализ.
2. Выбор размера кластера: Format c:/a:size.
3. Создать файл небольшого размера, например документ блокнота и вывести свойства файла. Размер фала на диске будет соответствовать размеру кластера.

Внутренняя память

Постоянная память


Постоянная память (ПЗУ, англ. ROM, Read Only Memory – память только для чтения) — энергонезависимая память, используется для хранения данных, которые никогда не потребуют изменения. Содержимое памяти специальным образом "зашивается" в устройство при его изготовлении для постоянного хранения. Из ПЗУ можно только читать. В ПЗУ находятся программы управления дисплеем, клавиатурой, принтером, внешней памятью, программы запуска и остановки компьютера, тестирования устройств. Важнейшей микросхема постоянной памяти — модуль BIOS.

Важнейшей микросхема постоянной памяти — модуль BIOS.
Кэш-память

Кэш-память - очень быстрое запоминающее устройство небольшого объема, которое используется при обмене данными между МП и ОП для компенсации разницы в скорости обработки информации процессором. Служит для временного хранения промежуточных результатов и содержимого наиболее часто используемых ячеек ОП и регистров МП. Объем кэш-памяти зависит от модели ПК и составляет обычно от 256 Кб до 2Мб.

Системная (Материнская) плата

Материнская плата (англ. motherboard, МП) - сложная многослойная печатная плата, являющаяся основой построения вычислительной системы компьютера. Первая материнская плата была разработана фирмой IBM и показана в августе 1981 г. (PC-1). Это один из важнейших элементов ЭВМ, определяющий ее облик и обеспечивающий взаимодействие всех подключаемых к материнской плате устройств. 
Первое, что бросается в глаза после открытия крышки настольного компьютера, это материнская плата. Она является самой большой платой внутри компьютера, а все остальные компоненты подключаются к ней. 
МП обеспечивает взаимодействие всех компонентов, как единой системы, управляя их совместной работой. Например, есть жесткий диск с данными, но их обрабатывает процессор, а для этого эти данные должны оказаться в оперативной памяти. Чтобы пользователь компьютера увидел результаты работы процессора, видеокарта должна вывести их на монитор, а данные с клавиатуры и мыши, наоборот, должны поступить в процессор. Наконец, результаты работы надо сохранить обратно на жесткий диск компьютера. Координацией этой работы и занимается материнская плата компьютера.

Чипсеты и интерфейсная система
BIOS

BIOS - специальных инструкциях, которые исполняет компьютер после подачи питания на материнскую плату.


Микросхема ПЗУ (BIOS - Basic Input/Output System) - хранит ПО, которое исполняется сразу после включения питания или иначе говоря, базовая система ввода-вывода, определяющая ход процесса загрузки компьютера. Лишь только после этого происходит загрузка операционной системы ПК и дальнейшая его работа происходит уже под управлением ОС.

Содержит:

К ней относят:
шина управления
шина адреса
шина данных
шина питания

ASCII

Обмен информацией между устройствами и системной шиной происходит с помощью кодов ASCII.

ASCII - американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов. ASCII представляет собой 8-битную кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов. Международным стандартом является лишь первая половина таблицы (базовая), т.е. символы с номерами от 0 (00000000), до 127 (01111111)., всего содержит 256 символов.

Обеспечивает:

Интерфейсная система обеспечивает три направления передачи информации:

между микропроцессором (МП) и оперативной памятью;
между МП и портами ввода/вывода внешних устройств;
между оперативной памятью и портами ввода/вывода внешних устройств

Функции

1) Запуск компьютера и процедура самотестирования (Power-On Self Test — POST). Программа, расположенная в микросхеме BIOS, загружается первой после включения питания компьютера.
2) Настройка параметров системы с помощью программы BIOS Setup. Во время процедуры POST оборудование настраивается в соответствии с параметрами BIOS, хранящимися в специальной CMOS-памяти.
3)Поддержка функций ввода/вывода с помощью программных прерываний BIOS. В составе системной BIOS есть встроенные функции для работы с клавиатурой, видеоадаптером, жесткими дисками, портами ввода/вывода и др.

для:


автоматического тестирования устройств после включения питания
компьютеразагрузки операционной системы в оперативную память

Южный мост

Южный мост (Southbridge) - это функциональный контроллер, известен как контроллер ввода-вывода или ICH (In/OutControllerHub). содержит контроллеры периферийных устройств (жёсткого диска, Ethernet, аудио), контроллеры шин для подключения периферийных устройств (шины PCI, PCI-Express и USB), а также контроллеры шин, к которым подключаются устройства, не требующие высокой пропускной способности. Как правило, выход из строя южного моста ставит точку в жизни системной платы. Причин "гибели" южного моста на порядок больше, чем северного, т.к. он работает напрямую с "внешними" устройствами. Так, частой причиной выхода из строя ЮМ является перегрев, вызванный коротким замыканием, например, USB-разъема. Либо неисправности питания жесткого диска.

Северный мост

Северный мост (Northbridge) - это системный контроллер, являющийся одним из элементов чипсета материнской платы, отвечающий за работу с оперативной памятью (RAM), видеоадаптером и процессором (CPU). Также северный мост обеспечивает связь всех вышеперечисленных устройств с южным мостом. Внешне это квадратной формы микрочип, расположенный под процессором, но в верхней части системной платы.

Элементы материнской платы


1 - PCI слоты для подключения дополнительных плат расширения (ТВ тюнера, сетевой или звуковой карты и т.д.)
2 - выводы для подключения периферийных устройств
3 - радиатор северного моста (охлаждает северный мост чипсета материнской платы компьютера)
4 - батарейка BIOS
5 - процессорный сокет (разъем для процессора)
6 -  слот PCIExpressx16 для видеокарты
7 -  слоты оперативной памяти
8 - радиатор южного моста (охлаждает южный мост чипсета материнской платы)
9 - коннекторы SATA портов (для подключения жестких дисков нового стандарта)
10 - коннектор для подключения питания материнской платы (24-х контактный разъем для подключения блока питания и подачи напряжения на материнскую плату)

Дополнительные части МП
Жёсткий диск

Жёсткий диск — основное устройство для долговременного хранения больших объемов данных и программ, выполняет специальное аппаратно-логическое устройство. К основным параметрам относятся ёмкость и производительность.

Звуковая плата

Основные части МП
Центральный процессор

Разъем центрального процессора или сокет, служит для установки процессора на материнскую плату. Имеет свой условный номер, определяющий какое семейство ЦП можно в него установить. Это необходимо учитывать, если компьютер собирается из отдельных комплектующих. Каждое следующее поколение процессоров имеет свой сокет, не совместимый с предыдущими. Все многообразие сокетов можно разделить на две большие группы:


Центральный процессор (ЦП или центральное процессорное устройство, ЦПУ) — главная часть аппаратного обеспечения компьютера, является мозгом всей компьютерной системы, производя арифметические и логические операции с данными. ЦП – это электронный блок, либо интегральная схема (микропроцессор), исполняющая машинные инструкции (код программ).
Стандартизация и миниатюризация процессоров привели к глубокому проникновению основанных на них цифровых устройств в повседневную жизнь человека. Современные процессоры можно найти не только в таких высокотехнологичных устройствах, как компьютеры, но и в автомобилях, калькуляторах, мобильных телефонах, даже в детских игрушках. Современные вычислительные возможности микроконтроллера сравнимы с процессорами персональных ЭВМ десятилетней давности, а чаще даже значительно превосходят их показатели.

В состав центрального процессора входят:


устройство управления (УУ) - организует процесс выполнения программ и координирует взаимодействие всех устройств ЭВМ во время её работыарифметико-логическое устройство (АЛУ) - выполняет арифметические и логические операции над данными: сложение, вычитание, умножение, деление, сравнение и дрзапоминающее устройство (ЗУ) на основе регистров процессорной памяти и кэш-памяти процессора- это внутренняя память процессора. Регистры служат промежуточной быстрой памятью, используя которые, процессор выполняет расчёты и сохраняет промежуточные результаты. Для ускорения работы с оперативной памятью используется кэш-память, в которую с опережением подкачиваются команды и данные из оперативной памяти, необходимые процессору для последующих операций.генератор тактовой частоты (ГТЧ) - генерирует электрические импульсы, синхронизирующие работу всех узлов компьютера. В ритме ГТЧ работает центральный процессор.

Главными характеристиками ЦПУ являются:


тактовая частота – определяет быстродействие и производительность
разрядность – определяет производительность
энергопотребление
архитектура

Сокеты процессоров компании AMD

Сокеты процессоров компании Intel

Оперативная память (ОЗУ)

Оперативная память (ОЗУ) - отвечает за временное хранение данных при включенном компьютере

ОП выделяется особыми функциями и спецификой доступа:

ОП хранит не только данные, но и выполняемую программу;

Микропроцессор имеет возможность прямого доступа в ОП.

Постоянно запоминающее устройство (ПЗУ)

Постоянно запоминающее устройство (ПЗУ) - предназначен для длительного хранения данных при выключенном компьютере (системный BIOS)

Блок питания

Контролер клавиатуры

Разъемы расширения

Нестандартные конструкции ПК:

Barebone

Barebone — компьютеры, строящиеся пользователем для выполнения определенных задач (обычно в качестве мультимедийной станции). В продажу поступают в виде так называемых «скелетных» баз в составе корпуса, материнской платы и системы охлаждения. Как правило, «баребоны» имеют меньшую высоту корпуса и, как следствие, уменьшенный внутренний объём, а также усовершенствованную систему охлаждения, отличающуюся низкой шумностью.

Защищённые ПК

Защищённые ПК. Ряд компаний производит компьютеры, обладающие устойчивостью к агрессивным средам: сильной вибрации, ударам, большой запыленности, влажности, вандализму — условиям, в которых обычные ПК быстро бы вышли из строя. Как правило, устойчивые ПК выпускаются в формате ноутбуков, более тяжёлых и больших по размерам, чем обычные.

Промышленные ПК

Промышленные ПК. Предназначены для решения задач промышленной автоматизации. Отличаются стойкостью к различным внешним воздействиям, увеличенным жизненным циклом изделия, возможностью подключения к промышленным сетям (PROFINET, Profibus).

Тихий ПК


Тихий ПК. Для использования в жилых комнатах используются конструкции ПК, производящие минимум шума или работающие совершенно бесшумно. Такие модели можно оставлять включенными постоянно, что даёт ряд преимуществ: отсутствует период загрузки, компьютер всегда готов к работе и может постоянно отслеживать новую почту или мгновенные сообщения для пользователя.

Хакинтош

Хакинтош (англ. hackintosh, хакер и макинтош) — ПК, собранный любителем и способный работать под управлением Mac OS X, во взломанном для запуска на «неяблочном» компьютере варианте называемой OSx86, то есть более дешёвый аналог компьютера от Apple.

мобильные (носимые)

Ноутбуки

ноутбуки (англ. notebook — блокнот) — компактные компьютеры, содержащие все необходимые компоненты  в одном небольшом корпусе, как правило, складывающемся в виде книжки (отсюда и название данного вида ПК). Для достижения малых размеров в них применяются специальные технологии: специально разработанные специализированные микросхемы (ASIC), ОЗУ и жёсткие диски уменьшенных габаритов, компактная клавиатура, часто не содержащая цифрового поля, внешние блоки питания, минимум интерфейсных гнезд для подключения внешних устройств. Как правило, содержат развитые средства подключения к проводным и беспроводным сетям, встроенное мультимедийное оборудование (динамики, часто, также, микрофон и веб-камеру). В последнее время вычислительная мощность и функциональность ноутбуков не сильно уступают стационарным ПК, а иногда и превосходит их. Очень компактные модели не оснащаются встроенным CD/DVD-дисководом

Нетбуки


 нетбуки (англ. netbook) — компактный ноутбук с относительно невысокой производительностью, предназначенный, в основном, для выхода в Интернет и работы с офисными приложениями. Обладает небольшой диагональю экрана, низким энергопотреблением, относительно невысокой стоимостью

Планшетные ПК

планшетные ПК - аналогичны ноутбукам, но содержат сенсорный экран и не содержат механической клавиатуры. Ввод текста и управление осуществляются через экранный интерфейс. Чаще всего корпус не раскрывается, как у ноутбуков, а экран расположен на внешней стороне верхней поверхности. По вычислительной мощи планшетные ПК уступают стационарным и ноутбукам, так как для длительной работы без внешнего источника питания приходится использовать энергосберегающие комплектующие, жертвуя их быстродействием.

Карманные ПК

карманные ПК (PDA) - сверхпортативные ПК, умещающиеся в кармане. Управление ими, как правило, происходит с помощью небольшого по размерам и разрешению экрана, чувствительного к нажатию пальца или специальной палочки-указки — стилуса, а клавиатура и мышь отсутствуют. В таких устройствах используются сверхэкономичные процессоры и флеш-накопители небольшого объёма, поэтому их вычислительная мощь несопоставима с другими ПК. Тем не менее, они содержат все признаки персонального компьютера: процессор, накопитель, оперативную память, монитор, операционную систему, прикладное ПО и даже игры и ориентированность на индивидуальное использование.

Стационарные

стационарные – первые персональные компьютеры не предназначались для переноски, т.е. были стационарными. Они состояли из отдельных конструктивно завершенных частей: системного блока, монитора и клавиатуры, соединенных интерфейсными кабелями с системным блоком - это пример раздельной схемы построения ПК. Главное достоинство раздельной схемы — сравнительно легкая масштабируемость. То есть в любой момент можно без особых затруднений заменить любой из компонентов ПК (например, монитор). Но в настоящее время также широкое распространение получили ПК-моноблоки, в которых системный блок, монитор и, нередко, другие устройства (клавиатура, звуковая подсистема, веб-камера, микрофон) конструктивно объединены в одно устройство.

Desktop

Desktop  (Десктоп, «настольный компьютер») — стационарный компьютер, имеющий такой форм-фактор, что его удобнее располагать на столе  дома или в офисе. Раньше системные блоки такого типа обычно были широкими и места на них было достаточно для размещения на нём ЭЛТ-монитора.

Tower

Tower (системный блок типа tower («башня») — высокий и потому обычно располагается под столом (часто в специально предназначенных для этого нишах или отделениях компьютерных столов). Из-за уменьшения размеров и массы комплектующих также стало возможно уменьшение и размеров самих «башенных» системных блоков. В результате, сначала появились системные блоки mini tower, а потом и slim tower. Мini tower потом вышли из эксплуатации, уступив место системным блокам middle tower.

Моноблок

Моноблок -конструктивная схема стационарного ПК, в которой системный блок, монитор, микрофон, звуковые колонки, веб-камера конструктивно объединены в одно устройство — моноблок. Такой ПК эргономичнее (занимает минимум пространства) и более привлекателен с эстетической точки зрения. Также, такой ПК более транспортабелен, чем стационарные ПК, построенные по раздельной схеме. С другой стороны, такой ПК сложнее масштабировать и, в том числе, затруднена самостоятельная техническая модернизация и обслуживание.

Меры разброса (меры рассеяния)

Чтобы определить, насколько хорошо та или иная мера центральной тенденции выражает «типичного» представителя совокупности, следует воспользоваться какой-либо мерой изменчивости, разброса. 

Доверительная вероятность

Это вероятность того, что доверительный интервал содержит значение оцениваемого параметра
Чем выше доверительная вероятность, тем более широкий и менее полезный интервал мы получим
95%-используется наиболее часто

Форма записи доверительного интервала

Вариант 1 "Мы на 95% уверены, что среднее значение роста студентов находится где-то между 165 и 175 см"

Вариант 2 Среднее значение m генеральной совокупности находится в интервале от 165 до 175 см с доверительной вероятностью 0,95

Вариант 3 При помощи формулы  Р (165 < m < 175) = 0,95

Вариант 4  95% ДИ 165-175

Доверительный интервал

Доверительный интервал (Confidence Interval) - предельные значения статистической величины, которая с заданной доверительной вероятностью  γ  будет находится в этом интервале при выборке большего объема. На практике выбирают доверительную вероятность γ из достаточно близких к единице значений γ = 0.9, γ = 0.95, γ = 0.99.
Доверительный интервал - это вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности. "Мы на 95% уверены, что доля людей, которым известна наша торговая марка, находится где-то между 23,2% и 38,0%"

Стандартную ошибку

среднее квадратическое и стандартное отклонение

Среднее квадратическое отклонение равно квадратному корню из выборочной дисперсии (обозначается σx).

Стандартное отклонение, обозначаемое sx  для выборки, равно квадратному корню из исправленной выборочной дисперсии. 

Дисперсию

Исправленная выборочная дисперсия

Исправленная выборочная дисперсия описывает то же самое, что и выборочная дисперсия

Вычисление исправленной выборочной дисперсии связано с переносом данных на генеральную совокупность (она является точечной оценкой дисперсии в генеральной совокупности).

Выборочная дисперсия

– это средняя арифметическая квадратов отклонений вариант от выборочной средней.
Выборочная дисперсия описывает разброс вариант относительно выборочной средней и характеризует точность измерений. Выборочная дисперсия всегда положительна.

Размах

Размах просто измеряет на числовой шкале расстояние, в пределах которого изменяются значения. Это разность максимального и минимального значений выборки.

Меры центральной тенденции (меры среднего уровня)

Мера центральной тенденции

Мера центральной тенденции - это число, характеризующее выборку по уровню выраженности измеряемого признака. Это такие значения признака, вокруг которых группируются отдельные наблюдаемые значения, т.е. они характеризуют центр статистического распределения (отсюда и произошло их название).

Мода

Мода - это такое значение признака, которое встречается наиболее часто. В случае дискретных рядов вычислить моду нетрудно. Достаточно найти варианту, которая имеет наибольшую частоту или относительную частоту, это и будет мода. Будем обозначать моду символом 
Мо.

Варианты расчетов

Если два несмежных значения в группе имеют равные частоты и они больше частот любого другого значения, то существуют две моды. В этом случае говорят, что группа оценок является бимодальной.

Например:  1,4,4,4,7,7,9,9,9,10. Наиболее часто встречаются значения 4 и 9, причем они не являются соседними. Поэтому в данной выборке будет две моды – 4 и 9.

Когда два соседних значения имеют одинаковые частоты и они больше частоты любого другого значения, мода есть среднее этих двух значений.

Например: 1,2,2,5,5,5,6,6,6,9,9,10. Наиболее часто встречаются значения 5 и 6, причем они являются соседними. Поэтому мода будет равна их полусумме, т.е. 5,5.

Если все значения в группе встречаются одинаково часто, то мода отсутствует.

Например: в группе 1,1,2,2,13,13 моды нет

Медиана

Медиана (обозначается Ме) – это значение, которое делит упорядоченное множество данных пополам, при этом одна половина значений оказывается больше медианы, а другая – меньше.
В качестве медианы условно берется полусумма вариант, находящихся в середине вариационного ряда: Me = (xn  + xn + 1) / 2.

При нахождении медианы следует различать два случая:
2) Если же количество элементов четное и равно 2n, то нет варианты, которая бы делила совокупность на две равные по объему части
1) Если объем совокупности нечетный и равен 2n + 1, и варианты размещены в порядке возрастания их значений
Среднее арифметическое (выборочная средняя)

Среднее арифметическое (выборочная средняя) – это средняя арифметическая всех вариант в выборке.

Квартильный размах

Кванти́ль в математической статистике – такое число, что заданная случайная величина не превышает его с фиксированной вероятностью.

0-квантиль называется нулевым квартилем или минимальным значением выборки
0,25-квантиль называется первым (или нижним) квартилем;0,5-квантиль называется медианой или вторым квартилем;
0,75-квантиль называется третьим (или верхним) квартилем;0-квантиль называется четвертым квартилем или максимальным значением выборки

Таким образом, квартили – это значения признака, делящие упорядоченную совокупность на четыре равновеликие части. Первый квартиль отсекает 25% наблюдений с наименьшим значением признака, второй (медиана) – 50%, третий – 75%. Чем более однородным является изучаемый признак, тем меньше квартильный размах и более вероятность того, что медиана действительно выражает «типичный» случай.
Квартильный размах – это интервал, в котором вокруг медианы сосредоточилось 50% значений выборки. Он равен разности значений 0,75-й квантили и 0,25-й квантили (верхней квартили и нижней квартили).
Термин был впервые использован Гальтоном в 1882 г. Это единственная мера вариации для порядковых (ранговых) шкал.

К мерам разброса относят:

Описательная статистика

Первый раздел математической статистики – описательная статистика – предназначен для представления данных в удобном виде и описания информации в терминах математической статистики и теории вероятностей.

статистические показатели

Основные статистические показатели можно разделить на две группы: меры центральной тенденции (меры среднего уровня) и меры разброса (меры рассеяния).

Некоторые характеристики


Ценность

Ценность описательной статистики заключается в том, что она дает сжатую и концентрированную характеристику изучаемого явления.

Цель

Цель описательной (дескриптивной) статистики — обработка эмпирических данных, их систематизация, наглядное представление в форме графиков и таблиц, а также их количественное описание посредством основных статистических показателей.