Лекции по Математической статистике в ФКиС
В этом разделе приведены часто используемые термины, необходимые для понимания изложенного материала.
Числовые характеристики выборки – обобщенные показатели, позволяющие:
- дать количественную оценку эмпирическим распределениям;
- сравнивать выборки между собой.
Статистической гипотезой (гипотезой) называется утверждение относительно истинных значений параметров исследуемой генеральной совокупности.
Нулевая гипотеза (Но) – предположение о том, что между параметрами генеральных совокупностей разница равна нулю и различия между ними носят не систематический, а случайный характер.
Альтернативная гипотеза (Н1) – гипотеза, противоположная нулевой.
Уровень значимости — вероятность отклонения нулевой гипотезы, когда она верна или другими словами вероятность ошибки.
Критерий — метод проверки статистических гипотез.
Критерий хи-квадрат, критерий лямбда Колмогорова–Смирнова – критерии согласия, часто используемые для проверки гипотезы о нормальности распределения.
t – критерий Стьюдента – критерий, позволяющий оценить, насколько статистически существенно различаются средние арифметические двух выборок.
F – критерий Фишера – метод, позволяющий проверить гипотезу, что две независимые выборки получены из генеральных совокупностей X и Y с одинаковыми дисперсиями sx 2 и sY 2 .
Критерий Манна-Уитни — непарамтерический критерий проверки статистических гипотез. Применяется для независимых выборок.
О методах математической статистики и ее практическом применении можно прочесть в книге «Компьютерная обработка данных экспериментальных исследований»
Критерий Вилкоксона – непараметрический критерий проверки статистических гипотез. Применяется для связанных выборок.
Корреляционный анализ – метод статистической обработки результатов, сущность которого состоит в определении степени взаимосвязи между двумя случайными величинами X и Y.
Лекция 2. Числовые характеристики выборки
В своей статье, опубликованной в 1989 году В.М. Зациорский указал, какие числовые характеристики должны быть представлены в публикации, чтобы она имела научную ценность. Он писал, что исследователь “…должен назвать: 1) среднюю величину (или другой так называемый показатель положения); 2) среднее квадратическое отклонение (или другой показатель рассеяния) и 3) число испытуемых. Без них его публикация научной ценности иметь не будет “с. 52.
После проведения эксперимента исследователь получает определенные результаты. Чтобы его результаты можно было сравнить с данными других исследователей, необходимо рассчитать числовые характеристики выборки. Наибольшее практическое значение имеют характеристики положения, рассеивания и асимметрии (табл.1).
Таблица 1 — Название и обозначение числовых характеристик выборки
Среднее арифметическое (М)
Размах вариации (R)
Коэффициент асимметрии (As)
Коэффициент эксцесса (Ex)
Стандартное отклонение (S)
Характеристики положения
Среднее арифметическое (М) – одна из основных характеристик выборки. Этот показатель характеризуется тем, что сумма отклонений от него выборочных значений (с учетом знака) равна нулю.
где: n – объем выборки, xi – варианты выборки.
Среднее арифметическое, вычисленное на основе выборочных данных, как правило, не совпадает с генеральным средним. Чтобы оценить, насколько выборочное среднее арифметическое отличается от генерального среднего, вычисляется ошибка среднего арифметического или ошибка репрезентативности (m).
где: S — стандартное отклонение (см. далее).
В научных публикациях очень часто окончательный результат приводится в следующем виде: М±m. В качестве примера приведем фрагмент таблицы из публикации Г.Г.Лапшиной (табл. 2).
Таблица 2 — Антропометрический и функциональный статусы студенток, n= 83 (по: Г.Г.Лапшиной, 1989)
Медианой (Me) – называется такое значение признака, когда одна половина значений экспериментальных данных меньше ее, а вторая половина — больше.
Мода (Мо) – представляет собой значение признака, встречающееся в выборке наиболее часто.
Характеристики вариативности
Средние значения не дают полной информации о варьирующем признаке, поэтому наряду со средними значениями вычисляют характеристики вариации.-
Размах вариации (R) вычисляется как разность между максимальным и минимальным значением признака: R= Xmax-Xmin.
Информативность этого показателя невелика, так как распределения результатов могут иметь одинаковый размах варьирования, а их форма будет очень отличаться.
Дисперсия (S 2 ) – средний квадрат отклонений значений признака от среднего арифметического (4):
Наиболее часто в публикациях приводится не дисперсия, а стандартное отклонение (S). Этот показатель также называется среднеквадратическим отклонением или СКО (5):
Во многих публикациях этот показатель обозначается s , однако мы рекомендуем применять обозначения, используемые в книге В.С. Иванова (1990): S – выборочное стандартное отклонение, сигма – стандартное отклонение генеральной совокупности. В качестве примера приведем фрагмент таблицы из статьи Л.Н. Жданова (1996).
Таблица 3 — Зависимость возраста достижения лучшего результата и количество необходимого для этого времени от возраста начала спортивной специализации у конькобежцев, дистанция 500 м, 225 спортсменов (по: Л.Н.Жданову, 1996).
Возраст начала спортивной специализации, лет
Возраст лучшего результата
Количество лет с начала специализации
Коэффициент вариации (V%). Чтобы сопоставить вариативность признаков, измеренных в различных единицах, используется относительный показатель (6), которы йназывается коэффициентов вариации.
Коэффициент вариации используют для оценки однородности выборки. Если V < 10% – выборка однородна, то есть, получена из одной генеральной совокупности. Очень часто в публикациях приводят четыре показателя: объем выборки, среднее арифметическое, стандартное отклонение и коэффициент вариации (К.А.Ежевская, 1995).
Характеристики асимметрии
Коэффициент асимметрии (As) характеризует “скошенность“ эмпирического распределения.
Коэффициент эксцесса (Ex) определяет характер эмпирического распределения: остро- или плосковершинный.
Лекция 3. Закон нормального распределения
Корректное использование критериев проверки статистических гипотез предполагает знание закона распределения. Так, например, использование t – критерия Стьюдента и F-критерия Фишера требует нормального распределения экспериментальных данных. К сожалению, многие исследователи это не учитывают.
Большинство экспериментальных распределений, полученных при исследованиях в области физической культуры и спорта может быть описано с помощью нормального распределения. График плотности вероятности нормального распределения имеет следующий вид (рис. 1).
Рис. 1
На рис. 1 представлено распределение роста женщин с параметрами: мю (генеральное среднее) – 170 см, s = 5 см.
Нормальное распределение обладает следующими свойствами:
1. Нормальная кривая имеет колокообразную форму, симметричную относительно x = мю.
2. Точки перегиба отстоят от мю на ± сигма .
3. Нормальное распределение полностью определяется двумя параметрами: мю и сигма.
4. Медиана и мода совпадают и равны мю.
5. В интервал мю ± сигма попадают 68 % всех результатов.
В интервал мю ± 2 сигмы попадают 95% всех результатов.
В интервал мю ± 3 сигмы попадают 99 % всех результатов.
Чтобы проверить, соответствует ли распределение нормальному закону, существует много методов. Можно использовать свойства нормального распределения (равенство среднего, моды и медианы). Однако более точные результаты дают критерии согласия. В зависимости от объема выборки (n) следует использовать различные критерии:
если объем выборки небольшой (n = 10) – критерий Шапиро – Уилки;
если объем выборки более 40 — критерий хи-квадрат и критерий Колмогорова-Смирнова;
Лекция 4. Проверка статистических гипотез
Рассчитав числовые характеристики выборки, экспериментатор получает возможность сравнивать свои результаты с данными других исследователей или сравнить результаты, показанные контрольной и экспериментальной группой. Иногда задача работы состоит в том, чтобы сравнить результат, показанный группой спортсменов до и после эксперимента. В этом случае, чтобы дать ответ, существуют ли достоверные различия в результатах, нужно проверить статистические гипотезы, использовав для этого специальные методы — критерии значимости. Таким образом, критерий значимости — это метод проверки статистической гипотезы.
При использовании критериев значимости выдвигается нулевая гипотеза (Ho) — предположение о том, что в параметрах генеральных совокупностей из которых получены данные, представленные в выборках, разница равна нулю и различия между ними носят не систематический, а случайный характер. Противоположная гипотеза называется альтернативной (Н1).
Для проверки статистических гипотез применяются параметрические и непараметрические критерии. Параметрические критерии включают в формулу расчета параметры распределения, в нашем случае нормального. поэтому первым условием использования параметрических критериев является нормальное распределение результатов исследования. Вторым условием применения параметрических критериев является статистическая шкала, в которой представлены данные. Такими шкалами являются интервальная шкала и шкала отношений (данные, представлены в этих шкалах измеряются в кг, м, с и т.д). Непараметрические критерии (или ранговые критерии) построены по другому принципу и не требуют нормального распределения экспериментальных результатов. Кроме того, эти критерии можно применять к данным, представленным в порядковой шкале (баллы).
Параметрические критерии
К параметрическим критериям относят: критерий Стьюдента для независимых выборок и критерий Стьюдента для связанных выборок.
t–критерий Стьюдента для независимых выборок
Условия применения: обе выборки независимы и получены из генеральных совокупностей X и Y, имеющих нормальное распределение с параметрами μx , μy , σx σy .
Гипотеза: Ho: μx= μy (предполагается равенство средних арифметических генеральных совокупностей).
Альтернатива: H1: μx ≠ μy или H1 μx >μy или H1: μx<μy (в зависимости от того, что требуется доказать: простое различие средних или то, что одно из них больше другого).
t – критерий Стьюдента рассчитывается по формуле (1):
Значение S x—y зависит от того, равны или не равны объемы выборки, а также их дисперсии.
В случае равенства дисперсий и объемов выборок S x-y вычисляются по формуле (8)
t–критерий Стьюдента для связанных выборок (парные сравнения)
В практике педагогических исследований часто используются так называемые парные сравнения (до и после эксперимента). При парных сравнениях нельзя использовать рассмотренные выше методы для независимых выборок, поскольку это приведет к большим ошибкам. Для сравнения средних значений нужно использовать модификацию t – критерия Стьюдента для связанных выборок. Особенность расчета t – критерия в том, что гипотеза формулируется в отношении разностей сопряженных пар наблюдений.
Условия применения: di = xi – yi – разность связанных пар результатов измерения. Делается предположение о нормальном распределении этих разностей в генеральной совокупности с параметрами md , sd.
Значение t – критерия Стьюдента определяется по формуле (10):
где: `d – среднее арифметическое разностей, Sd` стандартное отклонение.
Непараметрические критерии
Применение параметрических критериев (t – критерия Стьюдента) связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t – критерия Стьюдента, принимались следующие предположения: обе выборки являются случайными, то есть каждая из них получена в результате независимых измерений, обе выборки получены из генеральных совокупностей, имеющих нормальное распределение, дисперсии генеральных совокупностей равны между собой. На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающих из-за нарушения принятых допущений. В последнее время в математической статистике интенсивно разрабатываются непараметрические методы, которые строятся так, чтобы их применение зависело от возможно меньшего числа допущений.
Параметрические критерии применимы только для сравнения выборочных данных, представляющих собой результаты измерений, выраженных в единицах метрических шкал (метры, килограммы, секунды и т.д.). Но в спортивных исследованиях часто приходится иметь дело с данными, выраженными в шкалах порядка, например, произвольная нумерация игроков в команде, места, занятые спортсменами в соревнованиях и т.д. Такие данные нельзя сравнивать с помощью параметрических критериев, а непараметрические критерии могут быть успешно применены и к данным этого типа.
Сравнение двух независимых выборок (критерий Манна-Уитни для независимых выборок)
Условие применения. Применение критерия Вилкоксона основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей никак не оговаривается.
Гипотеза: Ho: Mex = Mey (предполагается равенство медиан двух генеральных совокупностей).
Альтернатива: H1: Mex ¹ Mey или H1: Mex > Mey или H1: Mex < Mey (в зависимости от того, что требуется доказать: простое различие медиан или то, что результаты в экспериментальной группе больше чем в контрольной).
Сравнение двух связанных выборок (критерий Вилкоксона для связанных выборок)
Порядок использования t – критерия Стьюдента и W – критерия Вилкоксона следующий. При обработке выборочных данных рассчитывается фактическое значение критерия. Затем по табличным данным определяется его критическое значение. Если фактическое значение меньше, чем критическое на уровне значимости α=0,05, то различие считается статистически незначимым (р>0,05). Если вычисленное по выборке значение критерия превышает критические значения при a=0,05; a=0,01 или a=0,001, то различия считаются статистически значимыми. Это записывается следующим образом: p<0,05; p<0,01; p<0,001. В качестве примера рассмотрим таблицу 4.
Таблица 4 — Изменение высоты прыжка верх с места после силовых и скоростно-силовых тренировок в макроцикле (по: В.В.Марченко, Л.С.Дворкину, В.Н.Рогозяну, (1998).
Источник
Статистическая обработка результатов измерения
Завершающей стадией количественного анализа химического состава вещества любым методом является статистическая обработка результатов измерений. Она позволяет оценить систематические и случайные погрешности измерений.
Используя приемы математической статистики, можно:
• рассчитать основные метрологические характеристики методики анализа (оценить воспроизводимость и правильность полученных данных, отбросив результаты, содержащие промахи);
• определить методом регрессивного анализа вид функциональной зависимости аналитического сигнала от концентрации (содержания) определяемого элемента;
• рассчитать метрологические характеристики параметров градуировочного графика и результатов анализа;
• представить результаты статистической обработки в виде компактных табличных данных, позволяющих оценить воспроизводимость и правильность полученных результатов;
• в случае необходимости оценить нижнюю границу определяемых содержаний вещества, предел определения (обнаружения), коэффициент чувствительности.
Расчет метрологических характеристик результатов измерений (определений) при малой выборке
При химическом анализе пищевых продуктов содержание вещества в пробе устанавливают, как правило, по небольшому числу параллельных определений (n). Для расчета погрешностей определений в этом случае пользуются методами математической статистики, разработанными для малого числа определений. Полученные результаты рассматривают как случайную (малую) выборку из некоторой гипотетической генеральной совокупности, состоящей из всех мыслимых в данных условиях наблюдений.
Для практических целей можно считать, что при числе измерений п — 20-30 значения стандартного отклонения генеральной совокупности (а) — основного параметра и стандартного отклонения малой выборки (S) близки (S = у).
Оценка воспроизводимости результатов измерений
Среднее выборки. Пусть x1, х2, . хп обозначают п результатов измерений величины, истинное значение которой р.. Предполагается, что все измерения проделаны одним методом и с одинаковой точностью. Такие измерения называют равноточными.
В теории ошибок доказывается, что при условии выполнения нормального закона при п измерениях одинаковой точности среднее арифметическое из результатов, полученных при всех измерениях, является наиболее вероятным и наилучшим значением измеряемой величины:
Это среднее значение принимают за приближенное и пишут X = м.
Единичное отклонение — это отклонение отдельного измерения от среднего арифметического:
Алгебраическая сумма единичных отклонений равна нулю:
Дисперсия, стандартное отклонение, относительное стандартное отклонение. Рассеяние результатов измерений относительно среднего значения принято характеризовать дисперсией S 2 :
или стандартным отклонением (средним квадратичным отклонением) — S:
которое обычно и приводят при представлении результатов измерений (анализа) и которым характеризуют их воспроизводимость.
Стандартное отклонение, деленное на среднее выборки, называют относительным стандартным отклонением:
В общем случае метод анализа оптимален в той области содержаний, в которой и абсолютное (S) и относительное (Sr) стандартное отклонение имеют минимальные значения.
Определение и исключение грубых погрешностей
В литературе приведены различные методы оценки и исключения грубых погрешностей.
Рассмотрим наиболее простой для практического использования метод исключения грубых промахов по Q-критерию. Для этого составляют отношение:
где х1 — подозрительно выделяющийся результат определения (измерения);
х2 — результат единичного определения, ближайший по значению к х1;
R — размах варьирования;
Я = хмах — хмин — разница между наибольшим и наименьшим значением ряда измерений. При малой выборке (п < 10) размах варьирования служит также одной их характеристик рассеяния результатов измерений.
Вычисленное значение Q сопоставляют с табличным значением Q (Р, n1) (табл. 1.1).
Наличие грубой погрешности доказано, если Q > Q (Р, пi).
Оценка правильности результатов измерений (определений)
После того как осуществлена проверка грубых погрешностей (в случае подозрительных результатов измерений) и их исключение, производят оценку доверительного интервала (Ах) для среднего значения X и интервальных значений X ± Ах.
Доверительный интервал (Ах). Если воспроизводимость результатов измерений (методики анализа) характеризуют стандартным отклонением, то сами результаты измерений (определений) характеризуют доверительным интервалом среднего значения X, который рассчитывают по формуле
где tP, f — квантиль распределения Стьюдента при числе степеней свободы f = п — 1 и двухсторонней доверительной вероятности Р (значения tp, f см. в табл. 1.2).
Обычно для расчетов доверительного интервала пользуются значениями Р = 0,95; иногда достаточно Р = 0,90, но при ответственных измерениях требуется более высокая надежность (Р = 0,99).
Коэффициент tp, f показывает, во сколько раз разность между истинным и средним результатами больше стандартного результата.
Источник
Ошибки в количественном анализе. Статистическая обработка и оценка результатов анализа
При аналитических определениях различают систематические (определенные) и случайные (неопределенные) ошибки. Причинами систематических ошибок могут быть недостатки метод анализа, неисправность прибора или ошибки аналитика. Случайные ошибки, в противоположность систематическим, устранить нельзя. Они могут быть оценены методами математической статистики. Промахи – это погрешности, резко искажающие результат анализа и обычно легко обнаруживаемые. Они вызваются, как правило, небрежностью или некомпетентностью аналитика.
Результаты анализа должны быть правильными и воспроизводимыми. Под правильностью понимают близость результата к истинному значению. Воспроизводимость определяется согласованием результатов между собой и обычно выражается отношением экспериментальных данных и их среднеарифметического значения.
После получения ряда результатов проводят статистическую обработку для оценки правильности анализа.
Термином «выборка» обозначают совокупность статистически эквивалентных результатов (вариант).
В большинстве случаев среднее выборки является наилучшей оценкой истинного значения измеряемой величины μ, его вычисляют как среднее арифметическое всех вариант:
При этом разброс варианты xi вокруг среднего характеризуется величинойстандартного отклонения S. В количественном анализе величина S часто рассматривается как оценка случайной ошибки, свойственной данному методу анализа. Квадрат этой величины S 2 называется дисперсией. Величина дисперсии может рассматриваться как мера воспроизводимости результатов, представленных в данной выборке:
Стандартное отклонение среднего результата рассчитывают по уравнению:
Результаты, полученные при статистической обработке выборки, будут достоверны лишь в том случае, если эта выборка однородна, т.е. если варианты, входящие в нее не отягощены грубыми ошибками. Проверка однородности выборок малого объема (n<10) осуществляется без предварительного вычисления статистических характеристик, с этой целью после представления выборки в порядке возрастания отдельных значений вариант выборки для крайних вариант x1 и xn рассчитывают значения контрольного критерия Q, исходя из величины размаха варьирования R:
Выборка признается неоднородной, если хотя бы одно из вычисленных значений Q превышает табличное значение , найденное для доверительной вероятности
. Вариантыx1 или xn для которых Q > Q (
,n), отбрасываются, и для полученной выборки уменьшенного объема выполняют новый цикл вычислений с целью проверки ее однородности.
Для выборки большого объема (n≥10) проверку однородности проводят после предварительного вычисления статистических характеристик ,S 2 , S,
. При этом выборка признается однородной, если для всех вариант выполняется условие:
│хі –│≤3S
Если выборка признана неоднородной, то варианты, для которых │хі–│> 3S, отбрасываются, как отягощенные грубой ошибкой. В этом случае для полученной выборки сокращенного объема повторяют цикл вычислений статистических характеристик. Вычисление статистических характеристик считают законченным, когда выборка сокращенного объема оказывается однородной.
Для более достоверной оценки воспроизводимости проводят расчет граничных значений доверительного интервала по Стьюденту:
,
где t(P,f) – табличное значение критерия Стьюдента.
Доверительная вероятность Р – вероятность нахождения действительного значения определяемой величины в пределах доверительного интервала. Изменяется от 0 до 1 (от 0% до 100%). В фармацевтическом анализе доверительную вероятность чаще всего принимают равной Р = 0,95 = 95% и обозначают как Р0,95.
Если полученные результаты не выходят за предел доверительного интервала, то это означает, что все варианты выборки, вмещающиеся в пределы доверительного интервала, являются достоверными.
Значение используют при вычислении относительной погрешности среднего результата (
), выражая эту величину в %:
Если для выборки объема m величина │ μ –│> 0, следует решить вопрос о наличии или отсутствии систематической ошибки. Для этого вычисляют критерий Стьюдентаt:
Если, например, при Р = 95% и f = m – 1, реализуется неравенство t > t(P,f), полученные данным методом результаты отягощены систематической ошибкой, относительная величина которой δ вычисляется по формуле:
При сравнении двух методик по воспроизводимости при одном и том же методе анализа рассчитывают критерий Фишера (F – критерий):
В этом случае F-критерий характеризует при S>S
достоверность различия между S
и S
. Вычисленное значение сравнивают с табличным значением F (P, f1, f2), найденным при необходимой достоверности Р. Если рассчитанный F-критерий больше табличного, тогда различие дисперсией признается статистически значимым и это позволяет сделать заключение о более высокой воспроизводимости одной из методик.
Если необходимо статистически оценить средние результаты двух совершенно независимых выборок, рассчитывают критерий Стьюдента:
,
при этом число степеней свободы f = n1 + n2 – 2.
При использовании критерия Стьюдента учитываются средние арифметические контрольного и контролируемого методов. В связи с тем, что указанные величины корреляционно не связаны друг с другом, критерий Стьюдента позволяет доказать, не являются ли сопоставляемые данные результатом ошибочной серии анализов. В этом случае проверка проводится сопоставлением рассчитанного -критерия с приведенным в таблице.
Источник
Деятельность людей во множестве случаев предполагает работу с данными, а она в свою очередь может подразумевать не только оперирование ими, но и их изучение, обработку и анализ. Например, когда нужно уплотнить информацию, найти какие-то взаимосвязи или определить структуры. И как раз для аналитики в этом случае очень удобно пользоваться не только разными техниками мышления, но и применять статистические методы.
Особенностью методов статистического анализа является их комплексность, обусловленная многообразием форм статистических закономерностей, а также сложностью процесса статистических исследований. Однако мы хотим поговорить именно о таких методах, которые может применять каждый, причем делать это эффективно и с удовольствием.
Статистическое исследование может проводиться посредством следующих методик:
- Статистическое наблюдение;
- Сводка и группировка материалов статистического наблюдения;
- Абсолютные и относительные статистические величины;
- Вариационные ряды;
- Выборка;
- Корреляционный и регрессионный анализ;
- Ряды динамики.
Далее мы рассмотрим каждый из них более подробно. Но отметим, что представим лишь основные характеристики без подробного описания алгоритмов действий. Впрочем, понять их не составит никакого труда.
Статистическое наблюдение
Статистическое наблюдение является планомерным, организованным и в большинстве случаев систематическим сбором информации, направленным, главным образом, на явления социальной жизни. Реализуется данный метод через регистрацию предварительно определенных наиболее ярких признаков, цель которой состоит в последующем получении характеристик изучаемых явлений.
Статистическое наблюдение должно выполняться с учетом некоторых важных требований:
- Оно должно полностью охватывать изучаемые явления;
- Получаемые данные должны быть точными и достоверными;
- Получаемые данные должны быть однообразными и легкосопоставимыми.
Также статистическое наблюдение может иметь две формы:
- Отчетность – это такая форма статистического наблюдения, где информация поступает в конкретные статистические подразделения организаций, учреждений или предприятий. В этом случае данные вносятся в специальные отчеты.
- Специально организованное наблюдение – наблюдение, которое организуется с определенной целью, чтобы получить сведения, которых не имеется в отчетах, или же для уточнения и установления достоверности информации отчетов. К этой форме относятся опросы (например, опросы мнений людей), перепись населения и т.п.
Кроме того, статистическое наблюдение может быть категоризировано на основе двух признаков: либо на основе характера регистрации данных, либо на основе охвата единиц наблюдения. К первой категории относятся опросы, документирование и прямое наблюдение, а ко второй – наблюдение сплошное и несплошное, т.е. выборочное.
Для получения данных при помощи статистического наблюдения можно применять такие способы как анкетирование, корреспондентская деятельность, самоисчисление (когда наблюдаемые, например, сами заполняют соответствующие документы), экспедиции и составление отчетов.
Сводка и группировка материалов статистического наблюдения
Говоря о втором методе, в первую очередь следует сказать о сводке. Сводка представляет собой процесс обработки определенных единичных фактов, которые образуют общую совокупность данных, собранных при наблюдении. Если сводка проводится грамотно, огромное количество единичных данных об отдельных объектах наблюдения может превратиться в целый комплекс статистических таблиц и результатов. Также такое исследование способствует определению общих черт и закономерностей исследуемых явлений.
С учетом показателей точности и глубины изучения можно выделить простую и сложную сводку, но любая из них должна основываться на конкретных этапах:
- Выбирается группировочный признак;
- Определяется порядок формирования групп;
- Разрабатывается система показателей, позволяющих охарактеризовать группу и объект или явление в целом;
- Разрабатываются макеты таблиц, где будут представлены результаты сводки.
Важно заметить, что есть и разные формы сводки:
- Централизованная сводка, требующая передачи полученного первичного материала в вышестоящий центр для последующей обработки;
- Децентрализованная сводка, где изучение данных происходит на нескольких ступенях по восходящей.
Выполняться же сводка может при помощи специализированного оборудования, например, с использованием компьютерного ПО или вручную.
Что же касается группировки, то этот процесс отличается разделением исследуемых данных на группы по признакам. Особенности поставленных статистическим анализом задач влияют на то, какой именно будет группировка: типологической, структурной или аналитической. Именно поэтому для сводки и группировки либо прибегают к услугам узкопрофильных специалистов, либо применяют конкретные техники мышления.
Абсолютные и относительные статистические величины
Абсолютные величина считаются самой первой формой представления статистических данных. С ее помощью удается придать явлениям размерные характеристики, например, по времени, по протяженности, по объему, по площади, по массе и т.д.
Если требуется узнать об индивидуальных абсолютных статистических величинах, можно прибегнуть к замерам, оценке, подсчету или взвешиванию. А если нужно получить итоговые объемные показатели, следует использовать сводку и группировку. Нужно иметь в виду, что абсолютные статистические величины отличаются наличием единиц измерения. К таким единицам относят стоимостные, трудовые и натуральные.
А относительные величины выражают количественные соотношения, касающиеся явлений социальной жизни. Чтобы их получить, одни величины всегда делятся на другие. Показатель, с которым сравнивают (это знаменатель), называют основанием сравнения, а показатель, которой сравнивают (это числитель), называют отчетной величиной.
Относительные величины могут быть разными, что зависит от их содержательной части. Например, существуют величины сравнения, величины уровня развития, величины интенсивности конкретного процесса, величины координации, структуры, динамики и т.д. и т.п.
Чтобы изучить какую-то совокупность по дифференцирующимся признакам, в статистическом анализе применяются средние величины – обобщающие качественные характеристики совокупности однородных явлений по какому-либо дифференцирующемуся признаку.
Крайне важным свойством средних величин является то, что они говорят о значениях конкретных признаков во всем их комплексе единым числом. Невзирая на то, что у отдельных единиц может наблюдаться количественная разница, средние величины выражают общие значения, свойственные всем единицам исследуемого комплекса. Получается, что при помощи характеристики чего-то одного можно получить характеристику целого.
Следует иметь в виду, что одним из самых важных условий применения средних величин, если проводится статистический анализ социальных явлений, считается однородность их комплекса, для которого и нужно узнать среднюю величину. А от такого, как именно будут представлены начальные данные для исчисления средней величины, будет зависеть и формула ее определения.
Вариационные ряды
В некоторых случаях данных о средних показателях тех или иных изучаемых величин может быть недостаточно, чтобы провести обработку, оценку и глубокий анализ какого-то явления или процесса. Тогда во внимание следует брать вариацию или разброс показателей отдельных единиц, который тоже представляет собой важную характеристику исследуемой совокупности.
На индивидуальные значения величин могут воздействовать многие факторы, а сами изучаемые явления или процессы могут быть очень многообразны, т.е. обладать вариацией (это многообразие и есть вариационные ряды), причины которой следует искать в сущности того, что изучается.
Вышеназванные абсолютные величины находятся в непосредственной зависимости от единиц измерения признаков, а значит, делают процесс изучения, оценки и сравнения двух и более вариационных рядов более сложным. А относительные показатели нужно вычислять в качестве соотношения абсолютных и средних показателей.
Выборка
Смысл выборочного метода (или проще – выборки) состоит в том, что по свойствам одной части определяются численные характеристики целого (это называется генеральной совокупностью). Основной выборочного метода является внутренняя связь, объединяющая части и целое, единичное и общее.
Метод выборки отличается рядом существенных преимуществ перед остальными, т.к. благодаря уменьшению количества наблюдений позволяет сократить объемы работы, затрачиваемые средства и усилия, а также успешно получать данные о таких процессах и явлениях, где либо нецелесообразно, либо просто невозможно исследовать их полностью.
Соответствие характеристик выборки характеристикам изучаемого явления или процесса будет зависеть от комплекса условий, и в первую очередь от того, как вообще будет реализовываться выборочный метод на практике. Это может быть как планомерный отбор, идущий по подготовленной схеме, так и непланомерный, когда выборка производится из генеральной совокупности.
Но во всех случаях выборочный метод должен быть типичным и соответствовать критериям объективности. Данные требования нужно выполнять всегда, т.к. именно от них будет зависеть соответствие характеристик метода и характеристик того, что подвергается статистическому анализу.
Таким образом, перед обработкой выборочного материала необходимо провести его тщательную проверку, избавившись тем самым от всего ненужного и второстепенного. Одновременно с этим, составляя выборку, в обязательном порядке нужно обходить стороной любую самодеятельность. Это означает, что ни в коем случае не следует делать выборку только из вариантов, кажущихся типичными, а все другие – отбрасывать.
Эффективная и качественная выборка должна составляться объективно, т.е. производить ее нужно так, чтобы были исключены любые субъективные влияния и предвзятые побуждения. И чтобы это условие было соблюдено должным образом, требуется прибегнуть к принципу рандомизации или, проще говоря, к принципу случайного отбора вариантов из всей их генеральной совокупности.
Представленный принцип служит основой теории выборочного метода, и следовать ему нужно всегда, когда требуется создать эффективную выборочную совокупность, причем случаи планомерного отбора исключением здесь не являются.
Корреляционный и регрессионный анализ
Корреляционный анализ и регрессионный анализ – это два высокоэффективных метода, позволяющие проводить анализ больших объемов данных для изучения возможной взаимосвязи двух или большего количества показателей.
В случае с корреляционным анализом задачами являются:
- Измерить тесноту имеющейся связи дифференцирующихся признаков;
- Определить неизвестные причинные связи;
- Оценить факторы, в наибольшей степени воздействующие на окончательный признак.
А в случае с регрессионным анализом задачи следующие:
- Определить форму связи;
- Установить степень воздействия независимых показателей на зависимый;
- Определить расчетные значения зависимого показателя.
Чтобы решить все вышеназванные задачи, практически всегда нужно применять и корреляционный и регрессионный анализ в комплексе.
Ряды динамики
Посредством этого метода статистического анализа очень удобно определять интенсивность или скорость, с которой развиваются явления, находить тенденцию их развития, выделять колебания, сравнивать динамику развития, находить взаимосвязь развивающихся во времени явлений.
Ряд динамики – это такой ряд, в котором во времени последовательно расположены статистические показатели, изменения которых характеризуют процесс развития исследуемого объекта или явления.
Ряд динамики включает в себя два компонента:
- Период или момент времени, связанный с имеющимися данными;
- Уровень или статистический показатель.
В совокупности эти компоненты представляют собой два члена ряда динамики, где первый член (временной период) обозначается буквой «t», а второй (уровень) – буквой «y».
Исходя из длительности временных промежутков, с которыми взаимосвязаны уровни, ряды динамики могут быть моментными и интервальными. Интервальные ряды позволяют складывать уровни для получения общей величины периодов, следующих один за другим, а в моментных такой возможности нет, но этого там и не требуется.
Ряды динамики также существуют с равными и разными интервалами. Суть же интервалов в моментных и интервальных рядах всегда разная. В первом случае интервалом является временной промежуток между датами, к которым привязаны данные для анализа (удобно использовать такой ряд, например, для определения количества действий за месяц, год и т.д.). А во втором случае – временной промежуток, к которому привязана совокупность обобщенных данных (такой ряд можно использовать для определения качества тех же самых действий за месяц, год и т.п.). Интервалы могут быть равными и разными, независимо от типа ряда.
Естественно, чтобы научиться грамотно применять каждый из методов статистического анализа, недостаточно просто знать о них, ведь, по сути, статистика – это целая наука, требующая еще и определенных навыков и умений. Но чтобы она давалась проще, можно и нужно тренировать свое мышление и улучшать когнитивные способности.
В остальном же исследование, оценка, обработка и анализ информации – очень интересные процессы. И даже в тех случаях, когда это не приводит к какому-то конкретному результату, за время исследования можно узнать множество интересных вещей. Статистический анализ нашел свое применение в огромном количестве сфер деятельности человека, а вы можете использовать его в учебе, работе, бизнесе и других областях, включая развитие детей и самообразование.
Источник
Статистическая оценка результатов анализов
В современных условиях конкурентной борьбы производитель должен обеспечивать высокое качество продукции при доступной цене. Достижение этих целей невозможно без создания оптимальных производственных условий, направленных на совершенствование технологических процессов и системы контроля на предприятии [3]. Система контроля на предприятиях строительной индустрии, как правило, включает в себя три составляющие: входной контроль, операционный контроль и приемочный контроль. Совершенствование данных методов контроля позволяет значительно сократить издержки производства при постоянном повышении качества продукции [2,4]. Особый интерес в данных условиях вызывает анализ точности и стабильности технологических процессов, который сегодня не мыслим без использования статистических методов.
Статистические методы хорошо зарекомендовали себя как инструменты качества и применяются в случаях, когда по результатам ограниченного числа наблюдений требуется установить причины улучшения или ухудшения точности и стабильности технологических процессов или работы технологического оборудования. Под точностью технологического процесса понимают свойство технологического процесса, обусловливающее близость действительных и номинальных значений параметров производимой продукции. Под стабильностью технологического процесса понимают свойство технологического процесса, обусловливающее постоянство распределений вероятностей для его параметров в течение некоторого интервала времени без вмешательства извне [5]. В свою очередь обеспечение стабильности и точности производственного процесса оказывает влияние на качество готовой продукции [4].
Системы управления предприятием или процессами в области качества требуют применения статистических методов:
Применение данных методов позволяет:
Существует несколько «классических» задач.
1. Выявить соответствие показателей качества выпускаемой продукции и эталонного изделия. Данная задача сводится к анализу математических ожиданий, и заключается в проверке нулевой гипотезы: , где
Х – случайная величина, значения которой определяют результат испытаний (наблюдения);
a – значение эталонного изделия.
2. Выявить отличие рассеивания показателя качества выпускаемой продукции от эталонного изделия. Данная задача сводится к сравнению дисперсий и заключается в проверке нулевой гипотезы: .
В данной работе для анализа стабильности технологического процесса предлагается проверить однородность двух независимых выборок, а именно осуществить сравнение их функций распределения и проверку нулевой гипотезы: .
Постановка задачи
В заводских лабораториях, отделах качества предприятий, как правило, для оценки стабильности технологического процесса прибегают к построению гистограмм для исследуемой случайной величины, составлению контрольных карт за отчетный период (например, неделя или месяц) и последующему их анализу.
Предлагаемая методика может быть сведена к проверке однородности двух независимых выборок (извлеченных из одной и той же генеральной совокупности), а именно к сравнению их функций распределения.
Одну выборку в данном случае можно считать базовой, когда качество выпускаемой продукции соответствовало всем техническим и нормативным требованиям (причем числовые характеристики данной выборки могут быть определены), а вторая выборка является исследуемой и призвана выявить улучшение (ухудшение, стабильность) технологического процесса по некоторому показателю.
Рассмотрим пример реализации предлагаемой методики по оценке стабильности технологического процесса производства бетона М150. Анализ проводился на основе данных прочности при сжатии () контрольных образцов в возрасте твердения 28 суток (таблица).
Независимые выборки из общей генеральной совокупности
Базовая выборка
(случайная величина )
Исследуемая выборка
(случайная величина )
Источник