Числовые характеристики степени рассеяния наблюдений. Характеристики рассеивания. Понятие эксперимента. Ошибки измерений: промахи, систематические, случайные. Похожие материалы: Особенности изучения темы «Алгоритмы» в начальной школе с применение компьют

Характеристики рассеяния

Меры разброса выборки.

Минимум и максимум выборки - это соответственно наименьшее и наибольшее значение изучаемой переменной. Разность между максимумом и минимумом называется размахом выборки. Все данные выборки расположены в промежутке между минимумом и максимумом. Эти показатели как бы очерчивают границы выборки.

R№1= 15,6-10=5,6

R №2 =0,85-0,6=0,25

Дисперсия выборки (англ. variance ) и среднее квадратическое отклонение выборки (англ. standard deviation ) являют собой меру изменчивости переменной и характеризуют степень разброса данных вокруг центра. При этом среднее квадратическое отклонение является более удобным показателем в силу того, что имеет ту же размерность, что и собственно исследуемые данные. Поэтому показатель среднего квадратического отклонения используется наряду со значением среднего арифметического выборки для короткого описания результатов анализа данных.

Выборочную дисперсию при целесообразнее считать по формуле:

Стандартное отклонение считается по формуле:

Коэффициент вариации является относительной мерой рассеяния признака.

Коэффициент вариации используется и как показатель однородности выборочных наблюдений. Считается, что если коэффициент вариации не превышает 10 %, то выборку можно считать однородной, т. е. полученной из одной генеральной совокупности.

Т. к. коэффициент вариации в обеих выборках, то они являются однородными.

Выборку можно представить аналитически в виде функции распределения, а так же в виде таблицы частот, состоящей из двух строк. В верхней строке- элементы выборки (варианты), расположенные в порядке возрастания; в нижней строке записываются частоты вариант.

Частота варианты - число, равное количеству повторений данной варианты в выборке.

Выборка №1 «Матери»

Вид кривой распределения

Асимметрия или коэффициент асимметрии (термин был впервые введен Пирсоном, 1895) является мерой несимметричности распределения. Если асимметрия отчетливо отличается от 0, распределение асимметричное, плотность нормального распределения симметрична относительно среднего.

Показатель асимметрии (англ. skewness ) используется для того, чтобы охарактеризовать степень симметричности распределения данных вокруг центра. Асимметрия может принимать как отрицательные, так и положительные значения. Положительное значение данного параметра указывает на то, что данные смещены влево от центра, отрицательное - вправо. Таким образом, знак показателя асимметрии указывает на направление смещения данных, тогда как величина - на степень этого смещения. Асимметрия равная нулю говорит о том, что данные симметрично сконцентрированы вокруг центра.

Т.к. асимметрия положительная, следовательно, вершина кривой сдвигается влево от центра.

Коэффициент эксцесса (англ. kurtosis ) является характеристикой того, насколько кучно основная масса данных группируется около центра.

При положительном эксцессе - кривая заостряется, при отрицательном - сглаживается.

Кривая сглаживается;

Кривая заостряется.

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения (средние характе­ристики, или центральная тенденция выборки ); характеристики рассеяния (ва­риации, или колеблемости ) и характеристики формы распределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение ), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости ) относятся: размах вариации , дисперсия , среднее квадратическое (стандартное ) отклонение , ошибка средней арифметической (ошибка средней ), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

Характеристики положения

Среднее арифметическое значение – одна из основных характеристик вы­борки.

Она, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных.

Точность вычисления по необработанным данным выше, но процесс вычисления оказывается трудоёмким при большом объёме выборки.

Для несгруппированных данных среднее арифметическое определяется по формуле:

где n - объем выборки, х 1 , х 2 , ... х n - результаты измерений.

Для сгруппированных данных:

где n - объем выборки, k – число интервалов группировки, n i – частоты интервалов, x i – срединные значения интервалов.

Мода

Определение 1. Мода - наиболее часто встречающаяся величина в данных вы­борки. Обозначается Мо и определяетсяпо формуле:

где - нижняя граница модального интервала, - ширина интервала группи­ровки, - частота модального интервала, - частота интервала, предшествую­щего модальному, - частота интервала, последующего за модаль­ным.

Определение 2. Модой Мо дискретной случайной величины называется наиболее вероятное её значение.

Геометрически моду можно интерпретировать как абсциссу точки максимума кривой распределения. Бывают двухмодальные и многомодальные распределения. Встречаются распределения, которые имеют минимум, но не имеют максимума. Такие распределения называются антимодальными .

Определение. Модальным интервалом называется интервал группировки с наибольшей частотой.

Медиана

Определение . Медиана - результат измерения, который находится в сере­дине ранжированного ряда, иначе говоря, медианой называется значение признака Х , когда одна половина значений экспериментальных данных меньше её, а вторая половина – больше, обозначается Ме .

Когда объем выборки n - четное число, т. е. результатов измерений четное количество, то для определения медианы рассчитывается среднее значение двух показателей выборки, находящихся в середине ранжированного ряда.

Для данных, сгруппированных в интервалы, медиану определяют по фор­муле:

,

где - нижняя граница медианного интервала; ширина интервала группи­ровки, 0,5n – половина объёма выборки, - частота медианного интервала, - накопленная частота интервала, предшествующего медианному.

Определение. Медианным интервалом называется тот интервал, в котором накопленная частота впервые окажется больше половины объёма выборки (n/ 2) или накопленная частость окажется больше 0,5.

Численные значения среднего, моды и медианы отличаются, когда имеет место несимметричная форма эмпирического распределения.

Характеристики рассеяния результатов измерений

Для математико-статистического анализа результатов выборки знать только характеристики положения недостаточно. Одна и та же величина среднего значе­ния может характеризовать совершенно различные выборки.

Поэтому кроме них в статистике рассматривают также характеристики рассеяния (вариации, или колеблемости ) результатов .

Размах вариации

Определение. Размахом вариации называется разница между наибольшим и наименьшим результатами выборки, обозначается R и определяется

R =X max - X min .

Информативность этого показателя невелика, хотя при малых объёмах вы­борки по размаху легко оценить разницу между лучшим и худшим результатами спортсменов.

Дисперсия

Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического.

Для несгруппированных данных дисперсия определяется по формуле

s 2 = , (1)

где Х i – значение признака, - среднее арифметическое.

Для данных, сгруппированных в интервалы, дисперсия определяется по формуле

,

где х i – среднее значение i интервала группировки, n i – частоты интервалов.

Для упрощения расчётов и во избежание погрешностей вычисления при округ­лении результатов (особенно при увеличении объёма выборки) используются также другие формулы для определения дисперсии. Если среднее арифметическое уже вычислено, то для несгруппированных данных используется следующая фор­мула:

для сгруппированных данных:

.

Эти формулы получаются из предыдущих раскрытием квадрата разности под знаком суммы.

Главная характеристика рассеивания вариационного ряда называется дисперсией

Главная характеристика рассеивания вариационного ряда называется дисперсией . Выборочная дисперсия D в рассчитывается по следующей формуле:

где x i – i -ая величина из выборки, встречающаяся m i раз; n – объём выборки; – выборочная средняя; k – количество различных значений в выборке. В рассматриваемом примере: x 1 =72, m 1 =50; x 2 =85, m 2 =44; x 3 =69, m 3 =61; n =155; k =3; . Тогда:

Заметим, что чем больше значение дисперсии, тем сильнее отличие значений измеряемой величины друг от друга. Если в выборке все значения измеряемой величины равны между собой, то дисперсия такой выборки равна нулю.

Дисперсия обладает особыми свойствами.

Свойство 1. Значение дисперсии любой выборки неотрицательно, т.е. .

Свойство 2. Если измеряемая величина постоянна X=c, то дисперсия для такой величины равна нулю: D [ c ]= 0.

Свойство 3. Если все значения измеряемой величины x в выборке увеличить в c раз, то дисперсия данной выборки увеличится в c 2 раз: D [ cx ]= c 2 D [ x ], где c = const .

Иногда вместо дисперсии используют выборочное среднее квадратическое отклонение , которое равно арифметическому квадратному корню из выборочной дисперсии: .

Для рассмотренного примера выборочное среднее квадратическое отклонение равно .

Дисперсия позволяет оценить не только степень различия измеряемых показателей внутри одной группы, но может быть использована и для определения отклонения данных между разными группами. Для этого используется несколько видов дисперсии.

Если в качестве выборки берётся какая-либо группа, то дисперсия данной группы называется групповой дисперсией . Чтобы выразить численно различия между дисперсиями нескольких групп, существует понятие межгрупповой дисперсии . Межгрупповой дисперсией называется дисперсия групповых средних относительно общей средней:

где k – число групп в общей выборке, - выборочная средняя для i -ой группы, n i – объём выборки i -ой группы, - выборочная средняя для всех групп.

Рассмотрим пример.

Средняя оценка за контрольную работу по математике в 10 «А» классе составила 3.64, а в 10 «Б» классе 3.52. В 10 «А» учится 22 человека, а в 10 «Б» - 21. Найдём межгрупповую дисперсию.

В данной задаче выборка разбивается на две группы (два класса). Выборочная средняя для всех групп равна:

.

В таком случае межгрупповая дисперсия равна:

Поскольку межгрупповая дисперсия близка к нулю, то мы можем сделать вывод, что оценки одной группы (10 «А» класса) в малой степени отличаются от оценок второй группы (10 «Б» класса). Иными словами, с точки зрения межгрупповой дисперсии рассмотренные группы в незначительной степени отличаются по заданному признаку.

Если общая выборка (например, класс учеников) разбита на несколько групп, то помимо межгрупповой дисперсии можно рассчитать ещё внутригрупповую дисперсию . Такая дисперсия является средней величиной для всех групповых дисперсий.

Внутригрупповая дисперсия D внгр рассчитывается по формуле:

где k – количество групп в общей выборке, D i – дисперсия i -ой группы объёма n i .

Существует взаимосвязь между общей (D в ), внутригрупповой (D внгр ) и межгрупповой (D межгр ) дисперсиями:

D в = D внгр + D межгр .

Цель работы

Познакомиться с явлением рассеяния и научиться определять его характеристики.

Оснащение

1. Диски с номинальным значением А 1 .

2. Диски с номинальным значением А 2 .

3. Микрометр.

4. Стойка.

1. Общие сведения

При изготовлении партии деталей по одному и тому же технологическому процессу, одним и тем же рабочим, на одном и том же рабочем месте, в одних и тех же условиях наблюдаются отклонения значений параметров точности деталей от идеального прототипа и друг от друга. Это явление получило название рассеяние.

На всех этапах технологического процесса изготовления детали действует большое количество непрерывно или дискретно изменяющихся случайных и систематических факторов.

Систематические факторы бывают:

– постоянно действующие (например, погрешность формы обрабатываемой поверхности, обусловленная непараллельностыо оси шпинделя направляющим токарного станка; погрешность измерения и др);

– изменяющиеся по определенному закону у = f (x ) (например, размерный износ инструмента, тепловые деформации станка и др.).

Случайные факторы характеризуются большим их количеством, отсутствием связи между собой и нестабильностью (например, упругие отжатия звеньев системы СПИД).

На практике явление рассеяния любой характеристики качества изучается с помощью точечной диаграммы, которая позволяет определить все характеристики.

Для построения точечной диаграммы по оси абцисс откладываются порядковые номера измерений деталей, а по оси ординат в виде точек – полученные значения соответствующего номера измерений деталей (рис. 1.1). Через точки, соответствующие максимальному и минимальному значениям измерения, проводятся две линии, параллельные между собой и оси абцисс. Расстояние между этими линиями является первой характеристикой рассеяния значений и носит название поля рассеяния ω = А нб A нм . Эта характеристика обязательно дополняется координатой середины поля рассеяния – ∆ω , которая представляет собой расстояние между серединой поля рассеяния и номинальным значением. Она определяет положение поля рассеяния относительно номинала.

Второй характеристикой явления рассеяния служит практическая кривая рассеяния и определяющие ее параметры. Для построения практической кривой рассеяния необходимо поле рассеяния ω на точечной диаграмме разделить на 7…11 интервалов линиями, параллельными оси абцисс. В каждом интервале подсчитать количество попавших в него результатов измерений (абсолютная частость т) и изобразить это количество в виде прямоугольников шириной, равной величине интервала, и высотой, равной абсолютной частости т.

Получившаяся диаграмма называется гистограммой рассеяния. Изобразив абсолютную частоту т в виде прямых линий, расположенных посредине каждого интервала (нагруженных ординат), и соединив их верхние точки отрезками прямых линий, получают ломаную линию, называемую практической кривой рассеяния значений измерения (рис. 2.1).


Pиc. 1.1. Точечная диаграмма и практическая

кривая рассеяния значений измерения

Параметрами, характеризующими практическую кривую рассеяния, являются:

1. Уравнение кривой рассеяния у = φ (х ). Для большинства задач оценки точности в технологии машиностроения распределение текущих значений х i подчиняется нормальному закону (закону Гаусса), для которого

Кроме закона Гаусса текущие значения х i могут распределяться по закону равной вероятности, закону Симпсона, закону Шарлье и др.

2. Центр группирования случайной величины – это среднее значение, около которого располагается наибольшее количество значений. Иными словами, центр группирования – это значение случайной величины, принадлежащее большинству деталей в партии. Положение центра группирования определяется координатой центра группирования (математическим ожиданием) M (x ).

3. Среднее квадратичное отклонение σ, показывающее плотность группирования текущих значений относительно центра группирования М (х ). Графически σ изображается в виде двух абцисс, равноотстоящих от значения M (x ) на величину σ, Эта характеристика служит мерой рассеяния.

4. Коэффициент относительной асимметрии а, показывающий смещение центра группирования М (х ) относительно середины поля рассеяния. Для дискретных величин текущего значения х i характеристики M (x ), σ и а определяются по равенствам:

где р (х i ) = т / п количество значений измерений, попавших в соответству-ющий интервал, выраженное в процентах или долях всего количества измеренных величин (относительная частость).

Вычисленные характеристики рассеяния значений измерения представляются в графическом виде, учитывая, что у m ах ≈ 0,4/σ , у σ ≈ 0.24/σ (рис. 2.2).

Рис. 2.2. Характеристики явления рассеяния: M (x ); σ ; а



2. Порядок выполнения работы

Лабораторная работа выполняется двумя бригадами. Явление рассеяния в данной работе изучается на примере двух партий деталей по 50 штук номиналами А 1 , А 2 .

Произвести установку (50 раз) заготовки в трёхкулачковый патрон и измерить осевое смещение.

При установке деталь необходимо плотно прижимать торцовой поверхностью к оснастке, а при повторных установках деталь необходимо поворачивать вокруг ее оси на некоторый угол.

Результаты измерений зафиксировать после каждой установки детали.

По результатам измерений построить точечную диаграмму, гистограмму и кривую рассеяния аналогично этапу 2.

Определить параметры, характеризующие кривую рассеяния, аналогично этапу 3.

Сравнить результаты экспериментов и сделать выводы.

Построить схему этих характеристик явления рассеяния (рис.2.2).

1. Название, цель и оснащение работы.

2. Результаты измерений деталей номиналом А 1 .

3. Точечная диаграмма и характеристики явления рассеяния.

4. Результаты измерений деталей номиналом А 2 .

5. Точечная диаграмма и характеристики явления рассеяния.

6. Выводы.

4. Контрольные вопросы

1. Что такое явление рассеяния?

2. С помощью чего изучается явление рассеяния.

3. Назовите характеристики явления рассеяния.

4. Какие факторы действуют в процессе изготовления детали?

5. За что отвечают в точечной диаграмме систематические факторы?

6. За что отвечают в точечной диаграмме случайные факторы?

7. Почему при построении практической кривой рассеяния количество интервалов должно быть нечетным?

8. Что такое поле рассеяния?

9. Что такое координата середины поля рассеяния?

10. Зачем нужна координата середины поля рассеяния?

11. Что такое центр группирования?

12. Что такое математическое ожидание?

13. Что показывает математическое ожидание?

14. Что принято за меру рассеяния?

15. Назовите характеристики хода технологического процесса.

16. Назовите характеристики явления рассеяния при обработке партии деталей.

Математическая статистика – это раздел математики, изучающий приближенные методы отыскания законов распределения и числовых характеристик по результатам эксперимента.

Генеральная совокупность – это множество всех мыслимых значений наблюдений (объектов), однородных относительно некоторого признака, которые смогли быть сделаны.

Выборка это совокупность случайно отобранных наблюдений (объектов) для непосредственного изучения из генеральной совокупности.

Статистическое распределение – это совокупность вариант x i и соответствующих им частот n i .

Гистограмма частот – это ступенчатая фигура, состоящая из смежных прямоугольников, построенных га оной прямой, основания которых одинаковы и равны ширине класса, а высота равна или частоте попадания в интервал n i или относительной частоте n i /n. Ширину интервала i можно определить по формуле Стерджеса :

I=(x max -x min)/(1+3,32lgn),

Где x max – максимальное; x min – минимальное значение вариант, а их разность носит название вариационный размах ; n – объем выборки.

Полигон частот – ломаная линия, отрезки которой соединяют точки с координатами x i , n i .

5. Характеристики положения (мода, медиана, выборочное среднее) и рассеяния (выборочная дисперсия и выборочное среднее квадратическое отклонение).

Мода (М о ) это такое значение варианты, что предшествующее и следующее за ним значения имеют меньшие частоты встречаемости.

Для одномодальных распределений мода – это наиболее часто встречающаяся варианта в данной совокупности.

Для определения моды интервальных рядов служит формула:

M 0 =x ниж +i*((n 2 -n 1 )/(2n 2 -n 1 +n 3 )),

где х ниж – нижняя граница модального класса, т.е. класса с наибольшей частотой встречаемости n 2 ; n 2 – частота модального класса; n 1 – частота класса, предшествующего модальному; n 3 – частота класса, следующего за модальным; i – ширина классового интервала.

Медиана (М е )- это значение признака. Относительно которого ряд распределения делится на 2 равные по объему части.

Выборочная средняя – это среднее арифметическое значение вариант статистического ряда

Выборочная дисперсия – среднее арифметическое квадратов отклонения вариант от их среднего значения:

Среднее квадратическое отклонение это квадратный корень из выборочной дисперсии:

S в =√(S в 2 )

6. Оценка параметров генеральной совокупности по ее выборке (точечная и интервальная). Доверительный интервал и доверительная вероятность.

Числовые значения, характеризующие генеральную совокупность, называются параметрами.

Статистическое оценивание может выполняться двумя способами:

1)точечная оценка – оценка, которая дается для некоторой определенной точки;

2)интервальная оценка – по данным выборки оценивается интервал, в котором лежит истинное значение с заданной вероятностью.

Точечная оценка – это оценка, которая определяется одним числом. И это число определяется по выборке.

Точечная оценка называется состоятельной , если при увеличении объема выборки выборочная характеристика стремится к соответствующей характеристике генеральной совокупности.

Точечная оценка называется эффективной , если она имеет наименьшую дисперсию выборочного распределения по сравнению с другими аналогичными оценками.

Точечную оценку называют несмещенной , если ее математическое ожидание равно оценивающему параметру при любом объеме выборки.

Несмещенной оценкой генеральной средней (математического ожидания) служит выборочная средняя в:

в = i n i ,

где x i – варианты выборки; n i – частота встречаемости вариант x i ; n – объем выборки.

Интервальная оценка – это числовой интервал, который определяется двумя числами – границами интервала, содержащий неизвестный параметр генеральной совокупности.

Доверительный интервал – это интервал, в котором с той или иной заранее заданной вероятностью находится неизвестный параметр генеральной совокупности.

Доверительная вероятность p это такая вероятность, что событие вероятности (1-р) можно считать невозможным. α=1-р – это уровень значимости. Обычно в качестве доверительных вероятностей используют вероятности, близкие к 1. Тогда событие, что интервал накроет характеристику, будет практически достоверным. Это р≥0,95, р≥0,99, р≥0,999.

Для выборки малого объема (n<30) нормально распределенного количественного признака х доверительный интервал может иметь вид:

в - m t≤≤ в + m t (р≥0,95),

где – генеральное среднее; в – выборочное среднее; t – нормированный показатель распределения Стьюдента с(n-1) степенями свободы, который определяется вероятностью попадания генерального параметра в данный интервал; m – ошибка выборочной средней.

"

Просмотров