авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ПУТЕЙ СООБЩЕНИЯ»

Кафедра «Математика»

Л.Ф. Кочнева, З.С. Липкина, В. И. Новосельцева

Теория вероятностей

и математическая статистика

Часть III

Математическая статистика

Учебное пособие МОСКВА - 2012 1 федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ»

Кафедра «Математика»

Л.Ф. Кочнева, З.С. Липкина, В. И. Новосельцева Теория вероятностей и математическая статистика Часть III Математическая статистика Рекомендовано редакционно-издательским советом университета в качестве учебного пособия для бакалавров направления «Экономика»

МОСКВА - Введение При исследовании экономических процессов используются методы и модели математической статистики, позволяющие получить необходимые знания об исследуемом объекте.

Одним из основных методов математической статистики является выборочный метод. При этом используются понятия генеральной совокупности и выборочной совокупности.

Генеральная совокупность – это случайная величина Х, распределенная по неизвестному закону и имеющая такое достаточно большое количество элементов, что сплошное обследование трудоемко или невозможно.

Выборочная совокупность или просто выборка – это совокупность случайно отобранных объектов из генеральной совокупности. К выборочной совокупности предъявляются определенные математические требования: выборка должна обладать всеми свойствами генеральной совокупности, т. е. должна быть представительной (репрезентативной);

на основании закона больших чисел теории вероятностей отбор объектов для исследования должен носить случайный характер;

каждый объект генеральной совокупности должен иметь одну и ту же вероятность того, что он попадет в выборку.

Таким образом, задача математической статистики состоит в следующем:

1) Осуществление математически правильного отбора данных для обследования;

2) Получение оценки функции распределения вероятностей и ее параметров;

3) Проверка статистических гипотез о виде законов распределения и величине параметров распределения, вид которых известен.

По результатам статистического исследования получают научные и практические выводы 1. Статистическое распределение выборки Пусть из генеральной совокупности извлечена выборка. При этом х1 наблюдалось n1 раз, х2 наблюдалось n2 раз, …, хк наблюдалось nк раз. Сумма к называется объемом выборки. Наблюдаемые значения называют вариантами. Последовательность вариант, записанных в возрастающем порядке, называют вариационным рядом.

Статистическим распределением выборки называют таблицу частот:

хi х1 х2 … хк варианты … частоты ni n1 n2 nк к или относительных частот:

хi х1 х2 … хк варианты … относительные к частоты к Если объем выборки достаточно большой, то весь массив значений разбивается на k интервалов и подсчитывается число элементов выборки, попавших в соответствующий интервал. Элемент, попадающий на границу двух интервалов, учитывается в левом интервале.

Статистическое распределение в этом случае имеет вид:

(хi-1;

хi) (х0;

х1) (х1;

х2) … (хк-1;

хк) варианты … частоты ni n1 n2 nк … относительные к частоты 2. Полигон и гистограмма Для наглядности строят различные графики статистических распределений.

Полигоном частот называют ломаную, соединяющую точки (хi;

ni). По оси абсцисс откладывают хi, а по оси ординат ni.

Полигоном относительных частот называют ломаную, соединяющую точки (хi;

).

ni n n 0 xk xi x1 x Полигон частот x1 x2 xk 0 xi Полигон относительных частот Гистограмма строится по данным интервального статистического распределения и представляет собой набор прямоугольников, основаниями которых являются интервалы, а высоты равны: hi=, где -длина i-го интервала, то есть площадь i-го прямоугольника равна относительной частоте попадания элементов выборки в i-й интервал. Площадь всей гистограммы равна 1.

x1 x2 x3 x Таким образом, гистограмма относительных частот является аналогом плотности вероятностей.

Замечание. Возможно построение гистограммы частот. В этом случае площадь i-го прямоугольника равна частоте попадания элементов выборки в i-й интервал, а площадь всей гистограммы равна объему выборки n.

Гистограмма частот и гистограмма относительных частот отражают один и тот же характер плотности вероятностей генеральной совокупности. Разница только в выборе масштаба.

Пример 1. Дана выборка: 1, 3, 2, 1, 0, 4, 3, 1, 0, 2.

Составить статистическое распределение (таблицу частот) и построить полигон.

Решение.

Таблица частот:

хi 0 1 2 3 ni 2 3 2 2 n= Полигон частот:

0 1 2 3 4 5 6 xi Пример 2. Дана выборка: 13, 15, 20, 12, 11, 35, 17, 38, 23, 27, 24, 39, 22, 25, 36, 18, 16, 23, 14, 27, 24, 26, 18, 37, 23, 14, 39, 27, 13, 22, 33, 31, 18, 35, 24, 14, 23, 34, 37, 12, 11, 11, 23, 13, 34, 25, 15, 23, 13, 17.

Требуется составить интервальное статистическое распределение и построить гистограмму относительных частот, разбив выборку на 5 интервалов.

Решение. Выберем сначала длину интервала. Так как размах выборки R=xнаиб-xнаим= =39-11=28, то длина интервала должна быть больше, чем =5,6. Поэтому возьмем длину интервала l=6. Начало первого интервала нужно выбрать так, чтобы x1xmin. В примере возьмем x1=1011. Записав интервалы, определим количество чисел, попавших в каждый интервал. Если число совпадает с границей интервала, то запишем его в левый интервал.



Таким образом, получим интервальное статистическое распределение:

(хi-хi+1) 10-16 16-22 22-28 28-34 34- ni 15 9 14 4 8 n= 0,30 0,18 0,28 0,08 0,16 Для построения гистограммы высоту i-го прямоугольника вычисляем по формуле:

=.

hi= = = Число = будем считать масштабной единицей на оси ординат.

ni 0 10 16 22 28 34 40 xi На полученном рисунке гистограмма интервального статистического распределения данной выборочной совокупности.

3. Эмпирическая функция распределения Напомним, что в теории вероятностей функцией распределения F(x) называется Р(Хх) – вероятность того, что случайная величина Х (дискретная или непрерывная) расположена слева от фиксированного значения х, то есть F(x)=Р(Хх).

В математической статистике случайная величина Х-это генеральная совокупность, которую мы изучаем по выборке. И по выборке строим аналогичную функцию:

для всех хix, где x-фиксированное значение из выборки, в числителе F*(x)= означает количество элементов выборки с учетом частоты по величине меньших выбранного элемента х.

Другими словами теоретическая функция F(x) определяет вероятность события Хx, а эмпирическая F*(x) определяет относительную частоту этого же события.

Доказано (см. т. Бернулли в законе больших чисел), что относительная частота и вероятность события при больших n мало отличаются одно от другого, то есть выполняется:

) ) ), 0.

Из определения функции F*(x) вытекают ее свойства, аналогичные свойствам F(x):

1. 0 F*(x)1;

2. F*(x)-неубывающая функция;

3. Если х1 наименьшая варианта, то F*(x)=0 для всех хх1;

4. Если хк наибольшая варианта, то F*(x)=1 для всех ххк.

Таким образом, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример. Составить эмпирическую функцию распределения для выборки из предыдущего параграфа:

хi 0 1 2 3 ni 2 3 2 2 n= Решение. Из определения F*следует:

F*(0)=0, х0;

F*(2)= =0,5;

F*(1)= =0,2;

F*(3)= =0,7;

F*(x)=1, х4.

F*(4)= =0,9;

Таким образом, График F*(х) F*(x) 0, х0, 0,2, 0х1, F*(х)= 0,5, 1х2, 0,7, 2х3, 0,9, 3х4, 1, х4.

0, 0 1 2 3 4 x 5. Примеры теоретических законов распределения В теории вероятностей законы распределения дискретных и непрерывных случайных величин определяются параметрами и числовыми характеристиками:

математическим ожиданием MX и дисперсией DX.

Например, дискретные законы распределения вероятностей:

1. Биноминальный закон.

Вероятность P(X=k)= pkqn-k, k=0, 1, 2,…,n.

n-количество испытаний;

р-вероятность успеха в одном испытании;

q=1-p, k-количество успехов;

-число сочетаний из n по k элементов.

M(X)=np, DX=npq.

2. Закон Пуассона.

, k=0, 1, 2,… P(X=k)= Число =np, где n велико, вероятность p мала.

MX=DX=.

Наиболее распространенными законами распределения непрерывных случайных величин являются следующие законы:

1. Равномерный закон, плотность вероятностей которого:

График f(x) 0, ха,, аxb, f(x)= 0, хb.

0 a b x ). Вероятность попадания Х в интервал (, ) вычисляется по формуле:

MX=, DX= при аb.

P(X)= 2. Показательный закон.

Плотность вероятностей:

График 0, х0, f(x) = f(x) -х e, х0.

x MX=, DX=.

Р(Х)=e--e- при 0.

3. Нормальный закон.

) Плотность вероятностей: f(x)=, График f(x) a+ a- m x MX=m, DX=2.

Вероятность попадания Х в интервал (, ) ) Р(Х)= ( ) ), где.

6. Статистические оценки параметров распределения Параметры генеральной совокупности это -средняя генеральная величина, Dг дисперсия генеральная и г= -среднее квадратическое отклонение. Эти параметры неизвестны.

По случайной выборочной совокупности находят среднюю выборочную, дисперсию выборочную Dв и среднее выборочное отклонение в=. Выборочные параметры являются случайными числами, их называют оценками неизвестных параметров генеральной совокупности.

К оценкам предъявляются определенные статистические требования:

несмещенность, состоятельность и эффективность.

Введем обозначения: пусть -неизвестный параметр генеральной совокупности, * оценка этого параметра, вычисленная по выборочной совокупности.

1. Несмещенность. Оценка * называется несмещенной, если М*=, то есть математическое ожидание несмещенной оценки равно ее истинному значению.

2. Состоятельность. Оценка * называется состоятельной, если с ростом объема выборки значение * по вероятности, то есть выполняется:

), 0.

При этом достаточным условием состоятельности является стремление дисперсии D*0 при n.

3. Эффективность. Оценка * называется эффективной, если дисперсия D* принимает минимальное значение.

Говорят *1 эффективнее *2, если D*1 D*2.

7. Оценка генеральной средней по выборочной средней Пусть для изучения генеральной совокупности Х извлечена выборка объема n. Различные значения x1, x2, … xk и соответствующие частоты n1, n2, … nk помещены в таблицу:

хi х1 х2 … хк варианты … частоты ni n1 n2 nк – объем выборки = Выборочная средняя.

Так как при повторении опыта получается другая выборка и другое значение, то можно говорить о математическом ожидании средней выборочной М и дисперсии D.

Покажем, что является несмещенной оценкой генеральной средней. Заметим, что совпадает с математическим ожиданием генеральной совокупности Х, то есть =МХ.

Выборки, полученные в результате независимых испытаний, можно считать случайными величинами Х1, Х2,…,Хn, имеющими одинаковое распределение, совпадающее с распределением генеральной совокупности Х, то есть числовые характеристики случайных величин Хi (i=1, 2, 3,…,n) одинаковые:

МХ1= МХ2=…=МХn=a=MX=, DХ1= DХ2=…=DХn=DX.

Рассмотрим математическое ожидание средней выборочной:

М =М )= =a=MX.

= Поэтому имеем М =, следовательно, является несмещенной оценкой генеральной средней.

Состоятельность средней выборочной доказывает теорема Чебышева из закона больших чисел:

), 0.

То есть по вероятности при n.

Таким образом, средняя выборочная является несмещенной состоятельной и, можно доказать, эффективной оценкой генеральной средней.

8. Среднее квадратическое отклонение Так же, как в предыдущем параграфе 7, будем обозначать генеральную совокупность через дискретную случайную величину Х достаточно большого объема. Тогда генеральная средняя =МХ и Dг=DX и по определению:

DX=M(X-MX)2=MX2-(MX)2.

Эта формула выведена при изучении случайных величин (см. раздел «Теория вероятностей»). Выборочная дисперсия находится аналогично по выборочной совокупности:

D*= ), среднее выборочное отклонение *=.

на соответствующие Обратим внимание на то, что сумма произведений отклонений частоты равна нулю.

Действительно:

).

Пример. Имеется выборка:

хi 1 2 ni 2 3 5 n= Вычислить:

1) Среднюю величину отклонения;

2) Среднее квадратическое отклонение.

Решение:

.

[ ) ) )] ) ) ) ) [ ) ) ) ] [ ) ) ] [ ] ).*=.

Ответ: 1. Среднее отклонение равно нулю.

2. Среднее квадратическое отклонение равно 0,78.

Из примеров видно, что вычисление дисперсии по определению достаточно громоздко.

Выведем формулу, которой обычно пользуются на практике:

D*= ) ) ) — ), то есть D*= ) ) ) ) Выборочная дисперсия равна усредненному квадрату выборочных значений минус средняя выборочная величина в квадрате.

Пример. Возьмем выборку из предыдущего примера:

хi 1 2 ni 2 3 5 n= Средняя величина =2,3.

Средний квадрат выборочных значений:

) ) ;

D*=5,9-(2,3)2=5,9-5,29=0,61.

1. Оценка генеральной дисперсии по исправленной выборочной Покажем, что выборочная дисперсия D* является смещенной оценкой генеральной дисперсии DX. Так же, как и в пункте 6, будем считать выборочные совокупности одинаково распределенными случайными величинами, имеющими одинаковые числовые характеристики.

Выведено в 7, что для средней одинаково распределенных величин выполняется:

М =МХ, М =МХ2, D. (1) Рассмотрим M(D*)=M( ) )= M( )-M ) ;

(2) По определению D( )= M ) -(M ), поэтому получим равенство:

D( ) = M ) -(M ) (3) Из (3) следует, учитывая (1) M ) = (M ) (4) Подставим теперь в (4) в (2):

M(D*)=M(X2)- -(MX)2=DX-.

Таким образом, M(D*)DX и, следовательно, дисперсия выборочная является смещенной оценкой генеральной дисперсии. Однако можно заметить, что при n, то есть для больших объемов выборки D* фактически будет несмещенной.

При n30 используют исправленную дисперсию:

S2= D*, которая является несмещенной оценкой DX.

Действительно: M(S2)=M D*)= MD*= DX=DX.

Вычисляется S2 по формуле:

) S2=.

называется стандартным отклонением.

S= 10. Статистические (точечные) оценки параметров основных законов распределения 1. Нормальное распределение: X=N(m,). Теоретические параметры: m=MX, 2=DX.

Оценки параметров m*= -средняя арифметическая величина, определяемая по выборке и S2=D* исправленная выборочная дисперсия.

) ) Асимметрия и эксцесс.

) ) Оценка асимметрии закона вычисляется по формуле:

) ) ).

) ) Точечная оценка коэффициента эксцесса находится по формуле:

).

) 2. Показательное распределение: Х=Е() Параметр закона, М(Х)= ;

D(Х)=.

Оценка параметра *=;

-средняя выборочная.

3. Равномерное распределение: Х=R[a,b] ) Теоретические параметры, МХ=, DX=.

Оценки параметров:

) средняя выборочная и исправленная выборочная дисперсия S2=.

11. Метод вычисления точечных оценок параметров распределения с помощью введения условных вариант В теории вероятностей введены понятия начальных и центральных моментов для дискретных случайных величин.

Начальным моментом порядка k случайной величины Х называют математическое ожидание величины Хk:

к=М(Хk) Заметим, что 1=М(Х), 2=М(Х2).

Центральным моментом k-го порядка случайной величины Х называют математическое ожидание величины (Х-МХ)k, т. е.:

к=М(Х-МХ)k.

Очевидно, что:

1=М(Х-МХ)=0, 2=М(Х-МХ)2=DX.

По аналогии в математической статистике вводятся эмпирические моменты:

а) начальные моменты: и ) - средняя величина, б) центральные моменты:, при этом =D*-дисперсия выборочная.

Центральные моменты выражаются через начальные:

),.

Условные варианты вводятся следующим образом. Пусть имеется вариационный ряд с равноотстоящими значениями с разностью h между двумя соседними значениями.

Условными вариантами называются величины Ui=, где в качестве с-ложного нуля можно выбрать произвольную варианту xm.

Покажем, что варианты Ui являются целыми числами.

Действительно:

[ )][ )] Ui=.

Так как i, m-целые числа, то Ui будут также целыми числами.

На практике нужно в качестве ложного нуля выбирать варианту с наибольшей частотой.

Рассмотрим пример вычисления средней выборочной и дисперсии с помощью введения условных вариант.





Пусть имеется выборка:

хi 16,5 19,5 22,5 25,5 28, ni 5 10 20 15 Ui -2 -1 0 1 h=3, n=60.

Выберем с=22,5.

Тогда U1= ;

U2= ;

U3=0;

U4= ;

U1=.

Используя условные варианты, вычислим начальный момент:

) ;

) ).

Покажем теперь, что средняя величина вычисляется по формуле:

.

Действительно:

) ) ),.

) = Таким образом,.

В примере 0,253+22,5=23,25.

Для вычисления дисперсии с использованием условных вариант возьмем формулу:

) ).

) Тогда.

) )и Аналогично можно доказать, что Dв=. Вообще, для любого k, ) ) ) ) Дисперсия выборочная будет равна:

Dв=.

12. Метод наибольшего правдоподобия для точечной оценки параметров распределения Пусть Х-дискретная случайная величина и выборка из нее: x1, x2,…,xn. Допустим, что предполагаемый закон распределения вероятностей выбран и требуется найти точечную оценку параметра закона. Обозначим через р (хi;

) вероятность того, что величина Х примет значение хi (i=1, 2,…,n) Функцией правдоподобия дискретной случайной величины называется функция:

L(x1, x2,…,xn, )=p (x1,) p (x2,)… p (xn,)… Находят такое значение *, при котором функция достигает максимума и * называют оценкой наибольшего правдоподобия.

Замечено, что функции L и ln L достигают максимума при одном и том же значении, поэтому исследуем на экстремум логарифмическую функцию правдоподобия:

ln L=ln p(x1,)+ln p(x2,)+…+ ln p(xn,).

Для этого по известному правилу математического анализа нужно:

) 1. Найти производную ;

) 2. Приравнять производную к нулю и, решая уравнение, вычислить *;

) 3. Найти производную второго порядка ;

подставив в нее значение =*, убедиться в том, что вторая производная отрицательна, и, следовательно, *-точка максимума, которую принимают в качестве оценки наибольшего правдоподобия параметра.

Метод наиболее применим для малых выборок. Недостаток метода состоит в том, что приводит к сложным вычислениям.

Пример. Найти методом наибольшего правдоподобия оценку параметра в распределении вероятностей Пуассона:

Рn(m)= Решение. Пусть проводится k опытов, каждый из которых состоит из n испытаний.

В каждом опыте фиксируется число появлений рассматриваемого события. Обозначим число появлений события в i-м опыте через mi и подставим в формулу Пуассона:

Рn(mi)=, i=1, 2,…,k.

Составим теперь функцию наибольшего правдоподобия:

L=Pn(m1, ) Pn(m2, ) … Pn(mk, )= ).

Запишем логарифмическую функцию наибольшего правдоподобия:

) ).

Исследуем функцию на экстремум.

1) Возьмем производную по и приравняем ее к нулю:

.

, то есть Получим равна среднему выборочному значению числа появлений события в k опытах.

2) Возьмем производную второго порядка:

.

- точка максимума. Таким Очевидно, что она отрицательна, следовательно, образом, в качестве оценки наибольшего правдоподобия параметра распределения Пуассона принимается выборочная средняя числа появлений события в k опытах.

13. Число степеней свободы Статистические оценки параметров предполагаемого теоретического распределения вычисляются по случайным выборкам и поэтому являются случайными числами. Они подвергаются дальнейшему анализу с помощью различных критериев согласия: например, хи-квадрат (2), Фишера-Снедекора, Стьюдента и другие.

Для применения этих стандартных законов распределения вводится понятие числа степеней свободы изучаемого статистического материала.

Различные независимые измерения Х1, Х2,…,Хk одной и той же величины можно рассматривать как различные случайные величины, имеющие одно и то же распределение и имеющие k степеней свободы. Сумма Х1+Х2+…+Хk и сумма квадратов также будет иметь число степеней свободы, равное k.

Если для рассмотренных случайных величин используется какая-либо связь, то число степеней свободы уменьшается. Например, если по результатам выборки вычислена средняя величина:

, и зафиксирована для всех Х1, Х2,…,Хk, то есть, то тогда одну из величин можно выразить через остальные. Значит, система оказалась связанной и потеряла одну степень свободы.

Если по результатам выборки вычислена выборочная дисперсия и присвоена любой из случайных величин (i=1, 2,…,k), то число степеней свободы станет равно k-2.

В некоторых статистических исследованиях фиксируются не только общая средняя выборочная и дисперсия выборочная, но и групповые средние и групповые дисперсии.

Тогда число степеней свободы у системы случайных величин уменьшается еще и на число таких связей.

14. Основные стандартные законы распределения, их таблицы и применение этих таблиц Для практического применения статистических расчетов служат таблицы основных стандартных законов распределения: нормального, 2, Стьюдента и Фишера.

Введем понятие квантиля и критической точки. Пусть Х-СВ, имеющая стандартное распределение. Р-Квантилем распределения Х называется такое значение хр, что F(хр)=p, где F(х)-функция распределения СВ Х. Часто вместо квантиля используется критическая точка. Критической точкой уровня распределения Х называется такое значение хкр(), что Р(Ххкр())=. Ясно, что квантиль уровня р равен критической точке уровня 1-р. Если распределение Х симметрично относительно оси ординат, то х=-х1-(см. рис.1) f(x) Рис. x x1- x 1. Работа с таблицами стандартного нормального распределения Стандартным нормальным распределением называется нормальное распределение N[0,1] с параметрами m=0, =1, р-Квантиль нормального распределения обозначается uр.

Обычно в приложениях для отыскания uр используются таблицы значений функции Лапласа:

Ф(u)=.

Функция Лапласа связана с функцией распределения стандартной нормальной СВ равенством: F(u)=Ф(u)+0,5 (см. рис.2) f(u) ) Рис. 2 u u Если р0,5, то, используя таблицы функции Лапласа, находим квантиль uр из равенства Ф(uр)=р-0,5.

Например, найдем u0,95. Из таблиц имеем Ф(1,64)=0,4495, Ф(1,65)=0,4505. Полагаем Ф(1,645)=0,45=0,95-0,5, т. е. u0,95=1,645. Если же р0,5, то 1-р0,5. Находим u1-р. Тогда uр=-u1-р.

Пример. Найти u0,05. Тогда 1-0,05=0,95;

u0,95=1,645. Значит, u0,05=-1,645.

Замечание. Если в приложениях даются таблицы функции F(u)=, то тогда сразу по заданному уровню р находим uр.

2. Распределение 2 (хи квадрат) Пусть U1, U2,…,Un – взаимно независимые случайные величины, имеющие стандартные нормальные распределения. Тогда 2= имеет 2(n) распределение с n степенями свободы. Отметим, что число степеней свободы () определяется числом случайных величин, ее составляющих, уменьшенному на число линейных связей между ними. Случайная величина, имеющая 2 распределение, может принимать только неотрицательные значения, ее график плотности имеет асимметрический вид с вытянутым правым «хвостом». Однако, с увеличением числа степеней свободы распределение 2(n) постепенно приближается к нормальному.

f(2,) М(2)= =1 D(2)= =6 = Рис. Распределение 2 применяется для нахождения интервальных оценок и проверки статистических гипотез. В приложениях обычно для данного уровня р и числа степеней свободы даются значения критических точек 2кр(р,).

Например, 2кр(0,995,4)=0,207, т. е. Р(2(4)0,207)=0,995.

3. Распределение Стьюдента Пусть СВ U имеет стандартное нормальное распределение, а СВ V не зависит от U и распределена по закону 2 с n степенями свободы.

Тогда СВ Т= имеет распределение Стьюдента (t распределение) с n степенями свободы T=St(n). Распределение Стьюдента имеет один параметр, график функции плотности симметричен относительно оси ординат.

f(t,n) кривая нормального распределения (n ) М(T)=0;

D(T)= n= Рис. 4 t С увеличением числа степеней свободы распределения Стьюдента приближается к нормальному и при n30 его практически можно заменить нормальным. Так же, как и распределение 2 его применяют для построения интервальных оценок и проверки статистических гипотез.

При этом используют либо таблицы квантилей, либо критических точек. Поскольку распределение Стьюдента симметрично, то t1-p=-tp. Значения квантиля находятся на пересечении строки с числом степеней свободы и столбца-вероятности. Например, t0,95(5)=2,015, т. е. Р(St(5)2,015)=0,95. Это же значение t=2,015 является критической точкой для уровня 0,05 tкр(0,05;

5)=2,015, т. е. Р(St(5)2,015)=0,05.

4. Распределение Фишера-Снедекора Пусть V=2(m), W=2(n) независимые СВ, распределенные по закону 2 со степенями свободы 1=m и 2=n. Тогда СВ F= имеет распределение Фишера со степенями свободы 1=m и 2=n, F=F(m,n). Таким образом, распределение Фишера (F распределение) определяется двумя параметрами, причем М(F)= (n2);

) D(F)= n4.

) ) СВ, распределенное по закону Фишера, принимает только неотрицательные значения, применяется для проверки статистических гипотез в дисперсионном и регрессионном анализе. Таблицы квантилей (критических точек) должны иметь три входа, поэтому в приложениях приводятся таблицы для некоторых наиболее употребительных значений уровней значимости: =0,01;

=0,05;

=0,1. Для каждого из этих значений приводятся значения критических точек (или квантилей) для распределения Фишера с числом степеней свободы 1 и 2. Например, для =0,05 Fкр(0,05;

(4,2))=19,2. Это значит, что Р(F(4,2)19,2)=0,05. Если же =0,1, то Fкр(0,1;

(4,2))=9,24, т. е. Р(F(4,2)9,24)=0,1. В то же время эти критические точки являются квантилями уровней 0,95 и 0,9 соответственно.

F0,95(4,2)=19,2 и F0,9(4,2)=9,24, т. е. Р(F(4,2)19,2)=0,95 и Р(F(4,2)9,24)=0,9.

График плотности распределения Фишера имеет вид:

f(F) m=1, n= m=n= Рис. 5 F 15. Интервальные оценки Точечная оценка * параметра является функцией выборки и зависит в том числе от ее объема. Поскольку обычно оценки берутся несмещенные и состоятельные, то если объем выборки достаточно большой, оценка дает хорошее приближение оцениваемому параметру. Однако нередко, особенно, если невозможно в силу условий построить выборку большого объема, возникает необходимость задать некоторые границы, в которых заключается истинное значение параметра с некоторой вероятностью (надежностью).

Это приводит нас к задаче построения интервальных оценок или доверительных интервалов. Дадим точное определение.

Пусть -неизветсный параметр и -вероятность, тогда интервал [1(n);

2(n)], здесь n – объем выборки, покрывающий параметр с вероятностью, называется доверительным интервалом, или интервальной оценкой параметра, а -надежностью или доверительной вероятностью. Мы говорим «интервал покрывает параметр », поскольку -неслучайная величина, а случайными являются концы интервала. Очевидно, интервал зависит от оценки * параметра. Иногда, но не всегда, он имеет вид *. В этом случае предельная абсолютная погрешность, а величина или 2 называется точностью оценки.

Ясно, что при одном и том же объеме выборки, если мы хотим увеличить точность оценки (т. е. уменьшить длину интервала), то это приведет к уменьшению ее надежности и наоборот. Погрешность (ошибка ) возникает вследствие того, что вместо всей генеральной совокупности исследуется только ее часть – случайная выборка. Она называется ошибкой репрезентативности.

Алгоритм построения доверительного интервала:

1. Задается уровень значимости =1-, где -надежность оценки. Обычно для используется значение 0,1;

0,05;

0,01;

0,001.

2. Пусть -неизвестный параметр распределения СВ Х. Обычно предполагается, что Х имеет нормальное распределение. В силу Ц. П. Т. для больших объемов n выборки эти же формулы используются и для других распределений.

3. Строится СВ Z, являющаяся функцией выборки, зависящая от и ее точечной оценки * и имеющая стандартное распределение. Она называется статистикой.

4. С помощью таблиц, имеющихся для этих стандартных распределений, находятся такие z1 и z2, что P(z1Z z2)==1-.

5. Используя связь между Z и, строится равносильное неравенство 12, так что Р(12)=. Если распределение Z симметрично, то интервал имеет вид *, где -предельная абсолютная погрешность.

Схема построения доверительных интервалов Оцениваемый Статистика и ее Доверительный интервал параметр распределение 1. 1. Математическое ожидание = ) нормальной СВ [ ] U= P( )=1 Х=N[m,] MX=m, известно 2. 2. Математическое ) [ ] T= ожидание ) = s-исправленное среднее нормальной СВ P( квадратическое )=1 Х=N[m,] MX=m, отклонение неизвестно ) ) ) 3. 3. Дисперсия ) ) ) нормальной СВ [ ] Х=N[m,] DX=2, ) ) ( ) m неизвестно ) ) 4. 4. Вероятность р ) ) биномиального [ ] ) распределения (доля), n велико P( )=1 )- квантили соответственно стандартного нормального распределения, Здесь up, tp(k), распределения Стьюдента и 2 с k степенями свободы.

W= - относительная частота (доля).

Примеры решения задач Задача № В результате предварительного опроса больших групп населения по избирательным округам установлено, что в среднем 35,1% готовы проголосовать за кандидата данной партии.

а) Считая, что СВ Х-процент проголосовавших в каждом округе за данного кандидата имеет нормальное распределение со средним квадратическим отклонением =1,5%, указать с 90% уверенностью, в каких пределах будет заключаться процент проголосовавших на предстоящих выборах.

b) Решить ту же задачу, заменяя заданное стандартным отклонением, полученным в данной выборке объема 50 и составляющим 2,1%.

с) На уровне значимости =0,1 проверить, не является ли стандартное отклонение в 1,5% заниженной оценкой?

Решение а) =0,9, 1-/2=0,95;

u0,95=1,645, =. Интервал 35,1±0,35. Итак, в 90% случаев можно быть уверенным, что процент проголосовавших за данного кандидата будет заключен в интервале (34,75%;

35,45%).

b) Поскольку неизвестно, пользуемся распределением Стьюдента t0,95(49)=1,675, =. Интервал (34,6%;

35,6%) оказался шире.

с) Построим доверительный интервал для.

) ),,,, P(1,792,49)=0,9.

Итак, на уровне значимости =0,1 можно утверждать, что оценка стандартного отклонения в 1,5% занижена, т. к. 1,5 не принадлежит интервалу (1,79;

2,49).

Задача № Из большой партии деталей для проверки было отобрано 100 деталей, среди которых оказалось 96 стандартных. Найти: а) вероятность того, что доля нестандартных деталей во всей партии отличается от полученной доли в выборке по абсолютной величине не более, чем на 0,01;

в) границы, в которых с надежностью 0,95 заключена доля нестандартных деталей во всей партии;

с) определить число деталей, которое надо отобрать в выборку, чтобы с вероятностью 0,9 доля нестандартных деталей в выборке отличалась от генеральной доли (по абсолютной величине) не более, чем на 0,02.

Решение ) Поскольку n велико, статистика имеет нормальное стандартное распределение.

) ) а) W= ;

;

)=2Ф(0,51)=20,0196=0,39.

Р(|W-p|0,01)=2Ф ) ;

/2=0,025;

1-/2=0,975;

U0,975=1, b) =1,960,0196=0,038;

p W±=0,04±0,038;

Р(0,002р0,078)=0,95;

)=0,9;

Ф(1,645)=0,45;

с) Р(|W-p|0,02)=2Ф( =1,645;

откуда, т. к.

0,012= = =0, Значит, n =1361.

Замечание. Для решения задачи с) мы предположили, что доля нестандартных деталей не изменилась. Иногда ее полагают равной средней доли данного производства.

Если о доли ничего, даже приблизительно, неизвестно, то полагают:

W(1-W)=W(1-W)max=0,25, что увеличивает объем выборки.

Вывод: с надежностью 0,39 можно полагать, что доля нестандартных деталей всей партии лежит в границах (3%,5%) и с надежностью 0,95 лежит в границах (0,2%,7,8%).

Объем выборки должен быть не менее, чем 1361, чтобы с вероятностью 0,9 гарантировать отклонение доли нестандартных деталей от генеральной доли не более, чем на 0,02.

16. Проверка статистических гипотез Статистической называют гипотезу о виде закона распределения или о параметре известного распределения. В первом случае гипотеза называется непараматрической, а во втором – параметрической.

Рассмотрим сначала случай параметрических гипотез. Пусть -неизвестный параметр. Выдвигается гипотеза Н0:=0. Эта гипотеза называется нулевой или основной.

В качестве конкурирующих или альтернативных гипотез рассматриваются гипотезы 0, 0, 0. С логической точки зрения альтернативной является только 0. Но часто, исходя из смысла параметра, оказывается, что одна из них, например, 0 не имеет смысла, и тогда 0 является альтернативной гипотезой. Заметим, что обычно в качестве нулевой гипотезы берется та, которую собираются отвергнуть. Причина в том, что для доказательства некоторого утверждения требуется рассмотреть все случаи, а для его отрицания достаточно одного опровергающего примера.

Алгоритм проверки параметрической гипотезы 1. Выбирается уровень значимости ;

2. Выдвигаются основная Н0 гипотеза и альтернативная Н1;

3. Строится случайная величина Z, которая при условии, что гипотеза Н0 справедлива, имеет стандартное распределение;

4. Используя стандартное распределение и уровень значимости, область изменения СВ Z разбивается на две области: критическую, вероятность попадания в которую равна, и область принятия гипотезы, вероятность попадания в которую СВ Z равна =1-;

5. Вычисляется выборочное значение критерия Z. Если оно попадает в критическую область, то гипотеза Н0 отвергается. В противном случае говорят, что гипотеза не противоречит эксперименту и может быть принята.

Следующий пример позволяет лучше понять задачу проверки гипотезы.

Пусть известно, что во время эпидемии гриппа заболевает в среднем 30%. Была разработана вакцина от гриппа. Разработчики утверждают, что в результате прививки данной вакцины человек либо не заболевает, либо вероятность заболеть резко уменьшается. Для подтверждения этого было отобрано 10 групп добровольцев, подвергшихся вакцинации. В результате в пяти из них никто не заболел, в двух группах процент заболевших был равен двум и в двух группах – 4% заболевших, но в одной группе оказалось 27% заболевших. Можно ли утверждать, что вакцина действует, и какой на самом деле средний процент заболевших?

Для решения этой задачи была выдвинута гипотеза Н0: MX=30, где Х-процент заболевших. В качестве альтернативной гипотезы принята гипотеза Н1: MX30. В результате проверки гипотеза Но, означающая, что вакцина не работает, была отвергнута.

Значит процент заболевших уменьшился, но как? Последовательно проверялись гипотезы:

MX=20, MX=10, MX=5. В результате проверки была принята гипотеза MX5, что означает, что после вакцинации на уровне значимости 0,05 можно утверждать, что процент вакцинированных заболевших не превышает 5.

Статистическая проверка гипотез основывается на выбранных данных, а потому не исключена возможность принятия неправильного решения. При этом возможны ошибки двух родов: ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза, ошибка второго рода заключается в том, что будет принята ошибочная нулевая гипотеза.

Результаты статистических выводов представлены следующей таблицей:

Результаты проверки Возможные состояния гипотезы гипотезы Верна Н0 Верна Н Гипотеза Н0 отклоняется, Ошибка первого рода Правильный вывод принимается Н1 Р(Н1/ Н0)= Р(Н1/ Н1)=1 Гипотеза Н1 отклоняется, Правильный вывод Ошибка второго рода принимается Н0 Р(Н0/ Н0)=1- Р(Н0/ Н1)= Р(Н1/Н1)=1- называется мощностью критерия, т. е. вероятностью отвергнуть неверное решение.

Вероятность совершить ошибку первого рода называют также уровнем значимости.

Невозможно исключить ошибки первого и второго рода, поскольку проверка осуществляется на основании выборки, но можно попытаться уменьшить их вероятности.

Однако одновременное уменьшение и достигается только увеличением объема выборки.

Вероятность ошибки первого рода называют также риском продавца, а – вероятность ошибки второго рода – риском покупателя.

В самом деле, пусть продавец продает оптом большую партию ящиков с апельсинами. Так как невозможно проверить все ящики, покупатель выбирает несколько из них. Если апельсины в них оказались второго сорта (Н1), хотя фактически подавляющее большиство апельсинов партии первого сорта (Но), то вся партия считается вторым сортом и проигрывает продавец. Его риск равен. Если, напротив, в выбранных ящиках апельсины оказались первого сорта (Но), хотя в действительности почти все они второго сорта (Н1), то покупатель платит за них по цене первого сорта и проигрывает. Его риск равен.

Итак, пусть нулевая гипотеза Но: =0, – уровень значимости, Z – статистика, Кр – квантиль этой статистики уровня р, V – область принятия гипотезы Н0. следующая таблица устанавливает связь между конкурирующей гипотезой Н1 и областью V.

Конкурирующая гипотеза Область V принятия гипотезы H1: 0 K / 2 Zнаб K1 / H1: 0 Zнаб K H1: 0 Zнаб K Примеры проверки гипотез 1. Проверка гипотезы о значении математического ожидания нормальной СВ при известной и неизвестной дисперсии.

) [ ], 2 известно Н0: MX=m0, Кр=uр Z= ) [ ], 2 неизвестно Н0: MX=m0, Кр=tр(n-1) Z= s - исправленное среднее квадратическое отклонение ) ) s= Замечание uр – квантиль нормального распределения, tр(n-1) – квантиль распределения Стьюдента с (n-1) степенью свободы. Поскольку стандартное нормальное распределение и распределение Стьюдента симметричны относительно x=0, то uр=-u1-р и тоже самое tр=-t1-р.

Замечание Если альтернативная гипотеза 0, то проверка гипотезы может быть проведена следующим образом: строится доверительный интервал параметра с надежностью =1-, а затем, если значение 0 попадает в данный интервал, то гипотеза Н0 не отвергается, если нет – то отвергается.

2. Проверка гипотезы о величине дисперсии нормальной СВ.

Н0:

) [ ] [ ];

.

[ ] – квантиль распределения Здесь снова s2-исправленная дисперсия 2 с (n-1) степенью свободы.

3. Проверка гипотезы о значении вероятности в независимых испытаниях Бернулли.

Н0:

) [ ] Кр=uр Z= ) Здесь W= -относительная частота. Из теоремы Бернулли следует, что при достаточно больших значениях n относительная частота W сходится по вероятности к вероятности ) события. При этом M(W)=p, (W)=. Величина U= имеет приближенно стандартное нормальное распределение.

4. Проверка гипотезы о равенстве математических ожиданий.

Пусть генеральные совокупности X и Y распределены нормально и их дисперсии известны: и. По независимым выборкам, объемы которых равны n и m соответственно найдены выборочные средние и.

Н0: MX=MY [ ] Кр=uр а) и известны Z= в) Н0: MX=MY и неизвестны, X и Y имеют нормальное распределение или и неизвестны, n и m30 и выборки независимы [ ] Кр=uр Z= с) Н0: MX=MY и неизвестны, X и Y нормально распределены m, n малы, = ) ) Z= ) ) ) Кр=tр 5. Проверка гипотезы о равенстве двух дисперсий нормальных распределений.

Пусть генеральные совокупности X и Y распределены нормально. По независимым выборкам с объемами соответственно n и m найдены исправленные выборочные дисперсии и и пусть для определенности.

Н0: DX=DY Z= =F(n-1, m-1);

Кр=Fр(n-1, m-1) Замечание. Если наоборот, то Z= =F(m-1, n-1).

6. Проверка равенства двух вероятностей биномиальных распределений (равенстве долей).

Пусть в двух генеральных совокупностях проведены независимые испытания: n1 – в первой и n2 – во второй. При этом частота появления события А в первой равна W1=, а во второй - W2=. Обозначим неизвестные вероятности появления события А в первой совокупности через p1, а во второй - p2.

[ ];

Н0: p1= p2=р0 ;

Кр=uр Z= ) ) n1, n2 велики Замечание. В качестве наилучшего значения берут р0=, если две выборки смешать в одну.

Примеры решения задач Задача №3.

Анализируется доход Х фирм в некоторой отрасли. Предполагается, что СВ Х имеет нормальное распределение и при этом средний доход в отрасли не менее 1 млн. а среднее квадратическое отклонение не более 0,1 млн (в $). По выборке из 50 фирм получены следующие данные =0,9 млн, s=0,15 млн. На уровне значимости =0, проверить эти предположения.

Проверим, что средний доход не менее 1 млн при известном и неизвестном.

Н0: MX=m0=1. Поскольку =0,91, то в качестве гипотезы Н1: MX ) известно Zнабл= ;

Область левосторонняя..

Ф(2,3)=0,49=0,99-0,5, т. е..

Поскольку Zнабл=-7,07-2,3, то гипотеза Н0 отвергается, принимается Н1, т. е. средний доход в отрасли меньше 1 млн $.

) ) неизвестно Zнабл= ;

V = tкр(0,01;

49)=-2,4. Снова Zнабл=-4,67 tкр = - 2,4 и делается тот же вывод.

Проверим теперь, что среднее квадратическое не более, чем 0,1;

, поэтому = 0, Н0:

) = 0, Н1: Zнабл= ) ) Область правосторонняя:, то принимается гипотеза Н1, т. е. 0, Вывод. Средний доход фирм в этой отрасли меньше 1 млн$, а среднее квадратическое отклонение 0,1.

Задача №4.

В рекламе фирмы А утверждается, что месячный доход по ее акциям в среднем равен 0,75% и превышает доход по акциям фирмы В более, чем на 0,3%. И при этом ее риски меньше. В течение годичного периода средний месячный доход по акциям В составил 0,4%, а по акциям А – 0,65%, а их средние квадратические отклонения 1,9% для В и 2% для А. Полагая распределение доходности по каждой акции нормальными, на уровне значимости =0,05 проверить все три утверждения, содержащиеся в рекламе.

Пусть Х и Y месячный доход по акциям фирм А и В соответственно и пусть Y1=Y+0,3. Тогда ;

.

) а) Н0: MX=0,75%=mo Zнабл= -0,17;

s=2% Н1: MX0,75%, t0,05(11)=-1,796;

-0,17-1,796, принимается гипотеза Н0, т. е. MX=0,75%.

в) Н0: MX=MY+0,3%;

Zнабл= -0, Н1: MXMY+0,3%;

Zнабл=-0,06u0,95=1, Sx=2%, Sy=1,9%, u1-=u0,95=1, Принимается гипотеза Н0: MX=MY+0,3% с) Н0: = Zнабл= 1, Н1: Fкр(11,11)= F0,05(11,11)=2,82 Zнабл=1, Принимается гипотеза Н0.

Вывод: Действительно, средний доход по акциям в фирме А равен 0,75% и он на 0,3% больше, чем в фирме В, но риски в обеих фирмах примерно одинаковые.

Задача № В университете из 102 студентов специальности А 62 успешно сдали все экзамены, а из 50 студентов специальности В сдали все экзамены 32 студента. На уровне значимости =0,05 проверить гипотезу об отсутствии существенных различий в успеваемости студентов этих двух специальностей.

Решение:

р0= =0,608;

W2= =0, =0,625;

W1= Zнабл= 0, ) ) Н0: р1=р2 =0,05;

/2=0,025;

1-/2=0,975;

Н1: р1р2 u0,025=-1,96;

u0,975=1, -1,96Zнабл=0,381,96.

Следовательно, гипотеза Н0 принимается, т. е. не существует значимого различия в успеваемости студентов специальностей А и В.

17. Непараметрические гипотезы. Критерий Пирсона Пусть по виду гистограммы или на основании теоретического анализа выдвигается гипотеза о виде закона распределения СВ Х. Для ответа на вопрос, объясняются ли расхождения между гипотетическим и эмпирическим распределениями случайными обстоятельствами или гипотеза неверна, служат критерии согласия. На практике чаще всего используется критерий 2-Пирсона.

Схема применения критерия Пирсона. Пусть Х – непрерывная СВ. Полученная выборка объема n сформирована в виде интервального вариационного ряда.

1. Выбирается уровень значимости.

2. Число интервалов. Необходимо, чтобы в каждый интервал попадало не менее наблюдений, т. е. 5. Если это условие не выполнено, то объединяют соседние интервалы. Пусть число интервалов равно k.

3. Параметры распределения. Число степеней свободы.

Параметры гипотетического распределения могут быть известными и неизвестными. Если они неизвестны, то их заменяют точечными оценками. Оценки чаще всего находят методом моментов, т. е. приравнивают теоретические и эмпирические моменты. Число степеней свободы =k-1, если параметры известны и =k-s-1, если приходится оценивать s параметров.

Заметим, что всегда должно быть выполнено соотношение:

4. Теоретические частоты )и На основании гипотетического распределения находятся вероятности теоретические частоты:

5. Выдвигается гипотеза Н0: исследуемая СВ величина распределена по данному закону. Строится статистика:

) Zнаб= Эта статистика имеет 2 распределение с числом степеней свободы =k-s-1 при достаточно большом n. Для данного находим (, k-s-1) 6. Если Zнаб (, k-s-1), то гипотезу Но отвергают, в противном случае считают, что расхождение между теоретическим и эмпирическим распределениями несущественно, и гипотезу Но можно считать правдоподобной.

Комментарии 1. При проверке гипотезы о нормальном распределении СВ Х, параметры m и могут быть как известными, так и неизвестными. В этом случае полагают m=, =s.

(( ) ( )).

Тогда Так как x ( ), то x0=, а xk=, поскольку должно быть выполнено, равенство, или иначе. Возможна небольшая погрешность, вызванная ошибками округления 2. если проверяется гипотеза о равномерном распределении СВ X=R[a,b] и концы интервала известны, то, где k – число интервалов одинаковой длины, или же, если пришлось объединять интервалы. В случае, когда концы интервала неизвестны, их заменяют оценками а*= -s, b*= +s.

Тогда Для внутренних интервалов 3. Показательное распределение X~E() имеет один параметр. Если он неизвестен, его заменяют оценкой *= 1. Так как x [0, ], то полагают x0=0 и xk=, чтобы x ) была равна n. Частоты Пример 1.

Для оценки месячного дохода на душу населения Х (тыс.руб.) была произведена случайная выборка объема n=100 и сформирован интервальный вариационный ряд.

8,5- 9,7- 10,9- 12,1- 13,3 Менее 7,3 Свыше 14, xi 7,3-8, 9,7 10,9 12,1 13,3 14, ni 10 10 22 18 20 6 8 На уровне значимости =0,05 проверить гипотезу о нормальном распределении СВ Х.

Решение.

При наличии открытых интервалов значений Х типа «менее x0» или «свыше xk» для проведения расчетов их условно заменяют интервалами той же длины. Интервал «менее 7,3» заменяем интервалом [6,1;

7,3], а интервал «свыше 14,5» - интервалом [14,5;

15,1].

Беря в качестве представителя интервала его середину, получаем =10,39610,4;

)=5,242, s=2,3.

Вычисления оформляем в виде таблицы:

) № Ф(ai) Ф(ai+1) xi xi+1 ni ai ai+ интервала 1 7,3 10 -1,35 -0,5 -0,4115 8,85 0, 2 7,3 8,5 10 -1,35 -0,83 -0,4115 -0,2967 11,48 0, 3 8,5 9,7 22 -0,83 -0,3 -0,2967 -0,1179 17,88 0, 4 9,7 10,9 18 -0,3 0,22 -0,1179 0,0871 20,5 0, 5 10,9 12,1 20 0,22 0,74 0,0871 0,2703 18,32 0, 6 12,1 13,3 6 0,74 1,26 0,2703 0,3962 12,59 3, 7 13,3 14,5 8 1,26 1,78 0,3962 0,4625 6,63 0, 8 14,5 6 1,78 0,4625 0,5 3,75 1, 6, Здесь ai= ;

Ф(x) – функция Лапласа =6,82;

V=8-1-2=5;

(0,05;

5)=11,1 =6,82.

Следовательно, гипотеза о нормальном распределении месячного дохода на душу населения не противоречит эксперименту и может быть принята.

Рассмотрим случай дискретной случайной величины.

Пример 2.

Анализируется количество договоров, заключенных страховыми агентами компании в течение недели, для чего была произведена выборка объема n=50. Результат оформлен в виде дискретного вариационного ряда, где xi – количество заключенных договоров, а ni – число агентов, заключивших xi договоров.

xi 0 1 2 3 4 5 ni 1 10 15 9 6 5 На уровне значимости =0,05 проверить гипотезу о том, что СВ Х – количество заключенных договоров страховым агентом, распределено по закону Пуассона.

Поскольку ni должно быть 5, то объединяем два значения x=0 и x=1, а также x=5 и x6.

Распределение Пуассона имеет один параметр. В качестве его оценки берем *=.

Вычислим =2, *=2,8=.

Для распределения Пуассона P(m)= ;

m=0, 1,…n,… Вычисления оформим в виде таблицы, полагая e-2,8=0, ) № варианта xi ni 1 0 11 11,4 0, 2 2 15 11,76 0, 3 3 9 10,98 0, 4 4 6 7,68 0, 5 5 9 8,18 0,.

=1, Пояснения Р(Х=0)+Р(Х=1)= 0,06(1+)=0,063,8=0,228;

=50р1=500,228=11,4;

Р(Х=2)= =0,235250=11, =0,2352;

Р(Х=3)= =0,2196;

=10, Р(Х=4)= =0,1536;

=7, Р(Х5)=1-Р(Х5)=1-(0,228+0,2352+0,2196+0,1537)=0, =8, V=5-1-1=3;

(0,05;

3)=7,8 =1,714.

Следовательно, на уровне значимости =0,05 можно принять гипотезу Н0 о пуассоновском распределении числа страховых договоров, заключенных страховым агентом.

Вопросы для самопроверки Какая связь между генеральной совокупностью и выборкой?

1.

Дайте определение дискретного и интервального вариационных рядов?

2.

Сформулируйте свойства эмпирической функции распределения?

3.

Что такое полигон частот и гистограмма? Для чего они используются?

4.

Приведите формулы для вычисления выборочных среднего, дисперсии и среднего 5.

квадратического отклонения.

6. Приведите формулу выборочного коэффициента корреляции и укажите его свойства.

Что он характеризует?

7. Дайте определение точечной оценки параметра.

8. В чем разница между не смещенной и асимптотически несмещенной оценкой?

Приведите пример смещенной, но асимптотически несмещенной оценки.

9. Какие оценки называются эффективными и какие состоятельными?

10. Что такое доверительный интервал и каков алгоритм его построения?

11. Как меняется надежность оценки при изменении её точности?

12. Если среднее выборочное стороны квадрата равно а, то будет ли среднее выборочное его площади равно а2?

13. Перечислите основные стандартные распределения.

14. Как связаны квантиль и критическая точка?

15. Может ли квантиль распределения Стьюдента быть равным – 1, 75?

16. Как связаны выборочные средние, дисперсии и средние квадратические отклонения случайных величин и U=2Х?

17. Как строятся доверительные интервалы для дисперсии и среднего квадратического отклонения нормальной случайной величины?

18. Чем отличаются интервальные оценки для математического ожидания нормальной СВ при известной и неизвестной дисперсиях?

19. Какая разница между параметрической и непараметрической статистическими гипотезами?

20. Какая связь между нулевой, альтернативной и конкурирующей гипотезами?

21. Какая статистика используется при проверке гипотезы о равенстве дисперсий нормальных СВ?

22. Приведите общую сxeму проверки гипотез.

23. Что такое ошибки первого и второго рода? Как можно уменьшить вероятность этих ошибок?

24. Что такое уровень значимости?

25. Какая статистика используется для проверки гипотезы о равенстве математических ожиданий двух нормальных СВ, если известны их дисперсии?

26. Как связаны квантили распределения Стьюдента для уровней 0,1 и 0,9?

27. Как проверяется гипотеза о нормальном распределении генеральной совокупности, если параметры нормального распределения неизвестны?

28. Как связаны квантили одного уровня для нормального распределения и распределения Стьюдента с большим числом степеней свободы?

29. Как меняется точность оценки при построении доверительного интервала для математического ожидания нормальной СВ с известной дисперсией при увеличении числа наблюдений в 2 раза?

30. Как меняются выборочное среднее и выборочная дисперсия при изменении масштаба?

18. Варианты заданий Задача №1.

Для исследования доходов сотрудников предприятия было отобрано по 15 человек в каждом подразделении. В результате получены 2 выборки, где X и Y доходы подразделений (в тыс. руб.). Объединив обе выборки в одну:

1. Составить интервальный вариационный ряд, разбив значения варианты на интервалов.

2. Построить гистограмму, кумуляту и эмпирическую функцию распределения.

3. Найти средний доход работников предприятия, медиану Ме, моду Мо, дисперсию s2 и среднее квадратическое отклонение.

4. (вар. 1,2,3). Найти вероятность того, что средний доход работников предприятия отличается от среднего дохода по объединенной выборке не более, чем на 1 тыс.

рублей (по абсолютной величине). Определить границы, в которых с надежностью 0,99, заключен средний доход работников данного предприятия. Каким должен быть объем выборки, чтобы те же границы гарантировать с надежностью 0,997?

4. (вар. 4,5,6) Найти вероятность того, что доля работников с низкими доходами (меньше 15 тыс.) данного предприятия отличается от доли таких же работников в объединенной выборке не более, чем на 0,01 (по абсолютной величине).

Определить границы, в которых с надежностью 0,95 заключена доля работников с низкими доходами. Каким должен быть объем выборки, чтобы те же границы доли бедных гарантировать с надежностью 0,997?

5. (вар.1,2,3) На уровне значимости = 0,05 проверить гипотезу о том, что средний доход работников обоих подразделений и разброс относительно среднего дохода отличаются незначимо.

5. (вар.4,5,6) На уровне значимости = 0,05 проверить гипотезу о том, что доли бедных для двух подразделений отличаются незначимо и гипотезу о том, что доля работников с низким доходом на данном предприятии составляет 15%.

6. На основании вида гистограммы выдвинуть гипотезу о виде закона распределения доходов работников предприятия и проверить ее критерием Пирсона на уровне значимости = 0,05.

Вариант 1.

Х: 8,5 19,2 23,1 15,1 10,8 19,5 15,2 28,4 12,6 20,4 18,5 32,1 16,4 25,4 30, Y: 18,5 32,1 16,7 35,6 30,4 27,8 52,4 40,8 18,5 13,6 9,4 12,1 15,7 20,1 18, Вариант 2.

Х: 30,4 17,5 15,2 18,1 23,4 24,3 52,1 32,4 10,8 33,5 20,5 15,7 12,6 14,8 20, Y: 52,1 32,4 10,8 32,5 20,5 15,7 10,2 52,1 50,4 32,4 26,4 18,1 35,2 27,2 40, Вариант 3.

Х: 10,2 52,1 50,4 32,4 26,4 18,1 14,6 16,7 26,4 26,8 50,2 13,8 10,5 14,6 12, Y: 15,7 42,3 30,5 18,5 50,2 17,5 44,6 16,7 36,4 28,6 40,2 50,3 12,4 13,8 30, Вариант 4.

Х: 8,5 15,2 18,5 30,4 52,1 10,2 18,1 20,3 15,7 14,6 19,2 20,4 32,1 17,5 32, Y: 52,1 40,7 45,1 42,3 16,7 23,1 25,2 16,4 15,2 10,8 50,4 46,2 39,7 30,5 16, Вариант 5.

Х: 15,1 28,4 35,6 18,1 33,5 32,4 35,8 40,1 18,5 16,4 10,8 12,6 30,4 23,4 20, Y: 26,4 27,1 45,2 50,2 16,8 19,5 20,4 27,8 24,3 15,7 18,1 26,4 15,8 17,5 50, Вариант 6.

Х: 32,8 31,5 12,8 16,1 25,4 40,7 42,8 14,9 38,5 36,4 39,1 40,4 18,1 20,5 40, Y: 40,2 14,3 15,8 34,5 50,7 52,1 14,8 12,3 16,7 18,2 25,1 18,2 30,5 16,7 26, Задача №2.

В университете проведен анализ успеваемости студентов по математике. Для этого случайным образом выбрано 30 студентов, отдельно 15 девушек (Д) и 15 юношей (Ю) и результаты их аттестации по системе РИТМ даны в следующих двух выборках.

Объединив обе выборки в одну:

1. Составить интервальный вариационный ряд, разбив значения варианты на интервалов.

2. Построить гистограмму, эмпирическую функцию распределения, кумуляту.

3. Найти средний бал, выборочную дисперсию и среднее квадратическое отклонение для объединенной выборки и отдельно для юношей и девушек.

4. (вар.7,8) Найти вероятность того, что средний бал в выборке отличается от среднего балла всего курса не более, чем на 0,2 (по абсолютной величине) отдельно для юношей, девушек и в объединенной выборке. Определить границы, в которых с надежностью 0,95 заключен средний балл всех студентов данного курса.

(вар.9,10) Оценить вероятность того, что доля успевающих студентов (т. е. тех, у которых балл 3) среди всех студентов курса и в объединенной выборке отличаются по абсолютной величине не более, чем на 0,01. Каков должен быть минимальный объем выборки, чтобы эта вероятность была не меньше 0,99?

5. (вар.7,8) На уровне значимости =0,05 можно ли утверждать, что успеваемость не зависит от пола? Одинаковый ли для девушек и юношей разброс вокруг среднего балла?

(вар.9,10) Можно ли утверждать с надежностью 0,95, что доли успевающих студентов и студенток совпадают и что разброс вокруг среднего балла студентов курса (без различия пола) не превышает 0,2?

6. На основании вида гистограммы выдвинуть гипотезу о виде закона распределения аттестационного балла студентов данного курса и проверить ее с помощью критерия Пирсона на уровне значимости =0,1.

Вариант 7.

Ю: 2,1 1,5 2,8 4,6 4,2 3,7 2,5 0,1 1,4 0 2,8 4,3 3,8 2,5 4, Д: 4,8 2,5 3,1 0,5 2,1 3,1 2,4 4,2 1,5 0,8 2,1 1,6 2,4 5,0 4, Вариант 8.

Ю: 2,1 4,8 3,4 2,7 1,5 2,5 4,8 4,2 2,8 3,1 2,7 3,1 4,6 0,5 3, Д: 2,1 4,2 2,1 1,5 4,5 3,7 3,1 1,2 3,0 2,5 2,4 4,3 1,8 0,1 4, Вариант 9.

Ю: 2,1 4,2 1,4 1,5 4,1 3,2 0,3 0,8 2,3 2,7 5,0 2,8 2,1 2,7 0, Д: 4,3 1,6 3,1 2,1 3,8 2,4 1,7 3,8 2,5 4,1 1,9 3,1 4,3 4,1 2, Вариант 10.

Ю: 1,5 3,1 3,1 4,5 2,8 0,5 1,5 4,5 3,7 2,4 2,8 3,9 4,5 5,0 4, Д: 4,8 4,2 3,1 2,1 1,9 2,8 0,8 1,2 3,7 4,6 2,9 3,5 4,7 4,9 1, Задача №3.

Для изучения влияния двухнедельной диеты на изменение веса спортивный клуб провел анализ по случайной выборке из 15 человек до и после диеты. Получены следующие результаты. N – номер испытуемого, Х(кг) его вес до диеты, Y(кг) – его же после диеты.

Вариант 11.

N: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 X: 85,5 92,7 79 68,6 102,5 88,3 82,7 90,5 77,5 85,3 72,5 108,7 80,3 79 90, Y: 83 90,5 77,5 68 101,1 88,1 80,1 89,2 76 85,1 69 100 75,1 71 82, Вариант 12.

N: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 X: 90,2 85,1 79,2 100,4 89 87,2 75,3 69,5 72,7 90,3 95,6 98,6 75,1 69,1 95, Y: 90 80,1 74 95,1 80,3 87 74,3 67,2 70,1 85,4 92,3 90,4 70,1 67,2 92, 1. Построить графики эмпирических функций распределения и гистограммы (разбив на 5 интервалов) веса испытуемых до диеты (Х) и потери веса (Y-X).

2. Найти средний вес и дисперсии веса испытуемых до и после диеты.

3. Определить 95% доверительные интервалы для: а) среднего веса до диеты, в) среднего веса после диеты, с) средней потери веса, d) дисперсии средней потери веса.

4. Можно ли по имеющимся данным достаточно объективно (с надежностью 0,99) оценить результаты диеты? Есть ли основание не доверять рекламному проспекту, обещающему среднюю потерю веса 3 кг?

5. Можно ли утверждать, что дисперсии среднего веса до и после диеты совпадают?

(=0,1) 6. На уровне значимости =0,1 критерием Пирсона проверить гипотезу о равномерном распределении потери веса.

Задача №4.

Для выяснения объема валюты, необходимой банку для выплаты клиентам в течение одного дня, была произведена случайная выборка в период с 1 по 20 января, где Х (1000$) сумма выплат.

Вариант 13.

Х: 5,5 8,7 9,5 10,1 6,8 9,2 8,5 8,9 6,5 5,9 7,3 10,2 9,8 8,5 8, 9,1 10,1 8,7 9,3 9, Вариант 14.

Х: 5,6 8,7 8,6 9,4 9,5 9,7 10,2 6,9 9,1 8,7 9,2 7,5 6,4 9,3 7, 10,6 9,3 10,1 8,4 6, Вариант 15.

Х: 8,9 7,8 7,6 6,9 10,5 10,1 9,2 8,5 7,6 9,2 7,5 9,2 7,5 8,5 8, 10,4 10,2 8,1 8,5 9, 1. Построить вариационный ряд СВ Х разбив на 5 интервалов.

2. Построить графики гистограммы и кумуляты СВ Х.

3. Найти средний дневной объем выплат, среднее квадратическое отклонение, моду и медиану.

4. Построить интервал для суммы выплат одного дня и интервал среднего квадратического отклонения с надежностью 0,99. Каким должен быть минимальный объем выборки, чтобы с той же надежностью гарантировать вдвое меньший интервал?

5. На уровне значимости =0,05 проверить гипотезу о том, что средний объем дневной выплаты равен 9000$ и гипотезу о том, что доля дней, когда объем выплат не больше 9000$ равна 50%.

6. Проверить с помощью критерия Пирсона на уровне значимости =0,05 гипотезу о равномерном распределении величины дневных выплат.

Задача №5.

Пусть Х– число сделок на фондовой бирже за квартал для n=400 инвесторов.

Здесь хi – число заключенных сделок, а ni – число инвесторов, заключивших такое количество сделок.

Вариант 16.

хi 0 1 2 3 4 5 6 7 8 9 ni 150 90 60 30 25 10 10 9 6 8 Вариант 17.

хi 0 1 2 3 4 5 6 7 8 9 ni 140 93 75 32 17 15 10 8 5 4 Вариант 18.

хi 0 1 2 3 4 5 6 7 8 9 ni 132 97 72 30 20 15 10 10 8 4 1. Построить полигон относительных частот, кумуляту, эмпирическую функцию распределения.

2. Найти среднее число сделок, приходящихся на одного инвестора, дисперсию этого числа, моду и медиану.

3. В каких пределах с вероятностью 0,95 можно гарантировать среднее число сделок, заключенных одним инвестором? Оценить вероятность того, что доля тех инвесторов, которые заключили не менее двух сделок в выборке отличается от той же доли для всей биржи по абсолютной величине не более, чем на 0,1.

4. На уровне значимости 0,05 проверить гипотезы: а) среднее количество сделок, заключенных одним инвестором за квартал равно двум, в) доля инвесторов, заключивших более одной сделки равна 50%.

5. С помощью критерия Пирсона на уровне значимости =0,1 проверить гипотезу о том, что закон распределения числа сделок, приходящихся на одного инвестора, является законом Пуассона (положить = ) Задача №6.

Для изучения времени безотказной работы сверлильных станков было случайным образом выбрано 100 станков. Результаты представлены в таблице:

Вариант 19.

Время 0-5 5-10 10-15 15-20 20-25 25- безотказной работы Число 66 22 6 3 2 станков Вариант 20.

Время 0-5 5-10 10-15 15-20 20-25 25- безотказной работы Число 60 20 8 6 5 станков 1. Построить гистограмму, эмпирическую функцию распределения случайной величины Т – время безотказной работы станка.

2. Найти среднее время безотказной работы, среднее квадратическое отклонение, моду и медиану.

3. Найти: а) интервалы, в котором с надежностью 95% будет заключено время безотказной работы и его среднее квадратическое отклонение, в) оценить вероятность того, что среднее время безотказной работы станков отклонится от среднего времени в выборке по абсолютной величине не более, чем на 2 часа.

4. На уровне значимости =0,1 проверить гипотезы:

а) среднее время безотказной работы равно 4 часам;

b) дисперсия Т равна 1 час2;

с) процент станков, время безотказной работы которых не меньше, чем часов, отличается незначимо от 3%.

5. Предполагая, что время безотказной работы станков имеет показательный закон распределения (в качестве оценки параметра взять ), проверить эту гипотезу критерием Пирсона с уровнем значимости =0,05.

ЛИТЕРАТУРА 1. Гмурман В. Е. Теория вероятностей и математическая статистика. –М.: «Высшая школа». 1977.

2. Гмурман В. Е. Руководство к решению задач по теории вероятностей и математической статистике. –М.: «Высшая школа». 2003.

3. Ермаков В. И. и др. Общий курс высшей математики для экономистов. –М.:

«ИНФРА-М». 2002.

4. Красс М. С., Чупрынов Б. П. Основы математики и ее приложения в экономическом образовании. –М.: «Дело». 2000.

5. Дмитрий Письменный. Конспект лекций по теории вероятностей, математической статистике и случайным процессам. –М.: «Айрисс Пресс». 2010.

6. Кремер Н. Ш. Теория вероятностей и математическая статистика. –М.: «ЮНИТИ».

Приложение Таблицы квантилей Квантили up стандартного нормального закона распределения N(1,0).

p 0,9 0,95 0,975 0,99 0,995 0,999 0, up 1,282 1,645 1,960 2,325 2,576 3,090 3, 2 (k ) закона распределения 2 (k ), Квантили p p 0,01 0,025 0,05 0,1 0,9 0,95 0,975 0, k 1 0,0002 0,001 0,004 0,0158 2,71 3,84 5,02 6, 2 0,02 0,05 0,103 0,211 4,61 5,99 7,38 9, 3 0,115 0,216 0,352 0,584 6,25 7,81 9,35 11, 4 0,297 0,484 0,711 1,06 7,78 9,49 11,1 13, 5 0,554 0,831 1,15 1,61 9,24 11,1 12,8 15, 10 2,56 3,25 3,94 4,87 16 18,3 20,5 23, 20 7,63 9,59 10,9 12,4 28,4 31,4 34,2 37, 30 14,3 16,8 18,5 20,6 40,3 43,8 47,0 50, 40 22,2 24,4 26,5 29,1 51,8 55,8 59,3 63, 50 29,7 32,4 34,8 37,7 63,2 67,5 71,4 76, 75 49,5 53 56,1 59,8 91,1 96,2 100,8 106, 100 70,1 74,2 77,9 82,4 118,5 124,3 129,6 135, Квантили tp (k) закона распределения Стьюдента Т (k), p 0,9 0,95 0,975 0,99 0, k 1 3,078 6,314 12,706 31,821 63, 2 1,886 2,92 4,303 6,965 9, 3 1,638 2,353 3,182 4,541 5, 4 1,533 2,132 2,776 3,747 4, 5 1,476 2,015 2,571 3,365 4, 10 1,372 1,812 2,228 2,764 3, 20 1,325 1,725 2,086 2,528 2, 30 1,312 1,697 2,042 2,457 2, 40 1,303 1,684 2,021 2,423 2, 120 1,289 1,658 2,98 2,358 2, Квантили F0,9 (n1,n2) закона распределения Фишера n2 1 2 3 4 5 10 15 20 30 n 1 40 8,53 5,54 4,54 4,06 3,29 3,07 2,97 2,88 2, 2 49,5 9 5,46 4,32 3,78 2,92 2,7 2,59 2,49 2, 3 53,6 9,16 5,39 4,19 3,62 2,73 2,49 2,38 2,28 2, 4 55,8 9,24 5,34 4,11 3,52 2,61 2,36 2,25 2,14 1, 30 62,2 9,46 5,17 3,82 3,17 2,16 1,87 1,74 1,61 1, Квантили F0,95 (n1,n2) закона распределения Фишера n2 1 2 3 4 5 10 15 20 30 n 1 161 18,5 10,13 7,71 6,61 4,96 4,54 4,35 4,24 3, 2 199 19 9,55 6,94 5,79 4,1 3,68 3,49 3,39 3, 3 216 19,16 9,28 6,59 5,41 3,71 3,29 3,1 2,99 2, 4 225 19,25 9,12 6,39 5,19 3,48 3,05 2,87 2,76 2, 30 250 19,46 8,62 5,75 4,5 2,7 2,25 2,04 1,84 1, ОГЛАВЛЕНИЕ 1. Введение………………………………………………………………………. 2. Статистическое распределение выборки…………………………………… 3. Полигон и гистограмма………………………………………………………. 4. Эмпирическая функция распределения…………………………………….. 5. Примеры теоретических законов распределения…………………………... 6. Статистические оценки параметров распределения……………………….. 7. Оценка генеральной средней по выборочной средней…………………….. 8. Среднее квадратическое отклонение………………………………………... 9. Оценка генеральной дисперсии по исправленной выборочной…………… 10. Статистические точечные оценки параметров основных законов распределения………………………………………………………………. 11. Метод вычисления точечных оценок параметров распределения с помощью введения условных вариант………………………………………. 12. Метод наибольшего правдоподобия для оценки точечных параметров распределения………………………………………………………………… 13. Число степеней свободы……………………………………………………... 14. Основные стандартные законы распределения, их таблицы и применение этих таблиц……………………………………………………………………. 15. Интервальные оценки………………………………………………………… 16. Проверка статистических гипотез…………………………………………… 17. Непараметрические гипотезы. Критерий Пирсона…………………………. 18. Вопросы для самопроверки…………………………………………………... 19. Варианты заданий…………………………………………………………….. 20. Литература…………………………………………………………………….. 21. Приложение…………………………………………………………………… УДК – 519. К - Кочнева Л.Ф., Липкина З.С., Новосельцева В.И. ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. Часть III. Математическая статистика: Учебное пособие. - М.: МИИТ, 2012 – 42с.

Предназначено для направления 080100.62 «Экономика», в учебных планах которого предусмотрена дисциплина «Теория вероятности и математическая статистика». Учебное пособие содержит краткое изложение основных понятий теории вероятностей, приводятся решенные примеры, задачи и индивидуальные задания для бакалавров направления «Экономика».

Рецензенты: к. ф.м. н. доцент МИИТ О.А.Платонова;

д.ф.-м.н. профессор МГУ им.М.В. Ломоносова А.Л. Шмелькин.

МИИТ, Св. план 2012г, 157поз.

Кочнева Людмила Федоровна, Липкина Зоя Семеновна, Новосельцева Вера Ивановна ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Часть III. Математическая статистика.

Учебное пособие для направления 080100.62 «Экономика»

Подписано в печати Формат 60 Х 84/ Заказ № Усл. – печ.л. – Тираж – 150 экз.



 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.