Tải bản đầy đủ (.pptx) (41 trang)

Tìm hiểu tổng quan về phương pháp thống kê và kiểm định giả thiết

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 41 trang )

Bài tập lớn:Quá trình ngẫu nhiên và ứng dụng

ĐỀ TÀI:Tìm hiểu tổng quan về phương pháp thống kê và kiểm định giả thiết

Giáo viên hướng dẫn : PGS.TS Nguyễn Thị Hoàng Lan
Nhóm sinh viên thực hiện:







Trần Quang Đạt – 20124974
Hoàng Tùng Anh – 20124969
Nguyễn Đức Hậu – 20124977
An Mạnh Công – 20121330
Đoàn Khắc Hùng - 20121821


Phân công công việc

Hoàng Tùng Anh

Tìm hiểu các khái niệm cơ bản và hoàn thành báo cáo

Nguyễn Đức Hậu

Kiểm định kì vọng+ Bài tập

Đoàn Khắc Hùng



Phương sai và kiểm định độc lập

Hà Văn Cầu

Phân phối và kiểm định phân phối

An Mạnh Công

Likelihood radio test

Trần Quang Đạt

Ứng dụng Matlab


Phần I. Giới thiệu chung
Khái niệm cơ bản
-Quan sát các hiện tượng tự nhiên ta thấy có những hiện tượng thường
xảy ra, có những hiện tượng ít xảy ra. Xác suất là một đại lượng thể hiện
mức độ xảy ra (thường xuyên hay ít khi) của một biến cố. Trong lịch sử
Toán học đã có nhiều định nghĩa cho khái niệm xác suất
-Xác suất là một môn toán học phát triển trí óc và theo kiểu trừu tượng.
Nó là những dự đoán và suy luận cơ bản về thực tế. Thống kê dựa trên
các áp dụng lý thuyết để giải quyết các vấn đề thưc tế và nó là những dự
đoán và diễn giải cơ bản dựa trên sự theo dõi và quan sát thực tế.


-Để hiểu rõ hơn về thống kê, ta nêu các ví dụ :
Giả sử một hộp chứa 3 bi trắng và 1 bi đen. Trò

chơi đặt ra : Người tham gia chơi sẽ bốc ngẫu
nhiên một viên bi.
Sẽ nhận được 5 đô nếu bốc được bi trắng, sẽ trả
6 đô nếu bốc phải bi đen. Biết xác suất bốc mỗi
viên bi là như nhau. Có nên tham gia????

=>>Nhận xét: Trong nhiều tình huống , để đưa ra
quyết định , đánh giá hay giải quyết một vấn đề
nào đó… => ta dựa các tham số p, δ…. Lưu ý là với
BNN nào đó thì các tham số là duy nhất. => Thống
kê để ta có các thông tin về tham số.


Chúng ta bắt đầu quan sát sự kết nối giữa khái niệm
xác suất và thực tế :
p ≅ n_a/n
Xác suất p =P(a) xảy ra của một sự kiện a với một số
n_a là xác suất thành công trong n lần thử. Chúng ta
sử dụng các cách thức thử nghiệm để làm sáng tỏ sự
liên kết của tất cả các khái niệm xác suất .
-Thống kê: là số các giá trị , Giá trị của hàm không
lớn hơn 1 . Mối quan hệ đó là theo lối lặp lại các
công việc ước lượng đoạn η và một vấn đề chính
của người thống kê là mang tới cho mọi người
một kết quả chính xác nhất.


Quá trình nghiên cứu thống kê sẽ có các giai đoạn :
1.Điều tra thống kê : xây dựng các khái niệm, chỉ tiêu thống kê, xác định
vấn đề, mục đích, nội dung, đối tượng nghiên cứu.

2.Tổng hợp thống kê : xử lý số liệu
3.Phân tích thống kê: Phân tích và giải thích kết quả, dự đoán xu hướng
phát triển. Báo cáo và truyền đạt kết quả nghiên cứu
Mục đích của nghiên cứu thống kê là sẽ giải quyết các
vấn đề sau:



Vấn đề thứ nhất, chúng ta giả sử rằng giả thuyết thống kê là đúng và chúng ta muốn rằng làm
được việc dự đoán một điều gì đó trong tương lai.



Trong trường hợp thứ hai, một hay nhiều tham số , không biết gì về đối tượng mà chúng ta
ước lượng, hoặc là những giá trị đó (tham số ước lượng khác) phải chọn là , là một giá trị
hằng (lấy từ giả thuyết).


Ví dụ :chúng ta theo dõi giá trị của một RV x và chúng ta muốn có hoặc là sự đánh giá về ý
nghĩa của hoặc là thừa nhận giả thuyết rằng = 5.3. Chúng ta tung đồng xu 1000 lần và nó hiện
lên mặt ngửa 465 lần. Sử dụng thông tin đó, chúng ra sẽ có được ước lượng xác suất p xuất
hiện mặt ngửa xuất hiện ít hơn hoặc là quyết định là xác suất xảy ra hai sự hiện là bằng nhau
(theo giả thuyết).
- Chúng ta đưa ra một RV x cùng sự thống kê của nó và chúng ta muốn ước lượng giá trị của x ở
một lần thử trong tương lai. Một cách ước lượng x là quyết định chọn một hằng số c sao cho
tổng các giá trị -c là nhỏ nhất.


-Trong một số lần thử đặc biệt, RV x có thể mang một trong
nhiều giá trị. Có thể các giá trị đó ko thể nào dự đoán trước, nó

chỉ có thể ước lượng được. Vì vậy ước lượng của một RV x là
dự đoán một giá trị tiếp theo của x dựa vào giá trị của c. Nếu
chúng ta sử dụng tiêu chuẩn cho sự lựa chọn c ở mức độ nhỏ
2
nhất có thể của độ lệch sai số MS E{(x - c) }, suy ra c = E{x}.
Vấn đề là phải cân nhắc kĩ lưỡng. Một quá trình lấy rời rạc của x
là một sự quyết định hai tham số c 1 và c2:
P{ c1 < x < c2 } = γ = 1- δ
-Trên đây thì được gọi là hằng số riêng. Phương trình trạng thái trên, nếu
chúng ta dự đoán giá trị x của x ở lần thử tiếp theo thì nó sẽ nằm trong
khoảng cách (c1,c2), dự đoán của chúng ta sẽ chính xác 100. % trong
trường hợp này. Vấn đề là làm sao tìm được c 1 và c2 sao cho sự sai khác
c2 – c1 là nhỏ nhất (9 - 4).


Sự lựa chọn có hai vấn đề xung đột với nhau. Nếu gần tới1
thì dự đoán rằng x sẽ nằm trong khoảng (c1,c2) là đáng tin
cậy nhưng mà khoảng c2 – c1 quá lớn; nếu nhỏ bớt đi, c2 – c1
được giảm đi nhưng mà ước lượng là thiếu tin cậy. Giá trị
đặc trưng của là 0.9, 0.95, 0.99. Để có được sự dự đoán tối
ưu, chúng ta cần phải thêm vào một giá trị vào để chúng ta xác
định rõ c1 và c2 để cho khoảng cách c2 – c1 là nhỏ nhất để thực
hiện được (9-4). Chúng ta cần đưa ra rằng nếu như mật độ
của x một giá trị lớn nhất, c2 – c1 là nhỏ nhất nếu như . Tạo ra
c1 và c2 bằng cách thử và xác định độ lệch. Một điểm cực dễ
dàng để tìm thấy nếu như chúng ta các định rõ c1 và c2 giống
như : Mang lại c1 = và c2 = với xu là u % xuất hiện của x trong
khoảng (c1,c2) .Cách giải quyết vấn đề này là tối ưu nếu như
là đối xứng. Điều đó có nghĩa là η là giá trị trung bình bởi vì thì sẽ
đối xứng. Nếu x là chuẩn, thì xu = η + zu là tỉ lệ % chuẩn .



Ví dụ : Chúng ta tung đồng xu 100 lần và muốn dự đoán
được số lần na là mặt ngửa với γ = 0.997. Trong vấn đề
này thì n = 100 và p = 0.5. Chúng ta dự đoán, vì vậy, cùng
với hệ số 0.997 là số mặt ngửa nằm trong khoảng từ
35 tới 65. Các ví dụ trên đã làm rõ vai trò của thống kê
trong các ứng dụng xác suất để giải quyết các vấn đề
thực tế: Sự kiện được định nghĩa trong thực nghiệm
của trò chơi tung đồng xu. Nó mang lại những thông tin
rằng xác suất xảy ra không thể được sử dụng để xác
thực dự đoán về sự kiện A thi hành ở thực nghiệm sự
kiện:được khai báo ở thực nghiệm trong vòng lặp
thử nghiệm và nó là xác suất . Nếu như chúng ta có thể
gần chắcchắn rằng sẽ xảy ra ở một quá trình thực tế.
Chúng ta có sự thay đổi suy nghĩ “chủ quan” về A dựa
trên thông tin cơ bản để có thể khách quan hơn để kết
luận rằng sẽ chắc chắn chính xác, dựa trên xác suất .


II.Kiểm định kì vọng

Bài toán đặt ra:Đại lượng ngẫu nhiên X có trung bình E(X)= =

 TH1: Phương sai đã biết

 

- Chọn thống kê Z= .Nếu đúng thì Z
- Lấy mẫu cụ thể và tính giá trị quan sát k=

-Với mức ý nghĩa miền bác bỏ được xác định trong 3 trường hợp sau:


Miền bác bỏ :

So sánh giá trị k và miền bác bỏ rồi đưa ra kết luận:

 

+Nếu k ,chấp nhận và bác bỏ
+Nếu k ,bác bỏ và chấp nhận



-

TH2:Phương sai chưa biết
Chọn thống kê Z Nếu đúng thì ZT(n-1)

 

Lấy mẫu cụ thể và tính giá trị quan sát
Với mức ý nghĩa miền bác bỏ được xác định trong 3 trường hợp sau:


Miền bác bỏ :

 

(;-t(n-1;1-))  ( t(n-1;1-);


 

( t(n-1;1-);

 

(;-t(n-1;1-))

 

 

 

So sánh giá trị k và miền bác bỏ rồi đưa ra kết luận:

 

+Nếu k ,chấp nhận và bác bỏ
+Nếu k ,bác bỏ và chấp nhận


Ví dụ:Chúng ta tiến hành đo điện áp V của một nguốn điện 25 lần và có =110.12V.Kiểm tra giả thuyết
V==110V với mức ý nghĩa =0.05.Giả sử phân phối có dạng
  N(0,
-TH1 :Giả sử =0.4V.
==2
Vì k=1.5, chấp nhận
-TH2 : Giả sử chưa biết.cho s = 0.6V

k= = 1
tính được (n-1)=(25)=2.06= vì k=1(-2.06 , 2.06) , chấp nhận


Phần III. Phương sai và kiểm định độc lập


I.Kiểm định phương sai

Bài toán đặt ra

 
Đại lượng ngẫu nhiên X có phân phối N(ɳ, σ ) . Người ta đưa
ra giả thiết:
Xét 2 trường hợp:


1.1 Trường hợp 1.



Kỳ vọng ɳ đã biết. Ta sử dụng kiểm dịnh giả thiết với thống kê:

 

                 (9.69)
Nếu đúng thì q ).
Với mức ý nghĩa cho trước, xác định phân vị chuẩn . Ta tìm được miền bác bỏ:

Vì:



 



 

Lấy mẫu cụ thể và tính giá trị quan sát
So sánh q và .
Nếu

thì bác bỏ giả thuyết và chấp nhận .

Nếu

thì chấp nhận .


1.2 Trường hợp 2



Kỳ vọng ɳ chưa biết.

 

Trong trường hợp này ta vẫn chọn thống kê như trên trong đó kì vọng như trên trường hợp 1 trong đó kì vọng được thay bởi giá trị
trung bình của mẫu ngẫu nhiên .
Nếu đúng thì q ). Tương tự trên, ta có miền bác bỏ là



II.Kiểm định tính độc lập



1. Bài toán đặt ra:

 

Chúng ta kiểm định giả thiết với hai sự kiện B và C là độc lập.
Giả thiết:
H0 : P(A∩B) = P(A) P(B) ngược lại (H1: P(A∩B) ≠ P(A) P(B)).
Giả sử xác suất của hai sự kiện b = P(B) và c = P(C) đã biết. Ta áp dụng kiểm định chi bình phương để phân vùng các sự kiện :
A1 = B∩C
A3 = ∩C

A2 = B∩
A4 = ∩

Ký hiệu p01 . p02, p03, p04 lần lượt là xác suất của các sự kiện A1 ,A2 ,A3 ,A4.
Nếu H0 đúng, tức là các sự kiện Ai (i=1,4) là độc lập. Do đó:
p01 = bc

p02 = b(1-c)

p03 = (1-b)c

p04 = (1-b) (1-c)


Kết quả của kiểm định là
Chấp nhận H0 nếu <
Với ki là số xuất hiện của sự kiện Ai; ví dụ k2 là số lần B xuất hiện nhưng C thì không.


2.Ví dụ

Trong một trường đại học , tỷ lệ sinh viên năm thứ nhất là nam giới là 60 % còn tỷ lệ đó với toàn bộ sinh viên tốt nghiệp đại học là 
75%. Chọn ngẫu nhiên các hồ sơ của 299 nam và 101 nữ cùng với 168 nam và 68 nữ tốt nghiệp. 


 

 

Kiểm tra giả thuyết H0 rằng các sự kiện B={male} and C={graduate} là độc lập.
Với α=0.05 với m= 400,  p(B) = 0.6, p(C) = 0.75, p i = 0,45 0.15 0.3 0.1, ki = 168 68 131 33:
Áp dụng kiểm tra chi bình phương ta có:
q =   = 4.1
Vì X20.95(3) = 7.81 >4.1, chúng ta chấp nhận giả thiết H0.


Phần IV. Phân Phối



Trong ứng dụng này của lý thuyết kiểm định giả thuyết, giả thuyết Ho không liên
quan đến tham số, hàm phân bố F(x) của một biến ngẫu nhiên x được giả thiết
bằng một hàm F0(x).







ở đây H0 :F(x)=F0(x)

<> H1 :F(x)≠ F0(x)

Để kiểm định giả thuyết này, có 2 phương pháp
Phương pháp Kolmogoroff-Smirnov
Phương pháp Chi-Square










Phương pháp Kolmogorov-Mirnov
Phương pháp này được thực hiện bằng việc hình thành 1 quá trình ngẫu nhiên có phân phối
F*(x) để dự đoán vấn đề và sử dụng để kiểm tra số liệu thống kê cho biến ngẫu nhiên
q= maxx| F*(x)-F0(x)|
sự lựa chọn này được giả thích như sau: với mỗi tham số cụ thể , F*( x) có ước lượng phụ
thuộc vào F(x), và nó có xu hướng tiến tới F(x) khi n tiến tới vô cùng
Kì vọng E(F*(x)) =F(x)
F*(x)→F(x) khi n tiến tới vô cùng

Xét với n lớn.Biến ngẫu nhiên q có thể tiến về 0 nếu H 0 đúng và tới 1 giá trị F(x)-F 0(x)
nếu H1 đúng. Để phủ nhận giả thuyết H0 hay chấp nhận H0 ta đi so sánh q với một hằng số
c.Hằng số này phụ thuộc vào mức ý nghĩa α và phân phối của biến ngẫu nhiên q. theo giả
thuyết H0 chúng ta kiểm tra biến ngẫu nhiên q= max
|F*(x)-F(x)| với mức ý nghĩa
2 x
α =P (q>c|H0)=




1− e

−2 ne

Từ đây có thể kết luận: Hình thành các sự toán thực nghiệmF*(x) của F(x)và quyết định q từ
công thức q=maxx|F*(x)-F(x)|
Ho được chấp nhận nếu q>



ln(

α

2
2n

)







Phương pháp Chi- Squared



H0: pi=p0i với mọi i ngược lại H1: pi≠p0i với 1 vài giá trị của i dữ liệu đầu vào là số lần thử
thành công ki trong n lần thử của mỗi
m sự kiện A i. 2



Xét biến ngẫu nhiên



Biến ngẫu nhiên ki có phân nhị thức với kì vọng npi và phương sai npiqi vì thế tỉ lệ ki/n có
xu hướng tiến tới pi khi n .Kiểm tra giả thuyết bằng việc so sánh q với 1 hàng số c.






Phương pháp này sử dụng kiểm tra thống kê Pearson. Và thực hiện như sau
Đưa ra các phần vùng U=[ A 1,……..,Am] của không gian P và muốn kiểm tra giả thuyết các
xác suất pi=P(Ai)của sự kiện Ai bằng m cho hằng số poi:


q=


i =1

( ki − np0i )

np(9.75)
0i

Để tìm c, chúng ta phải xác định được phân phối của q. chúng ta sẽ đi tìm theo hướng giả
định n lớn. Với giả định như vậy , biến ngẫu nhiên k là gần với phân phối chuẩn với kì vọng
là kpi. theo giả thuyết H0, biến ngẫu nhiên q có phân phối X 2(m-1),trên thực tế, với hằng số
p0i thỏa mãn
Quan sát số lượng ki và tính toán tổng q trong (9.75) , tìm χ 21-α(m-1 )
Chấp nhận Ho nếu q< χ21-α(m-1 )

(9.76)

Phương pháp Chi-Square được sử dụng trong việc kiểm định những kiểm tra liên quan đến
thỏa thuận các mô hình lí thuyết với thực nghiệm.


×