Tải bản đầy đủ (.doc) (14 trang)

Báo cáo đề tài nghiên cứu phân phối student

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (178.14 KB, 14 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH
KHOA TOÁN – TIN HỌC
****** ******

BÁO CÁO
ĐỀ TÀI NGHIÊN CỨU

PHÂN PHỐI STUDENT

Sinh Viên Thực Hiện:
Nguyễn Thị Thảo
Lớp: Tin 2C
Giáo Viên Hướng Dẫn:
Nguyễn Chí Long

Tp Hồ Chí Minh, Tháng 01 Năm 2010

1


Mục lục

I.Giới thiệu………………………………………….trang
II.Sự thành lập…….………………………………...trang
III.Đặc trưng………………………………………...trang

2


PHÂN PHỐI STUDENT


I.Giới thiệu:
Gosset phát minh ra t-kiểm tra để xứ lý các mẫu nhỏ để kiểm soát
chất lượng trong bia. Ông viết dưới cái tên “sinh viên”.
Sinh: Ngày 13 tháng 6 năm 1876 ở Canterbury, Anh.
Mất: Ngày 16 tháng 10 năm 1937 tại Beaconsfield, Anh.
William Gosset được giáo dục tại Winchester, sau đó nhập vào New
College Oxford, nơi ông học hóa học và toán học.
Gosset thu được một bài như là một nhà hóa học trong các nhà máy
bia.Guinness tại Dublin vào năm 1899 và đã làm việc quan trọng về
thống kê.
Gosset phát hiện ra các hình thức phân phối t bởi một sự kết hợp của
toán học và kinh nghiệm làm việc với số ngẫu nhiên, một ứng dụng
đầu của phương pháp Monte-Carlo.
McMullen nói:
Để nhiều trong thế giới thống kê “sinh viên” được coi là một cố vấn
thống kê để nhà máy bia Guinness, để những người khác anh xuất
hiện là một nhà sản xuất bia dành thời gian rãnh rỗi của mình để
thống kê… mặc dù có một số sự thật trong cả những ý tưởng mà họ
3


bỏ lỡ các điểm trung tâm, được kết nối thân mật giữa các nghiên cứu
thống kê của mình và những vấn đề thực tế mà ông tham gia…”Sinh
viên” đẫ làm một số lượng rất lớn các thói quen bình thường cũng
như công tác thống kê của ông tại nhà máy bia, và tất cả, thêm vào
công tác thống kê và tư vấn để chuẩn bị giấy tờ khác nhau của ông
được xuất bản.
Từ năm 1922, ông đã nhận một trợ lý thống kê ở các nhà máy bia, và
ông đã từ từ xây dựng được một bộ phận thống kê nhỏ mà ông chạy
cho đến 1934.

Gosset chắc chắn đã không làm việc trong sự cô lập. Ông đã trao đổi
thư từ với một số lượng lớn các thống kê và ông thường viếng thăm
cha mình trong Watlington tại Anh và trên những dịp ông sẽ viếng
thăm Đại học College, London và các Rothamsted nông nghiệp
Trạm thí nghiệm. Ông sẽ thảo luận về vấn đề thống kê với Fisher,
Neyman và Pearson.
Năm 1934 Gosset đã có một tai nạn xe máy.
Trong thực tế khi bị giới hạn ngủ cho ba tháng sau vụ tai nạn, ông
đã có thể tập trung vào số liệu thống kê. Đó là một năm trước khi ông
phục hồi nhưng ông vẫn giữ lại cho một cài năm còn lại của cuộc đời.
Trong xác suất và thống kê, sinh viên của t-phân phối là một phân
phối xác suất phát sanh trong các vấn đề của các ước tính có nghĩa
của một số dân bình thường khi kích thước mẫu là nhỏ. Nó là cơ sở
của t các sinh viên phổ biến của các xét nghiệm cho các ý nghĩa
thống kê của sự khác biệt giữa hai có nghĩa là mẫu, và cho khoảng
tin cậy cho sự khác biệt giữa hai có nghĩa là dân số. Của sinh viên
phân phối là một trường hợp đặc biệt của phân phối hypebolic Quát.
Sinh viên phân phối phát sinh khi số dân độ lệch chuẩn là không rõ
và phải được ước tính từ dữ liệu. Khá thường xuyên, tuy nhiên, vấn
đề sách giáo khoa sẽ xử lý số dân độ lệch chuẩn như thế nó đã được
biết đến và do đó tránh nhu cầu sử dụng t của học sinh làm bài kiểm
tra. Những vấn đề này nói chung của hai loại: (1) những người trong
đó có kích thước mẫu là rất lớn mà mình có thể xử lý một dữ liệu
dựa trên dự toán của các phương sai sự như thế nó là nhất định, và
(2) những minh họa lý luận toán học, trong đó các vấn đề của các
4


ước tính độ lệch chuẩn là tạm thời bị bỏ qua bởi vì đó không phải là
điểm mà tác giả hoặc hướng dẫn sau đó được giải thích.

II.Sự thành lập:
Một phân phối thống kê được phát hiện bởi William S.Gosset năm
1908.Gosset làm việc tại công ty Guinness đã quy định rằng ông
không xuất bản dưới tên riêng của mình.Vì thế, ông đã viết dưới
bút danh “Student”.
+Định nghĩa: Giả sử X là biến ngẫu nhiên có phân phối chuẩn
hóa, Y là biến ngẫu nhiên độc lập với X và có phân phối Chi bình
phương n bậc tự do. Khi đó biến ngẫu nhiên:
T=

X n
Y

(1)

được gọi là phân phối Student với n bậc tự do.Kí hiệu T~Tn.
n

Các số đặc trưng E(T)=0 ( bậc tự do n>1 ); V(T)= n − 2 ( với

n>2).
Bây giờ ta đi tìm hàm mật độ của biến ngẫu nhiên T~Tn..Bởi vì
X và Y độc lập cho nên hàm mật độ đồng thời sẽ là g(x,y) =g
X(x)gY(y) với g X(x) và gY(y) lần lượt là hàm mật độc lập của
các biến ngẫu nhiên X và Y.
1

g(x,y)= 2( n +1) / 2

n

2π Γ 
2

y ( n / 2 ) −1

 − x2 −
exp  2


y



Chúng ta sẽ đi xác định hàm mật độ đồng thời f(t,
W. Bằng cách đặt W=Y và T như (1), ta có:
W = Y


X n
T =
Y


tương đương

Y = W

1

X = n T W



ω)

của T và

(2)

Jacobian của phép đổi biến từ X và Y sang T và W là:
J=

∂y ∂y
∂ω ∂t
∂x ∂x
∂ω ∂t

1

=

t
2 nω

0

ω
n

=


ω
n

Hàm mật độ xác suất đồng thời f(t, ω ) của T và W thu được từ
hàm mật độ đồng thời g(x,y) bằng cách thay x và y ở (2) và
5


nhân với J=

ω
n

.Ta tìm được f(t, ω ) v ới - ∞ < t < +∞ và

ω > 0 như

sau:
1

f(t, ω )= 2( n +1) / 2

 1
t2 
 n  ω ( n / 2 ) −1e xp − (1 + )ω 
2π Γ 
n 
 2
2


(3)

Từ (3) ta xác định hàm mật độ lề fT(t) của biến ngẫu nhiên T.


f(t)= ∫ f (t , ω )dω
0

và ta tìm được
 n + 1
Γ

2 − ( n +1) / 2
 2  1 + t 
fT(t)=
n
n 
nπ Γ  
2
Trong đó Γ là hàm Gamma


Γ( p ) = ∫ e − t t p −1dt ,

với - ∞ < t < +∞ (4)
xác định bởi:

Γ( p + 1) = pΓ( p )

0


1
3 1
Γ(1) = 1, Γ  = π ,Γ  =
π
2
2 2
Γ(k ) = (k − 1)! .Nếu p=k là số
1  1.3.5......( 2n − 1)

Γ n +  =
π
2
2n


nguyên chẵn >0

Ngoài ra fT(t) được viết dưới dạng:
 t2 
1
1 + 
fT(t)= B n , 1  n  n 


 2 2

− ( n +1) / 2

,−∞ < t < +∞


Trong đó B là hàm Beta, được định nghĩa bởi:
1

α −1
β −1
B( α , β ) = ∫ x (1 − x) dx
0

Do đó nếu T có phân phối Student với n bậc tự do thì hàm mật
độ xác suất của T là fT(t) như (4). Đồ thị của hàm mật độ có
phân phối Student được minh họa ở hình sau.Giống như phân
phối chuẩn hóa, hàm mật độ của biến ngẫu nhiên có phân phối.

6


Student đối xứng qua trục tung T=0. Đồ thị hình chuông tương
tự như đồ thị của phân phối chuẩn nhưng có đỉnh tháp hơn và
hai phần đuôi cao hơn so với đồ thị của phân phối chuẩn. Hơn
nữa là khi n càng lớn thì hàm mật độ của T, T~Tn càng giống
với hàm mật độ chuẩn hóa bởi vì:
X 2 = X 12 + ... + X n2
với Xi,(i=1…n), là các biến ngẫu nhiên độc lập cùng phân phối
p
1 . Cũng từ định
chuẩn hóa.Theo định lý luật số lớn thì X 2 / n →
lý Stutsky, thì T=

X n

x

2

F
→
X

.Vậy khi n lớn ( trong thống kê thì

n≥30 ) thì phân phối của biến ngẫu nhiên T~Tn được xấp xỉ
bằng phân phối của biến ngẫu nhiên X với X~N(0;1) thì
X
1 n 2
∑ Xi
n i =1
+∞

~t
n

D[t]= ∫ t 2 ft (t )dt = n − 2
−∞

Hàm mật độ xác suất:

7


Hàm phân bố tích:


III.Đặc tính:
Phân phối student là phân phối xác suất của tỉ lệ:

*Z là bình thường với giá trị dự kiến 0 và phương sai 1.
*V có một phân phối-chi vuông với độ v của tự do.
*Z và V được độc lập.
Trong khi, đối với bất kì µ hằng định,
là một biến ngẫu
nhiên của t noncentral-phân phối với tham số noncentrality µ.
1. Hàm mật độ xác suất:
-Phân phối student có hàm mật độ xác suất
fT(t)=

 n + 1
Γ

2 − ( n +1) / 2
 2  1 + t 
n
n 
nπ Γ  
2

với - ∞ < t < +∞

trong đó n là các mức độ tự do và Ґ là hàm Gamma.
a.Derivation:(nguồn gốc)
Giả sử X1,…,X2 là độc lập biến ngẫu nhiên đó là bình thường với
giá trị kì vọng µ và phương sai σ2 để cho

Xn=(X1+…+Xn)/n
Được các mẫu có nghĩa là, và
Sn2=1/(n-1)
Là phương sai mẫu. Có thể thấy rằng các biến ngẫu nhiên
8


(n-1)Sn2/σ2
có một phân phối-chi vuông với n-1 bậc tự do. Nó là dễ dàng cho
thấy số lượng
Phát hành bình thường với nghĩa là 0 và phương sai 1, kể từ khi
mẫu có nghĩa là Xn phát hành bình thường với nghĩa là µ và tiêu
chuẩn lỗi σ/sqrt(n). Hơn nữa, nó có thể cho thấy rằng hai biến
ngẫu nhiên-một trong những hành bình thường và chi-square-phân
phối một là độc lập. Do đó số lượng chủ chốt,
Mà khác với Z trong đó chính xác độ lệch chuẩn σ được thay thế
bởi các biến ngẫu nhiên Sn, có t của một học sinh phân phối theo
định nghĩa trên. Thông báo rằng dân số chưa biết phương sai σ2 sẽ
không xuất hện trong T, vì nó đã được cải thiện cả hai trong tử số
và denominators, do đó, nó bị hủy bỏ. Về mặt kĩ thuật, (n-1)Sn2/σ2
có một Xn-1 2 phân phối bởi định lý của Cochran. Gosset của công
việc cho T thấy có hàm mật độ xác suất:
fT(t)=

 n + 1
Γ

2 − ( n +1) / 2
 2  1 + t 
n

n 
nπ Γ  
2

với - ∞ < t < +∞

Phân phối của T bây giờ gọi là t-phân phối. Tham số n được gọi là
số lượng các mức độ tự do, phân phối phụ thuộc vào n, nhưng
không µ hoặc σ; thiếu sự phụ thuộc vào µ và σ là diieeuf làm cho
các t-phân phối quan trọng trong cả lý thuyết và thực hành.
b.Hàm phân bố tích:
Các chức năng phân bố tích lũy được cho bởi các chức năng Beta
regularized không đầy đủ,

Với

2.Confidence khoảng:
9


Giả sử số A là để lựa chọn mà
Pr(-AKhi T có t-phân phối với n-1 bậc tự do. Bởi đối xứng, đây là
giống như nói rằng một thỏa mãn
Pr( TDo do đó A là “95 percentile” này phân bố xác suất, hoặc A=t(0.05,n1)

Pr(Xn-ASn/sqrt(n)<µVì vậy mà các thiết bị đầu cuối là khoảng thời
Xn±ASn/sqrt(n)

90-là một phần trăm khoảng thời sự tự tin cho µ. Vì vậy nếu
chúng ta tìm được ý nghĩa của một tập hợp các quan sát mà chúng
tôi có thể mong đợi hợp lý để có một phân phối chuẩn, chúng tôi
có thể sử dụng t-phân phối để kiểm tra xem các giới hạn về sự tự
tin đó có nghĩa là bao gồm một số lý thuyết dự đoán giá trị-ví dụ
như giá trị dự đoán trên một giả thuyết NULL.
Nó là kết quả này được sử dụng trong t là của hoc sinh làm bài
kiểm tra: từ sự khác biệt giữa các phương tiện mẫu từ hai nhà
phân phối thông thường, các t-phân phối có thể được dùng để
kiểm tra xem sự khác biệt mà hợp lý có thể được coi là số không.
Nếu dữ liệu là bình thường, một mặt (1-a) trên sự tự tin giới
hạn(UCL) của nghĩa là, có thể được tính bằng cách sử dụng các
phương trình sau đây:
UCL1-a=Xn+ta,n-1 Sn/sqrt(n),
Kết quả là UCL sẽ là giá trị trung bình lớn nhất mà sẽ xảy ra cho
một khoảng thời gian nhất định sự tự tin và kích thước dân số. Nói
cách khác, Xn là có ý nghĩa của tập các quan sát, xác suất rằng có
ý nghĩa là phân phối là kém UCL1-một bằng một mức độ tự tin 1một.
Một số thống kê có thể được hiển thị để có t-phân phối cho các
mẫu có kích thước vừa phải theo giả thiết NULL được quan tâm,
vì vậy mà t-phân phối các hình thức cơ sở để thử nghiệm ý nghĩa
trong các tình huống khác, cũng như khi kiểm tra sự khác biệt
giữa các phương tiện. Ví dụ, việ phân phối các p xếp hạng hệ số
tương quan Spearman’s, trong trường hợp NULL(không tương
10


quan) cũng ước chừng là do việc phân phối t với kích thước
khoảng 20 mẫu ở trên.
3.Liên quan đến phân phối:

*X~t(n) có t-phân phối nếu σ2~Inn-χ2(n,1)
một nghịch đảo quy mô phân phối χ2 và X~N(0,σ2)
có một phân bố chuẩn.
*Y~F(n1=1,n2=n) có F-phân phối nếu Y=X2 và X~t(n) t có của
một sinh viên phân phối.
*Y~N(0,1) có một phân bố chuẩn như Y=limn→∞ X ở đâu X~t(n).
*X~Cauchy(0,1) có một phân bố Cauchy nếu X~t(n=1).
4.Trường hợp đặc biêt:
Một số các giá trị của n cho một hình thức đặc biệt là đơn giản.
a. n=1:
Phân phối chức năng:
F(x)=1/2+1/πarctan(x)
Mật độ chức năng:
f(x)=1/π(1+x2)
Xem Cauchy phân phối.
b. n=2:
Phân phối chức năng:
F(x)=1/2[1+x/sqrt(2+x2)]
Mật độ chức năng:
f(x)=1/(2+x2)3/2
**Định nghĩa phân vị Student): Phân vị Student mức α với n
bậc tự do, kí hiệu là tα,n là giá trị của biến ngẫu nhiên T~Tn thỏa1
mãn P(T*Sau đây là một số ví dụ:
Ví dụ1:
Cho T~T12.Tính P( T<1,989) và vì t0,975;12. Tra bảng phân vị
Student, ta có: P(T<1,989)=0,9066

P(T<2,179)=0,975 cho nên t0,975;12=2,179.
Ta nhận xét rằng, vì hàm mật độ của biến ngẫu nhiên T đối

xứng qua trục tung cho nên t = −t1−α , n . Ta sử dụng bảng phân vị
Student của biến ngẫu nhiên T~Tn.
α ,n

11


Ví dụ 2:
Cho X1, X2 phân phối N(0;1) và độc lập nhau. Đặt Y1=X1+X2
X1

và Y2= X .
2

a.Tìm hàm mật độ g của vecto ngẫu nhiên V=(V1;V2)
(hay mật độ đồng thời của X1, X2).
b.Xác định hàm mật độ lề của Y2.
Giải:
1 − x12 / 2
e
;


Theo giả thiết f1(x1)=

1 − x 22 / 2
e


f2(x2)=


Do X1,X2 độc lập nên hàm mật độ đồng thời f(x1, x2) của X1, X2
là:
1

2
1

f(x1,x2)=f1(x1).f2(x2)= 2π e − ( x
Y1 = g1 ( x1 , x2 ) = x1 + x2 

x

Y2 = g 2 ( x1 , x2 ) = 1

x2


+ x 22 )

(x1,x2∈ R)

là các hàm 1-1 nên khả nghịch
X1

Ta có: X1=X2 Y2 và Y1=X1+X2 ⇒ Y1 = X 1 + Y

2

Y1


YY
⇒ X1 =
= 1 2 ≡ g1−1 (Y1 , Y2 )
1 1 + Y2
1+
Y2

Ma trận Jacobian của phép biến đổi:
J = det J =

∂g1−1
∂y1

∂g 2−1
∂y1

−1
1

−1
2

∂g
∂y2

∂g
∂y2

=


1
1 + y2

1
1 + y2

y1
(1 + y2 ) 2

−y
(1 + y2 ) 2

=

y1
(1 + y2 ) 2

a)Gọi gv là hàm mật độ của V=(Y1,Y2)
Thì
g v ( y1 , y2 ) = f [ g ( y1 , y2 ); g ( y1 , y2 ) ] J =
−1
1

−1
2

−1

y1

 − 1 (1 + y22 ) y12 
=
exp
 2 (1 + y ) 2  y1 , y2 ∈ R
2π (1 + y2 ) 2
2



)Suy ra hàm mật độ lề g2 của y2 là:
g 2 ( y2 ) =

+∞

∫ g ( y , y )dy
v

−∞

1

2

1

=

1
( y2 ∈ R )
π (1 + y2 ) 2


Ví dụ 3:
12

y1

−1

y1

(
(
)2
2
y1
1
1
2
2 1+ y 2
e
.
e 1+ y 2 ) .
(1 + y2 ) 2



b


Kết quả thống kê về trọng lượng số bột dùng làm bánh của 14

ngày đối với một lò bánh, ta được kết quả : x =17.3 kg và σn1=4.5 kg. Hãy ước lượng trọng lượng bột trung bình ở độ tin
cậy 99%.
Giải:
Ta có n=14<30, x =17.3;σn-1=4.5.
Tra bảng phân phối Student suy ra tn-1,α=t13,0.01=3,012.
ε=3,012

4.5
14

→( x -ε; x +ε)=(136,77;209,23).

Vậy khoảng tin cậy 99% cho trọng lượng bột trung bình là:
(136,77;209,23).
Ví dụ 4:
Quan sát mức xăng hao phí của 25 xe máy thuộc cùng một loại
xe, chạy trên cùng một quãng đường, người ta thu được kết
quả:
Mức 1,9-2,1
xăng(l)
Số xe
5

2,1-2,3

2,3-2,5

9

8


2,5-2,6
3

Hãy tìm khoảng tin cậy 99% cho mức xăng hao phí trung bình
của loại xe trên.
Giải: Ta dựa trên số liệu đề bài:
Mức
xăng(l)
Số xe

2,0

2,2

2,4

2,55

5

9

8

3

Và thu được kết quả: n=25; Σx=56,65; Σx2=129,1475 nên
x=


56,65
= 2,266; σ n −1 =
25

25  129,1475

− 2,266 2  ≈ 0,18

24  25


Vì n < 30, phương sai chưa biết nên tra bảng phân phối student,
ta có:
t n −1;α = t 24; 0,01 = 2,797 → ε = 2,797

0,18
25

≈ 0,1

Suy ra khoảng tin cậy 99% cho mức xăng hao phí trung
bình là:
13


( x − ε ; x + ε ) = (2,166 lít; 2,366 lít).

Ví dụ 5:
Quan sát mức xăng hao phí của 25 xe may thuộc cùng môth
loại xe, chạy trên cùng một quãng đường , người ta thu được

kết quả:
Mức
2,0
2,2
2,4
2,55
xăng(l)
Số xe
5
9
8
3
Với mức ý nghĩa α=0,05, hãy so sánh mức xăng hao phí trung
bình của loại xe máy trên với 2,35 lít. Giả sử rằng mức xăng
hao phí tuân theo luật chuẩn.
Giải: Theo dề bài ta có:
n=25; Σx=56,65; Σx2=129,1475 nên
x=

56,65
= 2,266; σ n −1 =
25

25  129,1475

− 2,266 2  ≈ 0,18

24  25



Gọi μ là mức xăng hao phí trung bình của loại xe máy.
Ta càn kiểm định giả thiết H0 : μ=2,35
Vì n<30 phương sai chưa biết nên tra bảng phân phối student ta
có:
t n −1;α = t 24;;0,05 = 2,064 (1)
Tiêu chuản kiểm định: tqs=

2,266 − 2,35
0,18

25 ≈ 2,3 (2)

(1) & (2) → t q > t trabang → Bác giả thiết H0, mà x <2,35 , vậy ta kết
luận mức xăng hao phí trung bình của loại xe máy đang xét nhỏ
hơn 2,35 lít.

14



×