Tải bản đầy đủ (.pdf) (85 trang)

sử dụng hàm h vào thống kê nhiều chiều và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (661.98 KB, 85 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP. HỒ CHÍ MINH

Dương Thanh Phong

SỬ DỤNG HÀM H VÀO THỐNG
KÊ NHIỀU CHIỀU VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ TOÁN HỌC

Tp.Hồ Chí Minh – 2011


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP. HỒ CHÍ MINH

Dương Thanh Phong

SỬ DỤNG HÀM H VÀO THỐNG KÊ
NHIỀU CHIỀU VÀ ỨNG DỤNG

Chuyên ngành : Toán Giải Tích
Mã số : 60 46 01

LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học:
GS.TS. Đặng Đức Trọng
Tp.Hồ Chí Minh – 2011


Mục Lục


MỞ ĐẦU............................................................................................... I
LỜI CÁM ƠN ................................................................................... III
CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ ...........................................1
1.1.HÀM GAMMA 𝚪 PHứC. ...................................................................................... 1
1.2.PHÉP BIếN ĐổI MELLIN. ..................................................................................... 2
1.3. THốNG KÊ NHIềU CHIềU. ................................................................................... 3
1.3.1. Phân phối nhiều chiều. ..................................................................................... 3
1.3.2. Phân phối chuẩn nhiều chiều (Multivariate Normal Distribution). ................ 6
1.3.3.Phân phối Wishart............................................................................................. 7
1.3.4. Ước lượng tham số. .......................................................................................... 9

CHƯƠNG 2: LÝ THUYẾT HÀM H ...............................................17
2.1. ĐịNH NGHĨA. .................................................................................................. 17
2.2. TÍNH CHấT CƠ BảN CủA HÀM H. ...................................................................... 35
2.3. TÍCH VÀ Tỉ Số CÁC BIếN NGẫU NHIÊN CÓ PHÂN PHốI H . ................................... 38
2.4. CÁC TRƯờNG HợP ĐặC BIệT . ........................................................................... 42

CHƯƠNG 3: THỐNG KÊ WILKS .................................................44
3.1. THốNG KÊ WILKS SUY RộNG VÀ THốNG KÊ WILKS. ........................................ 44
3.2. TÍCH VÀ Tỉ Số CủA 2 THốNG KÊ WILKS SUY RộNG ĐộC LậP. .............................. 53
3.3. HÀM MậT Độ CủA𝚲(𝐩, 𝐧, 𝐪)𝐭, 𝐭 > 0. .............................................................. 55

CHƯƠNG 4: MỘT VÀI ỨNG DỤNG CỦA HÀM H VÀO BÀI
TOÁN TÌM HÀM MẬT ĐỘ ............................................................57
4.1. TIÊU CHUẩN KIểM ĐịNH BằNG NHAU CủA CÁC TRUNG BÌNH KHI BIếT CÁC PHÂN
PHốI CÙNG MA TRậN HIệP PHƯƠNG SAI . ................................................................. 57


4.2. TIÊU CHUẩN KIểM ĐịNH GIả THUYếT Về Sự ĐộC LậP CủA CÁC THÀNH PHầN . ...... 62
4.3. TIÊU CHUẩN KIểM ĐịNH Sự BằNG NHAU CủA CÁC HIệP PHƯƠNG SAI. ................. 68

4.4.TIÊU CHUẩN KIểM ĐịNH CÁC PHÂN PHốI LÀ CÙNG KÌ VọNG VÀ HIệP PHƯƠNG SAI.
............................................................................................................................. 74

KẾT LUẬN ........................................................................................77
TÀI LIỆU THAM KHẢO ................................................................78


MỞ ĐẦU
Năm 1961, nhà toán học Fox đã đưa ra định nghĩa về hàm H- là trường hợp tổng
quát của rất nhiều loại hàm.
Từ thời gian này cho đến nay, có rất nhiều nhà toán học đã phát triển lý thuyết về
hàm H, các phép biến đổi tích phân của hàm H (chẳng hạn, Kilbas và Saigo) và ứng dụng
của nó ( chẳng hạn, Mathai và Saxena).
Một hướng ứng dụng của lý thuyết hàm H là lĩnh vực thống kê. Đi đầu trong
hướng ứng dụng này phải nhắc đến Mathai và Saxena, trong quyển sách chuyên khảo
Generalized Hypergeometric Function with Application in Statistics and Physical
Sciences xuất bản 1973, hai ông đã sử dụng công cụ hàm H để tìm hàm mật độ của nhiều
bài toán kiểm định trong thống kê nhiều chiều. Đến năm 2010, trong quyển sách chuyên
khảo The H- Function, Theory and Applications, MaThai, Saxena và Haubold đã khái
quát nhiều cấu trúc tổng quát và biểu diễn hàm mật độ dưới dạng hàm H như tích và tỉ số
của nhiều phân phối Gamma độc lập, tích và tỉ số của các phân phối độc lập thuộc loại
Beta loại I và Beta loại II. Ngoài ra, trong năm 2008 và 2009, GS. Phạm Gia Thụ đã có
hàng loạt các bài báo về ứng dụng của hàm H trong thống kê như: Exact distribution of
the generalized Wilks’s statistic and application hay (viết cùng GS. Turkan) Testing the
equality of several covariance matrices,và Testing sphericity using small samples,….
Quan tâm đến hướng ứng dụng của hàm H vào thống kê, với đề tài Sử dụng hàm
H vào thống kê nhiều chiều và ứng dụng. Chúng tôi muốn trình bày một cách chi tiết về
một phần lý thuyết của hàm H và một số ứng dụng của hàm H vào trong thống kê, trong
đó bao gồm thống kê Wilks và bài toán tìm hàm mật độ của một số kiểm định giả thuyết
trong thống kê nhiều chiều.

Nội dung của luận văn bao gồm 4 chương:
Chương 1 là một số kiến thức liên quan về hàm Gamma, phép biến đổi Mellin và
những kiến thức cơ bản của thống kê nhiều chiều.
i


Chương 2 là lý thuyết về hàm H, trong đó chúng tôi chứng minh sự tồn tại của
hàm H dựa vào những điều kiện cho trước. Đặt biệt trong chương này sẽ chứng minh
định lý về phân phối của tích và tỉ số các phân phối độc lập có hàm mật độ dạng hàm H.
Đây có thể xem là nền tảng cho các ứng dụng của hàm H vào trong thống kê.
Chương 3, chúng tôi định nghĩa thống kê Wilks một cách tổng quát dựa vào một
loại phân phối thuộc dạng hàm H. Đây chính là định nghĩa thống kê Wilks suy rộng của
GS.Phạm Gia Thụ. Cũng như tính toán tích và tỉ số các thống kê Wilks suy rộng độc lập
trên quan điểm phân phối dạng hàm H. Trường hợp lũy thừa của thống kê Wilks cũng
được xem xét một cách tỉ mỉ để ứng dụng cho chương sau.
Chương 4 là phần ứng dụng tổng hợp của các chương 2 và 3 vào bài toán tìm hàm
mật độ của nhiều bài toán kiểm định. Nhiều kết quả trong chương này là kết quả tương
đối mới, được công bố trong các bài báo của GS. Phạm Gia Thụ năm 2008 và 2009.

ii


LỜI CÁM ƠN

Tôi xin chân thành cám ơn sự hướng dẫn
nhiệt tình và tận tụy của GS.TS Đặng Đức
Trọng. Tôi vô cùng biết ơn những lời khuyên và
lời dạy bảo của những người Thầy của tôi trong
quá trình học tập.
Tôi xin chân thành cám ơn sự chỉ dạy

của các Thầy trong khoa Toán – Tin, đại học
Sư Phạm TP.HCM. Cuối cùng, tôi xin vô cùng
cám ơn gia đình và những người thân đã tạo
mọi điều kiện tốt cho quá trình học tập của tôi
trong 2 năm qua.

iii


Chương 1: KIẾN THỨC CHUẨN BỊ

Chương 1 trình bày một số kiến thức có liên quan đến luận văn, trong đó một
phần về kiến thức giải tích bao gồm hàm Gamma, phép biến đổi Mellin. Phần còn lại
là các kiến thức về thống kê nhiều chiều mà trọng tâm là phân phối chuẩn của vector
và những kết quả về ước lượng tham số trong thống kê nhiều chiều. Những định
nghĩa, tính chất, định lý,… của chương này sẽ được sử dụng trong các chương sau.

1.1.Hàm Gamma 𝚪 phức.

Định nghĩa 1.1.



Γ(s) = � e−t t s−1 dt , Re(s) > 0.
0

Sự tồn tại của tích phân bên vế phải (1.1) được chứng minh trong [2].
Tính chất 1.2.
i) 𝛤 (1) = 1,


ii) 𝛤(𝑠) = (𝑠 − 1)𝛤 (𝑠 − 1), 𝑅𝑒(𝑠) > −1,
iii) Công thức phản xạ

iv) 𝛤 (𝑚𝑠) = (2𝜋)

1−𝑚
2

𝛤 (𝑠 )𝛤 (1 − 𝑠 ) =
1

𝜋
,
𝑠𝑖𝑛(𝜋𝑠)
1

𝑚𝑚𝑠−2 𝛤(𝑠)𝛤 �𝑠 + � … 𝛤 �𝑠 +
𝑚

v) Công thức tính thặng dư của 𝛤 (𝑠) tại các cực điểm

𝑚−1
𝑚

𝛤 (𝑠)có các cực điểm (đơn) tại 𝑠 = 0, −1, −2, −3, …,
𝑅𝑒𝑠 𝛤 (𝑧) = 𝑙𝑖𝑚 (𝑠 + 𝑘 )𝛤 (𝑠) =

𝑠=−𝑘

𝑠→−𝑘


� , 𝑚 = 1,2, …,

(−1)𝑘
, 𝑘 = 0, 1, 2, 3, …,
𝑘!

(1.1)


vi) Công thức tiệm cận tại ∞ của hàm Gamma (công thức Stirling)
1

1

𝑙𝑛𝛤 (𝑠) = �𝑠 − � 𝑙𝑛𝑠 − 𝑠 + 𝑙𝑛2𝜋 + 𝑂(𝑠 −1 ) ; |𝑎𝑟𝑔𝑠| < 𝜋, |𝑠| → ∞.
2

2

(1.2)

Với kí hiệu Landau O được định nghĩa như sau
Định nghĩa 1.3. Ta nói 𝑓 (𝑠) = 𝑂�𝑔(𝑠)�, 𝑠 → 𝑠0 nếu tồn tại hằng số M > 0 sao cho
|f(s)| ≤ M|g(s)| với |s − s0 | → 0.

1.2.Phép biến đổi Mellin.

Định nghĩa 1.4. Phép biến đổi Mellin của một hàm khả tích địa phương f(x) trên
(0, ∞) được định nghĩa là



M[f; s] = ∫0 f(x)x s−1 dx

(1.3)

khi tích phân vế phải tồn tại.

Sự tồn tại của tích phân (1.3), xem [8]
Nếu
f(x) = �

O(x −a−ε ), x → 0+
O�x −b+ε �, x → ∞

trong đó ε > 0, a < b, thì (1.3) hội tụ tuyệt đối khi a < Re(s) < b.
Miền a < Re(s) < b được gọi là dải giải tích của 𝑀[𝑓; 𝑠].

Định nghĩa 1.5. Cho phép biến đổi Mellin M[f; s] trên dải giải tích a < Re(s) < b.

Khi đó công thức

c+i∞

1
� x −s M[f; s]ds (a < c < b),
f(x) =
2πi
c−i∞


(1.4)

được gọi là công thức phép biến đổi Mellin ngược của phép biến đổi Mellin (1.3).
Ví dụ 1.6.




Γ(s) = � e−x x s−1 dx, Re(s) > 0.
0

Do đó M[e−x ; s] = Γ(s).

Định lý 1.7. Cho 𝑘 là một số thực, 𝑥 𝑘 𝑓 (𝑥), 𝑥 𝑘 𝑔(𝑥) ∈ 𝐿1 (0, ∞), đặt


𝑥 1
ℎ(𝑥) = � 𝑓 (𝑦)𝑔 � � 𝑑𝑦,
𝑦 𝑦
0

khi đó 𝑥 𝑘 ℎ(𝑥) ∈ 𝐿1 (0, ∞) và 𝑀[ℎ; 𝑠] = 𝑀[𝑓; 𝑠]𝑀[𝑔; 𝑠], với 𝑅𝑒(𝑠) = 𝑘 + 1.

1.3. Thống kê nhiều chiều.

1.3.1. Phân phối nhiều chiều.

Định nghĩa 1.8. Vector ngẫu nhiên và kì vọng của vector ngẫu nhiên.
Vector ngẫu nhiên ( random vector) p chiều là ma trận cấp p × 1 có các phần


tử là các biến ngẫu nhiên.

Cho vector ngẫu nhiên X = (X1 , X 2 , … , X p )T khi đó kì vọng (expectation)

của X ( nếu có), kí hiệu E(X) được định nghĩa như sau

T

E(X) = �E(X1 ), E(X 2 ), … , E(X p )� .

Vậy kì vọng của vector ngẫu nhiên p chiều là một vector ( không ngẫu nhiên) p
chiều.
Định nghĩa 1.9. Ma trận hiệp phương sai ( covariance matrix) của vector ngẫu nhiên

X = (X1 , X 2 , … , X p )T , kí hiệu cov(X), là ma trận cấp p × p có phần tử thứ (j, k)

là cov�Xj , X k � = E��X j − E�X j ��[X k − E(X k )] �.

Như vậy ta có cov(X) = �cov�X j , X k �� . Từ định nghĩa ta thấy 𝑐𝑜𝑣(𝑋) là ma trận
j,k

đối xứng, hơn nữa là ma trận nửa xác định dương.


Định nghĩa 1.10. Cho vector ngẫu nhiên X = (X1 , X 2 , … , X p )T và vector ngẫu nhiên

Y = (Y1 , Y2 , … , Yq )T . Ma trận hiệp phương sai của X và Y là ma trận cấp p × q, có

phần tử thứ (j, k) là cov�Xj , Yk � = E��X j − E�X j ��[Yk − E(Yk )] �, hay cov(X, Y) =


�cov�X j , Yk �� . Từ định nghĩa suy ra 𝑐𝑜𝑣 (𝑋, 𝑌) = [𝑐𝑜𝑣 (𝑌, 𝑋 )]𝑇 .
j,k

Định nghĩa 1.11. Hàm phân phối tích lũy ( cumulative distribution function) của

vector ngẫu nhiên X = (X1 , X 2 , … , X p )T là hàm p biến thực FX định bởi
p

FX �x1 , x2 , … , xp � = P ��[X j ≤ xj ]� , �x1 , x2 , … , xp � ∈ ℝp .
j=1

Với P(A) là độ đo xác suất của tập A.

Hàm phân phối tích lũy của X viết tắt là cdf của X.

Nếu FX là hàm liên tục tuyệt đối trên ℝp khi đó tồn tại hàm fX �u1 , u2 , … , up � ≥

0 sao cho

x2

xp

−∞ −∞

−∞

x1

FX �x1 , x2 , … , xp � = � � … � fX �u1 , u2 , … , up �du1 du2 , … dup .


Hàm fX được gọi là hàm mật độ xác suất đồng thời hay gọi tắt là hàm mật độ xác suất
(probability density function) của X.

Ta có ∫ℝp fX du = 1. Hàm mật độ xác suất của X viết tắt là pdf của 𝑋.

Định nghĩa 1.12. Phân phối biên ( marginal distribution) và sự độc lập.
Cho vector ngẫu nhiên X = (X1 , X 2 , … , X p )T , FX , fX tương ứng là cdf và pdf của
X. Phân phối của vector X (1) = (X1 , X 2 , … , X r )T , (r < 𝑝) được gọi là phân phối biên
X (1) của X hay phân phối biên X (1) .
Hàm số FX(1) định bởi

FX(1) (x1 , … , xr ) = P(X1 ≤ x1 , … , X r ≤ xr )


= P�X1 ≤ x1 , … , X r ≤ xr , X r+1 ≤ ∞, … , X p ≤ ∞�

= FX (x1 , … , xr , ∞, … , ∞)

gọi là hàm phân phối biên hay cdf của X (1) .

Hàm số fX(1) định bởi





−∞

−∞


fX(1) (x1 , … , xr ) = � … � fX (x1 , … , xr , ur+1 , … , uk )dur+1 … dup

gọi là hàm mật độ biên hay pdf biên X (1) .

X được gọi là có các thành phần phân phối độc lập từng đôi (mutually

independent) nếu

FX �x1 , … , xp � = FX1 (x1 ) … FXp �xp �,

với FXj �xj � là cdf của X j , j = 1, … , p.

Tập {X1 , X 2 , … , X r } được gọi là phân phối độc lập với tập �X r+1 , … , X p � nếu
FX �x1 , … , xp � = FX (x1 , … , xr , ∞, … , ∞)FX �∞, … , ∞, xr+1 , … , xp �.

Định nghĩa độc lập từng đôi và độc lập có thể định nghĩa tương tự thông qua
hàm mật độ ( nếu tồn tại hàm mật độ).
Định nghĩa 1.13. Ma trận ngẫu nhiên và kì vọng của ma trận ngẫu nhiên.
Ma trận ngẫu nhiên cấp k × m là ma trận cấp k × m có các phần tử là các biến
ngẫu nhiên.

x11
Cho ma trận ngẫu nhiên X = � ⋮
xk1
kí hiệu E(X) được định nghĩa như sau

E(x11 )
E (X ) = � ⋮
E(xk1 )










x1m
⋮ � khi đó kì vọng của X (nếu có),
xkm
E(x1m )
⋮ �
E(xkm )


Vậy kì vọng của ma trận ngẫu nhiên k × m chiều là một ma trận (không ngẫu nhiên)
k × m chiều.

1.3.2. Phân phối chuẩn nhiều chiều (Multivariate Normal Distribution).

Định nghĩa 1.14. Cho 𝜇 ∈ ℝp , Σ là ma trận xác định dương cấp p. Vector ngẫu nhiên

X – p chiều được gọi là phân phối chuẩn 𝑝 chiều, kí hiệu X~Np (µ, Σ), nếu X có hàm
mật độ

fX (x) =
Tính chất 1.15.


1
[x − µ]T Σ−1 [x − µ]�, ∀x ∈ ℝp .
�−
exp
p
1
2
(2π)2 |Σ|2
1

Cho 𝜇, 𝛴 như định nghĩa 1.14.

i) Cho 𝑋~𝑁𝑝 (𝜇, 𝛴) khi đó 𝐸 (𝑋 ) = 𝜇, 𝑐𝑜𝑣 (𝑋 ) = Σ,

ii) Cho 𝑋~𝑁𝑝 (𝜇, 𝛴), 𝐵 là ma trận cấp 𝑚 × 𝑝 có hạng m, 𝑏 là ma trận cấp 𝑚 ×
1, khi đó
𝑌 = 𝐵𝑋 + 𝑏 ~ 𝑁𝑚 (𝐵𝜇 + 𝑏, 𝐵𝛴𝐵𝑇 ),

iii) Cho 𝑋~𝑁𝑝 (𝜇, 𝛴), khi đó mọi phân phối biên s chiều của X là phân phối
chuẩn s chiều với 𝑠 < 𝑝,
iv) Cho 𝑋~𝑁𝑝 (𝜇, 𝛴), với 𝑋, 𝜇, 𝛴 được chia thành các khối
(1)
𝛴
𝜇 (1)
𝑋



𝑋 = (2) , 𝜇 = (2) �, 𝛴 = � 11
𝛴21

𝑋
𝜇

𝛴12
�,
𝛴22

với 𝑋 (1) , 𝜇 (1) có cấp 𝑠 × 1, 𝛴11 có cấp 𝑠 × 𝑠. Khi đó 𝑋 (1) độc lập với 𝑋 (2) khi và chỉ
khi 𝛴12 = 0 (ℎ𝑜ặ𝑐𝛴21 = 0),

v) Nếu 𝑋𝑗 ~𝑁𝑝 �𝜇𝑗 , 𝛴𝑗 �, 𝑗 = 1, . . , 𝑁 và 𝑋1 , 𝑋2 , . . , 𝑋𝑁 là độc lập, 𝛼1 , 𝛼2 , … , 𝛼𝑁 là
các hằng số thực, khi đó
𝑁

𝑁

𝑁

𝑗=1

𝑗=1

𝑗=1

� 𝛼𝑗 𝑋𝑗 ~𝑁𝑝 �� 𝛼𝑗 𝜇𝑗 , � 𝛼𝑗 2 𝛴𝑗 �,


vi) Nếu 𝑋𝑗 ~𝑁𝑝 (𝜇 , 𝛴 ), 𝑗 = 1, . . , 𝑁 và 𝑋1 , 𝑋2 , . . , 𝑋𝑁 là độc lập, thì
𝑁


1
1
𝑋� = � 𝑋𝑗 ~𝑁𝑝 �𝜇 , 𝛴 �,
𝑁
𝑁
𝑗=1

Vậy

vii) Phân phối điều kiện

√𝑁(𝑋� − 𝜇 )~𝑁𝑝 (0 , 𝛴 ),

Cho 𝑋~𝑁𝑝 (𝜇, 𝛴 ) với

(1)
𝛴
𝜇 (1)
𝑋 = �𝑋 (2) � , 𝜇 = � (2) � , 𝛴 = � 11
𝛴21
𝑋
𝜇

𝛴12
�,
𝛴22

với 𝑋 (1) , 𝜇 (1) có cấp 𝑠 × 1, 𝛴11 có cấp 𝑠 × 𝑠. Khi đó phân phối của 𝑋 (1) khi 𝑋 (2) =
𝑥 (2) cũng là phân phối chuẩn với kì vọng 𝐸�𝑋 (1) � = 𝜇 (1) + 𝛴12 𝛴22 −1 �𝑥 (2) − 𝜇 (2) � và
ma trận hiệp phương sai 𝐶𝑜𝑣�𝑋 (1) � = 𝛴11 − 𝛴12 𝛴22 −1 𝛴21 .

1.3.3.Phân phối Wishart.

Định nghĩa 1.16. Ma trận phân phối Wishart .
Cho n vector phân phối độc lập X1 , X 2 , . . , X n và X j ~Np (0 , Σ ), j = 1, . . , n.

Đặt A = ∑nj=1 X j X jT , khi đó ta nói A có phân phối Wishart với bậc tự do n và ma
trận hiệp phương sai Σ.
Kí hiệu A~Wp (n, Σ).

Ma trận A trong định nghĩa trên là ma trận nửa xác định dương và suy biến khi n < 𝑝,
xác định dương khi n ≥ p.

Hàm mật độ của A trong trường hợp n ≥ p
f (X ) =

n−p−1
1
1 −1
2 ,
|
|
�tr
�−
exp
Σ
X��
X
np
n
n

2
2 2 Γp ( )|Σ|2
2

trong đó X là ma trận xác định dương cấp p × p.


p

p(p−1)
n
n 1
Γp � � = π 4 � Γ � − (j − 1)�.
2
2 2
j=1

Trường hợp n < 𝑝 thì A không có hàm mật độ.
Tính chất 1.17.
i)

Cho k ma trận cấp 𝑝 × 𝑝 có phân phối độc lập 𝐴1 , 𝐴2 , … , 𝐴𝑘 với

𝐴𝑗 ~𝑊𝑝 (𝑛𝑗 , 𝛴), 𝑗 = 1, … , 𝑘. Khi đó
𝑘

𝑘

𝑗=1


𝑗=1

� 𝐴𝑗 ~𝑊𝑝 �� 𝑛𝑗 , 𝛴�,
ii) 𝑋𝑗 ~𝑁𝑝 (𝜇 , 𝛴 ), 𝑗 = 1, . . , 𝑁 và 𝑋1 , 𝑋2 , . . , 𝑋𝑁 là độc lập có trung bình 𝑋� , 𝑁 >
𝑝. Khi đó
𝑁

𝑇
𝑆 = ��𝑋𝑗 − 𝑋� ��𝑋𝑗 − 𝑋� � ~𝑊𝑝 (𝑁 − 1, 𝛴 ),
𝑗=1

iii) Cho 𝐴~𝑊𝑝 (𝑛, 𝛴 ), 𝑛 ≥ 𝑝. Khi đó
|𝐴|
|𝛴|

𝑝

2
2
2
~ ∏𝑘=1 𝜒𝑛−𝑘+1
; 𝜒𝑛2 , 𝜒𝑛−1
, … , 𝜒𝑛−𝑝+1
là độc lập,

iv) ) 𝐴~𝑊𝑝 (𝑛, 𝛴 ), 𝐵~𝑊𝑝 (𝑞, 𝛴 ), 𝑛 ≥ 𝑝, 𝐴, 𝐵 độc lập. Khi đó
Nếu 𝑞 ≥ 𝑝 thì ta có

trong đó 𝑉𝑘 ~𝐵𝑒𝑡𝑎 �


𝑝

𝑛+1−𝑘 𝑞
2

|𝐴|
~ � 𝑉𝑘 ,
|𝐴 + 𝐵|
𝑘=1

, � và 𝑉1 , 𝑉2 , … , 𝑉𝑝 là độc lập.

Nếu 𝑞 ≤ 𝑝 thì ta có

2

𝑞

|𝐴|
~ � 𝑈𝑘 ,
|𝐴 + 𝐵|
𝑘=1


trong đó 𝑈𝑘 ~𝐵𝑒𝑡𝑎 �

𝑛+𝑞−𝑝+1−𝑘 𝑝
2

1.3.4. Ước lượng tham số.


, � và 𝑈1 , 𝑈2 , … , 𝑈𝑞 là độc lập.
2

Nội dung cơ bản của bài toán ước lượng tham số
Mỗi phân phối xác suất của đại lượng ngẫu nhiên X xác định một số hằng số

đặc trưng như kì vọng, hiệp phương sai…Ngược lại, nếu ta biết loại phân phối của
đặc tính X và một số tham số của nó ta có thể tìm được phân phối của X. Chẳng hạn,

nếu ta biết X thuộc loại phân phối chuẩn, biết E(X), cov(X) thì phân phối của X hoàn
toàn xác định.

Như vậy từ mẫu quan sát (x1 , x2 , … , xn ) của một đặc tính X mà ta chưa biết

phân phối F(x), tuy nhiên ta biết loại phân phối của X phụ thuộc vào các tham số

θ1 , θ2 , … , θk . Ta có thể tìm các giá trị θ�1 , θ� 2 , … , θ� k gần đúng của θ1 , θ2 , … , θk rồi xác
định F(x, θ�1 , θ� 2 , … , θ� k ) thay cho F(x, θ1 , θ2 , … , θk ).

Định nghĩa 1.18.

Giả sử đặc tính X có phân phối chưa biết phụ thuộc vào tham số θ thuộc không

gian các tham số Θ (tập các tham số 𝜃 mà X phụ thuộc) , X có hàm mật độ f(x, θ), θ có

thể dạng vector (θ1 , θ2 , … , θk ). (x1 , x2 , … , xn ) là mẫu quan sát của X, τ(θ) là một hàm
nào đó của θ. Hàm đo được T(x1 , x2 , … , xn ) không phụ thuộc vào θ được gọi là một

hàm ước lượng (estimator) của τ(θ), hay gọi tắt là ước lượng của τ(θ).


Một ước lượng T(x1 , x2 , … , xn ) của τ(θ) được gọi là không chệch (unbiased

estimation) hay vững nếu E(T(x1 , x2 , … , xn ))= τ(θ).

1.3.4.1. Phương pháp ước lượng hợp lí cực đại ( maximal likelihood)
Phân phối thực nghiệm là một ước lượng phân phối của X. Nhưng phân phối

thực nghiệm luôn là phân phối rời rạc và có thể không thỏa mãn một số tính chất mà X

thỏa mãn, tức là không nằm trong họ các phân phối mà X rơi vào, ví dụ họ các phân

phối chuẩn…Một trong những phương pháp phổ biến nhất để ước lượng phân phối


xác suất của X bằng một phân phối xác suất trong một họ nào đó là phương pháp hợp
lí cực đại. Ý tưởng của phương pháp này là: Những gì quan sát được trong thực

nghiệm thì phải dễ xảy ra hơn không thấy, tức là xác suất xảy ra phải lớn hơn những
gì không thấy.
Phương pháp này được Ronald Fisher (1890 – 1962) đề nghị.
Nội dung cơ bản của phương pháp

Giả sử (x1 , x2 , … , xn ) là mẫu quan sát độc lập của X có phân phối phụ thuộc

vào các tham số θ1 , θ2 , … , θk . (x1 , x2 , … , xn ) có hàm mật độ đồng thời

f(x1 , x2 , … , xn , θ1 , θ2 , … , θk ).

Đặt L(x1 , x2 , … , xn , θ1 , θ2 , … , θk ) = f(x1 , x2 , … , xn , θ1 , θ2 , … , θk ), ta viết gọn là


L(θ) = f(x, θ), trong đó ta xem các x1 , x2 , … , xn là cố định còn θ1 , θ2 , … , θk là các biến
của L(θ). Hàm L(x, θ) được gọi là hàm hợp lí.

Giá trị θ� = (θ�1 , θ� 2 , … , θ� k ) làm hàm hợp lí đạt cực đại gọi là ước lượng hợp lí

cực đại của θ = (θ1 , θ2 , … , θk ).

1.3.4.2.Các ước lượng cơ bản đối với mẫu là vector phân phối chuẩn.
a) Cho X ∼ Np (μ, Σ). Và x1 , x2 , … , xN là các giá trị quan sát thực nghiệm độc
lập của X, với N > 𝑝. Trong đó μ, Σ là chưa biết, ta ước lượng μ, Σ bằng

phương pháp hợp lí cực đại.
Hàm mật độ của X là
f(x) =

Hàm hợp lí là

1

1
1
(2π)2p |Σ|2
N

L(µ, Σ) = �

1

1

exp �− (x − µ)T Σ−1 (x − µ)�.
2

1
1 exp
p
2
j=1 (2π) |Σ|2

1
T
[− �xj − µ� Σ−1 �xj − µ�]
2


N

1

1
T
��xj − µ� Σ−1 �xj − µ��.
�−
=
exp
1
1
2
(2π)2pN |Σ|2N
j=1


Do L > 0 nên ta lấy logarit 2 vế

N

1
1
1
T
ln(L) = − pNln(2π) − N ln(|Σ|) − ��xj − µ� Σ−1 �xj − µ�.
2
2
2
j=1

Do ln(L) là hàm đơn điệu tăng theo L nên nó đạt cực đại tại điểm ( µ∗ , Σ ∗ ) thì đó cũng
là cực đại của L. Đặt
N

1
x� = � xj ,
N
j=1

N

A = ��xj − x� �(xj − x�)T ,
j=1

1


x� được gọi là trung bình mẫu và A gọi là hiệp phương sai mẫu.
N

Trước khi tính cực đại của ln(L), ta xét các bổ đề sau

Bổ đề 1.19.

Cho 𝑥1 , 𝑥2 , … , 𝑥𝑁 là N vector có 𝑝 thành phần, 𝑥̅ định nghĩa như trên, khi đó

với mọi vector 𝑏 có 𝑝 thành phần ta có
𝑁

𝑁

𝑗=1

𝑗=1

��𝑥𝑗 − 𝑏�(𝑥𝑗 − 𝑏)𝑇 = ��𝑥𝑗 − 𝑥̅ �(𝑥𝑗 − 𝑥̅ )𝑇 + 𝑁(𝑥̅ − 𝑏)(𝑥̅ − 𝑏)𝑇 .

Bổ đề 1.20.

Cho 𝐷 là ma trận xác định dương cấp 𝑝 và hàm số

𝑓 (𝐺 ) = −𝑁𝑙𝑛(|𝐺 |) − 𝑡𝑟(𝐺 −1 𝐷)

xác định trên tập các ma trận xác định dương cấp 𝑝, khi đó hàm số 𝑓 đạt cực đại tại
1


𝐺 = 𝐷 và giá trị cực đại là 𝑝𝑁𝑙𝑛(𝑁) − 𝑁𝑙𝑛(|𝐷 |) − 𝑝𝑁.
𝑁


(2 bổ đề 1.19 và 1.20 được chứng minh trong [1, tr.68-69].)
Ta tìm cực đại của ln(L).
N

Đặt b = µ , áp dụng bổ đề 1.19 ta có
N

��xj − µ�(xj − µ)T = ��xj − x� �(xj − x�)T + N(x� − µ)(x� − µ)T
j=1

j=1

= A + N(x� − µ)(x� − µ)T .

Sử dụng kết quả về vết của ma trận (trace) tr(CD) = tr(DC), ta có
N

T

��xj − µ� Σ−1 �xj − µ� = tr(Σ−1 A) + [N(x� − µ)Σ −1 (x� − µ)T ].
j=1

Ta viết lại biểu thức ln(L)

1
1

1
1
ln(L) = − pNln(2π) − N ln(|Σ|) − tr(Σ −1 A) − N(x� − µ)Σ −1 (x� − µ)T .
2
2
2
2

Do Σ là ma trận xác định dương nên ma trận nghịch đảo Σ−1 cũng xác định dương, do
đó

1
− N(x� − µ)Σ −1 (x� − µ)T ≤ 0,
2

dấu ‘=’ xảy ra khi và chỉ khi x� = µ.

1

1

Để đánh giá số hạng thứ 2 và thứ 3 là − N ln(|Σ|) − tr[AΣ −1 ], ta sử dụng bổ đề
2
2
1.20.
1
1
[−N ln(|Σ|) − tr(Σ−1 A)] ≤ [pNln(N) − Nln(|A|) − pN],
2
2

1

dấu ‘=’ xảy ra khi Σ = A.
N

Do đó

max L(µ, Σ) = L(µ∗ , Σ ∗ ) =
µ,Σ

1
�−
exp
pN�.
1
1
2
(2π)2pN |Σ∗ |2N
1


Với
N

1
µ = x� = � xj ,
N


j=1


N

1
1
Σ = A = ��xj − x��(xj − x�)T .
N
N


j=1

1

Vậy ước lượng hợp lí cực đại của kì vọng µ là trung bình mẫu x� = ∑N
j=1 xj .
N

Ước lượng hợp lí cực đại của ma trận hiệp phương sai Σ là hiệp phương sai mẫu
1

N

1

A = ∑N
� �(xj − x�)T .
j=1�xj − x
N


b) Cho x1 , x2 , … , xN là các giá trị quan sát thực nghiệm độc lập, với xj ∼
Np �𝒟zj , Σ�, j = 1, … , N. Trong đó zj là vector cho trước có q thành phần, 𝒟

là ma trận cấp p × q, cả Σ, 𝒟 là chưa biết, giả sử N ≥ p + q và

rank(z1 , z2 , … , zN ) = q.

Ta ước lượng Σ, 𝒟 bằng phương pháp hợp lí cực đại.

Hàm hợp lí là

N

1
T −1
L(Σ, 𝒟) =
1
1 exp[− ��xj − 𝒟zj � Σ �xj − 𝒟zj �]
2
(2π)2pN |Σ|2N
j=1
1

Bổ đề 1.21.
Cho

𝑁

𝑁


𝑗=1

𝛼=1

𝐵 = � 𝑥𝑗 𝑧𝑗 𝑇 �� 𝑧𝑗 𝑧𝑗 𝑇 �

Khi đó với mọi 𝐹 là ma trận cấp 𝑝 × 𝑞 ta có
𝑁

𝑇

𝑁

−1

.

��𝑥𝑗 − 𝐹𝑧𝑗 ��𝑥𝑗 − 𝐹𝑧𝑗 � = ��𝑥𝑗 − 𝐵𝑧𝑗 ��𝑥𝑗 − 𝐵𝑧𝑗 �
𝑗=1

𝑗=1

𝑇


𝑁

+(𝐵 − 𝐹 ) � 𝑧𝑗 𝑧𝑗 𝑇 (𝐵 − 𝐹 )𝑇 .
𝑗=1


Bổ đề 1.22.

Nếu 𝐴, 𝐺 là các ma trận xác định dương cấp lần lượt là p và q

thì

𝑡𝑟(𝐴𝐹𝐺𝐹 𝑇 ) > 0, ∀𝐹 ≠ 0, 𝐹 là ma trận cấp 𝑝 × 𝑞.

(2 bổ đề 1.21 và 1.22 được chứng minh trong [1,tr.294-294].)

N

T
Đặt A = ∑N
j=1 zj zj , sử dụng bổ đề 1.21 ta có
N

T −1

T

tr ���xj − 𝒟zj � Σ �xj − 𝒟zj �� = tr �Σ −1 ��xj − 𝒟zj ��xj − 𝒟zj � �
j=1

N

j=1

T


= tr �Σ −1 ��xj − Bzj ��xj − Bzj � � + tr[Σ−1 (B − 𝒟)A(B − 𝒟)T ].
j=1

N

1
1
1
T
ln(L) = − pNln(2π) − N ln(|Σ|) − tr �Σ −1 ��xj − Bzj ��xj − Bzj � �
2
2
2
j=1

1
− tr[Σ−1 (B − 𝒟)A(B − 𝒟)T ].
2

Do Σ −1 , A xác định dương nên áp dụng bổ đề 1.22 ta có
dấu “=” xảy ra khi
T
∑N
j=1 xj zj .

tr[Σ−1 (B − 𝒟)A(B − 𝒟)T ] ≥ 0,

N
T
T

𝒟 = B = ∑N
j=1 xj zj �∑j=1 zj zj �

−1

= CA−1 , trong đó C =

Để ước lượng số hạng thứ 2 và thứ 3, ta sử dụng bổ đề 1.20.
N

1
1
T
− N ln(|Σ|) − tr �Σ −1 ��xj − 𝒟zj ��xj − 𝒟zj � �
2
2
j=1


N

1
1
1
T
≤ pNln(N) − Nln ����xj − 𝒟zj ��xj − 𝒟zj � �� − pN,
2
2
2
j=1


dấu “=” xảy ra khi

N

N

j=1

j=1

1
1
T
T
Σ = ��xj − 𝒟zj ��xj − 𝒟zj � = ��xj − Bzj ��xj − Bzj � .
N
N

max L(Σ, 𝒟) = L(Σ∗ , 𝒟 ∗ ) =
(Σ,𝒟)

Với
N

N

j=1

j=1


1
�−
exp
pN�.
1
1
2
(2π)2pN |Σ∗ |2N
1

−1

𝒟 ∗ = � xj zj T �� zj zj T � ,
N

1
T
Σ = ��xj − 𝒟 ∗ zj ��xj − 𝒟 ∗ zj � .
N


j=1

1.3.4.3.Tỉ số hợp lí ( likelihood ratio).
Tỉ số hợp lí được sử dụng trong bài toán kiểm định giả thiết, nó có quan hệ với
phương pháp ước lượng hợp lí cực đại.
Lý thuyết xây dựng bài toán kiểm định bằng phương pháp sử dụng tỉ số hợp lí
đã được phát triển bởi Neyman và Pearson (1928) . Xem [3],[12].
Bổ đề 1.23.


Nếu giả thuyết 𝐻1 suy ra rằng đại lượng ngẫu nhiên 𝑋 lấy giá trị 𝑥 với xác
suất 𝑓1 (𝑥), trong khi giả thuyết 𝐻2 suy ra 𝑋 lấy giá trị 𝑥 với xác suất 𝑓2 (𝑥). Khi đó
quan sát 𝑋 = 𝑥 cho ta thông tin để kết luận về giả thuyết 𝐻1 đúng là nhiều hơn giả
𝑓 (𝑥)
thuyết 𝐻2 đúng nếu 𝑓1 (𝑥) > 𝑓2 (𝑥). Và tỉ số 1 được dùng để đo mức độ mạnh của
kết luận trên.

Định nghĩa 1.24.

𝑓2 (𝑥)


Giả sử X là đại lượng có hàm mật độ fX (x, θ) với tham số θ thuộc không gian
các tham số Θ, trong đó Θ = Θ0 ⋃Θ0 c và Θ0 là tập con khác rỗng của Θ.Và
(x1 , x2 , … , xn ) là mẫu quan sát của X. Khi đó tỉ số
λ=

max L(x, θ)
θ∈Θ0

max L(x, θ)
θ∈Θ

được gọi là tỉ số hợp lí của bài toán kiểm định giả thuyết H0 : θ ∈ Θ0 với đối giả thuyết
H1 : θ ∈ Θ0 c .
Từ tính chất hàm mật độ và do Θ0 ⊂ Θ ta có 0 ≤ λ ≤ 1.

Sử dụng bổ đề 1.23 ta thấy nếu giả thuyết H0 đúng thì λ → 1, nếu λ → 0 có
nghĩa là X không có hàm mật độ fX (x, θ) với tham số θ ∈ Θ0 , và như vậy giả thuyết

H0 bị bác bỏ.

Khi H0 đúng, do λ phụ thuộc vào quan sát ngẫu nhiên (x1 , x2 , … , xn ) nên λ
cũng là đại lượng ngẫu nhiên, gọi Pλ là độ đo xác suất của λ. Bài toán kiểm định giả
thuyết H0 với độ tin cậy α sẽ bác bỏ giả thuyết H0 nếu λ < c0 với Pλ (λ < c0 ) = α.
Nếu λ có hàm mật độ fλ (x) thì xác định c0 từ phương trình
c0

Định lý 1.25.

� fλ (x) dx = α.

−∞

Cho 𝑦 là mẫu quan sát của đại lượng ngẫu nhiên có hàm mật độ 𝑓(𝑥, 𝜃), với 𝜃

là tham số thuộc không gian các tham số 𝛩. Cho 𝐻𝑎 là giả thuyết 𝜃 ∈ 𝛩𝑎 ⊂ 𝛩, cho 𝐻𝑏

là giả thuyết 𝜃 ∈ 𝛩𝑏 𝑣ớ𝑖 𝛩𝑏 ⊂ 𝛩𝑎 cho bởi 𝜃 ∈ 𝛩𝑎 , và 𝐻𝑎𝑏 là giả thuyết 𝜃 ∈ 𝛩𝑏 cho

bởi 𝜃 ∈ 𝛩. Nếu 𝜆𝑎 là tiêu chuẩn hợp lí cho kiểm định 𝐻𝑎 , 𝜆𝑏 cho kiểm định 𝐻𝑏 , 𝜆𝑎𝑏
cho kiểm định 𝐻𝑎𝑏 , các tiêu chuẩn xác định duy nhất với mẫu quan sát 𝑦, khi đó
𝜆𝑎𝑏 = 𝜆𝑎 𝜆𝑏 .


Chương 2: LÝ THUYẾT HÀM H

Nội dung chương 2 là trình bày định nghĩa về hàm H, sự tồn tại và một vài tính
chất cơ bản của hàm H. Phần cuối chương là 2 định lý quan trọng ( định lý 2.8 và 2.9 )
về tích và tỉ số các thống kê có phân phối dạng hàm H, 2 định lý này là nền tảng cơ

bản cho chương 3 và chương 4.
Hàm H được định nghĩa bằng tích phân đường với biểu thức lấy tích phân là
tích và tỉ số của các hàm Gamma. Nó được xem là hàm tổng quát của rất nhiều hàm
đặc biệt, chẳng hạn như hàm Meijer – G hay hàm siêu bội suy rộng (Generalized
Hypergeometric Function), hàm Psi 𝜓(𝑥), hàm Zeta 𝜁(𝑥), đa thức Legendre 𝑃𝑛 (𝑥),
đa thức Chebyshev 𝑇𝑛 (𝑥), đa thức Hermite 𝐻𝑛 (𝑥), …….

2.1. Định nghĩa.
Định nghĩa 2.1. Cho các số nguyên m, n, p, q thỏa 0 ≤ m ≤ q; 0 ≤ n ≤ p, các số
ak , bj ∈ ℂ; αk , βj ∈ ℝ+ = (0, ∞), k = 1, … , p, j = 1, … , q.
m
Hp

(ak , αk )1,p
����
m
n

�x


H
p
q
�bj , βj �
����
1,q

�ap , αp �
n


�x

q
�b , β �
q

q

(a1 , α1 ), (a2 , α2 ), … , �ap , αp �
n
�x


q
(b , β ), (b , β ), … , �b , β �

m
≡ Hp

1

1

2

2

q


q

n
∏m
1
j=1 Γ�bj + βj s� ∏k=1 Γ(1 − a k − αk s)
� p

x −s ds
q
2πi ∏k=n+1 Γ(ak + αk s) ∏j=m+1 Γ�1 − bj − βj s�
L



1
� h(s) x −s ds.
2πi
L

Trong đó

(2.1)


h(s) =

n
∏m
j=1 Γ�bj + βj s� ∏k=1 Γ(1 − a k − αk s)


∏pk=n+1 Γ(ak + αk s) ∏qj=m+1 Γ�1 − bj − βj s�

x ≠ 0, x −s = exp(−s[ln|x| + i arg x]).

,

(2.2)

Ta cần các điều kiện

Các cực điểm của Γ�bj + βj s�, j = 1, . . m là phân biệt với các cực điểm của
Γ(1 − ak − αk s), k = 1, . . , n.

L là đường vô hạn, tách các cực điểm của Γ�bj + βj s�, j = 1, … , m với các cực

điểm của

Γ(1 − ak − αk s), k = 1, … , n sao cho các cực điểm của Γ�bj + βj s�,

j = 1, … , m nằm về bên trái của L, các cực điểm của Γ(1 − ak − αk s), k = 1, . . , n nằm
về bên phải của L, và L là một trong các trường hợp sau

L = L−∞ là đường bắt đầu ở −∞ + iφ1 và kết thúc ở −∞ + iφ2 với

i)

−∞ < φ1 < φ2 < ∞,

L = L+∞ là đường bắt đầu ở ∞ + iφ1 và kết thúc ở ∞ + iφ2 với−∞ < φ1 <


ii)

φ2 < ∞,

L = Liγ∞ là đường bắt đầu ở γ − i∞ và kết thúc ở γ + i∞

iii)

(−∞, ∞).

với γ ∈

Ở đây ta qui ước, nếu biểu thức lấy tích là rỗng thì ta cho giá trị của biểu thức là 1.
Định lý 2.2. Sự tồn tại của hàm H.
Cho hàm H được định nghĩa trong định nghĩa 2.1.Ta kí hiệu
𝑝

𝑞

𝑎∗ = ∑𝑛𝑘=1 𝛼𝑘 − ∑𝑘=𝑛+1 𝛼𝑘 + ∑𝑚
𝑗=1 𝛽𝑗 − ∑𝑗=𝑚+1 𝛽𝑗 ,
𝑞

𝑝

∆= ∑𝑗=1 𝛽𝑗 − ∑𝑘=1 𝛼𝑘 ,
𝑞

𝑝


𝜇 = ∑𝑗=1 𝑏𝑗 − ∑𝑘=1 𝑎𝑘 +

𝑝−𝑞
2

𝑝
𝑞
𝛿 = ∏𝑘=1(𝛼𝑘 )−𝛼𝑘 ∏𝑗=1�𝛽𝑗 �

,

𝛽𝑗

(2.3)
(2.4)
(2.5)

.

(Ta qui ước tích rỗng bằng 1, tổng rỗng bằng 0)

(2.6)


×