Tải bản đầy đủ (.pdf) (77 trang)

Luận văn Một số bài toán trong thống kê toán học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (586.86 KB, 77 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI

THONGCHANH VONGLATHSAMY

MỘT SỐ BÀI TOÁN
TRONG THỐNG KÊ TOÁN HỌC

LUẬN VĂN THẠC SĨ TOÁN HỌC

Hà Nội, 2015


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
———————o0o——————–

THONGCHANH VONGLATHSAMY

MỘT SỐ BÀI TOÁN
TRONG THỐNG KÊ TOÁN HỌC

Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số: 60.46.01.06
LUẬN VĂN THẠC SĨ TOÁN HỌC

Người hướng dẫn khoa học: TS. NGUYỄN HỒNG HẢI

Hà Nội, 2015



Lời cảm ơn
Tôi xin chân thành bày tỏ lòng biết ơn sâu sắc tới NCVCC. TS. NGUYỄN
HỒNG HẢI, người thầy nhiệt huyết đã truyền thụ kiến thức, đã chỉ ra hướng đề tài
và chỉ bảo tận tình, giúp đỡ tôi hoàn thành được luận văn này.
Qua luận văn này, tôi cũng muốn gửi lời cảm ơn tới gia đình, thầy cô, anh chị đồng
nghiệp và bạn bè đã luôn thông cảm, động viên giúp đỡ và tạo điều kiện cho tôi trong
quá trình làm luận văn.
Do khả năng còn hạn chế nên luận văn khó tránh khỏi những thiếu sót và khuyết
điểm. Tôi rất mong được sự đóng góp ý kiến của quý thầy cô giáo và các bạn để luận
văn được hoàn chỉnh hơn.
Tôi xin chân thành cảm ơn!
Hà Nội, tháng 10 năm 2015
Học viên

Thongchanh VONGLATHSAMY


Mục lục
Lời cảm ơn

i

Mục lục

i

Lý do chọn đề tài
1

iv


Mô hình hồi quy tuyến tính bội
1.1

1.2

1.3

1

Giới thiệu tổng quan về hồi quy tuyến tính . . . . . . . . . . . . . . . .

1

1.1.1

Mô hình hồi quy tuyến tính cổ điển . . . . . . . . . . . . . . . .

1

1.1.2

Mô hình hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . .

3

1.1.3

Hồi quy và tương quan tuyến tính bội


8

. . . . . . . . . . . . . .

Phương pháp ước lượng bình phương tối thiểu(ước lượng bình phương
nhỏ nhất) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

1.2.1

Tính chất ước lượng bằng phương pháp bình phương cực tiểu .

21

1.2.2

Định lý Gauss về ước lượng bình phương cực tiểu . . . . . . . .

23

1.2.3

Hệ số xác định R . . . . . . . . . . . . . . . . . . . . . . . . . .

24

1.2.4

Khoảng tin cậy của các hệ số hồi quy βi . . . . . . . . . . . . .


24

1.2.5

Kiểm định các giả thiết về các hệ số hồi quy . . . . . . . . . . .

31

1.2.6

Ước lượng hàm HQTT . . . . . . . . . . . . . . . . . . . . . . .

33

Giới thiệu một số tiêu chuẩn kiểm tra sự phù hợp của mô hình . . . . .

35

1.3.1

Tiêu chuẩn F . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

1.3.2

Khảo sát các phần dư . . . . . . . . . . . . . . . . . . . . . . .

37


1.3.3

Khảo sát tính đa cộng tuyến của các X1 , . . . , Xk . . . . . . . . .

43

ii


2 Phân tích các thành phần chính và Phân tích nhân tố

44

2.1

Cấu trúc của các thành phần chính . . . . . . . . . . . . . . . . . . . .

45

2.2

Các thành phần chính của các biến đã chuẩn hóa . . . . . . . . . . . .

49

2.3

Phân tích các thành phần chính dựa trên một mẫu . . . . . . . . . . .


52

2.4

Các kết luận thống kê dựa trên mẫu lớn . . . . . . . . . . . . . . . . .

55

2.5

Mô hình phân tích nhân tố trực giao . . . . . . . . . . . . . . . . . . .

58

2.6

Các phương pháp phân tích nhân tố trực giao . . . . . . . . . . . . . .

60

2.6.1

Phương pháp dựa trên phân tích thành phần chính . . . . . . .

61

2.6.2

Phương pháp hợp lý cực đại . . . . . . . . . . . . . . . . . . . .


66

Kết luận

70

Tài liệu tham khảo

71

iii


MỞ ĐẦU
Thống kế toán học là một lĩnh vực lớn và quan trọng của lý thyuết xác suất và
thống kế toán học. Nó cũng là lĩnh vực có nhiều ứng dụng trong thực tiễn. Lĩnh vực
này là một lĩnh vực khá rộng lớn, trong khuôn khổ một luận văn thạc sĩ chúng tôi chỉ
trình bày một vài kết quả và bài toán quan trọng. Cụ thể là chúng tôi trình bày về mô
hình hồi quy tuyến tính bội; phương pháp phân tích thành phần chính và phân tích
nhân tố.


Chương 1
Mô hình hồi quy tuyến tính bội
Phân tích hồi quy là một phương pháp phân tích thống kê để dự đoán các giá trị
của một hoặc một số biến phụ thuộc (biến đáp ứng) theo một tập hợp các biến độc
lập (các biến dùng để dự báo). Nó cũng được vận dụng để đánh giá hiệu quả tác động
của biến độc lập đối với biến phụ thuộc.

1.1

1.1.1

Giới thiệu tổng quan về hồi quy tuyến tính
Mô hình hồi quy tuyến tính cổ điển

Giả sử X1 , ..., Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự
báo. Ví dụ, ta giả sử Y là giá nhà ở hiện hành. Khi đó Y phụ thuộc chủ yếu vào các
yếu tố sau:
• X1 là diện tích sử dụng (m2 ),
• X2 là vị trí vùng (thành phố),
• X3 là giá của năm qua,
• X4 là chất lượng xây dựng (giá xây dựng trên một m2 ).
Sự phụ thuộc giữa biến Y theo các biến X1 , ..., Xk nói chung là rất phức tạp. Tuy
nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản. Mô hình hồi quy
tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các Xi (nghĩa là Y là

1


một biểu thức bậc nhất của X1 , ..., Xk ) và sai số ngẫu nhiên ε. Như vậy,
Y = β0 + β1 X1 + · · · + βk Xk + ε,

(1.1)

trong đó βi , i = 0 ÷ k là các hệ số chưa biết.
Bây giờ ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , · · · , Xk , Y. Giả
sử các số liệu quan sát tuân theo mô hình sau:
y1 = β0 + β1 x11 + · · · + βk x1k + ε1
y2 = β0 + β1 x21 + · · · + βk x2k + ε2


(1.2)

..................................
yn = β0 + β1 xn1 + · · · + βk xnk + εn ,
trong đó các sai số ε1 , · · · , εn thỏa mãn 3 điều kiện sau:
1) E(εj ) = 0 (việc đo đạc không chịu sai lệch hệ thống ),
2) D(εj ) = σ 2 (phương sai không đổi hay là độ chuẩn xác đo đạc như nhau)
3) cov(εi , εj ) = 0 với mọi i = j = 1 ÷ n (các sai lệch từng bước không ảnh hưởng
đến nhau)
Mô hình 1.2 có thể viết dưới dạng ma trận như sau:









y1
y2
..
.
yn





 

 
 
=
 
 
 

1 xn1 xn2







ε
β
 0   1 
 


. . . x2k   β1   ε2 
+


  ..  ,
..  
..
. .  ···   . 


 

εn
βk
. . . xnk

1 x11 x12 . . . x1k
1 x21 x22
.. ..
..
. .
.



hoặc, đơn giản hơn
Y
(n×1)

=

X

β

(n×(k+1)) (k+1×1)

2

+ ε ,

(n×1)

(1.3)


với





X=




1 x11 x12 . . . x1k
1 x21 x22 . . . x2k
.. ..
.. . .
.
. ..
. .
.
1 xn1 xn2 . . . xnk






 (được gọi là ma trận thiết kế)




Y = [y1 , y2 , . . . , yn ] ; β = [β0 , β1 , . . . , βk ] ; ε = [ε1 , ε2 , . . . , εn ] ,


1.1.2

1.

E(ε) = 0

2.

cov(ε) = (εεT ) = σ 2 In .

(1.4)

Mô hình hồi quy tuyến tính bội

1.1.2.1 Mô hình hồi quy tuyến tính với nhiều biến phụ thuộc
Nhiều lúc, cùng một bộ biến dự báo X1 , X2 , . . . , Xk ta quan tâm nhiều biến phụ
thuộc. Thí dụ cùng một lượng phân bón, giống cây trồng ta không chỉ quan tâm đến
năng suất lúa mà còn quan tâm đến cả độ bạc màu của đất. Trong phần này ta sẽ
nghiên cứu mối quan hệ tuyến tính giữa m biến phụ thuộc (biến đáp ứng) Y1 , Y2 , . . . , Ym
với cùng một bộ các biến dự báo X1 , . . . , Xk như trong mô hình dưới đây:
Y1


= β01 + β11 X1 + · · · + βk1 Xk + η1 ,

Y2

= β02 + β12 X1 + · · · + βk2 Xk + η2 ,

(1.5)

........................................
Ym = β0m + β1m X1 + · · · + βkm Xk + ηm ,
Trong đó véc-tơ sai số η = [η1 , · · · , ηm ]

có E(η) = 0, cov(η) = Σ. Như vậy

σij = cov(ηi , ηj ) có thể khác không khi i = j.
Bây giờ giả sử ta có n quan sát (xj1 , xj2 , . . . , xjk , yj1 , . . . , yjm ), j = 1 ÷ n về véc-tơ
(X1 , . . . , Xk , Y1 , . . . , Ym ). Sai số ở quan sát thứ j sẽ là εj = [εj1 , εj2 , . . . , εjm ] , trong
đó εji = yji − (β0i + β1i xj1 + · · · + βki xjk ); i = 1 ÷ m.
Giả sử Yj = [yj1 , . . . , yjm ] là quan sát thứ j về các biến đáp ứng [Y1 , . . . , Ym ] còn

3


Y(i) = [y1i , y2i , . . . , yni ] là các quan sát của biến phụ thuộc Yi ; i = 1 ÷ m. Đặt


y11 y12

. . . y1m




 y21 y22 · · · y2m
Y =

n×m
 ..................

yn1 yn2 · · · ynm


1 x11 . . . x1k


 1 x21 · · · x2k
X =

(n×k+1)
 ................

1 xn1 · · · xnk


ε11 ε12





 = [Y(1) ...Y(2) ... · · · ...Y(m) ]









β
β
. . . β0m

 01 02



 β11 β12 · · · β1m
; β

=


 (k+1×m)  . . . . . . . . . . . . . . . . . .


βk1 βk2 · · · βkm

. . . ε1m




 ε21 ε22 · · · ε2m
ε =

(n×m)
 ..................

εn1 εn2 · · · εnm














 = [ε(1) ...ε(2) ... · · · ...ε(m) ].




Khi đó mô hình hồi quy tuyến tính của các số đo được biểu diễn bởi phương trình ma
trận sau: (với chú ý rằng Y(1) , . . . , Y(m) , ε(1) , . . . , ε(m) là véc-tơ cột của ma trận Y và ε)
Y = Xβ + ε,


(1.6)

với giả thiết sau đây về ma trận sai số:
E(ε(j) ) = 0, cov(ε(i) , ε(j) ) = σij In j, i = 1, 2, . . . , m,

(1.7)

tức là với cùng thứ tự quan sát các sai số εli và εlj (i = j) có tương quan, nhưng với
thứ tự quan sát khác nhau εli , εji (l = j) không tương quan với nhau; trong đó β và
Σ = [σij ] là các ma trận của các tham số chưa biết.
1.1.2.2 Ước lượng các tham số chưa biết của mô hình
Đầu tiên ta hãy xét một mô hình riêng lẻ
Y(i) = Xβ(i) + ε(i) , i = 1 ÷ m,
4

(1.8)


với
cov(ε(i) ) = σii In .

(1.9)

Bằng phương pháp bình phương cực tiểu ta nhận được các ước lượng
β(i) = (X X)−1 X Y(i) .

(1.10)

Tập hợp các β(i) đưới dạng ma trận ta được:

. . .
.
. .
β = [β(1) ..β(2) .. · · · ..β(m) ] = (X X)−1 X [Y(1) ..Y(2) .. · · · ..Y(m) ].

(1.11)

Hay một cách gọn hơn
β = (X X)−1 X Y.
. .
.
Bây giờ ta hãy chọn ma trận các tham số là b = [b(1) ..b(2) .. · · · ..b(m) ] và xét ma trận
các phần dư Y − Xb. Khi đó
(Y− Xb) (Y − Xb) =
(Y(1) − Xb(1) ) (Y(1) − Xb(1) ) · · · (Y(1) − Xb(1) ) (Y(m) − Xb(m) )


=
···
···
···

(Y(m) − Xb(m) ) (Y(1) − Xb(1) ) · · · (Y(m) − Xb(m) ) (Y(m) − Xb(m) )








Rõ ràng khi b(i) = β(i) thì phần tử trên đường chéo chính (Y(i) − Xb(i) ) (Y(i) − Xb(i) )
trở thành cực tiểu. Vì vậy véc-tơ β sẽ cực tiểu hóa tr((Y − Xb) )(Y − Xb)). β cũng
cực tiểu hóa phương sai suy rộng |(Y − Xb) (Y − Xb)| (xem bài tập 3.6 trong [1]).
Như vậy sử dụng các ước lượng bằng phương pháp bình phương cực tiểu đối với
mỗi mô hình (1.8) ta được
Các giá trị dự báo:

Y = Xβ = X(X X)−1 X Y

Các phần dư:

ε = Y − Y = Y − X(X X)−1 X Y

(1.12)

Từ X (I − X(X X)−1 X ) = X − X = 0 ta thu được
X ε = 0,

Y ε = 0,

5

(1.13)


và khai triển
Y Y = (Y + ε) (Y + ε) = Y Y + ε ε.

(1.14)


ε ε = Y Y − Y Y = Y Y − β X Xβ.

(1.15)

Từ đó, ta cũng có

Ví dụ 1.1.1. Để minh họa việc tính β, Y , ε ta hãy xét hệ hai mô hình tuyến tính:
yj1 = β01 + β11 xj1 + εj1
yj2 = β02 + β12 xj1 + εj2 , j = 1, 2, . . . , 5.
Với số liệu được cho trong bảng dưới đây:
xj1

0

1

2 3 4

yj1

1

4

3 8 9

yj2 −1 −1 2 3 2


X =


1 1 1 1 1
0 1 2 3 4





 ; (X X) = 

5

10

10 30





 ; (X X)−1 = 



1

0.6

−0.2


−0.2

0.1



 



 4  


1 1 1 1 1  
25

 3  = 
=


0 1 2 3 4  
70
 8 
 
9


X Y(1)

Vậy


β(1) = (X X)−1 X Y(1) = 

0.6
−0.2

6

−0.2
0.1




25
70





=

1
2






,




X Y(2)



−1




  −1 

 


5
1 1 1 1 1 

  −2 
=
=

20
0 1 2 3 4 



 3 


2


β(2) = 

0.6

−0.2

−0.2

0.1





.
β = [β(1) ..β(2) ] = 


1 0



5
20




=

5 −1
2

1



−1

1 −1









1 −1

 

 


 4 −1   3
 

 

ε=Y−Y = 3 2 − 5
 

 

 8 3   7
 

9 2
9




1

1 −1









 3
 1 1 
 1 −1




=
Y = Xβ =  1 2 
 5
 2 1





 7
 1 3 



9
1 4













0 


1 


2 

3
0

0




 

 
0   1 −1 

 

 
1  =  −2 1 


 

 
2   1
1 

 
0 −1
3


0
0




  1 −1 

 


0 1 −2 1 0
6 −2



ε ε=
 −2 1  = 



0 −1 1 1 −1 
−2 4

 1
1 


0 −1
. . .
Mệnh đề 1.1.2. Ước lượng β = [β(1) ..β(2) .. · · · ..β(m) ] xác định bởi (1.9) và (1.10) có tính

7


chất sau:
E(β(i) ) = β(i) (hoặc tương đương) E(β) = β),

(1.16)

cov(β(i) , β(j) ) = σij (X X)−1 .
. . .
Phần dư ε = [ε(i) ..ε(2) .. . . . ..ε(m) ] = Y − Xβ thỏa mãn điều kiện sau:
E(ε(i) ) = 0

(1.17)

E(ε(i) , ε(j) ) = (n − k − 1)σij ,
tức là,

E

1
ε ε
n−k−1



(1.18)

và ε không tương quan với β.
Mệnh đề này được công nhận và chúng ta không chứng minh ở đây(xem[1]).
Các phân tích tiếp theo có thể thực hiện giống như khi xét các mô hình riêng lẻ
(1.8).

1.1.3

Hồi quy và tương quan tuyến tính bội

1. Dự báo với một biến phụ thuộc
Khác với phần trước, trong phần này ta xét cả biến đáp ứng Y và các biến giải
thích X = (X1 , . . . , Xk )

đều là các biến ngẫu nhiên. Thí dụ năng suất lúa sẽ phụ

thuộc nhiều vào các yếu tố của khí tượng như lượng mưa, nhiệt độ,. . . Các yếu tố này
là các biến ngẫu nhiên. Giả sử véc-tơ trung bình của (Y, X1 , . . . , Xk ) là µ và ma trận
hiệp phương sai là Σ. Ta đưa vào ký hiệu sau:
µY = E(Y ), µX = E(X) = (EX1 , . . . , EXk ) ,
ΣY Y = var(Y ); ΣXX = var(X),

ΣY X = cov(Y, X); ΣXY = cov(X, Y ) = Σ

8

Y X.


Khi đó ta có phân chia các ma trận sau


µ
 Y

µ =  ...

µX





..
. ΣY X

Σ

 YY


,Σ =  .............



.
ΣXY .. ΣXX




.


Giả thiết rằng rank(ΣXX ) = k. Xét bài toán dự báo tuyến tính biến Y theo X:

Y = b0 + b1 X1 + · · · + bk Xk = b0 + b X.

(1.19)

ε = Y − Y = Y − b0 − b X.

(1.20)

Sai số của dự báo là

Sai số bình phương trung bình là
E(ε2 ) = E(Y − b0 − b X)2

(1.21)

Ta muốn tìm các hệ số b0 , b1 , . . . , bk sao cho (1.21) đạt giá trị bé nhất.
Mệnh đề 1.1.3. E(ε2 ) đạt cực tiểu khi

b = β := Σ−1
XX ΣXY , b0 = β0 = µY − β µX .

(1.22)

Còn sai số bình phương trung bình cực tiểu là
E(ε2 ) = E(Y − β0 − β X)2 = ΣY Y − ΣXY Σ−1
XX ΣXY

(1.23)

= ΣY Y − ΣXY β.
Chứng minh.
2

E(ε2 ) = E{(Y − µY ) − b (X − µX ) − (b0 − µY + b µX )}

= E{(Y − µY )2 + b ΣXX b − 2b ΣXY + (b0 − µY − b µX )}

9

2


Nếu thêm vào và bớt đi lượng ΣXY Σ−1
XX ΣXY ta được
−1
E(ε2 ) = ΣY Y + b ΣXX b − 2b ΣXY + ΣXY Σ−1
XX ΣXY − ΣXY ΣXY ΣXY +


+(b0 − µY + b µX )2 = ΣY Y − ΣXY Σ−1
XX ΣXY +
−1
2
+(b − Σ−1
XX ΣXY ) Σ(b − ΣXX ΣXY ) + (b0 − µY + b µX ) .
2
E(ε2 ) sẽ đạt cực tiểu khi b = Σ−1
XX ΣXY và b0 = µY − b µX và giá trị cực tiểu của E(ε )

được cho bởi (1.23). Bây giờ ta hãy xét
cov(Y, β0 + β X) = E(Y − βY )(β [X − µX ])
= β ΣXY = ΣXY Σ−1
XX ΣXY .
(1×k) (k×k) (k×1)

Ta có
D(β0 + β X) = D(β X) = β var(X)β = β ΣXX β = ΣXY Σ−1
XX ΣXY .
Mệnh đề được chứng minh.
Đặt
Y = β0 + βX
Ta thấy hệ số tương quan của Y và Y sẽ là

ρY,Y = ρY,X

ΣXY Σ−1
ΣXY Σ−1
XX ΣXY
XX ΣXY

=
=
−1
1/2
ΣY Y
(ΣY Y ΣXY ΣXX ΣXY )

1/2

(1.24)

ρY,X được gọi là hệ số tương quan tuyến tính bội giữa Y và X. Chú ý rằng ta luôn có
0 ≤ ρY,X ≤ 1. Từ (1.23) ta có
E(ε2 ) = ΣY Y (1 − ρ2Y,X ) = D(Y )(1 − ρ2Y,X ).

(1.25)

Rõ rằng nếu ρY,X = 0 ta có E(ε2 ) = D(Y ) ⇔ Y = E(Y ) = µY không phụ thuộc vào
X. Nhưng nếu ρY,X = 1 thì E(ε2 ) = 0 hoặc ε = Y − Y = o hầu chắc chắn, tức là
10


Y = β0 + β X h.c.c. Vậy
Y = β0 + β X ⇐⇒ |ρY,X | = 1.
Sự kiện này rất quan trọng khi xem Y có biểu diễn tuyến tính qua X được hay không.
Phưưng trình Y = β0 + βX được gọi là phương trình hồi quy tuyến tính (lý thuyết)
của Y theo X.
Ví dụ 1.1.4. Cho Y, X1 , X2 có ma trận giá trị trung bình và hiệp phương sai như sau





µ
 Y

µ =  ...

µX



5








Σ
. . . ΣY X

 YY
 


  ... 
,Σ =  ...............
=


  2 



ΣXY . . . ΣXX
0



.
10 .. 1 −1


 
.............
 
=

  1 ... 7 3

.
−1 .. 3 2





.





Hãy xác định phương trình HQTT của Y theo X1 , X2 và sai số bình phương trung
bình E(ε)2 và hệ số tương quan tuyến tính bội ρY,X .
Ta có

β=

7 3
1 1

−1 




1
−1





=

0.4
−0.6

−0.6

1.4


β0 = 5 − [1 − 2] 




2
0

1
−1





=

1
−2


 = 3.

Vậy phương trình HQTT là
Y = 3 + X1 − 2X2

E(ε)2 = 10 − [1; −1] 


ρY,X =

1
−2


 = 10 − 3 = 7

ΣXY Σ−1
XX ΣXY
=
ΣY Y
11

3
= 0.548.
10





=

β1
β2






Nhận xét 1.1.5. Giả thiết rằng Y, X1 , . . . , Xk có phân bố đồng thời chuẩn Nk+1 (µ, Σ).
Khi đó có thể chứng minh rằng phân bố có điều kiện của Y khi X1 = x1 , . . . , Xk = xk
đã cho chính là phân bố chuẩn N (Y , E(ε)2 ) với
Y = β0 + β1 x1 + · · · + βk xk
= µY + β1 (x1 − µ1 ) + · · · + βk (xk − µk ).
Còn E(ε)2 được cho bởi (1.23). hoặc (1.25)
Hơn nữa người ta cũng chứng minh được rằng E(Y |X1 , . . . , Xk ) là dự báo với phương
sai cực tiểu của Y theo X. Như vậy khi (Y, X1 , . . . , Xk ) có phân bố chuẩn đồng thời thì
dự báo tốt nhất của Y theo X là dự báo tuyến tính Y = β0 + β X.
Bây giờ ta chuyển sang nghiên cứu bài toán ước lượng theo mẫu. Giả sử (yj , xj1 , . . . , xjk ),
j = 1 ÷ n là n quan sát độc lập của Y, X1 , X2 , . . . , Xk .
Mệnh đề 1.1.6. Giả sử Y, X1 , . . . , Xk có phân bố đồng thời chuẩn Nk+1 (µ, Σ).
Đặt





µ =  ...







..
. SY X


S
 YY



 và S =  . . . . . . . . . . . . .


.
SY Y .. SXX







(1.26)

là véc-tơ trung bình mẫu và ma trận hiệp phương sai mẫu (đồng thời là các ước lượng
hợp lý cực đại của µ và Σ).
Khi đó các ước lượng hợp lý cực đại của các hệ số hồi quy β0 , β1 , . . . , βk ; σ 2 = E(ε2 )
chính là
−1
β = (β1 , β2 , . . . , βk ) = SXY SXX

β0 = y¯ − β1 x¯1 − · · · − βk x¯k = y¯ − β x¯;
n
−1

σ2 =
(SY Y − SXY SXX
SXY ).
n−k−1

(1.27)

y = β0 + β x = β0 + β1 x1 + · · · + βk xk ,

(1.28)

Phương trình

(được gọi là phương trình HQTT mẫu) chính là ước lượng hợp lý cực đại của hàm hồi
12


quy lý thuyết Y˜ = β0 + β x.
Chứng minh. Do tính bất biến của ước lượng cực đại, tức là nếu µ, S là ước lượng
hợp lý cực đại của µ và Σ thì h(µ, S) cũng sẽ là ước lượng hợp lý cực đại của hàm
h(µ, Σ).
Ví dụ 1.1.7. Cho n = 7 và các giá trị của mẫu được tính ra như sau







150.44




 

  ......
µ =  ...  = 

 
 130.24


3.547

.
467.913 .. 418.763 35.983




 
...........................
 
=

  418.763 ... 377.2 28.034

.
35.983 .. 28.034 13.657














.

SY Y .. SY X



;S = 
 .............



.

SY Y .. SY X





Khi đó

−1
β = SXX
SXY = 

0.03128

−0.006422




−0.006422

418.763





=

0.086404
35.983


130.24
 = 8.421
β0 = y¯ − β x¯ = 150.44 − [1.079; 0.42] 

3.547

1.079
0.42




y = β0 + β x = 1.08x1 + 0.42x2 .
Và ước lượng không chệch của E(ε)2 = σ 2 .
n
−1
(SY Y − SXY SXX
SXY )
n−k−1
7
= (467.913 − [418.763; 35.983][1.079; 0.42] )
4

σ2 =

= 1.671.
2. Dự báo nhiều biến phụ thuộc.
Giả sử chúng ta muốn dự báo m biến đáp ứng Y1 , . . . , Ym theo k biến độc lập
X1 , . . . , Xk . Giả thiết các biến độc lập này có thể ngẫu nhiên. Đặt Y = [Y1 , . . . , Ym ] , X =

13


[X1 , . . . , Xk ] với giá trị trung bình µ và ma trận hiệp phương sai cov(Y, X) có dạng



E(Y )



µ= .....

E(X)





µY

 
 
 =  ...
 
µX





..
. ΣY X

ΣY Y






 , và Σ = cov(Y, X) =  . . . . . . . . . . . . .


.
ΣXY .. ΣXX




.


Khi đó tất cả các công thức trong mệnh đề 1.1.3 và 1.1.6 vẫn còn hiệu lực nếu ta
hiểu dự báo tuyến tính tối ưu (lý thuyết) là






Y
 1  

 
 Y2  

=
Y =

 
 ...  

 
Ym

β10 + β11 X1 + · · · + β1k Xk





β20 + β21 X1 + · · · + β2k Xk 
 = β0 + β X,

......................................... 

βm0 + βm1 X1 + · · · + βmk Xk

(1.29)

trong đó




β

 10 


 β20 

β0 = 


 .... 


βm0



β11 β21 . . . βm1



; β =  ..................

β1k β2k . . . βmk






(k×m)


(m×1)

Còn sai số
ε = Y − Y = Y − β0 − β X = Y − µY − ΣXY Σ−1
XX (X − µX ),

(1.30)

có ma trận phương sai là
cov(ε, ε) = ΣY Y − ΣXY Σ−1
XX ΣXY .
Ta đưa vào khái niệm hệ số tương quan riêng. Xét cặp sai số
ε1 = Y1 − µY1 − ΣY1 X Σ−1
XX (X − µX ),
ε2 = Y2 − µY2 − ΣY2 X Σ−1
XX (X − µX ),

14

(1.31)


nhận được khi sử dụng dự báo tuyến tính tốt nhất lần lượt của Y1 và Y2 theo X. Mối
quan hệ giữa ε1 , ε2 được xác định bởi ma trận phương sai của sai số ΣY Y −ΣXY Σ−1
XX ΣXY
và hệ số tương quan giữa ε1 , ε2 . Mối quan hệ này, đặc trưng cho sự liên kết giữa Y1 và
Y2 sau khi đã loại đi ảnh hưởng của véc-tơ X, được gọi là hệ số tương quan riêng giữa
Y1 và Y2 và được ký hiệu ρY1 Y2 .X . Theo định nghĩa
ρY1 Y2 .X =


cov(ε1 , ε2 )
1

[D(ε1 )D(ε2 )] 2

.

(1.32)

Nếu đặt
ΣY Y.X = ΣY Y − ΣXY Σ−1
XX ΣXY cấp m × m

(1.33)

với các phần tử là ΣYi Yj .X thì
ρY1 Y2 .X =

ΣY1 Y2 .X
1

(1.34)

1

(1.35)

(ΣY1 Y1 .X ΣY2 Y2 .X ) 2

Tương tự ta có hệ số tương quan riêng mẫu

rY1 ,Y2 ,X =

SY1 Y2 .X
(SY1 Y1 .X SY2 Y2 .X ) 2

Ta cũng có các kết quả tương tự về ước lượng hợp lý cực đại cho trường hợp hồi quy
tuyến tính với m biến phụ thuộc Y1 , . . . , Ym .
Ví dụ 1.1.8. Giả sử ta có véc-tơ trung bình mẫu và ma trận hiệp phương sai mẫu của
véc-tơ biến phụ thuộc [Y1 , Y2 ] và biến độc lập [X1 , X2 ]




150.44




 327.79 


 


 

µ =  ...  =  ... 


 



 130.24 



3.547




15


.
467.913 1148.556 .. 418.763 35.983


.
.

 1148.556 3072.491 .. 1008.976 140.558
SY Y .. SY X
 
 
.............  =  .........................................
 

..
.

 418.763 1008.976 .. 377.200 28.034
SXY . SXX

.
35.983
140.558 .. 28.034
13.657





S=














Khi đó với giả thiết về phân bố chuẩn của [Y1 , Y2 , X1 , X2 ] ước lượng hợp lý cực đại
của hàm hồi quy tuyến tính là
−1

(X − x¯) := y =
β0 + β X = y¯ − SXY SXX


=

150.44
327.79

 
−

418.763

35.983



0.03128

−0.006422





x1 − 130.24




1008.976 140.558
−0.006422 0.086404
x2 − 3.547

 

150.44
1.079(x1 − 130.24) + 0.420(x2 − 3.547)
+

=
327.79
2.254(x1 − 130.24) + 5.665(x2 − 3.547)

Như vậy
y1 = 150.44 + 1.079(x1 − 130.24) + 0.420(x2 − 3.547)
= 8.42 + 1.08x1 + 0.42x2 .
Tương tự
y2 = 14.14 + 2.25x1 + 5.67x2 .
Ước lượng hợp lý cực đại của ma trận sai số bình phương trung bình là

−1
SY Y − SXY SXX
SXY = 

467.913

1148.556





1148.556 3072.491




418.763 35.983
0.03128 −0.006422
418.763 1008.976



−
1008.976 140.558
−0.006422 0.086404
35.983 140.558


1.043 1.042

=
1.042 2.572
16


=


Còn

rY1 Y2 ,X =

1.2

SY1 Y2 .X
(SY1 Y1 .X .SY2 Y2 .X )

1
2

=

1.042
1

(1.043 × 2.572) 2

= 0.64.

Phương pháp ước lượng bình phương tối thiểu(ước
lượng bình phương nhỏ nhất)

Một bài toán trước tiên đặt ra là hãy dựa trên ma trận X và véc-tơ Y của các giá
trị quan sát hãy ước lượng véc-tơ tham số β và σ 2 .
Nếu chúng ta sử dụng b là giá trị thử của β thì giữa các quan sát yj và b1 xj1 + · · · +
bk xjk sẽ bị một độ lệch
yj − b0 − (b1 xj1 + b2 xj2 + · · · + bk xjk ).
Nói chung độ lệch này sẽ khác không.
Phương pháp ước lượng bình phương tối thiểu là hãy chọn giá trị của véc-tơ b sao
cho

n

(yj − b0 − b1 xj1 − · · · − bk xjk )2

S(b) =
j=1

= (Y − Xb) (Y − Xb) −→ min.

(1.36)

Đại lượng β làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương cực
tiểu của β, còn
εj = yj − (β0 + β1 xj1 + · · · + βk xjk ), j = 1 ÷ n

(1.37)

gọi là các phần dư của phép hồi quy. Trong trường hợp này, vì biểu thức theo X1 , . . . , Xk
là tuyến tính, nên phương trình
Y = β0 + β1 X1 + · · · + βk Xk
được gọi là phương trình hồi quy tuyến tính mẫu.
17

(1.38)


Ta có kết quả sau: Đặt
yj = β0 + β1 xj1 + · · · + βk xjk

(1.39)


Y = (y1 , . . . , yn ) .
Mệnh đề 1.2.1. Nếu ma trận thiết kế X không ngẫu mhiên có dạng k + 1 ≤ n thì ước
lượng bình phương cực tiểu có dạng:
β = (X X)−1 X Y.

(1.40)

Y = Xβ = X(X X)−1 Y = HY,

(1.41)

H = X(X X)−1 X cấp (n × n)

(1.42)

ε = Y − Y = (In − H)Y,

(1.43)

X ε = 0 và Y ε = 0, (β X ε = 0).

(1.44)

Khi đó

trong đó,

thỏa mãn


Tổng các phần dư
n

ε2j = ε ε = Y Y − Y Xβ.

(1.45)

j=1

Chứng minh. Vì phiếm hàm S(b) là hàm bậc 2 theo b nên dễ thấy β có thể tìm được
từ hệ phương trình sau:
∂S
= 0, i = 0 ÷ k.
∂bi

18


Hoặc tương đương,
∂S
= −2
∂b0
∂S
= −2
∂b1

n

(yj − b0 − b1 xj1 − · · · − bk xjk ) = 0
1

n

(yj − b0 − b1 xj1 − · · · − bk xjk )xj1 = 0
1

···
∂S
= −2
∂bk

n

(yj − b0 − b1 xj1 − · · · − bk xjk )xjk = 0.
1

Do đó,
n

n

(b0 + b1 xj1 + · · · + bk xjk ) =
j=1
n

n

b0
j=1

j=1

n

n

x2j1 + · · · + bk

xj1 + b1
j=1

yj

xjk xj1 =
j=1

yj xj1
j=1

···
n

b0

n

j=1

n

x2jk


xj1 xjk + · · · + bk

xj1 + b1
j=1

n

=

j=1

yj xjk .
j=1

Chú ý rằng nếu đặt xj0 = 1 cho j = 1 ÷ n ta có phương trình sau:


n

n

x2j0

n

xj0 xj1 . . .
xj0 xjk
 j=1
j=1
j=1

 n
n
n

2

x
x
x
.
.
.
xj1 xjk
j1
j0
j1
 j=1
j=1
j=1


 ...................................
 n
n
n

xjk xj0
xjk xj1 . . .
x2jk
j=1


j=1
















j=1

b0
b1
..
.
bk

n

yj xj0




 
 
 
=
 
 
 



j=1
n

yj xj1
j=1

..
.
n

yj xjk








,





j=1

hoặc dưới dạng ma trận
X Xb = X Y.

(1.46)

Phương trình (1.46) gọi là phương trình chuẩn.
Vì rank(X) = k + 1 ≤ n nên X X là ma trận cấp (k + 1) × (k + 1) có ma trận

19


×