Tải bản đầy đủ (.pdf) (74 trang)

LUẬN văn TOÁN ỨNG DỤNG PHƯƠNG SAI NHIỄU THAY đổi và tự TƯƠNG QUAN TRONG PHÂN TÍCH hồi QUY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.32 MB, 74 trang )

TRƯỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN
……

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

PHƯƠNG SAI NHI
THAY ĐỔI VÀ
TỰ TƯƠNG Q AN
TRONG PHÂN TÍCH HỒI QUY

Giáo viên hướng dẫn

Sinh viên thực hiện

TS. Võ Văn Tài

Trần Thành Tiến
MSSV:1090153
Lớp:Toán Ứng Dụng-K35

Cần Thơ, tháng 5 /2013


LỜI CẢM ƠN
….….

Đầu tiên em xin cảm ơn đến quý Thầy Cô trong Khoa Khoa học Tự nhiên
trường Đại học cần thơ đã truyền dạy những kiến thức quí báo cho chúng em trong
suốt bốn năm học vừa qua, để em đạt được kết quả như ngày hôm nay.


Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy Võ Văn Tài, người
tận tình hướng dẫn, chỉ bảo, khích lệ, động viên và đã giảng dạy em những kiến thức
liên quan giúp em hoàn thành cuốn luận văn này.
Em xin cảm ơn cô cố vấn Nguyễn Thị Hồng Dân đã động viên và giúp đỡ em
cùng các bạn trong quá trình thực hiện đề tài của mình.
Xin cảm ơn các anh, chị đã đi trước, cùng các bạn đã luôn sát cánh, ủng hộ và
giúp đỡ tôi trong quá trình làm đề tài.
Cuối cùng, xin được gửi lời cảm ơn đặc biệt nhất đến gia đình, đã nuôi dạy và
tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập
Dù đã cố gắng hết sức dưới sự hướng dẫn tận tâm của Thầy hướng dẫn, nhưng
do thời gian có hạn và trình độ còn hạn chế nên không tránh khỏi nhiều thiếu s t, rất
mong nhận được sự thông cảm và góp ý của Thầy Cô và các bạn.

Sinh viên thực hiện

Trần Thành Tiến


ANH

ỘT SỐ TH ẬT NG

hương pháp ình phương

1. Ordinary Least Squares (OLS
2. Generalized Least Squares (GLS
uto egressive scheme (

thất thông thường.


hương pháp ình phương bé nhất tổng quát.

3. Best Linear Unbiased Estimator (BLUE
4.

TI NG ANH

ớc lượng tuyến t nh hông chệch tốt nhất.

Lược đồ tự hồi quy.

. uto egressive onditional eteroscedasticity (
điều iện c phương sai thay đổi.

Tự tương quan với


DANH M C CÁC HÌNH
Trang
Hình 2.1: Hình vẽ minh họa cho phương sai của nhiễu thay đổi và
không thay đổi .......................................................................................... 19
Hình 2.2: ình vẽ minh họa cho hương sai hông đồng đều ...................................20
2

Hình 2.3: Một số dạng biến thiên của U i .................................................................24
Hình 3.1: Một số dạng biến thiên của nhiễu theo thời gian ......................................32
Hình 3.2: Hồi quy chi phí biên theo sản lượng ......................................................... 35
Hình 3.3: Hệ số tự tương quan ậc nhất và giá trị d thương ứng.............................. 40



Hình 4.1: Đồ thị phần dư U ......................................................................................51




Hình 4.2: Đồ thị U theo U 1 .....................................................................................50
Hình 4.3: Biểu đồ ình phương của phần dư theo giá trị dự đoán ............................ 52
Hình 4.4: Đồ thị phần dư umu2 với ymu ..................................................................55
Hình 4.5: Biểu đồ ình phương của phần dư theo giá trị dự đoán
theo phương pháp ..................................................................................58
Hình 4.6: Biểu đồ ình phương của phần dư theo giá trị dự đoán
theo phương pháp 2 ..................................................................................59
Hình 4.7: Biểu đồ ình phương của phần dư theo giá trị dự đoán
theo phương pháp ..................................................................................60


DANH M C CÁC BẢNG
Trang
ảng .

iểm định Dur in- aston trên phần mềm vie

ảng .2

iểm định G trên phần mềm vie

................................ 52

................................................... 53


Bảng 4.3: Kết quả quân tích hồi quy bội................................................................... 53
ảng .

iểm định Gleijser trên phần mềm vie

ảng .

iểm định

ảng .

hân t ch hồi quy theo phương pháp

ng phần mềm vie

............ 57

ảng .

hân t ch hồi quy theo phương pháp 2

ng phần mềm vie

............ 58

ảng .

hân t ch hồi quy theo phương pháp

ng phần mềm vie


............ 60

hite

ng phần mềm vie

............................................ 56
.............................................. 56


Trang
PHẦN MỞ ĐẦU……………………………………………………………………..
1 LÝ DO CHỌN ĐỀ TÀI…………………………………………………………..
2 MỤ ĐÍ
ƠNG

NG IÊN ỨU……………………………………………………...2
Á NG IÊN ỨU………………………………………………..2

4 DỐI T ỢNG NGHIÊN CỨU……………………………………………………2
5 CẤU TRÚC LUẬN VĂN………………………………………………………….2
hương HỒI QUY TUYẾN TÍNH……………………………………………….4
1.1 HỒI QUY TUYẾN TÍN ĐƠN……………………………………………...4
1.1.1 Mô hình…………………………………………………………………...4
. .2 hương trình hồi quy tuyến tính mẫu…………………………………..5
1.2 HỒI QUY TUYẾN TÍNH BỘI………………………………………………6
.2. Mô hình…………………………………………………………………...6
.2.2 hương trình hồi quy tuyến tính mẫu…………………………………..7
.2. Ý nghĩa của các hệ số hồi quy…………………………………………...9

1.3 CÁC GIẢ THIẾT TRONG XÂY DỰNG Đ ỜNG HỒI QUY…………..10
1.3.1 Trong xây dựng hồi quy tuyến t nh đơn………………………………10
1.3.2 Trong xây dựng hồi quy tuyến tính bội……………………………….11
1.4 MỘT SỐ TIÊU CHUẨN ĐỂ ĐÁN GIÁ Đ ỜNG HỒI QUY………….12
1.4.1 Tiêu chuẩn hệ số tương quan…………………………………………..12
1.4.2 Tiêu chuẩn hệ số xác định và hệ số xác định điều chỉnh……………..14
1.4.3 Tiêu chuẩn thông tin Akaike (AIC ……………………………………16
1.4.4 Tiêu chuẩn thông tin Schwarz (SIC)......................................................16
1.4.5 Một số tiêu chuẩn hác…………………………………………………16
hương 2 HIỆN T ỢNG

ƠNG S I NHIỄU T

Y ĐỔI………………...19

2.1 KHÁI NIỆM…………………………………………………………………19
2.2 NGUYÊN NHÂN VÀ HẬU QUẢ CỦ
T

ƠNG S I N IỄU

Y ĐỔI……………………………………………………………………20

2.2.1 Nguyên nhân…………………………………………………………….20
2.2.2 Hậu quả của việc phương sai nhiễu thay đổi………………………….21
2.3 CÁCH PHÁT HIỆN

ƠNG S I N IỄU T

Y ĐỔI………………..23



2. .

hương pháp định tính…………………………………………………23

2. .2 hương pháp định lượng……………………………………………….25
ƠNG S I N IỄU T

2.4 CÁCH KHẮC PHỤ

Y ĐỔI………………28

2. . Trường hợp đã iết phương sai tổng thể……………………………...28
2. .2 Trường hợp không biết phương sai tổng thể  i2 ……………………29
hương

TỰ T ƠNG QU N ỦA NHIỄU…………………………………...32

3.1 KHÁI NIỆM…………………………………………………………………32
3.2 NGUYÊN NHÂN VÀ HẬU QUẢ TỰ T ƠNG QU N ỦA NHIỄU…...33
.2.

Nguyên nhân……………………………………………………………33

3.2.2 Hậu quả của tự tương quan…………………………………………...36
3.3 CÁCH PHÁT HIỆN TỰ T ƠNG QU N ỦA NHIỄU…………………39
. .

hương pháp đồ thị…………………………………………………….39


3.3.2 Kiểm định Dur in

atson……………………………………………..39

3.3.3 Kiểm định Breusch-Godfrey ( G ….………………………………… 2
3.3.4 Kiểm định chuỗi dấu……………………………………………………43
3.1 CÁCH KHẮC PHỤ ……………………………………………………….44
. . Trường hợp biết cấu trúc của tự tương quan………………………...44
. .2 Trường hợp chưa iết cấu trúc của tự tương quan…………………..45
hương

BÀI TOÁN ÁP DỤNG…………………………………………………49

4.1 GIỚI THIỆU………………………………………………………………...49
4.2 TỔNG QUAN VIỆC THỰC HIỆN………………………………………...50
4.2.1 Số liệu……………………………………………………………………50
4.2.2 hương pháp thực hiện………………………………………………...50
4.3 XEM XÉT HIỆN T ỢNG TỰ T ƠNG QU N ỦA NHIỄU………….51
4.3.1 Phát hiện hiện tượng tự tương quan của nhiễu……………………….51
4.4 XEM XÉT HIỆN T ỢNG

ƠNG S I N IỄU T

Y ĐỔI………...53

4.4.1 Phát hiện hiện tượng phương sai nhiễu thay đổi…………………….53
4.4.2 Cách khắc phục hiện tượng phương sai nhiễu thay đổi……………...41
KẾT LUẬN V Đ N


ỚNG NG IÊN ỨU……………………………….45

. ẾT LUẬN…………………………………………………………………...45
Về mặt l thiết………………………………………………………………45
2 Về mặt t nh toán…………………………………………………………….45


.

ỚNG NG IÊN ỨU…………………………………………………….46

PHỤ LỤC…………………………………………………………………………...46
TÀI LIỆU THAM KHẢO…………………………………………………………47

PHẦN MỞ ĐẦU
1 LÝ DO CHỌN ĐỀ TÀI
Ngày nay thống kê có một vai trò rất quan trọng không thể thiếu trong nghiên
cứu khoa học của các lĩnh vực hác nhau, đặc biệt là khoa học ứng dụng. Vai trò của
thống kê không chỉ là tổng hợp những con số mà điều quan trọng hơn là từ các con
số đ chúng ta c thể dự đoán được xu hướng phát triển của n trong tương lai. iện
tại có nhiều phương pháp dự báo từ số liệu của quá khứ, tuy nhiên phương pháp hồi
quy vẫn được xem phổ biến nhất. Tùy theo những lĩnh vực đặc thù người ta có thể
xây dựng những mô hình hồi quy khác nhau (tuyến tính và phi tuyến để dự báo cho
xu thế phát triển của một biến nào đ ( iến phụ thuộc) khó quan sát thông qua
những biến khác (biến độc lập) dễ quan sát và xác định hơn. Với sự phát triển của
các phần mềm thống kê hiện nay, hi xác định được dạng của mô hình hồi quy thì
việc tìm đường hồi quy cụ thể là chuyện dễ dàng. Những thống ê liên quan đến mô
hình hồi quy cũng được xử lý rõ ràng từ các phần mềm hiện c . Tuy nhiên để xây
dựng được mô hình hồi quy về mặt toán học chúng ta phải giả thiết một số điều kiện
l tưởng, trong đ c hai vấn đề quan trọng là

1.

hương sai của nhiễu hông thay đổi.

2. Hiện tượng tự tương quan hông xảy ra.
Nếu hai điều kiện trên hông được thỏa, đường hồi quy xây dựng dù có
các tiêu chuẩn đánh giá ở mức tốt cũng hông còn c

nghĩa nữa. Qua nghiên cứu

chúng tôi nhận thấy, hầu như trong các nghiên cứu khoa học ứng dụng hiện nay khi
xây dựng đường hồi quy điều này bị ỏ qua. h nh điều này làm cho các mô hình
hồi quy xây dựng thực chất hông còn

nghĩa. Vì những lí do trên tôi chọn đề tài

“PHƯƠNG SAI NHI U THAY ĐỔI VÀ TỰ TƯƠNG Q AN TRONG PHÂN TÍ H


HỒI QUY’’ cho luận văn tốt nghiệp của mình. Luận văn thực hiện với hy vọng là tài

liệu hỗ trợ lý thuyết cũng như thực hành trong xây dựng mô hình hồi quy tối ưu.

2M

ĐÍ H NGHIÊN ỨU
- Tổng kết lý thuyết liên quan đến nguyên nhân, hậu quả, cách phát hiện cũng

như những phương pháp hắc phục tự tương quan và phương sai nhiễu thay đổi
trong xây dựng mô hình hồi quy.

- Ứng dụng các lý thuyết đã trình ày cho một số ứng dụng từ số liệu thực cụ
thể.
3 PHƯƠNG PHÁP NGHIÊN ỨU
- Phân tích, tổng hợp và hệ thống hóa các tài liệu liên quan đến tự tương quan
và phương sai nhiễu thay đổi trong xây dựng mô hình hồi quy.
- hương pháp thực nghiệm: Sử dụng số liệu thực, để xây dựng mô hình hồi
quy không còn tự tương quan và phương sai nhiễu thay đổi.
4 DỐI TƯỢNG NGHIÊN CỨU
Đối tượng nghiên cứu: Tự tương quan và phương sai nhiễu thay đổi.
Phạm vi nghiên cứu: Mô hình hồi quy và các số liệu cụ thể trong y học được
thu thập từ bệnh viện Đa hoa Trung ương ần Thơ.
5 CẤU TRÚC LUẬN VĂN
Luận văn gồm có phần mở đầu, phần nội dung và phần kết luận, trong đ phần
nội dung gồm c

chương

hương 1: Hồi quy tuyến tính
Giới thiệu tổng quan về mô hình hồi quy với mô hình hồi quy tuyến t nh đơn
và bội. hương này cũng giới thiệu về các giả thiết trong xây dựng mô hình hồi quy
cũng như các tiêu chuẩn trong đánh giá mô hình hồi quy đã xây dựng.
hương 2: Hiện tượng phương sai nhiễu thay đổi
hương này giới thiệu nguyên nhân, hậu quả, các phương pháp phát hiện cũng
như hắc phục hiện tượng phương sai nhiễu trong xây dựng mô hình hồi quy.


hương 3: Tự tương quan của nhiễu
hương này giới thiệu nguyên nhân, hậu quả, các phương pháp phát hiện cũng
như hắc phục hiện tự tương quan cũa nhiễu khi xây dựng mô hình hồi quy.
hương 4: Bài toán áp dụng

Xây dựng mô hình hồi quy tuyến tính bội về bệnh suy thận mạn qua các biến
sinh hóa từ số liệu thực tế của những bệnh nhân ở bệnh viện Đa hoa Trung ương
Cần Thơ. Vận dụng lý thuyết đã trình ày ở các chương trước để phát hiện, sau đ
khắc phục, xây dựng mô hình hồi quy không còn có hiện tượng phương sai của
nhiễu thay đổi cũng như tự tương quan.


hương 1

HỒI QUY TUY N TÍNH

Trong cuộc sống có nhiều lĩnh vực như h tượng, kinh tế, giáo dục…chúng ta
có thể dự đoán cho đại lượng Y hông đo được hoặc đo được nhưng rất h

hăn,

thông qua đại lượng đo được X. Nghĩa là tìm iểu thức y  f (x)   , biểu diễn của Y
thông qua X. Hàm y  f (x)   tìm được như thế, được gọi là hàm hồi quy của đại
lượng ngẫu nhiên Y theo đại lượng ngẫu nhiên X.
1.1 HỒI QUY TUY N TÍNH ĐƠN
1.1.1 Mô hình
Mục tiêu của phân tích hồi quy là mô hình hóa mối liên hệ giữa các đại lượng
b ng một mô hình toán học nh m thể hiện một cách tốt nhất mối liên hệ giữa các
biến. X t hai đại lượng X và Y có mối quan hệ tuyến tính. Giả sử sự quan sát của Y
tại một mức của X là một biến ngẫu nhiên, giá trị kỳ vọng của Y cho mỗi giá trị của
X là
E (Y / X )  0  1 X

Trong đ
X: Biến giải thích ( iến độc lập),

Y: Biến được giải thích ( iến phụ thuộc),
 0 : Tham số tự do hay tham số chặn (hệ số tung độ).

1 : Tham số của biến, là hệ số góc hay hệ số dốc.

Như vậy, hồi quy là thể hiện mối quan hệ trung bình của Y phụ thuộc vào X.
Giả sử mỗi giá trị quan sát của Y có thể được biểu diễn theo mô hình
Y  0  1 X  

Với

(1.1)


 0  1 X là thành phần tuyến tính.
 là thành phần ngẫu nhiên không chệch giữa Y và E(Y/X),  có thể b ng 0,

hoặc lớn hơn 0, hoặc nhỏ hơn 0 hi các giá trị n m ngang, hoặc phía trên, hoặc phía
dưới đường hồi quy.
Chúng ta giả sử E(  )=0 và Var ( )   2 hay  ~ N (0, 2 ) ,  là những biến
ngẫu nhiên hông tương quan nhau thì mô hình ( .

được gọi là mô hình hồi quy

tuyến t nh đơn.
1.1.2 Phương tr nh hồi quy tuyến tính mẫu
Để mô hình toán học hóa mối liên hệ giữa Y và X tức là ta phải tìm được giá trị
của tham số hồi quy.
Giả sử (xi;yi) là mẫu n cặp quan sát thu thập ngẫu nhiên từ X và Y, hi đ mô
hình ( .


được viết lại là
yi  0  1xi   , (i  1,2,..., n)

Ta mong muốn tìm một đường thẳng Y  0  1 X thích hợp nhất đối với các
giá trị (xi;yi). Mô hình hồi quy tuyến tính mẫu được sử dụng để ước lượng mô hình
hồi quy của tổng thể. Mô hình hồi quy của mẫu được biểu diễn dưới dạng:
yˆ i  ˆ0  ˆ1 xi

(1.2)

Đường thẳng theo mô hình ( .2 được xem là thích hợp nhất khi tổng bình
phương các chênh lệch giữa giá trị thực tế yi và yˆ i là nhỏ nhất.

hi đ , tổng bình

phương các chênh lệch giữa giá trị quan sát thực tế và lý thuyết được xác định như
sau:
n

n

n

i 1

i 1

i 1




2
L( ˆ0 , ˆ1 )    i2    yi  yˆi    yi  ˆ0  ˆ1 xi



2

hi đ tổng ình phương sai số giữa giá trị quan sát thực tế và lý thuyết được
xác định như sau


n
 L


2
yi  ˆ0  ˆ1 xi  0

 ˆ


i 1

0

n
 L  2 x y  ˆ  ˆ x  0


i
i
0
1 i
 ˆ1
i 1









Hệ phương trình trên tương đương
n

 n  ˆ
ˆ

  xi  1  n 0   yi
i 1

 i 1 
 n
n
n
 x 2  ˆ   x  ˆ  x y




 i 1 i  1  i 1 i  0 i 1 i i

Đây là hệ phương trình tuyến tính bậc nhất với hai ẩn ˆ0 và ˆ1 . Giải hệ
phương trình này ta được:
n
n
n

n
x
y

(
x
)(
yi )



i
i
i

i 1
i 1
i 1
ˆ
 1 

n
n

n xi2  ( xi ) 2


i 1
i 1

n
n
ˆ( x)

y


 i 1
i
 ˆ  i 1
i 1
0

n

hi t nh được ˆ0 và ˆ1 ta viết được mô hình hồi quy mẫu: yˆ i  ˆ0  ˆ1 xi .
 Chú ý:


ˆ0 và ˆ1 là ước lượng không chệch của  0 và 1 .


– Thông thường để thuận lợi hơn trong việc tính toán, ta thường viết công
thức ˆ0 và ˆ1 dưới hình thức:

ˆ
1 





n( xy  x. y )
1 n 
2
x

  xi 

i
n  i 1 
i 1
ˆ0  y  ˆ1 x
n

2



S xy
Sx


Trong đó
Sx 

n
1 n 2
1 n 
2
2
x

x

x

i

 xi
i
n i 1
n  i 1 
i 1


n

S xy   yi ( xi  x )  n( xy  x. y )
i 1

1.2 HỒI QUY TUY N TÍNH BỘI
1.2.1 Mô hình

Mô hình hồi quy tuyến tính bội là sự mở rộng tự nhiên của mô hình hồi quy
tuyến t nh đơn. Trong thực tế, chúng ta thường gặp không chỉ có biến X ảnh hưởng
đến biến Y mà còn các biến hác cũng c thể ảnh hưởng đến Y. Do đ , trong trường
hợp k biến cùng ảnh hưởng đến Y thì mô hình hồi quy hai biến là không thỏa đáng,
chúng ta cần xây dựng mô hình hồi quy cho nhiều hơn hai iến, đ là mô hình hồi
quy bội.
Giả sử mối quan hệ giữa biến phụ thuộc (biến phản hồi) Y và k biến độc lập
(biến hồi quy) X1, X2, …, Xk cho bởi mô hình:
Y  0  1 X1  ...  k X k  

(1.3)

Tong đ 0 , 1,..., k là các tham số chưa iết, gọi là các hệ số hồi quy,  0 gọi
là hệ số chặn hay hệ số tung độ góc, 1, 2 ,..., k là các hệ số góc,  là sai số ngẫu
nhiên có kỳ vọng 0 và phương sai  2 .
Để đơn giản ta có thể viết ngắn gọn ( .

dưới dạng

E (Y )  0  1 X1  ...  k X k

(1.4)

1.2.2 Phương tr nh hồi quy tuyến tính mẫu
Giả sử chúng ta có n quan sát, mỗi quan sát có k giá trị (yi, x1i, x2i, …, xki) thì
hi đ
yi  0  1x1i  ...  k xki   i với (i  1,2,..., n)

Mô hình ( .


được viết cụ thể như sau

(1.5)



 y1   0  1 x11   2 x21  ...   k xk1  1

 y1   0  1 x12   2 x22  ...   k xk 2   2
...............................................................

 y1   0  1 x1n   2 x2 n  ...   k xkn   n

(1.6)

Dạng ma trận của mô hình (1.6) là Y  X   với
 y1 
0 
 1 x11
 
1 x
y 
1
12
2


, 
, X 
y

 ... 
... ...
 ... 
 

 
 k 
 1 x1n
 yn 

x21 ... xk1 
1 

 
x22 ... xk 2 
,    2
 ... 
... ... ... 

 
x2 n ... xkn 
 n 

Chúng ta sẽ dùng phương pháp ình phương

nhất để ước lượng các tham

số ˆ0 , ˆ1,..., ˆk . Mô hình hồi quy bội của mẫu được sử dụng để ước lượng mô hình
hồi quy của tổng thể là
yˆi  ˆ0  ˆ1x1i  ...  ˆk xki


(1.7)

Dạng ma trận của (1.7) là yˆ  Xˆ
 ˆ0 
 yˆ1 
ˆ
 yˆ 

2
với: yˆ    , ˆ   1  , trong đ : yˆ , X , ˆ lần lượt là ma trận cỡ (nx1), (nxp), (px1)
 ... 
 ... 
 
 
ˆ
 yˆ n 
  k 

àm ình phương tối thiểu được thiết lập như sau
n

n

n

i 1

i 1




2
L    2    yi  yˆi    yi  ˆ0  ˆ 1x1i  ...  ˆk xki
i 1

n



2

(1.8)

 min   yi   0  1 x1i   2 x2i  ...   k xki 

2

i 1

Gọi X T , ˆ T ,  T là các ma trân chuyển vị của X , ˆ ,  thì (1.8) trở thành:
n



L    2   T   y  X ˆ
i 1

  y  X ˆ    y
T


 yT y  yT X ˆ  X T ˆ T y  X T ˆ T X ˆ

T

 X T ˆ T

 y  X ˆ 
(1.9)


Do X T ˆ T y là một ma trận cỡ (1x1), ˆ T ˆ  ˆ 2 và X T ˆ T y  yT Xˆ nên (1.9)
trở thành :
L  yT y  2 X T ˆ T y  X T Xˆ 2

(1.10)

Ta lấy đạo hàm của (1.10) theo ˆ để ước lượng  , ta được kết quả
L
 2 X T y  2 X T Xˆ  0
ˆ


hay
X T Xˆ  X T y

Giải phương trình này ta được
ˆ  X T X  X T y
1



 n
 n
 x
1i
với X T X   
i 1
 ...
n
 xki
 i 1

n

x

x
i 1

...

x

1i 2 i

...

n

i 1


...

i 1
n

2
1i

x

n

 x2i

i 1
n
i 1



i 1

n
...  x1i xki  là ma trận vuông cỡ (pxp),

i 1
...
... 
n


...  xki2 
i 1


n

 x1i

n

x

x

ki 1i

i 1

x

ki 2 i

x

ki

n

 n 

y

i

  yi 
i 1

  i 1 
x
y

x
y

...

x
y
1n n 
 S1 y 
 11 1 12 2
là ma trận cỡ (px1).
XTy  

x21 y1  x22 y2  ...  x2 n yn   S 2 y 


 
........................................  ... 
 x y  x y  ...  x y   S ky 

kn n 
 k1 1 k 2 2



Mặt khác từ ( X T X )ˆ  X T y ta có

 n
 n
 x
1i

i 1
 ...
 n
 xki
 i 1

n

n

x

1i

i 1
n

x


2
1i

i 1

x
i 1

...
i 1

x

1i 2 i

...

n

x

2i

i 1
n

n

x


ki 1i

x
i 1



i 1

n
...  x1i xki 

i 1
...
... 
n

...  xki2 

i 1
n

x

x

ki 2 i

Hệ phương trình trên cho ta ết quả:


...

x

ki

 n 
yi 
 ˆ0  
i 1
ˆ  S 
 1  =  1 y 
 ...   S 2 y 
   ... 

 ˆk  
 S 
 ky 


n

y
i 1

i

n


n

i 1

i 1

 nˆ0  ˆ1  x1i  ...  ˆk  xki

hay
n

ˆ0  yi  ˆ1 x1  ...  ˆk xk  yi   ˆi xi
i 1

Khi xác định được ma trận ˆ nghĩa là tìm được các ˆ0 , ˆ0 ,..., ˆn , nên xây
dựng được mô hình hồi quy của mẫu yˆi  ˆ0  ˆ1x1i  ...  ˆk xki
1.2.3 Ý nghĩa của các hệ số hồi quy
Ta có mô hình: E(Y )  0  1 X1  ...  k X k
Trong đ
Y : Biến phụ thuộc,

X i : Các biến độc lập,

 0 : Hệ số tự do,

 i : Hệ số hồi quy riêng, cho biết khi X i tăng lên

đơn vị thì trung bình

của Y sẽ thay đổi  i đơn vị trong trường hợp các yếu tố hác hông đổi. Giả sử ta

có biến Y (Doanh số bán của một mặt hàng-triệu đồng trên tháng) phụ thuộc vào x
(Chi phí quảng cáo của mặt hàng đ -triệu đồng) được biểu diễn như sau


Yi  3  9 X i

– Nếu chi phí quảng cáo (

Q

tăng lên

triệu đồng thì danh só bán (DSB)

trung ình tăng lên 9 triệu đồng trên tháng (trong điều kiện các yếu tố khác không
đổi)
– Nếu không quảng cáo (CPQC b ng 0) thì DSB trung bình là 3 triệu đồng
trên tháng.
1.3 CÁC GIẢ THI T TRONG XÂY DỰNG ĐƯỜNG HỒI QUY
1.3.1 Trong xây dựng hồi quy tuyến tính đơn
hi xây dựng mô hình hồi quy, tuyến t nh đơn chúng ta phải c các giả thiết
sau:


 Giả thiết 1: Các giá trị của X được xác định trước không phải là đại lượng
ngẫu nhiên.
 Giả thiết 2: Đại lượng ngẫu nhiên (nhiễu) U i có kỳ vọng b ng 0, nghĩa là:
E U i / X i   0

 Giả thiết 3: U i c phương sai là h ng số:

var Ui / X i    2 , i

 Giả thiết 4: Không có sự tương quan giữa các sai số ngẫu nhiên U i :





cov U i ,U j   E U i  E U i  .  U j  E U j    0, i  j



 Giả thiết 5: U i và X i hông tương quan nhau: cov Ui , X i   0, i
 Giả thiết 6 Đại lượng ngẫu nhiên có phân phối chuẩn: U i

N  0,  2  .

1.3.2 Trong xây dựng hồi quy tuyến tính bội
Tương tự như hi xây dựng mô hình hồi quy tuyến t nh, trong xây dựng mô
hình hồi quy tuyến t nh đơn, trong xây dựng mô hình hồi quy tuyến t nh ội ta phải
c các giả thiết sau
 Giả thiết 1: Kỳ vọng c điều kiện nhiễu b ng 0: E U   0. Trong đ
U1   E U1 / X 11 , X 21 ,..., X k 1,1  

U   E U / X , X ,..., X



2
12

22
k 1,2 
E U   E  2   

 ... 
...


 
U

 n   E U n / X 1n , X 2 n ,..., X k 1,n  

 Giả thiết 2: E U .U T    2 I . Trong đ
 U1 

 

U2 
T


E U .U   E
. U U 2 ... U n  
  ...   1

  

 U n 




 U12 U1U 2

U 2U1 U 22

E
 ...
...

U nU1 U nU 2

 E U2
E U1U 2 
... U1U n    1 

2
... U 2U n   E U 2U1  E U 2 

...
...   ...
...
2 

... U n 
 E U nU1  E U nU 2 

... E U1U n  

... E U 2U n  


...
...


2
... E U n  

Giả thiết 2 c được do sử dụng giả thiết 1 kết hợp với các giả thiết sau:
– Giả thiết phương sai thuần nhất, ta có: var Ui   E Ui2    2 , i.
– Giả thiết hông c tương quan chuỗi: cov Ui ,U j   E Ui ,U j   0, i  j.
hi đ
 2 0 ... 0 
1


0
2
0  ... 0 
E U .U T   
2 
 ... ... ... ... 
...


2
0 0  
0
0


0 ... 0 
1 ... 0 
  2I.
... ... ...

0 0 1

 Giả thiết 3: Ma trận X đã được xác định.
 Giả thiết 4: Hạng của ma trận X b ng k, là tham số trong mô hình hồi quy.
Ký hiệu cho hạng của ma trận là rank ( X )  k , c nghĩa là k cột trong ma trận X là
độc lập tuyến tính, mà mỗi cột tương ứng với mỗi biến độc nên hông c tương
quan tuyến tính chính xác giữa các biến độc lập, hay nói cách khác không có hiện
tượng cộng tuyến xảy ra.
 Giả thiết 5: U

N  0,  2 I  , nghĩa là vector nhiễu có phân phối chuẩn nhiều

chiều.
1.4 MỘT SỐ TIÊU CHUẨN ĐỂ ĐÁNH GIÁ ĐƯỜNG HỒI QUY
1.4.1 Tiêu chuẩn hệ số tương quan
a) Công thức
Trong nhiều ài toán người ta quan quan tâm đến mối quan hệ của hai hay
nhiều biến ngẫu nhiên. Giả sử ta có hai biến ngẫu nhiên X và Y, vấn đề đặt ra là có
sự phụ thuộc giữa hai biến đ hay hông, và nếu chúng thật sự có sự phụ thuộc lẫn
nhau thì sự phụ thuộc đ như thế nào? Mối quan hệ phổ biến của X và Y thường là


mối quan hệ tuyến tính và tham số đặc trưng cho mối quan hệ này là hệ số tương
quan. Kí hiệu:  xy và được xác định bởi công thức:
 xy 


Cov( X , Y )
Var ( X ) Var (Y )

Trong đ
Var (X ) , Var (Y ) lần lượt là phương sai của X và Y,
Cov( X ,Y ) là hiệp phương sai giữa hai biến X và Y và được xác định bởi công

thức sau:
Cov( X , Y )  E( X  E( X ))(Y  E(Y ))  E( XY )  E( X ) E(Y ) .

b) Tính chất và ý nghĩa
Hệ số tương quan của hai biến là đại lượng dùng để thể hiện chiều hướng và độ
mạnh yếu của mối quan hệ tuyến tính giữa hai biến đ .  xy càng gần 1 thì mối quan
hệ tuyến tính càng chặt và  xy càng gần 0 thì mối quan hệ càng yếu đi.
Hệ số tương quan  xy có các tính chất sau:
i)  1   xy  1 ,
ii)  xy < 0: X và Y có mối quan hệ tuyến tính nghịch (  xy = -1 thể hiện mối
quan hệ tuyến tính nghịch hoàn toàn),
iii)  xy > 0: X và Y có mối quan hệ tuyến tính thuận (  xy = 1 thể hiện mối
quan hệ tuyến tính thuận hoàn toàn),
iv)  xy = 0: X và Y không co mối quan hệ tuyến tính.
c) Hệ số tương quan tuyến tính mẫu r
Trong thực tế, chúng ta không biết được chính xác Cov(X,Y),  X , Y để tính hệ
số tương quan  xy , vì ta không thể có số liệu đầy đủ của tổng thể. Do đ ta phải ước
lượng các tham số của tổng thể trong công thức tính  xy bởi các tham số mẫu đặt
trưng. Giả sử từ tổng thể ta chọn ra một mẫu gồm n phần tử. Quan sát hai biến ngẫu


nhiên X và Y trên n phần tử này ta có số liệu cụ thể: (x1, y1), (x2, y2 , …, (xn, yn). Khi

đ ta c công thức tính hệ số tương quan mẫu như sau
n

 ( x  x)( y  y)

rxy 

i

i 1

n

(1.11)

n

 ( x  x) . ( y  y)
2

i 1

i

i 1

2

i


Trong đ x và y là trung bình mẫu của biến X và biến Y.
x

1 n
1` n
xi , y   y i

n i 1
n i 1

Từ công thức (1.11) có thể chia tử số và mẫu số cho n, rút ra được công thức
sau:
rxy 

1 n
 ( xi  x)( y  y )
n i 1
1
n

n

n

 ( xi  x) 2 . ( yi  y ) 2
i 1

i 1

n

n

1
xi yi  y  xi  x  yi   x y 


n  i 1
i 1
i 1
i 1


n
n

1
( xi  x ) 2 . ( yi  y ) 2 



n
i 1
 i 1

n

n

xy  x y


=


1 n
( xi  x ) 2  .


n  i 1



1 n
( yi  y ) 2 


n  i 1


Ta có thể viết lại công thức hệ số tương quan trên dưới hình thức gọn hơn như
sau:
rxy 

xy  x y
SxSy

Trong đ
sx2 




1 n
 xi  x
n i 1



2

và s y2 



1 n
 yi  y
n i 1



2

1.4.2 Tiêu chuẩn hệ số xác định và hệ ố xác định đi u ch nh
a Hệ ố xác định


Khi xây dựng đường hồi quy tuyến tính ta dùng biến độc lập X để suy luận
cho biến phụ thuộc Y. Nhưng câu hỏi đặt ra là “liệu mô hình hồi quy tuyến t nh được
xây dựng đã thể hiện một cách tốt nhất mối liên hệ giữa Y và X chưa?

ao nhiêu


phần trăm sự biến thiên của Y có thể được giải thích bởi sự phụ thuộc tuyến tính của
Y vào X ? ”. ệ số xác định R2 sẽ giúp trả lời những câu hỏi đ .
R2 là một thước đo sự phù hợp của mô hình hồi quy, hi đ hệ số xác định
này thể hiện phần tỉ lệ biến thiên của y được giải thích bởi mối liên hệ tuyến tính của
y với x, xác định bởi công thức sau:
R2 

SSR
SSE
 1
SST
SST

Trong đ
n

SST    yi  y  : Thể hiện toàn bộ sự biến thiên của y,
2

i 1
n

SSR    yˆ i  y  : Thể hiện phần biến thiên của y được giải thích bởi biến x,
2

i 1
n

n


2

SSE   e    yi  yˆ i  : Thể hiện phần biến thiên của y do các yếu tố khác
i 1

2
i

i 1

không nghiên cứu.
 Chú ý:
i) Ta có 0  R 2  1.
ii) Sự phân biệt giữa rxy và R 2 là ở chỗ: rxy là đại lượng được xác định ở góc
độ phân tích tương quan (X, Y được xem là các đại lượng ngẫu nhiên), đo lường
cường độ của mối liên hệ tuyến tính giữa X và Y còn R 2 là đại lượng được xác định
ở góc độ phân tích hồi quy (Y được xem là phụ thuộc vào X), thể hiện sự thích hợp
của mô hình hồi quy đối với dữ liệu.
iii) R 2 càng lớn thì mô hình hời quy tuyến tính đã xây dựng được xem là phù
hợp và càng có ý nghĩa trong việc giải thích sự biến thiên của Y thông qua sự biến
thiên của X .
Hệ ố xác định đi u ch nh


Một ất lợi hi sử dụng nhiều iến độc lập trong mô hình hồi quy là ậc tự do
ị giảm đi, do đ người ta điều chỉnh hệ số xác định

ng cách đưa thêm ậc tự do

của các tổng ình phương vào công thức

2
RSS n  1
n  1 R  n  1  1  k
2
R  1
.
 1  (1  R ).

n  k TSS
nk
nk
2

2

R được gọi là hệ số xác định hiệu chỉnh và c t nh chất sau
2

 Khi k  1 thì R  R2  1.
2



k càng lớn thì R càng nhỏ hơn R 2



R c thể âm, trong trường hợp này quy ước R  0

2


2

1.4.3 Tiêu chuẩn thông tin Akaike (AIC)
Akaike Hirotsugu (5/11/1927 - 4/8/2009) là nhà thống kê người Nhật. Vào đầu
thập niên 9 0 ông đã đưa ra công thức để làm tiêu chuẩn thông tin cho việc nhận
dạng mẫu, được gọi là tiêu chuẩn thông tin Akaike (Akaike information criterion).
Năm 200

ai e được thưởng Giải Kyoto cho công trình đ ng g p chủ yếu vào

khoa học thống kê và việc tạo mô hình trong việc phát triển tiêu chuẩn thông tin
Akaike (AIC).
Tiêu chuẩn AIC là một trong số những tiêu chuẩn lựa chon mô hình, n được
sử dụng để lựa chọn mô hình trong những mô hình khác nhau và so sánh các mô
hình dùng để dự báo.
Ta có công thức:
 SSR 
AIC  n ln 
  2k
 n 

Trong đ k là biến ước lượng (bao gồm cả hệ số chặn) và n là mẫu quan sát,
SSR tổng ình phương phần dư sai số. Chúng ta có thể thấy r ng AIC là công cụ phát
hiện sai sót khắt he hơn R

2

hi tăng thêm một biến số. khi so sánh hai hay nhiều


mô hình, mô hình nào có AIC thấp nhất thì mô hình đ tốt hơn.


1.4.4 Tiêu chuẩn thông tin Schwarz (SIC)
Tương tự như

tưởng AIC, tiêu chuẩn SIC được định nghĩa như sau
 SSR 
SIC  n ln 
  k ln(n)
 n 

SIC là một công cụ phát hiện sai sót khắt he hơn cả AIC. Giống như

I ,

giá trị SIC càng nhỏ thì mô hình càng tốt. SIC có thể dùng để so sánh giữa các mô
hình.

1.4.5 Một số tiêu chuẩn khác
Đồ thị phân tán: Để hình dung mối liên hệ giữa hai biến định lượng ta dùng
đồ thị phân tán để biểu diễn các số liệu của mẫu về hai biến đ . ác chấm đại diện
cho các cặp quan sát được phân tán ngẫu nhiên. Nếu các chấm gần như tập trung
quanh đường thẳng tức mối liên hệ này gần như tuyến tính.
Sai số trung bình Để tính sai số trung bình ta lấy tổng tuyệt đối số liệu thực
tế trừ đi số liệu lý thuyết và chia cho n số liệu quan sát. Cụ thể:
n

ME 


 y  yˆ
i 1

i

i

n

Sai số này càng nhỏ thì mô hình càng phù hợp.
Ngoài các tiêu chuẩn trên người ta còn dùng số liệu của một số năm gần nhất
để so sánh với số liệu dự đoán được. Nếu số liệu ta dự đoán từ một mô hình nào đ
gần đúng với dự liệu của năm gần nhất mà ta lấy so sánh thì cũng chứng tỏ được
r ng mô hình đ c xu hướng phù hợp để có thể dự báo.
 Chú ý:

i) Việc lựa chọn biến để xây dựng mô hình hồi quy là rất quan trọng. Trong
một nghiên cứu thông thường với một biến số phụ thuộc, có nhiều biến số độc lập;
giữa một biến độc lập và một biến phụ thuộc cũng có thể có nhiều mô hình hồi quy
khác nhau được thiết lập. Như vậy một vấn đề dự báo bằng mô hình hồi quy sẽ có
nhiều mô hình khác nhau có thể được thiết lập. Trong các mô hình thiết lập, mô


hình nào được xem là phù hợp nhất? Mô hình đơn giản, ít biến và có một hoặc
nhiều tiêu chuẩn đánh giá đã trình bày ở trên tốt nhất sẽ được chọn. Để làm việc
này ta thường dùng phương pháp phân tích hồi quy bậc thang. Hai nguyên tắc xây
hồi qui bậc thang thường được sử dụng là:
– Nguyên tắc lùi: Bắt đầu với mô hình hồi quy có chứa tất cả các biến độc lập.
Sau đó lần lượt loại trừ dần từng biến (dựa trên các tiêu chuẩn đánh giá) cho đến
khi tìm được mô hình thích hợp.

– Nguyên tắc tiến: Bắt đầu với mô hình một biến sau đó lần lượt thêm dần
từng biến một cho đến khi tìm được mô hình thích hợp.
ii) Khi xây dựng các mô hình hồi quy bội chúng ta cần chú ý hiện tượng đa
cộng tuyến, tự tương quan và phương sai của nhiễu thay đổi để có thể xây dựng
được đường hồi quy phù hợp nhất. iện tượng tự tương quan và phương sai của
nhiễu thay đổi được trình bày ở các chương sau.


×