1
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Chương 5
Hồi quy bội
Mô hình hồi quy bội
Phương pháp bình phương bé nhất
Hệ số xác đònh bội
Các giả đònh của mô hình
Kiểm đònh ý nghóa
Sử dụng phương trình hồi quy ước lượng
để ước lượng và dự báo
Biến độc lập đònh tính
Phân tích phần dư
2
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Mô hình hồi quy bội
Mô hình hồi quy bội
y =
β
0
+
β
1
x
1
+
β
2
x
2
+ . . . +
β
p
x
p
+
ε
Phương trình hồi quy bội
E(y) =
β
0
+
β
1
x
1
+
β
2
x
2
+ . . . +
β
p
x
p
Phương trình hồi quy bội ước lượng
y = b
0
+ b
1
x
1
+ b
2
x
2
+ . . . + b
p
x
p
^
3
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Quy trình ước lượng
Mơ hình hồi quy bội
E(y) =
β
0
+
β
1
x
1
+
β
2
x
2
+. . .+
β
p
x
p
+
ε
Phương trình hồi quy bội
E(y) =
β
0
+
β
1
x
1
+
β
2
x
2
+. . .+
β
p
x
p
Các tham số khơng biết là
β
0
,
β
1
,
β
2
, . . . ,
β
p
Dữ liệu mẫu:
x
1
x
2
. . . x
p
y
. . . .
. . . .
01122
ˆ
p
p
y
bbxbx bx
=
++++
01122
ˆ
p
p
y
bbxbx bx
=
++++
Phương trình hồi quy
bội ước lượng
Các số thống kê mẫu là
b
0
, b
1
, b
2
, . . . , b
p
b
0
, b
1
, b
2
, . . . , b
p
đưa ra các ước lượng cho
β
0
,
β
1
,
β
2
, . . . ,
β
p
4
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Phương pháp bình phương bé nhất
Tiêu chuẩn bình phương bé nhất
Tính toán giá trò của các hệ số
Các công thức tính các hệ số hồi quy b
0
, b
1
, b
2
, . . . b
p
liên quan đến việc sử dụng đại số ma trận. Chúng ta sẽ
dựa vào các gói phần mềm máy tính để thực hiện các
tính toán.
Lưu ý về việc giải thích các hệ số
b
i
là ước lượng của sự thay đổi trong y tương ứng với
một đơn vò thay đổi trong x
i
khi tất cả các biến độc lập
khác được giữ không thay đổi.
min (
i
yy
i
−
∑
)
2
min (
i
yy
i
−
∑
)
2
^
5
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Hệ số xác đònh bội
Mối liên hệ giữa SST, SSR, SSE
SST = SSR + SSE
Hệ số xác đònh bội
R
2
= SSR/SST
Hệ số xác đònh bội điều chỉnh
()()( )yy yy yy
iiii
−
∑
=
−
∑
+
−
∑
22 2
()()( )yy yy yy
iiii
−
∑
=
−
∑
+
−
∑
22 2
^^
RR
n
np
a
22
11
1
1
=− −
−
−−
()
RR
n
np
a
22
11
1
1
=− −
−
−−
()
6
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Các giả đònh của mô hình
Các giả đònh về số hạng sai số
ε
y Sai số
ε
là một biến ngẫu nhiên có trung bình bằng 0.
y Phương sai của
ε
, ký hiệu bằng
σ
2
, là bằng nhau với
mọi giá trò của các biến độc lập.
y Các giá trò của
ε
độc lập với nhau.
y Sai số
ε
là một biến ngẫu nhiên có phân phối chuẩn
phản ánh độ lệch giữa giá trò y và giá trò kỳ vọng của
y được cho bởi
β
0
+
β
1
x
1
+
β
2
x
2
+ . . . +
β
p
x
p
7
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm đònh ý nghóa: Kiểm đònh F
Các giả thuyết
H
0
:
β
1
=
β
2
= . . . =
β
p
= 0
H
a
: Không phải tất cả
β
j
= 0
(có ít nhất một
β
j
≠ 0).
Thống kê kiểm đònh
F = MSR/MSE
Quy tắc bác bỏ
Sử dụng thống kê kiểm đònh: Bác bỏ H
0
nếu F > F
α
Sử dụng giá trò p: Bác bỏ H
0
nếu giá trò p <
α
trong đó F
α
dựa vào phân phối F với p bậc tự do
ở tử số và n - p -1 bậc tự do ở mẫu số
8
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm đònh ý nghóa: Kiểm đònh F
Bảng ANOVA (giả sử có p biến độc lập)
Source of Sum of Degrees of Mean
Variation Squares Freedom Squares F
Regression SSR p
Error SSE n - p -1
Total SST n -1
SSR
MSR
p
=
SSR
MSR
p
=
SSE
MSE
1np
=
−
−
SSE
MSE
1np
=
−
−
MSR
MSE
F =
MSR
MSE
F =
9
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Kiểm đònh ý nghóa: Kiểm đònh t
Các giả thuyết
H
0
:
β
i
= 0
H
a
:
β
i
= 0
Thống kê kiểm đònh
Quy tắc bác bỏ
Sử dụng thống kê kiểm đònh: Bác bỏ H
0
nếu ⎜t⎟ > t
α/
2
Sử dụng giá trò p: Bác bỏ H
0
nếu giá trò p <
α
trong đó t
α/
2
dựa vào phân phối t với n - p -1 bậc tự do
t
b
s
i
b
i
=
t
b
s
i
b
i
=
10
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Đa cộng tuyến
Thuật ngữ đa công tuyến (multicollinearity) nói đến sự
tương quan giữa các biến độc lập.
Ví dụ như các biến x
1
và x
2
cộng tuyến hoàn hảo nếu
x
1
= b
0
+ b
1
x
2
với các số thực b
0
và b
1
nào đó.
Hai biến này nằm trên một đường thẳng, và một trong
hai biến hoàn toàn xác đònh biến khác. Không có thông
tin mới về y thu được bằng cách thêm x
2
vào phương
trình hồi quy đã bao gồm x
1
(hay ngược lại).
11
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Một ví dụ số cụ thể
Hãy xem dữ liệu có tính giả thuyết sau:
Có thể thấy rõ ràng là x
2i
= 5x
1i
. Vì vậy có sự cộng tuyến
hoàn hảo giữa x
1
và x
2
bởi vì hệ số tương quan .
Biến x
2
*
được tạo thành từ x
2
đơn giản bằng cách cộng thêm
các số sau, những số này được lấy từ bảng số ngẫu nhiên: 2,
0, 7, 9, 2. Bây giờ, không còn có sự cộng tuyến hoàn hảo
giữa biến x
1
và x
2
*
. Tuy nhiên, hai biến này tương quan chặt
bởi vì .
75
75
15
52
50
10
X
2
*
X
2
X
1
15212997
15012090
302418
=
12
1
xx
r
=
12
1
xx
r
=
*
12
0,9959
xx
r
=
*
12
0,9959
xx
r
12
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Hậu quả của đa cộng tuyến
Phương sai của các hệ số hồi quy bò phóng đại.
Độ lớn của các hệ số hồi quy có thể khác với những gì
được kỳ vọng.
Dấu của các hệ số hồi quy có thể không như kỳ vọng.
Thêm vào hay bớt đi các biến cộng tuyến với các biến
khác tạo ra những thay đổi lớn về các hệ số.
Bỏ một điểm dữ liệu có thể gây ra những thay đổi lớn về
ước lượng hay dấu của các hệ số.
Trong một số trường hợp, tỷ số F có thể có ý nghóa nhưng
các tỷ số t thì không.
13
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Cách phát hiện đa cộng tuyến
Hệ số xác đònh R
2
cao nhưng tỷ số |t| thấp
Hệ số tương quan giữa các cặp biến độc lập cao. Quy tắc
kinh nghiệm là khi |r| > 0,7.
Sử dụng hồi quy phụ
Nhân tử phóng đại phương sai VIF. Quy tắc kinh nghiệm
là khi VIF
j
> 10 <=> thì mức độ cộng tuyến
được xem là cao.
>
2
0,9
j
R
>
2
0,9
j
R
14
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Cách phát hiện đa cộng tuyến:
Nhân tử phóng đại phương sai
1,0
0,50,0
100
50
0
R
h
2
VIF
Mối liên hệ giữa VIF và R
h
2
Nhân tử phóng đại phương sai liên hệ với x
h
:
()
2
1
1
h
h
VIF x
R
=
−
vớiù là giá trò R
2
nhận được khi hồi quy x, như là biến
độc lập, theo các biến độc lập còn lại.
2
h
R
2
h
R
15
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Cách giải quyết vấn đề đa cộng tuyến
Bỏ một biến cộng tuyến khỏi mô hình
Thay đổi kế hoạch lấy mẫu để đưa vào những phần tử
ngoài phạm vi đa cộng tuyến
Biến đổi các biến (transformations of variables)
Hồi quy dạng sóng (ridge regression)
16
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Đa cộng tuyến và dự báo
Khi xảy ra đa cộng tuyến ta không thể xác đònh được tác
động riêng biệt của bất cứ biến độc lập cụ thể nào lên
biến phụ thuộc. Tuy nhiên, nếu phương trình hồi quy ước
lượng sẽ được sử dụng chỉ cho các mục đích dự báo, thì
đa cộng tuyến thường không phải là một vấn đề quan
trọng.
17
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Sử dụng phương trình hồi quy ước lượng
để ước lượng và tiên đoán
Thủ tục để ước lượng giá trò trung bình của y và tiên
đoán một giá trò cá biệt của y trong hồi quy bội tương tự
với các thủ tục trong hồi quy đơn.
Chúng ta thay các giá trò đã cho của x
1
, x
2
, . . . , x
p
vào
phương trình hồi quy ước lượng và sử dụng các giá trò
tương ứng của y làm ước lượng điểm.
Các công thức cần thiết để xây dựng các ước lượng
khoảng cho giá trò trung bình của y và cho một giá trò cá
biệt của y vượt ngoài phạm vi của bài giảng này.
Các gói phần mềm cho hồi quy bội thường sẽ cung cấp
các ước lượng khoảng này.
18
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Một công ty phần mềm đã thu thập số liệu cho một mẫu
gồm 20 lập trình viên máy tính. Một đề xuất được đưa ra là
phân tích hồi quy có thể được sử dụng để xác đònh xem tiền
lương (Salary) có liên hệ với số năm kinh nghiệm (Exper.)
và số điểm đạt được dựa trên trắc nghiệm năng khiếu lập
trình viên của công ty (Score).
Số năm kinh nghiệm, số điểm đạt được dựa trên trắc
nghiệm năng khiếu và tiền lương theo năm tương ứng
(1.000$) cho một mẫu gồm 20 lập trình viên được cho ở
slide kế tiếp.
19
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Exper. Score Salary Exper. Score Salary
4 78 24 9 88 38
7 100 43 2 73 26,6
1 86 23,7 10 75 36,2
5 82 34,3 5 81 31,6
8 86 35,8 6 74 29
10 84 38 8 87 34
0 75 22,2 4 79 30,1
1 80 23,1 6 94 33,9
6 83 30 3 70 28,2
6 91 33 3 89 30
20
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Mô hình hồi quy bội
Giả sử ta tin là tiền lương (y) có liên quan với số năm
kinh nghiệm (x
1
) và số điểm đạt được dựa trên trắc
nghiệm năng khiếu lập trình viên (x
2
) theo mô hình hồi
quy sau:
y =
β
0
+
β
1
x
1
+
β
2
x
2
+
ε
trong đó
y = tiền lương hàng năm (000$)
x
1
= số năm kinh nghiệm
x
2
= số điểm đạt được dựa trên trắc nghiệm năng
khiếu lập trình viên
21
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Mô hình hồi quy bội
Sử dụng giả đònh E(
ε
) = 0, ta có
E(y) =
β
0
+
β
1
x
1
+
β
2
x
2
Phương trình hồi quy ước lượng
b
0
, b
1
, b
2
là các ước lượng theo phương pháp bình phương
bé nhất của
β
0
,
β
1
,
β
2
Do đó
y = b
0
+ b
1
x
1
+ b
2
x
2
^
22
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Ví dụ: Khảo sát tiền lương của lập trình viên
Giải tìm các ước lượng của
β
0
,
β
1
,
β
2
Gói
phần mềm
để giải
các bài toán
hồi quy bội
b
0
=
b
1
=
b
2
=
R
2
=
v.v…
Nhập liệu
Xuất liệu
theo bình phương
bé nhất
x
1
x
2
y
4 78 24
7 100 43
. . .
. . .
3 89 30
23
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
Bảng tính công thức (trình bày dữ liệu được nhập vào)
ABCD
1 Programmer Experience (yrs) Test Score Salary ($K)
2 1 4 78 24.0
3 2 7 100 43.0
4 3 1 86 23.7
5 4 5 82 34.3
6 5 8 86 35.8
7 6 10 84 38.0
8 7 0 75 22.2
9 8 1 80 23.1
Lưu ý: Các dòng 10-21 không được trình bày.
24
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Thực hiện phân tích hồi quy bội
Bước 1 Chọn menu kéo xuống Tools
Bước 2 Chọn dùng Data Analysis
Bước 3 Chọn dùng Regression từ danh sách Analysis
Tools
… còn nữa
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng
25
GV: Th.S Trần Kim Ngọc
Đại học Công nghệ Sài Gòn
Thực hiện phân tích hồi quy bội
Bước 4 Khi hộp thoại Regression hiện ra:
Nhập D1:D21 vào hộp Input Y Range
Nhập B1:C21 vào hộp Input X Range
Chọn Labels
Chọn Confidence Level
Nhập 95 vào hộp Confidence Level
Chọn Output Range và nhập A24 vào hộp
Output Range
Nhắp chuột vào OK
Sử dụng công cụ Regression của Excel để xây dựng
phương trình hồi quy bội ước lượng