1
Hồi qui logistic
2
Các nội dung chính
Hồi qui của một biến lưỡng phân
Tỷ lệ (odds)
Mô hình logistic
Ước lượng của mô hình
Tỷ số tỉ lệ Odds ratio
3
Hồi qui của một biến lưỡng
phân
Xem xét mối liên hệ :
Thành công hoặc thất bại của một doanh
nghiệp mới (y)
với các đặc điểm của chủ doanh nghiệp :
Tuổi (x
1
)
Năm kinh nghiệm (x
2
)
Học vấn (x
3
)
4
Thiết lập mô hình thứ nhất
Mã hoá của y:
y=1 nếu thành công
y=0 nếu thất bại
Mô hình tuyến tính nói chung có dạng:
Ý nghĩa :
E(y)=P(y=1)=
bbbb
3
3
2
2
1
10
xxxy
5
Các vấn đề
Vấn đề 1: Yêu cầu về phân phối chuẩn của các số
sai số của mô hình (error) không được tôn trọng.
Vấn đề 2: Giả thiết về không có tự tương quan và
phương sai không giống nhau của các sai số của
mô hình (homoscédasticité) không được tôn trọng.
Vấn đề 3: y thể hiện một trị xác suất có giá trị từ 0
đến 1. Hàm hồi qui không thể đảm bảo điều đó.
6
Lựa chọn khác : phân tích tách biệt
(discriminant)
X
1
X
2
Z=a
1
X
1
+ a
2
X
2
7
Tỉ lệ (Odds)
Tỷ tỉ lệ giữa xác suất quan sát một sự kiện trên
xác suất không quan sát nó
Ví dụ:
Nếu xác suất thành công của doanh nghiệp mới là
0,8, thì:
Cơ hội để doanh nghiệp thành công gấp 4 lần so
với thất bại
)E(P1
)E(P
odds
E
4
2,0
8,0
)S(P1
)S(P
odds
s
8
Hàm lũy tích
x
1
1
0
F(
x
1
)=P(X<
x
1
)
X
1
0
f(
X
)
9
Hồi qui logistic
Thiết lập phương trình
Giải pháp là tìm ra mối liên hệ giữa y với x
1
, x
2
và x
3
, mối
liên hệ bảo đảm rằng y sẽ nằm trong khoảng giữa 0 và 1.
Chúng ta thiết lập mô hình logarít của tỉ lệ (odds) :
3322110
xxx
1
ln bbbb
3
3
2
2
1
0
1
3
3
2
2
1
10
xxxexp1
xxxexp
)1y(P)y(E
bb
b
b
b
b
b
b
10
Mô hình logistic
x
x
yPyE
bb
bb
10
10
exp1
exp
)1()(
x
1
0
E(y)
Xác suất, tỉ lệ (odds), logarít là 3 dạng khác nhau của
cùng một thứ
11
Mô hình logistic
0
x
1
E(y)
tiếp
x
1
E(y)
0
12
Hồi qui logistic
Giả sử rằng ta có một biến phụ thuộc y có các giá trị
là 0 và 1 mà ta cần giải thích bằng 3 biến độc lập liên
tục
x
1
, x
2
và x
3
.
Có một biến ngầm (cơ bản) y* không thể quan sát được
như sau đây :
y=1 với y*>0
y=0 nếu y*<=0
b
b
b
b
3322110
xxx*y
tiếp
13
Hồi qui logistic
)()1(
)(1)1(
)()1(
)
0
(
)
1
(
3322110
3322110
3322110
3322110
xxxFyP
xxxFyP
xxxPyP
x
x
x
P
y
P
bbbb
bbbb
bbbb
b
b
b
b
tiếp
Vậy, vấn đề trở thành việc xác định dạng của F
14
Hồi qui logistic
tiếp
Trong số các dạng có thể, có :
Hàm logistic (Mô hình logit)
Hàm tích lũy của luật phân phối chuẩn (mô hình probit)
3
3
2
2
1
0
1
3
3
2
2
1
10
xxxexp1
xxxexp
)1y(P
bb
b
b
b
b
b
b
3
3
2
2
1
10
)1( xxxyP
b
b
b
b
3322110
)1(1
)1(
ln xxx
YP
YP
bbbb
15
Cực đại hàm hợp lý
Cho X là một biến phân phối với tham số
Cho X
1
, X
2
, …, X
n
là một số quan sát để từ đó ta
tìm cách xác định
Phương pháp cực đại hợp lý coi giá trị này của
phải là giá trị làm cực đại xác suất đạt được các giá
trị quan sát trên X.
Qui trình:
Xác định hàm của , FV(), được gọi là hàm hợp lý, nó cho
phép mô tả xác suất đạt được các giá trị quan sát của X
Cực đại hóa hàm này đối với
16
Cực đại hàm hợp lý
FV()=f(X
1
;)xf(X
2
;)x…xf(X
n
;)
Nếu X là một biến rời rạc, FV() là tích các xác suất
Nếu X là một biến liên tục, FV() là tích các hàm mật độ
xác suất
Cực đại hóa FV() hoặc hàm hợp lý
FV() đạt cực đại với giá trị của khi giá trị này bỏ đạo
hàm bậc nhất
tiếp
0
)(
FV
17
Cực đại hàm hợp lý
Nhìn chung, việc thực hiện một phép biến đổi
logarít của FV() khi nó có dạng là một tổng hàm
của sẽ tiện lợi hơn khi FV() là một tích.
Vậy ta chỉ tính toán trên L()=logFV() mà người
ta gọi là hàm logarit hợp lý
L() và FV() đạt cực đại với cùng giá trị
Vậy ta sẽ giải như sau:
tiếp
0
)
(
L
18
Cực đại hàm hợp lý
Ví dụ về qui luật chuẩn
Cho X là một biến phân phối chuẩn với các tham số
et
2
Ta có một mẫu với n quan sát X
1
, X
2
, …, X
n
Hàm mật độ của một biến X phân phối chuẩn là:
tiếp
2
2
)(
2
1
.
2
1
)(
X
eXf
19
Cực đại hàm hợp lý
Đối với một giá cụ thể của X
i
Hàm hợp lý
tiếp
2
2
)(
2
1
.
2
1
)(
i
X
i
eXf
n
i
i
X
n
n
i
i
eXfFV
1
2
2
)(
2
1
1
2
.
2
1
)(),(
20
Cực đại hàm hợp lý
Hàm logarit hợp lý
Lấy đạo hàm
tiếp
n
i
i
n
i
i
XnXfL
1
2
2
1
2
)(
2
1
2
1
log)(log),(
n
i
i
n
i
i
n
i
i
X
nnL
XXf
L
1
2
422
2
1
2
1
2
0)(
2
2
),(
0)(
1
)(log
),(
21
Cực đại hàm hợp lý
Đánh giá cực đại của hàm hợp lý
tiếp
n
i
i
n
i
i
XX
n
XX
n
1
22
1
)(
1
ˆ
1
ˆ
22
Ví dụ
Trong 700 người vay tiền ngân hàng, ta có
thông tin sau :
Người (y) khó khăn khi hoàn trả (1) hoặc
không khó khăn (0)
Số năm làm việc với cùng một ông chủ
(employ)
Tỷ số nợ so với thu nhập (nợ).
23
Ví dụ
tiếp
24
Ví dụ
tiếp
25
Ước lượng tổng quát của mô
hình
Việc tính các hệ số được làm với sự trợ giúp của
phép logarit lặp lại nhiều lần dựa trên phương
pháp cực đại hàm hợp lý
Ứơc lượng tổng quát được làm với sự trợ giúp của
c
2
(bậc tự do=số các biến độc lập)
c
2
này kiểm định giả thiết không :
H
0
: b
1
=b
2
=0
Mô hình này có ý nghiã về mặt tổng quát
Omnibus Tests of Model Coefficients
173,282 2 ,000
173,282 2 ,000
173,282 2 ,000
Step
Block
Model
Step 1
Chi-square df Sig.