Tải bản đầy đủ (.ppt) (50 trang)

Giới thiệu Phân tích hồi quy tuyến tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (591.55 KB, 50 trang )

Giới thiệu Phân tích hồi quy tuyến tính

Dr. Tuan V. Nguyen
Garvan Institute of Medical Research
Sydney


Nếu cho một người ba loại vũ khí – tương
quan, hồi quy và cây bút, hắn sẽ dùng cả
ba (Anon, 1978)


Ví dụ
Tuổi và nồng độ
cholesterol của 18
người đo được như
sau

ID
1
2
3
4
5
6
7
8
9
10
11
12


13
14
15
16
17
18

Age
(mg/ml)
46
20
52
30
57
25
28
36
22
43
57
33
22
63
40
48
28
49

Chol
3.5

1.9
4.0
2.6
4.5
3.0
2.9
3.8
2.1
3.8
4.1
3.0
2.5
4.6
3.2
4.2
2.3
4.0


Nhập số liệu vào R
id <- seq(1:18)
age <- c(46, 20, 52, 30,
43, 57, 33, 22,
chol <- c(3.5, 1.9, 4.0,
3.8, 4.1, 3.0,
plot(chol ~ age, pch=16)

57, 25, 28, 36, 22,
63, 40, 48, 28, 49)
2.6, 4.5, 3.0, 2.9, 3.8, 2.1,

2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
# Ve bieu do tan xa


2.0

2.5

3.0

chol

3.5

4.0

4.5

Tương quan giữa tuổi và nồng độ
cholesterol

20

30

40
age

50


60


Câu hỏi nghiên cứu
• Mối tương quan giữa tuổi và nồng độ cholesterol
• Mức độ tương quan
• Tiên đoán nồng độ cholesterol ứng với mỗi lứa tuổi

Phân tích tương quan và hồi quy


Phương sai và hiệp phương sai:
Đại số
• Coi x và y là hai biến ngẫu nhiên rút ra từ một mẫu quan sát n
đối tượng.
• Đo lượng độ dao động giứa x và y: phương sai

var( x ) = ∑
n

i =1

( xi − x )

2

n −1

n


var( y ) = ∑

( yi − y ) 2

i =1

• Hiệp phương sai giữa x và y

var(x + y) = var(x) + var(y)
var(x + y) = var(x) + var(y) + 2cov(x,y)
Trong đó:

1 n
∑ ( xi − x )( yi − y )
cov( x, y ) =
i
n − 1 =1

n −1


Phương sai và Hiệp phương sai:
Hình học
• Tính độc lập và phụ thuộc giữa x và y có thể biểu
diễn bằng hình học:
h

y

y


h

H
x
h2 = x2 + y2

x
h2 = x2 + y2 – 2xycos(H)


Ý nghĩa của Phương sai và
Hiệp phương sai
• Phương sai luôn luôn là số dương
• Nếu hiệp phương sai = 0, x và y độc lập với nhau.
• Hiệp phương sai là một tổng của một tích chéo: do
đó có thể âm và cũng có thể dương.
• Hiệp phương sai âm = lệch pha giữa hai phân phối
theo hướng ngược chiều nhau.
• Hiệp phương sai dương = lệch pha giữa hai phân
phối theo hướng cùng chiều nhau.
• Hiệp phương sai = đo lường cường độ tương quan.


Hiệp phương sai và tương quan
• Hiệp phương sai là một đơn vị phụ thuộc.
• Hệ số tương quan (r) giữa x và y là một hiệp
phương sai được chuẩn hoá.
• r được xác định bằng:


cov( x, y )
cov( x, y )
r=
=
var( x ) × var( y ) SDx × SD y


quan thuận và nghịch
-15

Tương

r = -0.9

15

-30

20

-25

y

y

25

-20


30

r = 0.9

8

10

12

14
x

16

8

10

12

14
x

16


Kiểm định giả thuyết tương quan
• Giả thuyết: Ho: r = 0 ngược với Ho: r không bằng 0.
1− r2

• Sai số chuẩn (Standard error) của r : SE ( r ) =
n−2
• The t-statistic:
n−2
t=r
1− r 2
• Thống kê này có phân phối t với n – 2 bậc tự do.
• Fisher’s z-transformation:

1 1 + r 
z = ln

2 1− r 

• Standard error of z:

SE ( z ) =

1
n−3

• Do vậy 95% CI của z có thể tính bằng: z ±

1
n−3


Minh hoạ phân tích tương quan
ID


Age Cholesterol
(x) (y; mg/100ml)
1
46
3.5
2
20
1.9
3
52
4.0
4
30
2.6
5
57
4.5
6
25
3.0
7
28
2.9
8
36
3.8
9
22
2.1
10

43
3.8
11
57
4.1
12
33
3.0
13
22
2.5
14
63
4.6
15
40
3.2
16
48
4.2
17
28
2.3
18
49
4.0
Mean 38.83 3.33
SD
13.60 0.84


Cov(x, y) = 10.68
cov( x, y )
10.68
r=

SDx × SDy

=

13.60 × 0.84

= 0.94

1  1 + 0.94 
z = ln
 = 0.56
2  1 − 0.94 
SE ( z ) =

1
1
=
= 0.26
n−3
15

t-statistic = 0.56 / 0.26 = 2.17
Critical t-value with 17 df and alpha = 5% is
2.11
Kết luận: Giữa tuổi và nồng độ cholesterol

có một mối tương quan có ý nghĩa thống
kê..


Phân tích hồi quy tuyến tính đơn
• Chỉ khảo sát có hai biến: một là biến đáp ứng
(response variable) và một là biến dự đoán
(predictor variable)
• Không có điều chỉnh cho yếu tố nhiễu hoặc các hiệp
biến khác
• Đánh giá:
– Lượng hoá mối tương quan giữa hai biến.

• Dự đoán
– Xây dựng mô hình dự đoán và đánh giá

• Kiểm soát
– Điều chỉnh yếu tố nhiễu (trường hợp phân tích đa biến)


2.0

2.5

3.0

chol

3.5


4.0

4.5

Tương quan giữa tuổi và nồng độ
cholesterol

20

30

40
age

50

60


Mô hình hồi quy tuyến tính
• Y : biến ngẫu nhiên, là một biến đáp ứng (response)
• X : biến ngẫu nhiên, là biến dự đoán, hay yếu tố nguy
cơ (predictor, risk factor)
– Cả Y và X có thể là số liệu nhóm (e.g., yes / no) hoặc biến
liên tục (e.g., age).
– Nếu Y là biến phân nhóm thì sử dụng mô hình logistic
regression; nếu Y là biến liên tục thì sử dụng mô hình
hồi quy tuyến tính đơn.

• Mô hình:

Y = α + βX + ε

α : intercept
β : slope / gradient
ε : random error (mức độ dao động giữa các đối tượng trong số y sự
kiện nếu x không đổi (ví dụ biến đổi cholesterol trong một nhóm
cùng lứa tuổi)


Các giả định của mô hình tuyến tính
• Các thông số có mối tương quan tuyến tính
(đường thẳng) với nhau;
• X đo lường không có sai số;
• Các giá trị Y tương ứng là độc lập với nhau
(ví dụ Y1 không có mối tương quan với Y2) ;
• Sai số ngẫu nhiên (ε) có phân phối chuẩn với
trung bình =0 và phương sai cố định.


Giá trị kỳ vọng và phương sai
• Nếu các giả định thoả mãn:
• Giá trị kỳ vọng của Y là: E(Y | x) = α + βx
• Phương sai của Y là: var(Y) = var(ε) = σ2


Ước lượng các thông số của mô
hình hồi quy tuyến tính
Cho hai điểm A(x1, y1) và B(x2, y2) trong một mặt phẳng 2 chiều,
chúng ta có thể có một phương trình đường thẳng nối hai điểm
này.


Góc lệch:

y
B(x2,y2)

dy
A(x1,y1)

a
0

m=

dy y2 − y1
=
dx x2 − x1

Phương trình: y = mx + a
Vậy nếu chúng ta có hơn 2
điểm thì sao?

dx

x


Ước tính α và β
• Có một loạt cặp đôi: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn)
• Cho a và b là các ước số của các thông số a và b,

• Chúng ta có phương trình của mẫu nghiên cứu: Y* = a
+ bx
• Mục đích: tìm các giá trị của a và b sao cho (Y – Y*) là
tối thiểu.
• Cho SSE = tổng của (Yi – a – bxi)2.
• Các giá trị a và b có thể làm SSE đạt giá trị nhỏ nhất
gọi là các ước số bình phương tối thiểu (least square
estimates).


Tiêu chuẩn ước tính
yˆ i = a + bxi
yi

d i = yi − yˆ i

Chol

Age
Mục đích của ước số bình phương tối thiểu là để tìm được các giá trị a
và b sao cho tổng của d2 có giá trị nhỏ nhất.


Ước tính α và β
• Sau một số bước tính toán, chúng ta có:

a = y − bx
S xy
b=
S xx

Trong đó: S xx = ∑ ( xi − x ) 2
n

i =1

S xy = ∑ ( xi − x )( yi − y )
n

i =1



Nếu các giả định của hồi quy là hợp lý, các ước số của α và β sẽ:
– Không sai lệch
– Phương sai tối thiểu (nghĩa là hiệu quả)


Goodness-of-fit
• Bây giờ chúng ta có phương trình:
Y = a + bX + e
• Câu hỏi: Phương trình này có thể mô tả dữ
liệu tốt cỡ nào?
• Trả lời: hệ số xác định (R2): mức độ biến thiên
trong Y có thể giải thích bằng mức độ biến
thiên trong nhóm X.


Tách nhóm biến thiên: khái niệm
• SST = tổng của các mức độ khác biệt bình phương
giữa từng giá trị yi và trị số trung bình của y.

• SSR = tổng của các mức độ khác biệt bình phương
giữa giá trị dự đoán của y và trị số trung bình của y.
• SSE = tổng của các mức độ khác biệt bình phương
giữa các giá trị quan sát và giá trị dự đoán của y.
SST = SSR + SSE
Khi đó hệ số xác định là: R2 = SSR / SST


Tách nhóm biến thiên: minh hoạ
hình học
SSE
SST
Chol (Y)

SSR
mean

Age (X)


×