Tải bản đầy đủ (.pdf) (25 trang)

Giới Thiệu Phân Tích Hồi Quy Tuyến Tính.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (524.27 KB, 25 trang )

Giới thiệu Phân tích hồi quy tuyến tính

Dr. Tuan V. Nguyen
Garvan Institute of Medical Research
Sydney


Nếu cho một người ba loại vũ khí – tương
quan, hồi quy và cây bút, hắn sẽ dùng cả
ba (Anon, 1978)


Ví dụ
Tuổi và nồng độ
cholesterol của 18
người đo được như
sau

ID
1
2
3
4
5
6
7
8
9
10
11
12


13
14
15
16
17
18

Age
(mg/ml)
46
20
52
30
57
25
28
36
22
43
57
33
22
63
40
48
28
49

Chol
3.5

1.9
4.0
2.6
4.5
3.0
2.9
3.8
2.1
3.8
4.1
3.0
2.5
4.6
3.2
4.2
2.3
4.0


Nhập số liệu vào R
id <- seq(1:18)
age <- c(46, 20, 52, 30,
43, 57, 33, 22,
chol <- c(3.5, 1.9, 4.0,
3.8, 4.1, 3.0,
plot(chol ~ age, pch=16)

57, 25, 28, 36, 22,
63, 40, 48, 28, 49)
2.6, 4.5, 3.0, 2.9, 3.8, 2.1,

2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
# Ve bieu do tan xa


2.0

2.5

3.0

chol

3.5

4.0

4.5

Tương quan giữa tuổi và nồng độ
cholesterol

20

30

40
age

50


60


Câu hỏi nghiên cứu
• Mối tương quan giữa tuổi và nồng độ cholesterol
• Mức độ tương quan
• Tiên đốn nồng độ cholesterol ứng với mỗi lứa tuổi

Phân tích tương quan và hồi quy


Phương sai và hiệp phương sai:
Đại số
• Coi x và y là hai biến ngẫu nhiên rút ra từ một mẫu quan sát n
đối tượng.
• Đo lượng độ dao động giứa x và y: phương sai

var( x ) = ∑
n

i =1

( xi − x )

2

n −1

n


var( y ) = ∑

( yi − y ) 2

i =1

• Hiệp phương sai giữa x và y

var(x + y) = var(x) + var(y)
var(x + y) = var(x) + var(y) + 2cov(x,y)
Trong đó:

1 n
∑ ( xi − x )( yi − y )
cov( x, y ) =
i
n − 1 =1

n −1


Phương sai và Hiệp phương sai:
Hình học
• Tính độc lập và phụ thuộc giữa x và y có thể biểu
diễn bằng hình học:
h

y

y


h

H
x
h2 = x2 + y2

x
h2 = x2 + y2 – 2xycos(H)


Ý nghĩa của Phương sai và
Hiệp phương sai
• Phương sai ln ln là số dương
• Nếu hiệp phương sai = 0, x và y độc lập với nhau.
• Hiệp phương sai là một tổng của một tích chéo: do
đó có thể âm và cũng có thể dương.
• Hiệp phương sai âm = lệch pha giữa hai phân phối
theo hướng ngược chiều nhau.
• Hiệp phương sai dương = lệch pha giữa hai phân
phối theo hướng cùng chiều nhau.
• Hiệp phương sai = đo lường cường độ tương quan.


Hiệp phương sai và tương quan
• Hiệp phương sai là một đơn vị phụ thuộc.
• Hệ số tương quan (r) giữa x và y là một hiệp
phương sai được chuẩn hố.
• r được xác định bằng:


cov( x, y )
cov( x, y )
r=
=
var( x ) × var( y ) SDx × SD y


quan thuận và nghịch
-15

Tương

r = -0.9

15

-30

20

-25

y

y

25

-20


30

r = 0.9

8

10

12

14
x

16

8

10

12

14
x

16


Kiểm định giả thuyết tương quan
• Giả thuyết: Ho: r = 0 ngược với Ho: r khơng bằng 0.
1− r2

• Sai số chuẩn (Standard error) của r : SE ( r ) =
n−2
• The t-statistic:
n−2
t=r
1− r 2
• Thống kê này có phân phối t với n – 2 bậc tự do.
• Fisher’s z-transformation:

1 1 + r 
z = ln

2 1− r 

• Standard error of z:

SE ( z ) =

1
n−3

• Do vậy 95% CI của z có thể tính bằng: z ±

1
n−3


Minh hoạ phân tích tương quan
ID


Age Cholesterol
(x) (y; mg/100ml)
1
46
3.5
2
20
1.9
3
52
4.0
4
30
2.6
5
57
4.5
6
25
3.0
7
28
2.9
8
36
3.8
9
22
2.1
10

43
3.8
11
57
4.1
12
33
3.0
13
22
2.5
14
63
4.6
15
40
3.2
16
48
4.2
17
28
2.3
18
49
4.0
Mean 38.83 3.33
SD
13.60 0.84


Cov(x, y) = 10.68
cov( x, y )
10.68
r=

SDx × SDy

=

13.60 × 0.84

= 0.94

1  1 + 0.94 
z = ln
 = 0.56
2  1 − 0.94 
SE ( z ) =

1
1
=
= 0.26
n−3
15

t-statistic = 0.56 / 0.26 = 2.17
Critical t-value with 17 df and alpha = 5% is
2.11
Kết luận: Giữa tuổi và nồng độ cholesterol

có một mối tương quan có ý nghĩa thống
kê..


Phân tích hồi quy tuyến tính đơn
• Chỉ khảo sát có hai biến: một là biến đáp ứng
(response variable) và một là biến dự đốn
(predictor variable)
• Khơng có điều chỉnh cho yếu tố nhiễu hoặc các hiệp
biến khác
• Đánh giá:
– Lượng hố mối tương quan giữa hai biến.

• Dự đốn
– Xây dựng mơ hình dự đốn và đánh giá

• Kiểm sốt
– Điều chỉnh yếu tố nhiễu (trường hợp phân tích đa biến)


2.0

2.5

3.0

chol

3.5


4.0

4.5

Tương quan giữa tuổi và nồng độ
cholesterol

20

30

40
age

50

60


Mơ hình hồi quy tuyến tính
• Y : biến ngẫu nhiên, là một biến đáp ứng (response)
• X : biến ngẫu nhiên, là biến dự đoán, hay yếu tố nguy
cơ (predictor, risk factor)
– Cả Y và X có thể là số liệu nhóm (e.g., yes / no) hoặc biến
liên tục (e.g., age).
– Nếu Y là biến phân nhóm thì sử dụng mơ hình logistic
regression; nếu Y là biến liên tục thì sử dụng mơ hình
hồi quy tuyến tính đơn.

• Mơ hình:

Y = α + βX + ε

α : intercept
β : slope / gradient
ε : random error (mức độ dao động giữa các đối tượng trong số y sự
kiện nếu x khơng đổi (ví dụ biến đổi cholesterol trong một nhóm
cùng lứa tuổi)


Các giả định của mơ hình tuyến tính
• Các thơng số có mối tương quan tuyến tính
(đường thẳng) với nhau;
• X đo lường khơng có sai số;
• Các giá trị Y tương ứng là độc lập với nhau
(ví dụ Y1 khơng có mối tương quan với Y2) ;
• Sai số ngẫu nhiên (ε) có phân phối chuẩn với
trung bình =0 và phương sai cố định.


Giá trị kỳ vọng và phương sai
• Nếu các giả định thoả mãn:
• Giá trị kỳ vọng của Y là: E(Y | x) = α + βx
• Phương sai của Y là: var(Y) = var(ε) = σ2


Ước lượng các thơng số của mơ
hình hồi quy tuyến tính
Cho hai điểm A(x1, y1) và B(x2, y2) trong một mặt phẳng 2 chiều,
chúng ta có thể có một phương trình đường thẳng nối hai điểm
này.


Góc lệch:

y
B(x2,y2)

dy
A(x1,y1)

a
0

m=

dy y2 − y1
=
dx x2 − x1

Phương trình: y = mx + a
Vậy nếu chúng ta có hơn 2
điểm thì sao?

dx

x


Ước tính α và β
• Có một loạt cặp đơi: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn)
• Cho a và b là các ước số của các thông số a và b,

• Chúng ta có phương trình của mẫu nghiên cứu: Y* = a
+ bx
• Mục đích: tìm các giá trị của a và b sao cho (Y – Y*) là
tối thiểu.
• Cho SSE = tổng của (Yi – a – bxi)2.
• Các giá trị a và b có thể làm SSE đạt giá trị nhỏ nhất
gọi là các ước số bình phương tối thiểu (least square
estimates).



×