Tải bản đầy đủ (.pdf) (25 trang)

Hồi quy tuyến tính nâng cao

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (370.99 KB, 25 trang )

TRƯỜNG ĐẠI HỌC Y TẾ CÔNG CỘNG
BỘ MÔN DỊCH TỄ- THỐNG KÊ

Hồi quy tuyến tính và
Tương quan

1


ỨNG DỤNG
– Phân tích mối quan hệ giữa biến độc lập (định
lượng) và biến phụ thuộc (định lượng):
Ví dụ: mối quan hệ giữa mức độ mỡ trong máu và tuổi

– Dự đoán các giá trị của các biến phụ thuộc (y)
dựa trên các giá trị của các độc lập (x1, x2,…xk).
Ví dụ: dự đoán huyết áp dựa trên tuổi, cân nặng, ....

2


TƯƠNG QUAN
Tương quan là một trong những phép thống kê
dùng để đo lường mối liên quan giữa hai biến
định lượng.
Tương quan được sử dụng để xác định ĐỘ LỚN
của mối quan hệ giữa hai biến liên tục với giả
định mối quan hệ này là tuyến tính.

3



TƯƠNG QUAN
r = -1

0

0

2

2

4

4

x2

var8

6

6

8

8

10


10

r= 1

0

4

2

x1

8

6

0

10

2

4

r= 0

x1

6


8

10

6

8

10

1

0

.2

2

.4

uvar
3

var6

.6

4

.8


5

1

r= 0

0

5

10
x1

15

20

0

2

4

x1

4


TƯƠNG QUAN

• Hệ số tương quan đo lường mức độ liên quan
giữa hai biến x và y.
• Hệ số tương quan trong quần thể ký hiệu bằng ρ
(rho) và có thể hiểu là trung bình nhân độ lệch
chuẩn của X vàY.
• Giá trị ước tính ký hiệu bằng r (giá trị trong
khoảng từ -1 đến 1)
5


TƯƠNG QUAN VÀ TUYẾN TÍNH
Nếu có một mối quan hệ tuyến tính giữa x và y, thì
các điểm được xác định qua x,y có xu hướng
nằm trên một đường thẳng
Æ Hệ số tương quan chỉ nói lên mối quan hệ
tuyến tính, không nói lên mối quan hệ nhân
quả giữa hai biến.

6


HẠN CHẾ CỦA TƯƠNG QUAN
1. Tương quan chỉ đánh giá mối quan hệ tuyến
tính giữa hai biến
2. Cần cân nhắc các số liệu bất thường (outliers).
Giá trị hệ số tương quan bị ảnh hưởng rất nhiều
bởi các giá trị bất thường
Æ Tương quan Pearson vs. tương quan phi tham
số (tương quan hạng Spearman)
7



HẠN CHẾ CỦA TƯƠNG QUAN
3. Không thể ngoại suy dựa vào khoảng giá trị của
các biến quan sát.
4. Giá trị của hệ số tương quan lớn không đồng
nghĩa với việc mối quan hệ giữa hai biến này là
quan hệ nhân quả.

8


QUAN HỆ TUYẾN TÍNH
Chúng ta nói biến x và y có mối quan hệ tuyến tính
khi mối quan hệ quan sát được được thể hiện
trên một đường thẳng.
Chúng ta đo lường sự liên quan tuyến tính của các
quan sát thông qua phép tính hệ số tương quan.

9


HỒI QUI
Phân tích hồi quy giúp ước lượng mối quan hệ giữa
hai biến.
- Hồi qui tuyến tính
- Hồi qui logistics

Mục tiêu của phép phân tích này là dự báo hoặc
ước lượng giá trị của một biến (biến phụ thuộc)

khi biết giá trị của biến khác (biến độc lập).
10


HỒI QUI
Trong mô hình hồi quy tuyến tính đơn giản chỉ quan
tâm tới hai biến x và y.
– Biến x được biết đến là biến ĐỘC LẬP.
– Biến còn lại y, gọi là biến BiẾN PHỤ THUỘC

Æ xây dựng hồi quy cho x và y.

11


GiẢ ĐỊNH
(1) Phân bố của giá trị y tại với mỗi giá trị x có phân
bố chuẩn

12


GiẢ ĐỊNH
(2) Mối quan hệ giữa hai biến y và x tuân theo
hàm số:

µy|x = β0 + β1x

13



GiẢ ĐỊNH
(3) Phương sai đồng nhất: phân bố phương sai của
y không thay đổi với giá trị x

14


GiẢ ĐỊNH
(4) Các quan sát yi độc lập (không được tính toán
một giá trị y của một đối tượng dựa vào một
hoặc nhiều đối tượng khác)
- Đo lường một đối tượng nhiều lần…

Đây là một giả định quan trong khi xây dựng
mô hình hồi qui.

15


HỒI QUI TUYẾN TÍNH ĐƠN
Hồi quy tuyến đơn là một kỹ thuật sử dụng mối
quan hệ “đường thẳng” (tuyến tính) để dự báo
giá trị của biến độc lập Y từ một biến độc lập x.
Nghĩa là, nếu x và y được thể hiện trên biểu đồ
chấm điểm (scatter plots) Æ có mối quan hệ
tuyến tính giữa các điểm.
16



Biểu đồ scatter plots

17


ĐiỂM CẮT VÀ ĐỘ DỐC
Giá trị điểm cắt Y là giá trị của y khi x = 0, và ký
hiệu β0.
Giá trị độ dốc là sự thay đổi của mỗi đơn vị y khi x
thay đổi và được ký hiệu là β1.
– Giá trị độ dốc dương thể hiện y tăng khi x tăng.
– Giá trị độ dốc âm thể hiện khi x tăng thì y giảm.

18


PHƯƠNG TRÌNH HỒI QUI
Y = β0 + β 1 X
Dùng để thể hiện mối quan hệ cho đường tuyến
tính. Làm thế nào để chọn đường thẳng này?
Æ Dùng phương pháp đường bình phương tối
thiểu!

19


KiỂM ĐỊNH GiẢ THUYẾT
• Liệu có mối quan hệ giữa x và y không.
– Nếu không có mối quan hệ Æx thay đổi, y không
thay đổi: β1=0 (giả thuyết gốc); tương đương ρ=0.

– Có mối quan hệ Æ x thay đổi Æ y thay đổi (β1≠0)
• Có thể tính khoảng tin cậy 95% cho β1

20


PHÂN TÍCH VỚI SPSS
- Hệ số tương quan
- Analyze/ Correlate/ Bivariate…
- Analyze/ Regression/ Linear…

- Hồi qui tuyến tính
- Analyze/ Regression/ Linear…

21


KẾT QUẢ PHÂN TÍCH
1. Cho biết hệ số hồi quy.
2. Cho biết khoảng tin cậy của hệ số hồi quy.
3. Cho chúng ta giá trị kiểm định p
4. Cho chúng ta biết giá trị r (hệ số tương quan)
5. Cho chúng ta biết giá trị r2 (hệ số xác định)

22


THỰC HÀNH
- Sử dụng bộ số liệu BMI.sav (elearning)
Thực hiện các phân tích thống kê phù hợp để kiểm

định các giả thuyết về mối quan hệ giữa BMI với:
- Giới tính
- Carolie
- Thể thao
- Số tiền dành mua thức ăn trong 1 tháng
- Thu nhập
23


HỒI QUI ĐA BiẾN

BMI
Purchase

Thu nhập
Giới
Income
Gender

y= β0 + β1X1 + β2X2 + β3X3
BUỔI HỌC SAU

Tuổi
Age


Tài liệu tham khảo
• Tài liệu bắt buộc:
– Trường đại học y tế Công cộng (2005), Thống
kê Y tế 1: Phần cơ bản, Nhà xuất bản y học,

2005.
– Trường đại học y tế Công cộng (2005), Thống
kê Y tế 2: Phân tích số liệu định lượng, Nhà
xuất bản y học, 2005.

• Tài liệu tham khảo:
– Kirkwood B.R. (2000) Essentials of Medical
Statistics. Blackwell Science.
– Tài liệu phát tay của giảng viên khóa học
25


×