Tải bản đầy đủ (.pdf) (41 trang)

Hồi quy tuyến tính đơn và đa biến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 41 trang )

HỒI QUI TUYẾN TÍNH
Bùi Thị Tú Quyên
MỤC TIÊU BÀI HỌC
Sau khi học xong bài này học viên có khả năng sau:
1. Phân biệt được hồi qui tuyến tính đơn giản và hồi qui tuyến tính đa biến
2. Mô tả được các ứng dụng thường gặp của phân tích hồi quy tuyến tính
3. Trình bày và kiểm chứng được các giả định cho phân tích hồi qui
4. Sử dụng SPSS xây dựng được mô hình hồi qui tuyến tính từ đơn biến đến đa biến
và phiên giải.
NỘI DUNG
Hồi qui tuyến tính là một phương pháp phân tích thống kê y sinh học hay được sử
dụng. Trong thống kê cơ bản chúng ta đã học về tương quan và hồi qui tuyến tính đơn,
nếu hai biến có tương quan với nhau thì thông qua phương trình hồi qui đơn chúng ta có
thể dự đoán giá trị của biến phụ thuộc dựa trên một biến độc lập. Hồi qui tuyến tính đa
biến về cơ bản chỉ là mô hình mở rộng của hồi qui tuyến tính đơn giản khi chúng ta dự
đoán 1 biến (biến phụ thuộc) dựa trên một số biến độc lập.
1. Hồi qui tuyến tính đơn giản
Hệ số tương quan và hồi qui tuyến tính đơn mô tả mối liên quan giữa hai biến định
lượng, nếu hai biến có tương quan với nhau thì khi một biến thay đổi sẽ kéo theo sự thay
đổi của biến kia. Khi tính hệ số tương quan giữa hai biến, nếu hai biến có phân bố chuẩn
dùng hệ số tương quan Pearson; nếu hai biến có phân bố không chuẩn, tính hệ số tương
quan Kendall hoặc Speaman.
Phương trình hồi qui tuyến tính đơn mô tả mối liên quan giữa một biến phụ thuộc (y)
và một biến độc lập (x) có dạng: y=a+bx+ε
Các giá trị a, b, ε được ước tính từ bộ số liệu mẫu, phương pháp ước tính các đại
lượng thống kê này là phương pháp Bình phương tối thiểu (least square method) (Xem lại
sách Thống kê cơ bản- Đại học Y tế công cộng). Trong phân tích hồi qui tuyến tính,
phương trình hồi qui chỉ có ý nghĩa khi hệ số b khác 0. Có thể sử dụng kiểm định t cho
kiểm định giả thuyết β=0, nếu không bác bỏ được giả thuyết H0 (β=0) lúc đó hai biến
không có quan hệ tuyến tính mà có thể có các mối quan hệ khác.



2. Hồi qui tuyến tính đa biến
Trên thực tế, mô hình đa biến hay được sử dụng khi chúng ta quan tâm đến hành vi
hay sức khỏe của con người vì hành vi, kiến thức, thái độ, sức khỏe con người đều chịu
ảnh hưởng của nhiều yếu tố khác nhau chứ không chỉ là môt yếu tố (đơn biến). Sử dụng
mô hình hồi qui đa biến chúng ta có thể kiểm định giả thuyết (mô hình) một cách chính
xác mối liên quan của một số biến lên hành vi sức khỏe.
Phương trình tổng quát của hồi qui tuyến tính đa biến:
y = α + β1x1 + β2x2 + ...+βkxk + ε
Trong đó:
-

α, β1 , β2 là các hệ số hồi qui

-

εi sai số

-

y: Biến phụ thuộc

-

xk: Các biến độc lập

2.1. Ứng dụng của mô hình hồi qui tuyến tính đa biến
2.1.1 Cung cấp sự mô tả tốt nhất về biến phụ thuộc.
Khi mục đích chỉ đơn giản là mô tả sự thay đổi của một biến phụ thuộc thì ít khi cần
quan tâm đến sự loại bỏ các biến ra khỏi mô hình, cũng không cần quan tâm đến mối

quan hệ nhân quả hay tính hiện thực của mô hình. Sự mô tả biến phụ thuộc tốt nhất thông
qua tổng bình phương phần dư sẽ dựa trên một mô hình đầy đủ (bao gồm tất cả các biến
độc lập) và không cần quan tâm các biến đó có mối quan hệ hay không hoặc là mô hình
có thực tế hay không.
2.1.2 Dự đoán giá trị của biến phụ thuộc và tính toán giá trị trung bình của biến phụ
thuộc.
Với mục tiêu này, sự loại bỏ hay giữ lại các biến phù hợp trở nên quan trọng cho
mục đính tính toán đường bình phương tối thiểu. Các mô hình hồi qui với ít biến độc lập
sẽ đơn giản cũng như kinh tế hơn trong việc thu thập thông tin cần thiết để đưa vào mô
hình. Mục đích của việc loại bỏ biến là có được sự tương xứng và phù hợp giữa mục tiêu
của nghiên cứu và sự đáp ứng của mô hình.
Bất kỳ một biến nào có thể cung cấp thông tin để dự đoán biến phụ thuộc và các
thông tin này có thể thu thập được với một nguồn lực hợp lý đều là các biến có thể đưa


vào một mô hình hồi qui. Tất nhiên việc xác định các biến phù hợp đưa vào mô hình còn
phụ thuộc vào y văn, kinh nghiệm của nhà nghiên cứu cũng như mối quan hệ về mặt y
sinh học giữa biến phụ thuộc và các biến độc lập.
2.1.3 Ngoại suy cho quần thể
Khi nhà phân tích mà muốn ngoại suy kết quả phân tích từ mẫu nghiên cứu cho quần
thể thì cần lưu ý đến việc lựa chọn biến đưa vào mô hình. Việc ngoại suy sẽ rất nguy
hiểm khi phương trình hồi qui được xây dựng lại không phải là mô hình thích hợp. Chính
vì vậy, nhà nghiên cứu cần phải luôn cập nhật phương trình hồi qui nếu muốn dùng
phương trình này cho mục đích ngoại suy (ví dụ dùng dự báo).
2.1.4 Ước lượng các tham số
Khi dùng mô hình để ước lượng các tham số quần thể cũng phải thận trọng trong việc
đưa biến vào mô hình. Cần phải hạn chế các sai số do các biến thích hợp không có trong
mô hình (bị đưa ra khỏi mô hình). Ngược lại, nếu các biến độc lập thực sự không có liên
quan đến biến phụ thuộc được bỏ ra khỏi mô hình thì phương sai/ sự biến thiên của các
ước lượng sẽ giảm, mô hình sẽ trở nên tốt hơn.

2.1.5 Khống chế các biến nhiễu
Đây là một ứng dụng rất phổ biến và cần thiết khi xây dựng mô hình hồi qui đa biến,
khống chế biến độc lập dưới vai trò biến nhiễu giúp loại trừ ảnh hưởng nhiễu đến các ước
lượng giá trị quần thể. Như vậy khi phân tích với mục tiêu khống chế nhiễu, chúng ta cần
quan tâm đến vai trò của các biến độc lập đưa vào để khống chế nhiễu phải đóng vai trò
của yếu tố thứ ba lên mối quan hệ nhân quả của biến độc lập chính (nguyên nhân) và biến
phụ thuộc (hậu quả) - Xem thêm bài Nhiễu và kiểm soát nhiễu
2.1.6 Phát triển các mô hình thực tế
Mục tiêu của một nghiên cứu cơ bản thường liên quan đến việc xây dựng các mô
hình, hầu hết là ở giai đoạn ban đầu của quá trình xây dựng mô hình. Để xây dựng, phát
triển mô hình cần phân loại các biến theo mối quan hệ nhân quả, điều này sẽ giúp cho
những nghiên cứu về sau áp dụng hoặc kiểm chứng lại lý thuyết. Với mục đích này, mô
hình hồi qui đa biến được xây dựng trở thành định hướng cho quá trình hiểu biết, nó sẽ
nhấn mạnh vào các mô hình được phát triển dựa trên thực tế và kinh nghiệm.


Mỗi một mục tiêu khi dùng mô hình hồi qui có những ý nghĩa khác nhau trong
mức độ quan tâm đến đưa biến số ra khỏi mô hình, mức độ quan trọng của các biến được
giữ lại với biến phụ thuộc và sự cố gắng để mô hình mang tính thực tế.
2.2. Một số câu hỏi nghiên cứu có thể dùng hồi qui tuyến tính đa biến
Hồi qui tuyến tính đa biến có thể được dùng để xác định mối quan hệ của một số
biến độc lập đến một biến phụ thuộc: Liệu cân nặng, lượng calo ăn vào, lượng chất béo
ăn vào và tuổi có liên quan đến lượng cholesterol trong máu không? Để trả lời câu hỏi
nhà nghiên cứu phải đo lường cân nặng, lượng calo, lượng chất béo ăn vào của từng đối
tượng NC cũng như tuổi của các đối tượng NC (các biến độc lập), và lượng cholesterol
máu (biến phụ thuộc- y). Hồi qui tuyến tính đa biến có thể xem xét các biến độc lập ảnh
hưởng như thế nào đến biến phụ thuộc.
Hồi qui tuyến tính đa biến có thể được dùng để dự đoán giá trị của biến phụ thuộc:
Dự đoán tuổi sống kỳ vọng dựa trên số lượng điếu thuốc hút trong ngày và số giờ tập thể
dục trong ngày. Nhóm nghiên cứu có thể quan sát số lượng điếu thuốc đối tượng hút, thói

quen tập thể dục cũng như tuổi tử vong của các đối tượng trong mẫu nghiên cứu. Dựa
trên phương trình hồi qui (xây dựng dựa trên các hệ số hồi qui): y=β0+β1*x1+β2*x2,
chúng ta có thể biết được tuổi sống kỳ vọng của các đối tượng trong quần thể nghiên cứu
khi biết số lượng điếu thuốc đối tượng hút (x1) và số giờ tập thể dục trong ngày (x2).
Hồi qui tuyến tính cũng có thể dùng để dự báo xu hướng: Nhà nghiên cứu có thể
muốn biết tuổi sống kỳ vọng sẽ giảm thế nào khi cân nặng bị thừa 1 cân và đối tượng hút
thêm 1 điếu thuốc? Các nhà nghiên cứu thu thập số liệu về số lượng điếu thuốc hút trung
bình, số cân nặng thừa cân và tuổi tử vong của đối tượng nghiên cứu. Phân tích hồi qui đa
biến có thể được dùng để dự báo xu hướng, ví dụ mỗi điếu thuốc hút sẽ làm tuổi sống kỳ
vọng giảm đi 2 giờ, mỗi kg cân nặng bị thừa sẽ làm tuổi sống kỳ vọng giảm đi 1 tháng.
Điều này đặc biệt có ích khi phân tích hồi qui cho thấy điểm cắt (β0) không có ý nghĩa
thống kê. Lúc đó hệ số hồi qui ít nhất có thể cho phép chúng ta dự báo xu hướng (nếu
các hệ số hồi qui có ý nghĩa thống kê).
Một trong những ích lợi cơ bản của phương pháp hồi qui đa biến là cho phép đánh
giá tác động riêng phần của từng yếu tố giải thích cho biến phụ thuộc.


2.3. Các giả định để xây dựng mô hình hồi qui đa biến
Để tiến hành phân tích, xây dựng mô hình hồi qui tuyến tính đa biến cần phải đáp
ứng một số tiêu chí và giả định sau:
Cỡ mẫu
Hồi qui tuyến tính đa biến yêu cầu ít nhất phải có 3 biến trong mô hình, ngoài ra
khi muốn làm hồi qui tuyến tính đa biến cũng cần phải tính toán xem cỡ mẫu có đủ để
phân tích không. Các nhà nghiên cứu cho rằng cần ít nhất là 20 đối tượng cho một biến số
độc lập của mô hình hồi qui để đưa vào phân tích, trong mô hình hồi qui đa biến đơn giản
nhất cũng cần cỡ mẫu là n >40 (2 biến độc lập). Ngoài ra cũng nhiều nhà nghiên cứu cho
rằng với một số phương pháp hồi qui tuyến tính yêu cầu ít nhất là 40 đối tượng cho một
biến độc lập đưa vào mô hình hồi qui.
Quan hệ tuyến tính
Hồi qui tuyến tính đa biến yêu cầu biến độc lập và biến phụ thuộc phải có mối

quan hệ tuyến tính. Ngoài ra cũng cần kiểm tra các giá trị cực trị (outlier) vì mô hình hồi
qui tuyến tính đa biến rất nhạy cảm với giá trị cực trị. Giả định mối quan hệ tuyến tính
giữa hai biến có thể kiểm tra thông qua biểu đồ mây/ tán xạ/ đồ thị chấm điểm.

Hình 1: Không có mối quan hệ tuyến tính

Hình 2: Quan hệ tuyến tính lỏng

Phân bố chuẩn
Hồi qui tuyến tính đa biến yêu cầu tất cả các biến đưa vào mô hình phải có phân
bố chuẩn. Giả định này có thể được kiểm định thông qua biểu đồ histogram cùng đường


phân phối chuẩn hoặc biểu đồ P-P-plot (Xem lại giáo trình Phân tích số liệu- Thống kê IIĐại học Y tế công cộng). Phân bố chuẩn cũng có thể được kiểm định thông qua các kiểm
định tính phù hợp của mô hình (goodness of fit) ví dụ kiểm định phi tham số
Kolmogorov-Smirnof. Nếu phân bố của biến không chuẩn mà nhà nghiên cứu vẫn muốn
đưa biến vào mô hình hồi qui thì có thể sử dụng các phép đổi biến: log, square….tuy
nhiên điều này có thể dẫn đến ảnh hưởng/ tác động của hiện tượng đa đồng tuyến tính
giữa các biến (Xem thêm phần đa cộng tuyến). Ngoài ra trong nhiều tình huống khi cỡ
mẫu lớn thì việc tính toán các kiểm định t hay F vẫn có giá trị cho dù phân bố của biến là
không chuẩn. Trong trường hợp phân bố không chuẩn, chúng ta cũng có thể tính toán mô
hình theo likelihood.

Hình 3: Biểu đồ Histogram với đường
cong phân bố chuẩn (Normal curve)

Hình 4: Biểu đồ PP-plot trong kiểm tra
phân phối chuẩn

Đa cộng tuyến (multicollinear)

Hồi qui tuyến tính đa biến có giả định là không có hoặc có rất ít hiện tượng đa
cộng tuyến trong bộ số liệu. Đa cộng tuyến xảy ra khi các biến độc lập trong mô hình có
liên quan với các biến độc lập khác trong mô hình. Giả định về tính độc lập quan trọng
thứ hai là sai số của các giá trị trung bình không tương quan với nhau. Điều này có nghĩa
là sai số chuẩn của giá trị trung bình của một biến độc lập là độc lập với sai số chuẩn của
các biến khác có trong mô hình.
Tương quan nội sinh (autocorrelation)
Phân tích hồi qui tuyến tính đa biến yêu cầu có ít hoặc không có sự tương quan nội
sinh trong bộ số liệu. Tương quan nội sinh xảy ra khi các phần dư không độc lập với


nhau. Nói một cách khác, đó là khi giá trị y(x+1) không độc lập với giá trị y(x). Ví dụ về
tương quan nội sinh xảy ra trong tính toán diễn biến của thị trường chứng khoán, khi giá
của ngày hôm nay là có liên quan đến giá của ngày hôm qua.

Hình 5: Biểu đồ biểu diễn diễn biến của thị trường chứng khoán
Đồ thị scatter plot cũng cho phép chúng ta kiểm định tính tương quan nội sinh,
ngoài ra có thể làm kiểm định d của Durbin-Watson để kiểm định giả thuyết H0 là các
phần dư không có sự tương quan tuyến tính. Giá trị của d trong khoảng 0-4, giá trị gần 2
chỉ ra rằng không có tương quan nội sinh, các nhà nghiên cứu cho rằng, giá trị d nằm
trong khoảng 1,5-2,5 cho phép kết luận không có tương quan nội sinh trong số liệu dùng
phân tích hồi qui tuyến tính đa biến.

Hình 6:Tương quan nội sinh

Hình 7: Biểu đồ scatter plot biểu thị
tương quan nội sinh

Sự đồng nhất của phương sai
Giả định về sự đồng nhất của phương sai, biểu đồ scatter plot là một phương pháp

tốt để nhận định xem có sự đồng nhất của phương sai hay không. Nếu có hiện tượng


phương sai đồng nhất chúng ta nên chuyển sang mô hình phân tích hồi qui không tuyến
tính.

Hình 8: Phương sai đồng nhất
Sai số khi đo lường biến độc lập
Khi đo lường các biến độc lập không chính xác (có sai số do bất kỳ lý do gì) thì
mô hình hồi qui có thể không phù hợp do đã bỏ sót một số biến quan trọng không đưa
vào mô hình vì kết quả mô hình không chính xác, như vậy ước lượng đường bình phương
tối thiểu cũng bị sai chệch. Trong trường hợp này, các ước lượng phương sai cũng không
còn chính xác.
Các sai số tương quan
Khi số liệu được thu thập theo chuỗi thời gian thì các sai số có liên quan đến một
quan sát tại một điểm thời gian cũng có thể là sai số xảy ra với các quan sát liền kề. Khi
các sai số có sự tương quan với nhau, các tính toán đường bình phương tối thiểu không
có sự sai chệch tuy nhiên đây không còn là ước lượng tốt về mối liên quan giữa các biến
nữa. Ngoài ra, trong trường hợp này, các tính toán về phương sai sẽ có sai chệch vì vậy
cần phải dùng các phân tính mối liên quan khác chứ không phải hồi qui tuyến tính.
Trước khi tiến hành xây dựng mô hình hồi qui thì cần phải kiểm tra xem các giả
định trên có được thỏa mãn hay không (vẽ các đồ thị trong Regression- phân tích phần
dư).[1]


2.4. Chiến lược xây dựng mô hình hồi qui tuyến tính đa biến
a. Đi từ mô hình tổng quát tới đơn giản
Nhìn chung chiến lược xây dựng mô hình nên đi từ tổng quát tới đơn giản tốt hơn là
đi từ đơn giản tới tổng quát. Các bước có thể là:
-


Sử dụng khung lý thuyết, kết quả của các nghiên cứu trước, kiến thức và kinh
nghiệm của nhà nghiên cứu để xác định một mô hình tổng quát (trong trường hợp
này, "tổng quát" có nghĩa là một mô hình bao gồm tất cả mọi biến có thể có liên
quan mà bộ số liệu có).

-

Ước lượng mô hình thông qua các kết quả phân tích từ phần mềm máy tính.

-

Nếu bất cứ hệ số nào trong những hệ số ước lượng không có ý nghĩa thống kê, thì
chúng ta nên bỏ đi biến ít ý nghĩa nhất và ước lượng lại mô hình với các biến số
còn lại. Nên loại bỏ từng biến một vì khi loại bỏ biến sẽ có ảnh hưởng lên các
phương sai của những biến còn lại. Nếu hồi qui lần thứ nhất cho chúng ta thấy có
hai biến không có ý nghĩa thống kê, thì biến ít ý nghĩa nhất sẽ bị bỏ ra trước, điều
này có thể làm tăng mức ý nghĩa của biến kia trong mô hình. Khi cân nhắc để bỏ 1
biến nào đó ra khỏi mô hình thì có thể nhìn vào giá trị Partial SS của biến đó, bỏ
biến có giá trị Partial SS nhỏ nhất ra khỏi mô hình.

-

Sử dụng kiểm định Ward để kiểm tra mô hình cuối cùng (mô hình giới hạn) so với
mô hình tổng quát ban đầu (mô hình không giới hạn)

b. Ma trận tương quan
Khi phân tích hồi qui đa biến, nhiều tác giả bắt đầu bằng phân tích ma trận tương
quan giữa tất cả các biến định sử dụng trong mô hình hồi qui kể cả biến phụ thuộc. Sự
phân tích này cho phép chúng ta tìm hiểu nhanh về mối liên quan tuyến tính đơn giản

giữa các cặp biến- đây là một trong những giả định để xây dựng mô hình hồi qui.
Khi hai biến độc lập có mối tương quan cao cho dù là thuận hay nghịch thì vai trò dự
báo của một biến với biến phụ thuộc có thể bị lấn át bởi biến kia vì thế khi có mặt cả hai
biến (có tương quan với nhau) trong mô hình thì một biến độc lập quan trọng có thể


không có ý nghĩa trong mô hình hoặc ngược lại, một biến không quan trọng lại trở nên có
ý nghĩa. Đây cũng là một hiện tượng đa cộng tuyến (Multicollinear)
c. Tiếp cận dựa trên mục đích
Tùy thuôc vào các mục tiêu khác nhau của mô hình mà cách tiếp cận trong lựa chọn
biến đưa vào trong mô hình cũng khác nhau. Ngoài ra việc nghiên cứu viên có thể kết
luận tầm quan trọng của các biến độc lập đến mức độ nào trong mối liên quan đến biến
phụ thuộc còn phải tùy thuộc vào bản chất, thông tin mà bộ số liệu cung cấp. Các kết quả
hồi qui đường bình phương tối thiểu chỉ phản ánh cấu trúc tương quan của số liệu được
phân tích còn kết quả phân tích đường bình phương tối thiểu này không thể dùng để xây
dựng các mối quan hệ nhân quả. Các mối quan hệ nhân quả chỉ có thể được xác định
thông qua các nghiên cứu thực nghiệm có nhóm chứng trong đó khi giá trị của biến độc
lập thay đổi thì có thể lượng giá được sự thay đổi của biến phụ thuộc. Các kết quả từ bất
kỳ quá trình chọn biến nào, đặc biệt là cách chọn biến tự động cũng cần phải nghiên cứu
một cách cẩn thận để đảm bảo các mô hình được gợi ý phù hợp với kiến thức về quá trình
mô hình hóa. Các nhà nghiên cứu, phân tích số liệu nên nhớ không có quá trình chọn biến
nào có thể thay thế được sự hiểu biết sâu sắc của nhà nghiên cứu.
d. Tính toán tất cả các phương trình hồi qui có thể
Về mặt lý thuyết, chúng ta chỉ có thể đảm bảo mô hình được chọn là mô hình tốt nhất
khi chúng ta đã xây dựng và so sánh tất cả các mô hình hồi qui có khả năng dựa trên bộ
số liệu đã có. Điều này chỉ thực hiện được khi số lượng biến chúng ta định đưa vào mô
hình không quá nhiều, tuy nhiên về mặt tính toán vẫn có những khó khăn cho dù số lượng
biến độc lập ít. Ví dụ, nếu có 10 biến độc lập được chọn, theo lý thuyết tổ hợp chúng ta
có thể xây dựng được 210- 1=1.023 mô hình. Vì thế, trên thực tế phương án này không
được sử dụng.

e. Lựa chọn mô hình tốt nhất
Ngày nay, các nhà nghiên cứu hay lựa chọn mô hình hồi qui dựa trên việc so sánh
ngay trong bản thân các mô hình chứ không tính toán xây dựng tất cả các mô hình có thể.
Phương pháp này sử dụng đường bình phương tối thiểu phù hợp mà tổng bình phương
phần dư không thể giảm nữa khi bỏ 1 biến ra khỏi mô hình. Dựa trên nguyên tắc này,
chúng ta chỉ cần so sánh tổng bình phương các phần dư của các mô hình được sử dụng


mà không cần thiết phải tính toán, xây dựng tất cả các mô hình. Ví dụ, nếu một mô hình 2
biến được tìm ra cho kết quả tổng bình phương phần dư nhỏ hơn mô hình với 3 biến thì
không cần phải tính toán bất kỳ một mô hình hai biến nào khác từ 3 biến trên vì tất cả các
mô hình 2 biến còn lại sẽ cho tổng bình phương phần dư lớn hơn mô hình ba biến vì thế
chắc chắn lớn hơn mô hình 2 biến đã được tìm ra ban đầu.
Điểm mấu chốt cần lưu ý trong việc phân tích tất cả các mô hình hồi qui là có thể
không chỉ có 1 mô hình được cân nhắc là phù hợp. Rất nhiều trường hợp có hai hoặc
thậm chí là 3 mô hình được cho là tốt và giá trị R2 của các mô hình khác nhau rất ít, lúc
đó chúng ta cần phải cân nhắc đến những yếu tố khác ví dụ như sự thay đổi của phần dư,
chi phí cho việc thu thập thông tin, kiến thức, sự hiểu biết về mối liên quan giữa các biến
trên phương diện y sinh học…
2.5. Các phương pháp xây dựng mô hình
Nhìn chung có hai phương pháp cơ bản để xây dựng mô hình: 1) Đưa tất cả các biến
vào cùng một lúc 2) Có sự lựa chọn biến
2.5.1 Dùng tất cả các biến cùng một lúc
Trong SPSS phương pháp này được gọi là Enter: Nhà nghiên cứu xác định các biến
muốn đưa vào trong mô hình và chọn phương pháp Enter. Kết quả SPSS cho một mô
hình duy nhất bao gồm tất cả các biến đã được lựa chọn.
Nếu bạn đã có một mô hình lý thuyết và cỡ mẫu của bạn không lớn thì phương pháp
Enter là phương pháp an toàn nhất khi bạn xây dựng mô hình hồi qui tuyến tính đa biến.
2.5.2 Các phương pháp lựa chọn biến
Các phương pháp lựa chọn biến đều giúp chúng ta xác định được một mô hình tốt

mà không cần phải xây dựng, đưa ra tất cả các mô hình có khả năng. Các phương pháp
này được gọi là phương pháp hồi qui từng bước (stepwise). Các mô hình được xây dựng
dựa trên việc đưa thêm vào hoặc bỏ bớt biến có tác động nhiều đến tổng bình phương
phần dư, phụ thuộc vào từng phương pháp. Hồi qui từng bước không đảm bảo là bạn sẽ
tìm được mô hình “tốt nhất” cho nghiên cứu và các kết quả xây dựng mô hình bằng các
phương pháp khác nhau có thể không giống nhau.
Forward: Phương pháp đưa dần từng biến vào mô hình, bắt đầu từ mô hình đơn
giản nhất và thêm vào các biến sao cho khi thêm vào có giá trị p nhỏ nhất. Biến độc lập


đầu tiên được đưa vào sẽ là biến có ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ
thuộc và nó sẽ cho hệ số tương quan lớn nhất. Trong từng bước tiếp theo, các biến chưa
có mặt trong mô hình nhưng sẽ làm giá trị tổng bình phương độ lệch giảm nhiều nhất sẽ
được đưa vào trong mô hình. Không có một qui định nào cho việc kết thúc nên mô hình
cuối cùng sẽ là mô hình bao gồm đầy đủ các biến được lựa chọn.
Backward: Phương pháp loại bỏ dần từng biến, bỏ ra các biến có giá trị p lớn nhất.
Với phương pháp này mô hình đầu tiên sẽ là mô hình với đầy đủ các biến sau đó từng
bước loại bỏ các biến ra khỏi mô hình, các biến được loại bỏ dần dần sẽ phụ thuộc vào
việc biến đó làm tổng bình phương phần dư tăng ít nhất. Như vậy biến số còn lại trong
mô hình là các biến có tổng bình phương từng phần nhỏ nhất. Không có một qui định là
cho việc kết thúc mô hình nên việc loại bỏ biến số sẽ dừng lại khi mô hình chỉ còn 1 biến
độc lập duy nhất.
Stepwise: Cả phương pháp forward hay backward đều không tính toán sự ảnh
hưởng của biến được đưa thêm vào hay loại bỏ ra đóng góp với các biến khác trong mô
hình. Một biến đã được đưa vào trong mô hình từ trước trong phương pháp forward có
thể trở nên có vai trò không quan trọng nữa khi chúng ta đưa các biến khác vào mô hình.
Hoặc một biến đã bị loại ra khỏi mô hình từ trước trong phương pháp backward có thể trở
nên có vai trò quan trọng sau khi đã loại bỏ 1 số biến khác ra khỏi mô hình. Phương pháp
lựa chọn biến thường dùng nhất được gọi phương pháp hồi qui từng bước là một quá
trình chọn đưa từng biến một vào mô hình qua đó chúng ta có thể kiểm tra lại trong từng

bước tầm quan trọng của tất cả các biến trong các mô hình trước. Nếu tổng bình phương
từng phần của bất kỳ một biến nào có trong mô hình trước không đáp ứng được tiêu chí
nhỏ nhất để ở lại trong mô hình thì thay đổi quá trình lựa chọn sang phương pháp
backward và các biến được loại dần dần trong từng bước cho đến khi có tổng bình
phương từng phần là nhỏ nhất. Như vậy, phương pháp stepwise yêu cầu nhiều tính toán
hơn việc lựa chọn forward hay backward nhưng lại có ưu điểm hơn ở chỗ chúng ta có thể
kiểm tra được tất cả các mô hình trước khi quyết định giữ lại mô hình thích hợp. Như vậy
stepwise cho chúng ta cơ hội tốt để chọn mô hình tốt nhất nhưng điều đó cũng không
đảm bảo mô hình được chọn là mô hình tốt nhất.


Bảng 1: So sánh 3 phương pháp
Step

Backward

Forward

Stepwise

1

x1; x2; x3; x4

x4

x4

2


x1; x2; x4

x1; x4

x1; x4

3

x1; x2

x1; x2; x4

x1; x2; x4

4

x2

x1; x2; x3; x4

x1; x2

5

-

-

x1; x2; x4


Một số lưu ý khi áp dụng phương pháp hồi qui từng bước
Nhìn chung, không nên dùng các phương pháp hồi qui từng bước một cách tự
động để xác định mô hình tốt nhất. Nó đòi hỏi bất kỳ mô hình nào có được theo cách này
cũng phải được kiểm tra tính phù hợp và thích giá trị với một bộ số liệu độc lập trước khi
sử dụng. Các phương pháp hồi qui từng bước tốt nhất là nên được sử dụng như một công
cụ sàng lọc để xác định các mô hình đối lập nhau. Với mục đích này, phương pháp
forward hay backward khi sử dụng đơn lẻ sẽ cung cấp cái nhìn rất hẹp về các mô hình có
khả năng. Dùng stepwise về mặt nào đó là tốt hơn, giải pháp tốt hơn nữa là dùng cả 3
phương pháp (stepwise, backward, forward). Với mục đích sàng lọc, trong phương pháp
forward giá trị SLE cần phải lớn, SLE >= 0,5; với phương pháp backward SLS lại cần
phải nhỏ. Với phương pháp stepwise SLE cần lớn nhưng giá trị SLS lại không dễ để xác
định cụ thể.
2.6. Qui tắc chọn mô hình
Các chương trình máy tính sử dụng phương pháp hồi qui từng bước đều có đưa ra
tiêu chí để nhà nghiên cứu cân nhắc trong quá trình lựa chọn mô hình. Với phương pháp
forward, có thể nhìn vào giá trị “F-to-enter” hoặc “significance level to enter” (SLE), là
kiểm định F cho tổng bình phương từng phần của biến. Quá trình đưa dần từng biến vào
sẽ dừng lại khi không có biến nào ngoài mô hình đáp ứng được tiêu chí đưa vào. Kiểm
định F này chỉ được sử dụng để quyết định việc đưa biến vào mô hình (khi nào thì nên
dừng lại) chứ không có ý nghĩa như là các kiểm định ý nghĩa cổ điển của toàn bộ mô hình


Với phương pháp backward dừng bỏ biến ra khỏi mô hình khi kiểm định F của
tổng bình phương từng phần là nhỏ nhất trong số các biến còn lại trong mô hình. Như
vậy, tiêu chuẩn này có thể bắt đầu bằng một giá trị “F-to-stay” hoặc là một “significance
level to stay” (SLS). Việc loại bỏ biến ra khỏi mô hình sẽ dừng lại khi tất cả các biến còn
lại trong mô hình đáng ứng được tiêu chí để ở lại trong mô hình.
Nguyên tắc dừng lại mô hình thích hợp cho stepwise sử dụng tiêu chí của cả
phương pháp backward và forward. Quá trình chọn biến dừng lại khi tất cả các biến trong
mô hình đáp ứng tiêu chí để ở lại trng mô hình và không có biến nào ngoài mô hình đủ

tiêu chuẩn để đưa vào trong mô hình (ngoại trừ những biến đã bị bỏ ra khỏi mô hình).
Tiêu chí đưa 1 biến vào trong mô hình không giống như tiêu chí để 1 biến ở lại trong mô
hình.
Tiêu chí chọn mô hình
Rất nhiều tiêu chí chọn mô hình được cân nhắc, các tiêu chí dựa trên nguyên lý cơ
bản là chọn mô hình có tổng bình phương phần dư nhỏ với càng ít đại lượng thống kê
càng tốt. Trên thực tế có 4 tiêu chí thường được sử dụng và cân nhắc khi lựa chọn mô
hình, ngoài ra việc chọn F-to-enter và F-to-stay, hoặc là các giá trị “significance levels”
SLE và SLS cũng được đề cập. Sáu tiêu chí được quan tâm là:
1.

Hệ số xác định (R2)

Hệ số xác định R2 là tỷ lệ tổng bình phương của biến phụ thuộc được giải thích bởi
các biến độc lập trong mô hình: Mục đích xem xét giá trị này là để chọn được một mô
hình mà có thể tính đếm được càng nhiều sự biến đổi của Y càng tốt. Vì R2 không thể
giảm khi các biến độc lập được thêm vào trong mô hình nên mô hình cho giá trị R2 lớn
nhất cũng cần phải là mô hình chứa tất cả các biến độc lập
2.

Trung bình bình phương phần dư MS(Res),

Trung bình bình phương phần dư là một ước lượng cho mô hình nếu mô hình chứa tất
cả các biến độc lập phù hợp, trong trường hợp mô hình có những biến không phù hợp thì
MS sẽ bị sai số. Nếu một biến độc lập không quan trọng có mặt trong mô hình thì sẽ có
tác động nhỏ lên giá trị MS.


3.


Hệ số xác định hiệu chỉnh R2adj

Trong đó: n = số các quan sát trong tập dữ liệu; K = số lượng các hệ số có trong mô hình
Hệ số R2 hiệu chỉnh được tính toán dựa trên giá trị của hệ số R2 và bậc tự do, vì thế
R2 hiệu chỉnh liên quan đến tỷ số của trung bình bình phương hơn là tổng bình phương.
Không giống như R2 hệ số R2 hiệu chỉnh thường không tăng khi chúng ta thêm biến độc
lập vào mô hình. Giá trị R2 sẽ ổn định quanh giá trị giới hạn trên khi chúng ta thêm biến
vào trong mô hình. Mô hình đơn giản nhất với R2 hiệu chỉnh gần với giới hạn trên sẽ
được chọn là mô hình tốt nhất. Giá trị R2 hiệu chỉnh liên quan chặt với MS(Res) và được
kết luận tương tự như MS.
Liên quan giữa R2 và R2 hiệu chỉnh: Như đã biết, việc thêm biến vào mô hình sẽ có
cái lợi là làm giảm tổng bình phương các sai số hay chính là phần chưa được giải thích
bởi mô hình. Nói ngược lại, đưa thêm biến vào mô hình sẽ làm tăng R2- tăng phần mô
hình được giải thích. Bên cạnh ưu điểm thì có một nhược điểm là việc đưa thêm biến vào
mô hình làm giảm bậc tự do và làm độ chính xác của mô hình kém đi. Nói một cách hình
tượng, việc đưa thêm biến vào mô hình giúp chúng ta có cái nhìn đầy đủ hơn về mặt chi
tiết nhưng bức tranh lại không có điểm nhấn (focus). Vì vậy, thay vì sử dụng R2 người ta
sử dụng giá trị hiệu chỉnh của nó, việc hiệu chỉnh như vậy để tránh đưa quá nhiều biến
không cần thiết vào mô hình. Cụ thể là nếu đưa thêm biến giải thích có ý nghĩa vào mô
hình thì phần lợi (giảm tổng bình phương sai số) phải lớn hơn phần thiệt (làm giảm bậc tự
do), khi đó R2 hiệu chỉnh sẽ tăng thể hiện nên đưa biến đó vào mô hình. Còn nếu R2 hiệu
chỉnh lại giảm thì không nên đưa biến đó vào mô hình.
4.

Tiêu chuẩn thông tin Akaike- AIC và SCHWARZ

Các nhà nghiên cứu thấy rằng nếu chỉ dựa vào giá trị R2 hiệu chỉnh để quyết định có
đưa 1 biến giải thích vào trong mô hình hay không nhiều khi không chính xác, vì thế bên
cạnh việc xem xét các giá trị của R2 hiệu chỉnh người ta còn quan tâm đến giá trị AIC và



SCHWARZ. Tiêu chí để đưa biến vào mô hình là các giá trị AIC và SCHWARZ thấp
hơn so với các mô hình khác.
Trên thực tế không phải bao giờ cũng dễ dàng nhìn thấy R2 hiệu chỉnh tăng và AIC,
SCHWARZ giảm để nhận định nên hay không nên đưa 1 biến vào mô hình, vì thế người
ta thường chọn một mô hình tương đối, một mô hình có nhiều tiêu chuẩn tốt nhất.
Một số lưu ý
Không nên quá lạm dụng kết quả của phân tích đơn biến để chọn vào mô hình, tuy
nhiên nếu sử dụng thì có thể xuất phát bằng những biến có giá trị p < 0,2 hoặc cao hơn vì
các biến này có thể đóng góp vào mô hình hồi qui đa biến theo chiều hướng khó biết
trước dựa trên mức độ phức tạp của các mối liên quan trong bản thân các biến. Ví dụ, một
biến độc lập có thể cho giá trị p = 0,27 trong mối liên quan với một biến phụ thuộc, tuy
nhiên khi đưa biến đó vào mô hình đa biến thì giá trị p lại là 0,019.
Vì thế, đôi khi số lượng biến đưa vào mô hình đa biến không nên quá cứng nhắc,
không có một nguyên tắc cố định nào cho việc đưa biến vào tuy nhiên có ý kiến là không
nên đưa vào một mô hình số lượng biến nhiều hơn n/10 (n= cỡ mẫu nghiên cứu), nhưng
cũng nhiều tác giả cho rằng con số này phải là n/20 thậm chí là n/40 (xem các phần sau).
Khi cỡ mẫu lớn, mức ý nghĩa có thể cho phép chúng ta bác bỏ giả thuyết Ho. Ví
dụ, Rantakallio và Makinen (1984) đưa ra một mô hình hồi qui dựa trên nghiên cứu 9795
về số lượng răng trẻ có khi được một tuổi. Có 6 trên tổng số 15 biến có ý nghĩa thống kê
(p < 0,05), một trong những biến đó là giới tính của trẻ (p<0,001). Hệ số hồi qui là 0,051; điều này cho thấy trung bình của sự khác biệt trong số lượng răng là 1/20 khi trẻ
đó là trẻ trai. Hệ số xác định R2 chỉ là 3,1%, có nghĩa là chỉ có 3,1% sự biến đổi của Y
được giải thích bởi mô hình đã xây dựng.
Qui trình chọn mô hình tự động cũng có thể hữu ích tuy nhiên cũng yêu cầu sự
linh hoạt. Giá trị của R2 và R2 hiệu chỉnh cũng là một cách để đánh giá sự phù hợp của
mô hình (goodness-of-fit) nhưng chúng được tính toán dựa trên mối tương quan giữa các
giá trị kỳ vọng và giá trị quan sát của Y (biến phụ thuộc). Chúng ta không thể có bất kỳ ý
kiến nào về độ chính xác của dự đoán cho từng cá thể từ mức ý nghĩa của biến cũng như
giá trị R2 tuy nhiên nó cũng phải lớn.



Xác định mô hình phù hợp cần đến 1 quá trình chọn các biến, tuy nhiên cần phải thỏa
mãn hai yêu cầu sau:
-

Máy tính phải đưa ra kết quả tính toán nhưng con người phải tự chọn mô hình

-

Phương pháp được sử dụng để kiểm định các biến phụ thuộc vào câu hỏi nghiên
cứu cụ thể được xác định.

Một trong những lợi ích của hồi qui đa biến là cho phép đánh giá tác động riêng phần
của từng yếu tố giải thích lên biến phụ thuộc.
2.7. Các giá trị thống kê trong hồi qui tuyến tính đa biến
Beta (Standardised regression coefficients): Beta là giá trị ước lượng độ mạnh mối
liên quan của từng biến độc lập lên biến phụ thuộc. Beta được ước tính theo đơn vị của
độ lệch chuẩn. Ví dụ, beta=2,5 có nghĩa là khi thay đổi 1 độ lệch chuẩn của biến độc lập
sẽ dẫn đến thay đổi 2,5 độ lệch chuẩn của biến phụ thuộc. Như vậy hệ số beta càng cao
thì tác động của biến độc lập lên biến phụ thuộc càng lớn. Trong mô hình hồi qui đơn
biến (chỉ có một biến độc lập) thì hệ số beta chính là hệ số tương quan giữa biến độc lập
và biến phụ thuộc. Trong mô hình hồi qui tuyến tính đa biến, chúng ta không thể so sánh
mức độ đóng góp của từng biến độc lập lên biến phụ thuộc bằng cách so sánh các hệ số
hồi qui. Vì thế hệ số hồi qui beta được tính toán cho phép chúng ta so sánh và đánh giá
độ mạnh của mối liên quan giữa từng biến độc lập với biến phụ thuộc.
R, R2, adjusted R2: R lượng giá sự tương quan giữa giá trị quan sát và giá trị kỳ vọng
của biến phụ thuộc. Hệ số xác định R2 lượng giá tỷ lệ sự thay đổi của biến phụ thuộc có
thể được giải thích bởi mô hình, R2 = MSS/TSS hệ số này càng cao càng tốt. Tuy nhiên
R2 thường có xu hướng đánh giá giá trị của mô hình cao hơn trên thực tế, vì vậy hệ số
adjusted R2 được sử dụng. Hệ số adjusted R2 có tính toán đến cả số lượng biến được đưa

vào mô hình cũng như số lượng đối tượng quan sát (cỡ mẫu) dùng để xây dựng mô hình.
Hệ số adjusted R2 cho biết mức độ cải tiến của phương sai phần dư (residual variance) do
yếu tố độc lập có mặt trong mô hình.
∆β ước lượng sự thay đổi của một tham số khi bỏ một đối tượng ra khỏi phân tích
Phần dư (Residuals): Trung bình phần dư phải là 0, xem xét các khoảng phân vị xem
có cân đối hay không? Nếu cân đối là tốt.


2.8. Các bước tiến hành hồi qui tuyến tính đa biến
Sử dụng bộ số liệu: BMI.sav
Bộ số liệu bao gồm các biến: biến phụ thuộc BMI (y); các biến độc lập (x) là: Lượng
calorine ăn hàng ngày, Số phút tập thể dục trong tuần,
a) Kiểm tra mối liên quan tuyến tính giữa các biến độc lập với biến phụ thuộc định đưa
vào mô hình hồi qui tuyến tính đa biến qua biểu đồ scatter plot (Xem lại cách vẽ biểu
đồ sử dụng SPSS trong giáo trình Phân tích số liệu- Trường Đại học Y Tế công cộng)

Hình 9: Các biểu đồ scatter plot biểu diễn mối quan hệ của hai biến


b) Kiểm tra tính chuẩn của các biến định lượng liên tục, sử dụng biểu đồ Q-Q plot hoặc
kiểm định phi tham số K-S

Hình 10: Các biểu đồ QQ plot kiểm định tính chuẩn của các biến


c) Tiến hành phân tích hồi qui tuyến tính đa biến
Phương trình tuyến tính có thể có dạng
YBMI = β0 + β1*xcalorine + β2*xthethao + β3*xgioi + β4*xthunhap + ε
Sử dụng SPSS với câu lệnh: Analyze/ Regression/ Linear


Chọn các biến phù hợp đưa vào mô hình, biến phụ thuộc (Y)- chỉ số BMI đưa vào ô
Dependent; các biến độc lập (Xi) đưa vào ô Independents. Chúng ta cũng lựa chọn
phương pháp Stepwise trong ô Method, phương pháp để mặc định cho phân tích hồi qui
tuyến tính đa biến là Enter – điều này có nghĩa là tất cả các biến được lựa chọn bắt buộc
phải ở trong mô hình, tuy nhiên để tránh xây dựng những mô hình không phù hợp chúng
ta sẽ chỉ giữ các biến phù hợp và có thể giải thích cho biến phụ thuộc lại trong mô hình.
Chọn biến phụ
thuộc đưa vào ô
Dependent
Chọn các biến
độc lập đưa vào
ô Independent(s)

Chọn phương
pháp hồi qui bạn
muốn sử dụng
(Enter/ stepwise/
forward/
backward)


Chọn phương pháp stepwise, cho phép cho thêm biến phù hợp và loại bỏ những biến
không phù hợp với mô hình. Giữ lại những biến làm giảm giá trị F <= 0,05 và loại bỏ
những biến làm tăng giá trị F >=0,1.

Giữ lại những
biến làm giảm
F<=0,05 ở mô
hình


Bỏ những biến
làm tăng F>=0,1
ra khỏi mô hình

Các tùy chọn trong thực đơn Statistics cho phép lựa chọn những phân tích thống
kê cần để đánh giá tính giá trị của phân tích hồi qui tuyến tính đa biến
Chọn Estimates
Chọn Model fit,
Descriptives và
Collinearity
diagnostics trong
tùy chọn Statistics
Bạn cũng có thể
chọn R squared
change nếu bạn
không dùng
phương pháp
Enter
Chọn DurbinWatson để tìm
hiểu hiện tượng
autocorrelation


Chọn Collinearity diagnostics và kiểm định Durbin- Watson để chẩn đoán tính tương
quan tự động. Để kiểm định giải thuyết về sự đồng nhất của phương sai và phân phối
chuẩn của phần dư chúng ta có thể chọn trong thực đơn plot.

Bạn có thể xác
định phân bố của
phần dư trong

thực đơn Plots

Kết quả phân tích và phiên giải
Descriptive Statistics
Chi so BMI
Luong calorine an
hang ngay
So phut tap the duc
trong 1 tuan
So tien danh mua thuc
an trong 1 thang (USD)
Tong thu nhap trong 1
thang (tinh theo USD)

Mean
24.0674

Std. Deviation
1.28663

N
1000

2017.7167

513.71981

1000

21.7947


7.66196

1000

638.2043

121.30210

1000

2005.1981

509.49088

1000

Bảng đầu tiên là bảng mô tả, cho kết quả là các giá trị thống kê mô tả cho từng
biến trong mô hình, đó là các giá trị trung bình, độ lệch chuẩn, cỡ mẫu cho từng biến.


Correlations

Pearson Correlation

Sig. (1-tailed)

N

Chi so BMI

Luong calorine an
hang ngay
So phut tap the duc
trong 1 tuan
So tien danh mua thuc
an trong 1 thang (USD)
Tong thu nhap trong 1
thang (tinh theo USD)
Chi so BMI
Luong calorine an
hang ngay
So phut tap the duc
trong 1 tuan
So tien danh mua thuc
an trong 1 thang (USD)
Tong thu nhap trong 1
thang (tinh theo USD)
Chi so BMI
Luong calorine an
hang ngay
So phut tap the duc
trong 1 tuan
So tien danh mua thuc
an trong 1 thang (USD)
Tong thu nhap trong 1
thang (tinh theo USD)

Chi so BMI
1.000


Luong
calorine an
hang ngay
.784

So phut tap
the duc
trong 1 tuan
-.310

So tien danh
mua thuc an
trong 1 thang
(USD)
-.534

Tong thu
nhap trong 1
thang (tinh
theo USD)
.033

.784

1.000

-.193

-.714


-.009

-.310

-.193

1.000

.126

-.030

-.534

-.714

.126

1.000

.706

.033

-.009

-.030

.706


1.000

.

.000

.000

.000

.148

.000

.

.000

.000

.391

.000

.000

.

.000


.175

.000

.000

.000

.

.000

.148

.391

.175

.000

.

1000

1000

1000

1000


1000

1000

1000

1000

1000

1000

1000

1000

1000

1000

1000

1000

1000

1000

1000


1000

1000

1000

1000

1000

1000

Bảng phân tích mối tương quan giữa các biến có trong mô hình, qua bảng trên có
thể thấy có mối tương quan giữa từng cặp biến, mức ý nghĩa của các hệ số tương quan, cỡ
mẫu cho tính toán từng hệ số tương quan. Hầu hết các hệ số tương quan đều có ý nghĩa
thống kê trừ mối tương quan giữa Tổng thu nhập trong 1 tháng với chỉ số BMI, lượng
calorine ăn hàng ngày và số phút tập thế dục trong 1 tuần (p>0,05).
Ngoài ra cần lưu ý đến các hệ số tương quan để kiểm tra nhanh hiện tượng đa
đồng tuyến tính của các biến độc lập. Nếu giá trị tuyệt đối của hệ số tương quan Pearson
> 0,8 có hiện tượng đa đồng tuyến tính giữa hai biến. Nếu hệ số tương quan Pearson gần
với 0,8 cần nghĩ đến khả năng đa đồng tuyến tính và kiểm tra, xem xét các giá trị khác
như condition index, VIF… (Xem chi tiết trong phần Đa đồng tuyến tính)
Variables Entered/Removeda
Model
1
2

Variables Entered
Luong calorine an hang ngay
So phut tap the duc trong 1 tuan


a. Dependent Variable: Chi so BMI

Variables Removed

Method
Stepwise (Criteria: Probability-of-F-to-enter <=
.050, Probability-of-F-to-remove >= .100).
Stepwise (Criteria: Probability-of-F-to-enter <=
.
.050, Probability-of-F-to-remove >= .100).
.


Do chúng ta sử dụng phương pháp hồi qui stepwise nên SPSS đầu tiên sẽ kiểm tra
một mô hình với biến độc lập có sự tương quan lớn nhất (nhiều nhất) với biến phụ thuộc,
như vậy mô hình đầu tiên được kiểm tra với biến “Luong calorine an hang ngay” với hệ
số tương quan r=0,784. Tiếp theo mô hình sẽ được đưa thêm biến có giá trị tương quan
từng phần với biến phụ thuộc (chỉ số BMI) là cao nhất (biến So phut tap the duc trong
mot tuan) sau khi đã khống chế theo biến Luong calorine ăn hàng ngày. Hai biến độc lập
khác mà chúng ta đã muốn đưa vào mô hình là “So tien danh mua thuc an trong 1 thang”
và “Tong thu nhap trong 1 thang” không làm tăng hệ số xác định R2 của mô hình một
cách có ý nghĩa thống kê khi khống chế theo biến “Luong calorine an hang ngay” và “So
phut tap the duc trong tuan” nên không được đưa vào mô hình hồi qui. Qua bảng trên
chúng ta có thể thấy số biến đưa vào là 2, không có biến nào bị loại khỏi mô hình.
c
Model Summary

Model
1

2

Change Statistics
Adjusted Std. Error of R Square
R
R Square R Square the Estimate Change F Change
df1
df2 Sig. F Change
.784a
.615
.615
.79852
.615 1595.604
1
998
.000
.801b
.641
.640
.77148
.026
72.178
1
997
.000

DurbinWatson
2.022

a. Predictors: (Constant), Luong calorine an hang ngay

b. Predictors: (Constant), Luong calorine an hang ngay, So phut tap the duc trong 1 tuan
c. Dependent Variable: Chi so BMI

Bảng trên cho phép đánh giá sự phù hợp của mô hình, trong mô hình 2 R2=64,1%
có nghĩa là 64,1% sự thay đổi của biến phụ thuộc (BMI) có thể được mô hình hồi qui với
2 biến độc lập giải thích. Adjusted R Square không hầu như không thay đổi so với R2 do
mô hình hồi qui của chúng ta có ít biến độc lập (2 biến).
Giá trị của kiểm định F cho biết mức ý nghĩa của sự thay đổi của R2 khi chúng ta
thêm các biến vào mô hình trong từng bước. Có thể thấy ở mô hình 2 sự thay đổi của R2
là 0,026 và vẫn có ý nghĩa thống kê (p<0,0001).
Giá trị kiểm định Durbin-Watson (d) là 2,022, nằm trong khoảng từ 1,52,5Æchúng ta có thể giả định là không có hiện tượng autocorrelation trong bộ số liệu
dùng phân tích hồi qui tuyến tính đa biến.


ANOVA
Model
1

2

Regression
Residual
Total
Regression
Residual
Total

Sum of
Squares
1017.412

636.359
1653.771
1060.371
593.400
1653.771

c

df
1
998
999
2
997
999

Mean Square
1017.412
.638

F
1595.604

530.185
.595

890.790

Sig.
.000a


.000b

a. Predictors: (Constant), Luong calorine an hang ngay
b. Predictors: (Constant), Luong calorine an hang ngay, So phut tap the duc trong 1
tuan
c. Dependent Variable: Chi so BMI

Kiểm định F sử dụng để kiểm định giả thuyết H0 là không có mối quan hệ tuyến
tính giữa các biến (hoặc R2=0). Kết quả cho thấy chúng ta đủ bằng chứng để bác bỏ giả
thuyết H0Æ Có mối quan hệ tuyến tính giữa các biến trong mô hình được xây dựng.
Ngoài ra đây cũng chính là kiểm định tính phù hợp của cả mô hình, vì p<0,001 nên mô
hình chúng ta xây dựng là có ý nghĩa thống kê.
Coefficientsa

Model
1

2

(Constant)
Luong calorine
an hang ngay
(Constant)
Luong calorine
an hang ngay
So phut tap the
duc trong 1 tuan

Unstandardized

Coefficients
B
Std. Error
20.104
.102

Standardized
Coefficients
Beta
.784

t
196.343

Sig.
.000

39.945

.000

156.273

.000

.002

.000

20.866


.134

.002

.000

.753

38.920

-.028

.003

-.164

-8.496

Collinearity Statistics
Tolerance
VIF
1.000

1.000

.000

.963


1.039

.000

.963

1.039

a. Dependent Variable: Chi so BMI

Với mô hình hồi qui tuyến tính đa biến, dựa trên kết quả phân tích của mô hình 2
chúng ta có phương trình sau:
BMI= 20,866 + 0,002* Caroline – 0,028* thethao
Như vậy, khi ăn thêm 1 calorine BMI sẽ tăng 0,002 khi có thời gian tập thể dục
như nhau; ngược lại, BMI sẽ giảm 0,028 khi số thời gian tập thể dục tăng lên 1 phút khi
lượng calorine ăn hang ngày là như nhau.
Tuy nhiên, nhìn vào bảng Model Summary chúng ta có sai số chuẩn của ước
lượng là 0,77. Như vậy, với độ tin cậy 95% giá trị BMI tính toán được sẽ nằm trong
khoảng giá trị tính từ mô hình trên ± 1,96*0,77.
Các hệ số Beta chính là các hệ số hồi qui chuẩn hóa, hệ số này chỉ dùng để so sánh
trong chính bản thân mô hình chứ không so sánh các mô hình với nhau. Hệ số beta chịu


×