Tải bản đầy đủ (.docx) (10 trang)

cách thuyết trình SPSS và chạy hồi quy tuyến tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (434.97 KB, 10 trang )




Biến độc lập: F_NT, F_NTi, F_KSD, F_DM, F_KST, F_GT
Biến phụ thuộc: F_YD

Thực hiện phân tích hồi quy tuyến tính bội, vào Analyze > Regression >
Linear:

Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào
ô Indenpendents:


Vào mục Statistics, tích chọn các mục như trong ảnh và click Continue:

Vào mục Plots, tích chọn các mục như trong ảnh và click Continue.
Mục Plots sẽ xuất ra các biểu đồ phục vụ cho việc kiểm tra vi phạm các giả
định hồi quy.


Các mục còn lại để mặc định. Không thay đổi các tùy chỉnh trong đó nhé.
Rồi, quay lại giao diện ban đầu, mục Method, các bạn có thể chọn 2
phương pháp phổ biến nhất là Stepwise và Enter, thường thì sẽ chọn
Enter. Bạn nào muốn tìm hiểu sau khi nào chạy phương pháp nào các bạn
tìm mua bộ sách "Phân tích dữ liệu nghiên cứu với SPSS" của thầy Hoàng
Trọng và cô Mộng Ngọc nhé. Chọn xong phương pháp, các bạn nhấp
vào OK:


SPSS sẽ xuất ra rất nhiều bảng, tuy nhiên chúng ta chỉ sử dụng một vài
bảng trọng tâm phục vụ cho bài nghiên cứu gồm: Model Summary, ANOVA


và Coefficients. Mình sẽ đọc kết quả lần lượt cho từng bảng này:
1. Bảng Model Summary

Trong bảng này, các bạn quan tâm 2 giá trị: Adjusted R Square (hoặc R
Square) và Durbin-Watson.
- Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó phản
ánh mức độ ảnh hưởng của các biến độc lập lên biến phụ thuộc. Cụ thể
trong trường hợp này, 6 biến độc lập đưa vào ảnh hưởng 67.2% sự thay
đổi của biến phụ thuộc, còn lại 32.8% là do các biến ngoài mô hình và sai
số ngẫu nhiên. Thường thì giá trị này từ 50% trở lên là nghiên cứu có thể
sử dụng. Mình nhấn mạnh là thường nha các bạn, chứ không có ai quy
định
cả.

- Durbin-Watson (DW) dùng để kiểm định tự tương quan của các sai số kề
nhau (hay còn gọi là tương quan chuỗi bậc nhất) có giá trị biến thiên trong


khoảng từ 0 đến 4; nếu các phần sai số không có tương quan chuỗi bậc
nhất với nhau thì giá trị sẽ gần bằng 2 (từ 1 đến 3); nếu giá trị càng nhỏ,
gần về 0 thì các phần sai số có tương quan thuận; nếu càng lớn, gần về 4
có nghĩa là các phần sai số có tương quan nghịch. Lưu ý, cái này là giá trị
ước lượng thường dùng trong SPSS chứ không chính xác. Nếu bạn yêu
cầu tính chính xác, bạn cần tra hệ số Durbin-Watson ở đây. Không có tự
tương quan chuỗi bậc nhất thì dữ liệu thu thập là tốt. Cụ thể trong trường
hợp này, k' = 6, n = 125, tra bảng DW ta có dL = 1.651 và dU = 1.817. Gắn
vào thanh giá trị DW, ta thấy 1.817 < 1.881 < 2.183, như vậy, không có sự
tương quan chuỗi bậc nhất trong mô hình.

2. Bảng ANOVA


Xây dựng xong một mô hình hồi quy tuyến tính, vấn đề quan tâm đầu tiên
của bạn phải là xem xét độ phù hợp của mô hình đối với tập dữ liệu qua giá
trị Adjusted R Square (hoặc R Square) như đã trình bày ở mục 1. Nhưng
cần nhớ rằng, sự phù hợp này mới chỉ thể hiện giữa mô hình bạn xây dựng
được với tập dữ liệu là MẪU NGHIÊN CỨU.
Tổng thể rất lớn, chúng ta không thể khảo sát hết toàn bộ, nên thường
trong nghiên cứu, chúng ta chỉ chọn ra một lượng mẫu giới hạn để tiến
hành điều tra, từ đó suy ra tính chất chung của tổng thể. Mục đích của kiểm
định F trong bảng ANOVA chính là để kiểm tra xem mô hình hồi quy tuyến
tính này có suy rộng và áp dụng được cho tổng thể hay không.
Cụ thể trong trường hợp này, giá trị sig của kiểm định F là 0.000 < 0.05.
Như vậy, mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể.
3. Bảng Coefficients


Trước khi đi vào tìm hiểu các giá trị trong bảng này, mình sẽ nói một ít về
thắc mắc của khá nhiều bạn: Sử dụng hệ số hồi quy nào mới là đúng,
chuẩn hóa hay chưa chuẩn hóa? Sao lại có bài dùng phương trình hồi quy
chuẩn hóa, bài lại dùng hồi quy chưa chuẩn hóa? Có giảng viên yêu cầu
viết phương trình chuẩn hóa, giảng viên lại buộc viết phương trình chưa
chuẩn
hóa?
Để hiểu khi nào dùng phương trình nào, các bạn vui lòng xem bài viết Sự
khác nhau giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa . Riêng phần
giảng viên, các thầy cô yêu cầu viết dạng phương trình gì thì các bạn trình
bày vào bài làm dạng đó nhé.
Với dạng đề tài nghiên cứu có mô hình + bảng câu hỏi sử dụng thang đo
Likert + chạy phân tích định lượng SPSS thì các bạn nên sử dụng phương
trình hồi quy chuẩn hóa, lý do tại sao thì mình vừa dẫn bài viết cho các bạn

đọc ngay ở trên rồi. Như vậy, bảng Coefficients, những mục các bạn cần
lưu ý gồm cột Hệ số hồi quy chuẩn hóa Beta, cột giá trị Sig, cột VIF.
Đầu tiên là giá trị Sig kiểm định t từng biến độc lập, sig nhỏ hơn hoặc bằng
0.05 có nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại sig lớn hơn
0.05, biến độc lập đó cần được loại bỏ.
Tiếp theo là hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy,
biến độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự
thay đổi của biến phụ thuộc. Do đó khi đề xuất giải pháp, các bạn nên chú
trọng
nhiều
vào
các
nhân
tố

Beta
lớn.
Cuối cùng là VIF, giá trị này dùng để kiểm tra hiện tượng đa cộng tuyến.
Theo lý thuyết nhiều tài liệu viết, VIF < 10 sẽ không có hiện tượng đa cộng
tuyến. Tuy nhiên trên thực tế với các đề tài nghiên cứu có mô hình + bảng
câu hỏi sử dụng thang đo Likert thì VIF < 2 sẽ không có đa cộng tuyến,
trường hợp hệ số này lớn hơn hoặc bằng 2, khả năng cao đang có sự đa
cộng tuyến giữa các biến độc lập.


Với dữ liệu mình đang chạy, như các bạn thấy sig hệ số hồi quy của các
biến độc lập đều nhỏ hơn hoặc bằng 0.05, do đó các biến độc lập này đều
có ý nghĩa giải thích cho biến phụ thuộc, không biến nào bị loại bỏ. Hệ số
VIF nhỏ hơn 2 do vậy không có đa cộng tuyến xảy ra.
Riêng cột Tolerance, các bạn sẽ thấy một số bài nghiên cứu, tài liệu sử

dụng hệ số này để kiểm tra đa cộng tuyến. Nhưng ở đây mình không dùng,
bởi vì hệ số này là nghịch đảo của VIF, nên các bạn có thể sử dụng 1 trong
2, cái nào cũng được, thường mọi người hay dùng VIF hơn.
4. Biểu đồ tần số phần dư chuẩn hóa Histogram
Phần dư có thể không tuân theo phân phối chuẩn vì những lý do như: sử
dụng sai mô hình, phương sai không phải là hằng số, số lượng các phần
dư không đủ nhiều để phân tích... Vì vậy, chúng ta cần thực hiện nhiều
cách khảo sát khác nhau. Một cách khảo sát đơn giản nhất là xây dựng
biểu đồ tần số của các phần dư Histogram ngay dưới đây. Một cách khác
nữa là căn cứ vào biểu đồ P-P Plot ở mục số 5 sẽ tìm hiểu sau mục này.

Từ biểu đồ ta thấy được, một đường cong phân phối chuẩn được đặt
chồng lên biểu đồ tần số. Đường cong này có dạng hình chuông, phù hợp


với dạng đồ thị của phân phối chuẩn. Giá trị trung bình Mean gần bằng 0,
độ lệch chuẩn là 0.976 gần bằng 1, như vậy có thể nói, phân phối phần dư
xấp xỉ chuẩn. Do đó, có thể kết luận rằng: Giả thiết phân phối chuẩn của
phần dư không bị vi phạm.
5. Biểu đồ phần dư chuẩn hóa Normal P-P Plot
Như mình đã đề cập ở mục 4, ngoài cách kiểm tra bằng biểu đồ Histogram,
thì P-P Plot cũng là một dạng biểu đồ được sử dụng phổ biến giúp nhận
diện sự vi phạm giả định phần dư chuẩn hóa.

Với P-P Plot (hoặc bạn có thể dùng Q-Q Plot, 2 đồ thị này không khác nhau
nhiều), các điểm phân vị trong phân phối của phần dư sẽ tập trung thành
một đường chéo nếu phần dư có phân phối chuẩn. Hay nói một cách đơn
giản, dễ hiểu, các bạn nhìn vào đồ thị này, các chấm tròn tập trung thành
dạng một đường chéo thì sẽ không vi phạm giả định hồi quy về phân
phối chuẩn phần dư.



Cụ thể với dữ liệu mình đang sử dụng, các điểm phân vị trong phân phối
của phần dư tập trung thành 1 đường chéo, như vậy, giả định phân phối
chuẩn của phần dư không bị vi phạm.
6. Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính
Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá trị dự
đoán chuẩn hóa giúp chúng ta dò tìm xem, dữ liệu hiện tại có vi phạm giả
định liên hệ tuyến tính hay không. Trong bài viết này, mình biểu diễn giá trị
phần dư chuẩn hóa (Standardized Residual) ở trục hoành và giá trị dự
đoán chuẩn hóa (Predicted Value) ở trục tung. Các bạn phải thực sự
chú ý chỗ này, bởi vì có nhiều tài liệu, sách biểu diễn ngược lại với mình
nên khi nhận xét sẽ có vài điểm thay đổi giữa mỗi tác giả khác nhau.

Kết quả đồ thị xuất ra, các điểm phân bố của phần dư nếu có các dạng: đồ
thị Parabol, đồ thị Cubic,.. hay các dạng đồ thị khác không phải đường
thẳng thì dữ liệu của bạn đã vi phạm giả định liên hệ tuyến tính. Nếu giả
định quan hệ tuyến tính được thỏa mãn thì phần dư phải phân tán ngẫu
nhiên trong một vùng xung quanh đường hoành độ 0 (trường hợp mình
đang biểu diễn phần dư chuẩn hóa Standardized Residual ở trục hoành;


trường hợp nếu các bạn biểu diễn giá trị này ở trục tung thì phải xem xét
phân bố phần dư có tập trung quanh đường tung độ 0 hay không).
Cụ thể với tập dữ liệu mình đang sử dụng, phần dư chuẩn hóa phân bổ tập
trung xunh quanh đường hoành độ 0, do vậy giả định quan hệ tuyến tính
không bị vi phạm.




×