Tải bản đầy đủ (.pdf) (42 trang)

Phân tích Hiệp phương sai Ancova, Tài liệu hướng dẫn thống kê y học sử dụng SPSS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.46 MB, 42 trang )

Tài liệu hướng dẫn
thống kê y học sử dụng SPSS

SPSS
Phân tích hiệp phương sai (ANCOVA)
Lê Đông Nhật Nam


Lời nói đầu
Tôi vẫn còn nhớ kỷ niệm lần đầu tiên được làm nghiên cứu một mình, đó là báo cáo thực tập
cuối năm thứ nhất Master tại Pháp. Thầy giao cho tôi đề tài khảo sát một biomarker trong khí
thở ở bệnh nhân tiểu đường. Mọi việc suôn sẻ, chỉ trừ … kết quả; vì giả thuyết ban đầu của tôi
muốn tìm thấy sự thay đổi so với nhóm chứng, trong khi kết quả lại cho thấy không hề có khác
biệt ý nghĩa. Quả thật báo cáo một kết quả âm tính là điều không mấy dễ chịu, nhưng điều làm
tôi tiếc nuối nhất là vài năm sau đó tôi khám phá ra rằng loại biomarker ngày trước mình khảo
sát là một đại lượng rất bất định, có nhiều yếu tố gây nhiễu tác động lên nó ngay trong điều kiện
sinh lý bình thường. Tôi không thể tha thứ cho sự ngây thơ ngày đó của mình khi không xét toàn
diện tất cả yếu tố gây nhiễu.
Đó là lý do 10 năm sau, tôi muốn gửi tặng tất cả các bạn trẻ đang tập làm những nghiên cứu đầu
đời, một tài liệu về phương pháp thống kê cho phép bạn chủ động sửa chữa những sai lầm tiềm
ẩn trong nghiên cứu của mình để tiếp cận với sự thật; đó là phương pháp ANCOVA hay phân
tích hiệp phương sai.

Thông điệp quan trọng nhất của tài liệu này chính là sự hồ nghi và tò mò, vì nhiều lúc giá trị p,
thậm chí khoảng tin cậy với Bootstrap mà bạn tìm ra được với ANOVA, test t hay 1 mô hình hồi
quy nào đó vẫn có thể dối lừa chúng ta, chưa phải là sự thật. Có lẽ bạn bắt đầu … tò mò muốn
biết tại sao ? Mời bạn đọc thí dụ trong tài liệu này để biết nguyên nhân.
Chúc các bạn thành công và tìm ra sự thật cho mọi câu hỏi nghiên cứu của mình.


Quy ước trình bày


Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật

Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ. Anh ta sẽ xuất
hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và
ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý
thuyết thống kê. Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời
gian đi vào cách thực hiện chi tiết. Anh ta cũng hay trình bày lý thuyết
thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi
với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống
kê …

Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành
thạo SPSS. Như tên gọi của mình, BS Nhi có tính cách hồn
nhiên và ngây thơ như trẻ con, vì vậy cô ấy luôn có khuynh
hướng đơn giản hóa tối đa mọi vấn đề. Khả Nhi sẽ hướng
dẫn các bạn sử dụng SPSS qua từng bước cụ thể, chia sẻ
những mẹo vặt, thủ thuật để giúp các bạn đi đến kết quả
nhanh và dễ dàng nhất.

Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên
cứu khoa học. Đây là một cậu sinh viên rất tò mò và luôn đặt ra
nhiều câu hỏi liên quan đến thống kê. Mặc dù những đế tài do Bảo
thực hiện còn đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ
hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích
số liệu và thiết kế nghiên cứu.

3



1

1.1 Tình huống thí dụ

Dòng máu lưu thông

Xơ vữa ĐM Cảnh

Bề dày nội trung mô ĐM Cảnh
(CIMT) đo bằng Siêu âm
Doppler

Siêu âm Doppler động mạch cảnh là một phương pháp đánh
giá không xâm lấn đoạn ngoài sọ của động mạch cảnh. Chiều
dày nội trung mô của động mạch cảnh (CIMT) là một chỉ số
của chứng vữa xơ có thể đo được trên siêu âm Doppler.

Một chị bác sĩ nội trú khoa hình ảnh học thực hiện đề tài
khảo sát hiện tượng dày hóa thành động mạch cảnh dưới tác
động của xạ trị ung thư vùng hầu họng; với CIMT là biến số
chính. Thiết kế nghiên cứu bao gồm:
+ Nhóm chứng âm: 15 người bình thường không có tiền sử
cao huyết áp và xơ vữa động mạch.
+ Nhóm chứng dương: 15 bệnh nhân tiểu đường type 2, là
một yếu tố nguy cơ của xơ vữa động mạch.
+ Nhóm nghiên cứu: 15 bệnh nhân ung thư carcinoma hầu
họng được xạ trị trước đó từ 3-4 năm.


Khác biệt không có ý nghĩa
với nhóm chứng dương ?

Tuy nhiên ý đồ này bị thất bại, sau khi kết quả ANOVA cho
thấy: Dù CIMT vẫn cao ở nhóm xạ trị ung thư so với nhóm
chứng âm, tuy nhiên không có khác biệt ý nghĩa so với nhóm
chứng dương, thậm chí CIMT ở bệnh nhân tiểu đường type 2
có vẻ còn cao hơn ?
Chúng ta phải làm gì để giúp chị ta bây giờ ?

Bảo thân mến, cô bác sĩ này đã phạm sai lầm ngay từ đầu khi chỉ dùng ANOVA
đơn biến để khảo sát CIMT… Theo tôi biết, quá trình lão hóa tự nhiên cũng có
thể gây tăng CIMT, như vậy có thể kết quả quan sát được ở cả 3 nhóm đều bị
gây nhiễu bởi Tuổi của bệnh nhân.
Chúng ta phải hiệu chỉnh kết quả CIMT theo tuổi trước khi so sánh. Tôi đề nghị
dùng ANCOVA thay vì ANOVA…


1

1.2 ANCOVA là phương pháp của những kẻ tò mò và hoài nghi

Nghiên cứu sinh
« ngây thơ »

Điều kiện dữ liệu
và kết quả

1


ANOVA và post-hoc test cho
ra kết quả có ý nghĩa thống
kê…

2 ANOVA và post-hoc test cho

ra kết quả âm tính: Không có
sự khác biệt ý nghĩa.

Vui mừng, thỏa mãn với giá trị
p<0,05 và báo cáo kết quả ngay lập
tức…

Thất vọng …
Chuyển sang test post-hoc ít bảo thủ
hơn nhằm tìm ra p<0,05 bằng mọi giá.
Tuyệt vọng:
Chấp nhận bỏ cuộc sau khi thử tất cả
giải pháp, đành báo cáo kết quả âm tính

3

ANOVA và post-hoc test cho
ra kết quả không rõ nét (p
mấp mé ở ngưỡng ý nghĩa)

Vui mừng, thỏa mãn với giá trị p<0,05
và báo cáo kết quả ngay lập tức…
Hoặc chọn test post-hoc ít bảo thủ hơn
nhằm giảm giá trị p thấp hơn nữa.


Nghiên cứu sinh
« tò mò»
Hoài nghi về kết quả, đặt ra hàng loạt câu
hỏi:
+ Tại sao Effect size chưa được tối ưu ?
+ Tại sao Sum of square của sai số vẫn còn
cao ?
+ Tại sao kết quả mâu thuẫn với Y văn ?

Phân tích kết quả để tìm chỗ sơ hở :
+ Đọc kết quả CI95% thay vì giá trị p
+ So sánh SSR và SSM, SST
+ Đặt lại vấn đề cỡ mẫu…
+ Áp dụng Bootstrap
Hoài nghi và đặt ra hàng loạt câu hỏi:
Liệu có yếu tố gây nhầm lẫn đã làm nhiễu
loạn kết quả ?
Liệu có sai sót hệ thống trong quá trình đo
đạc ?
Có 1 yếu tố ngoại lai tương tác với biến số
đang khảo sát ?

*

Khâu thu thập số liệu

Chỉ thu thập những biến số chính cần
khảo sát.
Nếu có nhiều biến số, sẽ thực hiện

hàng loạt phân tích ANOVA đơn biến
cho từng biến số riêng biệt.

Thu thập biến số phong phú để có nhiều
thông tin nhất có thể.
Nhóm các biến số với nhau theo ý nghĩa
sinh lý bệnh, lâm sàng…
Chẩn bị trước những giả thuyết về quan
hệ tương tác giữa các biến số với nhau.
Xác định các yếu tố có tiềm năng gây
nhầm lẫn.

ANCOVA là phương pháp thích hợp dành
cho những nhà nghiên cứu tò mò và hoài
nghi.

Voltaire
Hãy đánh giá một người qua những câu hỏi
của anh ta chứ không phải là những câu trả
lời. (Il est encore plus facile de juger de l'esprit
d'un homme par ses questions que par ses
réponses)

Sẽ sử dụng Phân tích hiệp phương sai
(ANCOVA) để:
+ Phân lập yếu tố gây nhầm lẫn,
+ Kiểm tra giả thuyết về vai trò tương
tác giữa biến số chính và những biến
số phụ
+ Giảm thiểu sai số không được giải

thích trong mô hình. Tối ưu hóa hiệu
ứng chính
> Tìm ra sự thật, loại bỏ sai lầm

BS.Bao thích điều này


1

1.3 Nhắc lại về ANOVA đơn biến

Chắc các bạn còn nhớ về ANOVA (phân tích phương sai) ? Chúng ta thường dùng ANOVA đơn
biến để so sánh giá trị trung bình một đại lượng giữa nhiều phân nhóm khác nhau. Giả thuyết 0
của ANOVA đơn biến: Giá trị trung bình của biến số khảo sát là như nhau ở tất cả các phân nhóm.
H0: µ1 = µ2 = µ3 = ... = µk (k= số nhóm so sánh). Để kiểm tra giả thuyết 0 này, ta sẽ tính tỉ số F = tỉ
lệ sự sai biệt giữa các nhóm (do thí nghiệm gây ra) so với sự sai biệt nội tại (ngẫu nhiên) trong
cùng một nhóm. Tỉ dựa vào phân phối Fisher cho phép ta xác định giá trị p = xác suất có được một
giá trị F cao như thế nếu giả thuyết H0 là đúng. Ta loại bỏ giả thuyết H0 nếu p<0,05; đồng nghĩa
với việc chấp nhận giả thuyết ngược lại: Có ít nhất một phân nhóm có giá trị khác với những phân
nhóm còn lại.

Biến số định lượng

Sai biệt giữa các nhóm
do thí nghiệm gây ra: MSM
Biến thiên nội tại
(ngẫu nhiên): MSR

𝑿𝑪: Trung bình phân nhóm C


𝑿𝑨: Trung bình phân nhóm A

F

𝑿𝒈𝒓𝒂𝒏𝒅: Trung bình chung

𝑿𝑩: Trung bình phân nhóm B

Giá trị biến độc lập (phân nhóm)

A

B

𝑭=

C

Mặc khác, ANOVA sẽ gần gũi thân thiện hơn, nếu
bạn nhận ra bản chất của nó chỉ là một mô hình hồi
quy tuyến tính, cho phép dự báo giá trị Y (đại lượng)
tùy theo giá trị củ những biến số giả định tính chỉ
phân nhóm (X1, X2, X3…).

𝑴𝑺𝑴
𝑴𝑺𝑹

Y

Ví dụ: CIMT = bo + b1*Nhóm chứng + b2*Nhóm tiểu

đường + b3*Nhóm xạ trị ung thư
Mô hình này dự báo giá trị của biến số Y=CIMT tùy
theo trường hợp X thuộc phân nhóm nào
X1, X2, X3 là những biến số giả chỉ phân nhóm, chỉ
nhận 1 trong 2 giá trị: =1 (đúng) hoặc =0 (sai)
Ví dụ khi bệnh nhân đưa vào nhóm chứng thì X1=1,
X2=0 và X3=0.
Tham số bo chính là giá trị của Y khi tất cả X=0
Tham số b1,b2,b3 tương ứng cho X1,X2,X3; Đây
cũng chính là khoảng cách giữa Y1,Y2,Y3 và trung
bình của Y

b3
𝒀

b2
b1

bo

X
1

2

3


1.4 ANCOVA dùng để hiệu chỉnh những yếu tố gây nhầm lẫn


1

Lúc này các bạn hẳn sẽ tò mò hỏi rằng: nếu mô hình hồi quy tuyến tính có thể chứa nhiều biến
số, cả biến định tính và định lượng; vậy liệu ta có thể kết hợp phương pháp ANOVA và phân
tích 1 (hay nhiều) biến định lượng khác ?
Câu trả lời là hoàn toàn có thể, và phân tích ANOVA được « mở rộng » này sẽ có tên khác là
ANCOVA hay phân tích phương sai với Hiệp biến số (Analysis of Covariance). Hiệp biến số (C)
là tất cả những biến định lượng độc lập với mô hình thí nghiệm (biến định tính X) nhưng có
ảnh hưởng đến biến số phụ thuộc (Y).

Mô hình ANOVA đơn giản

Mô hình ANCOVA

X1

C

X2 X3

C

Y

Trước
hiệu chỉnh

X1

Y’ = Bo + Bc*C + B1(X1)+ B2(X2)+ … Bn(Xn)

Biến số giả tương ứng X=1,2,…n

X2 X3

Hiệp biến số

Y

Sau
hiệu chỉnh

ANCOVA là một mô hình hồi quy tuyến tính chứa yếu tố X cần
khảo sát như trong ANOVA, nhưng có thêm 1 hay nhiều hiệp
biến số C. Mô hình này cho phép hiệu chỉnh giá trị Y dựa theo
C.
ANCOVA cho kết quả chính xác hơn ANOVA, vì nó cho phép
thu nhỏ sai số «không rõ nguyên nhân» hay SSR trong một
phân nhóm và làm tăng sức mạnh của ANOVA. Vì ANOVA dựa
vào việc so sánh kích thước của sai biệt giữa nhóm này và
nhóm khác, do thí nghiệm gây ra (SSM) với kích thước của sai
số ngẫu nhiên nội tại trong cùng phân nhóm (SSR). Hiệp biến
số cho phép giải thích được 1 phần của SSR và giúp đánh giá
chính xác hơn ảnh hưởng thực sự của hiệu ứng chính (SSM).
ANCOVA còn cho phép cô lập (và loại bỏ) những yếu tố gây
nhầm lẫn C có khả năng làm sai lệch giá trị của Y trong thí
nghiệm. Đa số thiết kế nghiên cứu đều chứa nguy cơ này. Một
nhà nghiên cứu cẩn thận sẽ lường trước và phân lập ra các yếu
tố gây nhầm lẫn, sau đó dùng ANCOVA để phân tích ảnh
hưởng của yếu tố gây nhầm lẫn này (được xem như hiệp biến
số), nếu kết quả ANCOVA chứng thực nguy cơ gây nhầm lẫn, ta

có thể hiệu chỉnh lại mô hình để đưa ra kết luận chính xác hơn.

SST
SSM

SSR

ANOVA đơn biến cho X

SST
SSM

SSR

Do X
do C
gây ra

Không giải
thích được

ANCOVA

ANCOVAcũng có thể dùng để kiểm tra giả định rằng quy luật mà ta tìm ra với ANOVA có thể KHÔNG đúng cho
MỌI trường hợp. Lúc này ANCOVA cho phép đặt ra những giả thuyết mới, quy luật mới, hướng nghiên cứu
mới…
Tóm lại, ANCOVA là công cụ dành cho những nhà nghiên cứu cẩn trọng, cầu toàn, nhìn vấn đề một cách tinh
tế và toàn diện chứ không mù quáng theo đuổi duy nhất một mục tiêu, một giả thuyết duy nhất. Y học là lĩnh
vực nhiều tiềm năng cho thiết kế nghiên cứu ANCOVA, vì cơ thể con người là một bộ máy phức tạp, đồng
thời tương tác với môi trường xung quanh; nên trước bất cứ một hiệu ứng sinh lý, bệnh học, điều trị nào,

cũng có nhiều yếu tố tham gia, hiệp đồng hay đối kháng lẫn nhau, nếu chỉ nhìn sự việc theo 1 chiều, X gây ra
Y thì quá đơn giản.


1.5 Một số ứng dụng thực tế của ANCOVA

1

ANCOVA có thể ứng dụng trong 4 hoàn cảnh nghiên cứu:

1

Y

Khi bạn đã biết chắc rằng giữa C và Y luôn có mối quan hệ
chặt chẽ. Như vậy mỗi khi bạn muốn khảo sát quan hệ giữa Y
và X, bạn phải hiệu chỉnh giá trị Y theo C trước…
Ví dụ: C có thể là tuổi của bệnh nhân và Y thay đổi do sự lão
hóa, như trong thí dụ mà ta đang xét.

C
Có tương quan giữa Y và C

2

X1
X2 X3

C là một yếu tố gây nhiễu trong quá trình nghiên cứu mà bạn
đã tiên liệu trước. Yếu tố này có thể gây sai lệch kết quả của

Y theo cách ngẫu nhiên. Bạn cần vô hiệu hóa tác động sai
lệch này trước khi làm ANOVA.
Ví dụ: Một nghiên cứu về khả năng gắng sức của bệnh nhân
tim mạch được thực hiện cùng lúc ở miền núi và vùng đồng
bằng, chức năng trao đổi khí của bệnh nhân cần được hiệu
chỉnh bởi độ cao C vì độ cao làm thay đổi FiO2.

C
Y
C là 1 yếu tố gây nhiễu

3

Thí nghiệm
Giá trị cơ bản

Y

Y
Thời gian

Trước

Trong các thử nghiệm lâm sàng, vấn đề thường gặp có thể là
so sánh hiệu quả điều trị đối với đại lượng Y ở nhiều liều
thuốc (hay loại thuốc) X khác nhau, tuy nhiên nhiều người
quên rằng trước khi thí nghiệm, bệnh nhân có thể đã có Y
khác nhau. Vì thế Y trước thí nghiệm cũng là 1 loại yếu tố gây
nhầm lẫn và được xem như hiệp biến số C.
Ví dụ: Khảo sát huyết áp sau khi dùng 3 liều thuốc hạ áp khác

nhau. Y = Huyết áp, X= Liều thuốc và C = Huyết áp cơ bản
trước khi dùng thuốc.

Sau

C chính là bản thân giá trị Y trong điều
kiện cơ bản, trước thí nghiệm

X

B

C

D

A

E

F

C có thể là một yếu tố bất kì, nảy
sinh do sự tò mò …

4

ANCOVA được mang ra áp dụng ngẫu nhiên,do ý đồ chủ
quan của người làm nghiên cứu.
Ví dụ: Khi có quá nhiều biến số trong tay, nhà nghiên cứu tò

mò muốn kiểm tra 1 giả thuyết nào đó.
Hoặc đơn giản chỉ vì họ chưa hài lòng với giá trị p, Effectsize… của mô hình gốc, và muốn dùng ANCOVA với hy vọng
làm cho kết quả đẹp hơn 1 chút.


1

1.6 Những giả định của ANCOVA
Bản chất của ANCOVA là một mô hình hồi quy tuyến tính , nên những biến số cần phân tích
phải thỏa mãn tất cả những điều kiện giả định của hồi quy tuyến tính; ngoài ra còn cần thêm
một số điều kiện đặc biệt như:
Giả định về tính độc lập giữa hiệp biến số (C) và hiệu ứng chính (biến số X). Nói cách khác, nếu
bạn thực hiện ANOVA của C theo X, kết quả của F-test và/hoặc post-hoc test phải cho ra kết
quả âm tính (không có sự khác biệt ý nghĩa của giá trị C giữa các phân nhóm quy định bởi yếu
tố X.
Giả định về sự tương đồng hệ số góc hồi quy giữa Y và C giữa các phân nhóm quy định bởi X.
Như vậy: Y và C vừa phải quan hệ tuyến tính với nhau, hệ số hồi quy giữa chúng cũng phải
tương đương nhau, và độc lập với X.
Bạn có thể hiểu đơn giản để kiểm tra giả định này, nếu ta dựng 3 đường thẳng hồi quy của Y
theo C tương ứng với 3 giá trị của X, 3 đường này phải gần như song song với nhau và không
khác biệt so với đường thẳng hồi quy cho toàn thể.
Mặc khác, nếu ta xét mô hình hồi quy tuyến tính với Y là giá trị dự báo, chứa cùng lúc X, C thì
không được có tương tác ý nghĩa giữa X và C, như vậy yếu tố tương tác X*C trong mô hình
không được có ý nghĩa thống kê (p>0,05).

Y = Bo + B1(X) + B2(C) + B3.(X*C)

Yếu tố tương tác
Phải vô nghĩa


C = Bo + B1(X1)+ B2(X2)+ … Bn(Xn)
C phải độc lập với X
Hiệp biến số
X=1
X=2
X=3

Tương đương nhau
về độ dốc.

Toàn thể

SST
SSM

SST

SST
SSR

SSM

SSM

SSR

SSR

ANOVA đơn biến cho X
Do X

do C
gây ra
ANCOVA lý tưởng
(X và C độc lập)

Không giải
thích được

Do X

do C gây ra

Không giải
thích được

ANCOVA không lý tưởng
(X và C có tương tác)


2
1

2

3

4

2.1 Chuẩn bị quy trình ANCOVA


Kiểm tra 2 giả định:
+ Phân phối bình thường (chuẩn) của Y và C
+ Không có giá trị bất thường (điểm ngoại lai)

Thăm dò số liệu

Kiểm tra hiệp biến số

Kiểm tra 2 giả định:
+ Tương đồng về hệ số hồi quy giữa Y và C trong các phân nhóm X
+ Tính độc lập giữa C và X

Kiểm tra mô hình tuyến tính

Phân tích sâu

Chạy ANCOVA lần 1, kiểm tra:
+ Ý nghĩa thống kê của C
+ Ý nghĩa thống kê của mô hình sau hiệu chỉnh
+ các giả định về phẩm chất mô hình
Chạy ANCOVA lần 2 với bootstrap và phân tích sâu
Có giả thuyết cụ thể: phân tích tương phản
Chưa có giả thuyết: Post-hoc test

5

So sánh giá trị Y trước và sau hiệu chỉnh

Trong tài liệu lần này, tác giả hoàn toàn dựa vào Syntax thay vì sử dụng giao diện của
SPSS.

Ưu điểm của việc sử dụng Syntax đó là bạn sẽ tiết kiệm rất nhiều thời gian khi thực
hiện các quy trình phức tạp như trong ANCOVA, nhất là khi bạn phải thử lại nhiều lần.
Nhược điểm của Syntax, dĩ nhiên là tính phổ quát, vì để dùng được Syntax, thiết kế
nghiên cứu của bạn phải tương đồng với thí dụ này; hoặc bạn phải thay đổi nội dung
Syntax.
Dù sao thì ANCOVA cũng là 1 quy trình phức tạp hơn nhiều so với ANOVA, nên tác giả
tập trung phân tích kỹ phần kết quả để giúp bạn có thể diễn giải kết quả của chính
mình. Về phần Syntax, bạn sẽ phải thay đổi 1 vài điểm nhỏ ở bước đầu tiên; tuy nhiên
kể từ khối lệnh thứ 2 trở đi mọi thứ đều đã có sẵn và chính xác, bạn có thể an tâm thi
hành.
ANCOVA thực ra rất giống với ANOVA về nguyên tắc cơ bản, nên bạn có thể đọc
thêm tài liệu về ANOVA đơn biến của tác giả để hiểu thêm về 1 số khái niệm như Post
hoc test, phân tích tương phản, test F, hệ số ảnh hưởng v.v …


2

2.1 Chuẩn bị quy trình ANCOVA
0

Tạo bảng số liệu
1) Đầu tiên, bạn tạo 1 bảng số liệu gồm 3 biến số:
Phân nhóm: Mã hóa giá trị:
1= bình thường (nhóm chứng âm)
2= Tiểu đường type 2 (Nhóm chứng dương)
3= Sau xạ trị ung thư (Nhóm nghiên cứu)

X

C


Tuổi

Y

Giá trị CIMT (đo bằng µm)

Chú ý:
+ Bạn phải đặt tên biến là X,Y,C như trong hình, để có thể sử
dụng Syntax
+ Không cần dán nhãn giá trị cho biến số, ta sẽ làm việc này
bằng cách sửa nội dung syntax
2) Tải bộ syntax ANCOVA từ Google drive của tác giả về máy:
/>
3) Mở nội dung Syntax: Bạn có thể mở file syntax bằng 2 cách: Trực tiếp click chuột vào icon của file
syntax, hoặc thông qua giao diện của SPSS

1
2
3

4

5


2

2.2 Cách sử dụng Syntax


Cửa sổ Syntax Editor mở ra cho phép bạn đọc nội
dung Syntax, sửa chữa và thi hành nó

2

1
Để thi hành toàn bộ nội dung Syntax:
Bạn click chuột phải và chọn Run All

Để thi hành 1 khối lệnh tùy chọn:
Trước hết bạn đánh dấu chọn khối lệnh này
Sau đó click chuột phải mở Menu
và chọn Run Selection.

1
2
3

Trạng thái của bộ xử lý ở góc dưới phải màn hình
Đang thi hành quy trình…
Đã thực hiện xong quy trình và xuất
kết quả


2.3 Phân tích nội dung Syntax cho ANCOVA

2

* Bước 1: Dán nhãn biến số và nhãn giá trị
cho X,Y,C


Khối lệnh thứ 1 có mục đích khai báo tên của biến số và tên
phân nhóm bằng cách dán nhãn.
Quan trọng: Các bạn bắt buộc phải sửa chữa nội dung của khối
lệnh này cho phù hợp với nghiên cứu của mình, trước khi thi
hành bộ syntax.

VARIABLE LABELS
X "Phân nhóm đối tượng"
C "Tuổi"
Y "Bề dày nội trung mạc".
VALUE LABELS
X
1 "Nhóm chứng"
2 "BN Tiểu đường type 2"
3 "Sau xạ trị carcinoma mũi họng".

Quy tắc cần nhớ
X= Biến số độc lập dùng để phân nhóm trong ANOVA
Y = Đại lượng cần khảo sát, hay biến số phụ thuộc trong ANOVA
C= Yếu tố cần phân tích trong ANCOVA, hay hiệp biến số.
Bạn có thể thay đổi những gì ?
1) Tên của biến số Y,C,X
2) Số phân nhóm và tên phân nhóm của X

Ví dụ nghiên cứu của bạn nhằm so sánh hiệu quả điều trị cao
huyết áp của 4 loại thuốc, với hiệp biến số là « Huyết áp cơ
bản», tên biến số có thể đổi lại như sau:

2


1

Sau khi thay đổi nội dung,
chọn riêng khối lệnh này
Nhấn chuột phải mở Menu

Chọn « Run Selection »

VARIABLE LABELS
X "Phân nhóm điều trị"
C « Huyết áp trước điều trị"
Y « Huyết áp sau điều trị".
VALUE LABELS
X
1 "Nhóm Placebo"
2 « Chẹn Beta"
3 « Lợi tiểu«
4 « Kháng Canxi»
5 « Ức chế Angiotensin »….
Lưu ý: Bạn có thể thêm nhiêu giá trị của X tùy thích, thậm chí có
thể bớt còn 2, vì ANCOVA có thể áp dụng cho cả trường hợp X
chỉ có 2 giá trị (so sánh giữa 2 phân nhóm chứ không hề bắt
buộc phải có 3 giá trị.

3
Khối lệnh sẽ được thi hành, bạn kiểm ra lại trong
bảng số liệu: Các biến đã được dán nhãn

4



2

2.3 Phân tích nội dung Syntax cho ANCOVA

* Bước 2: Thăm dò 2 biến số C,Y và kiểm tra giả
định cho ANOVA
EXAMINE VARIABLES=C Y BY X
/PLOT BOXPLOT NPPLOT
/MISSING PAIRWISE
/NOTOTAL.

Khối lệnh thứ 2 : Thăm dò biến số
nhằm mục đích thăm dò số liệu, nội dung của quy trình này
gồm có:
+ Thống kê mô tả cho 2 biến số Y và C cho từng phân nhóm
theo X.
+ Kiểm tra giả định phân phối chuẩn của C và X trong mỗi
phân nhóm bằng biểu đồ QQ và test Sapiro Wilk
+ Vẽ biểu đồ Box-plot cho C và Y theo X để phát hiện điểm
giá trị ngoại lai.
2 giả định này là rất quan trọng trước khi tiến hành phân
tích hồi quy và ANOVA.

* Bước 3: ANOVA đơn biến cho Y và C

Khối lệnh thứ 3 : ANOVA trước hiệu chỉnh

BOOTSTRAP

/SAMPLING METHOD=STRATIFIED(STRATA=X )
/VARIABLES TARGET=C Y INPUT=X
/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
ONEWAY C Y BY X
/STATISTICS HOMOGENEITY
/PLOT MEANS
/MISSING ANALYSIS
/POSTHOC=BONFERRONI GH ALPHA(0.05).

Nội dung của khối lệnh này là thực hiện ANOVA 1 yếu tố
cho Y và C theo X.
Quy trình gồm có:
+ Thực hiện Bootstrap : lấy mẫu ngẫu nhiên lặp lại 1000 lần
cho mỗi phân nhóm của X
+ Làm test Levene để kiểm tra giả định về đồng nhất
phương sai của C và Y giữa các phân nhóm.
+ Thực hiện F test cho Y,C theo X (ANOVA)

Chú ý:

+ So sánh bắt cặp tuần tự giữa các phân nhóm bằng Posthoc test Bonferroni và Games-Howell

Để khái quát hóa bộ Syntax, tác giả cho quy trình
ANOVA làm cùng lúc 2 loại post-hoc test là :

Ý nghĩa của quy trình là để :

Bonferroni: nếu giả định phương sai đồng nhất thỏa
mãn (Levene test có p>0,05).

Games-Howell: khi có vi phạm giả định về phương sai
đồng nhất (Levene test có p<0,05).
Khi đọc kết quả, bạn chỉ cần diễn giải 1 trong 2, tùy theo
kết quả Levene test.

+ So sánh giá trị trước hiệu chỉnh của Y giữa các phân
nhóm

+ Kiểm tra tính độc lập của C và X : Đây là 1 điều kiện để
làm ANCOVA. Lưu ý: Bước này chỉ thực sự quan trọng khi
X là 1 biến số thứ hạng và có ý nghĩa định lượng; ví dụ độ
nặng của bệnh, liều thuốc, thời gian…
Ngược lại nếu bản thân X không có 1 quy luật nào rõ ràng,
như trong trường hợp này, thì không cần thiết phải kiểm
tra quan hệ giữa C và X nữa.


2

2.3 Phân tích nội dung Syntax cho ANCOVA

* Bước 4: Thăm dò tương quan giữa hiệp biến số C và
biến số Y
* Kiểm tra giả định tương đồng hệ số hồi quy
.
GGRAPH
/GRAPHDATASET NAME="graphdataset"
VARIABLES=C Y X MISSING=LISTWISE
REPORTMISSING=NO
/GRAPHSPEC SOURCE=INLINE.

BEGIN GPL
SOURCE: s=userSource(id("graphdataset"))
DATA: C=col(source(s), name("C"))
DATA: Y=col(source(s), name("Y"))
DATA: X=col(source(s), name("X"), unit.category())
GUIDE: axis(dim(1), label("Hiệp biến số C"))
GUIDE: axis(dim(2), label("Giá trị biến số cần so
sánh"))
GUIDE: legend(aesthetic(aesthetic.color.exterior),
label("Phân nhóm"))
SCALE: cat(aesthetic(aesthetic.color.exterior),
include("1", "2", "3"))
ELEMENT: point(position(C*Y), color.exterior(X))
END GPL.
TSET NEWVAR=NONE.
CURVEFIT
/VARIABLES=Y WITH C
/CONSTANT
/MODEL=LINEAR
/PRINT ANOVA
/PLOT FIT
/ID=X.

Khối lệnh thứ 4: Khảo sát tương quan giữa Y và C
Nội dung của quy trình:
+ Lệnh GGRAPH và GPL: Vẽ biểu đồ Scatter plot để khảo
sát quan hệ tuyến tính giữa Y và C ở mỗi phân nhóm theo
X. Đây là phương pháp trực quan để kiểm tra giả định
tương đồng về hệ số hồi quy giữa Y và C.


+ Lệnh CURVEFIT: Khảo sát đường thẳng hồi quy tuyến
tính giữa Y và C trong toàn bộ quần thể chung, kết quả
gồm có bảng ANOVA đánh giá ý nghĩa thống kê của mô
hình và biểu đồ Scatter plot.

*Bước 5: Kiểm tra ý nghĩa của tương tác C*X

Khối lệnh thứ 5:

UNIANOVA Y BY X WITH C
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PRINT=ETASQ
/CRITERIA=ALPHA(.05)
/DESIGN=X C C*X.

Thực hiện ANCOVA lần thứ 1, cho mô hình chứa
C,X và yếu tố tương tác X*C. Quy trình này nhằm
mục đích duy nhất là kiểm tra giả định tương đồng
hệ số hồi quy giữa Y và C độc lập với X.
Lưu ý:
Các bạn không nên cho chạy toàn bộ Syntax 1 lần duy
nhất, kết quả sẽ dài và rối. Mặt khác mục đích của 5 khối
lệnh đầu tiên là kiểm tra một số giả định trước khi tiến
hành ANCOVA chính thức; vì vậy bạn nên chạy từng khối
riêng biệt và tuần tự. Thỏa giả định ở bước nào mới chạy
tiếp bước tiếp theo.
Trong trường hợp giả định bị vi phạm, có thể bạn phải xử
trí bằng cách chỉnh sửa số liệu, chuyển dạng biến số… rồi
kiểm tra lại trước khi đi tiếp.



2

2.3 Phân tích nội dung Syntax cho ANCOVA
Khối lệnh thứ 6:

* Bước 6: Kiểm tra giả định Homoscedasticity
và giả định đồng nhất phương sai của giá trị thặng dư

Kiểm tra giả định cho mô hình hồi quy tuyến tính
ANCOVA

UNIANOVA Y BY X WITH C
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/SAVE=PRED (PRE) ZRESID (RSD)
/PLOT=PROFILE(X)
/PLOT=RESIDUALS
/CRITERIA=ALPHA(.05).
EXECUTE.

Nội dung của quy trình:

EXAMINE VARIABLES=RSD
/PLOT NPPLOT
/MISSING PAIRWISE
/NOTOTAL.
* Chart Builder.
GGRAPH

/GRAPHDATASET NAME="graphdataset"
VARIABLES=PRE RSD MISSING=LISTWISE
REPORTMISSING=NO
/GRAPHSPEC SOURCE=INLINE.
BEGIN GPL
SOURCE: s=userSource(id("graphdataset"))
DATA: PRE=col(source(s), name("PRE"))
DATA: RSD=col(source(s), name("RSD"))
GUIDE: axis(dim(1), label("Giá trị dự báo của Y"))
GUIDE: axis(dim(2), label("Giá trị thặng dư chuẩn hóa
(RSD)"))
ELEMENT: point(position(PRE*RSD))
END GPL.

Thực hiện ANCOVA lần thứ 2 với mô hình chứa 2 biến
số C và X, không kèm theo bootstrap hay phân tích
sâu.
Mục đích duy nhất là để sao lưu kết quả dự báo và sai
số thặng dư, từ đó kiểm tra các giả định về
homoscedasticity và đồng nhất phương sai của giá trị
thặng dư chuẩn hóa (RSD). Các giả định này rất quan
trọng để kiểm tra mức độ phù hợp (hay phẩm chất)
của mô hình hồi quy tuyến tính.

+ Giả định Homoscedasticity được kiểm tra bằng cách
trực quan mối quan hệ tuyến tính giữa giá trị dự báo
và sai số thặng dư chuẩn hóa. Kết quả trông đợi là
không có quan hệ ý nghĩa (RSD phân bố ngẫu nhiên).

DELETE VARIABLES PRE RSD.


+ Bước tiếp theo là khảo sát phân phối chuẩn của sai
số thặng dư RSD bằng biểu đồ QQ plot và test SapiroWilk; kết quả trông đợi là có phân phối chuẩn.
Nếu cả 2 giả định này được thỏa mãn, bạn có thể đi
tiếp bước 7 là quy trình ANCOVA chính thức với phân
tích sâu, cũng là bước cuối cùng.


2

2.3 Phân tích nội dung Syntax cho ANCOVA
Khối lệnh thứ 5:

* Bước 7: Phân tích ANCOVA dựa vào quy trình GLM-1
BOOTSTRAP
/SAMPLING METHOD=STRATIFIED(STRATA=X )
/VARIABLES TARGET=Y INPUT=X C
/CRITERIA CILEVEL=95 CITYPE=BCA NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
UNIANOVA Y BY X WITH C
/CONTRAST(X)=Simple(1)
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/PLOT=PROFILE(X)
/EMMEANS=TABLES(X) WITH(C=MEAN) COMPARE
ADJ(BONFERRONI)
/PRINT=LOF TEST(LMATRIX) GEF OPOWER PARAMETER
ETASQ HOMOGENEITY DESCRIPTIVE
/PLOT=SPREADLEVEL RESIDUALS
/CRITERIA=ALPHA(.05)

/DESIGN=C X.

Thực hiện ANCOVA một cách chính thức, với
bootstrap, kèm theo những phân tích sâu bao gồm test
post-hoc, phân tích tương phản và thống kê mô tả cho
giá trị Y sau hiệu chỉnh.
Nội dung quy trình gồm có:
+ Lệnh Bootstrap: lấy mẫu ngẫu nhiên lặp lại 1000 lần
cho mỗi phân nhóm của X, mục đích để khảo sát các trị
số trong ANCOVA, post-hoc test, t-test và Contrast-test
với cỡ mẫu lớn hơn nhiều lần so với quần thể gốc, từ
đó tính Bca95% CI là khoảng tin cậy cho những trị số
này.
+ Quy trình ANCOVA chính thức, dựa trên chức năng
General linear model (GLM) univariate, dựng mô hình
hồi quy tuyến tính chứa 2 biến số C và X.
Kết quả xuất ra bao gồm:
+ Bảng ANCOVA
+ Thống kê mô tả cho giá trị Y sau khi hiệu chỉnh
+ Biểu đồ biến thiên của Y sau khi hiệu chỉnh
+ Kết quả phân tích tương phản đơn giản với X=1 là
nhóm chứng.
+ kết quả Post-hoc test.
Lưu ý: Thực ra bạn chỉ cần làm Post-hoc test hoặc
Contrast, tùy theo ý đồ nghiên cứu. Post-hoc test kiểm
tra tất cả các khả năng có thể, còn Contrast chỉ kiểm tra
1 vài giả thuyết có định hướng.
Bạn chọn 1 trong 2 để báo cáo , test Post-hoc có thể
dùng cho mọi trường hợp. Tác giả đã chọn phương
pháp tối ưu nhất là Bonferroni.

Đến đây việc thi hành bộ Syntax đã hoàn tất. Các bạn
chỉ còn việc đọc kết quả.


3. Diễn giải kết quả
3.1 Thăm dò số liệu

3

Có 2 cách kiểm tra giả định phân phối chuẩn:
1) Phương pháp toán học - Sử dụng kiểm định Shapiro-Wilk hoặc Kolmogorov-Smirnov :
tối ưu cho trường hợp cỡ mẫu không quá lớn (<50 trường hợp), nhưng lại không đáng tin
cậy khi cỡ mẫu quá nhỏ)
2) Phương pháp trực quan - Sử dụng biểu đồ Q-Q plot: Thích hợp cho những cỡ mẫu lớn
(> 50 trường hợp)
Tests of Normality
Kolmogorov-Smirnova
Phân nhóm đối tượng
Tuổi

Nhóm chứng
Tiểu đường type 2

Statistic

Shapiro-Wilk

df

Sig.


Statistic

df

Sig.

15

,200*

,922

15

,204

,135

15

,200*

,952

15

,565

,131


15

,200*

,961

15

,709

,186

15

,174

,925

15

,228

,128

15

,200*

,950


15

,532

,200

15

,110

,930

15

,274

,174

Sau xạ trị carcinoma hầu
họng
Bề dày nội trung mạc

Nhóm chứng
Tiểu đường type 2
Sau xạ trị carcinoma hầu
họng

*. This is a lower bound of the true significance.


a. Lilliefors Significance Correction

Kiểm tra giả định phân phối chuẩn cho biến số phụ thuộc (Y) ở mỗi phân nhóm X
Kiểm tra giả định phân phối chuẩn cho hiệp biến số (C) ở mỗi phân nhóm X
Kết quả cần quan tâm: Giá trị p

Kết quả trông đợi: Giá trị p>0,05 cho test Shapiro-Wilk hoặc Kolmogorov Smirnov ở tất cả các hàng
cho thấy giá trị của Y và C phân phối bình thường (chuẩn) trong mỗi phân nhóm, thỏa mãn giả định
đầu tiên của ANOVA.
Nếu có một trong các giá trị p<0,05, ta đã vi phạm giả định về phân phối chuẩn; không thể đi tiếp
ngay mà cần tập trung xử trí bất thường này trước.

Nếu bạn có cỡ mẫu lớn (> 50 trường hợp), có
thể dùng biểu đồ Q-Q để phát hiện nhanh sự
vi phạm giả định phân phối chuẩn. Nếu các
điểm giá trị phân phối chuẩn, chúng sẽ nằm
rải rác gần đường thẳng (màu xanh) như
trong hình. Nếu có sự phân tán (các điểm
phân bố xa khỏi đường thẳng này) tức là phân
phối không chuẩn (màu đỏ).


3

3. Diễn giải kết quả
3.1 Thăm dò số liệu
Nếu giả định phân phối
chuẩn bị vi phạm ta
phải xử trí thế nào ?


Để làm ANOVA đơn biến: Bạn có nhiều lựa chọn
1) Chuyển dạng biến số (ví dụ thang đo Logarit), với hy vọng sẽ có phân phối
chuẩn
2) Sử dụng phương pháp khác
ví dụ mô hình hồi quy đa cấp có Bootstrap để thay thế cho GLM-ANCOVA.
3) Bỏ qua vi phạm và vẫn làm phân tích ANCOVA (Thực ra điều kiện phân phối
không phải là tuyệt đối bắt buộc).
4) Làm ANCOVA song song cho 2 mẫu số liệu: nguyên thủy và đã chuyển dạng
(logarit hóa), so sánh kết quả của chúng với nhau.

Lời khuyên của BS Nhi:
Nếu bạn có bất thường về số liệu, bạn NÊN báo cáo điều đó cụ thể trong phần kết
quả, nhất là cách bạn xử lý những điểm giá trị cá biệt, lựa chọn test thống kê. Nếu
phân phối lệch trái hay phải, ngoài giá trị trung bình và SD bạn nên cung cấp thêm giá
trị của Skewness và Kurtosis (trong bảng kết quả Explore).
Hành động này sẽ đánh vào tâm lý của các nhà phê bình và giám khảo, loại bỏ nghi
ngờ về việc gian lận và ngụy tạo số liệu, nhất là khi kết quả của bạn quá hoàn hảo.
Người đọc sẽ nghĩ: Tác giả là một người thành thật và nắm vững phương pháp thống
kê.

P<0,00001 à ?
Kết quả này quá đẹp nên
không thể tin được.

Phải triệu hồi
chuyên viên thống
kê ra làm chứng

Nghiên cứu sinh



3

3. Diễn giải kết quả
3.1 Thăm dò số liệu

Biểu đồ Box-plots cho phép phát hiện nhanh các điểm giá trị cá biệt (chênh lệch quá lớn so
với độ lệch chuẩn). Biểu đồ này cũng dùng để báo cáo kết quả.
Bất cứ điểm nào có khoảng cách > 1,5 lần chiều dài của error bar được xem là điểm ngoại
lai.
Nếu cách biệt lớn hơn 3 lần, đó là giá trị rất phân cực.

Trong hình trên, không có điểm giá trị ngoại lai nào được phát hiện.
Nếu có trường hợp giá trị cá biệt, SPSS sẽ đánh dấu bằng mã số thứ tự cho phép ta định vị
dễ dàng trường hợp đó trong bảng số liệu.

*
X3
X1,5

*

Điểm giá trị cá biệt
(trường hợp thứ 5 trong bảng số liệu)

Điểm giá trị cá biệt
Điểm giá trị chênh lệch cực độ

Điểm giá trị chênh lệch cực độ
(trường hợp thứ 4 trong bảng số liệu)



3

3. Diễn giải kết quả
3.1 Thăm dò số liệu
Nếu có điểm giá trị ngoại
lai, ta phải xử trí thế nào
?

+ Đầu tiên, cần tìm hiểu nguyên nhân của giá trị cá biệt này: Có thể do nhập số liệu
sai ? Có thể do sai sót trong quá trình đo (đa số trường hợp). Sau khi đã loại trừ tất
cả nguyên nhân chủ quan, ta buộc phải kết luận rằng giá trị đó có thực và hoàn
toàn ngẫu nhiên (rất hiếm gặp, đồng nghĩa với việc đối tượng thực sự là một ngoại
lệ).
Nếu ta quyết định vẫn giữ điểm ngoại lai; ta có nhiều lựa chọn:
1) Sử dụng Bootstrap để tăng sức mạnh thống kê.
2) Thay đổi giá trị cá biệt bằng 1 giá trị khác gần với nó nhất có thể (ví dụ: nếu giá
trị x = 10 được xem là quá khác biệt, ta có thể thử giá trị x=8 , vẫn là giá trị cao nhất
nhưng còn nằm trong giới hạn cho phép) (Lưu ý: giá trị thay thế có thể là giả hay
thật đều được)
3) Chuyển dạng biến số (ví dụ đổi sang thang đo logarit)
4) Cầu kì hơn: Ta tiến hành làm ANCOVA song song cho 2 trường hợp: Có và không
có điểm giá trị ngoại lai, nếu kết quả tương tự nhau, ta giữ, ngược lại ta bỏ.
Loại bỏ giá trị luôn là lựa chọn cuối cùng:
Nếu ta quyết định bỏ điểm ngoại lai này, effect size và giá trị phổ quát của mô hình
có thể sẽ bị ảnh hưởng.


3. Diễn giải kết quả

3.2 ANOVA cho giá trị C và Y chưa hiệu chỉnh

3

Test of Homogeneity of Variances
Levene Statistic

df1

df2

Sig.

Tuổi

,565

2

42

,572

Bề dày nội trung mạc

1,312

2

42


,280

Quy trình phân tích phương sai bắt đầu bằng việc kiểm tra giả định có sự đồng nhất phương sai của
biến số cần khảo sát bằng test Levene. Ở đây ta làm ANOVA song song cho cả Y (Bề dày nội trung
mạc) và C (Tuổi) nên bảng Levene test có 2 hàng tương ứng cho C và Y.
Thông tin cần quan tâm là cột Sig. hay giá trị p. Kết quả trông đợi là p>0,05 cho thấy có sự đồng nhất
về phương sai ở các phân nhóm.
Nếu p<0,05 tức là đã có sự vi phạm giả định về đồng nhất phương sai.
ANOVA

Sum of
Squares

df

Mean Square

F

Sig.

Between Groups

2112,700

2

1056,350


38,763

,000

Within Groups

1144,570

42

27,252

Total

3257,270

44

Bề dày nội trung

Between Groups

273991,900

2

136995,950

32,715


,000

mạc

Within Groups

175879,061

42

4187,597

Total

449870,961

44

Tuổi

Sum of Squares

df

Mean Square

F

Sig.


Between Groups

SSM

dfM= k-1

MSM

Giá trị F

Giá trị p

Within Groups

SSR

𝑛𝑘 − 1

Total

SST

MSR

(N-1)

Ghi chú: k = số phân nhóm hay bậc giá trị của biến định tính; N= tổng số trường hợp; n= số trường hợp trong
mỗi phân nhóm; xi = giá trị của 1 trường hợp; 𝑥𝑘: trung bình của mỗi phân nhóm; 𝑥𝑔𝑟𝑎𝑛𝑑 : trung bình chung
(không phân biệt phân nhóm); sk: phương sai của mỗi phân nhóm; sgrand: phương sai chung (không phân biệt
phân nhóm). MS: Mean of square; SS: Sum of square: M:Model hay hiệu ứng chính; R: error hay residual: sai số

ngẫu nhiên; T: total = tổng cộng


3

3. Diễn giải kết quả
3.2 ANOVA cho giá trị C và Y chưa hiệu chỉnh

Kết quả so sánh bắt cặp tuần tự (Post-hoc test) cho hiệp biến số C (Tuổi)
Kết quả so sánh bắt cặp tuần tự (Post-hoc test) cho biến số phụ thuộc Y
Ngưỡng dưới khoảng tin cậy 95% của khác biệt

Ngưỡng trên khoảng tin cậy 95% của khác biệt

Phải cùng dấu (không chứa giá trị 0)
để khác biệt có ý nghĩa

Đây là bảng kết quả Post-hoc test bằng phương pháp Bonferroni cho 2 biến C (tuổi) và Y chưa hiệu chỉnh
(CIMT) theo X (phân nhóm). Lúc này ta chỉ cần quan tâm tới hiệp biến C (Tuổi), Biến số Y ta sẽ dành cho phần
sau để đối chiếu với kết quả sau hiệu chỉnh. Test Posthoc có thể đọc ở bảng không có và có sử dụng
bootstrap. Khi có bootstrap ta không dựa vào hệ số p mà đọc trực tiếp giá trị CI95%. Nếu 2 ngưỡng cùng dấu,
tức là không có sự khác biệt, ngược lại nếu trái dấu, tức CI95% có thể chứa giá trị 0, tức có sự khác biệt.
Với biến C, ngoài mục đích mô tả đơn giản, post-hoc test còn để kiểm tra xem liệu C có độc lập với X hay
không, nói cách khác; cho một phân tích ANCOVA lý tưởng, C không nên khác biệt có ý nghĩa giữa các phân
nhóm.
Trong thí dụ này, thực ra có thể bỏ qua bảng Posthoc này luôn, vì giữa các phân nhóm KHÔNG HỀ có liên
quan tới nhau (bản thân X chỉ là biến số giả, không có quy luật biến thiên liên tục) dùng để phân ra 3 nhóm
bệnh ngẫu nhiên; vì vậy không cần kiểm tra tính độc lập giữa C và X làm gì nữa.
Tuy nhiên, nếu X là độ năng hay liều thuốc, hay thời gian, và bạn tìm thấy có sự khác biệt ý nghĩa về tuổi giữa
3 phân nhóm, ta đã vi phạm giả định về tính độc lập giữa C và X. Ý nghĩa của kết quả ANCOVA sẽ bị hạn chế,

và không thú vị bằng khi C và X độc lập với nhau.


3

3. Diễn giải kết quả
3.3 Kiểm tra giả định đồng nhất hệ số hồi quy
Giả định đồng nhất hệ số hồi quy giữa các phân nhóm có thể được kiểm tra bằng 2 phương
pháp:
 Phương pháp trực quan : dựa vào biểu đồ điểm phân tán và dựng đường thẳng hồi quy
cho mỗi phân nhóm
 Phương pháp toán học: Thực hiện ANCOVA với mô hình tuyến tính chứa 3 biến số: C, X và
tương tác giữa C*X
Hình vẽ này được dùng để khảo sát trực
quan giả định về sự tương đồng của hệ số
hồi quy của quan hệ Y(C) giữa 3 phân
nhóm, đây là một giả định quan trọng để
thực hiện ANCOVA. Ta dựng 3 đường
thẳng hồi quy tuyến tính tương ứng với
X=1,2 và 3. Nếu giả định được thỏa mãn, ta
sẽ thấy 3 đường thẳng gần như song song
với nhau, chứng tỏ hệ số hồi quy cho C
không khác biệt quá lớn giữa 3 phân nhóm.
Chỉ cần 1 trong 3 đường thẳng giao nhau
với 1 trong 2 đường còn lại, ta biết rằng giả
định đã bị vi phạm.
A

A. Thỏa giả định


B

B. Vi phạm

Trong thí dụ này, nhận xét trực quan là có sự tương đồng rõ về hệ số hồi quy giữa Y và C ở 3 phân nhóm.

Model Summary
Adjusted R

Std. Error of the

R

R Square

Square

Estimate

,961

,923

,921

28,375

The independent variable is Tuổi.

Ta có thể so sánh giá trị R2 của 3 đường thẳng hồi quy

này với giá trị R2 của mô hình hồi quy cho toàn bộ quần
thể chung.
Ở đây ta thấy các hệ số R2 gần như nhau: 0,964 – 0,976
– 0,960 – 0,923.


3

3. Diễn giải kết quả
3.4 Kiểm tra giả định tính độc lập của C với X
Tests of Between-Subjects Effects
Dependent Variable: Bề dày nội trung mạc
Type III Sum of

Partial Eta

Source

Squares

df

Mean Square

F

Sig.

Squared


Corrected Model

444084,096a

5

88816,819

598,572

,000

,987

Intercept

22,091

1

22,091

,149

,702

,004

X


130,033

2

65,017

,438

,648

,022

C

154204,002

1

154204,002

1039,242

,000

,964

X*C

736,979


2

368,490

2,483

,097

,113

Error

5786,866

39

148,381

Total

18705654,161

45

Corrected Total

449870,961

44


a. R Squared = ,987 (Adjusted R Squared = ,985)

X

C

Đây là bảng kết quả ANCOVA cho mô hình có chứa hiệu ứng tương tác giữa
C và X. Bạn chỉ cần quan tâm tới kết quả ở hàng X*C, và đọc nhanh giá trị p.
Giá trị trông đợi là p>0,05, như trong thí dụ này, cho thấy không có hiệu ứng
tương tác ý nghĩa giữa hiệp biến số C và biến phân nhóm X.
Nếu p<0,05 cho X*C thì xem như giả định về tương đồng hệ số hồi quy đã bị
vi phạm.

Nếu giả định về tương
đồng hệ số hồi quy bị vi
phạm ta phải xử trí thế
nào ?

Một số người bảo thủ cho rằng nếu giả định này bị vi phạm thì
xem như bế tắc và ta không thể làm ANCOVA; tuy nhiên Nhi
cho rằng tự bản thân vi phạm không phải hoàn toàn xấu, nó chỉ
là 1 dấu hiệu cảnh báo về sự phân tán của số liệu. Sự phân tán
này dẫn đến nguy cơ sai lầm type I cao hơn, không thể đạt tối
đa sức mạnh thống kê của test F khi làm ANOVA.
Nguyên nhân của vi phạm đôi khi đơn giản chỉ vì số liệu được
thu thập ở nhiều quần thể khác nhau (ví dụ nhiều địa bàn dân
cư hay nhiều bệnh viện) hoặc sử dụng thiết bị đo khác nhau
cho Y, C ?
Như vậy ta vẫn có thể làm ANCOVA, nhưng cần giải thích biện
luận vi phạm này bằng cách đặt ra các giả thuyết phụ. Dù

không thể giải thích được, ta vẫn thành thực nêu rõ vi phạm
khi báo cáo kết quả như 1 hạn chế của nghiên cứu.


×