Tải bản đầy đủ (.pdf) (30 trang)

Tài liệu hướng dẫn thống kê y học sử dụng SPSS - Hệ số tương quan Spearman

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.6 MB, 30 trang )

Tài liệu hướng dẫn
thống kê y học sử dụng SPSS

SPSS
Hệ số tương quan Spearman

BS. Lê Đông Nhật Nam

1


Lời nói đầu
Thân chào các bạn, lần này chúng ta sẽ bàn về phân tích tương quan bằng hệ số rho của Spearman.
Đây cũng là phần đầu tiên trong bộ tài liệu hướng dẫn về các phương pháp phi tham số trong SPSS.
Tuy nhiên trước hết tôi muốn chia sẻ với các bạn 1 câu chuyện về bản thân …
Thời học sinh, môn ngoại ngữ thực sự là một cơn ác mộng với tôi. Bắt đầu học tiếng Anh năm lớp 6,
cho đến lớp 10 điểm số của tôi vẫn chỉ ở mức trung bình, tôi không nói, nghe được và thường quên
hết từ vựng sau khi học xong. Mỗi lần biết một thần đồng nào đó đạt điểm TOEFL cao, tôi luôn tự
hỏi liệu có vấn đề gì với cái đầu của mình ? Vì thế khi vào cấp 3 tôi dành thời gian rất nhiều để học
bài, với mục tiêu đạt điểm cao trong mỗi bài kiểm tra tiếng Anh. Sự cần cù có vẻ là chìa khóa cho
vấn đề vì điểm kiểm tra của tôi tỉ lệ thuận với thời gian tự học. Tuy nhiên khi vào đại học, tôi nhận
ra tất cả những gì mình làm đều vô dụng : mở Textbook y học ra tôi không hiểu gì hết và gặp một
người nước ngoài tôi chỉ có thể chào hỏi vài câu rồi tắt đài luôn.
Tôi chán tới mức bỏ luôn không học tiếng anh nữa suốt nhiều năm. Tuy nhiên trong suốt thời gian
đó, tôi buộc phải xem phim với English audio và English subs. 7 năm trôi qua và vào một ngày nọ khi
đang theo dõi series “Damages”, dù không có English sub nhưng tôi dứt điểm Season 1 một cách dễ
dàng. Như vậy sau khoảng 5000 giờ xem phim tôi đã nghe được tiếng anh, và sau đó không lâu tôi
phát hiện mình có thể nói thoải mái mà không cần bận tâm về ngữ pháp gì cả. Tuy chưa bao giờ
trải qua bất cứ kì thi nào để đo lường năng lực của mình, nhưng bây giờ tôi có thể giao tiếp dễ dàng
với những người Anh và Mỹ. Nếu tôi nhận ra luyện nghe mới chính là chìa khóa thì tôi đã không phí
10 năm học không xong.


Trong hành trình nghiên cứu, đôi khi việc quá tập trung vào một yếu tố nào đó và đi theo lối mòn so
sánh lặp lại, chúng ta có nguy cơ bỏ sót những điều quan trọng, mới lạ khác, và chọn sai giải pháp cũng như tôi từng sai lầm khi nghĩ điểm số là thước đo năng lực ngoại ngữ và thời gian học ngữ
pháp, từ vựng trong sách vở là điều thiết yếu để học giỏi tiếng Anh.

Nghiên cứu về sự tương quan sẽ giúp bạn thoát ra khỏi lối mòn tư duy theo cách bạn không ngờ.
Những nghiên cứu tương quan giúp bạn không ngừng thay thế những kiến thức lỗi thời, tìm ra
những ý tưởng mới lạ, mà giới hạn duy nhất là trí tưởng tượng của bạn. Nếu so sánh chỉ cho phép
bạn khảo sát từng yếu tố, sự vật riêng lẻ thì tương quan cho bạn con mắt thứ 3, nhìn thấy sợi dây
nối kết giữa bất kỳ hiện tượng, đại lượng nào.
Nghe có vẻ to tát, nhưng phân tích tương quan lại là quy trình dễ dàng nhất trong SPSS. Cũng vì nó
quá dễ nên nhiều sinh viên vẫn chưa phân biệt được giữa Spearman và Pearson, và ít người dành
thời gian để đi hết con đường ngắn này, thường chúng ta hay dừng chân khi đã tìm thấy thứ mình
muốn (giá trị p).
Như thường lệ, tôi sẽ sử dụng cách trình bày hoàn toàn khác với những bài học chính thống mà các
thầy cô khác thường dạy. Ngay cả khi bạn chưa biết gì, tài liệu này sẽ giúp bạn thực hiện thành công
từ A đến Z phân tích tương quan. Hy vọng tài liệu sẽ cho bạn thấy môn học thống kê dễ hiểu và thú
vị hơn.

2


Quy ước trình bày
Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật

Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ. Anh ta sẽ xuất
hiện trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và
ôn lại cho bạn những kiến thức cơ bản cũng như chuyên sâu về lý
thuyết thống kê. Tuy nhiên BS Thái lại rất bận rộn nên không đủ thời
gian đi vào cách thực hiện chi tiết. Anh ta cũng hay trình bày lý thuyết

thuần túy và sử dụng nhiều công thức toán học nên không mấy gần gũi
với sinh viên và gây không ít trở ngại cho các bạn vốn dị ứng với thống
kê …

Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành
thạo SPSS. Như tên gọi của mình, BS Nhi có tính cách rất hồn
nhiên và sống ngây thơ như trẻ con, vì vậy cô luôn có khuynh
hướng đơn giản hóa tối đa mọi vấn đề. Cô ấy sẽ hướng dẫn
các bạn sử dụng SPSS từng bước cụ thể, chia sẻ những mẹo
vặt, thủ thuật để giúp các bạn đi đến kết quả nhanh và dễ
dàng nhất.

Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên
cứu khoa học. Đây là một cậu sinh viên rất tò mò và luôn đặt ra
nhiều câu hỏi liên quan đến thống kê. Mặc dù những đế tài do Bảo
thực hiện rất đơn giản, nhưng đồng hành với cậu ta, các bạn có cơ
hội tích lũy cho mình nhiều kinh nghiệm trong công việc phân tích
số liệu và thiết kế nghiên cứu.

3


1

1.1 Tình huống thí dụ
Kỹ thuật cộng hưởng từ khuếch tán (DW-MRI) đang được ứng dụng trong
việc chẩn đoán và đánh giá bệnh ung thư tại nhiều cơ quan.
Một bác sĩ nội trú muốn khảo sát quan hệ giữa hệ số khuếch tán biểu kiến

(ADC) và mức độ tế bào trong bệnh thư tế bào tuyến ở phổi.
Tuy nhiên khi xử lý, anh ta phát hiện ra số liệu của mình phân phối không
chuẩn, vì vậy vi phạm giả định để có thể tính hệ số tương quan theo
Pearson. Chuyên viên thống kê ở trường sẽ làm gì để giúp anh bạn này ?

Hình ảnh cộng hưởng từ thông thường (A) và ở chế độ khuếch tán (B)

Giải pháp thay thế cho hệ số tương quan r của Pearson là hệ số tương quan
rho (ρ) của Spearman. Đây là một phương pháp phi tham số, do Charles E.
Spearman thiết lập vào năm 1910 với mục đích thay thế cho phương pháp
quy ước trong trường hợp vi phạm giả định phân phối chuẩn và/hoặc có ảnh
hưởng của điểm ngoại lai.

Lý thuyết về tương quan dựa trên giả định là: khi 2 đại lượng có quan hệ với
nhau, sự biến thiên giá trị của một đại lượng này sẽ dẫn đến một thay đổi tương
ứng ở đại lượng kia. Ví dụ nếu A và B có quan hệ tỉ lệ thuận, giá trị của A tăng thì
giá trị B cũng tăng theo.
Thực ra hai phương pháp tương quan Pearson (r) và Spearman (rho) có cùng
nguyên tắc, cùng cách diễn giải, chỉ khác là Pearson dựa trực tiếp trên giá trị thực
còn Spearman dựa trên việc xếp thứ hạng của những giá trị này.

Not this Spearman !

Charles Edward Spearman,
(1863 -1945) Nhà tâm lý học và
toán học thống kê

4



1

1.2 Hệ số tương quan Spearman
Giá trị X
X1
X2
X3
X3
X5

Xn

1

Đầu tiên, ta xếp thứ hạng cho mỗi giá trị trong
mẫu khảo sát. Những giá trị ngang nhau sẽ có
thứ hạng trung bình.

Thứ hạng
1
2
3.5
3.5
5

n

Sau đó cho mỗi trường hợp, xác định khác
biệt thứ hạng d giữa 2 biến số cần khảo sát
tương quan.

Hệ số tương quan Rho được tính như sau:

1

d
Hạng

𝝆 = 𝟏−
Biến số A

𝟔 𝒅𝟐
𝒏(𝒏𝟐 − 𝟏)

Biến số B

Với d = khác biệt giữa thứ hạng của 2 biến số
trong mỗi trường hợp
n
Trường hợp i

n= số trường hợp khảo sát (cỡ mẫu)

n

ρ= hệ số tương quan của Spearman

Vẫn là trường hợp i

Để kiểm tra ý nghĩa thống kê của hệ số tương quan ρ, chúng ta dùng lý thuyết về xác suất (Giả thuyết
H0: rho = 0). Có 2 cách:


Cách thứ 1: Dựa vào Z-score
Ta có thể tính xác suất phân phối tương ứng cho một giá trị Z-score, dựa vào phân phối bình thường.
Do hệ số r không có phân phối bình thường, nên trước tiên nó phải được hiệu chỉnh theo Fisher
(1921)

𝑍𝑟 =

1
1+ρ
𝐿𝑛
2
1−ρ

Khoảng tin cậy của Zr: Zr ± (1.96*SEZr)
Sai số chuẩn (Standar-error) của Zr : 𝑆𝐸𝑍𝑟 =

1
𝑛−3

Trong đó n là số trường hợp, ρ là hệ số tương quan rho của Spearman.

Z-score : 𝑍
Giá trị Z-Score này sẽ tương đương với giá trị của

=

𝜌−0
𝑆𝐸


𝑍𝑟
𝑆𝐸𝑍𝑟

với SE = sai số của thứ hạng

Từ đó ta tính được xác suất tương ứng của giá trị Z-score dựa theobảng phân phối bình thường (đây
là giá trị p 1 bên (One tailed). Nếu muốn có giá trị 2 bên (2-tailed), ta chỉ cần nhân cho 2.
Ngưỡng ý nghĩa thống kê cho p (2 bên) thường là 0,05. Với p<0,05 ta có thể kết luận hệ số ρ khác biệt
có ý nghĩa với 0, tức sự tương quan có ý nghĩa.

5


1

1.2 Hệ số tương quan Spearman
Cách 2: Dựa vào kiểm định t
Đầu tiên ta tính hệ số t như sau:

𝑡=𝜌

𝑛−2
1 − 𝜌2

Trong đó n là số trường hợp, ρ là hệ số tương quan rho của Spearman.
Sau đó ước tính xác suất (giá trị p) bằng cách đọc bảng phân phối t với độ tự do = (n-2)
Ngưỡng ý nghĩa thống kê cho p (2 bên) thường là 0,05. Với p<0,05 ta có thể kết luận hệ số ρ
khác biệt có ý nghĩa với 0, tức sự tương quan có ý nghĩa.

Quy trình phân tích tương quan


Kiểm tra 2 giả định: Phân phối chuẩn và Quan hệ
tuyến tính; phát hiện điểm giá trị cá biệt

1

Thăm dò số liệu

2

Chạy phân tích tương
quan

3

Diễn giải kết quả

?

Tính hệ số tương quan (rho của Spearman)
Kiểm tra ý nghĩa thống kê , dựa vào kiểm
định t hoặc Z

Tính hệ số R2 (Effect size của tương quan)

So sánh giá trị 2 hệ số tương quan ? …

1) Bước đầu tiên ta sẽ thăm dò số liệu, trong đó mục đích chính là kiểm tra 2
giả định: phân phối chuẩn của 2 biến số và quan hệ tuyến tính giữa chúng.
Sau đó quan trọng không kém là phát hiện điểm ngoại lai. Bạn có thể

dùng chức năng Explore trong SPSS. Tùy theo kết quả , ta có thể chọn giải
pháp tương ứng.
2) Trong thí dụ này, phương pháp ta sẽ sử dụng là phân tích tương quan phi
tham số theo Spearman.

3) SPSS sẽ cung cấp giá trị hệ số tương quan rho (ρ) và ý nghĩa thống kê của
tương quan. Cuối cùng ta diễn giải kết quả và tính hệ số R2 (effect size) =
ρ2
4) Trong tài liệu này, bạn cũng sẽ được hướng dẫn cách phân tích tương
quan bộ phận, so sánh 2 hệ số tương quan trong trường hợp cùng mẫu
và khác mẫu khảo sát.

6


1

1.3 Giới thiệu

Hệ số tương quan rho của Spearman có thể sử dụng trong các
trường hợp sau:
+ Phân tích tương quan giữa những biến số định lượng trong đó
có biến số thuộc kiểu không liên tục hoặc thứ hạng
Ví dụ: thang điểm (loại biến số này rất thường gặp trong nghiên
cứu về hình ảnh học và giải phẫu bệnh), độ nặng …
+ Dùng thay thế cho r của Peaeson trong trường hợp biến số liên
tục nhưng vi phạm giả định

Ví dụ: phân phối không chuẩn, phân tán và/hoặc có điểm giá trị
ngoại lai và/hoặc cỡ mẫu tương đối ít (thường gặp trong nghiên

cứu thực nghiệm trên tế bào, mô hình động vật, nghiên cứu lâm
sàng trong bệnh lý hiếm gặp)….

Trong nghiên cứu y học, phân tích tương quan
có rất nhiều ứng dụng
+ Chứng minh có mối liên hệ giữa 2 đại lượng,
ví dụ giữa triệu chứng, độ nặng lâm sàng và
chỉ số cận lâm sàng…
Tìm chứng cứ củng cố cho lập luận: có thể
thay thế một chỉ số lâm sàng hay phương
pháp này bằng một chỉ số/phương pháp khác
để chẩn đoán, theo dõi, tiên lượng 1 bệnh lý.
Ví dụ: có thể dùng 1 biomarker chẩn đoán
mới tốt hơn để thay thế cho 1 marker cũ, vì
chúng có tương quan.
Tìm chứng cứ về quan hệ nhân quả: yếu tố
này chịu chi phối/ kéo theo một yếu tố khác,
ví dụ: tương quan nghịch giữa liều thuốc giảm
đau và mức độ đau, tương quan thuận giữa
thuốc lá và chức năng hô hấp…

Một số điểm cần lưu ý:
+ 2 phương pháp tương quan Pearson (r) và
Spearman (rho) có cùng nguyên tắc thực hiện,
cùng cách diễn giải. Vì thế, trong đa số trường
hợp chúng sẽ cho bạn câu trả lời như nhau.
Spearman mềm dẻo hơn, nó dùng được cho
mọi trường hợp.
Tuy nhiên nếu có thể thì nên dùng phương
pháp Pearson, chỉ dùng phương pháp

Spearman trong một số trường hợp đặc biệt
hoặc bất khả kháng.
+ Tránh lạm dụng phương pháp Spearman cho
những cỡ mẫu quá nhỏ (<10) hoặc có nhiều cặp
thứ hạng bằng nhau, trong trường hợp này nên
dùng hệ số tau (τ) của Kendall.

Bằng chứng cho một quy luật có tính hệ thống
gây ảnh hưởng trên dữ liệu (ví dụ: sai lệch gây
ra do thiết bị đo)
Kiểm tra những yếu tố dự báo trước khi đưa
vào một mô hình hồi quy đa biến

7


2

2.1 Nhập số liệu

Phân tích tương quan cần 2 biến số định lượng (Scale), ở đây là chỉ số khuếch tán biểu kiến (ADC)
và mức độ tế bào ung thư: Tebao (%, dựa vào giải phẩu bệnh lý). Bạn nên cẩn thận dán nhãn ý
nghĩa cho từng biến số trong SPSS, để mọi thứ đều rõ ràng dễ hiểu khi chia sẻ số liệu với đồng
nghiệp sau này.
Nhãn ý nghĩa

Ở đây tác giả còn muốn khảo sát 2
phân nhóm khác nhau về mức độ
biệt hóa tế bào, vì vậy anh ta đã tạo
thêm biến số « Phanloai » và mã hóa

giá trị cho nó như hình bên

Sau đó ta chỉ việc nhập số liệu vào bảng. Hình bên
trình bày nội dung chi tiết của 20 trường hợp bệnh
nhân ung thư phổi được khảo sát (mỗi phân nhóm
biệt hóa tốt/kém có n=10 bệnh nhân).

8


2

2.2 Thăm dò số liệu
1

Kích hoạt chức năng thăm dò số liệu

2
3

5
4
Trong hộp thoại Explore,
bạn kéo tất cả những biến
số định lượng vào ô
Dependent list, sau đó
nhấn
để mở hộp
thoại vẽ biểu đồ.


6

Thực hiện kiểm định phân
phối bình thường

Sau khi chọn xong cấu hình, bạn nhấn
để trở về hộp thoại chính (Explore).

7
9


2

2.2 Thăm dò số liệu

8

Nhấn OK để chạy thăm dò.

Nếu bạn dùng chức năng lập trình bằng cú pháp, sau đây là nội dung những lệnh cần thiết cho
bước thăm dò dữ liệu

EXAMINE VARIABLES=Tebao ADC
/PLOT BOXPLOT STEMLEAF NPPLOT
/COMPARE GROUPS
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.


10


2

2.2 Thăm dò số liệu

Có 2 cách kiểm tra giả định phân phối chuẩn:
1) Phương pháp toán học - Sử dụng kiểm định Shapiro-Wilk hoặc Kolmogorov-Smirnov : tối
ưu cho trường hợp cỡ mẫu không quá lớn (<50 trường hợp), nhưng lại không đáng tin cậy khi
cỡ mẫu quá nhỏ)
2) Phương pháp trực quan - Sử dụng biểu đồ Q-Q plot: Thích hợp cho những cỡ mẫu lớn (>
50 trường hợp)

Tests of Normality
Kolmogorov-Smirnova
Mức độ tế bào
Hệ số khuyếch tán biểu kiến

Shapiro-Wilk

Statistic

df

Sig.

Statistic


df

Sig.

,245

20

,003

,791

20

,001

20

,200*

,896

20

,035

,154

*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction


Kết quả kiểm định Sapiro-Wilk
Với kiểm định Kolmogorov Smirnov hoặc Shapiro-Wilk: Nếu p<0.05 tức là giả định phân phối chuẩn
đã bị vi phạm. Trong thí dụ này, phân phối của giá trị của ADC và Tebao đều không chuẩn.
Nếu bạn có cỡ mẫu lớn (> 50 trường hợp), có thể dùng biểu đồ Q-Q để phát hiện nhanh sự vi phạm
giả định phân phối chuẩn. Nếu các điểm giá trị phân phối chuẩn, chúng sẽ nằm rải rác gần đường
thẳng (màu xanh) như trong hình. Nếu có sự phân tán (các điểm phân bố xa khỏi đường thẳng này)
tức là phân phối không chuẩn (màu đỏ).

Phân phối chuẩn
Phân phối không chuẩn

Phân phối không chuẩn

Bước kiểm tra giả định về phân phối chuẩn có thể bỏ qua nếu có biến số không liên tục
(1 thang điểm hay phân loại nào đó), bạn chắc chắn phải dùng hệ số Spearman

11


2

2.2 Thăm dò số liệu

Bước tiếp theo, ta sẽ kiểm tra giả định về quan hệ tuyến tính giữa 2 biến
số cần khảo sát tương quan, bằng cách vẽ biểu đồ tập hợp điểm.

1

Chọn Graphs > Chart builder …

Trong hộp thoại chart builder, chọn
loại biểu đồ là scatter plot.

4

Kéo biến số thứ nhất vào trục tung
Và biến số thứ hai vào trục hoành
Nhấn

để vẽ biểu đồ.

3
2

5

12


2

2.2 Thăm dò số liệu

Biểu đồ Scatter plot cho phép chúng ta kiểm tra 2 điều:
(1) Giả định về quan hệ tuyến tính giữa 2 biến số cần khảo sát tương quan
và (2) phát hiện sự tồn tại của những điểm giá trị cá biệt (ngoại lai).
Hình vẽ dưới đây mô tả 4 trường hợp
có thể gặp:
B
(A) Và (B) đều cho thấy có quan hệ

tuyến tính giữa 2 biến số . Kết luận chỉ
dựa vào trực quan, bạn không cần phải
lo lắng về mức độ phân tán của các
điểm giá trị, chỉ cần chúng cho thấy 1
khuynh hướng tuyến tính rõ rệt là đủ
thỏa giả định (1).

Biến số B

Biến số B

A

Biến số A

Biến số A

D

Điểm ngoại lai

Biến số B

Biến số B

C

Điểm ngoại lai

Biến số A


Biến số A

Trường hợp (C) là ví dụ điển hình khi giả định bị vi phạm: không có quan hệ tuyến tính giữa 2 biến số.
(D) Là trường hợp tệ nhất vì vừa không có quan hệ tuyến tính, vừa có các điểm giá trị ngoại lai. Bạn sẽ
không thích điều này, vì những giá trị cá biệt đó sẽ làm sai lệch nghiêm trọng kết quả phân tích tương
quan.

Trở lại với thí dụ của chúng ta, biểu đồ cho thấy
mặc dù có sự phân nhóm rõ rệt 2 nhóm giá trị
tương ứng với mức độ biệt hóa tế bào kém và
tốt; tuy nhiên 2 nhóm này vẫn biểu lộ rõ khuynh
hướng tương quan tuyến tính (tỉ lệ nghịch).
Ngoài ra cũng không có giá trị ngoại lai nào.
Như vậy ta có thể yên tâm thực hiện tiếp những
bước tiếp theo.

13


2

2.2 Thăm dò số liệu
Nếu các giả định bị vi phạm
hoặc có điểm ngoại lai thì có
nguy hiểm không ? Ta phải xử
trí ra sao ?

Giả định về phân phối chuẩn thực ra không quan trọng lắm, nếu nó bị vi phạm, bạn không thể
dùng phương pháp Pearson, nhưng vẫn có thể dùng phương pháp phi tham số của Spearman.

Điểm ngoại lai nguy hiểm hơn nhiều, vì nó có thể làm sai lệch kết luận về tương quan. Khi có
điểm ngoại lai chắc chắn bạn phải dùng phương pháp của Spearman.
Tóm lại phân phối không chuẩn và/hoặc có điểm ngoại lai gợi ý cho ta dùng phương pháp phi
tham số (Spearman) vì sẽ an toàn hơn. Nếu cỡ mẩu đủ lớn và vẫn muốn dùng Pearson, bạn đừng
do dự khi loại bỏ những điểm này vì chúng có nguy cơ gây ra “tương quan giả“
Nếu giả định về quan hệ tuyến tính bị vi phạm, kết quả của bạn sẽ âm tính, có thể bạn phải kiểm
tra lại sai sót trong khi đo đạc, chuyển dạng biến số, loại bỏ giá trị nghi ngờ… để cải thiện tình
hình. Cuối cùng bạn vẫn có thể làm phân tích tương quan, nhưng kết quả sẽ rất yếu về độ mạnh
và ý nghĩa thống kê.



Phân phối
chuẩn

Không
Spearman
Pearson

(*)

Tuyến tính ?



Pearson

Không
Điểm ngoại
lai ?


Không



Spearman
Pearson

(*)

Pearson

(*) SPSS còn một vũ khí bí mật khác có thể hóa giải được đa số các bất thường số liệu (phân

phối không chuẩn, điểm ngoại lai…), đó là Bootstrap (chọn mẫu ngẫu nhiên lặp lại).
Phương pháp này sẽ được hướng dẫn trong phần sau.
Nếu bạn có bất thường về số liệu, bạn NÊN báo cáo điều đó cụ thể trong phần kết quả.
Nếu phân phối lệch trái hay phải, ngoài giá trị trung bình và SD bạn nên cung cấp thêm
giá trị của Skewness và Kurtosis (trong bảng kết quả Explore)
Hành động này sẽ đánh vào tâm lý của các nhà phê bình và giám khảo, loại bỏ nghi ngờ
về việc gian lận và ngụy tạo số liệu, nhất là khi kết quả của bạn quá hoàn hảo. Người đọc
sẽ nghĩ: Tác giả là một người thành thật và nắm vững phương pháp thống kê.

14


3

3.1 Chạy phân tích tương quan Spearman
1


Kích hoạt quy trình phân tích tương quan 2 biến số

2

Lựa chọn phương pháp
(hệ số tương quan)

3

4

Lựa chọn để thực hiện
bootstrap

Hộp thoại « Bivariate correlation » được mở ra, trước hết ta kéo những biến số cần phân tích vào ô
Variables. Bạn có thể đưa vào bao nhiêu biến số tùy ý, SPSS sẽ thực hiện phân tích tương quan cho tất
cả các tổ hợp giữa 2 biến số và trình bày kết quả dưới dạng 1 ma trận tương quan.
Nếu bạn đã có ý định chọn phương pháp cụ thể (ví dụ Pearson, Kendall hay Spearman), bạn có thể
thay đổi cấu hình mặc định từ Pearson sang phương pháp mới. Dĩ nhiên bạn có thể làm cùng lúc 2-3
phương pháp nhưng việc đọc những kết quả thừa hoàn toàn phí thời gian.
Mục « test of significance » nên giữ nguyên (p 2 bên), trừ khi bạn có giả thuyết riêng về định hướng
(tương quan thuận, nghịch mang tính nhân quả)
Nếu bạn chọn phương pháp Spearman, bạn có thể làm 1 số tùy chọn khác trong mục option, nhưng
với phương pháp phi tham số thì không cần thiết.
Quan trọng nhất là chức năng « Bootstrap », tôi sẽ giải thích về nó sau

15



3

3.1 Chạy phân tích tương quan Spearman

Bạn chọn phương pháp « Spearman »

Sau đó nhấn

để chạy phân tích.

5

6

Trong trường hợp bạn dùng cú pháp lệnh, nhấn nút Paste để mở cửa sổ syntax editor, rồi nhập
vào nội dung các lệnh cần thiết cho phân tích tương quan Spearson như sau:

6

5

NONPAR CORR
/VARIABLES=ADC Tebao
/PRINT=SPEARMAN TWOTAIL NOSIG
/MISSING=PAIRWISE.

16


3


3.2 Sử dụng Bootstrap

Bây giờ, Nhi sẽ hướng dẫn các bạn làm lại phân tích tương quan Spearman kèm theo
Bootstrap:
Đây là một phương pháp thống kê mới được phát triển từ khoảng 40 năm nay và bắt đầu
được hỗ trợ bởi SPSS từ phiên bản 20. Theo mặc định, SPSS sẽ thực hiện lấy mẫu ngẫu
nhiên lặp lại 1000 lần (bao gồm mẫu đang có). Như vậy kết quả thu được có thể xem như
của một quần thể chung (20 ngàn người) chứ không còn giới hạn trong 20 trường hợp ban
đầu nữa.
Ưu điểm của phương pháp Bootstrap là nó giúp triệt tiêu nguy cơ sai số do cỡ mẫu nhỏ,
phân phối không chuẩn. Nó còn cho phép xác định khoảng tin cậy của hệ số tương quan Bca
(bias corrected accelerated) 95%CI và hiệu chỉnh lại giá trị p để có cho ra kết quả có giá trị
phổ quát cao hơn.
Để thực hiện Bootstrap, trong hộp thoại « Bivariate correlation » bạn chỉ cần nhấn nút
Bootstrap để mở hộp thoại Bootstrap, sau đó click vào ô « Perform bootstrapping »

6

5

7
5
Sau đó nhấn

để trở lại hộp thoại chính, rồi nhấn OK để chạy phân tích

17



4

4.1 Diễn giải kết quả (khi không dùng Bootstrap)
Giá trị ρ (rho)
Correlations
Hệ số khuyếch

Spearman's rho

Hệ số khuyếch

Correlation

tán biểu kiến

Coefficient
Sig. (2-tailed)
N

Mức độ tế bào

Correlation
Coefficient
Sig. (2-tailed)
N

tán biểu kiến

Mức độ tế bào


1,000

-,961**

.

,000

20

20

-,961**

1,000

,000

.

20

20

**. Correlation is significant at the 0.01 level (2-tailed).

Giá trị p
(ý nghĩa thống kê)
Vì ta có 2 biến số là hệ số khuếch tán và mức độ tế bào ung thư, nên ma trận tương quan sẽ
có dạng bảng 2x2. Ta chỉ cần đọc 1 ô là đủ:

Những thông tin cần ghi nhận: (1) Giá trị hệ số tương quan rho của Spearman và (2) giá trị p
(ý nghĩa thống kê)
Diễn giải giá trị của hệ số tương quan rho:
có thể dao động từ -1 đến +1
rho = -1 : tương quan nghịch tuyệt đối
rho = +1: tương quan thuận tuyệt đối
rho =0: Không có quan hệ nào giữa 2 biến số
Nếu p<0,05: kết luận là có sự tương quan ý nghĩa giữa 2 biến số cần khảo sát
Sau đó ta có thể tính Effect size chính là bình phương của rho (R2)
R2 (giá trị từ 0 đến 1) được diễn giải như “phần biến thiên” mà 2 biến số này chia sẻ chung
với nhau (%)
Lưu ý:
- Phân tích tương quan không cho phép kết luận bất cứ điều gì về quan hệ nhân/quả giữa 2
biến số. Cần tránh những kết luận mang tính nhân/quả.
- Nếu liên hệ giữa A và B không tuyệt đối (rho ≠ 1 hay -1; R2 thấp), có thể dự đoán sự tồn tại
vai trò của một biến số thứ 3 (C) chi phối A và/hoặc B
Trong thí dụ: có liên hệ ý nghĩa giữa hệ số khuếch tán mức độ tế bào ung thư (rho=-0,961;
p<0,001); hoặc : hệ số khuếch tán tỉ lệ nghịch với mức độ tế bào ung thư

18


4

4.2 Diễn giải kết quả (có dùng Bootstrap)
Correlations

Giá trị ρ (rho)

Hệ số


Spearman's rho

Hệ số khuyếch tán biểu

Correlation Coefficient

kiến

Sig. (2-tailed)

Mức độ tế

biểu kiến

bào

1,000

-,961**

.

,000

20

20

Bias


,000

,012

Std. Error

,000

,035

1,000

-,992

1,000

-,858

-,961**

1,000

N
Bootstrapb

khuyếch tán

95%


Lower

Confidence

Upper

Giá trị p

Kết quả
bootstrap

Interval
Mức độ tế bào

Correlation Coefficient
Sig. (2-tailed)

,000

.

20

20

Bias

,012

,000


Std. Error

,035

,000

-,992

1,000

-,858

1,000

N
Bootstrapb

95%

Lower

Confidence

Upper

Interval
**. Correlation is significant at the 0.01 level (2-tailed).
b. Unless otherwise noted, bootstrap results are based on 1000 bootstrap samples


Nếu bạn có làm bootstrap, bảng kết quả phân tích tương quan sẽ dài hơn một chút: Ngoài
giá trị hệ số rho, và ý nghĩa thống kê (p), ta có thêm phần kết quả bootstrap là:
Sai số chuẩn (standard error) của hệ số tương quan rho
Khoảng tin cậy (95%) của hệ số tương quan rho.
Chú ý: ngưỡng trên và dưới của CI95% có cùng dấu hay không ? nếu không cùng dấu đồng
nghĩa với việc CI có thể chứa giá trị 0, như vậy trong quần thể chung sẽ có nguy cơ Không có
sự tương quan. Trong trường hợp này, thường p sẽ không có ý nghĩa, hoặc nếu có đi nữa
cũng không có giá trị phổ quát.
Khi báo cáo kết quả, ta có thể sử dụng tất cả những thông tin này:
Trong thí dụ:
Có liên hệ ý nghĩa giữa hệ số khuếch tán mức độ tế bào ung thư
(rho=-0,961; SE=0,035; CI95%: -0,86 - -0,99; p<0,001)
Chú ý:
Do bootstrap hoàn toàn ngẫu nhiên, nên mỗi lần thực hiện SPSS sẽ cho ra 1 giá trị SE và
khoảng tin cậy và giá trị p khác nhau, bạn đừng lo lắng vì điều này (sai lệch SE, CI rất nhỏ, p
vẫn có ý nghĩa).
Khi số liệu của bạn phân phối không chuẩn, và vẫn muốn làm Pearson bạn nên báo cáo kết
quả (giá trị p) của Bootstrap hơn là giá trị gốc.

19


5.1 Phân tích tương quan bộ phận

5
A

Quan hệ giữa A và B

Như vậy trên thực tế quan hệ giữa A và B sẽ bị

chi phối 1 phần bởi C. Hình vẽ bên cạnh sẽ giúp
bạn hình dung rõ hơn về điều này. Muốn biết
phần tương quan thực sự giữa A-B (độc lập với
C), ta phải làm phân tích tương quan bộ phận

B
A

Bây giờ, ta sẽ làm vấn đề phức tạp thêm 1 chút
với giả định là: có một biến số thứ 3 (C) có liên hệ
cùng lúc với A và B.

C

A

ρ1

B

Quan hệ giữa A và C

A

C

C

B
Phần quan hệ

độc lập với C

Phần quan hệ chịu
tác động của C

ρ2

A

B

C

SPSS cho phép khảo sát hiện tượng này bằng cách phân tích tương quan trong 2 điều kiện: có và không
có mặt biến số C.

20


5

5.1 Phân tích tương quan bộ phận
1

2

3

Kích hoạt quy trình phân tích tương quan bộ phận
(partial correlation)


4

Nếu bạn muốn
thực hiện bootstrap ?

5

6

Hộp thoại Partial correlation có nội dung tương tự như mục Bivariate correlation. Bạn cần kéo những
biến số định lượng cần khảo sát vào ô Variables, và những biến số phụ vào ô Controlling for:
Bạn cũng có thể sử dụng bootstrap nếu muốn.
Sau đó nhấn OK để chạy phân tích

21


5

5.1 Phân tích tương quan bộ phận

Nếu dùng cú pháp lệnh, quy trình và nội dung cần nhập vào như sau:
Nếu bạn muốn
thực hiện bootstrap ?

BOOTSTRAP
/SAMPLING
METHOD=STRATIFIED(STRATA=Phanloai )
/VARIABLES INPUT=ADC Tebao Phanloai

/CRITERIA CILEVEL=95 CITYPE=PERCENTILE
NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
PARTIAL CORR
/VARIABLES=ADC Tebao BY Phanloai
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.

Lệnh phân tích tương
quan bộ phận

22


5

5.1 Phân tích tương quan bộ phận

A

B

C

A
B
C

A


-0,826

B

Bảng kết quả tương quan bộ phận có nội dung tương tự như ma trận
tương quan mà ta đã biết, tuy nhiên ở đây kết quả được chia thành 2
phần, phần trên không có mặt biến số thứ 3 (C) còn phần dưới có sự
hiệu chỉnh dựa vào ảnh hưởng của C.
Kết quả cho thấy phần tương quan riêng giữa A và B (độc lập với C) ít
hơn ta nghĩ: rho chỉ có -0,826 so với -0,974.

C

Nếu ta tính effect size = r2 sẽ có:
(-0,826)2= 0,682
(-0,974)2= 0,949

-0,974

A

B

C

Kết quả này có thể diễn giải là:
A chỉ chia sẻ với B 68,2 % phần biến thiên độc lập với biến thiên của
biến số C.
Ghi chú: kết quả này chỉ có tính minh họa, không có ý nghĩa gì trên
thực tế; do ở đây mức độ biệt hóa có bản chất là biến số định tính và

chỉ có 2 giá trị
Khi biến số C là một biến số định tính có 2 giá trị, bài toán đặt ra
không còn là phân tích tương quan bộ phận nữa, mà là so sánh hệ số
tương quan giữa 2 phân nhóm: biệt hóa tốt và biệt hóa kém.
Nội dung này sẽ được trình bày trong chương tiếp theo

23


5

5.2 So sánh 2 hệ số tương quan độc lập

Phần sau đây sẽ hướng dẫn các bạn so
sánh 2 hệ số tương quan rho ghi nhận từ 2
mẫu khảo sát khác nhau (độc lập)
Phương pháp này có thể ứng dụng trong 2
trường hợp :
(1) So sánh độ mạnh liên hệ giữa A và B
trong 2 phân nhóm khác nhau (như ví dụ
của chúng ta)

ρ1

A

A

B
ρ2


Phân nhóm 2
(n2)

Quần thể 1 (n1)
Nghiên cứu của chúng ta

B

ρ2

A

Phân nhóm 1
(n1)

ρ1

B
Quần thể 2 (n2)
Nghiên cứu khác

(2) Ứng dụng thứ hai, thú vị không
kém, là khi bạn muốn so sánh giá trị hệ
số rho do bạn tìm ra (ρ1) với giá trị ρ2
của một tác giả khác (so sánh giữa các
nghiên cứu khác nhau, trên 2 quần thể
độc lập)

Để làm việc này, chúng ta sẽ dựa vào giá trị r chuẩn hóa (Zr của Fisher), chắc bạn còn nhớ cách tính Zr

như thế nào. Nếu ta chuyển cả 2 hệ số tương quan cần so sánh thành Zr, bài toán sẽ trở thành so sánh
giữa 2 giá trị Zr, việc này rất dễ dàng vì cả 2 đều cùng phân phối chuẩn.
Sau đó ta có thể ước tính khác biệt của Z :

𝑍𝑑𝑖𝑓 =

(𝑍𝑟1 − 𝑍𝑟2 )
1
1
𝑛1 − 3 + 𝑛2 − 3

Để kiểm tra giả định H0: Zdif = 0 (không có sự khác biệt giữa 2 giá trị Zr, ta đối chiếu giá trị Zdif với
bảng phân phối chuẩn để có giá trị p tức xác suất phân phối của giá trị Zdif.
Nếu p (2 bên) < 0.05, ta có thể kết luận xác suất Zdif = 0 là vô cùng nhỏ, và loại bỏ giả thuyết 0, như vậy
chấp nhận là có sự khác biệt ý nghĩa giữa 2 giá trị Zr1 và Zr2 (cũng tương đương với ρ1≠ρ2)
Như đã giải thích ở trên, phương pháp này có thể dùng để so sánh giá trị ρ của bạn tìm ra và bất kì
nghiên cứu nào khác. Tất cả những gì bạn cần là cỡ mẫu và ρ trong 2 nghiên cứu.
Dựa vào test Z này bạn có thể kết luận (mãn nguyện ) là kết quả do bạn tìm ra cũng phù hợp với kết
quả trong y văn.

24


5.2 So sánh 2 hệ số tương quan độc lập

5

Phân nhóm 1
(n1)


ρ1

A

B
ρ2

Đầu tiên, chúng ta sẽ làm lại phân tích tương quan cho 2
phân nhóm riêng biệt : (1) Biệt hóa tốt và (2) biệt hóa
kém.
Để tiết kiệm thời gian, các bạn nên dùng syntax:
Nội dung của quy trình là:

Phân nhóm 2
(n2)

1) Dùng lệnh filter để lọc lại số liệu dựa theo 2 tiêu
chuẩn (điều kiện) : Phanloai=1 và phanloai=2
2) Sau đó chạy phân tích tương quan cho từng trường
hợp, có kèm bootstrap.

USE ALL.
COMPUTE filter_$=(Phanloai=2).
VARIABLE LABELS filter_$ 'Phanloai=2 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES INPUT=ADC Tebao

/CRITERIA CILEVEL=95 CITYPE=PERCENTILE
NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
NONPAR CORR
/VARIABLES=ADC Tebao
/PRINT=SPEARMAN TWOTAIL NOSIG
/MISSING=PAIRWISE.
USE ALL.
COMPUTE filter_$=(Phanloai=1).
VARIABLE LABELS filter_$ 'Phanloai=1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMATS filter_$ (f1.0).
FILTER BY filter_$.
BOOTSTRAP
/SAMPLING METHOD=SIMPLE
/VARIABLES INPUT=ADC Tebao
/CRITERIA CILEVEL=95 CITYPE=PERCENTILE
NSAMPLES=1000
/MISSING USERMISSING=EXCLUDE.
NONPAR CORR
/VARIABLES=ADC Tebao
/PRINT=SPEARMAN TWOTAIL NOSIG
/MISSING=PAIRWISE.

Lệnh chọn lọc dữ liệu

Nội dung phần này như nhau cho cả 2
trường hợp

Lệnh chọn lọc dữ liệu


Lệnh chạy Bootstrap

Lệnh phân tích tương
quan dùng phương pháp
Spearman

25


×