Tải bản đầy đủ (.pdf) (8 trang)

TÌM HIỂU VỀ HỆ SỐ TƯƠNG QUAN TRONG MÔ HÌNH PHÂN TÍCH THỒNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 8 trang )

TÌM HIỂU VỀ HỆ SỐ TƯƠNG QUAN TRON G
MÔ HÌNH PHÂN TÍCH THỒNG KÊ
ĐẶNG VĂN ĐÀNG

Hệ số tương quan (r) là một chỉ số thống kê đo lường mối liên hệ tương
quan giữa hai biến số, như giữa độ mặn (x) và độ PH (y). Hệ số tương quan
có giá trị từ -1 đến 1. Bằng 0 (hay gần 0) có nghĩa là hai biến số không có liên
hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có
một mối liên hệ tuyệt đối.
1. Giới thiệu:
Hệ số tương quan (r) là một chỉ số thống kê đo lường mối liên hệ tương quan
giữa hai biến số, như giữa độ mặn (x) và độ PH (y)[3].
- Hệ số tương quan không (r) có đơn vị, có thể tính từ giá trị mã hóa bằng
phép biến đổi tuyến tính của x và y.
- Hệ số tương quan có giá trị từ -1 đến 1. Bằng 0 (hay gần 0) có nghĩa là hai
biến số không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa
là hai biến số có một mối liên hệ tuyệt đối.
- Nếu giá trị của hệ số tương quan là âm (r <0) có nghĩa là khi x tăng cao thì
y giảm (và ngược lại, khi x giảm thì y tăng)
- Nếu giá trị hệ số tương quan là dương (r > 0) có nghĩa là khi x tăng cao thì
y cũng tăng, và khi x tăng cao thì y cũng giảm theo.
Có nhiều hệ số tương quan trong thống kê, sau đây là 3 hệ số tương quan
thông dụng nhất:

Page 1

-

Hệ số tương quan Pearson r

-



Hệ số tương quan Spearman ρ

-

Hệ số tương quan Kendall τ


2. Các hệ số tương quan:
2.1.

Hệ số tương quan Pearson

Cho hai biến số x và y từ n mẫu, hệ số tương quan Pearson được ước tính
bằng công thức sau đây:

Hoặc

Trong đó 



là giá trị trung bình của biến số x và y.

Để ước tính hệ số tương quan giữa độ tuổi dman và dph, chúng ta có thể sử
dụng hàm cor(x,y) như sau:

> cor(dman, dph)
[1] 0.936726


Chúng ta có thể kiểm định giả thiết hệ số tương quan bằng 0 (tức hai biến x và
y không có liên hệ). Phương pháp kiểm định này thường dựa vào phép biến đổi
Fisher mà R đã có sẵn một hàm cor.test để tiến hành việc tính toán.
> cor.test(dman, dph)
Pearson's product-moment correlation
data: dman and dph
t = 14.971, df = 19, p-value = 5.694e-12

Page 2


alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9025175 0.9839818
sample estimates:
cor
0.9601321

2.2.

Hệ số tương quan Spearman

Hệ số tương quan Pearson chỉ hợp lí nếu biến số x và y tuân theo luật phân
phối chuẩn. Nếu x và y không tuân theo luật phân phối chuẩn, chúng ta phải sử
dụng một hệ số tương quan khác tên là Spearman, một phương pháp phân tích phi
tham số. Hệ số này được ước tính bằng cách biến đổi hai biến số x và y thành thứ
bậc (rank), và xem độ tương quan giữa hai dãy số bậc.
Do đó, hệ số còn có tên Spearman’s Rank correlation. R ước tính hệ số tương
quan Spearman bằng hàm cor.test với thông số method=”spearman” như sau:
> cor.test(dman, dph, method="spearman")

Spearman's rank correlation rho
data: dman and dph
S = 78.1582, p-value = 5.405e-11
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.9492479

2.3.

Hệ số tương quan Kendall

Hệ số tương quan Kendall (phương pháp phi tham số) được ước tính bằng cách
tìm các cặp số (x, y) song song với nhau. Một cặp (x, y) được định nghĩa là hiệu

Page 3


(độ khác biệt) trên trục hoành có cùng dấu hiệu (dương hay âm) với hiệu trên trục
tung.
Nếu hai biến số x và y không có liên hệ với nhau, thì số cặp song song bằng
hay tương đương với số cặp không song song.
Có nhiều cặp phải kiểm định, phương pháp này đòi hỏi thời gian xữ lý của
máy tính khá cao. Tuy nhiên, nếu bộ dữ liệu dưới 5000 mẫu thì máy tính có thể
tính toán khá dễ dàng.
R dùng hàm cor.test với thông số method=”kendall” để ước tính hệ số tương
quan Kendall:
> cor.test(dman, dph, method="kendall")
Kendall's rank correlation tau
data: dman and dph

z = 5.013, p-value = 5.358e-07
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.8803589

3. Mục tiêu của phân tích hệ số tương quan:
Ước tính hệ số tương quan:

3.1.

3.2.

Page 4

-

Covariance có đơn vị đo lường (X*Y).

-

Correlation coefficient(r) giữa X và Y là một hệ số không có đơn vị đo lường.

-

r được định nghĩa:

Kiểm định giả thuyết r = 0:



Giả thuyết vô hiệu: H0, r = 0 và HA, r ≠ 0.
Fisher ‘s z-transformation: r  z, z =
Tính phương sai của z:
Dùng kiểm định t:

SE(z) =
t=

1
2

ln⁡(

1+𝑟
1−𝑟

) [4]

1
√𝑛−3

𝑧
𝑆𝐸(𝑧)

4. Thực nghiệm:
Bảng theo dõi của 1 hộ dân sản xuất tôm sú theo từng năm trong cùng một
thời điểm về môi trường nước: liên quan đến nồng độ PH và nồng độ mặn trong
nước như sau:
X: nồng độ PH (thang đo lôgarít của tính axít. Ví dụ, dung dịch có pH=8,2 sẽ có
độ hoạt động [H+] (nồng độ) là 10−8.2 mol/L, hay khoảng 6,31 × 10−9 mol/L)


Y: nồng độ mặn (tính trên phần nghìn – số gram muối trên 1kg nước)
NĂM

X

Y

NĂM

X

Y

NĂM

X

Y

1994

5.5

4

2001

6.0


5

2008

5.8

5

1995

6.5

6

2002

6.3

6

2009

6.4

6

1996

6.4


6

2003

6.8

7

2010

6.9

7

1997

6.0

5

2004

6.6

7

2011

6.6


6

1998

6.5

6

2005

7.8

8

2012

6.3

6

1999

6.7

7

2006

6.4


6

2013

5.9

5

2000

7.5

8

2007

7.1

7

2014

6.4

6

Bảng 1: Nồng độ PH và nồng độ mặn

Câu hỏi đặt ra:
o Có mối tương quan nào giữa nồng độ PH và nồng độ mặn trong môi

trường nước hay không?
o Nếu có thì mối tương quan đó có ý nghĩa thống kê hay không?
Quá trình thực hiện:

Page 5


Bước 1: Xác định hệ số tương quan[2][3]
Từ bảng số liệu trên ta tính trung bình mẫu như sau:
x = 136.4 / 21 = 6.45
y = 129 /21 = 6.14

= 848.4 – 21*6.45*6.14 = 10.514

=

891.78 - 21*(6.45)2 = 5.829

=

813 – 21*(6.14)2

=

= 20.571

10.95

Suy ra:


= 10.514 / 10.95 = 0.96

Như vậy 0và nồng độ mặn trong môi trường nước.
Bước 2: kiểm định giả thuyết r=0
-

Giả thuyết vô hiệu H0 : r = 0 và HA : r ≠ 0

-

T Test:
= 0.96/SQRT((1-0.96*0.96)/(21-2)) = 14.9448
Loại trừ giả thuyết vô hiệu t ≠ -2.02 đến 2.02

Page 6


 mối tương quan có ý nghĩa thống kê.

Bảng 2: Tỉ số t cho từng bậc tự do nếu giả thuyết vô hiệu H0 đúng[1]

Thực hiện trên ngôn ngữ R:
> dat = read.csv("E:\\Data_Moituongquan.csv",header=T)
> attach(dat)
> plot(dman~dph,pch=16)
> abline(lm(dman~dph),col="red",lwd=2)

Hình 1: Biểu đồ hồi quy tuyến tính của độ PH so với độ mặn


Page 7


> cor.test(dman,dph)

Kiểm tra r=0? Nếu r=0, giả thuyết vô hiệu đúng không tương quan 2 biến số
Nếu r#0, bát bỏ giả thuyết vô hiệu có tương quan 2 biến số

Pearson's product-moment correlation
P-value <0.05 Có ý nghĩa thống kê
data: dman and dph
t = 14.971, df = 19, p-value = 5.694e-12
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9025175 0.9839818
Độ tin cậy 95 %
sample estimates:
cor
0.9601321
Hệ số tương quan thuận

Tài liệu tham khảo
1. N. V. Tuấn, “Kiểm định T và hoán chuyển số liệu”, Huấn luyện y khoa – Lâm sàn thống kê,
/>2. V. T. T. Lộc, “Phương pháp hồi qui và tương quan”, Phân tích dữ liệu đơn biến đa biến,
/>3. N. V. Tuấn, “Phân tích tương quan”, Chương trình huấn luyện y khoa – Lâm sàn thống kê,
/>4. Carolyn J. Anderson,” Fisher ‘s z-transformation” , Correlation Edpsy 580,
/>
Page 8




×