Tải bản đầy đủ (.pdf) (19 trang)

PHƯƠNG PHÁP LUẬN TRONG NGHIÊN CỨU KHOA HỌC Y HỌC PHẦN 5 pps

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (414.1 KB, 19 trang )


64
KIỂM ĐỊNH CÁC GIẢ THIẾT THỐNG KÊ VÀ CÁC QUY
LUẬT PHÂN PHỐI TRONG NGHIÊN CỨU

Trong nghiên cứu dù là mô tả hay phân tích người ta đều cần phải so sánh các kết
quả nghiên cứu với nhau hoặc với hằng số tương ứng xem có sự trùng lặp hoặc khác
nhau hay không? Cũng như xem khả năng can thiệp nào sẽ đem lại hiệu quả tất hơn?
Trong nghiên cứu kiểm định người ta thường dùng hai loại test là test t và test χ
2
(test
khi bình phương).
1. Kiểm định bằng test “t”
Thử nghiệm này thường dùng để kiểm định các trị số trung bình, các tỷ lệ quan
sát của mẫu nghiên cứu trên cơ sở các số liệu mang tính chất hệ thống hoặc mẫu lớn.
1.1 So sánh hai số trung bình quan sát
Vấn đề này thường gặp trong nghiên cứu y sinh học.

Nếu mẫu nghiên cứu có n nhỏ hơn 30 thì công thức tính t sẽ là:

Sau khi tính được trị số “t” ta cần tìm độ tự do rồi tra bảng “t” để tìm giá trị xác
suất p. Độ tự do được tính bằng tích của từng các dữ liệu so sánh (số cột) trừ 1 nhân
với tổng các số liệu so sánh ở mỗi cột (hàng) trừ 1. Tuy vậy, dù độ tự do bằng bao
nhiêu (→ ∞) thì xác suất đều đạt được p < 0,05 khi t > 1,96 (ít nhất là khi n > 30).
Khi đặt vấn đề nghiên cứu, ta có thể đặ
t giả thuyết H
0
(null hypothesis) là giả
thiết cho rằng hai số trung bình nằm trong sự chi phối của quần thể, nên không khác
nhau hoặc tương tự như nhau.
Sau đó nhờ thử nghiệm bằng test “t” hoặc “χ


2
” ta đi tới phủ nhận hoặc chấp nhận
giả thiết H
0

Ví dụ: Từ một bài toán đã cho ta tính được các giá trị.

65
X
A
= 21,06
X
B
= 21,33
n
A
= 815n
B
= 200
S
A
= l,61S
B
= 1,6
Ứng dụng công thức ta có:

Vậy hai số trung bình quan sát A và B khác nhau có ý nghĩa với P < 0,05. Phủ
nhận giả thuyết H
0
(tra bảng t).

1.2. So sánh một số trung bình quan sát với một số trung bình lý thuyết
Trường hợp này thường gặp trong so sánh với hằng số sinh học hoặc một nghiên
cứu lớn nào trước đó cho ta
X lý thuyết và S lý thuyết, công thức tính như sau:

Trong đó:
X
qs
: X quan sát
X lt: X lý thuyết
X lt = S lý thuyết
Nếu n < 30 ta có công thức sau:

Sau khi tìm được “t” ta cũng tra bảng và xem xét, đánh giá như test “t” ở phần
“ So sánh hai số trung bình quan sát”. Nếu t ≥ 1,96 ⇒ bác bỏ H
0
với mức ý nghĩa
thống kê P ≤ 0,05. Nếu t < 1,96 ⇒ chấp nhận H
0
với mức ý nghĩa thấp,
(p > 0,05).
1.3. So sánh hai tỷ lệ quan sát
Khi nghiên cứu bệnh lý có thể cho các tỷ lệ cũng như các nghiên cứu mẫu lớn có
tỷ lệ, ta có thể tính “t” theo công thức sau:

66

* P
A
và P

B
là hai tỷ lệ quan sát ở mẫu A và B

Sau khi tính được “t” ta lại tra bảng “t” để tìm P như phần 1.1.
1.4. So sánh một tỷ lệ quan sát với một tỷ lệ lý thuyết
công thức sẽ tính là:

Trong đó:
P
0
= Tỷ lệ quan sát
P = Tỷ lệ lý thuyết
n = Tổng cá thể ở mẫu quan sát
2. Kiểm định bằng test “χ
2

Đây cũng là một kiểm định luật xác suất dự đoán ra sao so với một vấn đề thực
nghiệm hoặc điều tra nghiên cứu quan hệ nhân quả Trên cơ sở những số liệu nghiên
cứu có mẫu không lớn lắm hoặc không sử dụng được test t.
Để đánh giá sự phù hợp hay khác biệt của các phân số, Pearson đưa ra công thức:

Muốn tìm χ
2
người ta phải lập bảng “tiếp liên” với cấu tạo bằng nhiều hàng và
cột. Nếu một nghiên cứu có hai loại số liệu tương ứng ta sẽ có bảng “tiếp liên” 4 ô (a,
b, c, d).
Bảng tiếp liên
Bệnh
Nhóm
Bệnh (+) Bệnh (-)

Σ
Tiếp xúc (exp +) a b a + b
Không tiếp xúc (exp -) c d c + d
Σ
a
+ c b + d a + b + c + d (N)

67
Trong công thức o
i
là các trị số quan sát a, b, c, d. Còn e
i
là các trị số tần số lý
thuyết (trị số mong đợi) tương ứng với các ô: a, b, c, d.
Cách tính tần số lý thuyết như sau:
Tổng hàng x tổng cột
e
i
=
Tổng chung (N)
Ví dụ:
(a+c)x(a+b)
e
i
=
N
Công thức cụ thể trong trường hợp bảng 4 ô sẽ là:

Nếu có nhiều hàng cột thì phải tính χ
2

theo công thức tổng quát ban đầu: Sau khi
tính được giá trị χ
2
ta cũng tìm bậc tự do (tổng hàng trừ 1 nhân với tổng cột trừ 1), sau
đó tra bảng χ
2
để tìm p.
Ví dụ: ở một trại chăn nuôi lợn, người ta đã sử dụng một loại lá cây có giá trị
phòng bệnh lở mồm long móng, dựa theo một bài thuốc dân gian cho vào thức ăn cho
một lô lợn thí nghiệm (Lô I) và một lô khác(Lô II) thì không cho ăn loại lá đó. Sau 4
tháng vụ dịch thường niên đã xảy ra người ta tổng kết sự lây lan bệnh và khả năng bảo
vệ bằng cách kiểm định thống kê nh
ư sau: (trang bên)
Số lợn nuôi của 2 lô
Lô Khoẻ mạnh Bị bệnh Cộng
(Lô I) a
202
b
23
225
(Lô II) c
340
d
28
368
Σ
542 51 593
Để xem xét khả năng bảo vệ đàn lợn của hai lô có khác nhau không ta phải tính
χ
2

.
Trước hết ta tính các trị số (tần sô) lý thuyết và sẽ có:


68
Ở đây bậc tự do bằng 1 nên ta thấy nếu χ
2
= 3,841 mới có p = 0,05, do vậy tỷ lệ
lợn nuôi khoẻ mạnh và bị bệnh của hai lô giống nhau hoặc là loại lá cây không có giá
trị phòng bệnh lở mồm long móng nên tỷ lệ bệnh tương tự như nhau.
Nếu tần số lý thuyết e
i
nhỏ hơn 5 thì công thức tính χ
2
có thể ứng dụng ở dạng
sau:

3. Số đo kết hợp nhân quả
Để đánh giá nguy cơ phơi nhiễm (expose) với các yếu tố nguy cơ sẽ gây nên hậu
quả bệnh lý hay không, qua bảng tiếp liên (expose và disease) ta có thể xác định được
các số đo kết hợp nhân quả sau đây:
3.1. Chỉ số nguy cơ tương đối (Relative Risk = RR)
Chỉ số này kiểm định một giả thiết nhân quả, xem có đúng là có sự kết hợp gi
ữa
một yếu tố nguy cơ và một bệnh tương ứng. Chỉ số này được ứng dụng trong nghiên
cứu thuần tập và nếu như có kết hợp thì sự kết hợp đó phải được đánh giá mức độ lớn
hay nhỏ. Nguy cơ tương đối RR được tính bằng công thức sau:
Tỷ lệ mắc trong nhóm phơi nhiễm I
c


RR =
Tỷ lệ mắc trong nhóm không phơi nhiễm
=
I
0


Nếu RR > 1 thì yếu tố nguy cơ có thể là nguyên nhân gây nên hậu quả bệnh lý
tương ứng.
Chỉ số này không được ứng dụng trong nghiên cứu khác như nghiên cứu mô tả,
bệnh chứng. Như vậy, trong nghiên cứu mô tả hoặc nghiên cứu bệnh chứng, đặc biệt
khi mà tần suất mắc bệnh trong nhóm chủ cứu thấp hoặc ta không theo dõi được, ta có
thể tính xấp xỉ dưới dạng tỷ suấ
t chênh lệch (Odds Radio) viết tắt là OR.

Chỉ số này có nghĩa khi OR > 1. Chỉ số này được dùng trong nghiên cứu mô tả
theo diện cắt ngang là thông dụng nhất, song cần kiểm định lại bằng test χ
2

3.2. Chỉ số nguy cơ quy thuộc (attributable risk = AR)
Chỉ số này dùng để đánh giá yếu tố nguy cơ cao hay thấp hay tính phụ thuộc
trong quan hệ nhân quả. Chỉ số AR được tính theo công thức sau:


69
Thông qua chỉ số này ta có thể tính được mức độ nguy cơ cao thấp hay xác định
được giải pháp ưu tiên trong phép tối ưu hoá. Đặc biệt trong nghiên cứu ở cộng đồng
xác định nguy cơ quy thuộc trong quần thể (Population Attrthutable Ri8k) được ứng
dụng bởi tác giả Le vin 1953, là một phép tính hữu ích đem lại nhiều ý nghĩa trong
đánh giá và lượng giá quan hệ nhân quả.

Ví dụ: Nguy cơ gây nên bệnh A có thể có rất nhiều yếu tố
tiếp xúc X, Y, Z khi
tính AR ta được:
AR
X
= 1,6
AR
V
= 1,4
AR
Z
= 0,7
Ta kết luận nguy cơ X là chỉ số cao nhất, tác động mạnh hơn các yếu tố khác còn
lại.
Nguy cơ quy thuộc phần trăm (AR%) cũng thường được sử dụng.
Công thức tính như sau:

Trong một số nghiên cứu, nếu gặp sự nghi ngờ với số liệu mà ta cho là chưa chắc
chắn hoặc không theo dõi được, phân biệt được chính xác thì AR% có thể được tính
theo công thức sau:

Nguy cơ quy thuộc trong quần thể (Population Attributable Risk) (PAR)
PAR được tính bằng tỷ suất của hiệu số mới mắc ít trong quần thể toàn bộ và số
mới mắc ro trong các cá thể không phơi nhiễm và số mới mắc I
i
trong quần thể toàn
bộ.

Tương tự:


Trong đó I
t
R là tỷ lệ mới mắc của bệnh trong quẩn thể toàn bộ.
Bài tập 1
Một nghiên cứu cắt ngang về hàm lượng hoá chất bảo vệ thực vật Wofatox trong

70
mồ hôi (g/m2 da/ 4giờ lao động) ở những người tiếp xúc trực tiếp thuộc hai nhóm
nông dân (Trồng rau - Nhóm A và Trồng lúa - Nhóm B), các tác giả thu được kết quả
như sau:
Nhóm A Nhóm B
xi ni xi ni
0,8 4 0,8 5
1,0 6 1,0 8
1,2 8 1,2 12
1,4 9 1,4 15
1,6 11 1,6 24
1,8 17 1,8 35
2,0 18 2,0 49
2,2 24 2,2 92
2,4 37 2,4 106
2,6 44 2,6 85
2,8 32 2,8 75
3,0 21 3,0 63
3,2 18 3,2 41
3,4 9 3,4 13
2,24 7 2,24 25
Hãy đánh giá xem mức độ độc hại do bị nhiễm hoá chất bảo vệ thực vật Wofatox
ở 2 nhóm có nguy hại như nhau không?
Bài tập 2

Một nghiên cứu về ảnh hưởng của hoá chất bảo vệ thực vật đối với các rối loạn
thần kinh thực vật được tiến hành theo dõi 2 năm từ những người khoẻ mạnh và chia
làm hai nhóm. Nhóm thứ nhất có 368 người trực tiếp phun hóa chấ
t bảo vệ thực vật
cho rau màu, sau hai năm xuất hiện 75 người bị bệnh. Nhóm thứ hai có 327 người ở
cùng khu vực song tiếp xúc với hóa chất bảo vệ thực vật bất kỳ dạng nào, sau hai năm
chỉ xuất hiện 19 người bị bệnh. Phải chăng hóa chất bảo vệ thực vật có phải là nguy cơ
và có mối liên quan đối với các rối loạn thần kinh thực vật
ở người tiếp xúc?
Với dữ kiện đã cho ở 2 bài toán trên ta cần phải chọn xem phương pháp kiểm
định nào sẽ giúp ta đánh giá sự khác biệt hoặc có liên quan hay không giữa các nhóm
số liệu nghiên cứu đã thu được? Tuy nhiên dù phương pháp nào ta cũng cần đặt giả
thuyết (Ha) hoặc (Ho) sau đó mới chứng minh. Nếu dùng test “t” thì cần thiết phải xác
định các giá trị trung bình, độ phân tán của các số liệu nghiên cứu đã thu được sau đó
lập bảng tính mà trong đó các cột sẽ tương ứng với các thành phần, tổ hợp nhỏ nhất
trong công thức. Nếu dùng test χ
2
tq
thì việc lập bảng tiếp liên đóng vai trò hết sức quan
trọng. Nếu lập bảng tiếp liên đúng thì coi như công việc kiểm định đã hoàn thành 30%.
Tuy nhiên ở bài toán 2 ta cần xác định chỉ số nguy cơ tương đối trước để kết luận xem:
“Phải chăng hóa chất bảo vệ thực vật có phải là nguy cơ đối với các rối loạn thần kinh

71
thực vật ở người tiếp xúc?”.
Kết quả thu được ta sẽ tra bảng “t” hoặc “χ
2
” để xác định xác suất P và kết luận.
Một điểm cần lưu ý là phải kết luận chính xác song vẫn ở mức an toàn bởi nghiên cứu
của chúng ta thường là có cỡ mẫu tối thiểu nên có rất nhiều yếu tố nhiễu xen vào vì thế

nên kết luận thận trọng của nhà nghiên cứu trong Y học là điều không bao giờ thừa.

72
PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY

1. Một số khái niệm
1.1. Liên hệ hàm số
Là mối liên hệ giữa hai đại lượng có tính chất sau: ứng với mỗi giá trị xác định
bất kỳ của đại lượng này (từ tập hợp có nghĩa của nó) có và chỉ có một giá trị xác định
của đại lượng kia. Ví dụ: Mối liên hệ hàm số: chu vi S và bán kính r của đường tròn là:
S = 2πr
1.2. Liên hệ ngẫu nhiên
Trong nghiên cứu y sinh học có thể gặp m
ột hình thái liên hệ khác đó là liên hệ
ngẫu nhiên. Môi liên hệ ngẫu nhiên giữa hai đại lượng được xác định khi nó thoả mãn
tính chất sau:
Nếu ứng với giá trị bất kỳ của đại lượng này thì đại lượng kia vẫn còn là ngẫu
nhiên và có thể nhận những giá trị khác nhau với xác suất nhất định. Ví dụ: cùng trong
điều kiện môi trường như nhau, năng suất sinh khối của nấm men Sacharomyces
cerevisiae là khác nhau ở các ống nghi
ệm của cùng lô thí nghiệm.
Những mối liên hệ tương quan và hồi quy là những trường hợp riêng của hình
thái liên hệ ngẫu nhiên.
1.2.1. Tương quan
Hai đại lượng ngẫu nhiên được gọi là có một liên hệ tương quan nếu kỳ vọng
toán học của một trong hai đại lượng này thay đổi tuỳ thuộc vào sự thay đổi của đại
lượng kia. Phương pháp thống kê toán học nghiên cứu các mối liên hệ tương quan giữa
các hiện tượng gọi là phân tích tương quan.
Điều kiện để phân tích tương quan.
1- Các đại lượng ngẫu nhiên X

1
, X
2
,… X
n
có thể xem như mẫu của một tập hợp
tổng quát 2 (hoặc n) chiều với luật phân bố chuẩn.
2- Giá trị của quan trắc không phụ thuộc vào giá trị những quan trắc trước và sau.
Chúng là các giá trị độc lập, ngẫu nhiên.
3- Khi thay đổi định lượng X
i
+ 1, phương sai của đại lượng ngẫu nhiên X
i

không đổi hoặc tỷ lệ với một hàm số đã xét nào đó của X
i
+ 1.
4- Kỳ vọng toán học nào đó của đại lượng X
i
, khi X
i
+ 1 nhận được một giá trị
xác định, có thể biểu diễn dưới dạng hàm X
i
= f (x
i
+ 1), tuyến tính đối với những
tham số nhất định.
1.2.2. Hồi quy


73
Liên hệ hồi quy là mối liên hệ giữa hai đại lượng không ngẫu nhiên. Phương
pháp toán học phân tích những mối liên hệ ấy gọi là phân tích hồi quy. Điều kiện để
phân tích hồi quy đã được mô tả ở các mục 2, 3, 4 của (l.2.l - Điều kiện để phân tích
tương quan). Như vậy phân tích tương quan thực chất là trường hợp riêng của phân
tích hồi quy. Khi thoả mãn các điều kiện để phân tích tương quan thì c
ũng thoả mãn
mọi điều kiện để phân tích hồi quy.
Lưu ý: Phân tích hồi quy lấy biến ngẫu nhiên làm hàm số (y), còn biến không
ngẫu nhiên làm biến số (x).
2. Phân tích tương quan và hồi quy cặp
2.1. Tương quan
Liên hệ thống kê hay liên hệ tương quan được xác định bởi dạng, hướng và mức
độ tương quan.
* Dạng: Tương quan tuyến tính hay tương quan phi tuyến.
* Hướng: Tương quan cùng chiều (+) hay tương quan ngược chiều (-)
* M
ức độ: Đánh giá bằng giá trị của đại lượng Rxy cho tương quan tuyến tính và
đại lượng ηx/y hoặc ηy/x cho tương quan phi tuyến.
2.2. Tương quan tuyến tính
2.2.1. Công thức
Khi xét một liên hệ ngẫu nhiên giữa hai đại lượng, chẳng hạn đường kính rễ và
chiều cao của cây cao su, giữa hàm lượng mỡ trong sữa bò, hàm lượng Chì trong máu
của công nhân kim loại màu ở các xí nghiệp khác nhau được theo dõi nhiều lần trong
năm cần đ
ánh giá và kiểm tra giả thiết về sự có mặt một mối liên hệ giữa hai đại
lượng, hai quá trình nào đó trong sinh học, về mức độ chặt chẽ của sự liên hệ này,
người ta dùng hệ số tương quan Rxy. Hệ số này được tính như sau:

Trong đó: n: Kích thước mẫu nghiên cứu

x : Trung bình của đại lượng x
i

y
: Trung bình của đại lượng y
i

Sx, Sy: Độ lệch chuẩn của x
i
và y
i

Công thức viết lại để tính bằng máy tính bỏ túi như sau:

74

Hệ số Rxy biến thiên trong khoảng (- 1 → + 1)
* Khi Rxy = ± l, lúc này giữa x và y có một liên hệ hàm số tuyến tính, thuận (+),
nghịch (-).
* Rxy = 0, giữa x và y không có mối liên hệ nào cả.
* Khi | Rxy | càng gần 1 thì x và y có một liên hệ tương quan tuyến tính càng chặt
chẽ hơn.
Khi | Rxy | càng gần 0 thì một tương quan tuyến tính giữa x và y càng lỏng lẻo.
Người ta thường lấy các mốc sau đây để tính một liên hệ tương quan tuy
ến tính càng
chặt chẽ hay không: Rxy < 0,3; Rxy = 0,3 - 0,6; Rxy > 0,6.
Giá trị của hệ số tương quan cặp là một đại lượng ngẫu nhiên, phụ thuộc vào kích
thước mẫu. Khi kích thước mẫu giảm thì độ tin của hệ thống tương quan sẽ giam.
2.2.2. Bài toán
Nghiên cứu mỗi tương quan giữa liều độc X với độ sống sót Y của chuột nhắt

trắng, khi làm thí nghiệm ta thu được kết quả tính theo đơn vị liều độ
c và đơn vị thời
gian sống như sau:
Bảng: Kết quả thí nghiệm của bài toán
X 0 1 2 3 4 5 6
Y 4,25 3 3 1,75 1,5 05 0 25
Hãy đánh giá một tương quan giữa liều độc X và thời gian sống sót Y theo số
liệu trên.
Bài giải
Từ công thức trên, ta đặt các biến thiên như sau:
Đối với tử số: * A = n.Σx
i
.y
i
* B
1
= Σx
i
* B
2
= Σy
i

*

B = B
1
.B
2


* C = A – B
Đối với mẫu số:

75

Tính cụ thể cho bài toán, được như sau:

Rxy mang giá trị (-), đây là mối tương quan ngược chiều, liều độc càng cao thì
thời gian sống sót của chuột càng giảm.
2.3. Đánh giá mức xác suất tin cậy của hệ số tương quan:
2.3.1. Công thức
Hệ số tương quan mẫu dùng làm ước lượng cho hệ số tương quan tổng thể. Như
vậy bản thân Rxy xem như đại lượng ngẫu nhiên. Do đó sẽ có một sai số được xác
định như
sau:

Trường hợp n ≤ 100, ta tính sai số Sr theo công thức sau:

Người ta dùng tỷ số giữa tương quan mẫu và sai số Sr làm tiêu chuẩn để kiểm
định giả thiết H
0
với mức ý nghĩa α nào đó.

Tính được t
tn
so sánh với ta như sau:
- Nếu t
tn
> t
α

Hệ số Rxy được chấp nhận, giữa x
i
và y
i
có mối tương quan tuyến
tính, kết luận này tin cậy ở mức ý nghĩa α hay p = 1 - α.
- Nếu t
tn
< t
α
. Hệ số Rxy không được chấp nhận, không có một tương quan tuyến
tính giữa x
i
và y
i
, kết luận này tin cậy ở mức ý nghĩa α.
2.3.2. Ví dụ

76
Lấy lại bài toán trên ta có:

Vậy t
tn
> t
α
, với α = 0,001. Hệ số tương quan của x
i
và y
i
tin cậy ở mức ý nghĩa α

= 0,001, hay xác suất p = 0,999.
2.4. Đánh giá mức khác biệt giữa hai hệ số tương quan
2.4.1. Công thức
Khi so sánh hệ số tương quan được xác định trên mẫu độc lập, giả thiết H
0
cho
rằng sự khác nhau của chúng là không có ý nghĩa. Kiểm định giả thiết H
0
bằng tiêu
chuẩn t
tn
được tính như sau:

Trong đó:
- t
tn
: Giá trị dùng kiểm định
- Z
l
, Z
2
đại lượng Fisher của hệ số tương quan thực nghiệm tra trong bảng Z:
Bảng biến đổi hệ số tương quan R thành trị số Z.
- n
1
và n
2
những: Kích thước mẫu 1 và mẫu 2.
Nếu t
tn

≥ t
α
giả thiết H
0
bị bác bỏ với mức ý nghĩa đã cho. Tra bảng t
α
với bậc tự
do (n
1
- 1) + (n
2
- 1), kết luận có sự tương quan khác nhau một cách có ý nghĩa.
2.4.2. Ví dụ
Cho trước n
1
= n
2
= 50. R
1
= 0,560; R
2
= 0,69. Hãy đánh giá xem hai hệ số tương
quan này có sai khác không?
Bài giải
Từ R
1
= 0, 560 ta tra bảng biến đổi hệ số tương quan thành trị số Z và được
Z
1
= 0,633; tương tự R

2
= 0,69 nên Z
2
= 0,848.
Tính t
tn
theo công thức (4.6) t
tn
= -1,042. Với α = 0,05. BTD = 96,
t
α
= 1,96. Như vậy t
tn
< t
α
hai trị số tương quan R
1
, R
2
không khác biệt nhau một
cách có ý nghĩa với mức ý nghĩa α đã cho.
2.5. Tương quan phi tuyến
2.5.1. Khái niệm
Khi sự liên hệ giữa x
i
và y
i
không tuân theo quan hệ tuyến tính, thì sự phụ thuộc

77

X
i
và Y
i
là một quan hệ phi tuyến tính. Hệ số tương quan phi tuyến mô tả sự phụ thuộc
hai chiều của các giá trị X
i
và Y
i
, nghĩa là η
X/Y
khác với η
Y/X

Ví dụ:
X
i
2 4 6 8 4 6 2 6
Y
i
4 8 8 7 4 10 6 12
Giả sử từ số liệu trên, sắp xếp tăng dần theo giá trị X
i
ta có:
X
i
2 2 4 4 6 6 6 8
Y
i
4 6 8 4 8 10 12 7

Ta nhận thấy có một số giá trị của x
i
lặp lại, nên có thể xếp như sau:
X
i
2 4 6 8
Y
x
5 6 10 7
Ta đã có các giá trị trung bình Y
i
, theo X
i
là Y x. Nếu xếp ngược lại theo Y

ta sẽ
có:
Y
i
4 4 6 7 8 8 10 12
X
i
2 4 2 8 6 4 6 6

Y
i
4 6 7 8 10 12
X
y
3 2 8 5 6 6

Sự phụ thuộc giữa X
i
và Y
i
khác sự phụ thuộc giữa Y
i
và X
i
. Hệ số η luôn luôn
dương. ηx/y ≠ ηy/x ; nếu ηx/y = ηy/x thì chúng bằng Rxy.
2.5.2. Công thức tính hệ số tương quan phi tuyến

Trong đó Sx và Sy là độ lệch tiêu chuẩn của mỗi đặc điểm X
i
và Y
i
; Sxy và Syx
là độ lệch tiêu chuẩn của nhóm, được tính như sau:

Ở đây fx và fy là tần suất của x
i
và y
i
, n là kích thước của mẫu. Do đó η được
tính như sau:

Trình tự tính toán:
- Phân nhóm số liệu vào bảng tương quan, theo mỗi lớp của đặc tính X
i
và đặc


78
tính Y
i
. Xác định đại lượng trung bình của x và y; trung bình của y theo x và x theo y.
- Tính độ lệch riêng phần (
Y
X
- Y ) và X
Y
- X ; Tính bình phương của đại
lượng trên, tính tổng.
- Tính tổng bình phương

Thay các giá trị đã tính được vào công thức để tính ηy/x và ηx/y.
Đánh giá độ tin cậy của hệ số tương quan theo tiêu chuẩn t
α
; BTD = n - 2
Bài toán:
Nghiên cứu sự biến thiên của hai đặc điểm x và y có kết quả như sau:
X
1
17 17 18 18 18 18 20 20 23 23
Y
1
12 13 13 14 14 15 16 16 13 14
Hãy tính hệ số tương quan phi tuyến của hai đặc tính trên.
Bài giải
Lập bảng tính như sau:
Bảng tính các giá trị trung gian của bài toán


Thay vào công thức được ηy/x = 0,90
2.6. Hệ số hồi quy thực nghiệm
2.6.1. Hệ số hồi quy
Sự phụ thuộc tuyến tính của x và y được biểu diễn bởi hàm y = ax + b. Mặt khác
sự phụ thuộc tuyến tính của giá trị trung bình Y và X có thể biểu diễn bằng phương
trình:


79
Trong đó: a = Rxy (Sy/Sx)
a được gọi là hệ số hồi quy thực nghiệm (xem lại phương pháp bình phương tối
thiểu).
2.6.2. Phương pháp xây dựng đường hồi quy thực nghiệm
- Bước 1
Dựa vào số liệu thực nghiệm, vẽ trên trục toạ độ XOY các điểm Mi (x
i
; y
i
). Nối
các điểm lại ta được đường gấp khúc thực nghiệm D
1
. Từ hình dạng của đường D
1

này, ta xác định đường hồi quy lý thuyết D, sao cho đường D đại diện tất nhất cho tất
cả các điểm Mi (X
i
; Y
i

) thực nghiệm.
- Bước 2: Từ công thức
Y -
Y = a(X- X ) ta khai triển ra xác định a, y (y = ax + b hay b = y - ax). Đây là
phương trình biểu diễn crường thẳng D. Đặc điểm của đường thẳng D là cắt trục tung
tại b khi x = 0, cắt trục hoành tại x = -b/a khi y = 0. Tính I (0;b); J (-b/a; 0).
2.6.3. Ví dụ
Lấy lại ví dụ bài toán (ở phần 2.2.2.) tính được a = -0,66; b = 4,015
y = 0 66 X + 4,015
I (0; 4,015); J (6,083; 0).
Bảng: Tính giá trị lý thuyết của tương quan giữa X và Y
X 0 1 2 3 4 5 6
Y
tn
4,25 3 3 1,75 1,5 0,5 0,25
Y
it
4,015 3,355 2,695 2,935 1,375 0,715 0,055
Chú ý:
D chỉ là đoạn thẳng thoả mãn điều kiện của bài toán thực tế. Toàn bộ đường
thẳng biểu diễn phương trình tính được có thể không thoả mãn điều kiện của bài toán.

Đồ thị dạng tương quan Y = ax - b


80
2.6.4. Một số dạng hồi quy khác
+ Hồi quy biểu thị bằng phương trình hàm mũ: Khi sự phụ thuộc tuân theo quy
luật cấp số nhân, nó được mô tả bởi phương trình mũ như sau:
y = a.b

x
hay y = a. c
xb

Logarit hoá ta sẽ được Lg y = Lg a + x. Lg b
Hệ chuẩn dùng để xác định các tham số a và b:

Giải hệ này tìm dược a và b:


+ Hồi quy biểu thị bởi phương trình luỹ thừa
Sự mô tả của các biến bằng phương trình luỹ thừa như sau:

Logarit hoá biến thành phương trình đường thẳng sau:

Hệ các phương trình chuẩn để xác định tham số a và b như sau:


81
Giải các hệ trên tính được a và b như sau:


2.7. Tương quan bội và tương quan riêng phần
2.7.1. Tương quan bội
Đối với các quá trình sinh học. Không chỉ có tương quan cặp hai chiều, nó còn có
mối tương quan đa chiều. Khi có 3 yếu tố tác động qua lại x, y, z ta có mối tương tác
mới gọi là tương quan bội. Ví dụ tác động của quan hệ pa, to, hoạt động enzym trong
miệng bệnh nhân mắc bệnh tai mũi họng. Biểu thức tính tương quan như sau:

Trong đó: Rxy, Rxz, Ryz là tương quan của từng cặp đặc điểm. Hệ số tương quan

bội trong khoảng (0; 1); Chú ý rằng Rx,y,z = 0, các đặc điểm không có tương quan.
2.7.2. Tương quan riêng phần
+ Công thức: Khi mối quan hệ phụ thuộc với các đại lượng khác được loại trừ
chỉ còn quan hệ phụ thuộc giữa hai đại lượng, được gọi là quan hệ riêng phần. Chẳng
hạn ta cố định yế
u tố z, sẽ có:

Trong công thức Rxy (z) là tương quan riêng phần của x và y khi không có mặt
của z. Tương tự ta có hai hệ số còn lại như sau:

82
+ Khi cố định y:

+ Khi cố định x:

Hệ số tương quan riêng phần có cùng ý nghĩa tính chất như hệ số tương quan
cặp.
+ Tiêu chuẩn kiểm định
Sử dụng tiêu chuẩn t để kiểm định giả thiết về sự biến đổi không phụ thuộc giữa
2 đặc điểm khi loại trừ đặc điểm thứ 3 bằng tỷ số sau:

Trong đó:
n - kích thước mẫu
m - số đặc điểm tính Rrp (tương quan riêng phần).
Nếu t
tn
> t
α
mức ý nghĩa α cho trước, BTX = n - 3. Khi đó hai đặc điểm không có
mối tương quan.

Bài toán
Lấy ngẫu nhiên 10 bông hoa hoè gốc, đếm số bông nhánh (y) số bông con (z) và
chiều dài bông gốc (x
m
) của mỗi bông. Kết quả được tính trong bảng sau:
x 70 60 70 46 58 69 32 62 46 62
y 18 17 22 10 16 18 9 18 15 22
z 36 29 40 12 31 32 13 35 30 36
Hãy tính hệ số tương quan riêng phần của mỗi đặc điểm
Bài giải:
Dựa vào công thức tính được

Tính tyz(x) = 5,46
Với α = 0,05; BTX = 7; t
α
= 2,38, t
tn
> t
α
; Mối quan hệ của y và z tin cậy ở mức
ý nghĩa α = 0,05

×