60
Chơng VI
hồi quy v tơng quan
I. Phơng pháp hồi quy v tơng quan
1-1. Liên hệ hm số v liên hệ tơng quan
Giữa các hiện tợng kinh tế - xã hội hoặc giữa các tiêu thức thờng có
mối liên hệ v phụ thuộc lẫn nhau theo những quy luật nhất định. Nghiên cứu
mối liên hệ giữa các hiện tợng, các tiêu thức, xác định tính chất v trình độ
chặt chẽ của mối liên hệ l nhiệm vụ cụ thể của thống kê. Có hai loại liên hệ
phụ thuộc giữa các hiện tợng kinh tế - xã hội l: liên hệ hm số v liên hệ
tơng quan.
- Liên hệ hm số l loại liên hệ hết sức chặt chẽ giữa các đại lợng biến
thiên nhng xác định. Khi đại lợng ny biến thiên thì lm cho đại lợng kia
cũng biến thiên theo tỷ lệ tơng ứng chặt chẽ.
Ví dụ: liên hệ giữa diện tích v bán kính hình tròn (S = .R
2
) l liên hệ
hm số.
Liên hệ hm số ít có trong mối liên hệ giữa các hiện tợng kinh tế - xã
hội.
- Liên hệ tơng quan l liên hệ không hon ton chặt chẽ nh liên hệ
hm số. Trong liên hệ tơng quan, cứ mỗi trị số của tiêu thức ny có thể ứng
với phân phối các trị số khác. Nói cách khác, có liên hệ tơng quan khi giữa
các tiêu thức có rng buộc nhau không có sự tơng ứng chặt chẽ. Khi trị số
của tiêu thức ny tăng (hay giảm) thì trị số của tiêu thức kia (tiêu thức có liên
hệ) cũng tăng (hay giảm) nhng không theo tỷ lệ chặt chẽ, vì ngoi tiêu thức
nguyên nhân ny còn có nguyên nhân khác tác động.
Ví dụ: giữa mức trang bị TSCĐ cho lao động v năng suất lao động,
giữa quy mô sản xuất kinh doanh với hiệu quả đồng vốn, l liên hệ tơng
quan.
Xét theo chiều hớng của liên hệ tơng quan, chia lm hai loại: liên hệ
tơng quan thuận v liên hệ tơng quan nghịch. Liên hệ tơng quan thuận khi
trị số của tiêu thức ny tăng lên hay giảm đi thì trị số của tiêu thức kia cũng
tăng lên hay giảm đi; liên hệ nghịch khi trị số của tiêu thức ny tăng thì trị số
của tiêu thức kia giảm v ngợc lại.
Ta còn có mối liên hệ tơng quan theo đờng thẳng (liên hệ tơng quan
tuyến tính) v mối liên hệ t
ơng quan theo đờng cong (liên hệ tơng quan
phi tuyến tính).
61
1-2. Phơng pháp hồi quy v tơng quan (phơng pháp phân tích tơng
quan)
Hồi quy v tơng quan l các phơng pháp toán học đợc áp dụng trong
thống kê để phân tích mối liên hệ giữa các hiện tợng kinh tế xã hội.
Công việc chủ yếu của phơng pháp phân tích tơng quan gồm các
bớc:
1- Phát hiện ra mối liên hệ tơng quan giữa các hiện tợng, các tiêu
thức.
2- Xác định quy luật liên hệ dới dạng hm số. Dùng hm số ny để
đặc trng cho mối liên hệ tơng quan nghiên cứu.
3- Xác định mức độ chặt chẽ của mối liên hệ tơng quan.
4- Đánh giá mối liên hệ tơng quan vừa nghiên cứu.
II. Liên hệ tơng quan tuyến tính giữa hai tiêu thức
số lợng
2-1. Phơng trình hồi quy
Để thuận tiện cho việc xem xét phơng pháp ny chúng ta hãy xét mối
quan hệ giữa tuổi nghề v năng suất lao động của công nhân theo ví dụ của
bảng sau:
Bảng 6-1
Tên công nhân đợc
chọn để điều tra
Tuổi nghề
(năm) x
Năng suất lao động
(sản phẩm) y
x
2
x.y
A
B
C
D
E
G
H
I
K
L
1
2
3
4
5
6
7
8
9
10
25
40
45
60
65
70
90
90
100
100
1
4
9
16
25
36
49
64
81
100
25
80
135
240
325
420
630
720
900
1.000
Cộng 55 685 385 4.475
62
0
20
40
60
80
100
120
012345678910
Hình 6-1. Đồ thị thực nghiệm về mối liên hệ giữa năng suất lao động v tuổi
nghề của công nhân.
Căn cứ vo ti liệu bảng 6-1 v đồ thị thực nghiệm hình 6-1 ta thấy tuổi
nghề của công nhân cng cao thì năng suất lao động cng cao, chứng tỏ giữa
hai tiêu thức ny có mối liên hệ tơng quan. Trên đồ thị ta thấy những điểm
tơng ứng x-y rải theo một chiều hớng gần thẳng. Nh vậy giữa năng suất lao
đông v tuổi nghề công nhân có mối quan hệ tơng quan tuyến tính. Tuy
nhiên đờng gấp khúc thực nghiệm y
x
mới cho biết tính chất của mối liên hệ
nh đã nói nhng cha thật rõ rng cụ thể. Vì vậy để mô tả khái quát v chính
xác nhất quy luật tơng quan tuyến tính giữa hai tiêu thức nguyên nhân x (tuổi
nghề) v tiêu thức kết quả y (năng suất lao động) ngời ta dùng đờng hồi quy
lý thuyết có dạng:
bxay
x
+=
Trong đó:
+
x
y - Trị số điều chỉnh của tiêu thức kết quả y theo mối liên hệ phụ
thuộc với tiêu thức nguyên nhân x.
+ x - Trị số của tiêu thức nguyên nhân.
+ a, b - Các tham số.
Yêu cầu đặt ra cho đờng hồi quy lý thuyết l phải nằm gần nhất với
đờng gấp khúc thực nghiệm y
x
, sao cho tổng các mức chênh lệch giữa đờng
y
NSLĐ (sản
p
hẩm)
x- Tuổi n
g
hề (năm)
63
hồi quy lý thuyết v đờng gấp khúc thực nghiệm phải có giá trị nhỏ nhất, tức
l:
S = (
x
y - y)
2
= min
Bằng cách lấy đạo hm riêng của S theo a, b v cho triệt tiêu ta đợc
hệ phơng trình:
y = na + bx (1)
xy = ax + bx
2
(2)
Giải hệ ta đợc:
a =
y - b x
b =
2
.
x
yxxy
Với:
22
2
)(xx
x
=
Từ bảng 6-1 ta tính đợc:
5,5
10
55
==
x
25,30)5,5()(
22
==x
5,68
10
685
==y
5,447
10
475.4
==xy
5,38
10
385
2
==x
25,825,305,38
2
==
x
576,8
25,8
)5,685,5(5,447
=
=
x
b
332,21)5,5576,8(5,68
=
= xa
Vậy phơng trình hồi quy lý thuyết l:
x
y = 21,332 + 8,576x
Kết quả trên đây có nghĩa l:
- Tham số b = 8,576 cho biết cứ thêm 1 tuổi nghề thì năng suất lao động
tăng 8,576 sản phẩm.
- Tham số a = 21,332 cho biết mức năng suất tối thiểu đối với công nhân
mới bớc vo nghề.
2-2. Hệ số tơng quan
Hệ số tơng quan l một chỉ tiêu dùng để đánh giá trình độ chặt chẽ của
mối liên hệ tơng quan tuyến tính.
64
Hệ số tơng quan đợc xác định trên cơ sở so sánh cùng một biểu hiện
của mối liên hệ trong trờng hợp có liên hệ tơng quan v liên hệ hm số.
Hệ số tơng quan đợc tính theo công thức:
22
)(.)(
))((
yyxx
yyxx
r
=
Hệ số tơng quan có các tính chất sau:
1- Hệ số tơng quan có trị số: -1 r +1
2- Hệ số tơng quan mang dấu trừ (-) ta có tơng quan nghịch, mang
dấu cộng (+) ta có tơng quan thuận.
3- Trị số của hệ số tơng quan cng gần 1 thì mối liên hệ tơng quan
cng chặt chẽ, cng gần 0 thì ngợc lại.
Ví dụ: tính hệ số tơng quan tuyến tính để đánh giá mức độ chặt chẽ
của mối liên hệ tơng quan giữa tuổi nghề v năng suất lao động của công
nhân. Từ số liệu bảng 6-1, ta lập bảng tính toán nh sau:
Bảng 6-2
Tuổi
nghề xi
Năng suất
lao động yi
(x-
x )
(y-
y
)
(x-
x ).(y-
y
)
(x-
x )
2
(y- y )
2
1
2
3
4
5
6
7
8
9
10
25
40
45
60
65
70
90
90
100
100
- 4,5
- 3,5
- 2,5
- 1,5
- 0,5
+ 0,5
+ 1,5
+ 2,5
+ 3,5
+ 4,5
- 43,5
- 28,5
- 23,5
- 8,5
- 3,5
+ 1,5
+ 21,5
+ 21,5
+ 31,5
+ 31,5
+ 195,75
+ 99,75
+ 58,75
+ 12,75
+ 1,75
+ 0,75
+ 32,25
+ 53,75
+ 110,25
+ 141,75
20,25
12,25
6,25
2,25
0,25
0,25
2,25
6,25
12,25
20,25
1.892,25
812,25
552,25
72,25
12,25
2,25
462,25
462,25
992,25
992,25
55 685 0 0 + 707,50 82,50 6.252,50
985,0
5,252.65,82
5,707
+=
+
=
x
r
Kết quả trên cho thấy giữa tuổi nghề v năng suất lao động có mối liên
hệ tơng quan khá chặt chẽ.
III. Liên hệ tơng quan phi tuyến giữa hai tiêu thức
số lợng
3-1. Phơng trình hồi quy
65
Các hiện tợng kinh tế - xã hội chẳng những có mối liên hệ tơng quan
tuyến tính (theo dạng đờng thẳng) m còn có thể có mối liên hệ tơng quan
phi tuyến tính (theo các dạng đờng cong).
Về mặt lý thuyết, ta có thể sử dụng nhiều dạng phơng trình hồi quy
phi tuyến nh dạng hy-pe-bôn, pa-ra-bôn, lô-ga-rít, hm số mũ, để biểu hiện
những mối liên hệ tơng quan phi tuyến tính.
- Phơng trình Pa-ra-bôn bậc 2
x
y = a + bx + cx
2
Với hệ phơng trình chuẩn (rút ra bằng phơng pháp bình phơng
bé nhất):
y = na + bx + cx
2
(1)
xy = ax + bx
2
+ cx
3
(2)
x
2
y = ax
2
+bx
3
+ cx
4
(3)
Giải hệ ta tìm đợc các tham số a, b, c
- Phơng trình Hy-pe-bôn
x
y
= a +
x
b
Các tham số đợc tính từ hệ phơng trình:
y = na + b
x
1
(1)
x
1
y = a
x
1
+ b
2
1
x
(2)
Bằng cách lm tơng tự, ta có thể xây dựng đợc các hệ phơng trình
chuẩn cho các dạng đờng cong khác.
Ví dụ: điều tra 10 doanh nghiệp cùng sản xuất một loại sản phẩm, thu
thập đợc ti liệu về hai tiêu thức l khối lợng sản phẩm sản xuất v giá
thnh một đơn vị sản phẩm theo bảng sau:
Bảng 6-3
Tên doanh
nghiệp
Khối lợng sản phẩm sản xuất
(1.000 cái) xi
Giá thnh một đơn vị sản
phẩm (1.000 đ) yi
A
B
C
D
E
G
H
I
K
L
0,5
1,0
2,5
4,0
4,5
5,0
5,0
7,5
8,0
10,0
45,0
25,0
20,0
15,0
15,0
12,5
10,0
7,5
8,0
7,0
66
Quan sát ti liệu của bảng 6-3, ta thấy khi khối lợng sản phẩm tăng lên
thì giá thnh giảm xuống, chứng tỏ hai tiêu thức đó có mối liên hệ tơng quan.
Nếu đa số liệu lên đồ thị, ta thấy đờng gấp khúc thực tế biến động dạng một
đờng hy-pe-bôn (bạn đọc có thể tự vẽ với trục honh biểu diễn khối lợng
sản phẩm sản xuất X, trục tung biểu diễn giá thnh đơn vị sản phẩm Y).
Ta có đờng hồi quy lý thuyết:
x
y = a +
x
b
Các tham số a, b của phơng trình đợc tính từ hệ phơng trình:
y = na + b
x
1
(1)
x
1
y = a
x
1
+ b
2
1
x
(2)
Theo ti liệu của bảng 6-3, ta có thể lập bảng tính toán các số liệu cần
thiết:
Bảng 6-4
Khối lợng
sản phẩm sản
xuất xi
Giá thnh
một đơn vị
sản phẩm yi
x
1
2
1
x
x
1
y
0,5
1,0
2,5
4,0
4,5
5,0
5,0
7,5
8,0
10,0
45,0
25,0
20,0
15,0
15,0
12,5
10,0
7,5
8,0
7,0
2,0000
1,0000
0,4000
0,2500
0,2222
0,2000
0,2000
0,1333
0,1250
0,1000
4,0000
1,0000
0,1600
0,0625
0,0494
0,0400
0,0400
0,0178
0,0156
0,0100
90,0000
25,0000
8,0000
3,7500
3,3333
2,5000
2,0000
0,9995
1,0000
0,7000
Cộng 165,0 4,6305 5,3953 137,2828
Thay kết quả tính toán trong bảng vo hệ phơng trình chuẩn, ta có:
165 = 10a + 4,6305b
137,2828 = 4,6305a + 5,3953b
Giải ra đợc: a = 7,8; b = 18,72
=>
x
y = 7,8 +
x
72,18
3-2. Tỷ số tơng quan
67
Tỷ số tơng quan l một chỉ tiêu dùng để đánh giá trình độ chặt chẽ của
mối liên hệ tơng quan phi tuyến tính.
Tỷ số tơng quan đợc xác định dựa vo phơng pháp luận cho rằng:
Nếu tiêu thức nguyên nhân (x) cng có ảnh hởng mạnh đến tiêu thức kết quả
(y) thì phần phơng sai do ảnh hởng của tiêu thức x đối với y cng chiếm
phần lớn so với phơng sai chung của y (do tất cả các nguyên nhân tác động).
Điều đó có nghĩa l phơng sai của tiêu thức nguyên nhân (x) l cơ sở để xác
định tỷ lệ tơng quan.
Tỷ lệ tơng quan đợc tính theo công thức:
2
2
y
y
x
=
Trong đó:
(êta) - Tỷ suất tơng quan.
2
y
- Phơng sai của tiêu thức kết quả y, phản ánh sai lệch bình quân
giữa trị số thực tế v số bình quân chung.
22
2
2
)(
)(
yy
n
yy
y
=
=
2
x
y
- Phơng sai của tiêu thức kết quả y do ảnh hởng của tiêu thức
nguyên nhân x, phản ánh sai lệch bình quân giữa trị số lý thuyết
v số bình quân chung.
n
yy
x
y
x
=
2
2
)(
Theo nguyên tắc cộng phơng sai:
2
y
=
2
x
y
+
2
)(
x
yy
Trong đó:
2
y
,
2
x
y
- Nh trên.
2
)(
x
yy
- L phơng sai của tiêu thức kết quả y, phản ánh sai lệch bình
quân giữa trị số thực tế v trị số lý thuyết.
n
yy
x
yy
x
=
2
2
)(
)(
Do mối liên hệ giữa các loại phơng sai trên ta có:
2
2
)(
2
2
)(
2
2
2
1
y
yy
y
yy
y
y
y
xxx
=
==
Tỷ số tơng quan có những tính chất sau:
1. Tỷ số tơng quan có trị số từ 0 -> 1
+ Nếu
= 1, có mối liên hệ hm số giữa tiêu thức nguyên nhân x v tiêu
thức kết quả y.
68
+ Nếu
= 0, không có mối liên hệ no giữa các tiêu thức đợc khảo sát (x,
y, ).
2. Tỷ số tơng quan cng gần 1 thì mối liên hệ tơng quan cng chặt chẽ,
cng gần 0 thì ngợc lại. Tỷ số tơng quan không cho biết tính chất thuận,
nghịch của mối liên hệ đang xét.
Ví dụ: tính tỷ số tơng quan để đánh giá mức độ chặt chẽ của mối liên
hệ tơng quan giữa khối lợng sản phẩm v giá thnh đơn vị. Từ số liệu của
bảng 6-4, ta lập bảng tính toán sau:
Bảng 6-5
x y y
2
x
y y-
x
y (y-
x
y )
2
0,5
1,0
2,5
4,0
4,5
5,0
5,0
7,5
8,0
10,0
45,0
25,0
20,0
15,0
15,0
12,5
10,0
7,5
8,0
7,0
2.025,00
625,00
400,00
225,00
225,00
156,25
100,00
56,25
64,00
49,00
45,24
26,52
15,29
12,48
11,96
11,54
11,54
10,30
10,14
9,67
-0,24
-1,52
+4,71
+2,52
+3,04
+0,96
-1,54
-2,80
-2,14
-2,67
0,058
2,310
22,184
6,350
9,242
0,922
2,372
7,840
4,580
7,129
Cộng 165,0 3.925,50 - - 62,987 63
y = 5,16
10
165
=
(
y )
2
= (16,5)
2
= 272,25
55,392
10
5,925.3
2
==y
2
y
=
2
y - ( y )
2
= 392,55 272,25 = 120,3
2
)(
x
yy
= 3,6
10
63
=
9735,0
10
63
1 ==
Kết quả trên cho ta thấy giữa khối lợng sản phẩm v giá thnh đơn vị
sản phẩm có mối liên hệ tơng quan khá chặt chẽ.
IV. Liên hệ tơng quan giữa hai tiêu thức thay
phiên
Tiêu thức thay phiên l những tiêu thức có hai biểu hiện trái ngợc
(chẳng hạn tốt v không tốt, có v không có, biết chữ v mù chữ, . . .). Ta lập
bảng phân tổ kết hợp sau:
69
Bảng 6-6
II
I
B
B
Cộng
A
A
a
c
b
d
a+b
c+d
Cộng a+c b+d n
Trong bảng:
+ I, II: Các tiêu thức thay phiên có liên hệ nhau.
+ A,
A
, B,
B
: Các biểu hiện của tiêu thức.
+ a, b, c, d: L tần số của mỗi tổ đợc phân tổ theo I v II.
Chỉ tiêu biểu hiện trình độ chặt chẽ của mối liên hệ giữa hai tiêu thức
thay phiên gọi l hệ số kết hợp (K). Hệ số ny đợc xác định theo công thức:
))()()(( dbcadcba
bcad
K
++++
=
Hệ số kết hợp K cũng có trị số từ -1 đến +1. Khi hệ số của K = 1 có
liên hệ hm số giữa hai tiêu thức thay phiên. Ngợc lại, nếu K = 0 không có
mối liên hệ phụ thuộc giữa các tiêu thức đang xét.
Ví dụ: khảo sát mối quan hệ giữa hai tiêu thức giới tính v trình độ văn
hoá của dân số tại một địa phơng ở nớc ta trong hai thời kỳ 1945 v 1960
theo ti liệu sau:
(Đvt: %) Bảng 6-7
Năm 1945 Năm 1960
Trình độ VH
Giới tính
Biết
chữ
Mù
chữ
Cộng
Biết
chữ
Mù
chữ
Cộng
Nam
Nữ
49,5
5,3
50,5
94,7
100
100
99,3
97,8
0,7
2,2
100
100
Cộng 54,8 145,2 - 197,1 2,9 -
490,0
2,1458,54100100
)3,55,50()7,9449(
1945
=
=
xxx
xx
K
063,0
9,21,197100100
)8,977,0()2,23,99(
1960
=
=
xxx
xx
K
Kết quả trên cho ta thấy:
- Vo thời kỳ 1945 dân ta mù chữ với tỷ lệ khá cao (nam với tỷ lệ
50,5%- nữ 94,7%). Nạn mù chữ biểu hiện rõ rệt ở giới nữ (tệ trọng nam khinh
nữ). Điều đó cho thấy có mối liên hệ rõ rệt giữa giới tính v trình độ văn hoá
trong thời kỳ ny. Hệ số kết hợp K = 0,490 cũng đã cho thấy mối quan hệ nói
trên.
70
- Ngợc lại, vo thời kỳ 1960 dới chế độ mới dân ta đã thoát khỏi nạn
mù chữ. Mối quan hệ giữa hai tiêu thức giới tính v trình độ văn hoá tuy có
biểu hiện nhng không đáng kể. Hệ số kết hợp K = 0,063 cho ta thấy mối
quan hệ không chặt chẽ giữa hai tiêu thức nói trên./.