Tải bản đầy đủ (.pdf) (38 trang)

Phân tích thống kê trong thủy văn ( ĐH Quốc Gia HN ) - Chương 4 pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (626.77 KB, 38 trang )



97

Chơng 4
Phân tích tơng quan

4.1. Khái niệm
Các hiện tợng thuỷ văn chịu sự tác động của nhiều nhân tố, trong thực tế không
thể xem xét đầy đủ. Nhiều trờng hợp cũng không cần xem xét tất cả mà chỉ xét những
nhân tố chính ảnh hởng đến hiện tợng cần phân tích.
Quan hệ giữa hiện tợng thuỷ văn với các nhân tố ảnh hởng chỉ đa ra đợc dạng
chung nhất, mang tính tất định, còn sự phân tán do tác động của các nhân tố cha
đợc xét đến, mang tính ngẫu nhiên.
Tuy nhiên khái niệm chung hơn là quan hệ ngẫu nhiên, tơng ứng với tập hợp
thống kê đầy đủ khi dung lợng tiến tới vô cùng. Mối quan hệ ngẫu nhiên đợc mô tả
đầy đủ nhất bằng hàm mật độ nhiều chiều, giữa hai biến là hàm mật độ 2 chiều.
Nhng nh vậy lại cần lợng thông tin rất lớn, nhiều khi không thực hiện đợc.
Trong thực tế chúng ta chỉ có một số mẫu hữu hạn các số liệu, do đó mối quan hệ
này chỉ là quan hệ thống kê. Ví dụ quan hệ giữa ma-dòng chảy, giữa mực nớc tuyến
trên và tuyến dới. Khả năng ứng dụng các mối quan hệ này dựa vào lý thuyết ớc
lợng thông số và đánh giá dao động ngẫu nhiên của chúng.
Mối quan hệ giữa các biến lợng biểu hiện trong 3 dạng sau:
1). Quan hệ hàm số (hình 4.1). Một giá trị của biến lợng này sẽ xác định giá trị
tơng ứng của biến lợng kia. Đó là đối tợng nghiên cứu của toán học.

Hình 4.1: Quan hệ hàm số giữa các đại lợng
2). Quan hệ độc lập hay không quan hệ (hình 4.2), biểu hiện sự tản mạn rời rạc, sự
thay đổi của biến lợng này không ảnh hởng đến biến lợng kia.
3). Quan hệ tơng quan (hình 4.3). Với mỗi giá trị của biến lợng x thì biến số y là
không xác định vì y không chỉ phụ thuộc x mà còn bị chi phối của nhiều biến lợng


khác. Tuy nhiên qua nhiều quan trắc có thể tìm thấy giữa chúng tồn tại một quan hệ
nhất định, có tính trung bình, đó chính là quan hệ tơng quan.



98


Hình 4.2: Quan hệ độc lập giữa các đại lợng

Hình 4.3: Quan hệ tơng quan giữa các đại lợng
Thực tế trong thuỷ văn thờng sử dụng mối quan hệ tơng quan, đó là quan hệ
giữa giá trị của đại lợng x (đối số) với trung bình có điều kiện của đại lợng y (hàm
số), ký hiệu là y
x
. Phân tích tơng quan nhằm nghiên cứu quy luật trung bình về tính
chất của đại lợng này tuỳ thuộc vào đại lợng kia và số đo sự phụ thuộc đó. Thông
qua phân tích tơng quan có thể đánh giá vai trò của các nhân tố ảnh hởng, xác định
xem chúng cần xem xét hay có thể bỏ qua. Trên cơ sở đánh giá mức độ tơng quan giữa
các biến lợng mà ta có thể bổ sung kéo dài tài liệu cho các khu vực thiếu số liệu quan
trắc dựa vào các nhân tố ảnh hởng.
Mối quan hệ tơng quan đợc biểu diễn bằng các phơng trình tơng quan hoặc
hồi quy, nó có thể là tuyến tính hoặc phi tuyến. Để thuận lợi trong nhiều trờng hợp có
thể biến đổi biến số để đa về dạng tuyến tính. Khi đó dạng phân bố gốc đợc chuyển
về dạng chuẩn.
Tơng quan có thể chia thành tơng quan đơn và tơng quan bội. Tơng quan đơn
là tơng quan giữa 2 biến. Tơng quan bội là tơng quan của nhiều biến.
4.2. Tơng quan tuyến tính 2 biến
4.2.1. Khái niệm
Đây là mối tơng quan thờng hay sử dụng khi một nhân tố có vai trò quyết định

đối với hiện tợng cần nghiên cứu.
Khi chấm các điểm quan hệ lên đồ thị, ta thấy hình thành các nhóm điểm có xu
thế đờng thẳng nh hình (4.3a). Tơng quan tuyến tính có thể biểu thị bằng đờng
hồi quy (phơng pháp giải tích) hay đờng tơng quan (phơng pháp đồ giải).
4.2.2. Đờng hồi quy


99

Đờng thể hiện tốt nhất, phù hợp nhất với sự phân bố nhóm điểm gọi là đờng hồi
quy (mỗi giá trị của đại lợng này tơng ứng với giá trị trung bình của các giá trị của
đại lợng kia). Nói cách khác ứng với mỗi giá trị biến lợng x ta có một tập hợp các giá
trị của biến lợng y, và các giá trị này tuân theo một hàm phân bố nào đó (thờng cho
là có phân bố chuẩn). Đờng hồi quy sẽ đi qua giá trị trung bình hay kỳ vọng của phân
bố này, chúng ta gọi đó là trung bình có điều kiện. Nếu đờng hồi quy có dạng đờng
thẳng thì hồi quy là tuyến tính.
Đờng hồi quy mà y là hàm số (biến phụ thuộc) còn x là đối số (biến độc lập) gọi là
hồi quy y theo x và ký hiệu là y = f
1
(x), còn ngợc lại là đờng hồi quy của x theo y, tức
là x = f
2
(y). Nói chung 2 đờng này không trùng nhau (hình 4.4).
50
70
90
110
130
150
170

190
210
50 70 90 110 130 150
x
y

Hình 4.4: Đờng hồi quy tuyến tính
a.Phơng trình đờng thẳng hồi quy
Phơng trình chung của đờng thẳng hồi quy thờng có dạng nh hình 4.5:
y = ax+b, (4.1)
trong đó: a là hệ số góc của đờng hồi quy, a=tg

, với là góc nghiêng của đờng hồi
quy với trụ x; b là hệ số tự do, là giá trị điểm cắt của đờng hồi quy với trục y.
50
70
90
110
130
150
170
190
210
50 70 90 110 130 150
x
y

Hình 4.5. Đờng hồi quy tuyến tính giữa 2 biến (Q
nam
KonTum-Trung Nghĩa)

Nh chỉ ra trên hình 4.5, giữa điểm thực đo với điểm lấy trên đờng hồi quy có một
khoảng chênh lệch:
Y=f(X)

X=f(Y)


100

)(
'
baxyyyy
iiiii

, (4.2)
trong đó:
'
i
y
là giá trị tính theo đờng hồi quy; y
i
là giá trị thực đo.
Đờng thẳng đợc coi là phù hợp nhất khi tổng bình phơng độ lệch giữa thực đo
và tính toán theo đờng hồi quy là nhỏ nhất.


n n
iiii
baxyyyS
1

2
1
2
min])([)(
'
, (4.3)
Phơng pháp để xác định 2 thông số a và b theo nguyên tắc trên gọi là phơng
pháp bình phơng tối thiểu (hay bình phơng nhỏ nhất). Đây cũng là phơng pháp
thờng dùng cho các quan hệ tơng quan.
b. Xác định các thông số của đờng hồi quy
Muốn có S nhỏ nhất thì phải có đạo hàm S theo từng thông số bằng 0, tức là:
- Đạo hàm theo a

02
1
2
11
2














)()(
)()(
'
i
n
i
ii
n
i
ii
n
i
ii
xbaxy
a
baxy
a
yy
a
S
(4.4)
Từ đó đợc:



n
i
n
i

n
i
iiii
xbxayx
1 1 1
2
0
(4.5)
- Đạo hàm theo b





n
i
ii
baxy
b
S
1
020 )(
(4.6)
Từ đó có:



n
i
n

i
ii
nbxay
1 1
0
(4.7)

Đặt:



n
i
i
x
n
x
1
1




n
i
i
y
n
y
1

1
(4.8)
Giải phơng trình (4.5) và (4.7) đối với a và b nhận đợc:






2
2
1
xnx
yxnyx
a
i
n
i
ii
)(
(4.9)







n
i

i
n
i
n
i
iii
xnx
yxxxy
xayb
1
2
2
1 1
2
(4.10)
Thay a, b vào phơng trình (4.1) ta đợc:


101

)(
)(
))((
xx
xx
yyxx
yy
n
i
i

n
i






2
(4.11)
Ví dụ 4.1: Cho số liệu ma năm 2 trạm Đồng Hới và Tám Lu (Quảng Bình) từ
1989-1998. Tính các hệ số và viết phơng trình hồi quy.
Chấm các điểm quan hệ tơng ứng giữa 2 trạm ta đợc hình 4.6










Hình 4.6: Tơng quan ma năm Đồng Hới-Tám Lu
Ta lập bảng tính nh bảng 4.1
Bảng 4.1: Tính các hệ số hồi quy ma năm 2 trạm Đồng Hới và Tám Lu
TT

Năm x
i

y
i
x
i
2
x
i
.y
i
1 1989 2636,1 2776,6 7709508 7319395
2 1990 2451,9 2917,1 8509472 7152437
3 1991 2731,5 2535,0 6426225 6924353












8 1996 2358,0 3026,7 9160913 7136959
9 1997 1721,7 1973,1 3893124 3397086
10 1998 1905,7 2559,2 6549505 4877067
Tổng 22144,3 25085,7 50932712,60 58076704,67

Trung bình

x
= 2214,4
y
= 2508,6
5093271,26 5807670,47

Từ bảng 3.1 nhận đợc:

x
= 2214,4;
y
= 2508,6;
Theo (4.9) ta có:







2
2
1
xnx
yxnyx
a
i
n
i
ii

)(
2
4221410650932712
6250842214106758076704
,
,.,.,



=1,33.
Theo (4.10) nhận đợc:
xayb
2508,6-1,33.2214,4=-436,6.
1000
1500
2000
2500
3000
3500
1200 1400 1600 1800 2000 2200 2400 2600 2800 3000
x(mm)
y(mm)


102

Vậy phơng trình hồi quy là:
y=1,33.x-436,6.
c. Hệ số tơng quan
Đờng hồi quy có thể biểu thị quan hệ tơng quan giữa 2 biến nhng không thể

đánh giá mức độ chặt chẽ của quan hệ tơng quan. Để biểu thị mức độ chặt chẽ của
quan hệ này ta dùng hệ số tơng quan r:

1
aar
, (4.12)
trong đó: a là hệ số hồi quy của y theo x; a
1
là hệ số hồi quy của x theo y.
Điều đó có nghĩa là hệ số tơng quan là trung bình nhân của 2 hệ số hồi quy của y
theo x và x theo y. Góc

hợp giữa 2 đờng hồi quy này càng nhỏ thì tơng quan càng
chặt chẽ, khi

giảm tới 0 thì ta có quan hệ hàm số.
Khi r >0, ta có tơng quan dơng, tức là quan hệ có xu thế đồng biến. Đờng thẳng
hồi quy đi qua tâm phân bố
),( yxM
tạo thành một góc nhọn so với trục x. Đại lợng y
tăng theo sự tăng của đại lợng x.
Khi r <0, ta có tơng quan âm, tức là quan hệ có xu thế nghịch biến. Đờng thẳng
hồi quy đi qua tâm phân bố
),( yxM
tạo thành một góc tù so với trục x. Đại lợng y
giảm khi đại lợng x tăng.
Khi r = 0, không có tơng quan., hai biến lợng x và y là độc lập.
Khi
r
= 1, ta có quan hệ hàm số, 2 đờng hồi quy trùng vào làm một.

Vì vậy
r
1 và càng gần 1 chứng tỏ quan hệ càng chặt chẽ.
Thay các giá trị a và a
1
vào biểu thức (4.12) thu đợc:







n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
)()(
))((
(4.13)

Ví dụ 4.2: Từ số liệu cho trong bảng (4.1). Tính hệ số tơng quan. Ta lập bảng tính
tiếp theo của ví dụ (4.1)(bảng 4.2).
Bảng 4.2: Tính các hệ số tơng quan ma năm 2 trạm Đồng Hới và Tám Lu
TT

x
i
-
x

y
i
-
y

2
)( xx

2
)( yy

(y
i
-
y
)( x
i
-
x
)


1 421,7 268,0 177830,89 71824,0 113015,6
2 231,5 408,5 56406,25 166872,25 97018,75
3 517,1 26,4 267392,41 696,96 13651,44












8 143,6 518,1 20620,96 268427,61 74399,16
9 -492,7 -535,5 242753,29 286760,25 263840,85
10

-308,7 50,6 95295,69 2560,36 -15620,22
Tổng 1895710,35 4687947,25

2526178,01
x
= 2214,4
y
= 2508,6

x


=458,9
y

=721,7



103

áp dụng công thức (4.13) tính đợc hệ số tơng quan:







n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1

22
1
)()(
))((
351895710254687947
012526178
,.,
,

=0,847.
d. Hệ số hồi quy
Từ đó hệ số hồi quy có thể tính theo công thức:

x
y
ra



, (4.14)
y
x
ra



1
, (4.15)
trong đó:
x


,
y

là khoảng lệch chuẩn của các biến lợng x và y.
Nh vậy, phơng trình hồi quy của y theo x là:
)()( xxrxxayy
x
y



(4.16)
và của x theo y là:
)()( yyryyaxx
y
x



1
(4.17)
Hai phơng trình trên sẽ cho 2 giá trị khác nhau, nên khi sử dụng để kéo dài số liệu cần lu ý
đâu là biến số, đâu là hàm số. Sự khác nhau giữa 2 phơng trình này là đặc tính vốn có của các liên
hệ thống kê, không liên quan đến độ dài hữu hạn của chuỗi quan trắc.
Trong thống kê thuỷ văn còn biểu thị hệ số tơng quan r dới dạng:

yx
yx
r


),cov(

, (4.18)
trong đó: cov(x,y) là covarian (mômen tơng quan hay hiệp phơng sai) của x và y.
n
yyxx
yx
ii



))((
),cov(
(4.19)
Khi n không lớn (n <30) có xét đến thông số thống kê mẫu thì (4.19) trở thành:

1




n
yyxx
yx
ii
))((
),cov(
(4.19)
Để đơn giản hoá việc tính toán, cũng có thể tính các hệ số hồi quy và tơng quan

theo dạng sau:

22
)(
.
xx
yxxy
a



, (4.20)

22
1
)(
.
yy
yxxy
a



, (4.21)

yx
yxxy
r

.


(4.22)


104

Lu ý rằng: r = 0 chỉ biểu thị không có tơng quan tuyến tính, nhng có thể có
tơng quan phi tuyến, thậm chí là hàm không tuyến tính.
Trong thực tế thờng coi là tơng quan chặt và sử dụng để tính toán nếu r 0,8.
Tuy nhiên khi r 0,80 cũng có thể coi là quan hệ chặt nếu nó có thể giải thích bằng
nguyên nhân vật lý.
Ví dụ 4.3: Từ ví dụ (4.1) và (4.2) ở trên tính lại các hệ số hồi quy và tơng quan
theo các công thức (4.20), (4.26) ta đợc:

22
)(
.
xx
yxxy
a



2
42214265093271
62508422146555550526
,,
,.,,




=1,33.

yx
yxxy
r

.

94587721
62508422146555550526
,.,
,.,,

=0,847.
Phơng trình hồi quy viết theo (4.16):

),(,, 4221433162508 xy

Hay: y=1,33.x-436,6
nghĩa là hoàn toàn nh phơng trình đã xác định trong ví dụ (4.1).
e. Sai số phân tích tơng quan
Sai số phân tích tơng quan đợc đánh giá bằng sai số phơng trình hồi quy và sai
số hệ số tơng quan cũng nh hệ số hồi quy.
- Sai số phơng trình hồi quy
Sai số của phơng trình hồi quy biểu thị bằng giá trị trung bình khoảng lệch quân
phơng giữa các điểm thực đo và các điểm tính theo phơng trình hồi quy, và đợc gọi
là sai số chuẩn. Vì đờng hồi quy có 2 thông số là a và b nên số ràng buộc là 2 và số bậc
tự do là =n-2.
Sai số chuẩn của hồi quy y theo x sẽ là:

22
1 1
222
1
2








n
yyxxayy
n
yy
n
i
n
i
iii
n
i
ii
xy
)()()()(
'
/


(4.24)
Tơng tự sai số chuẩn của hồi quy x theo y là:
22
1 1
222
1
2








n
xxyyaxx
n
xx
n
i
n
i
iii
n
i
ii
yx
)()()()(
'

/

(4.25)
Theo lý thuyết thống kê toán học các sai số chuẩn này có liên hệ với hệ số tơng
quan nh sau:

2
1 r
yxy


/
, (4.26)
2
1 r
xyx


/
. (4.27)
Nếu sai số phân tích tơng quan có phân bố chuẩn thì các điểm nằm trong phạm
vi
xy
y
/
,

6740
hoặc
yx

x
/
,

6740
sẽ chiếm 1/2 (50%) tổng số điểm. Còn trong phạm vi
xy
y
/

3
hoặc
yx
x
/

3
thì có tới 97,3% số điểm nằm trong đó.


105

- Sai số của giá trị trung bình có điều kiện
x
y

Sai số chuẩn của giá trị
x
y
cho bởi biểu thức:


n
xy
y
/



(4.28)
Giá trị thực của
x
y
nằm trong giới hạn
x
y

y

với mức ý nghĩa .
- Sai số hệ số tơng quan và hệ số hồi quy
Sai số hệ số hồi quy a đợc tính:
n
r
x
y
a
2
1





(4.29a)
hoặc:








n
i
i
n
i
ii
x
xy
a
xx
n
yy
1
2
1
2
2
)(

)(
'
/



(4.29b)
Và sai số hệ số tự do b là:
n
r
n
yy
b
2
1



(4.30a)
hoặc:




n
i
i
xyb
xx
x

n
1
2
2
1
)(
/

(4.30b)
Sai số hệ số tơng quan theo Romanovski là:
2
222
2
1375
2
11
1
1
1
n
r
n
r
n
r
r







(4.31)
Khi dung lợng mẫu đủ lớn (n>25) thì ta có:

1
1
2



n
r
r

(4.32)
Hệ số tơng quan mẫu khi n đủ lớn có phân bố gần chuẩn, còn khi n hữu hạn
thì chệch âm, độ chệch này giảm đi khi tăng dung lợng n.
- Đánh giá sự phù hợp của mô hình
Để kiểm tra sự phù hợp của mô hình ngời ta sử dụng hệ số xác định R
2
, là độ đo
phơng sai chung của 2 biến lợng. Trong hồi quy 2 biến, nó tỷ lệ với phơng sai của y
đợc giải thích (xác định) theo phơng trình hồi quy. Nó cũng là độ đo sự phù hợp của
đờng hồi quy với số liệu kinh nghiệm. Hệ số xác định đợc tính theo công thức [24]:









n
i
i
n
i
ii
yy
yy
R
1
2
1
2
2
1
)(
)(
'
, (4.33)
trong đó:
'
i
y
là giá trị tính theo phơng trình hồi quy vừa xác lập.


106


Ví dụ 4.4: Xác định sai số phân tích tơng quan theo số liệu ví dụ (4.1).
Sai số đờng hồi quy tính theo (4.26):

2
1 r
yxy


/
2
847017721 ,,
=383,6.
Sai số hệ số tơng quan tính theo (4.31):
2
222
2
1375
2
11
1
1
1
n
r
n
r
n
r
r







2
222
102
13847075
102
847011
1
110
84701
.
,.
.
,.,




=0,1191.
Sai số hệ số a theo (4.29):

n
r
x
y

a
2
1




10
84701
9458
7721
2
,
,
,

=0,140.
Sai số hệ số b theo (4.30):

n
r
n
yy
b
2
1



10

847017721
10
7721
2
,,
,


=105,7.
Hệ số xác định tính theo (4.33): Để việc tính toán thuận lợi ta lập bảng (4.3), tiếp
theo của bảng (4.1).
Trong bảng (4.3) y là giá trị tính theo phơng trình hồi quy vừa thiết lập ở trên: y=1,33x-
436,6.








n
i
i
n
i
ii
yy
yy
R

1
2
1
2
2
1
)(
)(
'
254687947
741321635
1
,
,

=0,718,
nghĩa là 71,8% phơng sai đợc giải thích bởi đờng hồi quy, còn lại 28,2% là do dao
động ngẫu nhiên.
Bảng 4.3: Đánh giá sai số tơng quan ma năm Đồng Hới và Tám Lu
TT

x
i
y
i
y
i
y
i
-y

i


(y
i
-y
i
)
2
1 2636,1 2776,6 3069,41 -292,81 85739,45
2 2451,9 2917,1 2824,43 92,67 8588,28
3 2731,5 2535,0 3196,30 -661,30 437311,08










8 2358,0 3026,7 2699,54 327,16 107033,67
9 1721,7 1973,1 1853,26 119,84 14361,39
10

1905,7 2559,2 2097,98 461,22 212722,97

22144,3 25085,7 25085,92 1321635,74


x
= 2214,4
y
= 2508,6



f. ớc lợng khoảng tin cậy
- Khoảng tin cậy của các hệ số
Khoảng tin cậy đối với hệ số hồi quy b
j
với độ tin cậy (1-) là:


107


jj
bnjjbnj
stbstb
2222 /,/,
.




, (4.34)
trong đó:
j
là giá trị đúng của hệ số hồi quy; là mức ý nghĩa; n-2 là số bậc tự do; n là

dung lợng mẫu;
j
b
s
là phơng sai của các hệ số b
j
.
Khoảng tin cậy của hệ số tơng quan rất ít đợc thực hiện vì tính toán cồng kềnh. Lu ý rằng
hệ số tơng quan tính theo mẫu là ớc lợng vững nhng chệch của hệ số tơng quan lý thuyết với
độ chệch là :

)/()( n21
2


(4.35)
- Khoảng tin cậy của đờng hồi quy
Khoảng tin cậy của đờng hồi quy đợc xác định từ biểu thức:
,
)(
)*(
)*(/
)(
)*(
)*(
//,//,












n
i
i
xyn
n
i
i
xyn
xx
xx
n
tbaxxy
xx
xx
n
tbax
1
2
2
22
1
2
2

22
11



(4.36)
trong đó: x* là giá trị tại một điểm cụ thể của biến x=x*; y/x là trung bình có điều kiện
đúng của y theo x; ax*+b là giá trị tính theo phơng trình hồi quy;
y/x
là khoảng lệch
chuẩn của y theo x.
Phân tích khoảng tin cậy ta thấy rằng khi x=
x
thì khoảng tin cậy hẹp nhất, còn
khi x* càng xa
x
thì khoảng tin cậy càng mở rộng. Đồng thời khi n thì khoảng tin
cậy cũng co lại và tiến dần tới 0.
g. Kiểm định các hệ số
Để kiểm định ý nghĩa thống kê của các hệ số trên, sử dụng tiêu chuẩn Student.
- Kiểm định hệ số hồi quy
Kiểm định hệ số a
Tính chỉ tiêu:
a
a
s
a
t
, (4.37)
trong đó: s

a
tính theo (4.29b) với mức ý nghĩa

(1, 2, 5%) và số bậc tự do =n-2.
Nếu
tha
tt
thì hệ số hồi quy a có ý nghĩa và đợc dùng trong phơng trình tơng
quan.
Kiểm định hệ số b
Tơng tự có thể tính chỉ tiêu:

b
b
s
b
t
, (4.38)
trong đó: s
b
tính theo (4.30b).
Tuy nhiên trong thực tế ngời ta thờng không kiểm định hệ số b.
- Kiểm định hệ số tơng quan:
2
1
2
r
n
rt
r




, (4.39)
với mức ý nghĩa

(1, 2, 5%) và số bậc tự do =n-2.
Nếu
thr
tt
thì các hệ số tơng quan r có ý nghĩa thống kê.


108

Ví dụ 4.5: Kiểm định các hệ số tơng quan và hồi quy theo số liệu ví dụ (4.1).
Kiểm định hệ số a. Chỉ tiêu Student theo (4.37):




n
i
i
xya
xx
s
1
2
1

)(
/

351895710
1
6383
,
,
=0,276.
a
a
s
a
t
2760
331
,
,

=4,81.
Với mức ý nghĩa 5% và số bậc tự do =n-2=8 tra bảng Student đợc t
th
=1,96. Nh
vậy t
a
=4,81> t
th
=1,96. Do đó hệ số hồi quy a có ý nghĩa thống kê.
Kiểm định hệ số tơng quan theo (4.39):
2

1
2
r
n
rt
r



2
84701
210
8470
,
,



=4,506.
Nh vậy thấy rằng t
r
=4,506>t
th
=1,96, điều đó có nghĩa là hệ số tơng quan có ý
nghĩa.
h. Kiểm định tính chất tuyến tính của đờng hồi quy
Về lý thuyết thì đờng thẳng hồi quy của y theo x theo phơng pháp bình phơng
tối thiểu là xấp xỉ tuyến tính tốt nhất.Nhng nói chung cha thể cho rằng mọi giá trị
trung bình có điều kiện y
x

ứng với mỗi x nằm trên một đờng thẳng.
Để kiểm định giả thiết này, ta chia toàn bộ phạm vi biến thiên của x thành l
khoảng (l8-10). Với mỗi khoảng thứ j có tâm tại điểm x
j
,

tính

giá trị trung bình có điều
kiện y
xj
và phơng sai thực nghiệm
y/x
theo các công thức sau:




i
j
m
i
ijx
y
m
y
1
1
, (4.40)







i
jj
m
i
xijxy
yy
m
1
22
1
1
)(
/

, (4.41)
trong đó: m
i
là số các điểm (x
ij
, y
ij
) có hoành độ rơi vào khoảng thứ j.
Tính tỷ số:

















l
j
xyi
l
j
j
x
y
xi
j
j
m
n
xxryym
l
F

1
2
1
2
1
1
1
2
1
/
)(
)(



(4.42)
So sánh với F
th
tra từ bảng Fisher (phụ lục 3.3) với mức tin cậy =1-, số bậc tự do

1
=l-1 và
2
=n-1. Nếu FF
th
thì giả thiết tuyến tính đợc chấp nhận. Ngợc lại tính
tuyến tính bị bác bỏ.
Có thể dùng chỉ tiêu F sau đây để biểu thị sự phù hợp của đờng hồi quy tuyến
tính:



109


1
1
1
2
2
1
2
1
2













k
kn
R
R

kn
yy
k
yy
F
n
i
i
n
i
i
*
)(
)(
'
, (4.43)
trong đó: k là số thông số (với tơng quan 2 biến k=2); n là dung lợng mẫu.
Tra bảng Fisher đợc giá trị tới hạn của F
th
với mức ý nghĩa

=0,05 và số bậc tự
do
1
=k-1 và
2
=n-k.
So sánh, nếu F>F
th
thì đờng hồi quy là thoả mãn tuyến tính, phù hợp với điểm

thực nghiệm. Còn ngợc lại thì đờng hồi quy là không tuyến tính.
Một phơng pháp khác của toán thống kê nh sau:
Thay cho việc kiểm tra theo số điểm thực nghiệm ta cần kiểm tra giả thiết H
0
: a=0.Nếu giả
thiết a=0 đợc chấp nhận thì ta coi phơng trình hồi quy có dạng phi tuyến hoặc x và y là độc
lập. Ngợc lại ta chấp nhận giả thiết chệch, tức là y và x có quan hệ tuyến tính. Để kiểm tra giả
thiết này ta sử dụng tiêu chuẩn phân tích phơng sa:
A=



n
i
i
CByy
1
2
)(
, (4.44)
trong đó: A gọi là tổng bình phơng độ lệch so với trung bình mẫu.
C gọi là tổng bình phơng hồi quy:

















n
i
i
n
i
ii
xx
yyxx
C
1
2
2
1
)(
))((
(4.45)
B gọi là tổng bình phơng các phần d (sai số):

CAB
(4.46)
Tiêu chuẩn này dựa trên việc so sánh C với B, tức là tỷ số:


B
nC
F
)( 2

, (4.47)
với n là số điểm tơng quan.
Tra bảng Fisher với mức ý nghĩa và với số bậc tự do 1 và (n-2) đợc F
th
. Nếu F> F
th
thì
giả thiết H
0
bị bác bỏ, tức là quan hệ giữa y và x là tuyến tính
.
Ví dụ 4.6: Từ ví dụ 4.1. Kiểm tra tính tuyến tính của hồi quy
Chỉ tiêu kiểm tra theo (4.45):

1
1
2
2




k
kn
R

R
F *
12
210
71801
7180



*
,
,
=20,37
Với mức ý nghĩa 5% và số bậc tự do
1
=k-1=2-1=1;
2
=10-2=8, tra bảng Fisher
đợc: F
th
=5,32. Nh vầy F=20,37> F
th
=5,32, nghĩa là phơng trình hồi quy phù hợp với
dạng tuyến tính.
i. Xử lý điểm đột xuất


110

Nếu trong số các điểm thực nghiệm có những điểm đột xuất khả nghi, vợt ra khỏi xu thế

chung thì cần phân tích để xem cần giữ hay bỏ điểm đó trong tính toán. Ta dùng phơng pháp so
sánh sau [10]:
Tính phơng sai và hệ số tơng quan toàn bộ số điểm thực nghiệm
x
,
y
, và cho
các điểm thực nghiệm trừ điểm đột xuất
x
,
y
, . Sau đó so sánh tỷ số:

)(
)()(
'''
2222
222
2
1
11





yx
yx
n
n

R
(4.48)
Với mức tin cậy F và số số hạng n tra bảng (phụ lục 3.4) đợc giá trị tới hạn R
th
.
Nếu RR
th
thì điểm đột xuất đó bị loại bỏ. Ngợc lại điểm đó cần giữ lại. Việc kiểm
tra tiến hành cho từng điểm đột xuất.
4.2.3. Đờng tơng quan
Lập đờng hồi quy theo phơng pháp giải tích ở trên sẽ tồn tại 2 đờng y theo x và
x theo y, làm cho kết quả tính không đồng nhất. Mặt khác chúng ta không thể loại trừ
những điểm quá tản mạn thiếu hợp lý. Vì vậy đôi khi sử dụng phơng pháp đồ giải để
xác lập đờng quan hệ, thờng gọi đó là đờng tơng quan. Đó là đờng duy nhất đi
qua trọng tâm các nhóm điểm, là đờng trung bình giữa 2 đờng hồi quy. Các điểm
kinh nghiệm lập thành một băng điểm (thẳng), có hệ số góc a=

tg
. Khi đó phơng
trình tơng quan là y=ax+b, nếu đi qua gốc toạ độ thì có phơng trình y=ax.
Xác định phơng trình của đờng tơng quan là xác định các thông số a và b. Ta
có thể dùng 3 cách sau:
1). Phơng pháp đờng chỉ căng
Căng sợi chỉ qua các điểm và di động nó sao cho các điểm kinh nghiệm cách đều về
2 phía của sợi chỉ. Đờng tơng quan trùng với đờng chỉ đó và các thông số a, b xác
định trực tiếp trên hình vẽ.
2). Phơng pháp trọng tâm
Chia tập hợp điểm thành các nhóm điểm bằng các đờng thẳng song song với trục
x hoặc y, tìm trọng tâm từng nhóm điểm. Đờng tơng quan sẽ đi qua trọng tâm các
nhóm điểm. Để kiểm tra có thể tính trị số trung bình toàn bộ

x
y
,
và nó phải nằm trên
đờng tơng quan.
3).Phơng pháp đối ứng tần suất
Phong pháp do G.A.Alecxayev đề xuất[25] là xây dựng quan hệ giữa 2 biến lợng có cùng
tần suất. Chẳng hạn chúng có phân bố P.III thì quan hệ đó có thể viết:

ysyp
Cpyy

),(
, khi C
sy
0, (4.49)

xsxp
Cpxx

),(
, khi C
sx
0, (4.50)

xsxp
Cpxx

),(
1

khi C
sx
0. (4.51)
Khi C
sy
0 và C
sx
0 ta có quan hệ thuận (đồng biến) và có:

)(
),(
),(
xx
Cp
Cp
yy
p
xsx
ysy
p



(4.52)
Khi khi C
sy
0 và C
sx
0, ta có quan hệ nghịch (nghịch biến) và có:


)(
),(
),(
xx
Cp
Cp
yy
p
xsx
ysy
p

1


(4.53)


111

Khi
sysx
CC
thì quan hệ tơng quan đối ứng tần suất là đờng thẳng:

)( xxyy
p
x
y
p




, khi C
sy
=C
sx
(4.54)

)( xxyy
p
x
y
p



, khi C
sy
=-C
sx
(4.55)
Phơng trình đờng thẳng này đi qua tâm phân bố
),( yxM
và góc tạo thành với trục
hoành có giá trị:

x
y
p

p
xx
yy
tg







1
, (4.56)

x
y
p
p
xx
yy
tg







1
2

(4.57)
Đờng tơng quan này sẽ đi qua giữa 2 đờng hồi quy vì hệ số góc của nó là trung bình
nhân của 2 hệ số góc của 2 đờng hồi quy y theo x và x theo y. Phơng trình tổng quát của
tơng quan đối ứng tần suất là:

)( xxyy
x
y



(4.58)
Lu ý rằng quan hệ đối ứng tần suất yêu cầu số liệu không ít hơn 10 số hạng. Trớc khi vẽ
quan hệ đối ứng tần suất cần vẽ quan hệ đối ứng thời gian xem chúng có tồn tại một mức độ
tơng quan nào không, nếu không có quan hệ thì không nên dùng.
Để đánh giá mức độ chặt chẽ của đờng tơng quan có thể có thể dùng các công thức đơn
giản tính hệ số tơng quan nh sau:
- Công thức 1

00
180180
n
m
n
m
r
'''
coscos

, (4.59)

trong đó: n là số điểm quan hệ;
'
m
là số điểm tách rời số giữa (x
50
,y
50
) cùng dấu;
''
m
là số điểm
tách rời số giữa (x
50
,y
50
) khác dấu.
- Công thức 2
Nếu x, y đồng biến:


2
1
1
6
1






n
i
ixiy
pp
n
r
)()(
; (4.60)
Nếu x, y nghịch biến:


2
1
1
6
1





n
i
ixiy
pp
n
r
'
)()(
, (4.61)

trong đó:
)(
'
)( ixix
pp 1

4.2.4. ứng dụng
Tơng quan tuyến tính 2 biến đợc ứng dụng trong nhiều lĩnh vực kỹ thuật và
kinh tế khi một nhân tố có vai trò quyết định đối với đại lợng nghiên cứu. Trong thuỷ
văn nó đợc ứng dụng nó trong các bài toán tính toán, dự báo theo 2 hớng. Hớng thứ
nhất là bổ sung số liệu cho đại lợng nghiên cứu khi đại lợng kia có đầy đủ số liệu


112

quan trắc. Hớng thứ hai là dựa vào quan hệ này để kéo dài các đặc trng thống kê
(trị trung bình
x
và khoảng lệch chuẩn

) từ số năm có quan trắc ra thời kỳ nhiều
năm.
a. Hớng thứ nhất
Theo quan hệ tơng quan của 2 biến lợng trên cơ sở số liệu quan trắc đồng bộ
(chuỗi ngắn) xác lập đợc phơng trình hồi quy. Sau đó theo phơng trình hồi quy bổ
sung số liệu cho đại lợng còn thiếu khi đại lợng kia có số liệu. Từ chuỗi đã bổ sung
(chuỗi dài) có thể tính các đặc trng thống kê. Phơng pháp này cho ta các đặc trng
thống kê ứng với chuỗi dài, đồng thời cho thấy cả thông tin về sự dao động của đại
lợng nghiên cứu. Tuy nhiên các giá trị bổ sung tính theo đờng hồi quy là những trị
trung bình hoá có điều kiện, nó lệch khỏi giá trị thực. Và nh vậy các đặc trng

x


cũng bị lệch. Kritski và Menkel cho rằng hệ số biến đổi C
v
thực của đại lợng
nghiên cứu bằng C
v
/r, trong đó C
v
là của chuỗi đã bổ sung số liệu , còn r là hệ số tơng
quan. Tơng tự, để giữ đợc hệ số biến đổi C
v
nh giá trị thực cần tăng khoảng lệch y-
y
, tính theo đờng hồi quy, lên 1/r lần.
b. Hờng thứ 2
Kéo dài trực tiếp các đặc trng thống kê nghiên cứu ra thời kỳ nhiều năm theo chuỗi tơng tự,
mà không cần bổ sung từng số hạng. Việc này đợc thực hiện theo phơng trình của Kritski-
Menkel:

)(
nN
xN
yn
nN
xxryy


, (4.62)












2
2
2
2
2
11
xN
xn
yn
yN
r




, (4.63)
trong đó:
NN
xy ,

là giá trị trung bình trong thời kỳ dài nhiều năm N;
nn
xy ,
là giá trị
trung bình trong thời kỳ ngắn năm n có số liệu quan trắc đồng bộ;
2222
xnynxNyN

,,,

phơng sai tơng ứng.
Ví dụ 4.6: Cho số liệu dòng chảy năm quan trắc đồng bộ giữa 2 trạm Sơn Tây và
Hà Nội (sông Hồng) trong các năm 1961-1971 và 1989-2002 (bảng 4.1). Lập quan hệ
tơng quan và bổ sung số liệu cho trạm Sơn Tây các năm còn thiếu (1972-1988).
Thực hiện các bớc sau:
* Hớng thứ nhất
1). Chấm các cặp điểm quan trắc tơng ứng giữa 2 trạm Sơn Tây-Hà Nội, có quan
hệ tơng quan nh hình 4.7.
2). Xác lập phơng trình hồi quy
Vì chúng ta cần bổ sung số liệu cho trạm Sơn Tây nên đặt Q
ST
=y là hàm số và
Q
HN
=x là biến số.



113



2000
2500
3000
3500
4000
4500
5000
5500
1500 2000 2500 3000 3500 4000
QHN(m3/s)
QST(m3/s)

Hình 4.7: Tơng quan dòng chảy năm Sơn Tây-Hà Nội
- Tính hệ số tơng quan
Lập bảng tính các hệ số (bảng 4.4)
Theo các công thức mô men ở chơng 1 tính đợc:

y
=3589;
x
=2648;
y

=548,0;
x

=385,8.
Hệ số tơng quan tính theo (4.13) là:









n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
)()(
))((
=0,92.
Bảng 4.4:Tính các thông số hồi quy dòng chảy Sơn Tây-Hà Nội
Năm

y x
)( yy


)( xx

2
)( yy

2
)( xx

)( yy
)( xx

1961

3760

2880

171 232 39672 29241 53824
1962

3290

2480

-299 -168 50232 89401 53824
1963

2950

2240


-639 -408 260712 408321 166464
1964

3840

2870

251 222 55722 63001 49284
1965

3300

2390

-289 -258 74562 83521 66584
















1998

3580

2480

-9 -168 1512 81 28224
1999

3470

2860

-119 212 -25228 14161 44944
2000

2880

2330

-709 -318 225462 502681 101124
2001

3740

2720

151 72 10872 22801 5184
2002


3710

2680

121 32 3872 14641 1024
Tổng

89725

66190

7207800 3572460 4663340



114

Phơng trình hồi quy viết theo dạng (4.16), khi thay các giá trị vừa tính đợc nh
sau:

)(
,
,
, 2648
8385
0548
9203589 xy
, hay: y-3589=1,307(x-2648)
- Các hệ số hồi quy

Hệ số a tính theo (4.9):






2
2
1
xnx
yxnyx
a
i
n
i
ii
)(
=1,307.
Hệ số b tính theo (4.10):







n
i
i

n
i
n
i
iii
xnx
yxxxy
xayb
1
2
2
1 1
2
=132.
Phơng trình hồi quy theo dạng (4.1) là: y=1,307x+132.
- Đánh giá các hệ số hồi quy
Sai số hệ số tơng quan theo (4.32):
1
1
2



n
r


=0,025.
Sai số hệ số hồi quy theo (4.29a) và (4.30a):
n

r
x
y
a
2
1




=0,04;
n
r
n
yy
b
2
1



=73,8.
Sai số đờng hồi quy theo (4.26):
2
1 r
yxy


/
=208,1.

- Kiểm định ý nghĩa các thông số hồi quy:
Kiểm định thông số a theo (4.37):
a
a
s
a
t
, với s
a
tính theo (4.29b)

3572460
1
1208
1
1
2
,
)(
/





n
i
i
xya
xx

s

=0,11.

a
a
s
a
t
110
3071
,
,

=11,88.
Nh vậy t
a
=11,88 >t
th
=2,06 (tra bảng Student với mức ý nghĩa 5% và số bậc tự do
=n-2=23), Nh vậy hệ số a là có ý nghĩa thống kê.
Hệ số tơng quan theo (4.39):
2
1
2
r
n
rt
r




=13,3>1,96 tức là hệ số tơng quan có ý
nghĩa.
Hệ số xác định R
2
tính theo (4.33):







n
i
i
n
i
ii
yy
yy
R
1
2
1
2
2
1
)(

)(
'
7207800
1059166
1
=0,853,


115

tức là 85,3% phơng sai đợc giải thích bằng phơng trình hồi quy, còn 14,7% do phân
tán ngẫu nhiên. Nh vậy đờng hồi quy phù hợp tốt với điểm thực nghiệm.
3).Bổ sung số liệu
Với phơng trình hồi quy thiết lập có thể sử dụng để kéo dài bổ sung số liệu cho
trạm thuỷ văn Sơn Tây. Đa số liệu dòng chảy của trạm Hà Nội tơng ứng với các năm
mà Sơn Tây thiếu số liệu vào phơng trình hồi quy vừa thiết lập và tính đợc Q của
trạm Sơn Tây. Kết quả đa ra trong bảng (4.5).
Bảng 4.5: Bổ sung số liệu dòng chảy cho trạm Sơn Tây
Năm

Q
HN
Q
ST
Năm

Q
HN
Q
ST

1972

2540 3528 1981

3260 4564
1974

2630 3745 1982

2720 3862
1975

2650 3771 1983

2580 3680
1976

2550 3641 1984

2870 4057
1977

2220 3212 1985

2870 4057
1978

2170 3147 1986

3070 4317

1979

2840 4018 1987

2110 3069
1980

2490 3563 1988

2090 3043

* Hớng thứ hai
Từ các chuỗi số liệu đã bổ sung theo các công thức mô men có thể tính đợc các đặc
trng thống kê
ST
Q

ST
Q

. Tuy nhiên có thể tìm các đặc trng này theo hơng thứ
hai nh sau:
Tìm
ST
Q
theo công thức (4.62):
ST
Q
=
)(

nN
xN
yn
nN
xxryy


)(
,
, 26482707
8324
548
9203589
3680.
Tìm
ST
Q

theo công thức (4.63):










2

2
2
2
2
11
xN
xn
yn
yN
r




=









2
2
2
2
8324
8385

19201
0548
,
,
,
,
=222941, suy ra
ST
Q

=472.
C
vST
=
ST
Q

/
ST
Q
=0,13.

Trong khi đó tính theo chuỗi đã khôi phục đợc:

ST
Q
=3540;
ST
Q


=531; C
vST
=0,15.
Nghĩa là sự khác biệt không lớn.
Để thuận tiện trong tính toán, có thể tham khảo chơng trình tính tơng quan
tuyến tính 2 biến trong [3], hoặc sử dụng phần mềm Excel.




116

4.3. Tơng quan tuyến tính nhiều biến
4.3.1. Khái niệm
Đại lợng thuỷ văn chịu tác động của nhiều nhân tố. Khi đó ta cần xét tơng quan
của đại lợng nghiên cứu với nhiều nhân tố, tức là tơng quan nhiều biến và xác lập
quan hệ hồi quy không chỉ với 1 biến mà với nhiều biến, còn gọi là hồi quy nhiều chiều.
Mặt hồi quy là mặt phối hợp tốt nhất, biểu thị hàm hồi quy của tổng thể. Mặt hồi
quy là tuyến tính nếu tất cả các hàm hồi quy từng đôi một của chúng là tuyến tính.
Khi đó mặt hồi quy trở thành siêu phẳng trong không gian m chiều.
Hồi quy là tuyến tính bội khi một biến là tổ hợp tuyến tính của các biến khác.
Kết quả đo đạc đồng thời các đại lợng lần lợt nh sau:
Lần (1):
mj
xxxxxy
111312111
, ,, ,,,,

Lần (2):
mj

xxxxxy
222322212
, ,, ,,,,

.
Lần (i):
imijiiii
xxxxxy , ,, ,,,,
321


Lần (n):
nmnjnnnn
xxxxxy , ,, ,,,,.
321

Nh vậy có n lần quan trắc với m biến (thể hiện các nhân tố ảnh hởng) và đại
lợng thủy văn y cần xác lập quan hệ (n m). Chúng ta phải xác định phơng trình
hồi quy giữa đại lợng y và các biến
j
x
.
4.3.2. Phơng trình hồi quy
Với quan trắc thứ i ta có phơng trình:
mimiii
xaxaxaay )( )()(
22110

(4.64)
hay :




m
j
j
iji
xaay
1
0
(4.65)
Tổng quát ta viết đợc phơng trình:




n
j
jj
xaay
1
0
(4.66)
Mặt hồi quy phải chứa các điểm trọng tâm nên phơng trình (4.60) có thể viết:

m
m
xaxaxaay
2
2

1
10
(4.67)
Và:
)( )()(
2
22
1
11
m
mm
xxaxxaxxayy
(4.68)
ở đây ta hiểu rằng y là trung bình có điều kiện (
m
xxxxy , ,,,/
321
).
4.3.3. Xác định các hệ số hồi quy
a. Xác định các hệ số hồi quy
Việc xác định trực tiếp các hệ số hồi quy a
j
(j=1,m) theo n quan trắc ở trên là rất
khó khăn, vì phải giải hệ n phơng trình với m biến, trong khi n lớn hơn m rất nhiều


117

lần. Vì vây các hệ số hồi quy
j

a
thờng đợc xác định theo phơng pháp bình phơng
nhỏ nhất.
min)(
2
1 1
0












n
i
m
j
ijji
xaay
(4.69)
Giải đồng thời các phơng trình trên sẽ đợc các hệ số hồi quy a
j
. Hệ phơng trình
này có thể đa về dạng chuẩn tắc sau:




n
i
n
i
n
i
n
i
mimiii
xaxaxanay
1 1 1 1
22110
)( )()(




n n n n
miim
n
iiiiii
xxaxxaxaxayx
1 1 1 1
1
1
212
2

11101
)()( )()()()()(




n n n n
miim
n
iiiiii
xxaxaxxaxayx
1 1 1 1
2
1
2
22121202
)()( )()()()()(





n n n n
mim
n
imiimimiimi
xaxxaxxaxayx
1 1 1 1
2
1

22110
)( )()()()()()(
(4.70)
Khi đó các
j
a
đợc xác định theo các biểu thức tổng quát sau:
yy
yx
x
y
j
D
D
a
j
j



, (4.71)
trong đó:
y

là khoảng lệch quán phơng của y,
j
x

là khoảng lệch quân phơng của
j

x
; D
yy
và D
j
yx
là định thức con của định thức D.
Định thức D gọi là định thức của ma trận tơng quan:
1

1

1
1
1
21
21
22122
11211
21
jmmmm
mjjjj
mj
mj
mj
xxxxxxyx
xxxxxxyx
xxxxxxyx
xxxxxxyx
yxyxyxyx

rrrr
rrrr
rrrr
rrrrr
rrrr
D
(4.72)
Các định thức con
yy
D
đợc suy ra từ D bằng cách bỏ hàng y và cột y (hàng 1 và cột
1). Còn
j
yx
D
là D bỏ hàng y (hàng 1) và cột
j
x
(cột j).
Nh vậy
yy
D
sẽ là:


11
8

1


1

1
1
321
321
223212
113121
jmmmm
mjjjj
mj
mj
xxxxxxxx
xxxxxxxx
xxxxxxxx
xxxxxxxx
yy
rrrr
rrrr
rrrr
rrrr
D
(4.73)

j
yx
D
là:
1


1

1

)1(
132
32
212322
11131211
1





jmmmm
mjjjj
mj
mj
j
xxxxxxyx
xxxxxxyx
xxxxxxyx
xxxxxxxxyx
j
yx
rrrr
rrrr
rrrr
rrrrr

D
(4.74)
Hệ phơng trình chuẩn tắc (4.70) ở trên có thể viết dới dạng khác nh sau:
Đặt:



n
i
jiij
xyy
1
'
)(
;



n
i
kijijk
xxx
1
)()(
'

Viết gọn phơng trình hồi quy (4.70) dới dạng ma trận:














































'
'
2
'
1
'
0
'
1
'
12
'
11
'
10
'
0
'
02

'
01
1
0
'
'
1
'
0




*


mmmmm
m
m
m
m
xxxx
xxxx
xxxn
a
a
a
y
y
y

(4.75)
Hay: [Y] = [A]*[X] (4.76)
Giải hệ ma trận trên nh sau:
Tính ma trận nghịch đảo của [X]

[X]
-1
. Sau đó nhân 2 vế (4.75) với ma trận
nghịch đảo [X]
-1
đợc:
][]'[*]'[*][]'[*][
11
AXXAXY


Nh vậy cuối cùng ta có:
1
]'[*][][

XYA
(4.77)
Vectơ cột (4.77) chính là các hệ số a
j
.
Ví dụ 4.7[32]: Theo số liệu dòng chảy năm của trạm Matuxovo sông Xiviri (y), trạm
thuỷ điện trên sông Vuokxu (x
1
) và trạm Petrokrepoxti sông Neva (x
2

) từ năm 1928-
1940 và 1945-1951. Tính các hệ số hồi quy.
Theo số liệu đã có tinh đợc các hệ số tơng quan toàn phần

1
yx
r
0,74;

2
yx
r
0,88 và

21
xx
r
0,55. Đồng thời các đặc trng thống kê nh sau:
y
=8,76;

1
x
9,79;
2
x
=8,57;
y

=1,71;

1
x

=1,96;
2
x

=1,58.
Định thức D của ma trận tơng quan và các định thức con tính theo (4.72), (4.73)
và (4.74) là:


119

55,088,0
174,0
.88,0
188,0
55,074,0
.74,0
155,0
55,01
.1
155,088,0
55,0174,0
88,074,01
D
=
(1-0,55.0,55)-0,74(0,74.1-0,55.0,88)+0,88(0,74.0,55-0,88.1)=0,10.
155,0

55,01

yy
D
=1-0,55.0,55=0,70.
188,0
55,074,0
1

yx
D
=-(0,74-0,88.0,55)=-0,26.
55,088,0
174,0
2

yx
D
=0,74.0,55-1.0,88=-0,47.
Các hệ số a
j
xác dịnh theo (4.71):
yy
yx
x
y
D
D
a
j

1
1
1



70,0
26,0
96,1
71,1

=0,32.

yy
yx
x
y
D
D
a
2
2
2



70,0
47,0
58,1
71,1


=0,73.
Phơng trình hồi quy theo (4.68) là:

)()(
2211
xxaxxayy
.
nghĩa là :
)57,8(73,0)79,9(32,076,8





xxy
.
hoặc: y=0,32x
1
+0,73x
2
-0,63.
b. Hệ số tơng quan riêng
Các hệ số
jKj
yxxx
rr ,
là các hệ số tơng quan riêng, biểu thị tơng quan của từng cặp
biến x
j

, x
k
(jk), đợc xác định theo công thức:






n n
k
ik
j
ij
n
i
k
ik
j
ij
jk
xxxx
xxxx
r
1 1
22
1
)()(
))((
(4.78)

Thực chất hệ số tơng quan tính theo (4.78) là hệ số tơng quan giữa 2 biến lợng
khi chịu ảnh hởng của (m-2) biến còn lại, và đúng hơn nên gọi là hệ số tơng quan
toàn phần của 2 biến ngẫu nhiên.
Hệ số tơng quan riêng nội tại của 2 biến x
1
và x
2
khi loại bỏ ảnh hởng của các
biến x
3
,,x
m
còn lại, đợc tính theo công thức:

2211
12
34,12
DD
D
r
m

, (4.79)
trong đó: D
12
, D
11
và D
22
là các định thức con của ma trận tơng quan ứng với hệ số

tơng quan r
12
, r
11
, r
22
. Với m=3 công thức (4.79) sẽ là:

)1)(1(
2
23
2
13
231312
3,12






r
(4.80)
Tổng quát cho m biến bất kỳ ta có:


120

)1)(1(
2

1 (34,2
2
)1 (34,1
)1 (34,2)1 (34,1)1 (34,12
34,12





mmmm
mmmmm
m
rr
rrr
r
(4.81)
Nh vậy từ các hệ số tơng quan toàn phần r
jk
ta tính đợc các hệ số tơng quan
riêng r
jk,e
, rồi sau đó là r
jk,ee


v.v.
Nói chung hệ số tơng quan riêng sau khi loại bỏ ảnh hởng các biến còn lại sẽ
khác hệ số tơng quan toàn phần khi tính đến ảnh hởng của chúng. Có những trờng
hợp các hệ số tơng quan này còn ngợc dấu.

c. Hệ số tơng quan chung hay hệ số tơng quan bội
Đôi khi ngời ta còn gọi là hệ số tơng quan tập hợp, đợc tính theo công thức:
yy
D
D
R 1
(4.82)
Quan hệ tuyến tính giữa m biến không tồn tại khi R=0. Với m >1 thì hệ số tơng
quan bội R luôn luôn lớn hơn hệ số tơng quan riêng r
jk
bất kỳ. Cũng cần nhấn mạnh
rằng hệ số tơng quan bội R đợc coi nh hệ số tơng quan 2 biến giữa giá trị thực và
giá trị tính theo phơng trình hồi quy.
Ví dụ 4.8: Theo số liệu của ví dụ 4.7, yêu cầu xác định các hệ số tơng quan.
Hệ số tơng quan bội tính theo (4.82):

yy
D
D
R 1
70,0
10,0
1
=0,93.
Hệ số tơng quan riêng nội tại tính theo (4.80) khi m=3, với lu ý rằng biến 1 là y,
biến 2 là x
1
, biến 3 là x
2
.

Hệ số tơng quan nội tại của y với x
1
khi loại bỏ ảnh hởng của biến x
2
là:
)1)(1(
22
,
212
2121
21
xxyx
xxyxyx
xyx
rr
rrr
r



)55,01)(88,01(
55,0.88,074,0
22



=0,645.
Hệ số tơng quan nội tại của y với x
2
khi loại bỏ ảnh hởng của biến x

1
là:
)1)(1(
22
,
211
2112
12
xxyx
xxyxyx
xyx
rr
rrr
r



)55,01)(74,01(
55,0.74,088,0
22



=0,842.
Nh vậy trong trờng hợp này hệ số tơng quan riêng nội tại của các biến đều nhỏ
hơn hệ số tơng quan toàn phần.
4.3.4. Đánh giá các thông số
a. Hệ số xác định: Đó là độ đo sự phù hợp của đờng hồi quy và đờng thực nghiệm:
2
1

1
2'
2
)(
)(







n
i
i
n
i
i
yy
yy
R
, (4.83)
trong đó:
'
i
y
là giá trị trên đờng hồi quy;
i
y
là giá trị thực nghiệm.




121

b. Sai số của phơng trình hồi quy

2
1 R
yy


(4.84)
c. Sai số của các hệ số a
j

Sai số của các hệ số a
j
nhận đợc theo công thức:

aj
y
aj
Pmn
n
)(



, (4.85)

trong đó:
jj
aj
P



; (4.86)
với: là định thức sau:

2
221
1
2
2212
112121
2
1





xnxnxxnxxnxxn
xnxxnxxxx
xnxxnxxxxxx
mmm
mmm
mmm





; (4.87)

jj
là định thức con của khi bỏ đi hàng j và cột j.
Từ (4.85) thấy rằng sai số hệ số hồi quy tăng khi số biến tăng. Nh vậy khi xây
dựng hồi quy tuyến tính bội mà chuỗi số liệu không dài thì nếu số biến lớn hơn 4 sẽ
dẫn tới hệ số hồi quy kém tin cậy và kém ổn định.
Trờng hợp riêng khi có 3 biến (m=3) từ các biểu thức trên suy ra:

)1)(2(
2
211
1
xxx
y
a
rn




(4.88)

)1)(2(
2
212
2

xxx
y
a
rn




(4.89)
Trờng hợp nhiều biến hơn, công thức tính toán cụ thể trở nên phức tạp nên không
trình bày ở đây, chi tiết hơn xem trong [32].
d. Kiểm định ý nghĩa của các hệ số hồi quy
Kiểm định theo chỉ tiêu Student:
j
a
j
S
a
t
, (4.90)
với
j
a
S
là sai số chuẩn của hệ số
j
a
:








n
i
i
ii
a
xx
kn
yy
S
j
1
2
2'
)(
)(
, (4.91)
trong đó: k là số thông số.
Chọn mức ý nghĩa

với số bậc tự do =n-k, tra bảng Student đợc t
th
. So sánh
nếu t > t
th
thì hệ số hồi quy có ý nghĩa.

×