Tải bản đầy đủ (.pdf) (37 trang)

Khai thác và sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp - Chương 6 doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (438.18 KB, 37 trang )


114
Hình 5.41

Bảng trên ( H 5.39) cho thấy các công thức khác nhau là rõ. Điều này cũng phản
ảnh rõ ràng ở 2 bảng dới (H 5.40 và H 5.41) vì các công thức chia thành 3 nhóm với
công thức 3 (a
1
b
3
) là tốt nhất. Có nghĩa là cây trồng ở cự ly 10*10m và 24 tháng tuổi là
tốt nhất.

CHƯƠNG 6
Hồi quy Tuyến tính Một lớp
v nhiều lớp

6.1. Hệ số tơng quan
6.1.1. Công thức tính hệ số tơng quan
Hệ số tơng quan là khái niệm chỉ mức độ liên hệ giữa 2 đại lợng ngẫu
nhiên đợc tính theo công thức
r =
QyQx
Qxy
.
(6.1)
Với Qxy =
xy - (x)*( y)/n và Qx = x
2



- (x)
2
/n , x và y là 2
đại lợng quan sát ở mẫu

6.1.2. Kiểm tra giả thuyết hệ số tơng quan
Hệ số tơng quan mẫu thờng đợc ký hiệu là r
(Hiện nay các phần mềm chuyên dụng thờng ký hiệu chung là R). Ngời ta
chứng minh đợc rằng hệ số tơng quan r là một ớc lợng không chệch của hệ số
tơng quan tổng thể chỉ khi = 0. Ta đặt giả thuyết H
0
: = 0,H
1 :
0
Ngời ta chứng minh rằng nếu trong tổng thể

= 0 thì đại
lợng.
T = r/
2
(1 )( 2)rn (6-2)
Có phân bố t với n-2 bậc tự do. Giả thuyết H
0
bị bác bỏ nếu giá trị tuyệt đối của
t tính theo (5-2) lớn hơn t

/2
tra bảng. Trong trờng hợp r 0.03 thì (1-r
2
)


trong công

thức (6-2) gần 1, nên việc kiểm tra giả thuyết H
0
có thể thực hiện theo công thức rút
gọn sau:
T = r
2n
Ngoài phơng pháp tính hệ số tơng quan nói trên (gọi là hệ số tơng quan
Pearson), ngời ta còn tính theo phơng pháp phi tham số mà thờng dùng là hệ số
tơng quan hạng của Spearman. Cách tính theo phơng pháp này nh sau:

115
Gọi R
i
là vị thứ của biến X sau khi đã xếp hạng từ lớn đến nhỏ và S
i
là vị thứ
xếp hạng từ lớn đến nhỏ của y và r
s
là hệ số tơng quan hạng của của Spearman ta có
công thức:

r
s
= 1 - 6(R
i
=S
i

)
2
/ (n
3
n) (6-3)
Việc kiểm tra sự tồn tại của r
s
cũng đợc thực hiện theo công
thức (6-2) chỉ cần thay r bằng r
s
trong công thức này. Các hệ số
tơng quan hạng thờng dùng thích hợp cho những trờng hợp các
đại lợng quan sát không tuân theo luật chuẩn.

Ví dụ 6.1
: Quan hệ giữa đờng kính tán cây (Dt) và đờng kính D
1,3
nh sau

Bảng 6.1 Đờng kính D
1.3
và đờng kính tán Dt (nguồn Ngô Kim Khôi)
D
1.3
(cm)
7.6 8.8 8.9 9.3 9.7 10.6 11 11.8 11.9 12.3
Dt (m)
2.5 2.8 3 3.4 3.7 4 4.5 4.9 5.2 5.7

Sau khi đa các biến D

1.3
và Dt vào máy ta thực hiện Quy trình tính theo SPSS
cho ví dụ (5-1) nh sau:
QT6.1
Analyze\Correlate \ Bivariate.
Trong hộp thoại Bivariate Correlations đa các biến Dt và D
1.3
vào khung
Variables
Đánh dấu vào Pearson (có thể thêm hệ số tơng quan Spearman và
Kendall tau-b nếu cần)
OK


116

Hình 6.1 Hộp thoại Bivariate correlation
Kết quả nh sau
Correlations
1 .984**
. .000
10 10
.984** 1
.000 .
10 10
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)

N
DT
D1.3
DT D1.3
Correlation is significant at the 0.01 level
(2 il d)
**.

Hình 6.2
Correlations
1.000 1.000**
. .
10 10
1.000** 1.000
. .
10 10
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
D1.3
DT
Spearman's rho
D1.3 DT
Correlation is significant at the 0.01 level (2-tailed).
**.

Hình 6.3

Giải thích:
Bảng 1 (H 6.2) cho hệ số tơng quan Pearson giữa Dt và D
1.3
ở hàng thứ 2 theo
kiểu ma trận. Nh trong ví dụ của ta cho hệ số tơng quan r = 0,984. Hàng thứ 3 cho
xác suất kiểm tra sự tồn tại của r theo công thức (6-2). Vì xác suất quá nhỏ nên r tồn
tại, cũng có nghĩa giả thuyết H
0
: = 0 bị bác bỏ ở mức =0.01. Bảng 2 (H 6.3) chỉ
hệ số tơng quan đợc tính theo phơng pháp phi tham số có tên chung là tơng quan

117
hạng của Spearman và Kendall có kết cấu nh hình 6.2 nhng mức độ liên hệ bằng 1
cao hơn hệ số tơng quan tính theo Pearson. ở đây, không khai báo vấn đề tơng quan
riêng phần (Partial correlation) vì nó sẽ đề cập trong phân tích hồi quy nhiều biến số.
6.2. Hồi quy tuyến tính một lớp
6.2.1. Cách biểu thị một hàm hồi quy tuyến tính một lớp
Nếu 2 đại lợng X và Y trong tổng thể có quan hệ tuyến tính thì quan hệ đó
đợc viết dới dạng kỳ vọng.
E(Y/X) = A + B X (6-4)
Còn ở mẫu

yabx=+
(6-5)
Ngoài ra ngời ta còn có thể biểu thị dới dạng phơng trình mô hình
y
i
= A + BX +
i
(6-6)

x
0
0
Y
X

Hình 5.4: Phân bố chuẩn của Y dới điều kiện X= x
0


Trong hình số (5-4) các giá trị y quan sát có phân bố chuẩn với kỳ vọng là
E(Y/X) và phơng sai là
2
. Ngày nay, trong các phần mềm thống kê chuyên dụng
đều có chơng trình kiểm tra mô hình trên rất thuận tiện.

6.2.2. Xác định các hệ số ở mẫu
Việc xác định các hệ số a, b đợc tiến hành bằng phơng pháp bình phơng bé
nhất và đợc tính theo các công thức sau
b =
Qx
Qxy
(6.7)
a =y - bx (6.8)

6.2.3. Kiểm tra sự tồn tại của các hệ số
Ngời ta đặt giả thuyết H
0
: A=0 và B=0 và kiểm tra chúng bằng tiêu chuẩn t
theo các công thức

t
a
= a/S
a
(6.9)

118

t
b
= b/S
b
(6.10)
Trong đó: S
a
=

S
y
x
nQx

/
2
và S
b
=

S
y

X
Q/1

Còn
2

()/(2)
y
Syyn

=


gọi là sai tiêu chuẩn hồi quy.
Nếu giá trị tuyệt đối của t
a
và t
b
tính theo 2 công thức trên > t

/2
ứng với bậc tự
do k= n - 2 thì giả thuyết bị bác bỏ , ngợc lại ta tạm thời chấp nhận giả thuyết. Trong
các công thức trên thì S
a
và S
b
là sai số của các hệ số n dung lợng quan sát mức ý
nghĩa dùng để kiểm tra ( mặc định = 0.05 ). Cần chú ý rằng việc kiểm tra hệ số b
theo công thức (6.9) là đồng nhất với việc kiểm tra tồn tại của r trình bày ở mục

(6.1.2).
6.2.4. Hệ số xác định
Trong phân tích hồi quy thờng ngời ta dùng cái gọi là Hệ số xác định
(Coefficient of determination) để đánh giá mức độ phụ thuộc giữa Y và X. Hệ số xác
định đợc tính theo công thức:
R
2
= 1 - ((y-

y
)
2
/ ( y -y )
2
(6 -11)
Hoặc R
2
= (

y
- y)
2
/ ( y -
y
)
2

Theo các công thức trên thì Hệ số xác định là tỷ lệ biến động của đại lợng Y
đợc giải thích bởi hàm hồi quy


y
. Theo các công thức trên R
2
bằng 1 khi tất cả giá
trị y đều bằng

y
. Cũng tức là các điểm quan sát của Y đều nằm trên đờng hồi quy. R
2

= 0 khi

y
=

y. Nh vậy, hệ số xác định nằm giữa 0 và 1. Trong trờng hợp tuyến tính
đơn giữa 2 biến ngẫu nhiên theo mô hình II thì hệ số xác định cũng chính là hệ số
tơng quan bình phơng. Nh vậy, hệ số xác định là một đặc trng thống kê chung
nhất có thể dùng cho mô hình I và mô hình II. Trong khi đó hệ số tơng quan chỉ đợc
dùng cho mô hình II. Trong nhiều tài liệu khoa học hiện nay, ngời ta vẫn gọi R là hệ
số tơng quan chung cho mọi trờng hợp. Điều đó chỉ mang ý nghĩa hình thức nhng
không đúng về mặt lý luận. Ngoài ra ngời ta còn tính Hệ số xác định có điều chỉnh
theo công thức
R
a
2
= 1 -

S
2

y
/ S
2
y
(6.12)
Với

S
2
y
là phơng sai hồi quy hay phơng sai d.

6.2.5. Bảng phân tích phơng sai trong phân tích Hồi quy
Để phân tích sâu hơn về quan hệ giữa 2 đại lợng theo mô hình I hoặc mô hình
II ngoài những thông tin về hệ số tơng quan hoặc hệ số xác định và phơng sai hồi
quy ngời ta còn đa ra một bảng phân tích phơng sai (ANOVA) có dạng sau:
Bảng 6-2: ANOVA
Nguồn biến động
(Source)
Tổng B.Đ
(SS )
Bậc tự do
( DF)
Phơng sai
(MS)
F.tính
Xác suất
của F(Sig)

119

Hồi quy QR 1 MR MR/ME
Sai số d QE n-2 ME
Tổng Qx n-1
Trong bảng trên ta ký hiệu nh sau QR = (

y
-
y
)
2
; QE = (y-

y
)
2

MR = QR/ Bậc tự do (trong hồi quy 1 lớp k=1); ME = QE/ (n-2) =

S
2
y

Tổng biến động ( y -
y
)
2
= [(y-

y
)

2
+ (

y
-
y
)]
2
với bậc tự do tơng ứng
là n- 2 và 1. Cho nên hàng cuối cùng bằng hàng thứ 2 cộng với hàng thứ 3 về các tổng
biến động cũng nh bậc tự do. Thực chất của bảng phân tích phơng sai nói trên là việc
kiểm ra sự tồn tại của hệ số xác định R
2
theo tiêu chuẩn F theo công thức:
F = MR/ME (6.13)
Với bậc tự do k1=1, k2= n-2. Nếu mức ý nghĩa của F (sigF) < 0.05 hoặc F tính
lớn hơn F tra bảng thì hệ số xác định là tồn tại và phơng trình hồi quy mới có ý
nghĩa .

6.2.6. Dự báo trung bình và dự báo cá biệt (mean prediction, individual prediction)
Trong nhiều trờng hợp ngời ta cần ớc lợng giá trị của E(Y/X) thông qua
hàm ớc lợng

yabx
=
+
bằng cách thay x
0
vào phơng trình hồi quy ở mẫu. Sai số
ớc lợng trung bình đợc tính theo công thức:

K
0
=

S
y

2
0
1/ ( ) /nxxQx+
(6-14)
Từ đó ta có công thức ớc lợng khoảng của E(Y/X) nh sau:
P(

y
-t

/2
K
0
E(Y/X)

y
+ t

/2
K
0
) =1- (6-15)
t


/2
đợc tra bảng theo phân bố t với n-2 bậc tự do và .
Ngoài việc ớc lợng trung bình ngời ta còn đề cập đến vấn đề dự báo giá trị
Y cá biệt theo mô hình (6-6) khi biết đợc một giá trị cụ thể của biến X, tức x
0
.
Trong trờng hợp này, nếu dùng hàm hồi quy mẫu để dự báo ta sẽ mắc sai số cực hạn
nh sau:
y = t

/2* QxXxnS
y
/)(/11

2
0
++
(6-16)


Nh vậy độ tin cậy của khoảng dự báo khi dự báo một giá trị của y cá biệt tính
theo mô hình (6-6) là
P(

y
-

y y
0



y
+

y ) = 1- (6-17)

6.2.7. Chuẩn hoá các sai số phần d
Để đánh giá mức độ phân tán các giá trị quan sát y so với giá trị

y
ngoài việc
tính các trị phần d (y-

y
) ngời ta còn tính các giá trị chuẩn hoá theo công thức:
r*=(y-

y
)/

S
y
(6-18)
với

S
y
là sai tiêu chuẩn hồi quy


120
Bây giờ ta thử dùng phần mềm SPSS để phân tích hồi quy theo ví dụ 6.1
với quy trình sau


QT6.2
1. Analyze\Regression\ Linear

2
Trong hộp toại Linear Resgession ghi DT vào Dependent và ghi D
1.3

vào
Independent(s) chọn Enter trong Method (vì chỉ có một biến độc
lập)
3
Nháy chuột vào Statistics chọn Estimates và confidence interval trong
Regression coefficients

4 Nháy chuột vào Save, chọn unstandardized và standardized trong
Predicted valuve,
trong Residuals chọn unstandardized và
standardized,trong Prediction intervals chọn Mean & individual
5
Nếu muốn kiểm tra các điều kiện của mô hình thì nháy chuột vào Plots:
Đa Zresid vào khung Y (Trục Y) đa Zpred vào khung X (trục X),
chọn

Histogram và Normal probability Plot
6. OK


Kết quả nh sau:


Hình 6.5 Hộp thoại Linear Regresion

121


H×nh 6.6 Hép tho¹i Regresion Stattistics



H×nh 6.7 Hép tho¹i Regression Save


122


H×nh 6.8 Hép tho¹i Regression Plots

Model Summary
b
.984
a
.969 .965 .20319
Model
1
R R Square
Adjusted

R Square
Std. Error of
the Estimate
Predictors: (Constant), D1.3
a.
Dependent Variable: DT
b.

H×nh 6.9
ANOVA
b
10.191 1 10.191 246.833 .000
a
.330 8 .041
10.521 9
Regression
Residual
Total
Model
1
Sum of
Squares
df Mean Square F Sig.
Predictors: (Constant), D1.3
a.
Dependent Variable: DT
b.

H×nh 6.10
Coefficients

a
-2.945 .445 -6.621 .000 -3.971 -1.919
.679 .043 .984 15.711 .000 .579 .778
(Constant)
D1.3
Model
1
B
Std.
Error
Unstandardized
Coefficients
Beta
Standardize
d
Coefficients
t Sig.
Lower
Bound
Upper
Bound
95% Confidence
Interval for B
Dependent Variable: DT
a.


H×nh 6.11



123
Residuals Statistics
a
2.2124 5.4019 3.9700 1.06410 10
-1.652 1.346 .000 1.000 10
.06665 .12901 .08884 .02011 10
2.0181 5.2734 3.9493 1.08062 10
2482 .2981 .0000 .19157 10
-1.222 1.467 .000 .943 10
-1.293 1.832 .043 1.106 10
2790 .4819 .0207 .26596 10
-1.360 2.250 .106 1.254 10
.068 2.728 .900 .844 10
.001 1.134 .225 .376 10
.008 .303 .100 .094 10
Predicted Value
Std. Predicted Value
Standard Error of
Predicted Value
Adjusted Predicted Valu
e
Residual
Std. Residual
Stud. Residual
Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Valu
e

Minimum Maximum Mean Std. Deviation N
Dependent Variable: DT
a.

H×nh 6.12

Regression Standardized Residual
1.501.00.500.00 50-1.00
Histogram
Dependent Variable: DT
Frequency
3.5
3.0
2.5
2.0
1.5
1.0
.5
0.0
Std. Dev = .94
Mean = 0.00
N = 10.00


H×nh 6.13

Normal P-P Plot of Regression Standardized Residual
Dependent Variable: DT
Observed Cum Prob
1.00.75.50.250.00

Expected Cum Prob
1.00
.75
.50
.25
0.00

H×nh 6.14


124
Scatterplot
Dependent Variable: DT
Regression Standardized Predicted Value
1.51.0.50.0 5-1.0-1.5-2.0
Regression Standardized Residual
1.5
1.0
.5
0.0
5
-1.0
-1.5


Hình 6.15


Giải thích
Bảng đầu tiên (H 6.9) chỉ hệ số tơng quan, hệ số xác định và hệ số xác

định có điều chỉnh tính theo các công thức (6.11) và (6.12) cột cuối của bảng cho
giá trị của sai tiêu chuẩn hồi quy. Bảng tiếp theo (H6.10) là bảng phân tích
phơng sai mà chủ yếu là kiểm tra sự tồn tại của R
2
qua trị số F. Theo ví dụ của
ta, xác suất của F cho ở cột cuối cùng nhỏ hơn 0,05 rất nhiều nên thừa nhận
trong tổng thể R
2
> 0. Toàn bộ các nội dung của bảng này đợc giải thích nh đã
trình bày ở bảng 6-7. Bảng tiếp theo
(H 6.11) chủ yếu là kiểm tra sự tồn tại của
các hệ số a và b theo thứ tự: giá trị của các hệ số cha chuẩn hoá và sai số của
nó, hệ số đã chuẩn hoá (Beta = b *s
x
/ s
y
) trị số t và xác suất tồn tại của t. Nếu
xác suất của t < 0,05 thì hệ số a và b là tồn tại và bớc tiếp theo là ớc lợng
khoảng của a và b cho ở 2 cột cuối cùng. Nh vậy có nghĩa là chỉ khi nào b tồn
tại thì 2 cột này mới cần sử dụng. Nh trong ví dụ của ta hệ số a và b tồn tại nên
2 cột này là cần đợc sử dụng để xác định khoảng tồn tại của nó. Cũng cần nói
thêm rằng với tuyến tính một lớp thí sự tồn tại của b cũng chính là sự tồn tai của
R
2
.
Từ bảng hệ số trên ta lập đợc phơng trình hồi quy tuyến tính 1 lớp với ký
hiệu X là đờng kính (D
1.3
) và Y là đờng kính tán (D
t

)


y
= -2,945 + 0,6786 X hoặc (6.19)
D
t
= -2,945 + 0,6786 D
1,3

Bảng (H6.12) cuối cùng cho các chỉ tiêu thống kê mà quan trọng là các
hàng sau: Hàng đầu tiên là các chỉ tiêu thống kê của y lý luận (trị số dự báo).
Hàng thứ 2 các chỉ tiêu thống kê của sai số d. Hàng thứ 3 cho các chỉ tiêu
thống kê của trị số lý luận đã chuẩn hoá theo công thức ( y lý luận trung bình
của y lý luận)/sai tiêu chuẩn của y lý luận. Hàng thứ 4 cho các đặc trng thống
kê của sai số d đã chuẩn hoá theo công thức (6-18) Hai biểu đồ số (H6.13 và
H6.14) nhằm kiểm tra điều kiện chuẩn của mô hình. Theo ví dụ của ta thì điều

125
kiện này cha thoả mãn vì các điểm toạ độ ở hình H6.14 nằm cha thật thẳng
hàng trên đờng chéo góc của hình vuông và biểu đồ tần số của sai số d cũng
tơng đối xa với phân bố chuẩn. Tuy nhiên nếu yêu cầu độ chính xác không cao
ta cũng có thể tạm thời chấp nhận đợc Hình 6.15 kiểm tra điều kiện bằng nhau
về phơng sai của sai số d. Nếu phơng sai bằng nhau thì đám mây điểm của
hình này phải nằm trên một băng dài song song với truc X . Nh ví dụ của ta ở
đây cũng cha thật thoả mãn nhng nếu yêu cầu không cao thì cũng có thể chấp
nhận đợc. Cuối cùng là hình 6.16 cho kết quả khi thực hiện thủ tục
SAVE.
Những kết quả này đợc cho cùng với số liệu gốc ở cửa sổ màn hình
SPSS

data editor
đợc cho từ cột thứ 3 trở đi theo thứ tự: trị số lý luận không chuẩn
hoá, trị số d không chuẩn hoá, trị số lý luận đã chuẩn hoá, trị số d đã chuẩn
hoá. Đáng chú ý là 4 cột cuối cùng là khoảng dự báo trung bình (cho ở cột 7 và
8) và dự báo cá biệt (cho ở cột 9 và 10). Chẳng hạn một cây có D
1.3
=11,0 cm có
D
t
= 4,50 m, trị số đờng kính tán lý thuyết =4,51968m, có trị số trung bình nằm
trong khoảng từ 4,35096 đến 4,68839m; giá trị cá biệt nằm từ 4,02167đến
5,01768 m. Với số liệu này ta có thể vẽ sơ đồ biểu thị các đờng dự báo trung
bình và dự báo cá biệt một cách thuận tiện . Ngoài ra cũng có thể vẽ theo quy
trình sau:



Hình 6.16


126
QT6.3
1 Graphs\Scatter\Simple
2
Nháy chuột vào Define
3 Trong hộp thoại Define đa D
t
vào Y -axis trong đa D
1.3
vàoX- axis

4
OK
Kết quả quy trình trên cho ta đám mây điểm về quan hệ giữa D
t
và D
1.3
.
Tiếp theo thực hiện thêm các bớc còn lại nh sau:
5
Sau khi kích hoạt biểu đồ vừa vẽ theo quy trình trên, từ menu Edit chọn
SPSS chart object options và xuất hiện cửa sổ SPSS chart editor
chọn
chart options- trong Fit line chọn total nháy chuột vào Fit
options(
xem hộp thoại Scatterplot options ở dới) chọn Linear
Regression
và đánh dấu vào các ô Mean và individual trong
Regression prediction line(s). Nếu muốn cho biết R
2
bên cạnh sơ đồ thì
nhớ nháy chuột vào ô
Display R square in legend trong Regression
options
.

Kết quả của quy trình tính vừa rồi sẽ cho ta một biểu đồ nh hình 6-19 cho
các đờng lý luận và các đờng biên khi thực hiện việc ớc lợng trung bình và
ớc lợng cá biệt.




Hình 6.17 Hộp thoại Scatterplot Options

Nháy
c
h
uột


127

Hình 6.18 Hộp thoại Fit line

Hình 6-19 chỉ toàn bộ diện tích ớc lợng khi x
0
lấy tất cả các giá trị của x ở
mẫu quan sát. Ta thấy rằng khoảng ớc lợng hẹp nhất khi x
0
xấp xỉ với giá trị trung
bình. Nh vậy nếu muốn dự báo chính xác nhất giá trị E (Y/X) với một độ tin xác định
thì nên chọn giá trị x
0
xấp xỉ với trị trung bình của nó.
D1.3
13121110987
DT
6.0
5.5
5.0
4.5

4.0
3.5
3.0
2.5
2.0 Rsq = 0.9686

Hình 6.19 Đồ thị khoảng ớc lợng của E(Y/X) và Y cá biệt
(2 đờng biên ngoài cùng)

6.3. Hồi quy tuyến tính nhiều lớp
6.3.1. Cách viết một hồi quy nhiều lớp
Ngời ta có thể biểu thị một hồi quy nhiều lớp nh sau
- Viết dới dạng hàm hồi quy kỳ vọng (trong tổng thể)
E(y/x) =Y = A
0
+A
1
X
1
+A
2
X
2
++A
r
X
r
(6.20)
- Viết dới dạng phơng trình mô hình
y

i
= A
0
+ A
1
X
1
+ A
2
X
2
+ +A
r
X
r
+
i
(6.21)
Trong đó y
i
là giá trị cá biệt của Y còn
i
là một đại lợng ngẫu nhiên có
phân bố chuẩn N(0,
2
).
Viết dới dạng hàm hồi quy mẫu


y

=a
o
+a
1
x
1
+a
2
x
2
+ + a
r
x
r
(6.22)

128
Đây là một hàm mang tính chất trung bình, các a
i
là những hàm ớc lợng của
A
i
trong công thức (6.20). Việc nghiên cứu các tham số này là một trong những nội
dung quan trọng của mục này.

6.3.2. Cách xây dựng một hồi quy nhiều lớp
Do những tình huống và yêu cầu khác nhau mà ngời ta có thể xây
dựng các dạng khác nhau. Ví dụ quan hệ giữa Y với X
1
và X

2
ta có thể cấu
tạo thành các dạng sau:
Y =A
0
+ A
1
X
1
+ A
2
X
2
(1)
Y =A
0
+ A
1
X
1
+ A
2
X
2
+ A
3
X
1
X
2

(2)
Y =A
0
+ A
1
X
2
+ A
2
X
2
+ A
3
X
1
2
+ A
4
X
2
2
+ A
5
X
1
X
2
(3)
Y = A
0

+ A
1
logX
1
+ A
2
logX
2
(4)
Trong những trờng hợp trên thì X
1
và X
2
là những biến giải thích. Hàm (1) là
hàm hồi quy vừa tuyến tính với X vừa tuyến tính với các hệ số. Nhng các hàm (2), (3)
và (4) chỉ tuyến tính với các hệ số.

6.3.3. Điều kiện của bài toán phân tích hồi quy nhiều lớp
y
i
= A
0
+ A
1
X
1
+ A
2
X
2

+ +A
r
Xr +

i
có phân bố chuẩn N(0,
2
), cũng có nghĩa là phân bố của đại lợng Y là phân
bố chuẩn có trung bình là E(Y/X
1
X
2
) và phơng sai bằng nhau=
2
,
i

j
độc lập từng
đôi một, các biến X
i
không có sai số khi quan sát.
Những điều kiện trên đây trong thực tế rất khó đạt đợc. Trong những trờng
hợp không yêu cầu chính xác cao thờng ngời ta hoặc bỏ qua việc kiểm tra những
những điều kiện đó hoặc kiểm tra bằng những phơng pháp đơn giản. Thờng ngời ta
dùng các phơng pháp sơ đồ.

6.3.4. Một số nội dung chính trong phân tích Hồi quy tuyến tính nhiều lớp
6.3.4.1. Xác định các hệ số hồi quy:
Bằng phơng pháp bình phơng bé nhất và với một số thuật toán nh phơng

pháp d số Gauxơ, phơng pháp nhân ma trận ngời ta dễ dàng xác định đợc các hệ
số hồi quy a
0
a
1
a
2
a
3
a
r
là những ớc lợng của A
0
A
1
A
2
A
3
Ar Chẳng hạn ở
phơng pháp ma trận cho trờng hợp 2 biến độc lập, ngời ta có thể xác định các hệ
số bằng phơng pháp ma trận nh sau.

12
2
11 12
2
212 2
(,)
nxx

X
Xxxxx
x
xx x
=





Và (X X)
-1
là ma trận đảo của ma trận (XX). Ngời ta nhân ma trận đảo ngợc
(X X)
-1
với ma trận cột có chứa các phần tử y yx
1
yx
2
cho ta các hệ số tơng ứng
a
0
, a
1
, a
2
.

129




























=












2
1
1
2
2212
2121
21
3
2
1
yx
yx
y
xxxx
xxxx
xxn
a
a
a
(6.23)

Phơng pháp ớc lợng bằng bình phơng tối thiểu có những tính chất sau:

Mặt hồi quy đi qua điểm có toạ độ là trung bình của Y và các X
i

Trung bình của các trị lý luận bằng trung bình của Y quan sát.
((y-

y
) = e = 0 với e là sai số d ở mẫu e= y-

y

Hệ số hồi quy là những hàm ớc lợng không chệch và hiệu nghiệm tơng ứng
của các A
i
của hàm hồi quy tuyến tính của tổng thể.

6.3.4.2. Phơng sai hồi quy (còn gọi là phơng sai d ) và sai tiêu chuẩn hồi quy.
Phơng sai hồi quy là đặc trng đánh giá biến động trung bình bình phơng từ
các trị quan sát của biến Y đến các giá trị lý luận phơng trình ớc lợng (

y
):
ME=

S
2
y
=((y-

y

)
2
/(n r) (6.24)
Nó là một ớc lợng không chệch của phơng sai hồi quy trong tổng thể
2
.
Còn sai tiêu chuẩn d hoặc sai tiêu chuẩn hồi quy (Standard Error) là căn bậc 2 của
phơng sai hồi quy. Phơng sai hồi quy càng bé thì mức độ phụ thuộc của Y vào X
i

càng cao. Nó bằng 0 khi các trị quan sát của Y đều nằm trên mặt hồi quy mẫu.

6.3.4.3. Tính hệ số xác định
Cũng nh trong quan hệ tuyến tính đơn, trong hồi quy nhiều lớp hệ số xác định
là độ đo mức độ phụ thuộc của Y vào các biến độc lập. Nó là tỷ lệ biến động của của
Y đợc giải thích bởi phơng trình hồi quy và đợc tính theo công thức.





=
2
2
2
)yY(
)yy

(
R

hoặc R
2
= 1-




2
2
)(
)

(
yy
yy
(6.25)
Còn R ngời ta gọi là hệ số tơng quan bội nếu các X
i
đều là những đại lợng
ngẫu nhiên (mô hình II). Cần nói thêm hằng R
2
có xu hớng tăng khi thêm các biến
mới vào mô hình nhất là trong những trờng hợp cộng tuyến tồn tại (giữa các biến độc
lập có quan hệ tuyến tính). Trong trờng hợp nh vậy, R
2
sẽ tăng lên nhng biến thêm
vào không đem lại thông tin gì mới mẻ. Ví dụ sau đây sẽ minh hoạ cụ thể.
Thử lập quan hệ giữa Y với X
1
và X

2
trong trờng hợp X
1
và X
2
quan hệ tuyến
tính rất chặt.
Bảng 6.3

Y
10 12 15 16 17 18 20
X1
5 8 13 15 17 15 17

130
X2
10 16 25 30 34 30 34

Nhìn vào bảng trên,ta thấy dãy X
2
có 6 trị số gấp đôi X
1
trừ trị số ở cột thứ 4 chỉ
gần gấp đôi mà thôi. Có nghĩa là biến số này hầu nh không có ý nghĩa gì khi dùng nó
để ớc lợng Y. Vậy mà hệ số xác định của nó lại khá cao. Trờng hợp quan hệ giữa Y
với X
1
R
2
= 0,9194. Còn trờng hợp cả 2 biến R

2
=0,9204
Kiểm tra giả thuyết H
0
: R
0
2
= 0 và H
1
: R
0
2
>0.
Giả thuyết H
0
: R
0
2
= 0 có nghĩa trong tổng thể không tồn tại mô hình. Cũng tức
là các hệ số hồi quy đều bằng không. Giả thuyết H
1
: R
o
2
>0 có nghĩa là ít nhất có một
hệ số A
i
0. Nếu các điều kiện của mô hình đợc chấp nhận thì giả thuyết trên đợc
kiểm tra theo tiêu chuẩn F nh sau:
F = [ R

2
/(1-R
2
)]/ [(r-1)/ (n-r)] (6.26)
Với bậc tự do K
1
=r-1 và k
2
= n-r. Nếu F tính mà lớn hơn F
05
thì giả thuyết H
0

bị bác bỏ. Ta nói ít nhất có một hệ số A
i
nào đó khác không (A
i
0). Trong bảng phân
tích phơng sai trong phân tích hồi quy giả thuyết H
0
đợc kiểm tra bằng F = MR/ ME.
6.3.4.4. Hệ số R
2
điều chỉnh (Adjusted R square)
Do nhợc điểm của hệ số xác định nh đã nói ở trên nên nó đợc điều chỉnh
theo công thức:
Ra
2
= 1 - (


S
2
y
/ S
2
y
) hoặc R
a
2
= 1- (1- R
2
)*(n-1)/(n-r) (6.27)
Từ công thức trên ta thấy ràng R
a
2
có thể âm nếu nếu dung lợng quan sát nhỏ
mà số biến lại nhiều khiến cho

S
2
y
> S
2
y
. Nh vậy khi R
a
2
còn tăng ta còn có thể thêm
biến mới nếu hệ số biến này tồn tại trong tổng thể qua kiểm tra giả thuyết: A
i

0. A
i

tham số mà ta muốn thêm vào.

6. 3.4.5. Bảng phân tích phơng sai
Từ công thức biến động của Y và dựa vào tính chất 3 của phơng pháp ớc
lợng bằng bình phơng nhỏ nhất ta có thể viết :
(y -
y
)
2
= [(y-

y
) +(

y
-
y
)]
2
= (y-

y
)
2
+ (

y

-
y
)
2

(1) (2) ( 3 )
Còn bậc tự do:
n-1 = ( n- r) + (r - 1)
Nh vậy biến động d (QE) có n - r bậc tự do, và biến động hồi quy (QR) có
r-1 bậc tự do. Ta có bảng phân tích phơng sai nh sau:
Bảng 6.4 ANOVA Cho hồi quy tuyến tính nhiều lớp

Nguồn BĐ SS DF MS F XS của F
Hồi quy
Sai số d
QR
QE
r-1
n-r
MR=QR/(r-1)
ME=QE/(n-r)
MR/ME

131

Tổng QY n-1
(Ghi chú : Các ký hiệu ghi ở các cột giống nh đã giải thích ở bảng 6.2 )

Hiện nay, hầu hết các phần mềm thống kê đều cho bảng phân tích phơng sai
có dạng nh trên. Nếu F tính lớn hơn F

05
hoặc xác suất của F nhỏ hơn 0.05 thì mô hình
tuyến tính tồn tại với ít nhất có một hệ số hồi quy A
i
nào đó 0, cũng tức là trong tổng
thể R
0
2
>0 .

6.3.4.6. Kiểm tra sự tồn tại của các hệ số
Trong trờng hợp giả thuyết H
0
: R
0
2
= 0 đợc chấp nhận thì bớc kiểm tra này là
không cần đặt ra vì R
0
2
= 0 cũng đồng nghĩa tất các hệ số hồi quy đều bằng không. Tuy
nhiên, trong trờng hợp ngợc lại thì ít nhất cũng có một hệ số hồi quy 0. Vì vậy, mà
cần kiểm tra xem trong số những hệ số hồi quy đợc đa vào thì có những hệ số nào
không tồn tại. Ngời ta chứng minh rằng nếu các điều kiện của mô hình là thoả mãn
thì các giả thuyết H
0
: A
i
=0 và H
1

: A
i
0 (kiểm tra 2 chiều) đợc kiểm tra theo tiêu
chuẩn t với bậc tự do k = n-r
t = ai / S
ai
(6-28)
Nếu giá trị tuyệt đối t tính theo công thức (6.28) lớn hơn t tra bảng hoặc xác
suất của t nhỏ hơn 0.05 thì giả thuyết H
0
: A
i
= 0 bị bác bỏ. Có nghĩa là trong tổng thể
A
i
0. Trong trờng hợp này, các A
i
đợc ớc lợng theo công thức.
P( a
i
- t

/2
*S
ai
A
i
a
i
+ t


/2
*S
ai
) = 1- (6-29)
Để nhận đợc phơng sai cũng nh hiệp phơng sai các hệ số ta nhân ma trận
đảo (XX)
-1
với phơng sai hồi quy

S
2
y
. Kết quả cho ta một ma trận vuông mà các
phần tử nằm trên đờng chéo chính là phơng sai của các hệ số, các phần tử còn lại là
các hiệp phơng sai của (a
i
,a
j
)
COV(a
i
a
j
) =

S
2
y
* (X X)

-1
(6.30)
Việc tính toán S
ai
tơng đối phức tạp, nhng hiện nay đã có nhiều phần mềm
thống kê cho ta kết quả tính sẵn rất nhanh chóng.

6.3.4.7. Vấn đề dự báo
Có 2 nội dung dự báo: dự báo giá trị lý luận của Y trong tổng thể ký hiệu
E(Y/X
0
) và giá trị cá biệt của ký hiệu Y
0
/X
0
. Việc dự báo này là rất phức tạp, nhng
nhờ phơng pháp ma trận mà vấn đề trở nên đơn giản hơn. Để dự báo giá trị lý luận
của Y trớc tiên cần tính phơng sai dự báo.

132

0
1
202000 1
0
123
2
0
3
1


( / ) (1 )*( , )

y
X
DYX S XX XX
X
X
X

= (6-31)
Có nghĩa là đem phơng sai hồi quy nhân với ma trận đảo ngợc (XX)
-1

đem kết quả này nhân với tích của ma trận hàng và ma trân cột của những giá trị cần
dự báo của các biến độc lập.
Công thức dự báo đối với rị số lý luận của hàm hồi quy nh sau :
P(

y
- t

/2
* S
(Y/X
o
)
)< E(Y/X
0
) <


y
+ t

/2
* S
(Y/X
o
)
=1- (6.32)
Trong đó S
(Y/X
o
)


là căn bậc hai của

D
2
(Y/X
o
)

Căn cứ vào phơng trình mô hình trong trờng hợp dự báo giá trị Y cá biệt
phơng sai của dự báo sẽ là:
D
2
(Yo/X
o

)
=

S
2
y
+ D
2
(Y/X
o
)
(6.33)
Và công thức dự báo cá biệt:
P(

y
- t

/2
* S
(Yo/X
o
)
< Y
0
/X
0
<

y

+ t

/2
* S
(Yo/X
o
)
) = 1- (6.34)
Với S
(Yo/X
o
)
= (Yo/Xo)D
2

Bằng phơng pháp ma trận ta cũng có thể dễ dàng thực hiện cho trờng hợp r
biến số .

Ví dụ 6.2
Lập tơng quan tuyến tính giữa M/ha với G/ha Hvn và N/ha của 20
lâm phần keo lá tràm tại khu vực miền trung bằng SPSS theo mô hình sau:
Y =A
0
+A
1
X
1
+A
2
X

2
+A
3
X
3

Với X
1
= G/ha X
2
= Hvn và X
3
= N/ha Y = M/ha



133
Bảng 6.5 Trữ lợng/ha, Tổng diện ngang/ha, Chiều cao bình quân và mật độ của 20
lâm phần keo lá tràm của khu vực miền trung (nguồn Hoàng Văn Dỡng)
y X
1
X
2
X
3
X
4
(X
1
X

3
)
40.7 9.62 9.5 970 9331.4
116 18.88 12.4 1790 33795.2
101.5 17.84 11.5 1700 30328
106.6 18.2 12.6 1500 27300
70.95 13.96 9.2 3440 48022.4
115.62 27.19 11.1 1730 47038.7
129.44 19.24 11.2 2480 47715.2
82.45 16.89 11.1 1740 29388.6
103.77 20.78 9.2 3650 75847
58.25 12.33 10 1820 22440.6
95.07 14.77 11.2 2300 33971
30.4 7.83 7.8 2070 16208.1
15.81 5.5 6.7 1700 9350
59.12 11.34 9.5 2240 25401.6
78.24 14.5 10.1 2240 32480
84.5 14.46 10.7 2230 32245.8
53.8 9.75 8.9 2030 19792.5
105.44 14.45 11.4 2420 34969
86.55 16.02 10 1650 26433
89.86 16 12.4 1420 22720
Quy trình thực hiện nh sau
QT6.4
1 Analyze\Regression \Linear
2 Trong hộp thoại RegressionLinear Khai biến M/ha vào Dependent và các
biến G/ha H
tb
và N/ha vào Independent(s) . Chọn
p

hơn
g

p

p
Enter (Xem
H6.5)
3 Click vào Statistics: Trong hộp thoại này chọn Model Fit, Part and partial
correlation, Descriptives , Colinearity diagnostic, chọn Estimates confidence
intervals, covariance matrix trong Regression coefficients, trong Residuals
chọn Durbin-Watson để kiểm tra tính độc lập của sai số d (Xem H6.20)
4. Click vào Plots: Đa ZRESID vào Y và ZPRED vào X chọn Histogram và
Normal probability plot (Xem H6.21) để kiểm tra các điều kiện của mô hình đã
vận dụng. Nếu muốn tìm hiểu quan hệ riêng giữa trữ lợng với từng nhân của
biến độc lập thì chọn thêm Produce all partial plots (Xem H 6.21). Click vào
Save để ghi những thông tin khác nh đã hớng dẫn ở QT5.2 (Xem H6.8). Nếu
muốn thay đổi các mặc định về tiêu chuẩn chọn biến thì click vào Options.
Nhng thông thờng ta không cần thay đổi các tiêu chuẩn này.
5. OK

134



H×nh 6.20 Hép tho¹i Statistics

H×nh 6.21 Hép tho¹i Plots
KÕt qu¶ nh− sau
Descriptive Statistics

81.2035 30.40179 20
14.9775 4.91835 20
10.3250 1.53721 20
2056.0000 631.24272 20
M/ha
G/ha
Htb
N/ha
Mean Std. Deviation N

H×nh 6.22


135
Correlations
1.000 .890 .822 .201
.890 1.000 .676 .151
.822 .676 1.000 226
.201 .151 226 1.000
. .000 .000 .198
.000 . .001 .263
.000 .001 . .170
.198 .263 .170 .
20 20 20 20
20 20 20 20
20 20 20 20
20 20 20 20
M/ha
G/ha
Htb

N/ha
M/ha
G/ha
Htb
N/ha
M/ha
G/ha
Htb
N/ha
Pearson Correlation
Sig. (1-tailed)
N
M/ha G/ha Htb N/ha

H×nh 6.23


Variables Entered/Removed
b
N/ha, G/ha,
Htb
a
. Enter
Model
1
Variables
Entered
Variables
Removed
Method

All requested variables entered.
a.
Dependent Variable: M/ha
b.

H×nh 6.24


Model Summary
b
.965
a
.932 .919 8.6524 2.281
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Durbin-W
atson
Predictors: (Constant), N/ha, G/ha, Htb
a.
Dependent Variable: M/ha
b.

H×nh 6.25

ANOVA

b
16362.266 3 5454.089 72.853 .000
a
1197.827 16 74.864
17560.093 19
Regression
Residual
Total
Model
1
Sum of
Squares
df Mean Square F Sig.
Predictors: (Constant), N/ha, G/ha, Htb
a.
Dependent Variable: M/ha
b.

H×nh 6.26


136
Coefficients
a
-102 18.893 -5.41 .000 -142.2 -62.07
2.923 .605 .473 4.833 .000 1.641 4.205 .890 .770 .316 .445 2.2
11.06 1.963 .559 5.636 .000 6.903 15.226 .822 .815 .368 .433 2.3
.012 .004 .256 3.455 .003 .005 .020 .201 .654 .226 .779 1.3
(Const
ant)

G/ha
Htb
N/ha
Mode
l
1
B
Std.
Error
Unstandardized
Coefficients
Beta
Stan
dardi
zed
Coeff
icient
s
t
Sig.
Lower
Bound
Upper
Bound
95% Confidence
Interval for B
Zero-
order
Part
ial

Part
Correlations
Tol
era
nce
VIF
Collinearity
Statistics
Dependent Variable: M/ha
a.

H×nh 6.27

Coefficient Correlations
a
1.000 423 .450
423 1.000 738
.450 738 1.000
1.269E-05 -9.11E-04 3.147E-03
-9.11E-04 .366 876
3.147E-03 876 3.854
N/ha
G/ha
Htb
N/ha
G/ha
Htb
Correlations
Covariances
Model

1
N/ha G/ha Htb
Dependent Variable: M/ha
a.

H×nh 6.28

Residuals Statistics
a
9.0107 121.4627 81.2035 29.34660 20
-2.460 1.372 .000 1.000 20
2.04029 7.14383 3.63199 1.36961 20
4.2994 133.9741 81.8710 30.89607 20
-11.8654 20.8776 .0000 7.94014 20
-1.371 2.413 .000 .918 20
-1.665 2.556 028 1.029 20
-18.3541 23.4204 6675 10.37357 20
-1.773 3.217 .001 1.136 20
.106 12.002 2.850 3.083 20
.000 .767 .091 .181 20
.006 .632 .150 .162 20
Predicted Value
Std. Predicted Value
Standard Error of
Predicted Value
A
djusted Predicted Valu
Residual
Std. Residual
Stud. Residual

Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's Distance
Centered Leverage Val
u
Minimum Maximum Mean Std. Deviation N
Dependent Variable: M/ha
a.

Hinh 6.29

137
Regression Standardized Residual
2.502.001.501.00.500.00 50-1.00-1.50
Histogram
Dependent Variable: M/ha
Frequency
6
5
4
3
2
1
0
Std. Dev = .92
Mean = 0.00
N = 20.00



H×nh 6.30

Normal P-P Plot of Regression Standardized
R
Dependent Variable: M/ha
Observed Cum Prob
1.00.75.50.250.00
Expected Cum Prob
1.00
.75
.50
.25
0.00


H×nh 6.31


Scatterplot
Dependent Variable: M/ha
Regression Standardized Predicted Value
210-1-2-3
Regression Standardized Residual
3
2
1
0
-1
-2


H×nh 6.32


138
Partial Regression Plot
Dependent Variable: M/ha
G/ha
121086420-2-4-6
M/ha
30
20
10
0
-10
-20


(a)
Partial Regression Plot
Dependent Variable: M/ha
Htb
210-1-2-3
M/ha
30
20
10
0
-10
-20
-30

-40

(b)
Partial Regression Plot
Dependent Variable: M/ha
N/ha
200010000-1000-2000
M/ha
30
20
10
0
-10
-20

(c)
Hình 6.33
Giải thích:
Bảng đầu tiên (H6.22) cho các đặc trng mẫu của các biến. Bảng thứ 2 ( H 6.23)
cho hệ số tơng quan giữa các biến ở ngăn đầu tiên. Ngăn thứ 2 cho mức ý nghĩa kiểm
tra của quan hệ từng cặp biến. Nh ví dụ của ta hệ số tơng quan giữa nhân tố mật độ
với các biến còn lại là không rõ vì các Sig đều lớn hơn 0,05. Bảng thứ 3 (H6.24) cho
biết phơng pháp phân tích là phơng pháp Enter. Bảng thứ 4 (H6.25) cho hệ số xác
định, hệ số xác định có điều chỉnh và sai tiêu chuẩn hồi quy. Cột cuối bảng này cho chỉ
số Durbin watson (viết tắt d) nhằm đánh giá khả năng tự tơng quan của sai số d
(nh trong nghiên cứu lập biểu thể tích theo các hàm chỉ quan hệ giữa V và các yếu tố

×