Tải bản đầy đủ (.docx) (58 trang)

Phân tích công tác đào tạo tại trường Cao đẳng kinh tế kỹ thuật thương mại bằng phương pháp thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (654.3 KB, 58 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ
CÔNG NGHỆ
VIỆT NAM
VIỆN TOÁN HỌC
TRẦN THỊ ĐÔNG
PHÂN TÍCH CÔNG TÁC ĐÀO TẠO
TẠI TRƯỜNG CAO ĐẲNG KINH TẾ KỸ THUẬT
THƯƠNG MẠI
BẰNG PHƯƠNG PHÁP THỐNG KÊ
LUẬN VĂN THẠC SĨ TOÁN HỌC
1
Hà Nội - 2014
2
BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ
VIỆT NAM
VIỆN TOÁN HỌC

TRẦ
N
THỊ
ĐÔN
G
PHÂN
TÍCH CÔNG TÁC
ĐÀO TẠO
TẠI TRƯỜNG CAO
ĐẲNG KINH TẾ KỸ
THUẬT THƯƠNG MẠI
BẰNG


PHƯƠNG PHÁP
THỐNG KÊ
Chuyên ngành:
Lý thuyết Xác
suất và Thống kê
toán học
Mã số:
60 46 0106
LUẬN
VĂN
THẠC

TOÁN
HỌC
N
gười
hướng
dẫn
khoa
học:
PGS
. TS.
HỒ
ĐĂ
NG
PH
ÚC
Hà Nội -
2014
MỤC LỤC

LỜI MỞ ĐẦU
Chương 1. MỘT SỐ
PHƯƠNG PHÁP
PHÂN TÍCH HIỆU
QUẢ THÔNG
DỤNG
1.1. So sánh
hai giá trị trung bình –
Phân phối T và kiểm
định T-Student
1.2. So sánh
nhiều giá trị trung
bình – Mô hình Phân
tích phương sai
1.3. Mô
hình hồi quy đơn
1.4. Mô
hình hồi quy bội
Chương 2. MÔ HÌNH
HỒI QUY NHIỀU
MỨC
2.1 Mô
hình hồi quy hai mức
cơ bản
2.2. Tính
toán các tham số ước
lượng và chiến lược
phân tích.
Chương 3. PHÂN
TÍCH SỐ LIỆU ĐÀO

TẠO
TẠI
TRƯỜNG CAO
ĐẲNG KINH TẾ -
KỸ THUẬT
THƯƠNG MẠI0
3.1. Số liệu
đào tạo cao đẳng dùng
trong phân tích0
3.2. Phân
tích hiệu quả đào tạo
theo phương pháp đơn
biến
3.3. Phân
tích hiệu quả theo mô
hình hồi quy tuyến
tính cổ điển
3.4. Phân
tích hiệu quả theo mô
hình hồi quy tuyến
tính nhiều mức
3.5. Kết
luận
TÀI LIỆU THAM
KHẢO
LỜI MỞ ĐẦU
Trường Cao đẳng Kinh tế - Kỹ thuật Thương mại (1961) là một trường Cao
đẳng công lập do bộ Công thương làm chủ quản, nằm ở trung tâm Phường Phú
Lãm, Quận Hà Đông, Thành phố Hà Nội. Trường có sứ mệnh đào tạo nguồn
nhân lực chất lượng cao, nghiên cứu, ứng dụng và chuyển giao công nghệ trong

lĩnh vực công nghiệp, thương mại và du lịch; hợp tác quốc tế về đào tạo và
nghiên cứu khoa học phục vụ sự nghiệp xây dựng và bảo vệ Tổ quốc. Mục tiêu
của Trường là đào tạo đa ngành, đa cấp, nghiên cứu, ứng dụng, chuyển giao
công nghệ và dịch vụ tư vấn có uy tín trong lĩnh vực công nghiệp, thương mại;
sau năm 2015 trở thành trường đại học đáp ứng yêu cầu đào tạo nguồn nhân lực
chất lượng cao của sự nghiệp công nghiệp hoá, hiện đại hoá và hội nhập quốc
tế. Cơ cấu về trình độ đào tạo của Trường gồm Cao đẳng, Trung cấp chuyên
nghiệp, Cao đẳng nghề, Trung cấp nghề, Sơ cấp nghề và Cao đẳng liên thông
Trung cấp.
Bài luận văn này là một thử nghiệm nghiên cứu định lượng về công tác đào
tạo tại Trường từ năm 2004 đến năm 2010, với bộ số liệu thu thập từ 6 chuyên
ngành chủ đạo: Kế toán Doanh nghiệp (CKT), Quản trị Kinh doanh Tổng hợp
(CKD), Quản trị Khách sạn (CKS), Tài chính Doanh nghiệp (CTD), Tin học Kế
toán (CTK), Quản trị Kinh doanh xuất nhập khẩu (CKN). Bằng các phương
pháp thống kê thích hợp, luận văn này sẽ phác thảo đôi nét về tình hình giáo
dục và hơi hướng thay đổi cơ cấu chuyên ngành của Trường.
Sau lời mở đầu, luận văn này sẽ có ba chương và danh mục tài liệu tham
khảo. Chương 1 sẽ trình bày về một số phương pháp phân tích hiệu quả thông
dụng, đó là phương pháp kiểm định Student, mô hình phân tích phương sai, mô
hình hồi quy đơn và hồi quy bội. Chương 2 giới thiệu về mô hình tuyến tính
nhiều mức. Chương 3 đưa ra các kết quả phân tích công tác đào tạo, diễn giải
các yếu tố ảnh hưởng đến thành tích học tập của sinh viên trong từng chuyên
ngành cũng như giữa các chuyên ngành với nhau. Và để chỉ ra tính thuyết phục,
tính khoa học của phương pháp thống kê được áp dụng. Phần cuối của chương 3
đề xuất một số ý kiến về xây dựng các chiến lược đào tạo của Trường phù hợp
với nhu cầu và yêu cầu thực tế của xã hội Việt Nam
Luận văn này được hoàn thành dưới sự hướng dẫn của Phó Giáo sư Hồ
Đăng Phúc, Viện Toán học - Viện Hàn Lâm Khoa Học Và Công Nghệ Việt
Nam. Tôi xin được bày tỏ lòng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn tận
tụy của thầy.

Tôi xin chân thành cảm ơn các thầy cô trong Ban lãnh đạo Viện Toán học,
các thầy cô tham gia giảng dạy lớp cao học khóa 18, cùng các thầy cô ở Trung
tâm đào tạo sau đại học của Viện Toán học đã nhiệt thành giúp đỡ tôi trong thời
gian học tập. Tôi cũng xin gửi lời cảm ơn tới các anh chị em cao học khóa 18,
nhóm Semina Xác suất Thống kê, cùng các bạn đồng nghiệp và gia đình đã
nhiệt tình đóng góp ý kiến, động viên, giúp đỡ tôi trong suốt quá trình học tập
và hoàn thành luận văn.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới Ban giám hiệu trường Cao đẳng
Kinh tế - Kỹ thuật Thương mại và các anh em trong phòng Đào tạo, phòng
Công tác Học sinh – Sinh viên đã nhiệt tình và nghiêm túc cung cấp những dữ
liệu chính xác quý báu, mà nếu thiếu nguồn số liệu này thì nghiên cứu của tôi
không thể thực hiện được.
Tuy đã có nhiều cố gắng nhưng bản luận văn này cũng không tránh khỏi
những thiếu sót, tác giả rất mong có được sự tham gia đóng góp ý kiến của các
thầy cô giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu kinh tế và các
độc giả quan tâm đến bản luận văn này.
Hà Nội, ngày 26 tháng 03 năm 2014

Trần Thị Đông
Chương 1.
MỘT SỐ PHƯƠNG PHÁP
PHÂN TÍCH HIỆU QUẢ THÔNG DỤNG
Trong thực tế, người ta hay gặp phải bài toán đánh giá hiệu quả của một
hoặc nhiều nhân tố lên giá trị của một đại lượng nào đó. Đại lượng cần đánh giá
thường là một biến định lượng, tức là một biến số nhận giá trị liên tục có thể
phủ kín một đoạn trên trục số. Các nhân tố có thể là biến định lượng hoặc biến
định tính, tức là biến nhận hữu hạn các giá trị tính trạng, mỗi tính trạng thường
được gọi là mức của nhân tố. Nếu nhân tố là biến định lượng, phương pháp hồi
quy thường được dùng để đánh giá hiệu quả của nhân tố đó lên đại lượng cần
quan tâm. Nếu nhân tố là một biến định tính có k mức tính trạng, chia mẫu quan

sát thành k nhóm, thì việc đánh giá tác động của nhân tố đó lên đại lượng đang
xét chính là việc so sánh giá trị trung bình của đại lượng nói trên giữa các nhóm
xác định bởi các mức của nhân tố. Trường hợp đơn giản nhất khi nhân tố chỉ có
hai mức, đó chính là bài toán so sánh hai giá trị trung bình. Bài toán này được
giải quyết thông qua phép kiểm định T-Student.
1.1. So sánh hai giá trị trung bình – Phân phối T và kiểm định T-Student
Để so sánh hai giá trị trung bình, chúng ta thường sử dụng phương pháp kiểm
định T (hay T-Student). Kiểm định T dựa căn bản trên phân phối xác suất
Student. Phân phối Student với n bậc tự do là phân phối của biến ngẫu nhiên T
xác định bởi
X
T
s
µ

=
Trong đó
1
1
n
i
i
X X
n
=
=

là trung bình của mẫu
( )
1 2

, , ,
n
X X X
gồm các biến ngẫu nhiên độc lập có cùng
phân phối chuẩn với kỳ vọng
µ
đã biết và phương sai
2
σ
chưa biết,
( )
2
2
1
1
1
n
i
i
s X X
n
=
= −


là phương sai mẫu hiệu chỉnh,
( )
2
1
1

1
n
i
i
s X X
n
=
= −


là độ lệch tiêu chuẩn.
Phân phối Student với n bậc tự do có hàm mật độ xác suất:
1
2
2
1
2
( ) . 1
.
2
n
n
x
p x
n
n
n
π
+


+
 
Γ
 ÷
 
 
= +
 
 
 
Γ
 ÷
 
trong đó
( )
1
0
. . có tính chât
x u
u e x dx

− −
Γ =


( ) ( ) ( )
1 . ; 1 1u u uΓ + = Γ Γ =
Hàm mật độ của phân phối T đối xứng qua trục tung, có dạng hình chuông
giống hàm mật độ của phân phối chuẩn.
Để so sánh hai giá trị trung bình bằng kiểm định T, hai mẫu ứng với hai

mức của nhân tố phải thỏa mãn các giả định:
i) Tuân theo quy luật phân phối chuẩn
ii) Độc lập
iii) Các đối tượng trong mỗi mẫu được chọn một cách ngẫu nhiên
iv) Phân phối của hai mẫu có phương sai bằng nhau.
Bảng 1.1: Thông tin về mẫu trong bài toán so sánh hai giá trị trung bình
Mẫu 1 Mẫu 2
N (cỡ mẫu)
1
n
2
n
Mean (Trung bình mẫu)
X
Y
SD (Độ lệch chuẩn mẫu )
1
s
2
s
Ta chọn hai mẫu ngẫu nhiên
( )
1
1 2
, , ,
n
X X X
(mẫu 1) rút ra từ biến ngẫu
nhiên X (ứng với mức thứ nhất của nhân tố) và
( )

2
1 2
, , ,
n
Y Y Y
(mẫu 2) rút ra từ
biến ngẫu nhiên Y (ứng với mức thứ hai của nhân tố) thỏa mãn các giả định nêu
trên. Hai mẫu đó có các thông tin đặc trưng mô tả trong Bảng 1.1. Số liệu mẫu
được lấy ra để suy luận về đám đông với các thông tin đặc trưng chưa biết là kỳ
vọng và độ lệch chuẩn lý thuyết như trong Bảng 1.2.
Bảng 1.2: Thông tin quần thể trong bài toán so sánh hai giá trị trung bình
Đám đông 1 Đám đông 2
Kỳ vọng (Trung bình lý thuyết)
1
µ
2
µ
SD (Độ lệch chuẩn lý thuyết)
σ
σ
Như vậy, việc đánh giá hiệu quả của nhân tố hai mức lên giá trị của một
đại lượng về thực chất là việc so sánh hai kỳ vọng
1
µ

2
µ
, được đưa về bài
toán so sánh hai giá trị trung bình mẫu
X


Y
, tức là so sánh hiệu số
d X Y= −
với 0. Nhân tố có hiệu quả thực sự nếu hiệu số đó khác 0 một cách
có ý nghĩa thống kê. Nếu ngược lại, ta có thể kết luận sự khác biệt giữa hai
trung bình mẫu chỉ mang tính chất ngẫu nhiên. Cuối cùng, từ bài toán kiểm định
giả thiết thống kê
H:
1 2
µ µ
=
, đối thuyết K:
1 2
µ µ

dẫn đến các bước cần tiến hành như sau:
Bước 1: Tính độ sai lệch giữa hai trung bình mẫu:
d X Y= −
Bước 2: Ước lượng hai phương sai mẫu, vì có giả thiết phương sai lý thuyết của
hai mẫu là bằng nhau nên có thể sử dụng hai ước lượng đó để đưa ra ước lượng
phương sai chung của hai mẫu (đó chính là phương sai của d):
:
( ) ( )
1 2
2 2
1 2
1 1
1 2
1 1

;
1 1
n n
i i
i i
s X X s Y Y
n n
= =
= − = −
− −
∑ ∑
2 2
1 2
1 2
1 1
s s
s
n n
= +
− −
Bước 3: Thành lập thống kê:
2 2
1 2
1 2
1 1
d X Y
t
s
s s
n n


= =
+
− −
Bước 4: Với
α
cho trước, tìm giá trị tới hạn
( )
1 2
2
/ 2
n n
t
α
+ −

là phân vị phải mức
/ 2
α
của phân phối Student với
( )
1 2
2n n
+ −
bậc tự do.
Bước 5: So sánh giá trị tuyệt đối của thống kê t với giá trị tới hạn
( )
1 2
2
/ 2

n n
t
α
+ −
:
• Nếu
( )
1 2
2
/ 2
n n
t t
α
+ −

thì bác bỏ giả thuyết H, kết luận
0d ≠
, tức là nhân tố ảnh
hưởng một cách có ý nghĩa lên đại lượng cần xem xét;
• Nếu
( )
1 2
2
/ 2
n n
t t
α
+ −
<
thì chấp nhận giả thuyết H, kết luận

0d =
, và cho rằng nhân
tố không ảnh hưởng đáng kể đến giá trị của đại lượng cần nghiên cứu.
Chú ý: Ở Bước 4, thay vì tính giá trị tới hạn người ta có thể tính xác suất ý
nghĩa
{ }
p P T t
= >
trong đó T là biến ngẫu nhiên có phân phối Student với bậc tự do
( )
1 2
2n n
+ −
.
Tiếp đó, so sánh xác suất ý nghĩa p với mức ý nghĩa
α
:
• Nếu
p
α

thì bác bỏ giả thuyết H, kết luận
0d

, nhân tố ảnh hưởng một cách có ý
nghĩa thống kê lên đại lượng cần xem xét;
• Nếu
p
α
>

thì chấp nhận giả thuyết H, kết luận
0d =
, nhân tố không tác
động lên giá trị của đại lượng cần nghiên cứu.
Ví dụ 1 (xem tài liệu[2]): Người ta thí nghiệm hai phương pháp chăn nuôi gà
khác nhau, sau một tháng kết quả tăng trọng như sau:
Phương pháp I:
100n
=
con,
1,1X
=
kg,
2
1
0,04s =
Phương pháp II:
150n
=
con,
1, 2Y
=
kg,
2
2
0,09s
=

Với mức ý nghĩa
0,05

α
=
có thể kết luận hai phương pháp có hiệu quả
khác nhau hay không? Giả thiết mức tăng trọng của gà tuân theo quy luật
chuẩn.
Ta có:
2 2 2 2 2 2
1 2 1 2
1 2 1 2
1,2 1,1
3,147
0,04 0,09
1 1 99 149
d X Y X Y
t
S
s s
n n n n
σ σ
− − −
= = = = ≈
+ + +
− −
Với
0,05
α
=
, tra bảng phân phối Student ta có
( )
248

3,147 0,025 1,969576t
> =
, ta
bác bỏ H và chấp nhận K, tức là việc thay đổi phương pháp chăn nuôi sẽ tác
động lên mức tăng trọng của gia cầm.
Chú giải lịch sử: W.S Gosset là nhà thống kê người Ailen có nhiều đóng góp
quan trọng cho sự phát triển của Thống kê toán học, trong đó đáng kể nhất
là khái niệm phân phối T - Student. Ông từng làm việc tại hãng bia nổi tiếng
Guinness ở Dublin, Ai len từ năm 1899 sau khi tốt nghiệp khoa Hóa tại Đại
học Oxford lúc 23 tuổi. Nghiên cứu về thống kê của ông xuất phát từ việc phải
bảo đảm chất lượng bia khi thực hiện quá trình lên men. Công trình nghiên
cứu này được công bố trên tờ Biometrica vào năm 1907 với tên giả là
“Student” có tựa đề “Sai số đếm của máy đếm tế bào” (On the Error of
Counting With a Hemacytometer). Tiếp đó, ông thực hiện một nghiên cứu
khác về phân phối T với tựa đề “Sai số có thể của giá trị trung bình” (The
Probable Error of a Mean). Công trình nổi tiếng này cũng được công bố trên
tờ Biometrika vào năm 1908.
Phép kiểm định T-Student trình bày trên đây cho phép đánh giá hiệu
quả tác động của một nhân tố hai mức lên một đại lượng cần nghiên cứu. Khi
cần đánh giá hiệu quả của một nhân tố có nhiều hơn hai mức lên một đại lượng
nào đó ta cần áp dụng phương pháp phân tích phương sai, được trình bày tiếp
sau đây.
1.2. So sánh nhiều giá trị trung bình – Mô hình Phân tích phương sai
Phân tích phương sai cho phép so sánh nhiều giá trị trung bình của biến định
lượng Y trên các nhóm khác nhau, mỗi nhóm ứng với một mức của một biến
định tính X, biến ngẫu nhiên X đó còn được gọi là nhân tố.
Giả sử các giá trị quan sát của biến định lượng Y trên k nhóm của nhân
tố X (nhóm thứ i có
i
m

quan sát) có dạng:
ij iji
y e
µ
= +
hay
ij iji
y e
µ α
= + +
trong đó
y
ij
là quan sát thứ j của mẫu Y trên nhóm thứ i,
i
α
là hiệu quả của nhóm thứ i,
ij
e
là sai số ngẫu nhiên,
1, 2, , ; 1, 2, , ;
1 2
i k j m m m m m
i k
= = + + + =
m là cỡ mẫu Y
Các giả định ban đầu cho mẫu ngẫu nhiên bao gồm :

ij
e

là các biến ngẫu nhiên độc lập
ij
e


( )
2
0,N
σ

có nghĩa là các biến ngẫu này có phân phối chuẩn với kỳ vọng bằng 0 và
phương sai bằng nhau :
ij
( ) 0,E e
=

2
ij
ar( )=V e
σ
Từ mẫu số liệu trên đây, ta cần ước lượng tham số
,
i
µ α

2
σ
, từ đó
kiểm định giả thuyết
0 1 2

:
k
H
µ µ µ
= = =
Kí hiệu
ij
.
1
1
i
m
j
i
y y
m
=
=

( giá trị trung bình của Y trong nhân tố thứ i )
ij

1 1
1
i
m
k
i j
y y
m

= =
=
∑ ∑
( giá tị trung bình chung )
Khi đó lời giải của bài toán ước lượng là:

.
2 2
ij .
1 1
ˆ
ˆ
1
ˆ
( )
i
i i
m
k
i
i j
y
y y
y y
m k
µ
α
σ
= =
=

= −
= −
∑ ∑

Khi các giả định ban đầu của mô hình phân tích phương sai được thỏa mãn, ta
thấy:
+ Ước lượng
.i
y
của
i
µ
có phân phối chuẩn
2
.
( , / )
i i i
y N m
µ σ
:
+ Các ước lượng trên là độc lập với nhau,
( )
. .
, 0
i j
Cov y y
=
với
i j
∀ ≠

+ Ước lượng
2
ˆ
σ
có phân phối
2
m k
χ

với m-k bậc tự do:
( )
2
2
2
ij .
1 1
1
.
i
m
k
i m k
i j
y y
m k m k
σ
χ

= =


− −
∑∑
:
Để kiểm định giả thuyết
0 1 2
:
k
H
µ µ µ
= = =
ta tính toán và so sánh:
“Độ biến động giữa các nhóm” của nhân tố:
( )
2
.
1
1
1
k
i i
i
INTER m y y
k
=
= −


“Độ biến động nội tại các nhóm” của nhân tố
( )
2

ij .
1 1
1
i
m
k
i
i j
INTRA y y
m k
= =
= −

∑∑
Ta thấy độ biến động nội tại các nhóm chính bằng ước lượng của phương sai
chung của các sai số ngẫu nhiên ở tất cả các nhóm, thể hiện mức độ sai lệch của
dữ liệu gây ra bởi nhiễu ngẫu nhiên chứ không phải do tác động của nhân tố.
Trong khi đó, độ biến động giữa các nhóm phản ánh tác động của nhân tố gây
ra các sai lệch so với trung bình chung, là giá trị có thể có của đại lượng cần
nghiên cứu khi chưa có tác động của nhân tố.
Khi nhiễu ngẫu nhiên lớn mà tác động của nhân tố lại nhỏ, ta có thể coi
ảnh hưởng của nhân tố là không đáng kể. Ngược lại nếu độ biến động do nhân
tố gây ra lớn so với độ biến động của nhiễu ngẫu nhiên, ta kết luận nhân tố ảnh
hưởng một cách có ý nghĩa đối với giá trị của đại lượng cần nghiên cứu. Do
vậy, ta có thể lấy tỷ số
INTER
F
INTRA
=
để làm tiêu chuẩn kiểm định giả thuyết đánh giá sự ảnh hưởng của nhân tố lên

giá trị của đại lượng cần nghiên cứu. Người ta chứng minh được rằng, nếu giả
thuyết
0 1 2
:
k
H
µ µ µ
= = =
là đúng thì tỷ số F có phân phối Fisher
Để kiểm định giả thuyết
0
H
với mức ý nghĩa
α
ta tra bảng phân phối
Fisher tìm giá trị
. 1,k m k
F
α
− −
(phân vị phải mức
α
của phân phối Fisher với k-1 và
m-k bậc tự do) và thực hiện
Bác bỏ
0
H
nếu F
. 1,k m k
F

α
− −
>
Chấp nhận
0
H
nếu F
. 1,k m k
F
α
− −

Chú ý: Trong thủ tục kiểm định giả thuyết trên đây, thay vì tính giá trị tới hạn
người ta có thể tính xác suất ý nghĩa
{ }
p P T F
= >
trong đó T là biến ngẫu nhiên có phân phối Fisher với bậc tự do k-1 và m-k.
Tiếp đó, so sánh xác suất ý nghĩa p với mức ý nghĩa
α
:
• Nếu
p
α

thì bác bỏ giả thuyết H, kết luận
0d

, nhân tố ảnh hưởng một cách có ý
nghĩa thống kê lên đại lượng cần xem xét;

• Nếu
p
α
>
thì chấp nhận giả thuyết H, kết luận
0d =
, nhân tố không tác
động lên giá trị của đại lượng cần nghiên cứu.
Chú giải lịch sử: Nói đến phân tích phương sai, người ta nhắc đến Ronald
Aylme Fisher (1890-1962), một nhà di truyền học nổi tiếng người Anh. Theo lời
Anders Hanld mô tả, ông là “ một thiên tài gần như tự mình tạo nền tảng cho
ngành Khoa học Thống kê hiện đại” và Richard Dawkins mô tả ông là “học trò
vĩ đại nhất của Dawwin”
Phép kiểm định T-Student và mô hình phân tích phương sai trình bày trên
đây chỉ giúp đánh giá hiệu quả tác động của một biến định tính (nhân tố tính
trạng) lên một đại lượng cần nghiên cứu. Khi cần đánh giá hiệu quả của một
biến định lượng (nhân tố liên tục) lên một đại lượng nào đó ta cần áp dụng
phương pháp phân tích hồi quy đơn, được trình bày tiếp sau đây.
1.3. Mô hình hồi quy đơn
Ta sử dụng mô hình hồi quy tuyến tính
0 1
Y b b X e= + +

để đánh giá tác động của nhân tố định lượng X lên giá trị của đại lượng Y. Trong
mô hình này,
e
là sai số ngẫu nhiên thỏa mãn một số giả thiết sẽ được nêu trong
phần tiếp theo, đại lượng Y còn được gọi là biến phụ thuộc hay biến được giải
thích, nhân tố X còn được gọi là biến độc lập hoặc biến giải thích. Đồng thời,
0

b
được gọi là hệ số chặn,
1
b
được gọi là hệ số dốc, là hai tham số cần được ước
lượng của mô hình . Nếu
1
0b =
thì rõ ràng nhân tố X không ảnh hưởng đến giá
trị của đại lượng Y. Ngược lại, nếu
1
0b ≠
thì khi giá trị của biến X thay đổi, giá
trị của biến Y cũng phải thay đổi theo, do đó nhân tố X tác động lên đại lượng Y
một cách đáng kể. Như vậy để đánh giá vai trò của nhân tố X đối với đại lượng
Y, ta cần ước lượng các hệ số của mô hình hồi quy, rồi kiểm tra xem hệ số dốc
của mô hình có bằng 0 hay không.
Để ước lượng các tham số của mô hình, ta tiến hành lấy mẫu gồm n cặp
( )
( )
{ }
1, 1
, , ,
n n
X Y X Y
là các giá trị quan sát được của cặp biến (X,Y). Ta ước lượng
bằng phương pháp bình phương bé nhất, tìm
0 1
ˆ ˆ
,b b

là các giá trị ước lượng của
0 1
,b b
sao cho tổng bình phương các sai lệch
2 2
0 1 0 1
1 1
ˆ
( , ) ( )
n n
i i i
i i
S S b b e Y b b X
= =
= = = − −
∑ ∑
đạt cực tiểu. Điều kiện cần để hàm
0 1
( , )S S b b=
đạt cực tiểu là đạo hàm riêng
của nó theo từng đối số triệt tiêu, tức là
0 1
1
( ) 0
n
i i
i
Y b b X
=
− − − =


,
0 1
1
( ) 0
n
i i i
i
Y b b X X
=
− − − =

Đây là hệ phương trình với nghiệm
0 1
ˆ
b Y b X
= −
(1.7)
( ) ( )
( )
1 1 1
1 1
2
2 2
2 2
1 1
1 1
( )( ) /
1
/

ˆ
n n n
n n
i i i i
i i i i
i i i
i i
n n
n n
i i
i i
i i
i i
X Y X y n
X Y nXY X X Y Y
X nX X X
X X n
b
= = =
= =
= =
= =
 

 
− − −
 
 
 
− −

 ÷

 ÷
 
∑ ∑ ∑
∑ ∑
= = =
∑ ∑
∑ ∑
(1.8)
Ta thấy
0 1
ˆ ˆ
( , )b b
là điểm dừng của hàm S . Để khẳng định đó là điểm cực tiểu của
hàm S, cần lấy đạo hàm riêng bậc hai, có ma trận Hessian
2 2
2
0 0 1
2
2 2
2
0 1 1
2 2
2 2
i
i i
S S
n X
b b b

H
X X
S S
b b b
 
∂ ∂
 
 ÷
∂ ∂ ∂
 ÷
 ÷
= =
 ÷
 ÷
∂ ∂
 ÷
 ÷
 
 ÷
∂ ∂ ∂
 

∑ ∑
Rõ ràng ma trận này xác định dương, do đó điểm dừng của S cũng chính là
điểm cực tiểu.
Mô hình hồi quy tuyến tính thường được nghiên cứu với năm giả thiết sau
đây:
i) Các giá trị của biến độc lập X là không ngẫu nhiên (tất định) và được
xác định từ trước,
ii) Sai số ngẫu nhiên có kỳ vọng bằng 0

( ) 0E e
=
iii) Sai số ngẫu nhiên có phương sai cố định:
( )
2
arV e
σ
=
iv) Các sai số không tương quan với nhau:
( , ) 0,
i j
Cov e e i j
= ∀ ≠
v) Sai số là đại lượng ngẫu nhiên có phân phối chuẩn:
( )
2
0,
i
e N
σ

Để đánh giá vai trò của nhân tố X đối với đại lượng Y thông qua phương
trình hồi quy, ta cần kiểm tra giả thuyết

0 1
: 0H b
=
Nếu giả thuyết được chấp nhận,
1
0b

=
, thì rõ ràng nhân tố X không ảnh hưởng
đến sự thay đổi giá trị của đại lượng Y. Ngược lại, nếu giả thuyết bị bác bỏ,
1
0b

, thì khi giá trị của X thay đổi sẽ kéo theo sự thay đổi giá trị của đại lượng
Y.
Việc kiểm tra giả thuyết trên đây được tiến hành bằng cách sử dụng tiêu
chuẩn kiểm định
1
1
ˆ
ˆ
( )
b
t
se b
=
, trong đó

2
1
2
ˆ
( )
ˆ
( )
( 2) ( )
i i

i
Y Y
se b
n X X

=
− −


Nếu năm giả thiết của mô hình hồi quy trình bày phía trên được thỏa mãn thì
thống kê t xác định như trên là một biến ngẫu nhiên có phân phối Student với
(n-2) bậc tự do. Do đó bài toán kiểm định giả thuyết có thể tiếp tục thực hiện
thông qua một trong ba thủ tục sau đây:
a) Kiểm tra bằng khoảng tin cậy: Khoảng tin cậy
( )
1
α

của
1
b

( )
1 1
1 /2; 2
ˆ ˆ
. ( )
n
b t se b
α

− −
±
trong đó
( )
1 / 2; 2n
t
α
− −
là phân vị phải mức
( )
1 / 2
α

của phân phối Student với
(n-2) bậc tự do. Nếu khoảng tin cậy này chứa 0 ta phải chấp nhận giả thuyết và
kết luận nhân tố X không ảnh hưởng đến giá trị của đại lượng Y. Ngược lại, nếu
khoảng tin cậy không chứa điểm 0, giả thuyết bị bác bỏ, ta có thể khẳng định
nhân tố X tác động một cách có ý nghĩa đến giá trị của đại lượng Y.
b) Kiểm tra bằng giá trị tới hạn: Phân vị phải mức
( )
1 / 2
α

của phân phối
Student với (n-2) bậc tự do
( )
1 / 2; 2n
t
α
− −

còn được gọi là giá trị tới hạn của phép
kiểm định. Có thể so sánh thống kê t với giá trị tới hạn này để đưa ra kết luận
đối với phép kiểm định. Cụ thể, nếu
( )
1 / 2; 2n
t t
α
− −

thì giả thuyết bị bác bỏ.
Ngược lại, nếu
( )
1 /2; 2n
t t
α
− −
<
thì phải chấp nhận giả thuyết.
c) Kiểm tra bằng xác suất ý nghĩa: Xét T là một biến ngẫu nhiên có phân phối
Student với (n-2) bậc tự do. Xác suất ý nghĩa ứng với thống kê t của phép kiểm
định được xác định bằng
{ }
p P T t= >
.
So sánh xác suất ý nghĩa p để đưa ra kết luận về phép kiểm định. Nếu
p
α
>
thì
phải chấp nhận giả thuyết. Ngược lại, nếu

p
α

thì có thể bác bỏ giả thuyết.
Chú giải lịch sử: Vào năm 1885, Francis Galton đưa ra khái niệm "Hồi quy"
trong một nghiên cứu chứng tỏ rằng con cái không có khuynh hướng theo trạc
người của cha mẹ, mà hướng về mức trung bình so với cha mẹ. Tuy nhiên,
phương pháp hồi quy có một lịch sử lâu hơn. Thực tế, nhà toán học huyền thoại
người Pháp tên là Adrien Marie Legendre xuất bản tác phẩm đầu tiên về hồi quy
(dù ông không dùng từ này) vào năm 1805. Tuy nhiên, công lao khám phá
phương pháp bình phương tối thiểu thường được quy cho Carl Friedrich Gauss
(một nhà toán học huyền thoại khác người Đức), người sử dụng phương thức
này trong phần đầu của thế kỉ 19.
Cả ba phương pháp kiểm định Student, phân tích phương sai và hồi quy
đơn đều là các phương pháp đơn biến và chỉ có thể đánh giá một cách đơn lẻ tác
động của một nhân tố lên giá trị của một đại lượng. Muốn đánh giá đồng thời
tác động của nhiều nhân tố lên một đại lượng, người ta phải dùng các phương
pháp đa biến. Một trong những phương pháp đa biến thường được dùng là
phương pháp hồi quy bội, được trình bày tiếp sau đây
1.4. Mô hình hồi quy bội
Mô hình hồi quy bội
0 1 1
, 1, ,
i i k ki i
Y b b X b X e i n= + + + + =
được sử dụng để đánh giá tác động của nhiều nhân tố lên giá trị của đại lượng Y,
trong đó
{ }
0 1
, ,

k
b b b
là k+1 tham số và
i
e
là sai số ngẫu nhiên. Lấy mẫu gồm n
quan sát
( ) ( )
{ }
11 21 1 1 1 2
, , , , , , , , , ,
k n n kn n
X X X Y X X X Y
, khi đó mô hình được biểu
diễn thành hệ n phương trình như sau:
1 0 1 11 2 21 1 1

k k
Y b b X b X b X e= + + + + +
2 0 1 12 2 22 2 2

k k
Y b b X b X b X e= + + + + +
. . .
0 1 1 2 2

n n n k kn n
Y b b X b X b X e= + + + + +
Các phương trình trên có thể đưa về dạng ma trận như sau:
1 11 21 1 0 1

2 12 22 2 1 2
1 2
1
1
. . . . . . .
. . . . . . .
. . . . . . .
1
k
k
n n n kn k n
Y X X X b e
Y X X X b e
Y X X X b e
       
       
       
       
= +
       
       
       
       
       
       
Tức là
.Y X b e= +
Trong đó Y là véc tơ cột gồm n giá trị quan sát được,
X là ma trận gồm n hàng
và k+1 cột, trong đó các giá trị của cột đầu tiên luôn bằng 1,

b là véc tơ cột gồm
k+1 phần tử, e là véc tơ cột gồm n số hạng sai số.
Ta có thể giả thiết
2
( ) 0 , ar( ) .E e V e I
σ
= =
với I là ma trận đơn vị cấp n mà n phần tử trên đường chéo chính bằng 1, các
phần tử còn lại bằng 0. Khi đó, mô hình hồi quy được đưa về dạng
( )E Y Xb=
Véc tơ tham số b được chọn sao cho tổng bình phương các sai lệch
' ' ' ' ' ' ' ' ' ' ' ' '
( ) ( ) 2e e Y Xb Y Xb Y Y b X Y Y Xb b X Xb Y Y b X Y b X Xb= − − = − − + = − +
đạt cực tiểu, được gọi là ước lượng bình phương bé nhất của các tham số hồi
quy và được xác định qua tính toán ma trận bằng công thức
' 1 '
ˆ
( )b X X X Y

=
Cũng giống như đối với mô hình hồi quy đơn, mô hình hồi quy ttuyến tính
bội cũng được nghiên cứu với năm giả thiết sau:
i) Giá trị của các biến độc lập không ngẫu nhiên và được xác định từ
trước,
ii) Sai số ngẫu nhiên có kỳ vọng bằng 0,
( ) 0E e =
iii) Sai số ngẫu nhiên có phương sai cố định,
( )
2
arV e

σ
=
iv) Các sai số không tương quan với nhau,
( , ) 0,
i j
Cov e e i j
= ∀ ≠
v) Sai số là đại lượng ngẫu nhiên có phân phối chuẩn,
( )
2
0,
i
e N
σ

Cũng tương tự như cách làm đối với mô hình hồi quy đơn, ta có thể đánh
giá vai trò trong phương trình hồi quy bội của từng nhân tố
i
X
(i=1, ,k) đối
với đại lượng Y, bằng cách kiểm tra giả thuyết
0
: 0
i
H b
=
Nếu giả thuyết được chấp nhận,
0
i
b

=
, thì rõ ràng nhân tố
i
X
không ảnh hưởng
đến sự thay đổi giá trị của đại lượng Y. Ngược lại, nếu giả thuyết bị bác bỏ,
0
i
b

thì khi giá trị của
i
X
thay đổi sẽ kéo theo sự thay đổi giá trị của đại
lượng Y.
Ta sử dụng tiêu chuẩn kiểm định
ˆ
ˆ
( )
i
i
i
b
t
se b
=
, trong đó

2
ˆ

( )
ˆ
( )
( 1)
i i
i ii
Y Y
se b C
n k

=
− −


ii
C
là phần tử thứ i+1 trên đường chéo chính của ma trận
' 1
( )C X X

=
để
kiểm tra giả thuyết trên đây. Nếu năm giả thiết của mô hình hồi quy trình bày
phía trên được thỏa mãn thì thống kê
i
t
là một biến ngẫu nhiên có phân phối
Student với (n-k-1) bậc tự do. Bài toán kiểm định giả thuyết có thể tiếp tục thực
hiện thông qua một trong ba thủ tục sau đây:
a) Kiểm tra bằng khoảng tin cậy: Khoảng tin cậy

( )
1
α

của
i
b

( )
1 / 2; 1
ˆ ˆ
. ( )
i i
n k
b t se b
α
− − −
±
trong đó
( )
1 / 2; 1n k
t
α
− − −
là phân vị phải mức
( )
1 / 2
α

của phân phối Student

với (n-k-1) bậc tự do. Nếu khoảng tin cậy này chứa 0 ta phải chấp nhận giả
thuyết và kết luận nhân tố
i
X
không ảnh hưởng đến giá trị của đại lượng Y.
Ngược lại, nếu khoảng tin cậy không chứa điểm 0, giả thuyết bị bác bỏ, ta có
thể khẳng định nhân tố
i
X
tác động một cách có ý nghĩa đến giá trị của đại
lượng Y.
b) Kiểm tra bằng giá trị tới hạn: Phân vị phải mức
( )
1 / 2
α

của phân phối
Student với (n-k-1) bậc tự do
( )
1 / 2; 1n k
t
α
− − −
còn được gọi là giá trị tới hạn của
phép kiểm định. Có thể so sánh thống kê t với giá trị tới hạn này để đưa ra kết
luận đối với phép kiểm định. Cụ thể, nếu
( )
1 /2; 1
i
n k

t t
α
− − −

thì giả thuyết bị
bác bỏ. Ngược lại, nếu
( )
1 /2; 1
i
n k
t t
α
− − −
<
thì phải chấp nhận giả thuyết.
c) Kiểm tra bằng xác suất ý nghĩa: Xét T là một biến ngẫu nhiên có phân phối
Student với (n-k-1) bậc tự do. Xác suất ý nghĩa ứng với thống kê
i
t
của phép
kiểm định được xác định bằng
{ }
i
p P T t
= >
.
So sánh xác suất ý nghĩa p để đưa ra kết luận về phép kiểm định. Nếu
p
α
>

thì
phải chấp nhận giả thuyết. Ngược lại, nếu
p
α

thì có thể bác bỏ giả thuyết.
Thông thường các nhân tố ( các biến độc lập trong mô hình hồi quy bội )
đều là các biến định lượng. Tuy nhiên, cũng có thể đưa vào mô hình một số biến
định tính nhị phân ( nhận hai giá trị 0 và 1 ). Bằng cách này, có thể đánh giá tác
động của cả các nhân tố định tính cũng như các nhân tố định lượng lên giá trị
của đại lượng Y cần xem xét.
Các phép kiểm định của mô hình hồi quy bội chỉ có hiệu lực nếu năm giả
thiết của mô hình được thỏa mãn, đặc biệt là điều kiện các sai số là độc lập với
nhau và có phương sai không đổi. Trong thực tế, đó là hai điều kiện khó được
thỏa mãn, do đó có thể dẫn đến những kết luận sai lầm về vai trò của các nhân
tố. Để khắc phục hiện tượng này, có thể sử dụng mô hình hồi quy tuyến tính
nhiều mức. Đó là nội dung được trình bày trong chương tiếp theo.
.
Chương 2.
MÔ HÌNH HỒI QUY NHIỀU MỨC
Khi thu thập số liệu trong điều tra xã hội học, chúng ta thường gặp cấu trúc số
liệu có thứ bậc hay cấu trúc số liệu lồng nhóm, nói cách khác số liệu được thu
thập ở các mức khác nhau của đơn vị quan sát. Chẳng hạn, trong điều tra về khả
năng tiếp thu kiến thức của học sinh, số liệu về thành tích học tập của học sinh
được thu thập ở các cá nhân từng học sinh, song kết luận có thể được đưa ra cho
các trường và khu vực. Ở đây các cá thể học sinh (đơn vị mức 1) được xếp
trong phạm vi các lớp, sau đó các lớp (đơn vị mức 2) được xếp lồng nhóm trong
phạm vi các trường và các trường (đơn vị mức 3) được lồng nhóm trong phạm
vi các khu vực (đơn vị mức 4).
Từ những năm cuối của thập kỷ 80 của thế kỷ 20, mô hình nhiều mức đã

được xây dựng và sử dụng rộng rãi để nghiên cứu các dữ liệu có cấu trúc lồng
nhóm như vậy. Mô hình nhiều mức đã cho thấy nhiều ưu điểm so với các
phương pháp phân tích thống kê truyền thống khác, chẳng hạn như khắc phục
được hạn chế của giả thiết về tính độc lập giữa các quan sát. Trong ví dụ trên,
thành tích học tập của các học sinh (đơn vị mức 1) không hoàn toàn độc lập
nhau (vì các học sinh cùng trường, lớp có thể ảnh hưởng nhau bởi cùng thầy
dạy, hoặc có sự trao đổi kiến thức giữa các học sinh với nhau). Khi đó giả thiết
về tính độc lập giữa các quan sát mà các phương pháp thống kê cổ điển đòi hòi
sẽ bị vi phạm.
2.1 Mô hình hồi quy hai mức cơ bản
Mô hình hồi quy nhiều mức đã được biết đến trong các nghiên cứu với các tên
khác nhau như mô hình hệ số ngẫu nhiên, mô hình thành tố phương sai, mô
hình tuyến tính có thứ bậc. Những mô hình mô tả trên không hoàn toàn giống
nhau (đặc biệt khi các tính toán chi tiết được quan tâm) tuy nhiên chúng khá
giống nhau. Chúng ta sẽ xem xét đến các mô hình này một cách chung như
những “mô hình hồi quy nhiều mức”.
Thuật ngữ thông thường để ký hiệu mức thấp nhất của thứ bậc là mức 1,
mức thấp tiếp theo là mức 2, v.v… Chẳng hạn, những sinh viên được xếp lồng
nhóm trong phạm vi các lớp, và các lớp lại được xếp lồng trong phạm vi các
trường khi nghiên cứu hiệu quả đào tạo. Khi ấy ta dùng các thuật ngữ tương
ứng: sinh viên là đơn vị mức 1, lớp là đơn vị mức 2 và trường là đơn vị mức 3.
Mô hình hồi quy nhiều mức đầy đủ giả sử rằng có một bộ dữ liệu thứ bậc
với một biến phụ thuộc đo được ở mức thấp nhất và một số biến giải thích đo
được ở tất cả các mức hiện có. Cụ thể, mô hình đó có thể được xem xét như một
hệ thống có thứ bậc các công thức hồi quy. Ví dụ, giả thiết rằng chúng ta có số
liệu thu thập ở J trường, với số liệu từ một số lượng học sinh khác nhau
j
N

mỗi trường. Ở mức học sinh chúng ta có biến phụ thuộc “tác động của quá

trình đào tạo của trường” (Y) và biến giải thích “điều kiện kinh tế - xã hội” của
học sinh (X), còn ở mức trường chúng ta có biến giải thích “quy mô của trường”
(Z). Do vậy chúng ta có thể sắp đặt một công thức hồi quy riêng biệt cho mỗi
trường riêng biệt để dự báo biến phụ thuộc Y bằng biến độc lập X như sau:
ij 0 1 ij ij
(2.1)
j j
Y X e
β β
= + +
Trong công thức hồi quy này
0 j
β
là hệ số chặn,
1 j
β
là hệ số hồi quy (độ
dốc hồi quy),
ij
e
là số hạng sai số chưa tính được (sai số ngẫu nhiên). Chỉ số
dưới j là chỉ trường thứ j và chỉ số dưới i là chỉ những cá thể học sinh
( 1, , )
j
i N=
. Sự khác biệt của mô hình này so với mô hình hồi quy thông
thường là chúng ta đã giả sử rằng mỗi trường được đặc trưng bởi một hệ số
chặn
0 j
β

khác nhau và một hệ số dốc
1 j
β
khác nhau. Cũng như trong mô hình
hồi quy nhiều mức thông thường, những sai số ngẫu nhiên
ij
e
ở mỗi trường
được giả định có kì vọng 0 và phương sai
2
j
σ
; hầu hết các mô hình nhiều mức
giả định rằng phương sai của sai số ngẫu nhiên là giống nhau ở tất cả các trường
và chỉ rõ phương sai của sai số này bằng
2
s
.

×