ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - - - - - O0O - - - - - -
Phạm Thị Thùy Như
ĐÁNH GIÁ CHẤT LƯỢNG
HỌC TẬP CỦA SINH VIÊN TRƯỜNG
ĐẠI HỌC KỸ THUẬT - Y TẾ HẢI DƯƠNG
Chuyên ngành: Xác suất và Thống kế toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học:
PGS.TS. Hồ Đăng Phúc
Hà Nội - 2012
Mục lục
Lời nói đầu 3
1 Mô hình tuyến tính nhiều mức 6
1.1 Dữ liệu nhiều mức . . . . . . . . . . . . . . . . . . . . . 6
1.2 Sự cần thiết sử dụng mô hình phân tích nhiều mức . . . 7
1.3 Mức độ chính xác của các kết luận thống kê . . . . . . . 8
1.4 Ưu thế của mô hình nhiều mức . . . . . . . . . . . . . . 8
1.5 Mô hình tuyến tính nhiều mức và các ước lượng . . . . . 9
1.6 Mô hình 2 mức với hệ số ngẫu nhiên . . . . . . . . . . . 11
1.7 Hệ số tương quan nội tại . . . . . . . . . . . . . . . . . . 14
1.8 Mô hình 2 mức tổng quát bao gồm các hệ số ngẫu nhiên 17
1.9 Ước lượng cho mô hình nhiều mức . . . . . . . . . . . . . 18
1.10 Số dư trong mô hình 2 mức . . . . . . . . . . . . . . . . 21
1.11 Ước lượng số dư trong mô hình nhiều mức . . . . . . . . 23
1.12 Kiểm định giả thuyết và khoảng tin cậy . . . . . . . . . . 24
1.12.1 Tham số cố định . . . . . . . . . . . . . . . . . . 25
1.12.2 Tham số ngẫu nhiên . . . . . . . . . . . . . . . . 28
1
1.13 Cấu trúc hiệp phương sai phức hợp . . . . . . . . . . . . 29
1.14 Phương sai của nhóm con định nghĩa ở mức 1 . . . . . . 31
1.15 Phương sai như một hàm của giá trị dự đoán . . . . . . . 35
2 Tác động của các nhân tố đến kết quả học tập của sinh
viên 36
2.1 Mô tả số liệu . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Các yếu tố ảnh hưởng đến điểm tổng kết học kỳ 1 . . . . 42
2.3 Các yếu tố ảnh hưởng đến điểm tổng kết học kỳ 2 . . . . 46
2.4 Các yếu tố ảnh hưởng đến điểm tổng kết học kỳ 3 . . . . 50
2.5 Các yếu tố ảnh hưởng đến điểm tổng kết học kỳ 4 . . . . 53
2.6 Các yếu tố ảnh hưởng đến điểm tổng kết học kỳ 5 . . . . 56
2.7 Các yếu tố ảnh hưởng đến điểm tổng kết học kỳ 6 . . . . 60
2.8 Các yếu tố ảnh hưởng đến điểm tổng kết toàn khóa . . . 64
Kết luận 68
Tài liệu tham khảo 71
2
Lời nói đầu
"Phát triển giáo dục và đào tạo là một trong những động lực quan
trọng thúc đẩy sự nghiệp công nghiệp hóa, hiện đại hóa, là điều kiện để
phát huy nguồn lực con người – yếu tố cơ bản để phát triển xã hội, tăng
trưởng kinh tế nhanh và bền vững" . Trong đó, nhiệm vụ trọng yếu, nền
tảng của chương trình giáo dục Đại học là xây dựng và đào tạo cho đất
nước một đội ngũ trí thức có nhân cách, có đạo đức, có khả năng làm
chủ về chuyên môn nghiệp vụ, với thể chất mạnh khỏe để đáp ứng tốt
yêu cầu của sự nghiệp công nghiệp hóa, hiện đại hóa đất nước.
Trong những năm qua, giáo dục và đào tạo đã có những đóng góp
nhất định trong giải quyết các vấn đề kinh tế; khai thác nội lực và phát
huy được tiềm năng, lợi thế của đất nước, tạo được vị thế trên trường
quốc tế. Tuy nhiên, thực tế công tác giáo dục của nước ta còn nhiều tồn
tại, điều kiện giáo dục còn ở trong tình trạng lạc hậu, trì trệ, chất lượng
thấp. Có không ít trường đại học, cao đẳng sở hữu một đội ngũ giảng
viên chất lượng không cao, không có khả năng nghiên cứu dẫn đến một
thực trạng sinh viên được đào tạo ra không thích nghi được thực tế của
xã hội hiện tại. Để tận dụng được các cơ hội phát triển trong giáo dục và
đào tạo, hạn chế những mặt tồn tại, chúng ta cần phải nhận biết những
đặc điểm riêng của hệ thống giáo dục đào tạo, xác định được những quy
3
luật tự nhiên của hệ thống. Từ đó có thể vận hành hệ thống phù hợp
với những quy luật đó, tránh đưa ra những quyết sách mang nặng tính
chủ quan duy ý chí. Việc phát hiện những quy luật đó chỉ có thể thực
hiện được thông qua những nghiên cứu khoa học.
Sử dụng phương pháp thống kê nhiều mức dùng phần mềm Stata để
phân tích làm rõ một số yếu tố ảnh hưởng đến kết quả học tập của sinh
viên Trường Đại học Kỹ thuật Y tế Hải Dương, từ đó đưa ra một số
định hướng trong công tác đào tạo là mục tiêu của luận văn “Đánh giá
chất lượng học tập của sinh viên trường Đại học Kỹ thuật Y
tế Hải Dương”. Sau lời mở đầu, luận văn gồm có hai chương và danh
mục tài liệu tham khảo.
Chương I trình bày về phương pháp phân tích thống kê dùng trong
nghiên cứu là phương pháp phân tích nhiều mức. Trong đó trình bày
cụ thể về mô hình hồi quy hai mức cơ bản và mô hình nhiều mức tổng
quát.
Chương II đưa ra các kết quả phân tích ảnh hưởng của các yếu tố
giới tính sinh viên, điểm tuyển sinh đầu vào, nghề nghiệp của bố mẹ,
quê quán của sinh viên đến kết quả học tập của sinh viên. Tại đây các
phương pháp thống kê được áp dụng một cách phù hợp để đưa ra những
kết luận có tính thuyết phục, đảm bảo tính khoa học.
Luận văn này được hoàn thành tại Khoa Toán – Cơ – Tin thuộc
Trường ĐH Khoa học Tự nhiên – ĐHQG Hà Nội. Trước tiên tôi xin
bày tỏ lòng biết ơn sâu sắc nhất đến PGS.TS Hồ Đăng Phúc, người đã
truyền cho tôi nguồn cảm hứng nghiên cứu khoa học, hướng dẫn, chỉ
bảo tôi hết sức tận tình trong suốt quá trình nghiên cứu. Tôi xin trân
4
trọng cảm ơn các thầy cô giáo trong khoa Toán – Cơ – Tin, đặc biệt các
thầy trong tổ Bộ môn Xác suất và Thống kê đã cung cấp cho tôi các
kiên thức chuyên ngành cần thiết để thực hiện đề tài. Tôi cũng xin chân
thành cảm ơn các thày cô phòng Sau đại học đã nhiệt tình giúp đỡ tôi
trong suốt thời gian học tập. Tôi xin gửi lời cảm ơn đến các anh chị em
lớp cao học Lý thuyết Xác suất và thống kê toán học khóa 2009 – 2011,
cùng các bạn đồng nghiệp và gia đình đã nhiệt tình đóng góp ý kiến,
giúp đỡ tôi trong suốt quá trình học tập và hoàn thành luận văn.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới Ban Giám hiệu, Phòng đào
tạo, Phòng Công tác học sinh sinh viên của trường Đại học Kỹ thuật Y
tế Hải Dương đã nhiệt tình cung cấp những dữ liệu chính xác quý báu
giúp tôi thực hiện luận văn này. Tuy đã có nhiều cố gắng trong quá trình
thực hiện, song chắc chắn luận văn của tôi không thể tránh khỏi những
thiếu xót. Tôi rất mong nhận được sự tham gia đóng góp ý kiến của quý
thầy cô, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu Giáo dục
và các độc giả quan tâm đến luận văn này.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 12 tháng 1 năm 2012
Học viên: Phạm Thị Thùy Như
5
Chương 1
Mô hình tuyến tính nhiều mức
1.1 Dữ liệu nhiều mức
Khi thu thập số liệu trong các ngành khoa học xã hội, chúng ta thường
gặp cấu trúc số liệu có thứ bậc hay cấu trúc số liệu lồng nhóm. Nói cách
khác số liệu được thu thập ở các mức khác nhau của đơn vị quan sát.
Ví dụ khi xem xét đặc điểm của trẻ em, số liệu về chiều cao và trí thông
minh được thu thập ở từng cá nhân trẻ em, nhưng kết luận có thể đưa
ra cho các gia đình và khu vực. Người ta nhận xét rằng những đứa trẻ
được sinh ra trong cùng một gia đình có xu hướng giống nhau về ngoại
hình và tính cách hơn những đứa được chọn ngẫu nhiên từ quần thể nói
chung.
Chúng ta đề cập đến sự phân cấp, trong đó các đơn vị được nhóm lại
ở các mức khác nhau. Lúc đó, trẻ em là đơn vị mức 1 được xếp trong
phạm vi gia đình, gia đình là đơn vị mức 2 được xếp lồng nhóm trong
phạm vi khu dân cư (đơn vị mức 3) và khu dân cư được lồng nhóm trong
phạm vi các phường (đơn vị mức 4).
6
1.2 Sự cần thiết sử dụng mô hình phân tích nhiều
mức
Một nghiên cứu về khả năng “học đọc” của trẻ em trường tiểu học
được thực hiện ở nước Anh năm 1970 chỉ ra rằng nhóm học sinh “chuộng
hình thức” có khả năng đọc tốt hơn. Dữ liệu được phân tích sử dụng các
kỹ thuật hồi quy truyền thống nhận các cá nhân là đơn vị phân tích,
bỏ qua ảnh hưởng của sự ghép nhóm theo các mức giáo viên và các lớp
học. Cách phân tích đó cho thấy ảnh hưởng của đặc tính “chuộng hình
thức” lên khả năng học đọc của học sinh là có ý nghĩa thống kê.
Sau đó, Aitkin và đồng sự (1981) lại chứng minh rằng khi phân tích
mà có tính đến việc phân trẻ em theo nhóm vào các lớp học riêng biệt,
thì hoàn toàn không có sự khác biệt mang tính thống kê giữa hai nhóm
học sinh “chuộng hình thức” và “không chuộng hình thức” về khả năng
học đọc. Kết quả phân tích này có ý nghĩa thống kê.
Cách phân tích này là một ví dụ quan trọng đầu tiên của phân tích
dữ liệu nhiều mức trong dữ liệu khoa học xã hội. Thực chất những gì
đang xảy ra ở đây là những trẻ em trong cùng một lớp học có xu hướng
tương tự nhau trong hoạt động của chúng. Cách lý giải khác là kỹ năng
học đọc có thể phụ thuộc nhiều vào khả năng truyền thụ của giáo viên
hơn là vào tính cách của học sinh. Kết quả là thông tin được cung cấp
ít hơn rõ rệt so với trường hợp cũng những học sinh đó được giảng dạy
bởi các giáo viên khác nhau một cách riêng biệt. Nói cách khác, những
đơn vị cơ bản cho mục đích so sánh là giáo viên chứ không phải học sinh
.Vậy cần chuyển sang nghiên cứu kỹ năng giảng dạy của giáo viên.
7
Trong những bài toán như trên, chỉ dùng cách phân tích riêng rẽ
ở từng nhóm nhỏ mà không cần sử dụng mô hình nhiều mức có được
không?
1.3 Mức độ chính xác của các kết luận thống kê
Nếu tăng số lượng học sinh (được chọn vào mẫu) trong mỗi lớp sẽ
làm tăng độ chính xác cho các kết luận thống kê đối với hiệu quả giảng
dạy của mỗi giáo viên, nhưng lại khó tăng được số giáo viên được đưa
vào xét trong nghiên cứu. Do vậy không tăng được tính chính xác trong
kết luận thống kê về hiệu quả giảng dạy của các giáo viên khác nhau.
Nếu tăng số giáo viên đưa vào mẫu nghiên cứu thì chúng ta sẽ tăng
độ chính xác của các phép so sánh về hiệu quả giảng dạy của các giáo
viên, nhưng lại làm giảm số học sinh xét đến trong mỗi lớp, do đó làm
giảm tính chính xác của các ước lượng đối với từng giáo viên.
Do vậy chúng ta cần phát triển các kỹ thuật phân tích nhiều mức.
1.4 Ưu thế của mô hình nhiều mức
Thứ nhất, mô hình nhiều mức cho phép thu được các ước lượng hiệu
quả đối với các hệ số hồi quy, khắc phục được hạn chế của giả thiết về
tính độc lập giữa các quan sát và giả thiết phương sai không đổi.
Thứ hai, với các thông tin được tổ chức theo “chùm”, sẽ thu được giá
trị chính xác hơn của các độ lệch tiêu chuẩn , khoảng tin cậy cũng như
xác suất ý nghĩa của các phép kiểm định. Thứ ba, với các hiệp biến, có
thể so sánh độ biến động của số liệu tại các nhóm thuộc các mức khác
8
nhau.
Thứ tư, với số lượng quan sát tương đối nhỏ ở các nhóm “cơ sở”, vẫn
có thể thu được các kết luận thống kê tốt cho mỗi nhóm bằng cách kết
hợp khai thác các thông tin ở các mức cao hơn hoặc từ toàn bộ số liệu.
1.5 Mô hình tuyến tính nhiều mức và các ước lượng
Phần này giới thiệu mô hình hai mức cùng với các khái niệm cơ bản
sẽ được sử dụng trong các phần tiếp theo. Chúng ta xem xét những cách
khác nhau trong việc xây dựng và phát triển mô hình cũng như giới
thiệu các thủ tục ước lượng các tham số, thiết kế và kiểm tra các hàm
của các tham số và xây dựng dựng khoảng tin cậy .
Để làm rõ vấn đề, chúng ta xét dữ liệu gồm 728 học sinh trong 50
trường cấp 1 ở London. Chúng ta xem xét hai thời điểm đo lường: Thời
điểm đầu là khi học sinh học lớp 4 của trường, tương ứng với năm các
em lên 8 tuổi và thời điểm thứ hai 3 năm sau đó, khi các em học năm
cuối ở trường tiểu học.
Chúng ta sử dụng điểm số bài kiểm tra môn Toán được thực hiện tại
hai thời điểm kể trên cùng với thông tin được sưu tập về lai lịch xã hội
và giới tính của học sinh.
Hình 1.1 là biểu đồ sự phân tán điểm kiểm tra môn toán của học sinh
11 tuổi với học sinh 8 tuổi. Trong biểu đồ này không cho thấy sự khác
biệt giữa học sinh thuộc các trường khác nhau.
Chú ý rằng đồ thị trên đây cho thấy có một khuynh hướng chung,
điểm số năm 8 tuổi có mối quan hệ hầu như đồng biến với điểm số năm
9
Hình 1.1: Sự phân tán điểm kiểm tra môn toán.
11 tuổi. Cũng cần chú ý rằng độ biến động của điểm số năm 11 tuổi sẽ
giảm đi nếu điểm số năm 8 tuổi của học sinh tăng lên.
Trong Hình 1.2 điểm số của 2 trường khác nhau đã được lựa chọn,
miêu tả bởi các ký hiệu khác nhau.
Hình 1.2:
Có hai điều thấy rõ ngay lập tức. So với trường được miêu tả bởi hình
tam giác, trường được miêu tả bởi hình tròn có độ dốc lớn hơn và điểm
10
số năm 11 tuổi có xu hướng thấp hơn tại hầu hết các nhóm học sinh có
cùng điểm số năm 8 tuổi. Những mối liên hệ này có thể được mô hình
hóa như sau:
Đầu tiên chúng ta xét mô hình đơn giản của một trường, liên kết
điểm năm 11 tuổi với điểm năm 8 tuổi. Ta viết
y
i
= α + βx
i
+ e
i
(1.1)
trong đó, α là hệ số chặn, β là hệ số dốc, e
i
là sai số ngẫu nhiên.
Đây là mô hình chính thức mô tả mối liên hệ đơn lẻ. Để miêu tả đồng
thời những mối liên hệ trong vài trường, ví dụ cho trường j , ta viết
y
ij
= α
j
+ β
j
x
ij
+ e
ij
(1.2)
Đây là mô hình chính thức cho hình 2 ở đó j quy ước cho đơn vị mức
2 và i quy ước cho đơn vị mức 1. Tuy nhiên (1.2) vẫn là mô hình đơn
giản, mặc dù đã miêu tả mối liên hệ tách rời của mỗi trường. Trong
một số trường hợp, ví dụ có vài trường và các điều quan tâm chính là
các trường trong mẫu, chúng ta có thể phân tích bằng cách sử dụng tất
cả 2n + 1 tham số, cụ thể là: (α
i
, β
j
), j = 1, . . . , n với phần dư của các
trường có phương sai chung là σ
2
.
1.6 Mô hình 2 mức với hệ số ngẫu nhiên
Để chính thức sử dụng (1.2) như một mô hình 2 mức, chúng ta coi
α
j
, β
j
là các biến ngẫu nhiên, và để thuận tiện, thay thế các ký hiệu α
j
bởi β
0j
và β
j
bởi β
1j
. Khi đó ta có
11
y
ij
= β
0j
+ β
1j
x
ij
+ e
ij
(1.3)
ở đó, β
0j
là hệ số chặn, β
1j
là hệ số dốc, e
ij
là sai số ngẫu nhiên. Sự
khác biệt của mô hình này so với mô hình hồi quy thông thường là chúng
ta đã giả sử rằng mỗi trường được đặc trưng bởi một hệ số chặn β
0j
khác
nhau và hệ số dốc β
1j
khác nhau. Các sai số ngẫu nhiên e
ij
có kỳ vọng
0 và phương sai σ
2
j
. Các mô hình nhiều mức thường giả sử phương sai
của các sai số ngẫu nhiên giống nhau ở tất cả các trường bằng σ
2
.
Qua tất cả các trường, các hệ số hồi quy β
.j
có một phân bố với kỳ
vọng 0 và phương sai nào đó. Giả sử
β
0j
= β
0
+ u
0j
β
1j
= β
1
+ u
1j
trong đó u
0j
, u
1j
là các sai số ngẫu nhiên (còn gọi là phần dư) , thể hiện
độ lệch giữa các trường, với các tham số
E(u
0j
) = E(u
1j
) = 0
V ar(u
0j
) = σ
2
u0
V ar(u
1j
) = σ
2
u1
cov(u
0j
, u
1j
) = σ
u01
Nói chung hiệp phương sai của các sai số ở mức trường không được giả
thiết bằng 0. Khi đó (1.3) có dạng
y
ij
= β
0
+ β
1
x
ij
+ (u
0j
+ u
1j
x
ij
+ e
0ij
) (1.4)
var(e
0ij
) = σ
2
e0
12
Các hệ số β
0
, β
1
không thay đổi giữa các trường nên chúng không có
chỉ số j để biểu thị cho 1 trường nào mà chúng được áp dụng cho tất cả
các trường. Vì vậy các hệ số này được nói đến như các hệ số cố định, sự
biến đổi còn lại của tất cả các trường được thể hiện bởi β
0j
, β
1j
. Các hệ
số β
0j
, β
1j
được giả thiết thay đổi giữa các trường và được xác định qua
các phần dư u
0j
, u
1j
.
Trong công thức (1.4) phần β
0
+ β
1
x
ij
bao gồm tất cả các hệ số
cố định, nên phần này được gọi là phần cố định của mô hình. Phần
(u
0j
+ u
1j
x
ij
+ e
0ij
) bao gồm tất cả các hệ số ngẫu nhiên, nên phần này
được gọi là phần ngẫu nhiên của mô hình. Như vậy biến đáp ứng y
ij
được coi là tổng của 1 phần cố định và 1 phần ngẫu nhiên .
Chúng ta có thể viết lại phần cố định của (1.4) dưới dạng ma trận:
E(Y ) = Xβ
Y = {y
ij
}
E(y
ij
) = X
ij
β = (Xβ)
ij
, X = {X
ij
}
Trong đó {} là kí hiệu ma trận, X là ma trận thiết kế của các biến giải
thích, ứng với mô hình (1.4) ta có X = {1X
ij
} .
Các biến ngẫu nhiên được coi như số dư và trong trường hợp mô hình
một mức số dư e
0ij
thường trở thành số dư của mô hình tuyến tính thông
thường.
Để mô hình có tính nhất quán, tức là mỗi hệ số phải gắn với một biến
giải thích, chúng ta có thể định nghĩa thêm một biến giải thích mới cho
hệ số chặn và số dư u
0j
tương ứng với nó, biến này được gọi là x
0ij
và
chỉ nhận một giá trị hằng số bằng 1.
13
Đặc điểm để phân biệt (1.4) với các mô hình hồi quy tuyến tính hoặc
mô hình phân tích phương sai thông thường là sự hiện diện của nhiều
hơn một số dư, điều này đưa đến đòi hỏi phải có thủ tục đặc biệt để
ước lượng các tham số. Chú ý rằng cấu trúc của phần ngẫu nhiên trong
mô hình đóng một vai trò then chốt. Đồng thời, trong phần cố định các
biến có thể được đo ở bất kỳ mức nào, ví dụ trong dữ liệu nghiên cứu
giáo dục trên đây, chúng ta có thể đo lường các đặc tính của nhà trường
hoặc của giáo viên. Chúng ta cũng có thể đưa vào mô hình các biến tổng
hợp, chẳng hạn như điểm trung bình môn toán của học sinh 8 tuổi ở mỗi
trường. Sự hiện diện của các biến đó không giúp cải thiện thủ tục ước
lượng. Hơn nữa, các kết quả thu được từ đó cũng cần được giải thích
một cách cẩn thận.
1.7 Hệ số tương quan nội tại
Trong phương trình (1.4) cần ước lượng 2 hệ số cố định β
0
, β
1
và 4
tham số khác là σ
2
u0
, σ
2
u1
, σ
2
u01
, σ
2
e0
. Đây là các tham số ngẫu nhiên tương
ứng với phương sai và hiệp phương sai.
Chúng ta bắt đầu xem xét mô hình 2 mức đơn giản nhất chỉ bao gồm
tham số ngẫu nhiên σ
2
u0
, σ
2
e0
,
var(y
ij
|β
0
, β
1
, x
ij
) = var(u
0
+ e
0ij
) = σ
2
u0
+ σ
2
e0
.
Đây là tổng phương sai ở mức 1 và mức 2.
Với dữ liệu nghiên cứu giáo dục xét đến trên đây, mô hình này cho
thấy phương sai toàn phần cho mỗi học sinh là hằng số và hiệp phương
sai giữa 2 học sinh (kí hiệu i
1
, i
2
) trong cùng một trường được cho bởi
14
cov(u
0j
+ e
i
1
j
, u
0j
+ e
i
2
j
) = cov(u
0j
, u
0j
) = σ
2
u0
vì các số dư ở mức 1 được giả sử là độc lập.
Sự không độc lập của các quan sát trong cùng một nhóm có thể được
biểu diễn qua một hệ số tương quan, hệ số tương quan nội tại nhóm, ký
hiệu là ρ. Do đó, hệ số tương quan giữa 2 học sinh là:
ρ =
σ
2
u0
σ
2
u0
+ σ
2
e0
Như vậy tương quan nội tại nhóm bằng tỷ lệ của phương sai mức
nhóm so với phương sai của toàn bộ ước lượng và nó được coi như là
tương quan nội tại trong đơn vị mức 2, trong trường hợp này là tương
quan nội tại lớp.
Trong mô hình 3 mức là các mức trường, lớp và học sinh, chúng ta
có 2 mối tương quan nội tại, đó là mối tương quan nội tại trường đo
bằng tỷ lệ phương sai giữa các trường trên toàn bộ các phương sai và
mối tương quan nội tại lớp đo tương ứng bằng tỷ lệ của phương sai giữa
các lớp học trên phương sai toàn phần.
Bây giờ chúng ta xem xét chi tiết hơn ở cấu trúc tập dữ liệu 2 mức,
xem xét cấu trúc của hiệp phương sai trong ma trận A. Đây là ma trận
hiệp phương sai cấp 3x3 cho điểm số của 3 học sinh trong một trường:
A =
σ
2
u0
+ σ
2
e0
σ
2
u0
σ
2
u0
σ
2
u0
σ
2
u0
+ σ
2
e0
σ
2
u0
σ
2
u0
σ
2
u0
σ
2
u0
+ σ
2
e0
Đối với 2 học sinh của một trường khác, ta có ma trận hiệp phương sai
15
cấp 2x2 sau đây:
B =
σ
2
u0
+ σ
2
e0
σ
2
u0
σ
2
u0
σ
2
u0
+ σ
2
e0
Xét đồng thời 5 học sinh của 2 trường trên, ma trận hiệp phương sai sẽ
là ma trận khối chéo
A 0
0 B
Cấu trúc khối chéo phản ánh thực tế là hiệp phương sai giữa các học
sinh trong các trường khác nhau bằng 0. Ta có thể mở rộng việc biểu
diễn dạng khối chéo như trên ra cho ma trận hiệp phương sai của nhiều
học sinh của một số lượng tùy ý các đơn vị mức 2.
Ma trận khối chéo trên đây có thể viết đơn giản lại thành
V
2
=
σ
2
u0
J(3) + σ
2
e0
I(3) 0
0 σ
2
u0
J(2) + σ
2
e0
I(2)
trong đó I(n) là ma trận đơn vị cấp nxn, J(n) là ma trận cấp nxn với
tất cả các phần tử bằng 1.
Trong mô hình hồi quy đơn bình phương bé nhất cổ điển, σ
2
u0
= 0 và
ma trận hiệp phương sai này được giản ước thành σ
2
I Với σ
2
là phương
sai của các phần dư.
16
1.8 Mô hình 2 mức tổng quát bao gồm các hệ số
ngẫu nhiên
Chúng ta có thể mở rộng (1.4) để có nhiều hơn các biến giải thích với
hệ số dốc cố định,
y
ij
= β
0
+ β
1
x
ij
+
p
h=2
β
h
x
hij
+ (u
0j
+ u
1ij
x
ij
+ e
0ij
)
Phương trình này có thể viết gọn lại thành
y
ij
= X
ij
β +
l
h=0
hu
hj
z
hij
+ e
0ij
z
0ij
trong đó, chúng ta sử dụng thêm biến giải thích Z cho phần ngẫu nhiên
của mô hình và viết một cách tổng quát là
Z = {Z
0
, Z
1
}
với Z
0
= {1} là vectơ bao gồm tất cả các thành phần bằng 1, còn
Z
1
= {x
1ij
}.
Một biến giải thích có thể được đo ở mức bất kỳ nào đó, ví dụ chúng
ta có các đặc điểm học sinh đo được ở mức 1, hoặc đặc điểm của trường
đo được ở mức 2.
Trong mô hình trên, hệ số dốc của biến giải thích X
1
có phần ngẫu
nhiên ở mức 2, làm nảy sinh cấu trúc khối. Ma trận Ω
2
là ma trận hiệp
phương sai của các phần ngẫu nhiên ở mức 2 của hệ số chặn và của hệ
số dốc. Ma trận Ω
1
là ma trận hiệp phương sai các hệ số ngẫu nhiên mức
1. Trong này chỉ có duy nhất một thành phần phương sai ở mức 1. Ký
17
hiệu
A = (σ
2
u0
+ 2σ
u01
x
1j
+ σ
2
u1
x
2
1j
+ σ
2
e0
)
B = (σ
2
u0
+ σ
u01
(x
1j
+ x
2j
) + σ
2
u1
x
2
1j
x
2
2j
C = (σ
2
u0
+ 2σ
u01
x
2j
+ σ
2
u1
x
2
2j
+ σ
2
e0
)
Khi đó
A B
B C
= X
j
Ω
2
X
T
j
+
Ω
1
Ω
1
X
j
=
1 x
1j
1
2j
, Ω
2
=
σ
2
u0
σ
u01
σ
u01
σ
2
u1
, Ω
1
= σ
2
e0
1.9 Ước lượng cho mô hình nhiều mức
Bây giờ, chúng ta trình bày khái quát về phương pháp Ước lượng bình
phương bé nhất suy rộng (GLS). Xét mô hình đa thành phần phương
sai 2 mức đơn giản
y
ij
= β
0
+ β
1
x
ij
+ u
0j
+ e
0ij
(1.5)
trong đó, u
0j
≈ N(0, σ
2
u0
), e
0ij
≈ N(0, σ
2
e0
)
Giả sử chúng ta đã biết giá trị của các phương sai, khi đó có thể xây
dựng ngay ma trận hiệp phương sai dạng khối chéo, ký hiệu là V. Chúng
ta có thể dùng thủ tục ước lượng bình phương bé nhất thông thường để
thu được ước lượng cho các hệ số cố định:
ˆ
β = (X
T
V
−1
X)
−1
X
T
V
−1
Y (1.6)
18
trong đó
X =
1 x
11
1 x
21
.
.
.
.
.
.
1 x
n
m
m
, Y =
y
11
y
21
.
.
.
y
n
m
m
(1.7)
Với m là số đơn vị mức 2 và n
j
số đơn vị mức 1 trong đơn vị thứ j
mức 2. Khi số dư có phân phối chuẩn, (1.6) cũng cung cấp các ước lượng
hợp lý cực đại.
Thủ tục tính lặp sẽ được sử dụng trong quá trình ước lượng các tham
số của mô hình trong phần tiếp sau đây. Chúng ta bắt đầu từ việc ước
lượng một cách hợp lý các tham số cố định. Người ta thường sử dụng
phương pháp ước lượng bình phương bé nhất cổ điển và giả định σ
2
u0
= 0
để ước lượng giá trị ban đầu của hệ số cố định
ˆ
β
0
. Từ đó ta có công thức
tính các số dư thô
˜y
ij
= y
ij
−
ˆ
β
0
−
ˆ
β
1
x
ij
(1.8)
Vec tơ các số dư thô được viết thành
˜
Y = {˜y
ij
}
Xem xét ma trận tích chéo
˜
Y
˜
Y
T
chúng ta thấy kỳ vọng của ma trận
này chính là ma trận hiệp phương sai V. Như vậy, chúng ta có thể sử
dụng ma trận tích chéo đó thay cho vai trò của ma trận hiệp phương sai
trong bước tiếp theo của quá trình lặp.
Chúng ta có thể sắp xếp lại ma trận tích chéo này thành một vectơ
bằng cách lần lượt nối chồng cột trước lên cột tiếp theo của ma trận.
19
Mối liên hệ giữa vectơ này và giá trị của các phương sai có thể được biểu
diễn như mô hình hồi quy tuyến tính sau:
˜y
2
11
˜y
2
21
.
.
.
˜y
2
n
m
m
=
σ
2
u0
+ σ
2
e0
σ
2
u0
.
.
.
σ
2
u0
+ σ
2
e0
+R = σ
2
u0
1
1
.
.
.
1
+σ
2
e0
1
0
.
.
.
1
+R (1.9)
trong đó, R là vectơ số dư .
Vế trái của (1.9) là vectơ đáp ứng trong mô hình hồi quy tuyến tính
và vế phải bao gồm 2 biến giải thích, với các hệ số σ
2
u0
, σ
2
e0
tương ứng
cần ước lượng. Việc giải phương trình hồi quy trên đây sẽ cung cấp cho
chúng ta giá trị ước lượng của các phương sai, qua đó xác định được giá
trị mới của ma trận hiệp phương sai V. Đưa ma trận mới thu được vào
(1.6), chúng ta thu được ước lượng mới của các tham số cố định và sử
dụng chúng vào chu trình tiếp theo của quá trình lặp.
Ước lượng các tham số cố định đến khi chúng hội tụ, tức là khi giá
trị của các tham số tại hai bước lặp liên tiếp không thay đổi một cách
đáng kể. Cuối cùng chúng ta sẽ thu được ước lượng xấp xỉ của các tham
số cố định và các tham số ngẫu nhiên của mô hình hồi quy nhiều mức.
Tổng hợp lại, quá trình ước lượng tham số bằng phương pháp bình
phương bé nhất suy rộng gồm các bước sau:
+) Bước 1: Nhập số liệu.
+) Bước 2: Cho (σ
2
u0
= 0) , ước lượng “thô” ma trận hiệp phương sai
V.
+) Bước 3: Ước lượng
ˆ
β = (X
T
V
−1
X)
−1
X
T
V
−1
Y
20
+) Bước 4: Giải phương trình hồi quy (1.9) để ước lượng σ
2
u0
, σ
2
e0
+) Bước 5: Kiểm tra tính hội tụ của các tham số σ
2
u0
và σ
2
e0
.
Nếu chúng hội tụ thì quá trình kết thúc. Ngược lại, chúng ta lại lập
ma trận hiệp phương sai V từ các giá trị của σ
2
u0
và σ
2
e0
, sau đó quay lại
bước 3 và bắt đầu một chu trình mới.
1.10 Số dư trong mô hình 2 mức
Trong mô hình 1 mức đơn như (1.1), chúng ta thường ước lượng số
dư một cách đơn giản bằng . Trong mô hình nhiều mức, chúng ta thường
có nhiều số dư ở các mức khác nhau. Cách ước lượng của các số dư đó
được trình bày tiếp sau đây.
Cho trước giá trị ước lượng của các tham số ước lượng, ta xem xét dự
đoán giá trị của từng số dư cụ thể, chẳng hạn như ứng với mức 2 trong
mô hình nhiều thành phần phương sai. Đối với mỗi đơn vị ở mức 2 phải
có
ˆu = E(u
0j
|Y,
ˆ
β,
ˆ
Ω) (1.10)
Chúng ta sẽ coi đó là các số dư được ước lượng hoặc số dư được dự
đoán. Nếu bỏ qua phần biến động do chọn mẫu có thể xuất hiện khi ước
lượng tham số trong (1.10), chúng ta có
cov(˜y
ij
, u
0j
) = var(u
0j
) = σ
2
u0
cov(˜y
ij
, e
0ij
) = σ
2
e0
(1.11)
var(˜y
ij
) = σ
2
u0
+ σ
2
e0
Chúng ta coi (1.10) như là mô hình hồi quy tuyến tính của u
0j
trên tập
21
của {˜y
ij
} cho đơn vị mức 2 thứ j , còn (1.11) xác định các đại lượng cần
ước lượng cho các hệ số hồi quy và đó chính là u
0j
.
Đối với mô hình nhiều thành phần phương sai chúng ta thu được
ˆu
0j
=
n
j
σ
2
u
(n
j
σ
2
u
+ σ
2
e0
)
˜y
j
ˆe
0ij
= ˜y
ij
− ˆu
0j
˜y
j
=
i=1
˜y
ij
/n
j
Trong đó n
j
là số đơn vị mức 1 trong đơn vị mức 2 thứ j. Các ước
lượng số dư là chệch nhưng vững. Thừa số
n
j
σ
2
u
(n
j
σ
2
u
+ σ
2
e0
)
nhân với trung
bình của sai số thô thường được coi là nhân tố co vì luôn có giá trị nhỏ
hơn hoặc bằng 1. Khi n
j
tăng nhân tố này tiến dần đến 1, và khi số
lượng những đơn vị mức 1 trong một đơn vị mức 2 giảm, thì nhân tố
ước lượng co của u
0j
tiến gần đến 0 hơn.
Như vậy, các số dư đó có 2 vai trò. Có thể diễn giải chúng như các
biến ngẫu nhiên với phân phối mà giá trị tham số của nó cho ta biết độ
biến động giữa những đơn vị mức 2, cung cấp ước lượng hiệu quả cho
các hệ số cố định. Mặt khác, có thể coi chúng được như ước lượng đơn
lẻ của mỗi đơn vị mức 2 khi ta sử dụng giả thiết cho rằng chúng thuộc
về quần thể của các đơn vị dùng để dự đoán của chúng. Cụ thể, đối với
những đơn vị mức 2 mà ở đó chỉ có vài đơn vị mức 1, nếu khai thác cả
các thông tin từ các đơn vị mức 2 khác, chúng ta có thể thu được ước
lượng chính xác hơn là khi nếu chúng ta chỉ dùng thông tin của riêng
từng đơn vị mức 2 này. Điều này đặc biệt quan trọng đối với việc ước
lượng số dư của các hệ số ngẫu nhiên trong trường hợp mỗi đơn vị mức
22
2 chỉ có 1 đơn vị mức 1.
Như trong những mô hình một mức, chúng ta có thể sử dụng những
số dư ước lượng được để kiểm tra giả thiết của mô hình. Có hai giả thiết
thường được xét đến là giả thiết về tính phân phối chuẩn và tính phương
sai bất biến trong mô hình. Chúng ta cần có ước lượng khoảng của các
tham số cũng như xác suất ý nghĩa của ước lượng điểm cho các số dư
hoặc các hàm của chúng. Các vấn đề đó được xét đến trong các mục tiếp
theo đây.
1.11 Ước lượng số dư trong mô hình nhiều mức
Tập hợp của m
h
số dư ở mức h trong mô hình nhiều mức được cho
bởi
P
h
= {P
h
1
, . . . , P
h
m
h
}, P
T
h
i
= {P
h
i
1
, . . . , P
h
i
n
h
}
ở đó n
h
là số đơn vị mức h. Các số dư ở bất kỳ mức nào sẽ độc lập
với bất kỳ một số dư ở mức khác . Chúng ta quy định ước lượng số dư
được cho bởi
ˆ
P
h
i
= E(P
h
i
|
˜
Y , V )
với
˜
Y = Y − Xβ.
Chúng ta xem xét đường hồi quy của tập tất cả các số dư P
h
trên
˜
Y
đưa ra ước lượng
ˆ
P
h
= R
T
h
V
−1
˜
Y (1.12)
với R
h
là ma trận khối chéo, mỗi khối tương ứng với một đơn vị mức h
và khối thứ j được cho bởi Z
h
(j)
Ω
h
, với Z
h
(j)
là ma trận của các biến giải
thích với các hệ số ngẫu nhiên ở mức h. Chúng ta thu được các ước lượng
23
vững bằng cách thế một cách thích hợp các tham số trong (1.12) bằng
các ước lượng mẫu. Các ước lượng này là các hàm tuyến tính của các
giá trị đáp ứng và ma trận hiệp phương sai không điều kiện của chúng
được cho bởi
R
T
h
V
−1
(V − X(X
T
V
−1
)
−1
X
T
)V
−1
R
h
(1.13)
Chú ý rằng không có hiệp phương sai giữa các đơn vị cùng mức Khi
muốn nghiên cứu các tính chất phân bố của số dư chuẩn hóa, ta có thể
dùng ma trận hiệp phương sai không điều kiện (1.13) để tiến hành chuẩn
hóa các số dư ước lượng được. Tuy nhiên, nếu ta đưa ra suy luận thống
kê cho giá trị đúng của P
h
j
, chẳng hạn như về khoảng tin cậy hoặc kiểm
định sự khác nhau, thì cần sử dụng ma trận hiệp phương sai có điều
kiện của
ˆ
P
h
hoặc E[(
ˆ
P
h
− P
h
)(
ˆ
P
h
− P
h
)
T
] được đưa ra bằng cách gán các
tham số ước lượng được vào
S
h
− R
T
h
V
−1
V − X(X
T
V
−1
X)
−1
X
T
V
−1
R
h
với S
h
là ma trận khối chéo, mỗi khối tương ứng đơn vị với mức h là
Ω
h
.
1.12 Kiểm định giả thuyết và khoảng tin cậy
Trong phần này, chúng ta làm việc với các thủ tục liên quan đến các
mẫu cỡ lớn để đưa ra ước lượng khoảng cho các tham số hoặc các hàm
tuyến tính của các tham số và tiến hành kiểm định các giả thuyết.
24