Tải bản đầy đủ (.pdf) (65 trang)

Phân tích tình hình chăm sóc sức khỏe cộng đồng huyện thái thụy bằng phương pháp thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1017.59 KB, 65 trang )

Mục lục
1 Phân tích thống kê nhiều mức 5
1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Mô hình hai mức . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Mô hình hồi quy tuyến tính đơn hai mức . . . . . . . . . . 7
1.2.2 Ước lượng các tham số cho mô hình đơn biến hai mức . . . 10
1.2.3 Phần dư trong mô hình hai mức . . . . . . . . . . . . . . . 11
1.2.4 Gán trọng số cho các đơn vị . . . . . . . . . . . . . . . . . . 12
1.2.5 Ước lượng Jacknife và ước lượng Bootstrap . . . . . . . . . 14
1.2.6 Mô hình hồi quy đa biến hai mức . . . . . . . . . . . . . . 16
1.2.7 Mở rộng mô hình hai mức . . . . . . . . . . . . . . . . . . . 17
1.3 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.1 Mô hình nhiều mức . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.2 Ước lượng các tham số . . . . . . . . . . . . . . . . . . . . . 19
1.3.3 Xác định giá trị ban đầu của quá trình lặp . . . . . . . . . 21
1.4 Kiểm định sự phù hợp của mô hình . . . . . . . . . . . . . . . . . . 22
1.4.1 Kiểm định một hệ số hồi quy . . . . . . . . . . . . . . . . . 22
1.4.2 Kiểm định sự phù hợp của mô hình . . . . . . . . . . . . . 23
1.5 Phân tích thành phần chính . . . . . . . . . . . . . . . . . . . . . . 24
2 Phân tích tình hình chăm sóc sức khỏe cộng đồng huyện Thái
Thụy 27
2.1 Vài nét về lịch sử phát triển, tự nhiên xã hội huyện Thái Thụy . . 27
2.2 Mô tả số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Một số kết quả phân tích . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.1 Phân tích tác động đến tỷ lệ trẻ em chết dưới 1 tuổi . . . 42
2.3.2 Phân tích tác động đến tỷ lệ sinh con thứ 3 . . . . . . . . . 43
2.3.3 Phân tích sự tác động đến tỷ lệ phá thai . . . . . . . . . . 45
2.3.4 Phân tích tác động đến bệnh viêm phổi . . . . . . . . . . . 47
2.3.5 Phân tích các tác động đến tỷ lệ xét nghiệm sốt rét . . . . 49
2.3.6 Phân tích các tác động đến tỷ lệ nhiễm HIV . . . . . . . . 50
1


2.3.7 Phân tích các tác động ảnh hưởng đến tỷ lệ mắc bệnh tiêu
chảy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.3.8 Phân tích các tác động lên bệnh thông thường . . . . . . 53
2.4 Bàn luận và kiến nghị . . . . . . . . . . . . . . . . . . . . . . . . . 54
2
Lời mở đầu
Hiện nay, song song với việc phát triển kinh tế, giáo dục thì việc chăm
sóc sức khỏe cộng đồng là một trong những vấn đề được Đảng, Chính phủ
và ngành Y tế hết sức quan tâm. Đã có nhiều chính sách chiến lược được
đưa ra nhằm phát triển hệ thống y tế, đặc biệt là các cơ sở y tế cấp địa
phương. Vấn đề được đặt ra để có những thay đổi sao cho phù hợp các
tình hình thực tế ở các địa phương, chúng ta cần có những cơ sở lý thuyết
làm bằng chứng khoa học xác đáng nhằm hỗ trợ cho việc nghiên cứu hoạch
định chính sách quản lý y tế. Vì vậy bản luận văn này là một thử nghiệm
nghiên cứu định lượng nhằm mô tả tình hình chăm sóc sức khỏe cộng đồng
ở huyện Thái Thụy, đồng thời tác giả cũng mạnh dạn đưa ra những kiến
nghị để có được những biện pháp tích cực phù hợp với thực tế địa phương,
cải thiện tình hình chăm sóc sức khỏe cộng đồng.
Luận văn bao gồm hai chương. Chương 1 sẽ trình bày cơ sở lý thuyết,
phương pháp thống kê được sử dụng trong nghiên cứu này, đó là phương
pháp phân tích nhiều mức được trình bày dựa trên cơ sở phân tích hồi quy
bội một mức rồi mở rộng cho mô hình hai mức và tương tự cho các mức
cao hơn. Chương 2 mô tả số liệu và trình bày một số kết quả phân tích
các yếu tố ảnh hưởng đến tỷ lệ tử vong, tỷ lệ sinh con thứ 3 và các loại
bệnh tật. Sau đó sẽ tập trung vào lý giải các kết quả có được và đưa ra
một số kiến nghị nhằm xây dựng chiến lược y tế sao cho phù hợp với nhu
cầu và yêu cầu thực tế của xã hội.
Luận văn được hoàn thành dưới sự hướng dẫn của PGS – TS Hồ Đăng
3
Phúc, Viện Toán Học – Viện Hàn Lâm Khoa Học Và Công Nghệ Việt

Nam. Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới thầy, người đã
chỉ dẫn tận tình và giúp đỡ tôi trong suốt quá trình hoàn thành luận văn
này.
Đặc biệt, tôi xin gửi lời cảm ơn chân thành đến Ban giám đốc Trung
Tâm Y Tế Dự phòng Huyện Thái Thụy đã tận tình giúp đỡ và cung cấp
số liệu đầy đủ cho nghiên cứu, nếu thiếu số liệu quý báu này thì luận văn
này sẽ không thể thực hiện được.
Tôi xin gửi lời cảm ơn sâu sắc đến gia đình đã tạo mọi điều kiện để tôi
có thể hoàn thành luận văn. Đồng thời tôi xin cảm ơn đến anh chị em lớp
cao học Lý thuyết xác suất và Thống kê toán học khóa 2011 – 2013 đã có
những đóng góp chân thành giúp tôi hoàn thành luận văn của mình.
Tuy đã có nhiều cố gắng nhưng bản luận văn này không tránh khỏi
những thiếu xót, tôi rất mong nhận được sự đóng góp ý kiến của các thầy
cô, các nhà nghiên cứu Xác suất Thống kê và độc giả quan tâm để bản
luận văn này được hoàn thiện hơn. Tôi xin chân thành cảm ơn.
Hà Nội, tháng 10 năm 2014
4
Chương 1
Phân tích thống kê
nhiều mức
1.1 Giới thiệu
Trong các nghiên cứu khoa học về sinh học và con người, chúng ta có
nhiều loại dữ liệu bao gồm dữ liệu dữ liệu các quan sát thu thập được, dữ
liệu có cấu trúc lặp hoặc cấu trúc thứ tự. Chẳng hạn như khi nghiên cứu
về con người và động vật với hệ thống phân mức tự nhiên mà mỗi cá thể
được nhóm thành các gia đình. Những con người có cùng cha mẹ sinh ra
sẽ có những đặc tính giống nhau về thể chất, tính cách hơn những người
không cùng cha mẹ sinh ra. Do đó cá thể trong gia đình nói trên là đơn
vị mức một trong cấu trúc hai mức mà mức hai có đơn vị là gia đình, hay
học sinh có thể là đơn vị mức một trong cấu trúc hai mức mà mức hai

có đơn vị là trường. Các thành viên trong nhóm cũng có xu hướng hoạt
động khác nhau, tuy nhiên luôn tồn tại sự tác động qua lại giữa các thành
viên trong nhóm. Nếu bỏ qua mối quan hệ đó có thể không thấy được tầm
quan trọng của tác động nhóm, từ đó dẫn đến những kết quả không hợp
lý khi sử dụng kỹ thuật phân tích cổ điển trong việc nghiên cứu các mối
5
quan hệ giữa chúng.
Hệ thống trường học cho chúng ta cái nhìn rõ ràng về cấu trúc phân
mức, với học sinh được phân thành nhóm hoặc được ghép với nhau thành
lớp học. Các lớp lại được tổ chức trong một đơn vị mức cao hơn là trường.
Các nhà khoa học thường quan tâm đến việc so sánh thành tích học tập
của học sinh, việc so sánh đó nhằm nâng cao thành tích học tập và trách
nhiệm chung trong giáo dục. Họ đã chọn ngẫu nhiên một số trường phổ
thông và tiến hành điều tra kết quả học tập vào cuối năm để biết việc
giảng dạy mỗi môn học cụ thể trong trường có liên hệ như thế nào đến với
kết quả cuối năm học. Người ta còn có những tiêu chí đánh giá đầu vào
của học sinh khi bắt đầu nhập học làm cơ sở để phân tích thành tích học
tập của học sinh.
Phương pháp truyền thống để phân tích dữ liệu kiểu này là phân tích
hồi quy, dựa vào điểm số để nghiên cứu quan hệ giữa việc phân mức hiện
tại và thành tích học tập của học sinh.
Phân tích chỉ ra rằng mô hình nhiều mức có nhiều ưu điểm hơn. Đầu
tiên, nó cho phép các nhà nghiên cứu có được ước lượng hiệu quả của hệ
số hồi quy. Thứ hai, bằng cách sử dụng thông tin phân mức ta có thể thu
được một cách đúng hơn độ lệch tiêu chuẩn, khoảng tin cậy và tiêu chuẩn
kiểm định. Các kết quả này thường chính xác hơn so với phương pháp
cổ điển mà trong đó bỏ qua sự ảnh hưởng của phân mức. Thứ ba, bằng
phương pháp này ta có thể tính được hiệp phương sai ở từng mức, điều
này giúp các nhà nghiên cứu chỉ ra sự khác biệt về kết quả học tập giữa
các trường là do phương thức giáo dục hay đặc điểm học sinh. Ngoài ra ta

có thể nghiên cứu mở rộng ra các đối tượng sinh viên ở các trường khác
nhau. Chẳng hạn liệu sự khác biệt giữa sinh viên đầu vào cao hơn so với
các trường có đầu vào thấp hơn có là nhân tố để giải thích sự khác nhau
về thành tích học tập trong quá trình học tập của sinh viên hay không.
6
1.2 Mô hình hai mức
1.2.1 Mô hình hồi quy tuyến tính đơn hai mức
Xét tập dữ liệu bao gồm thông tin học sinh của một số trường cấp 3.
Người ta xem xét điểm thi toán vào lớp 10 và điểm thi tốt nghiệp của học
sinh các trường đó, dữ liệu đó có cấu trúc nhiều mức. Có thể coi học sinh
là đơn vị của mức 1, mỗi trường là đơn vị của mức 2. Xét mô hình hồi quy
tuyến tính đơn mức cho một trường nào đó đã được chọn, thể hiện quan
hệ giữa điểm thi toán tốt nghiệp so với điểm thi toán vào lớp 10
y
i
= α + βx
i
+ e
i
(1.1)
với α là hệ số chặn, β là hệ số dốc, e
i
là phần dư. Đây được gọi là mô
hình một mức. Để mô tả mối liên hệ đồng thời cho nhiều trường, chẳng
hạn trường j ta viết
y
ij
= α
j
+ β

j
x
ij
+ e
ij
(1.2)
Ở đây j được đánh dấu cho đơn vị mức 2, chỉ số i đánh dấu cho đơn vị
mức 1.
Về mặt hình thức thì (1.2) vẫn là mô hình một mức dù sự mô tả tách
biết cho mỗi trường. Trong một vài trường hợp, chẳng han như có ít trường
được chọn hoặc sự quan tâm tập trung vào một số trường nào đó, mô hình
(1.2) được sử dụng để phân tích, khi đó cần ước lượng 2n + 1 tham số đó
là (α
j
, β
j
) với j = 1, 2, , n và σ
2
e
.
Giả thiết ở đây là mô hình có chung phương sai phần dư và đường
thẳng hồi quy biểu diễn cho mỗi trường là khác biệt. Nếu mong muốn
không chỉ tập trung vào các trường này mà còn mở rộng ra nghiên cứu ở
các trường khác thì chúng ta cần coi các trường cần nghiên cứu mang các
đặc tính của trường được chọn. Như vậy ta chỉ chọn các mẫu ngẫu nhiên
của cá thể để cung cấp nghiên cứu đưa ra các kì vọng lí thuyết, vì vậy
mỗi mẫu ngẫu nhiên các trường được chọn có thể cung cấp thông tin về
7
tình hình chung của tất cả các trường. Nói riêng, nghiên cứu một mẫu có
thể đưa ra ước lượng phương sai, hiệp phương sai giữa các trường. Một

trường hợp quan trọng xuất hiện khi ta mong muốn thông tin về từng
trường trong mẫu nhưng do số lượng các trường trong mẫu lớn nên (1.2)
đòi hỏi phải ước lượng rất nhiều tham số. Hơn nữa, một số trường khá ít
học sinh và việc áp dụng (1.2) sẽ dẫn đến các ước lượng thiếu chính xác.
Trong trường hợp đó ta coi trường này như phần tử của đám đông và sử
dụng các ước lượng, kỳ vọng, phương sai mẫu ta có thể ước lượng chính
xác hơn.
Để đưa (1.2) về hai mức ta coi α
j
, β
j
là các biến ngẫu nhiên. Ta thay
α
j
bởi β
0j
, β
j
bởi β
1j
. Giả sử
β
0j
= β
0
+ u
0j
,
β
1j

= β
1
+ u
1j
(1.3)
với u
0j
, u
1j
là các biến nhiên sao cho
E(u
0j
) = E(u
1j
) = 0
var(u
0j
) = σ
2
u0
, var(u
1j
) = σ
2
u1
, cov(u
0j
, u
1j
) = σ

u01
.
Khi đó (1.2) được viết lại thành
y
ij
= β
0
+ β
1
x
ij
+ (u
0j
+ u
1j
x
ij
+ e
0ij
),
var(e
ij
) = σ
2
e0
.
(1.4)
Ta vừa biểu diễn y
ij
như tổng thành phần cố định và phần ngẫu nhiên.

Thành phần cố định được viết dưới dạng ma trận như sau
E(Y ) = Xβ, với Y = {y
ij
};
E(y
ij
) = X
ij
β = (Xβ)
ij
, X = {X
ij
}.
Đặc biệt khi kí hiệu gộp lại
u
j
= (u
0j
, u
1j
)
T
; x
ij
= (1, x
ij
)
T
; β = (β
0

, β
1
)
T
, z
ij
= x
ij
8
thì (1.4) được viết lại thành
y
ij
= x
T
ij
u
i
+ z
T
ij
β + e
ij
. (1.5)
Các biến ngẫu nhiên được xem như phần dư và trong trường hợp mô
hình một mức, phần dư mức 1 là e
0ij
trở thành phần dư của mô hình tuyến
tính thông thường.
Mô hình hồi quy (1.4) khác biệt so với mô hình thông thường là sự có
mặt nhiều hơn một thành phấn số dư. Điều đó đưa đến việc phải có cách

đặc biệt hơn để ước lượng các tham số. Nó đòi hỏi ước lượng như vậy cho
hai hệ số β
0
và β
1
. Chúng ta xem phương sai và hiệp phương sai như các
biến ngẫu nhiên. Ta bắt đầu với mô hình hai mức đơn giản nhất chỉ gồm
hai tham số σ
2
u0
, σ
2
e0
. Khi đó thành phần dự báo có được là
V ar

y
ij

0
, β
1
, x
ij

= var(u
0j
+ e
0ij
)

= E(u
0j
+ e
0ij
)
2
− [E(u
0j
+ e
0ij
)]
2
= σ
2
u0
+ σ
2
e0
.
Đây là tổng phương sai mức một và một phương sai mức hai. Khi đó
phương sai ở mức một cá thể là hằng số và hiệp phương sai giữa hai cá
thể trong một đơn vị mức 2 được cho bởi
cov(u
0j
+ e
0i
1
j
; u
0j

+ e
e0i
2
j
)
= cov(u
0j
, u
0j
+ e
0i
2
j
+ cov(e
0i
1
j
; u
0j
+ e
0i
2
j
)
= cov(u
0j
, u
0j
) + cov(u
0j

, e
0i
2
j
) + cov(e
0i
2
j
, u
0j
) + cov(e
0i
2
j
, e
0i
2
j
)
= σ
2
u0
.
Vì các số dư ở mức 1 được giải thích độc lâp với nhau. Từ đó mối tương
quan giữa hai cá thể trong cùng một đơn vị mức 2 được cho bởi
ρ =
σ
2
u0
σ

2
u0
+ σ
2
e0
(1.6)
đại lượng này được xem như hệ số tương quan nội tại đơn vị mức hai.
9
1.2.2 Ước lượng các tham số cho mô hình đơn biến
hai mức
Xét mô hình phương sai thành phần đơn biến hai mức
y
ij
= β
0
+ β
1
x
ij
+ u
0j
+ e
0ij
. (1.7)
Trong mô hình này chỉ có hệ số chặn là ngẫu nhiên. Giả sử đã biết các giá
trị của phương sai, dùng phương pháp bình phương bé nhất tổng quát để
tìm được ước lượng
ˆ
β của hệ số cố định
ˆ

β = (X
T
V
−1
X)
−1
X
T
V
−1
Y (1.8)
trong đó







1 x
11
1 x
21

1 x
n
m
m








; Y =







y
11
y
21

y
n
m
m







(1.9)

với m là đơn vị mức 2, n
j
là đơn vị mức một trong đơn vị mức hai thứ j.
Quá trình ước lượng là quá trình lặp thường bắt đầu từ giá trị β
0
, β
1
nào
đó được xác định bằng phương pháp bình phương nhỏ nhất, thông thường
khi giá trị σ
2
u0
= 0. Từ đó phần dư
˜y
ij
= y
ij

ˆ
β
0

ˆ
β
1
x
ij
(1.10)
Vectơ hàng biểu diễn phần dư được viết lại là
˜

Y = {˜y
ij
}
Rõ ràng kỳ vọng của ma trận
˜
Y
˜
Y
T
chính là V. Ta có thể sắp xếp lại ma
trận đó như một vectơ kí hiệu là V ec(
˜
Y
˜
Y
T
.) Tương tự ta có thể xây dựng
cấu trúc Vec(V) của ma trận V. Mối quan hệ giữa hai vectơ này có thể
10
được biểu diễn bằng mô hình tuyến tính sau
˜
Y
˜
Y
T
=








˜y
2
11
˜y
21
˜y
11

˜y
2
22







=







σ

2
u0
+ σ
2
e0
σ
2
u0

σ
2
u0
+ σ
2
e0







+ R = σ
2
u0








1
1

1







+ σ
2
e0







1
0

1








+ R
(1.11)
với R là vecto phần dư. Cấu trúc của (1.11) là tương ứng trong mô hình
tuyến tính, qua đó có thể ước lượng các hệ số σ
2
u0
, σ
2
e0
bằng phương pháp
bình phương bé nhất. Từ đó, ta ước lượng được ma trận
V =







σ
2
u0
+ σ
2
e0
σ

2
u0
σ
2
u0
σ
2
u0
+ σ
2
e0
σ
2
u0

σ
2
u0
σ
2
u0
+ σ
2
e0








Đưa ma trận V mới ước lượng về (1.8) ta sẽ tính được
ˆ
β. Tiếp đó thay
ˆ
β
vào (1.10) và lặp lại quá trình trên. Quá tình lặp được thực hiện cho đến
khi nhận được giá trị ước lượng ổn định.
1.2.3 Phần dư trong mô hình hai mức
Trong mô hình (1.1) ước lượng thông thường cho phần dư e
i
chỉ là ˜y
i
.
Tuy nhiên trong mô hình nhiều mức ta sẽ có tham số phần dư ở các mức
khác nhau. Ta sẽ ước lượng cho phần dư ở từng mức cụ thể. Cho trước
tham số cần ước lượng, ta đi ước lượng các tham số phần dư, gọi u
0j

sai số mô hình thành phần ở mức 2. Cụ thể, ta xét mô hình 2 mức
ˆu
0j
= E(u
0j
|Y,
ˆ
β,
ˆ
Ω) (1.12)
11

Nếu bỏ qua phương sai mẫu mà chỉ ước lượng các tham số trong (1.12) ta

cov(˜y
ij
, u
0j
) = cov(y
ij

ˆ
β
0

ˆ
β
1
x
ij
; u
0j
)
= cov[(β
0

ˆ
β
0
) + (β
1


ˆ
β
1
)x
ij
+ u
0j
+ u
1j
x
ij
+ e
0ij
; u
0j
]
= cov[(u
0j
+ u
1j
x
ij
+ e
0ij
); u
0j
]
= var(u
0j
) = σ

2
u0
cov(˜y
ij
, e
0ij
) = cov(u
0j
+ u
1j
x
ij
+ e
0ij
, e
0ij
)
= var(e0ij) = σ
2
e0
var(˜y
ij
) = cov(˜y
ij
, ˜y
ij
) = cov(u
0j
+ u
1j

x
ij
+ e
0ij
; u
0j
+ u
1j
x
ij
+ e
0ij
)
= cov(u
0j
, u
0j
) + cov(e
0ij
, e
0ij
)
= σ
2
u0
+ σ
2
e0
Ta thấy (1.12) là mô hình hồi quy tuyến tính của u
0j

trên các đơn vị hai
mức {˜y
ij
} với chỉ số j dùng cho mức 2 và (1.7) xác định các đại lượng cần
thiết để ước lượng hệ số hồi quy. Đối với mô hình phương sai thành phần
ta thu được
u
0j
=
u
j
σ
2
u
(n
j
σ
2
u
− σ
2
e0
)
˜y
j
˜e
0ij
= ˜y
ij
− ˆu

0j
˜y
j
= (

˜y
ij
)/n
j
với n
j
là số các phần tử ở mức 1, ước lượng phần dư là phù hợp. Giá trị
trung bình nhiều mức ˜y
j
của phần dư thứ j được gọi là "hệ số co" vì nó
luôn bé hơn hoặc bằng 1.
1.2.4 Gán trọng số cho các đơn vị
Xét mô hình hai mức, kí hiệu w
j
để chỉ trọng số đơn vị mức 2 thứ j và
kí hiệu w
i|j
để chỉ trọng số mức 1 thứ i trong mức 2 thứ j sao cho

i
w
i|j
= n
j
;


j
w
j
= J (1.13)
12
với J là số đơn vị mức 2 và N =

j
n
j
là số đơn vị mức 1. Ta viết
W
ij
= Nw
i|j|
w
j
/

w
i|j|
w
j
= Nw
i|j|
w
j
/


n
j
w
j
(1.14)
Kí hiệu Z
u
, Z
e
tương ứng là tập hợp các biến giải thích xác định trong mức
2, mức 1.
Z

u
= W
j
Z
u
, W
j
= diag{w
−0.5
j
}
Z

e
= W
j
Z

e
, W
ij
= diag{w
−0.5
j
}
Đối với mô hình 3 mức ta có

i
w
i|jk
= n
jk
;

j
w
j|k
= J
k
,

k
w
k
= k
N =

jk

n
jk
; J =

k
J
k
W
ijk
= Nw
i|jk
w
j|k
w
k
/

ijk
w
i|jk
w
j|k
w
k
W
jk
= Jw
j|k
w
k

/

jk
w
j|k
w
k
Kí hiệu V

là ma trận trọng số trong phân tích.
Dưới đây ta đưa ra quy tắc ước lượng để sử dụng Z

u
, Z

e
như là hệ số cố
định và ma trận hiệp phương sai được ước lượng theo thủ tục tương tự
như đã trình bày ở mục 1.2.3, ta sử dụng công thức
ˆ
β = (X
T
V

X)
−1
X
T
V


−1
Y
cov(
ˆ
β) = (X
T
V

X)
−1
X
T
V

−1
V V

−1
(X
T
V

X)
−1
Để tính phần dư ta có thể ước lượng như sau
ˆp
2
= Ω
2
Z


u
T
V

−1
˜
Y
cov(ˆp
2
) = Ω
2
Z

u
T
V

−1
(V )V

−1
Z

u

2
V = E(
˜
Y

˜
Y
T
)
13
1.2.5 Ước lượng Jacknife và ước lượng Bootstrap
Cho đến thời điểm này ta luôn giả thiết rằng các biến phụ thuộc đều có
phân bố chuẩn và việc xuất phát từ các phân bố chuẩn là có ý nghĩa quan
trọng. Tuy nhiên, ta thấy rằng các dữ liệu thu thập từ thực tế thường là
dữ liệu rời rạc hoặc không đối xứng. Ước lượng của các tham số cố định
và các tham số ngẫu nhiên vẫn phù hợp khi tính chuẩn không thỏa mãn,
nhưng sai số tiêu chuẩn không thể được sử dụng để tính khoảng tin cậy
hoặc kiểm định giả thuyết trừ khi mẫu rất lớn.
Cách để khắc phục vấn đề này là phát triển các phương pháp ước lượng
dựa trên các giả định phân phối khác. Trong chương sau chúng ta sẽ áp
dụng phương pháp đó khi làm việc với dữ liệu rời rạc và dữ liệu có thứ tự.
Phương pháp thay thế khác là thay đổi cách tính sai số tiêu chuẩn và
khoảng tin cậy sao cho chúng ít phụ thuộc vào phân phối ban đầu của dữ
liệu. Một trong các nhược điểm của phương pháp này là kết quả kiểm định
và khoảng tin cậy sẽ bị mở rộng hơn so với các dữ liệu có phân phối cụ
thể.
Đầu tiên ta xét phần cố định của mô hình và ước lượng lặp bình phương
bé nhất tổng quát thông thường cho các tham số cố định dựa trên ước
lượng cho các tham số ngẫu nhiên
ˆ
β = (X
T
ˆ
V
−1

X)
−1
X
T
ˆ
V
−1
Y
Ma trận hiệp phương sai của ước lượng là
cov(
ˆ
β) = (X
T
ˆ
V
−1
X)
−1
X
T
ˆ
V
−1
{cov(Y )
ˆ
V
−1
X(X
T
ˆ

V
−1
X)
−1
},
trong đó cov(Y ) = V là chưa biết. Ta dùng thủ tục thông thường để ước
lượng nhưng điều này thường dẫn đến sai số tiêu chuẩn quá nhỏ. Phương
pháp ước lượng Jacknife lần lượt tỉa một quan sát ra khỏi mẫu và dùng
mẫu đã được tỉa bớt quan sát để ước lượng tham số cần quan tâm, thu
được n giá trị của tham số cần ước lượng (n là cỡ mẫu). Từ đó xác định
14
được khoảng tin cậy của tham số cần ước lượng.
Phương pháp linh hoạt hơn là phương pháp Bootstrap. Phương pháp ước
lượng Bootstrap là tập hợp một số kỹ thuật phân tích dựa vào nguyên lý
chọn mẫu có hoàn lại để ước tính các thông số mà thống kê thường không
giải được. Các bước chính của ước lượng Bootstrap bao gồm:
1. Sinh ra các mẫu Bootstrap ngẫu nhiên có hoàn lại kích thước N từ
mẫu ban đầu
2. Tính các thống kê đặc trưng cho mẫu được sinh ra (kỳ vọng, phương
sai, độ lệch chuẩn, .)
3. Lặp lại bước 1 và bước 2 với số lần lớn
4. Sử dụng các ước lượng thống kê Bootstrap đã tính ở bước 2 để đánh
giá độ chính xác các ước lượng thống kê của mẫu.
Các nhà thống kê còn phát triển phương pháp Bootstrap cao cấp hơn
chẳng hạn như phương pháp Bootstrap tham số đầy đủ. Phương pháp này
sử dụng giả thiết phân phối ban đầu để thông qua mô phỏng tạo ra các
giá trị dùng để ước lượng các tập bootstrap các tham số. Xét mô hình hai
mức đơn giản với giả thiết các giá trị các biến ngẫu nhiên có phân phối
chuẩn tắc
y

ij
= (Xβ)
ij
+ u
j
+ e
ij
var(u
j
) = σ
2
u
, var(e
ij
) = σ
2
e
Để tạo ra mẫu Bootstrap ta chọn ngẫu nhiên từ N(0, σ
2
u
) một tập
giá trị mức hai u

j
và ứng với mỗi giá trị mức hai này tạo ra tập e

ij
từ
N(0, σ
2

u
). Những bổ sung này được bổ sung để kết hợp với tập hợp các
giá trị Bootstrap của X và y
ij
tạo ra từ mẫu để ước lượng các tham số
ˆ
β

,
ˆ
σ

u
2
,
ˆ
σ

e
2
bằng cách sử dụng các thủ tục cho mẫu thông thường.
15
1.2.6 Mô hình hồi quy đa biến hai mức
Chúng ta mở rộng (1.4) bằng cách thêm vào các biến độc lập
y
ij
= β
0
+ β
1

x
ij
+
p

h=2
β
h
x
hij
+ (u
0j
+ u
1j
x
ij
+ e
0ij
)
và viết gọn lại thành
y
ij
= X
ij
β +
1

h=0
u
hj

z
hij
+ e
0ij
z
0ij
ở đây ta dùng các biến độc lập cho thành phần ngẫu nhiên của mô hình
Z = {Z
0
Z
1
}
Z
0
= {1}
Z
1
= {x
ij
}
trong đó {1} dùng để chỉ vectơ chứa các thành phần bằng 1. Kí hiệu Ω
1

ma trận hiệp phương sai của các biến ngẫu nhiên ở mức 1, Ω
2
là ma trận
hiệp phương sai của các hệ số ngẫu nhiên ở mức 2

1
= (σ

2
e0
), Ω
2
=

σ
2
u0
σ
u01
σ
u01
σ
2
u1


A B
B C

A = σ
2
u0
+ 2x
1j
σ
u1
+ x
2

1j
σ
2
u1
+ σ
2
e0
B = σ
2
u0
+ σ
u01
(x
1j
+ x
2j
) + x
1j
x
2j
σ
2
u1
C = σ
2
u0
+ 2σ
u01
x
2j

+ σ
2
u1
x
2
2j
+ σ
2
e0
.
Đặt
X
j
=

1 x
1j
1 x
2j

16
Ta có

A B
B C

= X
j

2

X
T
j
+


1
0
0 Ω
1

1.2.7 Mở rộng mô hình hai mức
Một khía cạnh mong muốn khác của mô hình nhiều mức là là chúng
ta có thể sửa đổi quan hệ có điều kiện ở mỗi mức của mô hình, tùy thuộc
vào sự quan tâm nghiên cứu. Chẳng hạn, chúng ta có thể hiểu được đặc
điểm của trường ảnh hưởng đến thành tích học tập của học sinh như thế
nào. Ta hiệu chỉnh mô hình 2 mức trong biểu thức (1.3) như sau
β
0j
= β
0
+ β
01
z
i
+ u
0j
,
β
1j

= β
1
+ β
11
z
i
+ u
1j
.
Khi đó mô hình (1.4) được đưa về dạng
y
ij
= (β
0
+ β
01
z
i
+ u
0j
) + (β
1
+ β
11
z
i
+ u
1j
)x
ij

+ e
ij
= β
0
+ β
01
z
i
+ β
1
x
ij
+ β
11
z
i
x
ij
+ u
0j
+ u
1j
x
ij
+ e
ij
.
Số hạng β
11
z

i
x
ij
là tác động liên kết giữa biến mức 1 x
ij
và biến mức z
i
,
được coi là tương tác giữa các mức.
Để xét mô hình với nhiều biến giải thích, ta mở rộng mô hình (1.2)
như sau:
y
ij
= x
T
1ij
β
1
+ z
T
1ij
β
i
+ e
ij
, (1.15)
trong đó x
1ij
và z
1ij

biểu diễn tập các biến mức 1 liên kết với các biến khác
(trên mức 1). Khi đó mô hình mức 2 có dạng
β
i
= (X
2i
β
2
+ u
i
), Eu
i
= 0 (1.16)
Kết hợp (1.13) và (1.14) ta được
y
ij
= x
T
1ij
+ z
T
1ij
(X
2i
β
2
+ u
i
) + e
ij

= x
T
ij
β + z
T
ij
u
i
+ e
ij
,
17
với x
T
ij
= (x
T
1ij
z
T
1ij
X
2i
); z
ij
= z
1ij
, β = (β
T
1

β
T
2
).
Mô hình nhiều mức cho phép chúng ta đánh giá tầm quan trọng của
hiệu quả phối hợp các mức. Trong các nghiên cứu thống kê nhiều mức có
nhiều cách đưa ra “đơn vị phân tích” khác nhau trong cùng một vấn đề,
do đó cho phép mô hình hóa các hệ thống rất phức tạp. Vì vậy khả năng
ước lượng hiệu quả phối hợp các mức là một ưu điểm của mô hình nhiều
mức so với chiến lược phân tích riêng rẽ cho từng mức.
Mô hình nhiều mức cấp hai và các mức cao hơn cũng cung cấp cho
chúng ta khả năng để ước lượng cấu trúc phương sai. Việc cải thiện cấu
trúc phương sai này cung cấp cho chúng ta hiểu biết tốt hơn về toàn bộ
mô hình và thường đưa đến kết quả trong việc cải thiện độ chính xác của
ước lượng so với mô hình hồi quy thông thường.
1.3 Mô hình nhiều mức
1.3.1 Mô hình nhiều mức
Việc mở rộng ra số mức nhiều hơn cũng được làm tương tự như đối với
mô hình hai mức. Chúng ta xét mô hình mức 1 là:
y
ijk
= x
T
1ijk
β
1
+ z
T
1ijk
β

ij
+ e
1ijk
(1.17)
Trong đó hệ số y là thành tích học tập của học sinh, i = 1, 2, , n là chỉ
số trường, j = 1, , J
i
là chỉ số lớp trong trường thứ i và k = 1, , K
ij

chỉ số sinh viên trong lớp thứ i (trong trường j).
Biến giải thích x
1ijk
, z
1ijk
có thể phụ thuộc vào sinh viên (giới tính, thu
nhập gia đình, ), phụ thuộc vào lớp (đặc điểm giáo viên, cơ sở vật chất,
lớp học, ) hay trường (quy mô, cấu trúc, địa điểm, ). Các tham số mà
vừa phụ thuộc vào trường i, lớp j thì xuất hiện như một phần của vectơ
β
ij
, trong khi các tham số là hằng số thì xuất hiện trong vectơ β
1
.
Trung bình và phương sai có điều kiện theo trường và lớp của thành
18
phần ngẫu nhiên e
1ijk
là bằng 0 và hằng số trên tất cả học sinh, lớp và
trường. Mô hình mức 2 mô tả biến động tại mức lớp học có dạng

β
ij
= X
2ij
β
2
+ Z
2ij
γ
i
+ e
2ij
(1.18)
tương tự Z
2ij
và X
2ij
có thể phụ thuộc vào lớp hoặc trường nhưng không
phụ thuộc vào học sinh các tham số kết hợp với biến giải thích Z
2ij
là γ
i
thì phụ thuộc vào trường i, các tham số kết hợp X
2ij
là hệ số. Trung bình
và phương sai có điều kiện theo trường hợp của thành phần ngẫu nhiên
e
2ij
= 0 tương ứng bằng 0 và hằng số.
Mô hình mức 3 miêu tả các biến động cấp trường, do tham số γ

i

thể thay đổi nhưng không ngẫu nhiên hoặc ngẫu nhiên. Mô hình 3 mức có
dạng
γ
i
= X
3i
β
3
+ e
3i
(1.19)
Biến giải thích X
2ij
và Z
2ij
có thể phụ thuộc vào trường. Trung bình và
phương sai có điều kiện của thành phần ngẫu nhiên e
3i
tương ứng bằng 0
và hằng số trên các trường. Kết hợp (1.17), (1.18), (1.19) ta được
y
ijk
= x
T
1ijk
β
1
+ [X

2ij
β
2
+ Z
2ij
(X
3i
β
3
+ e
3i
) + e
2ij
]z
T
1ijk
+ e
1ijk
= x
T
1ijk
β
1
+ z
T
1ijk
X
2ij
β
2

+ z
T
1ijk
Z
2ij
X
3i
β
3
+ z
T
ijk
Z
2ij
e
3i
+ z
T
1ijk
e
2ij
+ e
1ijk
= x
T
ijk
β + z
T
ijk
u

ij
+ e
1ijk
với x
T
ijk
= (x
T
1ijk
; z
T
1ijk
X
2ij
; z
T
1ijk
Z
2ij
X
3i
), β = (β
T
1
; β
T
2
; β
T
3

).
Biểu thức này thể hiện mô hình 3 mức là mô hình hiệu quả tuyến tính hỗn
hợp.
1.3.2 Ước lượng các tham số
Xét mô hình nhiều mức có dạng
y
ij
= x
T
ij
β + z
T
ij
u
i
+ e
ij
.
19
Chúng ta xem xét hàm hồi quy có điều kiện dạng
E(y
ij
|u
i
) = x
T
ij
β + z
T
ij

u
i
.
Biểu thức này được viết chi tiết dưới dạng
E(y
ij
|u
i
) = β
1
x
ij1
+ β
2
x
ij2
+ + β
k
x
ijk
+ u
i1
z
ij1
+ u
i2
z
ij2
+ + u
iq

z
ijq
.
Dạng ma trận tương ứng là
E(y
ij
|u
i
) = X
i
β + Z
i
u
i
.
Giả sử var(y
i
|u
i
) = R
i
, tức là ta chấp nhận hiện tượng có tương quan và
tính không thuần nhất của phương sai. Chúng ta giả sử {u
i
} độc lập nhau,
E(u
i
) = 0, ma trận hiệp phương sai var(u
i
) = D là ma trận q × q chiều,

xác định dương. Các cột Z
i
thường là một tập con của các cột X
i
.
Ta xét mô hình tuyến tính nhiều mức với các giả thiết sau
1. E(y
i
|u
i
) = X
i
β + Z
i
u
i
;
2. {x
ij1
; ; x
ijk
} và z
ij1
; ; z
ijk
là biến không ngẫu nhiên;
3. V ar(y
i
|u
i

) = R
i
;
4. {y
i
} là những vectơ ngẫu nhiên độc lập có điều kiện trên {u
1
, . . . ; u
n
};
5. {y
i
} có phân phối chuẩn có điều kiện trên {u
1
; ; u
n
};
6. Eu
i
= 0, var(u
i
) = D và {u
1
, . . . ; u
n
} độc lập;
7. {u
i
} có phân phối chuẩn.
Khi đó

V ar(y
i
) = Z
i
DZ
T
i
+ R
i
= V
i
(τ) = V
i
(1.20)
Bằng phương pháp ước lượng bình phương bé nhất tổng quát ta thu được
ước lượng của β là
ˆ
β
GLS
= (
n

i=1
X
T
i
V
−1
i
X

i
)
n

i=1
X
T
i
V
−1
i
y
i
(1.21)
20
và phương sai V ar
ˆ
(β)
GLS
= (
n

i=1
X
T
i
V
−1
i
X

i
)
−1
.
Chúng ta xem xét hàm hợp lý trên từng đối tượng đơn lẻ có giá trị là
l
i
(β; τ) = −
1
2
(T
i
ln(2π) + lndetV
i
) + (y
i
− X
i
β)
T
V
−1
i
(y
i
− X
i
β)
và hàm log hợp lý trên toàn bộ dữ liệu sẽ là
L(β, τ) =

n

i=1
l
i
(β, τ).
Ta lấy ra hàm log hợp lý đặc trưng có dạng
L(β
GLS,τ
) = −
1
2
n

i=1
T
i
ln(2π) + lndetV
i
+ (ErrorSS)
i
(τ) (1.22)
ở đây tổng bình phương sai số đối với đối tượng thứ i là
(ErrorSS)
i
(τ) = (y
i
− X
i
β

GLS
)
T
V
−1
i
(y
i
− X
i
β
GLS
) (1.23)
Ta ước lượng hệ số hồi quy β và thành phần phương sai bằng cách xuất
phát từ giá trị ban đầu của D và R
i
ta tính được V
i
theo công thức (1.18),
sau đó thay V
i
tính được vào công thức (1.19) ta thu được
ˆ
β. Với
ˆ
β đã
được ước lượng ta thay vào (1.20), (1.21) thu được thành phần phương sai
V
i
. Quá trình trên được tiến hành lặp đi lặp lại cho đến khi thu được một

ước lượng hội tụ.
1.3.3 Xác định giá trị ban đầu của quá trình lặp
Để ước lượng hệ số hồi quy và thành phần phương sai đòi hỏi ta cần có
giá trị ban đầu cho quá trình lặp. Để xác định được giá trị ban đầu này, ta
sử dụng phương pháp moment Swamy với giả thiết x
ij
= z
ij
và R
i
= σ
2
i
I
i
,
sau đó tiến hành qua các bước sau
1. Tính toán ước lượng bình phương bé nhất của σ
2
i
s
2
i
=
1
T
i
− K
y
T

i
(I
i
− X
i
(X
T
i
X
i
)
−1
X
T
i
)y
i
.
Trong ước lượng này chúng ta tạm thời bỏ qua D = V ar(β
i
).
21
2. Tiếp theo, tính toán b
i
= (X
T
i
X
i
)

−1
X
T
i
y
i
, như một dự báo của β + u
i
.
3. Cuối cùng, ước lượng D bằng
D
SW AM Y
=
1
n − 1
n

i=1
(b
i

¯
b)(b
i

¯
b)
T

1

n
n

i=1
s
2
i
(X
T
i
X
i
)
−1
,
trong đó
¯
b =
1
n
n

i=1
b
i
.
Ước lượng của D được gợi ý đưa ra bằng cách kiểm tra phương sai của b
i
V ar(b
i

) = V ar(X
T
i
X
i
)
−1
X
T
i
(X
i
(β + u
i
+ e
i
))
= V ar(β + u
i
+ (X
T
i
X
i
)
−1
X
T
i
e

i
) = D + σ
2
i
(X
T
i
X
i
)
−1
.
Sử dụng
1
n − 1
n

i=1
(b
i

¯
b)(b
i

¯
b)

và s
2

i
là ước lượng của V ar(b
i
) và σ
2
i
tương ứng, kéo theo D
SW AM Y
là một
ước lượng của D.
1.4 Kiểm định sự phù hợp của mô hình
1.4.1 Kiểm định một hệ số hồi quy
Trong nhiều phân tích thống kê, mục tiêu chính của kiểm định là đánh
giá xem hệ số hồi quy có bằng giá trị đặc biệt nào đó hay không. Ta quan
tâm đến việc kiểm định giả thuyết: H
0
: β
j
= β
j,0
/K : β
j
= β
j,0
(thường
thì β
j,0
được cho bằng 0).
Thủ tục thông thường bắt đầu bằng việc lập thống kê
t =

ˆ
β
j,GLS
− β
j,0
se(
ˆ
β
j,GLS
)
22
trong đó
ˆ
β
j,GLS
là thành phần thứ j của
ˆ
β
j,GLS
trong biểu thức và se(
ˆ
β
j,GLS
)
là căn bậc hai của thành phần đường chéo thứ j của (
n

i=1
X
T

i
V
−1
i
X
i
)
−1
.
Sau đó đánh giá H
0
bằng cách so sánh thống kê t với một biến ngẫu nhiên
có phân phối t - Student với số bậc tự do thích hợp phụ thuộc vào dữ liệu
ban đầu và mục đích phân tích. Trong thực hành, do phân phối t - Student
xấp xỉ phân phối chuẩn tắc khi mẫu đủ lớn nên ta có thể thay thế phân
phối t-student bằng phân phối chuẩn tắc. Nguyên tắc này được áp dụng
trong các phần mềm phân tích nhiều mức.
1.4.2 Kiểm định sự phù hợp của mô hình
Để kiểm tra giả thuyết liên quan đến một vài hệ số hồi quy đồng thời,
thủ tục thông thường là kiểm định tỷ số hợp lý. Ta có thể xem xét giả
thuyết H
0
: Cβ = d trong đó C là ma trận p × k với hạng bằng p, d là là
một vectơ p × 1 (thường là vectơ 0) và β là một vectơ k × 1 của các hệ số
hồi quy. Giả thuyết này được kiểm tra so sánh với đối thuyết H
1
: Cβ = d.
Thủ tục kiểm định tham số hợp lý được tiến hành theo các bước sau
1. Sử dụng mô hình không có ràng buộc, tính toán ước lượng hợp lí cực
đại và hàm log hợp lý tương ứng, kí hiệu là L

MLE
.
2. Đối với mô hình có ràng buộc thì sử dụng giả thuyết H
0
: Cβ = d,
tính toán ước lượng hợp lí cực đại và hàm log hợp lý tương ứng, kí
hiệu L
Reduced
.
3. Tính hàm log tỉ số hợp lý để kiểm định hiểu quả, LRT = 2(L
MLE

L
Reduced
).
4. Bác bỏ H
0
nếu LRT lớn hơn phân vị tương ứng (thường được chọn
bằng 5% ) của phân phối Khi - bình phương với p bậc tự do. Tất nhiên,
ta có thể dùng giá trị p để hiệu chỉnh mức ý nghĩa của kiểm tra.
23
1.5 Phân tích thành phần chính
Giả sử ta có một tập dữ liệu từ một mẫu bao gồm n cá thể, mỗi cá thể
được đo p chỉ tiêu. Khi p rất lớn thì số liệu cồng kềnh và khó thấy những
thông tin chứa trong đó. Để có được hình ảnh đỡ phức tạp của dữ liệu
người ta mong muốn xây dựng một biểu diễn đơn giản hơn sao cho trong
biểu diễn đó đám mây số liệu được thể hiện rõ nhất và không làm mất
đáng kể thông tin ban đầu. Phân tích thành phần chính là một phương
pháp nhằm mục đích như vậy.
Cho một vecto ngẫu nhiên p chiều X mà ta có n quan sát độc lập

X
1
, X
2
, . . . , X
n
của vecto ngẫu nhiên đó. Khi ấy
X
n,p
=




x
11
x
12
x
1p

x
n1
x
n2
x
np





X
T
j
= (x
1j
, x
2j
, x
nj
), j = 1, p
x
T
i
= (x
i1
, x
i2
, x
ip
)
Giả sử các biến X
j
đều có kỳ vọng E(X
j
) = 0 tức là
1
n

n

i=1
X
ij
= 0.
Khi đó thì gốc O(0, 0, , 0) của hệ trục tọa độ trùng với trọng tâm của
đám mây n điểm.
Ta gọi thành phần chính thứ nhất là biến có diễn là đường thẳng ∆
1
qua
tâm O và gần với đám mây nhất tức là tổng bình phương khoảng cách
từ các điểm của đám mây đến nó là nhỏ nhất. Thành phần chính thứ hai
là biến trực giao với thành phần chính thứ nhất và có biểu diễn là đường
thẳng ∆
2
sao cho tổng bình phương khoảng cách từ các điểm trên đám
mây đến nó là nhỏ nhất. Khi đó ∆
1
và ∆
2
tạo ra một mặt phẳng chính mà
đám mây được thể hiện rõ nhất so với mọi mặt phẳng khác. Thành phần
chính thứ ba là biến trực giao với mặt phẳng chính thứ nhất và được biểu
diễn bởi đường thẳng ∆
3
sao cho tổng bình phương khoảng cách các điểm
trên đám mây đến nó là nhỏ nhất, Tiếp tục quá trình ta thu được một
24
hệ k vecto trực giao, tạo thành siêu phẳng k chiều mà đám mây được thể
hiện rõ nhất.
Gọi ∆ là đường thẳng qua tâm O, là giá của vecto đơn vị u, u

T
u = 1. Gọi
M
i
là điểm thuộc đám mây trong không gian R
p
, H
i
là hình chiếu của M
i
lên ∆, khi đó độ dài OH
i
là ||OH
i
|| = (OM
i
)u = X
i
u.
Xu =







x
T
1

u
x
T
2
u

x
T
n
u







; u
T
= (u
1
, u
2
, . . . , u
p
)
Ta tìm ∆ để

n
i=1

M
i
H
i
→ min tương ứng với bài toán tìm max

n
i=1
OH
i
tức là tìm max (Xu)
T
Xu. Như vậy bài toán đặt ra là tìm ∆
1
sao cho
u
T
1
X
T
Xu
1
→ max với điều kiện u
T
1
u
1
= 0.
Đặt
1

n
X
T
X = M
0
là ma trận hiệp phương sai. Ta tìm u
1
sao cho u
T
1
M
0
u
1

max, u
T
1
u = 1. Điều đó tương đương với việc tìm u
1
sao cho
u
T
1
M
0
u
1
− λ(u
T

1
u
1
− 1) → max ,
λ là nhân tử Lagrange.
Từ đó suy ra

∂u

u
T
M
0
u − λ(u
T
u − 1)

|u=u
0
= 0
↔ M
0
u
1
− λu
1
= 0
↔ (M
0
− λI)u

1
= 0
Vậy λ là giá trị riêng và u
1
là vecto riêng của M
0
. Ta thấy rằng do ma
trận hiệp phương sai là ma trận nửa xác dương nên các giá trị riêng của
nó có giá trị không âm. Ta có thể sắp xếp các giá trị riêng đó thành
λ
1
≥ λ
2
≥ λ
3
≥ λ
k
> 0.
Với λ
1
là giá trị riêng lớn nhất, ta gọi Y
1
là thành phần chính thứ nhất.Khi
đó
D(Y
1
) = u
T
1
M

0
u
1
= u
T
1
λ
1
u
1
= λ
1
u
T
1
u
1
= λ
1
25

×