Tải bản đầy đủ (.pdf) (85 trang)

ứng dụng phân tích định lượng nhiều chiều vào bài toán đánh giá chất lượng đào tạo ở trường thpt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (873.74 KB, 85 trang )



ĐẠI

HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN




ĐÀNG MINH KHAI




ỨNG DỤNG PHÂN TÍCH ĐỊNH LƯỢNG NHIỀU
CHIỀU VÀO BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG
ĐÀO TẠO Ở TRƯỜNG THPT





Chuyên ngành
:

Xác suất – Thống kê

Mã ngành
:
60 46 15




LUẬN VĂN THẠC SĨ TOÁN HỌC




Người hướng dẫn khoa
học:

TS. TÔ ANH DŨNG





TP.HCM,
tháng 9 năm 2010
-i-
LỜI CẢM ƠN


Lời ñầu tiên tôi trân trọng kính gửi ñến Thầy hướng dẫn, TS. Tô Anh Dũng, lòng
biết ơn chân thành và sâu sắc nhất. Thầy ñã rất ân cần và tận tình hướng dẫn, giúp ñỡ
tôi nắm ñược từng bước nghiên cứu và giải ñáp những thắc mắc khi tôi gặp phải. Tôi
xin khắc ghi những lời dạy, sự chỉ bảo ân cần của Thầy trong suốt quá trình học tập và
hoàn thành luận văn này.
Tôi cũng xin bày tỏ lòng biết ơn sâu sắc ñến quý Thầy, Cô trong và ngoài khoa
môn Toán – Tin trường Đại học Khoa Học Tự Nhiên TP. Hồ Chí Minh ñã tận tình
truyền ñạt kiến thức, kinh nghiệm quý báu cho tôi trong suốt thời gian học tập tại

trường.
Tôi cũng chân thành cảm ơn quý Thầy, Cô thuộc Bộ môn xác suất thống kê,
Phòng Quản lý Sau Đại học trường Đại học Khoa Học Tự Nhiên TP. Hồ Chí Minh ñã
tạo ñiều kiện thuận lợi ñể tôi hoàn thành chương trình học cũng như trong quá trình
làm thủ tục bảo vệ luận văn tốt nghiệp.
Xin cảm ơn các anh chị, bạn bè lớp Cao học Toán khóa 17 ñã ñộng viên và nhiệt
tình giúp ñỡ tôi trong suốt thời gian qua.
Tôi cũng không quên gửi lời biết ơn ñến gia ñình tôi, những người ñã hết lòng lo
lắng và luôn ở bên tôi trong những lúc khó khăn nhất.
Sau cùng, vì kiến thức bản thân còn hạn chế nên luận văn khó tránh khỏi thiếu
xót, tôi rất mong ñược sự chỉ bảo của quý Thầy, Cô và sự góp ý chân thành của các
bạn bè ñồng nghiệp. Tôi xin chân thành cảm ơn.
Thành phố Hồ Chí Minh, tháng 9 năm 2010.

Đàng Minh Khai



-ii-
TÓM TẮT

Luận văn nêu cơ sở lý thuyết hai phương pháp phân tích số liệu ñịnh lượng nhiều
chiều:
Phân tích thành phần chính
Phân tích nhân tố
Qua ñó, luận văn ñi vào nghiên cứu nhằm xác ñịnh chất lượng ñào tạo tác ñộng
ñến sự hài lòng của học sinh Trường THCS và THPT Nguyễn Khuyến, với mẫu dữ liệu
thu thập ñược từ 517 học sinh của trường.
Trong mô hình phân tích số liệu nghiên cứu nói trên, các chỉ báo của khái niệm
chất lượng ñào tạo bao gồm: dịch vụ, ñào tạo và vật chất.

Các mối quan hệ trong mô hình nghiên cứu ñã ñược phân tích bằng phần mềm
SPSS. Kết quả nghiên cứu khẳng ñịnh chất lượng dịch vụ ñào tạo ảnh hưởng tích cực
ñến sự hài lòng của học sinh.













-iii-
MỤC LỤC

Trang

Lời cảm ơn i
TÓM TẮT ii
Mục lục iii
Danh mục các hình vẽ và bảng biểu vi
TỔNG QUAN ĐỀ TÀI 1
CHƯƠNG 1: KIẾN THỨC TỔNG QUAN 4
1.1 Sơ lược về thống kê 4
1.1.1. Khái niệm 4
1.1.2. Ma trận hiệp phương sai 9

1.1.3. Ma trận tương quan 9
1.2 Quán tính 10
1.2.1 Quán tính và momen quán tính 10
1.2.2 Momen quán tính của một cá thể ñối với một trục 11
1.2.3. Trục quán tính chính của một cá thể. Mặt phẳng quán tính chính 12
1.3 Khái niệm không gian p chiều 13
1.4 Giá trị riêng, vectơ riêng 15
CHƯƠNG 2: PHƯƠNG PHÁP PHÂN TÍCH 16
2.1 Phân tích thành phần chính 16
2.1.1 Giới thiệu 16
2.1.2. Định nghĩa thành phần chính 16
2.1.3. Mô tả toán học của phương pháp 17
2.1.3.1. Cơ sở hình học 17
2.1.3.1a. Biểu diễn hình học 17
2.1.3.1b. Tính chất 19
2.1.3.2. Cơ sở ñại số của các thành phần chính 22
2.1.3.2a. Sự thay ñổi tỷ lệ các thành phần chính 25
2.1.3.2b. Số lượng thành phần chính 25
2.1.3.2c. Tính toán thành phần chính 26
-iv-
2.1.3.2d Các thành phần chính của dữ liệu hai chiều với hệ số tương quan r 26
2.1.4 Phương pháp tìm trục chính trong R
p
30
2.1.5 Tỷ lệ ñóng góp của quán tính 34
2.1.6 Biểu diễn ñám mây ñiểm – cá thể trong siêu phẳng ñã chọn 34
2.1.7 Tìm các thành phần chính trong R
n
34
2.1.7.1 Phương pháp tìm các thành phần chính 34

2.1.7.2 Các giá trị riêng và vectơ riêng của X
/
X 35
2.1.7.3 Biểu diễn ñám mây ñiểm – biến trong siêu phẳng ñã chọn 35
2.1.8 Nội dung của phân tích thành phần chính 36
2.2 Phân tích nhân tố 37
2.2.1 Giới thiệu 37
2.2.2 Mô hình nhân tố trực giao 39
2.2.2.1 Định nghĩa và các giả thiết 39
2.2.2.2 Tính không duy nhất các hệ số nhân tố tải 39
2.2.3 Ước lượng hệ số nhân tố tải và phương sai tương ñối 46
2.2.4 Chọn số lượng nhân tố 51
2.2.5 Phép quay 52
2.2.5.1 Giới thiệu 52
2.2.5.2 Phép quay trực giao 53
2.2.5.2a Phương pháp ñồ thị 53
2.2.5.2b Phép quayVarimax 53
2.2.5.3 Phép quay Oblique 54
2.2.5.4 Giải thích các nhân tố 54
2.2.6 Nhân số 54
CHƯƠNG 3: ỨNG DỤNG GIẢI BÀI TOÁN THỰC TẾ 57
3.1 Mục tiêu bài toán 57
3.2 Phạm vi và phương pháp nghiên cứu 57
3.3 Phân tích mô tả và kiểm ñịnh thang ño 58
3.4 Rút trích các nhân tố chính của chất lượng ñào tạo 59
3.5 Phân tích nhân tố của khái niệm “sự hài lòng của học sinh ” 60
-v-
3.6 Phân tích mô hình nghiên cứu 60
3.6.1 Phân tích hồi quy bội 60
3.6.2 Kiểm ñịnh giả thuyết nghiên cứu 61

HƯỚNG PHÁT TRIỂN - KẾT LUẬN 63
TÀI LIỆU THAM KHẢO 65
PHỤ LỤC 67

DANH SÁCH CÁC HÌNH VÀ BẢNG BIỂU
Hình Trang
Hình 1.1 10
Hình 1.2 11
Hình 1.3 11
Hình 1.4 11
Hình 1.5 12
Hình 1.6 12
Hình 1.7a 13
Hình 1.7b 13
Hình 1.8 14
Hình 2.1 31
Hình 2.2 38
Hình 2.3 38
Hình 2.4 56
Bảng
Bảng 3.1 Số liệu mẫu 58
Bảng 3.2 Kết quả phân tích nhân tố của “chất lượng ñào tạo” 59
Bảng 3.3 Kết quả phân tích nhân tố của “ sự hài lòng của học sinh” 60
Bảng 3.4 Kết quả phân tích hồi qui chất lượng ñào tạo 61
Bảng 3.5 Kết quả mô hình nghiên cứu 81


-1-
TỔNG QUAN ĐỀ TÀI


1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Trước ñây công tác thống kê diễn ra chủ yếu trong lĩnh vực kinh tế nhà nước,
trong các cơ quan thống kê nhà nước ñể thu thập thông tin phục vụ cho việc quản lý
kinh tế xã hội của cơ quan chính quyền các cấp. Hiện nay, công tác thống kê ñã
ñược chú ý trong các doanh nghiệp ở tất cả các ngành. Vì vậy, thống kê ñã trở thành
công cụ không thể thiếu ñược trong hoạt ñộng nghiên cứu cũng như trong công tác
thực tiễn. Do ñó việc sử dụng thống kê trở nên cần thiết và phổ biến.
Để giải quyết những bài toán ứng dụng thực tiễn trong thống kê nhiều chiều ví
dụ như: nghiên cứu thị trường, thị hiếu khách hàng về một sản phẩm nào ñó thuộc
ngành kinh tế, phân biệt nhóm bệnh trong ngành y học hay ñánh giá chất lượng học
tập… có nhiều phương pháp khác nhau ñược ñưa ra. Mối tương quan giữa các
phương pháp cũng ñóng vai trò quan trọng trong việc chọn phương pháp giải thích
hợp theo yêu cầu bài toán. Vì vậy việc xem xét một cách tổng hợp các phương pháp
trên là một ñòi hỏi cấp thiết. Đề tài giành sự quan tâm cho các bài toán ñịnh lượng.
2. MỤC TIÊU NGHIÊN CỨU
Thống kê là một hệ thống các phương pháp thu thập, xử lý và phân tích số
(mặt lượng) của các hiện tượng ñể tìm hiểu bản chất và tính quy luật của chúng
(mặt chất) trong ñiều kiện thời gian và không gian cụ thể.
Phân tích ña biến có rất nhiều phương pháp khác nhau tương ứng với nhiều
yêu cầu bài toán khác nhau. Biến ñịnh lượng nhiều chiều và các phương pháp dùng
ñể phân tích cũng rất ña dạng. Tuy nhiên, ñề tài tập trung nghiên cứu sâu về hai
phương pháp và ứng dụng thực tế nhất là phân tích thành phần chính và phân tích
nhân tố, trong ñó xét :
Mặt lượng của sự vật hiện tượng, tức là ñi sâu vào phân tích các biểu hiện
bằng số của một tổng thể.
Tìm ra các mối quan hệ của các biến một cách rõ ràng nhất và ñưa ra ñánh giá
chung cho cả tổng thể.




-2-
3. NỘI DUNG NGHIÊN CỨU
Bước 1: Tìm hiểu cơ sở lý thuyết về xác suất thống kê, các phương pháp
phân tích ñịnh lượng nhiều chiều.
Bước 2: Thu thập số liệu thống kê về một tổng thể.
Bước 3: Tổng hợp phân tích và ñánh giá thống kê.
Kỹ thuật phân tích số liệu ñịnh lượng:
Phân tích thành phần chính là một kỹ thuật biểu diễn các số liệu một cách tối
ưu theo một tiêu chuẩn ñại số và hình học ñặc biệt. Mục ñích của phân tích thành
phần chính là rút ra thông tin chủ yếu chứa trong bảng số liệu bằng cách xây dựng
một biểu diễn ñơn giản hơn với số chiều nhỏ hơn nhưng ñám mây số liệu thể hiện
rõ nhất, mà thông tin không bị sai lạc.
Phân tích nhân tố miêu tả và phân loại các cá thể theo các nhân tố, trên mỗi cá
thể người ta ño một số lớn chỉ tiêu, bản chất là mô tả hiệp phương sai giữa các biến
dưới dạng một vài biến cơ sở, giảm các biến dư thừa bằng cách dùng số lượng nhỏ
các nhân tố.
Luận văn ñược trình bày theo các chương sau ñây:
Tổng quan ñề tài: Tổng quan về bài toán phân tích số liệu ñịnh lượng trong luận
văn, ñiểm qua các phương pháp phân tích ñồng thời nêu bố cục của luận văn.
Chương 1. KIẾN THỨC CƠ BẢN, trình bày các ký hiệu, công cụ thống kê và
các tính chất có liên quan.
Chương 2. KHẢO SÁT CÁC PHƯƠNG PHÁP PHÂN TÍCH ĐỊNH
LƯỢNG NHIỀU CHIỀU, phân tích thành phần chính và phân tích nhân tố.
Chương 3. ỨNG DỤNG GIẢI BÀI TOÁN THỰC TẾ, ñánh giá chất lượng
ñào tạo của trường THCS và THPT Nguyễn Khuyến, trong ñó sử dụng phần mềm
SPSS phiên bản 16.0. Thông qua phân tích ñưa ra nhận xét ñánh giá và phương
hướng phát triển của trường.
Hướng phát triển của luận văn ñược trình bày trong phần kết luận.
Chương trình nguồn ñể xử lý số liệu ñược ñưa ra ở phần phụ lục.





-3-
Tiếp theo là phần kết luận, hướng phát triển của luận văn và sau cùng là tài
liệu tham khảo.
Chương trình: Tác giả sử dụng phần mềm SPSS ñể phân tích thống kê.
Phụ lục: Nêu tóm tắt các công ñoạn và kết quả phân tích bài toán thực tế bằng
phần mềm SPSS.





























-4-

Chương 1
KIẾN THỨC CƠ BẢN


1.1. SƠ LƯỢC VỀ THỐNG KÊ
1.1 .1. Khái niệm
Biến ngẫu nhiên (ñại lượng ngẫu nhiên) là ñại lượng lấy giá trị thực tùy thuộc
vào kết quả ngẫu nhiên của phép thử. Các chữ in
, ,
X Y
thường dùng ñể ký hiệu
các biến ngẫu nhiên và các giá trị của chúng ñược ký hiệu bằng
, ,
i i
X Y
Biến ngẫu
nhiên ñược chia làm hai loại: biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục.
Biến ngẫu nhiên
X
ñược gọi là rời rạc nếu mọi tập giá trị có thể có của nó là
hữu hạn hoặc vô hạn ñếm ñược.

Biến ngẫu nhiên X ñược gọi là liên tục nếu nó lấy mọi giá trị trong một khoảng
xác ñịnh nào ñó (có thể ñóng hoặc mở, hữu hạn hoặc vô hạn).
Biến ngẫu nhiên rời rạc một chiều.
Một hình thức nào ñó cho biết mối quan hệ giữa các giá trị có thể có của biến ngẫu
nhiên và xác suất tương ứng ñược gọi là phân phối xác suất của biến ngẫu nhiên ấy.
Cho
{
}
1 2
, , , ,
n
X x x x=
là một ñại lượng ngẫu nhiên rời rạc. Vì vậy ñặt
(
)
i i
p P X x
= =
. Khi ñó ta ñược bảng sau ñây, gọi là bảng phân phối xác suất của
X
.


Trong ñó:
0 1, 1,
i
p i k
≤ ≤ =

1

1
k
i
i
p
=
=


Hàm phân phối của biến
X
là:
(
)
{
}
<
= < =

i
i
x x
F x P X x p

trong ñó
x
là một số thực.


X x

1
x
2
… x
k

P(X) p
1
p
2
… p
k




-5-
Biến ngẫu nhiên liên tục một chiều
Hàm mật ñộ ( hay gọi là mật ñộ xác suất) của
X
tại ñiểm
x
là ñạo hàm của
hàm phân phối
(
)
F x
của
X
tại ñiểm ñó, nếu ñạo hàm này tồn tại. Gọi

(
)
f x

hàm mật ñộ xác suất của
X
tại ñiểm
x
thì
(
)
(
)
=
'
f x F x
.
Từ ñịnh nghĩa của hàm phân phối và hàm mật ñộ ta có:
{ } ( ) ( ) ( )
( ) ( )
−∞
≤ < = − =
=


1.
2.
x
a
x

P a X x F x F a f t dt
F x f t dt


(
)

3. 0
f x và
( )
+∞
−∞
=

1
f t dt
a/ Trung bình (hay giá trị kỳ vọng): là số trung bình lý thuyết ( trung bình theo
qui luật) của các giá trị của biến ngẫu nhiên, ký hiệu là
,
EX MX hay
µ

Nếu
X
có phân phối biến ngẫu nhiên rời rạc thì:
1 1
; 1
n n
i i i
i i

EX MX x p p
µ
= =
= = = =
∑ ∑
(1.1)
Nếu
X
là biến liên tục thì:

( )
EX MX xf x dx

−∞
= =

(1.2)
Tính chất:
( ) ( )
E aX aE X a
µ
= =

b/ Mod
X
là giá trị của
X
có xác suất (tần số) lớn nhất.
Nếu
X

là biến rời rạc thì
=
mod
j
X x

≤ ≤
=
1
max
j i
i k
p p

c/ Trung vị của
X
, ký hiệu là
e
M X
, là giá trị mà tại ñó:

{
}
{
}
e e
Ρ Χ < Μ Χ = Ρ Χ ≥ Μ Χ

Như vậy
e

M X
là một số

x X

(
)
=
1 / 2
F x

d/ Phương sai là trung bình của bình phương ñộ lệch giữa các giá trị của
X

với kỳ vọng của nó. Ký hiệu
2
2
, ,
X
VarX DX hay
σ µ
(
2
µ
:mômen trung tâm bậc 2).
Tức là:
(
)
2
2

2
X
DX M X MX
σ µ
= = − =
Nếu
X
là biến rời rạc thì


-6-
( ) ( )
2
2 2
2 2
1 1
n k
i i i i i i
i i
DX x p x p x p MX MX
µ
= =
 
= − = − = −
 
 
∑ ∑ ∑
(1.3)
Trung bình bình phương các ñộ lệch giữa các giá trị của
X

so với một ñiểm
x
nào ñó và ký hiệu
(
)
X
I x
, tức là:
( ) ( )
2
1
n
X i i
i
I x x x p
=
= −

gọi là quán tính của
X
theo
x
hay còn gọi là
phương sai hay mômen bậc 2 của
X
theo
x
.
e/ Độ lệch chuẩn bằng căn bậc hai (dương) của phương sai và ký hiệu
DX

σ
= .
Vectơ ngẫu nhiên.
Cho các biến ngẫu nhiên
1 2
, , ,
n
X X X
xác ñịnh trên kết quả của một phép
thử. Khi ñó ta gọi:
(
)
1 2
, , ,
n
Z X X X
=
là một véctơ ngẫu nhiên n – chiều.
Tương tự biến ngẫu nhiên, vectơ ngẫu nhiên cũng có hai loại: rời rạc và liên
tục.
Vectơ ngẫu nhiên rời rạc - hai chiều
Cho
(
)
,
Z X Y
=
là vectơ ngẫu nhiên rời rạc
a/ Bảng phân phối xác suất ñồng thời của
Z


Y
Y


y
y
1
1


Y
Y
2
2




.
.
.
.


y
y
n
n



P
P
(
(
X
X
)
)


X
X
1
1


p
p
1
1
1
1


P
P
1
1
2

2






p
p
1
1
n
n


P
P
1
1


X
X
2
2


p
p
2

2
1
1


P
P
2
2
2
2






p
p
2
2
n
n


P
P
2
2













.
.




.
.




.
.







x
x
m
m


p
p
m
m
1
1


p
p
m
m
2
2






p
p
m

m
n
n


p
p
m
m


P
P
(
(
Y
Y
)
)


q
q
1
1


q
q
2

2






q
q
n
n


1
1



Trong ñó
X
nhận các giá trị
1 2
, , ,
m
x x x
;
Y
nhận các giá trị
1 2
, , ,

n
y y y
;
{
}
,
i j ij
P X x Y y p
= = =
,
1 1
0 1, 1
m n
ij ij
i j
p p
= =
≤ ≤ =
∑ ∑

X


-7-
b/ Hàm phân phối của Z:
(
)
(
)
, ,

i j
ij
x x y y
F x y P X x Y y p
< <
= < < =
∑ ∑

c/ Kỳ vọng của Z là
(
)
(
)
(
)
(
)
2
,
E Z E X E Y R
= ∈
d/ Kỳ vọng của hàm vectơ ngẫu nhiên. Giả sử
(
)
,
X Y
có phân phối ñồng thời
(
)
= = =,

i j ij
P X x Y y p

(
)
ϕ
,
X Y

khi ñó:
( )
( )
( )
( )
( )
ϕ ϕ ϕ
= =
= = =
∑ ∑ ∑
1 1
, , ,
m n
i i i j ij
i i j
E X Y z P X Y z x y p

e/ Ta gọi hiệp phương sai của
Z
là:
(

)
(
)
(
)
(
)
(
)
 
= − −
 
cov ,X Y E X E X Y E Y (1.4)
Với
( )
m n
i j ij
i j
E XY x y p
=
∑ ∑
.
f/ Ma trận hiệp phương sai của
(
)
,
X Y
là:
Ta gọi
(

)
( ) ( )
(
)
(
)
(
)
( ) ( )
cov ,
XY
X Y E XY E X E Y
R
X Y
D X D Y
σ σ

= =
(1.5)
là hệ số tương quan giữa X và Y.
Vectơ ngẫu nhiên liên tục – hai chiều
Cho vectơ ngẫu nhiên
(
)
,
X Y
liên tục.
a/ Hàm mật ñộ của vectơ ngẫu nhiên
(
)

,
X Y
liên tục là hàm
(
)
,
f x y
xác ñịnh
trên toàn mặt phẳng có tính chất
(
)
( )
( )

=
∫∫
2
/ , 0
/ , 1
R
i f x y
ii f x y dxdy

(
)
(
)
( )
 
∈ =

 
∫∫
/ , ,
D
iii P X Y D f x y dxdy

Hàm
(
)
,
f x y
thỏa mãn i, ii là hàm mật ñộ xác suất của một vectơ ngẫu nhiên
(
)
,
X Y
nào ñó.
b/ Hàm phân phối của
(
)
,
X Y



-8-
Hàm phân phối của
(
)
,

X Y
là hàm
( ) ( ) ( )
, , ,
y
x
F x y P X x Y y f u v ðdudv
−∞ −∞
= < < =
∫ ∫
(1.6)
c/ Giả sử
(
)
,
f x y
là hàm mật ñộ ñồng thời của
(
)
,
X Y
. Ta cần tìm hàm mât
ñộ của
(
)
ϕ
,
X Y

Theo ñịnh nghĩa, ta có hàm phân phối của

Z


(
)
(
)
(
)
(
)
(
)
( )
,
, ,
Z
x y z
F z P Z z P X Y z f x y dxdy
ϕ
ϕ
<
 
= < = < =
 
∫∫
(1.7)
Lấy ñạo hàm
(
)

Z
F z
ta tìm ñược hàm mật ñộ
(
)
Z
f z
của
Z
.
d/ Kỳ vọng của hàm vectơ ngẫu nhiên
(
)
,
X Y
:
Giả sử
(
)
,
X Y
có hàm mật ñộ ñồng thời
(
)
,
f x y

(
)
,

Z X Y
ϕ
=
. khi ñó
(
)
(
)
(
)
( )
2
, ,
R
E Z x y f x y dxdy
ϕ
=
∫∫
(1.8)
e/ Hiệp phương sai
Cho
(
)
,
Z X Y
= là vectơ ngẫu nhiên liên tục. Ta gọi covarian của
Z

(
)

(
)
(
)
(
)
cov ,
X Y E XY E X E Y
= − (1.9)
với
(
)
(
)
( )
2
,
R
E XY xyf x y dxdy
=
∫∫

Từ ñịnh nghĩa ta có:
(
)
(
)
cov ,
D X X X
= .

f/ Ta gọi

(
)
( ) ( )
(
)
(
)
(
)
( ) ( )
cov ,
XY
X Y E XY E X E Y
R
X Y
D X D Y
σ σ

= =
(1.10)
là hệ số tương quan giữa X và Y.
Định lý: Với mọi vec tơ ngẫu nhiên
(
)
,
X Y
ta có:
/ 1

xy
i R


/ 1
xy
ii R
= ±
nếu và chỉ nếu
X

Y
tương quan tuyến tính, tức là tồn tại
các số A, B, C sao cho
AX BY C
+ =
(h.k.n)


-9-
Nhận xét: Nếu
X

Y
ñộc lập thì
cov 0
=
, do ñó
0
XY

R
=
. Khi
0
XY
R
=
thì chưa chắc
X

Y
ñộc lập, trong trường hợp này ta nói
X

Y
không
tương quan với nhau.
1.1.2. Ma trận hiệp phương sai
Nếu
X
là véctơ ngẫu nhiên nhận giá trị bất kỳ trong tổng thể nhiều biến, ma
trận hiệp phương sai của X hay của tổng thể là:

11 12 1
21 22 2
1 2
cov( )
p
p
p p pp

X
σ σ σ
σ σ σ
σ σ σ
 
 
 
Σ = =
 
 
 
 
L
L
M M M M
L
(1.11)
Phần tử chéo
2
jj j
σ σ
=
là phương sai tổng thể hay của
X
, và các phần tử
jk
σ

ngoài ñường chéo là hiệp phương sai tổng thể hay của
X

.
1.1.3. Ma trận tương quan
Ma trận tương quan tổng thể :


12 1
21 2
1 2
1
1
( )
1
p
p
p jk
p p
P
ρ ρ
ρ ρ
ρ
ρ ρ
 
 
 
= =
 
 
 
 
L

L
M M M M
L
(1.12)
Trong ñó,
jk
jk
j k
σ
ρ
σ σ
=
Hệ số tương quan mẫu giữa biến thứ
j
và biến thứ
k
ñược ñịnh nghĩa

jk jk
jk
j k
jj kk
s s
r
s s
s s
= = (1.13)
Ma trận tương quan mẫu với các hệ số tương quan:




-10-

12 1
21 2
1 2
1
1
( )
1
p
p
jk
p p
r r
r r
R r
r r
 
 
 
= =
 
 
 
 
L
L
M M M M
L

(1.14)
R
là ma trận ñối xứng, vì
jk kj
r r
=
.
Ký hiệu:
1 1 2 2
1 2
( , , , )
( , , , )
s p p
p
D d ia g s s s
d ia g s s s
=
=
K
K
(1.15)

1
2
0 0
0 0
0 0
p
s
s

s
 
 
 
=
 
 
 
 
L
L
M M M M
L


1.2. QUÁN TÍNH
1.2.1. Quán tính và momen quán tính
Đây là một khái niệm cơ bản, trọng tâm của một cá thể. Những khái niệm liên
quan ñến momen quán tính ñối với một ñiểm của một chất ñiểm, momen quán tính
ñối với một trục, trục quán tính chính, hệ tọa ñộ quán tính chính ñược sử dụng rất
phổ biến trong phân tích nhân tố cũng như trong phân tích thành phần chính.
Xét một cá thể bất kỳ, trọng tâm G của cá thể.
G: Trọng tâm ( ñiểm cân bằng)




Hình 1.1
Trong nghiên cứu chuyển ñộng của một cá thể, sự phân phối của khối lượng cá
thể xung quanh trọng tâm cá thể giữ một vai trò quan trọng. Để ñánh giá sự phân

phối của các chất ñiểm so với một ñiểm (trọng tâm) người ta dùng khái niệm
momen quán tính của cá thể so với một ñiểm.
+G


-11-
 Xét trường hợp một chất ñiểm có khối lượng m cách ñiểm O một ñoạn là d,
momen quán tính của chất ñiểm m so với tâm O ñược ñịnh nghĩa như sau:

chất ñiểm
có khối lượng m




 Trong trường hợp một cá thể S hình thành bởi k chất ñiểm có khối lượng
m
i
, mỗi chất ñiểm m
i
cách O một ñoạn d
i
, ta gọi momen quán tính của cá thể S so
với tâm O ñược ñịnh nghĩa như sau:







Chú ý: Cho một cá thể S ñược tạo thành bởi k chất ñiểm có khối lượng m
1
,m
2
,
…, m
k
, người ta chứng minh ñược rằng trọng tâm của cá thể chính là ñiểm trong
không gian sao cho ñối với nó sẽ có momen quán tính của cá thể là cực tiểu.
1.2.2. Momen quán tính của một cá thể ñối với một trục
Xét một chất ñiểm có khối lượng m nằm cách ñường thẳng

một ñoạn là d,
momen quán tính của chất ñiểm m so với trục

ñược tính như sau:






Tương tự momen quán tính của một cá thể cấu tạo gồm k chất ñiểm có khối
lượng
1 2
, , ,
k
m m m
ñối với trục (


), ñược tính như sau:

0

M
m/o
= md
2

d

Hình 1.2

m
1

2
/
1
i k
s o i i
i
m m d
=
=
=

d
2


m
4

m
k

m
3

d
1

m
2

d
4

d
k

d
3

Hình 1.3

m

d
(

)


m
/
m

= md
2

Hình 1.4



-12-







1.2.3. Trục quán tính chính của một cá thể. Mặt phẳng quán tính chính
Xét một cá thể S ñược hình thành gồm k chất ñiểm có khối lượng
1 2
, , ,
k
m m m
và có trọng tâm là G. Ta gọi trục chính quán tính chính cấp 1 là
ñường thẳng

1

ñi qua G sao cho momen quán tính của cá thể so với trục
1

là cực
tiểu.
Ta gọi trục quán tính chính cấp 2 là ñường thẳng
2

ñi qua G, thẳng góc với
1

và sao cho momen quán tính của cá thể ñối với
2

là cực tiểu. Tương tự ta ñịnh
nghĩa cho trục quán tính chính cấp 3 là ñường thẳng
3

qua G, thẳng góc với cả
1


2

và sao cho momen quán tính của cá thể ñối với
3

là cực tiểu. Tương tự

cho các trục tiếp theo
4 5
, ,
∆ ∆
Trong phân tích thống kê, ta khảo sát các trường hợp cá thể S ñược hình thành
bởi n chất ñiểm có khối lượng thường bằng 1 ñơn vị trong không gian p chiều
(thường thì p > 3). Ở ñây ta sẽ gặp lại khái niệm trục quán tính chính bậc 1, 2, 3,
…,p với lưu ý là hai trục chính i và (i + 1) là thẳng góc nhau. Gọi

là trục ñi qua
trọng tâm G của n chất ñiểm có khối lượng bằng ñơn vị:
M
3
M
2
P
i
G (

)
M
1

M
i
M
n


Hình 1.6

2
/
1
k
s i i
i
m m d

=
=

m
1

m
2

m
3

m
k

d
1
d
3
d
k
d

2
Hình 1.5

(
)




-13-
Trong ñó: P
i
hình chiếu của M
i
lên trục

.
Nếu

là trục quán tính chính cấp 1 ta có:
2
min
i i
i
M P →


Chú ý: Trục quán tính chính cấp 1, trong trường hợp này là trục “tiệm cận”
gần nhất ñối với tất cả các chất ñiểm cấu tạo thành hệ thống ( phương pháp bình
phương tối thiểu cho các khoảng cách thẳng góc từ ñiểm xét ñến trục).

Do
2
min
i i
M P →


2
i i
M G cte
Σ =
, ñiều này có nghĩa là:

2
max
i
i
GP →


Đối với trục quán tính chính cấp 1 ta có tổng bình phương các hình chiếu của
chất ñiểm lên trục là lớn nhất.
1.3. KHÁI NIỆM KHÔNG GIAN P CHIỀU
1.3.1. Không gian 2 chiều ( 3 chiều):
Là một không gian trong ñó có một hệ trục tọa ñộ trực giao ñược hình thành
bởi hai trục ( ba trục) thẳng góc với nhau từng ñôi một. Mỗi trục ñược xác ñịnh bởi
một vectơ ñơn vị.
X
3
X

2
x
3
x
2
M(x
1
,x
2
) M (x
1
,x
2
,x
3
)

O x
1
X
2
O x
2
X
2

( Hình 1.7a)
x
1


X
1
( Hình 1.7b)

Trong không gian 2 chiều hoặc 3 chiều ta có thể biểu hiện bằng ñồ thị một
cách tường minh tọa ñộ và vị trí của một ñiểm khi tọa ñộ của chúng ñã biết ( hình
1.7a, 1.7b). Trong trường hợp không gian có p > 3 chiều, ta vẫn ñịnh nghĩa một hệ
trục trực giao có p trục thẳng góc với nhau từng cặp một. Như ta ñã biết, trong


-14-
trường hợp này ta không thể mô tả hệ trục tọa ñộ này một cách tường minh như ñã
làm ở trường hợp
3
p

.
1.3.2. Một số tính chất cơ bản:
Xét trong không gian 2 chiều ( p = 2) với hai vectơ ñơn vị
1
i

,
2
i

, gọi
u

là một

vectơ qua O có phương bất kỳ và khi ñó
u

là một tổ hợp tuyến tính của
1
i


2
i


ñịnh nghĩa bởi 2 hệ số
1
α

2
α
có dạng:
α α
→ → →
= +
1 1 2 2
u i i




M(x
1

,x
2
)

u



2
i


O
1
i


Hình 1.8
Ta có:

1 1 2
i
OM x i x i
= +
uuuur ur ur

Do ñó:
α α
∗ = +
uuuur ur

1 1 2 2
OM u x x

Ta nói rằng tọa ñộ của M trên trục
U
ur
(
U
ur
là một trục có vectơ ñơn vị là
u

)
Trong không gian 3 chiều:
Ta gọi ñiểm M (x
1
, x
2
, x
3
) và. Ta có:
1 1 2 2 3 3
u i i i
α α α
→ → → →
= + +
là tổ hợp tuyến tính của tọa ñộ x
1
, x
2

của ñiểm M .

Hình chiếu của M xuống trục
U
ur
sẽ là:
1 1 2 2 3 3
u x x x
α α α
= + +
Trong không gian n chiều:


-15-
Ta gọi ñiểm M (x
1
, x
2
, …, x
n
) và
U
ur
là một trục có vectơ ñơn vị là
u

. Ta có:
1 1 2 2

n n

u i i i
α α α
→ → → →
= + + +

Hình chiếu của M xuống trục
U
ur
sẽ là:
1 1 2 2

n n
u x x x
α α α
= + + +
1.4. GIÁ TRỊ RIÊNG, VECTƠ RIÊNG
1.4.1. Định nghĩa 1
Cho
f
là một toán tử tuyến tính trên
Κ
. Số
λ
∈Κ
ñược gọi là giá trị riêng
của
f
nếu tồn tại một vec tơ
{
}

\ 0
u V∈
sao cho
(
)
f u u
λ
=

Vectơ
0
u

ñó gọi là vectơ riêng của
f
ứng với giá trị riêng
λ
.
1.4.2. Định nghĩa 2
Cho ma trận
(
)
n
A M K

, số
K
λ

ñược gọi là giá trị riêng của A nếu tồn

tại vectơ
(
)
{
}
1 2
, , , \ 0
n
n
x x x x K sao cho
= ∈

Ax x
λ
=

Vectơ
0
x

ñó gọi là vectơ riêng của A ứng với giá trị riêng
λ
.
1.4.3. Thuật toán tìm giá trị riêng và vectơ riêng
Cho
f
là một toán tử tuyến tính trên
Κ
- không gian vectơ n chiều V và
(

)
ij
n
A a= là ma trận của
f
trong cơ sở
B
(
)
1 2 n
e ,e , ,e
= . Để tìm các giá trị
riêng, vectơ riêng của
f
(và của A) ta tiến hành theo các bước sau:
Bước 1: Lập ña thức ñặc trưng
(
)
(
)
(
)
A
det A I *
χ λ = − λ
Bước 2: Giải phương trình ñặc trưng
(
)
A
0

χ λ =
ñể tìm các giá trị riêng của
f
.
Bước 3: với mỗi giá trị riêng
λ
(nếu có) của
f
, giải hệ phương trình
(
)
A I X 0
− λ =
ñể tìm các vectơ riêng tương ứng với các giá trị riêng ñó.







-16-
Chương 2

PHƯƠNG PHÁP PHÂN TÍCH



2.1. PHÂN TÍCH THÀNH PHẦN CHÍNH
2.1.1 GIỚI THIỆU

Phân tích thành phần chính (ñược viết tắt là PCA - Principal Component
Analysis) là một phương pháp ña biến dùng cho mục ñích làm giảm số chiều của
bảng số liệu ban ñầu mà không mất nhiều thông tin, cụ thể là thay tập các biến ban
ñầu bằng một tập biến nhỏ hơn gọi là thành phần chính có phương sai cực ñại.
Trong phần này công cụ làm việc chủ yếu là ma trận phương sai - hiệp phương
sai
Σ
, giá trị riêng và véctơ riêng tương ứng của
Σ
. Với bảng số liệu cồng kềnh
phức tạp khó tổng hợp, và khó thấy thông tin chứa trong ñó. Vì vậy mục ñích của
phân tích thành phần chính là rút ra thông tin chủ yếu chứa trong bảng số liệu bằng
cách xây dựng một biểu diễn ñơn giản hơn, sao cho trong biểu diễn ñó ñám mây số
liệu thể hiện rõ nhất, mà thông tin không bị sai lạc.
Lĩnh vực ứng dụng của phân tích thành phần chính rất rộng trong công – nông
nghiệp, kinh tế, khoa học cơ bản, giáo dục với bảng số liệu mà các cột là các biến
và các dòng là các cá thể, trên ñó ño giá trị các biến.
Mục tiêu của chương này là nghiên cứu cơ sở toán học của PCA. Sau ñó, ta sẽ
ứng dụng phương pháp này vào phân tích các ứng dụng trong chương 3.
2.1.2. ĐỊNH NGHĨA THÀNH PHẦN CHÍNH
Khi nghiên cứu ñánh giá một số lượng lớn các biến quan sát, thật hữu ích nếu
làm ñơn giản các phân tích bằng cách xét một số ít các tổ hợp tuyến tính các biến
ban ñầu. Ví dụ, ñánh giá thành tích học tập của học sinh . Với sự nổ lực ñánh giá,
các nhà quản lý thường cố gắng làm giảm việc ñánh giá trên các ñiểm từ các môn
học, nếu việc giảm ấy ñược thực hiện tới mức nhỏ nhất có thể mà làm mất ñi thông
tin ít nhất.
Sự lựa chọn tốt nhất là trung bình ñiểm các môn học. Với 3 ñiểm môn học
1 2 3
, ,
s s s

, giá trị trung bình tương ứng với các tổ hợp tuyến tính
1 2 3
1 1 1
3 3 3
s s s
+ +
,
hoặc tương ñương
'
l s
, trong ñó
1 2 3
( , , )
s s s s
=
với
l
là một vectơ các hệ số


-17-
'
1 1 1
, ,
3 3 3
 
 
 
. Một tổ hợp tuyến tính với
2

1
i
l
=

ñược gọi là một tổ hợp tuyến tính
chuẩn ( standardized linear combination) hoặc SLC. Bằng cách thu hẹp sự chú ý
vào các SLC, chúng ta có thể tạo nên các so sánh có ý nghĩa giữa các lựa chọn riêng
lẽ của các tổ hợp tuyến tính. Ví dụ, với các ñiểm kiểm tra, chúng ta có thể tìm ra tổ
hợp tuyến tính với phương sai lớn nhất như là một cách xếp hạng các học sinh và
tách chúng.
Phân tích thành phần chính tìm một tập hợp các SLC, ñược gọi là các thành
phần chính, chúng trực giao và kết hợp chúng với nhau ñể giải thích tất cả phương
sai của dữ liệu nguồn. Các thành phần chính ñược ñịnh nghĩa bởi Mardia, Kent và
Bibby (1979) như sau:
Nếu
x
là một vectơ ngẫu nhiên với vectơ giá trị trung bình
µ
và ma trận hiệp
phương sai
S
, thì ánh xạ thành phần chính là phép biến ñổi
(
)
'
x y x
µ
→ = Γ −
,

Với
Γ
trực giao,
'
S
Γ Γ = Λ
là ñường chéo, và
1 2
0
p
λ λ λ
≥ ≥ ≥ ≥
Thành
phần chính thứ
i
của
x
ñược ñịnh nghĩa:
(
)
'
( )i i
y x
γ µ
= −

ở ñây
( )
i
γ

là cột thứ
i
của
Γ
.
Thành phần chính thứ nhất có phương sai lớn nhất trong số các SLC của
x
.
Tương tự, thành phần chính thứ hai có phương sai lớn nhất trong số các SLC còn lại
của
x
không tương quan với thành phần chính thứ nhất, v.v
Nói chung, có nhiều thành phần chính. Tuy nhiên, vì cách mà chúng ñược tính,
có thể xét một vài thành phần chính, mà có thể giải thích cho hầu hết sự biến thiên
ban ñầu.
2.1.3. MÔ TẢ TOÁN HỌC CỦA PHƯƠNG PHÁP
2.1.3.1. Cơ sở hình học
2.1.3.1a. Biểu diễn hình học
1. Với n cá thể

p
R
, hai cá thể bất kỳ ñược gọi là “gần nhau” nếu
p
tọa ñộ
của chúng gần nhau.


-18-
2. Với p biến trong

n
R
.Thông thường hai biến “gần nhau” nếu n tọa ñộ của
chúng gần nhau. Tuy nhiên với ý nghĩa vật lý thì do thứ nguyên ño (ñơn vị ño), do
ñó vấn ñề ñặt ra là liệu ta sẽ ño khoảng cách giữa hai biến như thế nào nếu biến này
là ñộ dài, biến kia là trọng lượng của các cá thể?
Mặt khác, với các cá thể
p
R

, cũng như các biến
n
R

thì liệu có phải chúng
ñược gọi là gần nhau nếu mọi thành phần tương ứng của chúng gần nhau, hay
chúng chỉ cần có một số phần tử gần nhau còn xa nhau với những cặp phần tử khác?
PCA giúp chúng ta trả lời những câu hỏi ñó. Nội dung của nó là tìm trong
n
R

(trong
p
R
) không gian con số chiều ít hơn thâu tóm tốt nhất ñám mây ñiểm – biến
(ñiểm – cá thể), sao cho hình ảnh của ñám mây số liệu ñược thể hiện một cách rõ
ràng nhất, tức là những xấp xỉ ño trong không gian con phản ánh tốt nhất các
khoảng cách thực.
Từ ñó, một mặt có thể loại bỏ những biến không quan trọng, mặt khác, bằng
cách phi thứ nguyên hóa các biến, ta xét các khoảng cách giữa chúng.

Nếu biểu diễn ñám mây ñiểm trong siêu phẳng một chiều, thì ta cần tìm ñường
thẳng gần ñám mây nhất, và ñám mây sẽ biểu diễn bằng hình chiếu của các ñiểm
trên ñường thẳng ñó. Sự “gần gũi” của ñám mây với ñường thẳng ñược ño bằng
quán tính của nó theo ñường thẳng ñó.
Quán tính là tổng bình phương khoảng cách từ các ñiểm ñến ñường thẳng, nên
quán tính càng nhỏ thì ñường thẳng càng gần ñám mây ñiểm, và ngược lại.
Trong không gian nhiều chiều của tập dữ liệu ban ñầu, PCA tìm ra các trục
mới mà có thể tổng hợp dữ liệu tốt nhất.
Để ñạt ñược ñiều ñó PCA chọn trục chính thứ nhất là trục có quán tính nhỏ
nhất, tức là ñường thẳng qua tâm gần ñám mây ñiểm nhất.
Trục chính thứ hai là trục qua tâm trực giao với trục chính thứ nhất, và có quán
tính của ñám mây theo nó nhỏ nhất.
Hai trục này kết hợp tạo thành một mặt phẳng chính thứ nhất, mặt phẳng này
có quán tính của ñám mây theo nó nhỏ nhất. Khi ñó ñám mây ñiểm thể hiện trên nó
rõ nhất so với các mặt phẳng khác.
Tiếp tục, tìm trục chính thứ ba là ñường thẳng qua tâm và trực giao với hai
trục chính trên và gần ñám mây nhất sau hai trục thứ nhất và thứ hai. Với sự có mặt


-19-
của trục này ta ñược thêm hai mặt phẳng chính nữa ñược tạo nên do trục 1 và trục 3,
trục 2 và trục 3.
Nếu việc tìm các trục chính ñược tiến hành ñến trục chính thứ q
( , )
q p n

thì
ta ñược một hệ q vectơ trực giao, tạo thành không gian q chiều, mà ñám mây ñiểm
thể hiện trên nó rõ nhất.









Về ý nghĩa hình học thì bài toán tìm trục chính tương ñương với bài toán:
 Tịnh tiến gốc tọa ñộ về trọng tâm ñám mây.
 Quay hệ trục tọa ñộ sao cho trong hệ trục mới ñám mây thể hiện rõ nhất,
tức là tổng bình phương khoảng cách từ ñám mây ñiểm ñến chúng nhỏ nhất.
 Trong hệ mới chỉ cần giữ lại q trục chính, từ thứ nhất ñến thứ q ta ñược
siêu phẳng q chiều thể hiện rõ nhất ñám mây số liệu.
2.1.3.1b. Tính chất
Tính chất
1
G
: Xét họ ellipsoids
p
chiều

1T
x x const

Σ =
(2.2)
Khi ñó các thành phần chính xác ñịnh dựa vào các trục chính của ellipsoids.
Chứng minh:
Các thành phần chính ñược ñịnh nghĩa bằng phép biến ñổi tuyến tính
T

z A x
=
,

A
trực giao
x Az
⇒ =
.
Biến ñổi (2.2.1) :
1 1
( ) ( )
T T T
Az Az const z A Az
− −
Σ = = Σ
. Ta biết các véctơ riêng
của
1

Σ
tương tự các véc tơ riêng của
Σ
, giả sử tất cả chúng ñều dương, suy ra
1 1 1
T
A A z z const
− − −
Σ = ∆ ⇒ ∆ =
.

Phương trình này có thể viết lại:
2
1
p
k
k
k
z
const
λ
=
=


là phương trình ellipsoid chỉ ra các trục chính của nó. □
Khoảng cách
Euclid
Hình chiếu
Trục mới

×