Tải bản đầy đủ (.pdf) (119 trang)

Phân tích số liệu định tính nhiều chiều

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (972.54 KB, 119 trang )

ðẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ðẠI HỌC BÁCH KHOA

NGƠ THÁI HƯNG

PHÂN TÍCH SỐ LIỆU ðỊNH TÍNH NHIỀU CHIỀU
Chun ngành: TỐN ỨNG DỤNG

LUẬN VĂN THẠC SĨ

TP.HỒ CHÍ MINH , 7- 2009


ðẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ðẠI HỌC BÁCH KHOA

NGƠ THÁI HƯNG

PHÂN TÍCH SỐ LIỆU ðỊNH TÍNH NHIỀU CHIỀU
Chun ngành: TỐN ỨNG DỤNG

LUẬN VĂN THẠC SĨ

TP.HỒ CHÍ MINH , 7- 2009


CƠNG TRÌNH ðƯỢC HỒN THÀNH TẠI
TRƯỜNG ðẠI HỌC BÁCH KHOA
ðẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: TS. Tô Anh Dũng


……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………

Cán bộ chấm nhận xét 1:
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………

Cán bộ chấm nhận xét 2:
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………
……………………………………………………………………………………………………

Luận văn thạc sĩ ñược bảo vệ tại HỘI ðỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ

TRƯỜNG ðẠI HỌC BÁCH KHOA, ngày 29 tháng 08 năm 2009


TRƯỜNG ðẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
PHÒNG ðÀO TẠO SðH

ðộc Lập – Tự Do – Hạnh Phúc
Tp. HCM ngày 03 tháng 8 năm 2009

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Ngô Thái Hưng

Phái: Nam

Ngày, tháng, năm sinh: 03/01/1983

Nơi sinh: Khánh Hòa

Chuyên ngành: Tốn Ứng Dụng

MSHV: 02407158

I – TÊN ðỀ TÀI:
PHÂN TÍCH SỐ LIỆU ðỊNH TÍNH NHIỀU CHIỀU
II – NHIỆM VỤ VÀ NỘI DUNG:
1. Nêu cơ sở lý thuyết của ba phương pháp phân tích.
• Phân tích thành phần chính
• Phân tích nhân tố
• Phân tích phân biệt
2. Giải bài tốn thực tế.

• ðánh giá giá trị dịch vụ và chất lượng ñào tạo của trường ðại học Tài
chính – Marketing.
III – NGÀY GIAO NHIỆM VỤ:

Ngày 8 tháng 12 năm 2008

IV – NGÀY HOÀN THÀNH NHIỆM VỤ: Ngày 04 tháng 8 năm 2009
V – CÁN BỘ HƯỚNG DẪN:
CÁN BỘ HƯỚNG DẪN

TS. Tô Anh Dũng
CN BỘ MÔN
QL CHUYÊN NGÀNH

TS. TÔ ANH DŨNG

PGS.TS NGUYỄN ðÌNH HUY



i

LỜI CẢM ƠN
Lời đầu tiên tơi trân trọng kính gửi ñến Thầy hướng dẫn, TS. Tô Anh Dũng,
người Thầy hết lịng vì học trị, lịng biết ơn chân thành và sâu sắc nhất. Thầy đã rất
ân cần và tận tình hướng dẫn, giúp đỡ tơi nắm được từng bước nghiên cứu và giải đáp
những thắc mắc khi tơi gặp phải. Từ Thầy, tơi càng hiểu thêm được ý nghĩa, hứng thú
và lịng say mê của việc nghiên cứu Tốn học tưởng chừng như rất khơ khan và ít ứng
dụng. Tơi xin khắc ghi những lời dạy, sự chỉ bảo ân cần của Thầy trong suốt q trình
học tập và hồn thành luận văn này.

Tơi cũng xin bày tỏ lịng biết ơn sâu sắc đến q Thầy, Cơ trong và ngồi bộ
mơn Tốn học trường ðại học Bách Khoa TP. Hồ Chí Minh đã tận tình truyền đạt kiến
thức, kinh nghiệm quý báu cho tôi trong suốt thời gian học tập tại trường.
Chân thành cảm ơn Ban chủ nhiệm khoa khoa học ứng dụng, q Thầy, Cơ thuộc
Phịng Quản lý Sau ðại học, thư viện trường ðại học Bách Khoa TP. Hồ Chí Minh đã
tạo điều kiện thuận lợi để tơi hồn thành chương trình học cũng như trong q trình
làm thủ tục bảo vệ luận văn tốt nghiệp.
Xin cảm ơn các anh chị lớp Cao học Tốn Ứng Dụng Khóa 2007, các anh chị
trong nhóm seminar do Thầy Mẫn tổ chức đã động viên và nhiệt tình giúp đỡ tơi trong
suốt thời gian qua.
Tôi cũng không quên gửi lời biết ơn đến gia đình tơi, những người đã hết lịng lo
lắng và ln ở bên tơi trong những lúc khó khăn nhất.
Sau cùng, vì kiến thức bản thân cịn hạn chế nên luận văn khó tránh khỏi thiếu
xót. Tơi rất mong được sự chỉ bảo của q Thầy, Cơ và sự góp ý chân thành của các
bạn bè đồng nghiệp. Tơi xin chân thành cảm ơn.
Thành phố Hồ Chí Minh, tháng 8 năm 2009.

Ngô Thái Hưng


ii

TÓM TẮT
Luận văn nêu cơ sở lý thuyết cụ thể ba phương pháp phân tích số liệu định tính
nhiều chiều. ðó là:
o Phân tích thành phần chính
o Phân tích nhân tố
o Phân tích phân biệt
Qua đó, luận văn đi vào nghiên cứu nhằm xác ñịnh giá trị dịch vụ và chất
lượng đào tạo tác động đến sự hài lịng của sinh viên trong trường hợp của ðại học

Tài chính – Marketing. Mẫu dữ liệu thu thập ñược từ 517 sinh viên trực thuộc trường.
Trong mơ hình phân tích số liệu nghiên cứu, các chỉ báo của khái niệm giá trị
dịch vụ bao gồm ước muốn, xã hội, cảm xúc, chức năng, tri thức và hình ảnh. Các chỉ
báo của khái niệm chất lượng dịch vụ ñào tạo bao gồm dịch vụ, ñào tạo và vật chất.
Các mối quan hệ trong mơ hình nghiên cứu đã được phân tích bằng kỹ thuật Mơ
Hình Phương Trình Cấu Trúc kết hợp cùng với phần mềm SPSS và AMOS. Kết quả
nghiên cứu khẳng ñịnh chất lượng dịch đào tạo vụ ảnh hưởng tích cực ñến sự hài lòng
của sinh viên.


iii

MỤC LỤC
Trang
Lời cảm ơn .................................................................................................................... i
TÓM TẮT ..................................................................................................................... ii
Mục lục.......................................................................................................................... iii
Danh mục các hình vẽ và bảng biểu ............................................................................. vi
TỔNG QUAN ðỀ TÀI................................................................................................ 1
CHƯƠNG 1: LÝ THUYẾT THỐNG KÊ VÀ ðẠI SỐ TUYẾN TÍNH ................. 4
1.1 Trung bình và phương sai của biến ngẫu nhiên một chiều .................................... 4
1.2 Hiệp phương sai và tương quan của biến ngẫu nhiên hai chiều ............................. 5
1.2.1 Hiệp phương sai ............................................................................................. 5
1.2.2 Tương quan .................................................................................................... 6
1.3 Véctơ trung bình .................................................................................................... 8
1.4 Ma trận hiệp phương sai ......................................................................................... 10
1.5 Ma trận tương quan................................................................................................. 13
1.6 Tổ hợp tuyến tính của các biến ............................................................................... 14
1.6.1 ðặc trưng mẫu................................................................................................ 14
1.6.2 ðặc trưng tổng thể ......................................................................................... 18

CHƯƠNG 2: PHƯƠNG PHÁP PHÂN TÍCH.......................................................... 19
2.1 Phân tích thành phần chính .................................................................................... 19
2.1.1 Giới thiệu ....................................................................................................... 19
2.1.2 ðịnh nghĩa ..................................................................................................... 19
2.1.2.1 Ma trận hiệp phương sai ................................................................... 19
2.1.2.2 Biểu diễn hình học............................................................................ 20
2.1.2.3 Phương pháp tìm trục chính trong Rp ............................................... 21
2.1.2.4 Phương pháp tìm thành phần chính trong Rn ................................... 24
2.1.2.5 Nhân tử hóa ma trận trong phân tích thành phần chính ................... 25


iv

2.1.2.5.1 Phân rã giá trị suy biến .................................................... 25
2.1.2.5.2 Phân rã giá trị riêng ......................................................... 25
2.1.2.5.3 Số lượng thành phần chính .............................................. 26
2.2 Phân tích nhân tố ................................................................................................... 27
2.2.1 Giới thiệu ...................................................................................................... 27
2.2.2 Mơ hình nhân tố trực giao ............................................................................ 29
2.2.2.1 ðịnh nghĩa và các giả thiết ............................................................... 29
2.2.2.2 Tính không duy nhất các hệ số nhân tố tải ....................................... 36
2.2.3 Ước lượng hệ số nhân tố tải và phương sai tương ñối.................................. 37
2.2.4 Chọn số lượng nhân tố.................................................................................. 42
2.2.5 Phép quay...................................................................................................... 44
2.2.5.1 Giới thiệu .......................................................................................... 44
2.2.5.2 Phép quay trực giao .......................................................................... 45
2.2.5.2a Phương pháp ñồ thị............................................................ 45
2.2.5.2b Phép quayVarimax ............................................................ 45
2.2.5.3 Phép quay Oblique ........................................................................... 46
2.2.5.4 Giải thích các nhân tố ....................................................................... 46

2.2.6 Nhân số ......................................................................................................... 46
2.3 Phân tích phân biệt .................................................................................................. 50
2.3.1 Giới thiệu ...................................................................................................... 50
2.3.2 Mơ hình phân tích phân biệt ........................................................................ 52
2.3.2.1 Bảng số liệu ...................................................................................... 53
2.3.2.2 Ma trận phương sai – hiệp phương sai ............................................ 54
2.3.3 Nội dung phương pháp ................................................................................. 56
2.3.4 Tính các hàm phân biệt ................................................................................ 58
2.3.4.1 Tìm hàm phân biệt tuyến tính........................................................... 58
2.3.4.2 ðưa về dạng ñường chéo của một ma trận ñối xứng........................ 59


v

2.3.5 u cầu bài tốn ........................................................................................... 60
2.3.5.1 Phân tích với mục đích mơ tả hay phân tích nhân tố phân biệt........ 60
2.3.5.2 Phân tích với mục đích quyết định .................................................. 61
2.3.6 Trường hợp hai nhóm ................................................................................... 61
2.3.7 Tóm tắt phân tích phân biệt ......................................................................... 63
2.3.7.1 Trường hợp m nhóm........................................................................ 63
2.3.7.2 Trường hợp 2 nhóm.......................................................................... 65
CHƯƠNG 3: ỨNG DỤNG GIẢI BÀI TỐN THỰC TẾ ....................................... 66
3.1 Mục tiêu bài tốn .................................................................................................... 66
3.2 Phạm vi và phương pháp nghiên cứu ..................................................................... 66
3.3 Phát triển giả thuyết và mơ hình nghiên cứu .......................................................... 67
3.4 Phân tích mơ tả và kiểm định thang đo ................................................................... 68
3.5 Rút trích các nhân tố chính của giá trị dịch vụ đào tạo........................................... 69
3.6 Rút trích các nhân tố chính của chất lượng dịch vụ đào tạo ................................... 71
3.7 Phân tích nhân tố của khái niệm “sự hài lịng của sinh viên” ................................. 73
3.8 Phân tích mơ hình nghiên cứu................................................................................. 73

3.8.1 Phân tích hồi quy bội .................................................................................... 73
3.8.2 Kiểm ñịnh giả thuyết nghiên cứu.................................................................. 74
KẾT LUẬN - HƯỚNG PHÁT TRIỂN .................................................................... 83
TÀI LIỆU THAM KHẢO .......................................................................................... 84
PHỤ LỤC ... ........ ........................................................................................................ 86


vi

DANH SÁCH CÁC HÌNH VÀ BẢNG BIỂU
Hình

Trang

Hình 1.1 Véctơ a và b trong khơng gian 3 chiều .......................................................... 7
Hình 2.1 Phép chiếu trực giao của véctơ 2 chiều lên không gian con một chiều ........ 21
Hình 2.2 Phân tích nhân tố sơ bộ .................................................................................. 28
Hình 2.3 Phân tích nhân tố xác định ............................................................................. 28
Hình 2.4 Sơ đồ tóm tắt phân tích nhân tố ..................................................................... 49
Hính 2.5 Phân tích phân biệt 2 nhóm khi biến độc lập chỉ có hai loại ......................... 51
Hình 2.6 Phân tích phân biệt m nhóm khi biến độc lập có ba hay nhiều loại............... 52
Bảng
Bảng 1.1 Bảng số liệu (phân tích phân biệt) ................................................................. 53
Bảng 3.1 Số liệu mẫu .................................................................................................... 69
Bảng 3.2 Kết quả phân tích nhân tố của “giá trị dịch vụ ñào tạo”................................ 70
Bảng 3.3 Kết quả phân tích nhân tố của “chất lượng dịch vụ ñào tạo” ....................... 72
Bảng 3.4 Kết quả phân tích nhân tố của “ sự hài lịng của sinh viên” .......................... 73
Bảng 3.5 Kết quả phân tích hồi qui giá trị dịch vụ ....................................................... 74
Bảng 3.6 Kết quả phân tích hồi qui chất lượng dịch vụ................................................ 74
Bảng 3.7 Kết quả mơ hình nghiên cứu.......................................................................... 81



1

TỔNG QUAN ðỀ TÀI
Tính cấp thiết của đề tài
ðể giải những bài toán ứng dụng thực tiễn trong thống kê nhiều chiều ví dụ như:
nghiên cứu thị trường, thị hiếu khách hàng về một sản phẩm nào đó thuộc ngành kinh
tế, phân biệt nhóm bệnh trong ngành y học… có nhiều phương pháp khác nhau ñược
ñưa ra. Mối tương quan giữa các phương pháp cũng đóng vai trị quan trọng trong việc
chọn phương pháp giải thích hợp theo yêu cầu bài tốn. Vì vậy việc xem xét một cách
tổng hợp các phương pháp trên là một địi hỏi cấp thiết ðề tài giành sự quan tâm cho
các bài tốn định tính.
Xác định vấn đề nghiên cứu
Biến định tính nhiều chiều và các phương pháp dùng để phân tích rất đa dạng,
tuy nhiên chúng tơi chọn ba phương pháp chính và thơng dụng nhất là phân tích thành
phần chính, phân tích nhân tố và phân tích phân biệt. Ý nghĩa tốn học của ba phương
pháp này và ứng dụng vào phân tích chất lượng dịch vụ giáo dục của trường ðại học
Tài chính – Marketing.
Số liệu định tính
Số liệu định tính là loại số liệu phản ánh tính chất, sự hơn kém, khơng tính được
trị trung bình của số liệu định tính, ví dụ như giới tính của người được phỏng vấn là
nam hay nữ, kết quả học tập của sinh viên là giỏi, khá, trung bình hay yếu, được thu
thập bằng hai thang ño cơ bản ñược thể hiện theo sơ đồ sau:
Số liệu định tính

Thang đo danh nghĩa

Thang đo thứ bậc


Thang đo số liệu định tính
Thang đo là cơng cụ dùng để qui ước các tình trạng hay mức ñộ của các ñơn vị


2

khảo sát theo các ñặc trưng ñược xem xét.
Thang ño danh nghĩa: trong thang ño này các con số chỉ dùng để phân loại các
đối tượng, chúng khơng mang ý nghĩa nào khác. Về thực chất thang ño danh nghĩa là
sự phân loại và ñặt tên cho các biểu hiện và ấn ñịnh cho chúng mộ ký số tương ứng.
Thang ño thứ bậc: các con số ở thang ño danh nghĩa được sắp xếp theo một qui
ước nào đó về thứ bậc hay sự hơn kém, nhưng ta không biết ñược khoảng cách giữa
chúng. ðiều này có nghĩa là bất cứ thang ño thứ bậc nào cũng là thang danh nghĩa
nhưng rõ ràng không thể suy ngược lại rằng thang danh nghĩa nào cũng là thang thứ
bậc.
Phân tích thành phần chính là một kỹ thuật biểu diễn các số liệu một cách tối ưu
theo tiêu chuẩn đại số và hình học đặc biệt. Vì vậy mục đích của phân tích thành phần
chính là rút ra thơng tin chủ yếu chứa trong bảng số liệu bằng cách xây dựng một biểu
diễn ñơn giản hơn, sao cho trong biểu diễn ñó ñám mây số liệu thể hiện rõ nhất, mà
thông tin không bị sai lạc.
Phân tích nhân tố một loại kỹ thuật dành cho miêu tả và phân loại các cá thể,
trên mỗi cá thể người ta ño một số lớn chỉ tiêu. Bản chất là mô tả hiệp phương sai giữa
các biến dưới dạng một vài biến cơ sở, giảm các biến dư thừa bằng cách dùng lượng
nhỏ các nhân tố.
Phân tích phân biệt trước hết đề ra một tiêu chuẩn phân biệt các lớp, và sau đó
giải quyết bài tốn phân bố một hoặc nhiều cá thể mới vào lớp nào đó theo tiêu chuẩn
phân lớp đã cho.


3


Phân tích số liệu định tính nhiều chiều

Phân tích thành phần chính

Phân tích nhân tố

Phân tích phân biệt
Luận văn được trình bày với các chương sau đây:
Chương 1 trình bày các ký hiệu, cơng cụ thống kê và các tính chất cơ bản có liên
quan.
Chương 2 khảo sát các phương pháp phân tích số liệu định tính nhiều chiều.
Chương 3 xem xét bài tốn phân tích số liệu thống kê thực tế: ñánh giá chất lượng
dịch vụ giáo dục của trường ðại học Tài chính – Marketing, sử dụng phần mềm SPSS
phiên bản 11.5 và AMOS 16. Thông qua phân tích đưa ra nhận xét đánh giá và phương
hướng phát triển của trường.
Hướng phát triển của luận văn được trình bày trong phần kết luận.
Chương trình nguồn để xử lý số liệu ñược ñưa ra ở phần phụ lục.

Chương 1


4

LÝ THUYẾT THỐNG KÊ VÀ ðẠI SỐ TUYẾN TÍNH
1.1 Trung bình và phương sai của biến ngẫu nhiên một chiều
Biến ngẫu nhiên là ñại lượng lấy giá trị thực tùy thuộc vào kết quả ngẫu nhiên
của phép thử. Các chữ in X , Y ,... thường dùng ñể ký hiệu các biến ngẫu nhiên. Biến
ngẫu nhiên có hai loại: biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục.
Hàm mật ñộ f ( X ) chỉ ra mối quan hệ mật ñộ các sự kiện của biến ngẫu nhiên


X . Do đó, nếu f ( X 1 ) > f ( X 2 ) , thì các điểm lân cận của X 1 có khả năng xảy ra hơn
các ñiểm lân cận của X 2 .
Trung bình tổng thể của biến ngẫu nhiên X có N quan sát là trung bình của tất
cả giá trị có thể có của X được ký hiệu là µ , cịn gọi là giá trị kỳ vọng của X , hoặc

E( X ) .
n

E( X ) =

∑X
i =1

N

i



(1.0)

Trung bình mẫu ngẫu nhiên của n quan sát X 1 ,..., X n , ñược tính theo cơng
thức:

1 n
X = ∑ Xi
n i =1

(1.1)


Nếu mỗi X trong tổng thể nhân với hằng số a thì kỳ vọng của nó cũng nhân
với a :

E (aX ) = aE ( X ) = aµ

(1.2)

Trung bình mẫu có tính chất tương tự. Nếu zi = aX i , i = 1, n , thì

z = aX
Phương sai tổng thể:

var( X ) = σ 2 = E ( X − µ ) 2

(1.3)


5

σ 2 = E( X 2 ) − µ 2

hoặc
Phương sai mẫu:

n

s2 =

∑(X

i =1

i

n −1

n

s2 =

hoặc

∑X
i =1

− X )2

2
i

(1.4)

− nX 2

n −1

(1.5)

ðộ lệch chuẩn là căn bậc hai của phương sai tổng thể hoặc phương sai mẫu, thể
hiện ñộ lệch trung bình của tất cả các quan sát so với giá trị trung bình.

Nếu mỗi X được nhân với hằng số a thì phương sai tổng thể được nhân với

a 2 , nghĩa là:
var(aX ) = a 2σ 2
Nếu zi = aX i , i = 1, n , thì phương sai mẫu của z là:

sz2 = a 2 s 2

(1.6)

1.2 Hiệp phương sai và tương quan của biến ngẫu nhiên hai chiều
1.2.1 Hiệp phương sai
Nếu hai biến X và Y ñược ño trên cùng một ñơn vị nghiên cứu, ta có biến ngẫu
nhiên hai chiều ( X , Y ) .
Hiệp phương sai tổng thể ñược ñịnh nghĩa là:

cov( X , Y ) = σ XY = E[( X − µ X )(Y − µY )] ,
trong đó µ X , µY là trung bình của X , Y . Nếu X và Y cùng trên hoặc dưới giá trị
trung bình của chúng, thì tích ( X − µ X )(Y − µY ) sẽ dương, và giá trị trung bình của
tích này sẽ dương. Trái lại, tích này sẽ âm, và trung bình của tích này sẽ âm. Hiệp
phương sai tổng thể cịn được biểu diễn dưới dạng:


6

σ XY = E ( XY ) − µ X µY .
Nếu X và Y là biến ngẫu nhiên hai chiều, khi đó ta có:

E ( X + Y ) = E ( X ) + E (Y )


(1.7)

E ( XY ) = E ( X ) E (Y ) ( X , Y ñộc lập)

(1.8)

Nếu X , Y ñộc lập thì σ XY = 0

σ XY = E ( XY ) − µ X µY
= E ( X ) E (Y ) − µ X µY
= µ X µY − µ X µY = 0
Hiệp phương sai mẫu được ñịnh nghĩa là:
n

s XY =

∑(X
i =1

i

− X )(Yi − Y )
n −1

(1.9)

n

s XY =


hoặc

∑ X Y − nXY
i =1

i i

n −1

(1.10)

Biến có hiệp phương sai mẫu bằng 0 được gọi là trực giao.Vì hai tập số a1 , a2 ,..., an và
n

b1 , b2 ,..., bn trực giao nếu

∑ a b = 0 . ðiều này ñúng ñối với biến ñã qui tâm
i =1

i i

Xi − X

và Yi − Y khi đó hiệp phương sai mẫu là 0, nghĩa là:
n

∑(X
i =1

i


− X )(Yi − Y ) = 0 .

1.2.2 Tương quan
Vì hiệp phương sai phụ thuộc vào thang đo của hai biến X và Y , thật khó để so
sánh hiệp phương sai giữa các cặp biến khác nhau. Ta tiêu chuẩn hóa hiệp phương sai
bằng cách chia cho độ lệch chuẩn của hai biến. Hiệp phương sai chuẩn hóa này gọi là
tương quan. Tương quan tổng thể của hai biến ngẫu nhiên X và Y là:


7

ρ XY = corr ( X , Y ) =

σ XY
E[( X − µ X )(Y − µY )]
=
σ XσY
E ( X − µ X ) 2 E (Y − µY ) 2

(1.12)

và tương quan mẫu là:
n

rXY

∑(X

s

= XY =
s X sY

i =1

n

∑(X
i =1

i

− X )(Yi − Y )
n

i

(1.13)

− X ) 2 ∑ (Yi − Y ) 2
i =1

cả hai tương quan này biến thiên từ −1 ñến 1 .
Phương sai mẫu rXY được liên kết với cosine của góc giữa hai véctơ . ðặt θ là
góc giữa hai véctơ a và b . Gọi c = b − a . Công thức cosine như sau:

cosθ =

aT a + bT b − (b − a )T (b − a )
2 (aT a )(bT b)


Hình 1.1 Véctơ a và b trong khơng gian 3 chiều.

cosθ =
=

aT a + bT b − (bT b + aT a − 2aT b)
2 (aT a )(bT b)
T

a b
(aT a )(bT b)

Vì cos(900 ) = 0 ⇒ aT b = 0 khi θ = 900 .

(1.14)


8

Do đó, a và b vng góc khi aT b = 0 . Hai véctơ a và b có aT b = 0 , được gọi là trực
giao. Vì vậy, hai véctơ trực giao thì vng góc với nhau về phương diện hình học.
Khai triển cơng thức (1.14), đặt n véctơ quan sát ( X 1 , Y1 ),… ( X n , Yn ) trong

X T = ( X 1 , X 2 ,…, X n ) và Y T = (Y1 , Y2 ,…, Yn )

không gian hai chiều bằng hai véctơ

trong không gian n chiều, và qui tâm X và Y tức là X − X j và Y − Y j . Khi đó, ta có:


cosθ =

( X − X j )T (Y − Y j )
[( X − X j )T ( X − X j )][(Y − Y j )T (Y − Y j )]
n

=

∑(X
i =1

n

∑(X
i =1

i

− X )(Yi − Y )
n

i

− X )2 ∑ (Yi − Y ) 2

(1.15)

= rXY

i =1


Do đó, nếu góc θ giữa hai véctơ qui tâm X − X j và Y − Y j nhỏ thì cosθ tiến gần 1 ,

rXY sẽ gần ñến 1 , nếu hai véctơ vng góc, cosθ và rXY bằng 0. Nếu hai véctơ đối
nhau, thì rXY gần với −1 .
1.3 Véctơ trung bình
ðặt X là véctơ ngẫu nhiên có p thành phần. Nếu mẫu có n cá thể, thì n véctơ
quan sát ký hiệu X 1 , X 2 ,…, X n , trong đó:

 X i1 
X 
i2 
Xi = 
 ⋮ 


X
ip


Véctơ trung bình mẫu X :


9

 X1 


X
1 n

2

X = ∑ Xi = 

⋮ 
n i =1


X
 p

(1.16)

Tất cả n véctơ quan sát X 1 , X 2 ,…, X n ñược chuyển vị thành véctơ hàng và tạo
thành ma trận số liệu Y :

 X 1T  1  x11
 T
x
2
X
2


 21
 ⋮ 
 ⋮
Y = T = 
 X i  i  xi1
 ⋮ 

 ⋮
 T 

 X n  n  xn1
1

x12 ⋯ x1 j
x22 ⋯ x2 j






xi 2 ⋯

xij







xn 2 ⋯
2

xnj
j


⋯ x1 p 
⋯ x2 p 

⋮ 

⋯ xip 

⋮ 

⋯ xnp 

(1.17)

p

Vì n thường lớn hơn p , nên số liệu xếp thành bảng thuận lợi hơn bằng cách ñưa vào
các véctơ quan sát là hàng hơn là cột. Lưu ý, ký hiệu i cho từng cá thể và j cho các
biến.
Hơn nữa, ta có hai cách tính X cho bởi (1.16), ta tính X từ Y . Tính tổng n
phần tử bên trong cột của Y và chia cho n , cho ta X T .

XT =

1 T
j Y
n

 X 11 
X  n
22 

T
trong đó j là véctơ của 1 . Cụ thể là (1,1,…,1) 
= X i2
 ⋮  ∑
i =1


 X n2 
Chuyển vị (1.18)

(1.18)


10

1
X = YT j
n

(1.19)

Trung bình các giá trị của tổng thể X gọi là véctơ trung bình tổng thể hoặc giá
trị kỳ vọng của X . ðịnh nghĩa như sau:

 X 1   E ( X 1 )   µ1 
 X   E( X )   
µ
2 
2 
E( X ) = E 

=
= 2=µ
 ⋮   ⋮   ⋮ 

 
  
 X p   E ( X p )   µ3 

(1.20)

trong đó, µ j là trung bình của biến thứ j . Và giá trị kỳ vọng của mỗi X j trong X là

µ j , nghĩa là E ( X j ) = µ j . Vì vậy ta có:
 X 1   E ( X 1 )   µ1 

 

X 2   E ( X 2 )   µ 2 

E( X ) = E
=
=

 ⋮   ⋮   ⋮ 

 
  
X
E
(

X
)
p
p

 
  µ3 

(1.21)

1.4 Ma trận hiệp phương sai
Ma trận hiệp phương sai mẫu S = ( s jk ) là ma trận của phương sai mẫu và hiệp
phương sai p biến:

 s11
s
21
S = ( s jk ) = 
 ⋮

 s p1

s12
s22

s p2

⋯ s1 p 
⋯ s2 p 


⋮ 

⋯ s pp 

(1.22)

Phương sai mẫu p biến trong S nằm trên ñường chéo, và tất cả các cặp hiệp phương sai
mẫu nằm ngoài ñường chéo. Hàng (cột) thứ j bao gồm hiệp phương sai của X j với

p − 1 biến.


11

Phương sai mẫu của biến thứ j , sij = s 2j được tính theo (1.4) và (1.5), sử dụng
cột thứ j của X :

1 n
( X ij − X j ) 2

n − 1 i =1

(1.23)

1  n 2

=
X ij − nX 2j 



n − 1  i =1


(1.24)

s jj = s 2j =

trong đó, X j là trung bình của biến thứ j . Hiệp phương sai mẫu của biến thứ j và k
là s jk được tính theo (1.9) và (1.10), sử dụng cột thứ j và k của Y :

s jk =
=

1 n
∑ ( X ij − X j )( X ik − X k )
n − 1 i =1

(1.25)

1  n

X ij X ik − nX j X k 


n − 1  i =1


(1.26)

Lưu ý trong (1.23) phương sai s jj ñược biểu diễn như s 2j , bình phương độ lệch chuẩn


s j , và S đối xứng vì s jk = skj theo (1.25), tên gọi khác của ma trận hiệp phương sai là
ma trận phương sai, ma trận phương sai-hiệp phương sai, hoặc ma trận phân tán.
Ma trận hiệp phương sai mẫu S cũng ñược biểu diễn dưới dạng các véctơ quan
sát:

1 n
S=
( X i − X )( X i − X )T

n − 1 i =1

(1.27)

1  n
T
T 
=
X
X

nXX

i
i

n − 1  i =1


(1.28)


Vì ( X i − X )T = ( X i1 − X 1 , X i 2 − X 2 ,…, X ip − X p ) , phần tử ở vị trí (1,1) của

( X i − X )( X i − X )T là ( X i1 − X 1 ) 2 , lấy tổng theo i từ (1.27) ta ñược s11 . Tương tự, ta
có các s jk khác.


12

Nếu X là véctơ ngẫu nhiên nhận giá trị bất kỳ trong tổng thể nhiều biến, ma
trận hiệp phương sai tổng thể là:

 σ 11 σ 12 ⋯ σ 1 p 
σ
σ 22 ⋯ σ 2 p 
21

Σ = cov( X ) =
 ⋮


⋮ 


 σ p1 σ p 2 ⋯ σ pp 

(1.30)

Phần tử chéo σ jj = σ 2j là phương sai tổng thể của X , và các phần tử σ jk ngồi đường
chéo là hiệp phương sai tổng thể của X .

Ma trận hiệp phương sai trong (1.30) có thể tính:

Σ = E[( X − µ )( X − µ )T ]

(1.31)

 X 1 − µ1 
 X −µ 
2
2 
T
Σ = E[( X − µ )( X − µ ) ] = E 
( X − µ1, X 2 − µ2 ,…, X p − µ p )

 1



X

µ
p
p



( X 1 − µ1 )2
( X 1 − µ1 )( X 2 − µ2 ) ⋯ ( X 1 − µ1 )( X p − µ p ) 



2
(
X

)(
X

)
(
X

)

(
X

)(
X

)
µ
µ
µ
µ
µ
2
2
1
1
2

2
2
2
p
p

= E








2
(
X

)(
X

)
E
(
X

)(
X


)

E
(
X

)
µ
µ
µ
µ
µ
p
1
1
p
p
2
2
p
p
 p


E ( X 1 − µ1 ) 2
E ( X 1 − µ1 )( X 2 − µ 2 ) ⋯ E ( X 1 − µ1 )( X p − µ p ) 


2
E

(
X

)(
X

)
E
(
X

)

E
(
X

)(
X

)
µ
µ
µ
µ
µ
2
2
1
1

2
2
2
2
p
p

=








E ( X p − µ p )2
 E ( X p − µ p )( X 1 − µ1 ) E ( X p − µ p )( X 2 − µ 2 ) ⋯



13

 σ 11 σ 12 ⋯ σ 1 p 
σ
σ 22 ⋯ σ 2 p 
21

=
 ⋮



⋮ 


 σ p1 σ p 2 ⋯ σ pp 
hoặc

Σ = E ( XX T ) − µµ T

(1.32)

1.5 Ma trận tương quan
Tương quan mẫu giữa biến thứ j và biến thứ k ñược ñịnh nghĩa theo (1.13):

rjk =

s jk
s jj skk

=

s jk
s j sk

(1.33)

Ma trận tương quan mẫu tương tự như ma trận hiệp phương sai với các tương quan
thay cho các hiệp phương sai:


 1 r12 ⋯ r1 p 
r

1

r
21
2
p

R = (rjk ) = 
 ⋮


⋮ 



1
r
r
1
2
p
p



(1.34)


R là ma trận ñối xứng, vì rjk = rkj .
Ma trận tương quan có ñược từ ma trận hiệp phương sai và ngược lại. ðịnh
nghĩa:

Ds = diag ( s11 , s22 ,…, s pp )
= diag ( s1 , s2 ,…, s p )

 s1
0
=
⋮

0

0
s2 ⋯ 0 
⋮ ⋮ ⋮

0 ⋯ s p 
0 ⋯

(1.35)


14

Ta có :

R = Ds−1SDs−1


(1.36)

S = Ds RDs

(1.37)

Ma trận tương quan tổng thể :

 1
ρ
21
Pp = ( ρ jk ) = 
 ⋮

 ρ p1
trong đó,

ρ jk =

ρ12 ⋯ ρ1 p 
1 ⋯ ρ 2 p 




ρ p2 ⋯

⋮ 

1 


(1.38)

σ jk
.
σ jσ k

1.6 Tổ hợp tuyến tính của các biến
1.6.1 ðặc trưng mẫu

X 1 , X 2 ,…, X p là các biến ngẫu nhiên, a1 , a2 ,…, a p là các hằng số, xét tổ hợp
tuyến tính của X :

z = a1 X 1 + a2 X 2 + … + a p X p = aT X ,

(1.39)

với aT = ( a1 , a2 ,…, a p ) . Nếu véctơ hệ số a này tác dụng lên mỗi X i , ta có:

zi = a1 X i1 + a2 X i 2 + … + a p X ip
= aT X i ,

i = 1, n

(1.40)

Trung bình mẫu của z được tính bằng cách lấy trung bình của n giá trị :

z1 = aT X 1 , z2 = aT X 2 ,…, zn = aT X n
hoặc là tổ hợp tuyến tính của X , véctơ trung bình mẫu của X 1 , X 2 ,…, X n :


z=

1 n
zi = aT X

n i =1

Kết quả (1.42) tương tự với kết quả (1.3), z = aX , với zi = aX i , i = 1, n .

(1.41)


×