Tải bản đầy đủ (.pdf) (122 trang)

Phân tích dữ liệu đa biến và một số ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.77 MB, 122 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ HUỲNH NHƯ

PHÂN TÍCH DỮ LIỆU ĐA BIẾN VÀ MỘT SỐ ỨNG
DỤNG

Chuyên ngành : TOÁN ỨNG DỤNG
Mã số: 60460112

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH - Tháng 6 năm 2018


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ HUỲNH NHƯ

PHÂN TÍCH DỮ LIỆU ĐA BIẾN VÀ MỘT
SỐ ỨNG DỤNG

Chuyên ngành : TOÁN ỨNG DỤNG
Mã số: 60460112

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH - Tháng 6 năm 2018



CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : TS. Nguyễn Tiến Dũng.
Cán bộ chấm nhận xét 1 : PGS. TS Nguyễn Bích Huy.
Cán bộ chấm nhận xét 2 : TS. Nguyễn Bá Thi.
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 17 tháng 07 năm 2018.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: PGS. TS Nguyễn Đình Huy.
2. Thư ký: TS. Đặng Văn Vinh.
3. Phản biện 1: PGS. TS Nguyễn Bích Huy.
4. Phản biện 2: TS. Nguyễn Bá Thi.
5. Ủy viên: PGS. TS Nguyễn Huy Tuấn.
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

PGS.TS. NGUYỄN ĐÌNH HUY

TRƯỞNG KHOA

PGS.TS. HUỲNH QUANG LINH


ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM


TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Lê Huỳnh Như
Ngày, tháng, năm, sinh: 03/09/1987

MSHV: 7140275
Nơi sinh: Long An

Chuyên ngành: Toán Ứng Dụng

Mã số: 60460112

I. TÊN ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU ĐA BIẾN VÀ MỘT SỐ ỨNG
DỤNG
II. NHIỆM VỤ VÀ NỘI DUNG:
- Kiến thức chuẩn bị.
- Phân tích dữ liệu đa biến.
- Ứng dụng.
III. NGÀY GIAO NHIỆM VỤ: 15/01/2018
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018
V. CÁN BỘ HƯỚNG DẪN: TS. NGUYỄN TIẾN DŨNG

Tp. HCM, ngày 17 tháng 6 năm 2018
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO


TS. NGUYỄN TIẾN DŨNG

PGS.TS. NGUYỄN ĐÌNH HUY

TRƯỞNG KHOA

PGS.TS. HUỲNH QUANG LINH


LỜI CẢM ƠN
Luận văn này được thực hiện tại Trường Đại học Bách Khoa Tp.HCM dưới
sự hướng dẫn của Thầy TS. Nguyễn Tiến Dũng. Trước hết, tôi xin bày tỏ lịng
biết ơn sâu sắc đến Thầy - người ln động viên và hết lịng hướng dẫn tơi
hồn thành luận văn này.
Tôi cũng xin chân thành cảm ơn các quý thầy cơ giáo bộ mơn Tốn Ứng
Dụng khoa Khoa học Ứng Dụng đã giảng dạy nhiệt tình, cung cấp kiến thức
cho tơi trong q trình học tập ở trường.
Tơi xin chân thành cảm ơn Phòng đào tạo Sau đại học Trường Đại học Bách
Khoa Tp.HCM đã tạo điều kiện thuận lợi để tơi hồn thành chương trình đào
tạo và an tâm học tập tại trường.
Cuối cùng, tôi xin gửi lời cám ơn đến gia đình, bạn bè, những người đã ln
bên tơi, động viên và khuyến khích tơi hồn thành luận văn này.
Tôi xin chân thành cảm ơn!
Tp.HCM, ngày 17 tháng 6 năm 2018
Học viên thực hiện

Lê Huỳnh Như

5



TÓM TẮT LUẬN VĂN
Luận văn bao gồm 3 chương. Chương 1 trình bày các khái niệm cơ bản.
Chương 2 trình bày về cách phân tích mơ hình hồi quy tuyến tính đa biến và
ứng dụng. Chương 3 trình bày mơ hình copula và ứng dụng.

ABSTRACT
The thesis contains three chapters. Chapter 1 presents the basic concept.
Chapter 2 presents the multivariate linear regression analysis and application.
Chapter 3 presents the copula model and application.

6


LỜI CAM ĐOAN
Tôi tên là Lê Huỳnh Như, MSHV: 7140275, học viên cao học chuyên ngành
Toán ứng dụng Trường Đại học Bách Khoa TP.HCM khóa 2014. Tơi xin cam
đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi
rõ trong luận văn, các cơng việc trình bày trong luận văn này là do chính tôi
thực hiện dưới sự hướng dẫn của TS. Nguyễn Tiến Dũng.
Tp.HCM, ngày 17 tháng 6 năm 2018
Học viên thực hiện

Lê Huỳnh Như

7


Mục lục


Mở đầu

11

Bảng ký hiệu

13

1 Kiến thức chuẩn bị

14

1.1

Hiệp phương sai của biến ngẫu nhiên hai chiều . . . . . . . . .

14

1.2

Tương quan của biến ngẫu nhiên hai chiều

. . . . . . . . . . .

15

1.3

Ma trận hiệp phương sai . . . . . . . . . . . . . . . . . . . . .


15

1.4

Ma trận tương quan . . . . . . . . . . . . . . . . . . . . . . . .

16

2 Mơ hình hồi quy tuyến tính đa biến
2.1

Phân tích tương quan tuyến tính (Linear Correlation) . . . . .

18

2.1.1

Đồ thị phân tán . . . . . . . . . . . . . . . . . . . . . . .

18

2.1.2

Hệ số tương quan của tập hợp chính (The Population Correlation

. . . . . . . . . . . . . . . . . . . . . . . . .

18

2.1.3


Hệ số tương quan của mẫu . . . . . . . . . . . . . . . . . .

19

2.1.4

Kiểm định giả thuyết về ρ . . . . . . . . . . . . . . . . . . .

20

Phân tích nhân tố . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.2.1

Mô hình EFA

. . . . . . . . . . . . . . . . . . . . . . . .

20

2.2.2

Các bước thực hiện EFA . . . . . . . . . . . . . . . . . . .

21

2.2.3


Kích thước mẫu . . . . . . . . . . . . . . . . . . . . . . .

21

2.2.4

Kiểm tra độ tin cậy thang đo bằng hệ số Cronbach’s alpha . . .

22

2.2.5

Điều kiện để áp dụng EFA

. . . . . . . . . . . . . . . . . .

23

Coefficient)

2.2

18

8


2.3


2.4

2.2.6

Hệ số tải nhân tố . . . . . . . . . . . . . . . . . . . . . . .

24

2.2.7

Loại bỏ biến xấu . . . . . . . . . . . . . . . . . . . . . . .

24

Hồi quy tuyến tính đa biến . . . . . . . . . . . . . . . . . . . .

25

2.3.1

Hàm hồi quy tổng thể

. . . . . . . . . . . . . . . . . . . .

25

2.3.2

Các giả thuyết . . . . . . . . . . . . . . . . . . . . . . . .


26

2.3.3

Ước lượng các tham số . . . . . . . . . . . . . . . . . . . .

26

2.3.4

Hệ số xác định hồi quy bội . . . . . . . . . . . . . . . . . .

28

2.3.5

Ma trận tương quan

. . . . . . . . . . . . . . . . . . . . .

29

2.3.6

Ma trận hiệp phương sai . . . . . . . . . . . . . . . . . . .

30

2.3.7


Khoảng tin cậy và kiểm định giả thiết . . . . . . . . . . . . .

30

2.3.8

Hiện tượng đa cộng tuyến . . . . . . . . . . . . . . . . . . .

32

Ứng dụng mơ hình hồi quy tuyến tính đa biến để đánh giá sự hài
lịng của học sinh khối 12 năm học 2017 - 2018 về trường THPT
Gò Đen, Bến Lức, Long An . . . . . . . . . . . . . . . . . . . .

35

2.4.1

Giới thiệu trường THPT Gị Đen, Bến Lức, Long An . .

35

2.4.2

Quy trình nghiên cứu . . . . . . . . . . . . . . . . . . .

36

2.4.3


Nghiên cứu định tính . . . . . . . . . . . . . . . . . . .

36

2.4.4

Nghiên cứu định lượng . . . . . . . . . . . . . . . . . .

36

2.4.5

Bảng khảo sát . . . . . . . . . . . . . . . . . . . . . . .

37

2.4.6

Kết quả sau khi chạy hồi quy đa biến . . . . . . . . . .

46

3 Mơ hình copula
3.1

3.2

63

Một vài định nghĩa và tính chất của Copula . . . . . . . . . . .


63

3.1.1

Các hàm phân phối đồng thời Fréchet - Hoeffding

. . . . . . .

68

3.1.2

Copula và biến ngẫu nhiên . . . . . . . . . . . . . . . . . .

71

Các khái niệm sự phụ thuộc . . . . . . . . . . . . . . . . . . .

73

3.2.1

Tương quan tuyến tính . . . . . . . . . . . . . . . . . . . .

73

3.2.2

Độ đo sự tương thích . . . . . . . . . . . . . . . . . . . . .


74

3.2.3

Độ đo sự phụ thuộc . . . . . . . . . . . . . . . . . . . . . .

77

9


3.2.4
3.3

3.4

3.5

Những khái niệm phụ thuộc khác . . . . . . . . . . . . . . .

78

Sơ lược về các hàm copula . . . . . . . . . . . . . . . . . . . .

82

3.3.1

Phân phối elliptic


. . . . . . . . . . . . . . . . . . . . . .

82

3.3.2

Copula liên quan đến phân phối elliptic . . . . . . . . . . . .

83

3.3.3

Copula Archimedean . . . . . . . . . . . . . . . . . . . . .

87

3.3.4

Giá trị cực trị các copula . . . . . . . . . . . . . . . . . . .

88

Các kết luận thống kê về copula . . . . . . . . . . . . . . . . .

90

3.4.1

Kỹ thuật mô phỏng . . . . . . . . . . . . . . . . . . . . . .


90

3.4.2

Ước lượng không tham số . . . . . . . . . . . . . . . . . . .

91

3.4.3

Ước lượng tham số . . . . . . . . . . . . . . . . . . . . . .

93

Ứng dụng copula trong đo lường rủi ro tài chính . . . . . . . .

98

3.5.1

Tổn thất tổng hợp và phân tích giá trị rủi ro . . . . . . . . . .

98

3.5.2

Giá trị cực trị nhiều chiều và rủi ro thị trường . . . . . . . . .

105


3.5.3

Tần số tương quan và tính toán rủi ro . . . . . . . . . . . . .

117

Kết luận

120

Lý lịch trích ngang

122

10


MỞ ĐẦU

I. Lý do chọn đề tài
Phân tích dữ liệu đa biến dựa trên nguyên tắc thống kê số liệu đa biến,
trong đó bao gồm việc quan sát và phân tích kết quả thống kê của nhiều hơn
một biến đã và đang thu hút sự quan tâm của nhiều nhà thống kê cũng như
của nhiều nhà khoa học trong các ngành thực nghiệm. Một trong những điểm
mạnh của phương pháp này là nó có thể được sử dụng để thực hiện các nghiên
cứu trong rất nhiều lĩnh vực liên quan đến yêu cầu xem xét tác động của nhiều
nhân tố trên những biến phản hồi Y (xem [13]). Trong số các phương pháp
phân tích đa biến thì phân tích hồi quy có nhiều ưu điểm vì đó là một phân
tích thống kê để xác định xem các biến độc lập có quan hệ như thế nào với các

biến phụ thuộc. Đây là một phương pháp thống kê mà giá trị kỳ vọng của một
hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu
nhiên (đã tính tốn) khác. Phân tích hồi quy có nhiều mơ hình như mơ hình
hồi qui tuyến tính, hồi qui lơgic, hồi qui Poisson...Luận văn này sẽ tập trung
nghiên cứu và ứng dụng mơ hình hồi quy tuyến tính đa biến (xem [1]).
Ngoài ra, một trong những phương pháp thường được dùng khi phân tích
dữ liệu đa biến với cách tiếp cận liên quan đến hàm phân phối đồng thời là
mô hình copula (xem [10]). Các copula là các hàm đặc biệt với nhiều tính chất
rất thú vị. Dựa vào copula, ta có thể xác định được sự phụ thuộc của các biến
ngẫu nhiên mà nhiều khi covariance và correlation không thể lý giải được. Đặc
biệt, trong lý thuyết đầu tư và quản lý rủi ro, việc chỉ sử dụng covariance và
correlation của các chỉ số, giá cả, v.v. nhiều khi là chưa đủ. Khi đó, ta cần phải
khảo sát cả copula của chúng.

II. Mục đích nghiên cứu
Mục tiêu nghiên cứu cơ bản của luận văn này là làm rõ phép phân tích hồi
quy tuyến tính đa biến, phân tích mơ hình copula và ứng dụng của nó.

11


III. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Mơ hình hồi quy tuyến tính đa biến, mơ hình copula.
- Phạm vi nghiên cứu: Mơ hình phân tích trong kết quả đo và một số ứng
dụng.

IV. Phương pháp nghiên cứu
- Tìm hiểu mơ hình hồi quy đa biến, mơ hình copula.
- Xem xét khả năng ứng dụng của các phương pháp trong các bài báo vào
một hoặc một vài dữ liệu đặc thù ở Việt Nam.

- Học cách sử dụng phần mềm SPSS (xem [7]) hoặc/và R (xem [15]) để hiện
thực hóa khả năng ứng dụng trên.

V. Ý nghĩa khoa học và thực tiễn của đề tài
- Ý nghĩa khoa học: Luận văn này nghiên cứu và làm rõ một số mơ hình
phân tích.
- Ý nghĩa thực tiễn: Ứng dụng các mơ hình trên cho một số bài tốn trong giáo
dục hoặc kinh tế tài chính.

VI. Cấu trúc của luận văn
- Chương 1: Kiến thức chuẩn bị.
- Chương 2: Mơ hình hồi quy tuyến tính đa biến.
- Chương 3: Mơ hình copula.

12


BẢNG KÝ HIỆU
cov(x, y)
ρ(x, y)
rxy
ij cov(Xi , Xj )
EF A
Xi
Aij
F1 , F2 , ..., Fm
CA
IN
C
DomC

C−
C+
C⊥
RanX
(X1 , ..., Xn )T
X ∼ En (µ, , φ)
P DM
EDM
Cˆ tT1 , ..., tTn , ..., tTN
ML
EM L
CM L
IF M
mgf
V aR

:
:
:
:
:
:
:
:
:
:
:
:
:
:

:
:
:
:
:
:
:
:
:
:
:
:
:

Hiệp phương sai tổng thể của biến ngẫu nhiên hai chiều (x, y).
Tương quan tổng thể của hai biến x và y .
Tương quan mẫu.
Ma trận hiệp phương sai có thành phần (i, j) là hiệp phương sai.
Phân tích nhân tố khám phá.
Biến đo lường thứ i đã được chuẩn hóa.
Hệ số hồi qui bội đã được chuẩn hóa của nhân tố j đối với biến i.
Các nhân tố chung.
Cronbach’s Alpha: đánh giá độ tin cậy của thang đo.
Hình lập phương đơn vị.
Copula.
Miền xác định của hàm C.
Cận dưới Fréchet - Hoeffding.
Cận trên Fréchet - Hoeffding.
Tích copula.
Miền giá trị của X.

Véctơ của biến ngẫu nhiên tục với copula C.
X có phân phối elliptic với các tham số µ, , φ .
Mơ hình phương sai riêng.
Mơ hình phương sai mũ.
Phân phối copula thực nghiệm.
Ước lượng hợp lý cực đại.
Ước lượng hợp lý cực đại chính xác.
Ước lượng hợp lý cực đại chính tắc.
Hàm suy luận cho phân phối lề.
Hàm sinh moment.
Value at Risk: thước đo rủi ro thị trường.

13


Chương 1

Kiến thức chuẩn bị
1.1

Hiệp phương sai của biến ngẫu nhiên hai chiều

Nếu hai biến x và y được đo lường trên cùng một đơn vị nghiên cứu, ta có
biến ngẫu nhiên hai chiều (x, y).
Hiệp phương sai tổng thể được định nghĩa:

cov(x, y) = σxy = E[(x − µx )(y − µy )]

(1.1)


với µx , µy tương ứng là trung bình của x và y . Nếu x và y cùng trên hoặc dưới
giá trị trung bình thì tích (x − µx )(y − µy ) sẽ dương và giá trị trung bình của
tích này sẽ dương. Ngược lại, tích (x − µx )(y − µy ) sẽ âm và giá trị trung bình
của tích này sẽ âm. Hiệp phương sai tổng thể có thể được biểu diễn:

σxy = E(xy) − µx µy

(1.2)

Nếu (x, y) là biến ngẫu nhiên hai chiều thì:

E(x + y) = E(x) + E(y)

(1.3)

E(xy) = E(x)E(y), nếu x, y độc lập.
Nếu x và y độc lập thì σxy = 0

σxy = E(xy) − µx µy = E(x)E(y) − µx µy = µx µy − µx µy = 0

(1.4)

Hiệp phương sai mẫu được định nghĩa là:
n

(xi − x)(yi − y)
Sxy =

i=1


n−1

14

(1.5)


hay
n

xi yi − nxy
Sxy =

1.2

i=1

(1.6)

n−1

Tương quan của biến ngẫu nhiên hai chiều

Trong phân tích hồi quy tuyến tính đơn giản, hệ số tương quan là một thống
kê mà chỉ ra các mối quan hệ giữa các biến độc lập và biến phụ thuộc.
Hệ số tương quan được ký hiệu bởi r và nó trong khoảng -1.00 đến 1.00. Khi
hệ số tương quan là dương, chẳng hạn như 0.80, nó có nghĩa là sự gia tăng các
biến độc lập sẽ dẫn đến sự gia tăng biến phụ thuộc. (Ngoài ra, giảm các biến
độc lập sẽ có nghĩa là giảm các biến phụ thuộc).
Khi hệ số tương quan là âm, chẳng hạn như -0.80, có một mối quan hệ nghịch

biến. (Sự gia tăng các biến độc lập sẽ có nghĩa là giảm biến phụ thuộc. Sự giảm
các biến độc lập sẽ có nghĩa là một sự gia tăng trong các biến phụ thuộc.) Một
hệ số tương quan bằng 0.8 hoặc -0.8 cho thấy một mối tương quan mạnh mẽ
giữa các biến độc lập và biến phụ thuộc.
Hiệp phương sai phụ thuộc vào thang đo của x và y , rất khó để so sánh hiệp
phương sai giữa các cặp khác nhau của các biến. Để tìm thước đo về mối quan
hệ tuyến tính bất biến khi thay đổi tỷ lệ ta có thể chuẩn hóa hiệp phương sai
bằng cách chia cho độ lệch chuẩn của hai biến. Sự chuẩn hóa này gọi là tương
quan. Tương quan tổng thể của 2 biến x và y là

ρxy = corr(x, y) =

E[(x − µx )(y − µy )]

σxy
=
σx σy

2

E(x − µx )

(1.7)
2

E(y − µy )

và tương quan mẫu là
n


rxy

Sxy
=
=
Sx Sy

(xi − x)(yi − y)
i=1
n

(xi − x)2

i=1

1.3

(1.8)
n

(yi − y)2

i=1

Ma trận hiệp phương sai

Ma trận hiệp phương sai của tập hợp m biến ngẫu nhiên là một ma trận
vng hạng (m × m), trong đó các phần tử nằm trên đường chéo (từ trái sang
15



phải, từ trên xuống dưới) lần lượt là phương sai tương ứng của các biến này (với
Var(X) = Cov(X, X)), trong khi các phần tử cịn lại (khơng nằm trên đường
chéo) là các hiệp phương sai của đôi một hai biến ngẫu nhiên khác nhau trong
tập hợp.
Ký hiệu X là một véctơ cột, Xi là các thành phần của véctơ này.



X1


X =  ... 
Xn
Nếu các thành phần của véctơ cột là các biến ngẫu nhiên có phương sai xác
định (khơng q lớn tới vơ cực), thì ma trận hiệp phương sai (covariance matrix)
là một ma trận mà có thành phần (i, j) là hiệp phương sai (covariance):
ij

cov(Xi , Xj ) = E[(Xi − µi )(Xj − µj )]

(1.9)

trong đó
µi = E(Xi ) là giá trị kỳ vọng của thành phần thứ i của véctơ X .
Nói cách khác

(1.10)

1.4


Ma trận tương quan

Tương quan mẫu giữa các biến thứ j và k được định nghĩa theo (1.9):
sjk
sjk
rjk = √
=
(1.11)
sjj skk
sj sk
Ma trận tương quan mẫu tương tự như ma trận hiệp phương sai.

16





R = (rjk ) = 


1 r12
r21 1
..
..
.
.
rp1 rp2




. . . r1p
· · · r2p 

. . . .. 
. 
··· 1

Ma trận R đối xứng khi

rjk = rkj
Ma trận tương quan tổng thể được định

1
ρ
 21
Pρ = ρjk =  ..
 .
ρp1
với

ρjk =

nghĩa:

ρ12
1
..
.

ρp2

σjk
σj σ k

như (1.8)

17

. . . ρ1p
· · · ρ2p
. . . ...
··· 1








Chương 2

Mơ hình hồi quy tuyến tính đa biến
2.1

Phân tích tương quan tuyến tính (Linear Correlation)

Để hồi quy mơ hình thì cần tiến hành phân tích tương quan giữa các nhân
tố độc lập với nhân tố phụ thuộc. Từ đó chúng ta sẽ chọn những nhân tố độc

lập thực sự có tương quan với nhân tố phụ thuộc và đưa những nhân tố đó vào
phân tích hồi quy.
2.1.1

Đồ thị phân tán

Đồ thị phân tán của Y so với biến X là tập hợp tất cả các điểm có tọa độ
M (xi , yi ) trong hệ tọa độ vng góc. Dựa vào đồ thị phân tán ta có thể xác
định được dạng quan hệ giữa 2 biến Y và X .

Đồ thị phân tán
2.1.2

Hệ số tương quan của tập hợp chính (The Population Correlation Coefficient)

Gọi X, Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là µx , µy
và phương sai là σx2 , σy2 . Để đo lường mức độ quan hệ giữa X và Y người ta
dùng đại lượng hiệp phương sai (covariance) và hệ số tương quan (correlation
18


coefficient)
ã Hip phng sai (covariance)
N

(xi àx )(yi ày )

xy = cov (X, Y ) = E [(X − µx ) (Y − µy )] = i=1
N : số cặp giá trị quan sát.
• Hệ số tương quan (correlation coefficient) ρ =

Trong đó:
N

σx2

(xi −µx )

=

N

2

i=1

N

, σy2

(yi −µy )

=

N
cov(X,Y )
σx σy

=

σxy

σx σy

2

i=1

N

Khi đó, hệ số tương quan được tính lại như sau: ρ =

E[(X−µx )(Y −µy )]
2

E [(X−µx ) ]∗E [(Y −µy )

2

]

N

(xi −µx )(yi −µy )

hay ρ =

i=1
N

2


N

2

(yi −µy )

(xi −µx ) ∗
i=1

i=1

Tính chất của hệ số tương quan:
ρ = 1 : X, Y tương quan tuyến tính dương tuyệt đối.
ρ = −1 : X, Y tương quan tuyến tính âm tuyệt đối.
ρ = 0 : X, Y không tương quan tuyến tính.
2.1.3

Hệ số tương quan của mẫu
n

(xi −x)(yi −y)

• Hiệp phương sai của mẫu (Sample Covariance) SX,Y =

i=1

n−1

• Hệ số tương quan của mẫu (Sample Correlation Coefficient)
n


r=

SXY
SX SY

(xi −x)(yi −y)

=

i=1
n

2

n

(xi −x) ∗
i=1

(yi −y)

2

i=1

Tính chất:
• −1 ≤ r ≤ 1 : r được dùng để ước lượng hướng và độ mạnh của mối quan hệ
giữa X và Y.
• |r| > 0.8: Tương quan mạnh.

• |r| = 0.4 − 0.8 : Tương quan trung bình.
• |r| < 0.4: Tương quan yếu.
• |r| càng lớn thì tương quan giữa X và Y càng chặt.
• 0 < r ≤ 1 : Tương quan tuyến tính thuận.
• −1 < r ≤ 0 : Tương quan tuyến tính nghịch.

19


2.1.4

Kiểm định giả thuyết về ρ

Nếu chúng ta muốn kiểm định giả thuyết các biến khơng có tương quan
tuyến tính thì ta phải kiểm định giả thuyết H0 : ρ = 0.
a. Giả thuyết:

H0 : ρ = 0
(1)
H1 : ρ > 0

H0 : ρ = 0
(2)
H1 : ρ < 0

H0 : ρ = 0
(3)
H1 : ρ = 0

b. Kiểm định:


r

t=
(1 −

r2)

(2.1)

(n − 2)

Trong đó:
r : Hệ số tương quan mẫu.
n : Cỡ mẫu.
tn−1,α : Tuân theo luật phân phối Student với số bậc tự do là n − 2 , mức ý
nghĩa α.
c. Quyết định:
• Giả thuyết (1): Bác bỏ H0 nếu t > tn−2,α .
• Giả thuyết (2): Bác bỏ H0 nếu t < −tn−2,α
• Giả thuyết (3): Bác bỏ H0 nếu t > tn−2,α/2 hay t < −tn−2,α/2

2.2
2.2.1

Phân tích nhân tố
Mơ hình EFA

Trong EF A, mỗi biến đo lường được biễu diễn như là một tổ hợp tuyến tính
của các nhân tố cơ bản, cịn lượng biến thiên của mỗi biến đo lường được giải

thích bởi những nhân tố chung(common factor). Biến thiên chung của các biến
đo lường được mơ tả bằng một số ít các nhân tố chung cộng với một số nhân
tố đặc trưng(unique factor) cho mỗi biến. Nếu các biến đo lường được chuẩn
hóa thì mơ hình nhân tố được thể hiện bằng phương trình:

Xi = Ai1 ∗ F1 + Ai2 ∗ F2 + Ai3 ∗ F3 + ... + Aim ∗ Fm + Vi ∗ Ui
Trong đó,
Xi : biến đo lường thứ i đã được chuẩn hóa.
Aij : hệ số hồi qui bội đã được chuẩn hóa của nhân tố j đối với biến i.
20


F1 , F2 , ..., Fm : các nhân tố chung.
Vi : hệ số hồi qui chuẩn hóa của nhân tố đặc trưng i đối với biến i.
Ui : nhân tố đặc trưng của biến i.
Các nhân tố đặc trưng có tương quan với nhau và tương quan với các nhân
tố chung; mà bản thân các nhân tố chung cũng có thể được diễn tả như những
tổ hợp tuyến tính của các biến đo lường, điều này được thể hiện thơng qua mơ
hình sau đây:

Fi = Wi1 ∗ X1 + Wi2 ∗ X2 + Wi3 ∗ X3 + ... + Wik ∗ Xk
Trong đó,
Fi : ước lượng trị số của nhân tố i
Wi : quyền số hay trọng số nhân tố(weight or factor scores coefficient)
k : số biến
Trước khi kiểm định lý thuyết khoa học thì cần phải đánh giá độ tin cậy và giá
trị của thang đo. Trước tiên ta sử dụng phương pháp Cronbach Alpha dùng để
đánh giá độ tin cậy của thang đo.
2.2.2


-

Các bước thực hiện EFA

Có 5 bước chính:
Dữ liệu phù hợp để phân tích nhân tố khơng?
Làm thế nào các nhân tố được trích xuất?
Tiêu chí nào sẽ hỗ trợ trong việc xác định yếu tố khai thác?
Sử dụng phương pháp lựa chọn hay phương pháp quay.
Giải thích và ghi nhãn.

2.2.3

Kích thước mẫu

Để sử dụng EFA, chúng ta cần kích thước mẫu lớn, nhưng vấn đề xác định
kích thước mẫu phù hợp là việc phức tạp. Các nhà nghiên cứu thường dựa theo
theo kinh nghiệm. Trong EFA, kích thước mẫu thường được xác định dựa vào
“kích thước tối thiểu” và “số lượng biến đo lường đưa vào phân tích”, sau đây
là một vài ý kiến, đề nghị từ các chuyên gia về phân tích nhân tố, chúng ta có
thể xem xét:
i) Hồng Trọng và Chu Nguyễn Mộng Ngọc(2008), số lượng quan sát(cở mẫu)
ít nhất phải gấp 4 đến 5 lần số biến trong phân tích nhân tố.
ii) Hair et al. (2009) cho rằng để sử dụng EFA, kích thước mẫu tối thiểu phải
là 50, tốt hơn nên là 100.
21


2.2.4


Kiểm tra độ tin cậy thang đo bằng hệ số Cronbach’s alpha

Độ tin cậy của thang đo được đánh giá qua hệ số Cronbach’s Alpha. Sử dụng
phương pháp đánh giá độ tin cậy Cronbach’s Alpha trước khi phân tích nhân
tố khám phá (EFA) để loại các biến không phù hợp vì các biến rác này có thể
tạo ra các yếu tố giả.
Giả sử chúng ta đo lường độ tin cậy của 1 nhóm có tổng K các mục hỏi Y :

X = Y1 + Y2 + . . . + YK
Cơng thức hệ số Cronbach’s Alpha được tính như sau:

CA =

Kc
(v+(K−1)c)

Trong đó: v là giá trị trung bình các phương sai của mỗi mục hỏi, c là giá
trị trung bình của các hiệp phương sai giữa các mục hỏi.
Hệ số tin cậy Cronbach’s Alpha chỉ cho biết các đo lường có liên kết với nhau
hay khơng nhưng khơng cho biết biến quan sát nào cần bỏ đi và biến quan sát
nào cần giữ lại. Khi đó, việc tính tốn hệ số tương quan giữa biến - tổng sẽ
giúp loại ra những biến quan sát nào khơng đóng góp nhiều cho sự mơ tả của
khái niệm cần đo.
Các tiêu chí được sử dụng Cronbach’s Alpha:
• Loại các biến quan sát có hệ số tương quan biến - tổng nhỏ (nhỏ hơn 0,3);
tiêu chuẩn chọn thang đo khi có độ tin cậy Alpha lớn hơn 0,6 (Alpha càng lớn
thì độ tin cậy càng cao).
• Hệ số Cronbach’s Alpha (CA) được qui định các mức giá trị như sau:
- CA <0.6: Thang đo cho nhân tố là khơng phù hợp. Có thể do thiết kế bảng
câu hỏi chưa tốt hoặc dữ liệu thu được từ khảo sát có nhiều mẫu xấu.

- 0.6 < CA <0.7: Hệ số Cronbach’s Alpha đủ để thực hiện nghiên cứu mới.
- 0.7 < CA <0.8: Hệ số Cronbach’s Alpha đạt chuẩn cho bài nghiên cứu.
- 0.8 < CA <0.95: Hệ số Crobach’s Alpha rất tốt. Đây là kết quả từ bảng câu
hỏi được thiết kế trực quan, rõ ràng, phân nhóm tốt và mẫu tốt, khơng có mẫu
xấu.
- CA > 0.95: Hệ số Cronbach’s Alpha ảo do có hiện tượng trùng biến. Nguyên
nhân là thiết kế nội dung các câu hỏi trong cùng nhân tố cùng phản ánh một
vấn đề hoặc khơng có sự khác biệt về mặt ý nghĩa. Một nguyên nhân khác nữa
là mẫu giả.
Kế đến ta phân tích nhân tố.
Phân tích nhân tố (Factor Analysis, FA) là một phương pháp thống kê được
22


sử dụng để thu nhỏ và rút gọn dữ liệu. Nó thường hướng đến việc đơn giản hóa
một tập hợp các biến(variable) phức tạp ban đầu thành một tập các biến nhỏ
hơn dưới dạng các nhân tố (factor).
Phương pháp phân tích FA thường được sử dụng trong các trường hợp cơ
bản sau đây:
+ Để giảm một số lượng lớn các biến thành một số các nhân tố nhỏ hơn cho
các mục đích mơ hình hóa. Vì vậy, FA có thể được tích hợp vào mơ hình cấu
trúc tuyến tính (Structural Equation Modeling, SEM).
+ Để chọn một tập hợp nhỏ các biến từ một tập hợp lớn hơn dựa vào các biến
ban đầu, các biến mà có mối tương quan cao nhất.
+ Để tạo ra một tập hợp các nhân tố, mà tập hợp các nhân tố này được xem
như là các biến khơng có tương quan với nhau. Đây chính là một cách tiếp cận
để xử lý vấn đề đa cộng tuyến(multicollinearity) trong mơ hình hồi quy bội.
+ Để xác định tính hợp lệ của thang đo.
Phân tích nhân tố có 2 dạng cơ bản, đó là phân tích nhân tố khám phá
(Exploratory factor analysis, EFA) và phân tích nhân tố khẳng định (Confirmatory factor analysis, CFA)

+ Phân tích nhân tố khám phá (EFA)hướng đến việc khám phá ra cấu trúc cơ
bản của một tập hợp các biến có liên quan với nhau.
+ Phân tích nhân tố khẳng định(CFA) hướng đến việc xác định để xem số
lượng nhân tố và các biến đo lường trên các nhân tố đó có phù hợp với cái được
mong đợi trên nền tảng lý thuyết đã được thiết lập trước đó.
2.2.5

Điều kiện để áp dụng EFA

Mức độ tương quan giữa các biến đo lường

Phân tích EF A dựa trên cơ sở mối quan hệ giữa các biến đo lường, vì vậy,
trước khi quyết định sử dụng EFA, chúng ta cần xem xét mối quan hệ giữa
các biến đo lường này. Sử dụng ma trận hệ số tương quan(correlation matrix),
chúng ta có thể nhận biết được mức độ quan hệ giữa các biến. Nếu các hệ số
tương quan nhỏ hơn 0.30, khi đó sử dụng EFA không phù hợp(Hair et al. 2009)
Sau đây là một số tiêu chí đánh giá mối quan hệ giữa các biến:
i) Kiểm định Bartlett: Kiểm định Bartlett dùng để xem xét ma trận tương
quan có phải là ma trận đơn vị (identity matrix) hay không ? Ma trận đơn vị
ở đây được hiểu là ma trận có hệ số tương quan giữa các biến bằng 0, và hệ số
tương quan với chính nó bằng 1.
Kiểm định Bartlett có ý nghĩa thống kê (Sig. < 0.05): Đây là một đại lượng
23


thống kê dùng để xem xét giả thuyết các biến khơng có tương quan trong tổng
thể. Nếu kiểm định này có ý nghĩa thống kê (Sig. < 0.05) thì các biến quan sát
có mối tương quan với nhau trong tổng thể.
Phần trăm phương sai toàn bộ (Percentage of variance) > 50: Thể hiện phần
trăm biến thiên của các biến quan sát. Nghĩa là xem biến thiên là 100% thì giá

trị này cho biết phân tích nhân tố giải thích được bao nhiêu phần trăm.
ii) Kiểm định KMO: Kiểm định KMO(Kaiser – Meyer - Olkin) là chỉ số dùng
để so sánh độ lớn của hệ số tương quan giữa 2 biến Xi và Xj với hệ số tương
quan riêng phần của chúng. Để sử dụng EFA, thì KMO phải lớn hơn 0.5 theo
Kaiser (1974) đề nghị
- KMO >= 0.9: Rất tốt;
- 0.8 <= KMO < 0.9: Tốt;
- 0.7 <= KMO <0. 8: Được;
- 0.6 <= KMO <0. 7: Tạm được;
- 0.5 <= KMO <0. 6: Xấu;
- KMO <0.5: Không chấp nhận được
2.2.6

Hệ số tải nhân tố

Theo Hair và cộng sự (1998, trang 111), Factor loading (hệ số tải nhân tố
hay trọng số nhân tố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của EFA:
• Factor loading > 0.3 được xem là đạt mức tối thiểu
• Factor loading > 0.4 được xem là quan trọng
• Factor loading > 0.5 được xem là có ý nghĩa thực tiễn
2.2.7

Loại bỏ biến xấu

Quy tắc 1: đảm bảo độ giá trị hội tụ.
Như trong hình ví dụ ở trên. Các biến quan sát từ D1 đến D6 thỏa mãn giá
trị hội tụ khi nó cùng giải thích cho nhân tố thứ 1 và trong hiển thị nó sẽ nằm
chung trên 1 cột. Giá trị phân biệt ở đây chính là nhóm biến quan sát tải cho
nhân tố thứ 1 nó được tách biệt và không tải (hoặc tải rất yếu) cho nhân tố
thứ 2, thứ 3... Về mặt hiển thị, điều kiện tách biệt là việc các nhóm nhân tố

nằm ở khác cột với nhau trong bảng ma trận xoay. Do đó phải loại biến này ra
và tiến hành phân tích EF A lại lần thứ 2.
Quy tắc 2: đảm bảo độ giá trị phân biệt. Trường hợp một biến quan sát tải
lên cả 2 nhân tố như trong hình (biến A7). Để đảm bảo "giá trị phân biệt"

24


thì các hệ số tải của cùng biến quan sát đó khi tải lên các nhân tố phải chênh
nhau 0.3 thì lúc đó chúng ta sẽ giữ lại biến quan sát này và phân nó vào nhân
tố mà nó tải lên cao nhất (kèm điều kiện phải thỏa mãn hệ số tải lớn hơn 0.5).
Đối với trường hợp ngược lại khi hệ số tải của một biến ở 2 nhân tố chênh lệch
nhau khơng nhiều thì bạn cân nhắc loại biến này đi vì nó khơng thỏa việc đảm
bảo "giá trị phân biệt".

2.3

Hồi quy tuyến tính đa biến

Hồi quy tuyến tính đa biến là kỹ thuật thống kê phân tích mối quan hệ giữa
một biến phụ thuộc và một tập các biến độc lập.
Hồi quy tuyến tính đa biến được sử dụng nhằm đạt 3 mục tiêu:
• Tìm một mơ hình (phương trình) để mơ tả mối liên quan giữa biến phụ thuộc
và nhiều biến độc lập.
• Kiểm sốt các nhân tố gây "nhiễu" để đánh giá sự đóng góp của một biến
đặc biệt, tập các biến hay xác định các mối quan hệ khơng phụ thuộc.
• Tiên lượng.
2.3.1

Hàm hồi quy tổng thể


Hàm hồi quy tổng thể trong trường hợp k biến có dạng:
25


×