Tải bản đầy đủ (.pdf) (57 trang)

Phân tích nhân tố với dữ liệu có thứ bậc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.79 MB, 57 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐẶNG THỊ PHƯƠNG ANH

PHÂN TÍCH NHÂN TỐ
VỚI DỮ LIỆU CÓ THỨ BẬC

LUẬN VĂN THẠC SĨ TOÁN HỌC

HÀ NỘI - 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐẶNG THỊ PHƯƠNG ANH

PHÂN TÍCH NHÂN TỐ
VỚI DỮ LIỆU CÓ THỨ BẬC

LUẬN VĂN THẠC SĨ TOÁN HỌC
Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số: 60460106

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. TRỊNH QUỐC ANH

HÀ NỘI - 2017



LỜI CẢM ƠN
Trước khi trình bày nội dung chính của luận văn, em xin bày tỏ lòng biết ơn
sâu sắc tới TS. Trịnh Quốc Anh người đã tận tình hướng dẫn để em có thể hoàn
thành luận văn này.
Em cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo
trong khoa Toán - Cơ - Tin học, Trường Đại học Khoa Học Tự Nhiên, Đại Học
Quốc Gia Hà Nội đã dạy bảo em tận tình trong suốt quá trình học tập tại khoa.
Nhân dịp này em cũng xin được gửi lời cảm ơn chân thành tới gia đình, cơ
quan Nhà xuất bản Đại học Quốc gia Hà Nội, đồng nghiệp bạn bè đã luôn bên
em, cổ vũ, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện luân
văn tốt nghiệp.
Hà Nội, ngày 6 tháng 06 năm 2017
Học viên

Đặng Thị Phương Anh

1


Mục lục
1 Phân tích nhân tố khám phá EFA
1.1 Xác định nhân tố (factor extration) . . . . . . . . . . . . . . . . . .
1.2 Lựa chọn nhân tố (factor section) . . . . . . . . . . . . . . . . . . . .
1.3 Phép xoay nhân tố (factor rotation) . . . . . . . . . . . . . . . . . .

5
6
8
13


2 Phân tích nhân tố khẳng định CFA
2.1 Giới thiệu về CFA . . . . . . . . . . . . . . . . . . . .
2.2 So sánh CFA và EFA . . . . . . . . . . . . . . . . . .
2.3 Mục đích và ưu điểm của CFA . . . . . . . . . . . . .
2.4 Nhận dạng thống kê . . . . . . . . . . . . . . . . . . .
2.5 Ước lượng tham số của mô hình CFA . . . . . . . . .
2.5.1 Phương pháp ước lượng hợp lý cực đại . . . .
2.6 Các bước tiến hành CFA . . . . . . . . . . . . . . . .
2.6.1 Xác định cấu trúc thành phần . . . . . . . .
2.6.2 Xây dựng mô hình đo lường tổng quát . . . .
2.7 Thiết kế một nghiên cứu cụ thể . . . . . . . . . . . .
2.7.1 Các thang đo trong CFA . . . . . . . . . . . .
2.7.2 Đánh giá tính giá trị của mô hình đo lường .
2.8 Đánh giá sự phù hợp (Assessing fit) . . . . . . . . .
2.9 Ước lượng các tác động (path estimates) . . . . . . .
2.10 Tính giá trị cấu trúc (Construct Validity) . . . . . .
2.10.1 Giá trị tương đồng (Convergent Validity) . .
2.10.2 Giá trị dị biệt (Discriminant validity) . . . .
2.10.3 Chẩn đoán mô hình (Model diagnostics) . . .
2.10.4 Số dư chuẩn hoá (Standardized Residuals) .
2.10.5 Các chỉ số điều chỉnh (Modification indices)

19
19
21
24
25
27
27
28

28
29
35
35
37
38
38
38
39
39
39
39
40

3 Thực hành chạy EFA và CFA trên
tế
3.1 Dữ liệu tiến hành phân tích . . .
3.2 Sử dụng EFA trên SPSS . . . . .
3.3 Sử dụng CFA trên AMOS . . . .
3.3.1 Cải thiện mô hình . . . .
3.3.2 Model Fit . . . . . . . . .
3.4 Mô hình SEM . . . . . . . . . . .
3.4.1 Dữ liệu Yên Bái . . . . . .
1

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.

SPSS và Amos với dữ liệu thực
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.

.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.

.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.

.
.
.
.
.
.

.
.
.
.
.
.
.

41
41
41
45
46
47
49
49


3.4.2

Phân tích đa nhóm . . . . . . . . . . . . . . . . . . . . . . . .

2


49


Lời mở đầu
Kể từ khi ra đời hơn một thế kỷ trước, phân tích nhân tố trở thành một trong
những phương pháp thống kê nhiều chiều được sử dụng phổ biến nhất nhằm áp
dụng để nghiên cứu số các lĩnh vực (ví dụ như tâm lý học, giáo dục, xã hội học,
quản lý, khoa học chính trị, y tế công cộng). Mục đích cơ bản của phân tích nhân tố
là xác định được lượng và chất của các biến ẩn. Biến ẩn được ám chỉ bởi hiệp tương
quan giữa hai hay nhiều biến quan sát hoặc các nhân tố giải thích cho phương sai,
hiệp phương sai trong một nhóm các quan sát, thường được gọi là chỉ số. Cụ thể
một nhân tố không thể quan sát được ảnh hưởng hơn biến quan sát được và nó
giải thích cho mối tương quan giữa các biến quan sát được. Nói cách khác, các biến
đo lường được tương quan vì nó chia sẻ tác nhân chung (tức là nó bị ảnh hưởng
cấu trúc cơ bản giống nhau). Như vậy phân tích nhân tố cố gắng thu gọn độ tương
quan giữa các chỉ số bởi vì số lượng các yếu tố là ít hơn số biến quan sát trực tiếp.
Các khái niệm này bắt nguồn từ Mô hình nhân tố chung (Thurstone, 1947).
Trong đó, mặc định rằng các chỉ số của các biến đo lường được là một hàm tuyến
tính của một hay nhiều nhân tố chung và một nhân tố riêng. Như vậy phân tích
nhân tố phân vùng phương sai của mỗi chỉ số thành hai loại: (1) Phương sai chung
hoặc các phương sai cho bởi các nhân tố, được ước lượng trên căn cứ của phương
sai đã chia sẻ với các chỉ số khác trong phân tích; (2) Phương sai riêng, tức là sự
kết hợp giữa phương sai tin cậy (reliable variance) – các chỉ số cụ thể (các yếu tố
ảnh hướng tới chỉ số) với sai số ngẫu nhiên phương sai (random error variance). Có
hai loại chính của phân tích nhân tố chung: Phân tích nhân tố khám phá (EFA)
và phân tích nhân tố khẳng định (CFA) (J¨oreskog, 1969, 1971a). Cả EFA và CFE
đều nhằm tái hiện lại sự liên quan của các quan sát với tập nhỏ nhất các biến ẩn,
nhưng chúng khác nhau về cơ bản bởi lượng và chất của mô hình tiên nghiệm và
sự hạn chế bởi mô hình nhân tố.

Theo đó, EFA thường được sử dụng trước đó để phát triển mô hình còn CFA
được sử dụng sau khi đã xây dựng cấu trúc, được thành lập thực nghiệm với EFA
và cơ sở lý thuyết.
Luận văn gồm những khái niệm, thuật ngữ cơ bản và ví dụ về phân tích nhân
tố EFA và CFA. Bố cục của luận văn bao gồm 3 chương:
• Chương 1 của luận văn trình bày về phân tích nhân tố khám phá EFA.
• Chương 2 của luận văn tập trung trình bày phân tích nhân tố khẳng định

CFA.
• Chương 3 thực hành chạy EFA và CFA trên hai phần mềm là SPSS và Amos

với dữ liệu thực tế.
3


Do thời gian thực hiện luận văn không nhiều, kiến thức còn hạn chế nên khi làm
luận văn không tránh khỏi những hạn chế và sai sót. Tác giả mong nhận được sự
góp ý và những ý kiến phản biện của quý thầy cô và bạn đọc. Xin chân thành cảm
ơn!
Hà Nội, ngày 6 tháng 05 năm 2017
Học viên

Đặng Thị Phương Anh

4


Chương 1
Phân tích nhân tố khám phá EFA
Trong chương này, các mô hình nhân tố được đề cập chủ yếu trong khuôn khổ

của EFA. Tuy nhiên, hầu hết các thuật ngữ được sử dụng của EFA cũng được sử
dụng tương tự trong CFA. Trong nghiên cứu ứng dụng, CFA và EFA thường được
tiến hành cùng với nhau. Ví dụ, CFA thường được sử dụng trong giai đoạn sau của
việc xây dựng mô hình nhằm kiểm tra, xác định độ hợp lý và phù hợp của số liệu
với mô hình. Còn EFA giúp khảo sát, tìm đặc trưng của số liệu nhằm xây dựng
mô hình. Như vậy muốn nghiên cứu và áp dụng CFA, ta phải hiểu rõ được EFA.
Phương pháp tiến hành EFA được trình bày trong chương này. Tổng quan so sánh
chi tiết hơn về EFA và CFA sẽ được đề cập ở chương sau.
EFA là một kỹ thuật để thăm dò hoặc mô tả lượng phù hợp các nhân tố chung
và để phát hiện ra các biến đo được mà là chỉ số hợp lý của các biến không trực
tiếp quan sát, nhưng chúng ta giả định để tồn tại (có ít nhất ý nghĩa nào đó) để
giải thích mô hình của sự biến đổi các biến quan sát. Ví dụ, trong nghiên cứu tính
cách chúng ta có thể cho ai đó một bộ câu hỏi bao gồm 30 câu hỏi về mối quan hệ
của cá nhân họ, đời sống xã hội,... Tại các mức cụ thể nhất, điều này cho chúng
ta kết quả mỗi người với trên 30 chiều riêng biệt. Tuy nhiên, chúng ta có thể tóm
thành hai biến tiềm ẩn "hướng nội / hướng ngoại" có thể cho ra nhiều sự thay đổi
có hệ thống mà lấy trên 30 tham số quan sát. Tóm lại, phương pháp phân tích
nhân tố EFA thuộc nhóm phân tích đa biến phụ thuộc lẫn nhau (interdependence
techniques), nghĩa là không có biến phụ thuộc và biến độc lập mà nó dựa vào mối
tương quan giữa các biến với nhau (interrelationships). EFA dùng để rút gọn một
tập k biến quan sát thành một tập F (F < k) các nhân tố có ý nghĩa hơn. Cơ sở
của việc rút gọn này dựa vào mối quan hệ tuyến tính của các nhân tố với các biến
nguyên thủy (biến quan sát).
Như đã nêu trên, mục tiêu của EFA là để đánh giá chiều của một tập hợp
nhiều chỉ số (ví dụ các mục từ một bảng hỏi) bằng cách khám phá nhân tố sáng
tỏ cần thiết để giải thích các mối tương quan giữa chúng. Trong khi đó, các nhà
5


nghiên cứu cuối cùng phải ghi rõ số yếu tố phân tích bởi vì không có một hạn chế

ban đầu cho các mô hình của các mối quan hệ giữa biến quan sát và biến tiềm ẩn.
Đây là sự khác biệt quan trọng giữa CFA và EFA. Trong CFA, nhà nghiên cứu
phải xác định một số yếu tố quan trọng của mô hình yếu tố (ví dụ, số nhân tố,
mô hình chỉ số nhân tố tải trọng). . . Sau khi xác định rằng EFA là kỹ thuật phân
tích thích hợp nhất cho câu hỏi thực nghiệm bằng tay. Các nhà nghiên cứu phải
quyết định các chỉ số đưa vào phân tích, xác định kích thước và tính chất của mẫu
không phù hợp cho phân tích. Các bước của EFA bao gồm:
Bước 1: Tính ma trận các mối liên quan cho tất cả các biến (correlation
matrix).
- Tạo correlation matrix cho tất cả các biến.
- Xác định các biến mà không có liên quan với biến khác.
- Trong trường hợp mối liên quan giữa các biến nhỏ, chúng có thể không chung
một nhân tố.
- Kiểm định Kaiser-Meyer-Olkin (KMO).
- Kiểm định Bartlett test of Sphericity.
Lưu ý: KMO là một chỉ tiêu để xem xét sự phù hợp cho việc phân tích EFA. (
0.5< KMO <1 là tốt). Kiểm định Bartlett xem xét giả thuyết Ho: Độ tương quan
giữa các biến số quan sát bằng 0. Nếu kiểm định này có ý nghĩa thống kê ( sig
<0.05) thì các biến có tương quan với nhau trong tổng thể.
Bước 2: Xác định nhân tố. - Sử dụng một số công cụ ước lượng như Phân
tích thành phần chính hoặc Maximum likelihood. Trong SPSS, phương pháp phân
tích thành phần chính được sử dụng, đây là phức hợp giải thích được nhiều biến
thiên nhất trong quần thể, sau đó giảm dần ở nhân tố thứ 2, 3... Để xác định giữ
lại bao nhiêu nhân tố, căn cứ vào 2 yếu tố: Eigen values > 1 và The Scree plot.
Bước 3:Xoay nhân tố - Factor rotation (có nhiều phương pháp đề xoay nhân
tố, tuỳ theo điều kiện gạn lọc dữ liệu mà chúng ta có thể áp dụng).
- Phương pháp varimax rotations là phương pháp phổ biến hiện nay.
- Chọn các nhân tố có trị số lớn nhất và nhóm chúng lại.
Bước 4: Đặt tên nhân tố.


1.1

Xác định nhân tố (factor extration)

Có rất nhiều phương pháp có thể sử dụng để ước lượng mô hình nhân tố
chung, chẳng hạn như Khả năng tối đa (Maximum likehood; ML), Trọng số bình
phương tối thiểu. . . Ở đây ta quan tâm tới phương pháp phân tích thành phần
chính PCA (Principal Component Analysis) vì nó được sử dụng phổ biến trong
nghiên cứu xác định tập đầu tiên của tải trọng, nó cũng được sử dụng như phân
6


tích bước nền cho các phân tích sâu hơn như các phân tích hồi qui hay sử dụng
cho các mô hình SEM. SPSS sử dụng phương pháp PCA (principal components
analysis), thường xuyên bị nhầm lẫn là phương pháp ước lượng của phân tích nhân
tố chung. Không giống như các ước lượng ML và PF. PCA dựa trên một tập hợp
khác nhau của phương pháp định lượng mà không dựa trên mô hình chung. PCA
không phân biệt sai số chung và sai số riêng. Thay vào đó, PCA nhằm giải thích
phương sai cho các biến quan sát hơn là giải thích các mối tương quan giữa chúng.
Như vậy PCA là một cách thích hợp được sử dụng như một kỹ thuật nén dữ liệu
để giảm bớt, thu nhỏ một tập quan sát để quản lý và sử dụng trong phân tích tiếp
theo.
Cho bảng


x11 x12
 x21 x22

 ... ...
xn1 xn2




... x1p
... x2p 

... ... 
... xnp

Trong đó xij là giá trị các biến quan sát Xj , j = 1, p, nhận các giá trị i = 1, n.
Khi đó ta có một tập điểm n trên không gian Rp , trong đó điểm xi có toạ độ
xi = (xi1 , xi2 , xi3 , . . . , xip ), i = 1, n và gọi là điểm – các thể i. Không gian Rp là các
không gian cá thể. Tương tự ta có không gian Rn các điểm – biến, trong đó ta có
p điểm biến Xj = (x1j , x2j , x3j , . . . , xnj ), j = 1, p. Điều này có nghĩa là trong bảng số
liệu, các cột là các biến và các dòng là các cá thể, trên đó đo giá trị các biến.
Mục đích của phân tích thành phần chính là giảm kích cỡ số liệu và đưa ra
thông tin quan trọng trong bảng số liệu bằng cách xây dựng một biểu diễn đơn
giản hơn sao cho đám mây số liệu được hiển thị rõ ràng nhất. Cụ thể hơn, phân
tích thành phần chính tức là đi tìm những trục phản ảnh tốt nhất đám mây số
liệu. Việc tìm các thành phần chính (trục chính) được thực hiện một cách trực
quan như sau: Tìm trục chính thứ nhất là trục mà tương quan nhỏ nhất, tức là
đường thẳng qua tâm gần đám mây điểm nhất. Trục chính thứ hai là trục qua tâm
trực giao với trục chính thứ nhất và tương quan của đám mây theo nó là nhỏ nhất.
Trục chính thứ ba là trục qua tâm, trực giao với hai trục chính thứ nhất và thứ
hai và gần đám mây nhất sau hai trục trên. Tiếp tục như vậy đến bước thứ q ta
được một hệ q vectơ trực giao tạo thành siêu phẳng q chiều mà đám mây thể hiện
trên đó là rõ nhất. Tuy nhiên trong thực tế, khi đã tìm được một số trục chính có
tỉ lệ đóng góp tương đối tốt, có thể dừng lại để quan sát. Cách tìm các trục tọa độ
được phân tích xây dựng.
Trong EFA, PCA được sử dụng để tìm giá trị của tải trọng mà tổng ước lượng

chung càng gần so với tổng các phương sai quan sát càng tốt.
7


Hình 1.1.1: PCA tìm trục cho không gian mới sao cho nó biểu diễn tốt nhất mức độ biến
thiên của dữ liệu.

1.2

Lựa chọn nhân tố (factor section)

Tiếp theo, phân tích nhân tố được chạy với các phương pháp ước lượng được
lựa chọn (ví dụ ML, PF). Kết quả phân tích ban đầu được sử dụng để xác định số
lượng thích hợp các yếu tố để tách ra trong các phân tích tiếp theo. Điều này được
coi là quan trọng nhất của EFA. Bởi vì underfactoring (chọn quá ít các nhân tố)
và overfactoring (chọn quá nhiều các nhân tố). Có thể gây ra ảnh hưởng đến mô
hình cuối cùng hay có thể tạo ra lỗi đáng kể trong việc xác định hệ số tải trọng.
Mặc dù một số nghiên cứu cho thấy hậu quả của overfactoring ít nghiêm trọng
hơn underfactoring (cf. Fabrigar et al., 1999).
Trên thực tế, EFA là một kỹ thuật khám phá hoặc miêu tả một cách tự nhiên,
các kết quả về việc đưa ra số lượng thích hợp các nhân tố được thực hiện bởi những
cân nhắc độc lập. Số lượng các yếu tố (m) có thể được lấy ra bởi EFA là được giới
hạn bởi các biện pháp quan sát (p) của nghiên cứu. Các giới hạn trên của số các
nhân tố thay đổi thông qua kỹ thuật ước lượng.
Ví dụ minh họa một số khái niệm quan trọng của mô hình nhân tố chung.
Trong ví dụ cơ bản này, bốn loại quan sát hành vi (O1-O4) đã được thu thập trên
300 cá nhân được ghi nhận ở khoa thần kinh của một bệnh viện. Bốn nhân tố là
Vô vọng (O1), Cảm giác vô dụng / tội lỗi (O2), Tâm thần chậm phát triển (O3)
và Rối loạn giấc ngủ (O4).
Bảng 2.1 là tương quan của bốn nhân tố. Phỏng đoán rằng mỗi nhân tố là

một chỉ số biểu hiện tiềm ẩn của bệnh trầm cảm. Đó là, mỗi triệu chứng quan
sát được (ví dụ: sự tuyệt vọng, vô dụng) có ảnh hưởng đến việc chia sẻ các khủng
hoảng, chỉ có biến tiềm ẩn (yếu tố) mới giải thích cho sự tương quan của các phần
tử trong những quan sát. Có duy nhất một lý do cho các chỉ số tương quan là họ
chia sẻ những nguyên nhân phổ biến của trầm cảm; nếu biến tiềm tàng này được
loại bỏ, không có mối quan hệ giữa các chỉ số này được nhìn thấy.
Trong EFA sử dụng PF (Principal factor), số lượng tối đa các yếu tố được
8


để lấy được p − 1. Trong ML (Maximum likelihood), EFA số lượng các yếu tố đầu
vào trong mối tương quan ma trận hiệp phương sai (a) phải bằng hoặc lớn hơn số
lượng tham số được ước tính trong nhân tố giải pháp (b). Số lượng các nhân tố
(m) tăng thìtham số ước tính (b) trong nhân tố giải pháp cũng tăng lên. Thực tế
số lượng tối đa các nhân tố là giới hạn toán học bởi dữ liệu đầu vào và có thể khó
hiểu với ML để phân tích. Đó là dữ liệu có thể không hỗ trợ khai thác các yếu tố
được thừa nhận để tồn tại trên cơ sở khái niệm. Ví dụ, bởi vì có 4 biện pháp quan
sát (p = 4) có liên quan, nó có thể trích ra chỉ một nhân tố (m = 1) trong EFA.
Mặc dù 2 nhân tố có thể khả thi. Ví dụ, cơ thể trầm cảm: O1 , O2 ; tâm thần trầm
cảm: O3 , O4 . Các tham số được kết hợp với 2 nhân tố mô hình (b) sẽ phóng đại số
của các mẩu thông tin trong đầu vào ma trận tương quan (a). Đồng thời a và b có
thể dễ dàng tính toán qua phương trình sau đây:
a = [p ∗ (p + 1)]/2
b = (p ∗ m) + [m ∗ (m + 1)]/2) + p − m2

Trong đó p là số biến quan sát (chỉ số) và m là số lượng các yếu tố. Giải quyết
một chỉ số chỉ ra rằng ma trận đầu vào gồm 10 mẩu thông tin (xem Bảng 2.1)
tương ứng với 6 mối tương quan trong số các phần tử còn lại ngoài đường chéo
chính và 4 phương sai chuẩn hóa trên đường chéo. Đó là a = (4.5)/2 = 10. Giải cho
b (khi m = 1) chỉ ra rằng có 8 thông số ước tính cho một nhân tố giải pháp, đó là

b = (4 ∗ 1) + [(1 ∗ 2)/2] + 4 − 1 = 4 + 1 + 4 − 1 = 8. Bởi vì số lượng các yếu tố của ma
trận đầu vào (a = 10) lớn hơn số ước lượng tham số (b = 8), một yếu tố duy nhất
có thể trích ra từ dữ liệu. Tuy nhiên, hai nhân tố không thể trích ra vì số lượng
tham số để được ước tính trong mô hình này vượt quá số phần tử của ma trận đầu
vào, đó là b = (4 ∗ 2) + [(2 ∗ 3)/2] + 4 − 4 = 8 + 3 + 4 − 4 = 11. Mỗi thành phần của
phương trình được sử dụng để giải quyết cho b tương ứng với các thông số cụ thể
và hạn chế toán học trong mô hình EFA.
9


Thành phần đầu tiên, (p ∗ m), cho biết số hệ số tải trọng Λy . Thành phần thứ
hai, ([m ∗ (m + 1)]/2), cho biết số phương sai nhân tố và hiệp phương sai ψ . Thành
phần thứ ba, p, tương ứng với số dư phương sai còn lại θ, . Cuối cùng, m2 phản ánh
số lượng giới hạn được yêu cầu để xác định mô hình EFA. Ví dụ, như mô tả trong
một mô hình có 4 nhân tố tải trọng (p ∗ m), 1 yếu tố phương sai ([m ∗ (m + 1)]/2),
và 4 chỉ số dư (p); Tuy nhiên, để xác định mục đích, phương sai nhân tố được cố
định 1.0 (m2 = 12 = 1) và do đó mô hình chứa các thông số ước tính. Giải pháp
hai – nhân tố sẽ kéo theo 8 nhân tố tải trọng (4 ∗ 2), 2 yếu tố phương sai và 1 nhân
tố hiệp phương sai, [(2 ∗ 3)/2], và 4 chênh lệch còn lại (tổng số các tham số = 15).
Sau khi trừ đi các hạn chế xác định (m2 = 22 = 4; 15 − 4 = 11), số lượng các tham
số được ước tính trong mô hình hai nhân tố (b = 11) vẫn vượt quá các mảnh trong
mô hình hai – nhân tố (b = 11) vẫn vượt quá các nhân tố trong ma trận đầu vào
(a = 10). Như vậy hai nhân tố không thể được chiết xuất từ các dữ liệu ML khi
p = 4.
Đoạn trước đã thảo luận về các giá trị riêng (ví dụ 2, 579) có nguồn gốc từ
ma trận giảm tương quan (Rr) được xây dựng bởi các giải pháp EFA. Như vậy giá
trị riêng hướng dẫn quy trình lựa chọn nhân tố bằng cách truyền tải nhân tố giải
thích một phần đáng kể của tổng phương sai trong những biện pháp quan sát. Ba
giải pháp lựa chọn được sử dụng phổ biên được xây dựng trên cơ sở giá trị riêng.
Ba nhân tố lựa chọn đó là: (1) Qui tắc Kaiser-Guttman, (2) kiểm tra Scree, và (3)

phân tích song song. Quy tắc Kaiser-Guttman (hay còn gọi là các tiêu chí Kaiser
hoặc giá trị riêng > 1.0) quy tắc rất đơn giản: (1) có những giá trị riêng có nguồn
gốc từ các ma trận tương quan đầu vào R (như ghi chú của Fabrigar et al., 1999,
các nhà nghiên cứu thường xuyên mắc sau lầm khi sử dụng giá trị riêng của ma
trận tương quan đầu vào thu gọn, Rr); (2) xác định có bao nhiêu giá trị riêng lớn
hơn 1.0; (3) sử dụng con số này để xác định số lượng kích thước tiềm ẩn không tầm
thường mà tồn tại dữ liệu đầu vào. Nhắc lại rằng giá trị riêng đại diện cho phương
sai và EFA chuẩn hóa cả biến ẩn và biến quan sát. Như vậy, bởi vì mục tiêu của
EFA là giảm một tập hợp các chỉ tiêu đầu vào (số lượng các nhân tố nhận được
nhỏ hơn số lượng các chỉ số đầu vào), nếu một giá trị riêng ít hơn 1.0, sau đó các
nhân tố giải thích tương ứng cho phương sai ít hơn các chỉ số (mà đúng bằng 1, 0).
Qui tắc Kaiser – Guttman có sự hấp dẫn lớn (và trong thực tế là mặc định trong
phần mềm thống kê như SPSS) vì nó đơn giản và khách quan. Tuy nhiên, nhiều
phương pháp luận đã chỉ trích thủ tục này bởi vì nó có thể dẫn đến overf actoring
hoặc underf actoring , và bởi vì bản chất nó hơi độc đoán.
Một phương pháp phổ biến khác được gọi là thử nghiệm Scree (Cattell, 1966),
cũng sử dụng các giá trị riêng có thể được lấy từ đầu vào hoặc ma trận tương quan
thu gọn. Để cung cấp một minh họa thực tế hơn về phương pháp này, một tập hợp
10


dữ liệu lớn hơn được sử dụng (p = 20). Trong hình 12.1, các thử nghiệm Scree sử
dụng một đồ thị trong có các giá trị riêng hình thành trục dọc và các nhân tố hình
thành trục ngang. Đồ thị được kiểm tra để xác định sự suy giảm đáng kể cuối cùng
trong biên độ của trị riêng hoặc điểm, nơi đường vẽ thông qua các giá trị riêng biểu
thị sự thay đổi độ dốc. Một hạn chế của việc này các tiếp cận là các kết quả của
các thử nghiệm Scree có thể khá mơ hồ (ví dụ không có rõ ràng về việc hay đổi về
độ dốc) và mở để giải thích chủ quan. Điều này thể hiện rõ trong hình 1.3, nơi mà
các kết quả có thể được hiểu như là một trong 4 hoặc 5 nhân tố giải pháp. Tuy
nhiên, như ghi nhận của Gorsuch (1983), các thử nghiệm Scree thực hiện khá tốt

dưới điều kiện khi khích thước mẫu lớn và được xác định rõ yếu tố có mặt trong
các dữ liệu (tức là, các yếu tố xác định bởi nhiều mục đích và tính chung cao).
Một phương pháp dựa vào giá trị riêng khác cho việc hướng dẫn lựa chọn nhân
tố là Phân tích song song (Horn, 1965; Humphreys và Montanelli, 1975). Phương
pháp này dựa trên thử nghiệm Scree của các giá trị riêng thu được từ dữ liệu mẫu
với giá trị riêng được ước tính từ một tập dữ liệu các số ngẫu nhiên (tức là, ý nghĩa
của các giá trị riêng được sinh ra bởi nhiều tập dữ liệu hoàn toàn ngẫu nhiên). Vẽ
đường hiển thị giá trị riêng của dữ liệu ngẫu nhiên và dữ liệu quan sát, số nhân
tố lựa chọn phụ thuộc vào điểm giao nhau của hai đường. Lựa chọn nhân tố được
hướng dẫn bởi số lượng các giá trị riêng thực lớn hơn các giá trị riêng được tạo ra
từ dữ liệu ngẫu nhiên; có nghĩa là, nếu các nhân tố "thật" giải thích ít phương sai
hơn nhân tố tương ứng thu được từ các số ngẫu nhiên, không nên đưa vào phân
tích nhân tố. Các phân tích song song đề cập đến thực tế rằng tập hợp dữ liệu
ngẫu nhiên (s) nên song song với các khía cạnh của các dữ liệu nghiên cứu thực tế
(ví dụ kích thước, số lượng các chỉ số).

Hình 1.2.1: Thử nghiệm Scree các giá trị riêng của ma trận tương quan. Mũi tên chỉ nơi
độ dốc thay đổi của đường cong
11


Mặc dù phân tích song song thường thực hiện tốt nhưng hạn chế của thủ tục
này là nó không phải là có sẵn trong phần mềm thống kê phổ biến như SAS và
SPSS, tuy nhiên phân tích song song được lựa chọn trong Mplus và chương trình
phần mềm Stata, và trong các chương trình phần mềm chia sẻ khác nhau được tìm
thấy trên Internet (ví dụ, O’Connor, 2001). Ngoài ra, Hayton, Allen, và Scarpello
(2004) đã cung cấp cú pháp để tiến hành phân tích song song trong SPSS, mặc dù
người sử dụng phải lưu lại và lấy tổng giá trị riêng được tạo ra từ dữ liệu ngẫu nhiên
bên ngoài của SPSS. Như đã nói ở trên, khi một thủ tục ước lượng nhân tố khác
là ML được sử dụng, các thủ tục giá trị riêng dựa vào quy tắc Kaiser-Guttman,

các thử nghiệm Scree, và phân tích song song có thể được sử dụng để hỗ trợ trong
việc lựa chọn nhân tố.

Hình 1.2.2: Phân tích song song sử dụng các giá trị riêng từ nghiên cứu và dữ liệu ngẫu
nhiên, trung bình của 50 lần lặp. Mũi tên chỉ ra rằng giá trị riêng từ dữ liệu ngẫu nhiên
vượt quá giá trị riêng từ dữ liệu nghiên cứu sau nhân tố thứ tư

Lưu ý:
- Độ dốc cho thấy các factor lớn.
- Khi hết độ dốc, thường các factor còn lại có giá trị Eigen < 1.
- Ngoài các thử nghiệm thống kê, cần dựa vào thực tế và mục đích bài nghiên
cứu.
- Giai đoạn này chưa thể kết luận số lượng nhân tố.

12


1.3

Phép xoay nhân tố (factor rotation)

Hệ số tải trọng không duy nhất, đầu tiên ta xem xét ví dụ sau:
Sinh viên trước tham gia chương trình MBA phải học ba khóa bắt buộc là
Tài chính, Tiếp thị và chính sách kinh doanh. Y1 , Y2 ,Y3 đại diện cho ba khóa này.
Các dữ liệu lấy từ năm sinh viên ( trên thang điểm 10):

Sinh viên
1
2
3

4
5

Tài chính
3
7
10
3
10

Tiếp thị
6
3
9
9
6

Chính sách kinh doanh
5
3
8
7
5

Mô hình tuyến tính giữa biến quan sát (Yi ) và nhân tố (Fi ):
Y1 = β10 + β11 F1 + β12 F2 + e1
Y2 = β20 + β21 F1 + β22 F2 + e2
Y3 = β30 + β31 F1 + β32 F2 + e3

Trong đó βi là tải trọng, ei sai số (trong trường hợp giả thuyết các mối quan

hệ không chính xác). Ta xét một mô hình A sau đây:
Y1 = 0, 5F1 + 0, 5F2 + e1
Y1 = 0, 3F1 + 0, 3F2 + e2
Y1 = 0, 5F1 − 0, 5F2 + e3

0.5 + σ 2
0.3
0
 0, 3
0.8 + σ 2
0 
0
0
0.5 + σ 2





Ví dụ: V ar(Y 1) = (0, 5)2 + (0, 5)2 + σ 2 = 0, 5 + σ 2 ; Cov(Y1 , Y2 ) = (0, 5)(0, 3) +
(0, 5)(0, 3) = 0, 3.
Tiếp theo ta xem xét mô hình B, một tập βij khác:
13



Y1 = ( 2/2)F1 + 0F2 + e1

Y1 = (0, 3 2)F1 + 0, 3F2 + e2


Y1 = 0F1 − ( 2/2)F2 + e3

Một lần nữa ta có thể dễ dàng xác nhận các phương sai, hiệp phương sai

lý thuyết giống hệt với mô hình A. Ví dụ: V ar(Y1 ) = ( 2/2)2 + 02 = 0, 5 + σ 2 ;


Cov(Y1 , Y2 ) = ( 2/2)(0, 3 2) + (0)(0) = 0.3

Khảo sát tại bảng dưới đây, dọc theo trục ngang chúng ta vẽ đồ thị các hệ
số của F1 và trục dọc là các hệ số của F 2 cho mỗi phương trình của mô hình A.
Các hệ số của F1 và F2 trong phương trình đầu tiên được biểu diễn như là điểm
có tọa độ (0, 5; 0, 5), những điểm của phương trình thứ hai là (0, 3; 0, 3) và thứ ba
là (0, 5; −0, 5).

Hình 1.3.1: Minh họa tải trọng xoay vòng

Chúng ta thấy là tải trọng của mô hình B chính là việc áp dụng phép xoay tải
trọng của mô hình A, Hình 13.1, và có vô số các phép quay như vậy cho thấy hệ số
tải trọng là không duy nhất. Điều này có thể áp dụng trong thực tế. Cụ thể, khi
tiến hành phân tích sẽ có một số dự đoán trước liên quan tới tải trọng. Đặc biệt
một số tải trọng có thể dự kiến bằng không hoặc là gần bằng không. Vì lí do này,
phân tích nhân tố thu được trong hai giai đoạn. Trong giai đoạn đầu tiên, một bộ
tải trọng βij được tính theo phương sai, hiệp phương sai lý thuyết đưa ra phù hợp
14


với những quan sát càng nhiều càng tốt theo một chuẩn nhất định. Tuy nhiên các
tải trọng lúc này có thể chưa hợp lý với kỳ vọng tiên nghiệm hoặc không có một
lý giải hợp lý. Do đó, trong giai đoạn thứ hai, các tải trọng sẽ được quay để được

giá trị phù hợp tốt nhất với phương sai và hiệp phương sai quan sát và phù hợp
với cả kỳ vọng tiền nghiệm và dễ giải thích hơn. Giả sử, ví dụ rằng các tải trọng
mô hình A là ước tính xây dựng phù hợp nhất. Tất cả các tải trọng là cùng một
thứ tự mức độ và tất cả các biến đều phụ thuộc vào hai nhân tố đó. Trong khi tải
trọng ở mô hình B phù hợp với phương sai, hiệp phương sai và chỉ rõ rằng Y1 , Y2
phụ thuộc vào một yếu tố duy nhất, trong khi Y3 phụ thuộc vào yếu tố khác.
Khi số lượng nhân tố đã được xác định, ta tiến hành xoay các nhân tố xoay.
Phép xoay phải có hai nhân tố trở lên (không áp dụng đối với phương pháp trích
một nhân tố), phép xoay phù hợp bởi tính chất không xác định của mô hình nhân
tố chung. Đó là, đối với bất kỳ mô hình nhiều nhân tố, tồn tại một số vô hạn của
các phương pháp tốt phù hợp. Trong nghiên cứu ứng dụng, nhân tố tải trọng lớn
hơn hoặc bằng 0, 30 hoặc 0, 40 thường được coi là cần thiết, mặc dù không có yêu
cầu cụ thể và các tiêu chuẩn nhưng việc lấy giới hạn tải trọng thường phụ thuộc
vào bối cảnh thực nghiệm. Như vậy, đối với mô hình có chứa hai hoặc nhiều nhân
tố (vô số phương pháp như nhau phù hợp là có thể), phép xoay dẫn đến tạo ra
một phương pháp với các cấu trúc đơn giản nhất. Điều này quan trọng để nhấn
mạnh rằng phép xoay không làm sự thay đổi phù hợp của các phương pháp.
Có hai loại phép xoay chính: vuông góc (trực giao) và xiên. Trong phép quay
trực giao, các nhân tố này được hạn chế để không tương quan (tức là, nhân tố
này được định hướng ở góc 90◦ trong không gian đa chiều); Trong phép xoay xiên,
những nhân tố được phép tương quan (tức là, cho phép định hướng trục nhân tố
dưới 90◦ ). Mối tương quan giữa hai nhân tố bằng với cosin của góc giữa các trục
quay. Bởi vì cos(90◦ ) = 0, các nhân tố này là không tương quan trong phép quay
trực giao. Trong phép quay xiên, góc của các trục được phép lớn hơn hoặc nhỏ hơn
90◦ , và do đó cosin của góc có thể mang lại một nhân tố tương quan giữa 0 và 1.
Trong nghiên cứu khoa học ứng dụng, phép xoay trực giao được sử dụng
thường xuyên nhất, có lẽ vì nó được mặc định từ lâu trong các chương trình thống
kê chính như SPSS. Các nhà nghiên cứu đã nhận thức rằng phương pháp xoay
trực giao được giải thích dễ dàng hơn vì hệ số tải trọng có thể đại diện cho mối
tương quan giữa các chỉ số và các nhân tố (ví dụ, bình phương của hệ số tải trọng

giải thích tỷ lệ của phương sai trong các chỉ số mà các phương pháp nhân tố giải
thích). Trong phương pháp xiên, hệ số tải trọng thường không phản ánh mối tương
quan đơn giản giữa các chỉ số. Bởi vì phép quay xiên cho phép các nhân tố tương
quan, các mối tương quan giữa các chỉ số và các nhân tố có thể thổi phồng bằng
hiệp biến của các nhân tố. Đó là một chỉ số tương quan có thể tương quan với một
15


nhân tố thông qua mối tương quan của nó với các nhân tố khác. Tuy nhiên, phép
xoay trực giao có thể gây ra gây phương pháp hiểu lầm trong tình huống mà các
nhân tố này dự kiến là được tương quan. Nói cách khác, mặc dù mối tương quan
đáng kể có thể tồn tại giữa các nhân tố, phép xoay trực giao hạn chế các phương
pháp để mang lại các biến ẩn không tương quan.
Tuy nhiên trong nhiều trường hợp phép xoay xiên được ưa thích vì nó cung
cấp một đại diện thực tế hơn về các nhân tố tương quan với nhau như thế nào.
Nếu các nhân tố này là trong thực tế không tương quan, phép xoay xiên sẽ tạo
ra một phương pháp hầu như giống với phương pháp được tạo ra của phép xoay
trực giao. Mặt khác, nếu các nhân tố được tương quan với nhau, phép xoay xiên
sẽ mang lại một đại diện chính xác hơn về tầm quan trọng của các mối quan hệ.
Ngoài ra, ước lượng tương quan nhân tố cung cấp thông tin quan trọng, chẳng hạn
như sự tồn tại của các nhân tố dự phòng (dư thừa) hoặc một cấu trúc tiềm năng.
Hơn nữa, khi EFA được sử dụng như một tiền thân của CFA, các phương pháp
xiên có nhiều khả năng khái quát đến CFA hơn các phương pháp trực giao (tức
là, nhân tố hạn chế là không tương quan trong CFA sẽ có kết quả trong mô hình
phù hợp kém).
Một số dạng của phép quay xiên đã được phát triển (ví dụ, PROMAX, geomin,
quartamin, orthooblique). Khi phép xoay xiên được yêu cầu, hầu hết các chương
trình phần mềm (như SPSS) đầu ra cả một ma trận mẫu (pattern matrix) và một
ma trận cấu trúc (structure matrix). Các tải trọng trong ma trận mô hình thể hiện
mối quan hệ duy nhất giữa một nhân tố và một chỉ số. Nó được giải thích một

cách tương tự như các hệ số hồi quy một phần trong nhiều hồi quy chuẩn. Đó là,
các hệ số đại diện cho mối quan hệ giữa các nhân tố dự báo và chỉ số.
Phép xoay nhân tố được minh họa trong Hình 1.3.2, sử dụng một tập dữ
liệu thực tế trong tám chỉ số thu thập từ một mẫu của 500 người tham gia. Thử
nghiệm Scree và phân tích song song với hai nhân tố. Kết quả cho thấy 4 chỉ số
đầu tiên (Y1-Y4) tải trên nhân tố 1 và bốn chỉ số còn lại (Y5-Y8) tải trên Nhân tố
2. Hình 1.3.2 hiển thị một đại diện hình học của phép không xoay, xoay trực giao
(varimax), và xoay xiên (PROMAX) của ma trận nhân tố. Ước lượng ML sinh ra
các tải trọng nhân tố không xoay được trình bày trong hình 1.3.2A. Hình 1.3.2B
cho thấy kết quả của vòng xoay varimax. Các trục nhân tố duy trì ở góc 90◦ , nhưng
được quay tối ưu nhất để tối đa hóa cao nhất tải trọng nhân tố và giảm thiểu tải
trọng thấp. Phép xoay tạo ra một chuyển đổi ma trận. Với ma trận đại số, ma trận
tải trọng nhân tố không xoay được nhân với ma trận biến đổi để sinh ra ma trận
tải trọng nhân tố xoay. Trong tập dữ liệu này, ma trận chuyển đổi Varimax như
sau:

16


Factor 1 Factor 2
Factor 1 .93347
.35867
Factor 2 –.35867 .93347
Các giá trị trên đường chéo (0.93347) là cosin, các giá trị ngoài đường chéo
(0.35867, −0.35867) là sin và −sin. Như được biết trong hình 1.3.2B các trục được
xoay 20◦ , để cắt ngang các cụm chỉ số tốt hơn. Trong giới hạn sai số làm tròn,
cos(21)◦ bằng 0.933 và sin(19)◦ bằng 359, tương tự các hệ số biến đổi được biết ở
trên. Do phép xoay trực giao được sử dụng, các trục của nhân tố 1 và nhân tố
2 còn lại ở góc phải, và do đó các nhân tố được bắt buộc là không xoay. Đó là
cos(90)◦ = 0.

Những tác động của phép xoay trên các tải trọng nhân tố lớn nhất và nhỏ
nhất, xét trên 5 chỉ số đầu, Y5. Trước khi xoay, các tải trọng của Y5 trên nhân
tố 1 và nhân tố 2 đều tương tự (0.386 và 0.329, tương ứng ; Hình 1.3.2, phép xoay
trục nhân tố 21◦ làm tăng vị trí Y5 trên trục nhân tố 2 (0.445) và giảm đi các vị
trí các chỉ số trên trục nhân tố 1 (0.242) (Hình 1.3.2B).
Mặc dù phép biến đổi này làm sáng tỏ cấu trúc nhưng nó không làm thay đổi
tính chung của Y5 hoặc bất kì chỉ số khác. Trong một phương pháp kéo theo nhiều
hơn một biến ẩn, tính chung trong EFA trực giao được tính bằng cách lấy tổng bình
phương các tải trọng cho một số chỉ số được cho trong tất cả các nhân tố. Trước
và sau khi quay, tỷ lệ phương sai được giải thích trong Y5 là 0, 257; phương pháp
không xoay: 0, 3862 + 0, 3292 = 0, 257, phương pháp xoay: 0, 2422 + 0, 4452 = 0, 257.
Như vậy vòng quay không làm thay đổi sự phù hợp của phương pháp nhân tố.

17


Hình 1.3.2: Biểu diễn hình học của không xoay, trực giao xoay, và ma trận nhân tố xoay
gián tiếp

18


Chương 2
Phân tích nhân tố khẳng định CFA
2.1

Giới thiệu về CFA

CFA và EFA đều dựa trên mô hình nhân tố chung và thường được sử dụng
một phương pháp ước lượng (ví dụ ML. . . ), các đặc điểm kỹ thuật của CFA là

có thể xây dựng dựa trên lý thuyết hoặc dấu hiệu cho trước khi nghiên cứu. Như
vậy trong khi EFA nhà nghiên cứu chỉ có thể chỉ trước số yếu tố còn CFA thường
kiểm tra một giải pháp tiết kiệm hơn bằng cho biết số nhân tố, các mô hình của
nhân tố tải trọng (và tải trọng xoay mà thường được cố định bằng 0). Ngược lại
với EFA, CFA cho phép các đặc điểm kỹ thuật của mối quan hệ giữa các chỉ số đặc
biệt. Như vậy, mọi khía cạnh của mô hình CFA được quy định trước. Việc chấp
nhận mô hình được đánh giá bởi giá trị phù hợp (của mô hình hồi qui) căn cứ vào
kết quả của các ước lượng tham số giá trị phù hợp (của mô hình hồi qui) cũng áp
dụng cho EFA khi sử dụng ước lượng ML. Như đã nói trước đây, CFA mô hình lý
thuyết thích hợp hơn EFA trong giai đoạn xây dựng và thử nghiệm trước khi đưa
tiên đoán liên quan tới cấu trúc tiềm ẩn.
Với CFA, các nhà nghiên cứu xác định trước được số lượng các yếu tố hoặc
hệ số tải trọng, cũng như các tham số khác của việc đo lường giữa độc lập hay là
hiệp phương sai của các yếu tố và của cả phương sai riêng (phương sai riêng chính
là phần phương sai riêng của mỗi biến không được giải thích bởi các biến còn lại).
Việc định trước nhân tố là sự đánh giá trong việc làm thế nào để tái tạo lại các ma
trận tương quan mẫu của các biến đo được. Vì vậy, không giống như EFA, CFA
đòi hỏi thực nghiệm phải vững chắc, hoặc nền tảng khái niệm để định hướng các
đặc điểm (thông số) và đánh giá các mô hình nhân tố.
Ngoài ra, CFA cung cấp một kỹ thuật phân tích mạnh mẽ để đánh giá sự
tương đương của các mô hình đo lường giữa các nhóm khác nhau. Điều này được
thực hiện bằng một trong hai giải pháp đa nhóm (tức là, có thể phân tích tổng
quát hoặt phân tích đa nhóm). Mặc dù một số phương pháp kiểm tra sự phù hợp
19


của các cấu trúc nhân tố trong EFA có sẵn (ví dụ khả năng để xác định mô hình
bất biến từng phần, cf. Byrne, Shavelson, và Muthén, 1989). Tuy nhiên những kỹ
thuật này mang đến nhiều cơ hội phân tích quan trọng trong việc nghiên cứu các
ứng dụng, chẳng hạn như việc ước lượng một một đặc tính đo lường quy mô là bất

biến trên tập các phân nhóm.
Một lợi thế của CFA và SEM là khả năng ước lượng mối quan hệ giữa các
biến đánh giá cho sai số đo lường. Một hạn chế quan trọng của phương pháp bình
phương nhỏ nhất (OLS) cách tiếp cận tương quan và phân tích hồi qui đa chiều là
giả định rằng các biến đo được là không có lỗi (tức là nó hoàn toàn đáng tin cậy,
có nghĩa là tất cả các phương sai của một quan sát là đúng sai số). Tuy nhiên, giả
thiết này hiếm khi được giữ trong các ngành khoa học xã hội và hành vi, mà chủ
yếu dựa trên những biến số đã được đánh giá bằng câu hỏi, thứ hạng các quan sát
độc lập, v.v. Do đó, ước lượng có nguồn gốc từ phương pháp OLS (ví dụ, các mối
tương quan, hệ số hồi quy) thường được suy yếu tới một mức độ chưa biết bằng
các lỗi đo lường trong các biến mà sử dụng để phân tích. Mặt khác, CFA và SEM
cho phép các mối quan hệ đó được ước tính sau khi điều chỉnh cho sai số đo lường
một lý thuyết lỗ (mức độ sai số đo ngẫu nhiên và tương quan). Ví dụ, trong mô
hình CFA trình bày trong Hình 2.1.1a, mối quan hệ giữa hai cấu trúc được phản
ánh ở yếu tố tương quan giữa các phần tử của một tập hợp) (giữa nhân tố 1 và
nhân tố 2) như trái ngược với các mối quan hệ quan sát được giữa hàm chỉ tiêu tải
về của các nhân tố này. Thật vậy, yếu tố tương quan này ước tính tốt hơn về giá
trị phổ biến của mối quan hệ này hơn bất kỳ cặp chỉ số nào (EGR giữa Y1 và Y4 )
bởi vì nó đã được điều chỉnh cho sai số đo lường, nghĩa là phương sai được chia sẻ
giữa các chỉ số của nhân tố được vận hành như đúng – sai số, được thông qua vào
các biến tiềm ẩn.
CFA được sử dụng như là một tiền thân (điềm báo trước) của SEM, mà trong
đó xác định mối quan hệ cấu trúc (ví dụ, hồi quy) giữa các biến tiềm ẩn. Một mô
hình phương trình cấu trúc có thể được chia thành hai phần chính: (1) các mô
hình đo lường xác định số lượng các nhân tố và (2) các mô hình cấu trúc, trong đó
quy định cụ thể các yếu tố khác nhau có liên quan tới nhau như thế nào (ví dụ,
tác động trực tiếp hoặc gián tiếp, không có mối quan hệ, mối quan hệ giả mạo).
Hai mô hình cơ bản được trình bày trong Hình 2.1.1, sơ đồ đầu tiên (A) đại diện
cho một mô hình đo lường (một mô hình CFA kéo theo ba nhân tố tương quan
giữa các phần tử), và sơ đồ thứ hai (B) phản ánh một mô hình cấu trúc để cho

biết rằng mối quan hệ giữa nhân tố X và nhân tố Y là hoàn toàn trung gian bởi
nhân tố Z (như với hệ số tải trọng, ảnh hưởng trực tiếp giữa các biến tiềm ẩn được
miêu tả bằng mũi tên một chiều trong hình 2.1.1B). Như vậy, trong khi mối quan
hệ giữa các biến tiềm ẩn được phép tương quan giữa các phần tử tự do trong mô
20


hình CFA, bản chất chính xác của các mối quan hệ được xác định trong mô hình
cấu trúc đó là nhân tố X có ảnh hưởng trực tiếp tới nhân tố X, nhân tố X có ảnh
hưởng trực tiếp nhân tố Y và nhân tố X có tác động gián tiếp tới nhân tố Y. Lưu ý
rằng trong mô hình đo lường (CFA), có ba thông số liên quan các yếu tố với nhau:
tương quan yếu tố giữa X và Y, X và Z, Y và Z (mô tả bằng hai đầu, mũi tên cong
trong Hình 2.1.1a). Trong mô hình cấu trúc, chỉ có hai thông số cấu trúc X → Y
và Y → Z. Như đã thảo luận ở phần sau, phần cấu trúc của giải pháp này được
xác định quá mức (overidentifed). Nghĩa là tồn tại ít chỉ số cấu trúc (ví dụ X →
Y và Y → Z). Trong mô hình so với số lượng các mối quan hệ có thể có giữa các
yếu tố (ví dụ, ba tương quan giữa X và Y, X và Z, Y và Z). Vì vậy các mô hình
cấu trúc là chi li hơn các mô hình đo lường bởi vì nó cố gắng để tái tạo các mối
quan hệ giữa các biến tiềm ẩn với một ít tham số tự do ước tính. Bởi vì bản chất
nhận dạng hoàn chỉnh phần cấu trúc của mô hình này, sự phù hợp (của hô hình
hồi qui) có thế kém hơn so với các mô hình đo lường.

Hình 2.1.1: Mối tương quan giữa các nhân tố

2.2

So sánh CFA và EFA

Các mô hình nhân tố chung và EFA đã trình bày trong Chương 2, phần này
sẽ so sánh giữa CFA và EFA. Trên cơ sở những so sánh, những ưu điểm, mục đích

của CFA sẽ trở nên rõ ràng hơn. Các ký hiệu và tính toán các thông số của mô
21


hình CFA sẽ được trình bày. Chương này cũng đề với các khái niệm quan trọng
của mô hình nhận dạng, khả năng tối đa (ML)dự toán, và đánh giá sự phù hợp
(của mô hình hồi qui).
CFA là phương pháp nhằm xác định sự phù hợp của số liệu nghiên cứu với
mô hình lý thuyết. Trong phân tích yếu tố khám phá (EFA), nhà nghiên cứu dựa
vào số liệu nghiên cứu để tìm ra các yếu tố cấu thành; trong khi CFA nhằm khẳng
định mô hình các yếu tố cấu thành đã có sẵn qua nghiên cứu trước đó hoặc mô
hình lý thuyết đã được xác định từ trước. EFA có nhiệm vụ khảo sát số liệu, giúp
nhà nghiên cứu tìm ra số yếu tố phù hợp đặc trưng cho số liệu. Với EFA, tất cả
các biến quan sát đều có liên quan ít nhiều đến các yếu tố bằng cách ước lượng
các hệ số tải trọng. Cấu trúc đạt được trong EFA bao gồm những biến quan sát
có hệ số tải lớn lên một yếu tố và các hệ số tải nhỏ lên các yếu tố khác (ví dụ, tải
trọng < 0.4).
Các yếu tố trong EFA được xác định thông qua kết quả phân tích thống kê,
không phải từ lý thuyết và tên của từng yếu tố chỉ được đặt sau khi hoàn thành
phân tích. EFA được thực hiện khi chưa biết có bao nhiêu yếu tố, và các biến nào
thuộc yếu tố nào.
Ngược lại, CFA, nhà nghiên cứu phải biết trước đã có bao nhiêu yếu tố, có bao
nhiêu biến trong từng yếu tố. Trong trường hợp này, CFA làm nhiệm vụ xem xét
sự phù hợp của mô hình đã có sẵn với số liệu nghiên cứu. Nói các khác, CFA tìm
cách khẳng định sự phụ hợp của mô hình lý thuyết có sẵn đối với số liệu nghiên
cứu. Đó cũng là một cách tiếp cận SEM.
Giống như EFA, mục đích của CFA là xác định nhân tố giải thích cho phươn sai
và hiệp phương sai giữa tập các chỉ số. Cả EFA và CFA dựa trên mô hình nhân tố
chung (ví dụ, hệ số tải trọng, phương sai riêng, communalities (các communalities
cho biến thứ i được tính bằng cách lấy tổng các tải trọng bình phương cho biến

đó)). Tuy nhiên, trong khi EFA thường dùng để mô phỏng hoặc thăm dò, với CFA
nhà nghiên cứu trước tiên phải chỉ rõ tất cả các khía cạnh của mô hình nhân tố.
CFA đòi hỏi một nền tảng thực nghiệm hoặc một khái niệm mạnh mẽ để hướng
dẫn kỹ thuật và đánh giá các mô hình nhân tố. Theo đó, CFA thường được sử
dụng trong giai đoạn sau của sự pháp triển qui mô hoặc xây dựng tính khách quan
của mẫu – sau khi các cấu trúc cơ bản đã được xây đựng dự kiến bởi phân tích
thực nghiệm trước khi sử dụng EFA, cũng như trên cơ sở lý thuyết.
EFA và CFA thường dựa vào các phương pháp ước lượng tương tự. Khi một
ước lượng thông tin đầy đủ như ML được sử dụng, các mô hình yếu tố phát sinh
từ EFA và CFA có thể được đánh giá dựa trên các giải pháp tái xây dựng làm thế
nào mô phỏng phương sai quan sát và hiệp phương sai giữa các chỉ số đầu vào.
Ngoài ra, chất lượng của mô hình EFA và CFA được xác định một phần bởi tham
22


×