Tải bản đầy đủ (.docx) (89 trang)

Phân tích dữ liệu đa biến và một số ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 89 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ HUỲNH NHƯ

PHÂN TÍCH DỮ LIỆU ĐA BIẾN VÀ MỘT SỐ ỨNG
DỤNG

Chuyên ngành : TOÁN ỨNG DỤNG
Mã số: 60460112

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH - Tháng 6 năm 2018


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

LÊ HUỲNH NHƯ

PHÂN TÍCH DỮ LIỆU ĐA BIẾN VÀ MỘT SỐ
ỨNG DỤNG

Chuyên ngành : TOÁN ỨNG DỤNG
Mã số: 60460112

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH - Tháng 6 năm 2018



CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM

Cán bộ hướng dẫn khoa học : TS. Nguyễn Tiến Dũng.
Cán bộ chấm nhận xét 1 : PGS. TS Nguyễn Bích Huy.
Cán bộ chấm nhận xét 2 : TS. Nguyễn Bá Thi.
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày
17 tháng 07 năm 2018.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch: PGS. TS Nguyễn Đình Huy.
2. Thư ký: TS. Đặng Văn Vinh.
3. Phản biện 1: PGS. TS Nguyễn Bích Huy.
4. Phản biện 2: TS. Nguyễn Bá Thi.
5. ủy viên: PGS. TS Nguyễn Huy Tuấn.
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành
sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

PGS.TS. NGUYỄN ĐÌNH HUY

TRƯỞNG KHOA

PGS.TS. HUỲNH QUANG LINH


ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM


TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Lê Huỳnh Như
MSHV: 7140275
Ngày, tháng, năm, sinh: 03/09/1987 Chuyên ngành:
Nơi Toán
sinh: ứng
LongDụng
An
MãVÀ
số:MỘT
60460112
I. TÊN ĐỀ TÀI: PHÂN TÍCH DŨ LIỆU ĐA BIẾN
SỐ ỨNG
DỤNG

II. NHIỆM VỤ VÀ NỘI DUNG:
- Kiến thức chuẩn bị.
- Phân tích dữ liệu đa biến.
- ứng dụng.
III.
NGÀY GIAO NHIỆM VỤ: 15/01/2018
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018
V. CÁN BỘ HƯỚNG DẪN: TS. NGUYỄN TIẾN DŨNG

Tp. HCM, ngày 17 tháng 6 năm 2018


CÁN BỘ HƯỚNG DẪN

TS. NGUYỄN TIẾN DŨNG

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

PGS.TS. NGUYEN ĐÌNH HUY
TRƯỞNG KHOA

PGS.TS. HUỲNH QUANG LINH


LỜI CẢM ƠN
Luận văn này được thực hiện tại Trường Đại học Bách Khoa Tp.HCM dưới sự
hướng dẫn của Thầy TS. Nguyễn Tiến Dũng. Trước hết, tôi xin bày tỏ lòng biết ơn
sâu sắc đến Thầy - người luôn động viên và hết lòng hướng dẫn tôi hoàn thành luận
văn này.
Tôi cũng xin chân thành cảm ơn các quý thầy cô giáo bộ môn Toán ứng Dụng
khoa Khoa học ứng Dụng đã giảng dạy nhiệt tình, cung cấp kiến thức cho tôi trong
quá trình học tập ở trường.
Tôi xin chân thành cảm ơn Phòng đào tạo Sau đại học Trường Đại học Bách
Khoa Tp.HCM đã tạo điều kiện thuận lợi để tôi hoàn thành chương trình đào tạo và
an tâm học tập tại trường.
Cuối cùng, tôi xin gửi lời cám ơn đến gia đình, bạn bè, những người đã luôn bên
tôi, động viên và khuyến khích tôi hoàn thành luận văn này.
Tôi xin chân thành cảm ơn!
Tp.HCM, ngày 17 tháng 6 năm 2018
Học viên thực hiện


Lê Huỳnh Như

5


TÓM TẮT LUẬN VĂN
Luận văn bao gồm 3 chương. Chương 1 trình bày các khái niệm cơ bản. Chương
2 trình bày về cách phân tích mô hình hồi quy tuyến tính đa biến và ứng dụng.
Chương 3 trình bày mô hình copula và ứng dụng.

ABSTRACT
The thesis contains three chapters. Chapter 1 presents the basic concept. Chapter
2 presents the multivariate linear regression analysis and application. Chapter 3
presents the copula model and application.


LỜI CAM ĐOAN
Tôi tên là Lê Huỳnh Như, MSHV: 7140275, học viên cao học chuyên ngành Toán
ứng dụng Trường Đại học Bách Khoa TP.HCM khóa 2014. Tôi xin cam đoan rằng,
ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn,
các công việc trình bày trong luận văn này là do chính tôi thực hiện dưới sự hướng
dẫn của TS. Nguyễn Tiến Dũng.
Tp.HCM, ngày 17 tháng 6 năm 2018
Học viên thực hiện

Lê Huỳnh Như


2.2.4chuẩn
Kiểmđịnh

tra
cậy thang
1 Kiến thức
bịjđộgiảtinthuyết
2.1.4
Kiểm
về p đo bằng hệ số Cronbach’s alpha . .

Mục2.2.5
lụcDiều kiện để áp dụng EFA

14

«•
1.12.2
Hiệptích
phương
sai của biến ngẫu nhiên hai chiều..................................
Phân
nhân tốl...................................

14

1.2 Tương
quanhình
củaEFA1...............
biến ngẫu nhiên hai chiềul........................................
12.2.1 Mõ

15


1.3 Ma
trậnCác
hiệp
phương
Í2Ĩ2.2
bưóc
thực sai......................................................................
hiên EFA|

15

Met đầul

|1.4
Ma
trận
tương
qưanỊ..............................................................................
12.2.3
Kích
mail]
....
Coefficien
2.1hình
Phân
tích
tương
qưan
tưỵến

(Linear
Correlation)
2Bảng

2.1.3
hồi
Hệ
quy
số
tương
tuyến
quan
tính
của
đatính
mẫu
biến
2.1.2
tập
hợp chính
(The Population

hiêu
2.1.1
Dồ
thịthưóc
phân
tán

11

16
13
18
23
22
21
20
18
19


2.2.6 Hệ số tải nhân tố|........................................................................

24
24
25
25
26
26
28
29
30
30
32

2.4 ứng dụng mô hình hồi quy tuyến tính đa biến để đánh giá sự hài
lòng của học sinh khối 12 năm học 2017 - 2018 về trường THPT
Gò Đen, Bến Lức, Long An ................................................................ 35

2.4.1 Giới thiệu trường THPT Gò Đen, Bến Lức, Long An| . .

2.4.2 Quỵ trình nghiên cứu..............................................................
2.4.3 Nghiên cứu định tínhỊ.............................................................
2.4.4 Nghiên cứu định lượng ..........................................................

35
36
36
36

2.4.5 Bảng khảo sát|.........................................................................

37
2.4.6................................................................................Kết quả sau khi
46
chạy hồi quỵ đa biến........................................................................... 3 Mõ hình

copula
3.1

3.2

Một vài định nghĩa và tính chất của Copula........................................
3.1.1

Các hàm phân phối đồng thòi Préchet - Hoeffding ................

3.1.2

Copula và biến ngẫu nhiên......................................................


Các khái niệm sự phụ thuộcỊ...............................................................
3.2.1 Tương quan tuyến tính...............................................................
3.2.2

Dộ đo sự tương thích..............................................................

3.2.3

Dộ đo sự phụ thưộc.................................................................

63
63
68
71
73
73
74
77


3.2.4 Những khái niệm phụ thuộc khác...............................................
3.3 Sơ lược về các hàm copula

78
82

3.3.1 Phân phối elliptic

82


3.3.2 Copula liên quan đến phân phối elliptic

83
87
88
90
90
91
93

3.5 ứng dụng copula trong đo lường rủi ro tài chính
3.5.1 Tốn thất tống hợp và phân tích giá trị rủi ro
3.5.2

Giá trị cực trị nhiều chiều và rủi ro thị trưởng

3.5.3

Tim sỗ tương quan và tính toán rủi ro

Kết luận
Lý lịch trích ngang

98

117

120
122



MỞ ĐẦU

I. Lý do chọn đề tài
Phân tích dữ liệu đa biến dựa trên nguyên tắc thống kê số liệu đa biến, trong đó bao
gồm việc quan sát và phân tích kết quả thống kê của nhiều hơn một biến đã và đang
thu hút sự quan tâm của nhiều nhà thống kê cũng như của nhiều nhà khoa học trong
các ngành thực nghiệm. Một trong những điểm mạnh của phương pháp này là nó có
thể được sử dụng để thực hiện các nghiên cứu trong rất nhiều lĩnh vực liên quan đến
yêu cầu xem xét tác động của nhiều nhân tố trên những biến phản hồi Y (xem [ ’).
Trong số các phương pháp phân tích đa biến thì phân tích hồi quy có nhiều ưu điểm vì
đó là một phân tích thống kê để xác định xem các biến độc lập có quan hệ như thế nào
với các biến phụ thuộc. Đây là một phương pháp thống kê mà giá trị kỳ vọng của một
hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên
(đã tính toán) khác. Phân tích hồi quy có nhiều mô hình như mô hình hồi qui tuyến
tính, hồi qui logic, hồi qui Poisson...Luận văn này sẽ tập trung nghiên cứu và ứng dụng
mô hình hồi quy tuyến tính đa biến (xem [ ]).
Ngoài ra, một trong những phương pháp thường được dùng khi phân tích dữ liệu đa
biến với cách tiếp cận liên quan đến hàm phân phối đồng thời là mô hình copula (xem
[
]). Các copula là các hàm đặc biệt với nhiều tính chất
rất thú vị. Dựa vào copula, ta có thể xác định được sự phụ thuộc của các biến ngẫu
nhiên mà nhiều khi covariance và correlation không thể lý giải được. Đặc biệt, trong lý
thuyết đầu tư và quản lý rủi ro, việc chỉ sử dụng covariance và correlation của các chỉ
số, giá cả, v.v. nhiều khi là chưa đủ. Khi đó, ta cần phải khảo sát cả copula của chúng.

II. Mục đích nghiên cứu
Mục tiêu nghiên cứu cơ bản của luận văn này là làm rõ phép phân tích hồi quy
tuyến tính đa biến, phân tích mô hình copula và ứng dụng của nó.



III.

Đối tượng và phạm vi nghiên cứu

- Đối tượng nghiên cứu: Mô hình hồi quy tuyến tính đa biến, mô hình copula.
- Phạm vi nghiên cứu: Mô hình phân tích trong kết quả đo và một số ứng dụng.

IV.Phương pháp nghiên cứu
- Tìm hiểu mô hình hồi quy đa biến, mô hình copula.
- Xem xét khả năng ứng dụng của các phương pháp trong các bài báo vào một
hoặc một vài dữ liệu đặc thù ở Việt Nam.
- Học cách sử dụng phần mềm SPSS (xem [ ]) hoặc/và R (xem [ ]) để hiện thực
hóa khả năng ứng dụng trên.

V.Ý nghĩa khoa học và thực tiễn của đề tài
- Ý nghĩa khoa học: Luận văn này nghiên cứu và làm rõ một số mô hình phân tích.
- Ý nghĩa thực tiễn: ứng dụng các mô hình trên cho một số bài toán trong giáo dục
hoặc kinh tế tài chính.

VI.

Cấu trúc của luận văn

- Chương 1: Kiến thức chuẩn bị.
- Chương 2: Mô hình hồi quy tuyến tính đa biến.
- Chương 3: Mô hình copula.


BẢNG KÝ HIỆU

Hiệp phương sai tổng thể của biến ngẫu nhiên hai chiều (x,y).
Tương quan tổng thể của hai biến X và y.
Tương quan mẫu.
Ma trận hiệp phương sai có thành phần (ỉ, j) là hiệp phương sai.
cov(x,ỳ)
Phân tích nhân tố khám phá.
p{x-,y) rXy ^.cov(^,Xj)
Biến đo lường thứ ỉ đã được chuẩn hóa.

EFA
Xi
Aij
F1,F2, ■■■,Fm
CA
JN
c
DomC
c~
c+

Hệ số hồi qui bội đã được chuẩn hóa của nhân tố j đối với biến i. Các nhân tố
chung.
Cronbach’s Alpha: đánh giá độ tin cậy của thang đo.
Hình lập phương đơn vị.
Copula.
Miền xác định của hàm c.
Cận dưới Eréchet - Hoeffding.
Cận trên Eréchet - Hoeffding.
Tích copula.
Miền giá trị của X.

RanX
Véctơ của biến ngẫu nhiên tục với copula c.
T
{X1,...,Xn) X~En^:
X có phân phối elliptic với các tham số /1,52, ộ .
£,ộ} PDM
Mô hình phương sai riêng.
EDM
Mô hình phương sai mũ.
f'l ( tl
in
ÍN 1 Phân phối copula thực nghiệm.
T’•••’ T J
Ước lượng hợp lý cực đại.
ML
Ước lượng hợp lý cực đại chính xác.
EML
Ước lượng hợp lý cực đại chính tắc.
CML
Hàm suy luận cho phân phối lề.
IFM
mgf
Hàm sinh moment.
VaR
Value at Risk: thước đo rủi ro thị trường.


Chương 1

Kiến thức chuẩn bị

1.1Hiệp phương sai của biến ngẫu nhiên hai chiều
Nếu hai biến X và y được đo lường trên cùng một đơn vị nghiên cứu, ta có biến
ngẫu nhiên hai chiều (x,y).
Hiệp phương sai tổng thể được định nghĩa:
cov(x,y) = ơXy = E[(x — fj,x)(y — fXy)]

(1.1)

với fẢx, fẢy tương ứng là trung bình của X và y. Nếu X và y cùng trên hoặc dưới giá
trị trung bình thì tích (x — /Ấx)(y — ụ,y) sẽ dương và giá trị trung bình của tích này sẽ
dương. Ngược lại, tích (a? — Hx^y — /J,y) sẽ âm và giá trị trung bình của tích này sẽ
âm. Hiệp phương sai tổng thể có thể được biểu diễn:
&xy = E(xy) l-íxl-íy

(1-2)

Nếu (x,y) là biến ngẫu nhiên hai chiều thì:
E(x + y) = E(x) + E(y)

(1.3)

E(xy) = E(x)E(ỳ), nếu X, y độc lập.
Nếu X và y độc lập thì ơXy = 0
&xy E(xy) P'xP'y

E (:r) E (T/)

P'xP'y P'xP'y P'xP'y 0

(1’4)


Hiệp phương sai mẫu được định nghĩa là:
E (Xi-x)(yi-ỹ)
SXy = —------------:--------y
n-1

(1-5)
v
'


n

hay

E Xiyi - rĩxỹ
2—1___________________

n—1

1.2Tương quan của biến ngẫu nhiên hai chiều
Trong phân tích hồi quy tuyến tính đơn giản, hệ số tương quan là một thống kê
mà chỉ ra các mối quan hệ giữa các biến độc lập và biến phụ thuộc.
Hệ số tương quan được ký hiệu bởi r và nó trong khoảng -1.00 đến 1.00. Khi hệ
số tương quan là dương, chẳng hạn như 0.80, nó có nghĩa là sự gia tăng các biến độc
lập sẽ dẫn đến sự gia tăng biến phụ thuộc. (Ngoài ra, giảm các biến độc lập sẽ có
nghĩa là giảm các biến phụ thuộc).
Khi hệ số tương quan là âm, chẳng hạn như -0.80, có một mối quan hệ nghịch
biến. (Sự gia tăng các biến độc lập sẽ có nghĩa là giảm biến phụ thuộc. Sự giảm các
biến độc lập sẽ có nghĩa là một sự gia tăng trong các biến phụ thuộc.) Một hệ số

tương quan bằng 0.8 hoặc -0.8 cho thấy một mối tương quan mạnh mẽ giữa các biến
độc lập và biến phụ thuộc.
Hiệp phương sai phụ thuộc vào thang đo của X vầy, rất khó để so sánh hiệp
phương sai giữa các cặp khác nhau của các biến. Để tìm thước đo về mối quan hệ
tuyến tính bất biến khi thay đổi tỷ lệ ta có thể chuẩn hóa hiệp phương sai bằng cách
chia cho độ lệch chuẩn của hai biến. Sự chuẩn hóa này gọi là tương quan. Tương
quan tổng thể của 2 biến X và y là
px, = corr(x, ») = ^- =
ơxơy

,
E(x - fe)27E{y - /ự

(1.7)

và tương quan mẫu là
{Xi - x)(yi - y)
n

(1-8) Xi - z)2 Ề (yi - ỹ)2

2=1

1.3Ma trận hiệp phương sai
Ma trận hiệp phương sai của tập hợp m biến ngẫu nhiên là một ma trận vuông
hạng (m X m), trong đó các phần tử nằm trên đường chéo (từ trái sang phải, từ trên
xuống dưới) lần lượt là phương sai tương ứng của các biến này (với Var(x) =
Cov(x,x)), trong khi các phần tử còn lại (không nằm trên đường chéo) là các hiệp
phương sai của đôi một hai biến ngẫu nhiên khác nhau trong tập hợp.



Ký hiệu X là một véctơ cột, Xi là các thành phần của véctơ này.

Nếu các thành phần của véctơ cột là các biến ngẫu nhiên có phương sai xác định
(không quá lớn tới vô cực), thì ma trận hiệp phương sai (covariance matrix) 52 là
một ma trận mà có thành phần (X j) là hiệp phương sai (covariance):
V cov(Ẳ',; Xj) = £[(X - w)(Xj - w)]

(1.9)

trong đó
Ịj,ị = E(Xị) là giá trị kỳ vọng của thành phần thứ ỉ của véctơ X. Nói cách khác

E[(Aa-/ía)(Ah-/Í1)1 EKAj^XA'^M ... E[(AS -

E - JÍJL)(X, -

:■! ]■:[(-ịiX • ■ • E[(- Í1, 11XJL - ựJL}]_
(110)

1.4Ma trận tương quan
Tương quan mâu giữa các biến thứ j và k được định nghĩa theo (1.9):
s

jk

SjSk

Ma trận tương quan mâu tương tự như ma trận hiệp phương sai.



1
r2i

R — (rjk) —

\Tpi

r12 • •• Tip
1 ••• r2p
Tp2

■"

1

J

Ma trận R đối xứng khi
rjk = f'kj

Ma trận tương quan tổng thể được định nghĩa:

(1
P21

Pp ~ Pjk ~
Ỳ Ppl

với

như (1.8)

£12 •

1•

• Pỉp
Pĩp

Pp2 • •• 1 J


Chương 2

Mô hình hồi quy tuyến tính đa biến
2.1Phân tích tương quan tuyến tính (Linear Correlation)
Để hồi quy mô hình thì cần tiến hành phân tích tương quan giữa các nhân tố độc
lập với nhân tố phụ thuộc. Từ đó chúng ta sẽ chọn những nhân tố độc lập thực sự có
tương quan với nhân tố phụ thuộc và đưa những nhân tố đó vào phân tích hồi quy.
2.1.1

Đồ thị phân tán

Đồ thị phân tấn của Y so với biến X là tập hợp tất cả các điểm có tọa độ M (x^yi)
trong hệ tọa độ vuông góc. Dựa vào đồ thị phân tán ta có thể xấc định được dạng
quan hệ giữa 2 biến Y và X.
V

Quan hẽ tuyển irnh


□ Ltìiìtìỳ phi

Đồ thị phân tán
2.1.2

Hệ số tương quan của tập hợp chính (The Population Correlation Coefficient)

Gọi Xì Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là ỊẤXĩ pty và
phương sai là ơ^ơy. Để đo lường mức độ quan hệ giữa X và Y người ta dùng đại
lượng hiệp phương sai (covariance) và hệ số tương quan (correlation


coefficient)
• Hiệp phương sai (covariance)
TV

V (Xị—ux)(yi—Uv)

ơxv = cov (X, Y)

= E [(X - (y - ưì =
N : số cặp giá trị quan sát.
• Hệ số tương quan (correlation coefficient) p = cov^xjy^ =
Trong đó:
N .2
ỈL ,
.2
21 + /33*31 + ••• + /3kXki + U1

y -----------------------------------------------------------------------------------------------------------------------------------------------------------------------


Y2 = /31 + /32*22 + /33*32 + ••• + /3kXk2 + Ư2

(2
2)

Yn = /31 + ^2^2n + ^3*3n + ••• + /3kXkn + Un
Trong đó:
Y=

(YYi+

;/3 =

/32

■,u =

( U1\
U2

■1

■-.x =

(yj
Khi đó, (2.2) có thể viết dưới dạng ma trận như sau:
Y = X/3 + u
2.3.1


Các giả thuyết

E(Ui) = ữyỉ
E(Uị, Uj) =

0
ơ2

ị i hay E(UUT) = Ơ2I
*J

1
1

*21 .

. * H'

*22 .

. Xk2

*2n

:

• 3ỉkn _

(2.3)



Hay
Y = xệ+ e
Trong đó:

/ ei \

3=

;e =

62

= Y-X/3

IÂ /
Theo phương pháp bình phương nhỏ nhất, các hệ số: 31; ^2, được chọn sao cho tổng
bình phương của các phần dư nhỏ nhất:
i=l

Ề eỉ = Ế (yi-Â - ^2X21 - ệkXki)2 => min
i=l

Ta kí hiệu XT, YT, )3T, eT tương ứng là các ma trận chuyển vị của X, Y, ệ, e.

1 ... 1
XT =

X21 X22 ... x2n
Xk2 • • • Xkn _

= (Â,Â!,-,Â); eT = (ei,e2,...,en)

Khi đó:
2 e? = eTe = (y - X/3)r(y - xệ) = (y - ^XT)(Y -_xậ)
= YTY - ệTXTY - YTXỊJ + Í3TXTXị3 = YT - ĩệTXTY + ệTXTXệ Hệ phương trình chuẩn có
dạng:
T
Trong đó, ma trận (XTX) cóổ(e
dạng
e) như sau:
T
T
= 0 (X X)Í3 = X Y
(2.5)

ỡ3

(XTX) =

£-V2i
LL-Yb

... J2xki - Y.XI ...

£X2Ì
£ x2ixti

>\\y.\\2

>\v ’ .



2.3.4

Hệ số xác định hồi quy bội

Ta làm quen với một số khái niệm: TSS (Total Sum of Squares): là tổng bình
phương của tất cả các sai lệch giữa các giá trị quan sát Yị với giá trị trung bình của
chúng.
n



TSS = £ (yf - Y)
Í=1

ESS (Explained Sum of Squares): là tổng bình phương của tất cả các sai lệch giữa
giá trị biến tính theo hàm hồi quy mẫu với giá trị trung bình. Phần này đo độ chính
xác của hàm hồi quy.
Y____ JL
ESS=tl\Yi-Y]
i=l ỵ

_\2

7

RSS (Residual Sum of Squares): là tổng bình phương của tất cả các sai lệch giữa các
giá trị quan sát của biến và các giá trị nhận được từ hàm hồi quy mẫu.
RSS = è e,2 =è (y; - Ỳi)

i=l

i=l '

/

Ta có: TSS = ESS + RSS.
Đại lượng R2 gọi là hệ số xác định (coefficient of determination) và được sử dụng để
đo mức độ phù hợp của hàm hồi quy.
Ta định nghĩa: R2 =
(0 < R2 < 1)
Với R2 bằng 1 thì đường hồi quy phù hợp “hoàn hảo”, tất cả các sai lệch của Y (so
với giá trị trung bình) đều giải thích được bởi mô hình hồi quy. Khi R2 bằng 0, chứng
tỏ X, Y không có quan hệ với nhau.
Trong mô hình hồi quy bội, hệ số xác định có thể được tính bằng một trong hai công
thức sau:
• R2 =
(0 < R2 < 1)
Trong đó: TSS = YTY - n(Y)2 ; ESS = ệTXTY - n(Y)2 Do đó:
T T
2 ESS ệ X Y - n(Ỹ)
2

- TSS ~ YTY - n(Ỹf

(2-6)

_ o2 = ESS = -1 _ RSS = -1 _ Eẹị
21


TSS 1 TSS 1 Y,y?

Hay:

„2

32E^2i + &3'£lyix3i + ••• + Pk^yiXki

S1Í
R2 là hàm không giảm của số biến giải thích có trong mô hình. Vì 52 yỉ = Í=1
n

_____ 2

(2.7)


52
Í=1

— ỹ) không phụ thuộc vào số biến giải thích có trong mô hình, nhưng

n

52 e2 là hàm giảm của số này. Do vậy, nếu tăng số biến giải thích có trong mô i=l
hình thì R2 cũng tăng. Vì vậy, khi so sánh hai mô hình hồi quy có cùng biến phụ
thuộc nhưng số biến độc lập khác nhau, ta cần phải cẩn thận trong việc lựa chọn mô
hình với R2 cao nhất. Để so sánh hai số hạng R2 , ta cần phải tính đến số lượng biến
độc lập có trong mô hình. Do đó, chúng ta xem xét một hệ số xác định khác thay thế
như sau:

_
2
YR = 1 -

Ẻe2/(n-k)
I--------- (2.8)
i=i /

Trong đó k là số tham số trong mô hình bao gồm cả hệ số tự do.
R2 được gọi là R2 có hiệu chỉnh. Thuật ngữ có hiệu chỉnh có nghĩa là hiệu chỉnh theo
bậc tự2 do tương ứng với các tổng
bình phương trong công thức định nghĩa n n
của R . Số bậc tự do của 52 eỉ là (n — k) và số bậc tự do của 52 vỉ là (n — 1). i=l
i=l
2
2
Giữa R và R có mối liên hệ với nhau theo công thức:
= 1 - (1 - R2)^—4
n—k

(2.9)

R2 là chỉ số quan trọng để chúng ta xem xét có nên thêm một biến độc lập mới vào
phương trình hồi quy hay không. Chúng ta có thể quyết định thêm một biến độc lập
nếu R2 tăng lên khi thêm biến đó vào.
2.3.5

Ma trận tương quan

Giả sử chúng ta có mô hình hồi quy bội: Yị = /31 + P2X2Ì + ... + PkXki + Uị Kí

hiệu rtj là hệ số tương quan giữa biến thứ t và thứ j.
Nếu t = 1 thì Tij là hệ số tương quan giữa biến Y và biến Xj.

Tl

____ y2 yvEij _ r _____________ y2 ytiXji
’~ ~
r
rtl

(2-10)

Trong đó: Xji = Xji — Xj\ Ttj = Tji', Tjj = 1. Ma trận hệ số tương quan có dạng:


2.3.6

Ma trận hiệp phương sai
1 r12

... rlk
721 1 ••• r2k
Để kiểm định giả thiết, tìm khoảng tin cậy, cũng như thực hiện các suy luận
thống kê khác ta cần phải tìm var(/3j);
Tkij r=k2 1,2,...,
••• k và
1 cov(/3j, /3j).
Ma trận hiệp phương sai của/3 có dạng tổng quát như sau:
cov(Ậ,Ạ)
C0V(/32,Â)


^cov(3fc,Â) covQ^Ã)

var(3fc) /
Để tìm cov(3) ta áp dụng công

thức:
cov(3) = Ơ2(XTX)~1

(2.11)

Trong công thức trên, (XTX)~1 là ma trận nghịch đảo của ma trận (XTX) còn ơ2 là
phương sai của sai số ngẫu nhiên Ui nhưng chưa biết nên ta dùng ước lượng không
chệch của nó là ở2

Trong đó k là số biến của mô hình.
2.3.7

Khoảng tin cậy và kiểm định giả thiết

(3j có phân phối chuẩn với kỳ vọng (3j và phương sai var(/3j)
var(3j) = ơ2Cjj(j = 1,2, ...,&)

(2.12)

Cjj là phần tử nằm trên dòng j và cột j của ma trận (x^x)-1. Tuy nhiên, do ơ2 chưa biết
nên ta dùng ước lượng không chệch của nó là:
-2 _ RSS



= n—k

khi đó:
T

=ấũê - T^n -

Với tiêu chuẩn này, chúng ta có thể tìm khoảng tin cậy và kiểm định giả thiết về các
hệ số hồi quy riêng. Chẳng hạn để tìm khoảng tin cậy của ị3j(j = 1, 2,k) với hệ số tin
cậy (1 — a) ta áp dụng công thức:
Ặ ± ta/2(n - k)se(j3j)
Kiểm định giả thuyết HQ :

(2.13)

= Bj(j = 1, 2,..., k) ta dùng thống kê:
t=^f-^(j = l,2,...,fc)

(2.14)


se(^)
Tùy theo giả thiết Hỵ, ta có các miền bác bỏ sau đây:
Nếu chọn Bj = 0 có nghĩa là ta muốn kiểm định giả thiết biến độc lập Xj
Loai giả thièt

"1

Mièn bác bó
‘ù/aó’-1)


Hai phía
Phía trái
Phía phải

không ảnh hưởng đến biến phụ thuộc.
Kiểm định giả thiết Hũ : 02 = 03 = ... = PkHỵ: không phải tất cả các hệ số hồi quy riêng đồng thời bằng 0.
Đại lượng ngẫu nhiên F =
(n — k) bậc tự do.
Ta có:

tuân theo phân phối F với (k — 1) và

771 ESS/(k—1)
(n—k)ESS (n—k) ESS
r
— RSS/ịn—É) — (k—i)RSS — (fc-1) TSS-ESS
(n—k) ESS/TSS (n-k) R2
R2 Ị (fc-l)
- (fc-l) 1—(-ESS/TSS) - (fc-1) \-R? - ịy-R^Ị^n-k')

Như vậy, giữa F và 7?2 có liên quan với nhau. 7? 2 càng lớn thì F càng lớn, khi R2
= 0 thì F = 0, khi R2 = 1 thì F vô hạn. Do vậy, việc kiểm định giả thiết HQ cũng là
kiểm định giả thiết cho rằng R2 (trong tổng thể) bằng 0.
Để kiểm định giả thiết trên, ta áp dụng quy tắc kiểm định sau:
• Tính F theo công thức:
R?/(k-l)
=
(1—R2) Ị (n—k)


ni = (k — 1),77.2 = (n — k) để tìm giá tri Fa(k — 1,72 — k). Trong đó n là số quan
sát, k là số biến trong mô hình hồi quy (kể cả biến phụ thuộc).
Khi đó, Fa(k — 1, n — k) là giá trị thỏa mãn điều kiện:
P[F > Fa(k — 1, n — k)] = Oí
• Nhận xét:
- Nếu F > Fa(k — 1, n — k) thì ta bác bỏ giả thiết Ho, hay là các hệ số hồi quy
không đồng thời bằng 0 (hệ số xác định R2 0 có ý nghĩa).
- Nếu F < Fa(k — 1, n — k) thì ta không bác bỏ giả thiết Ho, hay là các hệ số hồi quy
đồng thời bằng 0 (hệ số xác định R2 0 không có ý nghĩa).
1 Với mức ý nghĩa Ot, tra bảng phân phối Fisher Snedecor với bậc tự do


2.3.8

Hiện tượng đa cộng tuyến

Bản chất hiện tượng đa cộng tuyến

Thuật ngữ đa cộng tuyến do Ragnar Frisch đề nghị. Khởi đầu đa cộng tuyến có
nghĩa là sự tồn tại mối quan hệ tuyến tính “hoàn hảo” hoặc chính xác giữa một số
hoặc tất cả các biến giải thích trong một mô hình hồi quy.
Khi lập mô hình hồi quy bội
Yi = 01 + /32X21 + PoXoi + ... + /3kXki

(2-15)

Có sự phụ thuộc tuyến tính cao giữa các biến giải thích gọi là đa cộng tuyến.
a. Đa cộng tuyến hoàn hảo

Tồn tại A2, A3,..., Xk là các hằng số không đồng thời bằng 0 sao cho

A2-V2 + A3X3 + ... + xkxk = 0

(2-16)

Nói cách khác là xảy ra trường hợp một biến giải thích nào đó được biểu diễn dưới
dạng một tổ hợp tuyến tính của các biến còn lại.
b. Đa cộng tuyến không hoàn hảo

A2-V2 + A3X3 + ... + xkxk + Vị = 0

(2-17)

Với Vị là sai số ngẫu nhiên thì ta có hiện tượng đa cộng tuyến không hoàn hảo giữa
các biến giải thích.
Cách phát hiện hiện tương đa cộng tuyến

• R2 lớn nhưng tỷ số t nhỏ:
Nếu R2 cao, chẳng hạn như lớn hơn 0,8 và F kiểm tra bác bỏ giả thuyết:


×