Tải bản đầy đủ (.pdf) (70 trang)

đánh giá khả năng trả nợ vay ngân hàng bằng mô hình bài toán phân loại

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.36 MB, 70 trang )

TRƢỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN




LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY NGÂN HÀNG
BẰNG MÔ HÌNH BÀI TOÁN PHÂN LOẠI



GIÁO VIÊN HƢỚNG DẪN SINH VIÊN THỰC HIỆN
Ts. VÕ VĂN TÀI NGUYỄN THỊ THÙY DƢƠNG
MSSV: 1107514
NGÀNH: TOÁN ỨNG DỤNG K36




CẦN THƠ – 12/2014
i


LỜI CẢM ƠN

Luận văn là bảng tổng hợp các kết quả thu đƣợc qua quá trình nghiên
cứu lý thuyết. Tuy nhiên, để có đƣợc nhƣ vậy không phải là riêng của cá nhân
em. Sự thành công của luận văn là kết quả của quá trình học đại học, là kết


quả của sự dìu dắt và dạy dỗ của các Thầy, Cô trong bộ môn Toán khoa Khoa
học Tự Nhiên trƣờng Đại học Cần Thơ, sự giúp đỡ của bạn bè, sự ủng hộ của
gia đình.
Đầu tiên thông qua luận văn này, em xin bày tỏ lòng biết ơn sâu sắc đến
Thầy T.S: Võ Văn Tài, ngƣời Thầy đã tận tâm, tận lực, nhiệt tình hƣớng dẫn,
truyền đạt những kinh nghiệm quý báo để em thực hiện luận văn này.
Xin chân thành cảm ơn quý Thầy, quý Cô trong khoa Khoa học Tự
Nhiên trƣờng Đại học Cần Thơ đã truyền dạy kiến thức, kinh nghiệm, kỹ năng
trong suốt quá trình học đại học để em cảm thấy trƣởng thành hơn và vững
vàng hơn trong cuộc sống.
Xin cảm ơn Thầy CVHT Th.s: Trần Phƣớc Lộc đã tận tình hƣớng dẫn,
động viên và giúp đỡ em trong suốt thời gian học.
Xin cảm ơn các anh, chị đi trƣớc cùng các bạn của tôi, những ngƣời luôn
sát cánh, ủng hộ, giúp đỡ, chia sẻ những kinh nghiệm và giúp đỡ tôi trong thời
gian làm đề tài, cũng nhƣ những tháng ngày học Đại học.
Con cũng xin cảm ơn gia đình, chỗ dựa vững chắc, hỗ trợ, động viên,
quan tâm, tạo mọi điều kiện tốt nhất cho con có đƣợc nhƣ ngày hôm nay.
Mặc dù đã cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng
lực của mình, tuy nhiên luận không thể tránh khỏi những thiếu sót, rất mong
nhận đƣợc những đóng góp quý báu của quý Thầy Cô và các bạn để luận văn
đƣợc hoàn thiện hơn.
Trên là những lời cảm ơn chân thành của cá nhân về sự giúp đỡ của quý
Thầy Cô, anh chị, bạn bè và gia đình. Chúc Thầy Cô, anh chị và bạn bè đạt
nhiều sức khỏe và thành công trong cuộc sống!

Cần Thơ, ngày …. Tháng … năm 2014


NGUYỄN THỊ THÙY DƢƠNG


ii

DANH MỤC BẢNG
Trang
Bảng 1.1. Một số hàm hạt nhân thông dụng. 9
Bảng 3.1. Các biến độc lập đƣợc khảo sát. 38
Bảng 3.2. Hệ số tƣơng quan cặp của biến định lƣợng đƣa vào mô hình. 39
Bảng 3.3. Bảng xác suất dự báo khi loại bỏ biến Income. 40
Bảng 3.4. Bảng xác suất dự báo khi loại bỏ biến Saving. 40
Bảng 3.5. Bảng phân tích hồi quy Logistic cho 23 biến. 41
Bảng 3.6. Bảng tổng hợp tất cả các trƣờng hợp phân loại bằng phƣơng pháp
Logistic. 41
Bảng 3.7. Các bảng phân tích hồi quy Logistic cho 3 biến Renting (H),
High_rank (K) và High_rank (N). 42
Bảng 3.8. Bảng tổng hợp tất cả các trƣờng hợp phân loại bằng phƣơng pháp
Fisher. 46
Bảng 3.9. Phân loại bằng phƣơng pháp Fisher cho 2 biến H và N. 47
Bảng 3.10. Bảng tổng hợp sai số các trƣờng hợp phân loại bằng phƣơng pháp
Bayes. 51
Bảng 3.11. Bảng tổng hợp khả năng phân loại đúng của 3 phƣơng pháp. 54


iii

DANH MỤC HÌNH
Trang
Hình 3.1: Kết quả kiểm định tính chính xác của mô hình 3 biến. 45
Hình 3.2. Bảng dữ liệu sau khi chạy chƣơng trình SPSS cho biến Renting (H)
và DAB_ac (N). 50
Hình 3.3 Đồ thị hàm mật độ xác suất của 2 biến H và N. 54




iv

MỤC LỤC
Trang
LỜI GIỚI THIỆU 1
PHẦN MỞ ĐẦU 3
I. LÝ DO CHỌN ĐỀ TÀI 3
II. MỤC ĐÍCH NGHIÊN CỨU 3
III. PHƢƠNG PHÁP NGHIÊN CỨU 3
IV. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU 4
Chƣơng 1: KIẾN THỨC CHUẨN BỊ 5
1.1 PHÂN PHỐI XÁC SUẤT 5
1.1.1 Véctơ trung bình và ma trận hiệp phƣơng sai 5
1.1.2 Phân phối xác suất một chiều 5
1.1.3 Phân phối xác suất nhiều chiều 6
1.1.4 Phân phối chuẩn 7
1.2 ƢỚC LƢỢNG HÀM MẬT ĐỘ XÁC SUẤT THEO PHƢƠNG PHÁP
HẠT NHÂN 8
1.2.1 Phƣơng pháp 8
1.2.2 Chƣơng trình trên Matlab 10
1.3 TÍNH TÍCH PHÂN BẰNG PHƢƠNG PHÁP MONCTE-CARLO 11
1.3.1 Phƣơng pháp 11
1.3.2 Sai số 12
1.4 HỒI QUY TUYẾN TÍNH BỘI 12
1.4.1 Mô hình 12
1.4.2 Lựa chọn biến và đánh giá đƣờng hồi quy 15
Chƣơng 2: BÀI TOÁN PHÂN LOẠI 18

2.1 TỔNG QUAN CỦA BÀI TOÁN PHÂN LOẠI 18
2.1.1 Giới thiệu 18
2.1.2 Sơ lƣợc sự phát triển của bài toán phân loại 18
2.2 PHÂN LOẠI BẰNG PHƢƠNG PHÁP FISHER 19
v

2.2.1 Trƣờng hợp hai tổng thể 19
2.2.2 Trƣờng hợp nhiều hơn hai tổng thể 20
2.2.3 Phân loại Fisher với phần mềm SPSS 21
2.3 PHƢƠNG PHÁP BAYES 22
2.3.1 Trƣờng hợp hai tổng thể 22
2.3.2 Trƣờng hợp nhiều hơn hai tổng thể 23
2.3.3 Sai số Bayes 25
2.3.4 Chƣơng trình tính sai số Bayes 26
2.4 PHƢƠNG PHÁP HỒI QUY LOGISTIC 28
2.4.1 Khái niệm 28
2.4.2 Hồi quy Logistic đơn 29
2.4.3 Hồi quy Logistic bội 31
2.4.4 Vấn đề phân loại 32
2.4.5 Sử dụng phần mềm SPSS trong hồi quy Logistic 33
Chƣơng 3: ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY TẠI NGÂN HÀNG
ĐÔNG Á 35
3.1 GIỚI THIỆU 35
3.1.1 Bài toán phân loại trong đánh giá khả năng trả nợ vay của khách
hàng 35
3.1.2 Một số nghiên cứu liên quan trong và ngoài nƣớc 35
3.2 TỔNG QUAN VIỆC THỰC HIỆN 37
3.2.1 Số liệu 37
3.2.2 Phƣơng pháp thực hiện 38
3.2.3 Vấn đề tính toán 39

3.3 KẾT QUẢ THỰC HIỆN 39
3.3.1 Theo phƣơng pháp hồi quy Logistic 39
3.3.2 Phƣơng pháp Fisher 46
3.3.3 Phƣơng pháp Bayes 51
3.4 KẾT LUẬN 54
vi

KẾT LUẬN 56
TÀI LIỆU THAM KHẢO 57
PHỤ LỤC 58


1

LỜI GIỚI THIỆU

Nhận dạng thống kê là một hƣớng phát triển quan trọng của thống kê
ứng dụng. Ngƣời ta chia nhận dạng thống kê thành 2 loại: Nhận dạng đƣợc
giám sát và nhận dạng không đƣợc giám sát. Trong nhận dạng đƣợc giám sát
ta có 2 bài toán cụ thể: Bài toán phân loại và bài toán phân biệt. Phân loại là
việc gán một phần tử mới thích hợp nhất vào
k
tổng thể đã được biết trước
dựa vào biến quan sát của nó.
Bài toán phân loại ra đời do nhu cầu thực tế của nhiều lĩnh vực khác
nhau nhƣ kinh tế, xã hội, y học, và trong bất cứ lĩnh vực nào mà nhu cầu
phân loại đƣợc đòi hỏi. Hiện nay nhu cầu áp dụng bài toán phân loại rất mạnh
trong lĩnh vực y học và tài chính.
Cấu trúc của luận văn gồm có phần mở đầu, phần nội dụng, phần kết
luận và tài liệu tham khảo. Phần nội dung gồm 3 chƣơng:

Chƣơng 1: KIẾN THỨC CHUẨN BỊ
Trình bày những bƣớc tính toán cần phải thực hiện trong các phƣơng
pháp phân loại và các vấn đề liên quan đến bài toán phân loại. Ở đây có trình
bày các chƣơng trình liên quan đến việc tính cho các phƣơng pháp phân loại
bằng phần mềm Matlab. Đó là chƣơng trình ƣớc lƣợng hàm mật độ xác suất 1
chiều và n chiều để sử dụng cho phân loại bằng phƣơng pháp Bayes ở chƣơng
2.
Chƣơng 2: BÀI TOÁN PHÂN LOẠI
Trình bày các phƣơng pháp phân loại đã tồn tại và đang đƣợc sử dụng
hiện nay. Đó là phƣơng pháp thống kê tuần tự, phƣơng pháp Fisher, phƣơng
pháp Bayes, phƣơng pháp hồi quy Logistic Ở chƣơng này trình bày các
phƣơng pháp tính, các chƣơng trình phân loại và tính sai số bằng phƣơng pháp
Bayes. Trong chƣơng này cũng trình bày một số đóng góp của luận văn về sai
số Bayes.
2

Chƣơng 3: ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY TẠI NGÂN
HÀNG ĐÔNG Á
Trình bày về việc nâng cao năng lực đánh giá khả năng trả nợ khách
hàng từ lâu đã trở thành một đề tài nghiên cứu phổ biến trên thế giới. Sử dụng
các mô hình thống kê cho vấn đề này đang rất đƣợc quan tâm bởi tính hiệu quả
của nó từ thực tế của các ngân hàng lớn trên thế giới.
Với số liệu đã có luận văn thực hiện việc đánh giá khả năng trả nợ của
khách hàng theo 3 phƣơng pháp: Fisher, Logistic và Bayes. Trong đó mỗi
phƣơng pháp chúng tôi sẽ tiến hành đánh giá tính hợp lý nhất giữa biến phụ
thuộc với tất cả các biến độc lập để lựa chọn mô hình phù hợp nhất.

3

PHẦN MỞ ĐẦU


I. LÝ DO CHỌN ĐỀ TÀI
Ngày nay thống kê có một vai trò rất quan trọng trong nghiên cứu khoa
học của tất cả các lĩnh vực, nhất là lĩnh vực thực nghiệm. Nó cũng có những
đóng góp không thể thiếu trong việc hoạch định các chiến lƣợc phát triển kinh
tế xã hội của từng địa phƣơng và quốc gia. Vai trò của thống kê không chỉ là
tổng hợp những con số mà điều quan trọng hơn là từ các con số đó ta có thể dự
đoán đƣợc xu hƣớng phát triển của nó trong tƣơng lai. Hiện nay việc dự báo
có một ý nghĩa rất quan trọng trong mỗi lĩnh vực. Không ai có thể phủ định
việc dự báo đúng sẽ đem lại một lợi ích rất lớn trong sự phát triển kinh tế xã
hội. Dự báo tốt sẽ giúp các tổ chức hoạch định hƣớng đi cũng nhƣ xây dựng
đƣợc các chiến lƣợc phát triển phù hợp. Cho đến hiện tại dự báo vẫn là một
môn khoa học vô cùng phức tạp, đòi hỏi nhiều kinh nghiệm và kiến thức liên
quan. Trong kinh tế, đặc biệt từ sau khi gia nhập WTO, ngân hàng thƣơng mại
với vai trò cung ứng tín dụng đã có những đóng góp quan trọng đối với sự
phát triển đội ngũ doanh nghiệp góp phần đẩy nhanh tiến trình công nghiệp
hóa hiện đại hóa đất nƣớc. Tuy nhiên từ năm 2005 trở lại đây, nợ xấu toàn
ngành ngân hàng gia tăng rất nhanh. Các khách hàng đi vay là rất đa dạng về
ngành nghề đòi hỏi nhân viên cho vay phải có cái nhìn đúng khi cho vay. Vì
thế là sinh viên ngành Toán ứng dụng đƣợc chuẩn bị kiến thức về thống kê đã
làm em muốn chọn đề tài “ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY NGÂN
HÀNG BẰNG MÔ HÌNH BÀI TOÁN PHÂN LOẠI” cho luận văn tốt
nghiệp của mình. Trong luận văn này nếu đánh giá đúng khả năng trả nợ đối
với khách hàng sẽ giúp các ngân hàng mở rộng cho vay tới hầu hết các phân
khúc thị trƣờng, quyết định cho vay kịp thời và khách quan hơn, qua đó có thể
dự đoán đƣợc rủi ro phát sinh góp phần nâng cao hiệu quả hoạt động cho các
ngân hàng.
II. MỤC ĐÍCH NGHIÊN CỨU
Dựa trên số liệu thực tế của các khách hàng vay vốn ở ngân hàng Đông
Á để phân loại khách hàng. Qua việc phân tích trên giúp ngân hàng nhận định

khách hàng của mình một cách chính xác và hiệu quả hơn.
III. PHƢƠNG PHÁP NGHIÊN CỨU
Phân tích, tổng hợp và phân loại bằng các phƣơng pháp Fisher, phƣơng
pháp Bayes, phƣơng pháp hồi quy Logistic.
4

Phƣơng pháp thực nghiệm: Sử dụng số liệu thực, vận dụng lý thuyết để
phân loại cụ thể.
Xây dựng các phƣơng pháp phân loại cụ thể từ số liệu quá khứ, sử dụng
các tiêu chuẩn của thống kê để lựa chọn phƣơng pháp phù hợp nhất.
IV. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU
- Phƣơng pháp phân loại.
- Khách hàng ở ngân hàng Đông Á.

5

Chƣơng 1
KIẾN THỨC CHUẨN BỊ

1.1 PHÂN PHỐI XÁC SUẤT
1.1.1 Véc tơ trung bình và ma trận hiệp phƣơng sai
Trong thực tế, ta chỉ có mẫu dữ liệu rời rạc của các tổng thể mà không có
số liệu tổng thể. Vì vậy các tham số của tổng thể đƣợc ƣớc lƣợng bằng các
tham số mẫu.
i) Giả sử chúng ta có một mẫu trong 

với kích thƣớc n. Trong đó, phần
tử mẫu thứ  là véctơ cột 

. Gọi  là véctơ cột trung bình và S

là ma trận hiệp phƣơng sai của số liệu mẫu. Ta có





 

  


 

 






ii) Cho k tổng thể, trong đó tổng thể thứ i có kích thƣớc mẫu

, véctơ
trung bình mẫu 

và ma trận hiệp phƣơng sai 

. Ta có ma trận hiệp phƣơng
sai gộp của k tổng thể đƣợc định nghĩa là


 


 








 



iii) Trong thực hành, chúng ta sẽ thay thế trung bình tổng thể 

bằng
trung bình mẫu 

; ma trận hiệp phƣơng sai

bởi ma trận hiệp phƣơng sai gộp
của các tổng thể S.
1.1.2 Phân phối xác suất một chiều
Cho biến ngẫu nhiên X (X rời rạc hoặc liên tục). Với mỗi giá trị ,
biểu thức  xác định giá trị duy nhất. Đặt  thì F( là
hàm của biến số  và đƣợc gọi là hàm của phân phối xác suất của biến ngẫu
nhiên X.

Nếu X rời rạc thì 







, với 



, 

là các giá trị mà
X có thể nhận đƣợc.
Nếu X liên tục thì 

 đƣợc gọi là hàm mật độ xác suất của biến
ngẫu nhiên X.
Ta có một số tính chất của hàm phân phối xác suất của biến ngẫu nhiên X
nhƣ sau:
6

i) 
ii)  là hàm đơn điệu tăng
iii)  là hàm liên tục bên trái, nghĩa là













iv) 











.
1.1.3 Phân phối xác suất nhiều chiều
Cho 

, 

,…,

là các biến ngẫu nhiên, hàm phân phối xác suất  chiều

của chúng đƣợc định nghĩa nhƣ sau:






















Nếu 









liên tục thì hàm mật độ xác suất đƣợc định nghĩa là





























Biến ngẫu nhiên 

, 

,…,

đƣợc gọi là độc lập nếu các hàm mật độ
xác suất của nó thỏa 




















.

Đặt 





, 





. Véctơ trung bình của biến
ngẫu nhiên X đƣợc định nghĩa bởi biểu thức









Thành phần thứ i của trung bình đƣợc tính bởi





















. Trong đó 

 là hàm mật độ xác suất riêng của
biến 

. Cụ thể


  























Hiệp phƣơng sai của biến ngẫu nhiên 

và 

, kí hiệu bởi 

đƣợc xác
định bởi




 




 





Ma trận ∑ với phần tử thứ (i, j) là 

đƣợc gọi là ma trận hiệp phƣơng
sai.
Hệ số tƣơng quan giữa 

và 

đƣợc định nghĩa nhƣ sau:




























7

1.1.4 Phân phối chuẩn
a) Phân phối chuẩn một chiều
Đại lƣợng ngẫu nhiên U đƣợc gọi là có phân phối chuẩn tắc một chiều
 nếu hàm mật độ xác suất có dạng














Hàm phân phối xác suất của nó là




  























 






















Trong trƣờng hợp tổng quát, cho  tùy ý và . Đặt  , khi đó đại
lƣợng ngẫu nhiên X sẽ có phân phối chuẩn với trung bình  và phƣơng sai




)) với hàm mật độ xác suất là














 




 Chú ý: Hàm mật độ xác suất của phân phối chuẩn có dạng hình chuông úp
xuống, nhận đường thẳng  làm trục đối xứng, nhận trục hoành làm tiệm
cận.
b) Phân phối chuẩn nhiều chiều
Cho đại lƣợng ngẫu nhiên 





độc lập và có phân phối chuẩn
tắc, khi đó đại lƣợng ngẫu nhiên U có phân phối chuẩn tắc n chiều nếu hàm

mật độ xác suất của nó có dạng






























Đặt   lúc này hàm mật độ xác suất của X đƣợc xác định bởi

















 









 
Bởi vì




  

  




nên hàm mật độ xác suất trên trở
thành



















 




 
8

Đây là hàm mật độ xác suất của phân phối chuẩn n chiều.
 Chú ý: Giao của hai hàm mật độ xác suất có phân phối chuẩn nhiều chiều
có thể là một siêu hyperbol, siêu parabol, siêu elip.
1.2 ƢỚC LƢỢNG HÀM MẬT ĐỘ XÁC SUẤT THEO PHƢƠNG PHÁP
HẠT NHÂN
1.2.1 Phƣơng pháp
Giả sử ta có dữ liệu rời rạc n chiều. Hàm mật độ xác suất cần ƣớc lƣợng
theo phƣơng pháp hạt nhân có dạng

























 




Trong đó


là tham số trơn của biến thứ j (

,


là biến thứ j,


là số liệu mẫu thứ i của biến thứ j,


 là hàm hạt nhân của biến thứ j, thỏa mãn điều kiện





 






Tham số trơn thông thƣờng đƣợc chọn giống nhau cho tất cả các biến,
khi đó (1.1) trở thành




















 



Các hàm hạt nhân phổ biến đƣợc chọn theo đề suất của Silverman (1986)
và Scott (1992) trong bảng sau:






9

Bảng 1.1. Một số hàm hạt nhân thông dụng.
Hàm hạt nhân
Biểu thức
Tam giác





 















Chữ nhật


















Chuẩn














Epanechnikov








  














Song lƣợng








  













 Chú ý:

Khi tham số trơn h nhỏ thì hàm số ước lượng sẽ kém trơn, khi h càng lớn
thì tính trơn sẽ tăng lên, nhưng sẽ kém chính xác trong ước lượng. Các nhà
toán học khẳng định việc chọn tham số trơn quan trọng hơn việc chọn hàm hạt
nhân. Trong luận văn này chúng tôi chọn tham số trơn theo Scott (1992):






  




Trong đó 

là độ lệch chuẩn của biến thứ j.


































 

































 









 




Trong luận văn này hàm hạt nhân đƣợc chọn theo dạng chuẩn.
Sử dụng phần mềm Matlab, chúng ta có các chƣơng trình ƣớc lƣợng hàm
mật độ xác suất.

10

1.2.2 Chƣơng trình trên Matlab
Chƣơng trình 1.1. Ƣớc lƣợng hàm mật độ xác suất chiều












  




 







        








  



  
Lƣu file vừa tạo với tên “uocluong.m” trong thƣ mục “work” của
Matlap. Khi cần ƣớc lƣợng hàm mật độ xác suất của một tổng thể một chiều
nào ta thực hiện nhƣ sau:







Chƣơng trình 1.2. Ƣớc lƣợng hàm mật độ xác suất chiều





      
      

        


        
11

        
     


       
Lƣu file vừa tạo với tên “uocluongnc.m” trong thƣ mục “work” của
Matlap. Khi cần ƣớc lƣợng hàm mật độ xác suất của một tổng thể nhiều chiều
nào ta thực hiện nhƣ sau:















1.3 TÍNH TÍCH PHÂN BẰNG PHƢƠNG PHÁP MONCTE-CARLO
1.3.1 Phƣơng pháp
Cho đến hiện nay, tích phân Moncte – Carlo là phƣơng pháp tính gần
đúng tích phân nhiều chiều hiệu quả nhất. Nguyên lý cơ bản của nó là việc ƣớc
lƣợng tích phân của hàm  trên một miền không gian nhiều chiều có biến phức
tạp thông qua việc tính giá trị trung bình của f tại các điểm có tọa độ ngẫu
nhiên.
Xét tích phân n chiều trên miền V: 








. Ta đặt












Trong đó


là các giá trị lấy ngẫu nhiên độc lập trong miền V,
N là tổng số lần lấy mẫu 

,
mes(V) là độ đo của miền V.
Theo luật mạnh của số lớn, khi  thì 

 với xác suất bằng 1.Vì
vậy ta có thể sử dụng 

để làm giá trị xấp xỉ cho I. Cụ thể























12


 







Trong đó 

là các giá trị lấy ngẫu nhiên độc lập trên [a,b].
Khi tính tích phân hàm  trên một miền phức tạp W không dễ dàng tính
đƣợc độ đo, công thức trƣớc hết là đi tìm một miền V bao trùm miền W và dễ

lấy mẫu (V có hình dạng đơn giản nhƣ khối chữ nhật,…), sau đó ta gán giá trị
của f cụ thể đối với những điểm nằm trong W và gán cho  đối với những
điểm nằm ngoài W nhƣng vẫn nằm trong V. Ở đây ta chọn V càng trùng khít
với W thì việc ƣớc lƣợng kết quả của tích phân càng tốt.
1.3.2 Sai số
Ta có trung bình mẫu









Phƣơng sai mẫu








 














Phƣơng sai của tính gần đúng tích phân đƣợc ƣớc lƣợng bởi công thức




















Sai số của ƣớc lƣợng của tích phân là









1.4 HỒI QUY TUYẾN TÍNH BỘI
1.4.1 Mô hình
a) Xây dựng mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội là sự mở rộng tự nhiên của mô hình hồi
quy tuyến tính đơn. Trong thực tế, ta thƣờng gặp không chỉ có biến  ảnh
hƣởng đến biến  mà còn các biến khác ảnh hƣởng đến biến Y. Do đó trong
trƣờng hợp  biến cùng ảnh hƣởng đến  thì mô hình hồi quy không thỏa đáng
nên chúng ta cần xây dựng mô hình hồi quy cho nhiều hơn hai biến, đó là mô
hình hồi quy bội.
13

Giả sử mối quan hệ giữa biến phụ thuộc  và  biến độc lập 






cho bởi mô hình


 




  



 
Trong đó






là các tham số chƣa biết và gọi là các hệ số hồi quy,


gọi là hệ số chặn hay hệ số tung độ góc,






là các hệ số góc,
 là sai số ngẫu nhiên có kỳ vọng 0 và phƣơng sai 

.
b) Phƣơng trình hồi quy tuyến tính mẫu

Giả sử chúng ta có  quan sát, mỗi quan sát có  giá trị








 với số liệu thứ  ta có




 



 



 





Mô hình (1.3) đƣợc viết cụ thể nhƣ sau:






 



 



  



 





 



 




  



 






 



 



  



 


Dạng ma trận của mô hình (1.4) là  .


















 

 



 



 

 
 

  



 










Chúng ta cũng sử dụng phƣơng pháp bình phƣơng bé nhất để ƣớc lƣợng
các hệ số 





. Gọi 








là các ƣớc lƣợng của 






. Mô
hình hồi quy bội của mẫu đƣợc sử dụng để ƣớc lƣợng mô hình hồi quy của
tổng thể là








 





Dạng ma trận (1.5) là 


Trong đó 






















Với số liệu thứ  ta có 




 




 





. Khi đó
14









 







 


 




  














 

 



 








Gọi 







là các ma trận chuyển vị của 

. Khi đó (1.6) trở thành






  



  



 




  





 



 




 







Do 




 là một ma trận cỡ



, 








và 








nên (1.7) trở
thành


  




  






Hay 





.
Giải phƣơng trình này ta đƣợc nghiệm 

nhƣ sau:


























 






















  
 




 





 
















 
































 




 







 



  








 



  







































Mặt khác từ









, ta có
15











 























  
 



 






 
















 





























































Hệ phƣơng trình trên cho ta kết quả







 







  












 




 




  








Khi xác định ma trận 

, nghĩa là tìm đƣợc các 








, nên xây dựng
đƣợc mô hình hồi quy của mẫu 




 




  






1.4.2 Lựa chọn biến và đánh giá đƣờng hồi quy
a) Đánh giá đƣờng hồi quy
Trong thực tế, cùng một biến phụ thuộc và tập các biến độc lập ta có thể
xây dựng đƣợc nhiều mô hình hồi quy khác nhau. Việc lựa chọn mô hình tối
ƣu nhất thông thƣờng căn cứ vào các tiêu chuẩn đánh giá.
Từ số liệu mẫu chọn đƣợc



. Giả sử ta
xây dựng đƣợc mô hình hồi quy 








. Đặt



















 





 
















16

Khi đó ta có các tiêu chuẩn phổ biến để đánh giá đƣờng hồi quy nhƣ sau:
Bảng 1.2 Các tiêu chuẩn phổ biến để đánh giá đƣờng hồi quy.
Các tiêu chuẩn
Công thức tính
Ý nghĩa
Hệ số xác định



 


 





 


 





Giá trị càng lớn thì mô
hình càng phù hợp
SGMASQ



 





Giá trị càng nhỏ thì mô
hình càng phù hợp
AIC



 



Giá trị càng nhỏ thì mô
hình càng phù hợp
SIC



  





Giá trị càng nhỏ thì mô
hình càng phù hợp
FPE




 
 

Giá trị càng nhỏ thì mô
hình càng phù hợp
GVC



 





Giá trị càng nhỏ thì mô
hình càng phù hợp
HQ












Giá trị càng nhỏ thì mô
hình càng phù hợp
RICE



 





Giá trị càng nhỏ thì mô
hình càng phù hợp
SCHWARZ









Giá trị càng nhỏ thì mô
hình càng phù hợp
SHIBATA




  


Giá trị càng nhỏ thì mô
hình càng phù hợp
Log-likelihood



  



 



Giá trị càng lớn thì mô
hình càng phù hợp
Trung bình sai lệch






 





Giá trị càng nhỏ thì mô
hình càng phù hợp
Một cách lý tƣởng, chúng ta muốn có một mô hình có các giá trị của các
trị số thống kê đều tối ƣu, khi so sánh với một mô hình khác. Mặc dù có thể
xếp hạng một vài tiêu chuẩn này đối với một giá trị SSE, n, và k cho trƣớc, thứ
tự này sẽ không còn ý nghĩa nữa bởi vì các mô hình đều có SSE và k khác
nhau. Một mô hình ƣu việt hơn theo một tiêu chuẩn cũng sẽ ƣu việt hơn xét
theo các tiêu chuẩn khác. Tuy nhiên, một cách tổng quát, có thể tìm đƣợc một
mô hình ƣu việt theo một tiêu chuẩn nhƣng lại không ƣu việt theo tiêu chuẩn
khác. Ví dụ, tiêu chuẩn Schwarz coi trọng về tính phức tạp của mô hình hơn là
các yếu tố khác và vì vậy có thể dẫn đến một kết luận khác. Một mô hình tốt
hơn một mô hình khác theo một số tiêu chuẩn sẽ đƣợc ƣa chuộng hơn. Khi lựa
chọn mô hình hồi quy Logistic, luận văn sử dụng tiêu chuẩn Log-likelihood để
đánh giá.
17

b) Lựa chọn biến
Việc lựa chọn biến để xây dựng mô hình hồi quy là rất quan trọng. Trong
một nghiên cứu thông thƣờng với một biến số phụ thuộc, có nhiều biến số độc

lập, giữa một biến độc lập và một biến phụ thuộc cũng có thể có nhiều mô
hình hồi quy khác nhau đƣợc thiết lập. Nhƣ vậy một vấn đề dự báo bằng mô
hình hồi quy sẽ có nhiều mô hình khác nhau có thể đƣợc thiết lập. Trong các
mô hình thiết lập, mô hình nào đƣợc xem là phù hợp nhất? Mô hình đơn giản,
ít biến và có một hoặc nhiều tiêu chuẩn đánh giá đã trình bày ở trên tốt nhất sẽ
đƣợc chọn. Để làm việc này ta thƣờng dùng phƣơng pháp phân tích hồi quy
bậc thang. Hai nguyên tắc xây hồi quy bậc thang thƣờng đƣợc sử dụng là
Nguyên tắc lùi: Bắt đầu với mô hình hồi quy có chứa tất cả các biến độc
lập. Sau đó lần lƣợt loại trừ dần từng biến (dựa trên các tiêu chuẩn đánh giá)
cho đến khi tìm đƣợc mô hình thích hợp.
Nguyên tắc tiến: Bắt đầu với mô hình một biến sau đó lần lƣợt thêm dần
từng biến một cho đến khi tìm đƣợc mô hình thích hợp.

18

Chƣơng 2
BÀI TOÁN PHÂN LOẠI

2.1 TỔNG QUAN CỦA BÀI TOÁN PHÂN LOẠI
2.1.1 Giới thiệu
Phân loại là việc gán một phần tử mới thích hợp nhất vào các tổng thể đã
đƣợc biết trƣớc dựa vào biến quan sát của nó. Hiện tại có ba phƣơng pháp
chính đƣợc đƣa ra để giải quyết bài toán phân loại: Phƣơng pháp Fisher,
phƣơng pháp hồi quy Logistic và phƣơng pháp Bayes. Mặc dù đƣợc đề xuất
muộn nhất và chỉ phân loại cho hai tổng thể nhƣng phƣơng pháp hồi quy
Logistic đƣợc sử dụng rất phổ biến hiện nay. Phƣơng pháp Fisher ra đời sớm
nhất, có thể phân loại cho hai hay nhiều hơn hai tổng thể nhƣng phải giả thiết
ma trận hiệp phƣơng sai của các tổng thể bằng nhau. Phƣơng pháp Bayes đƣợc
xem có nhiều ƣu điểm vì nó có thể phân loại đƣợc cho hai hay nhiều hơn hai
tổng thể. Phƣơng pháp này cũng không bị ràng buộc bởi các giả thiết phân

phối chuẩn và phƣơng sai bằng nhau của các tổng thể nên có xác suất sai lầm
trong phân loại nhỏ hơn phƣơng pháp Fisher. Các kết quả nghiên cứu mới
trong những năm gần đây về bài toán phân loại chủ yếu tập trung xung quanh
phƣơng pháp Bayes. Xác suất sai lầm trong phân loại bằng phƣơng pháp
Bayes đƣợc gọi là sai số Bayes. Sai số Bayes đã đƣợc chứng minh là xác suất
sai lầm nhỏ nhất trong bài toán phân loại. Nghiên cứu về sai số Bayes đã đƣợc
rất nhiều nhà thống kê quan tâm. Một số kết quả mới rất có ý nghĩa về phƣơng
pháp Bayes đã đƣợc trình bày trong những năm gần đây bởi các bài báo.
2.1.2 Sơ lƣợc sự phát triển của bài toán phân loại
Bài toán phân loại lần đầu tiên đƣợc đƣa ra bởi Fisher (1936) giải quyết
cho trƣờng hợp hai tổng thể với hàm phân biệt tuyến tính Fisher. Hàm phân
biệt này chỉ đƣợc thiết lập khi ma trận hiệp phƣơng sai của hai tổng thể bằng
nhau. Năm 1948, Rao đã mở rộng cho trƣờng hợp nhiều hơn hai tổng thể,
nhƣng cũng trên cơ sở giả thiết ma trận hiệp phƣơng sai các tổng thể bằng
nhau. Một phƣơng pháp khác, đó là phƣơng pháp thống kê tuần tự do Kendall
(1973) đề nghị. Nhƣng đây chỉ là phƣơng pháp mang tính chất thủ công, rất
phức tạp mà thực tế gần nhƣ không thể thực hiện đƣợc. Một số khía cạnh liên
quan của bài toán phân loại đề cập cho đến 1970 khi mà máy tính chƣa đƣợc
phát triển. Rất nhiều tài liệu trong đó có Fukunaga (1990), McLachlan (1992),
Webb (2002) đã tổng kết những kết quả đạt đƣợc của bài toán phân loại.

×