GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
1
MỤC LỤC
DANH MỤC HÌNH ẢNH 2
TÓM TẮT 3
CHƯƠNG 1: GIỚI THIỆU 3
CHƯƠNG 2: TÀI LIỆU TÌM KIẾM 5
CHƯƠNG 3: CÁC PHƯƠNG PHÁP SỬ DỤNG 6
3.1. Mạng Nơ ron 6
3.2. Thuật toán di truyền 7
3.3. Cây quyết định 8
3.4. Lý thuyêt tập thô 8
3.5. Cơ sở lý luận 8
CHƯƠNG 4: LĨNH VỰC ÁP DỤNG VÀ NGHIÊN CỨU 9
4.1. Dự báo phá sản 10
4.2. Sự quan tâm và những rủi ro tài chính 14
4.3. Gian lận quản lý 15
4.4. Dự đoán hiệu suất doanh nghiệp 16
4.5. Ước tính rủi ro tín dụng 16
CHƯƠNG 5: ĐÁNH GIÁ VÀ HƯỚNG NGHIÊN CỨU TƯƠNG LAI 17
Bảng 1. Lĩnh vực ứng dụng 18
5.1. Phương pháp và mô hình 18
Bảng 2 . Mô hình l{m việc 19
5.2. Dữ liệu 20
Bảng 3. Cỡ mẫu 20
5.3. Số liệu hiệu suất 21
CHƯƠNG 6: KẾT LUẬN 22
TÀI LIỆU THAM KHẢO 23
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
2
DANH MỤC HÌNH ẢNH
Bảng 1. Lĩnh vực ứng dụng 18
Bảng 2 . Mô hình l{m việc 19
Bảng 3. Cỡ mẫu 20
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
3
TÓM TẮT
Công cụ khai ph| dữ liệu trở nên quan trọng đối với ng{nh t{i chính
v{ kế to|n. Khả năng ph}n loại v{ dự đo|n cho phép nó được sử dụng cho
c|c mục đích của dự b|o ph| sản, mối quan t}m về tình trạng v{ dự đo|n
khủng hoảng t{i chính , ph|t hiện gian lận quản lý , dự to|n rủi ro tín dụng ,
v{ dự đo|n hiệu suất của công ty. Nghiên cứu n{y nhằm mục đích cung cấp
cho nh{ nước một nghệ thuật xem xét c|c t{i liệu liên quan v{ để chỉ ra cơ
hội nghiên cứu có liên quan.
CHƯƠNG 1: GIỚI THIỆU
Khai th|c dữ liệu – DataMining (Khai ph| dữ liệu) l{ một lĩnh vực
được vinh danh của khoa học m|y tính. Nó xuất hiện ở cuối những năm 80
bởi c|c kh|i niệm v{ phương ph|p từ c|c lĩnh vực trí tuệ nh}n tạo, chứng
nhận bản quyền, hệ thống cơ sở dữ liệu v{ thống kê, khai ph| dữ liệu nhằm
mục đích kh|m ph| thông tin ẩn có gi| trị, phức tạp v{ không rõ r{ng từ
một lượng lớn dữ liệu.
Vì lý do n{y , một thuật ngữ tương đương cho khai ph| dữ liệu l{
Kh|m ph| tri thức trong cơ sở dữ liệu Knowledge Discovery in Databases (
KDD ) được bình đẳng hóa thường gặp trong văn học.
Dữ liệu t{i chính được thu thập bởi nhiều tổ chức như ng}n h{ng ,
c|c cơ quan chứng kho|n , cơ quan thuế , cơ quan kế to|n v{ kiểm to|n
viên lớn chuyên cơ sở dữ liệu , vv v{ trong một số trường hợp l{ công bố
công khai. Áp dụng kỹ thuật Khai ph| dữ liệu trên dữ liệu t{i chính có thể
góp phần giải ph|p ph}n loại v{ dự đo|n c|c vấn đề v{ tạo thuận lợi cho
qu| trình ra quyết định. Ví dụ điển hình của vấn đề ph}n loại t{i chính
doanh nghiệp ph| sản , ước tính rủi ro tín dụng , sẽ b|o c|o lo ngại , khủng
hoảng t{i chính v{ dự đo|n hiệu suất của công ty.
Tầm quan trọng của Khai ph| dữ liệu trong t{i chính v{ kế to|n đ~
được công nhận bởi nhiều tổ chức. Viện Kế to|n công Mỹ đ~ x|c định khai
ph| dữ liệu l{ một trong mười công nghệ h{ng đầu cho ng{y mai v{ Viện
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
4
Kiểm to|n nội bộ đ~ được liệt kê khai ph| dữ liệu l{ một trong bốn ưu tiên
nghiên cứu ( Koh , 2004).
Nghiên cứu về khai ph| dữ liệu trong t{i chính kế to|n v{ ứng dụng
c|c kết quả của nó l{ một lĩnh vực nghiên cứu tương đối mới. Mục đích của
nghiên cứu n{y l{ cung cấp cho nh{ nước nghệ thuật đ|nh gi| về những nỗ
lực nghiên cứu hiện nay về việc |p dụng khai ph| dữ liệu t{i chính v{ kế
to|n
Đ|nh gi| n{y giới thiệu người đọc chủ đề cụ thể liên quan đến mục
tiêu v{ phương ph|p l{m việc nghiên cứu. Đặc biệt l{ nghiên cứu n{y cố
gắng giải quyết c|c c}u hỏi sau:
- Cụ thể c|c lĩnh vực ứng dụng t{i chính m{ phương ph|p khai ph| dữ
liệu đ~ được |p dụng l{ gì ?
- Phương ph|p khai ph| dữ liệu n{o đ~ được |p dụng v{ mở rộng
được những gì ? L{m những phương ph|p tốt hơn phương ph|p
truyền thống trước đ}y ?
- Phương ph|p hoạt động của c|c loại dữ liệu? L{ cỡ mẫu lớn đạt yêu
cầu ? C|c phương ph|p lựa chọn tính năng |p dụng những gì đang có
?
- C|c số liệu hiệu suất tương đối c}n nhắc l{ gì?
Một nghiên cứu như vậy sẽ giúp c|c nh{ nghiên cứu để tr|nh chồng
chéo nỗ lực v{ điểm chuẩn thực h{nh của mình chống lại sự ph|t triển mới.
Mục đích kh|c của nghiên cứu n{y l{ để chỉ khu vực m{u mỡ để biết thêm
công việc nghiên cứu trong khu vực
Phần còn lại của b{i b|o n{y được tổ chức như sau:
- Phần 2 nói về T{i liệu tham khảo tìm kiếm thu thập được
- Phần 3 mô tả ngắn gọn của phương ph|p khai ph| dữ liệu |p dụng
trong c|c t{i liệu thu thập được
- Phần 4 đề cập đến c|c ứng dụng cụ thể v{ nghiên cứu
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
5
- Cuối cùng, tại mục 5 một vấn đề thẩm định v{ nghiên cứu tương lai
quan trọng được b|o c|o
- Phần 6 l{ phần kết luận
CHƯƠNG 2: TÀI LIỆU TÌM KIẾM
Đối với việc tìm kiếm c|c nghiên cứu liên quan đến việc |p dụng c|c
kỹ thuật khia ph| dữ liệu trong kế to|n t{i chính , chúng tôi đ~ nghiên cứu
c|c tạp chí của bốn nh{ xuất bản : Elsevier,Emerald, Kluwer v{ Wiley. B{i
viết liên quan đ~ được tìm thấy trong c|c tạp chí:
- Asia Pacific Financial Markets. (Thị trường t{i chính Ch}u Á Th|i
Bình Dương)
- Decision Support Systems (Hệ hỗ trợ ra quyết định)
- European Journal of Operational Research (Tạp chí Ch}u Âu hoạt
động nghiên cứu)
- Expert Systems with Applications (Hệ thống chuyên gia v{ c|c ứng
dụng)
- Expert Systems with Applications
-
- Intelligent Systems in Accounting (Hệ thống thông minh trong Kế
to|n)
- Finance & Management (T{i chính v{ quản lý)
- International Journal of Accounting Information Systems (Tạp chí
quốc tế về hệ thống thông tin kế to|n)
- Journal of Forecasting (Tạp chí dự b|o)
- Knowledge Based Systems
- Management Decision
- Managerial Auditing Journal
- Managerial Finance
- Neural Networks,
- Omega The International Journal of Management Science.
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
6
CHƯƠNG 3: CÁC PHƯƠNG PHÁP SỬ DỤNG
Thuật ngữ phương ph|p khai th|c dữ liệu l{ viết tắt của một số
lượng lớn c|c thuật to|n, mô hình v{ kỹ thuật xuất ph|t từ thẩm thấu số
liệu thống kê , học m|y , cơ sở dữ liệu v{ trực quan. Một số c|c phương
ph|p đ~ được |p dụng để kiểm tra dữ liệu t{i chính. Phương ph|p khai ph|
dữ liệu phổ biến sẽ được đề cập đến trong nghiên cứu n{y l{ mạng nơ ron ,
thuật to|n di truyền , C}y Quyết định , Lý thuyết tập thô, trường hợp cơ sở
lý luận v{ lập trình to|n học.
3.1. Mạng Nơ ron
Mạng Nơ ron l{ một công nghệ trưởng th{nh với lý thuyết được
th{nh lập v{ khu vực ứng dụng công nhận. Mạng Nơ ron bao gồm một
số tế b{o nơ ron , tức l{ đơn vị xử lý liên kết với nhau . Liên kết của mỗi
kết nối được g|n một gi| trị số gọi l{ "trọng lượng". Mỗi tế b{o nơ ron
nhận được tín hiệu từ tế b{o nơ ron kết nối. Nếu đầu v{o cường độ tín
hiệu kết hợp vượt qu| một ngưỡng, c|c nơ ron sẽ bị ch|y. Gi| trị đầu
v{o được chuyển bởi c|c chức năng chuyển giao c|c tế b{o nơ ron.
C|c tế b{o nơ ron được sắp xếp th{nh c|c lớp . Một mạng lưới
lớp bao gồm ít nhất một đầu v{o ( đầu tiên ) v{ đầu ra ( cuối cùng ) lớp .
Giữa c|c lớp đầu v{o v{ đầu ra có thể tồn tại một hoặc nhiều lớp ẩn. C|c
loại mạng nơ ron kh|c nhau có một số lượng c|c lớp kh|c nhau. Sơ đồ
tự tổ chức chỉ có một lớp đầu v{o v{ đầu ra , trong khi mạng nơ ron lan
truyền ngược có thêm một hoặc nhiều lớp ẩn.
Sau khi c|c kiến trúc mạng được x|c định , mạng phải được huấn
luyện. Trong mạng lan truyền ngược một mô hình được |p dụng cho
c|c lớp đầu v{o v{ đầu ra cuối cùng được x|c định theo lớp ra. Sản
lượng được so s|nh với kết quả mong muốn v{ c|c lỗi được truyền
ngược trở lại trong mạng nơ ron bằng c|ch điều chỉnh trọng lượng của
c|c kết nối. Qu| trình n{y lặp đi lặp lại cho đến khi tỷ lệ lỗi chấp nhận
được đạt tới. C|c mạng nơ ron lan truyền ngược đ~ trở nên phổ biến
cho c|c dự đo|n v{ ph}n loại c|c vấn đề
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
7
Sơ đồ tự tổ chức l{ một nhóm v{ phương ph|p trực quan của học
không gi|m s|t . Đối với mỗi vector đầu v{o , đầu ra chỉ có một tế b{o
nơ ron sẽ được kích hoạt. Vector trọng số của người chiến thắng được
cập nhật để tương ứng với vector đầu v{o. Như vậy, đầu v{o tương tự
sẽ được |nh xạ tới c|c tế b{o nơ ron đầu ra tương tự hoặc l}n cận tạo
th{nh cụm. Hai cấu trúc liên kết sơ đồ tự tổ chức thường được sử dụng
l{ lưới hình chữ nhật, trong đó mỗi tế b{o nơ ron có bốn nút l|ng giềng
v{ mạng tinh thể hình lục gi|c, nơi mỗi tế b{o thần kinh có s|u nút l|ng
giềng
Một bất lợi quan trọng của mạng nơ ron l{ chúng hoạt động như
hộp đen vì nó l{ khó khăn đối với con người để giải thích c|ch đạt quyết
định của mình. Tuy nhiên , c|c thuật to|n đ~ được đề xuất để trích xuất
c|c quy tắc comprehendible từ mạng nơ ron . Một phê bình kh|c trên
mạng nơ ron l{ một số thông số như c|c cấu trúc liên kết mạng phải
được x|c định bằng thực nghiệm.
Có vẻ như l{ Mạng nơ ron thu hút sự quan t}m của nhiều nh{
nghiên cứu trong c|c lĩnh vực quan t}m của chúng tôi . Cấu trúc v{
nguyên tắc l{m việc cho phép họ để đối phó với những vấn đề m{ một
giải ph|p hiệu quả không |p dụng thuật to|n . Kể từ khi họ học hỏi từ
c|c ví dụ v{ kh|i qu|t để quan s|t mới có thể ph}n loại c|c mô hình
trước đó không thấy. Họ có khả năng để đối phó với c|c dữ liệu không
đầy đủ, không rõ r{ng v{ ồn {o. Không giống như c|c kỹ thuật thống kê
truyền thống chúng không mang tiên về c|c tính chất ph}n phối dữ liệu,
không phải họ giả định c|c biến đầu v{o độc lập.
3.2. Thuật toán di truyền
Thuật to|n di truyền (GA) |p dụng ý tưởng từ sự tiến hóa tự
nhiên nơi c| nh}n thích hợp nhất tồn tại. Quy định liên quan đến một
vấn đề được m~ hóa như một tập hợp c|c chuỗi trong số đó bao gồm
c|c bit. C|c chuỗi tạo th{nh một quần thể. GA cho phép c|c chuỗi với gi|
trị tập thể cao nhất để tồn tại v{ sinh sôi nảy nở đổi mới d}n số.
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
8
Một nhiễm sắc thể l{ một chuỗi ký tự đại diện cho một điểm trong
không gian giải ph|p. D}n số l{ một tập hợp c|c nhiễm sắc thể. Sau khi
tạo ngẫu nhiên của d}n số ban đầu mỗi nhiễm sắc thể được đ|nh gi|
bằng c|ch sử dụng chức năng đ|nh gi| năng lực người dùng định nghĩa.
Vai trò của chức năng đ|nh gi| năng lực l{ để đ|nh gi| hiệu quả hoạt
động của nhiễm sắc thể.
Ba bước khai th|c được |p dụng cho c|c nhiễm sắc thể.
- Sinh sản - nơi m{ c|c c| nh}n tự sinh sôi nảy nở bằng c|ch t|i tạo
bản th}n với một x|c suất tương tự như gi| trị năng lực của chúng
- Giao nhau, nơi hai nhiễm sắc thể cùng trao đổi một số bit tạo ra
nhiễm sắc thể mới
- Đột biến , hoạt động trên một nhiễm sắc thể duy nhất bằng c|ch thay
đổi một hoặc nhiều bit. X|c suất đột biến l{ rất thấp
3.3. Cây quyết định
C}y quyết định l{ một phương ph|p ph}n loại v{ dự đo|n, m{
liên tục quan s|t chia th{nh nhóm loại trừ lẫn nhau . Phương ph|p tìm
kiếm c|c thuộc tính tốt nhất t|ch mẫu v{o lớp học c| nh}n. Nhóm liên
tục được chia cho đến khi nhóm qu| nhỏ hoặc không có sự kh|c biệt ý
nghĩa thống kê tồn tại giữa c|c tập con ứng cử viên. Nếu c}y quyết định
trở nên qu| lớn, nó cuối cùng sẽ được tỉa.
3.4. Lý thuyêt tập thô
Lý thuyết tập thô được giới thiệu bởi Pawlak ( 1982). Mức độ lý
thuyết tập hợp với kh|i niệm có thể th{nh viên của một nguyên tố trong
một tập. Cho một lớp C , xấp xỉ dưới của C bao gồm c|c mẫu đó chắc
chắn thuộc về C. xấp xỉ trên của C bao gồm c|c mẫu m{ không thể được
định nghĩa l{ không thuộc C. Lý thuyết tập thô có thể được sử dụng để
mô tả phụ thuộc giữa c|c thuộc tính , để đ|nh gi| tầm quan trọng của
c|c thuộc tính, để đối phó với c|c dữ liệu không phù hợp v{ xử lý không
chắc chắn ( Dimitras et al.1999 )
3.5. Cơ sở lý luận
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
9
Cơ sở lý luận l{ một vấn đề lý luận phương ph|p giải quyết . Để
giải quyết một vấn đề , nó cố gắng để lấy một trường hợp tương tự từ
một cơ sở trường hợp . Vấn đề quan trọng l{ biện ph|p tương tự v{ việc
thu hồi c|c trường hợp tương tự
Kỹ thuật phù hợp v{ phổ biến l{ l|ng giềng gần nhất , học tập quy
nạp v{ kiến thức hướng dẫn . Trong phiên bản đơn giản của nó, b{i to|n
l|ng giềng gần nhất đ|nh gi| sự giống nhau của hai trường hợp bằng
c|ch tính to|n khoảng c|ch Euclide của chúng
C|ch tiếp cận n{y giả định rằng tất cả c|c tính năng n{y đều có
liên quan . Vì đ}y không phải l{ luôn luôn như vậy , c|c thuật to|n được
cải thiện giới thiệu tính năng trọng số đ~ được đề xuất
CHƯƠNG 4: LĨNH VỰC ÁP DỤNG VÀ NGHIÊN CỨU
Do khả năng dự đo|n v{ ph}n loại của chúng, kỹ thuật khai ph|
dữ liệu đ~ được sử dụng để tạo thuận lợi cho qu| trình kiểm to|n, dự
đo|n hiệu suất của công ty, v{ để tạo điều kiện ước lượng rủi ro tín
dụng.
Trong lĩnh vực kiểm to|n, kỹ thuật khai ph| dữ liệu ph|t triển
như l{ một đóng góp đầy hứa hẹn. C|c sự kiện gần đ}y cho thấy vấn đề
đ|ng kể trong qu| trình kiểm to|n . Sự sụp đổ của Enron v{ Arthur
Andersen v{ " cuốn s|ch nấu ăn " thực h{nh kế to|n |p dụng dường
như rộng r~i, cung cấp bằng chứng cho việc thay đổi nhu cầu trong qu|
trình kiểm to|n ( Koskivaara , 2004).
Theo b|o c|o của Kiểm to|n Tiêu chuẩn 56 (SAS 56) do AICPA ,
kiểm to|n viên ph|t triển / kỳ vọng của riêng mình v{ so s|nh những kỳ
vọng với số lượng ghi hoặc tỷ lệ . Trong việc ho{n th{nh nhiệm vụ n{y,
kiểm to|n viên sử dụng c|c thủ tục ph}n tích m{ so s|nh mối quan hệ
giữa c|c dữ liệu dự kiến với c|c mối quan hệ quan s|t thực tế . Thủ tục
ph}n tích cho phép việc kiểm tra tính chính x|c của c}n bằng của t{i
khoản m{ không cần kiểm tra c|c giao dịch c| nh}n
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
10
Fraser ph}n loại c|c kỹ thuật đ|nh gi| ph}n tích trong không
định lượng như quét, định lượng đơn giản như xu hướng , tỷ lệ kiểm tra
hợp lý chẳng hạn như ph}n tích quy hồi v{ mạng Nơ ron (Fraser et
al.1997 ) (Koskivaara, 2004).
Một xu hướng hiện đại trong kiểm to|n l{ để nắm lấy c|c kh|i
niệm về rủi ro kinh doanh , trong đó nhấn mạnh c|c mục tiêu chiến lược
của một doanh nghiệp kinh doanh. Trong c|ch tiếp cận từ trên xuống
kiểm to|n viên hiểu được mục tiêu chiến lược v{ hoạt động xuống dưới
để qu| trình kinh doanh. Kỹ thuật khai ph| dữ liệu như mạng Nơ ron ,
Giải thuật di truyền , Cơ sở lý luận v{ logic mờ có thể tạo thuận lợi cho
phương ph|p tiếp cận dựa trên rủi ro kiểm to|n mới n{y ( Calderon v{
cộng sự . , 2002).
Những b{i b{o nói đến lĩnh vực ứng dụng cụ thể trong lĩnh vực
kiểm to|n bao gồm Dự b|o ph| sản, dự b|o động liên tục v{ t{i chính v{
gian lận trong quản lý
4.1. Dự báo phá sản
Dự b|o ph| sản dường như l{ chủ đề phổ biến nhất của việc |p
dụng c|c kỹ thuật khai ph| dữ liệu trên dữ liệu t{i chính . Doanh nghiệp
ph| sản g}y thiệt hại kinh tế cho nh{ quản lý , c|c nh{ đầu tư , c|c chủ
nợ v{ người lao động cùng với chi phí x~ hội. Những dự đo|n lý do ph|
sản l{ một vấn đề quan trọng về t{i chính . Dự b|o ph| sản bằng c|ch sử
dụng dữ liệu b|o c|o t{i chính thu hút nguồn gốc của nó từ công việc
của Altman năm 1968. Altman cho rằng thất bại của công ty l{ một qu|
trình thời gian d{i v{ dữ liệu b|o c|o t{i chính phải bao gồm c|c tín hiệu
cảnh b|o cho sự ph| sản sắp xảy ra. Bằng c|ch |p dụng nhiều kỹ thuật
ph}n tích biệt ông đ~ ph|t triển một mô hình dự đo|n ph| sản. Kể từ
nghiên cứu của Altman nhiều nh{ nghiên cứu ph|t triển mô hình thay
thế bằng c|ch sử dụng kỹ thuật thống kê (Ohlson 1980 used Logit,
Zmijewski 1984 used Probit). Trong những năm qua nỗ lực nghiên cứu
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
11
đ~ được thực hiện để x}y dựng c|c mô hình sử dụng kỹ thuật khai ph|
dữ liệu
Lin v{ McClean (2001 ) đ~ cố gắng dự đo|n sự thất bại của công
ty bằng c|ch sử dụng phương ph|p kh|c nhau. Hai trong số c|c phương
ph|p thống kê ( Ph}n tích tín hiệu v{ Hồi quy logic ). Trong khi hai
phương ph|p còn lại l{ kỹ thuật m|y học ( C}y quyết đinh - C5.0 v{
Mạng nơ ron). Ngo{i ra họ đề xuất một thuật to|n lai . Mẫu của họ bao
gồm dữ liệu về 1133 công ty Vương quốc Anh . 690 công ty không thất
bại v{ 106 công ty thất bại được sử dụng như tập huấn luyện. Trong đó
289 công ty đ~ không thất bại v{ 48 công ty được sử dụng như tập kiểm
tra. Không có nỗ lực đ~ được thực hiện để phù hợp với c|c công ty thất
bại v{ không thất bại. 37 chỉ tiêu t{i chính có nguồn gốc từ bảng c}n đối
v{ b|o c|o thu nhập đ~ được lựa chọn như l{ c|c biến đầu v{o. Hai
phương ph|p lựa chọn tính năng đ~ được sử dụng l{m giảm c|c biến
đầu v{o đến 4 bằng c|ch sử dụng sự ph|n xét con người v{ 15 bằng
c|ch sử dụng ANOVA
C|c t|c giả b|o c|o kết quả tốt hơn cho Mạng Nơ ron v{ c}y quyết
định mô hình cho cả hai dựa trên ph|n xét của con người v{ lựa chọn
tính năng ANOVA. Cuối cùng , c|c t|c giả đề xuất một thuật to|n lai sử
dụng độ ưu tiên có trọng số của ph}n loại kh|c nhau . Hiệu suất nhỉnh
hơn được b|o c|o cho c|c mô hình lai
TUng et al. (2004) sử dụng một mô hình lai tích hợp Mạng nơ ron
v{ hệ thống mờ. Mô hình được gọi l{ "Generic Fuzzy Neural Network "
l{ một cơ sở nguyên tắc bao gồm c|c quy tắc luật mờ IF-THEN có thể tự
điều chỉnh c|c thông số của c|c quy tắc mờ sử dụng thuật to|n học có
nguồn gốc từ c|c mô hình mạng nơ ron.
Ưu điểm chính của mạng nơ ron mờ đ~ được đề cập l{ khả năng
mô hình hóa một vấn đề bằng c|ch sử dụng dễ hiểu của mô hình ngôn
ngữ cấp cao thay vì biểu thức to|n học phức tạp. Mô hình n{y đ~ được
|p dụng để dự đo|n sự ph| sản của ng}n h{ng . Biến đầu v{o l{ 9 biến
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
12
t{i chính , đ~ được tìm thấy l{ quan trọng trong nghiên cứu trước đ}y .
Mẫu chứa dữ liệu về 2555 ng}n h{ng không ph| sản v{ 548 ng}n h{ng
ph| sản. 20 % dữ liệu đ~ được sử dụng như tập huấn luyện v{ 80% như
bộ kiểm tra . Để giảm loại 1 lỗi mẫu được sự c}n bao gồm số lượng
tương đương của c|c ng}n h{ng thất bại v{ không thất bại. T|c giả b|o
c|o một hiệu suất 93% khi sử dụng dữ liệu từ b|o c|o t{i chính có sẵn
mới nhất , 85% khi sử dụng b|o c|o thu được một năm trước v{ 75%
đối với b|o c|o hai năm trước khi c|c bản ghi có sẵn mới nhất. Mô hình
sản xuất một tập khoảng 50 luật mờ IF-THEN, trong đó mô tả sự tương
t|c giữa c|c biến đầu v{o 9 lựa chọn v{ t|c động của chúng đối với sức
khỏe t{i chính của c|c ng}n h{ng quan s|t.
Shin v{ Lee (2002) đề xuất một mô hình dựa trên giải thuật di
truyền . C|c t|c giả nhấn mạnh thực tế l{ như tr|i ngược với Mạng nơ
ron, giải thuật di truyền có thể sản xuất c|c quy tắc . Giải thuật di truyền
đ~ được |p dụng để tìm ngưỡng cho một hoặc nhiều biến trên hoặc
dưới một công ty được coi l{ nguy hiểm. Mô hình n{y sử dụng một cấu
trúc quy tắc có chứa 5 điều kiện, mỗi điều kiện trong số đó được gọi l{
một biến của 9 chỉ tiêu t{i chính. C|c điều kiện được kết hợp hợp lý. Tập
dữ liệu chứa 264 thất bại v{ 264 doanh nghiệp không thất bại. Trong 9
chỉ tiêu t{i chính đ~ được chọn l{ biến đầu v{o, 90% mẫu được sử dụng
để đ{o tạo v{ 10% để x|c nhận. Việc thực hiện b|o c|o chung l{ khoảng
80%.
Kim v{ Han (2003) đ~ x}y dựng một mô hình định lượng dựa
trên c|c chuyên gia giải quyết vấn đề kiến thức. C|c chuyên gia l{m việc
với kiến thức chủ quan của họ đ|nh gi| sự kiện v{ định lượng. Mô hình
n{y sử dụng một phương ph|p giải thuật di truyền để trích xuất c|c quy
tắc quyết định từ c|c chuyên gia dự đo|n ph| sản uy tín. Mô hình theo
phương ph|p của c|c chuyên gia của ng}n h{ng thương mại của H{n
Quốc. Để dự đo|n c|c chuyên gia đ|nh gi| 6 yếu tố nguy cơ ph| sản lớn.
Trong mô hình một nhiễm sắc thể chứa 6 ph}n đoạn đại diện cho một
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
13
ph}n loại của một công ty theo 6 yếu tố nguy cơ . Một bộ phận thứ 7
trong nhiễm sắc thể ph}n loại c|c công ty như ng}n h{ng ph| sản hoặc
không bị ph| sản. Mẫu dữ liệu chứa 772 công ty, một nửa trong số đó đ~
bị ph| sản. C|c chuyên gia đ|nh gi| 6 yếu tố rủi ro cho c|c công ty n{y.
Qu| trình tiến hóa di truyền chiết xuất 11 quy tắc ph| sản. Ngo{i ra quy
tắc đ~ được chiết xuất bằng c|ch sử dụng một mạng nơ ron lan truyền
ngược v{ cảm ứng học tập quy nạp. Nội quy chiết xuất với giải thuật di
truyền được b|o c|o l{ có độ chính x|c tốt hơn so với dự đo|n mạng nơ
ron v{ học tập quy hồi
Dimitras et al. (1998) |p dụng lý thuyết tập thô cho mục đích dự
b|o ph| sản. Tập huấn luyện chứa dữ liệu cho 40 doanh nghiệp thất bại
v{ 40 không thất bại của c|c công ty Hy lạp trong khoảng thời gian năm
năm. Tập thử nghiệm chứa 19 thất bại v{ 19 doanh nghiệp không thất
bại. Một người quản lý tín dụng của một ng}n h{ng Hy Lạp lựa chọn 12
chỉ tiêu t{i chính v{o c|c bảng thông tin v{ rời rạc c|c gi| trị liên tục.
Ph}n tích tập thô sản xuất 54 reducts, mỗi có chứa 5-7 thuộc tính,
người quản lý ng}n h{ng được lựa chọn một trong những reduct v{ do
đó c|c thuộc tính còn lại l{ xo| bỏ, phải đồng bộ. Cuối cùng, c|c quy tắc
quyết định được nguồn gốc. Kết quả của phương ph|p n{y đ~ được so
s|nh với kết quả ph}n tích ph}n biệt v{ ph}n tích logit v{ đ~ được tìm
thấy để chiến thắng.
McKee (2003) so s|nh kết quả thu được bằng c|ch sử dụng lý
thuyết tập thô có ý kiến của kiểm to|n viên thực tế với mục đích dự b|o
ph| sản. Mẫu dữ liệu bao gồm 146 bị ph| sản v{ 145 công ty không bị
ph| sản phù hợp với Mỹ. 11 yếu tố tiên đo|n đ~ được lựa chọn, 10 trong
số đó l{ chỉ tiêu t{i chính v{ 1 l{ một ý kiến kiểm to|n trước. Tập thô
sản xuất 87 reducts, mỗi sử dụng 4-6 biến v{ 2 reducts được lựa chọn.
Hai mô hình của nguyên tắc quyết định được ph|t triển. C|c kết quả của
c|c mô hình được so s|nh với tỷ lệ tín hiệu kiểm to|n viên thực tế v{ đ~
được tìm thấy gần như bằng nhau. T|c giả kết luận rằng c|c mô hình
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
14
ph|t triển trong nghiên cứu n{y cung cấp không có lợi thế so s|nh tiên
đo|n đ|ng kể so với c|c phương ph|p hiện h{nh của kiểm to|n viên.
Park.V{ Han (2002) trong một nghiên cứu cơ sở lý luận ph|t
triển một mô hình để dự đo|n ng}n h{ng ph| sản. Đo khoảng c|ch sử
dụng tính năng trọng. Trọng lượng được tính to|n bằng c|ch sử dụng
c|c hương ph|p Ph}n tích qu| trình ph}n cấp (AHP). C|c mẫu bao gồm
1072 thất bại v{ 1072 công ty không thất bại. 13 biến t{i chính phi t{i
chính v{ 15 biến đ~ được lựa chọn cho đầu v{o. C|c t|c giả cho rằng
AHP / CBR thực hiện tốt hơn so với cơ sở lý luận thuần túy, cơ sở lý
luận hồi quy logit v{ cơ sở lý luận.
4.2. Sự quan tâm và những rủi ro tài chính
Theo SAS 59, kiểm to|n viên phải đ|nh gi| khả năng của / kh|ch
h{ng của mình để tiếp tục l{m ít nhất một năm ngo{i c|c dữ liệu t{i
chính. Nếu có dấu hiệu cho thấy c|c công ty kh|ch h{ng sẽ phải đối mặt
với khó khăn t{i chính, có thể dẫn đến thất bại, kiểm to|n viên phải đưa
ra một b|o c|o liên tục. Việc đ|nh gi| tình trạng hoạt động liên tục
không phải l{ một nhiệm vụ dễ d{ng. Nghiên cứu b|o c|o rằng chỉ có
một tỷ lệ nhỏ tương đối của c|c công ty không đủ điều kiện đ~ được
trên cơ sở hoạt động liên tục ( Koh 2004). Để tạo thuận lợi cho kiểm
to|n viên trên b|o c|o liên tục ph|t h{nh nhiệm vụ, kỹ thuật thống kê
v{ m|y học đ~ được đề xuất
Koh (2004) so s|nh mạng nơ ron lan truyền ngược, C}y Quyết
định v{ phương ph|p hồi quy logistic trong một nghiên cứu dự đo|n
hoạt động liên tục. C|c dữ liệu bao gồm 165 c|c công ty quan t}m mẫu
dữ liệu v{ 165 công ty không quan t}m phù hợp. 6 chỉ tiêu t{i chính
được lựa chọn đ~ được sử dụng như l{ c|c biến đầu v{o. T|c giả b|o c|o
rằng Quyết định C}y vượt trội so với hai phương ph|p kh|c.
Tan v{ Dihardjo (2001 dựa trên một nghiên cứu trước đó của
Tan, để dự b|o khủng hoảng t{i chính cho tập đo{n tín dụng Úc bằng
c|ch sử dụng mạng Nơ ron lan truyền ngược. Trong nghiên cứu trước
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
15
đó của ông Tan sử dụng dữ liệu t{i chính theo quý v{ cố gắng dự b|o
gặp nạn trong một cơ sở quý. Tan v{ Dihardjo cải thiện phương ph|p
bằng c|ch giới thiệu kh|i niệm "ph|t hiện sớm". Khi mô hình dự đo|n
rằng một liên minh tín dụng sẽ gặp rủi ro trong một quý cụ thể v{ tập
đo{n thực sự gặp rủi ro trong một quý tiếp theo, trong tối đa l{ bốn quý,
quý được d|n nh~n l{ "Early Detector". Phương ph|p cải tiến n{y thực
hiện tốt hơn so với trước đó về loại II lỗi tốc độ. 13 chỉ tiêu t{i chính đ~
được sử dụng như l{ c|c biến đầu v{o v{ một mẫu của 2.144 quan s|t
được sử dụng Kết quả được so s|nh với những người của một mô hình
Probit v{ đ~ được tìm thấy nhỉnh hơn đặc biệt l{ tỷ lệ lỗi loại 1.
Konno v{ Kobayashi (2000) đề xuất một phương ph|p để đ|nh
gi| doanh nghiệp bằng c|ch sử dụng c|c kỹ thuật lập trình to|n học.
Phương ph|p n{y được thực hiện không có giả định ph}n phối về c|c
dữ liệu. Ba lựa chọn thay thế dựa trên ph}n biệt đối xử bởi ph}n biệt
đối xử, ph}n biệt đối xử bởi bề mặt bậc hai v{ ph}n biệt đối xử bởi bề
mặt được sử dụng. 6 chỉ tiêu t{i chính bắt nguồn từ b|o c|o t{i chính đ~
được sử dụng như l{ c|c biến đầu v{o. Mẫu dữ liệu chứa 455 doanh
nghiệp. Phương ph|p tính to|n điểm số cho từng doanh nghiệp.
4.3. Gian lận quản lý
Gian lận quản lý l{ gian lận c}n nhắc cam kết của c|c nh{ quản lý
thông qua b|o c|o t{i chính sai lệch . Gian lận quản lý bị thương cơ
quan thuế , cổ đông v{ chủ nợ .
Spathis (2002) đ~ ph|t triển hai mô hình để x|c định b|o c|o t{i
chính giả mạo từ số liệu công bố công khai. Biến đầu v{o cho c|c mô
hình đầu tiên chứa 9 chỉ tiêu t{i chính. Mô hình thứ hai được thêm v{o
như biến đầu v{o để phù hợp với mối quan hệ giữa khủng hoảng t{i
chính v{ thao t|c b|o c|o t{i chính. Phương ph|p sử dụng l{ hồi quy
logistic v{ c|c mẫu dữ liệu chứa 38 FFS v{ 38 công ty không FFS. Đối
với cả hai mô hình kết quả cho thấy 3 biến với hệ số quan trọng v{o mô
hình
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
16
4.4. Dự đoán hiệu suất doanh nghiệp
Lam (2003 ) đ~ ph|t triển một mô hình để dự đo|n tỷ lệ lợi
nhuận trên vốn chủ sở hữu cổ đông phổ thông . Cô sử dụng mạng nơ
ron lan truyền ngược v{ c|c quy tắc suy ra từ trọng lượng của c|c kết
nối bằng c|ch |p dụng c|c thuật to|n GLARE. Dữ liệu đầu v{o bao gồm
15 tỷ lệ b|o c|o t{i chính v{ 1 biến ph}n tích kỹ thuật . Trong một thử
nghiệm thêm 11 biến kinh tế vĩ mô cũng được thu nhận. Mẫu dữ liệu
chứa 364 công ty .
Back v{ c|c cộng sự (2001 ) đ~ ph|t triển hai mô hình cho c|c
cụm công ty theo hiệu suất của họ . Cả hai mô hình sử dụng SOM . Mô
hình đầu tiên hoạt động trên dữ liệu t{i chính của 160 công ty. Bằng
c|ch sử dụng c|c kỹ thuật khai th|c văn bản, mô hình thứ hai ph}n tích
b|o c|o h{ng năm của c|c CEO của c|c công ty . C|c t|c giả kết luận rằng
có sự kh|c biệt giữa c|c kết quả ph}n nhóm của hai phương ph|p
Kloptchenko cùng cộng sự. 2004 nỗ lực nghiên cứu những vấn đề
được đề cập trước đó . Hai mô hình được ph|t triển, một ph}n tích chỉ
tiêu t{i chính v{ ph}n tích kh|c b|o c|o của c|c gi|m đốc điều h{nh.
Trong nghiên cứu n{y l{ một phương ph|p kh|c nhau, thử nghiệm Phù
hợp với Tiêu Clustering , đ~ được sử dụng để ph}n tích c|c b|o c|o.
Bằng c|ch so s|nh c|c kết quả của chất lượng v{ c|c phương ph|p định
lượng c|c t|c giả kết luận rằng c|c b|o c|o văn bản có xu hướng dự
đo|n những thay đổi trong ng{y
4.5. Ước tính rủi ro tín dụng
Nhiệm vụ của ph}n tích rủi ro tín dụng trở nên đòi hỏi nhiều hơn
do số lượng gia tăng ph| sản v{ ch{o h{ng cạnh tranh của c|c chủ nợ. .
Kỹ thuật khai ph| dữ liệu đ~ được |p dụng để tạo điều kiện lập dự to|n
rủi ro tín dụng.
Huang et al. (2003) thực hiện ph}n tích xếp hạng tín dụng bằng
c|ch sử dụng Hỗ trợ M|y móc (SVM), một kỹ thuật m|y học. Hai bộ dữ
liệu đ~ được sử dụng; trong đó một bộ có chứa 74 công ty H{n Quốc v{
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
17
bộ kh|c có 265 công ty kh|c của Mỹ. Đối với cả hai tập hợp dữ liệu 5
loại đ|nh gi| được x|c định. Hai mô hình cho bộ dữ liệu của H{n Quốc
v{ hai mô hình cho bộ dữ liệu của Mỹ, mỗi người có một vector đầu v{o
kh|c nhau được x}y dựng. SVM v{ NNS lan truyền ngược được sử dụng
để dự đo|n xếp hạng tín dụng. SVM i hình th{nh tốt hơn trong ba trong
bốn mô hình. Một xem xét của nghiên cứu l{ để giải thích mạng nơ ron.
Phương ph|p Garson được sử dụng để đo tầm quan trọng tương đối
của c|c gi| trị đầu v{o
Mues et (2004) sử dụng sơ đồ quyết định sử dụng để x}y dựng
quy tắc đ|nh gi| rủi ro tín dụng. Sơ đồ quyết định có lợi thế mang tính
lý thuyết c}y quyết định rằng họ tr|nh sự lặp lại của sự đẳng cấu. Hai bộ
dữ liệu, một chứa dữ liệu của Đức v{ hai dữ liệu Benelux được sử dụng.
Một mạng nơ ron đ~ được sử dụng để thực hiện việc ph}n loại. C|c
phương ph|p khai th|c quy tắc Neurorule v{ khoan xương đ~ được |p
dụng để trích xuất c|c quy tắc từ mạng. Ngo{i ra C4.5,C4.5 quy tắc v{
Entropy dựa trên đồ thị Quyết định, phương ph|p đ~ được sử dụng để
sản xuất c}y quyết định v{ quy tắc. Hiệu suất của Neurorule v{ khoan
xương được so s|nh với hiệu suất của Mạng nơ ron lan truyền ngược v{
hiệu quả hoạt động của c|c phương ph|p kh|c. Cuối cùng c|c quy tắc đ~
được hình dung theo hình thức sơ đồ quyết định
CHƯƠNG 5: ĐÁNH GIÁ VÀ HƯỚNG NGHIÊN CỨU TƯƠNG LAI
T{i chính kế to|n l{ lĩnh vực ứng dụng phổ biến cho khai ph| dữ
liệu. Việc ph}n loại v{ khả năng dự đo|n của phương ph|p khai ph| dữ liệu
cho phép chúng được sử dụng cho c|c mục đích của dự b|o ph| sản, mối
quan t}m v{ dự đo|n khủng hoảng t{i chính , ph|t hiện gian lận quản lý ,
dự to|n rủi ro tín dụng , v{ dự đo|n hiệu suất của công ty. Kiểm to|n viên ,
c|c chuyên gia chấm điểm tín dụng v{ c|c nh{ đầu tư có thể được tạo điều
kiện trong công việc của mình v{ đạt được thời gian v{ chi phí trong qu|
trình ra quyết định của mình
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
18
Dự b|o ph| sản dường như thu hút sự quan t}m của hầu hết c|c nh{
nghiên cứu từ gần một nửa số giấy tờ đề cập đến chủ đề n{y . C|c lĩnh vực
ứng dụng của c|c t{i liệu kiểm tra được mô tả trong bảng 1. Kiểm tra việc
thu thập văn học l{m ph|t sinh để thảo luận về phương ph|p l{m việc , dữ
liệu được sử dụng v{ số liệu hiệu suất chủ đề
Lĩnh vực ứng dụng
Bài báo
Ph| sản
8
Mối quan t}m v{ nguy cơ t{i chính
3
Dự b|o hiệu suất công ty
3
Dự b|o rủi ro tín dụng
2
Gian lận quản lý
1
Bảng 1. Lĩnh vực ứng dụng
5.1. Phương pháp và mô hình
C|c phương ph|p khai ph| dữ liệu bao gồm một loạt c|c phương
ph|p có nguồn gốc từ thống kê , trí tuệ nh}n tạo v{ cơ sở dữ liệu . Trong
c|c t{i liệu thu thập mạng Nơ ron l{ mô hình được sử dụng nhiều nhất .
Bảng 2 cho thấy c|c mô hình l{m việc
Mô hình
Bài báo
Mạng Nơ ron
8
Tập thô
3
C}y quyết định
2
Giải thuật di truyền
2
Lai tạo
2
Cơ sở lý luận
1
Lập trình to|n học
1
Hồi quy Logistic
1
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
19
Bảng 2 . Mô hình l{m việc
Mặc dù nhiều nh{ nghiên cứu nhấn mạnh thực tế l{ mô hình
lai m{ kết hợp c|c đặc điểm v{ lợi thế của mô hình cụ thể có thể cải
thiện hiệu suất hoặc diễn giải nhưng mô hình lai chỉ được sử dụng
trong hai trường hợp. Một hướng nghiên cứu trong tương lai có thể
ph|t triển v{ ứng dụng c|c mô hình lai
Một hướng cải tiến mô hình l{ tăng cường c|c mô hình hiện có
với c|c thuật to|n tiên tiến. Biến chính x|c RST , Ph}n tích qu| trình
ph}n cấp CBR v{ Giải thuật di truyền m{ sử dụng một phương ph|p
m|y học l{ những ví dụ của trường hợp n{y
Thiết kế của kiến trúc mạng nơ ron vẫn còn l{ một vấn đề . Số
lượng tế b{o nơ ron , số lượng c|c lớp v{ c|c chức năng chuyển đổi
được x|c định tùy tiện v{ chủ quan. Phương ph|p đề xuất một kiến
trúc mạng Nơ ron tối ưu cho một trường hợp cụ thể có thể được
ph|t triển
Mặc dù những lời chỉ trích chính trên mạng Nơ ron l{ nó hoạt
động như hộp đen, trong chỉ có hai trường hợp nỗ lực đ~ được thực
hiện để giải thích c|c mô hình ( thuật to|n GLARE , Neurorule ,
Trepan ). Nỗ lực nghiên cứu có thể được hướng tới việc giải thích
của mô hình ra quyết định của Mạng nơ ron lan truyền ngược.
Trong bốn trường hợp mô hình Trí tuệ nh}n tạo được quy
chuẩn đối với mô hình thống kê . Phương ph|p trí tuệ nh}n tạo có
lợi thế về mặt lý thuyết m{ họ không |p đặt giả định tùy ý trên c|c
biến đầu v{o. Tuy nhiên , kết quả b|o c|o của c|c phương ph|p trí
tuệ nh}n tạo chỉ hơi tốt hơn c|c kết quả của phương ph|p thống kê .
Trong một số trường hợp mô hình thống kê được b|o c|o thực hiện
tốt hơn. Nỗ lực nghiên cứu bổ sung l{ cần thiết để hiện thực những
ưu điểm của c|c mô hình lý thuyết trí tuệ nh}n tạo
Support Vector Machines
1
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
20
5.2. Dữ liệu
C|c dữ liệu được sử dụng trong c|c t{i liệu thu thập chủ yếu l{
chỉ tiêu t{i chính bắt nguồn từ b|o c|o t{i chính . Trong t|m trường
hợp, c|c vector đầu v{o chỉ bao gồm từ chỉ tiêu t{i chính. Trong trường
hợp chỉ có một tỷ lệ t{i chính không được sử dụng trong c|c vector đầu
v{o . Nhiều t|c giả đề cập đến sự cần thiết phải l{m phong phú thêm
vector đầu v{o với nhiều thông tin. Biến kinh tế vĩ mô có thể được bao
gồm : Thông tin định tính như việc đạt được c|c mục tiêu chiến lược
của công ty , ý kiến kiểm to|n trước, kinh nghiệm quản lý , thông tin thị
trường v{ nhiều yếu tố kh|c có thể được sử dụng để nắm bắt c|c yếu tố
chính trị , x~ hội v{ công nghệ kinh tế. Trong hai b{i b|o kỹ thuật khai
th|c văn bản được sử dụng để ph}n loại v{ dự đo|n hiệu suất của công
ty.
Như được công nhận bởi c|c t|c giả , trong một số c|c giấy tờ
kiểm tra kích thước mẫu không đạt yêu cầu lớn. Mẫu nhỏ có thể thiên vị
c|c kết quả. Hơn nữa có sự kh|c biệt quan trọng trong kích thước của
huấn luyện , thử nghiệm v{ x|c nhận mẫu . Bảng 3 mô tả kích thước
mẫu
Cỡ mẫu
Bài báo
> 1000
4
>500
2
>200
5
<=200
5
Bảng 3. Cỡ mẫu
Cơ sở dữ liệu t{i chính trong nhiều trường hợp có chứa một
số lượng lớn c|c chỉ tiêu t{i chính. Nhiều trong số những tỷ lệ chứa
thông tin chồng chéo. Hơn nữa nghiên cứu đ~ chỉ ra rằng một số
lượng nhỏ tương đối của tỷ lệ thích hợp cho mục đích ph}n loại v{
dự b|o. Vì những lý do lựa chọn tính năng được yêu cầu. Trong bảy
trường hợp c|c nh{ nghiên cứu dựa trên c|c nghiên cứu trước đó để
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
21
lựa chọn c|c biến đầu v{o . Trong bốn trường hợp lựa chọn dựa v{o
ph|n đo|n của con người. Sự ra đời của phương ph|p chính thức
như ANOVA có thể cải thiện thực h{nh lựa chọn tính năng.
Sự tồn tại của c|c gi| trị bị mất tích l{ phổ biến trong dữ liệu
t{i chính. Chiến lược để xử lý thiếu dữ liệu t{i chính như sử dụng gi|
trị trung bình của c|c tầng lớp nhất định hoặc sử dụng c|c gi| trị có
thể xảy ra nhất có thể được đ|nh gi| v{ đề xuất.
Dữ liệu rời rạc l{ một vấn đề để xem xét. Trong một số trường
hợp con người đ~ được sử dụng để rời rạc hóa dữ liệu m{ trong c|c
trường hợp kh|c c|c phương ph|p rời rạc được sử dụng.
5.3. Số liệu hiệu suất
Một xem xét quan trọng l{ số liệu hiệu suất . Hiệu suất được đ|nh
gi| bằng c|ch kiểm tra c|c mô hình chống lại một thử nghiệm v{ có thể
l{ một mẫu x|c nhận.
Trong nhiều trường hợp không có mẫu x|c nhận v{ c|c mẫu thử
nghiệm được sử dụng để đo hiệu suất mô hình. Một số thuật to|n sử
dụng c|c mẫu thử nghiệm để ngăn chặn sự huấn luyện của mô hình. Vì
điều n{y có thể giới thiệu như một thiên vị (gọi l{ " overfitting " ) điều
quan trọng l{ để đo hiệu suất trên một mẫu x|c nhận. Tuy nhiên , có
một xem xét bổ sung liên quan đến lỗi loại 1 v{ loại 2. Một lỗi loại 1 xảy
ra khi c|c mô hình dự đo|n không ph| sản đối với một công ty v{ công
ty thực sự bị ph| sản. Một lỗi loại 2 xảy ra khi c|c mô hình dự b|o ph|
sản cho một công ty l{nh mạnh. Lỗi loại 1 v{ loại 2 có chi phí kh|c nhau.
Lỗi loại 1 có thể dẫn đến quyết định sai lầm có thể g}y ra tổn thất t{i
chính. Loại 2 lỗi có thể g}y ra chỉ điều tra bổ sung. Do đó lỗi loại 1 có chi
phí lớn hơn lỗi loại 2. Chi phí tương đối của c|c loại lỗi Loại I v{ II phải
được xem xét trong số liệu hiệu suất.
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
22
CHƯƠNG 6: KẾT LUẬN
Kỹ thuật khai ph| dữ liệu có khả năng dự đo|n v{ ph}n loại có
thể tạo thuận lợi cho qu| trình ra quyết định trong c|c vấn đề t{i chính.
C|c nhiệm vụ t{i chính v{ dự b|o trong c|c t{i liệu thu thập được giải
quyết c|c chủ đề dự đo|n ph| sản, ước tính rủi ro tín dụng , mối quan
t}m, khủng hoảng t{i chính , dự đo|n hiệu suất của công ty v{ quản lý
gian lận. Dự b|o ph| sản dường như l{ lĩnh vực ứng dụng phổ biến nhất
C|c phương ph|p khai th|c dữ liệu được sử dụng trong c|c t{i
liệu thu thập bao gồm mạng Nơ ron , thuật to|n di truyền , C}y quyết
định , Lý thuyết tập thô, cơ sở lý luận v{ lập trình to|n học . Hầu hết c|c
nghiên cứu có vẻ nghiên về mô hình Mạng Nơ ron
Có một số lượng đ|ng kể c|c nỗ lực nghiên cứu có địa chỉ ứng
dụng c|c kỹ thuật khai ph| dữ liệu trong t{i chính có nhiều lĩnh vực
m{u mỡ để nghiên cứu thêm
Việc giới thiệu c|c mô hình lai , cải thiện c|c mô hình hiện có,
khai th|c c|c quy tắc comprehendible từ mạng Nơ ron , cải thiện hiệu
suất v{ sự tích hợp của hệ thống ERP với c|c công cụ khai ph| dữ liệu l{
một số hướng nghiên cứu trong tương lai. Về c|c dữ liệu được sử dụng
l{m gi{u của vector đầu v{o với thông tin định tính v{ c|ch sử dụng v{
đ|nh gi| c|c phương ph|p chính thức để lựa chọn tính năng v{ dữ liệu
discretisation l{ khả năng nghiên cứu mở.
Một yếu tố nữa m{ đòi hỏi phải tiếp tục nghiên cứu l{ đ|nh gi|
của chi phí tương đối của lỗi loại I v{ loại II
Tương lai đang mở ra. Nỗ lực nghiên cứu sẽ tiếp tục cải thiện c|c
mô hình v{ phương ph|p l{m cho khai ph| dữ liệu trở th{nh một công
cụ có gi| trị hơn trong t{i chính v{ kế to|n
GVHD:PGS.TS Đỗ Phúc HV: Nguyễn Đạt Thịnh
23
TÀI LIỆU THAM KHẢO
[1] Efstathios Kirkos ,Department of Accounting Technological
Educational Institution of Thessaloniki, Greece; Yannis Manolopoulos,
Department of Informatics Aristotle University of Thessaloniki, Greece
– “DATA MINING IN FINANCE AND ACCOUNTING: A REVIEW OF
CURRENT RESEARCH TRENDS”
[2] Lê Văn Dực, “ Hệ hỗ trợ ra quyết định”, NXB ĐHQG TPHCM , 2006
[3] PSG.TS. Đỗ Phúc, Slide b{i giảng DSS