Tải bản đầy đủ (.docx) (22 trang)

Tiểu luận môn Hệ hỗ trợ quyết định KHAI THÁC DỮ LIỆU TÀI CHÍNH VÀ KẾ TOÁN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (175.87 KB, 22 trang )

Đại Học Quốc Gia TP.HCM
Trường Đại Học Công Nghệ Thông Tin
BÀI THU HOẠCH
HỆ HỖ TRỢ QUYẾT ĐỊNH
ĐỀ TÀI:
KHAI THÁC DỮ LIỆU TÀI CHÍNH VÀ KẾ TOÁN
GVHD: PGS.TS. Đỗ Phúc
Người thực hiện: Lê Minh Tuấn
Mã số: CH1301069
TP.HCM – 2014
Tài liệu tham khảo
1. B. Back, J. Toivonen, H. Vanhatanta and A. Visa: “Comparing Numerical
Data and Text Information from Annual Reports Using Self-organizing
Maps”, International Journal of Accounting Information Systems, Volume
2, Issue 4, December , 2001, pp. 249-269 .
2. M.J. Beynon and M.J. Peel: “Variable Precision Rough Set Theory and
Data Discretisation: an Application to Corporate Failure Prediction”,
Omega The International Journal of Management Science, Volume 29, Is-sue 6,
December, 2001, pp. 561-576.
3. T.G. Calderon and J.J. Cheh: “A Roadmap for Future Neural Networks
Research in Auditing and Risk Assessment”, International Journal of Ac-counting
Information Systems, Volume 3, Issue 4, December, 2002, pp.
203-236.
4. A.I. Dimitras, R. Slowinski, R. Susmaga and C. Zopounidis: “Business
Failure Prediction using Rough Sets”, European Journal of Operational
Research, Volume 114, Issue 2, April, 1998, pp 263-280.
5. I.A.M. Fraser, D.J. Hatherly, K.Z. Lin: “An empirical investigation of the use
of analytical review by external auditors”, The British Accounting Review,
Volume 29, Issue 1, March, 1997, pp.35-47.
Page 2
6. Z. Huang, H. Chen, C.J. Hsu, W.H. Chen and S. Wu: “Credit Rating


Analysis with Support Vector Machines and Neural Networks: a Market
Comparative Study”, Decision support Systems, In Press, 2003.
7. M.J. Kim and I. Han: “The Discovery of Experts’ Decision Rules from
Qualitative Bankruptcy Data using Genetic Algorithms”, Expert Systems
with Applications, Volume 15, Issue 4, November, 2003, pp.637-646.
8. A. Kloptchenko, T. Eklud, J. Karlsson, B. Back, H. Vanharanta and A.
Visa: “Combining Data and Text Mining Techniques for Analyzing Finan-cial
Reports”, Intelligent Systems in Accounting, Finance and Manage-ment, Volume
12, Issue 1, January/March, 2004, pp. 29-41
9. H.C. Koh, “Going Concern Prediction using Data Mining Techniques”,
Managerial Auditing Journal, Volume 19, No 3, 2004, pp. 462-476.
10. H. Konno and H. Kobayashi: “Failure Discrimination and Rating of Enter-
prises by Semi-Definite Programming”, Asia-Pacific Financial Markets,
Volume 7, Issue 3, September, 2000, pp.261-273.
11. E. Koskivaara, “Artificial Neural Networks in Analytical Review Proce-
dures”, Managerial Auditing Journal, Volume 19, No 2, 2004, pp. 191-223
12. M. Lam: “Neural Network Techniques for Financial Performance Predic-tion:
Integrating Fundamental and Technical Analysis”, Decision Support
Systems, In Press, 2003.
Page 3
13. F.Y. Lin and S. McClean: “A Data Mining Approach to the Prediction of
Corporate Failure”, Knowledge-Based Systems, Volume 14, Issues 3-4,
June, 2001, pp. 189-195.
14. T. McKee: “Rough Sets Bankruptcy Prediction Models vs. Auditor Signal-ling
Rates”, Journal of Forecasting, Volume 22. Issue 8, December, 2003,
pp.569-586.
15. C. Mues, B. Baesens, C.M. Files and J. Vanthienen: “Decision Diagrams
in Machine Learning: an Empirical Study on Real-life Credit-risk Data”, Ex-pert
Systems with Applications, In Press, 2004.
16. C.S. Park and I. Han: “A Case-base Reasoning with the Feature Weights

Derived by Analytic Hierarchy Process for Bankruptcy Prediction”, Expert
Systems with Applications, Volume 23, Issue3, October, 2002, pp.255-264.
17. K.S. Shin and Y.J. Lee: “A Genetic Algorithm Application in Bankruptcy
Prediction Modeling”, Expert Systems with Applications, Volume 23, Issue
3, October, 2002, pp.321-328.
18. C. Spathis: “Detecting False Financial Statements Using Published Data:
some Evidence from Greece”, Managerial Auditing Journal, Volume 17,
No 4, 2002, pp.179-191.
19. C.N.W. Tan and H. Dihardjo: “A Study on Using Artificial Neural Networks
Page 4
to Develop an Early Warning Predictor for Credit Union Financial Distress
with Comparison to the Probit Model”, Managerial Finance, Volume 27, No
4, 2001, pp.56-77.
20. W.L. Tung, C. Quek and P. Cheng: “GenSO-EWS: a Novel Neural Fuzzy
Based Early Warning System for Predicting Bank Failures”, Neural Net-works,
Volume 17, Issue 4, May, 2004, pp. 567-587.
KHAI THÁC DỮ LIỆU TÀI CHÍNH VÀ KẾ TOÁN:
TỔNG QUAN VỀ XU HƯỚNG NGHIÊN CỨU HIỆN TẠI
Tóm tắt
Những công cụ khai thác dữ liệu trở nên quan trọng trong ngành tài
chính và kế toán. Phân loại và dự đoán khả năng của nó được sử dụng cho
các mục đích về dự báo phá sản.Dự báo tình trạng khủng hoảng tài chính,
phát hiện gian lận tài chính, dự đoán rủi ro tính dụng, dự đoán hiệu suất của
công ty. Nghiên cứu này nhằm mục đích phát triển cao nhất của khoa học kỹ
thuật ở một giai đoạn nhất định.
1. Giới thiệu
Khai thác dữ liệu (DM) là một lĩnh vực thú vị của Khoa học Máy tính.
Nó xuất hiện vào cuối thập niên 80 bằng cách sử dụng các khái niệm và
phương pháp từ các lĩnh vực trí tuệ nhân tạo., hệ thống cơ sở dữ liệu và
thống kê, khai thác dữ liệu nhằm mục đích khám phá giá trị, phức tạp và

không dể dàng che giấu thông tin từ một lượng lớn dữ liệu. Ví dụ một thuật
ngữ tương đương trong khai thác dữ liệu là khám phá tri thức trong cơ sở dữ
liệu, nó thường gặp trong các tài liệu khác.
Dữ liệu tài chính được thu thập bởi nhiều tổ chức như ngân hàng, cơ
quan chứng khoán, cơ quan thuế, kế toán, kiểm toán và các cơ quan chuyên
Page 5
ngành, trong một số trường hợp được công bố công khai. Áp dụng kỹ thuật
khai thác dữ liệu có thể góp phần phân loại và dự đoán thuận lợi và khó khăn
trong quá trình ra quyết định. Ví dụ điển hình của ngành tài chính là vấn đề
phá sản, rủi ro tính dụng, và các báo cáo, dự đoán được khủng hoảng tài
chính và năng suất của doanh nghiệp.
Tầm quan trong của khai thác dự liệu trong tài chính và kế toán đã
được công nhận bời nhiều tổ chức. Viện Kế toán công Mỹ đã xác định khai
thác dữ liệu là một trong mười công nghệ hàng đầu cho tương lai và Viện
Kiểm toán nội bộ đã liệt kê khai thác dữ liệu là một trong bốn ưu tiên nghiên
cứu. Nghiên cứu khai thác dữ liệu trong ngành tài chính và kế toán và áp
dụng nó trong các lĩnh vực nghiên cứu mới. Mục đích của nghiên cứu này là
áp dụng những cái tốt nhất về khai thác dữ liệu trong ngành tài chính và kế
toán. Đánh giá này giới thiệu người đọc chủ đề cụ thể liên quan đến mục tiêu
và phương pháp làm việc nghiên cứu. Đặc biệt nghiên cứu này cố gắng giải
quyết các câu hỏi sau.
Cụ thể lĩnh vực tài chính mà phương pháp khai thác dữ liệu sẽ áp
dụng đem lại cái gì?
Phương pháp khai thác dữ liệu đem lại cái gì và mở ra cái gì? Nó có
tốt hơn phương pháp truyền thống hay không?
Những loại dữ liệu nào được áp dụng? cở mẫu đạt yêu cầu? lựa chọn
phương pháp nào? Những quan hệ gì liên quan?
Một nghiên cứu như vậy giúp các nhà nghiên cứu không bị chồng
chéo và để cho chúng ta phát triển lên.Mục đích của nghiên cứu này để chỉ
ra hướng mới cho lĩnh vực nghiên cứu trong tương lai

Phần còn lại của công việc này được tổ chức như sau. Phần hai đề
cặp tới các nguồn tài liệu. Phần ba cho mô tả ngắn gọn của phương pháp
khai thác dữ liệu áp dụng trong các tài liệu thu thập được. Phần bốn đề cập
đến các ứng dụng cụ thể và nghiên cứu. Cuối cùng phần năm đánh giá và
hướng nghiên cứu và ghi lại các báo cáo. Phần sáu là phần kết luận.
2. Tìm kiếm tài liệu.
Trong việc tìm kiếm nghiên cứu liên quan đến việc áp dụng các kỹ
thuật khai thác dữ liệu trong tài chính và kế toán chúng ta đã tìm hiểu các tạp
chí của bốn nhà xuất bản Elsevier, Emerald, Kluwer and Wiley. Bài viết liên
quan đã được tìm thấy trong các tạp chí:
Page 6
• Thị trường tài chính Châu Á Thái Bình Dương,
• Hệ thống hỗ trợ quyết định,
• Tạp chí nghiên cứu của Châu Âu,
• Các ứng dụng của hệ chuyên gia,
• Các hệ thông minh trong tài chính, kế toán và quản lý,
• Tập chí quốc tế về hệ thống thông tin kế toán,
• Tạp chí Dự báo,
• Hệ thống kiến thức cơ bản,
• Quyết định quản lý,
• Tạp chí quản lý kiểm toán,
• Quản lý tài chính,
• Mạng neural, và
• Tạp chí quốc tế Omega về khoa học quản lý.
3. Các phương pháp ứng dụng
Thuật ngữ Phương pháp khai thác dữ liệu là viết tắt của một số lượng
lớn các thuật toán,các mô hình và các kỹ thuật xuất phát từ số liệu thống kê,
máy học, cơ sở dữ liệu và trực quan. Một số các phương pháp đã được áp
dụng để kiểm tra dữ liệu tài chính. Phương pháp khai thác dữ liệu phổ biến
được đề cập đến trong nghiên cứu này là mạng Neural , thuật toán di truyền,

cây quyết định, lý thuyết Rough Set, cơ sở lý luận và lập trình toán học.
3.1 Mạng Neural
Mạng Neural là kỹ thuật công nghệ mới được thành lập từ lý thuyết và
vùng ứng dụng công nhận. Một Mạng Neural bao gồm một số tế bào
Neural, tức là đơn vị xử lý kết nối. Liên kết với mỗi kết nối là một giá trị số
được gọi là “weight”. Mỗi tế bào Neural nhận được tín hiệu từ tế bào Neural
kết nối. Nếu đầu vào cường độ tín hiệu kết hợp vượt quá ngưỡng, sau đó các
tế bào neural cháy. Giá trị đầu vào được chuyển bởi các chức năng chuyển
giao các tế bào neural.
Các tế bào neural được sắp xếp thành các lớp. Một lớp mạng gồm có
ít nhất một đầu vào và đầu ra. Giữa các lớp đầu vào và đầu ra có thể tồn tại
một hoặc nhiều lớp ẩn. Các loại khác nhau của mạng neural có một số
lượng khác nhau của các lớp. Sơ đồ tổ chức (SOM) chỉ có một lớp đầu vào
và đầu ra, trong khi một lan truyền ngược của mạng neural có thêm một
hoặc nhiều lớp ẩn.
Sau khi các kiến trúc mạng được xác định, mạng phải được huấn
luyện. Mô hình mạng lan truyền ngược được áp dụng cho các lớp đầu vào và
đầu ra cuối cùng được xác định là lớp ra. Đầu ra được so sánh với kết quả
Page 7
mong muốn và các lỗi được truyền ngược trở lại trong mạng neural bằng
cách điều chỉnh trọng lượng của các kết nối. Quá trình này lặp đi lặp lại cho
đến khi tỷ lệ lỗi chấp nhận. Các mạng neural lan truyền ngược đã trở nên
phổ biến cho các dự đoán và phân loại các vấn đề.
Sơ đồ tổ chức là một phương pháp phân nhóm và trực quan của việc
học không giám sát. Đối với mỗi vector đầu vào, đầu ra chỉ có một tế bào
neural sẽ được kích hoạt. Vector đó được cập nhật để tương ứng với vector
đầu vào. Như vậy, đầu vào tương tự sẽ được ánh xạ tới các tế bào neural đầu
ra tương tự hoặc lân cận tạo thành cụm. Hai cấu trúc liên kết SOM thường
được sử dụng là lưới hình chữ nhật, trong đó mỗi tế bào neural có bốn người
hàng xóm và mạng tinh thể hình lục giác, nơi mỗi tế bào neural có sáu người

hàng xóm.
Một bất lợi quan trọng của Mạng Neural là chúng hoạt động như hộp
đen vì nó là khó khăn đối với con người để giải thích cách Mạng Neural đưa
ra quyết định. Tuy nhiên thuật toán này cung cấp trích xuất dễ hiểu từ các
luật của mạng neural. Một nhược điểm khác trên Mạng Neural là một số
thông số như các cấu trúc liên kết mạng phải được xác định theo kinh
nghiệm.
Có vẻ như Mạng Neural thu hút sự quan tâm của nhiều nhà nghiên
cứu trong các lĩnh vực mà họ quan tâm. Cấu trúc và nguyên tắc làm việc cho
phép họ để đối phó với những vấn đề mà làm ảnh hưởng đến thuật toán thì
nó không được áp dụng. Kể từ khi họ học hỏi từ các ví dụ và khái quát để
quan sát mới có thể phân loại các mô hình trước đó chưa thấy. Họ có khả
năng để đối phó với không đầy đủ, không rõ ràng và ồn ào của dữ liệu.
Không giống như các kỹ thuật thống kê truyền thống chúng không mang ưu
thế về các tính chất phân phối dữ liệu, không lệ thuộc vào giá trị đầu vào.
3.2 Thuật toán di truyền
Thuật toán di truyền (GA) áp dụng ý tưởng từ sự tiến hóa thích hợp
nhất của các cá thể tồn tại trong tự nhiên . Quy luật liên quan đến một vấn đề
được mã hóa như một tập hợp các chuỗi trong số đó bao gồm các bit. Các
chuỗi này hình thành một dân số. GA cho phép các chuỗi với giá trị tập thể
cao nhất để tồn tại và sinh sôi nảy nở đổi mới dân số.
Một nhiễm sắc thể là một chuỗi ký tự đại diện cho một điểm trong
không gian. Dân số là một tập hợp các nhiễm sắc thể. SAu khi tạo ngẫu
Page 8
nhiên dân số ban đầu mỗi nhiễm sắc thể được đánh giá sử dụng đúng chức
năng. Vai trò chức năng phù hợp là đánh giá hoạt động của nhiễm sắc thể.Ba
toán tử được áp dụng trong nhiễm sắc thể là:
Tái tạo, nơi các cá nhân tự sinh sôi nảy nở bằng cách tái tạo bản thân
với khả năng tương tự như giá trị ban đầu
Crossover, nơi hai nhiễm sắc thể cùng trao đổi một số bit để tạo nhiễm

sắc thể mới.
Sự biến đổi, mà hoạt động trên một nhiễm sắc thể duy nhất bằng cách
thay đổi một hoặc nhiều bit. Xác suất đột biến là rất thấp.
3.3 Cây Quyết định
Cây quyết định sử dụng phương pháp phân loại và dự đoán mà liên
tục phân chia thành nhóm và loại trừ lẫn nhau. Phương pháp tìm kiếm các
thuộc tính là tách mẫu trong các lớp cá thể. Các nhóm nhỏ được phân chia
liên tục cho đến khi nhóm quá nhỏ hay là không thống kê được tồn tại giữa
các tập con ứng viên. Nếu cây quyết định trở nên quá lớn thì cuối cùng nó
được cắt bớt .
3.4 Lý thuyết tập thô
Lý thuyết tập thô (RST) do Pawlak đề xuất vào năm 1982. RST là tập
mở rộng với khái niện phần tử là thành viên của tập. Cho một lớp C, xấp xỉ
dưới của C bao gồm các mẫu đó chắc chắn thuộc về C. Xấp xỉ trên của C
bao gồm các mẫu mà không thể được định nghĩa là không thuộc C. RST có
thể được sử dụng để mô tả phụ thuộc giữa các thuộc tính, để đánh giá tầm
quan trọng của các thuộc tính, để đối phó với các dữ liệu không phù hợp và
xử lý không chắc chắn.
3.5 Lập luận theo tình huống
Lập luận theo tình huống (CBR) là một phương pháp giải quyết vấn
đề theo lý luận. Để giải quyết một vấn đề. CBR cố gắng để lấy một trường
hợp tương tự từ một trường hợp được căn cứ. Vấn đề quan trọng trong CBR
là biện pháp tương tự và việc thu lại các trường hợp tương tự. Kỹ thuật phổ
biến phù hợp với nó là k -láng giềng gần nhất (k-NN), học tập theo quy nạp
và hướng dẫn kiến thức. Trong phiên bản đơn giản nhất, k-NN đánh giá sự
giống nhau của hai trường hợp bằng cách tính toán khoảng cách Euclide của
họ. Cách tiếp cận này giả định rằng tất cả các tính năng này đều có liên
quan. Vì đây không phải là luôn luôn như vậy, thuật toán được cải tiến theo
đề xuất.
Page 9

4. Lĩnh vực áp dụng và nghiên cứu cụ thể.
Do khả năng phân loại và dự đoán của nó, Kỹ thuật DM đã được sử
dụng để tạo thuận lợi cho quá trình kiểm toán, dự đoán hiệu suất của công ty
và để tạo điều kiện ước lượng rủi ro tín dụng.
Trong lĩnh vực kiểm toán, Kỹ thuật DM phát triển như là một đóng
góp đầy hứa hẹn. Các sự kiện gần đây cho thấy vấn đề đáng kể trong quá
trình kiểm toán. Sự sụp đổ của Enron và Arthur Andersen và những nơi
khác và "cuốn sách nấu ăn" kế toán thực hành áp dụng dường như rộng rãi,
cung cấp bằng chứng cho việc thay đổi nhu cầu trong quá trình kiểm toán.
Theo báo cáo Tiêu chuẩn 56 (SAS 56) của Kiểm toán do AICPA,
kiểm toán viên phát triển kỳ vọng theo riêng mình và so sánh các kỳ vọng
theo số lượng hay tỉ lệ. Trong việc thực hiện nhiệm vụ này, kiểm toán viên
sử dụng các thủ tục phân tích và so sánh mối quan hệ giữa các dữ liệu dự
kiến với các mối quan hệ quan sát thực tế. Thủ tục phân tích cho phép việc
kiểm tra tính chính xác của việc cân bằng của kế toán mà không cần kiểm tra
các giao dịch cá nhân có liên quan. Fraser phân loại các kỹ thuật đánh giá
phân tích không định lượng (NQT) như quét, định lượng đơn giản (SQT)
như xu hướng, tỷ lệ và kiểm tra tính hợp lý và định lượng tiên tiến (AQT)
như phân tích hồi quy và mạng neural.
Một xu hướng hiện đại trong kiểm toán là để nắm lấy các khái niệm
về rủi ro kinh, trong đó nhấn mạnh các mục tiêu chiến lược kinh doanh của
một doanh nghiệp . Trong cách tiếp cận từ trên xuống kiểm toán viên hiểu
được mục tiêu chiến lược và các công việc kinh doanh. Kỹ thuật DM như
NNS, GA, CBR và logic mờ có thể tạo thuận lợi cho phương pháp tiếp cận
của kiểm toán dựa trên rủi ro mới này.
Các tờ báo này liên quan đến lĩnh vực ứng dụng cụ thể trong kiểm
toán dự báo phá sản, dự đoán về tài chính và quản lý gian lận.
4.1 Dự đoán phá sản
Dự báo phá sản dường như là chủ đề phổ biến nhất của việc áp dụng
kỹ thuật DM cho dữ liệu tài chính. Doanh nghiệp phá sản gây thiệt hại cho

người quản lý kinh tế , nhà đầu tư, chủ nợ và người lao động bị tổn thất. Đối
với những dự đoán lý do phá sản là một vấn đề quan trọng về tài chính. Dự
báo phá sản bằng cách sử dụng dữ liệu báo cáo tài chính thu hút nguồn gốc
của nó từ công việc của Altman năm 1968. Altman cho rằng thất bại của
công ty là một quá trình thời gian dài và dữ liệu báo cáo tài chính phải bao
Page
10
gồm các tín hiệu cảnh báo cho sự phá sản sắp xảy ra. Bằng cách áp dụng kỹ
thuật đa phân tích ông đã phát triển một mô hình để dự đoán phá sản. Kể từ
khi công việc của Altman nhiều nhà nghiên cứu phát triển mô hình thay thế
bằng cách sử dụng kỹ thuật thống kê. Trong những năm qua nỗ lực nghiên
cứu đã được thực hiện để xây dựng các mô hình sử dụng kỹ thuật DM.
Lin và McClean (2001) đã cố gắng dự đoán sự thất bại của công ty
bằng cách sử dụng phương pháp khác nhau. Hai trong số các phương pháp
thống kê (phân tích và hồi quy), trong khi hai phương pháp còn lại là kỹ
thuật máy học (cây quyết định và mạng neural). Ngoài ra họ đề xuất một
thuật toán lai. Dữ liệu lấy mẫu của họ là khoảng 1133 công ty Vương quốc
Anh. 690 công ty không thất bại và 106 công ty không được sử dụng trong
tập huấn luyện, trong đó 289 công ty không thất bại và 48 công ty thất bại
khi sử dụng bộ kiểm tra. Không có nỗ lực trong thực hiện để phù hợp với
các công ty thất bại và không thất bại . 37 chỉ tiêu tài chính có nguồn gốc từ
bảng cân đối và thu nhập báo cáo đã được lựa chọn như là các biến đầu vào.
Hai phương pháp lựa chọn tính năng đã được sử dụng làm giảm các biến đầu
vào là 4 bằng cách sử dụng sự phán xét con người và 15 bằng cách sử dụng
ANOVA. Các tác giả báo cáo kết quả tốt hơn cho NNS và mô hình cây quyết
định cho cả hai phương án con người dựa trên và lựa chọn tính năng
ANOVA. Cuối cùng, các tác giả đề xuất một thuật toán lai sử dụng bỏ phiếu
có trọng số khác nhau. Hiệu suất nhỉnh hơn khi báo cáo cho các mô hình lai.
Tùng et al. (2004) sử dụng một mô hình lai tích hợp NNS và hệ thống
mờ . Mô hình được gọi là " Generic Self-organizing Fuzzy Neural Network"

là cơ sở quy luật bao gồm các quy tắc IF-THEN luật mờ có thể tự điều chỉnh
các thông số của các quy tắc mờ sử dụng thuật toán có nguồn gốc từ các mô
hình NN. Ưu điểm chính của NN mờ đã được đề cập là khả năng của nó để
giải quyết vấn đề bằng cách sử dụng mô hình ngôn ngữ dễ hiểu thay vì biểu
thức toán học phức tạp.
Mô hình này đã được áp dụng để dự đoán thất bại ngân hàng. Biến
đầu vào là 9 biến tài chính, mà được tìm thấy là quan trọng trong nghiên cứu
trước đây. Mẫu chứa dữ liệu khoảng 2555 ngân hàng không thất bại và 548
ngân hàng phá sản. 20% dữ liệu đã được sử dụng như tập huấn luyện và
80% như bộ kiểm tra. Để mẫu giảm lỗi loại 1 được sự cânbằng bao gồm số
lượng tương đương của các ngân hàng thất bại và không thất bại.
Page
11
Tác giả báo cáo một hiệu suất 93% khi sử dụng dữ liệu từ báo cáo tài
chính có sẵn mới nhất, 85% khi sử dụng báo cáo thu được một năm trước và
75% đối với báo cáo hai năm trước . Mô hình sản xuất một bộ khoảng 50 IF-
THEN luật mờ, trong đó mô tả sự tương tác giữa các biến đầu vào 9 lựa
chọn và quan sát tác động của chúng đối với sức khỏe tài chính của các ngân
hàng.
Shin và Lee (2002) đề xuất một mô hình dựa trên thuật toán di truyền
(GAs). Các tác giả nhấn mạnh thực tế là trái ngược với NNS, Gas có thể
dùng các nguyên tắc dễ hiểu. GAs đã được áp dụng để tìm ngưỡng cho một
hoặc nhiều biến trên hoặc dưới của một công ty được coi là nguy hiểm. Mô
hình này sử dụng một cấu trúc các quy tắc có chứa 5 điều kiện mỗi trong số
đó được gọi là một biến của 9 chỉ tiêu tài chính. Các điều kiện được kết hợp
với toán tử AND. Tập dữ liệu chứa 264 thất bại và 264 doanh nghiệp không
thất bại, trong khi 9 chỉ tiêu tài chính đã được chọn như là các biến đầu vào.
90% mẫu được sử dụng để đào tạo và 10% để xác nhận. Việc thực hiện báo
cáo chung là khoảng 80%.
Kim và Han (2003) đã xây dựng một mô hình định lượng dựa trên các

hệ chuyên gia giải quyết vấn đề kiến thức. Các chuyên gia làm việc theo
cách chủ quan của họ đánh giá sự kiện và định lượng. Mô hình này sử dụng
một phương pháp GA để trích xuất quyết định các quy tắc từ các chuyên gia
để dự đoán phá sản. Mô hình này áp dụng theo phương pháp các chuyên gia
của ngân hàng thương mại Hàn Quốc. Để dự đoán các chuyên gia đánh giá
phá sản dựa vào 6 yếu tố nguy cơ lớn. Trong mô hình này một nhiễm sắc thể
chứa 6 phân đoạn đại diện cho một phân loại của một công ty theo 6 yếu tố
nguy cơ. Một bộ phận thứ 7 trong nhiễm sắc thể phân loại các công ty như
phá sản hay không phá sản. Mẫu dữ liệu chứa 772 công ty, một nửa trong số
đó đã bị phá sản. Các chuyên gia đánh giá các yếu tố rủi ro 6 cho các công
ty. Quá trình tiến hóa di truyền chiết xuất 11 quy tắc phá sản. Ngoài ra quy
tắc đã được chiết xuất bằng cách sử dụng một lan truyền ngược NN và học
tập quy nạp. Quy tắc chiết xuất với GA được báo cáo là có độ chính xác tốt
hơn so với tiên đoán Học NN và quy nạp.
Dimitras et al. (1998) áp dụng RST cho mục đích dự báo phá sản. Tập
huấn luyện có dữ liệu cho 40 thất bại và 40 không thất bại trong khoảng thời
gian năm năm của các công ty Hy Lạp. Tập thử nghiệm chứa 19 thất bại và
Page
12
19 không thất bại. Một người quản lý tín dụng của một ngân hàng Hy Lạp
lựa chọn 12 chỉ tiêu tài chính từ các bảng thông tin và các giá trị liên tục rời
rạc. Phân tích tập thô 54 mẫu, mỗi mẫu chứa 5-7 thuộc tính, người quản lý
ngân hàng được lựa chọn một trong những mẫu đó và do đó các thuộc tính
còn lại loại bỏ đi. Cuối cùng được các nguyên tắc quyết định. Kết quả của
phương pháp này so sánh với kết quả phân tích phân biệt và phân tích logit
và đã được tìm thấy ưu thế.
McKee (2003) có kết quả thu được bằng cách so sánh sử dụng RST có
tác động kiểm toán viên thực tế với mục đích dự báo phá sản. Mẫu dữ liệu
bao gồm 146 công ty bị phá sản và 145 không bị phá sản ở Mỹ. 11 yếu tố
tiên đoán đã được lựa chọn, 10 trong số đó là chỉ tiêu tài chính và 1 là một ý

kiến kiểm toán trước. Tập thô sản xuất 87 mẫu, mỗi cái sử dụng 4-6 biến và
2 mẫu được lựa chọn. Hai mô hình của nguyên tắc quyết định đã được phát
triển. Các kết quả của các mô hình được so sánh với tỷ lệ thực tế của kiểm
toán viên và đã được tìm thấy gần như bằng nhau. Tác giả kết luận rằng các
mô hình phát triển trong nghiên cứu này cung cấp không có lợi thế so sánh
tiên đoán đáng kể so với các phương pháp hiện hành của kiểm toán viên.
Beynon và Peel (2001) sử dụng một phát triển của RST: Precision
RST biến. VPRST kết hợp luật Quyết định và cho phép phân loại một phần
bằng cách giới thiệu một mức độ tin cậy trong phân loại. Ngược lại với
những nỗ lực nghiên cứu trước đây các giá trị rời rạc được thực hiện bởi con
người, tác giả sử dụng phương pháp FUSINTER cho mục đích rời rạc. Mẫu
dữ liệu chứa 45 thất bại và 45 không thất bại của các công ty công nghiệp
Vương quốc Anh. 30 thất bại và 30 công ty không không hình thành mẫu
huấn luyện, trong khi số còn lại hình thành mẫu. 12 biến, 8 tài chính và 4
biến chất lượng đã được chọn để sinh ra luật. Sau khi có mẫu và việc lựa
chọn một trong số đó, một bộ 12 quy tắc thu được. Kết quả VPRST được so
sánh với kết quả của nhiều phương pháp tính xác suất, Phân tích logit, thuật
toán đệ quy cây Quyết và phương pháp Elysee . Trong mẫu đào tạo và
VPRST vượt trội so với những phương pháp khác.
Park và Han (2002) nghiên cứu phát triển một mô hình CBR để dự
đoán phá sản. Đo khoảng cách sử dụng tính năng trọng lượng. Trọng lượng
được tính toán bằng cách sử dụng các phương pháp phân tích Hierarchy
Process (AHP). Mẫu bao gồm 1072 thất bại và 1072 công ty không thất bại.
Page
13
13 biến tài chính và 15 biến không tài chính đã được lựa chọn cho đầu vào.
Các tác giả cho rằng AHP / CBR thực hiện tốt hơn so với CBR không , CBR
hồi quy logit và CBR.
4.2 Hiệu quả và không hiệu quả trong tài tính.
Theo SAS 59, kiểm toán viên đánh giá khả năng khách hàng của mình

để tiếp tục có hiệu quả cho ít nhất một năm vượt ra ngoài dữ liệu bảng cân
đối. Nếu có dấu hiệu cho thấy các công ty sẽ phải đối mặt với khó khăn tài
chính, có thể dẫn đến thất bại, kiểm toán viên phải đưa ra một báo cáo hiệu
quả. Việc đánh giá tình trạng hoạt động liên tục không phải là một nhiệm vụ
dễ dàng. Nghiên cứu báo cáo rằng chỉ có một tỷ lệ tương đối nhỏ của các
công ty không đủ điều kiện trên cơ sở hiệu quả (Koh 2004). Để tạo thuận lợi
cho kiểm toán viên trên báo cáo hiệu quả phát hành nhiệm vụ, kỹ thuật
thống kê và máy học đã được đề xuất.
Koh (2004) so sánh Lan truyền ngược với NN,Cây quyết định và
phương pháp hồi quy logistic trong một nghiên cứu dự đoán hiệu quả. Mẫu
dữ liệu chứa 165 công ty hiệu quả và 165 công ty không hiệu quả. 6 chỉ tiêu
tài chính được lựa chọn sử dụng như là các biến đầu vào. Tác giả báo cáo
rằng Quyết định Cây vượt trội so với hai phương pháp khác.
Tan và Dihardjo (2001) xây dựng dựa trên một nghiên cứu trước đây
của Tan. Dự báo khủng hoảng tài chính cho tổ chức tín dụng Úc bằng cách
sử dụng NNS. Trong nghiên cứu trước đó của Tan sử dụng dữ liệu tài chính
quý và cố gắng dự báo sự cố trong quý. Tan và Dihardjo cải thiện phương
pháp bằng cách giới thiệu khái niệm "phát hiện sớm". Khi mô hình dự đoán
rằng tổ chức tài chính có sự cố trong một quý cụ thể chắc chắn rằng sẽ có sự
cố trong quý tiếp theo và tối đa là 4 quý, mỗi quý được dán nhãn “phát hiện
sớm”. Phương pháp cải tiến này thực hiện tốt hơn so với trước đó về tỉ lệ lỗi
loại II. 13 chỉ tiêu tài chính đã được sử dụng như là các biến đầu vào và
2144 mẫu quan sát được sử dụng. Kết quả được so sánh với mô hình Probit
và đã được tìm thấy nhỉnh hơn đặc biệt là tỷ lệ lỗi Loại 1.
Konno và Kobayashi (2000) đề xuất một phương pháp để đánh giá
doanh nghiệp bằng cách sử dụng các kỹ thuật lập trình toán học. Phương
pháp này được thực hiện không có giả định phân phối về các dữ liệu. Ba lựa
chọn thay thế dựa trên phân biệt bởi siêu phẳng, phân biệt bởi bề mặt bậc hai
và phân biệt bởi bề mặt elip đã được sử dụng. 6 chỉ tiêu tài chính bắt nguồn
Page

14
từ báo cáo tài chính đã được sử dụng như là các biến đầu vào. Mẫu dữ liệu
chứa 455 doanh nghiệp. Phương pháp tính điểm cho từng doanh nghiệp.
4.3 Gian lận Quản lý
Gian lận quản lý là gian lận cam kết của các nhà quản lý thông qua
báo cáo tài chính giả mạo. Gian lận quản lý hại đến cơ quan thuế, cổ đông và
chủ nợ.
Spathis (2002) đã phát triển hai mô hình để xác định báo cáo tài chính
giả mạo từ số liệu công bố công khai. Biến đầu vào của mô hình đầu tiên
chứa 9 chỉ tiêu tài chính. Cho Mô hình thứ hai z-score được thêm vào như
biến đầu vào để phù hợp với mối quan hệ giữa khủng hoảng tài chính và
thao tác báo cáo tài chính. Phương pháp sử dụng là hồi quy logistic và các
mẫu dữ liệu chứa 38 FFS và 38 công ty không FFS. kết quả hai mô hình cho
thấy 3 biến có hệ số quan trọng vào mô hình.
4.4 Dự báo Hiệu suất của công ty
Lam (2003) đã phát triển một mô hình để dự đoán tỷ lệ lợi nhuận trên
vốn chủ sở hữu của cổ đông phổ thông. Cô sử dụng lan truyền ngược NNS
và các quy tắc suy ra từ trọng lượng của các kết nối bằng cách áp dụng các
thuật toán GLARE. Vector đầu vào bao gồm 15 tỷ lệ báo cáo tài chính và 1
biến phân tích kỹ thuật. Thêm vào đó 11 biến kinh tế vĩ mô. Mẫu dữ liệu
chứa 364 công ty.
Back et al. (2001) đã phát triển hai mô hình cho các công ty theo cụm
hiệu suất của họ. Cả hai mô hình sử dụng SOM. Mô hình đầu tiên hoạt động
trên dữ liệu tài chính của 160 công ty. Bằng cách sử dụng các kỹ thuật khai
thác văn bản, mô hình thứ hai phân tích báo cáo hàng năm của các giám đốc
điều hành các công ty. Các tác giả kết luận rằng có sự khác biệt giữa các kết
quả phân nhóm của hai phương pháp.
Kloptchenko et al. 2004 xây dựng trên công trình nghiên cứu đã đề
cập trước. Hai mô hình được phát triển, một phân tích chỉ tiêu tài chính và
hai phân tích báo cáo của các giám đốc điều hành. Phương pháp nghiên cứu

này sử dụng máy nguyên mẫu, là sử dụng để phân tích báo cáo. Bằng cách
so sánh các kết quả của chất lượng và các phương pháp định lượng các tác
giả kết luận rằng các báo cáo văn bản có xu hướng dự đoán những thay đổi
trong tình hình tài chính trước khi những thay đổi này ảnh hưởng một cách
rõ ràng các tỷ lệ tài chính.
4.5 Ước tính rủi ro tín dụng
Page
15
Nhiệm vụ của phân tích rủi ro tín dụng trở nên đòi hỏi nhiều hơn do
tăng số vụ phá sản và cạnh tranh của các chủ nợ. Kỹ thuật DM đã được áp
dụng để tạo điều kiện lập dự toán rủi ro tín dụng.
Huang et al. (2003) thực hiện phân tích xếp hạng tín dụng bằng cách
sử dụng Support Vector Machines (SVM), một kỹ thuật máy học. Hai bộ dữ
liệu đã được sử dụng; một là 74 công ty Hàn Quốc và 265 công ty Mỹ. Đối
với cả hai tập dữ liệu thì 5 loại đánh giá được xác định. Hai mô hình cho bộ
dữ liệu của Hàn Quốc và hai mô hình cho bộ dữ liệu của Mỹ, mô hình còn
lại để xây dựng vector đầu vào. SVM và lan truyền ngược NNS được sử
dụng để dự đoán xếp hạng tín dụng. SVM thực hiện tốt hơn trong ba của bốn
mô hình. Một xem xét của nghiên cứu là để giải thích NN. Phương pháp
Garson được sử dụng để đo tầm quan trọng tương đối của các giá trị đầu
vào.
Mues et al. (2004) sử dụng sơ đồ quyết định quy tắc đánh giá rủi ro tín
dụng. Sơ đồ Quyết định có lợi thế mang tính lý thuyết cây quyết định nó
tránh sự lặp lại đẳng cấu của các cây con. Hai bộ dữ liệu được sử dụng, một
là dữ liệu của Đức và hai là dữ liệu Benelux. Một NN đã được sử dụng để
thực hiện việc phân loại. Các phương pháp khai thác Neurorule và Trepan
được áp dụng để trích xuất các quy tắc từ mạng. Ngoài ra C4.5. Quy định
C4.5 và phương pháp đồ thị Entropy-based Oblivious Decision dùng những
cây quyết định và quy định. Hiệu suất của Neurorule và Trepan được so sánh
với hiệu suất của NNS và cao hơn việc thực hiện các phương pháp khác.

Cuối cùng các quy tắc đã được hình dung theo hình thức sơ đồ quyết định.
5. Nghiên cứu vấn đề về đánh giá và tương lai.
Tài chính kế toán là lĩnh vực ứng dụng phổ biến cho DM. Việc phân
loại và dự đoán khả năng của phương pháp DM cho phép họ được sử dụng
cho các mục đích dự báo phá sản, hiệu quả và không hiệu quả trong tài chính
và phát hiện gian lận quản lý, dự toán rủi ro tín dụng và dự đoán hiệu suất
của công ty. Kiểm toán viên, các chuyên gia chấm điểm tín dụng và các nhà
đầu tư có thể được tạo điều kiện trong công việc của mình và đạt được thời
gian và chi phí trong quá trình ra quyết định của mình.
Dự báo phá sản dường như thu hút sự quan tâm của hầu hết các nhà
nghiên cứu từ gần một nửa số giấy tờ đề cập đến chủ đề này. Các lĩnh vực
ứng dụng của các tài liệu kiểm tra được mô tả trong bảng 1. Việc kiểm tra
Page
16
các tài liệu thu thập được để thảo luận về phương pháp làm việc, dữ liệu
được sử dụng và số liệu hiệu suất của chủ đề này.
Lĩnh vực áp dụng Tài liệu
Phá sản 8
Hiệu quả và không hiệu quả tài chính 3
Hiệu suất của công ty và dự báo 3
Ước tính rủi ro tín dụng 2
Gian lận quản lý 1
Bảng 1: Lĩnh vực áp dụng
5.1 Phương pháp và mô hình.
Các phương pháp hạn DM bao gồm một loạt các phương pháp có
nguồn gốc từ thống kê, Trí tuệ nhân tạo và cơ sở dữ liệu. Trong các tài liệu
thu thập Neural Networks là mô hình được sử dụng nhiều nhất. Bảng 2 cho
thấy các mô hình làm việc
Mô hình Tài liệu
Mạng Neural 8

Tập thô 3
Cây quyết định 2
Thuật toán di truyền 2
Lai 2
Cơ sở lý luận 1
Lập trình toán học 1
Hồi quy logic 1
Máy hỗ trợ vector 1
Bảng 2: Mô hình làm việc
Mặc dù nhiều nhà nghiên cứu nhấn mạnh thực tế là mô hình lai là kết
hợp các đặc điểm và lợi thế của mô hình để cải thiện hiệu suất hoặc diễn
giải, mô hình lai được sử dụng trong hai trường hợp. Một hướng nghiên cứu
trong tương lai có thể phát triển và ứng dụng các mô hình lai.
Một hướng cải tiến mô hình là tăng cường các mô hình hiện có với
các thuật toán tiên tiến. Biến chính xác RST, Analytic Hierarchy Process
Page
17
CBR và GA mà sử dụng phương pháp thích hợp là những ví dụ của trường
hợp này.
Thiết kế của kiến trúc NN vẫn còn là một vấn đề của nghệ thuật. xác
định được Số lượng tế bào neural, số lượng các lớp và các chức năng chuyển
đổi tùy biến và chủ quan. Phương pháp đề xuất một kiến trúc NN tối ưu cho
một trường hợp cụ thể có thể được phát triển.
Mặc dù những lời chỉ trích chính trên NN là hành động như hộp đen,
chỉ hai trường hợp nỗ lực đã được thực hiện để giải thích các mô hình (các
thuật toán GLARE, Neurorule, Trepan). Nỗ lực nghiên cứu có thể hướng tới
việc giải thích mô hình ra quyết định của NNS.
Trong bốn trường hợp mô hình AI được quy chuẩn thành mô hình
thống kê. Phương pháp AI có lợi thế về mặt lý thuyết mà không áp đặt giả
định tùy ý trên các biến đầu vào. Tuy nhiên, kết quả báo cáo của các phương

pháp AI chỉ hơi tốt hơn các kết quả của phương pháp thống kê. Trong một số
trường thì báo cáo mô hình thống kê thực hiện tốt hơn. Nỗ lực nghiên cứu
bổ sung là cần thiết để hiện thực những ưu điểm của các mô hình lý thuyết
AI.
Phương pháp trực quan được chiết xuất là trọng tâm góp phần nghiên
cứu trong tương lai.
Công cụ khai thác dữ liệu là những ứng dụng độc lập hoặc là một
phần của bộ phần mềm phân tích thống kê. Nhúng công cụ DM trong cơ sở
dữ liệu thương mại hoặc các hệ thống ERP có thể tạo thuận lợi cho việc phổ
biến và sử dụng cho các chuyên gia trong kinh doanh.
5.2 Dữ liệu
Các dữ liệu được sử dụng trong các tài liệu thu thập chủ yếu bắt
nguồn từ báo cáo tài chính. Trong tám trường hợp, các vector đầu vào chỉ
bao gồm từ chỉ tiêu tài chính. Trong trường hợp chỉ số tỷ lệ tài chính không
được sử dụng trong các vector đầu vào. Nhiều tác giả đề cập đến nhiều
thông tin cần thiết để làm phong phú thêm vector đầu vào. Biến kinh tế vĩ
mô bao gồm. Thông tin định tính chiến lược các mục tiêu của công ty, quan
điểm của kiểm toán, kinh nghiệm quản lý, thông tin thị trường và cập nhật
kinh tế, chính trị, xã hội và kỹ thuật công nghệ. Trong hai kỹ thuật khai thác
văn bản được sử dụng để phân loại và dự đoán hiệu suất của công ty.
Các tác giả công nhận rằng, trong một số mẫu kiểm tra có kích thước
không đủ lớn để đạt yêu cầu. Mẫu nhỏ có thể thiên vị về các kết quả. Hơn
Page
18
nữa có sự khác biệt quan trọng trong kích thước huấn luyện, xác nhận và
kiểm tra mẫu. Bảng 3 mô tả kích thước mẫu.
Kích thước mẫu Tài liệu
>1000 4
>500 2
>200 5

<=200 5
Bảng 3. Cỡ mẫu
Cơ sở dữ liệu tài chính trong nhiều trường hợp có chứa một số lượng
lớn các chỉ tiêu tài chính. Nhiều tỷ lệ dữ liệu chứa thông tin chồng chéo
nhau. Hơn nữa nghiên cứu đã chỉ ra rằng một số lượng nhỏ tương đối của tỷ
lệ thích hợp cho mục đích phân loại và dự báo. Vì những lý do lựa chọn tính
năng được yêu cầu. Trong bảy trường hợp các nhà nghiên cứu dựa trên các
nghiên cứu trước đó để lựa chọn các biến đầu vào. Trong bốn trường hợp lựa
chọn được dựa trên đánh giá con người. Sự ra đời của phương pháp ANOVA
có thể cải thiện nhiều trong lựa chọn các tính năng.
Sự tồn tại của các giá trị lỗi là phổ biến trong dữ liệu tài chính. Kế
hoạch để xử lý các dữ liệu lỗi này người ta sử dụng giá trị trung bình của các
lớp hay sử dụng các giá trị phổ biến để đánh giá và đề xuất.
dữ liệu Rời rạc là một vấn đề để cần xem xét. Trong một số trường
hợp người đã được sử dụng dữ liệu hóa rời rạc mà có thể sử dụng được.
5.3 Số liệu hiệu suất
Một xem xét quan trọng là số liệu hiệu suất. Hiệu suất bằng cách kiểm
tra đánh giá các mô hình chống lại một thử nghiệm và có thể là một mẫu xác
nhận.
Trong nhiều trường hợp không có mẫu xác nhận và các mẫu thử
nghiệm được sử dụng để đo hiệu suất của mô hình. Một số thuật toán sử
dụng các mẫu thử nghiệm để ngăn chặn của mô hình huấn luyện. Điều này
có thể giới thiệu một xu hướng (gọi là "overfitting") điều quan trọng là để đo
hiệu suất trên một mẫu xác nhận.
Độ chính xác cơ bản được tính là tỷ lệ phân loại đúng hoặc dự đoán.
Tuy nhiên, có một xem xét bổ sung liên quan đến lỗi loại 1 và loại 2. Một lỗi
Page
19
loại 1 xảy ra khi các mô hình dự đoán không phá sản đối với một công ty mà
công ty đó thực sự bị phá sản. Một lỗi loại 2 xảy ra khi các mô hình dự báo

phá sản cho một công ty phát triễn tốt. lỗi Loại 1 và loại 2 có chi phí khác
nhau. lỗi Loại 1 có thể dẫn đến quyết định sai lầm có thể gây tổn thương tài
chính. lỗi Loại 2 có thể gây ra thêm các cuộc điều tra. Do đó lỗi loại 1 có chi
phí lớn hơn lỗi loại 2. Chi phí tương đối của các loại lỗi Loại I và II phải
được xem xét trong số liệu hiệu suất.
6. Kết luận.
Kỹ thuật DM có phân loại và dự đoán khả năng có thể tạo thuận lợi
cho quá trình ra quyết định trong các vấn đề tài chính. Nhiệm vụ tài chính và
dự báo là thu thập các tài liệu để giải quyết các chủ đề dự đoán phá sản, dự
toán rủi ro tín dụng, hiệu quả trong báo cáo, khủng hoảng tài chính, dự đoán
hiệu suất quản lý và gian lận của công ty. Dự báo phá sản dường như là một
ứng dụng phổ biến nhất.
Các phương pháp khai thác dữ liệu được sử dụng trong các tài liệu thu
thập bao gồm mạng Neural , Thuật toán di truyền, Cây Quyết định, tập thô,
cơ sở lý luận và lập trình toán học. Hầu hết các nhà nghiên cứu có vẻ thích
mô hình mạng Neural .
Mặt dủ số lượng đáng kể nghiên cứu ứng dụng các kỹ thuật DM
nhưng cần phải nghiên cứu thêm lĩnh vực này trong tương lai.
Việc giới thiệu các mô hình lai, cải thiện các mô hình hiện có, khai
thác các quy tắc của mạng neural, cải thiện hiệu suất và sự tích hợp của hệ
thống ERP với các công cụ DM có thể là một xu hướng nghiên cứu trong
tương lai.
Các dữ liệu được sử dụng làm giàu của vector đầu vào với chất lượng
thông tin và cách sử dụng và đánh giá các tính năng để lựa chọn phương
pháp chính thức và dữ liệu riêng để có khả năng nghiên cứu mở.
Một yếu tố nữa mà đòi hỏi phải tiếp tục nghiên cứu là đánh giá của
chi phí tương đối của lỗi loại I và loại II .
Page
20
Tương lai đang mở. Nỗ lực nghiên cứu sẽ tiếp tục cải thiện các mô

hình và phương pháp làm cho DM trở thành một công cụ có giá trị hơn trong
ngành tài chính và kế toán.


Mục lục

Page
21

×