Tải bản đầy đủ (.doc) (39 trang)

Tiểu luận môn hệ hỗ trợ quyết định Tìm hiểu datamining qua bài báo và ứng dụng cây quyết định dự báo sức khỏe dựa vào việc xem mạch trong đông y

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.49 MB, 39 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐỀ TÀI:
Giảng viên hướng dẫn: PGS.TS. ĐỖ PHÚC
Học viên thực hiện:
1. LÊ KIM NGA – CH1301040
2. NGUYỄN THÀNH THIỆN – CH1301059
Lớp: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 2
TPHCM, tháng 6/ 2014
MỤC LỤC
MỤC LỤC 2
LỜI GIỚI THIỆU 4
PHẦN I: NỘI DUNG BÀI DỊCH 5
I.1. Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting
Fraud Detection Scheme.pdf” 5
1. Giới thiệu: 5
2. Một gian lận là gì? 7
3. Phương pháp tiếp cận khai phá dữ liệu: 8
3.1 Phân loại các ứng dụng khai phá dữ liệu: 10
3.2 Phân loại kỹ thuật khai phá dữ liệu cho phát hiện gian lận trong Kế toán tài chính: 12
4. Khai phá dữ liệu dựa trên khung đối với phát hiện gian lận: 15
5. Kết luận: 16
I.2. Những kiến thức thu thập được qua bài báo: 18
PHẦN II: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DÙNG CÂY QUYẾT
ĐỊNH QUA VIỆC BẮT MẠCH 19
II.1. Giới thiệu sơ lược về khai phá dữ liệu: 19
1.Khai phá dữ liệu là gì? 19
2.Quá trình khai phá dữ liệu: 19
3.Chức năng của khai phá dữ liệu: 20
4.Các kỹ thuật khai phá dữ liệu: 20


5.Các dạng dữ liệu có thể khai phá được: 22
6.Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu: 22
7.Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu 23
II.2. Giới thiệu về khai phá dữ liệu sử dụng cây quyết định: 24
2.1. Cây quyết định: 24
2. 2. Các thuật toán khai phá dữ liệu bằng cây quyết định: 26
II.3. Xây dựng cây quyết định dự báo sức khỏe qua việc bắt mạch trong Đông y: 28
3.1. Giới thiệu sơ lược phương pháp bắt mạch trong Đông y: 28
3.2. Thu thập và tiền xử lý dữ liệu: 29
3.3. Xây dựng cây quyết định dựa vào thuật toán ID3: 32
II.4. Cài đặt thuật toán thử nghiệm: 36
4.1. Giao diện của chương trình: 36
4.2. Kết quả thử nghiệm với bộ dữ liệu đã cho ở bảng trên: 37
II.5. Kết luận và hướng phát triển: 38
TÀI LIỆU THAM KHẢO 39
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 3
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 4
LỜI GIỚI THIỆU
Lời đầu tiên chúng em xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã nhiệt tình giảng
dạy và truyền đạt kiến thức cho chúng em với môn học Hệ hỗ trợ ra quyết định.
Sau thời gian học tập và nghiên cứu về môn học này, nhóm chúng em gồm hai thành
viên: LÊ KIM NGA – CH1301040 và NGUYỄN THÀNH THIỆN – CH1301059 thống
nhất chọn một bài báo để tìm hiểu thông qua việc dịch và rút ra những kiến thức tiếp thu
được của bài báo này. Đồng thời, chúng em chọn nội dung để viết thu hoạch và xây dựng
ứng dụng với mục đích áp dụng khai phá dữ liệu sử dụng cây quyết định để dự báo một
người “Có bệnh” hay “Không có bệnh” thông qua việc bắt mạch trong Đông Y.

Nội dung bài thu hoạch của chúng em gồm các phần:
Phần I: Nội dung bản dịch của bài báo;
Phần II: Ứng dụng kỹ thuật khai phá dữ liệu dùng cây quyết định qua việc bắt mạch;
Phân công công việc của từng thành viên:
1. Lê Kim Nga:
− Tìm hiểu về Data Mining và Kỹ thuật khai phá dữ liệu dùng cây quyết định;
− Tìm hiểu về xem mạch trong Đông y và xây dựng bảng dữ liệu dựa vào các
thông tin thu thập được;
− Xây dựng và cài đặt thuật toán tính Gain, Entropy;
− Dịch sơ lược bài báo và hỗ trợ việc thiết kế, hiệu chỉnh giao diện chương trình
Demo; Viết báo cáo thu hoạch;
2. Nguyễn Thành Thiện:
− Tìm hiểu về Data Mining và Kỹ thuật khai phá dữ liệu dùng cây quyết định;
− Xây dựng và cài đặt thuật toán ID3 và vẽ cây;
− Thiết kế giao diện, tập tin dữ liệu đầu vào và chương trình chính;
− Rà soát và điều chỉnh nội dung bản dịch của bài báo; Viết báo cáo thu hoạch;
Do thời gian nghiên cứu có hạn và bản thân chúng em cũng còn nhiều hạn chế nên
bài thu hoạch này chắc chắn sẽ không tránh khỏi phần sai sót. Chúng em mong nhận được
lời góp ý của PGS.TS. Đỗ Phúc để hướng phát triển sắp tới của chúng em sẽ hoàn thiện và
đạt kết quả tốt hơn. Chúng em chân thành cảm ơn!
NHÓM HỌC VIÊN THỰC HIỆN
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 5
PHẦN I: NỘI DUNG BÀI DỊCH
I.1. Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting
Fraud Detection Scheme.pdf”
Áp dụng các kỹ thuật khai phá dữ liệu cho Kế toán tài chính
Đề án Phát hiện gian lận
Tóm tắt: kỹ thuật khai phá dữ liệu được cung cấp viện trợ lớn trong việc phát hiện gian

lận kế toán tài chính, kể từ khi giao dịch với khối lượng dữ liệu lớn và phức tạp của dữ
liệu tài chính là những thách thức lớn đối với ngành kế toán. Việc thực hiện các kỹ thuật
khai phá dữ liệu để phát hiện gian lận sau dòng chảy thông tin truyền thống khai phá dữ
liệu, bắt đầu với lựa chọn tính năng tiếp theo thu thập dữ liệu và quản lý trước, sau đó
chế biến và đánh giá hiệu suất. Các phương pháp khai phá dữ liệu có khả năng phát
hiện gian lận bởi vì những kỹ thuật này có thể sử dụng các trường hợp gian lận trong
quá khứ để xây dựng các mô hình, trong đó xác định và phát hiện các nguy cơ gian lận.
Báo cáo tài chính lừa đảo, một trong những hành vi gian lận tài chính, đã đạt tỷ lệ phổ
biến trên toàn cầu. Sự sụp đổ của nhiều công ty tư nhân đã để lại một vết bẩn trên hiệu
quả của quản trị doanh nghiệp, chất lượng của báo cáo tài chính, và độ tin cậy của chức
năng kiểm toán. Gian lận báo cáo tài chính đã trở thành một vấn đề quan trọng của các
doanh nghiệp trên thế giới. Mục đích của sự đóng góp này là để giới thiệu một số kỹ
thuật khai phá dữ liệu để phát hiện gian lận và ngăn chặn các hoạt động gian lận trong
thẻ tín dụng và viễn thông của một doanh nghiệp để tiết kiệm chi phí nhiều hơn, và cũng
vì lợi ích chung của doanh nghiệp qua việc xác định bằng chứng pháp lý tiềm năng.
Từ khóa chính: Khai phá dữ liệu; Kiểm toán; Phát hiện gian lận, gian lận tài chính,
Tam giác gian lận.
1. Giới thiệu:
Kiểm toán ngày nay đã trở thành một nhiệm vụ ngày càng cao và có nhiều bằng chứng rằng
"book cooking" là thông lệ kế toán được áp dụng rộng rãi. Koskivaara gọi năm 2002, "năm
khủng khiếp", từ việc xem sổ sách kế toán và tuyên bố rằng việc này vẫn đang tiếp diễn
(Koskivaara, 2004). Một số ước tính nói rằng chi phí gian lận kinh doanh Mỹ hơn 400 tỷ
USD mỗi năm (Wells, 1997). Spathis, Doumpos, và Zopounidis (2002) cho rằng gian lận
báo cáo tài chính ngày càng trở nên thường xuyên trong vài năm qua. Yêu cầu của việc phát
hiện, xác định và gian lận báo cáo kế toán tài chính đã tăng lên [1]. Gian lận quản lý có thể
được định nghĩa là sự gian lận có chủ ý của quản lý mà gây thiệt hại cho nhà đầu tư và các
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 6
chủ nợ thông qua tài liệu sai lệch báo cáo tài chính. Trong quá trình kiểm toán, kiểm toán

viên phải đánh giá khả năng gian lận quản lý. Oxford Từ điển tiếng Anh [2] định nghĩa gian
lận là "sai trái hoặc lừa dối hình sự có ý định dẫn đến lợi ích tài chính hoặc cá nhân".
Trong tài liệu học thuật, gian lận được định nghĩa là dẫn đến sự lạm dụng của hệ thống tổ
chức lợi nhuận mà không nhất thiết phải dẫn đến hậu quả pháp lý trực tiếp [3]. Mặc dù các
tài liệu còn thiếu một định nghĩa được chấp nhận của gian lận tài chính, nhà nghiên cứu đã
xác định nó như là "Một hành động cố ý đó là trái pháp luật, nguyên tắc hay chính sách với
mục đích để có được lợi ích tài chính trái phép "[4] và" cố ý sai sót trọng yếu hoặc thiếu sót
của số lượng người sử dụng lừa gạt tài chính, đặc biệt là các nhà đầu tư và các chủ nợ "
[5]. gian lận kế toán thực hiện bằng cách làm cho báo cáo tài chính kế toán giả mạo mà
những con số thao túng bởi phóng đại tài sản, mục giả mạo liên quan đến doanh thu và lợi
nhuận, chiếm đoạt tiền thuế, hoặc dư nợ phải trả, nợ, chi phí hoặc tổn thất [1]. Sự gian lận
kế toán cũng được xác định bởi các chuyên gia kế toán là "có chủ ý và thực hiện không
đúng các ghi chép số liệu trong báo cáo tài chính để đạt được một lợi nhuận hoạt động của
công ty tốt hơn so với thực tế"[6].
Trong kinh tế, gian lận tài chính đang trở thành một vấn đề ngày càng nghiêm trọng và gian
lận kế toán phát hiện một cách hiệu quả đã và đang là một nhiệm vụ quan trọng nhưng phức
tạp cho các chuyên gia kế toán [7]. Kiểm toán nội bộ của các vấn đề tài chính trong các
công ty đã trở thành một hoạt động ngày càng thường xuyên và có nhiều bằng chứng cho
thấy "book cooking" là thông lệ kế toán được áp dụng trên toàn thế giới để thực hiện hành
vi gian lận tài chính [8]. Việc phát hiện gian lận kế toán sử dụng thủ tục kiểm toán nội bộ
truyền thống là một khó khăn hay đôi khi là một nhiệm vụ không thể [9]. Thứ nhất, kiểm
toán viên thường thiếu kiến thức cần thiết liên quan đến các đặc điểm của gian lận kế
toán. Thứ hai, như các thao tác gian lận số liệu kế toán là rất hiếm khi xảy ra, hầu hết các
kiểm toán viên thiếu kinh nghiệm và chuyên môn cần thiết để phát hiện và ngăn chặn gian
lận. Cuối cùng, những người quan tâm khác của bộ phận tài chính như Giám đốc tài chính
(CFO), quản lý tài chính và kế toán đang cố tình tìm cách đánh lừa các kiểm toán viên nội
bộ hay bên ngoài [10]. Trong khi biết những hạn chế của kiểm toán, quản lý tài chính và kế
toán đã kết luận rằng thủ tục kiểm toán truyền thống và những tiêu chuẩn là không đủ để
phát hiện gian lận. Những hạn chế của kiểm toán tài chính đề nghị cần bổ sung dữ liệu tự
động thủ tục phân tích và các công cụ để phát hiện hiệu quả của báo cáo tài chính sai

lệch. Nó là cần thiết để đưa vào hạch toán chi phí của việc phát hiện gian lận và các chi phí
của hành vi lừa đảo, bởi vì ngăn chặn gian lận vài đô la có thể đòi hỏi một hệ thống rất tốn
kém. Điều này có thể thực hiện bằng cách sử dụng một lớp quyết định trên hệ thống để
quyết định các hành động có tính đến các yếu tố như số lượng giao dịch và rủi ro liên quan
đến người sử dụng thực hiện các giao dịch. Sự phát triển của phương pháp phats hiện mới là
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 7
khó khăn hơn do sự hạn chế nghiêm trọng về quyền riêng tư và trao đổi ý tưởng. Hơn nữa,
tập hợp dữ liệu không có sẵn và kết quả thường không được tiết lộ cho công chúng. Các
chiến lược kiểm toán lập kế hoạch là một vấn đề phát hiện gian lận cùng với mục đích ngăn
ngừa phân tích dữ liệu kiểm toán và xây dựng lịch sử mô hình lập kế hoạch kiểm toán có
hiệu quả trong tương lai. Một ứng dụng tài chính và bảo hiểm theo vùng, nơi kiểm tra nhằm
phát hiện trốn thuế và công khai gian lận. Một nghiên cứu trường hợp này được trình bày
bởi Bonchi (1999) minh họa cách kỹ thuật dựa trên phân loại có thể được sử dụng để hỗ trợ
công việc của các chiến lược kiểm toán lập kế hoạch.
Các phương pháp phát hiện gian lận trong đấu giá trực tuyến (Shah, 2002) được dựa trên
phương pháp thống kê và phân tích liên kết trong để phát hiện sự cố xảy ra khi người bán cố
gắng nâng giá trong phiên đấu giá bằng cách đặt mua hồ sơ dự thầu bằng biệt/ bí danh hoặc
thông qua các mối liên hệ. Ngoài gian lận, những nỗ lực phát hiện có thể được thúc đẩy hơn
nữa bởi sự cần thiết để hiểu được hành vi của khách hàng để cho phép cung cấp dịch vụ phù
hợp và cải thiện hoạt động.
2. Một gian lận là gì?
Gian lận là hành vi cố ý có nghĩa là để tạo ra cho người khác một cái gì đó có giá trị, hoặc
từ bỏ quyền hợp pháp. Nó là một xuyên tạc hoặc che giấu thông tin để lừa dối hoặc gây
nhầm lẫn. Gian lận có thể từ nhân viên trộm cắp nhỏ và hành vi không hiệu quả để chiếm
đoạt tài sản và báo cáo gian lận tài chính. Trong bối cảnh tình huống khác nhau, gian lận có
thể có các hình thức hơi khác nhau. ví dụ, hối lộ, tham ô, chứng khoán gian lận, gian lận
chăm sóc sức khỏe, lừa đảo rửa tiền, gian lận bảo hiểm, vi phạm bản quyền phần mềm, gian
lận internet, lừa đảo qua điện thoại, lừa đảo tịch thu nhà thế chấp, và trộm cắp danh tính - tất

cả đều có đặc điểm riêng biệt của họ. Có ít nhất là nhiều loại gian lận như có nhiều loại của
những người thực hiện nó. Nhưng trong mỗi trường hợp, liên quan đến gian lận lừa
dối. Một người nào đó cố ý nằm để có được một lợi ích bất hợp pháp, hoặc một lợi thế
không công bằng. Một số ví dụ về gian lận bao gồm:
• Bất kỳ hành động không trung thực hoặc gian lận;
• Giả mạo hoặc thay đổi một phiếu, hối phiếu ngân hàng, hoặc tài liệu tài chính;
• Biển thủ tài sản;
• Cố ý không thích hợp trong việc xử lý hoặc báo cáo tiền hoặc giao dịch tài chính.
• Mạo sử dụng ảnh hưởng trong một giao dịch kinh doanh để nhận được một lợi ích (chẳng
hạn như hối lộ, lại quả, và thầu gian lận);
• Trục lợi là kết quả của thông tin nội bộ;
• Tiết lộ thông tin nội bộ cho người khác để cho họ để bảo đảm tăng bất hợp pháp.
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 8
Lạm dụng là hành vi thiếu hoặc không đúng khi so sánh với hành vi mà một người thận
trọng xem xét hành nghề kinh doanh hợp lý và cần thiết cho các sự kiện và hoàn
cảnh. Trường hợp lạm dụng không gian lận bất hợp pháp hoạt động, nhưng có hại, và họ
cần phải được giảm thiểu.
Tam giác gian lận là một mô hình để giải thích các yếu tố gây ra một người nào đó để
gian lận nghề nghiệp. Nó bao gồm ba thành phần dẫn đến hành vi gian lận:
1. Nhận thức nhu cầu tài chính không chia sẻ
2. Cơ hội cảm nhận
3. Hợp lý hoá
Hình 1: Tam giác Gian lận
3. Phương pháp tiếp cận khai phá dữ liệu:
Khai phá dữ liệu phân tích khối lượng lớn các giao dịch và dữ liệu thanh toán và tìm
ra mô hình, xu hướng và cụm đó tiết lộ gian lận. Các bước chính để thực hiện phương pháp
này để phát hiện gian lận trong một tổ chức kinh doanh là:
1. Phân tích các mục tiêu lừa đảo và gian lận tiềm năng, để chuyển đổi chúng thành mục

tiêu khai phá dữ liệu;
2. Sưu tập dữ liệu và sự hiểu biết;
3. Làm sạch dữ liệu và chuẩn bị các thuật toán.;
4. Thiết kế thử nghiệm;
5. Đánh giá kết quả để xem xét quá trình.
Vấn đề kỹ thuật liên quan là do:
1. Dữ liệu không hoàn hảo không thu thập cho mục đích khai phá dữ liệu, vì vậy họ
không chính xác, không đầy đủ, và không liên quan dữ liệu, thuộc tính;
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 9
2. Dữ liệu cao chênh lệch nhau, có rất nhiều chi tiết hợp pháp hơn ví dụ lừa đảo, vì vậy
bằng cách dự đoán tất cả các ví dụ được chính xác tỷ lệ thành công rất cao có thể đạt
được mà không phát hiện bất kỳ gian lận;
3. Cơ hội cao hơn trên phù hợp khi xảy ra khi mô hình chính xác cao phát sinh từ mô
hình phù hợp trong tập huấn luyện mà không phải là đáng tin cậy về mặt thống kê và
không có sẵn trong các thiết lập điểm. Để xử lý với các dữ liệu sai lệch tập huấn luyện
là chia thành từng miếng nơi phân phối là ít sai lệch (Chan, 1998).
Một cách tiếp cận phát hiện điển hình bao gồm trong việc phát hiện outlier nơi các hành
vi gian lận không được giả định như bình thường và xác định giá trị ngoại lai rơi xa bên
ngoài phạm vi dự kiến nên được đánh giá chặt chẽ hơn.
Kỹ thuật thống kê được sử dụng cho phương pháp này là:
1. Dự đoán và Phân loại
• Thuật toán hồi quy: mạng neural, CART, hồi quy, GLM;
• Phân loại các thuật toán (dự đoán biểu tượng Kết quả): Thanh, hồi quy logistic;
2. Phân nhóm và tìm kiếm sự kết hợp
• Clustering / Các thuật toán phân nhóm: K-Means, Kohonen, Factor analysis;
• Các thuật toán kết hợp: GRI, Capri Sequence.
Nhiều hệ thống phát hiện gian lận hiện hoạt động bằng cách: phương pháp giám sát
trên các dữ liệu được dán nhãn, phương pháp tiếp cận lai trên dán nhãn dữ liệu, phương

pháp tiếp cận bán giám sát với pháp lý (không gian lận) dữ liệu, phương pháp tiếp cận
không được giám sát với các dữ liệu không dán nhãn (Phua, 2005). Khung phân loại, được
thể hiện trong hình 1, dựa trên một nghiên cứu tài liệu hiện có kiến thức về bản chất của
khai phá dữ liệu nghiên cứu [19, 20], nghiên cứu phát hiện gian lận [18].
Một khung phân loại gian lận tài chính được đề xuất trong [7] dựa trên khung tội
phạm tài chính của Văn phòng Liên bang Mỹ điều tra [21], đó là một trong những khuôn
khổ được thiết lập cho phát hiện gian lận tài chính. Hình 2 bao gồm hai lớp, vòng đầu tiên
bao gồm sáu lớp học ứng dụng khai phá dữ liệu về phân loại, phân nhóm, dự báo, phát hiện
outlier, hồi quy, và trực quan [22,23], được hỗ trợ bởi một tập hợp các phương pháp tiếp cận
thuật toán để trích xuất các mối quan hệ có liên quan trong các dữ liệu [14].
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 10
Hình 2: Khung khái niệm cho ứng dụng của khai phá dữ liệu để phát hiện gian lận kế
toán tài chính.
Một mô tả ngắn gọn về các khuôn khổ khái niệm với tài liệu tham khảo được cung cấp và
các ứng dụng khai phá dữ liệu sáu lớp học (phân loại, phân nhóm, phát hiện outlier, dự báo,
hồi quy và trực quan), mỗi thành phần được thảo luận chi tiết hơn trong các phần sau.
3.1 Phân loại các ứng dụng khai phá dữ liệu:
Mỗi lớp ứng dụng khai phá dữ liệu được hỗ trợ bởi một tập hợp các phương pháp tiếp cận
thuật toán để trích xuất các liên quan các mối quan hệ trong dữ liệu. Những cách tiếp cận có
thể xử lý các lớp khác nhau của vấn đề. Các lớp được trình bày dưới đây.
Phân loại (Classification)- Phân loại xây dựng và sử dụng một mô hình để dự đoán các
nhãn phân loại các đối tượng không biết đến phân biệt giữa các đối tượng của các lớp khác
nhau. Các nhãn phân loại được xác định trước, rời rạc và không có thứ tự [24]. Các tài liệu
nghiên cứu mô tả rằng phân loại hoặc dự đoán là quá trình xác định một tập hợp các tính
năng phổ biến (Mô hình), và đề xuất các mô hình mô tả và phân biệt các lớp dữ liệu hoặc
các khái niệm [17]. Phân loại chung kỹ thuật bao gồm các mạng neural, kỹ thuật Naïve
Bayes, cây quyết định và Support vector Machines. Như vậy nhiệm vụ phân loại được sử
dụng trong việc phát hiện thẻ tín dụng, chăm sóc sức khỏe và bảo hiểm xe cộ, và gian lận

của công ty, trong số các loại gian lận, và phân loại là một trong những mô hình học tập phổ
biến nhất trong việc ứng dụng dữ liệu khai thác khoáng sản trong việc phát hiện gian lận.
Phân nhóm (Clustering): Clustering được sử dụng để phân vùng các đối tượng vào các
nhóm khái niệm có ý nghĩa trước đó chưa biết (tức là cụm), với các đối tượng trong một
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 11
nhóm là tương tự như nhau nhưng rất khác so với các đối tượng trong các cụm khác. Phân
nhóm còn được gọi là phân đoạn dữ liệu hoặc phân vùng và được coi là một biến thể của
phân loại không giám sát [24]. Phân tích cụm phân hủy hoặc phân vùng một tập dữ liệu
(đơn hoặc đa biến) thành các nhóm giống nhau để các dữ liệu điểm trong một nhóm tương
tự như nhau và khác nhau có thể từ các điểm dữ liệu trong các nhóm khác [1]. Nó cho rằng
đối tượng dữ liệu trong mỗi cụm nên có nhiều sự tương đương trong nội bộ nhóm trong
cùng một nhóm nhưng nên có ít liên cụm tương tự như trong các cụm khác [17]. Các kỹ
thuật phân nhóm phổ biến nhất là K-láng giềng gần nhất, kỹ thuật Naïve Bayes và self-
organizing maps.
Dự đoán (Prediction): Dự đoán ước tính số và ra lệnh cho các giá trị trong tương lai dựa
trên mô hình của một tập dữ liệu [19]. Cần lưu ý rằng, đối với dự đoán, các thuộc tính, mà
giá trị được dự đoán là có giá trị liên tục (quyết định) hơn là phân loại (rời rạc có giá trị và
không có thứ tự). Thuộc tính này được gọi là các thuộc tính dự đoán [24]. Mạng lưới neural
và mô hình dự đoán logic là các kỹ thuật dự báo thường được sử dụng.
Outlier Detection: Outlier detection được sử dụng để đo khoảng cách giữa các đối tượng
dữ liệu để phát hiện các đối tượng đó là cách hoàn toàn hoặc không phù hợp với tập dữ liệu
còn lại [24]. Dữ liệu mà dường như đã khác nhau đặc hơn so với phần còn lại của dân số
được gọi là giá trị ngoại lai [26]. Các vấn đề phát hiện outlier/ bất thường là một trong
những những vấn đề cơ bản nhất trong khai phá dữ liệu. Một kỹ thuật thường được sử dụng
trong việc phát hiện outlier là thuật toán học không giám sát [27].
Hồi quy: hồi quy là một phương pháp thống kê được sử dụng để tiết lộ mối quan hệ giữa
một hoặc nhiều biến và biến phụ thuộc (có nghĩa là có giá trị liên tục) [24]. Nhiều nghiên
cứu thực nghiệm đã sử dụng hồi quy logistic như một điểm chuẩn [28]. Các kỹ thuật hồi

quy thường được thực hiện bằng cách sử dụng phương pháp toán học như hồi quy và tuyến
tính, và nó được sử dụng trong việc phát hiện thẻ tín dụng, cây trồng và bảo hiểm xe cộ, và
gian lận của công ty.
Trực quan (Visualization): Visualization đề cập đến trình bày dễ hiểu dữ liệu và phương
pháp có thể chuyển đổi đặc điểm dữ liệu phức tạp vào mô hình rõ ràng để cho phép người
dùng xem các mô hình phức tạp hoặc các mối quan hệ phát hiện trong quá trình khai phá dữ
liệu [14]. Các nhà nghiên cứu đã khai thác các khả năng phát hiện mô hình của thị giác con
người hệ thống bằng cách xây dựng một bộ công cụ và ứng dụng linh hoạt mã hóa dữ liệu
bằng cách sử dụng màu sắc, vị trí, kích thước và hình ảnh khác đặc trưng. Trực quan được
sử dụng tốt nhất để cung cấp các mẫu phức tạp thông qua trình bày rõ ràng về dữ liệu hoặc
các chức năng [29].
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 12
3.2 Phân loại kỹ thuật khai phá dữ liệu cho phát hiện gian lận trong Kế toán tài chính:
Để xác định các thuật toán chính được sử dụng để phát hiện gian lận kế toán tài
chính, chúng tôi trình bày một đánh giá của kỹ thuật khai phá dữ liệu được xác định trong
thực tế áp dụng để phát hiện các gian lận tài chính. Các kỹ thuật thông dụng nhất mô hình
hậu cần, mạng lưới neural, cây mạng Bayesian niềm tin, và quyết định, tất cả đều rơi vào
phân loại thể loại. Bốn kỹ thuật được thảo luận chi tiết hơn trong phần sau.
Mô hình hồi quy: Các mô hình hồi quy dựa chủ yếu được sử dụng trong việc phát hiện
gian lận kế toán tài chính. Đa số chúng đều dựa trên hồi quy logistic, stepwise-logistic
regression, đa phương pháp làm tiêu chí quyết định và mũ beta tổng quát hai (EGB2)
[7]. Mô hình Logistic là một mô hình tuyến tính tổng quát được sử dụng cho nhị thức hồi
quy trong đó các biến dự đoán có thể là số hoặc phân loại [30]. Nó là chủ yếu được sử dụng
để giải quyết vấn đề gây ra bởi bảo hiểm và gian lận của công ty.
Một số nghiên cứu đã đề xuất mô hình hồi quy dựa trên Logistic để dự đoán sự hiện diện
của gian lận báo cáo tài chính [30]. Phương pháp thống kê hồi quy logistic có thể phát hiện
giả mạo báo cáo tài chính một cách hiệu quả [30]. Một số nhà nghiên cứu cũng đã phát triển
mô hình tổng quát phản ứng định tính dựa trên Probit và Logit kỹ thuật để dự đoán tài chính

tuyên bố gian lận. Mô hình đã được dựa trên một bộ dữ liệu được thu thập bởi một công ty
và nhu cầu kế toán công quốc tế thử nghiệm cho tổng quát [14]. Mô hình Cascaded Logit
cũng đã đề xuất để điều tra mối quan hệ giữa người trong cuộc kinh doanh và khả năng gian
lận. Nghiên cứu phát hiện ra rằng trong khi sự gian lận đang được thực hiện, trong nội bộ,
tức là giám đốc điều hành và các nhà quản lý, giảm nắm giữ cổ phiếu của mình thông qua
hoạt động chứng khoán bán cao. Các phương pháp khác như thống kê phân tích hồi quy
cũng rất hữu ích để kiểm tra nếu sự tồn tại của một ủy ban kiểm toán độc lập giảm nhẹ hoặc
giảm khả năng gian lận. Văn học cũng mô tả rằng các tổ chức với các ủy ban kiểm toán,
được thành lập bởi các nhà quản lý độc lập, đáp ứng không quá hai lần mỗi năm, ít có khả
năng bị xử phạt về gian lận báo cáo tài chính [26].
Phân tích hồi quy sử dụng mô hình Logit có thể được sử dụng để phân tích thực nghiệm của
các chỉ số tài chính mà có thể đáng kể dự đoán gian lận tài chính [29]. Phân tích hậu cần và
phân tích phân nhóm cùng nhau có thể được sử dụng để thiết lập một mô hình phát hiện của
gian lận từ bốn khía cạnh của chỉ số tài chính, quản trị công ty, rủi ro tài chính và áp lực
kinh doanh có liên quan. Sau khi cụm lọc biến đáng kể, mô hình dự đoán có thể được thành
lập với phương pháp tiêu chuẩn, không Tiêu chuẩn hóa Bayes và Giao nhận [4].
Các mô hình hồi quy logistic dựa phát hiện gian lận kế toán là phổ biến trong văn
học từ các mô hình dựa trên hồi quy logistic có thể lên tới 95,1% phát hiện chính xác với
hiệu ứng kỳ vọng đáng kể.
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 13
Mạng Neural: Các mạng neural là những công cụ mô hình dữ liệu thống kê phi tuyến tính
được lấy cảm hứng từ chức năng của bộ não con người sử dụng một tập hợp các nút liên kết
với nhau [11]. Mạng lưới neural được áp dụng rộng rãi trong phân loại và phân nhóm, và lợi
thế của mình như sau. Đầu tiên, nó là thích nghi; thứ hai, nó có thể tạo ra mô hình mạnh mẽ;
và thứ ba, quá trình phân loại có thể được sửa đổi nếu trọng lượng đào tạo mới được thiết
lập. Mạng lưới neural được áp dụng chủ yếu thẻ tín dụng, bảo hiểm ô tô và gian lận của
công ty.
Các tài liệu mô tả rằng các mạng lưới neural có thể được sử dụng như một công cụ

phát hiện gian lận tài chính. Sự gian lận mạng lưới neural mô hình phân loại sử dụng dữ liệu
tài chính nội sinh tạo ra từ mô hình hành vi học có thể được áp dụng cho một mẫu thử
nghiệm. Mạng lưới neural có thể được sử dụng để dự đoán sự xuất hiện của gian lận của
công ty ở cấp quản lý. Các nhà nghiên cứu đã khám phá hiệu quả của mạng lưới neural, cây
quyết định và các mạng niềm tin Bayesian trong phát hiện gian lận báo cáo tài chính (FFS)
và xác định các yếu tố liên quan đến FFS [8].
Nghiên cứu trong [10] cho thấy vector đầu vào bao gồm chỉ tiêu tài chính và biến
tính, đã được nhiều hơn hiệu quả khi mô hình phát hiện gian lận đã được phát triển bằng
cách sử dụng mạng lưới neural. Mô hình này cũng được so sánh với tiêu chuẩn phương
pháp thống kê như phân tích phân biệt tuyến tính và bậc hai, cũng như phương pháp hồi quy
logistic [10].
Các kiến trúc mạng nơron thích nghi tổng quát và mạng lý thích ứng được đón nhận
vì tội gian lận phát hiện. Các kỹ thuật lai giống như quy tắc mờ tích hợp với một mạng lưới
neural (hệ thống neural mờ) cũng là đề xuất. Các tài liệu mô tả rằng mạng lưới neural mờ
tích hợp tốt hơn mô hình thống kê truyền thống và mạng lưới mô hình neural được báo cáo
trong các nghiên cứu trước.
Bayesian Belief Network: Mạng lưới Belief Bayes (BBN) đại diện cho một tập hợp các
biến ngẫu nhiên và điều kiện độc lập của họ sử dụng một biểu đồ mạch hở có hướng
(DAG), trong đó các nút đại diện cho các biến ngẫu nhiên và cạnh mất tích mã hóa
independencies có điều kiện giữa các biến [8]. Mạng Bayesian niềm tin được sử dụng trong
việc phát triển mô hình thẻ tín dụng, bảo hiểm ô tô, và gian lận của công ty phát hiện. Các
nghiên cứu trong [8] mô tả niềm tin Bayesian mô hình mạng phân loại chính xác 90,3%
mẫu xác nhận để phát hiện gian lận. Mạng niềm tin Bayesian vượt trội so với phương pháp
mạng và quyết định cây neural và đạt được độ chính xác phân loại xuất sắc [8].
Cây quyết định (Decision Tree): Một cây quyết định (DT) là một cây cấu trúc công cụ hỗ
trợ quyết định, trong đó mỗi nút đại diện cho một thử nghiệm trên một thuộc tính và mỗi chi
nhánh đại diện cho kết quả có thể. Bằng cách này, các mô hình dự đoán cố gắng để phân
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 14

chia quan sát vào nhóm loại trừ lẫn nhau và được sử dụng cho các nhiệm vụ khai phá dữ
liệu và máy học [8]. Quyết định cây là những công cụ hỗ trợ quyết định tiên đoán rằng tạo
lập bản đồ từ những quan sát đến những hậu quả có thể [24]. Dự đoán được đại diện bởi lá
và các liên từ các tính năng của các ngành. Cây quyết định thường được sử dụng trong thẻ
tín dụng, bảo hiểm ô tô, và gian lận của công ty.
Phương pháp láng giềng gần nhất: phương pháp láng giềng gần nhất là một sự tương
đồng tiếp cận dựa trên phân loại. Dựa trên một sự kết hợp của các lớp của các k bản ghi
tương đương, mỗi hồ sơ được phân loại. Đôi khi phương pháp này cũng là được biết đến
như kỹ thuật k-láng giềng gần nhất [24]. Phương pháp K- láng giềng gần nhất được sử dụng
trong yêu cầu bảo hiểm ô tô, phát hiện gian lận và xác định giá trị mặc định của thẻ tín dụng
khách hàng.
Logic mờ và thuật toán di truyền: các thuật toán di truyền được sử dụng trong các hệ
thống phân loại để đại diện và mô hình hóa các kiểm toán viên hành vi ra quyết định trong
một khung cảnh gian lận. Thuật toán di truyền cùng với hệ thống nhị phân vector hỗ trợ
(BSVS) là dựa trên các vectơ hỗ trợ trong các máy vector hỗ trợ (SVM) được sử dụng để
giải quyết vấn đề gian lận thẻ tín dụng mà có không được xác định tốt.
Fuzzy Logic là một kỹ thuật toán học phân loại lý luận chủ quan và gán dữ liệu vào
một đặc biệt nhóm, hoặc cụm, dựa trên mức độ khả năng dữ liệu có khi ở trong nhóm
đó. Các chuyên gia phân loại mờ kỹ thuật cho phép một để thực hiện lý luận gần đúng có
thể cải thiện hiệu suất trong ba cách. Đầu tiên, hiệu suất được cải thiện thông qua đại diện
số hiệu quả của điều khoản mơ hồ, bởi vì công nghệ mờ có thể số lượng cho đại diện của
một mục dữ liệu trong một thể loại cụ thể. Cách thứ hai hiệu suất được tăng cường là thông
qua tăng phạm vi hoạt động trong môi trường bệnh được xác định, đó là cách mà phương
pháp mờ có thể hiển thị một phần thành viên của các yếu tố dữ liệu trong một hoặc nhiều
loại có thể không được xác định rõ ràng trong phân tích truyền thống. Cuối cùng, hiệu suất
được tăng lên vì công nghệ mờ đã giảm nhạy cảm với dữ liệu "ồn ào", hoặc giá trị ngoại
lai. Một đa hệ thống dựa trên luật lệ mờ được đề xuất trong [9] để xếp hạng quản lý tài
chính nhà nước. Các tác giả đã sử dụng lý thuyết tập mờ để đại diện cho sự thiếu chính xác
trong thông tin đánh giá và phán đoán.
Một mô hình logic mờ đã được thực hiện trong [5] để phát hiện gian lận trong một

bảng tính Excel. Bằng việc sử dụng logic mờ mô hình phát triển cụm cho báo cáo khác nhau
đại diện cho lá cờ đỏ trong việc phát hiện gian lận, dữ liệu phi tài chính là bao gồm các biến
báo cáo tài chính để phân tích. Mô hình này bao gồm các biến khác nhau như tài chính đòn
bẩy, lợi nhuận, thanh khoản, dòng tiền và một biến được thiết kế để đại diện cho một công
ty "của nguy cơ gian lận. Logic mờ hiệu quả mô hình biến, được phát triển để định lượng
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 15
các yếu tố nguy cơ gian lận. Mô hình dự đoán hành vi gian lận với 86,7% độ chính xác
[5]. Cùng một mô hình được chuyển thể trong [1] để phát triển một mô hình để phát hiện
gian lận báo cáo tài chính.
Đề xuất mô hình sử dụng kết hợp dữ liệu báo cáo tài chính khác nhau. Mờ lý dựa
trên hệ thống chuyên gia đã được phát triển để xác định và đánh giá liệu các yếu tố gian lận
có liên quan đến bảo hiểm tuyên bố các khu định cư. Logic dựa mờ hệ thống chuyên gia
được phát triển cho các kiểm toán viên để xác định gian lận trong giải quyết tuyên bố bảo
hiểm. Hệ thống đã có thể cắt giảm chi phí bằng cách phát hiện hồ sơ giả mạo.
Lập trình di truyền với các quy tắc sản xuất logic mờ được sử dụng để phân loại dữ
liệu. Nghiên cứu trong [5] đã đề xuất và đã thử nghiệm một hệ thống để phát hiện gian lận
về yêu cầu bảo hiểm nhà sản và dữ liệu giao dịch thẻ tín dụng. Các nghiên cứu về di truyền
lập trình để phát hiện gian lận thiếu điểm chuẩn với các phương pháp và kỹ thuật hiện
có. Một thuật toán di truyền phương pháp tiếp cận dựa trên phát hiện gian lận báo cáo tài
chính. Có thể thấy rằng điểm bất thường đặc biệt là các số liệu có giá trị cho đặc trưng hành
vi tài chính doanh nghiệp và phân tích những điểm số theo thời gian đại diện cho một cách
hiệu quả phát hiện hành vi khả năng gian lận.
Hệ chuyên gia: Các nhà nghiên cứu trong lĩnh vực hệ thống chuyên gia đã xem xét vai trò
của hệ thống chuyên gia trong việc tăng phát hiện khả năng của kiểm toán viên và người sử
dụng báo cáo. Bằng cách sử dụng hệ thống chuyên gia, họ có thể có khả năng tốt hơn để
phát hiện chiếm nguy cơ gian lận trong bối cảnh và mức độ khác nhau và cho phép kiểm
toán viên cho các đề xuất kiểm toán đáng tin cậy hơn nhiều thông qua thủ tục kiểm toán hợp
lý. Nghiên cứu đã xác nhận rằng việc sử dụng một hệ thống chuyên gia tăng cường kiểm

toán viên "hiệu suất. Với sự hỗ trợ từ hệ thống chuyên gia, kiểm toán viên phân biệt đối xử
tốt hơn, trong số những tình huống khác nhau với các cấp quản lý gian lận có nguy cơ. Hệ
thống chuyên gia hỗ trợ trong việc ra quyết định liên quan đến hoạt động kiểm toán thích
hợp.
Nghiên cứu phát hiện gian lận trong kế toán tài chính được phân loại theo ứng dụng
khai phá dữ liệu và kỹ thuật khai phá dữ liệu. Một số nhà nghiên cứu đã cố gắng áp dụng
một sự kết hợp của nhiều kỹ thuật khai phá dữ liệu như cây quyết định, mạng neural, mạng
tin Bayesian, K-láng giềng gần nhất. Mục tiêu chính là để áp dụng một hỗ trợ quyết định lai
hệ thống sử dụng phương pháp xếp chồng biến để phát hiện gian lận báo cáo tài chính.
4. Khai phá dữ liệu dựa trên khung đối với phát hiện gian lận:
Các nghiên cứu liên quan đến ứng dụng của các thuật toán khai phá dữ liệu và kỹ
thuật để phát hiện gian lận kế toán tài chính là một khu vực nghiên cứu. Việc thực hiện các
kỹ thuật theo dòng chảy thông tin tương tự của các quá trình khai phá dữ liệu nói
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 16
chung. Quá trình bắt đầu với lựa chọn tính năng sau đó tiến hành với đại diện, thu thập và
quản lý dữ liệu, tiền xử lý, khai phá dữ liệu, sau chế biến, và trong việc đánh giá hiệu suất
kết thúc. Bài viết này đã đề xuất một mở rộng khuôn khổ khai phá dữ liệu chung. Khuôn
khổ này xem xét đặc điểm cụ thể của phát hiện gian lận đối với gian lận trong tài chính kế
toán (Xem hình 3).
Hình 3: Khai phá dữ liệu dựa trên khung cho phát hiện gian lận trong tài chính kế toán
5. Kết luận:
Bài viết này xem xét các tài liệu mô tả việc sử dụng các thuật toán khai phá dữ liệu
bao gồm kiểm tra thống kê, phân tích hồi quy, Neural Network, cây quyết định, Mạng
Bayesian, … để phát hiện gian lận kế toán tài chính. Phân tích hồi quy được sử dụng rộng
rãi để phát hiện gian lận vì nó có khả năng giải thích tuyệt vời. Các nhà nghiên cứu đã
không thực hiện bất kỳ so sánh như vậy đến nay, liên quan đến việc phát hiện tác dụng và
tính chính xác của Neural Network so với mô hình hồi quy. Những lợi thế của Neural
Network là rằng không có yêu cầu nghiêm ngặt về dữ liệu và nó có một sự tổng quát mạnh

mẽ và điều chỉnh. Sau khi phân bổ chính xác và đào tạo thích hợp, Neural Network có thể
thực hiện phân loại lớn so với hồi quy mô hình. Nhưng do đặc biệt cấu trúc bí ẩn bên trong,
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 17
đó là không thể đối với các nhà nghiên cứu theo dõi quá trình hình thành các đầu ra kết
luận. Có những vấn đề khác cũng liên quan với Neural Network như không có lời giải thích
rõ ràng về kết nối cân, chính xác phức tạp và thủ tục kiểm tra độ tin cậy thống kê, và thiếu
giải thích.
Nghiên cứu trong tương lai:
Bài viết này cho thấy rằng chỉ sử dụng dữ liệu báo cáo tài chính có thể không đủ cho việc
phát hiện gian lận. Các tầm quan trọng của kỹ thuật khai phá dữ liệu trong việc phát hiện
gian lận tài chính đã được công nhận. Công việc trong tương lai có thể đề xuất một khuôn
khổ phân loại toàn diện hoặc một hệ thống các ứng dụng khai phá dữ liệu trong tài chính
phát hiện gian lận kế toán.
Tài liệu tham khảo
[1] Yue, X., Wu, Y., Wang, Y. L., & Chu, C. (2007). A review of data mining-based
financial fraud detection research, international conference on wireless communications
Sep, Networking and Mobile Computing (2007) 5519 –5522.
[2] Oxford Concise English Dictionary, 11th Edition, Oxford University Press, 2009.
[3] Phua, C., Lee, V., Smith, K. & Gayler, R. (2005). A comprehensive survey of data
mining -based fraud detection research, Artificial Intelligence Review (2005) 1–14.
[4] Wang, J., Liao, Y., Tsai, T. & Hung, G. (2006). Technology-based financial
frauds in Taiwan: issue and approaches, IEEE Conference on: Systems, Man and
Cyberspace Oct (2006) 1120 –1124.
[5] Wang, S. (2010). A Comprehensive Survey of Data Mining-Based Accounting-
Fraud Detection Research. International Conference on Intelligent Computation
Technology and Automation, vol. 1, pp.50 -53, 2010.
[6] Accounting Fraud Definition and Examples that are retrieved from
/>free-accounting-fraud-article/

[7] Ngai, E.W.T., Hu, Y., Wong, Y. H., Chen, Y., & Sun, X. (2010). The application of
data mining techniques in financial fraud detection: A classification framework and an
academic review of literature, Decision Support System (2010),
doi:10.1016/j.dss.2010.08.006.
[8] Kirkos, E., Spathis, C., & Manolopoulos, Y. (2007). Data mining techniques for
the detection of fraudulent financial statements, Expert Systems with Applications 32 (4)
(2007) 995 –1003.
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 18
[9] Fanning, K., Cogger, K., & Srivastava, R. (1995). Detection of management
fraud: a neural network approach. International Journal of Intelligent Systems in
Accounting, Finance & Management, vol. 4, no. 2, pp. 113 – 26, June 1995.
[10] Fanning, K., & Cogger, K. (1998). Neural network detection of management fraud
using published financial data. International Journal of Intelligent Systems in Accounting,
Finance & Management, vol. 7, no. 1, pp. 21 - 24, 1998.
[11] Silverstone, Howard, & Sheetz, M. (2004). Forensic Accounting and Fraud
Investigation for Non-Experts. Hoboken, John Wiley & Sons, 2004.
[12] Bologna, Jack & Lindquist, R. J. (1987). Fraud Auditing and Forensic Accounting.
New York: John Wiley & Sons, 1987.
[13] Elkan, C. (2001). Magical Thinking in Data Mining: Lessons from COIL Challenge
2000. Proc. of SIGKDD01, 426-431.
[14] Turban, E., Aronson, J.E., Liang, T.P., & Sharda, R. (2007). Decision Support and
Business Intelligence Systems, Eighth edition, Pearson Education, 2007.
I.2. Những kiến thức thu thập được qua bài báo:
− Gian lận trong kinh tế, cụ thể là lĩnh vực tài chính kế toán là gì và nguyên nhân dẫn
đến những gian lận này thông qua Tam giác gian lận;
− Các phương pháp, kỹ thuật khai phá dữ liệu nói chung và những phương pháp phổ
biến được sử dụng hiện nay;
− Giới thiệu các kỹ thuật khai phá dữ liệu đã được sử dụng để phát hiện gian lận trong

tài chính kế toán;
− Khung khai phá dữ liệu dùng để phát hiện gian lận trong tài chính kế toán;
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 19
PHẦN II: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
DÙNG CÂY QUYẾT ĐỊNH QUA VIỆC BẮT MẠCH
II.1. Giới thiệu sơ lược về khai phá dữ liệu:
1. Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của thập kỷ
1980. Nó là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu
được lưu trữ trong các CSDL, kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu,
người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ
CSDL, trích lọc dữ liệu, phân tích dữ liệu/ mẫu, khảo cổ dữ liệu, nạo vét dữ liệu.Nhiều
người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là phát hiện tri thức trong
CSDL (Knowlegde Discovery in Databases - KDD) là như nhau. Tuy nhiên trên thực tế,
khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình phát hiện tri thức trong CSDL. Có
thể nói Data Mining là giai đoạn quan trọng nhất trong tiến trình phát hiện tri thức từ CSDL,
các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh.
2. Quá trình khai phá dữ liệu:
Gồm 6 bước:
Hình 3: Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức được
chiết xuất ra. Nội dung của quá trình như sau:
2.1. Gom dữ liệu (gatherin):
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Đánh giá luật
Tri thức
Mô hình

Dữ liệu đã
làm sạch,
tiền xử lý
Dữ liệu
Dữ liệu
đích
Gom dữ liệu
Khai phá dữ liệu
Chuyển đổi dữ liệu
Làm sạch, tiền xử lý
dữ liệu

Internet,

Internet,

Dữ liệu đã
chuyển đổi
Trích lọc dữ liệu
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 20
Tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu. Bước này lấy dữ liệu từ
trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những nguồn cung ứng web.
2.2. Trích lọc dữ liệu (selection): Ở giai đoạn này dữ liệu được lựa chọn và phân chia
theo một số tiêu chuẩn nào đó.
2.3. Làm sạch và tiền xử lý dữ liệu (cleansing preprocessing):
Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất
quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ
liệu là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu thường
chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Ví dụ Sinh viên có tuổi=200.
Giai đoạn thứ ba này nhằm xử lý các dữ liệu như trên(dữ liệu vô nghĩa, dữ liệu không có

khả năng kết nối). Những dữ liệu dạng này thường được xem là thông tin dư thừa, không có
giá trị. Bởi vậy đây là một quá trình rất quan trọng. Nếu dữ liệu không được làm sạch- tiền
xử lý - chuẩn bị trước thì sẽ gây nên những kết quả sai lệch nghiêm trọng về sau.
2.4. Chuyển đổi dữ liệu (transformation):
Trong giai đoạn này, dữ liệu có thể được tổ chức và sử dụng lại. Mục đích của việc
chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu.
2.5. Phát hiện và trích mẫu dữ liệu (pattern extraction and discovery):
Đây là bước tư duy trong khai phá dữ liệu. Ở trong giai đoạn này nhiều thuật toán
khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng để trích
mẫu dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình hoá dữ liệu
tuần tự.
2.6. Đánh giá kết quả mẫu (evaluation of result ):
Đây là giai đoạn cuối cùng trong quá trình khai phá dữ liệu, ở giai đoạn này các mẫu
dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải mẫu dữ liệu nào cũng
hữu ích, đôi khi nó còn bị sai lệch. Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu
tiên cho các mẫu dữ liệu để rút ra được những tri thức cần thiết.
3. Chức năng của khai phá dữ liệu:
Khai phá dữ liệu có hai chức năng cơ bản là: chức năng dự đoán và chức năng mô tả.
4. Các kỹ thuật khai phá dữ liệu:
Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện hai chức
năng mô tả và dự đoán.
− Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc tính
chung của dữ liệu trong CSDL hiện có. Một số kỹ thuật khai phá trong nhóm này là: phân
cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hoá (Visualization), phân
tích sự phát triển và độ lệch (Evolution and deviation analyst),….
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 21
− Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy
diễn trên cơ sở dữ liệu hiện thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp

(Classification), hồi quy (Regression), cây quyết định (Decision tree), thống kê (statictics),
mạng nơron (neural network), luật kết hợp,….
Một số kỹ thuật phổ biến thường được sử dụng để khai phá dữ liệu hiện nay là:
4.1. Phân lớp (phân loại) dữ liệu:
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình
gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu 1 lớp).
Mô hình được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận
được.
Có thể sử dụng sự phân loại để xây dựng một ý tưởng về kiểu khách hàng, kiểu mặt
hàng hoặc kiểu đối tượng bằng cách mô tả nhiều thuộc tính để nhận biết một lớp cụ thể.
Ví dụ, ta có thể dễ dàng phân loại các xe ô tô thành các kiểu xe khác nhau (xe mui kín, 4x4,
xe có thể bỏ mui) bằng cách xác định các thuộc tính khác nhau (số chỗ ngồi, hình dạng xe,
các bánh xe điều khiển). Với một chiếc xe mới, ta có thể đặt nó vào một lớp cụ thể bằng
cách so sánh các thuộc tính với định nghĩa đã biết. Ta có thể áp dụng các nguyên tắc tương
tự ấy cho các khách hàng, ví dụ bằng cách phân loại khách hàng theo độ tuổi và nhóm xã
hội. Hơn nữa, ta có thể sử dụng việc phân loại như một nguồn cấp, hoặc như là kết quả của
các kỹ thuật khác.
Ví dụ, có thể sử dụng các cây quyết định để xác định một cách phân loại. Việc phân
cụm sẽ cho phép sử dụng các thuộc tính chung theo các cách phân loại khác nhau để nhận
biết các cụm.
4.2. Phân cụm dữ liệu:
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ
liệu vào các cụm, sao cho các đối tượng thuộc cùng một lớp là tương đồng.
Bằng cách xem xét một hay nhiều thuộc tính hoặc các lớp, ta có thể nhóm các phần
dữ liệu riêng lẻ với nhau để tạo thành một quan điểm cấu trúc. Ở mức đơn giản, việc phân
cụm đang sử dụng một hoặc nhiều thuộc tính làm cơ sở để nhận ra một nhóm các kết quả
tương quan. Việc phân cụm giúp nhận biết các thông tin khác nhau vì nó tương quan với các
ví dụ khác, nên có thể thấy ở đâu có những điểm tương đồng và các phạm vi phù hợp.
4.3. Khai phá luật kết hợp:
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị

dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được.
Phương pháp khai phá luật kết hợp gồm có hai bước:
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 22
Bước 1: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến được xác định
thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu.
Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả mãn
độ hỗ trợ và độ tin cậy cực tiểu.
4.4. Hồi quy: Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở
chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị
rời rạc.
4.5. Giải thuật di truyền: Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng
chính của giải thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến
hoá trong sinh học.
4.6. Mạng nơron:
Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay.
Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện
trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người.
Kết quả mà mạng nơron học được có khả năng tạo ra các mô hình dự báo, dự đoán
với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra được các xu hướng phức
tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được. Tuy nhiên phương pháp
mạng nơron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều
thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm.
4.7. Cây quyết định: Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong
việc phân lớp và dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối
tượng dữ liệu chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này
thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử
dụng.
5. Các dạng dữ liệu có thể khai phá được:

− CSDL quan hệ
− CSDL đa chiều
− CSDL giao dịch
− CSDL quan hệ - đối tượng
− CSDL không gian và thời gian
− CSDL đa phương tiện
6. Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu:
6.1. Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu:
Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành và lĩnh vực
khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê, máy học, trí tuệ
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 23
nhân tạo, CSDL, thuật toán toán học, tính toán song song với tốc độ cao, thu thập cơ sở tri
thức cho hệ chuyên gia,…
6.2. Ứng dụng của khai phá dữ liệu:
Khai phá dữ liệu được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực khác
nhau. Chẳng hạn như giải quyết các bài toán phức tạp trong các ngành đòi hỏi kỹ thuật cao,
như tìm kiếm mỏ dầu, từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản xuất;
Được ứng dụng cho việc quy hoạch và phát triển các hệ thống quản lý và sản xuất trong
thực tế như dự đoán tải sử dụng điện, mức độ tiêu thụ sản phẩm, phân nhóm khách hàng;
Áp dụng cho các vấn đề xã hội như phát hiện tội phạm, tăng cường an ninh…
Một số ứng dụng cụ thể như sau :
− Khai phá dữ liệu được sử dụng để phân tích dữ liệu, hỗ trợ ra quyết định.
− Trong sinh học: nó dùng để tìm kiếm , so sánh các hệ gen và thông tin di chuyền, tìm
mối liên hệ giữa các hệ gen và chuẩn đoán một số bệnh di chuyền
− Trong y học: khai phá dữ liệu giúp tìm ra mối liên hệ giữa các triệu chứng, chuẩn
đoán bệnh.
− Tài chính và thị trường chứng khoán: Khai phá dữ liệu để phân tích tình hình tài
chính, phân tích đầu tư, phân tích cổ phiếu

− Khai thác dữ liệu web.
− Trong thông tin kỹ thuật: khai phá dữ liệu dùng để phân tích các sai hỏng, điều khiển
và lập lịch trình…
− Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng, phân tích dữ liệu
marketing, phân tích đầu tư, phát hiện các gian lận
7. Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu.
Sự phát triển của phát hiện tri thức và khai phá dữ liệu gặp phải một số thách thức
sau:
− CSDL lớn (số lượng bản ghi, số bảng)
− Số chiều lớn
− Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp
nữa.
− Dữ liệu bị thiếu hoặc bị nhiễu.
− Quan hệ giữa các trường phức tạp
− Vấn đề giao tiếp với người sử dụng và kết hợp với các tri thức đã có.
− Tích hợp với các hệ thống khác.
− …
Hướng phát triển của khám phá tri thức và khai phá dữ liệu là vượt qua được tất cả
những thách thức trên. Chú trọng vào việc mở rộng ứng dụng để đáp ứng cho mọi lĩnh vực
trong đời sống xã hội, và tăng tính hữu ích của việc khai phá dữ liệu trong những lĩnh vực
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8
Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 24
đã có khai phá dữ liệu. Tạo ra các phương pháp khai phá dữ liệu linh động, uyển chuyển để
xử lý số lượng dữ liệu lớn một cách hiệu quả. Tạo ra tương tác người sử dụng tốt, giúp
người sử dụng tham gia điều khiển quá trình khai phá dữ liệu, định hướng hệ thống khai phá
dữ liệu trong việc phát hiện các mẫu đáng quan tâm. Tích hợp khai phá dữ liệu vào trong
các hệ cơ sở dữ liệu. Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến. Một
vấn đề quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an
toàn và bảo mật thông tin trong khai phá dữ liệu.

II.2. Giới thiệu về khai phá dữ liệu sử dụng cây quyết định:
2.1. Cây quyết định:
2.1.1. Giới thiệu chung:
Cây quyết định (decision tree) là một phương pháp rất mạnh và phổ biến cho cả hai
nhiệm vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định còn có thể
chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật If-Then.
Cây quyết định là cấu trúc biểu diễn dưới dạng cây. Trong đó, mỗi nút trong (internal
node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị có thể có của thuộc tính,
mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root).
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây và di
chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở phân lớp này chúng ta có thể
chuyển đổi về các luật quyết định.
Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu
mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết
định là một dạng đặc biệt của cấu trúc cây.
Tạo cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự
đoán. Cây quyết định được tạo thành bằng cách lần lượt chia (đệ quy) một tập dữ liệu thành
các tập dữ liệu con, mỗi tập con được tạo thành chủ yếu từ các phần tử của cùng một lớp.
Lựa chọn thuộc tính để tạo nhánh thông qua Entropy và Gain.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ
liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân
loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây
quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một
kiểm tra giá trị thuộc tính . Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn
xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa,
hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất.
Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính
toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước.
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8

Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 25
Dữ liệu được cho dưới dạng các bản ghi có dạng: (x,y) = (x1, x2, x3, …,xk, y). Biến
phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát
hóa. x1, x2, x3, … là các biến sẽ giúp ta thực hiện công việc đó.
Ví dụ: Cây quyết định phân lớp mức lương
Hình 4. Cây quyết định phân lớp mức lương
2.1.2. Ưu điểm của cây quyết định:
So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm
sau:
− Cây quyết định tương đối dể hiểu.
− Đòi hỏi mức tiền xử lý dữ liệu đơn giản.
− Có thể xử lý với cả các dữ liệu rời rạc và liên tục.
− Cây quyết định là một mô hình hộp trắng.
− Kết quả dự đoán bằng cây quyết định có thể thẩm định lại bằng cách kiểm tra
thống kê.
2.1.3. Các kiểu cây quyết định:
Cây quyết định còn có hai tên khác:
− Cây hồi quy (Regression tree): ước lượng các hàm giá có giá trị là số thực thay
vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng
thời gian một bệnh nhân nằm viện)
− Cây phân loại (Classification tree): nếu y là một biến phân loại như: giới tính
(nam hay nữ), kết quả của một trận đấu (thắng hay thua).
2.1.4. Vấn đề xây dựng cây quyết định:
Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5,
SLIQ, SPRINT, EC4.5, C5.0…Nhưng nói chung quá trình xây dựng cây quyết định đều
được chia ra làm 3 giai đoạn cơ bản:
a. Xây dựng cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến
khi các mẫu ở mối nút lá thuộc cùng một lớp
HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059)
LỚP: CAO HỌC KHÓA 8

×