Tải bản đầy đủ (.docx) (29 trang)

Tiểu luận môn Hệ hỗ trợ quyết định ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU NHẰM PHÁT HIỆN GIAN LẬN CHO KẾ TOÁN TÀI CHÍNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (184.02 KB, 29 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI TIỂU LUẬN
MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH
ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU
NHẰM PHÁT HIỆN GIAN LẬN
CHO KẾ TOÁN TÀI CHÍNH
GVHD : PGS. TS. Đỗ Phúc
HVTH : Võ Thị Thúy Lan
MSHV : CH1301096
Long An, tháng 06 năm 2014
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI TIỂU LUẬN
MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH
ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU
NHẰM PHÁT HIỆN GIAN LẬN
CHO KẾ TOÁN TÀI CHÍNH
GVHD : PGS. TS. Đỗ Phúc
HVTH : Võ Thị Thúy Lan
MSHV : CH1301096
Lớp : Cao học khóa 8
Long An, tháng 06 năm 2014
LỜI CAM ĐOAN
Tôi xin cam đoan bài báo cáo này hoàn toàn do tôi thực hiện với nội dung dựa
theo “Tạp chí Quốc tế Nghiên cứu nâng cao Khoa học máy tính và Kỹ thuật phần mềm
tập 3, số 11, tháng 11 năm 2013” của tác giả Sowjanya và cộng sự.
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
MỤC LỤC
HVTH: Võ Thị Thúy Lan – CH1301096 4
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc


Danh mục các hình vẽ
Hình 2.1 Tam giác gian lận 8
Hình 3.1. Khung khái niệm cho ứng dụng của khai thác dữ liệu để phát hiện gian lận kế
toán tài chính 11
Hình 4.1. Khai thác dữ liệu dựa trên khung phát hiện gian lận 21
HVTH: Võ Thị Thúy Lan – CH1301096 5
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
MỞ ĐẦU
Kỹ thuật khai thác dữ liệu đã góp phần rất lớn trong việc phát hiện gian lận kế
toán tài chính, khi mà giao dịch với khối lượng dữ liệu lớn và phức tạp đang là những
thách thức lớn đối với ngành kế toán. Việc thực hiện các kỹ thuật khai thác dữ liệu để
phát hiện gian lận theo dòng chảy thông tin truyền thống của khai thác dữ liệu bắt đầu
với việc lựa chọn tính năng đại diện tiếp theo, thu thập dữ liệu và quản lý, tiền xử lý,
khai thác dữ liệu, hậu xử lý và đánh giá hiệu suất. Các phương pháp khai thác dữ liệu
có khả năng phát hiện gian lận bởi vì những kỹ thuật này có thể sử dụng các trường
hợp gian lận trong quá khứ để xây dựng các mô hình, trong đó xác định và phát hiện
các nguy cơ gian lận. Gian lận báo cáo tài chính, một trong những hành vi gian lận tài
chính đã và đang thành vấn nạn trên toàn cầu. Sự sụp đổ của các công ty cá nhân đã để
lại một vết bẩn trên hiệu quả của quản trị doanh nghiệp, chất lượng của báo cáo tài
chính và độ tin cậy của chức năng kiểm toán. Gian lận báo cáo tài chính đã trở thành
một vấn đề quan trọng trong các doanh nghiệp trên toàn thế giới.
Bài báo cáo này tập trung trình bày một số kỹ thuật khai thác dữ liệu để phát
hiện gian lận và phòng ngừa với các ứng dụng trong thẻ tín dụng và viễn thông trong
một doanh nghiệp khai thác kho dữ liệu để đạt được tiết kiệm chi phí cao hơn và cũng
vì lợi ích của việc xác định bằng chứng pháp lý tiềm năng.
Nội dung bài báo cáo gồm 2 phần chính:
• Giới thiệu chung về gian lận trong báo cáo tài chính kế toán
• Các phương pháp khai thác dữ liệu để phát hiện gian lận
Em xin chân thành cảm ơn Thầy PGS.TS Đỗ Phúc đã truyền đạt những kiến
thức quý báu trong môn Hệ hỗ trợ quyết định làm cơ sở nền tảng cho em thực hiện báo

cáo này.
HVTH: Võ Thị Thúy Lan – CH1301096 6
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
HVTH: Võ Thị Thúy Lan – CH1301096 7
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Chương 1. GIỚI THIỆU
Kiểm toán ngày nay đã trở thành một nhiệm vụ quan trọng và được áp dụng
rộng rãi. Koskivaara gọi năm 2002, "năm kinh hoàng", khi kiểm tra một số sổ sách kế
toán trong một cuộc khảo sát đã tuyên bố rằng việc gian lận vẫn đang tiếp diễn
(Koskivaara, 2004). Một số ước tính nói rằng chi phí gian lận kinh doanh tại Mỹ là hơn
400 tỷ USD mỗi năm (Wells, 1997). Spathis, Doumpos và Zopounidis (2002) cho rằng
gian lận báo cáo tài chính ngày càng trở nên thường xuyên trong vài năm qua. Vì thế,
nhu cầu của việc phát hiện, xác định và báo cáo gian lận kế toán tài chính đã tăng lên.
Gian lận trong quản lý có thể được định nghĩa là sự gian lận có chủ ý gây thiệt
hại cho nhà đầu tư và các chủ nợ thông qua sự sai lệch tài liệu báo cáo tài chính. Trong
quá trình kiểm toán, kiểm toán viên phải đánh giá khả năng gian lận quản lý.
Trong tài liệu học thuật, gian lận là dẫn đến sự lạm dụng của hệ thống tổ chức
lợi nhuận mà không nhất thiết phải dẫn đến hậu quả pháp lý. Mặc dù các tài liệu còn
thiếu một định nghĩa được mọi người chấp nhận hoàn toàn về gian lận tài chính, các
nhà nghiên cứu đã xác định nó như là "một hành động cố ý và trái pháp luật, nguyên
tắc hay chính sách với mục đích để có được lợi ích tài chính trái phép" và "cố ý sai sót
hoặc bỏ sót số tiền của người sử dụng và không đưa vào báo cáo tài chính, đặc biệt là
các nhà đầu tư và các chủ nợ". Gian lận kế toán thực hiện bằng cách làm giả mạo báo
cáo tài chính kế toán mà các con số được chế tác bằng việc phóng đại tài sản, mục giả
liên quan đến doanh thu và lợi nhuận, chiếm dụng tiền thuế, công nợ, chi phí hoặc tổn
thất. Sự gian lận kế toán cũng được xác định bởi các chuyên gia kế toán là có "thao tác
chủ ý ghi chép không đúng các số liệu trong báo cáo tài chính để đạt được một lợi
nhuận hoạt động của công ty và sự hiển thị đó là không đúng so với thực tế".
Về kinh tế, gian lận tài chính đã trở thành một vấn đề ngày càng nghiêm trọng
và việc phát hiện hiệu quả gian lận kế toán luôn luôn là một nhiệm vụ quan trọng

HVTH: Võ Thị Thúy Lan – CH1301096 8
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
nhưng phức tạp cho các chuyên gia kế toán. Kiểm toán nội bộ của các vấn đề tài chính
trong các công ty đã trở thành một hoạt động ngày càng được tăng cường nhưng có
nhiều bằng chứng cho thấy hoạt động này được áp dụng trên toàn thế giới để thực hiện
hành vi gian lận tài chính. Việc phát hiện gian lận kế toán sử dụng các thủ tục kiểm
toán nội bộ truyền thống là một khó khăn hay đôi khi là một nhiệm vụ không thể. Đầu
tiên, kiểm toán viên thường thiếu kiến thức cần thiết liên quan đến các đặc điểm của
gian lận kế toán. Thứ hai, việc phát hiện gian lận số liệu kế toán là rất hiếm khi xảy ra,
hầu hết các kiểm toán viên thiếu kinh nghiệm và chuyên môn cần thiết để phát hiện và
ngăn chặn hành vi gian lận. Cuối cùng, những người quan tâm khác của bộ phận tài
chính như Giám đốc tài chính (CFO-Chief Financial Officer), quản lý tài chính và kế
toán đang cố tình tìm cách đánh lừa các kiểm toán viên nội bộ hay bên ngoài. Trong
khi biết những hạn chế của một kiểm toán, quản lý tài chính và kế toán đã kết luận rằng
thủ tục kiểm toán truyền thống và tiêu chuẩn không đủ để phát hiện gian lận. Những
hạn chế của kiểm toán tài chính đưa ra một nhu cầu cấp thiết là cần có sẵn dữ liệu tự
động bổ sung để tiếp tục phân tích và cần có các công cụ để phát hiện nhanh và hiệu
quả các báo cáo tài chính sai lệch. Điều này là rất cần thiết nên cần có một khoản chi
cho việc phát hiện gian lận và các hành vi lừa đảo, bởi vì ngăn chặn gian lận sẽ góp
phần làm giảm khá hiệu quả sự hao hụt trong hệ thống tài chính. Điều này là có thể
bằng cách xây dựng một lớp quyết định trên hệ thống để xem xét hành động có tính
đến các yếu tố như số lượng giao dịch và rủi ro liên quan đến người sử dụng thực hiện
các giao dịch. Sự phát triển các phương pháp mới sẽ khó khăn hơn do sự hạn chế về
quyền riêng tư và trao đổi ý tưởng. Hơn nữa, tập hợp dữ liệu không có sẵn và kết quả
thường không được tiết lộ cho công chúng. Các chiến lược lập kế hoạch kiểm toán là
việc phát hiện gian lận với mục đích ngăn ngừa phân tích dữ liệu kiểm toán và xây
dựng lịch sử mô hình của kế hoạch kiểm toán có hiệu quả trong tương lai. Một ứng
dụng tài chính và bảo hiểm, nơi kiểm tra nhằm phát hiện trốn thuế và tuyên bố gian
lận. Một trường hợp nghiên cứu được trình bày bởi Bonchi (1999) minh họa các kỹ
HVTH: Võ Thị Thúy Lan – CH1301096 9

Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
thuật dựa trên phân loại có thể được sử dụng để hỗ trợ công việc cho các chiến lược
quy hoạch kiểm toán.
Các phương pháp phát hiện gian lận trong đấu giá trực tuyến (Shah, 2002) dựa
trên phương pháp thống kê và phân tích liên kết trong để phát hiện người mua ảo xảy
ra khi người bán cố gắng đội giá trong phiên đấu giá bằng cách đặt mua hồ sơ dự thầu
dưới những bí danh khác nhau hoặc thông qua liên kết. Ngoài gian lận, những nỗ lực
phát hiện có thể được thúc đẩy hơn nữa bởi sự cần thiết phải hiểu được hành vi của
khách hàng để cho phép cung cấp dịch vụ phù hợp và cải thiện hoạt động.
HVTH: Võ Thị Thúy Lan – CH1301096 10
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Chương 2. GIAN LẬN LÀ GÌ?
Gian lận là hành vi cố ý để tạo ra cho người khác một cái gì đó có giá trị, hoặc
từ bỏ quyền hợp pháp. Đó là sự xuyên tạc hoặc che giấu thông tin để lừa dối hoặc gây
nhầm lẫn. Gian lận có thể từ nhân viên trộm cắp nhỏ, hành vi để chiếm đoạt tài sản và
báo cáo tài chính gian lận. Trong bối cảnh tình huống khác nhau, gian lận có thể có các
hình thức hơi khác nhau. Ví dụ: hối lộ, tham ô, gian lận chứng khoán, gian lận chăm
sóc sức khỏe, lừa đảo rửa tiền, gian lận bảo hiểm, vi phạm bản quyền phần mềm, gian
lận internet, lừa đảo qua điện thoại, thế chấp lừa đảo bị tịch thu và trộm cắp danh tính -
tất cả đều có đặc điểm riêng biệt của nó. Ít nhất có nhiều loại gian lận mà nhiều loại
người đã thực hiện nó. Nhưng trong mỗi trường hợp, liên quan đến gian lận lừa dối.
Một người nào đó cố tình gian lận để có được một lợi ích bất hợp pháp, hoặc một lợi
thế không công bằng.
Một số ví dụ về gian lận bao gồm:
• bất kỳ hành động không trung thực hoặc gian lận;
• giả mạo hoặc thay đổi một hóa đơn, hối phiếu ngân hàng, hoặc tài liệu tài chính;
• biển thủ tài sản;
• có chủ ý không thích hợp trong việc xử lý hoặc báo cáo tiền hoặc giao dịch tài
chính;
• mạo danh trong một giao dịch kinh doanh để nhận được một lợi ích (chẳng hạn

như hối lộ, lại quả và thầu gian);
• trục lợi kết quả của thông tin nội bộ;
• tiết lộ nội bộ thông tin cho người khác để tăng lợi ích bất hợp pháp.
Lạm dụng là hành vi thiếu hoặc không đúng khi so sánh với hành vi mà một
người bình thường hành nghề kinh doanh hợp pháp trong các sự kiện và hoàn cảnh.
Trường hợp lạm dụng, gian lận bất hợp pháp, hành vi này là có hại và cần phải được
giảm thiểu.
HVTH: Võ Thị Thúy Lan – CH1301096 11
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Các tam giác gian lận là một mô hình để giải thích các yếu tố gây ra bởi một
người nào đó để gian lận nghề nghiệp. Nó bao gồm ba thành phần có liên quan với
nhau, dẫn đến hành vi gian lận:
- Nhận thấy nhu cầu tài chính cá biệt
- Nhận thấy cơ hội
- Hợp lý hóa
GIAN LẬN
HỢP LÝ HÓA –
những hành động biện minh cho sự không trung thực
SỨC ÉP –
động lực hoặc động cơ
để gian lận
CƠ HỘI –
khả năng để thực hiện chiếm dụng tiền mặt hoặc tài sản của tổ chức
Hình 2.1 Tam giác gian lận
HVTH: Võ Thị Thúy Lan – CH1301096 12
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Chương 3. PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU
Khai thác dữ liệu là phân tích khối lượng lớn các giao dịch và dữ liệu thanh
toán, tìm ra mô hình, xu hướng và tiết lộ cụm gian lận. Các bước chính để thực hiện
phương pháp này phát hiện gian lận trong một tổ chức kinh doanh là:

Bước 1: Phân tích các mục tiêu lừa đảo và gian lận tiềm năng, để chuyển đổi
chúng thành mục tiêu khai thác dữ liệu
Bước 2: Thu thập dữ liệu và sự hiểu biết
Bước 3: Làm sạch dữ liệu và chuẩn bị cho các thuật toán
Bước 4: Thiết kế thử nghiệm
Bước 5: Đánh giá kết quả để xem xét quá trình.
có liên quan vấn đề kỹ thuật là do:
- Dữ liệu không hoàn hảo do không thu thập cho mục đích khai thác dữ liệu, vì
vậy chúng không chính xác, không đầy đủ và không liên quan thuộc tính dữ
liệu;
- Dữ liệu chênh lệch nhau, có rất nhiều chi tiết hợp pháp hơn là phát hiện gian
lận, vì vậy bằng cách dự đoán tất cả các trường hợp để hợp pháp, có thể đạt
được tỷ lệ thành công rất cao mà không phát hiện bất kỳ gian lận;
- Cơ hội nhiều hơn phù hợp khi xảy ra mô hình chính xác cao phát sinh từ mô
hình phù hợp trong tập huấn luyện mà không đáng tin cậy về mặt thống kê và
không có sẵn trong các thiết lập điểm. Để xử lý với các dữ liệu sai lệch, tập
huấn luyện được chia thành từng mảnh để nơi phân phối là ít sai lệch (Chan,
1998).
HVTH: Võ Thị Thúy Lan – CH1301096 13
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Một cách tiếp cận phát hiện điển hình bao gồm việc phát hiện ngoại lai, nơi các
hành vi gian lận không được giả định như bình thường và xác định giá trị ngoại lai rơi
xa bên ngoài phạm vi dự kiến sẽ phải được đánh giá chặt chẽ hơn.
Các kỹ thuật thống kê được sử dụng cho phương pháp này:
Dự đoán và phân loại
• Các thuật toán hồi quy: mạng nơ-ron, giỏ hàng, hồi quy, GLM-General Linear
Model;
• Phân loại các thuật toán (dự đoán tượng trưng kết quả): hồi quy logistic;
Nhóm và tìm hội
• Clustering / Phân nhóm các thuật toán: K-means, Kohonen, phân tích nhân tố;

• Hiệp hội các thuật toán. GRI, Capri trình tự
Nhiều hệ thống phát hiện gian lận hiện hoạt động bằng cách: phương pháp giám
sát trên các dữ liệu được dán nhãn, lai phương pháp tiếp cận trên dữ liệu được dán
nhãn, bán phương pháp giám sát với pháp lý (vùng gian lận) dữ liệu, phương pháp tiếp
cận không được giám sát với các dữ liệu không dán nhãn (Phua, 2005). Khung phân
loại, được thể hiện trong hình 2.1, dựa trên một nghiên cứu kiến thức tài liệu hiện có về
bản chất của nghiên cứu khai thác dữ liệu, nghiên cứu phát hiện gian lận.
Một khung phân loại gian lận tài chính được đề xuất dựa trên khung tội phạm tài
chính của Văn phòng liên bang điều tra Mỹ, đó là một trong những khuôn khổ được
thiết lập cho phát hiện gian lận tài chính. Hình 3.1 bao gồm hai lớp, lớp đầu tiên bao
gồm sáu ứng dụng khai thác dữ liệu về phân loại, phân nhóm, dự đoán, phát hiện ngoại
lai, hồi quy và trực quan, được hỗ trợ bởi một tập hợp các phương pháp tiếp cận thuật
toán để trích xuất các mối quan hệ có liên quan trong dữ liệu.
HVTH: Võ Thị Thúy Lan – CH1301096 14
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Mạng nơ-ron
Naïve Bayes
Phát hiện
ngoại lai
Gian lận
kế toán
Mạng
Bayesian
Cây
quyết
định
Logic mờ
Thuật
toán
di

truyền
Lân
cận
gần
nhất
Clustering
Phân loại
HVTH: Võ Thị Thúy Lan – CH1301096 15
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Dự đoán
Hồi quy
Trực quan
Mô hình
hồi quy
Hình 3.1. Khung khái niệm cho ứng dụng của khai thác dữ liệu để phát hiện gian lận kế toán
tài chính
Mô tả ngắn gọn về các khuôn khổ khái niệm với tài liệu tham khảo được cung
cấp và sáu ứng dụng khai thác dữ liệu (phân loại, phân nhóm, phát hiện ngoại lai, dự
HVTH: Võ Thị Thúy Lan – CH1301096 16
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
báo, hồi quy và trực quan), mỗi thành phần trên sẽ được thảo luận chi tiết hơn trong
phần sau.
3.1. Phân loại các ứng dụng khai thác dữ liệu
Mỗi ô trong số sáu lớp ứng dụng khai thác dữ liệu được hỗ trợ bởi một tập hợp
các phương pháp tiếp cận thuật toán để trích xuất các mối quan hệ có liên quan trong
dữ liệu. Những cách tiếp cận có thể xử lý các lớp khác nhau của vấn đề. Các lớp được
trình bày dưới đây.
Phân loại: Phân tích xây dựng và sử dụng một mô hình để dự đoán các nhãn
phân loại các đối tượng chưa được phân biệt giữa các đối tượng của các lớp khác nhau.
Các nhãn phân loại được xác định trước, rời rạc và không có thứ tự. Các tài liệu nghiên

cứu mô tả rằng phân loại hoặc dự đoán là quá trình xác định một tập hợp các tính năng
phổ biến (mô hình), và đề xuất các mô hình mô tả và phân biệt các lớp dữ liệu hoặc các
khái niệm. Phân loại kỹ thuật chung bao gồm các mạng nơ-ron, các kỹ thuật Naïve
Bayes, cây quyết định và máy hỗ trợ vector. Nhiệm vụ phân loại được sử dụng trong
việc phát hiện thẻ tín dụng, chăm sóc sức khỏe, bảo hiểm xe cộ và gian lận của công ty,
trong số các loại gian lận, phân loại là một trong những mô hình học tập phổ biến nhất
trong việc áp dụng dữ liệu khai thác để phát hiện gian lận.
Clustering: Clustering được sử dụng để phân vùng các đối tượng đầu vào mà
trước đó chưa biết khái niệm nhóm có ý nghĩa (ví dụ như cụm), với các đối tượng trong
một nhóm là tương tự nhau nhưng rất khác so với các đối tượng trong các cụm khác.
Clustering còn được gọi là phân đoạn dữ liệu hoặc phân vùng và được coi là một biến
thể của phân loại không giám sát. Phân tích cụm phân hủy hoặc phân vùng một tập dữ
liệu (đơn hoặc đa biến) thành các nhóm giống nhau để các dữ liệu điểm trong một
nhóm tương tự nhau và khác nhau so với các điểm dữ liệu trong các nhóm khác. Đó là
đề nghị đối tượng dữ liệu trong mỗi cụm nên có tính tương tự cao trong nội bộ nhóm
của cùng một nhóm nhưng cần phải có liên cụm tương tự như trong các cụm khác. Các
HVTH: Võ Thị Thúy Lan – CH1301096 17
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
kỹ thuật phân nhóm phổ biến nhất là những K-lân cận gần nhất, kỹ thuật Naïve Bayes
và bản đồ tự tổ chức.
Dự đoán: Dự đoán ước tính số và ra lệnh cho các giá trị trong tương lai dựa trên
mô hình của một tập dữ liệu. Cần lưu ý rằng, đối với dự đoán, các thuộc tính mà giá trị
được dự đoán là có giá trị liên tục (ra lệnh) chứ không phải là phân loại (rời rạc có giá
trị và không có thứ tự). Thuộc tính này được gọi là các thuộc tính dự đoán. Mạng nơ-
ron và mô hình dự báo hậu cần là các kỹ thuật dự báo thường được sử dụng.
Phát hiện ngoại lai: Phát hiện ngoại lai được sử dụng để đo khoảng cách giữa
các đối tượng dữ liệu để phát hiện những đối tượng quá khác hoặc không phù hợp với
tập dữ liệu còn lại. Dữ liệu xuất hiện sẽ có những đặc điểm khác biệt so với phần còn
lại của số chung được gọi là giá trị ngoại lai. Các vấn đề phát hiện ngoại lai hoặc bất
thường là một trong những vấn đề cơ bản nhất trong khai thác dữ liệu. Một kỹ thuật

thường được sử dụng trong việc phát hiện ngoại lai là thuật toán chiết khấu.
Hồi quy: Hồi quy là một phương pháp thống kê được sử dụng để tiết lộ mối
quan hệ giữa một hay nhiều biến độc lập và biến phụ thuộc (có nghĩa là liên tục có giá
trị). Nhiều nghiên cứu thực nghiệm đã sử dụng hồi quy logistic như một chuẩn mực
cho phương pháp này. Các kỹ thuật hồi quy thường được thực hiện bằng cách sử dụng
phương pháp toán học như hồi quy logistic và hồi quy tuyến tính, và nó được sử dụng
trong việc phát hiện thẻ tín dụng, cây trồng, bảo hiểm xe cộ và gian lận của công ty.
Trực quan: đề cập đến trình bày dữ liệu một cách dễ hiểu và phương pháp có
thể chuyển đổi các đặc tính dữ liệu phức tạp vào một mô hình rõ ràng để cho phép
người dùng xem các mô hình phức tạp hoặc phát hiện các mối quan hệ trong quá trình
khai thác dữ liệu. Các nhà nghiên cứu đã khai thác các khả năng phát hiện mô hình hệ
thống thị giác của con người bằng cách xây dựng một bộ công cụ và ứng dụng linh
hoạt mã hóa dữ liệu bằng cách sử dụng màu sắc, vị trí, kích thước và các đặc điểm hình
HVTH: Võ Thị Thúy Lan – CH1301096 18
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
ảnh khác. Trực quan được sử dụng tốt nhất để cung cấp các mẫu phức tạp thông qua
việc trình bày rõ ràng về dữ liệu hoặc các chức năng.
3.2. Phân loại kỹ thuật khai thác dữ liệu trong việc phát hiện gian lận kế toán tài
chính
Để xác định các thuật toán chính được sử dụng để phát hiện gian lận kế toán tài
chính, sau đây là phần trình bày một đánh giá của kỹ thuật khai thác dữ liệu được xác
định trong việc áp dụng để phát hiện các gian lận tài chính. Các kỹ thuật thường xuyên
nhất được sử dụng là mô hình hậu cần, mạng nơ-ron, mạng Bayesian và cây quyết
định, tất cả đều rơi vào phân loại danh mục. Bốn kỹ thuật sẽ được thảo luận chi tiết hơn
trong phần sau đây:
Mô hình hồi quy: các mô hình hồi quy chủ yếu được sử dụng trong việc phát
hiện gian lận kế toán tài chính. Phần lớn trong số đó được dựa trên hồi quy logistic, hồi
quy từng bước-hậu cần, phương pháp đa tiêu chí quyết định và theo cấp số nhân tổng
quát beta hai (EGB2). Mô hình hậu cần là một mô hình tuyến tính tổng quát được sử
dụng cho nhị thức hồi quy trong đó các biến dự đoán có thể là số hoặc phân loại. Nó

chủ yếu được sử dụng để giải quyết vấn đề gây ra bởi bảo hiểm và gian lận của công ty.
Một số nghiên cứu đã đề xuất mô hình hồi quy dựa trên hậu cần để dự đoán sự
hiện diện của các báo cáo tài chính gian lận. Phương pháp thống kê hồi quy logistic có
thể phát hiện các báo cáo tài chính giả mạo một cách hiệu quả. Một số nhà nghiên cứu
cũng đã phát triển mô hình tổng quát phản ứng định tính dựa trên Probit và kỹ thuật
Logit để dự đoán gian lận báo cáo tài chính. Mô hình đã được xây dựng dựa trên một
bộ dữ liệu được thu thập bởi một công ty kế toán công quốc tế và nhu cầu xét nghiệm
tổng quát. Mô hình Cascaded Logit cũng đã đề xuất để điều tra mối quan hệ giữa giao
dịch nội gián và khả năng gian lận. Nghiên cứu phát hiện ra rằng trong khi sự gian lận
đang được thực hiện, trong nội bộ, tức là giám đốc điều hành và người quản lý, nắm
giữ cổ phiếu của họ thông qua các hoạt động chứng khoán tầm cao. Các phương pháp
HVTH: Võ Thị Thúy Lan – CH1301096 19
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
khác như thống kê phân tích hồi quy cũng rất hữu ích để kiểm tra sự tồn tại của một ủy
ban kiểm toán độc lập hoặc làm giảm khả năng gian lận. Lý thuyết cũng mô tả rằng các
tổ chức với các ủy ban kiểm toán, được thành lập bởi các nhà quản lý độc lập, đáp ứng
không quá hai lần mỗi năm, ít có khả năng bị xử phạt về gian lận báo cáo tài chính.
Các phân tích hồi quy sử dụng mô hình Logit có thể được sử dụng để phân tích
thực nghiệm về tài chính có thể dự đoán đáng kể chỉ số gian lận tài chính. Phân tích
hậu cần và phân tích phân nhóm cùng nhau có thể được sử dụng để thiết lập một mô
hình phát hiện gian lận từ bốn khía cạnh của chỉ số tài chính, quản trị công ty, rủi ro tài
chính và áp lực kinh doanh có liên quan. Sau khi cụm lọc biến đáng kể, mô hình dự
đoán có thể được thành lập với phương pháp tiêu chuẩn, không tiêu chuẩn Bayes và
Logistic.
Hồi quy dựa trên gian lận kế toán hậu cần phát hiện mô hình phổ biến trong
thực tế từ các mô hình dựa trên hồi quy logistic có thể phát hiện chính xác với hiệu ứng
kỳ vọng đáng kể lên tới 95,1%.
Mạng nơ-ron: Các mạng nơ-ron là những công cụ mô hình dữ liệu thống kê phi
tuyến tính được lấy cảm hứng từ các chức năng của bộ não con người sử dụng một tập
hợp các nút liên kết với nhau. Mạng nơ-ron được áp dụng rộng rãi trong phân loại và

phân nhóm với lợi thế như sau. Đầu tiên là thích nghi; thứ hai, nó có thể tạo ra mô hình
mạnh mẽ, và thứ ba, quá trình phân loại có thể được sửa đổi nếu trọng lượng đào tạo
mới được thiết lập. Mạng nơ-ron được áp dụng chủ yếu cho thẻ tín dụng, bảo hiểm ô tô
và gian lận của công ty.
Thực tế mô tả rằng các mạng nơ-ron có thể được sử dụng như một công cụ phát
hiện gian lận tài chính. Sự gian lận trong mạng nơ-ron được mô hình phân loại sử dụng
dữ liệu tài chính nội sinh tạo ra từ mô hình hành vi học có thể được áp dụng cho một
mẫu thử nghiệm. Mạng nơ-ron có thể được sử dụng để dự đoán sự xuất hiện gian lận
của công ty ở cấp quản lý. Các nhà nghiên cứu đã khám phá hiệu quả của mạng nơ-ron,
HVTH: Võ Thị Thúy Lan – CH1301096 20
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
cây quyết định và mạng Bayesian trong việc phát hiện gian lận báo cáo tài chính (FFS-
False Financial Statements) và xác định các yếu tố liên quan đến FFS.
Các nghiên cứu cho thấy vector đầu vào bao gồm chỉ tiêu tài chính và biến chất
lượng, hiệu quả hơn khi mô hình phát hiện gian lận đã được phát triển bằng cách sử
dụng mạng nơ-ron. Mô hình này cũng được so sánh với tiêu chuẩn phương pháp thống
kê như phân tích phân biệt tuyến tính và bậc hai, cũng như phương pháp hồi quy
logistic.
Các kiến trúc mạng nơ-ron thích nghi tổng quát và mạng thích ứng được đón
nhận để phát hiện gian lận. Các kỹ thuật lai giống như quy tắc mờ tích hợp với một
mạng nơ-ron (hệ thống thần kinh mờ) cũng được đề xuất. Các tài liệu mô tả rằng mạng
nơ-ron mờ tích hợp tốt hơn mô hình thống kê truyền thống và mạng lưới mô hình thần
kinh được báo cáo trong các nghiên cứu trước.
Mạng lưới Bayes (BBN- Bayesian Belief Network ): đại diện cho một tập hợp
các biến ngẫu nhiên và điều kiện độc lập bằng cách sử dụng một biểu đồ mạch hở
hướng (DAG- Directed Acyclic Graphs), trong đó các nút đại diện cho các biến ngẫu
nhiên và cạnh thiếu mã hóa độc lập có điều kiện giữa các biến. Mạng Bayesian được sử
dụng trong việc phát triển mô hình cho thẻ tín dụng, bảo hiểm ô tô và phát hiện gian
lận của công ty. Các nghiên cứu mô tả Bayes là mô hình mạng với phân loại một cách
chính xác 90,3% mẫu xác nhận để phát hiện gian lận. Mạng Bayesian vượt trội so với

mạng nơ-ron, cây quyết định và đạt được độ chính xác phân loại xuất sắc.
Một cây quyết định (DT- Decision Tree): là một công cụ hỗ trợ quyết định cấu
trúc cây, trong đó mỗi nút đại diện cho một thử nghiệm trên một thuộc tính và mỗi chi
nhánh đại diện cho hậu quả. Bằng cách này, các mô hình dự đoán cố gắng để phân chia
các quan sát vào nhóm loại trừ lẫn nhau và được sử dụng cho các nhiệm vụ khai thác
dữ liệu và máy học. Cây quyết định là những công cụ hỗ trợ quyết định tiên đoán và
tạo lập bản đồ từ những quan sát đến những hậu quả có thể. Dự đoán được đại diện bởi
HVTH: Võ Thị Thúy Lan – CH1301096 21
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
lá và các liên từ các tính năng của các ngành. Cây quyết định thường được sử dụng
trong thẻ tín dụng, bảo hiểm ô tô và gian lận của công ty.
Phương pháp lân cận gần nhất: là một sự tiếp cận tương đồng dựa trên phân
loại. Dựa trên sự kết hợp của các lớp của các bản ghi tương tự như hầu hết k (s), mỗi
hồ sơ được phân loại. Đôi khi phương pháp này còn được gọi là những kỹ thuật lân
cận-k-gần nhất. Phương pháp lân cận-k-gần nhất được sử dụng trong ô tô, yêu cầu bảo
hiểm, phát hiện gian lận và xác định giá trị mặc định của thẻ tín dụng khách hàng.
Logic mờ và thuật toán di truyền: Thuật toán di truyền được sử dụng trong
các hệ thống phân loại để đại diện và mô hình hóa các hành vi quyết định kiểm toán
viên trong một khung gian lận. Thuật toán di truyền cùng với hệ thống hỗ trợ vector
nhị phân (BSVS- Binary Support Vector System) dựa trên các vectơ hỗ trợ trong các
máy hỗ trợ vector (SVM- Support Vector Machine) được sử dụng để giải quyết vấn đề
gian lận thẻ tín dụng đã không được xác định tốt.
Logic mờ là một kỹ thuật toán học phân loại chủ quan lý luận và chỉ định dữ
liệu đến một nhóm hoặc cụm đặc biệt, dựa trên mức độ khả năng dữ liệu có khi ở trong
nhóm đó. Các kỹ thuật phân loại chuyên gia mờ cho phép thực hiện lý luận gần đúng
có thể cải thiện hiệu suất trong ba cách. Đầu tiên, hiệu suất được cải thiện thông qua
đại diện hiệu quả của điều khoản mơ hồ, bởi vì công nghệ số lượng mờ có thể hiển thị
đại diện của một mục dữ liệu trong một thể loại cụ thể. Cách thứ hai, hiệu suất được
tăng cường là thông qua việc tăng phạm vi hoạt động trong môi trường được xác định,
đó là cách mà phương pháp mờ có thể hiển thị một phần thành viên của yếu tố dữ liệu

trong một hoặc nhiều loại có thể không được xác định rõ ràng trong phân tích truyền
thống. Cuối cùng, hiệu suất được tăng lên vì công nghệ mờ làm giảm độ nhạy cảm với
dữ liệu "nhiễu", hoặc giá trị ngoại lai. Một đa hệ thống dựa trên luật lệ mờ được đề
xuất để xếp hạng quản lý tài chính nhà nước. Các tác giả đã sử dụng lý thuyết tập mờ
để đại diện cho sự thiếu chính xác trong thông tin đánh giá và phán đoán.
HVTH: Võ Thị Thúy Lan – CH1301096 22
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Một mô hình logic mờ đã được thực hiện để phát hiện gian lận trong một bảng
tính Excel. Bằng cách sử dụng các mô hình logic mờ để phát triển các cụm cho các báo
cáo khác nhau đại diện cho một mốc trong việc phát hiện gian lận, dữ liệu phi tài chính
bao gồm các biến báo cáo tài chính để phân tích. Mô hình này bao gồm các biến tài
chính khác nhau như đòn bẩy, lợi nhuận, thanh khoản, dòng tiền và một biến được thiết
kế để đại diện cho một công ty với nguy cơ gian lận. Logic mờ có mô hình biến hiệu
quả, được phát triển để định lượng các yếu tố nguy cơ gian lận. Mô hình dự đoán hành
vi gian lận với độ chính xác 86,7%. Được chuyển thể để phát triển một mô hình phát
hiện gian lận báo cáo tài chính. Mô hình đề xuất sử dụng kết hợp dữ liệu báo cáo tài
chính khác nhau.
Logic mờ dựa trên hệ thống chuyên gia đã được phát triển để xác định và đánh
giá liệu các yếu tố gian lận có liên quan đến bảo hiểm trên các khu đã xác định. Logic
mờ dựa trên hệ thống chuyên gia được phát triển cho các kiểm toán viên để xác định
gian lận trong giải quyết vấn đề bảo hiểm. Hệ thống đã có thể cắt giảm chi phí bằng
cách phát hiện hồ sơ giả mạo.
Thuật di truyền với các quy tắc sản xuất logic mờ được sử dụng để phân loại dữ
liệu. Nghiên cứu đã đề xuất và thử nghiệm một hệ thống để phát hiện gian lận về yêu
cầu bảo hiểm nhà sản xuất và dữ liệu giao dịch thẻ tín dụng. Nghiên cứu về di truyền
để phát hiện gian lận thiếu điểm chuẩn với các phương pháp và kỹ thuật hiện có. Một
thuật toán di truyền là cách tiếp cận để phát hiện gian lận báo cáo tài chính. Có thể thấy
rằng điểm bất thường đặc biệt là các số liệu có giá trị cho đặc trưng hành vi tài chính
doanh nghiệp và phân tích những điểm số theo thời gian đại diện cho một cách hiệu
quả để phát hiện khả năng hành vi gian lận.

Hệ chuyên gia: Các nhà nghiên cứu trong lĩnh vực hệ thống chuyên gia đã xem
xét vai trò của hệ thống chuyên gia trong việc tăng khả năng phát hiện của kiểm toán
viên và người sử dụng báo cáo. Bằng cách sử dụng hệ thống chuyên gia, họ có thể có
HVTH: Võ Thị Thúy Lan – CH1301096 23
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
khả năng tốt hơn để phát hiện nguy cơ gian lận kế toán theo bối cảnh và mức độ khác
nhau và cho phép kiểm toán viên đưa ra các đề xuất kiểm toán đáng tin cậy hơn nhiều
thông qua thủ tục kiểm toán hợp lý. Nghiên cứu đã xác nhận rằng việc sử dụng một hệ
thống chuyên gia tăng cường kiểm toán viên với sự hỗ trợ từ hệ thống chuyên gia,
kiểm toán viên phân biệt tốt hơn, trong số những mức độ tình huống khác nhau của
quản lý nguy cơ gian lận. Hệ thống chuyên gia hỗ trợ trong việc ra quyết định liên
quan đến hoạt động kiểm toán thích hợp. Các nghiên cứu phát hiện gian lận kế toán tài
chính được phân loại theo ứng dụng khai thác dữ liệu và kỹ thuật khai thác dữ liệu.
Một số nhà nghiên cứu đã cố gắng áp dụng một sự kết hợp của nhiều kỹ thuật khai thác
dữ liệu như cây quyết định, mạng nơ-ron, mạng Bayesian, lân cận-k-gần nhất. Mục tiêu
chính là để áp dụng một hệ thống hỗ trợ quyết định kết hợp sử dụng phương pháp xếp
chồng biến để phát hiện gian lận báo cáo tài chính.
HVTH: Võ Thị Thúy Lan – CH1301096 24
Áp dụng các kỹ thuật khai thác dữ liệu cho kế toán tài chính GVHD: PGS.TS Đỗ Phúc
Chương 4. KHAI THÁC DỮ LIỆU DỰA TRÊN KHUNG ĐỂ PHÁT HIỆN GIAN
LẬN
Nghiên cứu liên quan đến ứng dụng của các thuật toán khai thác dữ liệu và kỹ
thuật để phát hiện gian lận kế toán tài chính là một nghiên cứu theo khu vực. Việc thực
hiện các kỹ thuật theo dòng chảy thông tin tương tự của các quá trình khai thác dữ liệu
nói chung. Quá trình bắt đầu với lựa chọn tính năng sau đó tiến hành với đại diện, thu
thập dữ liệu và quản lý, tiền xử lý, khai thác dữ liệu, hậu xử lý và trong việc đánh giá
hiệu suất kết thúc. Bài viết này đã đề xuất một khuôn khổ khai thác dữ liệu chung mở
rộng. Khuôn khổ này xem xét đặc điểm cụ thể của kỹ thuật phát hiện gian lận trong kế
toán tài chính (Hình 4.1)
HVTH: Võ Thị Thúy Lan – CH1301096 25

×