ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
o0o
Báo cáo chuyên đề
HỆ HỖ TRỢ QUYẾT ĐỊNH
ỨNG DỤNG DATA MINING
TRONG
DỰ ĐOÁN GIAN LẬN
BÁO CÁO TÀI CHÍNH
Giảng viên hướng dẫn: PGS. TS. Đỗ Phúc
Học viên thực hiện: Hồ Mạnh Khương
MSHV: CH1301018
1
Mục lục
2
I. Giới thiệu
Các phương pháp data mining ngày nay hỗ trợ rất nhiều cho nhận định sai phạm
trong gian lận báo cáo tài chính với khả năng xử lý lượng dữ liệu lớn và phức tạp. Việc
ứng dụng data mining vào nhận định gian lận đi theo các hướng xử lý dữ liệu truyền
thống của data mining, gồm thu thập dữ liệu, quản lý dữ liệu, tiền xử lý, khai phá dữ liệu,
hậu xử lý và đánh giá hiệu suất xử lý.
[1]
Data mining có khả năng nhận định các sai phạm trong báo cáo tài chính nhờ vào
việc phân tích các trường hợp đã lưu trong dữ liệu cũ, xây dựng các mô hình để qua đó
phân tích và nhận định chính xác hoặc gần chính xác tỉ lệ các sai phạm này.
Tỉ lệ sai phạm và gian lận trong các báo cáo tài chính tăng dần theo thời gian. Và
với số lượng dữ liệu phải xử lý mỗi năm một lớn, việc xem xét và quản lý bằng tay là gần
như không thể thực hiện. Chính vì vậy, ứng dụng công nghệ thông tin và các kỹ thuật tiên
tiến của data mining vào thực hiện các công việc với nguồn dữ liệu lớn hoặc rất lớn là
nhu cầu cấp bách và cần thiết với con người trong thời đại ngày nay.
Trong nội dung của bài báo cáo này, tôi xin tổng hợp những kiến thức sơ lược tổng
quan về ứng dụng data mining trong việc xử lý và phân tích dữ liệu để nhận định gian lận
trong các báo cáo tài chính.
Gian lận là gì?
[3]
Gian lận là hành vi có chủ đích, nhằm đưa một người hoặc một sự việc đi trái với
pháp luật. Nó bao gồm cả các hành vi nhằm cung cấp sai thông tin hoặc che đậy thông để
gây hiểu lầm hoặc sai phạm. Gian lận có nhiều hình thức từ ăn gian giờ làm hoặc có hành
vi cư xử quá mực hoặc ở diện rộng hơn như gian lận báo cáo tài chính. Gian lận có thể
xảy ra ở gần như tất cả các hình thức như đút lót, tham ô, gian lận về chi phí…
Một số hình thức gian lận trong báo cáo tài chính thường gặp:
- Bỏ ngoài sổ sách kế toán: Đây là thủ đoạn khá phổ biến hiện nay. Theo đó, người
nộp thuế thường sử dụng đồng thời hai hệ thống sổ sách kế toán, một hệ thống sổ
kế toán nội bộ phản ánh đầy đủ các giao dịch kinh tế, hệ thống kế toán còn lại chỉ
phản ánh một phần các giao dịch kinh tế để khai thuế.
Kiểu hành vi này thường xảy ra ở các doanh nghiệp (DN) dân doanh hoạt động
trong lĩnh vực kinh doanh bán lẻ, ăn uống, khách sạn, xây dựng dân dụng và sản
3
xuất nhỏ. Đây chính là một kiểu hoạt động kinh tế ngầm mà môi trường thuận lợi
của nó là nền kinh tế tiền mặt. Rất khó có thể xác định được số thuế thất thu do
hành vi trốn thuế này gây ra vì nếu xác định được thì đã không xảy ra thất thu
thuế.
- Tạo giao dịch bán hàng giả mạo: Mục tiêu của thủ đoạn này là chiếm đoạt tiền
ngân sách nhà nước (NSNN) thông qua hoàn thuế hoặc tiếp tay cho hành vi tham
nhũng NSNN của một bộ phận công chức được giao nhiệm vụ mua sắm tài sản,
hàng hóa, dịch vụ cho cơ quan nhà nước. Thủ đoạn này cũng liên quan đến hành vi
giao dịch mua hàng giả mạo sẽ phân tích dưới đây nhằm giúp cho bên mua tăng
thuế giá trị gia tăng (GTGT) đầu vào được khấu trừ và giảm chi phí tính thuế thu
nhập DN.
Ngoài xuất khẩu khống, giao dịch bán hàng hóa, dịch vụ giả mạo còn được thực
hiện chủ yếu thông qua các hợp đồng bán hàng khống; các hợp đồng cung cấp
dịch vụ khống và xuất hóa đơn khống. Hành vi này được thực hiện ở cả DN “ma”
và cả ở các DN đang hoạt động kinh doanh bình thường.
- Tạo giao dịch mua hàng giả mạo: Đây là hành vi trốn thuế khá phổ biến hiện nay,
thực tế DN không có khoản chi này nhưng đã tự tạo ra chứng từ để hợp pháp hóa
khoản chi không có thực, vì thế có thể gọi đây là chi khống. Chi khống thể hiện
qua những bảng kê thanh toán giả mạo với chữ ký giả, hợp đồng lao động giả mạo
(có trường hợp tên người lao động không có thật; có trường hợp tên người lao
động là có thật nhưng thực sự không làm việc cho DN đó) và thể hiện ở những hóa
đơn đi mua của cơ sở kinh doanh khác.
Bằng hành vi này, DN không chỉ trốn thuế thu nhập DN mà còn trốn cả thuế
GTGT thông qua việc khấu trừ khống thuế GTGT đầu vào. Đối với những hóa đơn
đi mua, để phát hiện, cơ quan thuế phải làm tốt công tác đối chiếu, xác minh. Thực
tế thời gian qua, thông qua công tác đối chiếu hóa đơn, cơ quan thuế các địa
phương đã phát hiện khá nhiều trường hợp gian lận. Tuy nhiên, với công nghệ đối
chiếu hóa đơn thủ công như hiện nay thì hiệu quả còn rất thấp, bởi vì tỷ lệ hóa đơn
4
có thể đối chiếu so với số hóa đơn cần đối chiếu là quá nhỏ. Hơn nữa, trong trường
hợp DN bán hóa đơn sử dụng hóa đơn của những khách hàng không lấy để bán
cho những người có nhu cầu mua hóa đơn thì việc đối chiếu cũng không đem lại
kết quả.
- Ghi giá bán thấp hơn giá thực tế: Hành vi này được gọi là “down” giá. Đây là
hành vi ghi giá bán trên hóa đơn và kê khai doanh thu tính thuế thấp hơn giá khách
hàng thực tế thanh toán. Hành vi này thường gặp ở các DN kinh doanh nhà hàng
khách sạn, vận tải tư nhân, xăng dầu, kinh doanh vật liệu xây dựng, bán ô tô và xe
máy, hàng trang trí nội thất Các công ty xây dựng (nhà dân và đơn vị xây dựng
vãng lai) khi thi công các công trình ở các địa phương khác hay xây nhà tư nhân
thường khai báo không trung thực, không kê khai hoặc giấu bớt một phần công
trình. Hành vi gian lận này làm giảm thuế GTGT và thuế thu nhập doanh nghiệp
(TNDN) phải nộp, gây ảnh hưởng không nhỏ đến số thu ngân sách hàng năm.
- Hạch toán kế toán và kê khai thuế sai quy định: Mục tiêu chủ yếu của hành vi
hạch toán kế toán sai quy định pháp luật là che giấu doanh thu tính thuế, hạch toán
tăng chi phí tính thuế thu nhập DN và tăng thuế GTGT đầu vào được khấu trừ.
Các kiểu hạch toán sai chế độ kế toán rất đa dạng. Khi bị kiểm tra phát hiện, cán
bộ kế toán có thể lấy cớ là hạch toán nhầm để tránh bị phạt vì hành vi trốn thuế.
Kế toán có thể hạch toán giảm trừ doanh thu thông qua các hình thức giảm giá,
chiết khấu không đúng quy định. Kế toán có thể hạch toán sai tài khoản kế toán để
che giấu doanh thu.
II. Sơ lược về Data Mining
Với sự ứng dụng của công nghệ thông tin cho phép lưu trữ cũng như thu thập
lượng lớn dữ liệu và tổ chức chúng tốt hơn với mục đích tra cứu hoặc tổng hợp thông tin,
thì việc xử lý lượng dữ liệu khổng lồ này để cho ra các báo cáo cũng như kết luận là điều
hết sức khó khăn và tốn nhiều công sức. Việc này đòi hỏi phải sử dụng những công cụ hỗ
5
trợ và kỹ thuật tân tiến, như data mining, để rút trích các thông tin có ích từ nguồn dữ liệu
thô này và sử dụng nó vào mục đích có lợi.
1. Data mining là gì?
Data mining (khai phá dữ liệu) là thuật ngữ diễn tả việc phân tích lượng lớn dữ
liệu để tìm ra mối liên hệ giữa chúng và cung cấp những thông tin hữu ích từ những mối
quan hệ này.
[1]
Data mining được sử dụng rộng rãi trong các lĩnh vực như sức khỏe, tài chính, bán
hàng, viễn thông và các lĩnh vực khác liên quan đến thương mại. Data mining cơ bản
gồm phân tích dữ liệu và lập ra các mô hình từ lượng dữ liệu trên với mục đích giải quyết
các vấn đề và yêu cầu mà doanh nghiệp đó đòi hỏi.
Trong thực tế, có nhiều mô hình data mining được sử dụng. Theo Larose
[3]
, ông
chia data mining theo 6 loại chính gồm xác định chi tiết, ước lượng, tiên đoán, phân loại,
gom nhóm và liên đới.
- Định chi tiết: là các công cụ data mining phục vụ cho việc diễn tả các tính
chất cũng như xu hướng của dữ liệu.
- Ước lượng: các thông tin được ước lượng dựa theo một hoặc nhiều chi tiết
khác nhau từ lượng dữ liệu cung cấp.
- Tiên đoán: các thông tin được tiên đoán trước dựa theo những dữ liệu có
sẵn, ví dụ như thông tin về giá cả, thị trường chứng khoáng…
- Phân loại: cũng giống như ước lượng, các thôgn tin được đưa ra dựa theo
dữ liệu có sẵn nhưng thay vì là số hoặc thông số thì dữ liệu đầu ra được
phân vào các lớp hoặc mục. Nhận dạng và dự báo gian lận là một phần của
các ứng dụng thuộc nhóm này.
- Gom nhóm: dữ liệu được phân tích và cố gắng đưa ra các nhóm có điểm
chung hoặc giống nhau.
- Liên đới: chương trình cố gắng phân tích và đưa ra sự liên quan giữa một
hoặc nhiều cụm dữ liệu khác nhau.
Để thỏa mãn các yêu cầu đặt ra cho data mining ở trên, nhiều chương trình và
phương pháp được đặt ra như sử dụng trí tuệ nhân tạo, nhận dạng theo mẫu, máy học
6
hoặc thống kê. Một số những thuật toán thường gặp có thể nhắc đến cây quyết định,
mạng neural…
Mặc dù có nhiều phần mềm thương mại với giao diện thân thiện hỗ trợ các tác vụ
liên quan đến data mining nhưng vẫn có một số bước đòi hỏi phải có bàn tay can thiệp
của con người.
[6]
Tóm lại, data mining vẫn gồm nhiều bước và một số bước đòi hỏi phải
có sự thông minh của con người để có thể rút trích được những dữ liệu có nghĩa sau khi
phân tích lượng dữ liệu lớn. Data mining bao gồm các bước chính sau
[5]
:
- Xác định yêu cầu của doanh nghiệp một cách rõ ràng và chi tiết.
- Dữ liệu được thu thập và chuẩn bị phân thành model. Bước này khá tốn
thời gian và thường đảm nhận luôn việc tiền xử lý dữ liệu.
- Model dữ liệu phù hợp để giải quyết yêu cầu được chọn ra. Ở bước này,
thông thường dữ liệu sẽ được chia thành các phần để huấn luyện và thử
nghiệm sau khi đã huấn luyện. Quá trình huấn luyện đưa ra các luật và công
thức, trong khi quá trình thử nghiệm xác định xem các luật và công thức đã
được rút ra hoạt động như thế nào với nhiều luồng dữ liệu khác nhau.
- Dựa theo kết quả của chương trình, hiệu năng của model sinh ra được đánh
giá và có thể được chỉnh sửa hoặc triển khai để giải quyết vấn đề của doanh
nghiệp.
III. Các hướng ứng dụng Data Mining vào nghiên cứu về lĩnh
vực tài chính
[4]
Thuật ngữ Data mining để chỉ chung bao gồm nhiều thuật toán, mô hình và các kỹ
thuật từ thống kê, máy học, cơ sở dữ liệu và mô hình hóa. Nhiều phương pháp trong số
này đã được đưa vào để nghiên cứu dữ liệu về tài chính và báo cáo thuế. Một số phương
pháp mà chúng ta sẽ xem qua gồm: mạng neural, giải thuật di truyền, cây quyết định, lý
thuyết về tập thô, lập luận theo tình huống và lập trình toán học.
1. Mạng neural:
Mạng neural là kỹ thuật được ứng dụng nhiều và đã phát triển khá hoàn thiện. Một
mạng neural bao gồm các neuron xử lý được kết nối với nhau, qua một giá trị gọi là trọng
7
số w. Mỗi neuron nhận tín hiệu thông tin từ các neuron khác được kết nối với nó. Nếu
lượng dữ liệu đầu vào vượt quá một ngưỡng nào đó, thì neuron kích hoạt. Dữ liệu đưa
vào được chuyển đổi bằng hàm chuyển đổi của neuron.
Các neuron được xếp thành các lớp. Một mạng neural gồm ít nhất một lớp đầu vào
và một lớp đầu ra. Giữa lớp đầu vào và đầu ra có thể có một hoặc nhiều lớp ẩn. Những
mạng neural khác nhau có thể có số lượng lớp rất khác nhau.
Một mô hình mạng neural
Sau khi đã xây dựng xong mô hình mạng neural, mạng này phải được huấn luyện.
Trong mô hình mạng lan truyền ngược (Backpropagation), dữ liệu được đưa vào
và tính toán ra kết quả cuối cùng. Kết quả được so sánh với kết quả mong muốn và sai số
được đưa ngược về điều chỉnh ở các neuron bằng cách hiệu chỉnh trọng số w. Việc này
được lặp lại cho đến khi mức độ lỗi giảm xuống tới ngưỡng chấp nhận được. Mạng
neural lan truyền ngược thường được dùng trong các mục đích phân loại hoặc tiên đoán.
Ngược lại, với mô hình mạng neural tự tổ chức (Self Organizing Maps) thì với
mỗi vector dữ liệu đưa vào, chỉ một neuron sẽ được kích hoạt. Trọng số của neuron này
được cập nhật dựa vào những dữ liệu được đưa vào. Đồng thời, những dữ liệu tương tự
8
kích hoạt các neuron gần kề nhau sẽ được gom nhóm và tạo thành những cụm neuron. Có
2 mô hình SOM thường được dùng là mạng tứ giác – mỗi neuron được gom với 4 neuron
khác – và mạng lục giác – mỗi neuron được gom với 6 neuron khác.
Một hạn chế của mạng neural là chúng khá khó khăn để con người hiểu rõ được
hoạt động bên trong của mạng. Tuy nhiên các thuật toán đã được đề ra để rút ra những
luật từ mạng neural. Một hạn chế khác nữa là các thông số của mạng phải được tạo ra dựa
theo kinh nghiệm của người xây dựng mạng.
Mạng neural có thể nói là hướng nghiên cứu thu hút nhiều sự chú ý. Cấu trúc và
cách thức hoạt động của mạng neural cho phép xử lý các vấn đề mà các thuật toán khác
gần như không giải được. Khả năng học từ các ví dụ và tạo ra các luật cho phép mạng
neural xử lý các trường hợp không có trong mẫu học, cũng như khả năng xử lý trên các
dữ liệu chưa hoàn chỉnh và nhiều dữ liệu tạp.
9
2. Giải thuật di truyền
Giải thuật di truyền (Genetic Algorithms) áp dụng ý tưởng từ sự tiến hóa tự nhiên
nơi mà cá thể phù hợp nhất sẽ tồn tại. Các luật của vấn đề cần giải quyết được mã hóa
thành các chuỗi dữ liệu dưới dạng bit. Các chuỗi này tạo thành một quầng thể. Giải thuật
di truyền cho phép chuỗi có độ thích hợp cao nhất tồn tại và sản sinh làm mới quầng thể
trên.
Giải thuật di truyền xét đến toàn bộ các giải pháp, bằng cách xét trước nhất một số
giải pháp sau đó loại bỏ những thành phần không thích hợp và chọn những thành phần
thích nghi hơn để tạo sinh và biến hóa nhằm mục đích tạo ra nhiều giải pháp mới có hệ số
thích nghi ngày càng cao
Hệ số thích nghi để dùng làm tiêu chuẩn đánh giá các giải pháp.
Cấu trúc dữ liệu + giải thuật di truyền = chương trình tiến hóa.
Thuật ngữ “chương trình tiến hóa” trong công thức trên là khái niện dùng để chỉ
các chương trình máy tính có sử dụng thuật toán tìm kiếm và tối ưu hóa dựa trên nguyên
lý tiến hóa tự nhiên
Các bước chính của giải thuật di truyền:
1. Chọn mô hình (model) để tượng trưng cho các giải pháp. Các mô hình có thể là
dãy (String) những số nhị phân: 1 và 0, thập phân và có thể là chữ hay hỗn hợp
giữa chữ và số.
2. Chọn hàm số thích nghi để dùng làm tiêu chuẩn đánh giá các giải pháp.
3. Tiếp tục các hình thức biến hóa cho đến khi đạt được các giải pháp tốt nhất hoặc
đến khi thời gian cho phép chấm dứt.
Các thành phần cơ bản của giải thuật di truyền:
- Quá trình lai ghép (phép lai)
- Quá trình đột biến (phép đột biến)
- Quá trình sinh sản
3. Cây quyết định
Cây quyết định là một kiểu mô hình dự báo. Kỹ thuật học máy dùng trong cây
quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây
quyết định.Phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện
Sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân
loại và tổng quát hóa một tập dữ liệu cho trước.
10
4. Lý thuyết về tập thô (Rough Set Theory)
Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak đề xuất vào năm 1982
đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính. Lý thuyết tập thô
được phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để
giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… Đặc biệt thích hợp
với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không
chắc chắn.
Mục đích chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằm đưa ra các
xấp xỉ để biểu diễn các đối tượng không thể được phân lớp một cách chắc chắn bằng tri
thức có sẵn. Theo quan điểm của lý thuyết tập thô, mọi tập thô đều liên kết với 2 tập “rõ”
là xấp xỉ dưới và xấp xỉ trên của nó. Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc,
còn xấp xỉ trên chứa tất cả các đối tượng có khả năng thuộc về tập đó. Các tập xấp xỉ là
cơ sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu.
5. Lập luận theo tình huống (case-based reasoning)
Lập luận theo tình huống là qui trình giải các bài toán mới dựa trên lời giải của các
bài toán tương tự đã gặp. Ví dụ, một thợ sửa chữa ô tô đang chữa một cái động cơ bằng
cách nhớ lại một cái xe khác cũng có các triệu chứng tương tự, người đó đang sử dụng
lập luận theo tình huống. Một luật sư đang bảo vệ một kết quả nào đó trong một phiên tòa
dựa trên các tiền lệ pháp lý hay một quan tòa đang sử dụng một phán lệ (case law), hai
người này cũng đang thực hiện lập luận theo tình huống. Cũng như vậy, một kỹ sư đang
sao chép các đặc tính hoạt động của thiên nhiên vào trong công trình phỏng sinh học
(biomimicry) của mình, anh ta đang coi thiên nhiên như một cơ sở dữ liệu của các giải
pháp cho các vấn đề. Lập luận theo tình huống là một dạng nổi bật của việc tạo ra các sự
tương tự.
Người ta đã cho rằng lập luận theo tình huống không chỉ là một phương pháp
mạnh cho lập luận máy tính mà còn là một hành vi phổ biến của con người trong cuộc
sống hằng ngày khi giải quyết các vấn đề. Hay nói cách khác, mọi lập luận đều dựa trên
các tình huống trong quá khứ (mà đã được trải nghiệm hoặc chấp nhận bằng cách chủ
động thực hiện chọn lựa) - lý thuyết nguyên mẫu (prototype theory) - lý thuyết được
11
nghiên cứu sâu nhất trong ngành khoa học nhận thức về con người (human cognitive
science).
12
IV. Ứng dụng của Data Mining trong dự báo gian lận báo cáo
tài chính
Một mô hình ứng dụng Data mining vào nhận dạng gian lận trong báo cáo tài chính được
FBI đề xuất dựa trên tình hình thống kê các trường hợp trong kinh tế Mỹ ở hình dưới, bao
gồm 2 lớp: lớp đầu tiên là 6 phương pháp khai thác dữ liệu được hỗ trợ bởi các thuật toán
ở lớp thứ 2.
[5]
Mô hình ứng dụng data mining được FBI đề xuất
[5]
1. Các phương pháp Data mining được ứng dụng
Mỗi phương pháp được hỗ trợ bởi nhiều thuật toán khác nhau, với mục đích rút
trích ra những mối quan hệ từ nguồn dữ liệu đưa vào. Các phương pháp này gồm:
- Phân loại (Classification): phân loại được dựa trên huấn luyện và tập các model
cho trước từ các mục chưa biết trước giữa các lớp khác nhau của dữ liệu. Các mục
này thường được gán nhãn trước, rời rạc và không có thứ tự. Mục đích của
phương pháp này là để tìm ra sự tương quan đơn giản giữa hai hoặc nhiều mục,
thường cùng kiểu để nhận biết các mẫu.
Một số thuật giải thường dùng như Naïve Bayes technique, cây quyết định và
SVM (support vector machine). Phương pháp phân loại này thường được dùng để
13
nhận dạng trong lĩnh vực thẻ tín dụng, y tế và bảo hiểm. Đây cũng là phương pháp
được sử dụng phổ biến nhất để nhận dạng gian lận trong các loại báo cáo tài chính.
- Phân nhóm (Clustering): Bằng cách xem xét một hay nhiều thuộc tính hoặc các
lớp, bạn có thể nhóm các phần dữ liệu riêng lẻ với nhau để tạo thành một cấu trúc.
Ở mức đơn giản, việc phân nhóm sử dụng một hoặc nhiều thuộc tính làm cơ sở để
nhận ra một nhóm các kết quả tương quan. Việc phân nhóm giúp nhận biết các
thông tin khác nhau vì nó tương quan với các ví dụ khác, nên có thể rút ra được ở
đâu có những điểm tương đồng và các phạm vi phù hợp. Phân nhóm còn được biết
đến dưới dạng phân đoạn đữ liệu và thường sử dụng các thuật toán phân loại
không có giám sát.
Một số thuật toán thường gặp gồm K-nearest neighbor, Naïve Bayes và SOM
(self-organizing Maps).
- Dự đoán (Prediction): dự đoán dựa trên số liệu và dữ liệu từ nguồn dữ liệu cho
trước. Số liệu được dự đoán thường là thông số liên tục chứ không phải là các mục
hoặc thuộc tính của dữ liệu.
Các thuật toán thường được dùng gồm mạng neural và dự đoán logistic.
- Xác định mâu thuẫn (Outlier Detection): là phương pháp nhận dạng dữ liệu lỗi
trong tập dữ liệu đã được gom nhóm. Dữ liệu khác biệt này được gọi là outliner.
Thuật toán thường dùng của phương pháp này là discounting learning algorithm.
- Hồi qui (Regression): là phương pháp liên quan tới thống kê được dùng để xác
định mối quan hệ giữa một hoặc nhiều thông số và một thông số (thường là giá trị
liên tục). Một số thuật toán thường gặp hầu hết là thống kê như hồi qui luận lý và
hồi qui tuyến tính, thường được sử dụng để nhận dạng thẻ tín dụng, bảo hiểm và
gian lận thuế.
- Mô hình hóa dữ liệu (Visualization): là khả năng biểu diễn dữ liệu phức tạp dưới
dạng đơn giản hơn để người dùng có thể xem được những thành phần hoặc mối
quan hệ giữa các mục dữ liệu trong quá trình khai phá dữ liệu. Có nhiều công cụ
hỗ trợ mô hình hóa dữ liệu sử dụng bảng biểu, đồ thị, thống kê… khác nhau.
14
2. Một số thuật toán thường dùng trong data mining để nhận dạng gian lận
trong báo cáo tài chính
Để nhận dạng gian lận trong báo cáo tài chính, chúng ta xem qua một số các thuật
toán thường dùng. Các thuật toán thường gặp nhất gồm mô hình luận lý, mạng neural,
mạng Bayes và cây quyết định. Cả 4 thuật toán trên đều nằm ở phương pháp phân loại
(classification).
2.1. Mô hình luận lý
Các mô hình luận lý hầu hết được sử dụng trong nhận dạng gian lận báo cáo tài
chính. Đa số chúng đều dựa trên hồi qui luận lý, hồi qui luận lý theo bước, phương pháp
quyết định đa tiêu chuẩn và EGB2 (exponential generalized beta two). Các mô hình này
là mô hình tuyến tính có thể xử lý cả trên số và mục phân loại dữ liệu. Chúng thường
được dùng trong nhận dạng gian lận các báo cáo về bảo hiểm hoặc thuế.
Vào năm 2000, Bell và Carcello đề xuất mô hình hồi qui để nhận định sự tương
đồng giữa các báo cáo thuế sai phạm. Mô hình này được nhận dạng các yếu tố có khả
năng dẫn tới sai phạm như quản lý yếu kém, công ty tăng trưởng nhanh chóng, lợi nhuận
không tương đương…
Sau khi được phân nhóm các giá trị gợi ý, mô hình dự đoán có thể được triển khai
với các thuật toán Bayes và Logistic.
Phương pháp hồi qui luận lý dựa trên các model nhận dạng gian lận trong báo cáo
tài chính có thể đạt tới độ chính xác 95.1%.
2.2. Mạng neural
Mạng neural là các công cụ mô hình hóa dữ liệu thống kê không tuyến tính mô
phỏng cách làm việc dựa theo bộ não con người với các node liên kết với nhau. Mạng
neural được ứng dụng rộng rãi trong phân loại và phân hoạch nhóm.
Các lợi ích của ứng dụng mạng neural:
- Mềm dẻo, linh hoạt với các tình huống và lượng dữ liệu lớn.
- Có khả năng tạo ra các mô hình trực tiếp và liên quan mật thiết đến dữ liệu đầu
vào.
15
- Mô hình đã được phân loại có thể được chỉnh sửa nếu trọng số thay đổi trong lúc
huấn luyện.
Mạng neural được ứng dụng trong nhận dạng sai phạm về thẻ tín dụng, bảo hiểm
xe cộ và báo cáo thuế.
Mạng neural còn được triển khai dưới dạng lai với các thuật toán fuzzy, tạo thành
các mạng neuro-fuzzy. Các nghiên cứu cho thấy mạng neuro-fuzzy cho kết quả khả quan
hơn các phương pháp thống kê và cả mạng neural truyền thống.
2.3. Mạng Bayes
Mạng Bayes là một mô hình xác suất và đồ thị cho phép thu thập, tích lũy, mô
phỏng và khai thác các nhận thức. Tên Bayesian xuất phát từ Lý Thuyết Bayes trong xác
suất thống kê, tuy nhiên giữa mạng Bayes và xác suất Bayes không nhất thiết phải tương
tự nhau.
Mạng Bayes được mô hình hóa bởi một đồ thị mạch có hướng không lập (directed
acyclic graph - DAG) bằng những nối kết xác suất. Các node của graph thể hiện các biến
và các liên kết thể hiện mối quan hệ phụ thuộc xác suất giữa các biến.
Mạng Bayes được sử dụng trong xây dựng các mô hình về thẻ tín dụng, bảo hiểm
và báo cáo thuế. Mạng Bayes có thể phân loại chính xác tới 90.3% các trường hợp thử
nghiệm. Mạng Bayes cho hiệu năng tốt hơn mạng neural và cây quyết định trong khi kết
quả dừng ở mức chấp nhận được.
2.4. Cây quyết định
Cây quyết định (decision tree) là một đồ thị của các quyết định và các hậu quả có
thể của nó (bao gồm rủi ro và hao phí tài nguyên). Cây quyết định được sử dụng để xây
dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng
để hỗ trợ quá trình ra quyết định.
Cây quyết định có thể được xây dựng dựa trên các thuật toán máy học như ID3,
CART và C4.5. Các thành phần tiên đoán nằm ở các lá và nối kết qua các nhánh. Cây
quyết định thường được dùng trong nhận dạng báo cáo thẻ tín dụng, bảo hiểm và báo cáo
thuế.
16
2.5. Naïve Bayes
Thuật giải Naïve Bayes được sử dụng như bộ phân lớp dựa trên các luật điều kiện Bayes.
Naïve Bayes là công cụ phân lớp hiệu quả nhưng dễ dàng cài đặt và cho kết quả khả quan
khi lượng dữ liệu đầu vào lớn. Trong một số nghiên cứu, Naïve Bayes cho kết quả tốt hơn
cả những thuật toán phân loại tiêu chuẩn khác. Trong nhận dạng sai phạm báo cáo tài
chính, Naïve Bayes cho kết quả phân loại khá cao khi nhận dạng đúng các mẫu tốt không
có sai sót và tỉ lệ sai thấp với các mẫu xấu. Naïve Bayes được dùng rộng rãi trong nhận
dạng báo cáo thuế và tài chính.
2.6. Nearest Neighbour
Thuật toán Nearest Neighbour cũng là hướng tiếp cận phân lớp quen thuộc dựa
trên sự kết hợp các lớp của k mục gần tương tự nhất. Thuật toán này còn được gọi dưới
tên K- Nearest Neighbour. K- Nearest Neighbour thường được dùng trong nhận dạng
gian lận báo cáo về bảo hiểm xe cộ và nhận dạng chủ thẻ tín dụng.
2.7. Fuzzy logic và giải thuật di truyền
Giải thuật di truyền được dùng trong các hệ thống phân loại để nhận dạng các
hành vi gian lận kế toán. Giải thuật di truyền sử dụng chung với binary support vector
system (BSVS) dựa trên support vector machines (SVM) cũng được dùng để giải quyết
vấn đề gian lận báo cáo thẻ tín dụng chưa được xác định trước.
Fuzzy logic là phương pháp toán học phân loại các đề mục và đưa dữ liệu vào các
nhóm cụ thể, hoặc phân lớp, dựa trên mức độ dữ liệu và độ tương đồng với nhóm đó. Các
hệ phân lớp chuyên gia dựa trên fuzzy logic có thể tăng hiệu năng bằng 3 cách:
- Sử dụng các con số để minh họa các mục dữ liệu trong các phân lớp cụ thể.
- Tăng phạm vi hoạt động trong các môi trường có độ ổn định kém. Với cách này
các phương thức fuzzy có thể rút ra các mối liên hệ của dữ liệu mà trong các bước
phân tích bình thường không rút ra được.
- Hiệu suất khi sử dụng fuzzy còn được tăng lên sau 1 khoảng thời gian do các giải
thuật fuzzy logic có khả năng bỏ qua các dữ liệu lỗi hoặc không liên quan.
17
V. Kết luận và hướng nghiên cứu
Trong thời gian hạn hẹp, báo cáo này chỉ có thể tóm lược về lý thuyết cách ứng dụng các
thuật giải data mining gồm thử nghiệm thống kê, phân tích hồi qui, mạng neural, cây
quyết định và mạng Bayes vào xác định gian lận trong báo cáo tài chính.
Mô hình xử lý dữ liệu phân tích báo cáo tài chính với data mining
- Các phương pháp phân tích hồi qui được sử dụng rộng rãi vì diễn tả khá
chính xác. Những mô hình hồi qui khác nhau được sử dngj như Logit,
Logistic theo bước, UTADIS và EGB2.
- Mạng Neural là công cụ quan trọng trong khai phá dữ liệu. Ưu điểm của
mạng neural là không đòi hỏi khắc khe về dữ liệu và khả năng hiệu chỉnh
cao của nó. Sau quá trình thu thập dữ liệu và huấn luyện thích hợp, mạng
Neural cho hiệu năng khá tốt. Tuy nhiên vẫn còn một số mặt tồn tại như
khó giải thích về cơ chế hoạt động, xác định trọng số, độ chính xác thống
kê phức tạp…
18
- Các phương pháp khác như mạng Bayes, Fuzzy logic và giải thuật di truyền
được triển khai tùy theo lượng dữ liệu và mô hình yêu cầu. Tuy vậy một số
hạn chế cần phải khắc phục như độ chính xác chỉ mới ở mức chấp nhận
được, hiệu năng còn tùy thuộc nhiều vào dữ liệu…
Qua báo cáo trên, ta có thể thấy chỉ sử dụng các dữ liệu báo cáo tài chính là không
đủ để nhận dạng các sai phạm. Mức độ quan trọng của việc khai phá dữ liệu trong
việc nhận dạng sai phạm là rất lớn. Trong tương lai, có thể một hoặc nhiều mô
hình khác nữa sẽ được đề cập nhằm tăng hiệu suất và hiệu năng của việc xử lý
lượng dữ liệu lớn để có thể rút trích ra những thông tin hữu ích và đưa ra các quyết
định ngày càng chính xác hơn.
19
VI. Tài liệu tham khảo
[1]. PGS.TS. Đỗ Phúc, Bài giảng môn học Hệ hỗ trợ ra quyết định, 2014
[2]. H Hacigumus, B Iyer, S Mehrotra, Providing database as a service, 2002
[3]. Schilit, H., Financial Shenanigans: How to Detect Accounting Gimmicks and
Fraud in Financial Reports, New York, USA, McGraw-Hill, 2002
[4]. Efstathios Kirkos, Yannis Manolopoulos, DATA MINING IN FINANCE AND
ACCOUNTING: A REVIEW OF CURRENT RESEARCH TRENDS, 2004
[5]. M. Lam, “Neural Network Techniques for Financial Performance Prediction:
Integrating Fundamentaland Technical Analysis”, Decision Support Systems,
In Press, 2003
[6]. A. Kloptchenko, T. Eklud, J. Karlsson, B. Back, H. Vanharanta and A.
Visa: “Combining Data and Text Mining Techniques for Analyzing Financial
Reports”, Intelligent Systems in Accounting, Finance and Management,
Volume 12, Issue 1, January/March, 2004, pp. 29-41
20