Tải bản đầy đủ (.docx) (51 trang)

Xác định gian lận trong báo cáo tài chính mô hình máy học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (473.5 KB, 51 trang )

Bô GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG DẠI HỌC sư PHẠM THÀNH PHĨ HÕ CHÍ MINH

Nguyễn Hồng Minh

XÁC ĐỊNH G1AN LẬN TRONG BÁO CÁO TÀI
CHÍNH BẢNG MƠ HÌNH MÁY HỌC

Chun Ngành: Khoa Học Máy Tính Mà số: KHMT-19-004

LUẬN VÀN THẠC sĩ KHOA HỌC MẢY TÍNH

NGƯỜI HƯỚNG DÀN KHOA HỌC:
TS. NGUYỀN HỒNG TÓ LOAN


Thành phố Hồ Chí Minh - 2022
Lịi Cam Đoan
Tơi xin cam đoan đề tài "Phát hiện gian lận trong báo cáo tài chính bảng mơ
hình máy học” là dể tài do chinh tôi nghiên cửu dộc lập dưới sự hướng dần cùa các
giàng vicn hướng dẫn TS. Nguyễn Hoàng Tổ Loan. Các số liệu báo cáo trong luận
văn là trung thực do tơi đă nồ lực nghiên cứu, ngồi ra khơng có bất cứ sự sao chép
cua người khác mà khơng ghi rị nguồn. Neu phát hiện có sao chép mà khơng ghi rị
nguồn, tơi hỗn tồn xin chịu trách nhiệm.
TP. Hồ Chí Minh, Ngày IX tháng 4 nàm 2022
Học viên thực hiện

Nguyền Hoàng Minh


Lịi Cảm ơn


Đầu tiên, tơi xin chân thành gửi lời cảm ơn đen giàng viên hướng dần cùa tôi là
TS. Nguyền Hồng Tố Loan dã khuyến khích, giúp dỡ. và tạo mọi điều kiện thuận
lợi nhất đe tơi có the hồn thành luận văn cao học này.
Tơi xin chân thành cám ơn ban Giám Hiệu. Phòng sau đại học Trường Đại học
Sư Phạm TP. Hồ Chi Minh cùng nlnr các thầy cô đà nhiệt tinh tham gia giáng dạy
lớp cao học Khoa hục Máy tinh, hướng dần tôi trong xuyên suốt khóa học và tạo
điều kiện thuận lợi trong quá trình xây dựng và thực hiện luận vãn.
Bẽn cạnh đó. tòi xin cám ơn tới các tác giá của các tài liệu nghiên cứu mà tơi
đă tham kháo, vì nhờ các cơng trình nghiên cứu này tơi mới có thê hồn thành được
bài luận văn cua mình.
Ngồi ra, tơi xin cam ơn gia đinh, bạn bẻ đà quan tâm, giúp đờ, động vicn tơi
đe tơi có được kết q như ngày hơm nay.
Có lẽ kiến thức là vơ hạn mà sự tiếp nhận kiến thức cùa bàn thân mồi người
luôn tồn tại một số hạn chế nhất định. Do đỏ. bài luận văn cũng khơng thê tránh khỏi
nhừng thiếu sót. Rất mong nhận được sự đóng góp cùa quý thầy cị đe bài luận vãn
được hồn thiện hơn.
TP. Hồ Chi Minh, Ngày 18 tháng 4 năm 2022
Học viên thực hiên

Nguyền Hoàng Minh


Mục Lục
Lịi Cam Đoan
Lời Cảm ơn
Mục Lục
Danh Mục Hình Ánh
Danh Mục Bảng
Danh mục thuật ngừ viết tắt



Danh Mục Hình Ánh
2.1 Đồ thị biểu điền đường cong ROC và phẩn diện tích dưới


Danh Mục Bảng
3.1
3.2...............................................................................................................
4.1 Kết q dánh giá cùa mơ hình dề xuầt so với mơ hình khác
3.3khi bo qua gian Lận hàng loạt trong giai doạn từ năm 2003-2008 32
4.2 Kết q đánh giá cua mơ hình đề xuẩt so với mơ hình trước
3.4đây trên các thuộc tính tài chinh thô trong nhùng giai đoạn
3.5.........................................................2003-2005, 2003-2011,2003-2014
............................................................................................................. 36


3.6
3.7

■A •Xw

Danh mục (huật ngũ' viet tăt
3.8

Ý Nghĩa

3.9

ừ viết tắt
3.11 A


3.10
3.12

Accounting and Auditing Enforcement Release
Association of Certified Fraud Examiners

3.14

Area Under the Curve

CFE

3.16

Balanced Accuracy

UC

3.18

Center for Financial Reporting and Management

3.20

Central Processing Unit

AC
FRM


3.22
3.24

Discounted Cumulative Gain at position k
fraud-XG Boost

3.26

False Negative

3.28

False Positive

3.30

Graphics Processing Unit

3.32
3.34

Normalized Discounted Cumulative Gain at position k
Receiver Operator Characteristic

3.36

U.S Securities and Exchange Commission

3.38


True Positive

3.40

Extreme Gradient Boosting

T

AER

3.13 A
3.15 A
3.17 B
3.19 C
3.21 C

PU
3.23

DCG@k
3.25
fXGBoost 3.27
FN
3.29
FP
3.31 G
PU 3.33
N
R
OC

EC

3.37 S
3.39
3.41TP X

GBoost


8

3.42
3.43

MÓ ĐÀU

rinh cap thiet cua đe tai
3.44

I lảng năm. các doanh nghiệp phái thống kê. cung cấp các thông tin

liên quan đến hoạt động cua chinh công ty hay doanh nghiệp, việc thống kè các
thông tin này nham đê giúp các doanh nghiệp dưa ra được định hướng cho việc xây
dựng và phát triền kinh tc VC sau. Bên cạnh đó. chi vì muốn chạy theo lợi ích trước
mất mà một số cơng ty đà có một số hành vi gian lận trong báo cáo tài chính. Để
kiểm tra tính minh bạch cùa báo cáo tài chinh cùa các công ty. các nhân vicn kiểm
tốn, hay cịn gọi là các kiếm toán vicn. tiến hành thu thập và đánh giá bang chứng
về nhùng thông tin được kiểm tra nhằm xác định vã báo cáo mực độ phù hợp giừa
các thông tin đó với các tiêu chuân đà được thiết lập. Việc kiêm tra cần phái được
thực hiện bới các kiểm toán viên đũ năng lực và độc lập.

3.45

Với việc thu thập và đánh giá các thông tin dể kiểm định báo cáo tài

chính thì cần rất nhiều thời gian và chi phi. và các gian lận thì rất khó đê phát hiện
nhưng nếu phát hiện trề thì phai trá giá đắt bang sự thiệt hại về kinh tố cua quốc gia
hoặc có thè khiến cho cơng ty phá sán [1]. Hon nừa, trong nhừng năm gàn đây, số
lượng các trường hợp gian lận trong báo cáo tài chính ngày một nhiều, điển hình như
vụ gian lận báo cáo tài chính lớn nhất lịch sừ ờ công ty Enron vào năm 2001.
WorldCom vào năm 2003 và Lucent vào năm 2004 [2] đã gây thiệt hại rất lớn cho
các nhà đầu tư vào các công ty này tại thị trường tài chinh Mỳ. Từ các vi dụ trên cho
thấy, việc phát hiện gian lận sớm rẩt quan trọng và cấp bách trong thời diem hiện
nay.
3.46
Trong
thịi
đại
hiện
nay,
khoa
học

cơng
nghệ
càng
ngàyđó
nhiều
càng
thuật
phát

tốn,
triển,
giài
kèm
thuật
theo
máy
đó
học
cùng
giúp
sân
các
sinh
kiềm
ra
rất
tốn
viên
xác.
phát

vậy.
hiện
đề
gian
tài
lận
này
một

sẻ
tiếp
cách
cận
nhanh
với
chóng
một


hình
chính
máy
học
báo
phát
cáo
tài
hiện
chính
gian
cua
lận
doanh
với
đàu
nghiệp
vào



các
dựa
thơng
vào
các
tin
thơng
về
tin
doanh
nghiệp

đánh
giá
báo
cáo
tài
chinh
cua
cịng
ty
hay


3.47

có gian lận hay khơng. Diều này giúp các kiêm tốn viên có thề đánh giá và

đira ra nghi ngờ về cịng ty gian lận một cách nhanh chóng.
3.48


Do đó, bâi luận vân thực hiện đề tài “Xác Định Gian I.ận Trong

Báo Cáo Tài Chính Bằng Mơ Hình Máy Học" vận dụng lợi thế cùa mơ hình
máy học dể xác định gian lận trong báo cáo tài chinh tốt hơn. tiết kiệm thời gian và
chi phí cho các kiểm tốn vicn.

3.49

Mục tiêu
3.50

Mục tiêu cùa luận văn là xây dựng một mơ hình máy học có thề phân

loại được báo cáo tài chinh hầng năm mà cơng ty cung cấp có phái là gian lận hoặc
sai sót hay khơng. Mõ hình có thê đánh giá được gian lận hoặc sai sót trong các báo
cáo tài chính mới. nằm ngồi tập dừ liệu huấn luyện (Out- of-Samplc). Mơ hình đề
xuất được huấn luyện trên tập dữ liệu có sần từ các nghiền cứu trước với mong muốn
có thồ tạo ra dược mơ hình chi phí thấp, và dể dàng đánh giá độ chính xác cùa mơ
hình so với các mơ hình trước đày.

3.51

Nhiệm vụ
3.52

De đạt được mục tiêu trên, luận vàn đe xuất một mị hình máy học

dược huấn luyện trên tập dừ liệu là các báo cáo tâi chính trong lịch sư, sau đó đưa ra
dự đốn cho tương lai.


3.53

Đối tượng và phạm vi nghiên cứu
3.54

Do kct quà cũa đề tài là một mơ hình máy học có the xác định gian lận

trong báo cáo tâi chính, nên các dối tượng dược nghiên cửu lần lượt là:


Các khái niệm cơ bàn về báo cáo tài chinh.



Các gian lận trong báo cáo tài chinh.

3.55

Các mô hĩnh máy học


10



Các phương pháp đánh giá mơ hình máy học
3.56




Phạm vi nghiên cửu bao gồm:

Không gian: Bài viết nghiên cửu xây dựng mơ hình phát hiện gian lận trong
báo cáo tài chính cùa các cơng ty tại Hoa Kỳ được cơng khai.



Thịi gian: Bài viết nghicn cứu các báo cáo tải chính từ 1991-2014.

3.57

Phương pháp nghiên cứu

3.58

về lý thuyết
3.59 Thực hiện khào sát các cơng trình nghiên cứu liên quan nhẩm đánh giá
các ưu và khuyết điểm, từ dó dưa ra những cái tiến hay lựa chọn mị hình máy
học phù hợp với đổi tượng cần nghicn cứu.
3.60 Thiết kế mô hình, đồng thời chứng minh tính khá thi dựa trên độ chính
xác cùa mơ binh.

3.61

về thực nghiệm
3.62

Đe chứng minh tinh đúng đần cua mơ hĩnh đề xuất, tiểu luận có xây


dựng một ứng dụng cụ the đe ghi lại các số liệu, thống ke, và đồ thị. Trong nghiên
cứu này. sau khi thu được kết quà thực nghiệm tác giã tiến hành đánh giá và so sánh
với các cơng trình nghiên cứu trước dây. làm cơ sờ dưa ra dịnh hưởng phát triền.

3.63

Đóng góp của luận văn
3.64

Lưận văn dưa ra một mồ hình máy học hổ trợ kiếm tốn viên xác định

báo cáo tài chính cỏ dấu hiệu gian lận hay không với độ chinh xác cao.

3.65

BỐ cục của luận văn
3.66

Đe hoàn thảnh các mục tiêu trên, bài luận vân được trình bày với nội


11

dung như sau:


Chương 1: Tồng quan về phát hiện gian lận báo cáo tài chính trình
bày về khái niệm về báo cáo tài chinh và gian lận trong báo cáo tài chinh, bên
cạnh dô luận văn cùng ncu len những hậu qua cùa gian lận đối với công ty
cũng như đối với người sư dụng gian lận trong báo cáo tài chinh, và nêu lên

các cơng trình nghiên cứu liên quan trước đây.



Chương 2: Cơ sở lý thuyết của mơ hình đề xuất và các phương pháp
đánh giá trinh bày cơ sơ lý thuyết cùa 111Ơ hình để xuất, và các phương
pháp đánh giá dược dùng trong luận vãn.



Chương 3: Giói thiệu tập dữ liệu trình bày tồng quan tập dừ liệu dược
được sừ dụng trong luận văn. Bên cạnh đó luận văn cung cấp biếu đồ trực
quan hóa tằn suầt gian lận trong tập dừ liệu.



Chương 4: Thực nghiệm trinh bày thực nghiệm với mỏ hình đề xuất, sau
đó đánh giá mơ hình bàng các cơng cụ được nêu ở chương 2. cùng với dó là

những phàn tích nhẩm làm rõ kết qua thực nghiệm cho mơ hình đề xuất.
3.67
nhữngmột
Chương
thành
tựu
5: đâ
Kết
đạtluận
được và
trong

kiến
luận
nghị
vàn
tơng
và từkết
đó lại
đe
xuất
sổ hướng
phát
triền
trong
tương
lai.


3.68

Chương 1

TÔNG QUAN VỀ PIIẤT HIỆN GIAN LẬN BÁO CÁO

3.69

TÀI CHÍNH
3.70

Chương ỉ trình hày khái niệm về háo cáo tài chính và gian lận trong


háo cảo tài chính, riếp theo, luận vãn cùng giới thiệu sơ lược, nêu lên các ưu và
nhược điếm về các còng trinh nghiên cứu trước đây. từ đó làm cơ sờ để (lề xuất mỏ
hình máy học phù hợp.

1.1. Khái niệm báo cáo tài chính
3.71

Báo cáo tài chính cùa một cơng ty là báo cáo tồng hợp kết quà thu nhập

của công ty trong một kỳ. Trong đó, kết qua thu nhập của cơng ty có thề kê đến như
khá núng sinh lời, tình hình tài chinh và các khoán nợ phai trá. Báo cáo tài chính
đóng vai trị quan trọng, là cầu nối giừa công ty, doanh nghiệp với các nhà đầu tư,
các nhà phân tích thị trường và các ngàn hàng cho vay. Báo cáo tài chính là cơ sờ dề
các nhà dầu tư dưa ra quyết định dũng dẩn cho việc đầu tư cùa mình, và nỏ cũng là
cản cử đồ các quàn lý doanh nghiệp hoạch định hướng đi tương lai của doanh
nghiệp.
3.72

Thông thường, báo cáo tài chinh sè được lập hằng quý, hằng năm hoặc

giừa năm tùy theo quy định cua quan lý cơng ty. Có 5 loại báo cáo tâi chính 131:


Bảo cáo kết q hoạt dộng kinh doanh: là báo cáo về thu nhập và chi tiêu cua
công ty. báo cáo thu nhập giúp cho người sừ dụng biết dược tinh trạng lãi hoặc
lỗ cùa công ty trong một thời gian nhất định.



Bang càn doi kế tốn: là báo cáo phán ánh tồng giá trị tài sàn. nợ phái tra và

vốn cùa một công ty hoặc doanh nghiệp tại một thời diêm nhất định.



Bảo cáo thay dơi vốn cùa chu sờ hừu: là báo cáo cho thấy tài sàn cùa cồ dơng
dóng góp vào cơng ty thơng qua nhiều hình thức góp vốn khác
3.73 nhau.




Báo cáo lưu chuyên tiền tệ: là báo cảo tóm tắt dịng tiền cua cơng ty hay
doanh nghiệp trong một khoảng thời gian. Báo cáo này cho tháy cách công ty
hay doanh nghiệp qn lý dịng tiền như thế nào.



Thuyết minh háo cảo tài chinh: là báo cáo dùng dể ghi chú chi tiết các số liệu
trong bang cân dối kế toán, báo cáo thu nhập, báo cáo lưu chuyên tiền tệ cũng
như các thơng tin cần thiết khác.
3.74

Ngồi ra, các nhà đẩu tư tại Mỳ cỏ thổ xcm thèm tờ khai 10-K (Form

10-K), loại tờ khai này cùng là một dạng báo cáo tài chính được các cơng ty đại
chúng tại Mỳ phái công bố tờ khai 10-K hàng năm cho uy ban giao dịch và chứng
khoán Hoa Kỳ (U.S Securities and Exchange Commission, SEC) [4J. Tờ khai 10-K
chứa các thơng tin chi tiết về tình hình tài chính cua một công ty từ một năm tới năm
năm. Hơn nữa, loại tờ khai này cịn chứa nhiều thơng tin khác cua công ty, vi dụ mục
tiêu hoạt động, các yếu tố rui ro, các thông tin, giúp cho các nhà đầu tư có nắm rị

thèm thơng tin về cơng ty mà nhà đầu tư đang hướng đến.

1.2. Khái niệm gian lận trong báo cáo tài chính
3.75

Theo định nghĩa [5] gian lận trong báo cáo tài chính là hành vi cố ý và

có chú đích cùa Ban Giám đốc khi thực hiện thay đối các số liệu trong báo cáo tài
chính nhảm đánh lừa nhừng người sữ dụng báo cáo tài chính hicu sai về tình hình
“sức khoe" doanh nghiệp, ví dụ như khả năng sinh lời. tinh hình kinh doanh, các
khoản nợ hoặc dòng tiền cùa doanh nghiệp. Khác với nhầm lần trong báo cáo tài
chinh, nhầm lẫn không xuất phát từ hành vi cố ý cúa Ban Giám đốc trong việc lập
báo cáo tài chính và nhầm lần khơng mang lại lợi ích cho doanh nghiệp. Khi có nhầm
lần hoặc sai sót thì phai thực hiện hồi tố, điều chinh lại báo cáo tãi chinh |6|. So với
nhằm lần thi hành vi gian lận rất khó phát hiện. Việc gian lận trong báo cáo tài chính
thường diễn ra trong nội bộ. cách thức dược dùng dê thực hiện các hành vi gian lận
thường là [5]:
3.76
• Lập các bút toán khống, nhất là vào các ngày cuối kỳ ke toán đe điều
chinh kết qua kinh doanh, chăng hạn như ghi nhận doanh thu bán hàng khi chưa đu
điều kiện.
• Thay đồi giá định để ước tính số dư tài khoàn một cách bất hợp lý, vi dụ như


lập dự phịng mơ rộng mạng lưới cùa doanh nghiệp.


Tri hoãn việc ghi nhận các sự kiện và nghiệp vụ kinh tế phát sinh trong kỳ báo
cáo. như khơng trích trước các chi phi dã phát sinh nhưng khơng có chứng từ.




Che giấu hoặc khơng trinh bày các sự kiện có ánh hường đen các khốn mục
được ghi nhận trong báo cáo tài chinh.



Dàn xếp các nghiệp vụ kinh tế phức tạp đề làm sai lệch tình hình tài chinh
hoặc kết quà hoạt dộng kinh doanh cùa doanh nghiệp. Ví dụ thực hiện mua
bán giừa các ben lien quan nhăm diều chinh doanh thu. chi phi,...



Sữa đổi các chửng từ và điều khoán liên quan đen các nghiệp vụ kinh te lớn
và bất thường.
3.77

Theo báo cáo cùa Association of Certified Fraud Examiners (ACFE)

171. CÓ 3 loại hành vi gian lận cùa một cơng ty hoặc doanh nghiệp bao gồm:


Gian lận trên bảo cáo: Thường dược thực hiện bời giám dốc diều hành cùa
cơng ty, thường là những gian lận ít xảy ra nhưng lại gây nhiều thiệt hại nhắt.
Các giám đốc thường thực hiện hành vi gian lận do các động cơ liên quan đế
giã cố phiêu trên thi trường.



Tham nhùng: Các hành vi thường liên quan đền một người trong tồ chức làm

việc với bẽn ngoài tồ chức, dù có thề một trong số dó khơng muốn tham gia
hoặc bị ép buộc tham gia. Vi dụ như hối lộ và tống tiền.



Biến thù tài san: Các hành vi biến tài san công thành tài sàn riêng, người thực
hiện hãnh vi này là người có quyền hạn, trách nhiệm đối với việc quán lý tài
san bị biến thú.

3.78


Với gian lận trên báo cáo tài chính, ACFE chia thành 3 loại:
Che giấu cơng nợ và chi phí: Là khơng ghi nhận các khốn nợ phái trà hoặc
chi phí cua cơng ty hoặc doanh nghiệp.



Gian lận về doanh thu: Là ghi nhận các doanh thu khơng có thật, ghi nhận sai
niên độ kế tốn.



Gian lận nợ phái thu: Khai khống số lượng khách hàng khơng có thật, khơng
lập đẩy đù dự phịng các khốn dự phịng



Gian lận hàng tồn kho: Ghi nhận và dánh giá sai hàng tồn kho. Khai khống,



tạo ra chửng từ già như phiếu kiểm hàng. Báo cáo tồn kho. thay dồi chất
lượng hàng tồn kho.


Gian lận về tài san cồ định: Là đánh giá sai tài san qua hợp nhất trong báo cáo
tài chinh. Ghi sô các tài san khơng có thực, khơng ghi nhận đủng giá trị tài
sàn, khơng vốn hóa đầy đú chi phí.
3.79

Khi các gian lận bị phát hiện, các doanh nghiệp có the SC đổi mặt với

rất nhiều rủi ro. vi dụ như [8]:


Giam thị phần cua doanh nghiệp.



Giam đi sự tin tường cùa các nhã đầu tư vào doanh nghiệp.



Phá hoại tinh hình tài chinh cua doanh nghiệp, làm doanh nghiệp chịu nhiều
tổn thất khơng mong muốn.



Có the lâm doanh nghiệp phá sàn. hoặc nặng hơn là có the khiên doanh nghiệp
bị sụp dổ.

3.80

Từ định nghía trên, ta có the thấy rảng báo cáo tài chính cần phái được

thực hiện một cách trung thực, khách quan, khơng được có sai sót, và gian lận. Các
gian lận cần phai được phát hiện sớm đê giám thiêu thiệt hại đến thị trường, cùng
như bào vệ tài săn cùa nhùng người sứ dụng báo cáo tài chính.

1.3. Các phương pháp phát hiện gian lận trong báo
cáo tài chính
3.81

Phát hiện gian lận trên báo cáo tài chinh có vai trị rất quan trọng, vì

khi phát hiện gian lận sớm sõ giúp các nhà dầu tư giảm thiêu dược rủi ro khi dầu tư.
Việc phát hiện gian lận trong báo cáo tài chính ngồi các phương pháp truyền thống,
hiện nay có nhiều phương pháp sử dụng mơ hình học máy đề phát hiện gian lận trong
báo cáo tài chinh, tiêu biếu là các mơ hình Support Vector Machine, hồi quy I.ogit,
RUSBoost và GBRT.


1.3.1. Phát hiện gian lận bằng mơ hình SVM
3.82

Trước đây đà có rẩt nhiêu cơng trinh nghiên cứu về phát hiện gian lận

trong tài chinh, điền hĩnh như cơng trình nghiên cứu của Cecchini cùng cộng sự [9]
đề xuất mô hình Support Vector Machine để phát hiện gian lận. Mơ hình này hoạt
dộng dựa trên Financial kernel, dầu vào của mơ hình là 23 thuộc tính dừ liệu tài
chính thơ. Sau đó. Financial kernel ánh xạ sang miền khơng gian ty lệ tài chính, vã

đầu ra là giá trị nhị phân với 1 là biểu thị báo cảo tài chinh có gian lận và 0 là khơng
gian lận. Độ đánh giá AƯC cua mơ hình cho ra kết q chính xác khoảng 87.8%, với
tập dữ liệu tài chính được lấy từ COMPUSTAT. tờ khai 10-K và dữ liệu về các công
ty gian lận SEC trong giai doạn 1991-2003. Tuy nhicn, vì sự ánh xạ này dă làm cho
mơ hình Support Vector Machine không I1Ồ trợ tốt khi tập dừ liệu chửa nhiều giá trị
0. do đó Cecchini cũng cộng sự [9] đă thay các giá trị 0 thảnh 0.0001 trong giai đoạn
tiền xứ lý dừ liệu đe tránh xay ra lồi chia cho 0.

1.3.2. Phát hiện gian lận bằng Logit
3.83

Bèn cạnh đó, Dechow cùng cộng sự [10] đà đe xuất mơ hình tốn học

dũng để dự đốn các báo cáo tài chính gian lận. Cụ thê, đầu vào cua mơ hình cùa tác
giá là các thuộc tính tỳ lệ tài chính, và đầu ra cũa mơ hình là giá trị f-score [10]. Sau
khi có dược giá trị f-score. tác già dùng giá trị này dể so sánh với mức ngưởng, thơng
thường mức ngưỡng là 1.0. Neu báo cáo tài chính có giá trị f-scorc cao lum mức
ngường thi được cho lã có gian lận. Tập dừ liệu được sư dụng trong nghiên cứu cùa
tác giá chứa 2 190 báo cáo tài chính gian lận trong giai đoạn 1982 2005 được lấy từ
SEC và số liệu cua các thuộc tính được lấy từ cơ sờ dữ liệu LcxisNcxis. Tuy nlìicn.
mơ hình này cho ra sai lầm loại I cao. tức là các báo cáo tài chính khơng phải là gian
Lận nhưng bị dự dốn gian lận, điều đó vơ hình chung làm các kiêm toán viên sỗ mất
nhiều chi phi về thời gian để kiêm tra các bảo cáo tài chính được dự đoán là gian lận.

1.3.3. Phát hiện gian lận bằng Mơ hình RUSBoost
3.84

Với sự phát triển của các mơ hình máy học, đặt biệt là mị hình

Ensemble Learning với tính linh hoạt và mạnh me, cùng đà được áp dụng đè dự đoán



gian lận trong báo cáo tài chinh. Ví dụ, Bao cũng cộng sự 1111 đề xuất một mơ hình
máy học để phát hiện gian lận trong khoáng thời gian từ 2003-2008 bàng RƯSBoost.
một biến thề cua AdaBoost. mơ hình này hoạt dộng bang cách loại bo đi một số báo
cáo tài chinh một cách ngầu nhiên trong quá trinh học, đê đê làm cho dừ liệu được
cân bàng. Trong khi hầu hết các mơ hình trước đây hoạt động tốt với đầu vào là các
thuộc tinh tý lộ tài chinh, còng trinh nghiên cứu cùa Bao cùng cộng sự 1111 dự đốn
gian lận dựa trên các thuộc tính tài chính thơ. Trong q trinh huấn luyện mơ hình,
Bao cùng cộng sự [ 11] cho lẳng các gian lận kéo dài trong nhiều năm có the anh
hương den hiệu suất cùa mơ hình, do đỏ dă chuyển những báo cáo tài chính cùa cơng
ty gian lận keo dài từ tập dừ liệu huấn luyện sang tập dừ liệu kiểm thư thành không
gian lận. Tuy nhiên, việc thay đôi dừ liệu như vậy sè làm độ đo cua mơ hình bị sai
trong quá trinh huấn luyện.

1.3.4. Phát hiện gian lận bằng Mô hình GBRT
3.85

Bertomeu cùng cộng sự 1121 đề xuất mơ hình Gradient Boosting Re-

gression Tree (GBRT) để dự đoán các báo cáo tài chính sai sót trong thời gian 2001
tới 2014 bao gồm 3 599 báo cáo tài chính bị sai sót và 54 354 báo cáo tài chính dược
lấy từ COMPƯSTAT. Dầu vào cúa mơ hình là các thuộc tính tý lệ tài chinh, vả đầu ra
là xác suất sai sót cúa báo cáo tài chính. Nghiên cứu cùa Bertomeu củng cộng sự
[ 12] cùng có so sánh kết qua cùa mõ hình đe xuẩt với các mơ hĩnh khác như
RUSBoost, Random Forest và Logit. Kết qua cho thấy mô hình RUSBoost đạt hiệu
suất cao hơn với phương pháp đánh giá AUC và Fp score.
3.86
3.87


Chirong 2

CO SỚ LÝ THUYẾT CỦA MƠ HÌNH ĐÈ XT VÀ
CÁC
PHƯƠNG PHÁP ĐÁNH GIÁ

3.88

Chương này trinh hây mị hình đế xuất đế xác định gian lận trong háo

cáo tài chính. Sau đó, luận vãn giới thiệu các phương pháp dùng đè đánh giá linh
hiệu quá của mỏ hình dề xuất.


2.1. Mơ hình đề xuất
3.89

Luận vãn dề xuất mơ hình fraud-XGBoost (f-XGBoost) dề xác dịnh

các báo cáo tài chinh gian lận. Mơ hình f-XGBoost dược phát triển dự trên mơ hình
Extreme Gradient Boosting (XGBoost) cùa Chen cùng cộng sự [ 13], đày là một
dạng mơ hình máy học thuộc nhóm Ensemble Learning. Luận vân chọn mơ hình
XGBoost làm cơ sờ là vì đê f-XGBoost ke thừa các diem mạnh cua XGBoost, ví dụ
như giãi quyết được tập dữ liệu mất cân bang, xứ lý được mất dữ liệu và thời gian
huấn luyện cùa mơ hĩnh nhanh hơn các mơ hình truyền thống khác do có hồ trợ mơi
trường bộ xư lý đồ hoạ (Graphics Processing Unit, GPU) [13].
3.90

Trước hết, đế có the hiểu rị hơn VC mơ hĩnh cùa


f-XGBoost, luận văn trinh bày hàm mục tiêu cùa mơ hình f-XGBoost thơng qua các
cơng thức tốn học. Với tập dữ liệu là n báo cáo tài chính và m đặc trưng cũa báo cáo
tài chính. D = {(Xj,y'r)}( D| =
3.91

€ Nm.yf- 6 N*), K là tổng sổ cây phàn lớp cùa

mô hình, ta cơ cơng thức dự đốn được biểu diễn như sau:
3.92
VÌ=ẾÁ(-V/);
3.93 *=1
3.94

.
(2.1)
Trong dó. & = {f(x) =

—► T.w

€ R7) là không gian tập
3.95

hợp các cày phân lớp. q đại diện cho cấu trúc cua mỗi cày, ánh xạ tới vị tri cùa

node lá. T là tồng số lá cua một cây. Mỗi là một cày độc lập bao gồm cấu trúc q và
trọng số lá M-. Và hàm mục tiêu cùa mơ hĩnh f-XGBoost có cơng thức:
3.96
3.97
3.98
3.99


z

j=l

Dây là sự khác biệt giừa mơ hình f-XGBoost so với các mỏ hình

Gradient Tree Boosting trước đày, phân chính quy hóa với hai tham so y và À được
truyền vào đề kiếm sốt sự overfitting, T là tịng số lá vã H' là trọng số cùa một lá.
Ngồi ra. phẩn chính quy hóa được thêm vào cùng dùng đe đơn giàn hóa hâm mất
mát và cai thiện tốc dộ học cùa mô hình.


3.100

Do phương trình (2.2) sư dụng các hàm là

tham số nên không thế cài thiện bang các phương pháp truyền thống trong khơng
gian Euclid. Vì thế. mơ hình sè được huấn luyện theo cơ chế bỗ sung, có nghía là tại
lần huấn luyện thử r. ta có hàm dự đốn là ỹ =

1

■ + ft (x). Từ đó phương trình (2.2)

được
3.101 tối ưu hóa thành:
o(,) = Ẻ/(.'-5ì,<"‘) + /,M) +
(2.5)


3.102
£l(/,)
3.103

i=1

3.104 Sau mồi vòng lặp. hàm //(Xi) được thêm vào đê tối ưu hóa hàm mất
mát. Tuy nhiên, càng nhiêu vịng lặp, hàm mất mát sè càng trờ nên phức tạp. Đe giài
quyết vấn dề này. ta sừ dụng da thức bậc hai trong chuồi Taylor, phương


3.105 trinh (2.5) trờ thành:
(2.6)
3.106
3.107
3.108

Với gi và hi lẩn lượt là dạo hàm bậc nhất và dạo hàm bậc hai cùa

phương trinh (2.3), nên giá trị của gi và hi cúa f-XGBoost có dạng:
3.109 gi = ỹi- yt hi = ỹí(l - Vi)
3.110

(2.7)

Từ đây, /{yj.ýf_l) được xem như là một hăng số, có thê được loại bỏ.

3.111 Phương trình (2.6) sau khi thay phương trinh (2.4) trớ thảnh:

3.112

3.113

Đật Ij = {Ì|<7(ÁÌ) = j} là tập các cá thẻ trong lá tại vị tri thứ j. Ta có

phương trinh (2.8) sau khi thế f(x) = như sau:

3.114
3.115 Đổi với một cây có cấu trúc ợ(x) cố định, ta có the tính trọng số W* của
3.116 lá j như sau:
3.117
>v;
=(2.10)
3.119 Thay giá trị cùa IV*j từ phương trình (2.10) vào phương trình (2.9) ta
có:
3.120 Phương trinh (2.11) được dùng đe đánh giá và tìm cây cớ cấu trúc q tối ưu.
Thơng thường, ta không thể nào duyệt vã tim hết tất cà các cây 113]. Do

(2.11)


3.121 đó. mơ hình f-XGBoost sử dụng bắt đầu từ một lá và thêm các nhánh vào cày.
Gia sử ta có //. và ỈR lần lượt là tập các phần tứ cùa lá hên trái và bên phái sau khi
chia cây. Đặt / = ILUỈR, ta có:

3.122
3.123

(Ee//.&)2 (Ecfrfr)2 (Eựgi)2
(2.12)
Ec/fA‘ + *

+ Ằ E/C/^í +
PhươngẤtrinh (2.12) được dùng đe đánh giá và ra quyết định chia cây

trong quá trình huấn luyện.
3.124 Ngồi ra. mơ hình f-XGBoost có tham số scale pos weight. tham số
này sẽ được nhàn với gi và /í; khi báo cáo tài chinh là gian lận [ 13]. Trọng sổ này
giúp mơ hình xử lý dử liệu mất cân bằng dược tốt hơn và tránh thay dôi dử liệu trong
quá trinh huấn luyện. Thông thường, trong số này là ty lệ giừa các báo cáo tài chinh
không gian lận với báo cáo tâi chính gian lận. Trong quá trinh nghiên cứu, giá trị
được chọn cho tham số scale pos weight cùa mõ hình f-XGBoost lã 250 vi nó cho ra
kết quà dự đoán tốt.
3.125 Đe tránh bị overfitting. tập dữ liệu huấn luyện cùng được dùng đề đánh
giá mơ hình trong q trình học, với phương pháp đánh giá là AUC và giá trị cùa
tham số early stopping round là 10. Diều này có nghĩa là trong khi huấn luyện, nếu
giá trị cua AUC không tăng trong 10 lần lạp thi quá trình học sỏ ngưng, và số lần lập
trong quá trình huấn luyện là 5000.
3.126 Tham số learning rate cua mơ hình f-XGBoost được xem như là tốc độ
học cùa mơ hình, giá trị càng cao. mơ hình học càng nhanh. Nó phải nằm trong
khống 0 và 1, trong quá trình nghiên cứu. giá trị cùa learning rate dược chọn trong
nghiên cứu này là 0.05 vì nó cho ra kết q tốt.
3.127 Dè mơ hình f-XGBoost có the hoạt động được trên GPU giá trị cho
tham so Trcc mcthod được chọn là “gpu hist”. Khi mô binh được chạy trên môi
trường GPU. thời gian huấn luyện sẽ được cài thiện hơn so với thời gian huấn luyện
mô hình trẽn bộ xử lý trung tàm (Central Processing Unit, CPU). Ngồi ra. tham số
max depth có giá trị là 3 dề kiểm soát dược dộ phức tạp cùa mỗi cây trong q trình
huấn luyện.
3.128 Dầu ra cùa mơ hĩnh khi cho dự đoán các báo cáo tài chinh là xác suẩt
gian lận cua một báo cáo tài chinh. Các báo cáo tài chính được dự đốn có xác suất



từ 0.5 trờ lên được xem là báo cáo tài chinh gian lận.

2.2. Các phương pháp đánh giá mơ hình
3.129

Đè đánh giá được hiệu suất cua một mơ hình phân loại nhị phân, ta cằn

một số phương pháp đánh giá mó hình. Thơng thường, hiệu nâng cua một mơ hình
được đánh giá bàng tập dữ liệu kiểm thừ. Sau khi mơ hình cho ra kết qua dự dốn. ta
cần so sánh kết q dự dốn của mơ hình với kết quâ thật cùa dừ liệu kiêm thừ. C’ó
rất nhiều phương pháp để đánh giá một mơ hình phân lớp, trong đó có the kê đen như
phương pháp xác thực cheo (Â.--cross validation), phương pháp này hoạt động bằng
cách chia tập dừ liệu thành k tập dừ liệu nhị. sau đó dũng tập dừ liệu thử i để kiểm
thư. các tập cịn lại đê huấn luyện, nhưng bài tốn gian lận có tinh chất thời gian nên
việc sừ dụng xác thực chéo là khơng phù hợp. ví dụ nếu với k = 1 thì mơ hình sõ sư
dụng các báo cáo tài chính trong năm 1992 đến năm 2008 đề huấn luyện và sử dụng
các báo cáo tài chính trong núm 1991 đê dự đoán, việc này dần tới vấn đề futurelooking trong q trình huấn luyện [14]. Ngồi ra, ta cùng có thế sứ dụng thèm một
phương pháp đánh giá khác lã Balanced Accuracy (BAC), tuy nhiên Bao cùng cộng
sự [ 11 ] dã chi ra lẳng phương pháp này có nhược điểm là cần phái dặt mức ngưỡng,
một mức ngưỡng khác nhau thi giá trị cùa BAC khác nhau, trong trường hợp khơng
có kiến thức về phân loại False Positive (FP) so với chi phi phân loại FP thi không
the xác định được ngưởng đè phân loại được gian lận và không gian lận. Đe tránh
được các hạn che đà nêu, Bao cùng cộng sự 1111 đề xuất sử dụng AƯC. NDCG@k.
Precision. Sensitivity đè đánh giá mơ hình dề xuất.

2.2.1. Phuong pháp AƯC
3.130

Tập dữ liệu cùa bài toán phát hiện gian lận lã bài toán mất càn bằng, số


lượng các báo cáo tài chính gian lận rất thấp, và mầu gian lận quan trọng. Do dó luận
văn sừ dụng phương pháp đánh giá Area Under the Curve (AUC) đê kiểm chứng mỏ
hình. AUC cũng được sừ dụng phố biền trong các cơng trình nghiên cứu trước đây
[9], [11], [12] v.v...
3.131

Theo Fawcett [15], Receiver Operator Characteristic (ROC) là đường


cong biểu diền hiệu suất cùa một mô hĩnh phân loại, cho thấy mơ hình có khả nãng
phân biệt giữa các lớp tốt dến mức nào bàng cách kết hợp True Positive Rate
(Sensitivity) và False Positive Rate (1 - Spccitivity) trên một dồ thị. và AƯC là diện
tích phần dưới cưa đường cong ROC, ta có thê dề dàng trực quan hô AƯC băng
hình 2.1. Giá trị cua AUC được giới hạn trong khoang 0.0 và 1.0, AƯC câng tiến gần
1.0 thi mó hình càng phân biệt tốt giữa báo cáo tài chinh gian lận vả không gian lận.
nếu giá trị cũa AUC bảng 0.5 thi mơ hình khơng có khả nâng phân biệt gian lận [16].
3.132

3.133
3.134 Hình 2.1. Dồ thị biểu diễn đường cong ROC và phần diện tích dưới

đưửng cong ROC chính là giá trị AUC

2.2.2.Phương pháp NDCG@k


3.135

Các mỏ hình phát hiện gian lận trước đây đều có nhược điểm là số


lượng các báo cáo tài chinh khơng gian lận nhưng lại bị dự dốn là gian lận rất cao.
đicn hình như mơ hĩnh cùa Cccchini cùng cộng sự [9] đe xuất được Bao cùngcộng sự
[11] báo cáo dự đoán đúng 237 báo cáo tài chinh và sai 2 881 báo cáo tài chính
khơng gian lận thành gian lận với tập dừ liệu cùa Bao cùng cộng sự [11] trong giai
đoạn 2003 2008. Hiển nhiên, các kiếm toán viên SC mất rất nhiều thời gian đê điều
tra các báo cáo tài chinh bị dự đoán sai. Do đó. Bao cùng cộng sự [ 11 ] cho ràng bài
tốn xác dinh gian lận có thể xem như là bài toán xếp hạng, dề xuất áp dụng
Normalized Discounted Cumulative Gain at position k (NDCG@k) dê đánh giá mơ
hình. NDCG@k là phương pháp thường được dùng đê đánh giá các hệ thống tư vấn
và các công cụ tim kiêm trên website [ 17], vã đà được chứng minh có hiệu qua về
mặt lý thuyết [18].
3.136 Để có thể đánh giá bàng phương pháp này, trước hết ta xếp hạng các
báo cáo tài chính theo chi số gian lận mà mơ hình dự dốn, các báo cáo tài chính có
chi số dự đoán gian lận cao sẽ được ưu tiên xếp ờ vị trí trên cùng. Sau đó. thực hiện
tinh giá trị của Discounted Cumulative Gain at position k (DCG@k)
theo công thức:

OCG


r-1

rc/. _ I

2

log2(/ + 1)

(2.13)


3.137
3.138 Với relị = I ncu báo cáo tài chinh gian lận được dự đốn chính xác là
gian lận. và relị = 0 trong các trường hợp cịn lại. k trong cơng thức phương trinh
(2.13) đại diện cho số lượng báo cáo tài chinh dược chọn ra trong tập dừ liệu kiềm
thư đe dánh giá mô hĩnh. Luận văn chọn k — 1 % đe đánh giá vì theo nghiên cứu
trước [11], SEC thường chi phát hiện 1% so lượng báo cáo tài chinh gian lận trong
một năm.
3.139 Sau khi tim được DCG@k, ta chuẩn hóa giá trị DCG@k bang
iDCG@k. với ideal iDCG@k là các báo cáo tài chinh có nhãn là gian lận dược xếp
hạng cao nhất, ta có được giá trị cua NDCG@k. Cơng thức tốn học cua NDC'G@k
có dạng:
3.140

(2I4)

3.141 Giá trị cua NDCG@k luôn thuộc doạn từ 0.0 đến 1.0, và giả trị càng


cao, cho thấy mô hĩnh càng tốt.


×