Tải bản đầy đủ (.pdf) (117 trang)

Ứng dụng phân cụm dữ liệu trong việc kiểm toán gian lận trên báo cáo tài chính Luận văn thạc sĩ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.37 MB, 117 trang )





BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH





Trần Thị Phương Thanh



ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG
VIỆC KIỂM TOÁN GIAN LẬN
TRÊN BÁO CÁO TÀI CHÍNH







LUẬN VĂN THẠC SỸ KINH TẾ









TP. Hồ Chí Minh - Năm 2014




BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH





Trần Thị Phương Thanh



ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG
VIỆC KIỂM TOÁN GIAN LẬN
TRÊN BÁO CÁO TÀI CHÍNH


Chuyên ngành: Kế toán
Mã số: 60340301



LUẬN VĂN THẠC SỸ KINH TẾ




NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. Trần Phước



TP. Hồ Chí Minh - Năm 2014



LỜI CAM ĐOAN



Tôi xin cam đoan tất cả nội dung của luận văn này hoàn toàn được hình
thành và phát triển từ những quan điểm của chính cá nhân tác giả, dưới sự hướng
dẫn khoa học của PGS.TS. Trần Phước. Tất cả các thông tin trích dẫn trong luận
văn đã được chỉ rõ nguồn gốc, tất cả số liệu và kết quả trình bày trong luận văn là
hoàn toàn trung thực.

Tác giả luận văn


Trần Thị Phương Thanh























MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN
MỤC LỤC
DANH MỤC KÝ HIỆU – CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG BIỂU
DANH MỤC HÌNH
PHẦN MỞ ĐẦU 1
1. Tính cấp thiết của đề tài 1
2. Tổng quan về nghiên cứu 2
3. Mục tiêu nghiên cứu 3
4. Đối tượng và phạm vi nghiên cứu 4

5. Phương pháp nghiên cứu 4
6. Đóng góp của luận văn 5
7. Kết cấu của luận văn 5
CHƯƠNG 1 CƠ SỞ LÝ LUẬN VỀ PHÂN CỤM DỮ LIỆU VÀ GIAN LẬN
BÁO CÁO TÀI CHÍNH 6
1.1. Khai phá dữ liệu 6
1.1.1. Tổng quan về khai phá dữ liệu 6
1.1.1.1. Định nghĩa 6
1.1.1.2. Các kỹ thuật tiếp cận trong khai phá dữ liệu 8
1.1.2. Ứng dụng của khai phá dữ liệu 9
1.1.3. Phân cụm dữ liệu 10
1.1.3.1. Định nghĩa 10
1.1.3.2. Yêu cầu của phân cụm dữ liệu 10
1.1.3.3. Các đặc trưng cơ bản để phân cụm dữ liệu 11
1.1.3.4. Các phương pháp phân cụm dữ liệu 12
1.1.3.5. Nhận xét phương pháp phân cụm dữ liệu 15
1.2. Tổng quan tình hình nghiên cứu về phân cụm dữ liệu 16
1.2.1. Tình hình nghiên cứu trên thế giới 16
1.2.2. Tình hình nghiên cứu trong nước 18



1.3. Gian lận 19
1.3.1. Tổng quan về gian lận 19
1.3.1.1. Định nghĩa 19
1.3.1.2. Lịch sử các công trình nghiên cứu về gian lận 20
1.3.1.3. Các yếu tố của gian lận 29
1.3.2. Ảnh hưởng của công nghệ thông tin đến BCTC trong mối quan hệ với gian
lận và sai sót 30
Kết luận chương 1 32

CHƯƠNG 2 THỰC TRẠNG GIAN LẬN BÁO CÁO TÀI CHÍNH VÀ TÌNH
HÌNH SỬ DỤNG TỶ SUẤT TÀI CHÍNH 34
2.1. Sơ lược về thực trạng gian lận BCTC 34
2.1.1. Thực trạng gian lận BCTC trên thế giới 34
2.1.2. Thực trạng gian lận BCTC tại Việt Nam 36
2.1.3. Các thủ thuật gian lận BCTC 39
2.2. Thực trạng các quy định về trách nhiệm của kiểm toán viên đối với gian lận
BCTC 41
2.2.1. Chuẩn mực kiểm toán quốc tế 41
2.2.2. Thực trạng các quy định về trách nhiệm của KTV đối với gian lận trên
BCTC tại Việt Nam 44
2.3. Kinh nghiệm của các công ty kiểm toán nước ngoài tại Việt Nam trong việc
vận dụng kỹ thuật khai phá dữ liệu trong kiểm toán BCTC 46
2.3.1. KPMG Việt Nam 46
2.3.1.1. Lập kế hoạch kiểm toán 47
2.3.1.2. Đánh giá hệ thống kiểm soát nội bộ 47
2.3.1.3. Thiết kế và thực hiện thử nghiệm cơ bản 48
2.3.1.4. Kết thúc kiểm toán 48
2.3.2. Deloitte Việt Nam 48
2.3.3. Grant Thornton Việt Nam 49
2.4. Thực trạng sử dụng các tỷ suất tài chính nhằm phát hiện gian lận trên BCTC
trong nghiên cứu trước đây và tại các công ty kiểm toán ở Việt Nam 51
2.4.1. Kết hợp giữa tỷ suất tài chính và kỹ thuật phân cụm dữ liệu trong việc phát
hiện gian lận trên BCTC trong nghiên cứu trước đây 51



2.4.2. Thực trạng sử dụng tỷ suất tài chính trong việc phát hiện gian lận trên
BCTC tại các công ty kiểm toán ở Việt Nam 53
2.4.2.1. Theo chương trình kiểm toán mẫu năm 2013 do VACPA ban hành 54

2.4.2.2. Theo chương trình kiểm toán tại Deloitte Việt Nam 55
2.4.2.3. Theo chương trình kiểm toán tại Grant Thornton Việt Nam 56
2.4.2.4. Theo chương trình kiểm toán tại KPMG Việt Nam 56
2.5. Đánh giá thực trạng ứng dụng tỷ suất tài chính trong việc phát hiện gian lận
trên BCTC 57
2.5.1. Ưu điểm 57
2.5.2. Tồn tại 57
Kết luận chương 2 58
CHƯƠNG 3 ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG VIỆC
KIỂM TOÁN GIAN LẬN TRÊN BCTC, NHẬN XÉT VÀ KIẾN NGHỊ 59
3.1. Quan điểm về ứng dụng CNTT trong quá trình kiểm toán BCTC 59
3.1.1. Hạn chế làm thủ công 59
3.1.2. Ứng dụng triệt để CNTT vào trong quá trình kiểm toán 59
3.2. Ứng dụng kỹ thuật phân cụm dữ liệu phân hoạch K-means 60
3.2.1. Quy trình thực hiện phân cụm dữ liệu 60
3.2.2. Các công cụ thực hiện phân cụm dữ liệu 60
3.2.3. Thống kê mô tả về mẫu quan sát 62
3.2.4. Sự khác biệt trị trung bình giữa hai nhóm doanh nghiệp 64
3.2.5. Kết quả phân cụm dữ liệu K-Means 66
3.2.5.1 Tóm tắt kết quả phân tích cụm 66
3.2.5.2. Kết quả kiểm định AVOVA 69
3.2.5.3. Kết quả phân cụm dữ liệu cuối cùng 69
3.2.6. Phân tích dữ liệu cụm 2 70
3.2.6.1. Phân tích tỷ số đòn bẫy tài chính 70
3.2.6.2. Phân tích tỷ suất về khả năng sinh lời 72
3.2.6.3. Phân tích tỷ suất về cơ cấu tài sản 73
3.2.6.4. Phân tích tỷ số về tính thanh khoản 74
3.2.6.5. Phân tích chỉ số về quy mô doanh nghiệp 76
3.2.6.6. Phân tích hệ số về khả năng phá sản 77




3.3. Nhận xét và kiến nghị áp dụng 79
3.3.1. Nhận xét 79
3.3.2. Các kiến nghị áp dụng 80
3.3.2.1. Đối với kiểm toán viên và công ty kiểm toán 80
3.3.2.2. Đối với Ban quản trị doanh nghiệp 82
3.3.2.3. Đối với nhà trường và hiệp hội kiểm toán viên hành nghề 83
3.3.2.4. Đối với nhà đầu tư 83
KẾT LUẬN CHUNG 85
TÀI LIỆU THAM KHẢO
PHỤ LỤC

























DANH MỤC KÝ HIỆU – CHỮ VIẾT TẮT

1. ACFE Hiệp hội các nhà điều tra gian lận Mỹ
2. AICPA Viện kế toán công chứng Mỹ
3. BCTC Báo cáo tài chính
4. CNTT Công nghệ thông tin
5. DBMS Hệ quản trị cơ sở dữ liệu
6. HOSE Sàn giao dịch chứng khoán Thành phố Hồ Chí Minh
7. HASTC Sàn giao dịch chứng khoán Hà Nội
8. ISA Chuẩn mực kiểm toán Quốc tế
9. KTV Kiểm toán viên
10. KDD Quy trình khai phá tri thức
11. SAS Báo cáo về chuẩn mực kiểm toán
12. VSA Chuẩn mực kiểm toán Việt Nam

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1: Báo cáo gian lận theo loại gian lận 27
Bảng 1.2: Báo cáo gian lận theo cấp bậc, chức vụ 27
Bảng 1.3: Báo cáo về thời gian phát hiện gian lận 28
Bảng 1.4: Báo cáo về gian lận theo giới tính 28
Bảng 1.5: Báo cáo về gian lận theo loại hình công ty 28
Bảng 1.6: Báo cáo về gian lận theo quy mô công ty 29
Bảng 2.1: Báo cáo về thủ thuật gian lận 39

Bảng 2.2: Thành phần và trọng số của Z-score 53
Bảng 2.3: Giải thích hệ số Z-score 53









Hình 1.1: Quy trình khai phá dữ liệu từ kho dữ liệu 7
Hình 1.2: Mô phỏng sự phân cụm dữ liệu 10
Hình 1.3: Minh họa cho hai phương pháp tạo kiến trúc phân cấp cụm 14
Hình 1.4: Tam giác gian lận 21
Hình 1.5: Mô hình bàn cân gian lận 23
Hình 1.6: Sơ đồ phân loại gian lận theo ACFE 26
Hình 1.7: Mối quan hệ cá tính và gian lận 30
Hình 1.8: Kỹ thuật khai phá dữ liệu nhằm phát hiện gian lận tài chính 32
Hình 3.1: Sơ đồ quy trình phân cụm dữ liệu 60
Hình 3.2: Kết quả thống kê tỷ lệ doanh nghiệp gian lận 63
Hình 3.3: Đặc điểm của cụm cuối cùng qua các biến quan sát 68
Hình 3.4: Tần số đòn bẫy tài chính 71
Hình 3.5: Thống kê trị trung bình đòn bẫy tài chính theo năm 71
Hình 3.6: Thống kê trị trung bình tỷ suất sinh lời theo năm 72
Hình 3.7: Tần số tỷ suất sinh lời 73
Hình 3.8: Trị trung bình cơ cấu tài sản theo năm 74
Hình 3.9: Tần số cơ cấu tài sản 74
Hình 3.10: Trị trung bình chỉ số thanh khoản theo năm 75
Hình 3.11: Tần số tỷ số thanh khoản 75

Hình 3.12: Quy mô doanh nghiệp theo năm 76
Hình 3.13: Tần số của chỉ số Quy mô doanh nghiệp 77
Hình 3.14: Trị trung bình hệ số Z-score theo năm 78
Hình 3.15: Tần số của Z-score theo loại doanh nghiệp 78





DANH MỤC HÌNH

1


PHẦN MỞ ĐẦU

1. Tính cấp thiết của đề tài
Ngày nay, cùng với sự thay đổi và phát triển không ngừng của công nghệ
thông tin nói chung và trong các ngành công nghệ phần cứng, phần mềm, truyền
thông và các hệ thống dữ liệu phục vụ cho các ngành kinh tế - xã hội nói riêng,
lượng dữ liệu được tạo ra ngày càng lớn và phức tạp. Sự bùng nổ dữ liệu này dẫn
đến một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động
chuyển đổi lượng dữ liệu khổng lồ kia thành tri thức có ích. Cho đến những năm 90
của thế kỷ trước, hàng loạt các nghiên cứu về tổ chức các kho dữ liệu và kho thông
tin, các hệ hỗ trợ ra quyết định, các thuật toán nhận dạng mẫu và phân lớp mẫu, v.v
và đặc biệt là khai phá dữ liệu (Data Mining) ra đời.
Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng nghiên
cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức. Nhiều kết quả
nghiên cứu đã được ứng dụng vào các lĩnh vực khoa học, kinh tế và xã hội. Khai
phá dữ liệu bao gồm nhiều hướng nghiên cứu quan trọng, một trong số đó là phân

cụm dữ liệu (Data Clustering).
Trong thời gian gần đây, trong lĩnh vực phân cụm dữ liệu, người ta tập trung
chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như web, hình ảnh,
v.v và đặc biệt là dữ liệu hỗn hợp. Vấn đề đặt ra là làm thế nào có thể rút trích được
thông tin có ích từ kho dữ liệu kinh tế tài chính khổng lồ như hiện nay nhằm hỗ trợ
cho các nhà quản trị, các chủ đầu tư, kiểm toán viên cũng như các tổ chức và hội
kiểm toán viên hành nghề trong việc quản lý, đánh giá danh mục đầu tư để đưa ra
các quyết định, thiết lập chiến lược, thủ tục kiểm toán và ban hành các chính sách,
quy định.
Gian lận trên Báo cáo tài chính (BCTC) là một trong những chủ đề thời sự
hiện nay, đặc biệt là sau sự kiện hàng loạt các công ty hàng đầu trên thế giới bị phá
sản vào đầu thế kỷ 21 như Enron, Worldcom, Global Crossing, v.v.
Việc phát sinh gian lận trên BCTC ở những công ty có tầm vóc lớn đã làm
phát sinh sự quan tâm ngày càng nhiều về tính trung thực và hợp lý của BCTC.

2


Điều này tạo nên thách thức lớn đối với người quản lý công ty cũng như các công ty
kiểm toán và các kiểm toán viên (KTV).
Cùng với sự phát triển kinh tế thì số lượng các nghiệp vụ phát sinh của các
doanh nghiệp ngày càng nhiều và phức tạp. Điều này đã gây không ít khó khăn cho
các doanh nghiệp kiểm toán, nhà quản lý trong việc phân tích dữ liệu, phát hiện hay
ngăn chặn gian lận trên BCTC. Sự ra đời của kỹ thuật khai phá dữ liệu (“Data
Mining”) đã mở ra hướng giải quyết hữu hiệu cho các doanh nghiệp. Data mining
như là một công nghệ tri thức giúp khai phá những thông tin hữu ích từ những kho
dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty hay tổ chức nào
đó.
Tại Việt Nam hiện nay, công nghệ “data mining” chưa phổ biến. Thế nhưng
các sự kiện như công ty Bông Bạch Tuyết (BBT), công ty Cổ phần Dược Viễn

Đông (DVD) có thể không phải là những trường hợp duy nhất thiếu minh bạch dẫn
đến thiệt hại cho các nhà đầu tư.
Chính vì vậy, việc nghiên cứu ứng dụng của công nghệ “Data Mining” vào
việc kiểm toán gian lận trên BCTC là thực sự cần thiết. Tuy nhiên, do hạn chế về
thời gian, luận văn chỉ đi sâu vào việc xem xét “Ứng dụng phân cụm dữ liệu trong
việc kiểm toán gian lận trên Báo cáo tài chính”.
2. Tổng quan về nghiên cứu
Tổng quan về khai phá dữ liệu: Khai phá dữ liệu (“KPDL”) là quá trình tìm
kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ
liệu lớn cho các đơn vị, tổ chức, doanh nghiệp, v.v. Từ đó làm thúc đẩy khả năng
sản xuất, kinh doanh, cạnh tranh của doanh nghiệp này và doanh nghiệp khác. Tri
thức mà khai phá dữ liệu mang lại giúp cho các doanh nghiệp kịp thời đưa ra các
quyết định hay trả lời các câu hỏi trong sản xuất, kinh doanh cũng như hoạt động
đầu tư. Điều mà trước đây phần lớn các doanh nghiệp mất rất nhiều thời gian và
nhân lực.
Giáo sư Tom Mitchell (1999)
[15]
đã đưa ra định nghĩa về khai phá dữ liệu
như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải
thiện những quyết định trong tương lai”.

3


Tiến sĩ Fayyad (1996)
[16]
đã phát biểu: “KPDL thường được xem là việc
khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông
tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng quy luật, ràng buộc,
quy tắc trong cơ sở dữ liệu”.

Tổng quan về gian lận trên BCTC: Gian lận với nghĩa hẹp là hành vi thiếu
trung thực, dối trá, mánh khóe nhằm lừa gạt người khác. Theo nghĩa rộng gian lận
là hành vi không hợp pháp nhằm lừa gạt, dối trá để thu được lợi ích nào đó.
Theo chuẩn mực kiểm toán Việt Nam số 240 (VSA 240)
[1]
, gian lận là hành
vi cố ý do một hay nhiều người trong Ban quản trị, Ban Giám đốc, các nhân viên
hoặc bên thứ ba thực hiện bằng các hành vi gian dối để thu lợi bất chính hoặc bất
hợp pháp.
Theo công trình nghiên cứu gian lận của Hiệp hội các nhà điều tra gian lận
Mỹ (ACFE), có ba loại gian lận như sau:
o Biển thủ tài sản: xảy ra khi nhân viên biển thủ tài sản của tổ chức.
o Tham ô: xảy ra khi người quản lý lợi dụng trách nhiệm và quyền hạn của họ
tham ô tài sản của công ty hay hành động trái ngược với nghĩa vụ mà họ đã cam kết
với tổ chức để làm lợi cho bản thân hay một bên thứ ba.
o Gian lận trên BCTC: là trường hợp các thông tin trên BCTC bị bóp méo,
phản ánh không trung thực tình hình tài chính một cách cố ý nhằm lừa gạt người sử
dụng thông tin.
3. Mục tiêu nghiên cứu
Mục tiêu của luận văn là nghiên cứu vận dụng kỹ thuật khai phá dữ liệu (Data
Mining) nhằm kiểm toán gian lận trên BCTC, cụ thể như sau:
o Hệ thống hóa cơ sở lý luận về khai phá dữ liệu và phân cụm dữ liệu;
o Hệ thống hóa cơ sở lý luận về gian lận trong kiểm toán BCTC;
o Tóm lược về thực trạng gian lận BCTC, các quy định về trách nhiệm của
kiểm toán viên trong quá trình kiểm toán BCTC trên thế giới và tại Việt Nam. Đồng
thời trình bày về thực trạng ứng dụng tỷ suất tài chính trong việc phát hiện gian lận
trên BCTC tại các công ty kiểm toán;
o Vận dụng thành quả nghiên cứu về kỹ thuật phân cụm dữ liệu của Gupta và
Gill (2012)
[13]

trên các tỷ suất tài chính, tiến hành phân cụm dữ liệu trên báo cáo tài

4


chính của các doanh nghiệp niêm yết tại Việt Nam. Sau đó thực hiện đối chiếu với
tỷ suất tài chính của các doanh nghiệp gian lận được công bố chính thức trong thời
gian qua nhằm phát hiện các doanh nghiệp có dấu hiệu gian lận trên BCTC;
o Từ kết quả nghiên cứu trên, tác giả sẽ nhận xét và đưa ra các kiến nghị áp
dụng đối với kiểm toán viên, doanh nghiệp kiểm toán; ban quản trị doanh nghiệp;
nhà trường & hội kiểm toán viên hành nghề Việt Nam và các nhà đầu tư.
4. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: kỹ thuật phân cụm dữ liệu (K-means) trên tỷ suất tài
chính của các công ty niêm yết.
Phạm vi nghiên cứu:
- Thời gian nghiên cứu: số liệu thứ cấp trên các BCTC của các công ty niêm
yết được thu thập từ năm 2010 đến 2012;
- Không gian nghiên cứu: báo cáo tài chính của các doanh nghiệp niêm yết
trên sàn giao dịch chứng khoán Thành phố Hồ Chí Minh (HOSE) và Hà Nội
(HASTC);
Giới hạn của luận văn: luận văn chỉ nghiên cứu một mảng của khai phá dữ
liệu đó là kỹ thuật phân cụm dữ liệu (K-means) được thực hiện trên tỷ suất tài chính
của các công ty niêm yết trên sàn HOSE và HASTC.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu định tính: Thông qua việc tổng hợp dữ liệu thứ cấp
(tổng hợp từ các sách, giáo trình, internet, các nghiên cứu trước đây) để phân tích,
nội suy nhằm đưa ra các yếu tố và tỷ suất tài chính thường dùng để phân tích gian
lận trên BCTC.
Phương pháp nghiên cứu định lượng: Với dữ liệu tài chính từ BCTC của các
công ty niêm yết trên sàn giao dịch chứng khoán TP.HCM (HOSE) và Hà Nội

(HASTC), dùng kiểm định trung bình hai mẫu độc lập (Independent sample t-test)
và phân cụm dữ liệu để phát hiện doanh nghiệp với các tỷ suất tài chính gần giống
với tỷ suất tài chính của các doanh nghiệp gian lận được công bố chính thức. Từ đó,
tác giả đưa ra các kiến nghị cũng như hạn chế và hướng nghiên cứu tiếp theo.

5


6. Đóng góp của luận văn
Nghiên cứu về ứng dụng của kỹ thuật phân cụm dữ liệu trong việc kiểm toán
gian lận trên BCTC là rất cần thiết. Nó góp phần hỗ trợ kiểm toán viên, công ty
kiểm toán và nhà đầu tư trong việc đánh giá khách hàng cũng như danh mục đầu tư
tiềm ẩn rủi ro gian lận. Ngoài ra, nghiên cứu còn giúp cho Ban quản trị doanh
nghiệp; Nhà trường & Hội kiểm toán viên hành nghề Việt Nam nhận thức rõ hơn về
khai phá dữ liệu, cụ thể là phân cụm dữ liệu. Từ đó có kế hoạch huấn luyện và đào
tạo cho các kiểm toán viên nội bộ cũng như sinh viên và các kiểm toán viên hành
nghề.
7. Kết cấu của luận văn
o Chương 1: Cơ sở lý luận về phân cụm dữ liệu (“Clustering”) và gian lận trên
BCTC. Chương này trình bày khái quát về khai phá dữ liệu, phân cụm dữ liệu và
gian lận trên BCTC. Tác giả cũng đồng thời trình bày các nghiên cứu trước đây về
phân cụm dữ liệu trong mối quan hệ với gian lận trên BCTC, các tỷ suất tài chính
được sử dụng là yếu tố đầu vào cho quá trình phân cụm dữ liệu.
o Chương 2: Thực trạng gian lận BCTC và tình hình sử dụng tỷ suất tài chính
nhằm phát hiện gian lận trên BCTC. Chương này trình bày về thực trạng gian lận
BCTC trên thế giới và tại Việt Nam, quy định về trách nhiệm của KTV đối với gian
lận BCTC. Trong đó, tác giả cũng sẽ đồng thời trình bày về kinh nghiệm của các
công ty kiểm toán nước ngoài tại Việt Nam trong việc vận dụng kỹ thuật khai phá
dữ liệu trong kiểm toán BCTC và tình hình sử dụng tỷ suất tài chính trong quá trình
kiểm toán cũng như trong các nghiên cứu trước đây. Từ đó rút ra ưu điểm và tồn tại

của việc vận dụng kỹ thuật khai phá dữ liệu và tỷ suất tài chính trong quá trình kiểm
toán BCTC hiện nay.
o Chương 3: Ứng dụng kỹ thuật phân cụm dữ liệu trong việc kiểm toán gian
lận trên BCTC, nhận xét và kiến nghị áp dụng. Chương này sẽ trình bày về cách
chọn biến quan sát, phương pháp kiểm định và kỹ thuật phân cụm dữ liệu. Từ đó tác
giả phân tích, nhận xét kết quả phân cụm dữ liệu và gợi ý các kiến nghị áp dụng.




6


CHƯƠNG 1
CƠ SỞ LÝ LUẬN VỀ PHÂN CỤM DỮ LIỆU VÀ
GIAN LẬN BÁO CÁO TÀI CHÍNH

1.1. Khai phá dữ liệu
1.1.1. Tổng quan về khai phá dữ liệu
1.1.1.1. Định nghĩa
Khoảng hơn một thập kỷ trở lại đây, khoa học công nghệ không ngừng phát
triển và lượng thông tin được lưu trữ trên các thiết bị điện tử không ngừng tăng lên.
Sự tích lũy dữ liệu này xảy ra với tốc độ bùng nổ. Một cách hình ảnh là chúng ta
đang “ngập” trong dữ liệu nhưng lại “đói tri thức”. Câu hỏi đặt ra là liệu chúng ta có
thể khai thác gì từ “núi” dữ liệu ấy không?
“Necessity is the mother of invention” (Plato, 348 TCN) – Data mining ra
đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều
định nghĩa về Data mining và sẽ được đề cập sau, tuy nhiên có thể hiểu rằng Data
mining như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ
những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty hay

tổ chức nào đó.
Khai phá dữ liệu được định nghĩa như quá trình chắt lọc hay khai phá tri thức
từ một lượng lớn dữ liệu. Thuật ngữ “data mining” chỉ việc tìm kiếm một tập hợp
nhỏ có giá trị từ một lượng lớn dữ liệu thô. “Data mining” được ví dụ như việc “đãi
cát tìm vàng” trong một tập hợp lớn các dữ liệu cho trước. Hiện nay có nhiều thuật
ngữ được sử dụng tương tự với “data mining” như “knowledge mining” (khai phá
tri thức), “knowledge extraction” (chắt lọc tri thức), “data/pattern analysis” (phân
tích dữ liệu/mẫu), “data dredging” (nạo vét dữ liệu)…(Han và Kamber, 2006)
[11]
.
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai
thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng
lồ và phức tạp, đồng thời cũng tìm ra các mẫu tìm ẩn trong tập dữ liệu đó.
Khai phá dữ liệu là một bước trong 7 bước của quá trình khai phá dữ liệu
(Knowledge Discovery in Database - KDD) và KDD bao gồm 7 quá trình khác
nhau theo thứ tự như sau:
7


Hình 1.1: Quy trình khai phá dữ liệu từ kho dữ liệu












(Nguồn: Han and Kamber, 2006
[11]
. Data mining: Concepts and Techniques)
1. Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu và các dữ liệu không cần
thiết;
2. Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những
kho dữ liệu (data warehouse) sau khi đã làm sạch và tiền xử lý (data
preprocessing);
3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu
lớn ban đầu theo những tiêu chí nhất định;
4. Biến đổi dữ liệu (data transformation): là bước chuẩn hóa và làm mịn dữ liệu
để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở
bước sau;
5. Khai phá dữ liệu (data mining): là bước áp dụng các kỹ thuật phân tích nhằm
khai phá dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt
trong dữ liệu. Đây được xem là bước quan trọng và tốn thời gian nhất của toàn quá
trình KDD;
6. Đánh giá mẫu (pattern evaluation): quá trình đánh giá các kết quả tìm được
qua các thước đo nào đó;
7. Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho người sử dụng.

8


1.1.1.2. Các kỹ thuật tiếp cận trong khai phá dữ liệu
Nếu đứng trên quan điểm của học máy (Machine learning) thì các kỹ thuật
trong Data mining bao gồm:
Học có giám sát (Supervised learning):

Là quá trình gán nhãn lớp cho các phần tử trong cơ sở dữ liệu dựa trên một
tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết.
Học không có giám sát (Unsupervised learning):
Là quá trình phân chia một tập dữ liệu thành các lớp hay là cụm dữ liệu
tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện.
Học nửa giám sát (Semi – Supervised learning):
Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ
các ví dụ huấn luyện và một số các thông tin về một số nhãn lớp đã biết trước.
Nếu căn cứ vào lớp các bài toán cần giải quyết thì Data mining bao gồm các
kỹ thuật sau:
Phân lớp và dự đoán (Classification & Prediction)
Là việc xếp các đối tượng vào một trong các lớp đã biết trước. Phân lớp là
lĩnh vực rất quan trọng trong khai phá dữ liệu, phân lớp còn được gọi là học có
giám sát, hướng tiếp cận này thường được sử dụng một số kỹ thuật của học máy
như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v
Phân tích luật kết hợp (Association rule)
Luật kết hợp là luật biểu diễn tri thức ở dạng tương đối đơn giản. Mục tiêu
của phương pháp này là phát hiện và đưa ra các mối quan hệ giữa các giá trị dữ liệu
trong cơ sở dữ liệu. Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác
nhau như kinh doanh, y học, tài chính, thị trường chứng khoán, phân tích quyết
định, phân tích thị trường, v.v. Tuy luật kết hợp là một dạng luật khá đơn giản
nhưng lại mang rất nhiều ý nghĩa. Thông tin mà dạng luật này đem lại rất có lợi
trong các hệ hỗ trợ ra quyết định. Tìm kiếm được những luật kết hợp đặc trưng và
mang nhiều thông tin từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận
chính trong lĩnh vực khai phá dữ liệu.
Khai thác mẫu tuần tự (sequential/temporal patterns)
Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian.

9



Một luật mô tả mẫu tuần tự có dạng tiêu biểu X  Y phản ánh sự xuất hiện của
biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này có tính
dự báo cao.
Phân nhóm – đoạn (Clustering/Segmentation)
Mục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự
nhau trong tập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng
trong cùng một nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong
các nhóm khác nhau là nhỏ nhất. Các nhóm có thể tách nhau hoặc phân cấp gối lên
nhau và số lượng các nhóm là chưa biết trước. Một đối tượng có thể vừa thuộc
nhóm này, nhưng cũng có thể vừa thuộc nhóm khác. Không giống như phân lớp dữ
liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu. Vì thế có thể xem phân
nhóm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi
phân lớp dữ liệu là học bằng ví dụ (learning by example). Phân nhóm còn được gọi
là học không có giám sát (unsupervised learning). Phân nhóm dữ liệu được sử dụng
nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận
dạng mẫu, phân loại trang web, v.v. Ngoài ra phân nhóm dữ liệu còn có thể được sử
dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác.
1.1.2. Ứng dụng của khai phá dữ liệu
Tại Việt Nam, khai phá dữ liệu là hướng tiếp cận khá mới. Tuy nhiên đây là
lĩnh vực thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu trên thế giới và
nó đã phát triển nhờ vào những ứng dụng của nó như:
o Phân tích dữ liệu và ra quyết định (data analysis & decision support);
o Điều trị y học (medical treatment);
o Tin – sinh (bio-informations);
o Tài chính và thị trường chứng khoán (finance & stock market);
o Bảo hiểm (insurance);
o Nhận dạng (pattern recognition);
o Marketing: xác định nhóm khách hàng (khách hàng tiềm năng, khách
hàng giá trị, phân loại và dự đoán hành vi khách hàng, v.v) sử dụng sản phẩm hay

dịch vụ của công ty để công ty có chiến lược kinh doanh hiệu quả hơn.

10


Như vậy, khai phá dữ liệu đã được ứng dụng trong nhiều lĩnh vực kinh tế,
xã hội, y học, khoa học, v.v. Tuy nhiên, ứng dụng những kỹ thuật này trong lĩnh
vực kiểm toán BCTC còn rất hạn chế.
Khai phá dữ liệu có thể giúp khám phá kiến thức tiềm ẩn, mối quan hệ không
ngờ của các dữ liệu trong khối dữ liệu khổng lồ. Với chức năng này kỹ thuật khai
phá dữ liệu được ứng dụng để kiểm toán gian lận và nhầm lẫn trên BCTC. Để thực
hiện chức năng này kỹ thuật khai phá dữ liệu mô tả được sử dụng. Kỹ thuật này dễ
dàng ứng dụng trên khối dữ liệu chưa được biết trước. Kỹ thuật khai phá dữ liệu mô
tả bao gồm luật liên kết, phân tích cụm và kỹ thuật phát hiện bất thường. Trong
phạm vi luận văn, tác giả đi sâu phân tích kỹ thuật phân cụm dữ liệu.
1.1.3. Phân cụm dữ liệu
1.1.3.1. Định nghĩa
Phân cụm dữ liệu là tên của nhóm kỹ thuật đa biến có mục tiêu chính là phân
loại các đơn vị dựa vào một số các đặc tính của chúng. Các kỹ thuật này nhận diện
và phân loại các đối tượng hay các biến sao cho các đối tượng trong cùng một cụm
tương tự nhau xét theo các đặc tính được chọn để nghiên cứu. Nội bộ trong các cụm
sẽ đồng nhất cao trong khi giữa các cụm có sự khác biệt lớn.
Các cụm được gom có chất lượng cao khi chúng tương tự cao trong lớp
(intra-class) và tương tự thấp giữa các lớp (inter-class). Điều đó có nghĩa là các đối
tượng trong cùng một nhóm có sự giống nhau hoặc gần giống nhau càng nhiều thì
chất lượng gom cụm sẽ càng cao.
Hình 1.2: Mô phỏng sự phân cụm dữ liệu





(Nguồn: Tác giả tổng hợp và mô phỏng)
1.1.3.2. Yêu cầu của phân cụm dữ liệu
Việc thiết kế và sắp xếp các cụm cần thỏa mãn các yêu cầu sau đây:

11


 Yêu cầu về tính sẵn sàng cao (Availability): các tài nguyên mạng phải
luôn sẵn sàng trong khả năng cao nhất để cung cấp và phục vụ cho người dùng cuối
cùng và giảm thiểu sự ngưng hoạt động hệ thống ngoài ý muốn;
 Yêu cầu về độ tin cậy cao (Realiability): độ tin cậy của cụm được hiểu là
khả năng giảm thiểu tần số xảy ra sự cố và nâng cao khả năng chịu đựng sai sót của
hệ thống;
 Yêu cầu về khả năng mở rộng được (Scalability): hệ thống phải có khả
năng dễ dàng cho việc nâng cấp, mở rộng tương lai. Việc nâng cấp mở rộng bao
hàm cả việc thêm các thiết bị, máy tính vào hệ thống để nâng cao chất lượng dịch
vụ và thêm các tài nguyên mạng khác.
Ba yêu cầu trên được gọi tắt là RAS (Realiability – Availability –
Scalability), những hệ thống đáp ứng ba yêu cầu trên gọi là hệ thống RAS.
1.1.3.3. Các đặc trưng cơ bản để phân cụm dữ liệu
Chọn lựa đặc trưng: các đặc trưng phải được lựa chọn một cách hợp lý để
có thể “mã hóa” nhiều nhất thông tin liên quan đến công việc quan tâm. Mục tiêu
chính là giảm thiểu sự dư thừa thông tin giữa các đặc trưng. Các đặc trưng cần được
xử lý trước khi tiến hành các bước sau.
Chọn độ gần gũi: đây là độ đo chỉ ra mức độ tương tự hay không tương tự
giữa hai vectơ đặc trưng. Phải đảm bảo rằng tất cả các vectơ đặc trưng góp phần
như nhau trong việc tính toán độ đo gần gũi và không có đặc trưng nào át đặc trưng
nào. Điều này được đảm nhận bởi quá trình tiền xử lý.
Tiêu chuẩn phân cụm: điều này phụ thuộc vào giải thích của chuyên gia cho

thuật ngữ “dễ nhận thấy” dựa vào loại của các cụm được chuyên gia cho rằng ẩn
dưới tập dữ liệu.
Thuật toán phân cụm: cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm
làm sáng tỏ cấu trúc của tập dữ liệu.
Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính
đúng đắn của nó. Điều này thường được thực hiện bởi việc dùng các kiểm định phù
hợp.

12


Giải thích kết quả: trong nhiều trường hợp các chuyên gia trong lĩnh vực
ứng dụng phải kết hợp kết quả phân loại với bằng chứng phân cụm và phân tích để
đưa ra các kết luận đúng đắn.
1.1.3.4. Các phương pháp phân cụm dữ liệu
 Các phương pháp dựa trên phân hoạch
Phương pháp phân hoạch: là tạo ra một phân hoạch của cơ sở dữ liệu D chứa
n đối tượng thành tập gồm k cụm sao cho:
 Mỗi cụm chứa ít nhất một đối tượng
 Mỗi đối tượng thuộc về đúng một cụm
Cho k, tìm một phân hoạch có k cụm nhằm tối ưu các tiêu chuẩn phân cụm
được chọn.
Các phương pháp phân cụm:
 Phương pháp K-means (“MacQueen”, 1967): mỗi cụm được đại diện bằng
tâm của cụm (centroid);
 Phương pháp K-medoids (“Kuafman & Roosseew”, 1987): mỗi cụm được
đại diện bằng một trong các đối tượng của cụm (medoids).
Phương pháp phân cụm K-means:
Trọng tâm của cụm là một vec tơ, trong đó giá trị mỗi phần tử của nó là trung
bình cộng của các thành phần tương ứng của các đối tượng vectơ dữ liệu trong cụm

đang xem xét.
Tham số đầu vào của thuật toán là số cụm k và tham số đầu ra của thuật toán
là các trọng tâm của các cụm dữ liệu.
Độ đo khoảng cách giữa các đối tượng dữ liệu thường được sử dụng là
khoảng cách Euclide, bởi vì đây là mô hình khoảng cách dễ lấy đạo hàm và cực trị
tối thiểu.
Thuật toán K-means bao gồm các bước sau:
 Phân hoạch đối tượng thành k cụm
 Tính các điểm hạt giống làm Centroid cho từng cụm trong cụm hiện hành
 Gán từng đối tượng vào cụm có Centroid gần nhất
 Quay về bước 2, chấm dứt khi không còn phép gán mới.

13


Cho đến nay có rất nhiều thuật toán kế thừa tư tưởng của thuật toán K-means
để giải quyết với tập dữ liệu có kích thước rất lớn, được áp dụng hiệu quả và phổ
biến như thuật toán K-modes, PAM, CLARA, CLARANS, K-prototypes,…
Phương pháp K-medoids:
Đầu vào của thuật toán là số cụm k và cơ sở dữ liệu có n đối tượng
Thuật toán được tiến hành với 4 bước sau:
 Chọn bất kỳ k đối tượng nào làm medoids ban đầu (đối tượng làm đại
diện)
 Gán từng đối tượng còn lại vào cụm có medoids gần nhất
 Chọn nonmedoids và thay một trong các medoids bằng nó nếu nó cải thiện
chất lượng
 Quay về bước 2, dừng khi không còn phép gán mới.
 Các phương pháp dựa trên phân cấp
Phương pháp phân cấp: tạo phân cấp cụm chứ không phải là một phân hoạch
đơn thuần các đối tượng, không cần dữ liệu là số cụm k, dùng ma trận để làm tiêu

chuẩn gom cụm.
Cây các cụm hay còn được gọi là Dendrogram:
 Các lá của cây thể hiện các đối tượng riêng lẻ
 Các nút của cây biểu diễn các cụm
Phương pháp tạo kiến trúc cụm (xem Hình 2.3):
 Gộp – agglomerative (từ dưới lên): đưa từng đối tượng vào cụm riêng của
nó, trộn mỗi bước hai cụm tương tự nhất cho đến khi chỉ còn một cụm hay thỏa mãn
các điều kiện kết thúc.
 Phân chia – Divisive (từ trên xuống): bắt đầu bằng một cụm lớn chứa tất
cả các đối tượng, phân chia cụm phân biệt nhất thành các cụm nhỏ hơn và xử lý cho
đến khi có n cụm hay thỏa mãn điều kiện kết thúc.





14


Hình 1.3: Minh họa cho hai phương pháp tạo kiến trúc phân cấp cụm











(Nguồn: Tác giả tổng hợp)
Các thuật toán phổ biến là BIRCH (Balanced Reducing and Clustering Using
Hierarchies) và CURE (Clustering Using Representatives). Thuật toán BIRCH là
thuật toán phân cụm phân cấp sử dụng chiến lược phân cụm từ trên xuống (top
down). Thuật toán CURE là thuật toán sử dụng chiến lược dưới lên (Bottom up) của
kỹ thuật phân cụm phân cấp.
 Các phương pháp dựa trên mật độ
Các cụm có thể được xem như các vùng có mật độ cao, được tách ra bởi các
vùng không có hoặc ít mật độ. Khái niệm mật độ ở được xem như là số các đối
tượng láng giềng. Các thuật toán phân cụm dựa trên mật độ phổ biến nhất là
DBSCAN (Density – Based Spatial Clustering of Application with noise), OPTICS
(Ordering Points to Identify the Clustering Structure) và DENCLUE (Density –
Based Clustering).
 Các phương pháp phân cụm dữ liệu đặc thù
Phân cụm dữ liệu dựa trên lưới như thuật toán STING (Statistical
Information Grid). Phân cụm dữ liệu dựa vào không gian con như thuật toán
CLIQUE, v.v.


a
b
c
d
a b
e
c d
a b c d
a b c d e
Gộp -
Agglomerative

B
0
B
1
B
2
B
3
B
4
B
0
B
1
B
2
B
3
B
4
Phân chia -
Devisive

15


1.1.3.5. Nhận xét phương pháp phân cụm dữ liệu
 Các phương pháp dựa trên phân hoạch
Thuật toán K-means chỉ thích hợp để tìm kiếm các cụm dữ liệu có dạng hình
cầu, không thích hợp với việc xác định các cụm với hình dạng bất kỳ. Nhưng trong

trường hợp các cụm khá gần nhau thì một số đối tượng của một cụm có thể là nằm
cuối trong các cụm khác.
Thuật toán PAM là cải tiến của K-means nhằm khắc phục trong những
trường hợp dữ liệu chứa nhiễu hoặc các phần tử ngoại lai.
CLARA và CLARANS là các thuật toán dựa trên hàm tiêu chuẩn của thuật
toán PAM. Đây là các thuật toán có khả năng áp dụng với tập dữ liệu lớn, nhưng
hiệu quả của chúng phụ thuộc vào kích thước của mẫu được phân. Thuật toán
CLARANS hiệu quả hơn so với thuật toán CLARA.
Hạn chế chung của các thuật toán phân cụm phân hạch là chỉ thích hợp với
dữ liệu số và ít chiều, và chỉ khám phá ra các cụm dạng hình cầu. Thế nhưng, chúng
lại áp dụng tốt với dữ liệu có các cụm phân bố độc lập và trong mỗi cụm có mật độ
phân bố cao.
 Các phương pháp dựa trên phân cấp
Khi cụm được trộn/tách, quyết định là vĩnh cửu, số phương pháp khác nhau
cần được xem xét rút giảm. Tuy nhiên khi trộn/tách là vĩnh cửu thì quyết định sai
thì không thể khắc phục về sau. Các phương pháp phân chia thì cần thời gian tính
toán. Các phương pháp không mở rộng được cho các tập tin dữ liệu lớn.
Ngoài ra còn cực tiểu hóa các ảnh hưởng của các phần tử ngoại lai. Có thể
quan tâm khai thác các phần tử ngoại lai và ứng dụng vào lĩnh vực phát hiện tội
phạm, tiếp thị, y khoa, v.v
 Các phương pháp dựa trên mật độ
Phương pháp dựa trên mật độ thường áp dụng cho các tập dữ liệu có không
gian lớn đa chiều.
Thuật toán DBSCAN có thể tìm ra các cụm với hình thù bất kỳ và tại một
thời điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng dữ liệu nhập vào.

16


Thuật toán OPTICS là thuật toán mở rộng của thuật toán DBSCAN bằng

cách giảm các tham số đầu vào. OPTICS sắp xếp các cụm theo thứ tự tăng dần
nhằm tự động phân cụm dữ liệu.
Thuật toán DENCLUE có khả năng xử lý các phần tử ngoại lai, cho phép
khám phá ra các cụm với hình thù bất kỳ ngay cả đối với dữ liệu đa chiều.
Nhìn chung về kỹ thuật phương pháp dựa trên mật độ khá phức tạp do có sự
khác biệt giữa mật độ của các đối tượng trong mẫu với mật độ của toàn bộ dữ liệu.
 Các phương pháp phân cụm dữ liệu đặc thù
Thuật toán STING có lợi thế hơn so với các phương pháp khác là tính toán
dựa trên lưới nên chỉ cần thông tin tóm tắt của dữ liệu trong cells chứ không phải là
dữ liệu thực tế, cấu trúc dữ liệu lưới thuận tiện cho quá trình xử lý song song và cập
nhật liên tục.
Hạn chế của thuật toán này là hoàn toàn phụ thuộc vào tính chất hộp ở mức
thấp nhất của cấu trúc lưới. Nếu tính chất hộp là mịn dẫn đến chi phí và thời gian xử
lý tăng, tính toán trở nên phức tạp. Nếu mức dưới cùng là quá thô thì nó có thể làm
giảm bớt chất lượng và độ chính xác của phân tích cụm.
1.2. Tổng quan tình hình nghiên cứu về phân cụm dữ liệu
1.2.1. Tình hình nghiên cứu trên thế giới
Theo công trình nghiên cứu về “Đánh giá khả năng gian lận trên BCTC
thông qua các yếu tố của tam giác gian lận” (Lou & Wang, 2009)
[14]
, trong suốt hai
thập kỷ vừa qua, vấn đề gian lận BCTC đã thu hút rất nhiều sự quan tâm của cả
những người nghiên cứu hàn lâm lẫn những người hành nghề. Công trình nghiên
cứu đầu tiên về tín hiệu dự đoán gian lận (“red flags”) đã được xuất bản năm 1986
(Albrecht và Rommey). Năm 1988, Viện kế toán công chứng Mỹ (AICPA) đã ban
hành SAS 53 (“Statement on Auditing Standards”) nhằm làm rõ trách nhiệm của
kiểm toán viên trong việc phát hiện gian lận và tập trung vào đánh giá rủi ro gian
lận trên BCTC thông qua các nhân tố rủi ro (“risk factors”) hay tín hiệu gian lận
(“red flags”). Loebbecke, Eining và Willingham (1989) đã xây dựng mô hình dự
đoán gian lận dựa trên các nhân tố rủi ro được đề cập trong SAS 53.

Nhiều nghiên cứu sau đó đã mở rộng mô hình nghiên cứu của Loebbecke,
Eining và Willingham (1989) với nhiều tín hiệu gian lận (“red flags”) (Bell, 1991;

×