Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.16 MB, 24 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>ĐẠI HỌC UEHTRƯỜNG KINH DOANH</b>
<b>ĐỒ ÁN NHĨMBỘ MƠN KHOA HỌC DỮ LIỆU</b>
<b>ĐỀ TÀI: DỰ ĐỐN CÁC CÔNG TY GIAN LẬN TRÊN CỞ SỞ CÁCYẾU TỐ RỦI RO HIỆN TẠI VÀ LỊCH SỬ</b>
TP Hồ Chí Minh, ngày 28 tháng 09 năm 2022
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>Giảng viên: Ths. Nguyễn Mạnh TuấnSinh viên thực hiện:</b>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>Bảng 2 Kết quả Test & Score ( 1 )---15</b>
<b>Bảng 3 Kết quả Confusion Matrix ( 1 )---17</b>
<b>Bảng 4 Kết quả Test & Score ( 2 )---21</b>
<b>Bảng 5 Kết quả Confusion Matrix ( 2 )---21</b>
<b>Bảng 7 Kết quả k-Means---18</b>
<b>MỤC LỤCCHƯƠNG I: TỔNG QUAN1.1 LÝ DO CHỌN ĐỀ TÀI---5</b>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">1.Mục tiêu nghiên cứu ---6
2.Đối tượng nghiên cứu---6
<b>1.2 MÔ TẢ BÀI TỐN---6</b>
<b>1.3 MƠ TẢ PHƯƠNG PHÁP---7</b>
1.Phương pháp phân lớp (Classification)---7
2.Phương pháp phân cụm (Clustering)---9
<b>1.4 MÔ TẢ DỮ LIỆU---12</b>
<b>Chương II QUY TRÌNH THỰC HIỆN & KẾT QUẢ---14</b>
<b>2.1 PHÂN TÍCH VÀ TIỀN XỬ LÍ DỮ LIỆU---14</b>
1. Phân tích dữ liệu---14
2. Tiền xử lý dữ liệu<b>---</b>14
<b>2.2 BÀI TOÁN 1: DỰ ĐOÁN CÁC YẾU TỔ RỦI RO ( GIAN LẬN HOẶC KHÔNG GIAN LẬN ) ẢNH HƯỞNG TỚI CƠNG TY.---14</b>
1. Quy trình thực hiện---15
2. Đánh giá và kết quả---15
<b>2.3 BÀI TOÁN 2: BÀI TỐN PHÂN CỤM CƠNG TY GIAN LẬN, DỰA TRÊN RỦI RO KIrM TỐN (PHÂN CỤM DỮ LIÊsU)---17</b>
<b>1. Quy trình thực hiện---17</b>
<b>2. Đánh giá và kết quả---18</b>
<b>2.4 BÀI TOÁN 3 : BÀI TỐN PHÁT HIỆN CÁC CƠNG TY GIAN LẬN DỰA VÀO LƯỢC ĐỒ HAY CƠNG CỤ THỐNG KÊ---19</b>
1. Quy trình thực hiện---20
2. Đánh giá và kết quả---21
<b>TÀI LIỆU THAM KHẢO---22</b>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><b> CHƯƠNG III KẾT LUẬN---22</b>
<b>CHƯƠNG I: TỔNG QUAN1.1Lý do chọn đề án</b>
Trong việc chọn đề tài của bài báo cáo nhóm đã gặp nhiều khó khăn khi phải tìm đề tài liên quan đến chuyên nghành của nhóm, chun nghành Kế tốn. Những sau q trình tìm tịi, tham khảo và nhận sự giúp đỡ của giảng viên là thầy Nguyễn Mạnh Tuấn thì nhóm cũng đã chọn được đề tài của mình là “Dự đốn các công ty gian lận trên cở sở các yếu tố rủi ro hiện tại và lịch sử ”. Tuy đề tài không thật sự đúng chuyên nghành những đề tài này liên quan đến chuyên nghành Kiểm toán cũng thuộc lĩnh vực về Kế tốn tài chính đều làm việc trên, những con số và dữ liệu từ nhiều đối tượng cung cấp, và sau đó tổng hợp lại thành một báo cáo tài chính để thuyết trình với người u cầu báo cáo.
Ngồi ra, việc tìm tập dữ liệu để giúp kiểm tốn viên xây dựng mơ hình phân loại có thể dự đốn cơng ty gian lận trên cơ sở các yếu tố rủi ro hiện tại và lịch sử được cung cấp công khai và phi thương mại trên trang tìm kiếm dữ liệu: . Cơng trình nghiên cứu này là một nghiên cứu điển hình về một cơng ty kiểm tốn bên ngồi của chính phủ cũng là kiểm tốn viên bên ngồi của các cơng ty chính phủ của Ấn Độ. Trong q trình lập kế hoạch kiểm tốn, kiểm tốn viên kiểm tra hoạt động kinh doanh của các văn phịng chính phủ khác nhau nhưng mục tiêu là đến thăm các văn phòng với khả năng xảy ra sai sót rất cao và có ý nghĩa nghiêm trọng. Điều này được tính tốn bằng cách đánh giá rủi ro liên quan đến các mục tiêu báo cáo tài chính (Houston, Peters và Pratt 1999). Ba mục tiêu chính của nghiên cứu như sau:
Để hiểu quy trình phân tích rủi ro kiểm tốn của cơng ty bằng cách phỏng vấn sâu với các nhân viên kiểm toán và đề xuất khuôn khổ ra quyết định để đánh giá rủi ro của doanh nghiệp trong quá trình lập kế hoạch kiểm toán.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">Để kiểm tra các yếu tố rủi ro hiện tại và lịch sử để xác định Điểm đánh giá rủi ro cho 777 công ty mục tiêu, triển khai thuật tốn Tối ưu hóa bầy đàn (PSO) để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá Phân loại kiểm toán rủi ro (Gian lận và Không gian lận) của các các công ty.
Để kiểm tra các yếu tố rủi ro hiện tại và lịch sử để xác định Điểm đánh giá rủi ro cho 777 công ty mục tiêu, triển khai thuật tốn Tối ưu hóa bầy đàn (PSO) để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá Phân loại kiểm toán rủi ro (Gian lận và Không gian lận) của các các công ty.
Từ những lý do trên, nhóm em lựa chọn đề tài “Dự đốn các cơng ty gian lận trên cở sở các yếu tố rủi ro hiện tại và lịch sử ” làm báo cáo kết thúc môn học.
<b>1 Mục tiêu nghiên cứu</b>
<b>- Dự đoán các yếu tổ rủi ro ( gian lận hoặc không gian lận ) ảnh hưởng tới cơng ty.- Giúp kiểm tốn viên xây dựng mơ hình phân loại có thể dự đốn cơng ty gian lận</b>
trên cơ sở các yếu tố rủi ro hiện tại và lịch sử.
<b>- Kiểm tra và đánh giá, phân loại kiểm tốn rủi ro (Gian lận và Khơng gian lận)</b>
của các các công ty.
<b>2 Đối tượng nghiên cứu</b>
Sử dụng bộ dữ liệu Audit data trên trang web dữ liệu miễn phí TẢ BÀI TỐN </b>
Sử dụng phần mềm Orange và excel để xử lý dữ liệu và giải quyết các bài toán sau:
Bài toán 1: Dự đoán các yếu tổ rủi ro ( gian lận hoặc không gian lận ) ảnh hưởng tới công ty (phân lớp dữ liệu).
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Bài toán 2 : Bài toán phân cụm công ty gian lận, dựa trên rủi ro kiểm toán (phân cụm dữ liê qu)
Bài toán 3: Bài tốn phát hiện các cơng ty gian lận dựa vào lược đồ hay cơng cụ thống kê
<b>1.3MƠ TẢ PHƯƠNG PHÁP 1. Phương pháp phân lớp (Classification)</b>
<b>“Phương pháp phân lớp là quá trình phân một đối tượng dữ liệu vào một hay</b>
nhiều lớp (loại) đã cho trước nhờ một mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào). Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là q trình phân lớp dữ liệu.”
Quá trình phân lớp dữ liệu gồm 2 bước chính:
<b>Bước 1: Xây dựng mơ hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)-</b> “Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xửa lý
<b>- Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật...</b>
<b>- Kết quả của bước này là mơ hình phân lớp đã được huấn luyện (trình phận lớp)”</b>
<b> Bước 2: Sử dụng mơ hình chia thành 2 bước nhỏ.</b>
Bước 2.1: Đánh giá mơ hình
Hình 1. Mơ hình phân lớp
Hình 2. Xây dựng mơ hình
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">Đầu dữ liệu vào: là một tập dữ liệu mẫu khác được gán nhẫn và tiền xử lý. Tuy nhiên, lúc đưa vào mơ hình phân lớp, ta “lơ” đi thuộc tính đã được gán nhãn.
<b>-</b> Tính đúng đắn của mơ hình sẽ đucojw xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình.
Bước 2.2: Phân lớp dữ liệu mới
<b>- Dữ liệu đầu vào: là dữ liệu “khun” thuộc tính cần dự đốn lớp (nhãn)</b>
<b>-</b> “Mơ hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.
Phân loại bài toán phân lớp:
cho trước. Nếu:
<b>- n = 2: Phân lớp nhị phân- n > 2: Phân lớp đa lớp</b>
<b>- Mỗi đói tượng dữ liệu chỉ thuộc vào một lớp duy nhất: Phân lớp đơn nhãn- Một đối tượng dữ liệu có thể cùng thuộc về nhiều lớp khác nhau: Phân lớp đa</b>
- Các phương pháp phân lớp sử dụng trong bài:
1.Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nằm hỗ trợ quá trình ra quyết
Hình 3. Đánh giá mơ hình
Hình 4. Phân lớp dữ liệu mới
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">định. Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.”
Hình 5: Vd về sơ đồ cây quyết định
“SVM (Support Vector Machine): là một thuật tốn có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu. Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể. SVM có nhiều biến phù hợp với các bài toán phân loại khác nhau.”
<b>2. Phương pháp phân cụm (Clustering)</b>
<b>“Phân cụm dữ liệu là q trình gom cụm/nhóm các đối tượng/dữ</b>
liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng. Trong
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn. Đây là dữ liệu tự nhiên thường thấy trong thực tế.”
Mơ hình q trình phân cụm dữ liệu:
“Đặc điểm:
Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu. Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì khơng biết trước được số nhóm (khác với bài toán phân lớp)
Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
• Độ tương đồng bên trong cụm cao
• Độ tương tự giữa các cụm thấp (khác biệt cao) Các ứng dụng điển hình:
• Cơng cụ phân cụm dữ liệu độc lập.
• Là giai đoạn tiền xử lý cho các thuật toán khác
Độ đo phân cụm: được sử dụng làm tiêu chí nhằm tính tốn sự tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm
Một số độ đo phân cụm: • Euclid
Hình 6. Mơ hình q trình phân cụm dữ liệu
Hình 5. Phân cụm dữ liệu
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">• Cosin • Minkowski”
Phân loại mốt số phương pháp phân cụm:
Dựa trên cấu trúc độ chi tiết nhiều
“Thuật toán k-Means
- Thuộc nhóm thuật tốn phân cụm dựa trên phân hoạch. - Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)”
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><b>1.4 MÔ TẢ DỮ LIỆU</b>
<b>Bộ dữ liệu được tổng hợp từ các nguồn dữ liệu:</b>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><b>CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ2.1 Phân tích dữ liệu và tiền sử lý</b>
<b>1. Phân tích dữ liệu</b>
Phân tích dữ liệu của các đặc trưng có tính phân loại:
<b>- Mỗi hàng đại diện cho một doanh nghiệp từ 46 thành phố khác nhau của tiểu</b>
bang được kiểm toán viên liệt kê, mỗi cột chứa các thuộc tính của đối tượng.
<b>- Dữ liệu thô chứ 777 hàng (đối tượng) và 27 cột (đặc trưng)2. Tiền xử lý dữ liệu</b>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Xử lý dữ liệu:
<small>•</small> Báo cáo sử dụng dữ liệu được lấy từ trang đã được xác inh và xử lý nên khơng có dữ liệu thiếu.
• Dữ liệu được lấy từ đã hồn chỉnh và khơng có dữ liệu thiếu sót nên việc tiền xử lý dữ liệu khơng có.
<b>2.2 Bài tốn 1: Dự đoán các yếu tổ rủi ro ( gian lận hoặc không gian lận ) ảnh hưởng tới công ty.</b>
<b>1.Quy trình thực hiện:</b>
Bước 1: Chọn dữ liệu từ File Audit_Data.csv và đặt cột “Risk” làm Target. Bước 2: Dùng 3 phương pháp: Neural Network, SVM, Logistic Regression để đánh giá hiệu quả của các phương pháp.
Bước 3: Dựa vào Ma trận nhầm lần được tạo từ 3 phương pháp và AUC của các phương pháp để chọn ra phương pháp tốt nhất để dự báo.
Bước 4: Dùng phương pháp đó để dự báo cho File “Dự báo”.
Mơ hình bài tốn:
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><b>2.Đánh giá & Kết quả thực hiện Kết quả thực hiện Test & Score</b>
Ma trận nhầm lẫn
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Kết quả dự báo
Đánh giá mơ hình dựa trên kết quả Confusion Matrix Theo ma trận nhầm lẫn :
Sai lầm loại 2 : Dự báo rủi ro là 0 nhưng thực tế rủi ro là 1 Sai lầm loại 2 của phương pháp Logistic Regression =5 là nhỏ nhất • Kết luận : Sử dụng phương pháp Logistic Regression để dự báo.
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18"><b>2.3 BÀI TOÁN 2: BÀI TOÁN PHÂN CỤM CÔNG TY GIAN LẬN, DỰA TRÊN RỦI RO KIrM TOÁN (PHÂN CỤM DỮ LIÊsU)</b>
<b> 1. Quy trình thực hiê sn:</b>
B1: Chọn dữ liê qu file audit_data.xlsx , không chọn Target B2: Dùng phương pháp k-Means phân cụm dữ liê qu
B3: Minh họa các cụm đối tượng các công ty gian lận bằng Sihouette Plot và Scatter Plot
Mơ hình bài toán
<b>2.Đánh giá và kết quả </b>
Kết quả chạy bằng K-Means : Chạy k-Means từ 2 đến 8 cụm,chọn phân cụm 2 tương ứng với đỉm Sihouette Plot cao nhất là 0.948
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19"><b>- Kết quả & đánh giá</b>
Kết quả K-Means
Minh họa kết quả phân cụm: Minh họa Sihouette Plot
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><b>2.4 BÀI TOÁN 3 : BÀI TOÁN PHÁT HIỆN CÁC CÔNG TY GIAN LẬN DỰA VÀO LƯỢC ĐỒ HAY CƠNG CỤ THỐNG KÊ</b>
<b>1.Quy trình thực hiện:</b>
B1: Chọn dữ liê qu file audit data.xlsx , chọn cột “Risk” làm Target
B2: Dùng phương pháp Logistic Regresstion để lọc các dữ liệu thành các nhóm B3: Dùng PivotTable để nhận sự khác biệt giữa 2 nhóm dữ liệu này
<b>2.Kết quả và đánh giá</b>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">Kết quả đánh giá phương pháp của Test & Score
Đánh giá mơ hình dựa trên kết quả Confusion Matrix:
• Tỷ lệ sai lầm loại 1 và loại 2 của PP cây quyết định nhỏ nhất. Các sai lầm đều dưới 10%.
• Kết luận: Chọn “Logistic Regression” là phương pháp được dùng để phân loại
file audit_data.xlsx
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">Sự khác nhau giữa các rủi ro của các kiểm toán và rủi ro bị phát hiện
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23"><b>CHƯƠNG III: KẾT LUẬN</b>
Trong thời đại thông tin ngày ngày nay việc kiểm tra cũng như quản lí về những chỉ số của doanh nghiệp như doanh thu, chi phí, hàng tồn kho,.... là một vấn đề vô cùng to lớn .Để có thể dự đốn cơng ty, doanh nghiệp đó có hoạt động tốt hay khơng thì người ta dựa trên những chứng từ, bút toán ghi nhận để phân loại rủi ro của doanh nghiệp, xem xét về mức độ trung thực không gian lận trong doanh nghiệp.
Nghiên cứu này để giúp kiểm tốn viên xây dựng mơ hình phân loại có thể dự đốn cơng ty gian lận trên cơ sở các yếu tố rủi ro hiện tại và lịch sử được cung cấp công khai và phi thương mại. Nghiên cứu này giúp ta hiểu quy trình phân tích rủi ro kiểm tốn của công ty bằng cách nào và đề xuất khuôn khổ ra quyết định để đánh giá rủi ro của doanh nghiệp. Từ đó giúp doanh nghiệp có thể triển khai thuật tốn Tối ưu hóa bầy đàn (PSO) để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá và Phân loại kiểm tốn rủi ro của các các cơng ty.
Slide đào tạo môn Khoa học dữ liệu_UEH
</div>