Tải bản đầy đủ (.pdf) (109 trang)

Nghiên cứu và xây dựng hệ thống phát hiện gian lận giao dịch thời gian thực

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.69 MB, 109 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM

NGUYỄN PHI HÙNG

KHĨA LUẬN TỐT NGHIỆP

NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN
GIAN LẬN GIAO DỊCH THỜI GIAN THỰC
Research And Building System For Real-Time Transaction Fraud
Detection

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

TP. HỒ CHÍ MINH, 2021


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

NGUYỄN PHI HÙNG – 17520068

KHÓA LUẬN TỐT NGHIỆP

NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN
GIAN LẬN GIAO DỊCH THỜI GIAN THỰC
Research And Building System For Real-Time Transaction Fraud


Detection

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

GIẢNG VIÊN HƯỚNG DẪN
TS. HỒNG TRUNG DŨNG
TS. HUỲNH NGỌC TÍN

TP. HỒ CHÍ MINH, 2021


THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
…………………… ngày ………………….. của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.

1. … - Chủ tịch.
2. … - Thư ký.
3. … - Uỷ viên


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA

TRƯỜNG ĐẠI HỌC

VIỆT NAM

CÔNG NGHỆ THÔNG TIN


Độc Lập - Tự Do - Hạnh Phúc
TP. HCM, ngày ….. tháng ….. năm 2021

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)

Tên khóa luận:
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN
GIAO DỊCH THỜI GIAN THỰC
Cán bộ hướng dẫn/phản biện:

Nhóm SV thực hiện:
Nguyễn Phi Hùng

TS. Hồng Trung Dũng

17520068

TS. Huỳnh Ngọc Tín
Đánh giá Khóa luận
1. Về cuốn báo cáo:
Số trang
Số bảng số liệu
Số tài liệu tham khảo

86

Số chương


5

8

Số hình vẽ

26

12

Sản phẩm

1

Một số nhận xét về hình thức cuốn báo cáo:
………..………..………..………..………..………..………..………..………
………..………..………..………..………..………..………..………..………

2. Về nội dung nghiên cứu:


………..………..………..………..………..………..………..………..………….
………..………..………..………..………..………..………..………..………….
3. Về chương trình ứng dụng:
………..………..………..………..………..………..………..………..………….
………..………..………..………..………..………..………..………..………….
4. Về thái độ làm việc của sinh viên:
………..………..………..………..………..………..………..………..………….
………..………..………..………..………..………..………..………..………….
Đánh giá chung:

………..………..………..………..………..………..………..………..………….
………..………..………..………..………..………..………..………..………….
Điểm từng sinh viên:
Nguyễn Phi Hùng: ……. /10

Người nhận xét
(Ký tên và ghi rõ họ tên)

TS. Huỳnh Ngọc Tín


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA

TRƯỜNG ĐẠI HỌC

VIỆT NAM

CÔNG NGHỆ THÔNG TIN

Độc Lập - Tự Do - Hạnh Phúc
TP. HCM, ngày ….. tháng ….. năm 2021

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)

Tên khóa luận:
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG PHÁT HIỆN GIAN LẬN
GIAO DỊCH THỜI GIAN THỰC

Cán bộ hướng dẫn/phản biện:

Nhóm SV thực hiện:
Nguyễn Phi Hùng

TS. Hồng Trung Dũng

17520068

TS. Huỳnh Ngọc Tín
Đánh giá Khóa luận
5. Về cuốn báo cáo:
Số trang
Số bảng số liệu
Số tài liệu tham khảo

86

Số chương

5

8

Số hình vẽ

26

12


Sản phẩm

1

Một số nhận xét về hình thức cuốn báo cáo:
………..………..………..………..………..………..………..………..………
………..………..………..………..………..………..………..………..………

6. Về nội dung nghiên cứu:


………..………..………..………..………..………..………..………..………….
………..………..………..………..………..………..………..………..………….
7. Về chương trình ứng dụng:
………..………..………..………..………..………..………..………..………….
………..………..………..………..………..………..………..………..………….
8. Về thái độ làm việc của sinh viên:
………..………..………..………..………..………..………..………..………….
………..………..………..………..………..………..………..………..………….
Đánh giá chung:
………..………..………..………..………..………..………..………..………….
………..………..………..………..………..………..………..………..………….
Điểm từng sinh viên:
Nguyễn Phi Hùng: ……. /10

Người nhận xét
(Ký tên và ghi rõ họ tên)


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH


CỘNG HỊA XÃ HỘI CHỦ NGHĨA

TRƯỜNG ĐẠI HỌC

VIỆT NAM

CÔNG NGHỆ THÔNG TIN

Độc Lập - Tự Do - Hạnh Phúc

ĐỀ CƯƠNG CHI TIẾT

TÊN ĐỀ TÀI: Nghiên cứu và xây dựng hệ thống phát hiện gian lận giao dịch thời
gian thực
TÊN ĐỀ TÀI TIẾNG ANH: Research And Building System For Real-Time
Transaction Fraud Detection
Cán bộ hướng dẫn: TS.Hồng Trung Dũng, TS.Huỳnh Ngọc Tín
Thời gian thực hiện: Từ ngày 8/03/2021 đến ngày 13/06/2021
Sinh viên thực hiện: Nguyễn Phi Hùng - 17520068
Nội dung đề tài:
- Đặt vấn đề:

Hiện nay, vấn đề gian lận trong giao dịch đang xảy ra ở rất nhiều lĩnh vực
như ngân hàng trực tuyến, thương mại điện tử hay ví điện tử. Những vấn đề này
không chỉ gây tổn thất về mặt doanh thu mà còn để lại những hậu quả lớn, ảnh
hưởng đến độ tin cậy, uy tín của các doanh nghiệp. Tuy nhiên, việc phát hiện một
gian lận như vậy luôn là một thách thức.
Với sự phát triển nhanh chóng của các hình thức giao dịch trực tuyến nói
chung hay thương mại điện tử, thanh tốn điện tử nói riêng, vấn nạn gian lận trong

giao dịch trực tuyến ngày càng trở nên nổi cộm. So với các hình thức giao dịch
truyền thống, giao dịch trực tuyến đang phải đối mặt với khối lượng chuyển tiền
lớn hơn đáng kể. Giải quyết được bài tốn này sẽ giúp doanh nghiệp có thể tiết


kiệm được thời gian và nguồn lực, đồng thời tăng trải nghiệm người dùng cũng
như độ tin cậy, uy tín của doanh nghiệp.
- Thách thức:

Để giải quyết vấn đề này cần phải thu thập và phân tích dữ liệu giao dịch
với khối lượng lớn, địi hỏi phải có một cơ sở dữ liệu mạnh mẽ để lưu trữ và quản
lý ngoại tuyến, trực tuyến. Ngoài ra, phải cần một hệ thống máy tính phân tán quy
mơ lớn để chạy các thuật toán đáp ứng các yêu cầu về độ trễ đối với việc giao
dịch, dự đốn. Mơ hình máy học phải luôn cập nhật hoặc đủ thông minh và tổng
quát để có thể phát hiện được những hình thức gian lận mới.
Trước đây, các phương pháp dựa trên quy tắc đã được nghiên cứu rộng rãi
trong nhiều năm cho vấn đề phát hiện gian lận. Tuy nhiên, các hình thức gian lận
thay đổi nhanh chóng theo thời gian, nên đã làm giảm đáng kể hiệu quả của các
quy tắc này. Mặt khác, hầu hết các phương pháp trước đây khó có thể nắm bắt
được các dạng gian lận phức tạp của các giao dịch trực tuyến hiện nay.
- Mục tiêu:
- Thiết kế luồng thu thập, xử lý và lưu trữ dữ liệu lớn từ nhiều nguồn với cấu
trúc dữ liệu phức tạp.

- Đề xuất phương pháp trích xuất, lưu trữ và tính tốn đặc trưng dữ liệu
trên khối lượng dữ liệu lớn.
- Nghiên cứu và xây dựng hệ thống phát hiện giao dịch gian lận tích hợp
máy học có khả năng huấn luyện dữ liệu quy mô lớn trong thời gian thực.
- Kết quả mong đợi:
- Xây dựng hoàn thiện hệ thống phát hiện giao dịch gian lận trong thời gian

thực.
- Tích hợp được với hệ thống giao dịch của Ví điện tử MoMo để chạy thử
nghiệm.
- Phạm vi:
Nghiên cứu và triển khai, đánh giá trên hệ thống giao dịch Ví điện tử MoMo.
- Đối tượng áp dụng:
Tất cả khách hàng sử dụng Ví điện tử MoMo.
Kế hoạch thực hiện:


Thời gian

Kế hoạch thực hiện

Phân cơng

8/03/2021 -

- Phân tích và nghiên cứu nhu cầu bài
tốn.

Nguyễn Phi

21/03/2021

Hùng

- Tìm hiểu và tham khảo một số hệ thống
lớn có chủ đề liên quan tới bài tốn.
- Tìm hiểu nguồn dữ liệu phù hợp cho bài

toán.
- Nghiên cứu cách thu tập dữ liệu ngoại
tuyến và trực tuyến.
- Tìm hiểu cách triển khai hệ thống dự
đốn trong thời gian thực.
- Tìm hiểu độ đo để đánh giá hệ thống sau
khi hoàn thành.
22/03/2021 11/04/2021

- Nghiên cứu và thiết kế kiến trúc cho hệ
thống.
- Nghiên cứu và thiết kế cơ sở dữ liệu lưu
trữ dữ liệu lớn ngoại tuyến và trực tuyến.

Nguyễn Phi
Hùng

- Xây dựng luồng thu thập, xử lý dữ liệu
ngoại tuyến và trực tuyến.
- Xây dựng luồng trích xuất, lưu trữ và
tính tốn đặc trưng dữ liệu từ nguồn dữ
liệu ngoại tuyến và trực tuyến.
- Chuẩn bị báo cáo tiến độ KLTN giữa
kỳ.
12/04/2021 -

- Đưa ra các phương pháp cải tiến, tối ưu

Nguyễn Phi


2/05/2021

hoá về mặt hệ thống.

Hùng

- Tích hợp hệ thống với mơ hình học máy
để dự đoán theo dữ liệu ngoại tuyến và
trực tuyến.
- Đề xuất các phương án dự phòng khi hệ

Ghi chú


thống có sự cố bất ngờ xảy ra.
- Xây dựng biểu đồ trực quan hoá các chỉ
số trong hệ thống để theo dõi hệ thống.
3/05/2021 23/05/2021

- Triển khai hệ thống lên mơi trường thử
nghiệm.

Nguyễn Phi
Hùng

- Tích hợp hệ thống thử nghiệm với hệ
thống giao dịch của Ví điện tử MoMo.
- Thực hiện kiểm thử và sửa lỗi cho hệ
thống.
24/05/2021 13/06/2021


- Triển khai hệ thống lên môi trường thực
tế.
- Theo dõi, đánh giá hệ thống trên mơi
trường thực tế.

Nguyễn Phi
Hùng

- Hồn thành tài liệu cho đề tài.
TP. HCM, ngày 8 tháng 3 năm 2021
Xác nhận của CBHD

Sinh viên

(Ký tên và ghi rõ họ tên)

(Ký tên và ghi rõ họ tên)

TS. Huỳnh Ngọc Tín

Nguyễn Phi Hùng


LỜI CẢM ƠN
Lời đầu tiên tôi xin được gửi lời cảm ơn tới Tiến sĩ Hồng Trung Dũng, phó
giám đốc trung tâm Công nghệ thông tin, công ty Cổ phần Dịch vụ Di động Trực
tuyến. Anh đã chỉ dẫn tôi và cung cấp các kiến thức mới mà tôi chưa được tiếp cận
khi học tại trường.
Bên cạnh đó, tơi muốn tỏ lòng biết ơn sâu sắc nhất tới Tiến sĩ Huỳnh Ngọc

Tín, khoa Cơng nghệ phần mềm, trường đại học Công Nghệ Thông Tin - ĐH Quốc
Gia TP.HCM, thầy đã tận tình hướng dẫn cho tơi trong suốt thời gian làm khóa luận
tốt nghiệp.
Đồng thời, tơi xin gửi lời cảm ơn tới các anh, chị phịng Trí tuệ nhân tạo và
Dữ liệu lớn, trung tâm Công nghệ thông tin, công ty Cổ phần Dịch vụ Di động Trực
tuyến đã tạo điều kiện về cơ sở vật chất, hỗ trợ tôi thực hiện các tác vụ địi hỏi chi phí
tính tốn cao nhằm phục vụ cho sản phẩm cuối cùng.
Cuối cùng lời cảm ơn trân quý xin được gửi đến những người thân u trong
gia đình đã ln bên cạnh động viên, tạo những điều kiện tốt nhất để hoàn thành khóa
luận này.

TP. Hồ Chí Minh, ngày 13 tháng 6 năm 2021
Nguyễn Phi Hùng


MỤC LỤC

Chương 1.

TỔNG QUAN ĐỀ TÀI ........................................................................ 2

1.1.

Động lực nghiên cứu .................................................................................. 2

1.2.

Mục tiêu đề tài ............................................................................................ 3

1.3.


Đối tượng và phạm vi nghiên cứu .............................................................. 4

1.4.

Nội dung và kế hoạch thực hiện ................................................................. 4

1.5.

Đóng góp khóa luận ................................................................................... 5

1.6.

Bố cục khóa luận ........................................................................................ 6

Chương 2.

CƠ SỞ LÝ THUYẾT ........................................................................... 7

2.1.

Mở đầu........................................................................................................ 7

2.2.

Gian lận trong giao dịch trực tuyến ............................................................ 7

2.2.1.

Định nghĩa ............................................................................................ 7


2.2.2.

Một số kịch bản gian lận giao dịch ...................................................... 7

2.2.2.1.

Lợi dụng người dùng có nhu cầu vay vốn .................................... 7

2.2.2.2.

Giả mạo nhân viên chăm sóc khách hàng ..................................... 8

2.2.2.3.

Chiếm đoạt tài sản của người dùng ............................................... 9

2.2.3.

Phân tích các trường hợp gian lận giao dịch ........................................ 9

2.2.4.

Phân tích cách phát hiện gian lận giao dịch hiện tại .......................... 10

2.3.

Định nghĩa bài toán và các nghiên cứu liên quan ..................................... 12

2.3.1.


Định nghĩa bài toán ............................................................................ 12

2.3.2.

Các nghiên cứu về hệ thống phát hiện gian lận .................................. 12

2.4.

Vấn đề, thách thức và hướng giải quyết của bài toán............................... 16

2.4.1.

Vấn đề, thách thức của bài toán ......................................................... 16


2.4.1.1.

Dữ liệu thời gian thực ................................................................. 17

2.4.1.2.

Nhãn không cân bằng ................................................................. 18

2.4.1.3.

Quy mô và khối lượng dữ liệu lớn .............................................. 19

2.4.1.4.


Hỗ trợ tính tốn phức tạp thời gian thực ..................................... 19

2.4.2.

Hướng giải quyết của đề tài ............................................................... 20

Chương 3.

PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG........................................ 21

3.1.

Mở đầu...................................................................................................... 21

3.2.

Phân tích và thiết kế kiến trúc tổng quan ................................................. 21

3.3.

Mơ đun tích hợp dữ liệu ........................................................................... 23

3.3.1.

Tích hợp dữ liệu batching .................................................................. 23

3.3.2.

Tích hợp dữ liệu streaming ................................................................ 24


3.4.

Mơ đun xử lý dữ liệu ................................................................................ 26

3.4.1.

Xử lý dữ liệu batching ........................................................................ 26

3.4.2.

Xử lý dữ liệu streaming ...................................................................... 28

3.5.

Mô đun lưu trữ dữ liệu ............................................................................. 29

3.5.1.

Bảng Offline Feature Store ................................................................ 31

3.5.2.

Bảng Historical Data .......................................................................... 31

3.6.

Mô đun truy xuất dữ liệu .......................................................................... 32

3.7.


Mô đun trực quan hóa dữ liệu .................................................................. 34

Chương 4.

THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .................................. 36

4.1.

Mở đầu...................................................................................................... 36

4.2.

Tích hợp hệ thống và thực nghiệm ........................................................... 36

4.2.1.

Tích hợp hệ thống............................................................................... 36

4.2.1.1.

Tích hợp tầng service .................................................................. 37


4.2.1.2.
4.2.2.

Dữ liệu thực nghiệm ........................................................................... 40

4.2.2.1.
4.2.3.


Tích hợp tầng dữ liệu .................................................................. 38

Bộ dữ liệu .................................................................................... 40

Các bước thực nghiệm........................................................................ 44

4.3.

Tiến hành thực nghiệm ............................................................................. 44

4.4.

Kết quả ..................................................................................................... 45

4.4.1.

Báo cáo về suất hệ thống .................................................................... 46

4.4.2.

Báo cáo về hiệu quả kinh tế ............................................................... 47

4.5.

Đánh giá ................................................................................................... 48

Chương 5.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................... 50


5.1.

Kết quả đạt được....................................................................................... 50

5.2.

Những thuận lợi và khó khăn trong q trình làm khóa luận ................... 51

5.3.

Hướng phát triển ....................................................................................... 52

PHỤ LỤC ................................................................................................................. 55
Phụ lục 1: Giải thích các khái niệm, service ứng dụng trong đề tài ..................... 55
Khái niệm 1: Dữ liệu lớn .................................................................................. 55
Khái niệm 2: Điện toán đám mây ..................................................................... 57
Khái niệm 3: Thu thập và xử lý dữ liệu lớn với Cloud Pub/Sub và Cloud
Dataflow ........................................................................................................... 59
Khái niệm 4: Xử lý dữ liệu lớn với Cloud Dataflow ........................................ 62
Khái niệm 5: Lưu trữ dữ liệu lớn với Cloud Bigtable và BigQuery ................ 63
Khái niệm 6: Kiến trúc Lamda ......................................................................... 66
Khái niệm 7: Kiến trúc Microservices ............................................................. 68


Khái niệm 8: Tự động hóa triển khai, scale-up và quản lý ứng dụng với
Kubernetes ........................................................................................................ 70
Khái niệm 9: Quy trình tổng hợp, tính tốn dữ liệu ......................................... 75
Phụ lục 2: Bản sao bài báo UIT-RBDML: HỆ THỐNG XỬ LÝ VÀ LƯU TRỮ DỮ
LIỆU LỚN VỚI THỜI GIAN THỰC CHO DỊCH VỤ MÁY HỌC, Hội nghị khoa

học Trẻ & nghiên cứu sinh UIT 2021 ...................................................................... 78


DANH MỤC HÌNH

Hình 2.1 Biểu đồ thống kê các thủ đoạn gian lận giao dịch phổ biến của ĐTLĐ năm
2020. Nguồn: Ví điện tử MoMo. ................................................................................ 9
Hình 2.2 Trạng thái giao dịch tẩu tán tiền không thành công sau khi Ví điện tử MoMo
đã chặn luồng giao dịch của ví bị ATO. Nguồn: Ví điện tử MoMo. ....................... 11
Hình 2.3 Kiến trúc tổng quan hệ thống TitAnt. Nguồn: Ant Financial. ................... 13
Hình 2.4 Kiến trúc tổng quan hệ thống của công ty thương mại điện tử Trung Quốc.
Nguồn: Tech Science Press. ..................................................................................... 15
Hình 2.5 Mơ tả việc sử dụng dữ liệu thời gian thực cho các thuật toán máy học.
Nguồn: towardsdatascience. ..................................................................................... 17
Hình 2.6 Tỷ lệ nhãn huấn luyện khơng cần bằng trong bộ dữ liệu USCD. Nguồn:
libguides. .................................................................................................................. 18
Hình 3.1 Kiến trúc tổng quan hệ thống Sherlock. .................................................... 22
Hình 3.2 DAG thể hiện các bước tích hợp dữ liệu sử dụng Airflow........................ 24
Hình 3.3 Mơ tả việc tích hợp dữ liệu streaming. ...................................................... 25
Hình 3.4 Pipeline tích hợp dữ liệu streaming sử dụng Cloud DataFlow.................. 25
Hình 3.5 Bảng so sánh các tính năng nổi bật giữa Spark và Hadoop MapReduce.
Nguồn: medium. ....................................................................................................... 27
Hình 3.6 DAG thể hiện chi tiết các bước xử lý dữ liệu sử dụng Spark. ................... 28
Hình 3.7 Tổ chức kiến trúc của một ứng dụng Kubernetes. Nguồn: kubernetes.io . 29
Hình 3.8 Mơ tả kiến trúc tổ chức dữ liệu trong Bigtable. Nguồn: Google. .............. 30
Hình 3.9 Mô tả đoạn code kiểm tra thông tin giao dịch của Fraud Check service. . 33
Hình 3.10 Mơ tả đoạn code tính tốn features giao dịch của Aggregate data in realtime
service. ...................................................................................................................... 34
Hình 3.11 Mơ tả một số câu query từ Prometheus để trực quan hoá chỉ số hệ thống
bằng Grafana. ........................................................................................................... 35

Hình 4.1 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận thơng tin giao dịch. ....... 37
Hình 4.2 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận dữ liệu streaming. ......... 38


Hình 4.3 Sơ đồ tuần tự quá trình hệ thống Sherlock nhận dữ liệu batching. ........... 39
Hình 4.4 Biểu đồ tần suất giao dịch/giây được kiểm tra bởi hệ thống Sherlock theo
ngày. ......................................................................................................................... 46
Hình 4.5 Biểu đồ độ trễ phản hồi khi kiểm tra trạng thái của giao dịch bởi hệ thống
Sherlock trên từng giao dịch được đo bằng mili giây. ............................................. 46
Hình 4.6 Biểu đồ tần số phát hiện gian lận theo loại giao dịch. ............................... 47
Hình 4.7 Biểu đồ tần số phát hiện ĐTLĐ lấy cắp tài khoản theo ngày. ................... 47
Hình 4.8 Biểu đồ tần số giao dịch bị phát hiện do ĐTLĐ tạo và tổng giá trị số tiền
được bảo vệ theo ngày. ............................................................................................. 48
Hình 4.9 Bảng chi tiết thể hiện những giao dịch bị phát hiện do ĐTLĐ tạo cao nhất
trong tháng. ............................................................................................................... 48


DANH MỤC BẢNG

Bảng 3.1 Cấu trúc tổ chức bảng sherlock.ato_features trong Bigtable. ................... 31
Bảng 3.2 Cấu trúc tổ chức bảng sherlock. ato_historical_data trong Bigtable. ....... 32
Bảng 4.1 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Lịch sử giao dịch
người dùng................................................................................................................ 41
Bảng 4.2 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Thiết bị người
dùng. ......................................................................................................................... 41
Bảng 4.3 Lược đồ và ý nghĩa của các trường dữ liệu của Bộ dữ liệu Thông tin ngân
hàng liên kết người dùng. ......................................................................................... 42
Bảng 4.4 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Giao dịch. 43
Bảng 4.5 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Thiết bị. .. 43
Bảng 4.6 Cấu trúc và ý nghĩa của các trường dữ liệu chính của Sự kiện Liên kết ngân

hàng. ......................................................................................................................... 43


DANH MỤC TỪ VIẾT TẮT

STT

Từ viết tắt

Diễn giải

1

ATO

Account Takeover – hình thức trộm cắp định danh
giúp kẻ xấu có thể truy cập vào tài khoản người
dùng.

2

GBG

Cơng ty cơng nghệ tồn cầu về gian lận, vị trí và
dữ liệu nhận dạng thông minh.

3

ĐTLĐ


Đối tượng lừa đảo.

4

CMND/CCCD Chứng minh nhân dân/Căn cước cơng dân.

5

OTP

One Time Password – là mật khẩu chỉ có hiệu lực
cho một phiên đăng nhập hoặc giao dịch, trên hệ
thống máy tính hoặc thiết bị kỹ thuật số.

6

GCP

Google Cloud Platform – là một bộ service điện
toán đám mây chạy trên cùng một cơ sở hạ tầng
của được cung cấp bởi Google.

7

ANSI-SQL

Ngôn ngữ tiêu chuẩn để truy cập và quản lý cơ sở
dữ liệu.

8


CNTT

9

CPU

Central Processing Unit – là bộ xử lý trung tâm
của một bộ phận phần cứng.

10

AWS

Amazon Web Services – là một bộ service điện
toán đám mây chạy trên cùng một cơ sở hạ tầng
của được cung cấp bởi Amazon.

11

OLAP

Online Analytical Processing – phương pháp xử
lý truy vấn dữ liệu lớn.

Công nghệ thông tin.


12


ETL

Extract Transform Load – trích xuất, biến đổi, tải
là quy trình chung sao chép dữ liệu từ một hoặc
nhiều nguồn vào một hệ thống.

13

RPS

Requests per second – truy vấn mỗi giây là thước
đo phổ biến về lưu lượng tìm kiếm mà hệ thống
truy xuất thông tin, chẳng hạn như công cụ tìm
kiếm hoặc cơ sở dữ liệu, nhận được trong một
giây.

14

RAM

Là một loại bộ nhớ khả biến cho phép truy xuất
đọc-ghi ngẫu nhiên đến bất kỳ vị trí nào trong bộ
nhớ dựa theo địa chỉ bộ nhớ.

15

DAG

Directed Acyclic Graph – là một đồ thị bao gồm
các đỉnh và các cạnh, với mỗi cạnh hướng từ đỉnh

này sang đỉnh khác, sao cho việc tn theo các
hướng đó sẽ khơng bao giờ tạo thành một vịng
khép kín.

16

RDD

Resilient Distributed Dataset – là tính năng trên
Apache Spark, có thể lưu bản ghi bất biến và được
phân vùng để xử lý dữ liệu một cách nhanh chóng.


DANH MỤC TỪ TIẾNG ANH

STT

Từ viết tắt

Diễn giải

1

Dark

Là hình thức thử nghiệm ngầm trong phạm vi nội
bộ để đánh giá các tác động bổ sung về tải và hiệu
suất lên hệ thống trước khi đưa ra thông báo công
khai về khả năng mới.


Launching

2

Batching

Là việc xử lý dữ liệu sau khi dữ liệu được gom
nhóm thành các lơ (batch) với một số điều kiện
nhất định.

3

Streaming

Là việc xử lý dữ liệu theo luồng, dữ liệu được xử
lý ngay lập tức hoặc trong khoảng thời gian rất
ngắn.

4

Pipeline

Là một đường ống kết nối giữa các q trình bằng
cách truyền dữ liệu thơng qua các hình thức khác
nhau.

5

Features


Là các đặc trưng, thuộc tính riêng rẽ mà ta có thể
xác định và đo đạc được khi quan sát một bộ dữ
liệu nào đó.

6

Features

Là q trình biến đổi dữ liệu thành các features
đóng vai trị là đầu vào cho các mơ hình máy học.

Engineering
7

8

Framework

Là một khái niệm phần mềm trừu tượng, cung cấp
chức năng chung, có thể được thay đổi một cách
chọn lọc bằng mã do người dùng viết bổ sung, do
đó cung cấp phần mềm dành riêng cho ứng dụng.

Microservices Là một kỹ thuật phát triển phần mềm, một biến thể

của kiến trúc hướng dịch vụ cấu trúc một ứng
dụng như một tập hợp các dịch vụ được ghép lỏng
lẻo.
9


Scale-up

Là khái niệm mô tả việc nâng cấp, tăng kích thước
hay mở rộng quy mơ của một ứng dụng.


10

Dashboard

Là một loại giao diện người dùng đồ họa thường
cung cấp cái nhìn nhanh về các chỉ số hiệu suất
chính có liên quan đến một mục tiêu hoặc quy
trình kinh doanh cụ thể.

11

Report

Là tập hợp những thông tin được thực hiện với
mục đích cụ thể nhằm thơng tin chuyển tiếp hoặc
tường trình, kể lại các sự kiện nhất định trong một
hồn cảnh hiện hành và có thể có hoặc khơng
những nội dung kiến nghị, đề xuất.

12

Service

Là dịch vụ cung cấp các tính năng nhằm thỏa mãn

nhu cầu, mong muốn hoặc nguyện vọng của người
dùng kỹ thuật.

13

Production

Là hoạt động chủ yếu trong các hoạt động kinh tế.

14

Historical

Là thuật ngữ chung có liên quan đến các sự kiện
trong quá khứ.

15

Latency

Là độ trễ thời gian giữa nguyên nhân và ảnh
hưởng của một số thay đổi vật lý trong hệ thống
đang được quan sát.

16

Pod

Là đối tượng nhỏ nhất và đơn giản nhất của
Kubernetes.


17

Master node

Là thành phần quản lý toàn bộ ứng dụng
Kubernetes.

18

Worker node

Là thành phần khởi chạy các ứng dụng trực tiếp
trên Kubernetes.


MỞ ĐẦU

Hiện nay, vấn đề gian lận trong giao dịch đang xảy ra ở rất nhiều lĩnh vực như
ngân hàng trực tuyến, thương mại điện tử hay ví điện tử. Những vấn đề này không
chỉ gây tổn thất về mặt doanh thu mà còn để lại những hậu quả lớn ảnh hưởng đến độ
tin cậy, uy tín của các doanh nghiệp. Tuy nhiên, việc phát hiện một gian lận như vậy
luôn là một thách thức. Với sự phát triển nhanh chóng của các hình thức giao dịch
trực tuyến nói chung hay thương mại điện tử, thanh tốn điện tử nói riêng, vấn nạn
gian lận trong giao dịch trực tuyến ngày càng trở nên nổi cộm. So với các hình thức
giao dịch truyền thống, giao dịch trực tuyến đang phải đối mặt với khối lượng chuyển
tiền lớn hơn đáng kể. Giải quyết được bài tốn này sẽ giúp doanh nghiệp có thể tiết
kiệm được thời gian và nguồn lực, đồng thời tăng trải nghiệm người dùng cũng như
độ tin cậy, uy tín của doanh nghiệp. Để giải quyết vấn đề này, đầu tiên trong khóa
luận tơi thu thập và phân tích dữ liệu giao dịch với khối lượng lớn. Bên cạnh đó, tơi

nghiên cứu hệ thống cơ sở dữ liệu và máy tính phân tán quy mơ lớn, phù hợp để chạy
các thuật toán cần thiết và đáp ứng các yêu cầu về độ trễ đối với việc giao dịch, dự
đoán gian lận trực tuyến. Bước tiếp theo, tơi phân tích dữ liệu và tìm ra các phương
pháp trích xuất và lưu trữ đặc trưng của dữ liệu giao dịch trực tuyến. Cuối cùng, tôi
thực hiện việc triển khai xây dựng một hệ thống xử lý dữ liệu lớn trong thời gian thực,
tích hợp triển khai mơ hình dự đốn trực tuyến có độ trễ thấp, đáp ứng độ chính xác
cao cho giao dịch trực tuyến. Để chứng minh sự hiệu quả, tơi tích hợp hệ thống đã
xây dựng hệ thống với hệ thống giao dịch của Ví điện tử MoMo, chạy thử nghiệm
theo phương pháp Dark Launching trong khoảng thời gian nhất định nhằm phát hiện
giao dịch gian lận trực tuyến.

1


Chương 1. TỔNG QUAN ĐỀ TÀI
1.1.

Động lực nghiên cứu
Hiện nay, theo số liệu của GBG khu vực châu Á – Thái Bình Dương
[1], có rất nhiều rủi ro gian lận ở khu vực châu Á – Thái Bình Dương trong
thời gian xảy ra đại dịch Covid-19, các dịch vụ ngân hàng bán lẻ kỹ thuật số
đang có nhu cầu tăng cao, từ ví điện tử, cho vay điện tử, kỹ thuật số, cho đến
ứng dụng thẻ tín dụng kỹ thuật số. Khả năng phát hiện những hành vi gian lận
phức tạp và việc nhận dạng bị lạm dụng trong thanh toán, lừa đảo khối lượng
lớn… đang trở nên ngày càng cấp bách. Những vấn đề này không chỉ gây tổn
thất về mặt doanh thu mà còn để lại những hậu quả lớn ảnh hưởng đến độ tin
cậy, uy tín của các doanh nghiệp. Việc tăng cường ứng dụng công nghệ cao,
có giải pháp tổng thể, phịng thủ nhiều lớp từ phát hiện, phản ứng, dự đoán,
ngăn chặn các gian lận trong giao dịch trực tuyến là rất cần thiết cho bất kỳ
một thế thống giao dịch nào.


Trước đây, các phương pháp dựa trên quy tắc đã được nghiên cứu
rộng rãi trong nhiều năm cho vấn đề phát hiện gian lận [2]. Tuy nhiên, các
hình thức gian lận thay đổi nhanh chóng theo thời gian, làm giảm đáng kể
hiệu quả của các quy tắc này. Sau đó, nhiều phương pháp dựa trên khai thác
dữ liệu đã được nghiên cứu [3]. Hầu hết các phương pháp này hiện nay khó
có thể nắm bắt được các dạng gian lận phức tạp của giao dịch trực tuyến. Các
bài toán đã được triển khai trước đây đa số đều gặp những vấn đề chung về
đặc điểm dữ liệu.
Việc phát hiện giao dịch gian lận có thể giải quyết bằng cách truy xuất
và phân tích lịch sử giao dịch trong quá khứ nhưng việc này sẽ phần nào đó sẽ
làm ảnh hưởng nhiều tới trải nghiệm của người dùng, khơng mang tính tức
thời. Phát hiện gian lận trong thời gian thực là nhiệm vụ phát hiện giao dịch
trong khoản thời gian ngắn, nói đúng hơn là ngay tức thì tại thời điểm phát
sinh giao dịch với khả năng phát hiện nhanh và duy trì được độ chính xác ở

2


×