ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀO NHẬN DẠNG CÁC GIAO DỊCH
RỬA TIỀN TRONG NGÂN HÀNG
Cao Đăng Khoa
Trường Đại học Công Nghệ Thông Tin, DHQG-HCM
TÓM TẮT: Việc ứng dụng khai phá dữ liệu vào các lĩnh vực kinh tế tài chính ngày càng đóng vai
trò quan trọng. Ngân hàng là một lĩnh vực có lượng thông tin lưu trữ khổng lồ và chứa đựng nhiều
thông tin tiềm ẩn quý giá. Phát hiện các giao dịch rửa tiền trong các giao dịch chuyển tiền là một trong
những thông tin quý giá có thể khai thác từ nguồn dữ liệu đó. Bài báo này sẽ tìm hiểu các hướng tiếp
cận bài toán phát hiện rửa tiền và giới thiệu hướng tiếp cận gom cụm dữ liệu (một kỹ thuật của phương
pháp khai phá dữ liệu) đối với dữ liệu giao dịch chuyển tiền của ngân hàng. Bài báo này so sánh mức
độ tối ưu của các thuật toán và đề xuất dùng thuật toán CLOPE vào bài toán phát hiện rửa tiền ở Việt
Nam.
Từ khóa: Khai phá dữ liệu, rửa tiền, giao dịch chuyển tiền.
1. GIỚI THIỆU
Năm 2006, Ngân hàng Thế giới (World Bank) đã
đưa ra cảnh báo: Việt Nam đang trở thành mục tiêu
của hoạt động rửa tiền vì hệ thống thanh tra, giám
sát, hệ thống kế toán và tìm hiểu khách hàng của các
ngân hàng còn kém phát triển; mức độ sử dụng tiền
mặt và các luồng chuyển tiền không chính thức khá
lớn khiến cho việc kiểm soát các giao dịch, thanh
toán trở nên khó khăn[11]. Trong các bước của một
quy trình rửa tiền phổ biến thì ngân hàng đóng một
vai trò quan trọng trong việc hợp thức hóa lượng tiền
bẩn. Do đó, việc có một cơ chế tự động để trợ giúp
trong việc nhận dạng các giao dịch có dấu hiệu rửa
tiền là yêu cầu cấp thiết cho bài toán chống rửa tiền
của toàn thế giới nói chung và của Việt Nam nói
riêng. Bài viết này sẽ đi vào tìm hiểu các mô hình
chống rửa tiền đã có, ứng dụng các kiến thức về các
công cụ rút trích tri thức từ dữ liệu nhằm kết hợp tốc
độ xử lý của máy vi tính với khả năng phân tích của
con người hình thành một hệ thống hữu hiệu để nhận
dạng các giao dịch rửa tiền. Do mức độ tinh vi của
các hoạt động rửa tiền và lượng dữ liệu giao dịch
khổng lồ đang gia tăng hằng ngày của ngân hàng, thì
giải pháp cho bài toán nhận dạng giao dịch rửa tiền
cần phải đáp ứng được sự cân bằng giữa tính chính
xác và thời gian xử lý. Chính vì nguyên nhân trên
mà việc lựa chọn thuật toán phù hợp với dữ liệu
cũng là một mấu chốt quan trọng để ứng dụng giải
pháp đó vào thực tế, trong các phần tiếp theo bài viết
sẽ đề xuất thuật toán CLOPE sẽ được sử dụng cho
trường hợp dữ liệu giao dịch chuyển tiền. Mục tiêu
cuối cùng của bài viết là đưa ra một hướng tiếp cận
hoàn chỉnh từ phương pháp thực hiện, dữ liệu và
thuật toán phù hợp cho bài toán nhận dạng rửa tiền
đối với trường hợp các ngân hàng ở Việt Nam.
2. CƠ SỞ LÝ THUYẾT
2.1. Các hướng tiếp cận với dữ liệu
Theo kết quả tham khảo từ nghiên cứu của
thạc sĩ Linard Moll về các mô hình tiếp cận với dữ
liệu tùy thuộc vào thông tin lưu trữ của ngân hàng
thì có 4 hướng tiếp cận như sau:
a. Tiếp cận có giám sát trên dữ liệu đã gán nhãn
(Supervised approaches on labeled data) : Phương
pháp tiếp cận này yêu cầu phải có sẵn một tập dữ
liệu huấn luyện (training data) đã được đánh giá và
gán nhãn. Sau đó ứng dụng một trong các kỹ thuật:
khai phá dữ liệu, hệ chuyên gia (expert system), mô
hình thống kê v.v… trên tập dữ liệu huấn luyện . [3]
Hướng tiếp cận này phù hợp với các ngân hàng có
kinh nghiệm về chống rửa tiền tốt.
b. Tiếp cận hỗn hợp với dữ liệu đã gán nhãn (Hybrid
approaches with labeled data) : Đối với hướng tiếp
cận dữ liệu này thì yêu cầu về mặt dữ liệu tương tự
như hướng tiếp cận “Supervised approaches on
labeled data” điểm khác nhau là ở hướng tiếp cận
này yêu cầu sử dụng kết hợp nhiều phương pháp
khác nhau để tăng mức độ chính xác cho phương
pháp [3]. Hướng tiếp cận này không những yêu cầu
ngân hàng phải có kinh nghiệm chống rửa tiền tốt
mà còn yêu cầu mức độ đầu tư cho hệ thống chống
rửa tiền phải cao.
c. Tiếp cận nửa giám sát dựa trên dữ liệu có gán nhãn
hợp lệ (Semi-supervised approached with only legal
(nonfraud) data): Phương pháp tiếp cận này có điểm
đặc biệt là tập huấn luyện chỉ bao gồm các giao dịch
hợp lệ [3]. Các giao dịch mới thêm vào sẽ được đánh
giá là bị nghi ngờ nếu hành vi của giao dịch đó
không phù hợp với tập huấn luyện. Hướng tiếp cận
này chủ yếu dành cho các ngân hàng đang bước đầu
tiếp cận với việc chống rửa tiền và chưa có kinh
nghiệm nhiều trong việc phân loại các hình thức rửa
tiền khác nhau.
d. Tiếp cận không giám sát (Unsupervised approaches):
Phương pháp tiếp cận này dành cho trường hợp
không có tập huấn luyện [3]. Đặc biệt thích hợp cho
các ngân hàng chưa từng áp dụng qua bất kỳ phương
pháp chống rửa tiền nào.
Theo khảo sát tại một ngân hàng lớn tại Việt
Nam thì các mô hình yêu cầu có tập huấn luyện
không phù hợp với tình hình của Việt Nam do các
ngân hàng ở Việt Nam chưa có tập dữ liệu huấn
luyện. Do đó có thể đề xuất hướng “tiếp cận không
giám sát” để giải quyết bài toán nhận dạng rửa tiền ở
Việt Nam.
2.2. Khảo sát các quy trình rửa tiền
2.2.1. Tổng quan về rửa tiền
Theo nghị định số 74/2005/NĐ-CP về phòng,
chống rửa tiền của chính phủ Việt Nam thì rửa tiền
được định nghĩa như sau: “Rửa tiền là hành vi của
cá nhân, tổ chức tìm cách hợp pháp hoá tiền, tài sản
do phạm tội mà có thông qua các hoạt động cụ thể
sau đây:
a) Tham gia trực tiếp hoặc gián tiếp vào một
giao dịch liên quan đến tiền, tài sản do phạm tội mà
có;
b) Thu nhận, chiếm giữ, chuyển dịch, chuyển
đổi, chuyển nhượng, vận chuyển, sử dụng, vận
chuyển qua biên giới tiền, tài sản do phạm tội mà có;
c) Đầu tư vào một dự án, một công trình, góp
vốn vào một doanh nghiệp hoặc tìm cách khác che
đậy, nguỵ trang hoặc cản trở việc xác minh nguồn
gốc, bản chất thật sự hoặc vị trí, quá trình di chuyển
hoặc quyền sở hữu đối với tiền, tài sản do phạm tội
mà có”[11]
Việc rửa tiền thường được tiến hành theo một
chu trình, cơ bản bao gồm 3 giai đoạn: phân phối,
dàn trải, hội nhập.
- Giai đoạn phân phối (placement): Phân phối
nguồn tiền từ các hoạt động phi pháp vào các ngân
hàng có quy chế lỏng lẻo. Thông thường lượng tiền
sẽ được phân chia nhỏ hơn mức cảnh báo của ngân
hàng. [11]
- Giai đoạn dàn trải (layering): Trong giai
đoạn này tiền bẩn sẽ được luân chuyển qua nhiều
ngân hàng hoặc qua nhiều tài khoản khác nhau.
Thực chất đây là quy trình tạo ra một chuỗi các giao
dịch nhằm mục đích che đậy các nguồn tiền từ các
hoạt động phi pháp và làm cho chúng ngày càng xa
nguồn gốc ban đầu. [11]
- Giai đoạn hội nhập (integration): Tiền được
đầu tư vào những hoạt động kinh doanh hợp pháp.
[14]
2.2.2. Quy trình rửa tiền tổng quát
Hình 1: Quy trình rửa tiền tổng quát
Mức độ tinh vi của hành vi rửa tiền phụ thuộc
vào chuỗi quy trình được thực hiện để cắt đứt mối
liên hệ giữa lượng tiền bẩn và nguồn gốc ban đầu
của nó. Điều này gây khó khăn cho các biện pháp
nhận dạng rửa tiền trong bước này. Tuy nhiên theo
nhận định của bài viết này thì đây là giai đoạn mấu
chốt để thiết lập các hệ thống nhận dạng rửa tiền tự
động. Theo khảo sát tại một ngân hàng lớn tại Việt
Nam thì từ các quy trình phổ biến của việc rửa tiền
tại giai đoạn layering trên thực tế, có thể phân chia
nhỏ thành các quy trình cơ bản hơn. Điểm đặc biệt
cuả các quy trình cơ bản này là nó mang tính chất
đặc trưng cho một số ít các giao dịch đáng ngờ.
Các tài khoản thực hiện chuỗi giao dịch có điểm
tương đồng với các quy trình cơ bản này sẽ được
liệt kê vào nhóm các giao dịch đáng ngờ. Điều này
khiến cho việc lần theo mối quan hệ giữa các tài
khoản thực hiện giao dịch đáng ngờ sẽ dễ dàng
hơn và nhanh hơn. Các quy trình cơ bản có cấu
trúc như sau:
Hình 2: Các quy trình rửa tiền căn bản
Vấn đề của bài toán chống rửa tiền sau khi
phân tích cho tới thời điểm này của bài viết là bài
toán xác định các tài khoản mang tính chất nghi
ngờ rửa tiền thay vì tìm kiếm các giao dịch rửa tiền
một cách trực tiếp. Phương pháp này có ưu điểm là
giới hạn quy mô tìm kiếm các giao dịch rửa tiền
trên các tài khoản có dấu hiệu đáng ngờ.
2.3. Mô hình dữ liệu học
Dữ liệu chuyển tiền của ngân hàng khảo sát
lưu trữ bao gồm các thuộc tính cần thiết sau:
Tài khoản người gửi
Tài khoản người nhận
Số tiền giao dịch
Loại tiền giao dịch
Thời gian giao dịch
Các thuộc tính trên cho thấy thông tin chi tiết
của từng giao dịch chuyển tiền. Khi xét tại một
thời điểm có thể vẽ được sơ đồ thể hiện mối quan
hệ giữa các tài khoản.
Hình 3: Đồ thị hóa giao dịch chuyển tiền
Tuy nhiên để xét xem tài khoản có thuộc
dạng đáng nghi ngờ hay không phải kiểm tra thông
tin tổng hợp từ các giao dịch của tài khoản đó
trong một khoản thời gian. Do đó bài viết này đề
xuất một tập dữ liệu mới sẽ được thống kê từ tập
dữ liệu chuyển tiền. Tập dữ liệu mới này sẽ thể
hiện được hành vi đặc trưng của tài khoản trong
khoảng thời gian xác định trước. Tập dữ liệu mới
có các thuộc tính như sau :
Bảng 1: danh sách thuộc tính mới
Danh sách thuộc tính Ý nghĩa thuộc tính
Tài khoản Tài khoản giao dịch
Tổng tiển gửi Tổng lượng tiền gửi đi
Tổng tiền nhận Tổng lượng tiền nhận
Số lần gửi Số lần gửi tiền của tài
khoản
Số lần nhận Số lần nhận tiền của tài
khoản
Số quan hệ nhận tiền Số lượng tài khoản gửi
tiền vào tài khoản này
Số quan hệ gửi tiền Số lượng tài khoản nhận
tiền từ tài khoản này
| R_S | | tổng thu – tổng nhận |
Từ các thuộc tính trên có thể thấy rằng từ
giao dịch chuyển tiền của từng cặp tài khoản đã
chuyển thành thông tin dữ liệu giao dịch của từng
tài khoản. Dữ liệu giao dịch thể hiện sự đặc trưng
về hành vi ứng với từng tài khoản. Phần tiếp theo
bài viết sẽ trình bày thuật toán phù hợp cho loại dữ
liệu giao dịch trên.
2.4. Giới thiệu thuật toán CLOPE
Thuật toán CLOPE được phát triển bởi tập
thể tác giả Yiling Yang, Xudong Guan, Jinyuan
You. Đây là thuật toán cho kỹ thuật gom cụm, và
đối tượng gom cụm của thuật toán này là các biến
định danh (giá trị kiểu chuỗi). Ý tưởng của thuật
toán xuất phát từ nhận thức rằng việc gom nhóm
các đối tượng dữ liệu kiểu định danh ngày càng
phổ biến. Ngoài ra việc ứng dụng khai phá dữ liệu
vào các đối tượng dữ liệu trên thực tế gặp nhiều
khó khăn vì dữ liệu trên thực tế thường đa chiều
(chứa nhiều thông tin thuộc tính khác nhau). Các
tác giả của thuật toán CLOPE đã chỉ ra gom cụm
hướng tiếp cận theo khoảng cách giữa các đối
tượng không phù hợp với dữ liệu về tài chính [2]
hay cụ thể trong trường hợp của bài toán rửa tiền
là dữ liệu về giao dịch. Mặt khác thuật toán định
nghĩa một hàm tiêu chuẩn toàn cục (global citerion
function) để làm tiêu chuẩn đánh giá mức độ tối ưu
của phương pháp gom cụm. Có thể hiểu một cách
đơn giản rằng mỗi thuật toán gom cụm đều đưa ra
một hàm tiêu chuẩn. Các phương pháp gom cụm
sẽ tối ưu hóa dựa trên hàm tiêu chuẩn này. Hàm
tiêu chuẩn được chia làm 2 loại: hàm tiêu chuẩn
cục bộ (local criterion function) và hàm tiêu chuẩn
toàn cục (global criterion function). Hàm tiêu
chuẩn toàn cục quy định mức độ tối ưu cho toàn
bộ phương pháp gom cụm trong khi đó hàm tiêu
chuẩn cục bộ sẽ quy định mức độ tương tự giữa
các đối tượng trong cùng một cụm. Do đó việc tính
toán đối với các hàm tiêu chuẩn toàn cục sẽ nhanh
hơn đối với việc tính toán đối với hàm tiêu chuẩn
cục bộ. Việc sử dụng hàm tiêu chuẩn toàn cục làm
tiêu chuẩn đánh giá mức độ tối ưu cũng cho thấy
rằng thuật toán CLOPE phù hợp với các dữ liệu đa
chiều và có số lượng lớn. Thuật toán CLOPE mô
hình hóa các cụm thành các biểu đồ histogram có ý
nghĩa như sau:
Hình 4: Biểu đồ hóa cụm dữ liệu theo CLOPE
- Trục hoành (X) là các phần tử ∈ D(C)
- Trục tung (Y) tần suất xuất hiện của các phần
tử ∈ D(C) trong cụm C.
Cho:
- S(C): số lượng phần tử trong cụm C
- W(C): số lượng phần tử nằm trên trục hoành.
- Occ(i,C) : tần suất xuất hiện của phần tử thứ i
trong cụm C
- Chiều cao H(C): được tính bằng S(C)/W(C)
Hàm tiêu chuẩn của thuật toán CLOPE :
r : Repulsion là một số thực (r > 0). Trong
trường hợp các tham số S(C
i
), |C
i
|, W(C
i
), đã biết
trước và không thay đổi thì có thể khẳng định r
càng lớn thì mức độ trùng lặp của dữ liệu trong
cùng một cụm càng cao hay nói cách khác lợi
nhuận (Profit) của phương pháp gom cụm càng
cao. Ngược lại r càng nhỏ thì các dữ liệu trùng lặp
nhau có thể bị phân chia vào các cụm khác nhau.
Tuy nhiên trên thực tế, quá trình gom cụm của
thuật toán sẽ phải chia các đối tượng vào các cụm
sao cho ứng với r cho trước phương pháp gom cụm
phải có lợi nhuận cao nhất. Điều này còn chứng tỏ
rằng phương pháp phân hoạch thành nhiều cụm
hơn không chắc chắn sẽ tôi ưu hơn.[2]
Hình 5 Sơ đồ luồng xử lý của thuật toán CLOP
3. HIỆN THỰC HỆ THỐNG
Phần này sẽ trình bày về cấu trúc và các bước
xử lý của hệ thống nhận dạng rửa tiền đã được tác
giả bài viết đề cập. Hệ thống nhận dạng giao dịch
rửa tiền khi ứng dụng khai phá dữ liệu sẽ bao gồm
4 bước chính sau đây:
1) Chuyển đổi dữ liệu:
Ở công đoạn này các dữ liệu chuyển tiền của
từng cặp tài khoản sẽ được thống kê thành dữ liệu
giao dịch của từng tài khoản (thể hiện hành vi của
tài khoản).Tâp dữ liệu sau khi chuyển đổi sẽ có số