Tải bản đầy đủ (.pdf) (19 trang)

NGHIÊN CỨU PHÁT HIỆN GIAN LẬN TRONG VIỄN THÔNG SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (281.28 KB, 19 trang )

1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN MINH THU

NGHIÊN CỨU PHÁT HIỆN GIAN LẬN
TRONG VIỄN THÔNG SỬ DỤNG KỸ THUẬT
KHAI PHÁ DỮ LIỆU
CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
Mã số: 60.48.15
Người hướng dẫn khoa học: PGS.TS Trần Đình Quế
TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2011


2

MỞ ĐẦU
Ngành công nghiệp viễn thông là một ngành kinh tế quan trọng
của các quốc gia. Trong những năm vừa qua ngành công nghiệp viễn
thông nước ta đã có những bước phát triển nhanh chóng, cho đến
nay, viễn thông Việt Nam đã có thể "sánh vai" với các nước phát
triển trên thế giới cả về công nghệ, mật độ điện thoại, giá cước...và
đã trở thành một trong những ngành phát triển nhanh và năng động
nhất. [1]. Cùng với sự phát triển của công nghệ và các loại hình dịch
vụ thì gian lận viễn thông cũng gia tăng đang kể mỗi năm và là
nguồn chủ yếu gây thất thoát doanh thu cho ngành công nghiệp viễn
thông. Gian lận xuất hiện trong nhiều lĩnh vực của viễn thông, từ


gian lận ở các giao dịch Internet, gian lận với các dịch vụ thoại VoIP
hay gian lận trên dịch vụ thoại thông thường, rồi gian lận trong các
dịch vụ giá trị gia tăng… [6].
Theo Hiệp hội Truyền thông kiểm soát gian lận (the
Communications Fraud Control Association) Khảo sát tổn thất gian
lận toàn cầu năm 2009, Gian lận trên toàn thế giới được ước tính là
khoảng 72 tỷ-80 tỷ hàng năm (khoảng 4,5% doanh thu viễn
thông)[7].Việc phát hiện gian lận viễn thông đã là chủ đề quan tâm
nghiên cứu và phát triển ứng dụng mạnh mẽ hiện nay. Phát hiện gian
lận được hiểu là xác định gian lận một cách nhanh nhất khi nó xảy
ra. Hiện nay không có phương pháp phát hiện gian lận nào là hoàn


3
hảo bởi các kĩ thuật gian lận luôn luôn được đổi mới và khi phương
pháp phát hiện gian lận được biết đến thì những kẻ gian lận sẽ sửa
những chiến lược và thử một kiểu gian lận mới [4].
Thị trường viễn thông Việt nam đã và đang phát triển mạnh với
nhiều nhà cung cấp, các cuộc chạy đua tranh giành thị trường và
thống lĩnh thị trường của các nhà cung cấp cho ra đời nhiều chương
trình khuyến mại và các gói cước khuyến mại khác nhau. Doanh thu
dịch vụ thoại dần dần được chia sẻ cho doanh thu của các loại hình
dịch vụ giá trị gia tăng, các dịch vụ nội dung… Cũng từ đây gian lận
viễn thông lại có nhiều cơ hội để thực hiện hành vi của mình, từ các
kiểu gian lận truyền thống đến các kiểu gian lận lợi dụng chương
trình khuyến mại để trục lợi ngày càng tinh vi hơn. Phát hiện gian lận
nhanh chóng và kịp thời trở thành một nhiệm vụ vô cùng quan trọng
và cấp bách của các nhà cung cấp dịch vụ viễn thông.
Các phương pháp phát hiện gian lận trong các doanh nghiệp viễn
thông tại Việt nam hiện nay chủ yếu dựa trên các báo cáo thống kê,

so sánh . Việc phát hiện theo cách này có nhiều hạn chế, chỉ có thể
theo dõi được một khía cạnh rất nhỏ của các hành vi gian lận. Hơn
nữa việc phát hiện thường chậm và khả năng xử lý trên diện rộng là
rất khó khăn.
Khai phá dữ liệu được dự đoán là "một trong những phát triển
mang tính cách mạng nhất trong những thập kỷ tới", theo tạp chí
công nghệ trực tuyến ZDNet News (ngày 08 tháng hai 2001) Khai
phá dữ liệu có thể được ứng dụng trong nhiều ngành công nghiệp.
Các công ty viễn thông và các công ty thẻ tín dụng là hai trong số các


4
công ty hành đầu trong việc áp dụng khai thác dữ liệu để phát hiện
gian lận sử dụng dịch vụ của họ. Các công ty bảo hiểm và thị trường
chứng khoán cũng quan tâm trong việc áp dụng công nghệ này để
giảm gian lận [8].
Từ những lý do và xu hướng công nghệ trên Luận văn chọn đề tài
“Nghiên cứu phát hiện gian lận trong viễn thông dựa trên kỹ thuật
khai phá dữ liệu”.
Mục tiêu nghiên cứu:
Tìm hiểu vấn đề gian lận trong viễn thông, các loại gian lận,
các phương pháp phát hiện gian lận và đi sâu vào nghiên cứu phương
pháp sử dụng kĩ thuật khai phá dữ liệu để phát hiện các hành vi gian
lận một cách tự động dựa trên dấu hiệu bất thường so với dữ liệu quá
khứ.
Đối tượng và phạm vi nghiên cứu của đề tài


Các loại gian lận và một số phương pháp phát hiện gian lận




Kĩ thuật Khai phá dữ liệu



Nghiên cứu bài toán cụ thể với dịch vụ thoại di động và kĩ
thuật khai phá dữ liệu trên thông tin chi tiết cuộc gọi sử dụng
thuật toán K-Means để phát hiện hành vi gian lận

Phương pháp nghiên cứu


Nghiên cứu thực tiễn công tác phòng chống kinh doanh gian
lận trên mạng thông tin di động MobiFone



Nghiên cứu các tài liệu, bài báo trong và ngoài nước có liên
quan đến sử dụng kĩ thuật khai phá dữ liệu để phát hiện gian
lận trong mạng viễn thông



Sau đó tiến hành cài đặt và thử nghiệm.


5
Bố cục của đề tài: Căn cứ mục tiêu và yêu cầu nghiên cứu, đề tài
được xây dựng gồm các phần sau:

Phần mở đầu: Giới thiệu chung về đề tài
Chương 1: Tổng quan về gian lận viễn thông và phòng chống gian
lận viễn thông
Chương 2: Kiến thức về khai phá dữ liệu
Chương 3: Bài toán
Kết luận
Hướng nghiên cứu tiếp theo
Tài liệu tham khảo


6
Chương 1
TỔNG QUAN VỀ GIAN LẬN VIỄN THÔNG VÀ PHÒNG
CHỐNG GIAN LẬN TRONG MẠNG VIỄN THÔNG
Chương 1 giới thiệu chung về gian lận viễn thông, và phòng
chống gian lận trong mạng viễn thông. Trong chương này cũng sẽ
giới thiệu chi tiết một số loại gian lận viễn thông phổ biến nhất,
phân loại các phương pháp phòng chống giân lận, cũng như tình
hình gian lận viễn thông và phòng chống gian lận viễn thông trên thế
giới và Việt Nam hiện nay.
1.1
1.1.1

GIAN LẬN VIỄN THÔNG
Định nghĩa gian lận viễn thông
Phần này giới thiệu những định nghĩa khác nhau về gian lận

viễn thông và phân biệt khái niệm gian lận viễn thông với khái niệm
nợ khó đòi (bad debt)
Gian lận viễn thông là hành vi ăn trộm dịch vụ viễn thông hoặc sử

dụng các dịch vụ viễn thông để tạo thành các hình thức gian lận khác
[10].
Một cách tổng quát nhất gian lận có thể được định nghĩa là:
“Bất kỳ hành vi nào sử dụng mạng của nhà cung cấp dịch vụ mà
không có ý định thanh toán”. Không có ý định thanh toán ở đây có
thể là không thanh toán hoàn toàn, hoặc có thanh toán nhưng thanh
toán không đúng chi phí cần phải trả hay là một ai đó khác sẽ phải
thanh toán cho phần chi phí phát sinh [9].
Sự khác biệt giữa nợ khó đòi và gian lận có thể được định
nghĩa là: "Gian lận và nợ khó đòi đều là những người sử dụng mạng


7
không thực hiện thanh toán cho dịch vụ sử dụng. Gian lận luôn bao
gồm một sự dối trá, và không có ý định trả tiền có liên quan. Nợ khó
đòi chỉ đơn giản là những người bình thường không có tiền để chi trả
cho các dịch vụ sử dụng "[8].
1.1.2

Lịch sử gian lận viễn thông
Giới thiệu lịch sử gian lận viễn thông và các hình thức gian lân

qua từng giai đoạn phát triển của mạng viễn thông.
Gian lận viễn thông xuất hiện từ cuối năm 1980. Từ những hình
thức gian lận thay đổi định dang “Tumbling” trong các mạng tương
tự, đến các hình thức gian lận sao chép thuê bao trong GSM. Và khi
loại hình dịch vụ, công nghệ phát triển mạng phát triển thì các hình
thức và loại gian lận ngày càng gia tăng. Hiện nay 3G là thị trường
mới cho các kẻ gian lận hướng tới. Các loai hình gian lận ngày càng
phong phú, đa đạng, các phương pháp phát hiện gian lận cũng phải

đổi mới và chi phí cho phòng chống và phát hiện gian lận ngày càng
tốn kém.
1.1.3

Các loại gian lận viễn thông

Phần này giới thiệu các loại gian lận viễn thông phổ biến:


Gian lận thuê bao (Subscription Fraud)



Gian lận sao chép cuộc gọi



Gian lận dịch vụ giá cao



Gian lận sử dụng mạng khách



Gian lận với dịch vụ trả trước



Gian lận với thuê bao cố định


1.1.4

Tình hình gian lận viễn thông

Phần này mô tả tình hình gian lận viễn thông trên thế giới và tại Việt
Nam.


8
Theo báo cáo của CFCA (Communications Fraud Control
Association) trong tóm tắt thất thoát Gian lận toàn thế giới năm
2009 thì mỗi năm gian lận toàn thế giới gây thất thoát khoảng 72 đến
80 tỷ đô la Mỹ, xấp xỉ bằng 4.5% doanh thu viễn thông. Ba loại gian
lận gây thất thoát lớn nhất:


Gian lận thuê bao/Ăn trộm định danh: 22 tỷ $



Các hệ thống Voice Mail/PBX: 15 tỷ $



Gian lận các dịch vụ giá cao: 4.5 tỷ $

Trong báo cáo cũng đưa ra thông tin 5 quốc gia có tình hình gian
lận nghiêm trọng nhất: Cuba, Philippines, Liechtenstein, India,
United Kingdom.

1.2

PHÒNG CHỐNG VÀ PHÁT HIỆN GIAN LẬN TRONG
MẠNG VIỄN THÔNG

1.2.1

Định nghĩa
Phòng chống gian lận là các biện pháp tránh gian lận xuất hiện

ngay từ đầu. Ngược lại phát hiện gian lận là xác định gian lận nhanh
nhất có thể khi gian lận đã xảy ra.
1.2.2

Tình hình phòng chống và phát hiện gian lận viễn thông
Nội dung này trình bày tình hình phòng chống và phát hiện

gian lận viễn thông trên thế giới nói chung và tại Việt Nam nói riêng.
Hiện nay công tác phòng chống, phát hiện gian lận đã được các
quốc gia trên thế giới đầu tư nghiên cứu mạnh mẽ nhiều nước đã đưa
ra cả chiến lược cho việc phòng chống, phát hiện gian lận. Tuy nhiên
phần lớn vẫn là tập trung cho việc Phát hiện gian lận trong mạng di
động điển hình là dự án tại Châu Âu ASPeCT (Advance Security for
Personal Communications Technologies) (Shawe-Taylor, Howker &
Burge, 1999; Shawe-Taylor et al., 2000; Burge & Shawe-Taylor,


9
2001). Công cụ phát hiện gian lận ASPeCT sử dụng hệ thống dựa
trên các luật (rule) để xác định một số loại gian lận và mạng nơron để

giải quyết những ngữ cảnh hay thể hiện bất thường.
Tại Việt nam công tác phòng chống và phát hiện gian lận đã
được lưu tâm tuy nhiên chưa nhiều. Một số nhà mạng nhỏ như
EVNTelecom,Sfone hầu như không có việc kiểm soát gian lận. Với
những nhà mạng lớn như VMS, Viettel thì công tác này chỉ dừng lại
ở mức báo cáo thống kê so sánh hay dựa trên những dấu hiệu sử
dụng bất thường để phát hiện gian lận.
1.2.3 Phương pháp phát hiện gian lận
Nội dung này đề cập đến một số kỹ thuật sử dụng trong phát
hiện gian lận như: mô hình thống kê, học máy, khai phá dữ liệu.
Phân biệt hai phương pháp phát hiện gian lận có giám sát và không
có giám sát.
Các phương pháp có giám sát là những phương pháp mà các
mẫu của cả hành vi gian lận và bình thường được sử dụng để xây
dựng các mô hình cho phép hệ thống có thể gán những quan sát mới
tới một trong hai lớp đó.
Các phương pháp không giám sát chỉ đơn giản là tìm kiếm
những những quan sát mà không giống so với chuẩn.
1.3 Kết luận chương
Chương mở đầu đã giới thiệu những kiến thức cơ bản nhất về
gian lận viễn thông, các loại gian lận viễn thông, các phương pháp
phòng chống gian lận và tình hình phòng chống gian lận viễn thông
trên thế giới và Việt nam hiện nay. Cùng với sự gia tăng của các loại
hình dịch vụ thì gian lận cũng ngày càng gia tăng. Phát hiện gian lận
và phòng chống gian lận trở thành nhiệm vụ hàng đầu của các nhà
cung cấp dịch vụ viễn thông. Trong các chương tiếp theo ta sẽ đi tìm


10
hiểu chung về kĩ thuật khai phá dữ liệu và đi sâu tìm hiểu kĩ thuật

phân cụm cho phát hiện gian lận trong viễn thông
Chương 2
KIẾN THỨC VỀ KHAI PHÁ DỮ LIỆU
Chương này sẽ giới thiệu tổng quan về kĩ thuật khai phá dữ liệu
, các phương pháp tiếp cận, qui trình khai phá dữ liệu và đi sâu tìm
hiểu kỹ thuật phân cụm dữ liệu; phân cụm dữ liệu sử dụng thuật toán
K_Means.
2.1
2.1.1

KIẾN THỨC CHUNG VỀ KHAI PHÁ DỮ LIỆU
Giới thiệu chung
Giới thiệu về vai trò, xu hướng phát triển, ứng dụng của khai

phá dữ liệu. Khai thác dữ liệu được dự đoán là "một trong những
phát triển mang tính cách mạng nhất của thập kỷ tiếp theo "
2.1.2

Định nghĩa khai phá dữ liệu
Nội dung này trình bày định nghĩa về khai phá dữ liệu. Khai

phá dữ liệu là quá trình tìm kiếm những thông tin (tri thức) có
ích, tiềm ẩn và mang tính dự đoán trong các khối cơ sở dữ liệu lớn.
2.1.3

Quá trình khai phá dữ liệu
Phần này trình bày các bước của quá trình khai phá dữ liệu

chuẩn: Xác định nhiệm vụ, xác định dữ liệu liên quan, thu thâp dữ
liệu, mô hình hóa và Đánh giá.

2.1.4

Các hướng tiếp cận và kỹ thuật áp dụng
Mô tả các hướng tiếp cận trong khai phá dữ liệu: phân lớp,

phân cụm, khai phá các luật…


11
2.1.5

Phương pháp khai phá dữ liệu
Giới thiệu chung về các phương pháp khai phá dữ liệu: Phân

nhóm, phân cụm, luật kết hợp, mạng nơron, cây quyết định, giải
thuật di truyền…
2.1.6

Lựa chọn giải thuật khai phá
Trình bày tiêu chuẩn nào trong việc quyết định sử dụng phương

pháp khai phá dữ liệu nào vào trong trường hợp nào thì hiệu quả.
2.2

TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

2.2.1

Khái niệm về phân cụm dữ liệu
Trình bày định nghĩa về phân cụm dữ liệu. Phân cụm dữ liệu


là quá trình nhóm một tập các đối tượng tương tự nhau trong tập
dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một
cụm là tương đồng, còn các đối tượng thuộc các cụm khác nhau sẽ
không tương đồng [11] .
2.2.2

Các kĩ thuật tiếp cận trong phân cụm dữ liệu
Phần này trình bày kiến thức chung nhất về các kỹ thuật trong

phân cụm dữ liệu:
 Phân cụm phân cấp (Hierarchical clustering algorithm )
 Phân cụm phân hoạch (Partition clustering algorithm )
 Phân cụm dựa trên quang phổ (Spectral clustering algorithm)


Phân cụm dựa trên lưới (Grid based clustering algorithm )

 Phân loại dựa trên mật độ (Density based clustering algorithm)
2.3

THUẬT TOÁN K_MEANS CHO PHÂN CỤM DỮ LIỆU
Phần này giới thiệu và mô tả thuật toán K-Means và các ứng

dụng của thuật toán K_Means.


12
2.3.1


Giới thiệu chung
Phần này giới thiệu chung về thuật toán, phát biểu thuật toán
2.3.2
Khoảng cách Euclidean
Nội dung trình bày khái niệm khoảng cách Euclidean, các tính
khoảng cách Euclidean từ các điểm đến các phần tử trung tâm của
các cụm.
2.3.3

Phần tử trung tâm
Phần này giới thiệu về cách tính phần tử trung tâm của mỗi

cụm.
2.3.4

Thuật toán
Phần nội dung này trình bày các bước thực hiện của thuật toán

2.3.5

Ứng dụng
Phần này trình bày ứng dụng của kỹ thuật phân cụm nói chung
và ứng dụng của thuật toán K-Means nói riêng.
2.4

Kết luận chương
Chương 2 đã giới thiệu những kiến thức cơ bản nhất về khai

phá dữ liệu và đi sâu tìm hiểu về kĩ thuật phân cụm, thuật toán KMeans trong phân cụm dữ liệu. Dưới đây sẽ tìm hiểu ứng dụng KMeans để phát hiện gian lận trong viễn thông.



13
Chương 3
BÀI TOÁN
Chương 3 sẽ giới thiệu về bài toán, phạm vi yêu cầu và cài
đặt thuật toán KMeams cho bài toán. Chương cũng giới thiệu cách
phân tích kết quả phân cụm để kiểm tra dấu hiệu gian lận của thuê
bao.
3.1

GIỚI THIỆU

3.1.1

Lý do chọn và phạm vi bài toán
Phần này trình bày lý do chọn và phạm vi bài toán xét trong

luận văn. Trong luận văn này xét phạm vi bài toán dịch vụ giá cao và
các dịch vụ giá trị gia tăng.
Các dịch vụ giá cao trong mạng viễn thông chúng ta thường quan
tâm như:
 Dịch vụ 1900


Dịch vụ 108



Dịch vụ Nội dung (CP)


Xem xét các trường trong cơ sở dữ liệu gồm có những thông tin
như:


Số cuộc 1900



Số tiền tiêu dùng dịch vụ 1900



Số cuộc SMS thường



Số tiền tiêu dùng dịch vụ SMS thường



Số tin sử dụng dịch vụ của CP



Số tiền sử dụng dịch vụ của CP



Số cuộc 108



14


Số tiền sử dụng dịch vụ 108



Số cuộc thoại thường



Số tiền sử dụng dịch vụ thoại thường

Trong phạm vi của luận văn chúng ta sẽ xét tới hai dịch vụ là:
+ Dịch vụ 1900
+ Dịch vụ CP
3.1.2

Phát biểu bài toán

Nội dung phát biểu bài toán. Cho một cơ sở dữ liệu thuê bao sử
dụng dịch vụ 1900, và các dịch vụ giá trị gia tăng. Mỗi một bản ghi
gồm có các thông tin :


Số thuê bao




Số cuộc 1900



Số tiền sử dụng dịch vụ 1900



Số tin nhắn sử dụng dịch vụ GTGT

 Số tiền sử dụng dịch vụ GTGT
Phân cụm thuê bao sử dụng dịch vụ trên thành k nhóm (K nhập từ
bàn phím).Phân tích kết quả phân cụm sẽ cho thấy được dấu hiệu
hành vi sử dụng gian lận của người sử dụng.
3.2
3.2.1

MÔ TẢ PHƯƠNG PHÁP
Tiến trình phát hiện gian lận sử dụng khai phá dữ liệu

Trong phần này sẽ giới thiệu các bước trong quá trình phát hiện gian
lận sử dụng kỹ thuật khai phá dữ liệu
3.2.2

Cài đặt chương trình
Trong phần này sẽ giới thiệu mô tả chung về các lớp cài đặt

trong chương trình trên ngôn ngữ JAVA, cơ sở dữ liệu Oracle 9i.



15
Nội dung cũng sẽ giới thiệu một số giao diện kết quả cài đặt khi chạy
chương trình.
3.2.3

Phân tích kêt quả cài đặt
Nội dung này sẽ trình bày cách phân tích kết quả cài đặt và cho

ra kết luận về dấu hiệu gian lận của hành vi sử dụng dịch của khách
hàng.
3.3

MÃ CÀI ĐẶT
Phần này là phần mã cài đặt của các lớp.

3.4

ĐÁNH GIÁ KẾT QUẢ CÀI ĐẶT

Phần này đánh giá ưu nhược điểm của thuật toán xét với kết quả cài
đặt của thuật toán.
3.5

Kết luận chương
Chương đã mô tả bài toán, cài đặt thuật toán K-Means trên

nguồn cơ sở dữ liêụ thực tế và đã phân tích sử dụng kết quả cài đặt
cho việc phát hiện gian lận với hành vi sử dụng dịch vụ giá trị giá
cao của khách hàng.



16
KẾT LUẬN
Đề tài đã đạt được một số kết quả chính như sau:


Nghiên cứu vấn đề gian lận viễn thông, phòng chống gian
lận viễn thông, tìm hiểu tình hình phòng chống gian lận viễn
thông trên thế giới và Việt Nam. Qua quá trình nghiên cứu
tìm hiểu Luận văn thấy rằng gian lận viên thông hiện nay là
một hiện tượng rất phổ biến. Công tác phòng chống gian lận
trong viễn thông là một trong các vấn đề cần lưu tâm hàng
đầu của các nhà cung cấp dịch vụ hiện nay và đã trở thành
chủ đề được nghiên cứu và phát triển ứng dụng mạnh mẽ
hiện nay trên thế giới. Tại Việt nam Công tác phòng chống
kinh doanh gian lận trong viễn thông đã được quan tâm
nghiên cứu tuy nhiên chưa nhiều, chủ yếu dựa trên các báo
cáo thống kê so sánh để phát hiện gian lận…



Tìm hiểu các phương pháp phát hiện gian lận: Hiện nay có
nhiều phương pháp phát hiện gian lận, các kỹ thuật thường
được sử dụng như: học máy, khai phá dữ liệu, … hay dựa
trên mô hình thống kê như: sử dụng luật Bayesian, tiểu sử
người sử dụng…. Trong phạm vi nghiên cứu Luận văn đi sâu
tìm hiểu phương pháp phát hiện gian lận không có giám sát
sử dụng kỹ thuật khai phá dữ liệu.




Khai phá dữ liệu là một trong những kĩ thuật đã được ứng
ứng dụng rộng rãi trong nhiều lĩnh vực nói chung và trong
phát hiện gian lận nói riêng. Luận văn đã tìm hiểu những
kiến thức chung nhất về khai phá dữ liệu và đi sâu vào tìm
hiểu kĩ thuật phân cụm, và thuật toán được sử dụng nhiều
trong phân cụm dữ liệu là K-Means.


17


Luận văn cũng đã tiến hành cài đặt thuật toán K-Means để
phát hiện gian lận trong viễn thông dựa trên việc khảo sát
các nguồn dữ liệu tiêu dùng các dịch vụ giá cao 1900 từ
nguồn dữ liệu thực tế của Mobifone.



Dựa trên kết quả cài đặt và phân cụm, Luận văn cũng thực
hiện phân tích kết quả và bước đầu phát hiện ra dấu hiệu
gian lận với bài toán tiêu dùng các dịch vụ giá cao. Với
những nội dung và kết quả đạt được Luận văn cũng cho thấy
rằng sử dụng khai phá dữ liệu trong phát hiện gian lận là một
hướng mới, có triển vọng và có thể tiếp tục nghiên cứu để
áp dụng vào thực tế.
HƯỚNG NGHIÊN CỨU TIẾP THEO




Triển khai, áp dụng phương pháp phát hiện gian lận đã được
nghiên cứu vào thực tế: mạng Mobifone…, góp phần tích
cực trong công tác phòng chống kinh doanh gian lận tại
VMS nói riêng và Việt nam nói chung.



Nghiên cứu các thuật toán và các phương pháp khác nhau để
phân tích kết quả phân cụm: Thuật toán liên quan đến sử
dụng tiểu sử hành vi người sử dụng…



So sánh các thuật toán, phương pháp khác nhau,tìm ra
phương pháp hiệu quả nhất cho việc phát hiện gian lận trong
viên thông để có thể sử dụng vào thực tế.


18
TÀI LIỆU THAM KHẢO
[1]

truy nhập ngày 10/5/2011.

[2]

P Burge, J Shawe-Taylor, C Cooke, Y Moreau, B Preneel, C
Stoermann (2002), Fraud Detection and management in
mobile telecommunications networks .


[3]

Gary M. Weiss (2004), Data mining in Telecommunications

[4]

Constantinos S. Hilas, John N. Sahalo (2009),

User

Profiling for Fraud Detection in Telecommunication
Networks .
[5]

Clifton Phua, Vincent Lee, Kate Smith& Ross GayLer
(2010) , A Comprehensive Survey of Data Mining-based
Fraud Detection Research.

[6]

/>
truy

nhập

ngày

10/5/2011
[7]


CFCA (2009), Global Fraud Loss survey 2009

[8]

Bülent Kuşaksızoğlu (2006), Fraud detection in mobile
network using data mining.

[9]

Peter Hoath (2008), Fraud Overview.

[10]

/>truy nhập ngày 10/5/2011

[11]

truy nhập ngày
10/6/2011.

[12]

K. Ravichandra Rao (2003), Data mining and clustering
techniques


19
[13]

/>hnologies/palace/datamining.htm, truy nhập ngày 10/6/2011.


[14]

/>
truy

nhập ngày 15/6/2011.
[15]

/>m, truy nhập ngày 15/6/2011.

[16]

/>truy nhập ngày 10/6/2011.

[17]

Francis R.bach & Michaeld I.Jordan (2003), Leaning
Spectral Clustering.

[18]

truy nhập ngày 15/6/2011

[19]

/>html/index. html, truy nhập ngày 10/6/2011

[20]


, truy nhập
ngày 15/6/2011

[21]

R. J. Bolton and D. J Hand, “Statistical fraud detection: a
review,” Statistical Science, vol.17, no.3, pp. 235–255, 2002.



×