Tải bản đầy đủ (.pdf) (70 trang)

Xây dựng hệ thống dự đoán thuê bao rời mạng của mobifone dựa vào mạng nơ ron

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 70 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------

TRẦN THANH GIẢNG

XÂY DỰNG HỆ THỐNG DỰ ĐOÁN
THUÊ BAO RỜI MẠNG CỦA MOBIFONE
DỰA VÀO MẠNG NƠ RON

LUẬN VĂN THẠC SĨ KỸ THUẬT

TP. HỒ CHÍ MINH – NĂM 2016



HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------

TRẦN THANH GIẢNG

XÂY DỰNG HỆ THỐNG DỰ ĐOÁN
THUÊ BAO RỜI MẠNG CỦA MOBIFONE
DỰA VÀO MẠNG NƠ RON
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 60.48.01.04


LUẬN VĂN THẠC SĨ KỸ THUẬT

NGƢỜI HƢỚNG DẪN KHOA HỌC:
PGS.TS. DƢƠNG TUẤN ANH

TP. HỒ CHÍ MINH – NĂM 2016

TP. HỒ CHÍ MINH – NĂM 2015


i


LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả trình bày trong luận văn là trung thực và chƣa từng đƣợc
ai công bố trong bất kỳ công trình nào khác.
Tp. HCM, 20 tháng 06 năm 2016
Học viên thực hiện luận văn

Trần Thanh Giảng


ii


LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Dƣơng Tuấn Anh đã hƣớng
dẫn nhiệt tình, tận tâm trong suốt quá trình giúp tôi thực hiện luận văn này. Thầy đã
giúp cho tôi định hƣớng, phƣơng pháp nghiên cứu, các tài liệu bổ ích và đặt biệt là
kinh nghiệm quý giá.
Tôi xin chân thành cảm ơn Học Viện Công Nghệ Bƣu Chính Viễn Thông đã
tạo điều kiện và đặc biệt gửi lời cám ơn sâu sắc tới các Thầy, các Cô đã tận tụy
hƣớng dẫn, giúp đỡ và truyền dạy những kiến thức quý báu, bổ ích cho trong suốt
khóa học, để tôi áp dụng vào công việc trong lĩnh vực công nghệ thông tin, cũng
nhƣ hoàn thành luận văn này.

Cảm ơn các bạn học viên của lớp Cao học Hệ thống thông tin 2014-2016 đã
gắn bó, đoàn kết cùng nhau chia sẻ những kinh nghiệm, và giúp đỡ tôi trong quá
trình học tập cũng nhƣ trong suốt quá trình thực hiện luận văn.
Tp. HCM, 20 tháng 06 năm 2016
Học viên thực hiện luận văn

Trần Thanh Giảng


iii

MỤC LỤC


LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................... vi
DANH SÁCH HÌNH VẼ ......................................................................................... vii
DANH SÁCH BẢNG ............................................................................................. viii
MỞ ĐẦU .....................................................................................................................1
CHƢƠNG 1 - TỔNG QUAN .....................................................................................3
1.1

Tổng quan vấn đề cần nghiên cứu...................................................................3


1.2

Lý do chọn đề tài .............................................................................................4

1.3

Những kết quả đạt đƣợc của luận văn .............................................................5

CHƢƠNG 2 - CƠ SỞ LÝ LUẬN ...............................................................................6
2.1


Giới thiệu về khai phá dữ liệu (Data Mining) .................................................6

2.1.1

Khai phá dữ liệu là gì? ...............................................................................6

Hình 2.1: Các bƣớc trong Data Mining & KDD ([6]) ...............................................7
2.1.2

Mô hình khai phá dữ liệu ...........................................................................8

Hình 2.2: Mô hình khai phá dữ liệu ...........................................................................8

2.1.3

Các kỹ thuật khai phá dữ liệu .....................................................................9

2.1.3.1

Phân lớp ..................................................................................................9

2.1.3.2

Phân cụm...............................................................................................10


2.1.3.3

Luật kết hợp ..........................................................................................10

2.1.3.4

Mẫu tuần tự ...........................................................................................10

2.1.3.5

Hồi quy .................................................................................................11


2.1.4

Ứng dụng của khai phá dữ liệu ................................................................11


iv
2.2

Giới thiệu về mạng Nơ ron ...........................................................................12
Mạng nơron là gì? ....................................................................................12

2.2.1

2.2.1.1

Nơ ron sinh học và nơ ron nhân tạo ......................................................12

2.2.1.2

Mạng nơ ron nhân tạo là gi? .................................................................13

2.2.1.3

Các kiểu mô hình mạng nơ ron .............................................................14


Hình 2.4: Mô hình mạng tự kết hợp ..........................................................................14
Hình 2.5: Mô hình mạngkết hợp kháckiểu ...............................................................14
Hình 2.6: Mô hình mạng truyềnthẳng .......................................................................15
Hình 2.7: Mô hình mạng phảnhồi ..............................................................................15
2.2.2

Mạng nơ ron đa lớp truyền thẳng .............................................................16

2.2.3

Thuật toán mạng perceptron nhiều lớp ....................................................17


2.3

Lựa chọn đặc trƣng (feature selection) .........................................................24

2.4

Giới thiệu bài toán thuê bao rời mạng...........................................................27

2.5

Mô hình xây dựng hệ thống dự đoán thuê bao rời mạng ..............................27


2.6

Kết luận chƣơng 2 .........................................................................................29

CHƢƠNG 3 – KHẢO SÁT DỮ LIỆU THUÊ BAO CỦA MOBIFONE................30
3.1

Mục tiêu chƣơng ...........................................................................................30

3.2

Khảo sát dữ liệu thuê bao của MobiFone......................................................30


3.2.1

Tổng quan về hệ thống dữ liệu thuê bao của MobiFone ..........................30

3.2.2

Cấu trúc lƣu trữ dữ liệu thuê bao của Mobifone ......................................31

3.2.3

Các bảng biểu và trƣờng dữ liệu thuê bao của Mobifone ........................32


3.2.4

Các tiến trình thu thập – tổng hợp – lƣu trữ dữ liệu.................................35

3.3

Phát biểu bài toán ..........................................................................................36

3.4

Kết luận chƣơng 3 .........................................................................................36


CHƢƠNG 4 - HIỆN THỰC, ĐÁNH GIÁ, KẾT LUẬN VÀ CÁC HƢỚNG
NGHIÊN CỨU TRONG TƢƠNG LAI ....................................................................37
4.1

Phƣơng pháp giải quyết vấn đề .....................................................................37


v
4.2

Giới thiệu phần mềm SPSS ...........................................................................38


4.2.1

Giới thiệu phần mềm SPSS ......................................................................38

4.2.2

Các phiên bản của SPSS ..........................................................................38

4.2.3

Chức năng chính của SPSS ......................................................................39


4.2.4

Một số ứng dụng chính của SPSS ............................................................39

4.3

Các bƣớc xây dựng mô hình dự đoán thuê bao rời mạng .............................40

4.3.1

Tiền xử lý dữ liệu .....................................................................................40


4.3.2

Đƣa dữ liệu đầu vào vào cơ sở dữ liệu của phần mềm SPSS ..................43

4.3.3

Rút trích dữ liệu huấn luyện .....................................................................44

4.3.4

Tạo mô hình dự đoán ...............................................................................45


4.3.5

Kiểm tra mô hình vừa tạo - biên tập dữ liệu sau khi kiểm tra.................50

4.3.6

Đánh giá mô hình .....................................................................................53

4.3.7

Hoàn thành kết quả ...................................................................................53


4.4

Kết quả huấn luyện với tập thuê bao đầu vào quá khứ .................................54

Bảng 4.2: Kết quả huấn luyện mạng Nơ ron lần 1 ....................................................54
Bảng 4.3: Kết quả huấn luyện mạng Nơ ron lần 2 ....................................................55
4.5

Kết quả kiểm thử với tập thuê bao hiện tại ...................................................55

Bảng 4.4: Kết quả kiểm thử mô hình phân lớp .........................................................55

4.6

Hƣớng nghiên cứu tƣơng lai .........................................................................56

4.7

Kết luận chƣơng 4 .........................................................................................56

KẾT LUẬN VÀ KIẾN NGHỊ...................................................................................58
DANH MỤC TÀI LIỆU THAM KHẢO ..................................................................59



vi

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Viết tắt

Tiếng Anh

SPSS

Statistical


Tiếng Việt
Product

and Phần mềm SPSS

Services Solutions
CDR

Call Detail Recording

Chi tiết cuộc gọi


Mạng Nơ ron

Neuron Network

Mạng Nơ ron

KPDL

Data Mining

Khai phá dữ liệu


MLP

MultiLayer Perceptron

Mạng Nơ ron đa lớp truyền thẳng

CSDL

Database

Cơ sở dữ liệu



vii
DANH SÁCH HÌNH VẼ
Hình 2.1: Các bƣớc trong Data Mining & KDD ([6]) ...............................................7
Hình 2.2: Mô hình khai phá dữ liệu ...........................................................................8
Hình 2.3: Mô hình mạng Nơ ron nhân tạo ...............................................................12
Hình 2.4: Mô hình mạng tự kết hợp ..........................................................................14
Hình 2.5: Mô hình mạngkết hợp kháckiểu ...............................................................14
Hình 2.6: Mô hình mạng truyềnthẳng .......................................................................15
Hình 2.7: Mô hình mạng phảnhồi ..............................................................................15
Hình 2.8: Mô hình mạng MLP tổng quát ..................................................................16
Hình 2.10: Mô hình xây dựng hệ thống dự đoán thuê bao rời mạng ([3])................28

Hình 3.1: Cấu trúc cơ sở dữ liệu thuê bao của Mobifone ........................................32
Hình 4.1

Sơ đồ tiến trình của phƣơng pháp dự đoán thuê bao rời mạng ...............37

Hình 4.2: Sản phẩm SPSS của IBM hỗ trợ phân tích số liệu Big Data ....................38
Hình 4.3: Một giao diện phần mềm SPSS của IBM .................................................39
Hình 4.4: Đƣa dữ liệu đầu vào vào phần mềm SPSS...............................................44
Hình 4.5: Định dạng các trƣờng dữ liệu đầu vào .....................................................44
Hình 4.6: Feature Selection (lựa chọn thuộc tính) ....................................................45
Hình 4.7: Partition (phân nhóm dữ liệu huấn luyện) ................................................46
Hình 4.9: Lựa chọn các thông số mạng nơ ron lần 1 ................................................47

Hình 4.10: Kết quả thực nghiệm sử dụng mạng nơ ron lần 1 ...................................48
Hình 4.11: Kết quả chi tiết về độ chính xác sử dụng mạng Nơ ron lần 1 ................48
Hình 4.12: Kết quả chi tiết theo số bản ghi của mạng Nơ ron lần 1 ........................49
Hình 4.13: Cấu hình mạng Nơ ron kết quả lần 1 (để biên tập dữ liệu) .....................49
Hình 4.14: Kết quả chi tiết theo từng bản ghi ...........................................................50
Hình 4.15: Kết quả chi tiết theo từng bản ghi ...........................................................51
Hình 4.16: Kết quả chi tiết về độ chính xác sử dụng mạng Nơ ron lần 2 ................52


viii
Hình 4.17: Cấu hình mạng Nơ ron kết quả lần 2 (để dự đoán) .................................52
Hình 4.18: Kết quả chi tiết theo từng bản ghi mạng nơ ron lần 2 .............................53

Hình 4.19: Hoàn thành kết quả ................................................................................54

DANH SÁCHBẢNG

Bảng4.1: Các trƣờng thông tin đầu vào ....................................................................41
Bảng 4.2: Kết quả huấn luyện mang Nơ ron lần 1 ....................................................54
Bảng 4.3: Kết quả huấn luyện mạng Nơ ron lần 2 ....................................................55
Bảng 4.4: Kết quả chạy thử .......................................................................................55


1


MỞ ĐẦU

Nền kinh tế của thế giới đã chuyển qua giai đoạn kinh tế tri thức, trong đó thông
tin đóng một vai trò quan trọng. Tất cả các thông tin khách hàng, thông tin giao
dịch… đều đƣợc số hóa và lƣu trữ trong các hệ thống thông tin của các công ty và
tổ chức. Thông tin đƣợc chiết lọc ra từ các dữ liệu trên đóng một vai trò quan trọng
trong việc các lãnh đạo đƣa ra các hoạch định chiến lƣợc của tổ chức, hay đơn giản
chỉ là những điều chỉnh chuyên môn nghiệp vụ sao cho đạt hiệu quả hơn.
Dữ liệu từ các hoạt động kinh tế đƣợc lƣu trữ ngày một phong phú, đa dạng về
nội dung, hình thức và đầy đủ về mặt dung lƣợng. Đó cũng là một ƣu thế cho việc
chiết lọc, khai phá các dữ liệu thô để đƣa ra các thông tin hữu ích, nhƣng cũng là
một thách thức lớn đặt ra: làm thế nào để xử lý dữ liệu lớn, phức tạp nhƣ vậy, hay

sự phong phú của dữ liệu về nội dung và hình thức cũng khiến chúng ta bối rối
trong việc quyết định bỏ loại dữ liệu gì, lấy dữ liệu gì.
Ngành viễn thông không dây (cùng với điện thoại di động không dây) ra đời
những năm đầu của thập niên 90 thế kỷ 20 đã mở ra một cuộc cách mạng mạnh mẽ
trong việc liên lạc nói riêng, và cách thức chúng ta giao tiếp, truyền thông nói
chung. Và thực sự từ năm 2000 đến nay, với sự tiến bộ rất nhanh của thiết bị mạng
viễn thông cho phép truyền dữ liệu với tốt độ cao hơn; tiến bộ về công nghệ thông
tin và sản xuất các thiết bị điện thoại di động cho phép ngƣời ta có thể làm rất nhiều
thứ trên điện thoại di động thay vì chỉ có nhắn tin và gọi điện đơn thuần.
Sự phát triển của ngành viễn thông, công nghệ thông tin (gọi chung là ngành
ICT) đã mở ra một cuộc cạnh tranh khốc liệt giữa các nhà sản xuất thiết bị di động



2
cầm tay – smartphone; giữa các nhà cung cấp dịch vụ thông tin di động. Mỗi nhà
mạng đều có những chiến lƣợc để: phát triển giành giật khách hàng, cung cấp các
dịch vụ tốt hấp dẫn và đặc biệt là giữ khách hàng.
Một trong những yếu tố quan trọng để giữ khách hàng là cần biết đặc tính của tất
cả các khách hàng (thuộc tính), ví dụ khách hàng thuộc độ tuổi nào, giới tính, thói
quen sử dụng dịch vụ (sử dụng cƣớc bao nhiêu, thƣờng sử dụng dịch vụ gì…). Từ
những thuộc tính đó còn cần phải xem lại trong dữ liệu lịch sử khách hàng là khách
hàng nào đã rời mạng. Từ đó có thể rút ra đƣợc những kết luận về tính chất của
khách hàng đã rời mạng trong quá khứ, tính chất này đƣợc cụ thể hóa bằng mô hình
dự đoán thuê bao rời mạng. Khi biết đƣợc thuê bao nào rời mạng thì các nhà mạng

có thể có những tác động đến khách hàng để hạn chế các thuê bao đó rời mạng.


3

CHƢƠNG 1 - TỔNG QUAN

1.1Tổng quan vấn đề cần nghiên cứu
Từ khi mạng điện thoại không dây ra đời, khách hàng sử dụng một số thuê bao
để liên lạc thì thói quen sử dụng dịch vụ của họ cũng mang tính cá nhân, do đó việc
nghiên cứu thói quen sử dụng dịch vụ càng đƣợc các công ty viễn thông chú trọng
hơn. Hiện nay, trên thế giới có rất nhiều công trình để giải quyết bài toán dự đoán

thuê bao rời mạng điện thoại di động không dây. Hầu hết các công trình đều sử
dụng công nghệ khai phá dữ liệu khai phá dữ liệu là “cây quyết định” (Decision
Tree), hoặc “kỹ thuật mạng nơ ron” (Neural Network Techniques).
Dựa vào nghiên cứu thị trƣờng (Berson, Smith & Thearling, năm 2000) [2], tỉ lệ
rời mạng của công ty điện thoại di động là khoảng 2% mỗi tháng. Nhƣ vậy mỗi năm
là khoảng 25% (một phần tƣ). Trong khi đó, tỉ lệ rời mạng ở châu Á là khoảng 48%
(theo nghiên cứu của Mattersion, 2001). Nghiên cứu này chỉ rõ, việc tiên đoán các
thuê bao rời mạng cũng là một phần quan trọng của công tác quản lý quan hệ khách
hàng (CRM - Customer Relationship Management).
Tại châu Á, bài báo “Applying data mining to telecom churn management” của
các tác giả tại Đài Loan (Shin-Yuan Hung, David C. Yen, Hsiu-Yu Wang, năm
2006) đã đề ra mô hình tiên đoán thuê bao rời mạng dựa vào thông tin tổng quan

của khách hàng, thông tin tính cƣớc, trạng thái hợp đồng dịch vụ, chi tiết cuộc gọi
và lịch sử thay đổi dịch vụ của khách hàng [3].
Trong bài báo “A Neural Network based Approach for Predicting Customer
Churn in Cellular Network Services” [4] của đồng tác giả Anuj Sharma và Kumar
Panigrahi tại Viện quản lý công nghệ Ấn Độ năm 2011 cũng chỉ rõ việc sử dụng kỹ
thuật mạng nơ ron là một cách tiếp cận cơ bản trong việc dự đoán khách hàng di
động rời mạng. Bài báo cũng chỉ rõ, tỉ lệ dự đoán đúng khách hàng rời mạng là
khoảng 92%.
Bài báo “Predicting Customer Churn in Telecom Industry using Multilayer
Perceptron Neural Networks Modeling and Analysis” của các tác giả Omar Adwan,



4
Hossam Faris, Khalid Jaradat, Osama Harfoushi, Nazeeh Ghatasheh năm 2014 một
lần nữa khẳng định dùng mạng nơ ron đa tầng (3 tầng) để xây dựng mô hình bài
toán tiên đoán thuê bao rời mạng [5].
Trong luận văn này sẽ tiến hành nghiên cứu những lý thuyết về khai phá dữ liệu
(bao gồm mạng nơ ron và cây quyết định), nghiên cứu các thuộc tính của khách
hàng MobiFone trong quá khứ, xây dựng tập thuộc tính khách hàng trong quá khứ,
từ tập dữ liệu thuê bao trong quá khứ này xây dựng mô hình dự đoán thuê bao nào
đó rời mạng hay không, sau đó dựa vào các tập dữ liệu thuê bao rời mạng khác cũng
trong quá khứ để xác định độ chính xác của mô hình và quyết định việc áp dụng có
áp dụng mô hình trong thực tế hay không?
Đây là một vấn đề áp dụng các kỹ thuật khai phá dữ liệu vào việc phục vụ các

mục đích kinh doanh nên đề tài có ý nghĩa thực tiễn. Cách tiếp cận vấn đề và việc
xây dựng mô hình dự đoán là rất quan trọng, quyết định việc nghiên cứu của đề tài
có hữu ích hay khôngCác công trình nghiên cứu liên quan.

1.2Lý do chọn đề tài
Việc sử dụng các kiến thức lý thuyết về khai phá dữ liệu (Data Mining) vào việc
khai phá, chắt lọc dữ liệu để rút ra các kết luận định hƣớng các hoạt động kinh
doanh trong ngành viễn thông đã đƣợc áp dụng nhiều ở các công ty viễn thông trên
thế giới; các công ty viễn thông cũng đã đổ nhiều công sức và tiền bạc vào vấn đề
này. Theo tìm hiểu của chúng tôi thì tại Việt Nam, các công ty viễn thông, nhà cung
cấp dịch vụ viễn thông (truyền hình, thông tin di động, Internet…) lớn chƣa có một
công ty nào thực hiện một hệ thống dự đoán thuê bao (khách hàng) rời mạng (rời bỏ

dịch vụ) mà công ty đó cung cấp.
Xuất phát từ việc đó, chúng tôi mạnh dạn nghiên cứu đề tài “Xây dựng hệ thống
dự đoán thuê bao rời mạng MobiFone dựa vào mạng nơ ron”. Tất nhiên hệ thống dự
đoán này có thể áp dụng cho bất kỳ công ty viễn thông nào có hệ thống khách hàng,
miễn là có những thay đổi cách tiếp cận khách hàng cho phù hợp, nhƣng với nguồn
dữ liệu có đƣợc khảo sát từ mạng điện thoại di động MobiFone thì chúng tôi xây
dựng hệ thống này dựa trên những dữ liệu khách hàng thực tế thu thập đƣợc từ công
ty MobiFone.


5


1.3Những kết quả đạt đƣợc của luận văn
Luận văn này bao gồm 4 chƣơng.
Chƣơng 1: Tổng quan vấn đề cần nghiên cứu
Chƣơng này tìm hiểu tổng quan về vấn đề mà luận văn này cần nghiên cứu, các
công trình có liên quan, và phát biểu bài toán.
Chƣơng 2: Các cơ sở lý luận
Các cơ sở lý luận – lý thuyết liên quan để giải quyết luận văn bao gồm: các kiến
thức về khai phá dữ liệu (data mining), mạng nơ ron, mạng nơ ron đa lớp truyền
thẳng, các thuật toán xây dựng mạng nơ ron, mô hình để giải bài toán dự đoán.
Chƣơng 3: Khảo sát cơ sở dữ liệu thuê bao của Mobifone
Chƣơng 4: Hiện thực, đánh giá, kết luận và các hƣớng nghiên cứu trong tƣơng
lai



6

CHƢƠNG 2 -CƠ SỞ LÝ LUẬN
Để giải quyết bài toán xây dựng mô hình dự đoán thuê bao rời mạng thì chúng
tôi cần các kiến thức tổng quan và chuyên sâu về khai phá dữ liệu (data mining),
các kỹ thuật khai phá dữ liệu, mà trong luận văn hƣớng đến là kỹ thuật phân lớp
dùng mạng nơ ron, kỹ thuật lựa chọn thuộc tính. Chƣơng này khảo sát tất cả các
kiến thức liên quan đến cách thức giải bài toán.

2.1 Giới thiệu về khai phá dữ liệu (Data Mining)

2.1.1 Khai phá dữ liệu là gì?
Khai phá dữ liệu (KPDL) đƣợc định nghĩa nhƣ là một quá trình chắt lọc hay
khai phá tri thức từ một lƣợng lớn dữ liệu. Một ví dụ hay đƣợc sử dụng là là việc
khai thác vàng từ đá và cát, Dataming đƣợc ví nhƣ công việc "Đãi cát tìm vàng"
trong một tập hợp lớn các dữ liệu cho trƣớc. Thuật ngữ Dataming ám chỉ việc tìm
kiếm một tập hợp nhỏ có giá trị từ một số lƣợng lớn các dữ liệu thô. Có nhiều thuật
ngữ hiện đƣợc dùng cũng có nghĩa tƣơng tự với từ Datamining nhƣ Knowledge
Mining (khai phá tri thức), knowledge extraction(chắt lọc tri thức), data/patern
analysis(phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu),
datadredging(nạo vét dữ liệu),...[6].
Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật đƣợc sử dụng để tự
động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ

liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu
đó.
Nói một cách đơn giản, KPDL liên quan đến việc “tách” hoặc “dò” tri thức từ
một lƣợng lớn của dữ liệu, khai phá tri thức từ dữ liệu, tách tri thức, phân tích
mẫu/dữ liệu....
Quá trình khai phá gồm những bƣớc tuần tự nhƣ sau:
1. Làm sạch dữ liệu (loại bỏ những dữ liệu thừa và không có thông tin)
2. Tích hợp dữ liệu (khi nhiều nguồn dữ liệu đƣợc kết hợp)
3. Lựa chọn dữ liệu (lựa chọn những dữ liệu thích hợp cho việc phân tích đƣợc


7

thực hiện lấy từ CSDL)
4. Chuyển đổi dữ liệu (nơi dữ liệu đƣợc chuyển đổi hoặc hợp nhất thành một thể

thích hợp phù hợp cho việc khai phá bằng cách thực hiện các hoạt động tóm tắt
hoặc tích hợp)
5. Khai phá dữ liệu (là tiến trình quan trọng với những phƣơng thức thông minh

đƣợc áp dụng cho việc tách những mẫu dữ liệu)
6. Định giá mẫu (Xác định những mẫu thực sự có ích miêu tả dữ liệu dựa trên một

vài đơn vị đo lƣờng sự có ích)
7. Miêu tả tri thức (khi việc miêu tả mô hình và dữ liệu thu đƣợc đƣợc sử dụng


trong việc khai phá tri thức cho ngƣời dùng)
Hình 2.1 dƣới đây minh họa các bƣớc trong khai phá dữ liệu và phát hiện tri thức.

Hình 2.1: Các bƣớc trong Data Mining & KDD ([6])


8

2.1.2 Mô hình khai phá dữ liệu
Kiến trúc của một hệ thống KPDL điển hình chứa các thành phần sau:
CSDL, kho dữ liệu, web hoặc những hệ thống thông tin khác

Máy chủ CSDL hoặc kho dữ liệu
Dựa trên cơ sở tri thức
Cách thức KPDL
Module đánh giá mô hình
Giao diện ngƣời sử dụng
Hình 2.2 dƣới đây minh họa mô hình khai phá dữ liệu.

User Interface

Pattern Evaluation
Knowledge
Base

Data Mining Engine

Database or Data
Warehouse Server

Data cleaning, integration and selection

Database

Data
Warehouse


World Wide
Web

Hình 2.2: Mô hình khai phá dữ liệu

Other Info
Repositories


9

2.1.3 Các kỹ thuật khai phá dữ liệu

Theo nguyên lý, khi sử dụng phƣơng thức KPDL để giải quyết một vấn đề cụ
thể, cần phải hình dung ra loại vấn đề là gì, có thể tổng kết thành hai loại chính,
cũng liên quan đến các đối tƣợng của khai phá dữ liệu:
KPDL dự đoán (predictive method): là đƣa ra các dự đoán đựa vào các suy
diễn trên dữ liệu hiện thời. KPDL dự đoán bao gồm các kỹ thuật phân lớp
(classification), hồi quy (regression)..
KPDL mô tả (descriptive method): có nhiệm vụ mô tả về các tính chất hoặc
đặc tính chung của dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật: phân cụm
(clustering), phân tích luật kết hợp (association rules), mẫu tuần tự (sequential
patterns)...

2.1.3.1


Phân lớp

Phân lớp là quá trình xây dựng một mô hình để mô tả dữ liệu đƣợc phân chia
nhƣ thế nào, nói cách khác, phân lớp là quá trình xây dựng một mô hình bằng các
gán các đối tƣợng dữ liệu (thuộc tính) vào các lớp đã xác định.
Tiến trình phân lớp dựa trên 4 thành phần cơ bản:
Lớp (class)
Dự đoán (predictors)
Tập dữ liệu đƣợc đào tạo (Training dataset)
Tập dữ liệu kiểm thử (Testing dataset)
Đặc trƣng của tiến trình phân loại gồm những điểm sau:

Input: tập dữ liệu đào tạo chứa những đối tƣợng với thuộctính của nó, với
một số thuộc tính đã đƣợc gán nhãn;
Output: mô hình(classifier) đƣợc gán bởi những nhãn cụ thể cho mỗi đối
tƣợng (phân lớp các đối tƣợng từng các thƣ mục), dựa trên những thuộc tính khác;
Mô hình sử dụng để dự đoán những lớp mới, những đối tƣợng chƣa biết.
Tập dữ liệu kiểm thử cũng dùng dể xác định độ chính xác của mô hình.


10
Khi một mô hình phân loại đƣợc xây dựng, nó sẽ phải so sánh với những mô
hình khác để lựa chọn mô hình tốt nhất. Liên quan đến việc so sánh giữa các mô
hình phân loại (mô hình phân lớp), sẽ có một số thành phần cần đƣợc tính đến.

Khả năng dự đoán (predictive accuracy)
Tốc độ (speed)
Độ mạnh mẽ (robustness)
Độ mềm dẻo (scalability)
Tính dễ diễn giải (interpreability)
Độ đơn giản (simplicity).

2.1.3.2

Phân cụm

Nói đến phân cụm, nghĩa là nói đến chia một tập dữ liệu thành một vài cụm

(cluster), dựa trên việc xác định những đặc điểm chung.
Các đối tƣợng thuộc1 cụm là tƣơng tự nhau.
Đối tƣợng ở cụm này sẽ ít tƣơng tự với đối tƣợng ở cụm khác.
Phân cụm dữ liệu đƣợc sử dụng nhiều trong các ứng dụng về phân đoạn thị
trƣờng, khân khúc khách hàng, nhận dạng mẫu, phân loại trang web…

2.1.3.3

Luật kết hợp

Luật kết hợp là tiến trình xác định những luật phụ thuộc giữa những nhóm khác
nhau của hiện tƣợng. Khai phá luật kết hợp dựa trên hai bƣớc:

Tìm tất cả các tập mục phổ biến, đƣợc xác định qua tính hỗ trợ và thỏa mãn
độ hỗ trợ cực tiểu;
Sinh ra các luật kết hợp từ các mục phổ biến, các luật phải thỏa mãn độhỗ trợ
cực tiểu và độ tin cậy cực tiểu.
Phƣơng pháp này đƣợc sử dụng hiệu quả trong các lĩnh vực nhƣ quảng cáo có
chủ đích, phân tích quyết định, quản lý kinh doanh...

2.1.3.4

Mẫu tuần tự

Mẫu tuần tự là xác định những mẫu mà sự xuất hiện của chúng trong CSDL thỏa

mãn ngƣỡng tối thiểu. Luật tuần tự đƣợc sinh ra từ mẫu tuần tự, biểu diễn mối quan


11
hệ giữa hai loạt sự kiện, loạt sự kiện này sẽ xảy ra sau loạt sự kiện kia, tuần tự theo
thời gian, thể hiện tri thức tiềm ẩn của dữ liệu tuần tự [6].
Khai thác mẫu tuần tự đƣợc ứng dụng trong nhiều lĩnh vực nhƣ: phân tích thị
trƣờng, phân tích mẫu truy cập web, dự đoán nhu cầu mua sắm của khách hàng..

Hồi quy

2.1.3.5


Phƣơng pháp hồi quy là học một hàm ánh xạ một mục dữ liệu và một biến dự
báo giá trị thực. Phân tích hồi quy sẽ xác định đƣợc định lƣợng quan hệ giữa các
biến, và quảng bá giá trị một biến phụ thuộc vào giá trị của những biến khác.
Phƣơng pháp hồi quy khác với phân lớp dự liệu là hồi quy dùng để dự đoán những
giá trị liên lục, còn phân lớp dữ liệu là dự đoán các giá trị rời rạc.
Các ứng dụng của phƣơng thức hồi quy:
Kinh tế
Dự báo thời tiết.

2.1.4 Ứng dụng của khai phá dữ liệu
Với mỗi phƣơng thức riêng biệt, rất nhiều ứng dụng thành công sử dụng KPDL

trong cuộc sống thực, sau đây là một số lĩnh vực mà áp dụng thành công kỹ thuật
KPDL:
Lĩnh vực tài chính và ngân hàng
Những chiến lƣợc bán hàng
Chăm sóc sức khỏe và y tế
Viễn thông:


Phát hiện gian lận trong cuộc gọi;




Xác định các hồ sơ khách hàng trung thành;



Xác định các nhântố ảnh hƣởng đến hành vi khách hàngliên quan

đến các kiểu gọi điện thoại;


Xác định các rủi rotrong việc sử dụng đầu tƣ các công nghệ mới;




Xác định những sự khác nhau giữa các dịch vụ và sản phẩm giữa

các đốithủ cạnh tranh.


12

2.2 Giới thiệu về mạng Nơ ron
2.2.1 Mạng nơron là gì?
2.2.1.1


Nơ ron sinh học và nơ ron nhân tạo

Nơ ron sinh học
Qua quá trình nghiên cứu về bộ não, ngƣời ta thấy rằng: bộ não con ngƣời bao
gồm khoảng 1011 nơ rontham gia vào khoảng 1015 kết nối trên các đƣờng truyền.
Mỗi đƣờng truyền này dài khoảng hơn một mét. Các nơ roncó nhiều đặc điểm
chung với các tế bào khác trong cơ thể, ngoài ra chúng còn có những khả năng mà
các tế bào khác không có đƣợc, đó là khả năng nhận, xử lý và truyền các tín hiệu
điện hóa trên các đƣờng mòn nơ ron, các con đƣờng này tạo nên hệ thống giao tiếp
của bộ não [7].
Nơ ron nhân tạo
Một nơ ronlà một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng

nơ ron. Cấu trúc của một nơ ronđƣợc mô tả trên hình 2.3.
Inputs
X1
Weights
W1
Output
X2

W2




Wx
Xx
Hình 2.3:Mô hình mạng Nơ ron nhân tạo

Các thành phần cơ bản của một nơ ronnhân tạo bao gồm:
 Tập các đầu vào: Là các tín hiệu vào (input signals) của nơ ron, các tín hiệu
này thƣờng đƣợc đƣa vào dƣới dạng một nơ ronN chiều.


13
 Tập các liên kết: Mỗi liên kết đƣợc thể hiện bởi một trọng số (gọi là trọng số
liên kết – Synaptic weight). Trọng số liên kết giữa tín hiệu vào thứ j với neural

thƣờng đƣợc kí hiệu là w. Thông thƣờng, các trọng số này đƣợc khởi tạo một cách
ngẫu nhiên ở thời điểm khởi tạo mạng và đƣợc cập nhật liên tục trong quá trình học
mạng.
 Hàm tổng (Summing function): Thƣờng dùng để tính tổng của tích các đầu
vào với trọng số liên kết của nó.
 Ngƣỡng (còn gọi là một độ lệch - bias): Ngƣỡng này thƣờng đƣợc đƣa vào
nhƣ một thành phần của hàm truyền.
 Hàm truyền (Transfer function) : Hàm này đƣợc dùng để giới hạn phạm vi
đầu ra của mỗi nơ ron. Nó nhận đầu vào là kết quả của hàm tổng và ngƣỡng đã cho.
Thông thƣờng, phạm vi đầu ra của mỗi nơ ronđƣợc giới hạn trong đoạn [0,1] hoặc
[-1, 1]. Các hàm truyền rất đa dạng, có thể là các hàm tuyến tính hoặc phi tuyến.
Việc lựa chọn hàm truyền nào là tuỳ thuộc vào từng bài toán và kinh nghiệm của

ngƣời thiết kế mạng.
 Đầu ra: Là tín hiệu đầu ra của một nơ ron, với mỗi nơ ronsẽ có tối đa là một
đầu ra.

2.2.1.2

Mạng nơ ron nhân tạo là gi?

Định nghĩa: Mạng nơ ron nhân tạo, Artificial Neural Network (ANN) gọi tắt là
mạng nơ ron, neural network, là một mô hình xử lý thông tin phỏng theo cách thức
xử lý thông tin của các hệ nơ ronsinh học. Nó đƣợc tạo lên từ một số lƣợng lớn các
phần tử (gọi là phần tử xử lý hay neural) kết nối với nhau thông qua các liên kết

(gọi là trọng số liên kết) làm việc nhƣ một thể thống nhất để giải quyết một vấn đề
cụ thể nào đó [8][9].
Một mạng nơ ronnhân tạo đƣợc cấu hình cho một ứng dụng cụ thể (nhận dạng
mẫu, phân loại dữ liệu, ...) thông qua một quá trình học từ tập các mẫu huấn luyện.
Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơ ron.


14

2.2.1.3

Các kiểu mô hình mạng nơ ron


Tự kết hợp (autoassociative): là mạng có các neural đầu vào cũng là các nơ ronđầu
ra. Mạng Hopfield là một kiểu mạng tự kết hợp. Hình 2.1 dƣới đây là mô hình của
mạng tự kết hợp.

Output

Inputs

Hình 2.4: Mô hìnhmạng tự kết hợp

Kết hợp khác kiểu (heteroassociative): là mạng có tập nơ ronđầu vào và đầu ra riêng

biệt. Perceptron, các mạng Perceptron nhiều tầng (MLP: MultiLayer Perceptron),
mạng Kohonen, … thuộc loại này. Hình 2.5 là mô hình của mạng kết hơp khác
kiểu.

Output

Inputs

Hình 2.5: Mô hình mạngkết hợp kháckiểu


15

Ngoài ra tùy thuộc vào mạng có các kết nối ngƣợc (feedback connections) từ các nơ
ronđầu ra tới các neural đầu vào hay không, ngƣời ta chia ra làm 2 loại kiến trúc mạng.
Kiến trúc truyền thẳng (feedforward architechture): là kiểu kiến trúc mạng
không có các kết nối ngƣợc trở lại từ các nơ ronđầu ra về các nơ ronđầu vào; mạng
không lƣu lại các giá trị output trƣớc và các trạng thái kích hoạt của neural. Các
mạng nơ rontruyền thẳng cho phép tín hiệu di chuyển theo một đƣờng duy nhất; từ
đầu vào tới đầu ra, đầu ra của một tầng bất kì sẽ không ảnh hƣởng tới tầng đó. Các
mạng kiểu Perceptron là mạng truyền thẳng nhƣ hình 2.6.

Tầng vào

Tầng vào

Tầng vào

Hình 2.6:Mô hình mạng truyềnthẳng

Nơ ron vào

Nơ ron ẩn

Hình 2.7: Mô hìnhmạng phảnhồi

Nơ ron ra



×