Tải bản đầy đủ (.docx) (70 trang)

Nghiên cứu kỹ thuật khai phá dữ liệu và ứng dụng xây dựng hệ thống đánh giá khách hàng tiềm năng trong tập khách hàng hiện hữu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (697.37 KB, 70 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

NGUYỄN NHƯ TOÀN

NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ KHÁCH HÀNG

TIỀM NĂNG TRONG TẬP KHÁCH HÀNG HIỆN HỮU

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG – 2022

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

NGUYỄN NHƯ TOÀN

NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ KHÁCH HÀNG

TIỀM NĂNG TRONG TẬP KHÁCH HÀNG HIỆN HỮU

Chuyên ngành: Khoa học máy tính
Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. Lê Nguyên Bảo
PGS. TS. Nguyễn Gia Như



ĐÀ NẴNG – 2022

i

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới TS. Lê Nguyên Bảo, Hiệu trưởng Đại
học Duy Tân, PGS.TS Nguyễn Gia Như, Hiệu trưởng Trường Đại học Khoa
Học Máy Tính - Đại học Duy Tân, những người thầy đã dành nhiều thời gian
tận tình chỉ bảo, hướng dẫn, giúp đỡ tơi trong suốt quá trình tìm hiểu, nghiên
cứu. Hai thầy là người định hướng và đưa ra nhiều góp ý quý báu trong q
trình tơi thực hiện luận văn.

Tôi xin chân thành cảm ơn các thầy, cô ở Trường Khoa Học Máy Tính -
Đại học Duy Tân đã cung cấp cho tôi những kiến thức và tạo cho tơi những
điều kiện thuận lợi trong suốt q trình tôi học tập tại trường.

Tơi cũng bày tỏ lịng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng
nghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên q báu. Tơi
xin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiên
cứu ln động viên và tạo mọi điều kiện tốt nhất cho tôi.

Tôi xin chân thành cảm ơn!
Đà Nẵng, ngày tháng năm 2022
Học viên

Nguyễn Như Toàn

ii


LỜI CAM ĐOAN

Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dưới
sự hướng dẫn của TS. Lê Nguyên Bảo và PGS.TS Nguyễn Gia Như, Đại học
Duy Tân.

Các kết quả nêu trong luận văn là trung thực và chưa được ai công bố
trong bất cứ công trình nào khác.

Đà Nẵng, ngày tháng năm 2022
Học viên

Nguyễn Như Toàn

iii

MỤC LỤC

LỜI CẢM ƠN...................................................................................................i
LỜI CAM ĐOAN............................................................................................ii
MỤC LỤC.......................................................................................................iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT....................................v
DANH MỤC CÁC BẢNG BIỂU..................................................................vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ......................................................vii
MỞ ĐẦU..........................................................................................................1
Chương I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU..................................4

1.1. Khai phá dữ liệu.....................................................................................4
1.1.1. Khái niệm khai phá dữ liệu..............................................................4

1.1.2. Những nhóm bài tốn của khai phá dữ liệu....................................6
1.1.3. Các bước xây dựng một giải pháp về KPDL...................................8
1.1.4. Kiến trúc của một hệ thống khai phá dữ liệu..................................8

1.2. Ứng dụng khai phá dữ liệu trong viễn thông..........................................9
1.3. Kết luận chương 1................................................................................11
Chương 2. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÂN
LỚP, DỰ BÁO...............................................................................................12
2.1. Cây quyết định......................................................................................12

2.1.1. Thuật toán ID3.............................................................................14
2.1.2. Thuật tốn C4.5.............................................................................15
2.2. Phân lớp Nạve Bayes...........................................................................17
2.3. Mạng nơ ron nhân tạo...........................................................................18
2.4. Luật kết hợp..........................................................................................20
2.5. Kết luận chương 2................................................................................23
Chương 3: GIẢI PHÁP PHÁT HIỆN KHÁCH HÀNG TIỀM NĂNG
TRONG TẬP KHÁCH HÀNG HIỆN HỮU...............................................24
3.1. Giới thiệu về VNPT Quảng Trị............................................................24

iv

3.2. Giới thiệu khái niệm khách hàng, thuê bao, dịch vụ............................25
3.3. Phát biểu bài toán.................................................................................27
3.4. Giải pháp đề xuất..................................................................................28

3.4.1. Hiện trạng......................................................................................28
3.4.2. Giải pháp đề xuất dùng kỹ thuật khai phá dữ liệu.........................29
3.4.3. Giới thiệu về công cụ Weka...........................................................33
3.5. Thực nghiệm và xây dựng tập luật dự đoán.........................................34

3.5.1. Tập hợp dữ liệu đầu vào................................................................34
3.5.2. Trích chọn thuộc tính.....................................................................38
3.5.3. Khai phá dữ liệu............................................................................42
3.6. Xây dựng ứng dụng Tìm kiếm khách hàng tiềm năng.........................45
3.6.1. Mục tiêu thực hiện.........................................................................45
3.6.2. Xây dựng chương trình..................................................................45
3.6.3. Đánh giá kết quả...........................................................................55
3.7. Kết luận chương 3................................................................................55
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN...................................................57
TÀI LIỆU THAM KHẢO

v

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Chữ viết tắt Ý nghĩa
KPDL Khai phá dữ liệu
CSDL Cơ sở dữ liệu
OLAP Online analytical processing
VNPT Vietnam Posts and Telecommunications Group

vi

DANH MỤC CÁC BẢNG BIỂU

Bảng 3.1 - Số liệu khách hàng từ chối dịch vụ..............................................................
Bảng 3.2 - Số lượng bản ghi dữ liệu sau khi làm sạch..................................................
Bảng 3.3 - Cấu trúc dữ liệu khách hàng........................................................................
Bảng 3.4 - Các trường dữ liệu sau khi trích chọn..........................................................
Bảng 3.5 - Số lượng bản ghi tập dữ liệu........................................................................

Bảng 3.6 - Cấu trúc dữ liệu bảng khách hàng...............................................................
Bảng 3.7 - Cấu trúc dữ liệu bảng thuê bao....................................................................

vii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 - Quá trình khai phá dữ liệu............................................................................
Hình 1.2 - Kiến trúc một hệ thống khai phá dữ liệu......................................................
Hình 2.1 - Biểu diễn cây quyết định cơ bản..................................................................
Hình 2.2 - Cây quyết định cho việc chơi thể thao.........................................................
Hình 2.3 - Mơ hình mạng nơ ron nhiều lớp...................................................................
Hình 2.4 - Tiến trình học...............................................................................................
Hình 3.1 - Mơ hình khai thác dữ liệu thơ sơ.................................................................
Hình 3.2 - Mơ hình khai phá dữ liệu cải tiến................................................................
Hình 3.3 - Giao diện cơng cụ Weka..............................................................................
Hình 3.4 - Giao diện chức năng Tra cứu thơng tin khách hàng....................................
Hình 3.5 - Giao diện chức năng Thông tin chi tiết khách hàng....................................
Hình 3.6 - Giao diện chức năng Xuất danh sách khách hàng tiềm năng.......................

1

MỞ ĐẦU

1. Lý do chọn đề tài
Đối với doanh nghiệp, có thể nói khách hàng là yếu tố sống - còn, doanh

nghiệp muốn tồn tại và phát triển bền vững cần phải có khách hàng, cần duy
trì, phát triển khách hàng. VNPT Quảng Trị cũng khơng nằm ngồi quy luật
đó, là doanh nghiệp cung cấp các sản phẩm dịch vụ về viễn thông, cơng nghệ

thơng tin, VNPT Quảng Trị ln phải tìm mọi cách để phát triển các khách
hàng mới, đồng thời, phải tận dụng tối đa các khách hàng hiện hữu để bán
thêm nhiều sản phẩm, dịch vụ cho khách hàng.

Với kho dữ liệu khách hàng rất lớn của VNPT Quảng Trị, yêu cầu đặt ra
là cần phải khai thác có hiệu quả tập dữ liệu khách hàng này để phục vụ tối đa
cho công tác bán hàng của VNPT Quảng Trị.

Xuất phát từ yêu cầu đặt ra đối với đơn vị mình, tơi đã thực hiện đề tài
luận văn “Nghiên cứu kỹ thuật khai phá dữ liệu và ứng dụng xây dựng hệ
thống đánh giá khách hàng tiềm năng trong tập khách hàng hiện hữu”.
2. Mục tiêu và nhiệm vụ nghiên cứu

Mục tiêu của đề tài là đi sâu vào nghiên cứu các kỹ thuật khai phá dữ
liệu, áp dụng các kỹ thuật đó để khai phá dữ liệu hành vi sử dụng của các
khách hàng hiện hữu từ đó dự báo các khách hàng tiềm năng có thể sử dụng
thêm nhiều dịch vụ của doanh nghiệp.
3. Đối tượng và phạm vi đề tài

Đối tượng nghiên cứu của đề tài là: Các nội dung tổng quan về khai phá
dữ liệu, các kỹ thuật khai phá dữ liệu, đặc trưng của bài tốn tìm kiếm các
khách hàng tiềm năng trong tập khách hàng hiện hữu của VNPT Quảng Trị.

Do số lượng các dịch vụ của VNPT Quảng Trị hiện đang cung cấp là rất
nhiều, mỗi dịch vụ lại có các đặc điểm, yêu cầu khác nhau, dẫn đến quy mô

2

và phạm vi cần thực hiện là rất lớn; vì vậy, cần thu hẹp phạm vi nghiên cứu
đối với một dịch vụ cụ thể.


Trong đề tài này, phạm vi nghiên cứu là tìm kiếm các khách hàng tiềm
năng có nhu cầu sử dụng dịch vụ Gói Data trong tập khách hàng hiện hữu
đang sử dụng các dịch vụ truyền thống của VNPT Quảng Trị.
4. Phương pháp nghiên cứu

Để thực hiện luận văn này, tôi đã sử dụng 03 phương pháp nghiên cứu
khoa học để tiếp cận và làm rõ những vấn đề của đề tài đặt ra, cụ thể đó là:

- Phương pháp phân tích và tổng hợp lý thuyết: Nghiên cứu các tài liệu
khác nhau về khái niệm và các kỹ thuật khai phá dữ liệu; phân tích để tìm
hiểu đối với mỗi vấn đề và tổng hợp để có cái nhìn tổng quan, đầy đủ về các
vấn đề cần tìm hiểu.

- Phương pháp so sánh: Khảo sát, trình bày thực trạng về phương pháp
khai thác dữ liệu hiện tại của VNPT Quảng Trị; đưa ra đánh giá, so sánh với
phương pháp đề xuất sau khi áp dụng các kỹ thuật khai phá dữ liệu.

- Phương pháp thực nghiệm khoa học: Thực hiện thu thập, xử lý dữ
liệu khách hàng; sử dụng cơng cụ WEKA với thuật tốn cây quyết định để
xây dựng tập luật dự đoán khách hàng tiềm năng. Trên cơ sở đó, xây dựng hệ
thống phần mềm Tìm kiếm khách hàng tiềm năng.
5. Tổng quan vấn đề nghiên cứu

Nội dung của đề tài mang ý nghĩa khoa học khi cung cấp một cách nhìn
tổng quan về khai phá dữ liệu và nghiên cứu các kỹ thuật khai phá dữ liệu;
đưa ra quy trình áp dụng các kỹ thuật khai phá dữ liệu và phát hiện tri thức
đối với dữ liệu khách hàng tại VNPT Quảng Trị.

Đề tài luận văn cũng mang ý nghĩa thực tiễn khi thực nghiệm các

phương pháp trên với tập dữ liệu thực tế, mô tả các kết quả đạt được, từ đó

3

xây dựng các quy trình, giải pháp, cơng cụ góp phần vào nâng cao chất lượng,
hiệu quả trong hoạt động sản xuất kinh doanh của đơn vị.
6. Cấu trúc luận văn

Luận văn được trình bày với bố cục gồm có phần mở đầu, kết luận và 03
chương, cụ thể như sau:

Chương 1: Tổng quan về khai phá dữ liệu
Chương này trình bày tổng quan về khai phá dữ liệu, nghiên cứu các cơ
sở lý thuyết KPDL.
Chương 2: Một số kỹ thuật khai phá dữ liệu trong phân lớp, dự báo
Chương này trình bày một số khái niệm cơ bản và các kiến thức có liên
quan về các thuật tốn thường được áp dụng trong KPDL ở dạng phân lớp, dự
báo đó là: cây quyết định, mạng nơron nhân tạo, phân lớp Naïve Bayes và luật
kết hợp.
Chương 3: Giải pháp phát hiện khách hàng tiềm năng trong tập
khách hàng hiện hữu
Chương này trình bày các phương pháp để phát hiện các khách hàng
hiện hữu là khách hàng tiềm năng của các dịch vụ khác bao gồm các kỹ thuật
dựa vào đặc trưng khách hàng, phương pháp ứng dụng kỹ thuật khai phá dữ
liệu.
Áp dụng vào thực tế tại VNPT Quảng Trị, xây dựng giải pháp ứng dụng
tìm kiếm khách hàng tiềm năng.

4


Chương I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Khai phá dữ liệu
1.1.1. Khái niệm khai phá dữ liệu

KPDL là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu
được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các
thơng tin quan trọng, có giá trị tiềm ẩn bên trong. Do nhu cầu nghiệp vụ cần
có cách nhìn thơng tin trên quy mơ tồn đơn vị.

Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm
nghiệp vụ như: phần mềm tài chính, kế tốn, các hệ thống quản lý tài nguyên
doanh nghiệp, các hệ thống quản lý khách hàng hay từ tác công cụ lưu trữ
thông tin trên web…

Đây là những khối dữ liệu khổng lồ nhưng những thơng tin mà nó thể
hiện ra thì lộn xộn và “nghèo” đối với người dùng. Kích thước của khối dữ

Đánh giá mẫu
Tri
thức

Khai phá dữ liệu

Chuyển đổi Các mẫu

Dữ liệu đã được chuyển đổi

Tiền xử lý


Dữ liệu đã được tiền xử lý

Lựa chọn Dữ liệu
Dữ liệu Dữ liệu được chọn

Hình 1.1 - Quá trình khai phá dữ liệu

5

liệu khổng lồ đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu
trữ.

KPDL sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng
thành những tri thức hữu ích. Q trình này gồm một số bước được thể hiện
trong hình sau [12].

Ý nghĩa cụ thể của các bước như sau:
- Lựa chọn: Tập hợp dữ liệu từ các kho dữ liệu liên quan đến bài tốn
quan tâm. Dữ liệu sau đó được lựa chọn hoặc phân chia theo một số tiêu
chuẩn nào đó.
- Tiền xử lý: Giai đoạn này là giai đoạn hay bị sao lãng, nhưng thực tế
nó là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi
thường mắc phải trong khi tập hợp dữ liệu là tính khơng đủ chặt chẽ, logíc. Vì
vậy, dữ liệu thường chứa các giá trị vơ nghĩa và khơng có khả năng kết nối dữ
liệu. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu khơng chặt chẽ nói
trên. Những dữ liệu dạng này được xem như thơng tin dư thừa, khơng có giá
trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu khơng
được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai
lệch nghiêm trọng.
- Chuyển đổi: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra

có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được
chuyển đổi phù hợp với mục đích khai thác.
- Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ
liệu. Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra
các mẫu từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân loại, ngun
tắc kết hợp hoặc các mơ hình dữ liệu tuần tự, …
- Đánh giá mẫu: Đây là giai đoạn cuối trong quá trình khai phá dữ liệu.
Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá

6

dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đơi khi nó cịn
bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất
ra các tri thức.
1.1.2. Những nhóm bài toán của khai phá dữ liệu

KPDL có thể được dùng để giải quyết hàng trăm bài tốn với những mục
đích và nhiệm vụ khác nhau. Dựa trên bản chất tự nhiên của các bài tốn đó,
người ta có thể nhóm các bài tốn đó thành những nhóm sau:

- Bài toán phân loại:
Bài toán phân loại là một trong những bài toán phổ biến nhất của KPDL,
ví dụ như: phân tích xem loại khách hàng nào có khả năng cao nhất sẽ chuyển
sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty, quản lý rủi ro
hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi loại khách hàng…
Phân loại là tổ chức dữ liệu trong các lớp cho trước, còn được gọi là học
có quan sát. Phân loại sử dụng các nhãn lớp cho trước để sắp xếp các đối
tượng. Trong đó, có một tập huấn luyện gồm các đối tượng đã được kết hợp
với các nhãn đã biết. Những thuật tốn học có quan sát sẽ được áp dụng cho
tập các đối tượng cần phân loại để từ đó mơ hình phân loại chúng.

Một số thuật toán dùng trong bài toán phân loại như: cây quyết định,
mạng nơ ron, mạng Naïve Bayes.
- Bài toán phân cụm:
Bài tốn phân cụm hay cịn gọi là phân đoạn. Điểm khác với bài toán
phân loại là ở đây các nhãn lớp chưa biết và không có huấn luyện. Các đối
tượng được phân loại dựa trên các thuộc tính tương đồng giữa chúng. Bài tốn
phân lớp hay cịn gọi là học khơng có giám sát.
- Bài tốn phân tích luật kết hợp:

7

Bài tốn này đơi khi cịn gọi là bài tốn phân tích giỏ hàng bởi vì nó
được sử dụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài toán lựa
chọn hàng hóa đi kèm…

Phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ
giữa các thuộc tính dữ liệu thường xuất hiện cùng nhau trong các tập dữ liệu.

- Bài toán hồi quy:
Bài toán hồi quy cũng tương tự như bài toán phân loại. Điểm khác biệt là
hồi quy dự đoán cho các dữ liệu liên tục.
- Bài toán dự đoán:
Dự đoán là một mảng quan trọng của KPDL. Dự đốn có hai loại chính:
một loại là dự đoán về một số giá trị dữ liệu chưa biết hay có xu hướng sắp
xảy ra, cịn loại kia là dự đoán để phân lớp dựa trên một tập huấn luyện và giá
trị thuộc tính của đối tượng.
- Bài toán phân tích chuỗi:
Phân tích chuỗi được sử dụng để tìm ra các mẫu trong một loạt các giá
trị hay trạng thái rời rạc. Ví dụ như việc chọn mua hàng của khách hàng có
thể mơ hình là một chuỗi dữ liệu. Hành động chọn mặt hàng A, sau đó chọn

mặt hàng B, C… là một chuỗi các trạng thái rời rạc. Trong khi đó thời gian lại
là chuỗi số liên tục.
Phân tích chuỗi và phân tích luật kết hợp giống nhau ở chỗ đều phân tích
tập hợp các đối tượng hay trạng thái. Điểm khác nhau là mơ hình chuỗi phân
tích sự chuyển của các trạng thái, trong khi mơ hình luật kết hợp thì coi mỗi
một mặt hàng trong giỏ hàng là như nhau và độc lập. Với mơ hình chuỗi, việc
chọn mặt hàng A trước mặt hàng B hay chọn mặt hàng B trước A sau là khác
nhau. Cịn ở mơ hình kết hợp thì cả hai trường hợp là như nhau.
- Bài tốn phân tích độ lệch:

8

Bài tốn này cịn được gọi là phát hiện điểm biên. Điểm biên là những
đối tượng dữ liệu mà không tuân theo các đặc tính, hành vi chung. Bài tốn
phát hiện điểm biên ứng dụng rất nhiều trong các ứng dụng. Ứng dụng quan
trọng nhất của bài toán phát hiện điểm biên là bài tốn kiểm tra xác nhận thẻ
tín dụng…[1]
1.1.3. Các bước xây dựng một giải pháp về KPDL

Có rất nhiều tác giả đưa ra các bước của một hệ thống KPDL, mọi sự
phân chia chỉ mang tính chất tương đối và tư tưởng chủ đạo của nó là như
sau:

- Bước 1: Xác định mục tiêu bài toán.
- Bước 2: Thu thập dữ liệu.
- Bước 3: Làm sạch dữ liệu và chuyển đổi dữ liệu.
- Bước 4: Xây dựng mơ hình.
- Bước 5: Đánh giá mơ hình hay đánh giá mẫu.
- Bước 6: Báo cáo.
- Bước 7: Dự đoán.

- Bước 8: Tích hợp vào ứng dụng.
- Bước 9: Quản lý mơ hình.
1.1.4. Kiến trúc của một hệ thống khai phá dữ liệu
- Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu: Máy chủ này có trách
nhiệm lấy dữ liệu thích hợp dựa trên những yêu cầu khai phá của người dùng.
- Cơ sở tri thức: Đây là miền tri thức được dùng để tìm kiếm hay đánh
giá độ quan trọng của các hình mẫu kết quả.
- Máy khai phá dữ liệu: Một hệ thống khai phá dữ liệu cần phải có một
tập các modun chức năng để thực hiện công việc, chẳng hạn như đặc trưng
hóa, kết hợp, phân lớp, phân cụm, phân tích sự tiến hố…

9

- Modun đánh giá mẫu: Bộ phận này tương tác với các modun khai phá
dữ liệu để tập trung vào việc duyệt tìm các mẫu đáng được quan tâm. Cũng có
thể modun đánh giá mâu được tích hợp vào modun khai phá tuỳ theo sự cài
đặt của phương pháp khai phá được dùng.

- Giao diện đồ họa cho người dùng: Thông qua giao diện này, người
dùng tương tác với hệ thống bằng cách đặc tả một yêu cầu khai phá hay một
nhiệm vụ, cung cấp thông tin trợ giúp cho việc tìm kiếm và thực hiện khai phá
thăm dò trên các kết quả khai phá trung gian [13].

Giao diện đồ họa cho người dùng

Đánh giá mẫu Cơ sở tri thức
Máy khai phá dữ liệu

Máy chủ CSDL hay kho dữ liệu


CSDL Hình 1.2 - Kiến trúc một hệ thống khai phá dữ liệu
CSDL Kho dữ liệu

1.2. Ứng dụng khai phá dữ liệu trong viễn thông
Là một ngành công nghiệp với khối lượng dữ liệu cần xử lý rất lớn,

ngành công nghiệp viễn thông đã nhanh chóng phát triển từ cung cấp dịch vụ
điện thoại cố định để cung cấp nhiều dịch vụ thông tin liên lạc toàn diện khác.
Chúng bao gồm di động, điện thoại thông minh, truy cập Internet, email, tin
nhắn văn bản, hình ảnh, máy tính và truyền dữ liệu web và các dữ liệu giao
thông. Sự hội nhập của viễn thơng, mạng máy tính, Internet và nhiều phương
tiện truyền thơng khác đã được tiến hành, thay đổi bộ mặt của viễn thơng và
điện tốn. Điều này đã tạo ra một nhu cầu lớn về khai thác dữ liệu để giúp

10

hiểu số liệu kinh doanh, xác định mơ hình viễn thơng, xác định các hoạt động
gian lận, sử dụng tốt hơn các nguồn lực và cải thiện chất lượng dịch vụ. Bài
tốn khai thác dữ liệu trong viễn thơng có điểm tương đồng với những người
trong ngành công nghiệp bán lẻ. Bài toán thường gặp bao gồm xây dựng kho
dữ liệu quy mô lớn, thực hiện biểu diễn đa chiều trực quan, OLAP và phân
tích chuyên sâu về các xu hướng, mẫu của khách hàng và các mẫu tuần tự.
Các bài tốn này góp phần cải thiện kinh doanh, giảm chi phí, duy trì khách
hàng, phân tích gian lận và tìm hiểu về đối thủ cạnh tranh. Có rất nhiều bài
tốn khai thác dữ liệu cùng với các công cụ khai thác dữ liệu cho viễn thông
đã được biết đến và sẽ đóng vai trị ngày càng quan trọng trong kinh doanh
ngày nay. Một số bài toán cụ thể như sau:

- Phân tích đa chiều số liệu bán hàng, khách hàng, sản phẩm, theo thời
gian, khu vực:


Ngành viễn thông nói riêng và dịch vụ bán lẻ nói chung cần nhìn cái
nhìn đa chiều về doanh thu bán hàng, lợi nhuận, sản phẩm ... nên việc phân
tích dữ liệu đa chiều rất cần thiết giúp cho những người quản lý nắm bắt được
tình hình kinh doanh và thị trường cùng các thơng tin hữu ích khác.

- Phân tích hiệu quả của các chương trình khuyến mại:
Hiện các chương trình khuyến mại và sản phẩm của ngành viễn thơng
liên tục được thay đổi, để đánh giá hiệu quả các chương trình khuyến mại là
bài tốn rất quan trọng của các mạng viễn thông.
- Duy trì khách hàng - Phân tích về lịng trung thành của khách hàng:
Chúng ta có thể sử dụng thơng tin khách hàng trung thành để đăng ký
trình tự mua hàng của khách hàng cụ thể. lòng trung thành của khách hàng và
xu hướng mua hàng có thể được phân tích một cách hệ thống. Hàng hóa mua
tại giai đoạn khác nhau của cùng một khách hàng có thể được nhóm lại thành
chuỗi. Tuần tự khai thác mơ hình sau đó có thể được sử dụng để điều tra

11

những thay đổi trong tiêu dùng của khách hàng hoặc lòng trung thành và đề
nghị điều chỉnh về giá cả và sự đa dạng của hàng hóa để giúp giữ chân khách
hàng và thu hút những người mới.

Ngồi ra KPDL cịn giúp phân tích dự báo khách hàng rời mạng từ đó đề
nghị điều chỉnh về giá cả và sự đa dạng của hàng hóa để giúp giữ chân khách
hàng.

- Xây dựng hệ thống gợi ý:
Ở ngành viễn thơng và bán lẻ nói chung thì việc tư vấn cho khách hàng
rất quan trọng nhằm tăng doanh thu. Vấn đề ở đây là phát hiện nhu cầu của

khách hàng để có thể tư vấn và gợi ý cho khách hàng đúng nhu cầu, thời gian
và địa điểm. Các ứng dụng của việc KPDL ở đây bao gồm việc phân tích
hành vi khách hàng, phân lớp, …
- Phòng chống gian lận và xác định hành vi sử dụng bất thường:
Trong ngành viễn thông thì việc rất quan trọng là phát hiện gian lận và
hành vi sử dụng bất thường nhằm giảm thiểu thất thoát doanh thu. Bài toán
phát hiện dấu hiệu bất thường và phòng chống gian lận để phát hiện các hành
vi gian lận của khách hàng và các bất thường của hành vi sử dụng. Ứng dụng
KPDL là sử dụng các cơng cụ phân lớp, phân tích hành vi.
1.3. Kết luận chương 1
Chương này trình bày tổng quan về khái niệm khai phá dữ liệu, các bài
toán cũng như kiến trúc của một hệ thống KPDL và ứng dụng đối với ngành
viễn thông.


×