Tải bản đầy đủ (.doc) (80 trang)

NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.07 MB, 80 trang )


NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG
CÓ KHẢ NĂNG RỜI MẠNG VNPT
Chuyên ngành: Hệ thống thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2015
NGUYỄN ĐỨC ANH
NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG
CÓ KHẢ NĂNG RỜI MẠNG VNPT
Chuyên ngành: Hệ thống thông tin
Mã số: 870154
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2015
Cán bộ hướng dẫn chính: Ts. Nguyễn Hoàng Sinh
Cán bộ chấm phản biện 1:
Cán bộ chấm phản biện 2:
Luận văn thạc sĩ được bảo vệ tại:
Tôi xin cam đoan:
Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn
trung thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và
pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật.
TÁC GIẢ LUẬN VĂN
MỤC LỤC
Trang
Trang phụ bìa
Bản cam đoan
Mục lục
Tóm tắt luận văn
Danh mục các ký hiệu, viết tắt, các bảng, các hình vẽ
MỞ ĐẦU 1
Cơ sở khoa học và tính thực tiễn của đề tài: 1


a. Cơ sở khoa học: 1
b. Tính thực tiễn 1
c. Mục tiêu của đề tài 3
d. Phương pháp nghiên cứu 3
1.1. Tìm hiểu về khai phá dữ liệu 4
1.1.1.Mục tiêu, nguồn gốc của khai phá dữ liệu 4
1.1.2.Lý do khai phá dữ liệu [12] 5
1.2.Quá trình khai phá dữ liệu 6
1.2.1.Tiền xử lý dữ liệu 7
1.2.2.Xây dựng và xác nhận mô hình 7
1.2.3.Áp dụng và đánh giá mô hình 8
1.3. Các kỹ thuật khai phá dữ liệu 8
1.3.1.Phân lớp 9
1.3.2.Phân cụm 9
1.3.3.Luật kết hợp 10
1.3.4.Mẫu tuần tự 10
1.3.5.Cây quyết định (Decision tree) và luật (Rule) 11
1.3.6.Phương pháp dựa trên mẫu (Based-on Pattern) 14
1.3.7.Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on
Probability Graph) 14
1.3.8.Mạng Nơron (Neuron Network) 15
1.3.9.Thuật giải di truyền (Genetic Algorithm) 15
1.4. Ứng dụng, thách thức và hướng phát triển của KPDL 16
1.5. Kết luận chương 1 16
2.1. Một số ứng dụng data mining trong viễn thông 17
2.1.1. Phát hiện gian lận (fraud detection) 17
2.1.2. Các ứng dụng quản lý và chăm sóc khách hàng 17
2.1.3. Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn
thông (Network fault isolation) 19
2.2. Nghiên cứu CSDL của mạng di động VNPT 19

2.2.1. Các tập CSDL quản lý thuê bao liên quan đến bài toán 20
2.2.2. Phân lớp dự đoán xu hướng khách hàng 21
2.2.3 Thuật toán K-Nearest Neighbors [16] 32
2.2.4. Phân lớp Bayes 36
2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11]. 40
2.3. Kết luận chương 2 47
3.1. Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của
khách hàng 49
3.1.1. Cách giải quyết yêu cầu bài toán 49
3.1.2. Phương pháp triển khai 49
3.1.3. Nội dung triển khai 49
3.1.4. Xây dựng tập CSDL huấn luyện 50
3.2. Xây dựng ứng dụng 57
3.2.1 Giới thiệu 57
3.2.2. Quá trình phát triển 58
3.2.3. Xây dựng Chương trình 58
3.2.4. Đánh giá 62
3.3. Kết luận chương 3 62
1. Kết luận 63
2. Hướng phát triển tiếp theo 63
TÀI LIỆU THAM KHẢO 65
TÓM TẮT LUẬN VĂN THẠC SĨ
Họ và tên học viên: Nguyễn Đức Anh
Lớp: Hệ thống thông tin Khoá: K25A
Cán bộ hướng dẫn: TS. Nguyễn Hoàng Sinh
Tên đề tài: NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH
HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT
+ Tóm tắt:
Luận văn nghiên cứu về các phương pháp phân lớp trong khai phá dữ
liệu dùng để phân lớp, dự đoán các đoán các thuê bao của tập đoàn bưu chính

viễn thông VNPT có khả năng rời mạng hay không.
Sử dụng cơ sở dữ liệu SQL server để thiết kế, phân tích dữ liệu, lựa chọn
các thuộc tính có ích cho việc dự đoán để tạo bảng cơ sở dữ liệu huấn luyện.
Sử dụng thuật toán phân lớp Bayes để dự đoán một thuê bao cụ thể có khả
năng rời khỏi mạng hay không.
DANH MỤC CÁC KÝ HIỆU
KPDL Khai phá dữ liệu
CSDL Cơ sở dữ liệu
CDR Call Data Record
DANH MỤC CÁC BẢNG
Trang
Cơ sở khoa học và tính thực tiễn của đề tài: 1
a. Cơ sở khoa học: 1
b. Tính thực tiễn 1
c. Mục tiêu của đề tài 3
d. Phương pháp nghiên cứu 3
1.1. Tìm hiểu về khai phá dữ liệu 4
1.1.1.Mục tiêu, nguồn gốc của khai phá dữ liệu 4
Hình 1.1. Nguồn gốc khai phá dữ liệu 5
1.1.2.Lý do khai phá dữ liệu [12] 5
1.2.Quá trình khai phá dữ liệu 6
1.2.1.Tiền xử lý dữ liệu 7
1.2.2.Xây dựng và xác nhận mô hình 7
1.2.3.Áp dụng và đánh giá mô hình 8
1.3. Các kỹ thuật khai phá dữ liệu 8
1.3.1.Phân lớp 9
1.3.2.Phân cụm 9
1.3.3.Luật kết hợp 10
1.3.4.Mẫu tuần tự 10
1.3.5.Cây quyết định (Decision tree) và luật (Rule) 11

Bảng 1.1 Bảng training Data 12
Hình 1.2. Cây quyết định từ bảng training data 12
Bảng 1.2 Bảng testing Data 13
Bảng 1.3. Kết quả phân lớp bằng cây quyết định 13
1.3.6.Phương pháp dựa trên mẫu (Based-on Pattern) 14
1.3.7.Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on
Probability Graph) 14
1.3.8.Mạng Nơron (Neuron Network) 15
1.3.9.Thuật giải di truyền (Genetic Algorithm) 15
1.4. Ứng dụng, thách thức và hướng phát triển của KPDL 16
1.5. Kết luận chương 1 16
2.1. Một số ứng dụng data mining trong viễn thông 17
2.1.1. Phát hiện gian lận (fraud detection) 17
2.1.2. Các ứng dụng quản lý và chăm sóc khách hàng 17
2.1.3. Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn
thông (Network fault isolation) 19
2.2. Nghiên cứu CSDL của mạng di động VNPT 19
2.2.1. Các tập CSDL quản lý thuê bao liên quan đến bài toán 20
2.2.2. Phân lớp dự đoán xu hướng khách hàng 21
Hình 2.1. Xây dựng Mô hình huấn luyện 23
Hình 2.2. Sử dụng mô hình huấn luyện để dự đoán 25
2.2.3 Thuật toán K-Nearest Neighbors [16] 32
Hình 2.3 Traning samples thuật toán KNN 34
Hình 2.4 Sắp xếp khoảng cách thuật toán KNN 35
Hình 2.5 Kết quả ví dụ thuật toán KNN 35
2.2.4. Phân lớp Bayes 36
Hình 2.6. Dữ liệu quan sát D và tập giả thiết h 37
Bảng 2.1. Mối quan hệ giữa 2 biến thu nhập và loại xe hơi 38
Bảng 2.3. Bảng phần trăm theo dòng 39
Bảng 2.6. Các giá trị trong bảng phần trăm theo cột 40

2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11]. 40
Bảng 2.7. Bảng so sánh ưu điểm của các thuật toán 41
Bảng 2.8. So sánh các tính năng của các thuật toán 41
Bảng 2.10. Bảng cơ sở dữ liệu sử dụng dịch vụ 45
2.3. Kết luận chương 2 47
3.1. Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của
khách hàng 49
3.1.1. Cách giải quyết yêu cầu bài toán 49
3.1.2. Phương pháp triển khai 49
3.1.3. Nội dung triển khai 49
3.1.4. Xây dựng tập CSDL huấn luyện 50
Hình 3.1. Kiến trúc hệ thống phân lớp 54
Bảng 3.1. Bảng chi tiết cuộc gọi (CDR’s) 55
Bảng 3.2. Bảng cơ sở dữ liệu tính cước 55
Bảng 3.3. Bảng thông tin khách hàng 56
Bảng 3.4. Bảng thông tin tổng hợp khách hàng 56
3.2. Xây dựng ứng dụng 57
3.2.1 Giới thiệu 57
3.2.2. Quá trình phát triển 58
3.2.3. Xây dựng Chương trình 58
Hình 3.3. Cơ sở dữ liệu huấn luyện 59
3.2.4. Đánh giá 62
3.3. Kết luận chương 3 62
1. Kết luận 63
2. Hướng phát triển tiếp theo 63
TÀI LIỆU THAM KHẢO 65
DANH MỤC HÌNH VẼ
Trang
Cơ sở khoa học và tính thực tiễn của đề tài: 1
a. Cơ sở khoa học: 1

b. Tính thực tiễn 1
c. Mục tiêu của đề tài 3
d. Phương pháp nghiên cứu 3
1.1. Tìm hiểu về khai phá dữ liệu 4
1.1.1.Mục tiêu, nguồn gốc của khai phá dữ liệu 4
Hình 1.1. Nguồn gốc khai phá dữ liệu 5
1.1.2.Lý do khai phá dữ liệu [12] 5
1.2.Quá trình khai phá dữ liệu 6
1.2.1.Tiền xử lý dữ liệu 7
1.2.2.Xây dựng và xác nhận mô hình 7
1.2.3.Áp dụng và đánh giá mô hình 8
1.3. Các kỹ thuật khai phá dữ liệu 8
1.3.1.Phân lớp 9
1.3.2.Phân cụm 9
1.3.3.Luật kết hợp 10
1.3.4.Mẫu tuần tự 10
1.3.5.Cây quyết định (Decision tree) và luật (Rule) 11
Hình 1.2. Cây quyết định từ bảng training data 12
1.3.6.Phương pháp dựa trên mẫu (Based-on Pattern) 14
1.3.7.Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on
Probability Graph) 14
1.3.8.Mạng Nơron (Neuron Network) 15
1.3.9.Thuật giải di truyền (Genetic Algorithm) 15
1.4. Ứng dụng, thách thức và hướng phát triển của KPDL 16
1.5. Kết luận chương 1 16
2.1. Một số ứng dụng data mining trong viễn thông 17
2.1.1. Phát hiện gian lận (fraud detection) 17
2.1.2. Các ứng dụng quản lý và chăm sóc khách hàng 17
2.1.3. Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn
thông (Network fault isolation) 19

2.2. Nghiên cứu CSDL của mạng di động VNPT 19
2.2.1. Các tập CSDL quản lý thuê bao liên quan đến bài toán 20
2.2.2. Phân lớp dự đoán xu hướng khách hàng 21
Hình 2.1. Xây dựng Mô hình huấn luyện 23
Hình 2.2. Sử dụng mô hình huấn luyện để dự đoán 25
2.2.3 Thuật toán K-Nearest Neighbors [16] 32
Hình 2.3 Traning samples thuật toán KNN 34
Hình 2.4 Sắp xếp khoảng cách thuật toán KNN 35
Hình 2.5 Kết quả ví dụ thuật toán KNN 35
2.2.4. Phân lớp Bayes 36
Hình 2.6. Dữ liệu quan sát D và tập giả thiết h 37
2.2.5 Thực nghiệm, đánh giá chung và so sánh của các thuật toán [11]. 40
2.3. Kết luận chương 2 47
3.1. Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của
khách hàng 49
3.1.1. Cách giải quyết yêu cầu bài toán 49
3.1.2. Phương pháp triển khai 49
3.1.3. Nội dung triển khai 49
3.1.4. Xây dựng tập CSDL huấn luyện 50
Hình 3.1. Kiến trúc hệ thống phân lớp 54
3.2. Xây dựng ứng dụng 57
3.2.1 Giới thiệu 57
3.2.2. Quá trình phát triển 58
3.2.3. Xây dựng Chương trình 58
Hình 3.3. Cơ sở dữ liệu huấn luyện 59
3.2.4. Đánh giá 62
3.3. Kết luận chương 3 62
1. Kết luận 63
2. Hướng phát triển tiếp theo 63
TÀI LIỆU THAM KHẢO 65

MỞ ĐẦU
Cơ sở khoa học và tính thực tiễn của đề tài:
a. Cơ sở khoa học:
Công nghệ thông tin đang phát triển mạnh mẽ và việc ứng dụng công
nghệ thông tin trong nhiều lĩnh vực đời sống, kinh tế xã hội đã làm lượng dữ
liệu được thu thập và lưu trữ ở các hệ thống thông tin tăng lên một cách nhanh
chóng. Trước tình hình đó, việc khai thác và chọn lọc những dữ liệu có ích từ
lượng dữ liệu khổng lồ hay phát hiện được những dữ liệu đặc biệt để biết
được những thao tác bất thường đó là việc cần thiết, đóng vai trò quyết định
thành công trong mọi hoạt động. Các dữ liệu chắt lọc đó sẽ giúp cải thiện hoạt
động trong hiện tại hay đưa ra những dự đoán giúp việc đưa ra quyết định
trong tương lai sẽ chính xác hơn.
Với những lý do đó, nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân
tích dữ liệu, được đặt ra và nó đòi hỏi phải được xử lý thông minh và hiệu quả
hơn. Từ đó đã làm phát triển kỹ thuật mới và với kỹ thuật này cho phép ta khai
thác được tri thức hữu dụng từ cơ sở dữ liệu lớn được gọi là các kỹ thuật khai
phá dữ liệu (Data Minning – DM). Các kỹ thuật khai phá dữ liệu được ứng dụng
trong nhiều lĩnh vực như: viễn thông, kinh tế, tài chính, y tế, giáo dục, an ninh…
b. Tính thực tiễn
Ngày nay, các công ty coi khách hàng là trung tâm. Họ cần có một môi
trường cho phép hiểu rõ những yêu cầu của khách hàng. Nghành công nghiệp
viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm: Chi tiết cuộc
gọi, thông tin cảnh báo tình trạng hệ thống mạng viễn thông và thông tin dữ
liệu về khách hàng. Các công ty viễn thông nắm bắt rất rõ các thông tin về
khách hàng của mình. Họ biết những khách hàng của họ là ai, dễ dàng theo
dõi những hành vi, thói quen của khách hàng. Một tập các hoạt động cho thực
hiện công việc để xác định, điều kiện, bổ sung, phát triển, giữ lại những khách
hàng trung thành và lợi nhuận bằng cách cung cấp các sản phẩm hoặc dịch vụ
tới đúng khách hàng, đúng kênh, đúng thời điểm và giá thành. Khi đó một sản
phẩm hoặc một dịch vụ đúng nghĩa là khi sản phẩm hoặc dịch vụ đó phù hợp

với khách hàng đang cần được xem xét. Ứng dụng kỹ thuật KPDL để phát
hiện ra các quy luật ẩn chứa trong khối dữ liệu khổng lồ đó và đưa ra những
dự đoán, quyết định đúng, sẽ mang lại cho các doanh nghiệp viễn thông nhiều
cơ hội để phát triển các dịch vụ mang tính thực tiễn cao.
Lý do cho việc sử dụng KPDL cho công việc dự đoán thuê bao có khả
năng rời bỏ mạng viễn thông:
• Thị trường cạnh tranh: Sau nhiều năm là thị trường độc quyền, thị
trường viễn thông ngày nay trở nên rất cạnh tranh. Khi thị trường là độc
quyền thì hầu như không có biến động, nhưng khi thị trường cạnh tranh quyết
liệt thì mọi thứ sẽ thay đổi liên tục. Khách hàng có thể chuyển đổi nhà cung
cấp dễ dàng, vì có rất nhiều lựa chọn. Vì lý do đó, những công ty viễn thông
cần ứng dụng KPDL để đạt những lợi thế cạnh tranh. Bằng cách hiểu những
hành vi và thói quen của khách hàng, những công ty viễn thông sẽ đưa ra
những chiến lược quảng bá hiệu quả, đưa ra những sản phẩm mà khách hàng
ưa thích, phát triển khách hàng trung thành và tăng lợi ích cho khách hàng.
• Tốc độ phát triển thuê bao: Số lượng thuê bao đề cập đến doanh thu
hàng năm hoặc hàng tháng dựa trên cơ sở khách hàng. Việc cạnh tranh dẫn
đến tỉ lệ phát triển thuê bao cao. Ban đầu, việc tăng trưởng trong thị trường
viễn thông tăng theo cấp số nhân, do có nhiều khách hàng mới, tốc độ phát
triển thuê bao không phải là vấn đề. Khi thị trường trở nên bão hòa, tốc độ
phát triển thuê bao giảm. Việc bão hòa của các thuê bao và sự cạnh tranh
ngày càng gay gắt dẫn đến việc những công ty viễn thông sẽ phải hướng tới
những khách hàng đã có và tìm cách giữ họ lại. KPDL có thể dùng trong việc
phân tích tốc độ phát triển thuê bao để dự đoán dựa trên cơ sở dữ liệu cụ thể
là khách hàng sẽ có hoặc vẫn dùng sản phẩm của công ty và tại sao.
• Bộ dữ liệu đồ sộ: Các công ty viễn thông có một khối lượng dữ liệu đồ
sộ. Khi những sản phẩm chính của công ty được sử dụng, mỗi khách hàng đã
tạo ra hàng trăm dịch vụ trên một ngày. Một bản ghi cuộc gọi được lưu trữ
trong CSDL và nó là một nguồn dữ liệu rất lớn. Các công ty viễn thông cũng
lưu trữ dữ liệu khách hàng, miêu tả khách hàng, dữ liệu mạng, và miêu tả họ

sử dụng dịch vụ nào.
Dựa trên việc phân loại thành các nhóm khách hàng khác nhau và những
nhu cầu, sở thích, thói quen của từng nhóm đối tượng khách hàng, nhà quản lý
sẽ dự đoán được những khách hàng có khả năng rời bỏ mạng di động của mình.
Từ đó sẽ đưa ra được những chiến lược chăm sóc khách hàng trên từng nhóm
đối tượng khách hàng khác nhau nhằm níu giữ khách hàng trước khi họ có ý
định rời bỏ mạng.
c. Mục tiêu của đề tài
Nghiên cứu kỹ thuật khai phá dữ liệu nhằm ứng dụng phân nhóm khách
hàng để dự đoán những khách hàng có khả năng rời mạng.
d. Phương pháp nghiên cứu
• Về lý thuyết:
- Nghiên cứu tổng quan về khai phá dữ liệu.
- Nghiên cứu về một số kỹ thuật khai phá dữ liệu: Luật kết hợp, Phân lớp,
Phân cụm.
- Nghiên cứu công cụ khai phá dữ liệu.
- Nghiên cứu thực tiễn bộ dữ liệu và lựa chọn phương pháp khai phá dữ
liệu phù hợp.
• Về thực nghiệm:
- Sử dụng các kết quả nghiên cứu từ lý thuyết ứng dụng vào cơ sở dữ liệu
viễn thông của mạng di động VNPT.
- Xây dựng tool xử dụng thuật toán Bayes phân lớp khách hàng, dự đoán
khách hàng có khả năng rời mạng.
Chương 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. Tìm hiểu về khai phá dữ liệu
Sự phát triển của công nghệ phần cứng máy tính trong thời gian qua đã
dẫn đến nguồn cung cấp các phương tiện lưu trữ dữ liệu tốt với giá cả phải
chăng. Song song với điều đó, những tiến bộ trong quá trình thu thập đã dẫn
tới sự tăng trưởng với số lượng lớn dữ liệu.

Công cụ KPDL thực thi việc phân tích dữ liệu và khám phá ra những
mẫu quan trọng bị ẩn dấu. Việc mở rộng giữa dữ liệu và thông tin được gọi là
công cụ phát triển khai thác hệ thống – công cụ khai phá dữ liệu.
1.1.1. Mục tiêu, nguồn gốc của khai phá dữ liệu
KPDL là quá trình tìm kiếm mẫu mới, những thông tin tiềm ẩn mang
tính dự đoán trong các khối dữ liệu lớn. Những công cụ KPDL có thể phát
hiện những xu hướng tương lại, các tri thức mà KPDL giúp doanh nghiệp sẽ
đưa ra các quyết định kịp thời. Với ưu điểm trên, KPDL giúp doanh nghiệp sẽ
đưa ra các quyết định kịp thời. Với ưu tiên trên, KPDL đã chứng tỏ được tính
hữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh và được
ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, y học, giáo dục,
viễn thông…
Khai phá dữ liệu liên quan chặt chẽ đến những lĩnh vực sau: Thống kê,
máy học, cơ sở dữ liệu.
• Thống kê
• Trí tuệ nhân tạo (Artifical Intelligence - AI)
• Hệ thống CSDL
Hình 1.1. Nguồn gốc khai phá dữ liệu
1.1.2. Lý do khai phá dữ liệu
[12]
Dựa trên thực tế, trên một khía cạnh nào đó, là đang tồn tại một lượng dữ
liệu hệ thống khổng lồ mà chưa được khám phá một cách cụ thể. Nghĩa là
đang có rất nhiều thông tin “ẩn giấu” và đã nằm ngoài khả năng phát hiện ra
bởi những phương thức truyền thống và dựa trên khả năng phân tích chủa con
người. Sự cần thiết của “khai phá” dữ liệu có thể miêu tả bằng sự cần thiết
trong lĩnh vực cuộc sống thực:
• Kinh tế, tài chính
• Chăm sóc sức khỏe
• Nghiên cứu khoa học
Statistics

Artifical
Intelligence
Machine
Learning
Natural
Computing
DATA MINING
DATA MINING
Database
Systems
Vậy, KPDL là gì? Tuy nhiên rất khó khăn để đưa ra một định nghĩa
duy nhất mà phản ánh toàn sự kiện của hiện tượng. Vì thế, với từng cách tiếp
cận khác nhau sẽ có cái nhìn khác nhau về KPDL:
1 Là việc tìm kiếm tự động những mẫu trong CSDL khổng lồ, sử dụng
công nghệ tính toán từ thống kê, học máy và nhận biết mẫu;
2 Là việc khai thác sự có ích của thông tin ẩn, mà trước đó chưa biết và
có khả năng thông tin là hữu ích từ dữ liệu;
3 Kỹ thuật tách thông tin hữu dụng từ một tập dữ liệu lớn hoặc CSDL;
4 Việc thăm dò tự động hoặc bán tự động và phân tích một lượng lớn
của dữ liệu, nhằm phát hiện những mô hình có ý nghĩa;
5 Tiến trình tự động khám phá thông tin, việc xác định mô hình và mối
quan hệ ẩn dấu trong dữ liệu.
Tóm lại, KPDL là quá trình phân tích của một tập dữ liệu quan sát
(thường là rất lớn) để tìm ra những mối quan hệ ẩn giấu và tổng kết dữ liệu
theo nhiều cách nhằm dễ hiểu và dễ sử dụng cho người sử dụng dữ liệu đó.
1.2. Quá trình khai phá dữ liệu
Nói một cách đơn giản KPDL liên quan đến việc “tách” hoặc “dò” tri
thức từ một lượng lớn của dữ liệu, khai phá tri thức từ dữ liệu, tách tri thức,
phân tích mẫu dữ liệu…
Quá trình khai phá gồm những bước tuần tự như sau:

1. Làm sạch dữ liệu (loại bỏ những dữ liệu dư thừa không có thông tin)
2. Tích hợp dữ liệu ( khi nhiều nguồn dữ liệu được kết hợp)
3. Lựa chọn dữ liệu ( lựa chọn những dữ liệu tích hợp cho việc phân tích
được thực hiện lấy từ CSDL)
4. Chuyển đổi dữ liệu (nơi dữ liệu được chuyển đổi hoặc hợp nhất thành
một thể thích hợp cho việc khai phá bằng cách thực hiện các hoạt động tóm
tắt hoặc tích hợp)
5. Khai phá dữ liệu (là tiến trình quan trọng với những phương thức
thông minh được áp dụng cho việc tách những mẫu dữ liệu)
6. Định giá mẫu (Xác định những mẫu thực sự có ích miêu tả dữ liệu dựa
trên một đơn vị đo lường sự có ích)
7. Miêu tả tri thức (khi việc miêu tả mô hình và dữ liệu thu được được sử
dụng trong việc khai phá tri thức cho người dùng)
Kiến trúc của một hệ thống KPDL điển hình chứa các thành phần sau:
• CSLD, kho dữ liệu, web hoặc những hệ thống thông tin khác
• Máy chủ CSDL hoặc kho dữ liệu
• Dựa trên cơ sở tri thức
• Cách thức KPDL
• Module đánh giá mô hình
• Giao diện người sử dụng
1.2.1. Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu và xử lý dữ liệu. Trước
khi sử dụng bất kỳ kỹ thuật KPDL nào để “khai phá” dữ liệu, một vấn đề cực
kỳ cần thiết là phải xử lý dữ liệu thô. Đầu tiên, cần phải xử lý những vấn đề
về chất lượng dữ liệu như nhiễu, bất thường… Khi vấn đề chất lượng dữ liệu
được giải quyết, sẽ thực hiện công việc tiền xử lý dữ liệu, về nguyên tắc bao
gồm những tủ tục sau:
• Tập hợp (Aggregation)
• Lấy mẫu (Sampling)
• Giảm chiều thông tin (Dimensionality reduction)

• Chọn tính năng (Feature creation)
• Rời rạc và nhị phân (Discretization and binarization)
• Chuyển đổi thuộc tính (Atrribute transformation)
1.2.2. Xây dựng và xác nhận mô hình
Xây dựng và xác nhận mô hình là một bước tiến của KPDL sau tiến trình
xử lý. Chú ý rằng, trong một tiến trình KPDL, trạng thái dữ liệu xử lý sẽ lặp
lại nếu cần thiết. Một khi dữ liệu “khai phá” được chọn, cần phải quyết định
lấy mẫu dữ liệu như thế nào khi không làm việc với toàn bộ CSDL.
Một khi dữ liệu đã phân tích được xác định, khi đó sẽ quan tâm đến mục
đích của tiến trình KPDL
• Hiểu các giới hạn
• Chọn hướng nghiên cứu thích hợp
• Kiểu nghiên cứu
• Lựa chọn thành phần
• Vấn đề lấy mẫu
• Đọc dữ liệu và xây dựng mô hình
1.2.3. Áp dụng và đánh giá mô hình
Sau khi mô hình xây dựng, áp dụng, cần phải quan tâm đến một số tính
năng quan trọng:
• Độ chính xác của mô hình (model accuracy)
• Độ dễ hiểu của mô hình (model intelligibility)
• Khả năng thực thi (performance)
• Nhiễu (noise)
Mỗi mô hình sẽ có một ngưỡng để chấp nhận nhiễu và đó là lý do cần
của tiền xử lý dữ liệu.
1.3. Các kỹ thuật khai phá dữ liệu
Theo nguyên lý, khi sử dụng phương thức KPDL để giải quyết một vấn
đề cụ thể, cần phải hình dung ra loại vấn đề là gì, có thể tổng kết thành hai
loại chính, Cũng liên quan đến các đối tượng của khai phá dữ liệu:
• KPDL dự đoán (predictive method): Là đưa ra các dự đoán dựa vào

các suy diễn trên dữ liệu hiện thời. KPDL dự đoán bao gồm các kỹ thuật phân
loại (classification), hồi quy (regession)…
• KPDL mô tả (descriptive method): Có nhiệm vụ mô tả về các tính chất
hoặc đặc tính chung của dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật:
Phân cụm (clustering), phân tích luật kết hợp (association rules), mẫu tuần tự
(sequential patterms)…
1.3.1. Phân lớp
Phân lớp là quá trình xây dựng một mô hình để mô tả dữ liệu được chia
như thế nào, nói cách khác, phân lớp là quá trình xây dựng một mô hình bằng
cách gán các đối tượng dữ liệu (thuộc tính) vào các lớp đã xác định.
Tiến trình phân lớp dựa trên 4 thành phần cơ bản:
• Lớp (class)
• Dự đoán (predictors)
• Tập dữ liệu được đào tạo (Training dataset)
• Tập dữ liệu kiểm thử (Testing dataset)
Đặc trưng của tiến trình phân loại gồm những điểm sau:
• Input: tập dữ liệu đào tạo chứa những đối tượng với thuộc tính của nó,
với một số thuộc tính đã được gán nhãn;
• Output: mô hình (classifier) được gán bởi những nhãn cụ thể cho mỗi
đối tượng (phân lớp các đối tượng từng các thư mục), dựa trên những thuộc
tính khác;
• Mô hình sử dụng để dự đoán những lớp mới, những đối tượng chưa
biết. Tập dữ liệu kiểm thử cũng dùng để xác định độ chính xác của mô hình.
Khi một mô hình phân loại được xây dựng, nó sẽ phải so sánh với
những mô hình khác để lựa chọn mô hình tốt nhất. Liên quan đến việc so sánh
giữa các mô hình phân loại (mô hình phân lớp), sẽ có một số thành phần cần
được tính đến.
• Khả năng dự đoán (predictive accuracy)
• Tốc độ (speed)
• Độ mạnh mẽ (robustness)

• Độ mềm dẻo (scalability)
• Tính dễ diễn giải (interpreability)
• Độ đơn giản (simplicity)
1.3.2. Phân cụm
Phân cụm dữ liệu là xử lý một tập các đối tượng vào trong các lớp đối
tượng giống nhau. Một cụm là một tập hợp các đối tượng dữ liệu giống nhau
trong phạm vi cùng một cụm và không giống nhau đối với các đối tượng
trong các cụm khác. Số các cụm dữ liệu được phân ở đây có thể được xác
định trước theo kinh nghiệm hoặc có thể được tự động xác định theo phương
pháp phân cụm.
Một số phương pháp phân cụm chính trong khai phá dữ liệu:
• Phân cụm dữ liệu dựa trên phân cụm phân cấp: phương pháp phân cụm
phân cấp làm việc bằng cách nhóm các đối tượng vào trong một cây các cụm.
• Phân cụm phân cấp tích đống và phân ly:
 Phân cụm phân cấp tích đống: bắt đầu bằng cách đặt mỗi đối tượng
vào trong cụm của bản thân nó, sau đó kết nhập các cụm nguyên tử này vào
trong các cụm ngày càng lớn hơn cho tới khi tất cả các đối tượng nằm trong
một cụm đơn hay cho tới khi thỏa mãn điều kiện dừng cho trước.
 Phân cụm phân cấp phân ly: Phương pháp này ngược lại bằng cách
bắt đầu với tất cả các đối tượng trong cụm, chia nhỏ nó vào trong các thành
phần ngày càng nhỏ hơn cho tới khi mỗi đối tượng hình thành nên một cụm
hay thỏa mãn một điều kiện dừng cho trước.
1.3.3. Luật kết hợp
Luật kết hợp là tiến trình xác định những luật phụ thuộc giữa những
nhóm khác nhau của hiện tượng. Khai phá dữ liệu dựa trên hai bước:
• Tìm tất cả các tập mục phổ biến, được xác định qua tính hỗ trợ và thỏa
mãn độ hỗ trợ cực tiểu;
• Sinh ra các luật kết hợp từ các mục phổ biến, các luật phải thỏa mãn
độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụng hiệu quả trong các lĩnh vực như quảng

cáo có chủ đích, phân tích quyết định, quản lý kinh doanh…
1.3.4. Mẫu tuần tự
Mẫu tuần tự là xác định những mẫu mà sự xuất hiện của chúng trong
CSLD thỏa mãn những ngưỡng tối thiểu. Luật tuần tự được sinh ra từ mẫu
tuần tự, biểu diễn mối quan hệ giữa hai loạt sự kiện, loạt sự kiện này sẽ xảy ra
sau loạt sự kiện kia, tuần tự theo thời gian, thể hiện tri thức tiềm ẩn của dữ
liệu tuần tự.
Khai thác mẫu tuần tự được ứng dụng trong nhiều lĩnh vực như: Phân
tích thị trường, phân tích mẫu truy cập web, dự đoán nhu cầu mua sắm của
khách hàng.
1.3.5. Cây quyết định (Decision tree) và luật (Rule)
Cây quyết định: là một dạng mô tả tri thức đơn giản nhằm phân phối các
đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là
tên các thuộc tính, các cung được gắn giá trị có thể của các thuộc tính, các lá
miêu tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi trên
cây, qua các cung tương ứng với giá trị của thuộc tính của đối tượng tới lá.
Tóm lại, cho dữ liệu về các đối tượng cùng các thuộc tính cùng với lớp
của nó, cây quyết định sẽ sinh ra các luật để dự đoán các đối tượng chưa biết.
Ví dụ:
Ta có dữ liệu (Training data) về 10 đối tượng (người). Mỗi đối tượng
được mô tả bởi 4 thuộc tính là Gender, Car Ownership, Travel Cost/km,
Incom Level và một thuộc tính phân loại (Category attribute) là
Tranportation mode. Trong đó thuộc tính Gender có kiểu binary, thuộc tính
Car Ownership có kiểu Quantitative integer (0, 1), Travel Cost/km và Income
Level có kiểu dữ liệu Ordinal.
Training data cho biết sự lựa chọn về loại phương tiện vận chuyển (car,
bus, train) của khách dựa vào 4 thuộc tính đã cho.
Attributes Classes
Gender Car
Ownership

Travel
Cost/km
Income
Level
Tranportation
mode
Male 0 Cheap Low Bus
Male 1 Cheap Medium Bus
Female 1 Cheap Medium Train

×