Tải bản đầy đủ (.doc) (108 trang)

ứng dụng kỹ thuật khai phá dữ liệu vào hoạt động chăm sóc khách hàng tại khách sạn vọng cảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.89 MB, 108 trang )

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
VÀO HOẠT ĐỘNG CHĂM SÓC KHÁCH HÀNG
TẠI KHÁCH SẠN VỌNG CẢNH
THÀNH PHỐ HUẾ
NGUYỄN THỊ THIA
KHÓA HỌC 2009-2013
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
VÀO HOẠT ĐỘNG CHĂM SÓC KHÁCH HÀNG
TẠI KHÁCH SẠN VỌNG CẢNH
THÀNH PHỐ HUẾ
Sinh viên thực hiện: Nguyễn Thị Thia Giáo viên hướng dẫn
Lớp: K43 Tin Học Kinh Tế ThS. Dương Thị Hải Phương
Niên khóa: 2009-2013
Huế, tháng 5 năm 2013
LỜI CẢM ƠN
Để hoàn thành khóa luận tốt nghiệp này, trong quá trình
nghiên cứu và thực hiện ngoài sự nổ lực của bản thân còn có sự
giúp đỡ của thầy cô, gia đình, bạn bè và cán bộ nhân viên khách
sạn Vọng Cảnh.
Tôi xin trân trọng cám ơn quý thầy cô đã dạy dỗ tôi
suốt 4 năm qua.
Tôi xin gửi lời cám ơn chân thành đến Cô giáo ThS. Dương
Thị Hải Phương đã tận tình hướng dẫn, giúp đỡ tôi trong suốt


thời gian thực hiện khóa luận.
Tiếp đến tôi xin gửi lời cảm ơn đến ban lãnh đạo cùng các
anh chị trong Khách sạn Vọng Cảnh đ ã nhiệt tình giúp đỡ, tạo
điều kiện cho tôi hoàn thành tốt thời gian thực tập.
Cuối cùng tôi xin cảm ơn gia đình và bạn bè đã động viên,
tạo mọi điều kiện để tôi có thể hoàn thành khóa luận này.
Tuy nhiên, vì thời gian có hạn nên khóa luận không thể
tránh khỏi sai sót, kính mong nhận được sự đóng góp ý kiến,
chỉ bảo của thầy cô để khóa luận được hoàn thiện hơn.
Tôi xin chân thành cảm ơn!
Huế, tháng 5 năm 2013
Sinh viên
Nguyễn Thị Thia
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
MỤC LỤC
DANH MỤC HÌNH VẼ vii
DANH MỤC BẢNG BIỂU vii
THUẬT NGỮ VIẾT TẮT ix
MỞ ĐẦU 1
1. Lý do chọn đề tài 1
2. Mục tiêu nghiên cứu 2
3. Đối tượng và phạm vi nghiên cứu 2
4. Phương pháp nghiên cứu 2
5. Cấu trúc khóa luận 2
CHƯƠNG I 4
TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 4
1.1. Phát hiện tri thức 4
1.1.1. Khái niệm và sự cần thiết của phát hiện tri thức 4
1.1.2. Tiến trình thực hiện tri thức (1) 4
1.2. Khai phá dữ liệu 6

1.2.1. Khái niệm 6
1.2.2. Quá trình khai phá dữ liệu (6) 6
1.2.3. Nhiệm vụ chính của khai phá dữ liệu 8
1.2.4. Phương pháp khai phá dữ liệu 9
1.2.4.1. Cây quyết định và luật 9
1.2.4.2. Phát hiện luật kết hợp 10
1.2.4.3. Các phương pháp phân lớp và hồi quy 10
Nguyễn Thị Thia i
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
1.2.4.4. Phương pháp quy nạp/ suy diễn 10
1.2.4.5. Phân nhóm và phân đoạn 11
2.2.4.6. Các phương pháp dựa trên mẫu 11
1.2.4.7. Mô hình phụ thuộc dựa trên đồ thị xác suất 12
1.2.4.8. Mô hình học quan hệ 12
1.2.4.9. Khai phá dữ liệu dạng văn bản 12
1.2.4.10. Mạng neuron 13
1.2.4.11. Giải thuật di truyền 13
1.2.5. Những ứng dụng của khai phá dữ liệu (4) 14
CHƯƠNG II 16
BÀI TOÁN KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ PHÂN CỤM 16
2.1. Luật kết hợp 16
2.1.1. Các khái niệm 16
2.1.1.1. Luật kết hợp 16
2.1.1.2. Độ hỗ trợ (support) 16
2.1.1.3. Độ tin cậy 17
2.1.1.4. Tập mục (items) 18
2.1.2. Các tính chất 18
2.1.2.1. Tính chất của tập mục phổ biến 18
2.1.2.2. Tính chất của luật kết hợp 19
2.1.3. Giới thiệu bài toán khai phá luật kết hợp 20

2.1.4. Thuật toán Apriori trong luật kết hợp 22
2.1.4.1 Giới thiệu thuật toán 22
2.1.4.2. Bài toán 1: xác định các tập mục phổ biến 23
Nguyễn Thị Thia ii
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
2.1.4.3. Bài toán 2: Sinh các luật kết hợp từ tập mục phổ biến 26
2.2. Phân cụm dữ liệu 30
2.2.1. Khái niệm 30
2.2.2. Các yêu cầu về thuật toán phân cụm dữ liệu 30
2.2.3. Các kiểu dữ liệu trong phân cụm 31
2.2.4. Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu 32
2.2.5. Thuật toán K-means trong phân cụm dữ liệu (7) 37
2.2.5.1 Giới thiệu bài toán: 37
2.2.5.2 Thuật toán K-means 37
CHƯƠNG III 42
ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀO HOẠT ĐỘNG CHĂM SÓC KHÁCH
HÀNG TẠI KHÁCH SẠN VỌNG CẢNH 42
3.1. Tổng quan về khách sạn Vọng Cảnh 42
3.1.1. Thông tin chung 42
3.1.2. Quá trình hình thành, cơ cấu tổ chức bộ máy khách sạn 42
3.1.3. Cơ sở vật chất kỹ thuật 43
Stt 44
Loại phòng 44
Số lượng 44
Chất lượng phòng 44
1 44
Phòng tiêu chuẩn 44
8 44
Nguyễn Thị Thia iii
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương

Diện tích 35m2, có cửa sổ, giường đơn hoặc giường đôi; phòng tắm với bồn
tắm, bồn rửa mặt và vòi hoa sen, khăn tắm, dép đi trong phòng, điện thoại quốc
tế; truyền hình cáp TV LCD 25-32 inch; tủ lạnh nhỏ; nước nóng tại phòng 44
2 44
Phòng cao cấp 44
9 44
Diện tích 30m2; có ban công, giường đơn; phòng tắm với bồn tắm, bồn rửa mặt
và vòi hoa sen; máy lạnh riêng; truyền hình cáp, TV LCD 32inch internet Wifi;
tủ lạnh nhỏ, nước nóng 44
3 44
Phòng gia đình 44
10 44
Diện tích 35m2; có cửa sổ; giường đôi; phòng tắm với bồn tắm. bồn rửa mặt và
vòi hoa sen; điện thoại quốc tế; truyền hình cáp; internet Wifi; tủ lạnh nhỏ;
nước nóng tại phòng 44
3.1.4. Chất lượng dịch vụ lưu trú của khách sạn 45
3.2. Phần mềm khai phá dữ liệu Weka 47
3.2.2 Môi trường Explorer 50
3.2.3 Xây dựng luật kết hợp trong Weka 50
3.2.4. Xây dựng phân cụm dữ liệu trong Weka 53
3.3. Ứng dụng khai phá luật kết hợp và phân cụm trong weka vào cơ sở dữ liệu quản
lý khách hàng của khách sạn Vọng Cảnh 54
3.3.1. Cơ sở dữ liệu bài toán 54
3.3.2. Tiền xử lý dữ liệu bài toán 55
VN: trongnuoc 58
Nguyễn Thị Thia iv
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Cách thực hiện: 58
3.3.3. Khai thác luật kết hợp bằng thuật toán Apriori 68
Dựa trên tập luật tìm được kết hợp với ý kiến chuyên gia, nghiên cứu tiến hành

lọc ra một số luật đặc trưng và phân nhóm chúng để đánh giá sự tác động, phụ
thuộc lẫn nhau giữa các thuộc tính liên quan đến hoạt động lưu trú của khách
hàng tại khách sạn: 77
Đối với lý do lưu trú: 77
3.3.4. Khai thác phân cụm dữ liệu bằng thuật toán K-means 79
79
Qua kết quả thu được từ luật kết hợp và phân cụm dữ liệu, rút ra một số nhận
xét chung về thông tin thu được khi lấy dữ liệu 145 khách hàng lưu trú tại
khách sạn Vọng Cảnh: 81
3.4.Một số giải pháp hỗ trợ chăm sóc khách hàng tại khách sạn Vọng Cảnh 81
Khách hàng lưu trú tại sạn chủ yếu là khách đi công tác ngắn ngày. Vì khách
chủ yếu là làm việc nên ban quản lý cần thường xuyên kiểm tra chất lượng dịch
vụ wifi, dịch vụ điện thoại quốc tế, bổ sung dịch vụ giặt là và nhiệt tình trong
việc khách nhờ nhân viên ra ngoài mua giúp một số đồ dùng khác 82
KẾT LUẬN 85
KPDL là một lĩnh vực khoa học liên ngành. Kỹ thuật KPDL dùng dữ liệu cũ để
tạo ra thông tin có ích đối với người sử dụng nó. Ứng dụng KPDL trong lĩnh
vực kinh doanh khách sạn thông qua đề tài “Ứng dụng kỹ thuật khai phá dữ
liệu vào hoạt động chăm sóc khách hàng tại khách sạn Vọng Cảnh –thành phố
Huế”. Đề tài đã tổng kết các kiến thức cơ bản nhất của lý thuyết KPDL,
phương pháp khai phá luật kết hợp và phương pháp phân cụm dữ liệu. Có thể
coi đề tài là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiến thức cơ bản
trong phương pháp phát hiện luật kết hợp bằng thuật toán Apriori và phương
pháp phân cụm dữ liệu bằng thuật toán K-Means. Đồng thời, từ việc tìm hiểu
Nguyễn Thị Thia v
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
phần mềm khai phá dữ liệu Weka; các vấn đề để xử lý dữ liệu liên quan đến
khai phá luật kết hợp nhằm phát hiện và đưa ra mối liên hệ giữa các giá trị dữ
liệu trong CSDL, khóa luận đã áp dụng vào bài toán thử nghiệm chăm sóc
khách hàng lưu trú tại khách sạn Vọng Cảnh, thành phố Huế và đã đưa ra được

một số giải pháp giúp công tác chăm sóc khách hàng được đảm bảo hơn 85
Dựa trên những kết quả đề tài đạt được cũng như các hạn chế còn tồn tại,
nghiên cứu đề xuất một số định hướng tìm hiểu tiếp theo của đề tài như sau:. 85
TÀI LIỆU THAM KHẢO 86
PHỤ LỤC 87
Phụ lục 1: file dữ liệu gốc khachhang.csv 87
Phụ lục 2: file dữ liệu sau khi xử lý DULIEUSAUKHIXULY.CSV 90
Nguyễn Thị Thia vi
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
DANH MỤC HÌNH VẼ
DANH MỤC BẢNG BIỂU
Nguyễn Thị Thia vii
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Nguyễn Thị Thia viii
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
THUẬT NGỮ VIẾT TẮT
Các chữ viết tắt Ý nghĩa
Conf Confidence
CSDL Cơ sở dữ liệu
DNTN Doanh nghiệp tư nhân
KPDL Khai phá dữ liệu
Sup Support
Nguyễn Thị Thia ix
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
MỞ ĐẦU
1. Lý do chọn đề tài
Sự phát triển mạnh mẽ của công nghệ thông tin và ngành công nghiệp phần
cứng đã làm cho khả năng thu thập và lưu trữ thông tin ngày càng nhiều. Tuy nhiên
trên thực tế thì chỉ có một lượng nhỏ dữ liệu này là luôn được phân tích. Hiện nay,
trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin để hỗ trợ việc

ra quyết định, nhưng làm thế nào để lấy được thông tin cần thiết, nhanh chóng từ một
lượng dữ liệu khổng lồ để phục vụ cho nhu cầu đó. Để giải quyết vấn đề này, một
khuynh hướng kĩ thuật mới đã được phát triển đó là Kỹ thuật khai phá dữ liệu (Data
Mining). Khai phá dữ liệu là quá trình máy tính hỗ trợ việc đào bới và phân tích các bộ
dữ liệu khổng lồ. Khai phá dữ liệu dự đoán hành vi và xu hướng trong tương lai, cho
phép các doanh nghiệp thực hiện các quyết định theo hướng chủ động, tri thức. Khai
phá dữ liệu có nhiều hướng nghiên cứu, trong số đó là các hướng Phân cụm dữ liệu và
khai phá luật kết hợp.
Trong ngành công nghiệp du lich, đặc biệt là ngành kinh doanh khách sạn, các
khách hàng luôn coi thời gian của họ tại khách sạn như là một kinh nghiệm chứ không
phải chỉ là một chuyến viếng thăm. Các hoạt động ăn uống, giải trí, spa, hội thảo…đã
nuôi dưỡng khái niệm về kinh nghiệm khách hàng. Vai trò của khai thác dữ liệu và
phân tích là có thể giúp chúng ta hiểu hơn về những nhu cầu khác nhau của khách
hàng. Mặc dù chiến lược cắt giảm chi phí và giá cả cạnh tranh có thể thu hút khách
hàng từ đối thủ cạnh tranh, tuy nhiên nhiều dịch vụ ngành công nghiệp khách sạn lợi
thế về giá là không đủ. Khai thác dữ liệu- kĩ thuật thăm dò và phân tích dữ liệu từ một
số lượng lớn dữ liệu rời rạc để khám phá các mô hình có ý nghĩa và quy tắc giúp
doanh nghiệp chọn lọc qua các lớp dữ liệu, nơi mà họ có thể dự đoán, chứ không chỉ
đơn giản là phản ứng với nhu cầu của khách hàng.
Khách sạn Vọng Cảnh với quy mô khách sạn hai sao, là loại hình khách sạn khá
phổ biến tại Huế, được xem là một trong những điểm lưu trú lý tưởng khi khách du
lịch đến Huế. Tuy nhiên, lượng khách hàng đến với Vọng Cảnh chưa nhiều và thời
gian lưu trú ngắn.
Xuất phát từ những lý do trên đề tài “ Ứng dụng khai phá dữ liệu vào hoạt động
chăm sóc khách hàng tại khách sạn Vọng Cảnh –Thành Phố Huế” được chọn thực
Nguyễn Thị Thia 1
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
hiện nhằm đề xuất một số giải pháp hỗ trợ chăm sóc khách hàng, giúp khách sạn chủ
động hơn với khách hàng và nâng cao vị thế cạnh tranh.
2. Mục tiêu nghiên cứu

Đề tài “Ứng dụng khai phá dữ liệu trong quản lý khách hàng tại khách sạn
Vọng Cảnh” nhằm đạt được những mục tiêu sau:
- Tìm hiểu lý thuyết khai phá dữ liệu.
- Tìm hiểu phần mềm khai phá dữ liệu WEKA
- Ứng dụng thuật toán Apriori và thuật toán K-Means vào cơ sở dữ liệu quản
lý khách hàng của khách sạn Vọng Cảnh để tìm ra một số tập luật phổ biến phản ánh
mối quan hệ giữa các thuộc tính liên quan tới hoạt động lưu trú của khách hàng cũng
như tìm ra các nhóm khách hàng mục tiêu của khách sạn.
- Đề xuất một số giải pháp hỗ trợ quản lý chăm sóc khách hàng tại khách sạn
Vọng Cảnh.
3. Đối tượng và phạm vi nghiên cứu
- Về nội dung: Nghiên cứu về lý thuyết khai phá dữ liệu và ứng dụng của nó
trong quản lý khách hàng tại khách sạn Vọng Cảnh.
- Về không gian: khách sạn Vọng Cảnh (Thành Phố Huế).
- Về thời gian: 21/1-12/5/2013
4. Phương pháp nghiên cứu
• Phương pháp nghiên cứu tài liệu: tham khảo các tài liệu liên quan từ các
nguồn như sách vở, báo chí.
• Phương pháp thu thập số liệu:
+ số liệu thứ cấp: các số liệu, tài liệu thu thập từ các phòng ban của khách
sạn Vọng Cảnh (thông tin khách hàng lưu trú, giá phòng,…)
+ số liệu sơ cấp: phương pháp quan sát, phỏng vấn các đối tượng liên quan
thông qua bảng hỏi.
• Phương pháp phân tích và xử lý số liệu: sử dụng thuật toán Apriori và thuật
toán K-Means bằng phần mềm khai phá Weka để phân tích và xử lý số liệu.
5. Cấu trúc khóa luận
Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu
Trình bày tổng quan về khám phá tri thức và khai phá dữ liệu.
Nguyễn Thị Thia 2
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương

Chương 2: Bài toán khai phá dữ liệu với luật kết hợp và phân cụm
Nội dung chính của chương này bao gồm: Tìm hiểu luật kết hợp; thuật toán
Apriori trong khai phá luật kết hợp; Tìm hiểu phân cụm dữ liệu; thuật toán K-Means
trong phân cụm dữ liệu.
Chương 3: Ứng dụng khai phá dữ liệu trong quản lý khách hàng tại khách sạn
Vọng Cảnh
Trình bày tổng quan về khách sạn Vọng Cảnh; tìm hiểu phần mềm khai phá dữ
liệu Weka; kết quả khai phá dữ liệu bằng thuật toán Apriori và kết quả khai phá dữ
liệu bằng thuật toán K-Means; một số giải pháp được kiến nghị hỗ trợ quản lý khách
hàng.
Nguyễn Thị Thia 3
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
CHƯƠNG I
TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
1.1. Phát hiện tri thức
1.1.1. Khái niệm và sự cần thiết của phát hiện tri thức
Phát hiện tri thức là quá trình tự động trích rút các tri thức ẩn từ một tập dữ liệu
rất lớn thông qua các mẫu hoặc mô hình.
Phát hiện tri thức trong CSDL là lĩnh vực liên quan đến các ngành như: thống
kê, học máy, CSDL, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu
năng cao…
Hiện nay, việc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản
xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập, hiểu được thông tin và hành
động dựa trên thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công
trong mọi hoạt động. Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai
thác ngày càng trở nên quan trọng và gia tăng không ngừng.
Phát hiện tri thức đã và đang được áp dụng một cách rộng rãi trong nhiều lĩnh
vực kinh doanh và đời sống khác nhau như: marketing, tài chính, ngân hàng, bảo hiểm,
khoa học, y tế, an ninh, internet,… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp
dụng kỹ thuật phát hiện tri thức vào các hoạt động sản xuất kinh doanh của mình và

thu được những lợi ích to lớn từ các tri thức đó. Ví dụ như nghiên cứu thông tin khách
hàng thì có thể phát hiện được đối tượng khách hàng ưa chuộng sản phẩm của mình,
sản phẩm nào bán chạy, hay xu hướng tiêu dùng của khách hàng,… để từ đó có chiến
lược kinh doanh phù hợp với doanh nghiệp.
Phát hiện tri thức giải quyết được yêu cầu của các nhà quản lý, nên nó có một
tầm quan trọng lớn và cần thiết đối với các hoạt động kinh doanh hiện nay.
1.1.2. Tiến trình thực hiện tri thức (1)
Mục đích của quá trình phát hiện tri thức là rút ra tri thức từ dữ liệu trong
CSDL lớn. Quá trình phát hiện tri thức gồm nhiều giai đoạn, và lặp lại, mà trong đó sự
lặp lại có thể xuất hiện ở bất cứ bước nào. Có thể mô tả quá trình đó theo mô hình sau:
Nguyễn Thị Thia 4
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Hình 1. 1: Tiến trình phát hiện tri thức
(Nguồn: www.tapchicvt.org.vn)
Bước thứ nhất: Hình thành và định nghĩa bài toán. Đây là bước tìm hiểu lĩnh
vực áp dụng, từ đó hình thành bài toán, xác định các nhiệm vụ cần hoàn thành. Bước
này cho phép chọn ra các phương pháp KPDL thích hợp với mục đích ứng dụng và
bản chất của dữ liệu.
Bước thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý số liệu thô,
còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (Làm sạch dữ liệu), xử lý việc
thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước
này thường chiếm nhiều thời gian nhất trong toàn bộ quy trình phát hiện tri thức do dữ
liệu được lấy từ nhiều nguồn khác nhau, không đồng nhất.
Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức, hay nói cách khác là trích ra
các mẫu hoặc các mô hình ẩn dưới các dữ liệu. Giai đoạn này rất quan trọng, bao gồm
các công đoạn như: chức năng, nhiệm vụ, mục đích của KPDL và phương pháp khai
phá. Thông thường, các bài toán KPDL bao gồm: các bài toán mang tính mô tả- đưa ra
tính chất chung nhất của dữ liệu, các bài toán dự báo (bao gồm cả việc phát hiện các
suy diễn dựa trên dữ liệu hiện có). Tùy theo bài toán xác định được mà ta lựa chọn các
phương pháp khai phá dữ liệu cho phù hợp.

Bước thứ tư: Sử dụng các tri thức phát hiện được. Là hiểu tri thức đã tìm được,
đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các bước trên có thể lặp đi lặp lại một số
lần, kết quả thu được có thể lấy trung bình trên tất cả các lần thực hiện. Các kết quả
Nguyễn Thị Thia 5
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong các lĩnh vực khác
nhau. Do các kết quả có thể là các dự đoán hoặc các mô tả nên chúng có thể được đưa
vào các hệ thống hỗ trợ ra quyết định nhằm tự động hóa quá trình này.
Tóm lại: phát hiện tri thức là một quá trình kết xuất ra tri thức từ kho dữ liệu mà
trong đó KPDL là công đoạn quan trọng nhất.
1.2. Khai phá dữ liệu
1.2.1. Khái niệm
KPDL là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự
đoán trong các khối dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp(1), … Từ đó
làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này.
Các tri thức mà KPDL mang lại giúp cho các công ty kinh doanh ra quyết định kịp
thời và có thể trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều
thời gian để xử lý. Sự phân tích một cách tự động và mang tính dự báo của các dữ liệu
có ưu thế hơn hẳn so với phân tích thông thường dựa trên sự kiện trong quá khứ của
các hệ hỗ trợ quyết định trước đây.
KPDL được định nghĩa là quá trình tìm kiếm thông tin (tri thức) có ích, tiềm ẩn và
mang tính dự đoán trong các khối CSDL lớn. Một số nhà khoa học xem khai phá dữ
liệu như là một cách gọi khác của một thuật ngữ rất thông dụng là phát hiện tri thức
trong CSDL vì cho rằng mục đích của quá trình phát hiện tri thức là thông tin là tri
thức có ích, những đối tượng mà chúng ta phải xử lý rất nhiều trong suốt quá trình
phát hiện tri thức lại chính là dữ liệu. Một số nhà khoa học khác thì xem KPDL như
một bước chính trong quá trình phát hiện tri thức.
1.2.2. Quá trình khai phá dữ liệu (6)
Quá trình KPDL được tiến hành qua 6 giai đoạn (Hình 1.2). Theo đó, bắt đầu
của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra.

Nguyễn Thị Thia 6
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Hình 1. 2: Quá trình khai phá dữ liệu
(Nguồn: www2.cs.uregina.ca)
• Bước 1: Gom dữ liệu (Gathering)
Tập hợp dữ liệu là bước đầu tiên trong quá trình KPDL. Đây là bước được khai
thác trong CSDL, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng
Web.
• Bước 2: Trích lọc dữ liệu (Selection)
Ở gian đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đó, ví dụ chọn tất cả những người tham gia bảo hiểm tự nguyện là Nữ và có độ
tuổi 19-30.
• Bước 3: Làm sạch, tiền xử lý dữ liệu (Cleansing, Pre-processing and
Preparation)
Là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ
liệu không nhất quán,.v.v), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các
phương pháp nén dữ liệu, sử dụng histogram, lấy mẫu,.v.v). Sau bước này, dữ liệu sẽ
nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa.
• Bước 4: Chuyển đổi dữ liệu (Transformation)
Trong giai đoạn này, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc
tổ chức lại nó, dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác.
• Bước 5: Phát hiện và trích mẫu dữ liệu (Pattern Extraction and
Discovery)
Nguyễn Thị Thia 7
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Ở giai đoạn này nhiều thuật toán khác nhau được sử dụng để trích ra các mẫu từ
dữ liệu. Thuật toán thường dùng là phân loại, kết hợp hoặc mô hình dữ liệu tuần tự,…
• Bước 6: Đánh giá kết quả mẫu (Evaluation of Result)
Đây là giai đoạn cuối cùng trong quá trình KPDL. Ở giai đoạn này các mẫu dữ
liệu được chiết xuất ra bởi phần mềm KPDL.

Trên đây là 6 giai đoạn trong quá trình KPDL, trong đó giai đoạn 5 là giai đoạn
quan trọng nhất.
1.2.3. Nhiệm vụ chính của khai phá dữ liệu
Mục đích của KPDL là các tri thức chiết xuất được sử dụng cho lợi ích cạnh
tranh trên thương trường và các lợi thế trong nghiên cứu khoa học. Do đó, các mẫu
mà KPDL phát hiện được nhằm vào các mục đích chính của KPDL sẽ là mô tả và dự
đoán. Dự đoán liên quan đến việc sử dụng các biến hoặc các trường hợp trong CSDL
để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị
trong tương lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm các
mẫu mô tả dữ liệu mà con người có thể hiểu.
Để đạt được mục đích này, nhiệm vụ của KPDL bao gồm như sau:
• Phân lớp: phân lớp là việc chọn một hàm ánh xạ (hay phân loại) một mẫu
dữ liệu trong số các lớp đã xác định (Hand 1981; Weiss & Kulikowski 1991;
McLachlan 1992). Ví dụ về việc sử dụng phương pháp phân lớp trong KPDL là ứng
dụng phân lớp các xu hướng trong thị trường tài chính (Apte & Hong) và ứng dụng tự
động xác định các đối tượng đáng quan tâm trong các CSDL ảnh lớn (Fayyad,
Djorgoski, & Weir).
• Hồi quy: hồi quy là việc học một hàm ánh xạ từ mẫu dữ liệu thành một biến
dự đoán có giá trị thực. Có rất nhiều ứng dụng KPDL với nhiệm vụ hồi quy, ví dụ như
đánh giá khả năng tử vong của bệnh nhân khi biết các kết kết quả xét nghiệm chuẩn
đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo,…
• Phân nhóm: là việc mô tả chung để tìm ra các tập xác định các nhóm hay
các loại để mô tả dữ liệu (Titterington, Smith & Makov 1985; Janin & Dubes 1988).
Các nhóm có thể tách riêng nhau ra hoặc phân cấp hoặc gối lên nhau. Có nghĩa một dữ
liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia. Các ứng dụng KPDL có nhiệm
vụ phân nhóm như: phát hiện tập các khách hàng có phản ứng giống nhau trong CSDL
Nguyễn Thị Thia 8
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
tiếp thị, xác định các loại quang phổ từ phương pháp đo tia hồng ngoại (Cheeseman &
Stutz).

• Tóm tắt: Liên quan đến các phương pháp tìm kiếm một mô tả tóm tắt chi
một tập con dữ liệu. Ví dụ như việc lập bảng các độ lệch chuẩn và trung bình cho tất
cả các trường. Các phương pháp phức tạp hơn liên quan đến nguồn gốc của các luật
tóm tắt (Agrawal và cộng sự), khai thác mối liên hệ hàm giữa các bên (Zembowicz &
Zytkow). Các kỹ thuật tóm tắt thường được áp dụng cho các phân tích dữ liệu tương
tác có tính thăm dò và tạo báo cáo tự động.
• Mô hình hóa phụ thuộc: Bao gồm việc tìm kiếm một mô hình tả sự phụ
thuộc đáng kể giữa các biến. Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu
trúc của mô hình xác định (thường ở dạng đồ họa) các biến nào là phụ thuộc cục bộ
với nhau, mức định lượng của mô hình xác định độ mạnh của sự phụ thuộc theo một
thước đo nào đó. Ví dụ như các mạng phụ thuộc xác suất sử dụng độc lập có điều kiện
để xác định khía cạnh có cấu trúc của một mô hình và các xác suất hoặc tương quan để
xác định độ mạnh của sự phụ thuộc (Heckerman; Glymour và cộng sự, 1987).
• Phát hiện sự thay đổi và lạc hướng: Tập trung vào khai thác những thay đổi
đáng kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó (Berndt &
Cliffort; Guyon và cộng sự; Klosegen; Matheu và cộng sự; Basseville & Nikiforov
1993).
Vì các nhiệm vụ khác nhau này yêu cầu số lượng và các dạng thông tin rất khác
nhau nên chúng ảnh hưởng đến việc thiết kế và chọn giải thuật KPDL khác nhau.
1.2.4. Phương pháp khai phá dữ liệu
1.2.4.1. Cây quyết định và luật
• Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm
phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được dán nhãn
là tên thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô tả
các lớp khác nhau. Các đối tượng phân lớp theo các đường đi trên cây, qua các cạnh
tương ứng với các giá trị của thuộc tính của đối tượng tới lá.
• Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa
về mặt thống kê. Các luật có dạng nếu P thì Q, với P là mệnh đề đúng với một phần
trong CSDL, Q là mệnh đề dự đoán. Ví dụ ta có một mẫu phát hiện được bằng phương
pháp tạo luật: nếu giá xăng cao hơn 25000 đồng/lít thì giá taxi sẽ tăng 5%. Những luật

Nguyễn Thị Thia 9
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
như thế này được sử dụng rất rộng rãi trong việc mô tả tri thức trong hệ chuyên gia.
Chúng có thuận lợi và dễ hiểu đối với người sử dụng.
Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suy
diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là mô tả cây và
luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ chính
xác của mô hình.
1.2.4.2. Phát hiện luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ
liệu trong CSDL. Mẫu đầu ra của giải thuật KPDL là tập luật kết hợp tìm được. Ta có
thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A
và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong
cùng bản ghi đó: A=>B.
1.2.4.3. Các phương pháp phân lớp và hồi quy
Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm cho các kết
hợp tuyến tính và phi tuyến tính của các hàm cơ bản (hàm sigmoid, hàm spline, hàm
đa thức) phù hợp với các kết hợp của các giá trị biến vào. Một phương pháp thuộc loại
này là mạng nouron truyền thẳng, phương pháp màng thích nghi,… (Friedman 1989,
Cheng &Titterrington 1994, Elder & Ppregibon).
1.2.4.4. Phương pháp quy nạp/ suy diễn
Một CSDL là một kho thông tin nhưng các thông tin quan trọng hơn cũng có
thể suy diễn từ kho thông tin đó. Có 2 kỹ thuật chính để thực hiện việc này là suy diễn
và quy nạp.
• Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông
tin trong CSDL. Ví dụ như toán tử liên kết áp dụng cho bảng quan hệ, bảng đầu chứa
thông tin về nhân viên và phòng ban, bảng thứ hai chứa các thông tin về các phòng
ban và các trưởng phòng. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy
ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương
pháp này thương là các luật suy diễn.

• Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh
ra từ CSDL. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra các tri thức chứ không
Nguyễn Thị Thia 10
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại
là các thông tin hay các tri thưacs cấp cao diễn tả về các đối tượng trong CSDL.
Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL.
1.2.4.5. Phân nhóm và phân đoạn
Phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần
hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành viên của
các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng
nên các luật ràng buộc giữa các thành viên trong nhóm. Một kỹ thuật phân nhóm khác
là xây dựng nên các hàm đánh giá các thuộc tính của các thành phần như là hàm của
các tham số của các thành phần. Phương pháp này được gọi là phương pháp phân
hoạch tối ưu.
Mẫu đầu ra của quá trình KPDL sử dụng kỹ thuật này là các tập mẫu chứa các
dữ liệu có chung những tính chất nào đó được phân tách từ CSDL. Khi các mẫu được
thiết lập, chúng có thể được sử dụng để tái tạo tập dữ liệu ở dạng dể hiểu hơn, đồng
thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như việc phân tích. Đối
với CSDL lớn, việc lấy ra các nhóm này là rất quan trọng.
2.2.4.6. Các phương pháp dựa trên mẫu
Sử dụng các mẫu mô tả từ CSDL để tạo nên một mô hình dự đoán các mẫu mới
bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong mô hình. Các kỹ
thuật bao gồm phân lớp theo láng giềng gần, các giải thuật hồi quy (Dasarathy 1991)
và các hệ thống suy diễn dựa trên tình huống (case- based reasoning) (Kolodner 1993).
Khuyết điểm của kỹ thuật này là cần phải xác định được khoảng cách, đo độ
giống nhau giữa các mẫu. Mô hình thường được đánh giá bằng phương pháp đánh giá
chéo trên các lỗi dự đoán (Weiss & Kulikowski, 1991). “Tham số” của mô hình được
đánh giá có thể bao gồm một số láng giềng dùng để dự đoán và số đo khoảng cách.
Giống như phương pháp hồi quy phi tuyến, các phương pháp này khá mạnh trong việc

đánh giá xấp xỉ các thuộc tính, nhưng lại rất khó hiểu vì mô hình không được định
dạng rõ ràng mà tiềm ẩn trong dữ liệu.
Nguyễn Thị Thia 11
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
1.2.4.7. Mô hình phụ thuộc dựa trên đồ thị xác suất
Các mô hình đồ thị xác định sự phụ thuộc xác suất giữa các sự kiện thông qua
các liên hệ trực tiếp theo các cung đồ thị (Pearl 1988; Whittaker, 1990). Ở dạng đơn
giản nhất, mô hình xác định những biến nào phụ thuộc trực tiếp vào nhau. Những mô
hình này chủ yếu được sử dụng với các biến có giá trị rời rạc hoặc phân loại. Tuy
nhiên cũng được mở rộng cho một số trường hợp đặc biệt như mật độ Gaussian hoặc
cho các biến giá trị thực.
Trong trí tuệ nhân tạo và thống kê, các phương pháp này ban đầu được phát
triển trong khuôn khổ của các hệ chuyên gia. Cấu trúc của mô hình và các tham số
được suy ra từ các hệ chuyên gia. Ngày nay, các phương pháp này đã được phát triển,
cả cấu trúc và các tham số mô hình đồ thị đều có thể học trực tiếp từ CSDL. Tiêu
chuẩn đánh giá mô hình chủ yếu là ở dạng Bayesian. Việc đánh giá tham số là một sự
kết hợp các đánh giá dạng đóng và các phương pháp lặp phụ thuộc vào việc biến được
quan sát trực tiếp hay dạng ẩn. Việc tìm kiếm mô hình dựa trên các phương pháp leo
đồi trên nhiều cấu trúc đồ thị. Các tri thức trước đó, ví dụ như việc sắp xếp một phần
các biến dựa trên mối quan hệ nhân quả, có thể rất có ích trong việc làm giảm không
gian tìm kiếm mô hình. Mặc dù phương pháp này mới ở giai đoạn đầu của công việc
nghiên cứu nhưng nó đã cho thấy nhiều hứa hẹn vì dạng đồ thị dễ hiểu hơn và dễ biểu
đạt được nhiều ý nghĩa hơn đối với con người.
1.2.4.8. Mô hình học quan hệ
Trong mẫu chiếc xuất được bằng các luật suy diễn và cây quyết định gắn chặt
với các mệnh đề logic thì mô hình học quan hệ sử dụng ngôn ngữ mẫu theo thứ tự
logic trước rất linh hoạt. Mô hình này có thể dễ dàn tìm ra công thức X=Y. Cho đến
nay, hầu hết các nghiên cứu về các phương pháp đánh giá mô hình này đều theo logic
trong tự nhiên.
1.2.4.9. Khai phá dữ liệu dạng văn bản

Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại.
Công cụ KPDL rất phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn
bản không định dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình
Nguyễn Thị Thia 12

×