Tải bản đầy đủ (.pdf) (75 trang)

(Luận văn thạc sĩ) ứng dụng kỹ thuật OLAP trong khai phá dữ liệu sinh viên tại học viện ngân hàng 04

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.18 MB, 75 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TUẤN MINH

ỨNG DỤNG KỸ THUẬT OLAP
TRONG KHAI PHÁ DỮ LIỆU SINH VIÊN
TẠI HỌC VIỆN NGÂN HÀNG

LUẬN VĂN THẠC SĨ

Hà Nội - 2014


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TUẤN MINH

ỨNG DỤNG KỸ THUẬT OLAP
TRONG KHAI PHÁ DỮ LIỆU SINH VIÊN
TẠI HỌC VIỆN NGÂN HÀNG

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 01 04

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Đỗ Trung Tuấn


Hà Nội – 2014


MỤC LỤC
MỤC LỤC................................................................................................................................... 1
BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT ............................................................................ 4
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU............................................................................... 5
LỜI CAM ĐOAN ....................................................................................................................... 7
LỜI CẢM ƠN............................................................................................................................. 8
LỜI MỞ ĐẦU ............................................................................................................................. 9
CHƯƠNG 1............................................................................................................................... 11
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ............................................................................. 11
VÀ PHÁT HIỆN TRI THỨC ................................................................................................. 11
1.1. Khái niệm về khai phá dữ liệu ........................................................................... 12
1.2. Quá trình khai phá tri thức trong cơ sở dữ liệu ................................................ 12
1.3. Các kiểu dữ liệu có thể được khai thác trong Khai phá dữ liệu ...................... 14

1.3.1. Dữ liệu từ Cơ sở dữ liệu ........................................................................................ 14
1.3.2. Kho dữ liệu ............................................................................................................. 15
1.3.3. Dữ liệu giao dịch .................................................................................................... 17
1.3.4. Các loại dữ liệu khác ............................................................................................. 17
1.4. Các kỹ thuật khai phá dữ liệu ............................................................................ 19

1.4.1. Khai phá dữ liệu dự đoán ...................................................................................... 19
1.4.2. Khai phá dữ liệu mô tả ........................................................................................... 21
1.5. Lợi thế của khai phá dữ liệu so với các phương pháp khác ............................. 22

1.5.1. Học máy.................................................................................................................. 22
1.5.2. Hệ chuyên gia ......................................................................................................... 23
1.5.3. Thống kê ................................................................................................................. 23

1.6. Các ứng dụng của Khai phá dữ liệu.................................................................. 24

1.6.1 Trí tuệ doanh nghiệp ............................................................................................... 24
1.6.2. Cơng cụ tìm kiếm .................................................................................................... 24
1.7. Những thách thức đối với phát hiện tri thức .................................................... 26
1.8. Kết luận ............................................................................................................... 28

1


CHƯƠNG 2............................................................................................................................... 30
OLAP VÀ OLAP TRONG MS SQL SERVER 2008 ............................................................ 30
2.1. Khái niệm về OLAP ............................................................................................ 30
2.2. Mơ hình dữ liệu đa chiều ................................................................................... 30
2.3. So sánh OLAP với OLTP ................................................................................... 32
2.4. Các mơ hình lưu trữ hỗ trợ OLAP .................................................................... 33

2.4.1. Mơ hình MOLAP .................................................................................................... 33
2.4.2. Mơ hình ROLAP..................................................................................................... 34
2.4.3. Mơ hình HOLAP .................................................................................................... 35
2.4.4. So sách các mơ hình............................................................................................... 36
2.5. Kiến trúc khối của OLAP ................................................................................... 36
2.6. Mơ hình kiến trúc dịch vụ OLAP của Microsoft .............................................. 37

2.6.1. Tầng dữ liệu nguồn ................................................................................................ 38
2.6.2. Kiến trúc tầng nền tảng.......................................................................................... 38
2.6.3. Kiến trúc tầng khai thác ......................................................................................... 39
2.7. Giới thiệu dịch vụ OLAP của Microsoft SQL Server ....................................... 41

2.7.1. Dịch vụ tích hợp dữ liệu......................................................................................... 41

2.7.2. Dịch vụ Báo cáo ..................................................................................................... 45
2.7.3. Dịch vụ phân tích dữ liệu....................................................................................... 48
2.7.4. Bộ cơng cụ phát triển trí tuệ doanh nghiệp ........................................................... 49
2.7.5. Công cụ quản lý SQL Server .................................................................................. 50
2.8. Triển khai OLAP đối với dữ liệu sinh viên ....................................................... 51
2.9. Kết luận ............................................................................................................... 59

CHƯƠNG 3............................................................................................................................... 60
ÚNG DỤNG KỸ THUẬT OLAP TRONG KHAI PHÁ DỮ LIỆU SINH VIÊN TẠI HỌC
VIỆN NGÂN HÀNG................................................................................................................ 60
3.1. Giới thiệu về Học viện Ngân hàng .................................................................... 60
3.2. Yêu cầu về Phân tích dữ liệu sinh viên ............................................................. 61
3.2. Mơ hình dữ liệu và các lược đồ ......................................................................... 62

3.2.1. Mơ hình dữ liệu ...................................................................................................... 62
2


3.2.2. Bảng thông tin dữ liệu ............................................................................................ 63
3.3. Khai phá dữ liệu sinh viên tại Học viện Ngân hàng......................................... 66

3.3.1. Phân tích dữ liệu điểm mơn Kinh tế vi mơ của sinh viên khóa 11 và khóa 12. .... 66
3.3.2. Phân tích kết quả học tập mơn Tiếng anh 1 của sinh viên khóa 12 theo Dân tộc 67
3.3.3. Phân tích dữ liệu sinh viên theo khóa, tỉnh và mơn học. ....................................... 67
3.3.4. Phân tích dữ liệu sinh viên theo giới tính, mơn học. ............................................. 69
3.4. Kết luận ............................................................................................................... 69

KẾT LUẬN ............................................................................................................................... 71
1. Kết quả đạt được của luận văn .................................................................................... 71
2. Phương hướng tiếp tục nghiên cứu.............................................................................. 72

Tài liệu Tham khảo .................................................................................................................. 73

3


BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT
Từ

Tiếng Anh

Tiếng Việt
Cơ sở dữ liệu

CSDL
BI

Business Intelligent

Trí tuệ doanh nghiệp

BIDS

Business Intelligent Development Studio

Trình phát triển trí tuệ doanh
nghiệp

DM

Kho dữ liệu chuyên đề


Kho dữ liệu chuyên biệt

DW

Data Warehouse

Kho dữ liệu

DSV

Data Source View

Dữ liệu nguồn

XML

Extensible Markup Language

Ngơn ngữ đánh dấu mở rộng

ETL

Extract - Transform - Load

Trích rút – Biến đổi – Nạp

HOLAP

Hybrid OLAP


OLAP ghép

MOLAP

Multidimensional OLAP

OLAP đa chiều

OLAP

Online Analytical Processsing

Xử lý phân tích trực tuyến

OLTP

Online Transaction Processing

Xử lý giao dịch trực tuyến

ODS

Operational Database Store

Kho dữ liệu tác ng hiệp

RDBMS

Relational DataBase Management


Hệ quản trị CSDL quan hệ

System
ROLAP

Relational OLAP

OLAP quan hệ

SSAS

SQL Server Analysis Services

Dịch vụ phân tích của SQL
Server

SSIS

SQL Server Integration Service

Dịch vụ tích hợp của SQL Server

SSMS

SQL Server Management Studio

Trình quản lý của SQL Server

SSRS


SQL Server Reporting Services

Dịch vụ báo cáo của SQL Server

UDM

Unified Dimensional Model

Mơ hình chiều thống nhất
Học viện Ngân hàng

HVNH

4


DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU
Hình 1.1. Q trình phát hiện tri thức ............................................................. 13
Hình 1.2. Kiến trúc kho dữ liệu điển hình cho cơng ty AllElectronics............. 16
Hình 1.3. Tập dữ liệu với 2 lớp: có và khơng có khả năng trả nợ ................... 19
Hình 1.4. Phân loại được học bằng mạng nơron cho tập dữ liệu cho vay ...... 20
Hình 1.5. Phân cụm tập dữ liệu kết quả học tập vào trong 3 cụm................... 21
Hình 2.1. Mơ phỏng các chiều trong kinh doanh............................................. 31
Hình 2.2. Mơ hình dữ liệu MOLAP .................................................................. 33
Hình 2.3. Mơ hình dữ liệu ROLAP ................................................................... 34
Hình 2.4. Mơ hình dữ liệu HOLAP .................................................................. 35
Bảng 2.1. Bảng so sánh các mơ hình OLAP .................................................... 36
Hình 2.5. Kiến trúc dịch vụ OLAP của Microsoft ............................................ 38
Hình 2.6. Kiến trúc tầng nền tảng của OLAP dựa trên cơng cụ phân tích

PivotTable ................................................................................................................. 39
Hình 2.7. Kiến trúc tầng khai thác của OLAP dựa trên cơng cụ phân tích
PivotTable ................................................................................................................. 40
Hình 2.8. Kiến trúc dịch vụ tích hợp SSIS........................................................ 41
Hình 2.9. Ví dụ về một luồng dữ liệu................................................................ 43
Hình 2.10. Kiến trúc dịch vụ báo cáo SSRS ..................................................... 46
Hình 2.11. Kiến trúc dịch vụ phân tích SSAS................................................... 48
Hình 2.12. Màn hình khởi tạo mẫu dự án DW/BI trong BIDS......................... 50
Hình 2.13. Màn hình quản lý của SQL Server ................................................. 51
Hình 2.14. Màn hình khởi động SQL Server Business Intelligence Development
Studio......................................................................................................................... 52
Hình 2.15. Màn hình khởi tạo Analysis Services Project................................. 52
Hình 2.16. Màn hình tạo kết nối đến Data Source........................................... 53
5


Hình 2.17.. Màn hình thiết lập tham số kết nối đến Data Source .................... 53
Hình 2.18. Màn hình tạo kết nối đến Data Source View.................................. 54
Hình 2.19. Màn hình thiết lập tham số kết nối đến Data Source View ............ 54
Hình 2.20. Màn hình lựa chọn các bảng cần phân tích trong Data Source View
................................................................................................................................... 54
Hình 2.21. Bảng Fact và Dimensions sau khi hoàn thành việc kết nối đến Data
Source View............................................................................................................... 55
Hình 2.22. Màn hình tạo khối để phân tích...................................................... 55
Hình 2.23. Màn hình lựa chọn các bảng có chứa độ đo .................................. 56
Hình 2.24. Màn hình lựa chọn các độ đo ......................................................... 56
Hình 2.25. Màn hình lựa chọn các chiều ......................................................... 57
Hình 2.26. Khối dữ liệu với các chiều được sinh ra ........................................ 57
Hình 2.27. Màn hình Deploy để sinh ra các chiều........................................... 58
Hình 2.28. Khối dữ liệu và các chiều được Deploy thành cơng ...................... 58

Hình 2.29. Bấm Browse để vào Phân tích khối dữ liệu ................................... 58
Hình 2.30. Phân tích khối dữ liệu .................................................................... 59
Bảng 3.1. Yêu cầu xử lý dữ liệu của Học viện Ngân hàng............................... 62
Hình 3.1. Sơ đồ quan hệ của các bảng dữ liệu nguồn ..................................... 63
Hình 3.2. Phân tích khối dữ liệu ...................................................................... 66
Hình 3.3. So sánh kết quả học tập mơn Kinh tế vi mơ của sinh viên Khóa 11 và
Khóa 12 ..................................................................................................................... 66
Hình 3.4. Kết quả học tập mơn tiếng anh 1 theo dân tộc của sinh viên khóa 12
................................................................................................................................... 67
Hình 3.5. Phân tích kết quả học tập mơn Kinh tế vĩ mô c ủa sinh viên K11 tại
tỉnh Bắc ninh và Bắc giang ....................................................................................... 68
Hình 3.6. Phân tích kết quả học tập môn Kinh tế vĩ mô của sinh viên K12 tại
tỉnh Bắc ninh và Bắc giang ....................................................................................... 68
Hình 3.7. Phân tích kết quả học tập mơn theo giới tính................................... 69
6


LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “Ứng dụng kỹ thuật OLAP trong khai phá dữ liệu
sinh viên tại Học viện Ngân hàng” này là cơng trình nghiên cứu của bản thân tôi.
Các số liệu và kết quả nghiên cứu nêu trong luận văn này là trung thực, được
các tác giả cho phép sử dụng và các tài liệu tham khảo như đã trình bày trong luận
văn. Tơi xin chịu trách nhiệm về luận văn của mình.
Học viên

Nguyễn Tuấn Minh

7



LỜI CẢM ƠN
Trước tiên tác giả xin bày tỏ lòng biết ơn tới các thầy cô giáo trong ngành Hệ
thống thông tin khoa Công nghệ thông tin của trường Đại học công nghệ-Đại học
quốc gia Hà Nội đã truyền đạt, hướng dẫn và cung cấp những kiến thức quý báu cho
tác giả trong suốt quá trình học tập và nghiên cứu tại trường.
Để hoàn thành phần nào cho đề tài luận văn của mình, tác giả đã nh ận được rất
nhiều sự giúp đỡ, cũng như nh ững chia sẻ động viên từ các đồng nghiệp trong Trung
tâm Thực hành, Học viện Ngân hàng. Đặc biệt, được sự hướng dẫn, chỉ bảo góp ý
những ý kiến quý báu của Thầy PGS.TS. Đỗ Trung Tuấn, tác giả mới có thể hồn
thành tốt luận văn này.
Tác giả xin cảm ơn đồng nghiệp tại Học viện Ngân hàng đã giúp đỡ tác giả về
mặt tinh thần, thời gian và đặc biệt quan trọng là dữ liệu về sinh viên của Học viện
Ngân hàng để tác giả có dữ liệu thử nghiệm.
Tác giả cũng xin gửi lời cảm ơn tới gia đình, người thân đã tạo điều kiện để
hồn thành khóa học sau đại học. Nhân đây, có lời cám ơn đến bạn bè, những người
luôn cổ vũ, quan tâm và giúp đỡ tác giả trong suốt thời gian học tập cũng như làm
luận văn.
Mặc dù tác giả đã có nhi ều cố gắng hồn thiện luận văn bằng tất cả sự nhiệt
tình và năng lực của mình. Tuy nhiên do thời gian và kiến thức có hạn nên luận văn
chắc khơng tránh khỏi những thiếu sót nhất định. Tác giả rất mong nhận được những
sự góp ý q báu của thầy cơ và các bạn.
Hà Nội, tháng 11 năm 2014

8


LỜI MỞ ĐẦU
Việc xây dựng kỹ thuật OLAP phục vụ cho phân tích và báo cáo của các doanh
nghiệp sẽ là xu thế tất yếu trong những năm tới ở Việt nam. Thực ra, Kỹ thuật
OLAP đã đư ợc áp dụng khá phổ biến tại các nước phát triển như Mỹ, Úc, Đức,

Nhật... Tại Việt nam thì cho đ ến nay Kỹ thuật OLAP cũng đã đư ợc bắt đầu áp dụng
cho một số ngành đi tiên phong trong lĩnh vực CNTT như Ngân hàng, Tài chính và
Bưu chính Viễn thơng. Nhưng nhìn chung s ố lượng doanh nghiệp triển khai thành
cơng và hiệu quả là chưa nhiều, vì các doanh nghiệp vẫn đang phải ưu tiên phần
mềm phục vụ tác nghiệp như kế toán, nhân sự, tiền lương, bán hàng, đặt hàng, hoạch
định doanh nghiệp, phần mềm lõi, phần mềm quản lý quan hệ khách hàng... Nhưng
trong vài năm tới, khi các phần mềm tác nghiệp đã đư ợc áp dụng phổ biến và chạy
ổn định thì việc làm thế nào để khai thác được khối dữ liệu tác nghiệp đã có m ột
cách hiệu quả nhất là điều mà các doanh nghiệp sẽ rất quan tâm.
Nhận thấy được xu thế này, nên tên đề tài đã đư ợc đăng ký là “Ứng dụng kỹ
thuật OLAP trong khai phá dữ liệu sinh viên tại Học viện Ngân hàng” cho luận
văn tốt nghiệp. Hy vọng đây là cơ hội tốt để nghiên cứu và tìm hiểu tổng quan về kỹ
thuật OLAP và qui trình xây dựng nó, để nghiên cứu các giải pháp công nghệ cho kỹ
thuật OLAP của Microsoft nói chung và của SQL Server 2008 nói riêng, và cuối
cùng là việc áp dụng những gì nghiên cứu được để xây dựng thử nghiệm cho bài
toán thực tế về khai phá dữ liệu sinh viên tại Học viện Ngân hàng.
Ngoài phần mở đầu, phần kết luận, nội dung luận văn được chia thành 3
chương như sau:
1. Chương 1. Phần này giới thiệu một cách tổng quát về quá trình phát
hiện tri thức nói chung và khai phá dữ liệu nói riêng.
2. Chương 2. Giới thiệu về kỹ thuật OLAP, chương này trình bày một cách
tổng thể về các khái niệm OLAP, kiến trúc OLAP, qui trình triển khai
kỹ thuật OLAP, và cách thức khai thác dữ liệu. Liên quan đến tìm hiểu
kỹ thuật OLAP trong SQL Server, chương này trình bày gi ải pháp cơng
nghệ kho dữ liệu và kỹ thuật OLAP của Microsoft, mà đặc biệt là của
SQL Server 2008. Ngồi ra cũng trình bày một số cơng cụ được sử dụng
9


trong việc xây dựng kho dữ liệu như: SSIS dùng cho tích hợp, SSRS

dùng cho báo cáo, SSAS dùng cho phân tích dữ liệu và SSMS dùng cho
việc theo dõi và quản lý.
3. Chương 3. Chương này trình bày một số kết quả đã đạt được khi tiến
hành áp dụng kỹ thuật OLAP vào khai phá dữ liệu sinh viên của Học
viện Ngân hàng. Chương này tóm tắt các phần đã đư ợc cài đặt và chạy
thử nghiệm như: dữ liệu nguồn và đích, các mẫu phân tích và báo cáo.
Phần kết luận trình bày tổng hợp các kết quả thực hiện luận văn cũng như các
phần cần mở rộng khi áp dụng cho thực tế.

10


CHƯƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
VÀ PHÁT HIỆN TRI THỨC
"Chúng ta đang sống trong thời đại thông tin" là một câu nói phổ biến; Tuy
nhiên, thực tế chúng ta đang thực sự sống trong thời đại thông tin. Terabytes hoặc
petabytes dữ liệu đổ vào mạng máy tính của chúng ta, World Wide Web, và các thiết
bị lưu trữ dữ liệu khác nhau mỗi ngày từ doanh nghiệp, xã hội, khoa học và kỹ thuật,
y học, và gần như mọi khía cạnh khác của cuộc sống hàng ngày. Tăng trưởng bùng
nổ của khối lượng dữ liệu có sẵn là kết quả của việc tin học hoá xã hội chúng ta và
sự phát triển nhanh chóng của cơng cụ thu thập và lưu trữ dữ liệu mạnh mẽ. Các
doanh nghiệp trên toàn thế giới tạo ra bộ dữ liệu khổng lồ, bao gồm cả giao dịch bán
hàng, hồ sơ giao dịch chứng khốn, giới thiệu sản phẩm, chương trình khuyến mãi
bán hàng, hồ sơ công ty và hiệu suất, và thơng tin phản hồi của khách hàng. Ví dụ,
các cửa hàng lớn như Wal-Mart, xử lý hàng trăm triệu giao dịch mỗi tuần tại hàng
ngàn chi nhánh trên khắp thế giới. Hoạt động khoa học và kỹ thuật tạo ra một lượng
lớn dữ liệu một cách liên tục, từ viễn thám, q trình đo lường, thí nghiệm khoa học,
hiệu năng hệ thống, quan sát kỹ thuật và giám sát môi trường.
Hệ thống đường trục viễn thơng tồn cầu thực hiện hàng chục petabyte dữ liệu

lưu lượng truy cập mỗi ngày. Các ngành công nghiệp y tế và sức khỏe tạo ra một
lượng lớn dữ liệu từ hồ sơ y tế, theo dõi bệnh nhân, và hình ảnh y tế. Tỷ tìm kiếm
Web được hỗ trợ bởi cơng cụ tìm kiếm xử lý hàng chục petabyte dữ liệu hàng ngày.
Cộng đồng và các phương tiện truyền thông xã hội đã trở thành nguồn dữ liệu ngày
càng quan trọng, sản xuất hình ảnh kỹ thuật số và video, blog, trang web cộng đồng,
và các loại mạng xã hội. Danh sách các nguồn tạo ra một lượng lớn dữ liệu là vô tận.
Hiện nay, lượng dữ liệu khổng lồ này thực sự là một nguồn tài ngun có
nhiều giá trị bởi thơng tin là yếu tố then chốt trong mọi hoạt động quản lý kinh
doanh, phát triển sản xuất và dịch vụ… Nó giúp những người điều hành và người
quản lý có hiểu biết về mơi trường và tiến trình hoạt động của tổ chức mình trước
khi ra quyết định để tác động đến quá trình hoạt động nhằm đạt đến mục tiêu hiệu
quả và bền vững.
Khai phá dữ liệu là một lĩnh vực mới xuất hiện, nhằm tự động khai thác những
11


thơng tin, những trí thức có tính tiềm ẩn hữu ích từ các CSDL cho các đơn vị tổ
chức doanh nghiệp… Từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh
cho các đơn vị, tổ chức này. Các kết quả của khoa học cùng những ứng dụng thành
công trong khai phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực phát triển bền
vững mang lại lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẳn so với các
cơng cụ phân tích dữ liệu truyền thống. Hiện nay khai phá dữ liệu đã ứng dụng ngày
càng rộng rãi trong các lĩnh vực như: Thương mại, tài chính, điều trị y học, viễn
thông, tin sinh học, giáo dục…

1.1. Khái niệm về khai phá dữ liệu
Khai phá dữ liệu là một hướng nghiên cứu ra đời hơn hai mươi năm trở lại đây,
các kỹ thuật chính được áp dụng trong kỹ thuật này phần lớn được thừa kế từ CSDL,
học máy, trí tuệ nhân tạo, lý thuyết thông tin, lý thuyết thống kê và tính tốn hiệu
năng cao. Do sự phát triển nhanh của khai phá dữ liệu về phạm vi ứng dụng và

phương pháp tìm ki ếm tri thức đã có nhi ều quan điểm khác nhau về khai phá dữ
liệu. Tác giả xin trích dẫn một số định nghĩa về khai phá dữ liệu của những nhà
nghiên cứu về khai phá dữ liệu. Tác giả Tom Mitchell [3] đã đưa ra đ ịnh nghĩa khai
phá dữ liệu như sau: "Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá
những quy tắc và cải thiện những quyết định trong tương lai". Chúng ta có thể tham
khảo một cách tiếp cận khác, ứng dụng hơn, tác giả U. M. Fayyad [4] đã phát biểu:
"Khai phá dữ liệu, thường được xem là việc khám phá tri thức trong các cơ sở dữ
liệu, là một q trình trích xuất những thơng tin ẩn, trước đây chưa biết và có khả
năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu". Tuy
nhiên, chúng ta có thể hiểu khai phá dữ liệu như sau: Khai phá dữ liệu là một quá
trình khám phá, phát hiện những tri thức mới, tiềm ẩn hữu dụng từ những dữ liệu đã
có.
Khai phá dữ liệu là bước phân tích của q trình khai phá tri thức trong CSDL
hay cịn gọi là KDD - Knowledge Discovery in Databases. Khai phá dữ liệu biến
một lượng lớn các bộ sưu tập dữ liệu thành tri thức. Khai phá tri thức trong CSDL là
mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm khai phá dữ liệu và phát
hiện tri thức được các nhà khoa học trên hai lĩnh v ực xem là tương đương nhau.

1.2. Quá trình khai phá tri thức trong cơ sở dữ liệu
Quá trình khai phá tri thức được tiến hành theo các bước. Bắt đầu của quá trình
12


là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra [4] . Về lý thuyết thì có
vẻ rất đơn giản nhưng thực sự đây là một q trình rất khó khăn gặp phải rất nhiều
vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại tồn bộ q trình...
1. Tập hợp dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ
liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và
thậm chí các dữ liệu từ các nguồn ứng dụng Web.
2. Trích lọc dữ liệu: Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo

một số tiêu chuẩn nào đó phục vụ mục đích khai thác, ví dụ chọn tất cả những
mặt hàng được bán trong ngày 25/10/2013 tại kho số 2.
3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Giai đoạn thứ ba này là giai
đoạn hay bị sao lãng, nhưng th ực tế nó là một bước rất quan trọng trong quá
trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là
tính khơng đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vơ
nghĩa và khơng có khả năng kết nối dữ liệu. Ví dụ: tuổi = 233 hoặc năm sinh
= 2048. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu khơng chặt chẽ
nói trên. Những dữ liệu dạng này được xem như thơng tin dư thừa, khơng có
giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu khơng
được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai
lệch nghiêm trọng.
4. Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra
có thể sử dụng và điều khiển được bởi việc tổ chức lại nó, tức là dữ liệu sẽ
được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các
thao tác nhóm hoặc tập hợp…

Hình 1.1. Quá trình phát hiện tri thức

5. Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở
13


giai đoạn này nhiều thuật toán khác nhau đã đư ợc sử dụng để trích ra các mẫu
từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết
hợp...
6. Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu
được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ
liệu nào cũng đ ều hữu ích, đơi khi nó cịn b ị sai lệch. Vì vậy, cần phải ưu tiên
những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra. Đánh

giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó
sử dụng các kỹ thuật trình diễn và trực quan hố dữ liệu để biểu diễn tri thức
khai phá được cho người sử dụng.
Trên đây là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn
"khai phá dữ liệu" là giai đoạn được quan tâm nhiều nhất.

1.3. Các kiểu dữ liệu có thể được khai thác trong Khai phá dữ
liệu
Là một cơng nghệ nói chung, khai phá dữ liệu có thể được áp dụng cho bất kỳ
loại dữ liệu miễn là các dữ liệu có ý nghĩa cho một ứng dụng mục tiêu. Các hình
thức cơ bản nhất của dữ liệu cho các ứng dụng khai phá dữ liệu là cơ sở dữ liệu, dữ
liệu kho dữ liệu, và dữ liệu giao dịch. Khai phá dữ liệu cũng có thể được áp dụng
cho các hình thức khác của dữ liệu (ví dụ: luồng dữ liệu, dữ liệu yêu cầu hoặc dữ
liệu trình tự, biểu đồ hoặc mạng dữ liệu, dữ liệu không gian, dữ liệu văn bản, dữ liệu
đa phương tiện, và dữ liệu từ WWW).

1.3.1. Dữ liệu từ Cơ sở dữ liệu
Một hệ thống cơ sở dữ liệu, cũng được gọi là một hệ thống quản lý cơ sở dữ
liệu (DBMS), bao gồm một tập hợp các dữ liệu liên quan đến nhau, được biết đến
như là một cơ sở dữ liệu, và một tập hợp các chương trình phần mềm để quản lý và
truy cập dữ liệu. Các chương trình ph ần mềm cung cấp cơ chế để xác định cấu trúc
cơ sở dữ liệu và lưu trữ dữ liệu; để xác định và quản lý đồng thời, chia sẻ, truy cập
dữ liệu hoặc phân phối; và đảm bảo tính thống nhất và bảo mật của các thông tin
được lưu trữ mặc dù sự cố hệ thống hoặc nỗ lực truy cập trái phép.
Một cơ sở dữ liệu quan hệ là một tập hợp các bảng, mỗi trong số đó được gán
một tên duy nhất. Mỗi bảng bao gồm một tập hợp các thuộc tính (cột hoặc các lĩnh
14


vực) và thường lưu trữ một lượng lớn các bộ dữ liệu (hồ sơ hoặc các hàng). Mỗi

tuple trong một bảng quan hệ đại diện cho một đối tượng xác định bởi một khóa duy
nhất và được mơ tả bởi một tập hợp các giá trị thuộc tính. Một mơ hình dữ liệu ngữ
nghĩa, chẳng hạn như là một mơ hình dữ liệu thực thể mối quan hệ (ER), thường
được xây dựng cho cơ sở dữ liệu quan hệ. Một mơ hình ER dữ liệu đại diện cho cơ
sở dữ liệu là một tập hợp của các đơn vị và mối quan hệ của họ.
Dữ liệu quan hệ có thể được truy cập bằng cách truy vấn cơ sở dữ liệu được
viết bằng một ngôn ngữ truy vấn quan hệ (ví dụ, SQL) hoặc với sự hỗ trợ của giao
diện người dùng đồ họa. Một câu hỏi được đưa ra là chuyển đổi thành một tập hợp
các hoạt động quan hệ, chẳng hạn như tham gia, lựa chọn, và chiếu, và sau đó được
tối ưu hóa cho xử lý hiệu quả. Một câu truy vấn cho phép thu hồi bộ phụ quy định
của dữ liệu. Giả sử rằng công việc của bạn là để phân tích tất cả các dữ liệu của công
ty AllElectronics. Thông qua việc sử dụng các truy vấn quan hệ, bạn có thể hỏi
những câu như, "Cho tôi một danh sách của tất cả các vật phẩm đã đư ợc bán ra trong
quý cuối cùng." Ngôn ngữ quan hệ cũng sử dụng chức năng tổng hợp như sum, avg
(Trung bình), count, max (Lớn nhất), and min (Nhỏ nhất). Sử dụng cốt liệu cho phép
bạn đặt câu hỏi: "Hãy cho tôi tổng doanh thu của các tháng trước, nhóm theo
ngành", hay "Có bao nhiêu giao dịch bán hàng xảy ra trong tháng mười hai?" Hoặc
"Những nhân viên bán hàng có doanh thu cao nhất?"
Khi khai thác cơ sở dữ liệu quan hệ, chúng ta có thể đi xa hơn bằng cách tìm
kiếm các xu hướng hoặc mơ hình dữ liệu. Ví dụ, hệ thống khai phá dữ liệu có thể
phân tích dữ liệu khách hàng để dự đốn rủi ro tín dụng của khách hàng mới dựa
trên tuổi tác, và các thơng tin tín dụng trước đây thu nhập của họ. Hệ thống khai phá
dữ liệu cũng có th ể phát hiện sai lệch có nghĩa là, các mặt hàng có doanh số bán
hàng cách xa những mong đợi so với năm trước. Sai lệch như vậy sau đó có thể
được điều tra thêm. Ví dụ, khai phá dữ liệu có thể phát hiện ra rằng đã có một sự
thay đổi trong bao bì của một sản phẩm hoặc một sự gia tăng đáng kể trong giá cả.
Cơ sở dữ liệu quan hệ là một trong những kho thơng tin phổ biến nhất hiện có
và giàu có nhất, và do đó họ là một dạng dữ liệu quan trọng trong việc nghiên cứu
khai phá dữ liệu.


1.3.2. Kho dữ liệu
Giả sử rằng AllElectronics là một công ty quốc tế thành công với các chi
15


nhánh trên toàn thế giới. Mỗi chi nhánh đã thiết lập riêng của cơ sở dữ liệu. Chủ tịch
AllElectronics đã yêu cầu bạn cung cấp một phân tích về doanh số bán hàng của
công ty theo từng loại sản phẩm cho mỗi chi nhánh trong quý thứ ba. Đây là một
nhiệm vụ khó khăn, đặc biệt là kể từ khi các dữ liệu liên quan được trải rộng trên
nhiều cơ sở dữ liệu vật lý nằm ở nhiều trang web.
Nếu AllElectronics đã có m ột kho dữ liệu, nhiệm vụ này sẽ được dễ dàng. Một
kho dữ liệu là một kho lưu trữ các thông tin thu thập từ nhiều nguồn khác nhau,
được lưu trữ trong một sơ đồ thống nhất, và thường cư trú tại một địa điểm duy nhất.
Kho dữ liệu được xây dựng thông qua một quá trình làm sạch dữ liệu, tích hợp dữ
liệu, chuyển đổi dữ liệu, tải dữ liệu, và dữ liệu làm mới. Hình 1.2 minh họa khn
khổ điển hình đ ể xây dựng và sử dụng một kho dữ liệu cho AllElectronics.
Để tạo thuận lợi cho việc ra quyết định, dữ liệu trong một kho dữ liệu được tổ
chức xung quanh đối tượng chính (ví dụ, khách hàng, sản phẩm, nhà cung cấp, và
hoạt động). Các dữ liệu được lưu trữ thông tin để xem xét từ góc độ lịch sử, chẳng
hạn như trong 6-12 tháng qua, và thường được tóm tắt. Ví dụ, thay vì lưu trữ các chi
tiết của mỗi giao dịch bán ra, những kho dữ liệu có thể lưu trữ một bản tóm tắt của
các giao dịch cho mỗi loại sản phẩm cho mỗi cửa hàng, hoặc tóm tắt đến một cấp độ
cao hơn, cho từng khu vực bán hàng.

Hình 1.2. Kiến trúc kho dữ liệu điển hình cho công ty AllElectronics

Một kho dữ liệu thường được mô hình hóa bởi một cấu trúc dữ liệu đa chiều,
được gọi là một khối dữ liệu, trong đó mỗi chiều tương ứng với một thuộc tính hoặc
một tập hợp các thuộc tính trong lược đồ, và mỗi tế bào lưu trữ các giá trị của một số
biện pháp tổng hợp như số lượng hoặc tổng hợp (số tiền bán hàng). Một khối dữ liệu

cung cấp một cái nhìn đa chiều của dữ liệu và cho phép tính tốn trước và truy cập
nhanh đến số liệu tóm tắt
16


Bằng cách cung cấp quan điểm dữ liệu đa chiều và tính tốn trước các dữ liệu
tóm tắt, hệ thống kho dữ liệu có thể cung cấp hỗ trợ cho OLAP. OLAP sử dụng các
kiến thức cơ bản về lĩnh v ực dữ liệu đang được nghiên cứu để cho phép trình bày
các dữ liệu ở mức độ trừu tượng khác nhau. Các hoạt động này phù hợp quan điểm
người dùng khác nhau. Ví dụ về các hoạt động OLAP bao gồm khoan xuống và
cuộn lên, trong đó cho phép người dùng xem các dữ liệu ở mức độ tổng hợp khác
nhau. Ví dụ, chúng ta có thể đi sâu vào dữ liệu bán hàng tóm tắt quý để xem dữ liệu
tổng hợp theo tháng. Đơn giản, chúng ta có thể cuộn lên trên dữ liệu bán hàng tóm
tắt của thành phố để xem dữ liệu tổng hợp theo quốc gia. Mặc dù các công cụ kho
dữ liệu giúp phân tích dữ liệu hỗ trợ, bổ sung cho các cơng cụ khai phá dữ liệu
thường cần thiết cho phân tích sâu. Khai phá dữ liệu đa chiều (còn gọi là thăm dò
khai phá dữ liệu đa chiều) thực hiện khai phá dữ liệu trong không gian đa chiều theo
kiểu OLAP. Nghĩa là, nó cho phép thăm dị c ủa nhiều sự kết hợp của kích thước ở
mức độ chi tiết khác nhau trong khai phá dữ liệu, và do đó có tiềm năng lớn để phát
hiện các mơ hình thú vị đại diện cho tri thức.

1.3.3. Dữ liệu giao dịch
Nói chung, mỗi bản ghi trong cơ sở dữ liệu giao dịch nắm bắt một giao dịch,
chẳng hạn như mua hàng của khách hàng, một đặt vé máy bay, hoặc nhấp chuột của
người dùng trên một trang web. Một giao dịch thường bao gồm một số duy nhất
nhận dạng giao dịch (ID trans) và một danh sách các mục tạo thành giao dịch, chẳng
hạn như mua các sản phẩm trong giao dịch. Là một nhà phân tích của
AllElectronics, bạn có thể hỏi: "Những mặt hàng được bán tốt với nhau?" Kiểu này
phân tích dữ liệu giỏ thị trường sẽ cho phép bạn gom các nhóm mặt hàng với nhau
như một chiến lược để thúc đẩy bán hàng. Một hệ thống cơ sở dữ liệu truyền thống

là không thể thực hiện phân tích dữ liệu giỏ thị trường. May mắn thay, khai phá dữ
liệu về dữ liệu giao dịch có thể làm như vậy bằng cách khai thác tập phổ biến, đó là,
bộ mặt hàng thường xuyên được bán với nhau.

1.3.4. Các loại dữ liệu khác
Bên cạnh dữ liệu cơ sở dữ liệu quan hệ, dữ liệu kho dữ liệu, và dữ liệu giao
dịch, có rất nhiều các loại dữ liệu mà có các thể hiện linh hoạt , các cấu trúc và ý
nghĩa ngữ nghĩa khá khác nhau. Các loại như dữ liệu có thể được nhìn thấy trong
nhiều ứng dụng: dữ liệu thời gian có liên quan hoặc liên tục (ví dụ, tài liệu lịch sử,
17


chứng khoán trao đổi dữ liệu, và chuỗi thời gian và dữ liệu trình tự sinh học), luồng
dữ liệu (ví dụ như dữ liệu, giám sát video và cảm biến, đó là liên tục truyền), dữ liệu
khơng gian (ví dụ, bản đồ), dữ liệu thiết kế kỹ thuật (ví dụ, thiết kế của các tòa nhà,
các thành phần hệ thống, hoặc các mạch tích hợp), siêu văn bản và đa phương tiện
dữ liệu (bao gồm cả văn bản, hình ảnh, video và dữ liệu âm thanh), đồ thị và dữ liệu
mạng (ví dụ, các mạng thơng tin xã hội), và trên Web (một kho lưu trữ khổng lồ
phân bố rộng rãi thông tin được cung cấp bởi Internet). Các ứng dụng này mang lại
những thách thức mới, như làm thế nào để xử lý các dữ liệu mang cấu trúc đặc biệt
(ví dụ, trình tự, cây, đồ thị, và các mạng lưới) và ngữ nghĩa cụ thể (chẳng hạn như
nội dung đặt hàng, hình ảnh, âm thanh và video, và kết nối), và làm thế nào để khai
thác mơ hình mang cấu trúc phong phú và ngữ nghĩa.
Các loại tri thức có thể được khai thác từ các loại dữ liệu. Ở đây, luận văn chỉ
liệt kê một vài dạng dữ liệu. Về dữ liệu tạm thời, ví dụ, chúng ta có thể khai phá dữ
liệu ngân hàng cho xu hướng thay đổi, có thể hỗ trợ trong việc lập lịch trình của giao
dịch viên ngân hàng theo khối lượng lưu lượng truy cập của khách hàng. Chứng
khoán dữ liệu có thể được khai thác để phát hiện ra các xu hướng có thể giúp bạn lập
kế hoạch chiến lược đầu tư (ví dụ, thời gian tốt nhất để mua cổ phiếu
AllElectronics). Chúng ta có thể khai thác mạng máy tính luồng dữ liệu để phát hiện

xâm nhập dựa trên sự bất thường của dịng tin nhắn, có thể được phát hiện bằng
cách phân nhóm, xây dựng năng động của các mơ hình dịng hoặc bằng cách so sánh
các mơ hình thư ờng xun hiện tại với những người có một thời gian trước đó. Với
dữ liệu khơng gian, chúng ta có thể tìm kiếm các mẫu mơ tả những thay đổi trong tỷ
lệ nghèo đô thị dựa trên khoảng cách thành phố từ đường cao tốc chính. Các mối
quan hệ giữa một tập hợp các đối tượng không gian có thể được kiểm tra để phát
hiện mà các tập con của các đối tượng được tự động theo không gian tương quan
hoặc liên quan.. Bằng cách khai phá dữ liệu văn bản, chẳng hạn như tài liệu về khai
phá dữ liệu từ mười năm qua, chúng ta có thể xác định sự phát triển của chủ đề nóng
trong lĩnh vực này. Bằng cách khai thác ý kiến người sử dụng trên sản phẩm (thường
được gửi dưới dạng tin nhắn văn bản ngắn), chúng ta có thể đánh giá tình cảm của
khách hàng và hiểu như thế nào là một sản phẩm được chấp nhận bởi thị trường. Từ
dữ liệu đa phương tiện, chúng ta có thể khai thác hình ảnh để xác định các đối tượng
và phân loại chúng bằng cách gán nhãn ngữ nghĩa hoặc các đuôi. Khai thác web có
thể giúp chúng ta tìm hiểu về việc phân phối các thơng tin về các cá nhân nói chung,
mô tả và phân loại các trang web, và phát hiện ra động lực web và hiệp hội và các
18


mối quan hệ khác giữa các trang web khác nhau, người sử dụng, cộng đồng và các
hoạt động dựa trên web.
Trong khi dữ liệu như vậy đòi h ỏi các cơ sở hạ tầng hiện đại, tinh vi để lưu trữ,
tìm kiếm và cập nhật một cách hiệu quả, họ cũng cung cấp mảnh đất màu mỡ và
nâng cao các vấn đề nghiên cứu và thực hiện đầy thách thức cho khai phá dữ liệu.
Khai phá dữ liệu trên các dữ liệu đó là một chủ đề nâng cao.

1.4. Các kỹ thuật khai phá dữ liệu
Hình 1.3 biểu diễn một tập dữ liệu giả hai chiều bao gồm 23 trường hợp. Mỗi
một điểm trên hình đ ại diện cho một người vay tiền ngân hàng tại một số thời điểm
trong quá khứ. Dữ liệu được phân loại vào hai lớp: những người khơng có khả năng

trả nợ và những người tình trạng vay nợ đang ở trạng thái tốt (tức là tại thời điểm đó
có khả năng trả nợ ngân hàng).
Hai mục đích chính của khai phá dữ liệu trong thực tế là dự đốn và mơ tả.

Hình 1.3. Tập dữ liệu với 2 lớp: có và khơng có khả năng trả nợ

1.4.1. Khai phá dữ liệu dự đoán
Nhiệm vụ của khai phá dữ liệu dự đoán là đưa ra các dự đoán dựa vào các suy
diễn trên dữ liệu hiện thời. Nó sử dụng các biến hay các trường trong cơ sở dữ liệu
để dự đoán các giá trị không biết hay các giá trị tương lai. Bao gồm các kĩ thuật:
phân loại, hồi quy...
1.4.1.1. Phân loại
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu
dữ liệu. Quá trình phân loại dữ liệu thường gồm 2 bước: Xây dựng mơ hình và sử
dụng mơ hình để phân loại dữ liệu.
19


1. Bước 1: Xây dựng mơ hình dựa trên việc phân tích các mẫu dữ liệu cho
trước. Mỗi mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi
là thuộc tính lớp. Các mẫu dữ liệu này cịn đư ợc gọi là tập dữ liệu huấn
luyện. Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định
trước khi xây dựng mơ hình, vì vậy phương pháp này cịn đư ợc gọi là
học có giám sát.
2. Bước 2: Sử dụng mơ hình để phân loại dữ liệu. Trước hết chúng ta phải
tính độ chính xác của mơ hình. Nếu độ chính xác là chấp nhận được, mơ
hình sẽ được sử dụng để dự đốn nhãn lớp cho các mẫu dữ liệu khác
trong tương lai. Nói cách khác, phân loại là học một hàm ánh xạ một
mục dữ liệu vào một trong số các lớp cho trước. Hình 1. 4 cho thấy sự
phân loại của các dữ liệu vay nợ vào trong hai miền lớp. Ngân hàng có

thể sử dụng các miền phân loại để tự động quyết định liệu những người
vay nợ trong tương lai có nên cho vay hay khơng.
Nợ

Thu nhập

Hình 1.4. Phân loại được học bằng mạng nơron cho tập dữ liệu cho vay

1.4.1.2. Hồi quy
Phương pháp hồi quy khác với phân loại dữ liệu ở chỗ, hồi quy dùng để dự
đoán về các giá trị liên tục cịn phân loại dữ liệu thì chỉ dùng để dự đoán về các giá
trị rời rạc.
Hồi quy là học một hàm ánh xạ một mục dữ liệu vào một biến dự báo giá trị
thực. Các ứng dụng hồi quy có nhiều, ví dụ như đánh giá xác suất một bệnh nhân sẽ
chết dựa trên tập kết quả xét nghiệm chẩn đoán, dự báo nhu cầu của người tiêu dùng
đối với một sản phẩm mới dựa trên hoạt động quảng cáo tiêu dùng.
20


1.4.2. Khai phá dữ liệu mơ tả
Kỹ thuật này có nhiệm vụ mơ tả về các tính chất hoặc các đặc tính chung của
dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật: phân cụm, phân tích luật kết
hợp...
1.4.2.1. Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng
tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một
cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương
đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát. Không
giống như phân loại dữ liệu, phân cụm dữ liệu khơng địi hỏi phải định nghĩa trước
các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học

bằng quan sát, trong khi phân loại dữ liệu là học bằng ví dụ. Trong phương pháp này
ta sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu q trình.
Vì vậy, thơng thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu
được.
Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị
trường, phân loại học sinh, nhận dạng mẫu, phân loại trang Web… Ngoài ra phân
cụm dữ liệu cịn có thể được sử dụng như một bước tiền xử lí cho các thuật tốn
khai phá dữ liệu khác.
Hình 1.5 cho thấy sự phân cụm tập dữ liệu điểm học sinh vào trong 3 cụm: lưu
ý rằng các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một
cụm.

Hình 1.5. Phân cụm tập dữ liệu kết quả học tập vào trong 3 cụm

1.4.2.2. Luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các
21


giá trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết
hợp tìm được. Khai phá luật kết hợp được thực hiện qua 2 bước:
1. Bước 1: Tìm tất cả các tập mục phổ biến, một tập mục phổ biến được
xác định qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.
2. Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật
phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing
có chủ đích, phân tích quyết định, quản lí kinh doanh…

1.5. Lợi thế của khai phá dữ liệu so với các phương pháp khác
Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như:

hệ CSDL, thống kê... Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu
cịn có thể áp dụng một số kĩ thuật như mạng nơ ron, lý thuyết tập thô hoặc tập mờ,
biểu diễn tri thức… Như vậy, khai phá dữ liệu thực ra là dựa trên các phương pháp
cơ bản đã biết. Tuy nhiên, sự khác biệt của khai phá dữ liệu so với các phương pháp
trên và tại sao khai phá dữ liệu lại có ưu thế hơn hẳn các phương pháp đó, ta sẽ lần
lượt xem xét và giải quyết các câu hỏi này.

1.5.1. Học máy
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá
dữ liệu có thể sử dụng với các cơ sở dữ liệu thường động, không đầy đủ, bị nhiễu và
lớn hơn nhiều so với các tập dữ liệu học máy điển hình. Trong khi đó phương pháp
học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu
khơng q lớn.
Thật vậy, trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập
các mẫu được lưu trong tệp. Các mẫu thường là các vectơ với độ dài cố định, thông
tin về đặc điểm, dãy các giá trị của chúng đôi khi cũng đư ợc lưu lại như trong từ
điển dữ liệu. Một giải thuật học máy sử dụng tập dữ liệu và các thông tin kèm theo
tập dữ liệu đó làm đầu vào và đầu ra biểu thị kết quả của việc học. Học máy có khả
năng áp dụng cho cơ sở dữ liệu, lúc này học máy sẽ không phải là học trên tập các
mẫu nữa mà học trên tập các bản ghi của cơ sở dữ liệu. Tuy nhiên trong thực tế, cơ
sở dữ liệu thường động, không đầy đủ và bị nhiễu, lớn hơn nhiều so với các tập dữ
liệu học máy điển hình. Các yếu tố này làm cho hầu hết các giải thuật học máy trở
22


nên không hiệu quả. Khai phá dữ liệu lúc này sẽ xử lý các vấn đề vốn đã đi ển hình
trong học máy và vượt quá khả năng của học máy, đó là sử dụng được các CSDL có
dữ liệu nhiễu, không đầy đủ hoặc biến đổi liên tục.

1.5.2. Hệ chuyên gia

Các hệ chuyên gia nắm bắt các tri thức cần thiết cho một bài tốn nào đó. Các
kỹ thuật thu thập giúp cho việc lấy tri thức từ các chuyên gia con người.
Mỗi phương pháp hệ chuyên gia là một cách suy diễn các luật từ các ví dụ và
giải pháp đối với bài toán chuyên gia đưa ra. Phương pháp hệ chuyên gia khác với
khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn
nhiều so với các dữ liệu trong CSDL và chúng thường chỉ bao hàm được các trường
quan trọng. Các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện
được.

1.5.3. Thống kê
Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết vững chắc
cho các bài toán phân tích dữ liệu nhưng chỉ có tiếp cận thống kê thuần tuý thôi
chưa đủ bởi:
 Các phương pháp thống kê khơng phù hợp với các kiểu dữ liệu có cấu
trúc ở trong rất nhiều các cơ sở dữ liệu;
 Thống kê hồn tồn tính tốn trên dữ liệu, nó khơng sử dụng tri thức
sẵn có về lĩnh vực quan tâm;
 Các kết quả của phân tích thống kê có thể rất nhiều và khó có thể làm
rõ được;
 Các phương pháp thống kê cần có sự hướng dẫn của người dùng để xác
định phân tích dữ liệu như thế nào và ở đâu.
Phương pháp thống kê là một trong những nền tảng lí thuyết của khai phá dữ
liệu. Sự khác nhau cơ bản giữa khai phá dữ liệu và thống kê ở chỗ khai phá dữ liệu
là một phương tiện được dùng bởi người sử dụng đầu cuối chứ không phải là các
nhà thống kê. Khai phá dữ liệu đã kh ắc phục được các yếu điểm trên của thống kê,
tự động quá trình thống kê một cách hiệu quả vì thế giảm bớt cơng việc của người
dùng đầu cuối, tạo ra một công cụ dễ sử dụng hơn.
23



×