Tải bản đầy đủ (.pdf) (70 trang)

Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp phòng, chống và giảm nhẹ rủi ro thiên tai tại trường học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 70 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

LÊ VĂN TRUNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG
HỆ THỐNG TRỢ GIÚP PHÒNG, CHỐNG VÀ
GIẢM NHẸ RỦI RO THIÊN TAI TẠI TRƯỜNG HỌC

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - 2016


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

LÊ VĂN TRUNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG
HỆ THỐNG TRỢ GIÚP PHÒNG, CHỐNG VÀ
GIẢM NHẸ RỦI RO THIÊN TAI TẠI TRƯỜNG HỌC

Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT

Cán bộ hướng dẫn khoa học:
PGS.TS. LÊ VĂN SƠN


Đà Nẵng - 2016


LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn là công trình nghiên cứu của riêng tơi dưới sự
hướng dẫn của thầy PGS. TS Lê Văn Sơn. Các kết quả nêu trong Luận văn chưa
được công bố trong bất kỳ công trình nào khác. Các số liệu, ví dụ và trích dẫn trong
Luận văn đảm bảo tính chính xác, tin cậy và trung thực.
NGƯỜI CAM ĐOAN

Lê Văn Trung


LỜI CẢM ƠN
Luận văn thạc sĩ kỹ thuật chuyên ngành hệ thống thông tin với đề tài “Ứng
dụng khai phá dữ liệu xây dựng hệ thống trợ giúp phòng, chống và giảm nhẹ
rủi ro thiên tai tại trường học” là kết quả của quá trình cố gắng của bản thân và
được sự giúp đỡ, động viên khích lệ của quý thầy, cô, bạn bè đồng nghiệp và người
thân. Qua trang viết này tác giả xin gửi lời cảm ơn tới những người đã giúp đỡ tôi
trong thời gian học tập - nghiên cứu vừa qua.
Tơi xin tỏ lịng kính trọng và biết ơn sâu sắc đối với thầy giáo PGS.TS Lê
Văn Sơn đã trực tiếp tận tình hướng dẫn cũng như cung cấp tài liệu thông tin khoa
học cần thiết cho luận văn này.
Xin tỏ lịng kính trọng và chân thành cảm ơn q thầy, cơ giáo đã tận tình
giảng dạy các chuyên đề, giúp tôi tiếp thu nhiều kiến thức mới phục vụ cho việc
nghiên cứu và hoàn thành luận văn này.
Cuối cùng tôi xin chân thành cảm ơn đồng nghiệp, đơn vị công tác đã giúp
đỡ tôi trong quá trình học tập và thực hiện luận văn.
TÁC GIẢ


Lê Văn Trung


MỤC LỤC
MỞ ĐẦU .................................................................................................................. 1
1. Lý do chọn đề tài ............................................................................................ 1
2. Mục đích và nhiệm vụ của đề tài..................................................................... 2
3. Đối tượng và phạm vi nghiên cứu ................................................................... 3
4. Phương pháp nghiên cứu................................................................................. 3
5. Giải pháp đề xuất ............................................................................................ 3
6. Kết cấu luận văn ............................................................................................. 4
CHƯƠNG 1. TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ
DỮ LIỆU .................................................................................................................. 5
1.1. KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU ........................................ 5
1.2. QUÁ TRÌNH KHÁM PHÁ TRI THỨC ............................................................. 8
1.2.1. Gom dữ liệu (Gathering) ........................................................................... 8
1.2.2. Trích lọc dữ liệu (Selection) ...................................................................... 9
1.2.3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Preprocessing and Preparation) ...................................................................................... 9
1.2.4. Chuyển đổi dữ liệu (Transformation) ........................................................ 9
1.2.5. Khai phá dữ liệu (Data Mining) ................................................................ 9
1.2.6. Đánh giá kết quả mẫu (Evaluation of Result) ............................................ 9
1.3. CÁC LOẠI DỮ LIỆU CÓ THỂ KHAI PHÁ.................................................... 10
1.4. CÁC PHƯƠNG PHÁP, KỸ THUẬT CHÍNH TRONG KHAI PHÁ DỮ
LIỆU ....................................................................................................................... 10
1.4.1. Phân lớp và dự đoán (Classification & Prediction) ................................. 11
1.4.2. Luật kết hợp (Association Rules) ............................................................ 13
1.4.3. Khai thác mẫu tuần tự (Sequential / Temporal patterns).......................... 14
1.4.4. Phân nhóm- đoạn (Clustering / Segmentation) ........................................ 14
1.4.5. Hồi quy (Regression) .............................................................................. 14
1.4.6. Tổng hợp hóa (Summarization) .............................................................. 15



1.4.7. Mơ hình hóa sự phụ thuộc (dependency modeling)................................. 15
1.4.8. Phát hiện sự biến đổi và độ lệch (Change and deviation detection) ......... 15
1.5. NHỮNG KHÓ KHĂN TRONG KHAI PHÁ DỮ LIỆU .................................. 16
1.6. ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU ....................................................... 17
1.7. KẾT LUẬN ...................................................................................................... 18
CHƯƠNG 2. TÌM HIỂU PHÂN CỤM DỮ LIỆU, LUẬT KẾT HỢP,
THUẬT TOÁN K_MEANS VÀ THUẬT TOÁN APRIORI .............................. 19
2.1. KHÁI NIỆM VÀ MỤC TIÊU CỦA PHÂN CỤM DỮ LIỆU .......................... 19
2.1.1. Khái niệm phân cụm dữ liệu ................................................................... 19
2.1.2. Các mục tiêu của phân cụm dữ liệu ........................................................ 20
2.2. CÁC ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU ............................................ 22
2.3. CÁC YÊU CẦU VÀ NHỮNG VẤN ĐỀ CÒN TỒN TẠI TRONG PHÂN
CỤM DỮ LIỆU....................................................................................................... 23
2.3.1. Các yêu cầu của phân cụm dữ liệu ......................................................... 23
2.3.2. Những vấn đề còn tồn tại trong phân cụm dữ liệu .................................. 25
2.4. THUẬT TOÁN K_MEANS ............................................................................. 26
2.5. LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU (ASSOCIATION RULE
IN DATA MINING) ............................................................................................... 31
2.6. THUẬT TOÁN APRIORI (by Agrawal and Srikant 1994).............................. 32
2.7. KẾT LUẬN ...................................................................................................... 36
CHƯƠNG 3. ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG HỆ THỐNG
TRỢ GIÚP PHÒNG, CHỐNG VÀ GIẢM NHẸ RỦI RO THIÊN TAI TẠI
TRƯỜNG HỌC ..................................................................................................... 37
3.1. ĐẶT VẤN ĐỀ .................................................................................................. 37
3.2. CƠ SỞ LÝ LUẬN VÀ KHOA HỌC THỰC TIỄN .......................................... 38
3.2.1. Cơ sở lý luận ........................................................................................... 38
3.2.2. Cơ sở thực tiễn ........................................................................................ 40
3.2.3. Cơ sở khoa học ....................................................................................... 40

3.3. BIỂU MẪU BAN ĐẦU .................................................................................. 41


3.3.1. Biểu xác định các loại thiên tai ............................................................... 41
3.3.2. Cơ sở vật chất giúp nhà trường an toàn trước thiên tai ............................ 42
3.3.3. Quản lí trường học an tồn ...................................................................... 47
3.3.4. Giáo dục về phòng chống và giảm nhẹ thiên tai trong trường học .......... 48
3.3.5. Các thông tin về khu vực xung quanh trường học ................................... 49
3.3.6. Các mối nguy hiểm trên đường đến trường ............................................. 50
3.4. CẤU TRÚC DỮ LIỆU CỦA CHƯƠNG TRÌNH............................................. 50
3.4.1. Tập tin dữ liệu danh sách trường ............................................................. 50
3.4.2. Thông tin chi tiết các trường ................................................................... 52
3.5. GIẢI PHÁP THỰC HIỆN ................................................................................ 54
3.5.1. Mô tả hệ thống ........................................................................................ 54
3.5.2. Kịch bản triển khai và phân tích dữ liệu.................................................. 55
3.6. CÀI ĐẶT CHƯƠNG TRÌNH........................................................................... 57
3.6.1 Cài đặt phần cứng .................................................................................... 57
3.6.2 Cài đặt phần mềm .................................................................................... 57
3.6.3. Các chức năng chính của chương trình ................................................... 57
3.7. KẾT LUẬN ...................................................................................................... 58
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................ 59
TÀI LIỆU THAM KHẢO
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (BẢN SAO)


DANH MỤC VIẾT TẮT
BCRD

Dự án xây dựng năng lực phòng ngừa và ứng phó thiên tai cho
cộng đồng vùng cao Việt Nam


Bộ GDĐT

Bộ Giáo dục và Đào tạo

CECI

Trung tâm nghiên cứu và hợp tác Quốc tế

CSDL

Cơ sở dữ liệu

DBMS

Database Management System

DIPECHO

Chương trình giảm nhẹ thiên tai của cơ quan viện trợ nhân đạo
Châu Âu

MS

Micosoft

WWW

World Wide Web



DANH MỤC CÁC HÌNH
Số hiệu

Tên hình

hình

Trang

1.1.

Q trình khám phá tri thức

8

2.1.

Ví dụ về phân cụm dữ liệu

20

2.2.

Ví dụ phân cụm các ngơi nhà dựa trên khoảng cách

21

2.3.


Ví dụ phân cụm các ngơi nhà dựa trên kích cở

22

2.4.

Biểu diễn 4 loại thuốc bởi 2 đặc trưng X và Y

28

2.5.
2.6.
3.1.
3.2.

3.3.
3.4.

Phân nhóm sau vịng lặp thứ nhất
Phân nhóm sau vịng lặp thứ hai

29
30

Các bước triển khai hệ thống phân tích dữ liệu trường học

55

Giao diện phân cụm dữ liệu điểm đánh giá phòng chống
thiên tai.

Giao diện khai thác luật kết hợp từ thông tin phịng chống
thiên tai.
Giao diện chính của chương trình

56

56
58


1

MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay cùng với sự thay đổi và phát triển không ngừng của ngành Cơng
nghệ thơng tin nói chung và trong các ngành cơng nghệ phần cứng, phần mềm và hệ
thống các dữ liệu phục vụ trong các lĩnh vực kinh tế - xã hội nói riêng, thì việc thu
thập thơng tin cũng như nhu cầu lưu trữ thông tin ngày càng lớn. Bên cạnh đó việc
tin học hóa một cách nhanh chóng các hoạt động sản xuất, kinh doanh cũng như
nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lớn. Rất
nhiều cơ sở dữ liệu (CSDL) đã được sử dụng trong các hoạt động sản xuất, kinh
doanh, quản lí…Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những
kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ thành tri
thức có ích. Một vấn đề đặt ra là phải làm sao trích chọn được những thơng tin có ý
nghĩa khối dữ liệu lớn để từ đó có thể giải quyết các yêu cầu của thực tế như trợ
giúp ra quyết định, dự đoán…và Khai phá dữ liệu (Data mining) đã ra đời nhằm giải
quyết các u cầu đó.
Những ứng dụng thành cơng trong khám phá tri thức cho thấy khai phá dữ liệu
là một lĩnh vực phát triển bền vững mang lại nhiều lợi ích và có nhiều triển vọng,
đồng thời có ưu thế hơn hẳn so với các cơng cụ phân tích dữ liệu truyền thống. Khai

phá dữ liệu có nhiều hướng quan trọng và hai trong số đó là phân cụm dữ liệu (Data
Clustering) và luật kết hợp (Association Rule). Phân cụm dữ liệu là quá trình tìm
kiếm để phân ra các cụm dữ liệu, các mẫu dữ liệu từ khối dữ liệu lớn, luật kết hợp là
tìm ra các mối quan hệ giữa các đối tượng trong khối dữ liệu lớn.
Phân cụm dữ liệu và luật kết hợp là những kỹ thuật để khai thác dữ liệu có
hiệu quả. Phân cụm dữ liệu và luật kết hợp đã được ứng dụng trong nhiều lĩnh vực
khác nhau như: kinh tế, bảo hiểm, quy hoạch đô thị, du lịch…Tuy nhiên trong lĩnh
vực giáo dục và nhất là khía cạnh dự báo nguy cơ rủi ro thiên tai tại trường học vẫn
chưa được khai thác hiệu quả.


2

Trong những năm qua đã có nhiều chương trình và hoạt động hỗ trợ trường
học và trẻ em ứng phó với thiên tai. Tuy nhiên các chương trình chỉ tập trung vào
các hoạt động lồng ghép kiến thức giảm nhẹ rủi ro thiên tai vào bài giảng các mơn
học chính khóa như sinh học, vật lí, địa lí …và trong hoạt động ngoại khóa như các
cuộc thi tìm hiểu kiến thức về thiên tai, câu lạc bộ, diễn đàn, mà chưa có cơng cụ
thu thập thơng tin và phân tích dữ liệu trường học để đưa ra dự đoán các nguy cơ rủi
ro, thiệt hại nếu có thiên tai xảy ra. Xuất phát từ nhu cầu thực tế đó nên tôi chọn vấn
đề: “Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp phòng, chống và giảm
nhẹ rủi ro thiên tai tại trường học” làm đề tài luận văn thạc sĩ của mình.
2. Mục đích và nhiệm vụ của đề tài
2.1. Mục đích
Xây dựng hệ thống giúp các cơ sở giáo dục có cơ sở:
Lập kế hoạch phịng, tránh và giảm nhẹ rủi ro nếu có thiên tai xảy ra.
Xác định những thiên tai đã và có nguy cơ xảy ra tại các khu vực ở gần các cơ
sở giáo dục.
Chuẩn bị nhân lực, vật lực, phương tiện trang thiết bị và nhu cầu yếu phẩm
phục vụ ứng phó thiên tai.

Nâng cấp, sửa chữa, bổ sung cơ sở vật chất, phòng ốc cần thiết để phòng,
tránh và giảm nhẹ rủi ro nếu có thiên tai xảy ra.
Có những đánh giá, dự báo chính xác thiệt hại nếu có thiên tai xảy ra.
Báo cáo kịp thời lên cấp trên trước, trong và sau khi thiên tai xảy ra.
2.2. Nhiệm vụ
Để đạt được những mục đích nêu trên, nhiệm vụ của tôi là nghiên cứu những
nội dung sau:
- Thu thập thơng tin trường học bao gồm: Vị trí của nhà trường, cơ sở vật chất
của nhà trường, số liệu thống kê cán bộ giáo viên, nhân viên và học sinh, những rủi
ro trên đường tới trường, các loại phòng học của nhà trường, tình hình giáo dục
phịng, chống giảm nhẹ thiên tai… (Bộ công cụ thu thập các thông tin này được xây
dựng dựa vào các tiêu chí đánh giá trường học an toàn).


3

- Nghiên cứu các kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu thu thập
được, đưa ra các nhóm nguy cơ rủi ro thiên tai và dự đốn các rủi ro có thể gặp phải
khi thiên tai xảy ra.
- Cài đặt triển khai hệ thống.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
Thông tin về vị trí trường, các điều kiện về cơ sở vật chất và các thông tin
khác liên quan đến việc thu thập thông tin của các cơ sở giáo dục trên địa bàn tỉnh
Kon Tum.
Thuật toán phân cụm dữ liệu, thuật tốn luật kết hợp (sử dụng 2 thuật tốn
chính là K_means và Apriori để cài đặt chương trình).
Cơng cụ khai phá dữ liệu Business Intelligence Development Studio (BIDS),
ngôn ngữ lập trình Visual C# và hệ quản trị CSDL SQL.
3.2. Phạm vi nghiên cứu

Nghiên cứu thu thập thông tin các trường trên địa bàn tỉnh Kon Tum gồm (16
trường Trung học phổ thông, 10 trường Phổ thông dân tộc nội trú, 07 Trung tâm
giáo dục thường xuyên, 103 trường Trung học cơ sở, 142 trường Tiểu học, 121
trường Mầm non).
Thu thập thơng tin về cơ sở vật chất, vị trí địa lí, điều kiện tự nhiên xung
quanh các trường học như núi, sơng, suối…
4. Phương pháp nghiên cứu
Phân tích, so sánh và đối chiếu.
Thu thập tổng hợp thông tin
Kiểm thử phần mềm.
Đánh giá kết quả đạt được.
5. Giải pháp đề xuất
Mô tả hệ thống:
Đầu vào: Thu thập các thông tin về trường học, cơ sở vật chất, vị trí địa lí của
trường, vị trí địa lí khu vực gần trường, những nguy cơ rủi ro trên đường tới trường,


4

thông tin về học sinh, cán bộ, giáo viên, nhân viên…(Bộ công cụ thu thập các thông
tin này được xây dựng dựa vào các tiêu chí đánh giá trường học an toàn).
Đầu ra: Dự báo mức độ nguy cơ rủi ro khi có thiên tai xảy ra ở các trường,
nhóm các trường có khả năng chống chịu thiên tai gần giống nhau.
Ví dụ: Khi có bão giật cấp 10 xảy ra, dựa vào thông tin thu thập được, hệ
thống dự đoán được mức độ rủi ro thiên tai và các loại rủi ro có thể gặp phải. Từ đó
cấp trên, nhà trường có cơ sở chỉ đạo, lập kế hoạch phòng, chống và giảm nhẹ rủi ro
do thiên tai gây ra.
6. Kết cấu luận văn
Ngoài các phần mở đầu, mục lục, danh mục hình, kết luận và tài liệu tham
khảo luận văn chia làm 3 chương:

Chương 1: Tổng quan về kỹ thuật phát hiện tri thức và khai phá dữ liệu
Chương này giới thiệu một cách tổng quát về quá trình khám phá tri thức nói
chung và khám phá dữ liệu nói riêng. Các phương pháp, lĩnh vực và các hướng tiếp
cận trong khai phá dữ liệu.
Chương 2: Tìm hiểu phân cụm dữ liệu, luật kết hợp, thuật toán K_means và
thuật tốn Apriori
Trong chương này trình bày khái niệm và mục tiêu phân cụm dữ liệu và luật
kết hợp, các yêu cầu, các cách tiếp cận cũng như các thách thức mà phân cụm dữ
liệu và luật kết hợp đang gặp phải, đi sâu tìm hiểu thuật tốn K_means và thuật toán
Apriori.
Chương 3: Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp phòng,
chống và giảm nhẹ rủi ro thiên tai tại trường học
Chương này trình bày lý do chọn bài toán, các cơ sở giải quyết bài tốn (lý
luận, thực tiễn, khoa học…). Cài đặt chương trình thử nghiệm ứng dụng kỹ thuật
phân cụm và luật kết hợp và một số kết quả thu được.


5

CHƯƠNG 1

TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ
KHAI PHÁ DỮ LIỆU
1.1. KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
“Khám phá tri thức là quá trình tìm ra những tri thức, đó là những mẫu
tìm ẩn, trước đó chưa biết và là thơng tin hữu ích đáng tin cậy”. Còn khai phá dữ
liệu là một bước quan trọng trong q trình khám phá tri thức, sử dụng các
thuật tốn khai phá dữ liệu chuyên dùng với một số quy định về hiệu quả tính tốn
chấp nhận được để chiết xuất ra các mẫu hoặc các mơ hình có ích trong dữ liệu.
Nói một cách khác, mục đích của khám phá tri thức và k h a i p h á d ữ l i ệ u

chính là tìm ra các mẫu hoặc mơ hình đang tồn tại trong các CSDL nhưng vẫn
còn bị che khuất bởi hàng núi dữ liệu [1].
Khám phá tri thức từ CSDL là một quá trình sử dụng các phương pháp và
cơng cụ tin học, trong đó con người là trung tâm của q trình. Do đó, con người
cần phải có kiến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập
con dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra. Đó chính là tri
thức, được rút ra từ CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm
vụ nhất định trong một lĩnh vực nhất định. Tuy vậy, quá trình khám phá tri thức
mang tính chất hướng nhiệm vụ vì khơng phải là mọi tri thức tìm được đều áp dụng
vào thực tế được.
Để có được những thơng tin q báu chúng ta phải tìm ra các mẫu có trong
tập CSDL trước. Việc đánh giá các mẫu được tìm thấy cũng là một điều thú vị và
tất yếu có tính chất quyết định đến sự sử dụng hay không sử dụng chúng. Đầu ra
của một chương trình là khám phá những mẫu có ích được gọi là tri thức. Tri thức
được khám phá có các đặc điểm chính:
- Kiến thức cao cấp: Ngày càng có nhiều câu hỏi mang tính chất định tính
cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Q trình để tìm
ra kiến thức như vậy khơng phải từ những phương pháp thống kê cổ điển mà nó


6

được đúc kết từ các kinh nghiệm đã có, được thể hiện trong dữ liệu, những kết quả
đó có thể lĩnh hội được.
- Độ chính xác: Dù cho những mẫu khai phá thật sự có trong CSDL hay
khơng thì việc đo lường trị giá của chúng là bắt buộc phải có. Chúng ta sẽ chỉ
sử dụng những mẫu nào có độ chính xác càng cao thì hiệu quả cơng việc đạt
được càng lớn, những mẫu có độ chính xác chưa được xác định rõ ràng hoặc
khơng cao thì khơng nên sử dụng chúng.
- Tính hấp dẫn: Khám phá tri thức được coi là lý thú vì nó có thể vạch ra

các xu hướng một cách hồn thiện. Đó là những điều mới lạ hay những quy
trình tìm năng, hữu ích ẩn chứa từ trong dữ liệu trước đó.
- Tính hiệu quả: thời gian chạy của thuật toán khám phá tri thức trên CSDL
lớn có thể dự tính và chấp nhận được.
Dữ liệu là tập hợp những bộ thơng tin chính xác và quá trình khám phá tri
thức được xem là sự lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu chỉ để lại
các đặc trưng cơ bản cho dữ liệu. Tri thức được tìm thấy là các thơng tin tích hợp,
bao gồm các sự kiện và các mối quan hệ trong chúng. Các mối quan hệ này có thể
được hiểu ra, có thể được phát hiện, hoặc có thể được học.
Nếu khám phá tri thức là tồn bộ quá trình chiết xuất tri thức từ các
CSDL thì khai phá dữ liệu là giai đoạn chủ yếu của q trình đó. Khai phá dữ liệu
là một q trình phát hiện các mẫu mới, thường bao gồm việc thử tìm mơ hình
phù hợp với tập dữ liệu và tìm kiếm các mẫu từ tập dữ liệu theo mơ hình đó. Sử
dụng các kỹ thuật và các khái niệm của các lĩnh vực đã được nghiên cứu từ trước
như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, các mơ hình đồ
thị, các mạng Bayes… Hầu hết các CSDL đều chứa rất nhiều các mẫu mới và có
ích, tuy nhiên mẫu có giá trị với mục tiêu đặt ra phải là những mẫu không tầm
thường. Để các mẫu trở nên không tầm thường, hệ thống phải làm nhiều hơn là
chỉ mị mẫm thống kê vì kết quả của việc tính tốn trực tiếp qua cơng tác thống kê
là đã có đối với người dùng. Một hệ thống tìm kiếm cần phải có khả năng quyết


7

định cần thực hiện tính tốn nào và kết quả là có đáng quan tâm để tạo nên tri
thức trong ngữ cảnh hiện tại hay không.
Khai phá dữ liệu được sử dụng để tạo ra giả thuyết. Ví dụ như để xác định
các yếu tố rủi ro khi cho vay tín dụng, kỹ thuật k ha i phá d ữ liệ u phải phát
hiện được những người có thu nhập thấp và nợ nhiều là những người sẽ có mức
rủi ro cao. Ngồi ra kỹ thuật cũng có thể phát hiện ra những quy luật mà nhà

phân tích có thể chưa tìm ra ví dụ như tỷ lệ giữa thu nhập trên nợ và tuổi cũng là
các yếu tố xác định mức rủi ro. Để làm được điều này, khai phá dữ liệu sử dụng
các thông tin trong quá khứ để học. Nó sẽ tìm kiếm các thơng tin này trong các
CSDL và sử dụng chúng để tìm ra các mẫu đáng quan tâm.
Nếu xét về mặt ý tưởng và mục đích ứng dụng, khai phá dữ liệu là một nhu
cầu tất yếu, một sự nhạy cảm đáp lại sự mong mỏi của giới kinh doanh thì về mặt
kỹ thuật, đó thực sự là một khó khăn và là cả sự thách thức đối với những nhà
khoa học. Khai phá dữ liệu được xây dựng dựa trên việc sử dụng các giải thuật
mới, được định hướng theo như cầu kinh doanh để có thể giải quyết tự động các
bài tốn kinh doanh bằng các kỹ thuật dễ dùng và có thể hiểu được. Các kỹ thuật
đang được nghiên cứu và sử dụng hiện nay bao gồm cây quyết định, mạng
neuron, phương pháp láng giềng gần nhất, các luật suy diễn…
Khai phá dữ liệu không thuộc một ngành công nghiệp nào. Nó sử dụng các
kỹ thuật thơng minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Có thể coi khai
phá dữ liệu ngày nay đang ở trạng thái giống như việc quản trị dữ liệu vào
những năm 60, khi mà các ứng dụng quản trị dữ liệu đều không tuân theo một
nguyên tắc chung nào cho đến khi mơ hình dữ liệu quan hệ ra đời cùng với sức
mạnh của ngôn ngữ vấn đáp đã thúc đẩy việc phát triển các ứng dụng quản trị dữ
liệu lên nhanh chóng. Tuy vậy, hiện nay trên thế giới đã có rất nhiều ngành công
nghiệp sử dụng kỹ thuật khai phá dữ liệu để phục vụ cho hoạt động kinh doanh của
mình và đã bước đầu thành cơng như ngành tài chính, y học, hóa học, bảo hiểm,
sản xuất, giao thơng, hàng không,… Các kết quả đạt được cho thấy mặc dù kỹ
thuật khai phá dữ liệu hiện nay vẫn còn nhiều vấn đề nổi cộm, nhưng với


8

những tri thức mà chuyên gia con người cũng chưa cung cấp được thì khai phá
dữ liệu có một tiềm năng to lớn trong việc tạo ra những lợi nhuận đáng kể trong
nền kinh tế.

1.2. QUÁ TRÌNH KHÁM PHÁ TRI THỨC

Hình 1.1. Quá trình khám phá tri thức [10]
Quá trình khám phá tri thức từ CSDL là một quá trình có sử dụng nhiều
phương pháp và cơng cụ tin học nhưng vẫn là một q trình mà trong đó con
người là trung tâm. Do đó, nó khơng phải là một hệ thống phân tích tự động mà
là một hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con
người và CSDL, tất nhiên là với sự hỗ trợ của các công cụ tin học. Người sử
dụng hệ thống ở đây phải là người có kiến thức cơ bản về lĩnh vực cần phát hiện
tri thức để có thể chọn được đúng các tập con dữ liệu, các lớp mẫu phù hợp và đạt
tiêu chuẩn quan tâm so với mục đích. Tri thức mà ta nói ở đây là các tri thức rút ra
từ các CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định
trong một lĩnh vực nhất định. Do đó, q trình phát hiện tri thức cũng mang tính
chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà là phát hiện
tri thức nhằm giải quyết tốt nhiệm vụ đề ra.
1.2.1. Gom dữ liệu (Gathering)
Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước
được khai thác trong một CSDL, một kho dữ liệu và thậm chí các dữ liệu từ các


9

nguồn ứng dụng Web.
1.2.2. Trích lọc dữ liệu (Selection)
Ở giai đoạn này lựa chọn những dữ liệu phù hợp với nhiệm vụ phân tích trích
rút từ CSDL.
1.2.3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Preprocessing and Preparation)
Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một
bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải
trong khi gom dữ liệu là tính khơng đủ chặt chẻ, logic. Vì vậy, dữ liệu thường

chứa các giá trị vơ nghĩa và khơng có khả năng kết nối dữ liệu, ví dụ: điểm =-1.
Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu khơng chặt chẽ nói trên.
Những dữ liệu dạng này được xem như thơng tin dư thừa, khơng có giá trị. Bởi
vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch”
sẽ gây nên những kết quả sai lệch nghiêm trọng.
1.2.4. Chuyển đổi dữ liệu (Transformation)
Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu được chuyển đổi hay
được hợp nhất về dạng thích hợp cho việc khai phá.
1.2.5. Khai phá dữ liệu (Data Mining)
Đây là một tiến trình cốt yếu. Ở giai đoạn này nhiều thuật toán khác nhau đã
được sử dụng một cách phù hợp để trích xuất thơng tin có ích hoặc cá mẫu điển
hình trong dữ liệu.
1.2.6. Đánh giá kết quả mẫu (Evaluation of Result)
Đây là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này, các
mẫu dữ liệu được chiết xuất, không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích,
đơi khi nó cịn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để
chiết xuất ra các tri thức cần thiết.
Từ quá trình khám phá tri thức trên chúng ta thấy được sự khác biệt giữa
khám phá tri thức và khai phá dữ liệu. Trong khi khám phá tri thức là nói đến q
trình tổng thể phát hiện tri thức hữu ích từ dữ liệu. Cịn khai phá dữ liệu chỉ là


10

một bước trong quá trình khám phá tri thức, các cơng việc chủ yếu là xác định
được bài tốn khai phá, tiến hành lựa chọn phương pháp khai phá dữ liệu phù hợp
với dữ liệu có được và tách ra các tri thức cần thiết.
1.3. CÁC LOẠI DỮ LIỆU CÓ THỂ KHAI PHÁ
Các loại dữ liệu có thể được khai phá như sau:
- CSDL quan hệ (relational databases): là những CSDL được tổ chức theo mơ

hình quan hệ. Hiện nay, các hệ quản trị CSDL đều hỗ trợ mơ hình này như:
MS Access, MS SQL Server, Oracle, IBM DB2...
- CSDL đa chiều (multidimention structures, data warehouse, data mart): còn
được gọi là nhà kho dữ liệu, trong đó dữ liệu được chọn từ nhiều nguồn khác
nhau và chứa những đặc tính lịch sử thơng qua thuộc tính thời gian tường minh
hoặc ngầm định.
- CSDL giao tác (transaction databases): là loại dữ liệu được sử dụng nhiều
trong siêu thị, thương mại, ngân hàng,...
- CSDL quan hệ – hướng đối tượng (object relational databases): mơ hình
CSDL này là lai giữa mơ hình hướng đối tượng và mơ hình CSDL quan hệ.
- CSDL khơng gian và thời gian (spatial, temporal, and time – series data):
chứa những thông tin về không gian địa lý hoặc thông tin theo thời gian.
- CSDL đa phương tiện (Multimedia database): là loại dữ liệu có nhiều trên
mạng, bao gồm các loại như âm thanh, hình ảnh, video, văn bản và nhiều kiểu dữ
liệu định dạng khác.
1.4. CÁC PHƯƠNG PHÁP, KỸ THUẬT CHÍNH TRONG KHAI PHÁ DỮ
LIỆU
Các kỹ thuật khai phá dữ liệu được có thể chia làm 2 nhóm chính [5]:
- Kỹ thuật khai phá dữ liệu mơ tả: có nhiệm vụ mơ tả về các tính chất hoặc
các đặc tính chung của dữ liệu trong CSDL hiện có. Nhóm kỹ thuật này gồm các
phương pháp: phân nhóm (Clustering), tổng hợp hóa (Summerization), phát hiện
sự biến đổi và độ lệch (Change and deviation detection), phân tích luật kết hợp
(Association Rules)...


11

- Kỹ thuật khai phá dữ liệu dự đốn: có nhiệm vụ đưa ra các dự đoán dựa vào
các suy diễn trên dữ liệu hiện thời. Nhóm kỹ thuật này gồm các phương pháp:
phân lớp (Classification), hồi quy (Regression)...

1.4.1. Phân lớp và dự đoán (Classification & Prediction)
Là đặt các mẫu vào các lớp được xác định trước. Nhiệm vụ chính là tìm các
hàm ánh xạ các mẫu dữ liệu một cách chính xác vào trong các lớp.Ví dụ một ngân
hàng muốn phân loại các khách hành của họ vào trong hai nhóm có nợ hay khơng
nợ, từ đó giúp họ ra quyết định cho vay hay không cho vay. Quá trình phân lớp dữ
liệu thường gồm 2 bước: xây dựng mơ hình và sử dụng mơ hình để phân lớp dữ
liệu.
- Bước 1: một mơ hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ
liệu sẵn có. Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính
gọi là thuộc tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện
(training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định
trước khi xây dựng mơ hình, vì vậy phương pháp này cịn được gọi là học có giám
sát (supervised learning) khác với phân nhóm dữ liệu là học khơng có giám sát
(unsupervised learning).
- Bước 2: sử dụng mơ hình để phân lớp dữ liệu. Trước hết chúng ta phải tính
độ chính xác của mơ hình. Nếu độ chính xác là chấp nhận được, mơ hình sẽ được
sử dụng để dự đốn nhãn lớp cho các mẫu dữ liệu khác trong tương lai.
Trong kỹ thuật phân lớp chúng ta có thể sử dụng các phương pháp như: Cây
quyết định (Decision Tree), K-láng giềng gần nhất (k-Nearest Neighbor), Mạng
Nơron (Neural networks), Giải thuật di truyền (Genetic algorithms), Mạng
Bayesian (Bayesian networks), Tập mờ và tập thô (Rough and Fuzzy Sets).
Cây quyết định (Decision Tree)
Các kỹ thuật phân lớp sử dụng cây quyết định để phân tách các dữ liệu cho đến
khi mỗi phần chứa đựng hầu hết các mẫu từ một lớp đặc trưng, kết quả của quá trình
sẽ cho ra một cây quyết định. Điểm phân tách trong cây quyết định là một nút
(không phải là nút lá) sẽ sử dụng một số điều kiện để quyết định dữ liệu sẽ được


12


phân tách như thế nào. Các nút cuối cùng trong cây quyết định chứa đựng các bộ
mẫu giống nhau. Lợi thế của cây quyết định là các thuật toán chạy khá nhanh, với
kết quả khá tốt và có thể giải thích được rõ ràng. Tuy nhiên, bất lợi mà các thuật
tốn của cây quyết định có thể gặp phải đó là chúng có thể tìm ra các điểm tới hạn
cục bộ, đưa ra các kết quả không đúng.
K-láng giềng gần nhất (k-Nearest Neighbor)
Thuật tốn này tìm ra các láng giềng gần nhất của mẫu thử nghiệm và quy về
các nhãn lớp của chúng dựa trên các nhãn đa số, điều đó có nghĩa là các mẫu được
quy về cùng lớp khi chúng là lân cận của nhau. Kỹ thuật này cho rằng vị trí trong
khơng gian đặc trưng hàm ý một quan hệ họ hàng gần gũi ở giữa các nhãn lớp.
Lợi thế của các thuật toán K-láng giềng gần nhất là dễ thực thi, và kết quả mà
nó đem lại khả năng dễ dàng giải thích. Nhưng một điểm bất lợi là các thuật tốn
này đưa ra các mơ hình rất lớn với một tập dữ liệu nhỏ.
Mạng nơron (Neural networks)
Mạng nơron là mạng được mô phỏng theo bộ não của con người. Đó là một
cấu trúc dữ liệu của các hàm với một hoặc nhiều trọng số đầu vào, với kết quả
đầu ra là một nhãn các lớp. Từng phần riêng biệt của dữ liệu được đưa vào mạng
nơron và các hàm - các trọng số trong mạng nơron bị thay đổi (học - huấn luyện)
tùy theo tỷ lệ lỗi của đầu ra. Phương pháp này thường đưa đến một khoảng thời
gian huấn luyện dài ngay cả khi tập dữ liệu nhỏ.
Lợi thế của mạng nơron là đưa đến các kết quả khá chính xác, nhưng bất
lợi của nó là thường địi hỏi thời gian huấn luyện dài và đưa ra các kết quả khó
hiểu, cứng nhắc, bị bao bọc trong một hộp đen, khó giải thích tường minh.
Giải thuật di truyền (Genetic algorithms)
Các giải thuật di truyền được sử dụng để đưa ra công thức giả thuyết về sự
phụ thuộc giữa các biến. Đối với một giải thuật di truyền phải sử dụng các giải
pháp như cạnh tranh, lựa chọn và kết hợp giữa các tập hợp cá thể.
Lợi thế của Giải thuật di truyền là thường đưa đến các kết quả kiểm tra khá
chính xác, nhưng bất lợi của nó là kết quả có được thơng qua việc lập trình tiến



13

hóa và các kết quả cũng thường cứng nhắc, khó hiểu.
Mạng Bayesian (Bayesian networks)
Trong mạng Bayesian sử dụng các đồ thị có hướng, khơng có chu trình để
miêu tả sự phân lớp có thể được. Các đồ thị này cũng có thể được sử dụng để miêu
tả các tri thức chuyên gia. Các nút miêu tả các biến thuộc tính và các trạng thái (sự
kiện) và mỗi một cạnh miêu tả khả năng sự phụ thuộc giữa chúng. Kết hợp với
mỗi nút là các lớp cục bộ có thể và các cung được vẽ từ nút nguyên nhân đến nút
bị ảnh hưởng. Khai phá dữ liệu trong mạng Bayesian bao gồm việc sử dụng đầu
vào các tri thức chuyên gia và sau đó sử dụng một CSDL để cập nhật, lọc và cải
tiến tri thức đó trong mạng. Các đồ thị mới có thể là kết quả từ các cải tiến này và
nguyên nhân của các mối quan hệ giữa các nút kết quả có thể được giải thích một
cách dễ dàng.
Lợi thế của mạng Bayesian là thường đưa ra các kết quả dễ hiểu, nhưng bất lợi
của nó là cần thu thập được các tri thức chuyên gia truyền thống.
Tập mờ và tập thô (Rough and Fuzzy Sets)
Lý thuyết về tập mờ và tập thô dựa trên một số cơ sở tốn học. Đối với các
mơ hình tập thơ, một giới hạn trên và giới hạn dưới sẽ được xác định. Một tập thô
định nghĩa một lớp C là một xấp xỉ bởi hai tập. Tập cận dưới (lower) của C bao
gồm tất cả các mẫu dữ liệu, mà dựa vào tri thức của các mẫu dữ liệu có thể quyết
định một mẫu bất kỳ thuộc phân lớp C một cách rõ ràng. Tập cận trên của C bao
gồm tất cả các mẫu với giá trị của thuộc tính được mô tả không thể thuộc vào
phân lớp C. Mô hình tập mờ khơng dốc về cực đại cục bộ bằng các thuật toán cây
quyết định, và cũng giống như mơ hình tập thơ, chúng dùng để đối phó với những
điều không chắc chắn tốt hơn bất kỳ một thuật toán nào khác.
1.4.2. Luật kết hợp (Association Rules)
Luật kết hợp là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản. Mục
tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị

dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp
tìm được.


14

Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý
nghĩa. Thông tin mà dạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết
định. Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ
CSDL tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai phá
dữ liệu.
1.4.3. Khai thác mẫu tuần tự (Sequential / Temporal patterns)
Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời
gian. Một luật mơ tả mẫu tuần tự có dạng tiêu biểu X  Y phản ánh sự xuất hiện
của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này có
tính dự báo cao.
1.4.4. Phân nhóm- đoạn (Clustering / Segmentation)
Mục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự
nhau trong tập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng
trong cùng một nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong
các nhóm khác nhau là nhỏ nhất. Các nhóm có thể tách nhau hoặc phân cấp gối lên
nhau và số lượng các nhóm là chưa biết trước. Một đối tượng có thể vừa thuộc
nhóm này, nhưng cũng có thể vừa thuộc nhóm khác. Khơng giống như phân lớp
dữ liệu, phân nhóm dữ liệu khơng đòi hỏi phải định nghĩa trước các mẫu dữ
liệu huấn luyện. Vì thế, có thể coi phân nhóm dữ liệu là một cách học bằng quan
sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ
(learning by example). Trong phương pháp này bạn sẽ không thể biết kết quả các
nhóm thu được sẽ như thế nào khi bắt đầu q trình. Vì vậy, thơng thường cần có
một chuyên gia về lĩnh vực đó để đánh giá các nhóm thu được. Phân nhóm cịn
được gọi là học khơng có giám sát (unsupervised learning). Phân nhóm dữ liệu

được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách
hàng, nhận dạng mẫu, phân loại trang Web, … Ngồi ra phân nhóm dữ liệu cịn có
thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác.
1.4.5. Hồi quy (Regression)
Hồi quy là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự


15

đốn có giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác
nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không rời rạc. Việc dự
báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển chẳng
hạn như hồi quy tuyến tính. Tuy nhiên phương pháp mơ hình hóa cũng có thể
được sử dụng như cây quyết định.
1.4.6. Tổng hợp hóa (Summarization)
Là cơng việc liên quan đến các phương pháp tìm kiếm một mơ tả tập con dữ
liệu. Kỹ thuật mô tả khái niệm và tổng hợp hóa thường áp dụng trong việc phân
tích dữ liệu có tính thăm dị và báo cáo tự động. Nhiệm vụ chính là sản sinh ra các
mơ tả đặc trưng cho một lớp. Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc
tính chung của tất cả hay hầu hết các mục của một lớp. Các mô tả đặc trưng thể
hiện theo luật có dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong tiền đề thì
mục đó có tất cả các thuộc tính đã nêu trong kết luận”.
1.4.7. Mơ hình hóa sự phụ thuộc (dependency modeling)
Là việc tìm kiếm một mơ hình mơ tả sự phụ thuộc giữa các biến, thuộc tính
theo hai mức. Mức cấu trúc của mơ hình mơ tả (thường dưới dạng đồ thị), trong đó,
các biến phụ thuộc bộ phận vào các biến khác và mức định lượng mơ hình mơ tả
mức độ phụ thuộc. Những phụ thuộc này thường được biểu thị dưới dạng theo luật
“nếu - thì” - nếu tiền đề đúng thì kết luận đúng. Về nguyên tắc, cả tiền đề và kết
luận đều có thể là sự kết hợp logic của các giá trị thuộc tính. Trên thực tế, tiền đề
thường là nhóm các giá trị thuộc tính và kết luận chỉ là một thuộc tính. Hơn nữa,

hệ thống có thể phát hiện các luật phân lớp trong đó tất cả các luật cần phải có
cùng một thuộc tính do người dùng chỉ ra trong kết luận.
Quan hệ phụ thuộc cũng có thể biểu diễn dưới dạng mạng tin cậy Bayes. Đó
là đồ thị có hướng, khơng chu trình. Các nút biểu diễn thuộc tính và trọng số của
liên kết phụ thuộc giữa các nút đó.
1.4.8. Phát hiện sự biến đổi và độ lệch (Change and deviation detection)
Tập trung vào khám phá hầu hết sự thay đổi có nghĩa dưới dạng độ đo đã
biết trước hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con


16

dữ liệu thực và nội dung mong đợi. Hai mô hình độ lệch hay dùng là lệch theo
thời gian và lệch theo nhóm. Độ lệch theo thời gian là sự thay đổi có ý nghĩa của
dữ liệu thời gian. Độ lệch theo nhóm là sự khác nhau của dữ liệu trong hai tập con
dữ liệu, ở đây xét cả trường hợp tập con dữ liệu này thuộc tập con kia. Nghĩa xác
định dữ liệu trong một nhóm con của đối tượng có khác đáng kể so với tồn bộ
đối tượng khơng? Theo cách này, sai sót dữ liệu hay sai lệch so với giá trị thông
thường sẽ được phát hiện.
1.5. NHỮNG KHÓ KHĂN TRONG KHAI PHÁ DỮ LIỆU
Khám phá tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều
lĩnh vực trong thực tế, vì vậy các thách thức và khó khăn ngày càng nhiều, càng
lớn hơn. Sau đây là một số các thách thức và khó khăn cần được quan tâm [5]:
- Các CSDL lớn hơn rất nhiều: CSDL với hàng trăm trường và bảng,
hàng triệu bản ghi và kích thước lên tới nhiều gigabyte là vấn đề hồn tồn
bình thường.
- Số chiều cao: khơng chỉ thường có một số lượng rất lớn các bản ghi
trong CSDL mà cịn có một số lượng rất lớn các trường (các thuộc tính, các biến)
làm cho số chiều của bài tốn trở nên cao. Thêm vào đó, nó tăng thêm cơ hội cho
một giải thuật khai phá dữ liệu tìm ra các mẫu không hợp lệ.

- Thay đổi dữ liệu và tri thức: thay đổi nhanh chóng dữ liệu (động) có thể
làm cho các mẫu phát hiện trước đó khơng hợp lệ. Thêm vào đó, các biến đã
đo trong một CSDL ứng dụng cho trước có thể bị sửa đổi, xóa bỏ hay tăng thêm
các phép đo mới. Các giải pháp hợp lý bao gồm các phương pháp tăng trưởng để
cập nhật các mẫu và xử lý thay đổi.
- Dữ liệu thiếu và bị nhiễu: bài toán này đặc biệt nhạy trong các CSDL
thương mại. Các thuộc tính quan trọng có thể bị mất nếu CSDL khơng được thiết
kế với sự khám phá bằng trí tuệ. Các giải pháp có thể gồm nhiều chiến lược
thống kê phức tạp để nhận biết các biến ẩn và các biến phụ thuộc.
- Mối quan hệ phức tạp giữa các trường: các thuộc tính hay giá các giá trị
có cầu trúc phân cấp, các quan hệ giữa các thuộc tính và các phương tiện


×