Tải bản đầy đủ (.pdf) (83 trang)

Nghiên cứu luật kết hợp, thử nghiệm khai phá cơ sở dữ liệu xuất nhập khẩu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.1 MB, 83 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐỨC TOẢN

NGHIÊN CỨU LUẬT KẾT HỢP, THỬ NGHIỆM
KHAI PHÁ CƠ SỞ DỮ LIỆU XUẤT NHẬP KHẨU

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐỨC TOẢN

NGHIÊN CỨU LUẬT KẾT HỢP, THỬ NGHIỆM
KHAI PHÁ CƠ SỞ DỮ LIỆU XUẤT NHẬP KHẨU

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. PHÙNG VĂN ỔN

Hà Nội - 2015



LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết quả
nêu trong luận văn là trung thực và chƣa từng đƣợc công bố trong bất kỳ công
trình nào khác.
Hà Nội, ngày

tháng

năm 2015

Học viên

Nguyễn Đức Toản


LỜI CẢM ƠN

Để có đƣợc kết quả nhƣ ngày hôm nay, tôi muốn gửi lời cảm ơn đến các
thầy cô giáo trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội đã quan tâm
tổ chức chỉ đạo và trực tiếp giảng dạy khoá cao học của chúng tôi.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo hƣớng dẫn TS.
Phùng Văn Ổn, ngƣời đã tận tình chỉ bảo và góp ý về mặt chuyên môn cho tôi
trong suốt quá trình làm luận văn. Nếu không có sự giúp đỡ của thầy thì tôi khó
có thể hoàn thành đƣợc luận văn này.
Cũng qua đây, tôi xin gửi lời cảm ơn đến các Anh/Chị/Em trong Trung
tâm phần mềm Hải quan thuộc công ty Hệ thống thông tin FPT, nơi tôi đang
công tác, đã tạo mọi điều kiện thuận lợi cho tôi trong thời gian hoàn thành các
môn học cũng nhƣ trong suốt quá trình làm luận văn tốt nghiệp.

Cuối cùng, tôi xin cảm ơn bố mẹ, bạn bè, đồng nghiệp đã luôn ủng hộ,
động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn.
Hà Nội, ngày

tháng

năm 2015


MỤC LỤC
MỞ ĐẦU ......................................................................................................................... 1
CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ............................................... 3

1.1 Khai phá dữ liệu ......................................................................................... 3
1.1.1 Khái niệm Khai phá dữ liệu ................................................................. 3
1.1.2 Quá trình khai phá dữ liệu.................................................................... 4
1.1.3 Kiến trúc của một hệ thống khai phá dữ liệu ....................................... 5
1.1.4 Nhiệm vụ chính trong khai phá dữ liệu ............................................... 7
1.1.5 Các phƣơng pháp khai phá dữ liệu ...................................................... 9
1.1.6 Các cơ sở dữ liệu có thể khai phá ...................................................... 14
1.2 Ứng dụng của khai phá dữ liệu ................................................................ 15
1.3 Một số khó khăn và thách thức trong khai phá dữ liệu ........................... 16
1.3.1 Các vấn đề về cơ sở dữ liệu ............................................................... 16
1.3.2 Một số vấn đề khác ............................................................................ 19
1.4 Kết luận .................................................................................................... 20
CHƢƠNG 2: LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU ................................ 21

2.1 Bài toán kinh điển dẫn đến việc khai phá luật kết hợp ............................ 21
2.2 Lý thuyết về luật kết hợp ......................................................................... 21
2.2.1 Luật kết hợp ....................................................................................... 22

2.2.2 Một số tính chất của luật kết hợp ....................................................... 25
2.3 Đặc tả bài toán khai phá luật kết hợp ...................................................... 26
2.4 Một số thuật toán khai phá luật kết hợp .................................................. 27
2.4.1 Tìm tập mục phổ biến (Pha 1)............................................................ 27
2.4.2 Sinh các luật từ các tập mục phổ biến................................................ 36
2.5 Một số hƣớng tiếp cận trong khai phá luật kết hợp ................................. 38
2.5.1 Luật kết hợp nhị phân (binary association rule hoặc boolean
association rule) ............................................................................................ 38
2.5.2 Luật kết hợp có thuộc tính số và thuộc tính danh mục (quantitative
and categorial association rule)..................................................................... 38


2.5.3 Luật kết hợp tiếp cận theo hƣớng tập thô (mining association rules
base on rough set) ......................................................................................... 38
2.5.4 Luật kết hợp nhiều mức (multi-level association rules) .................... 38
2.5.5 Luật kết hợp mờ (fuzzy association rule) .......................................... 39
2.5.6 Luật kết với thuộc tính đƣợc đánh trọng số (association rule with
weighted items) ............................................................................................. 39
2.5.7 Luật kết hợp song song (parallel mining of association rules) .......... 39
2.6 Một số giải pháp triển khai khai phá luật kết hợp ................................... 40
2.6.1 Xây dựng chƣơng trình dựa thuật toán Apriori ................................. 40
2.6.2 Sử dụng công cụ Weka ...................................................................... 42
2.6.3 Sử dụng công cụ Business Intelligence Development Studio (BIDS)45
2.7 Kết luận .................................................................................................... 46
CHƢƠNG 3: THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP CHO CƠ SỞ DỮ LIỆU
XUẤT NHẬP KHẨU.................................................................................................... 47

3.1 Giới thiệu bài toán ................................................................................... 47
3.2 Mô tả dữ liệu ............................................................................................ 48
3.2.1 Mô hình dữ liệu .................................................................................. 49

3.2.2 Danh sách các bảng và mô tả ............................................................. 50
3.3 Phân tích dữ liệu ...................................................................................... 61
3.4 Lựa chọn giải pháp .................................................................................. 62
3.5 Tiền xử lý dữ liệu..................................................................................... 62
3.6 Khai phá cơ sở dữ liệu xuất nhập khẩu với BIDS ................................... 63
3.6.1 Tạo một Mining Model structure ....................................................... 63
3.6.2 Hiệu chỉnh tham số cho mô hình ....................................................... 65
3.6.3 Khám phá Mining Models ................................................................. 65
3.7 Đánh giá kết quả ...................................................................................... 71
3.8 Kết luận .................................................................................................... 71
KẾT LUẬN ................................................................................................................... 72
TÀI LIỆU THAM KHẢO ............................................................................................. 74


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Tên viết tắt
BIDS

Diễn giải
Business Intelligence Development Studio
Công cụ khai thác dữ liệu của Micosoft

Ck

Tập các k-itemset ứng viên (Candidate sets)

Conf

Độ tin cậy (Confidence)


CSDL

Cơ sở dữ liệu

D

Cơ sở dữ liệu giao dịch

Di

Phần thứ i của cơ sở dữ liệu D

Item

Mục

Itemset

Tập mục

k-itemset

Tập mục gồm k mục

Lk

Tập các k-itemset phổ biến

Minconf


Ngƣỡng tin cậy tối thiểu (minimum confidence)

Minsup

Ngƣỡng hỗ trợ tối thiểu (minimum support)

Sup

Độ hỗ trợ (Support)

T

Giao dịch (Transaction)

TID

Định danh của giao dịch (Unique Transaction Identifer)

XY

Luật kết hợp (Với X là tiền đề, Y là hệ quả)

XNK

Xuất nhập khẩu


DANH MỤC CÁC BẢNG
Bảng 2.1 Ví dụ về một cơ sở dữ liệu dạng giao dịch - D .................................... 23

Bảng 2.2 Các tập phổ biến trong CSDL ở bảng 1 với độ hỗ trợ tối thiểu 50%.. 23
Bảng 2.3 Một số ký hiệu dùng trong thuật toán Apriori ..................................... 28
Bảng 3.1 Danh sách các bảng và mô tả .............................................................. 50
Bảng 3.2 Thông tin tờ khai .................................................................................. 51
Bảng 3.3 Thông tin hàng hóa .............................................................................. 52
Bảng 3.4 Thông tin hàng hóa chi tiết .................................................................. 53
Bảng 3.5 Thông tin chung tờ khai trị giá ............................................................ 53
Bảng 3.6 Thông tin tờ khai trị giá phương pháp 1 ............................................. 54
Bảng 3.7 Thông tin chi tiết tờ khai trị giá phương pháp 1 ................................. 55
Bảng 3.8 Thông tin tờ khai trị giá phương pháp 2 hoặc 3.................................. 56
Bảng 3.9 Thông tin tờ khai trị giá phương pháp 4 ............................................. 56
Bảng 3.10 Thông tin tờ khai trị giá phương pháp 5 ........................................... 57
Bảng 3.11 Thông tin tờ khai trị giá phương pháp 6 ........................................... 58
Bảng 3.12 Thông tin kiểm tra hồ sơ tờ khai ........................................................ 58
Bảng 3.13 Thông tin kiểm hóa tờ khai ................................................................ 58
Bảng 3.14 Thông tin chứng nhận xuất xứ hàng hóa ........................................... 59
Bảng 3.15 Thông tin chi tiết chứng nhận xuất xứ hàng hóa ............................... 59
Bảng 3.16 Thông tin chứng từ đính kèm tờ khai ................................................. 59
Bảng 3.17 Thông tin cấp số tờ khai .................................................................... 60
Bảng 3.18 Danh sách các bảng dữ liệu khai phá ............................................... 61
Bảng 3.19 Thông tin chi tiết mã HS .................................................................... 70


DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Quá trình khai phá dữ liệu ..................................................................... 4
Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu ....................................................... 6
Hình 2.1 Minh họa thuật toán Apriori tìm tập mục phổ biến ............................. 33
Hình 2.2 Sinh luật từ tập mục phổ biến .............................................................. 36
Hình 2.3 Sinh luật từ tập mục phổ biến .............................................................. 40
Hình 2.4 Sinh luật từ tập mục phổ biến .............................................................. 41

Hình 2.5 Giao diện chương trình Weka .............................................................. 42
Hình 2.6 Giao diện môi trường Explorer............................................................ 43
Hình 2.7 Ví dụ tập dữ liệu có khuôn dạng ARFF ............................................... 44
Hình 3.1 Mô hình dữ liệu bài toán ...................................................................... 49
Hình 3.2 Danh sách các bảng danh mục ............................................................ 60
Hình 3.3 Thông tin quản lý mã HS...................................................................... 61
Hình 3.4 Mô hình quan hệ các bảng dữ liệu khai phá ........................................ 62
Hình 3.5 View dữ liệu tiền xử lý .......................................................................... 63
Hình 3.6 Cấu hình Case và Nested cho mô hình ................................................ 64
Hình 3.7 Màn hình Mining Models ..................................................................... 64
Hình 3.8 Cấu hình tham số Mining Models ........................................................ 65
Hình 3.9 Danh sách tập phổ biến........................................................................ 66
Hình 3.10 Danh sách luật ................................................................................... 67
Hình 3.11 Mạng phụ thuộc.................................................................................. 68
Hình 3.12 Chi tiết node trong mạng phụ thuộc................................................... 68


MỞ ĐẦU

1. Đặt vấn đề
Ngày nay, con ngƣời đang sở hữu kho dữ liệu phong phú, đa dạng và
khổng lồ. Đặc biệt sự phát triển của công nghệ thông tin và việc ứng dụng công
nghệ thông tin trong nhiều lĩnh vực đã làm cho kho dữ liệu đó tăng lên nhanh
chóng. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật
và công cụ mới để tự động chuyển đổi lƣợng dữ liệu khổng lồ kia thành các tri
thức có ích.
Mặt khác, trong môi trƣờng cạnh tranh thì ngƣời ta ngày càng cần có
thông tin với tốc độ nhanh để giúp cho việc ra quyết định. Hơn nữa ngày càng
có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên khối lƣợng dữ
liệu khổng lồ đã có.

Tiến hành các công việc nhƣ vậy chính là quá trình phát hiện tri thức
trong cơ sở dữ liệu, trong đó kỹ thuật khai phá dữ liệu cho phép phát hiện tri
thức tiềm ẩn. Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời
sự của nền Công nghệ thông tin thế giới hiện nay nói chung và Việt Nam nói
riêng. Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai
phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu đƣợc những
lợi ích to lớn.
Từ những vấn đề nêu trên, tôi chọn đề tài “Nghiên cứu luật kết hợp, thử
nghiệm khai phá cơ sở dữ liệu xuất nhập khẩu” để làm luận văn tốt nghiệp.
2. Mục tiêu của luận văn
 Tìm hiểu khái quát về khai phá dữ liệu
 Đi sâu tìm hiểu về các luật kết hợp
 Nghiên cứu Data mining trong hệ quản trị cơ sở dữ liệu SQL Server
 Thử nghiệm khai phá luật kết hợp trong cơ sở dữ liệu xuất nhập khẩu

1


3. Bố cục luận văn
Luận văn chia làm 3 chƣơng:
Chƣơng 1: Tổng quan về khai phá dữ liệu
Chƣơng này giới thiệu quá trình khai phá dữ liệu và phát hiện tri thức,
phƣơng pháp khai phá dữ liệu, ứng dụng và một số khó khăn trong khai phá dữ
liệu.
Chƣơng 2: Luật kết hợp trong khai phá dữ liệu
Chƣơng này trình bày tóm tắt luật kết hợp, mô hình của bài toán khai phá
luật kết hợp, các khái niệm cơ bản luật kết hợp, các phƣơng pháp khai phá các
luật kết hợp, các giải pháp triển khai khai phá luật kết hợp.
Chƣơng 3: Thử nghiệm khai phá luật kết hợp cho cơ sở dữ liệu xuất nhập
khẩu

Chƣơng này nêu ra bài toán để thử nghiệm, phân tích và cài đặt thử
nghiệm thử nghiệm với công cụ Business Intelligence Development Studio
(BIDS) của Microsoft.

2


CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Khai phá dữ liệu
1.1.1 Khái niệm Khai phá dữ liệu

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ
80, nó là quá trình tìm kiếm, khám phá dƣới nhiều góc độ khác nhau nhằm phát
hiện các mối liên hệ, quan hệ giữa các dữ liệu, đối tƣợng bên trong CSDL, kết
quả của việc khai phá là xác định các mẫu hay các mô hình tồn tại bên trong
nhƣng chúng nằm ẩn ở các CSDL. Về bản chất nó là giai đoạn duy nhất rút trích
và tìm ra đƣợc các mẫu, các mô hình hay thông tin mới, tri thức tiềm ẩn có trong
CSDL chủ yếu phục vụ cho mô tả và dự đoán. Đây là giai đoạn quan trọng nhất
trong quá trình phát hiện tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra
quyết định, điều hành trong khoa học và kinh doanh.
Sau đây là một số định nghĩa của nhiều tác giả về khai phá dữ liệu:
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp
đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan
hệ và các mẫu chƣa biết bên trong dữ liệu”.
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết
định, trong đó chúng ta tìm kiếm các mẫu thông tin chƣa biết và bất ngờ trong
CSDL lớn”.
Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm
thƣờng nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể

hiểu đƣợc”.
Định nghĩa của Tom Mitchell: “KPDL là việc sử dụng dữ liệu lịch sử để
khám phá những qui tắc và cải thiện những quyết định trong tƣơng lai”.
Tóm lại: Khai phá dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong
các CSDL, cụ thể hơn, đó là tiến trình lọc, sản sinh những tri thức hoặc các mẫu
tiềm ẩn, chƣa biết những thông tin hữu ích từ các CSDL lớn.

3


1.1.2 Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn nhƣ hình 1.1:
Envalution of Rule
Data Mining
Transformation
Cleansing Pre-processing
Preparation

Knowledge
Pattern
Discovery

Selection
Transformed
Data

Gathering
Cleansed
Preprocessed
Target

Data

Internet

Preparated

Data

Hình 1.1 Quá trình khai phá dữ liệu
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức đƣợc chiết
xuất ra. Về lý thuyết thì có vẽ rất đơn giản nhƣng thực sự đây là một quá trình
rất khó khăn gặp phải rất nhiều vƣớng mắc nhƣ: quản lý các tập dữ liệu, phải lặp
đi lặp lại toàn bộ quá trình,.v.v.
1. Gom dữ liệu (Gathering)
Tập hợp dữ liệu là bƣớc đầu tiên trong quá trình khai phá dữ liệu. Đây là bƣớc
đƣợc khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu
từ các nguồn ứng dụng Web.
2. Trích lọc dữ liệu (Selection)
Ở giai đoạn này dữ liệu đƣợc lựa chọn hoặc phân chia theo một số tiêu
chuẩn nào đó, ví dụ chọn tất cả những ngƣời có tuổi đời từ 25 – 35 và có trình
độ đại học.
3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing
and Preparation)

4


Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhƣng thực tế nó là một
bƣớc rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thƣờng mắc phải
trong khi gom dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thƣờng

chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu.
Ví dụ: tuổi = 673. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu
không chặt chẽ nói trên. Những dữ liệu dạng này đƣợc xem nhƣ thông tin dƣ
thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu
này nếu không đƣợc “làm sạch - tiền xử lý - chuẩn bị trƣớc” thì sẽ gây nên
những kết quả sai lệch nghiêm trọng.
4. Chuyển đổi dữ liệu (Transformation)

Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đƣa ra có thể đƣợc sử
dụng và điều khiển bởi việc tổ chức lại nó. Dữ liệu đã đƣợc chuyển đổi phù hợp
với mục đích khai thác.
5. Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)

Đây là bƣớc mang tính tƣ duy trong khai phá dữ liệu. Ở giai đoạn này
nhiều thuật toán khác nhau đã đƣợc sử dụng để trích ra các mẫu từ dữ liệu.
Thuật toán thƣờng dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các
mô hình dữ liệu tuần tự,. v.v.
6. Đánh giá kết quả mẫu (Evaluation of Result)

Đây là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này,
các mẫu dữ liệu đƣợc chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải
bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần
phải ƣu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowledge)
cần chiết xuất ra.
Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai
đoạn 5 là giai đoạn đƣợc quan tâm nhiều nhất hay còn gọi đó là Data Mining.
1.1.3 Kiến trúc của một hệ thống khai phá dữ liệu

Gồm các thành phần nhƣ hình sau


5


Giao diện đồ họa cho ngƣời dùng
Đánh giá mẫu
Cơ sở tri thức
Máy khai phá dữ liệu
Máy chủ cơ sở dữ liệu hay kho dữ liệu
Làm sạch và tích hợp dữ liệu

CSDL

Lọc dữ liệu

Kho dữ liệu

CSDL

Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu
Các thành phần đƣợc mô tả nhƣ sau:
1. Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu (Database or warehouse
server)
Máy chủ này có trách nhiệm lấy dữ liệu thích hợp dựa trên những yêu cầu
khai phá của ngƣời dùng.
2. Cơ sở tri thức (Knowledge base)
Đây là miền tri thức đƣợc dùng để tìm kiếm hay đánh giá độ quan trọng
của các hình mẫu kết quả.
3. Máy khai phá dữ liệu (Data mining engine)
Một hệ thống khai phá dữ liệu cần phải có một tập các modul chức năng để thực
hiện công việc, chẳng hạn nhƣ đặc trƣng hóa, kết hợp, phân lớp, phân cụm, phân

tích sự tiến hoá…
4. Modul đánh giá mẫu (Pattern evaluation)
Bộ phận này tƣơng tác với các modul khai phá dữ liệu để tập trung vào
việc duyệt tìm các mẫu đáng đƣợc quan tâm. Cũng có thể modul đánh giá mâu
đƣợc tích hợp vào modul khai phá tuỳ theo sự cài đặt của phƣơng pháp khai phá
đƣợc dùng.
6


5. Giao diện đồ họa cho người dùng (Graphical user interface)
Thông qua giao diện này, ngƣời dùng tƣơng tác với hệ thống bằng cách
đặc tả một yêu cầu khai phá hay một nhiệm vụ, cung cấp thông tin trợ giúp cho
việc tìm kiếm và thực hiện khai phá thăm dò trên các kết quả khai phá trung
gian.
1.1.4 Nhiệm vụ chính trong khai phá dữ liệu

Quá trình khai phá dữ liệu là quá trình phát hiện ra mẫu thông tin. Trong
đó, giải thuật khai phá tìm kiếm các mẫu đáng quan tâm theo dạng xác định nhƣ
các luật, phân lớp, hồi quy, cây quyết định, ...
1.1.4.1 Phân lớp (phân loại - classification)
Là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một trong số các
lớp đã đƣợc biết trƣớc đó. Mục tiêu của thuật toán phân lớp là tìm ra mối quan
hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp. Nhƣ thế quá trình phân
lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới. Các kiến thức
đƣợc phát hiện biểu diễn dƣới dạng các luật theo cách sau: “Nếu các thuộc tính
dự báo của một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp
chỉ ra trong kết luận”.
Ví dụ: Một mục biểu diễn thông tin về nhân viên có các thuộc tính dự báo
là: họ tên, tuổi, giới tính, trình độ học vấn, … và thuộc tính phân loại là trình độ
lãnh đạo của nhân viên.

1.1.4.2 Hồi qui (regression)
Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán
có giá trị thực. Nhiệm vụ của hồi quy tƣơng tự nhƣ phân lớp, điểm khác nhau
chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc. Việc dự
báo các giá trị số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ điển, chẳng
hạn nhƣ hồi quy tuyến tính. Tuy nhiên, phƣơng pháp mô hình hoá cũng đƣợc sử
dụng, ví dụ: cây quyết định.
Ứng dụng của hồi quy là rất nhiều, ví dụ: dự đoán số lƣợng sinh vật phát
quang hiện thời trong khu rừng bằng cách dò tìm vi sóng bằng các thiết bị cảm
biến từ xa; ƣớc lƣợng xác xuất ngƣời bệnh có thể chết bằng cách kiểm tra các
triệu chứng; dự báo nhu cầu của ngƣời dùng đối với một sản phẩm, …

7


1.1.4.3 Phân nhóm (clustering)
Là việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ liệu.
Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ liệu
có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác. Các ứng dụng khai phá dữ
liệu có nhiệm vụ phân nhóm nhƣ phát hiện tập các khách hàng có phản ứng
giống nhau trong CSDL tiếp thị; xác định các quang phổ từ các phƣơng pháp đo
tia hồng ngoại, … Liên quan chặt chẽ đến việc phân nhóm là nhiệm vụ đánh giá
dữ liệu, hàm mật độ xác suất đa biến/ các trƣờng trong CSDL.
1.1.4.4 Tổng hợp (summarization)
Là công việc liên quan đến các phƣơng pháp tìm kiếm một mô tả tập con
dữ liệu. Kỹ thuật tổng hợp thƣờng áp dụng trong việc phân tích dữ liệu có tính
thăm dò và báo cáo tự động. Nhiệm vụ chính là sản sinh ra các mô tả đặc trƣng
cho một lớp. Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của
tất cả hay hầu hết các mục của một lớp. Các mô tả đặc trƣng thể hiện theo luật
có dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong tiền đề thì mục đó có tất

cả các thuộc tính đã nêu trong kết luận”. Lƣu ý rằng luật dạng này có các khác
biệt so với luật phân lớp. Luật phát hiện đặc trƣng cho lớp chỉ sản sinh khi các
mục đã thuộc về lớp đó.
1.1.4.5 Mô hình hoá sự phụ thuộc (dependency modeling)
Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc
tính theo hai mức: Mức cấu trúc của mô hình mô tả (thƣờng dƣới dạng đồ thị).
Trong đó, các biến phụ thuộc bộ phận vào các biến khác. Mức định lượng mô
hình mô tả mức độ phụ thuộc. Những phụ thuộc này thƣờng đƣợc biểu thị dƣới
dạng theo luật “nếu - thì” (nếu tiền đề là đúng thì kết luận đúng). Về nguyên tắc,
cả tiền đề và kết luận đều có thể là sự kết hợp logic của các giá trị thuộc tính.
Trên thực tế, tiền đề thƣờng là nhóm các giá trị thuộc tính và kết luận chỉ là một
thuộc tính. Hơn nữa hệ thống có thể phát hiện các luật phân lớp trong đó tất cả
các luật cần phải có cùng một thuộc tính do ngƣời dùng chỉ ra trong kết luận.
Quan hệ phụ thuộc cũng có thể biểu diễn dƣới dạng mạng tin cậy Bayes.
Đó là đồ thị có hƣớng, không chu trình. Các nút biểu diễn thuộc tính và trọng số
của liên kết phụ thuộc giữa các nút đó.
1.1.4.6 Phát hiện sự biến đổi và độ lệch (change and deviation dectection)
Nhiệm vụ này tập trung vào khám phá hầu hết sự thay đổi có nghĩa dƣới
dạng độ đo đã biết trƣớc hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội
8


dung của tập con dữ liệu thực và nội dung mong đợi. Hai mô hình độ lệch hay
dùng là lệch theo thời gian hay lệch theo nhóm. Độ lệch theo thời gian là sự thay
đổi có ý nghĩa của dữ liệu theo thời gian. Độ lệch theo nhóm là sự khác nhau
của giữa dữ liệu trong hai tập con dữ liệu, ở đây tính cả trƣờng hợp tập con dữ
liệu này thuộc tập con kia, nghĩa xác định dữ liệu trong một nhóm con của đối
tƣợng có khác đáng kể so với toàn bộ đối tƣợng không? Theo cách này, sai sót
dữ liệu hay sai lệch so với giá trị thông thƣờng đƣợc phát hiện.
Vì những nhiệm vụ này yêu cầu số lƣợng và các dạng thông tin rất khác

nhau nên chúng thƣờng ảnh hƣởng đến việc thiết kế và chọn phƣơng pháp khai
phá dữ liệu khác nhau. Ví dụ nhƣ phƣơng pháp cây quyết định (sẽ đƣợc trình
bày dƣới đây) tạo ra đƣợc một mô tả phân biệt đƣợc các mẫu giữa các lớp nhƣng
không có tính chất và đặc điểm của lớp.
1.1.5 Các phƣơng pháp khai phá dữ liệu

Khai phá dữ liệu là lĩnh vực mà con ngƣời luôn tìm cách đạt đƣợc mực
đích sử dụng thông tin của mình. Quá trình khai phá dữ liệu là quá trình phát
hiện mẫu, trong đó phƣơng pháp khai phá dữ liệu để tìm kiếm các mẫu đáng
quan tâm theo dạng xác định. Có thể kể ra đây một vài phƣơng pháp nhƣ: sử
dụng công cụ truy vấn, xây dựng cây quyết định, dựa theo khoảng cách (K-láng
giềng gần), giá trị trung bình, phát hiện luật kết hợp, … Các phƣơng pháp trên
có thể đƣợc phỏng theo và đƣợc tích hợp vào các hệ thống lai để khai phá dữ
liệu theo thống kê trong nhiều năm nghiên cứu. Tuy nhiên, với dữ liệu rất lớn
trong kho dữ liệu thì các phƣơng pháp này cũng đối diện với thách thức về mặt
hiệu quả và quy mô.
1.1.5.1 Các thành phần của giải thuật khai phá dữ liệu
Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính nhƣ sau: biểu
diễn mô hình, kiểm định mô hình và phƣơng pháp tìm kiếm.
1. Biểu diễn mô hình
Mô hình đƣợc biểu diễn theo một ngôn ngữ L nào đó để miêu tả các mẫu
có thể khai thác đƣợc. Mô tả mô hình rõ ràng thì học máy sẽ tạo ra mẫu có mô
hình chính xác cho dữ liệu. Tuy nhiên, nếu mô hình quá lớn thì khả năng dự
đoán của học máy sẽ bị hạn chế. Nhƣ thế sẽ làm cho việc tìm kiếm phức tạp hơn
cũng nhƣ hiểu đƣợc mô hình là không đơn giản hoặc sẽ không thể có các mẫu
tạo ra đƣợc một mô hình chính xác cho dữ liệu. Ví dụ mô tả cây quyết định sử
dụng phân chia các nút theo 1 trƣờng dữ liệu, chia không gian đầu vào thành các
siêu phẳng song song với trục các thuộc tính. Phƣơng pháp cây quyết định nhƣ
9



vậy không thể khai phá đƣợc dữ liệu dạng công thức X = Y dù cho tập học có
quy mô lớn thế nào đi nữa. Vì vậy, việc quan trọng là ngƣời phân tích dữ liệu
cần phải hiểu đầy đủ các giả thiết miêu tả. Một điều cũng khá quan trọng là
ngƣời thiết kế giải thuật cũng phải diễn tả đƣợc các giả thiết mô tả nào đƣợc tạo
ra bởi giải thuật nào. Khả năng miêu tả mô hình càng lớn thì càng làm tăng mức
độ nguy hiểm do bị học quá và làm giảm đi khả năng dự đoán các dữ liệu chƣa
biết. Hơn nữa, việc tìm kiếm sẽ càng trở lên phức tạp hơn và việc giải thích mô
hình cũng khó khăn hơn.
Mô hình ban đầu đƣợc xác định bằng cách kết hợp biến đầu ra (phụ
thuộc) với các biến độc lập mà biến đầu ra phụ thuộc vào. Sau đó phải tìm
những tham số mà bài toán cần tập trung giải quyết. Việc tìm kiếm mô hình sẽ
đƣa ra đƣợc một mô hình phù hợp với tham số đƣợc xác định dựa trên dữ liệu
(trong một số trƣờng hợp khác thì mô hình và các tham số lại thay đổi để phù
hợp với dữ liệu). Trong một số trƣờng hợp, tập các dữ liệu đƣợc chia thành tập
dữ liệu học và tập dữ liệu thử. Tập dữ liệu học đƣợc dùng để làm cho tham số
của mô hình phù hợp với dữ liệu. Mô hình sau đó sẽ đƣợc đánh giá bằng cách
đƣa các dữ liệu thử vào mô hình và thay đổi các tham số cho phù hợp nếu cần.
Mô hình lựa chọn có thể là phƣơng pháp thống kê nhƣ SASS, … một số giải
thuật học máy (ví dụ nhƣ cây quyết định và các quyết định học có thầy khác),
mạng neuron, suy diễn hƣớng tình huống (case based reasoning), các kỹ thuật
phân lớp.
2. Kiểm định mô hình (model evaluation)
Là việc đánh giá, ƣớc lƣợng các mô hình chi tiết, chuẩn trong quá trình xử
lý và phát hiện tri thức với sự ƣớc lƣợng có dự báo chính xác hay không và có
thoả mãn cơ sở logic hay không? Ƣớc lƣợng phải đƣợc đánh giá chéo (cross
validation) với việc mô tả đặc điểm bao gồm dự báo chính xác, tính mới lạ, tính
hữu ích, tính hiểu đƣợc phù hợp với các mô hình. Hai phƣơng pháp logic và
thống kê chuẩn có thể sử dụng trong mô hình kiểm định.
3. Phương pháp tìm kiếm

Phƣơng pháp này bao gồm hai thành phần: tìm kiếm tham số và tìm kiếm
mô hình. Trong tìm kiếm tham số, giải thuật cần tìm kiếm các tham số để tối ƣu
hóa các tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát đƣợc và với một
mô tả mô hình đã định. Việc tìm kiếm không cần thiết đối với một số bài toán
khá đơn giản: các đánh giá tham số tối ƣu có thể đạt đƣợc bằng các cách đơn
giản hơn. Đối với các mô hình chung thì không có các cách này, khi đó giải
10


thuật “tham lam” thƣờng đƣợc sử dụng lặp đi lặp lại. Ví dụ nhƣ phƣơng pháp
giảm gradient trong giải thuật lan truyền ngƣợc (backpropagation) cho các mạng
neuron. Tìm kiếm mô hình xảy ra giống nhƣ một vòng lặp qua phƣơng pháp tìm
kiếm tham số: mô tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi
một mô tả mô hình, phƣơng pháp tìm kiếm tham số đƣợc áp dụng để đánh giá
chất lƣợng mô hình. Các phƣơng pháp tìm kiếm mô hình thƣờng sử dụng các kỹ
thuật tìm kiếm heuristic vì kích thƣớc của không gian các mô hình có thể thƣờng
ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản (closed form)
không dễ đạt đƣợc.
1.1.5.2 Phương pháp suy diễn / quy nạp
Một cơ sở dữ liệu là một kho thông tin, nhƣng các thông tin quan trọng
hơn cũng có thể đƣợc suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để
thực hiện việc này là suy diễn và quy nạp.
Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các
thông tin trong cơ sở dữ liệu. Ví dụ nhƣ toán tử liên kết áp dụng cho bảng quan
hệ, bảng đầu chứa thông tin về các nhân viên và phòng ban, bảng thứ hai chứa
các thông tin về các phòng ban và các trƣởng phòng. Nhƣ vậy sẽ suy ra đƣợc
mối quan hệ giữa các nhân viên và các trƣởng phòng. Phƣơng pháp suy diễn dựa
trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mẫu
chiết xuất đƣợc bằng cách sử dụng phƣơng pháp này thƣờng là các luật suy diễn.
Phương pháp quy nạp: phƣơng pháp quy nạp suy ra các thông tin đƣợc

sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức
chứ không phải bắt đầu với các tri thức đã biết trƣớc. Các thông tin mà phƣơng
pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối
tƣợng trong cơ sở dữ liệu. Phƣơng pháp này liên quan đến việc tìm kiếm các
mẫu trong CSDL. Trong khai phá dữ liệu, quy nạp đƣợc sử dụng trong cây quyết
định và tạo luật.
1.1.5.3 Phương pháp ứng dụng K-láng giềng gần
Sự miêu tả các bản ghi trong tập dữ liệu khi trỏ vào không gian nhiều
chiều là rất có ích đối với việc phân tích dữ liệu. Việc dùng các miêu tả này, nội
dung của vùng lân cận đƣợc xác định, trong đó các bản ghi gần nhau trong
không gian đƣợc xem xét thuộc về lân cận (hàng xóm – láng giềng) của nhau.
Khái niệm này đƣợc dùng trong khoa học kỹ thuật với tên gọi K-láng giềng gần,
trong đó K là số láng giềng đƣợc sử dụng. Phƣơng pháp này rất hiệu quả nhƣng
11


lại đơn giản. Ý tƣởng thuật toán học K-láng giềng gần là “thực hiện nhƣ các
láng giềng gần của bạn đã làm”.
Ví dụ: Để dự đoán hoạt động của cá thể xác định, K-láng giềng tốt nhất
của cá thể đƣợc xem xét, và trung bình các hoạt động của các láng giềng gần
đƣa ra đƣợc dự đoán về hoạt động của cá thể đó.
Kỹ thuật K-láng giềng gần là một phƣơng pháp tìm kiếm đơn giản. Tuy
nhiên, nó có một số mặt hạn chế giới là hạn phạm vi ứng dụng của nó, ví dụ nhƣ
độ phức tạp tính toán là luỹ thừa bậc 2 theo số bản ghi của tập dữ liệu.
Vấn đề chính liên quan đến thuộc tính của bản ghi. Một bản ghi gồm
nhiều thuộc tính độc lập, nó bằng một điểm trong không gian tìm kiếm có số
chiều lớn. Trong các không gian có số chiều lớn, giữa hai điểm bất kỳ hầu nhƣ
có cùng khoảng cách. Vì thế mà kỹ thuật K-láng giềng không cho ta thêm một
thông tin có ích nào, khi tất cả các cặp điểm đều là các láng giềng. Cuối cùng,
phƣơng pháp K-láng giềng không đƣa ra lý thuyết để hiểu cấu trúc dữ liệu. Hạn

chế đó có thể đƣợc khắc phục bằng kỹ thuật cây quyết định.
1.1.5.4 Phương pháp sử dụng cây quyết định và luật
Với kỹ thuật phân lớp dựa trên cây quyết định, kết quả của quá trình xây
dựng mô hình sẽ cho ra một cây quyết định. Cây này đƣợc sử dụng trong quá
trình phân lớp các đối tƣợng dữ liệu chƣa biết hoặc đánh giá độ chính xác của
mô hình. Tƣơng ứng với hai giai đoạn trong quá trình phân lớp là quá trình xây
dựng và sử dụng cây quyết định.
Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả
các mẫu dữ liệu. Sau đó, các mẫu sẽ đƣợc phân chia một cách đệ quy dựa vào
việc lựa chọn các thuộc tính. Nếu các mẫu có cùng một lớp thì nút sẽ trở thành
lá, ngƣợc lại ta sử dụng một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm
cơ sở để phân chia các mẫu ra các lớp. Theo từng giá trị của thuộc tính vừa
chọn, ta tạo ra các nhánh tƣơng ứng và phân chia các mẫu vào các nhánh đã tạo.
Lặp lại quá trình trên cho tới khi tạo ra đƣợc cây quyết định, tất cả các nút triển
khai thành lá và đƣợc gán nhãn.
Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau đƣợc thỏa
mãn:
- Tất cả các mẫu thuộc cùng một nút.
- Không còn một thuộc tính nào để lựa chọn.
12


- Nhánh không chứa mẫu nào.
Phần lớn các giải thuật sinh cây quyết định đều có hạn chế chung là sử
dụng nhiều bộ nhớ. Lƣợng bộ nhớ sử dụng tỷ lệ thuận với kích thƣớc của mẫu
dữ liệu huấn luyện. Một chƣơng trình sinh cây quyết định có hỗ trợ sử dụng bộ
nhớ ngoài song lại có nhƣợc điểm về tốc độ thực thi. Do vậy, vấn đề tỉa bớt cây
quyết định trở nên quan trọng. Các nút lá không ổn định trong cây quyết định sẽ
đƣợc tỉa bớt.
Kỹ thuật tỉa trƣớc là việc dừng sinh cây quyết định khi chia dữ liệu không

có ý nghĩa.
1.1.5.5 Phương pháp phát hiện luật kết hợp
Phƣơng pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần
dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật
kết hợp tìm đƣợc. Ta có thể lấy một ví dụ đơn giản về luật kết hợp nhƣ sau: Sự
kết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi
kéo theo sự xuất hiện của B trong cùng bản ghi đó: A => B.
Cho một lƣợc đồ R={A1, …, Ap} các thuộc tính với miền giá trị {0,1}, và
một quan hệ r trên R. Một luật kết hợp trên r đƣợc mô tả dƣới dạng X=>B với X
 R và B  R\X. Về mặt trực giác, ta có thể phát biểu ý nghĩa của luật nhƣ sau:
Nếu một bản ghi của bảng r có giá trị 1 tại mỗi thuộc tính thuộc X thì giá trị của
thuộc tính B cũng là 1 trong cùng bản ghi đó. Ví dụ nhƣ ta có tập cơ sở dữ liệu
về các mặt hàng bán trong siêu thị, các dòng tƣơng ứng với các ngày bán hàng,
các cột tƣơng ứng với các mặt hàng thì giá trị 1 tại ô (20/10, bánh mì) xác định
rằng bánh mì đã bán ngày hôm đó cũng kéo theo sự xuất hiện giá trị 1 tại ô
(20/10, bơ).
Cho W  R, đặt s(W,r) là tần số xuất hiện của W trong r đƣợc tính bằng
tỷ lệ của các hàng trong r có giá trị 1 tại mỗi cột thuộc W. Tần số xuất hiện của
luật X=>B trong r đƣợc định nghĩa là s(X  {B}, r) còn gọi là độ hỗ trợ của
luật, độ tin cậy của luật là s(X  {B}, r)/s(X, r). Ở đây X có thể gồm nhiều
thuộc tính, B là giá trị không cố định. Nhờ vậy mà không xảy ra việc tạo ra các
luật không mong muốn trƣớc khi quá trình tìm kiếm bắt đầu. Điều đó cũng cho
thấy không gian tìm kiếm có kích thƣớc tăng theo hàm mũ của số lƣợng các
thuộc tính ở đầu vào. Do vậy cần phải chú ý khi thiết kế dữ liệu cho việc tìm
kiếm các luật kết hợp.

13


Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật

X=>B sao cho tần số của luật không nhỏ hơn ngƣỡng σ cho trƣớc và độ tin cậy
của luật không nhỏ hơn ngƣỡng θ cho trƣớc. Từ một cơ sở dữ liệu ta có thể tìm
đƣợc hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp.
Ta gọi một tập con X  R là thƣờng xuyên trong r nếu thỏa mãn điều kiện
s(X, r)≥σ. Nếu biết tất cả các tập thƣờng xuyên trong r thì việc tìm kiếm các luật
rất dễ dàng. Vì vậy, giải thuật tìm kiếm các luật kết hợp trƣớc tiên đi tìm tất cả
các tập thƣờng xuyên này, sau đó tạo dựng dần các luật kết hợp bằng cách ghép
dần các tập thuộc tính dựa trên mức độ thƣờng xuyên.
Các luật kết hợp có thể là một cách hình thức hóa đơn giản. Chúng rất
thích hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân. Giới hạn cơ bản
của phƣơng pháp này là ở chỗ các quan hệ cần phải thƣa theo nghĩa không có
tập thƣờng xuyên nào chứa nhiều hơn 15 thuộc tính. Giải thuật tìm kiếm các luật
kết hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến và nếu nhƣ một
K

tập phổ biến có kích thƣớc K thì phải có ít nhất là 2 tập phổ biến. Thông tin về
các tập phổ biến đƣợc sử dụng để ƣớc lƣợng độ tin cậy của các tập luật kết hợp.
1.1.6 Các cơ sở dữ liệu có thể khai phá

KPDL đƣợc ứng dụng rộng rãi nên có rất nhiều dạng dữ liệu khác nhau có
thể khai phá. Sau đây là một số dữ liệu điển hình:
Cơ sở dữ liệu quan hệ (Relational databases): Là cơ sở dữ liệu tác nghiệp
đƣợc tổ chức theo mô hình quan hệ, có cấu trúc cao, dữ liệu đƣợc mô tả bởi một
tập những thuộc tính và lƣu trong những bảng. Khai phá dữ liệu trên cơ sở dữ
liệu quan hệ chủ yếu tập trung khai phá mẫu. Hầu hết các hệ quản trị CSDL hiện
nay đều hỗ trợ dạng CSDL này nhƣ SQL Server, Oracle, DB2, MySQL, MS
Access...
Cơ sở dữ liệu giao tác (Transaction databases): Cơ sở dữ liệu giao tác là
tập hợp những bản ghi giao dịch, trong đa số các trƣờng hợp chúng là những bản
ghi các dữ liệu hoạt động của doanh nghiệp, tổ chức. Với tính phổ biến của máy

tính và thƣơng mại điện tử, ngày nay có rất nhiều cơ sở dữ liệu giao tác. Khai
phá dữ liệu trên cơ sở dữ liệu giao tác tập trung vào khai phá luật kết hợp, tìm
mối tƣơng quan giữa những mục dữ liệu của bản ghi giao dịch.
CSDL đa chiều (Multidimentional structures, data warehouses, data
smart): Là các kho dữ liệu đƣợc tập hợp, chọn lọc từ nhiều nguồn khác nhau.
CSDL đa chiều có mang tính lịch sử (mang tính thời gian) và chủ yếu phục vụ
14


cho quá trình phân tích cũng nhƣ khai phá tri thức nhằm hỗ trợ quá trình ra
quyết định.
CSDL hướng đối tượng (Object databases): Dữ liệu cũng đƣợc lƣu trữ
trong các bảng dữ liệu nhƣng các bảng có bổ sung thêm các tính năng hƣớng đối
tƣợng nhƣ lƣu trữ thêm các hành vi, nhằm thể hiện hành vi của đối tƣợng. Mỗi
bảng xem nhƣ một lớp dữ liệu, một dòng dữ liệu trong bảng là một đối tƣợng.
Các hệ quản trị có hỗ trợ cơ sở dữ liệu quan hệ nhƣ: MS SQL server, Oracle,
Postgres...
CSDL không gian (Spatial databases): Bao gồm hai phần: Phần thứ nhất
là dữ liệu quan hệ hay giao tác, phần thứ hai là thông tin định vị hoặc thông tin
địa lý. Những luật kết hợp trên cơ sở dữ liệu không gian mô tả mối quan hệ giữa
các đặc trƣng trong cơ sở dữ liệu không gian. Dạng của luật kết hợp không gian
có dạng X Y, với X, Y là tập hợp những vị từ không gian. Những thuật toán
khai phá luật kết hợp không gian tƣơng tự nhƣ khai phá luật kết hợp nhƣng thêm
những vị từ về không gian.
CSDL có yếu tố thời gian (Time – series databases): Giống nhƣ cơ sở dữ
liệu không gian, cơ sở dữ liệu có yếu tố thời gian bao gồm hai phần: Phần thứ
nhất là dữ liệu quan hệ hay giao tác, phần thứ hai là thông tin về thời gian xuất
hiện dữ liệu ở phần thứ nhất. Những luật kết hợp có yếu tố thời gian có nhiều
thông tin hơn những luật kết hợp cơ bản.
CSDL đa phương tiện (Multimedia databases): CSDL đƣợc tích hợp gồm

nhiều dạng khác nhau nhƣ: âm thanh, hình ảnh, văn bản.
1.2 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu đƣợc vận dụng trong nhiều lĩnh vực khác nhau, nhằm
khai thác nguồn dữ liệu phong phú đƣợc lƣu trữ trong các hệ thống thông tin.
Tùy theo bản chất của từng lĩnh vực, việc vận dụng khai phá dữ liệu có những
cách tiếp cận khác nhau.
Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng; tìm kiếm tri thức,
quy luật của thị trƣờng chứng khoán và đầu tƣ bất động sản.

15


Thương mại điện tử: Tìm hiểu, định hƣớng thúc đẩy, giao tiếp với khách
hàng; Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù
hợp với nhiềuloại khách hàng.
Marketing: Phân tích nhu cầu khách hàng dựa trên mẫu dữ liệu mua bán
hang từ đó xác định chiến lƣợc kinh doanh, quảng cáo, kế hoạch sản xuất …
Khai phá dữ liệu cũng đƣợc vận dụng hiệu quả để giải quyết các bài toán
phức tạp trong các ngành đòi hỏi kỹ thuật cao, nhƣ tìm kiếm mỏ dầu từ ảnh viễn
thám, cảnh báo hỏng hóc trong các hệ thống sản xuất, … Các kỹ thuật khai phá
dữ liệu đã đƣợc áp dụng thành công trong việc dự đoán tải sử dụng điện năng
cho các công ty cung cấp điện, lƣu lƣợng viễn thông cho các công ty điện thoại,
mức độ tiêu thụ sản phẩm cho các nhà sản xuất, giá trị của sản phẩm trên thị
trƣờng cho các công ty tài chính…
Ngoài ra, khai phá dữ liệu còn đƣợc áp dụng cho các vấn đề xã hội nhƣ
phân tích các kết quả phòng chống và điều trị một số loại bệnh, phân tích tác hại
của ma tuý, phát hiện tội phạm hay tăng cƣờng an ninh xã hội... Việc vận dụng
thành công đã mang lại những hiệu quả thiết thực cho các hoạt động diễn ra
hàng ngày trong đời sống.
1.3 Một số khó khăn và thách thức trong khai phá dữ liệu

Ở đây, ta đƣa ra một số khó khăn trong việc nghiên cứu và ứng dụng kỹ
thuật khai phá dữ liệu. Tuy nhiên, thế không có nghĩa là việc giải quyết là hoàn
toàn bế tắc mà chỉ muốn nêu lên rằng để khai phá đƣợc dữ liệu không phải đơn
giản, mà phải xem xét cũng nhƣ tìm cách giải quyết những vấn đề này. Ta có thể
liệt kê một số khó khăn nhƣ sau:
1.3.1 Các vấn đề về cơ sở dữ liệu

Đầu vào chủ yếu của một hệ thống khai thác tri thức là các dữ liệu thô; cơ
sở phát sinh trong khai phá dữ liệu chính là từ đây. Các dữ liệu trong thực tế
thƣờng động, không đầy đủ, lớn và bị nhiễu. Trong những trƣờng hợp khác,
ngƣời ta không biết cơ sở dữ liệu có chứa các thông tin cần thiết cho việc khai

16


×