Tải bản đầy đủ (.pdf) (94 trang)

Một số vấn đề liên quan đến lý thuyết tập thô

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 94 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Đỗ Thị Mai Hƣờng

MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN LÝ THUYẾT
TẬP THÔ

Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI

Hà nội – 2007


-1-

LỜI CẢM ƠN
Để có thể hoàn thành tốt luận văn này, em đã có sự động viên, giúp đỡ
của rất nhiều người. Trước tiên, em xin bày tỏ lòng kính trọng và sự biết ơn
sâu sắc tới PGS.TS Vũ Đức Thi, người đã hướng dẫn, giúp đỡ và tạo điều
kiện cho em trong suốt quá trình làm luận văn. Em xin cảm ơn TS Hà Quang
Thụy đã cho em những lời khuyên quý báu trong giai đoạn đầu của quá trình
làm luận văn. Em xin chân thành cảm ơn các Thầy trong Khoa Công nghệ
thông tin - Đại học Công nghệ - Đại học Quốc gia Hà nội, các Thầy trong
Viện Công nghệ thông tin đã giảng dạy, truyền đạt kiến thức cho em trong
suốt quá trình học tập và nghiên cứu tại trường. Cuối cùng, xin cảm ơn gia
đình, bạn bè cùng các đồng nghiệp trong Khoa Công nghệ thông tin, Học viện


Kỹ thuật Quân sự đã động viện, tạo điều kiện để tôi có thể hoàn thành quá
trình học tập và hoàn thành tốt luận văn này.

Hà Nội, tháng 01 năm 2007
NGƢỜI THỰC HIỆN

Đỗ Thị Mai Hường


-2-

MỤC LỤC
BẢNG CÁC KÍ HIỆU VIẾT TẮT ...........................................................................4
DANH SÁCH CÁC BẢNG .......................................................................................5
DANH SÁCH CÁC HÌNH VẼ .................................................................................6
MỞ ĐẦU ....................................................................................................................7
CHƢƠNG 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ LÝ THUYẾT
TẬP THÔ .................................................................................................................10
1.1 . Khám phá tri thức.......................................... Error! Bookmark not defined.
1.1.1. Định nghĩa khám phá tri thức .................................................................10
1.1.2. Các bước chính trong quá trình khám phá tri thức ................................11
1.1.3. Khai phá dữ liệu ......................................................................................12
1.1.4. Các bài toán chính trong khai phá dữ liệu ....................................................14
1.1.5. Một số kỹ thuật khai phá dữ liệu .............................................................16
1.2 . Lý thuyết tập thô ...........................................................................................19
1.2.1. Hệ thông tin .............................................................................................19
1.2.2. Hệ quyết định ..........................................................................................20
1.2.3. Quan hệ không phân biệt được trong hệ thông tin .................................21
1.2.4. Tập xấp xỉ trên, xấp xỉ dưới và miền biên ...............................................23
1.2.5. Tập thuộc tính rút gọn và tập thuộc tính nhân ........................................28

1.2.6. Ma trận phân biệt và hàm phân biệt .......................................................30
1.2.7. Hàm thành viên thô .................................................................................33
1.2.8. Sự phụ thuộc thuộc tính...........................................................................34
1.3 . Kết luận chƣơng 1 .........................................................................................34
CHƢƠNG 2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC THEO CÁCH TIẾP CẬN
TẬP THÔ .................................................................................................................36
2.1 Sự rời rạc hoá dựa trên tập thô và lập luận logic ..........................................36
2.1.1 Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định ...............36
2.1.2 Vấn đề rời rạc hóa ................................................................................38
2.2 Lựa chọn thuộc tính dựa trên tập thô với phƣơng pháp đánh giá kinh nghiệm
…… .......................................................................................................................48
2.3 Một số phƣơng pháp khác xây dựng tập thuộc tính rút gọn ........................52


-3-

2.3.1
2.3.2

Loại trừ thuộc tính không liên quan từ một rút gọn..............................52
Chiến lược Xóa......................................................................................52

2.3.3
2.3.4

Chiến lược Thêm-Xóa ...........................................................................53
Chiến lược Thêm ...................................................................................54

2.3.5


Các thuật toán tính rút gọn dựa trên các cặp đối tượng phân biệt ......56

2.3.6
2.3.7

Rút gọn nửa tối thiểu ............................................................................57
Chiến lược ngẫu nhiên ..........................................................................58

2.4 Quá trình khám phá luật trong bảng quyết định ...........................................59
2.4.1 Luật trong bảng quyết định ...................................................................59
2.4.2
2.4.3
2.4.4

Hai đặc trưng của luật: Độ mạnh và độ nhiễu của luật .......................60
Khám phá luật bởi bảng phân bố tổng quát dựa trên tập thô ..............60
Thuật toán tối ưu hoá các luật ..............................................................68

2.4.5
2.4.6
2.4.7

Thuật toán giải pháp gần tối ưu các luật ..............................................69
Tiêu chuẩn lựa chọn luật trong tập thô.................................................70
Một số thuật toán sinh luật khác ...........................................................70

2.5 Khám phá mẫu trong hệ thông tin .................................................................71
2.6 Kết luận chƣơng 2 .........................................................................................72
CHƢƠNG 3 ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN TƢ
VẤN THI ĐẠI HỌC .................................................................................................73

3.1 Bộ công cụ Rosetta .......................................................................................73
3.1.1 Giới thiệu...............................................................................................73
3.1.2 Các đặc trưng của Rosetta ....................................................................73
3.2 Ứng dụng lý thuyết tập thô trong bài toán Tƣ vấn thi đại học ......................75
3.2.1 Mô tả bài toán .......................................................................................75
3.2.2 Tập thô trong bài toán Tư vấn thi đại học ............................................78
3.2.3 Quá trình phát hiện luật ........................................................................79
3.3 Kết luận chƣơng 3 .........................................................................................88
KẾT LUẬN ...............................................................................................................89
TÀI LIỆU THAM KHẢO .........................................................................................91


-4-

BẢNG CÁC KÍ HIỆU VIẾT TẮT
Ký hiệu, viết tắt
KDD

Giải thích ý nghĩa
Khám phá tri thức

RS

Tập thô

A

Hệ thông tin hay bảng quyết định

A, B

D
a

Tập các thuộc tính trong hệ thông tin
Tập thuộc tính quyết định trong hệ thông tin
Một thuộc tính điều kiện trong tập thuộc tính điều kiện của hệ
thông tin

Va

Tập giá trị của thuộc tính điều kiện

U

Tập đối tƣợng (tập tổng thể) trong hệ thông tin

Pa

Tập các nhát cắt trên tập Va

RED
CORE
card (X) hay ||X||

Tập rút gọn
Tập nhân
Số lƣợng phần tử có trong X


-5-


DANH SÁCH CÁC BẢNG
Bảng1.1: Ví dụ học cho khái niệm chơi tennis

16

Bảng 1.2: Một ví dụ về hệ thông tin

19

Bảng 1.3: Ví dụ về bảng quyết định TuyenSinh

21

Bảng 2.1: Bảng thông tin A* xây dựng từ A

47

Bảng 2.2: Bảng thông tin mô tả các đối tượng

50

Bảng 2.3: Trạng thái khởi tạo

51

Bảng 2.4: Các bảng thông tin tương ứng với việc chọn thuộc tính a, c, d

51


Bảng 3.1: Tiêu chí căn cứ chọn trường thi đại học

76

Bảng 3.2: Danh mục môn thi các khối thi đại học

77

Bảng 3.3: Dữ liệu về các nhát cắt

82

Bảng 3.4: Dữ liệu sau khi rời rạc hóa

83

Bảng 3.5: Dữ liệu thu được sau khi sinh luật

84

Bảng 3.6: Dữ liệu luật sau khi xử lý

85


-6-

DANH SÁCH CÁC HÌNH VẼ

Hình 1.1: Mô hình mô tả quá trình khám phá tri thức


11

Hình 1.2: Mô tả cây quyết định cho khái niệm chơi tennis

17

Hình 1.3 : Xấp xỉ tập thí sinh cần xem xét khi thi đại học

24

Hình 2.1: Một họ phân hoạch định nghĩa bởi tập các nhát cắt

37

Hình 2.2: Quá trình rời rạc hóa

41

Hình 2.3 : Giá trị của các đối tượng biểu diễn bởi đồ thị

42

Hình 2.4: Các nhát cắt trên đồ thị

43

Hình 2.5: Các điểm cắt trên thuộc tính a

44


Hình 2.6: Tập các nhát cắt tối thiểu

46

Hình 3.1: Sơ đồ quá trình sinh luật

80

Hình 3.2 : Sơ đồ thuật toán sinh dữ liệu ngẫu nhiên

81

Hình 3.3: Mô hình quan hệ trong cơ sở dữ liệu TuyenSinh

86

Hình 3.4: Giao diện nhập thông tin dự đoán kết quả

87

Hình 3.5: Giao diện hiển thị kết quả dự đoán cho một trường đại học

87

Hình 3.6: Giao diện hiển thị kết quả dự đoán cho nhiều trường đại học

88



-7-

MỞ ĐẦU
Cùng với sự phát triển của Công nghệ thông tin, khám phá tri thức trong các
cơ sở dƣ liệu lớn là một trong những lĩnh vực đƣợc rất nhiều nhà nguyên cứu và
ứng dụng tin học đặc biệt quan tâm. Khám phá tri thức trong cơ sở dữ liệu là một
quá trình có thể tìm ra những thông tin mới, những thông tin hữu ích, và tiềm ẩn
trong cơ sở dữ liệu. Quá trình phát hiện tri thức gồm nhiều giai đoạn, trong đó giai
đoạn khai phá dữ liệu là quan trọng nhất. Đây là giai đoạn chính tìm ra những thông
tin mới trong cơ sở dữ liệu. Quá trình phát hiện tri thức là sự tiếp thu, sử dụng và
phát triển các thành tựu của nhiều lĩnh vực nghiên cứu ứng dụng tin học trƣớc đó
nhƣ: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, thống kê, v.v..
Khám phá tri thức có thể sử dụng nhiều thuật toán khám phá tri thức nhƣ: Sử
dụng cây quyết định, phƣơng pháp thống kê, các mạng neural, thuật toán di truyền,
lý thuyết tập thô...Trong những thập niên gần đây, lý thuyết tập thô đã liên tục phát
triển, thu hút ngày càng nhiều các nhóm nghiên cứu và những ngƣời quan tâm đến
phƣơng pháp luận này. Lý thuyết tập thô đƣợc bắt nguồn bởi Zdzislaw Pawlak nhƣ
là một kết quả của quá trình nghiên cứu lâu dài trên các thuộc tính logic của các hệ
thông tin. Lý thuyết tập thô đƣợc xây dựng trên nền tảng toán học vững chắc giúp
cung cấp những công cụ hữu ích để giải quyết những bài toán phân lớp dữ liệu và
khai phá luật,...Với đặc tính có thể xử lý đƣợc những dữ liệu mơ hồ, không chắc
chắn tập thô tỏ ra rất hữu ích trong việc giải quyết những bài toán thực tế. Cụ thể,
trong lý thuyết tập thô dữ liệu đƣợc biểu diễn thông qua hệ thông tin, hay bảng
quyết định; ý tƣởng chính trong việc phân tích dữ liệu theo tiếp cận tập thô xuất
phát từ những khái niệm về sự xấp xỉ tập, về quan hệ không phân biệt đƣợc. Từ
những bảng dữ liệu lớn với dữ liệu dƣ thừa, không hoàn hảo, dữ liệu liên tục, hay
dữ liệu biểu diễn dƣới dạng ký hiệu, lý thuyết tập thô cho phép khám phá tri thức từ
những loại dữ liệu nhƣ vậy nhằm phát hiện ra những quy luật tiềm ẩn từ khối dữ



-8-

liệu này. Tri thức đƣợc biểu diễn dƣới dạng các luật, mẫu mô tả mối quan hệ bị che
dấu trong dữ liệu. Trong lý thuyết tập thô, chất lƣợng của thông tin đƣợc đo bằng
cách sử dụng khái niệm tập xấp xỉ trên và xấp xỉ duới. Ngƣời ta có thể tìm đƣợc tập
các thuộc tính nhỏ nhất nhằm loại bỏ những thông tin dƣ thừa, không cần thiết mà
vẫn giữ đƣợc ý nghĩa. Sau đó, dựa vào tập thuộc tính nhỏ nhất này ngƣời ta có thể
tìm ra các quy luật chung nhất hoặc các mẫu để biểu diễn dữ liệu.
Lý thuyết tập thô đóng vai trò hết sức quan trọng trong trí tuệ nhân tạo và các
ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu
nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu,
các hệ chuyên gia, hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng.
Một số ứng dụng cụ thể của lý thuyết tập thô đã đƣợc phát triển trong vài
năm gần đây trong các lĩnh vực nhƣ y học, dƣợc học, ngân hàng, tài chính, phân
tích thị trƣờng. Tiếp cận tập thô cũng đóng vai trò quan trọng đối với nhiều ứng
dụng kỹ thuật nhƣ máy chuẩn đoán, khoa học vật liệu,… Sự công bố của lý thuyết
này tạo điều kiện phát triển nhiều ứng dụng mới [19,21]. Một trong số các ứng dụng
chính của tập thô trong trí tuệ nhân tạo là phân tích và khám phá tri thức từ dữ liệu
[25].
Với những ƣu điểm nhƣ vậy của lý thuyết tập thô, tôi đã dành thời gian để
nghiên cứu và tìm hiểu về phƣơng pháp luận này. Luận văn đi sâu vào tìm hiểu ý
tƣởng và cơ sở toán học của lý thuyết tập thô. Thông qua tìm hiểu và khai thác bộ
công cụ ROSETTA (đƣợc xây dựng bởi Aleksander Ohrn và cộng sự thuộc nhóm
nghiên cứu tri thức thuộc khoa Khoa học máy tính và thông tin của trƣờng Đại học
Norwegian, Trondheim, Na-uy cùng nhóm Logic thuộc ĐHTH Warsaw, Ba-lan),
luận văn cũng đƣa ra một số đề xuất ứng dụng thử nghiệm lý thuyết tập thô vào việc
hỗ trợ quyết định chọn trƣờng thi phù hợp với khả năng cho các em học sinh trƣớc
kỳ thi tuyển sinh đại học.
Luận văn đƣợc trình bày gồm có ba chƣơng:
 Chƣơng 1: Giới thiệu tổng quan về khám phá tri thức, các bài toán khai phá dữ

liệu và các kỹ thuật khai phá dữ liệu. Giới thiệu về các khái niệm cơ bản trong lý


-9-

thuyết tập thô nhƣ: hệ thông tin, bảng quyết định, khái niệm không phân biệt
đƣợc, tập xỉ trên, tập xỉ dƣới và miền biên, ma trận phân biệt, rút gọn, .v.v. Nội
dung của chƣơng này đƣợc tổng hợp từ các tài liệu [5,6,7,8,9,10,15,12,18]
 Chƣơng 2: Trình bày quá trình khám phá tri thức theo cách tiếp cận tập thô và
các phƣơng pháp sử dụng trong quá trình khai phá dữ liệu. Chẳng hạn nhƣ rời
rạc hóa dữ liệu theo phƣơng pháp lập luận logic, rút gọn thuộc tính theo phƣơng
pháp Heuristic, .v.v. Nội dung chƣơng này đƣợc tổng hợp từ các tài liệu
[6,7,10,15,12,18,19,24]
 Chƣơng 3: Từ kết quả nghiên cứu trình bày trong chƣơng một và chƣơng hai,
thông qua công cụ ROSETTA [11], đề xuất ứng dụng của lý thuyết tập thô vào
thực tế trong bài toán tƣ vấn thi đại học.


-10-

CHƢƠNG 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ
LÝ THUYẾT TẬP THÔ

1.1 . Khám phá tri thức
1.1.1.

Định nghĩa khám phá tri thức

Khám phá tri thức trong các cơ sở dữ liệu (KDD-Knowledge Discovery in
Databases) là quá trình phát hiện những tri thức tiềm ẩn, không biết trƣớc, và có ích

trong cơ sở dữ liệu. Thực chất đó là quá trình tìm kiếm những thông tin có trong cơ
sở dữ liệu nhƣng bị che giấu trong các khối dữ liệu.
Tri thức ở đây có thể đƣợc hiểu là một biểu thức trong một ngôn ngữ nào đó
diễn tả một hoặc nhiều mối quan hệ giữa các thuộc tính trong các dữ liệu đó. Tri
thức có thể đƣợc xem nhƣ dữ liệu ở mức trừu tƣợng hóa và tổng quát hóa cao. Các
ngôn ngữ thƣờng dùng để biểu diễn tri thức trong quá trình phát hiện tri thức từ cơ
sở dữ liệu là các khung, các cây và đồ thị, các luật, các công thức trong logic mệnh
đề, .v.v.
Việc khám phá tri thức thƣờng đƣợc áp dụng để giải quyết một loạt những yêu
cầu phục vụ những mục đích nhất định. Quá trình phát hiện tri thức mang tính chất
hƣớng nhiệm vụ, không phải là phát hiện mọi tri thức mà phát hiện những tri thức
phục vụ tốt một nhiệm vụ đề ra. Vì vậy, quá trình phát hiện tri thức là một hoạt
động tƣơng tác giữa một ngƣời sử dụng hoặc một chuyên gia phân tích với các công
cụ tin học.


-11-

1.1.2.

Các bƣớc chính trong quá trình khám phá tri thức

Mục đích của quá trình khám phá tri thức là rút ra đƣợc tri thức mới sau một
số bƣớc từ những cơ sở dữ liệu trong thực tế. Quá trình này gồm các bƣớc chính
sau[13]:
Xác định và định

Bƣớc1

nghĩa vấn đề

Thu nhập và tiền

Bƣớc2

xử lý dữ liệu
Khai phá dữ liệu

Bƣớc3

Giải thích kết quả

Bƣớc4

và đánh giá
Sử dụng tri thức

Bƣớc5

phát hiện đƣợc
Hình 1.1: Mô hình mô tả quá trình khám phá tri thức
Bƣớc 1: Xác định và định nghĩa vấn đề:
 Tìm hiểu lĩnh vực ứng dụng và nhiệm vụ đề ra, xác định các tri thức đã có và
các mục tiêu của ngƣời sử dụng.
 Tạo và chọn lựa cơ sở dữ liệu.
Bƣớc 2: Thu nhập và tiền xử lý dữ liệu:
 Xử lý và làm sạch dữ liệu trƣớc: Bỏ đi các dữ liệu tạp bao gồm các lỗi và các
dạng không bình thƣờng. Xử lý dữ liệu bị mất, chuyển đổi dữ liệu phù hợp.
 Rút gọn kích thƣớc dữ liệu nhận đƣợc: Nhận ra các thuộc tính hữu ích cho
quá trình phát hiện tri thức.
Bƣớc 3: Khai phá dữ liệu:



-12-

 Chọn nhiệm vụ khai phá dữ liệu.
 Lựa chọn các phƣơng pháp khai phá dữ liệu.
 Khai phá dữ liệu để rút ra các mẫu, các mô hình.
Bƣớc 4: Giải thích kết quả và đánh giá các mẫu, các mô hình tìm đƣợc ở bƣớc 3.
Bƣớc 5: Sử dụng tri thức phát hiện đƣợc.
 Các tri thức phát hiện đƣợc tích hợp chặt chẽ trong hệ thống. Tuy nhiên để
sử dụng đƣợc tri thức đó đôi khi cần đến các chuyên gia trong các lĩnh vực
quan tâm vì tri thức rút ra có thể chỉ có tính chất hỗ trợ quyết định.
 Tri thức tìm đƣợc có thể đƣợc sử dụng cho một quá trình khám phá tri thức
khác.
Nhƣ vậy khám phá tri thức gồm 5 bƣớc chính, trong đó khai phá dữ liệu là
bƣớc quan trọng nhất, nhờ đó có thể tìm đƣợc các thông tin tiềm ẩn trong cơ sở dữ
liệu.
1.1.3.

Khai phá dữ liệu

Khai phá dữ liệu (DM - Data mining): là một giai đoạn quan trọng trong quá
trình phát hiện tri thức. Về bản chất nó là giai đoạn duy nhất tìm ra đƣợc thông tin
mới, thông tin tiềm ẩn có trong cơ sở dữ liệu chủ yếu phục vụ cho mô tả và dự
đoán. Quá trình khai phá dữ liệu bao gồm các bƣớc chính sau:
 Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.
 Xác định các dữ liệu liên quan dùng để xây dựng giải pháp.
 Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý
chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu đƣợc. Ở đây có thể
gặp phải một số vấn đề: dữ liệu phải đƣợc sao ra nhiều bản (nếu đƣợc chiết xuất vào

các tệp), quản lý các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu
mô hình dữ liệu thay đổi, .v.v.).
 Giải thuật khai phá dữ liệu: Chọn thuật toán khai phá dữ liệu thích hợp và thực
hiện việc khai phá dữ liệu: nhằm tìm đƣợc các mẫu có ý nghĩa dƣới dạng biểu diễn
tƣơng ứng với các ý nghĩa đó.


-13-

 Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu
Khai phá dữ liệu có khả năng chấp nhận một số kiểu dữ liệu khác nhau, điển hình
là:
 Cơ sở dữ liệu quan hệ (Relational database): Cơ sở dữ liệu tác nghiệp đƣợc tổ
chức theo mô hình dữ liệu quan hệ. Hầu hết các hệ quản trị cơ sở dữ liệu hiện nay
đều hỗ trợ dạng này nhƣ MS SQL Server, Oracle, .v.v.
 Cơ sở dữ liệu đa chiều (Multidimensional structures, data warehouses, data
mart) là các kho dữ liệu đƣợc tập hợp, chọn lọc từ nhiều nguồn dữ liệu khác nhau.
Dạng dữ liệu này mang tính lịch sử (tức có tính thời gian) và chủ yếu phục vụ cho
quá trình phân tích cũng nhƣ là khám phá tri thức nhằm hỗ trợ ra quyết định.
 Cơ sở dữ liệu dạng giao dịch (Trasactional database): Là dạng cơ sở dữ liệu tác
nghiệp nhƣng các bản ghi thƣờng là các giao dịch. Dạng dữ liệu này thƣờng phổ
biến trong lĩnh vực thƣơng mại và ngân hàng.
 Cơ sở dữ liệu quan hệ - hƣớng đối tƣợng (Object-relational database): Là dạng
Cơ sở dữ liệu lai giữa 2 mô hình quan hệ và hƣớng đối tƣợng.
 Dữ liệu không gian và thời gian (Spatial, temporal and time-series data): là dạng
dữ liệu có tích hợp thuộc tính về không gian (ví dụ dữ liệu về bản đồ) , dữ liệu thời
gian (dữ liệu thị trƣờng chứng khoán…).
 Cơ sở dữ liệu đa phƣơng tiện (Multimedia database): Là dạng dữ liệu âm thanh
(audio), hình ảnh (Images), phim ảnh (video), Text & WWW,…Dạng dữ liệu này
hiện đang rất phổ biến trên Internet do sự ứng dụng rộng rãi của nó.

 Các ứng dụng của khai phá dữ liệu
Khai phá dữ liệu có nhiều ứng dụng trong thực tiễn, các ứng dụng điển hình có
thể liệt kê nhƣ là:
-

Phân tích dữ liệu và hỗ trợ ra quyết định

-

Điều trị trong y học: Mối liên hệ giữa triệu chứng, chuẩn đoán và phƣơng
pháp điều trị.


-14-

-

Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web

-

Tin sinh học: Tìm kiếm, đối sánh các hệ Gene và thông tin di truyền, mối
liên hệ giữa một số hệ Gene và một số bệnh di truyền.

-

Nhận dạng

-


Tài chính và thị trƣờng chứng khoán: Phân tích tình hình tài chính và dự báo
giá của các cổ phiếu.

-

Bảo hiểm

-

Giáo dục

1.1.4.

Các bài toán chính trong khai phá dữ liệu [5,9,13,14]

 Phân lớp và dự đoán (Classification & Prediction)
Xếp một đối tƣợng vào một trong những lớp đã biết. Ví dụ: Phân lớp vùng địa lý
theo dữ liệu thời tiết. Đối với hƣớng tiếp cận này thƣờng áp dụng một số kỹ thuật
nhƣ máy học (Machine learning), cây quyết định (Decision tree), mạng nơron nhân
tạo (Neural network). Với hƣớng này, ngƣời ta còn gọi là học có giám sát hay học
có thầy (Supervised learning).
 Phân cụm và phân đoạn (Clusterring and Segmentation)
Sắp xếp các đối tƣợng theo từng cụm (số lƣợng và tên của cụm chƣa đƣợc biết
trƣớc). Các đối tƣợng đƣợc gom cụm sao cho mức độ tƣơng tự giữa các đối tƣợng
trong cùng một cụm là lớn nhất và mức độ tƣơng tự giữa các đối tƣợng nằm trong
các cụm khác nhau là nhỏ nhất. Lớp bài toán phân cụm còn đƣợc gọi là học không
giám sát hay học không thầy (Unsupervised learning).
 Luật kết hợp (Association rules)
Luật kết hợp là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Mục tiêu của
phƣơng pháp này là phát hiện và đƣa ra các mối liên hệ giữa các giá trị dữ liệu trong



-15-

cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm
đƣợc. Chẳng hạn: phân tích cơ sở dữ liệu dự thi đại học nhận đƣợc thông tin về các
học sinh đăng ký nguyện vọng 1 là Đại học (ĐH) Bách Khoa có khuynh hƣớng
đăng ký nguyện vọng 2 là ĐH Tự nhiên đƣợc miêu tả trong luật kết hợp sau:
“Nguyện vọng 1 là ĐH Bách Khoa => Nguyện vọng 2 là ĐH Tự Nhiên”
[Độ hỗ trợ: 20%, độ tin cậy: 70%]
Độ hỗ trợ và độ tin cậy là hai độ đo sự đáng quan tâm của luật. Chúng tƣơng ứng
phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Độ hỗ trợ 20% có nghĩa
là trong số các học sinh đăng ký dự thi ĐH thì có 20% đăng ký nguyện vọng 1 là
ĐH Bách Khoa và nguyện vọng 2 là ĐH Tự nhiên. Còn độ tin cậy 70% có nghĩa là
70% các học sinh đăng ký nguyện vọng 1 là ĐH Bách Khoa cũng đăng ký nguyện
vọng 2 là ĐH Tự nhiên.
Vế trái của luật đƣợc coi là tiền đề, vế phải là kết luận. Độ hỗ trợ của luật là số phần
trăm các giao tác chứa cả vế phải và vế trái. Độ tin cậy của luật là số phần trăm các
giao tác thỏa mãn vế trái thì cũng thỏa mãn vế phải.
Hƣớng tiếp cận này đƣợc ứng dụng nhiều trong các lĩnh vực kinh doanh, y học, tin
sinh học, giáo dục, .v.v..
 Khai phá chuỗi theo thời gian (Sequential/Temporal patterns)
Cũng tƣơng tự nhƣ khai phá dữ liệu bằng luật kết hợp nhƣng có thêm tính thứ tự và
tính thời gian. Hƣớng tiếp cận này đƣợc ứng dụng nhiều trong lĩnh vực tài chính và
thị trƣờng chứng khoán bởi vì chúng có tính dự báo cao.
 Mô tả khái niệm và tổng hợp hóa (Summarization)
Liên quan đến các phƣơng pháp tìm kiếm một mô tả cho một tập con dữ liệu.
Các kỹ thuật tóm tắt thƣờng đƣợc áp dụng cho các phân tích dữ liệu tƣơng tác có
tính thăm dò và tạo báo cáo tự động.



-16-

1.1.5.

Một số kỹ thuật khai phá dữ liệu

 Cây quyết định và luật
Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm
phân các đối tƣợng dữ liệu thành một số lớp nhất định. Các nút của cây đƣợc gắn
nhãn là tên các thuộc tính, các cạnh đƣợc gắn các giá trị có thể của các thuộc tính,
các lá miêu tả các lớp khác nhau. Các đối tƣợng đƣợc phân theo lớp các đƣờng đi
trên cây, qua các cạnh tƣơng ứng với giá trị của thuộc tính của đối tƣợng lá.
Ví dụ:
Day Outlook Temperature Humidity

Wind

PlayTennis

D1

Sunny

Hot

High

Weak


No

D2

Sunny

Hot

High

Strong

No

D3

Overcast

Hot

High

Weak

Yes

D4

Rain


Mild

High

Weak

Yes

D5

Rain

Cool

Normal

Weak

Yes

D6

Rain

Cool

Normal

Strong


No

D7

Overcast

Cool

Normal

Strong

Yes

D8

Sunny

Mild

High

Weak

No

D9

Sunny


Cool

Normal

Weak

Yes

D10

Rain

Mild

Normal

Weak

Yes

D11

Sunny

Mild

Normal

Strong


Yes

D12 Overcast

Mild

High

Strong

Yes

D13 Overcast

Hot

Normal

Weak

Yes

D14

Mild

High

Strong


No

Rain

Bảng1.1: Ví dụ học cho khái niệm chơi tennis


-17-

 Tạo luật: Các luật đƣợc tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về
mặt thống kê. Các luật có dạng Nếu P thì Q; với P là mệnh đề đúng với một
phần dữ liệu trong cơ sở dữ liệu, Q là mệnh đề dự đoán.
 Cây quyết định là phƣơng pháp dùng trong bài toán phân đoạn dữ liệu theo một
tiêu chuẩn nào đó dựa trên mức độ khác nhau của thuộc tính. Cây quyết định và
luật có ƣu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá dễ hiểu với
ngƣời sử dụng. Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ có thể biểu
diễn đƣợc một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của mô
hình.
Outlook

Overcast

Sunny

Rain

Yes
Wind

Humidity


Weak

Normal

High

Strong
Yes

Yes

Yes

Yes

Hình 1.2: Mô tả cây quyết định cho khái niệm chơi tennis
 Mạng neural
Mạng neural là một tiếp cận tính toán mới liên quan đến việc phát triển các
cấu trúc toán học với khả năng học. Các phƣơng pháp là kết quả của việc nghiên
cứu mô hình học của hệ thần kinh con ngƣời. Mạng neural có thể đƣa ra ý nghĩa từ
các dữ liệu phức tạp hoặc không chính xác và có thể đƣợc sử dụng để truy xuất các
mẫu và phát hiện ra các xu hƣớng quá phức tạp mà con ngƣời cũng nhƣ các kỹ thuật
máy tính khác không thể phát hiện đƣợc.


-18-

Mạng neural là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có
thể áp dụng đƣợc cho rất nhiều các loại bài toán khác nhau đáp ứng đƣợc các nhiệm

vụ đặt ra của khai phá dữ liệu nhƣ phân lớp, phân nhóm, mô hình hóa, dự báo các
sự kiện phụ thuộc vào thời gian, .v.v..
 Giải thuật di truyền
Giải thuật di truyền là mô phỏng lại hệ thống tiến hóa trong tự nhiên. Giải
thuật di truyền chỉ ra tập các cá thể đƣợc hình thành, ƣớc lƣợng và biến đổi nhƣ thế
nào. Ví dụ nhƣ xác định xem làm thế nào để lựa chọn các cá thể tạo giống và lựa
chọn các cá thể nào sẽ bị loại bỏ. Giải thuật cũng mô phỏng lại yếu tố gen trong
nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế
khác nhau.
Giải thuật di truyền là một giải thuật tối ƣu hóa. Nó đƣợc sử dụng rộng rãi
trong việc tối ƣu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng
neural. Sự liên hệ của nó với giải thuật khai phá dữ liệu là ở chỗ việc tối ƣu hóa cần
thiết cho các quá trình khai phá dữ liệu, ví dụ trong các kỹ thuật cây quyết định, tạo
luật.
 Lý thuyết tập thô
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần
phải có thông tin về mọi đối tƣợng trong tập tổng thể. Ví dụ, nếu các đối tƣợng là
các bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thành thông
tin về bệnh nhân. Nhƣ vậy tập thô có quan điểm hoàn toàn khác với quan điểm
truyền thống của tập hợp, trong đó mọi tập hợp đều đƣợc định nghĩa duy nhất bởi
các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử thuộc tập
hợp. Rõ ràng có thể tồn tại một số đối tƣợng giống nhau ở một số thông tin nào đó,
và ta nói rằng chúng có quan hệ không phân biệt đƣợc. Đây chính là quan hệ mấu
chốt và chính là điểm xuất phát của lý thuyết tập thô: biên giới của tập thô là không


-19-

rõ ràng, chúng ta phải xấp xỉ nó bằng các tập hợp khác, nhằm mục đích cuối cùng là
trả lời đƣợc rằng một đối tƣợng nào đó thuộc tập hợp hay không.

Cách tiếp cận lý thuyết tập thô để phân tích dữ liệu có rất nhiều lợi điểm quan
trọng nhƣ: Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu dƣ thừa, dữ
liệu không hoàn hảo, dữ liệu liên tục; Hiệu quả trong việc tìm kiếm những mẫu tiềm
ẩn trong dữ liệu; Sử dụng đƣợc tri thức kinh nghiệm. Nhận ra các mối quan hệ mà
khi sử dụng các phƣơng pháp thống kê khác không phát hiện đƣợc, .v.v..

1.2 . Lý thuyết tập thô
1.2.1.

Hệ thông tin
Một tập dữ liệu miêu tả bởi một bảng, trong đó mỗi hàng biểu diễn "bản ghi"

(thể hiện một phần tử, một trƣờng hợp, một sự kiện hay đơn giản là biểu diễn một
đối tƣợng), còn các cột biểu diễn một thuộc tính (một biến, một quan sát, một tính
chất,.v.v.. ). Bảng này đƣợc gọi là hệ thông tin [6,7,10].
Định nghĩa 1.1. Hệ thông tin là cặp A = (U,A) trong đó U là một tập hữu hạn khác
rỗng các đối tƣợng và A là một tập hữu hạn khác rỗng các thuộc tính, trong đó:
a: U  Va với mọi a  A. Tập Va đƣợc gọi là tập giá trị của a.
 Ví dụ: Cho một hệ thông tin gồm có 7 đối tƣợng (Mỗi đối tƣợng ở đây là một
học sinh) và 3 thuộc tính: Điểm trung bình, PTTH, Quận/Huyện
U

Điểm trung bình

PTTH

Quận/Huyện

x1


5.5

Hai Bà Trƣng

Hai Bà Trƣng

x2

7.0

Chu Văn An

Tây Hồ

x3

6.5

Đoàn Thị Điểm

Cầu Giấy

x4

6.5

Đoàn Thị Điểm

Cầu Giấy


x5

6.0

Chuyên Ngữ

Cầu Giấy

x6

6.5

Lê Quý Đôn

Cầu Giấy

x7

8.0

Nguyễn Huệ

Thanh Xuân

Bảng 1.2: Một ví dụ về hệ thông tin


-20-

Các đối tƣợng trên có thể nhận các giá trị tại các thuộc tính là khác nhau hoặc giống

nhau. Chẳng hạn, các đối tƣợng khác nhau x3 và x4, lại có các giá trị thuộc tính
giống nhau: đây là trƣờng hợp không phân biệt đƣợc các đối tƣợng nếu chỉ sử dụng
thông tin từ các thuộc tính đã cho. Khái niệm quan hệ không phân biệt đƣợc sẽ đƣợc
giới thiệu trong phần sau.
1.2.2.

Hệ quyết định

Trong nhiều trƣờng hợp, kết quả của sự phân lớp là các khái niệm xấp xỉ đƣợc
miêu tả bởi một thuộc tính thêm vào đƣợc gọi là thuộc tính quyết định. Hệ thống
thông tin chứa sự phân lớp này gọi là hệ quyết định.
Định nghĩa 1.2. Hệ quyết định là hệ thông tin bất kỳ có dạng A = (U, A  {d})
(hay A = (U, A ,{d}) ), với d  A là thuộc tính quyết định. Các thuộc tính thuộc A
đƣợc gọi là thuộc tính điều kiện.
Giả sử có A = (U, A, d) và Vd ={v1, …, vr(d)}. Thuộc tính quyết định d xác
định một phân hoạch của tập tổng thể U, tại đó Xk={x  U:d(x)=vk} với 1  k  r(d).
Tập Xi đƣợc gọi là lớp quyết định thứ i của A. Và viết Xd(u) có nghĩa là có lớp
quyết định {x  U: d(x)=d(u)} với  u  U.
Tổng quát hóa định nghĩa ở trên bằng dạng A = (U, A, D), trong đó tập D
={d1,..,dk} là tập các thuộc tính quyết định và A  D =. Hệ này có thể đƣợc xem
nhƣ là hệ quyết định A = (U, A, dD) trong đó dD(x)=(d1(x),…,dk(x)) với  x  U.
Thuộc tính quyết định có thể có nhiều hơn hai giá trị, tuy nhiên thông dụng
là kiểu giá trị nhị phân. Quá trình khám phá ra mối quan hệ giữa thuộc tính quyết
định theo thuộc tính điều kiện trong bảng quyết định thuộc vào loại học máy có
hƣớng dẫn, trong đó thể hiện điển hình nhất là "học qua ví dụ".
Ví dụ: Bảng 1.3 mô tả một bảng quyết định bao gồm 7 đối tƣợng, một thuộc
tính quyết định là Trúng tuyển và 3 thuộc tính Điểm trung bình, PTTH,
Quận/Huyện.



-21-

U

Điểm trung bình

PTTH

Quận/Huyện

Trúng tuyển

x1

5.5

Hai Bà Trƣng

Hai Bà Trƣng

Trƣợt

x2

7.0

Chu Văn An

Tây Hồ


Đỗ

x3

6.5

Đoàn Thị Điểm

Cầu Giấy

Đỗ

x4

6.5

Đoàn Thị Điểm

Cầu Giấy

Trƣợt

x5

8.0

Chuyên Ngữ

Cầu Giấy


Đỗ

x6

8.0

Lê Quý Đôn

Cầu Giấy

Trƣợt

x7

8.0

Chuyên Ngữ

Thanh Xuân

Đỗ

Bảng 1.3: Ví dụ về bảng quyết định TuyenSinh
Một tri thức đƣợc tổng hợp từ bảng quyết định trên sẽ là luật có dạng “Nếu có
Điểm trung bình là 5.5 và học trƣờng PTTH là Hai Bà Trƣng và Quận/Huyện là Hai
Bà Trƣng thì Trúng tuyển là Trƣợt” tức là Nếu một thí sinh có Điểm trung bình là
5.5 và học trƣờng PTTH là Hai Bà Trƣng và Quận/Huyện là Hai Bà Trƣng thì sẽ bị
Trƣợt đại học.
Có thể thấy cặp hai đối tƣợng là x3 và x4 vẫn là cặp có các giá trị giống nhau theo
thuộc tính điều kiện, nhƣng kết quả quyết định đối với hai đối tƣợng là khác nhau.

1.2.3.

Quan hệ không phân biệt đƣợc trong hệ thông tin
Một trong những cơ sở toán học của lý thuyết tập thô là quan hệ không phân

biệt đƣợc (quan hệ tƣơng đƣơng) trong hệ thông tin.
Cho U là tập các đối tƣợng, một quan hệ nhị phân R  U  U trên U đƣợc gọi là:
-

Phản xạ nếu mọi đối tƣợng đều có quan hệ với chính nó xRx,

-

Đối xứng nếu xRy thì yRx,

-

Bắc cầu nếu xRy và yRz thì xRz

Một quan hệ R có cả ba tính chất phản xạ, đối xứng và bắc cầu đƣợc gọi là một
quan hệ tƣơng đƣơng. Quan hệ tƣơng đƣơng R sẽ phân hoạch tập tổng thể U thành
các lớp tƣơng đƣơng. Lớp tƣơng đƣơng của phần tử x  U, kí hiệu là [x], chứa tất
cả các đối tƣợng y  U mà xRy.


-22-

Định nghĩa 1.3. Cho hệ thông tin A= (U, A), tập con bất kỳ B  A, tồn tại một
quan hệ tƣơng đƣơng (kí hiệu là INDA(B)) đƣợc xác định nhƣ sau:
INDA(B)={(x,x’)  U2 a  B: a(x) = a(x’)}

INDA(B) hoặc có thể kí hiệu là IND(B) đƣợc gọi là quan hệ không phân biệt đƣợc
theo nghĩa nếu nhƣ hai đối tƣợng x, x' mà (x,x’)  IND(B) thì x và x’ là không phân
biệt đƣợc bởi các thuộc tính trong B.
Tính chất tƣơng đƣơng của IND(B) là dễ dàng kiểm tra theo định nghĩa.
Lớp tƣơng đƣơng theo quan hệ không phân biệt đƣợc B đƣợc biểu diễn là [x]B.
 Ví dụ. Xét Bảng 1.3 minh hoạ cho một quan hệ không phân biệt đƣợc. Nếu
không xem xét thuộc tính Điểm trung bình thì các tập con khác rỗng của các
thuộc tính điều kiện là {PTTH}, {Quận/Huyện} và {PTTH, Quận/Huyện}. Các
đối tƣợng x3 và x4 thuộc vào cùng một lớp tƣơng đƣơng và không có khả năng
phân biệt đƣợc. Ba quan hệ IND xác định phân hoạch thành từng phần tập tổng
thể.
IND({PTTH }) = {{x1},{x2},{x3,x4},{ x5,x7},{x6 }}
IND({Quận/Huyện}) = {{x1},{x2},{x3,x4,x5,x6},{x7}}
IND({PTTH,Quận/Huyện}) = {{x1},{x2},{x3,x4},{x5},{ x6},{x7}}
Thuật toán xác định lớp tƣơng đƣơng:
Đầu vào: Tập đối tƣợng O
Tập thuộc tính B
Đầu ra: Tập các lớp tƣơng đƣơng L
Thuật toán:
Bước 1: L=
Bước 2: Nếu O= thì Thực hiện bước 5
Bước 3: Xét x  O
P={x}
O=O \ {x}
Với mọi phần tử y  O :


-23-

Nếu x và y không thể phân biệt được qua tập thuộc tính B thì :

P= P  {y}
O=O \ {y}
L=L  {P}
Bước 4 : Thực hiện bước 2
Bước 5: Kết thúc
1.2.4.

Tập xấp xỉ trên, xấp xỉ dƣới và miền biên

Định nghĩa 1.4. Giả sử A = (U, A) là một hệ thông tin và B  A và X  U. Các tập
xấp xỉ của X theo thông tin có từ B, đƣợc xác định nhƣ dƣới đây:
(1) Tập B-xấp xỉ dưới của X, kí hiệu là B X , là tập B X = {x | [x]B  X}
(2) Tập B-xấp xỉ trên của X, kí hiệu là B X , là tập B X = {x | [x]B  X  }.
 Tập hợp B X là tập các đối tƣợng trong U sử dụng các thuộc tính trong B ta có
thể biết chắc chắn đƣợc chúng là các phần tử của X (tập B X có thể đƣợc gọi là
tập chắc chắn).
 Tập hợp B X là tập các đối tƣợng trong U sử dụng các thuộc tính trong B ta chỉ
có thể nói rằng chúng có thể là các phần tử của X (tập B X có thể đƣợc gọi là tập
khả năng).
 Tập BNB(X) = B X - B X đƣợc gọi là B-vùng biên của X, do vậy chúng ta không
thể xác định đƣợc các đối tƣợng đó có thuộc X hay không.
 Tập U \ B X đƣợc gọi là B-vùng ngoài của X bao gồm các đối tƣợng chắc chắn
không thuộc X.
Một tập đƣợc gọi là thô nếu vùng biên của nó là không rỗng, ngƣợc lại ta nói tập
này là rõ.
Ví dụ: Xác định kết quả (hay lớp quyết định) trong các thuộc tính điều kiện. Giả sử
W={x | Trúng tuyển(x) = Trượt} nhƣ ví dụ minh hoạ trên Bảng 1.3 Ta thu đƣợc


-24-


vùng xấp xỉ dƣới AW = {x1,x6}, xấp xỉ trên AW = {x1,x3,x4,x6}, vùng biên
BNA(W)={ x3,x4} và vùng biên ngoài U - AW = {x2,x5,x7}. Do đó mà tập kết quả
Xem xét là thô vì vùng biên là không rỗng.

{{x2}, {x5,x7}}
{{x3,x4}}

AW

Trƣợt

AW

{{x1},{x6}}

Đỗ/Trƣợt
Đỗ

Hình 1.3 : Xấp xỉ tập thí sinh cần xem xét khi thi đại học
Các tính chất của sự xấp xỉ
(1) B X  X  B X ,
(2) B () = B (), B (U) = B (U) = U,
(3) B (X  Y) = B (X)  B (Y),
(4) B (X  Y) = B (X)  B (Y),
(5) Nếu X Y thì B (X)  B (Y) và B (X)  B (Y),
(6) B (X  Y)  B (X)  B (Y),
(7) B (X Y)  B (X)  B (Y),
(8) B (U \ X) = U \ B (X),
(9) B (U \ X) = U \ B (X),

(10) B ( B (X)) = B ( B (X)) = B (X),


×