Tải bản đầy đủ (.pdf) (94 trang)

Một số vấn đề liên quan đến lý thuyết tập thô

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 94 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ



Đỗ Thị Mai Hƣờng



MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN LÝ THUYẾT
TẬP THÔ


Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10


LUẬN VĂN THẠC SĨ



NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI



Hà nội – 2007



-1-


LỜI CẢM ƠN

Để có thể hoàn thành tốt luận văn này, em đã có sự động viên, giúp đỡ
của rất nhiều người. Trước tiên, em xin bày tỏ lòng kính trọng và sự biết ơn
sâu sắc tới PGS.TS Vũ Đức Thi, người đã hướng dẫn, giúp đỡ và tạo điều
kiện cho em trong suốt quá trình làm luận văn. Em xin cảm ơn TS Hà Quang
Thụy đã cho em những lời khuyên quý báu trong giai đoạn đầu của quá trình
làm luận văn. Em xin chân thành cảm ơn các Thầy trong Khoa Công nghệ
thông tin - Đại học Công nghệ - Đại học Quốc gia Hà nội, các Thầy trong
Viện Công nghệ thông tin đã giảng dạy, truyền đạt kiến thức cho em trong
suốt quá trình học tập và nghiên cứu tại trường. Cuối cùng, xin cảm ơn gia
đình, bạn bè cùng các đồng nghiệp trong Khoa Công nghệ thông tin, Học viện
Kỹ thuật Quân sự đã động viện, tạo điều kiện để tôi có thể hoàn thành quá
trình học tập và hoàn thành tốt luận văn này.

Hà Nội, tháng 01 năm 2007
NGƢỜI THỰC HIỆN


Đỗ Thị Mai Hường



-2-
MỤC LỤC
BẢNG CÁC KÍ HIỆU VIẾT TẮT 4
DANH SÁCH CÁC BẢNG 5
DANH SÁCH CÁC HÌNH VẼ 6
MỞ ĐẦU 7
CHƢƠNG 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ LÝ THUYẾT

TẬP THÔ 10
1.1 . Khám phá tri thức Error! Bookmark not defined.
1.1.1. Định nghĩa khám phá tri thức 10
1.1.2. Các bước chính trong quá trình khám phá tri thức 11
1.1.3. Khai phá dữ liệu 12
1.1.4. Các bài toán chính trong khai phá dữ liệu 14
1.1.5. Một số kỹ thuật khai phá dữ liệu 16
1.2 . Lý thuyết tập thô 19
1.2.1. Hệ thông tin 19
1.2.2. Hệ quyết định 20
1.2.3. Quan hệ không phân biệt được trong hệ thông tin 21
1.2.4. Tập xấp xỉ trên, xấp xỉ dưới và miền biên 23
1.2.5. Tập thuộc tính rút gọn và tập thuộc tính nhân 28
1.2.6. Ma trận phân biệt và hàm phân biệt 30
1.2.7. Hàm thành viên thô 33
1.2.8. Sự phụ thuộc thuộc tính 34
1.3 . Kết luận chƣơng 1 34
CHƢƠNG 2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC THEO CÁCH TIẾP CẬN
TẬP THÔ 36
2.1 Sự rời rạc hoá dựa trên tập thô và lập luận logic 36
2.1.1 Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định 36
2.1.2 Vấn đề rời rạc hóa 38
2.2 Lựa chọn thuộc tính dựa trên tập thô với phƣơng pháp đánh giá kinh nghiệm
…… 48
2.3 Một số phƣơng pháp khác xây dựng tập thuộc tính rút gọn 52



-3-
2.3.1 Loại trừ thuộc tính không liên quan từ một rút gọn 52

2.3.2 Chiến lược Xóa 52
2.3.3 Chiến lược Thêm-Xóa 53
2.3.4 Chiến lược Thêm 54
2.3.5 Các thuật toán tính rút gọn dựa trên các cặp đối tượng phân biệt 56
2.3.6 Rút gọn nửa tối thiểu 57
2.3.7 Chiến lược ngẫu nhiên 58
2.4 Quá trình khám phá luật trong bảng quyết định 59
2.4.1 Luật trong bảng quyết định 59
2.4.2 Hai đặc trưng của luật: Độ mạnh và độ nhiễu của luật 60
2.4.3 Khám phá luật bởi bảng phân bố tổng quát dựa trên tập thô 60
2.4.4 Thuật toán tối ưu hoá các luật 68
2.4.5 Thuật toán giải pháp gần tối ưu các luật 69
2.4.6 Tiêu chuẩn lựa chọn luật trong tập thô 70
2.4.7 Một số thuật toán sinh luật khác 70
2.5 Khám phá mẫu trong hệ thông tin 71
2.6 Kết luận chƣơng 2 72
CHƢƠNG 3 ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN TƢ
VẤN THI ĐẠI HỌC 73
3.1 Bộ công cụ Rosetta 73
3.1.1 Giới thiệu 73
3.1.2 Các đặc trưng của Rosetta 73
3.2 Ứng dụng lý thuyết tập thô trong bài toán Tƣ vấn thi đại học 75
3.2.1 Mô tả bài toán 75
3.2.2 Tập thô trong bài toán Tư vấn thi đại học 78
3.2.3 Quá trình phát hiện luật 79
3.3 Kết luận chƣơng 3 88
KẾT LUẬN 89
TÀI LIỆU THAM KHẢO 91




-4-
BẢNG CÁC KÍ HIỆU VIẾT TẮT

Ký hiệu, viết tắt
Giải thích ý nghĩa
KDD
Khám phá tri thức
RS
Tập thô
A
Hệ thông tin hay bảng quyết định
A, B
Tập các thuộc tính trong hệ thông tin
D
Tập thuộc tính quyết định trong hệ thông tin
a
Một thuộc tính điều kiện trong tập thuộc tính điều kiện của hệ
thông tin
V
a

Tập giá trị của thuộc tính điều kiện
U
Tập đối tƣợng (tập tổng thể) trong hệ thông tin
P
a

Tập các nhát cắt trên tập V
a

RED
Tập rút gọn
CORE
Tập nhân
card (X) hay ||X||
Số lƣợng phần tử có trong X




-5-
DANH SÁCH CÁC BẢNG

Bảng1.1: Ví dụ học cho khái niệm chơi tennis
16
Bảng 1.2: Một ví dụ về hệ thông tin
19
Bảng 1.3: Ví dụ về bảng quyết định TuyenSinh
21
Bảng 2.1: Bảng thông tin A
*
xây dựng từ A
47
Bảng 2.2: Bảng thông tin mô tả các đối tượng
50
Bảng 2.3: Trạng thái khởi tạo
51
Bảng 2.4: Các bảng thông tin tương ứng với việc chọn thuộc tính a, c, d
51
Bảng 3.1: Tiêu chí căn cứ chọn trường thi đại học

76
Bảng 3.2: Danh mục môn thi các khối thi đại học
77
Bảng 3.3: Dữ liệu về các nhát cắt
82
Bảng 3.4: Dữ liệu sau khi rời rạc hóa
83
Bảng 3.5: Dữ liệu thu được sau khi sinh luật
84
Bảng 3.6: Dữ liệu luật sau khi xử lý
85




-6-
DANH SÁCH CÁC HÌNH VẼ

Hình 1.1: Mô hình mô tả quá trình khám phá tri thức
11
Hình 1.2: Mô tả cây quyết định cho khái niệm chơi tennis
17
Hình 1.3 : Xấp xỉ tập thí sinh cần xem xét khi thi đại học
24
Hình 2.1: Một họ phân hoạch định nghĩa bởi tập các nhát cắt
37
Hình 2.2: Quá trình rời rạc hóa
41
Hình 2.3 : Giá trị của các đối tượng biểu diễn bởi đồ thị
42

Hình 2.4: Các nhát cắt trên đồ thị
43
Hình 2.5: Các điểm cắt trên thuộc tính a
44
Hình 2.6: Tập các nhát cắt tối thiểu
46
Hình 3.1: Sơ đồ quá trình sinh luật
80
Hình 3.2 : Sơ đồ thuật toán sinh dữ liệu ngẫu nhiên
81
Hình 3.3: Mô hình quan hệ trong cơ sở dữ liệu TuyenSinh
86
Hình 3.4: Giao diện nhập thông tin dự đoán kết quả
87
Hình 3.5: Giao diện hiển thị kết quả dự đoán cho một trường đại học
87
Hình 3.6: Giao diện hiển thị kết quả dự đoán cho nhiều trường đại học
88




-7-

MỞ ĐẦU

Cùng với sự phát triển của Công nghệ thông tin, khám phá tri thức trong các
cơ sở dƣ liệu lớn là một trong những lĩnh vực đƣợc rất nhiều nhà nguyên cứu và
ứng dụng tin học đặc biệt quan tâm. Khám phá tri thức trong cơ sở dữ liệu là một
quá trình có thể tìm ra những thông tin mới, những thông tin hữu ích, và tiềm ẩn

trong cơ sở dữ liệu. Quá trình phát hiện tri thức gồm nhiều giai đoạn, trong đó giai
đoạn khai phá dữ liệu là quan trọng nhất. Đây là giai đoạn chính tìm ra những thông
tin mới trong cơ sở dữ liệu. Quá trình phát hiện tri thức là sự tiếp thu, sử dụng và
phát triển các thành tựu của nhiều lĩnh vực nghiên cứu ứng dụng tin học trƣớc đó
nhƣ: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, thống kê, v.v
Khám phá tri thức có thể sử dụng nhiều thuật toán khám phá tri thức nhƣ: Sử
dụng cây quyết định, phƣơng pháp thống kê, các mạng neural, thuật toán di truyền,
lý thuyết tập thô Trong những thập niên gần đây, lý thuyết tập thô đã liên tục phát
triển, thu hút ngày càng nhiều các nhóm nghiên cứu và những ngƣời quan tâm đến
phƣơng pháp luận này. Lý thuyết tập thô đƣợc bắt nguồn bởi Zdzislaw Pawlak nhƣ
là một kết quả của quá trình nghiên cứu lâu dài trên các thuộc tính logic của các hệ
thông tin. Lý thuyết tập thô đƣợc xây dựng trên nền tảng toán học vững chắc giúp
cung cấp những công cụ hữu ích để giải quyết những bài toán phân lớp dữ liệu và
khai phá luật, Với đặc tính có thể xử lý đƣợc những dữ liệu mơ hồ, không chắc
chắn tập thô tỏ ra rất hữu ích trong việc giải quyết những bài toán thực tế. Cụ thể,
trong lý thuyết tập thô dữ liệu đƣợc biểu diễn thông qua hệ thông tin, hay bảng
quyết định; ý tƣởng chính trong việc phân tích dữ liệu theo tiếp cận tập thô xuất
phát từ những khái niệm về sự xấp xỉ tập, về quan hệ không phân biệt đƣợc. Từ
những bảng dữ liệu lớn với dữ liệu dƣ thừa, không hoàn hảo, dữ liệu liên tục, hay
dữ liệu biểu diễn dƣới dạng ký hiệu, lý thuyết tập thô cho phép khám phá tri thức từ
những loại dữ liệu nhƣ vậy nhằm phát hiện ra những quy luật tiềm ẩn từ khối dữ



-8-
liệu này. Tri thức đƣợc biểu diễn dƣới dạng các luật, mẫu mô tả mối quan hệ bị che
dấu trong dữ liệu. Trong lý thuyết tập thô, chất lƣợng của thông tin đƣợc đo bằng
cách sử dụng khái niệm tập xấp xỉ trên và xấp xỉ duới. Ngƣời ta có thể tìm đƣợc tập
các thuộc tính nhỏ nhất nhằm loại bỏ những thông tin dƣ thừa, không cần thiết mà
vẫn giữ đƣợc ý nghĩa. Sau đó, dựa vào tập thuộc tính nhỏ nhất này ngƣời ta có thể

tìm ra các quy luật chung nhất hoặc các mẫu để biểu diễn dữ liệu.
Lý thuyết tập thô đóng vai trò hết sức quan trọng trong trí tuệ nhân tạo và các
ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu
nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu,
các hệ chuyên gia, hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng.
Một số ứng dụng cụ thể của lý thuyết tập thô đã đƣợc phát triển trong vài
năm gần đây trong các lĩnh vực nhƣ y học, dƣợc học, ngân hàng, tài chính, phân
tích thị trƣờng. Tiếp cận tập thô cũng đóng vai trò quan trọng đối với nhiều ứng
dụng kỹ thuật nhƣ máy chuẩn đoán, khoa học vật liệu,… Sự công bố của lý thuyết
này tạo điều kiện phát triển nhiều ứng dụng mới [19,21]. Một trong số các ứng dụng
chính của tập thô trong trí tuệ nhân tạo là phân tích và khám phá tri thức từ dữ liệu
[25].
Với những ƣu điểm nhƣ vậy của lý thuyết tập thô, tôi đã dành thời gian để
nghiên cứu và tìm hiểu về phƣơng pháp luận này. Luận văn đi sâu vào tìm hiểu ý
tƣởng và cơ sở toán học của lý thuyết tập thô. Thông qua tìm hiểu và khai thác bộ
công cụ ROSETTA (đƣợc xây dựng bởi Aleksander Ohrn và cộng sự thuộc nhóm
nghiên cứu tri thức thuộc khoa Khoa học máy tính và thông tin của trƣờng Đại học
Norwegian, Trondheim, Na-uy cùng nhóm Logic thuộc ĐHTH Warsaw, Ba-lan),
luận văn cũng đƣa ra một số đề xuất ứng dụng thử nghiệm lý thuyết tập thô vào việc
hỗ trợ quyết định chọn trƣờng thi phù hợp với khả năng cho các em học sinh trƣớc
kỳ thi tuyển sinh đại học.
Luận văn đƣợc trình bày gồm có ba chƣơng:
 Chƣơng 1: Giới thiệu tổng quan về khám phá tri thức, các bài toán khai phá dữ
liệu và các kỹ thuật khai phá dữ liệu. Giới thiệu về các khái niệm cơ bản trong lý



-9-
thuyết tập thô nhƣ: hệ thông tin, bảng quyết định, khái niệm không phân biệt
đƣợc, tập xỉ trên, tập xỉ dƣới và miền biên, ma trận phân biệt, rút gọn, .v.v. Nội

dung của chƣơng này đƣợc tổng hợp từ các tài liệu [5,6,7,8,9,10,15,12,18]
 Chƣơng 2: Trình bày quá trình khám phá tri thức theo cách tiếp cận tập thô và
các phƣơng pháp sử dụng trong quá trình khai phá dữ liệu. Chẳng hạn nhƣ rời
rạc hóa dữ liệu theo phƣơng pháp lập luận logic, rút gọn thuộc tính theo phƣơng
pháp Heuristic, .v.v. Nội dung chƣơng này đƣợc tổng hợp từ các tài liệu
[6,7,10,15,12,18,19,24]
 Chƣơng 3: Từ kết quả nghiên cứu trình bày trong chƣơng một và chƣơng hai,
thông qua công cụ ROSETTA [11], đề xuất ứng dụng của lý thuyết tập thô vào
thực tế trong bài toán tƣ vấn thi đại học.






-10-
CHƢƠNG 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ
LÝ THUYẾT TẬP THÔ


1.1 . Khám phá tri thức
1.1.1. Định nghĩa khám phá tri thức
Khám phá tri thức trong các cơ sở dữ liệu (KDD-Knowledge Discovery in
Databases) là quá trình phát hiện những tri thức tiềm ẩn, không biết trƣớc, và có ích
trong cơ sở dữ liệu. Thực chất đó là quá trình tìm kiếm những thông tin có trong cơ
sở dữ liệu nhƣng bị che giấu trong các khối dữ liệu.
Tri thức ở đây có thể đƣợc hiểu là một biểu thức trong một ngôn ngữ nào đó
diễn tả một hoặc nhiều mối quan hệ giữa các thuộc tính trong các dữ liệu đó. Tri
thức có thể đƣợc xem nhƣ dữ liệu ở mức trừu tƣợng hóa và tổng quát hóa cao. Các
ngôn ngữ thƣờng dùng để biểu diễn tri thức trong quá trình phát hiện tri thức từ cơ

sở dữ liệu là các khung, các cây và đồ thị, các luật, các công thức trong logic mệnh
đề, .v.v.
Việc khám phá tri thức thƣờng đƣợc áp dụng để giải quyết một loạt những yêu
cầu phục vụ những mục đích nhất định. Quá trình phát hiện tri thức mang tính chất
hƣớng nhiệm vụ, không phải là phát hiện mọi tri thức mà phát hiện những tri thức
phục vụ tốt một nhiệm vụ đề ra. Vì vậy, quá trình phát hiện tri thức là một hoạt
động tƣơng tác giữa một ngƣời sử dụng hoặc một chuyên gia phân tích với các công
cụ tin học.



-11-
1.1.2. Các bƣớc chính trong quá trình khám phá tri thức
Mục đích của quá trình khám phá tri thức là rút ra đƣợc tri thức mới sau một
số bƣớc từ những cơ sở dữ liệu trong thực tế. Quá trình này gồm các bƣớc chính
sau[13]:













Hình 1.1: Mô hình mô tả quá trình khám phá tri thức

Bƣớc 1: Xác định và định nghĩa vấn đề:
 Tìm hiểu lĩnh vực ứng dụng và nhiệm vụ đề ra, xác định các tri thức đã có và
các mục tiêu của ngƣời sử dụng.
 Tạo và chọn lựa cơ sở dữ liệu.
Bƣớc 2: Thu nhập và tiền xử lý dữ liệu:
 Xử lý và làm sạch dữ liệu trƣớc: Bỏ đi các dữ liệu tạp bao gồm các lỗi và các
dạng không bình thƣờng. Xử lý dữ liệu bị mất, chuyển đổi dữ liệu phù hợp.
 Rút gọn kích thƣớc dữ liệu nhận đƣợc: Nhận ra các thuộc tính hữu ích cho
quá trình phát hiện tri thức.
Bƣớc 3: Khai phá dữ liệu:
Xác định và định
nghĩa vấn đề
Thu nhập và tiền
xử lý dữ liệu
Khai phá dữ liệu
Giải thích kết quả
và đánh giá
Sử dụng tri thức
phát hiện đƣợc
Bƣớc1
Bƣớc2
Bƣớc3
Bƣớc4
Bƣớc5



-12-
 Chọn nhiệm vụ khai phá dữ liệu.
 Lựa chọn các phƣơng pháp khai phá dữ liệu.

 Khai phá dữ liệu để rút ra các mẫu, các mô hình.
Bƣớc 4: Giải thích kết quả và đánh giá các mẫu, các mô hình tìm đƣợc ở bƣớc 3.
Bƣớc 5: Sử dụng tri thức phát hiện đƣợc.
 Các tri thức phát hiện đƣợc tích hợp chặt chẽ trong hệ thống. Tuy nhiên để
sử dụng đƣợc tri thức đó đôi khi cần đến các chuyên gia trong các lĩnh vực
quan tâm vì tri thức rút ra có thể chỉ có tính chất hỗ trợ quyết định.
 Tri thức tìm đƣợc có thể đƣợc sử dụng cho một quá trình khám phá tri thức
khác.
Nhƣ vậy khám phá tri thức gồm 5 bƣớc chính, trong đó khai phá dữ liệu là
bƣớc quan trọng nhất, nhờ đó có thể tìm đƣợc các thông tin tiềm ẩn trong cơ sở dữ
liệu.
1.1.3. Khai phá dữ liệu
Khai phá dữ liệu (DM - Data mining): là một giai đoạn quan trọng trong quá
trình phát hiện tri thức. Về bản chất nó là giai đoạn duy nhất tìm ra đƣợc thông tin
mới, thông tin tiềm ẩn có trong cơ sở dữ liệu chủ yếu phục vụ cho mô tả và dự
đoán. Quá trình khai phá dữ liệu bao gồm các bƣớc chính sau:
 Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.
 Xác định các dữ liệu liên quan dùng để xây dựng giải pháp.
 Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý
chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu đƣợc. Ở đây có thể
gặp phải một số vấn đề: dữ liệu phải đƣợc sao ra nhiều bản (nếu đƣợc chiết xuất vào
các tệp), quản lý các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu
mô hình dữ liệu thay đổi, .v.v.).
 Giải thuật khai phá dữ liệu: Chọn thuật toán khai phá dữ liệu thích hợp và thực
hiện việc khai phá dữ liệu: nhằm tìm đƣợc các mẫu có ý nghĩa dƣới dạng biểu diễn
tƣơng ứng với các ý nghĩa đó.



-13-

 Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu
Khai phá dữ liệu có khả năng chấp nhận một số kiểu dữ liệu khác nhau, điển hình
là:
 Cơ sở dữ liệu quan hệ (Relational database): Cơ sở dữ liệu tác nghiệp đƣợc tổ
chức theo mô hình dữ liệu quan hệ. Hầu hết các hệ quản trị cơ sở dữ liệu hiện nay
đều hỗ trợ dạng này nhƣ MS SQL Server, Oracle, .v.v.
 Cơ sở dữ liệu đa chiều (Multidimensional structures, data warehouses, data
mart) là các kho dữ liệu đƣợc tập hợp, chọn lọc từ nhiều nguồn dữ liệu khác nhau.
Dạng dữ liệu này mang tính lịch sử (tức có tính thời gian) và chủ yếu phục vụ cho
quá trình phân tích cũng nhƣ là khám phá tri thức nhằm hỗ trợ ra quyết định.
 Cơ sở dữ liệu dạng giao dịch (Trasactional database): Là dạng cơ sở dữ liệu tác
nghiệp nhƣng các bản ghi thƣờng là các giao dịch. Dạng dữ liệu này thƣờng phổ
biến trong lĩnh vực thƣơng mại và ngân hàng.
 Cơ sở dữ liệu quan hệ - hƣớng đối tƣợng (Object-relational database): Là dạng
Cơ sở dữ liệu lai giữa 2 mô hình quan hệ và hƣớng đối tƣợng.
 Dữ liệu không gian và thời gian (Spatial, temporal and time-series data): là dạng
dữ liệu có tích hợp thuộc tính về không gian (ví dụ dữ liệu về bản đồ) , dữ liệu thời
gian (dữ liệu thị trƣờng chứng khoán…).
 Cơ sở dữ liệu đa phƣơng tiện (Multimedia database): Là dạng dữ liệu âm thanh
(audio), hình ảnh (Images), phim ảnh (video), Text & WWW,…Dạng dữ liệu này
hiện đang rất phổ biến trên Internet do sự ứng dụng rộng rãi của nó.
 Các ứng dụng của khai phá dữ liệu
Khai phá dữ liệu có nhiều ứng dụng trong thực tiễn, các ứng dụng điển hình có
thể liệt kê nhƣ là:
- Phân tích dữ liệu và hỗ trợ ra quyết định
- Điều trị trong y học: Mối liên hệ giữa triệu chứng, chuẩn đoán và phƣơng
pháp điều trị.




-14-
- Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web
- Tin sinh học: Tìm kiếm, đối sánh các hệ Gene và thông tin di truyền, mối
liên hệ giữa một số hệ Gene và một số bệnh di truyền.
- Nhận dạng
- Tài chính và thị trƣờng chứng khoán: Phân tích tình hình tài chính và dự báo
giá của các cổ phiếu.
- Bảo hiểm
- Giáo dục
1.1.4. Các bài toán chính trong khai phá dữ liệu [5,9,13,14]
 Phân lớp và dự đoán (Classification & Prediction)
Xếp một đối tƣợng vào một trong những lớp đã biết. Ví dụ: Phân lớp vùng địa lý
theo dữ liệu thời tiết. Đối với hƣớng tiếp cận này thƣờng áp dụng một số kỹ thuật
nhƣ máy học (Machine learning), cây quyết định (Decision tree), mạng nơron nhân
tạo (Neural network). Với hƣớng này, ngƣời ta còn gọi là học có giám sát hay học
có thầy (Supervised learning).
 Phân cụm và phân đoạn (Clusterring and Segmentation)
Sắp xếp các đối tƣợng theo từng cụm (số lƣợng và tên của cụm chƣa đƣợc biết
trƣớc). Các đối tƣợng đƣợc gom cụm sao cho mức độ tƣơng tự giữa các đối tƣợng
trong cùng một cụm là lớn nhất và mức độ tƣơng tự giữa các đối tƣợng nằm trong
các cụm khác nhau là nhỏ nhất. Lớp bài toán phân cụm còn đƣợc gọi là học không
giám sát hay học không thầy (Unsupervised learning).
 Luật kết hợp (Association rules)
Luật kết hợp là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Mục tiêu của
phƣơng pháp này là phát hiện và đƣa ra các mối liên hệ giữa các giá trị dữ liệu trong



-15-
cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm

đƣợc. Chẳng hạn: phân tích cơ sở dữ liệu dự thi đại học nhận đƣợc thông tin về các
học sinh đăng ký nguyện vọng 1 là Đại học (ĐH) Bách Khoa có khuynh hƣớng
đăng ký nguyện vọng 2 là ĐH Tự nhiên đƣợc miêu tả trong luật kết hợp sau:
“Nguyện vọng 1 là ĐH Bách Khoa => Nguyện vọng 2 là ĐH Tự Nhiên”
[Độ hỗ trợ: 20%, độ tin cậy: 70%]
Độ hỗ trợ và độ tin cậy là hai độ đo sự đáng quan tâm của luật. Chúng tƣơng ứng
phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Độ hỗ trợ 20% có nghĩa
là trong số các học sinh đăng ký dự thi ĐH thì có 20% đăng ký nguyện vọng 1 là
ĐH Bách Khoa và nguyện vọng 2 là ĐH Tự nhiên. Còn độ tin cậy 70% có nghĩa là
70% các học sinh đăng ký nguyện vọng 1 là ĐH Bách Khoa cũng đăng ký nguyện
vọng 2 là ĐH Tự nhiên.
Vế trái của luật đƣợc coi là tiền đề, vế phải là kết luận. Độ hỗ trợ của luật là số phần
trăm các giao tác chứa cả vế phải và vế trái. Độ tin cậy của luật là số phần trăm các
giao tác thỏa mãn vế trái thì cũng thỏa mãn vế phải.
Hƣớng tiếp cận này đƣợc ứng dụng nhiều trong các lĩnh vực kinh doanh, y học, tin
sinh học, giáo dục, .v.v
 Khai phá chuỗi theo thời gian (Sequential/Temporal patterns)
Cũng tƣơng tự nhƣ khai phá dữ liệu bằng luật kết hợp nhƣng có thêm tính thứ tự và
tính thời gian. Hƣớng tiếp cận này đƣợc ứng dụng nhiều trong lĩnh vực tài chính và
thị trƣờng chứng khoán bởi vì chúng có tính dự báo cao.
 Mô tả khái niệm và tổng hợp hóa (Summarization)
Liên quan đến các phƣơng pháp tìm kiếm một mô tả cho một tập con dữ liệu.
Các kỹ thuật tóm tắt thƣờng đƣợc áp dụng cho các phân tích dữ liệu tƣơng tác có
tính thăm dò và tạo báo cáo tự động.



-16-
1.1.5. Một số kỹ thuật khai phá dữ liệu
 Cây quyết định và luật

Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm
phân các đối tƣợng dữ liệu thành một số lớp nhất định. Các nút của cây đƣợc gắn
nhãn là tên các thuộc tính, các cạnh đƣợc gắn các giá trị có thể của các thuộc tính,
các lá miêu tả các lớp khác nhau. Các đối tƣợng đƣợc phân theo lớp các đƣờng đi
trên cây, qua các cạnh tƣơng ứng với giá trị của thuộc tính của đối tƣợng lá.
Ví dụ:
Day
Outlook
Temperature
Humidity
Wind
PlayTennis
D1
Sunny
Hot
High
Weak
No
D2
Sunny
Hot
High
Strong
No
D3
Overcast
Hot
High
Weak
Yes

D4
Rain
Mild
High
Weak
Yes
D5
Rain
Cool
Normal
Weak
Yes
D6
Rain
Cool
Normal
Strong
No
D7
Overcast
Cool
Normal
Strong
Yes
D8
Sunny
Mild
High
Weak
No

D9
Sunny
Cool
Normal
Weak
Yes
D10
Rain
Mild
Normal
Weak
Yes
D11
Sunny
Mild
Normal
Strong
Yes
D12
Overcast
Mild
High
Strong
Yes
D13
Overcast
Hot
Normal
Weak
Yes

D14
Rain
Mild
High
Strong
No

Bảng1.1: Ví dụ học cho khái niệm chơi tennis



-17-
 Tạo luật: Các luật đƣợc tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về
mặt thống kê. Các luật có dạng Nếu P thì Q; với P là mệnh đề đúng với một
phần dữ liệu trong cơ sở dữ liệu, Q là mệnh đề dự đoán.
 Cây quyết định là phƣơng pháp dùng trong bài toán phân đoạn dữ liệu theo một
tiêu chuẩn nào đó dựa trên mức độ khác nhau của thuộc tính. Cây quyết định và
luật có ƣu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá dễ hiểu với
ngƣời sử dụng. Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ có thể biểu
diễn đƣợc một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của mô
hình.











Hình 1.2: Mô tả cây quyết định cho khái niệm chơi tennis
 Mạng neural
Mạng neural là một tiếp cận tính toán mới liên quan đến việc phát triển các
cấu trúc toán học với khả năng học. Các phƣơng pháp là kết quả của việc nghiên
cứu mô hình học của hệ thần kinh con ngƣời. Mạng neural có thể đƣa ra ý nghĩa từ
các dữ liệu phức tạp hoặc không chính xác và có thể đƣợc sử dụng để truy xuất các
mẫu và phát hiện ra các xu hƣớng quá phức tạp mà con ngƣời cũng nhƣ các kỹ thuật
máy tính khác không thể phát hiện đƣợc.
Weak
Outlook
Yes
Humidity
Wind

Yes
Yes
Yes
Yes
Overcast
Sunny
Rain
Strong
Normal

High



-18-

Mạng neural là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có
thể áp dụng đƣợc cho rất nhiều các loại bài toán khác nhau đáp ứng đƣợc các nhiệm
vụ đặt ra của khai phá dữ liệu nhƣ phân lớp, phân nhóm, mô hình hóa, dự báo các
sự kiện phụ thuộc vào thời gian, .v.v
 Giải thuật di truyền
Giải thuật di truyền là mô phỏng lại hệ thống tiến hóa trong tự nhiên. Giải
thuật di truyền chỉ ra tập các cá thể đƣợc hình thành, ƣớc lƣợng và biến đổi nhƣ thế
nào. Ví dụ nhƣ xác định xem làm thế nào để lựa chọn các cá thể tạo giống và lựa
chọn các cá thể nào sẽ bị loại bỏ. Giải thuật cũng mô phỏng lại yếu tố gen trong
nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế
khác nhau.
Giải thuật di truyền là một giải thuật tối ƣu hóa. Nó đƣợc sử dụng rộng rãi
trong việc tối ƣu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng
neural. Sự liên hệ của nó với giải thuật khai phá dữ liệu là ở chỗ việc tối ƣu hóa cần
thiết cho các quá trình khai phá dữ liệu, ví dụ trong các kỹ thuật cây quyết định, tạo
luật.
 Lý thuyết tập thô
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần
phải có thông tin về mọi đối tƣợng trong tập tổng thể. Ví dụ, nếu các đối tƣợng là
các bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thành thông
tin về bệnh nhân. Nhƣ vậy tập thô có quan điểm hoàn toàn khác với quan điểm
truyền thống của tập hợp, trong đó mọi tập hợp đều đƣợc định nghĩa duy nhất bởi
các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử thuộc tập
hợp. Rõ ràng có thể tồn tại một số đối tƣợng giống nhau ở một số thông tin nào đó,
và ta nói rằng chúng có quan hệ không phân biệt đƣợc. Đây chính là quan hệ mấu
chốt và chính là điểm xuất phát của lý thuyết tập thô: biên giới của tập thô là không



-19-

rõ ràng, chúng ta phải xấp xỉ nó bằng các tập hợp khác, nhằm mục đích cuối cùng là
trả lời đƣợc rằng một đối tƣợng nào đó thuộc tập hợp hay không.
Cách tiếp cận lý thuyết tập thô để phân tích dữ liệu có rất nhiều lợi điểm quan
trọng nhƣ: Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu dƣ thừa, dữ
liệu không hoàn hảo, dữ liệu liên tục; Hiệu quả trong việc tìm kiếm những mẫu tiềm
ẩn trong dữ liệu; Sử dụng đƣợc tri thức kinh nghiệm. Nhận ra các mối quan hệ mà
khi sử dụng các phƣơng pháp thống kê khác không phát hiện đƣợc, .v.v
1.2 . Lý thuyết tập thô
1.2.1. Hệ thông tin
Một tập dữ liệu miêu tả bởi một bảng, trong đó mỗi hàng biểu diễn "bản ghi"
(thể hiện một phần tử, một trƣờng hợp, một sự kiện hay đơn giản là biểu diễn một
đối tƣợng), còn các cột biểu diễn một thuộc tính (một biến, một quan sát, một tính
chất,.v.v ). Bảng này đƣợc gọi là hệ thông tin [6,7,10].
Định nghĩa 1.1. Hệ thông tin là cặp A = (U,A) trong đó U là một tập hữu hạn khác
rỗng các đối tƣợng và A là một tập hữu hạn khác rỗng các thuộc tính, trong đó:
a: U  V
a
với mọi a  A. Tập V
a
đƣợc gọi là tập giá trị của a.
 Ví dụ: Cho một hệ thông tin gồm có 7 đối tƣợng (Mỗi đối tƣợng ở đây là một
học sinh) và 3 thuộc tính: Điểm trung bình, PTTH, Quận/Huyện
U
Điểm trung bình
PTTH
Quận/Huyện
x
1
5.5
Hai Bà Trƣng

Hai Bà Trƣng
x
2

7.0
Chu Văn An
Tây Hồ
x
3

6.5
Đoàn Thị Điểm
Cầu Giấy
x
4

6.5
Đoàn Thị Điểm
Cầu Giấy
x
5

6.0
Chuyên Ngữ
Cầu Giấy
x
6

6.5
Lê Quý Đôn

Cầu Giấy
x
7

8.0
Nguyễn Huệ
Thanh Xuân
Bảng 1.2: Một ví dụ về hệ thông tin



-20-
Các đối tƣợng trên có thể nhận các giá trị tại các thuộc tính là khác nhau hoặc giống
nhau. Chẳng hạn, các đối tƣợng khác nhau x
3
và x
4
, lại có các giá trị thuộc tính
giống nhau: đây là trƣờng hợp không phân biệt đƣợc các đối tƣợng nếu chỉ sử dụng
thông tin từ các thuộc tính đã cho. Khái niệm quan hệ không phân biệt đƣợc sẽ đƣợc
giới thiệu trong phần sau.
1.2.2. Hệ quyết định
Trong nhiều trƣờng hợp, kết quả của sự phân lớp là các khái niệm xấp xỉ đƣợc
miêu tả bởi một thuộc tính thêm vào đƣợc gọi là thuộc tính quyết định. Hệ thống
thông tin chứa sự phân lớp này gọi là hệ quyết định.
Định nghĩa 1.2. Hệ quyết định là hệ thông tin bất kỳ có dạng A = (U, A  {d})
(hay A = (U, A ,{d}) ), với d  A là thuộc tính quyết định. Các thuộc tính thuộc A
đƣợc gọi là thuộc tính điều kiện.
Giả sử có A = (U, A, d) và V
d

={v
1
, …, v
r(d)
}. Thuộc tính quyết định d xác
định một phân hoạch của tập tổng thể U, tại đó X
k
={x

U:d(x)=v
k
} với 1

k

r(d).
Tập X
i
đƣợc gọi là lớp quyết định thứ i của A. Và viết X
d
(u) có nghĩa là có lớp
quyết định {x

U: d(x)=d(u)} với

u

U.
Tổng quát hóa định nghĩa ở trên bằng dạng A = (U, A, D), trong đó tập D
={d

1, ,
d
k
} là tập các thuộc tính quyết định và A

D =. Hệ này có thể đƣợc xem
nhƣ là hệ quyết định A = (U, A, d
D
) trong đó d
D
(x)=(d
1
(x),…,d
k
(x)) với

x

U.
Thuộc tính quyết định có thể có nhiều hơn hai giá trị, tuy nhiên thông dụng
là kiểu giá trị nhị phân. Quá trình khám phá ra mối quan hệ giữa thuộc tính quyết
định theo thuộc tính điều kiện trong bảng quyết định thuộc vào loại học máy có
hƣớng dẫn, trong đó thể hiện điển hình nhất là "học qua ví dụ".
Ví dụ: Bảng 1.3 mô tả một bảng quyết định bao gồm 7 đối tƣợng, một thuộc
tính quyết định là Trúng tuyển và 3 thuộc tính Điểm trung bình, PTTH,
Quận/Huyện.





-21-
U
Điểm trung bình
PTTH
Quận/Huyện
Trúng tuyển
x
1
5.5
Hai Bà Trƣng
Hai Bà Trƣng
Trƣợt
x
2

7.0
Chu Văn An
Tây Hồ
Đỗ
x
3

6.5
Đoàn Thị Điểm
Cầu Giấy
Đỗ
x
4

6.5

Đoàn Thị Điểm
Cầu Giấy
Trƣợt
x
5

8.0
Chuyên Ngữ
Cầu Giấy
Đỗ
x
6

8.0
Lê Quý Đôn
Cầu Giấy
Trƣợt
x
7

8.0
Chuyên Ngữ
Thanh Xuân
Đỗ

Bảng 1.3: Ví dụ về bảng quyết định TuyenSinh
Một tri thức đƣợc tổng hợp từ bảng quyết định trên sẽ là luật có dạng “Nếu có
Điểm trung bình là 5.5 và học trƣờng PTTH là Hai Bà Trƣng và Quận/Huyện là Hai
Bà Trƣng thì Trúng tuyển là Trƣợt” tức là Nếu một thí sinh có Điểm trung bình là
5.5 và học trƣờng PTTH là Hai Bà Trƣng và Quận/Huyện là Hai Bà Trƣng thì sẽ bị

Trƣợt đại học.
Có thể thấy cặp hai đối tƣợng là x
3
và x
4
vẫn là cặp có các giá trị giống nhau theo
thuộc tính điều kiện, nhƣng kết quả quyết định đối với hai đối tƣợng là khác nhau.
1.2.3. Quan hệ không phân biệt đƣợc trong hệ thông tin
Một trong những cơ sở toán học của lý thuyết tập thô là quan hệ không phân
biệt đƣợc (quan hệ tƣơng đƣơng) trong hệ thông tin.
Cho U là tập các đối tƣợng, một quan hệ nhị phân R  U  U trên U đƣợc gọi là:
- Phản xạ nếu mọi đối tƣợng đều có quan hệ với chính nó xRx,
- Đối xứng nếu xRy thì yRx,
- Bắc cầu nếu xRy và yRz thì xRz
Một quan hệ R có cả ba tính chất phản xạ, đối xứng và bắc cầu đƣợc gọi là một
quan hệ tƣơng đƣơng. Quan hệ tƣơng đƣơng R sẽ phân hoạch tập tổng thể U thành
các lớp tƣơng đƣơng. Lớp tƣơng đƣơng của phần tử x  U, kí hiệu là [x], chứa tất
cả các đối tƣợng y  U mà xRy.



-22-
Định nghĩa 1.3. Cho hệ thông tin A= (U, A), tập con bất kỳ B  A, tồn tại một
quan hệ tƣơng đƣơng (kí hiệu là IND
A
(B)) đƣợc xác định nhƣ sau:
IND
A
(B)={(x,x’)  U
2

a  B: a(x) = a(x’)}
IND
A
(B) hoặc có thể kí hiệu là IND(B) đƣợc gọi là quan hệ không phân biệt đƣợc
theo nghĩa nếu nhƣ hai đối tƣợng x, x' mà (x,x’)  IND(B) thì x và x’ là không phân
biệt đƣợc bởi các thuộc tính trong B.
Tính chất tƣơng đƣơng của IND(B) là dễ dàng kiểm tra theo định nghĩa.
Lớp tƣơng đƣơng theo quan hệ không phân biệt đƣợc B đƣợc biểu diễn là [x]
B
.
 Ví dụ. Xét Bảng 1.3 minh hoạ cho một quan hệ không phân biệt đƣợc. Nếu
không xem xét thuộc tính Điểm trung bình thì các tập con khác rỗng của các
thuộc tính điều kiện là {PTTH}, {Quận/Huyện} và {PTTH, Quận/Huyện}. Các
đối tƣợng x
3
và x
4
thuộc vào cùng một lớp tƣơng đƣơng và không có khả năng
phân biệt đƣợc. Ba quan hệ IND xác định phân hoạch thành từng phần tập tổng
thể.
IND({PTTH }) = {{x
1
},{x
2
},{x
3
,x
4
},{ x
5

,x
7
},{x
6
}}
IND({Quận/Huyện}) = {{x
1
},{x
2
},{x
3
,x
4
,x
5
,x
6
},{x
7
}}
IND({PTTH,Quận/Huyện}) = {{x
1
},{x
2
},{x
3
,x
4
},{x
5

},{ x
6
},{x
7
}}
Thuật toán xác định lớp tƣơng đƣơng:
Đầu vào: Tập đối tƣợng O
Tập thuộc tính B
Đầu ra: Tập các lớp tƣơng đƣơng L
Thuật toán:
Bước 1: L=


Bước 2: Nếu O=

thì Thực hiện bước 5
Bước 3: Xét x

O
P={x}
O=O \ {x}
Với mọi phần tử y

O :



-23-
Nếu x và y không thể phân biệt được qua tập thuộc tính B thì :
P= P


{y}
O=O \ {y}
L=L

{P}
Bước 4 : Thực hiện bước 2
Bước 5: Kết thúc
1.2.4. Tập xấp xỉ trên, xấp xỉ dƣới và miền biên
Định nghĩa 1.4. Giả sử A = (U, A) là một hệ thông tin và B  A và X  U. Các tập
xấp xỉ của X theo thông tin có từ B, đƣợc xác định nhƣ dƣới đây:
(1) Tập B-xấp xỉ dưới của X, kí hiệu là
XB
, là tập
XB
= {x | [x]
B
 X}
(2) Tập B-xấp xỉ trên của X, kí hiệu là
XB
, là tập
XB
= {x | [x]
B
 X  }.
 Tập hợp
XB
là tập các đối tƣợng trong U sử dụng các thuộc tính trong B ta có
thể biết chắc chắn đƣợc chúng là các phần tử của X (tập
XB

có thể đƣợc gọi là
tập chắc chắn).
 Tập hợp
XB
là tập các đối tƣợng trong U sử dụng các thuộc tính trong B ta chỉ
có thể nói rằng chúng có thể là các phần tử của X (tập
XB
có thể đƣợc gọi là tập
khả năng).
 Tập BN
B
(X) =
XB
-
XB
đƣợc gọi là B-vùng biên của X, do vậy chúng ta không
thể xác định đƣợc các đối tƣợng đó có thuộc X hay không.
 Tập U \
XB
đƣợc gọi là B-vùng ngoài của X bao gồm các đối tƣợng chắc chắn
không thuộc X.
Một tập đƣợc gọi là thô nếu vùng biên của nó là không rỗng, ngƣợc lại ta nói tập
này là rõ.
Ví dụ: Xác định kết quả (hay lớp quyết định) trong các thuộc tính điều kiện. Giả sử
W={x | Trúng tuyển(x) = Trượt} nhƣ ví dụ minh hoạ trên Bảng 1.3 Ta thu đƣợc



-24-
vùng xấp xỉ dƣới

WA
= {x
1
,x
6
}, xấp xỉ trên
WA
= {x
1
,x
3
,x
4
,x
6
}, vùng biên
BN
A
(W)={ x
3
,x
4
} và vùng biên ngoài U -
WA
= {x
2
,x
5
,x
7

}. Do đó mà tập kết quả
Xem xét là thô vì vùng biên là không rỗng.

Hình 1.3 : Xấp xỉ tập thí sinh cần xem xét khi thi đại học
Các tính chất của sự xấp xỉ
(1)
XB
 X 
XB
,
(2)
B
(

) =
B
(

),
B
(U) =
B
(U) = U,
(3)
B
(X  Y) =
B
(X) 
B
(Y),

(4)
B
(X  Y) =
B
(X) 
B
(Y),
(5) Nếu X Y thì
B
(X) 
B
(Y) và
B
(X) 
B
(Y),
(6)
B
(X  Y) 
B
(X) 
B
(Y),
(7)
B
(X Y) 
B
(X) 
B
(Y),

(8)
B
(U \ X) = U \
B
(X),
(9)
B
(U \ X) = U \
B
(X),
(10)
B
(
B
(X)) =
B
(
B
(X)) =
B
(X),
Trƣợt
Đỗ/Trƣợt
Đỗ
{{x1},{x6}}
{{x3,x4}}
{{x2}, {x5,x7}}
AW
AW

×