Tải bản đầy đủ (.pdf) (102 trang)

Luận văn tốt nghiệp tiếp cận lý thuyết tập thô do z pawlak

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (542.15 KB, 102 trang )


Luận văn tốt nghiệp
Tiếp cận lý thuyết tập thô do Z.Pawlak


1

Mục lục

Danh mục các thuật ngữ

2

Bảng các ký hiệu

3

Danh sách bảng

4

Phần mở đầu

6

Chương 1.

Các khái niệm cơ bản

10


1.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Hệ thống thông tin và tập thô . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1. Hệ thống thông tin . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.2. Quan hệ không phân biệt được . . . . . . . . . . . . . . . . . 12
1.2.3. Các tập xấp xỉ . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.4. Các tính chất của xấp xỉ . . . . . . . . . . . . . . . . . . . . . 15
1.2.5. Độ chính xác của xấp xỉ . . . . . . . . . . . . . . . . . . . . . 16
1.3. Bảng quyết định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.1. Rút gọn và lõi . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.2. Ma trận và hàm phân biệt được . . . . . . . . . . . . . . . . . 18
1.3.3. Luật quyết định . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4. Phụ thuộc xấp xỉ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24


2
1.4.1. Hàm thành viên thô . . . . . . . . . . . . . . . . . . . . . . . 24
1.4.2. Phụ thuộc hàm xấp xỉ . . . . . . . . . . . . . . . . . . . . . . 25
1.4.3. Rút gọn xấp xỉ . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Chương 2.

Một số thuật tốn tìm tập rút gọn

31

2.1. Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2. Thuật toán sử dụng các phép toán đại số . . . . . . . . . . . . . . . . 32
2.2.1. Tập lõi trong bảng quyết định . . . . . . . . . . . . . . . . . . 32
2.2.2. Đặc trưng của tập rút gọn . . . . . . . . . . . . . . . . . . . . 36
2.2.3. Các thuật toán . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3. Thuật toán dựa vào số cặp phân biệt được . . . . . . . . . . . . . . . 43

2.3.1. Một số ký hiệu . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.2. Cơ sở toán học . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.3.3. Thuật toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4. Thuật tốn tìm rút gọn xấp xỉ . . . . . . . . . . . . . . . . . . . . . . 52
2.4.1. Đặt vấn đề

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.4.2. Sai số của rút gọn xấp xỉ . . . . . . . . . . . . . . . . . . . . . 52
2.4.3. Các thuật tốn tìm rút gọn xấp xỉ
Chương 3.

Khám phá phụ thuộc đa trị

. . . . . . . . . . . . . . . 54
58

3.1. Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2. Khảo sát phụ thuộc bằng Ma trận phụ thuộc . . . . . . . . . . . . . . 60
3.2.1. Phụ thuộc và phụ thuộc xấp xỉ . . . . . . . . . . . . . . . . . 60
3.2.2. Đặc trưng phụ thuộc bằng ma trận phụ thuộc . . . . . . . . . 63


3
3.3. Thuật tốn kiểm định và tìm kiếm phụ thuộc . . . . . . . . . . . . . 69
3.3.1. Thuật tốn tính độ dầy đặc của dãy ma trận . . . . . . . . . . 69
3.3.2. Thuật toán kiểm định phụ thuộc xấp xỉ . . . . . . . . . . . . 73
3.3.3. Thuật tốn tìm kiếm phụ thuộc tối tiểu vế phải . . . . . . . . 75
3.4. Mở rộng phụ thuộc hàm và phụ thuộc đa trị . . . . . . . . . . . . . . 77
3.4.1. Quan hệ tương tự . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.4.2. Phụ thuộc mở rộng và các tính chất . . . . . . . . . . . . . . . 81
3.4.3. Đặc trưng β−phụ thuộc bằng ma trận phụ thuộc . . . . . . . 84
3.4.4. Thuật toán kiểm định β−phụ thuộc đa trị . . . . . . . . . . . 88
3.5. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Phần Kết luận

92

Tài liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94


4

Chương
DANH MỤC CÁC THUẬT NGỮ
Hệ thống thông tin ()
Tập thô (Rough Set)
Quan hệ không phân biệt được
Tập xấp xỉ dưới
Tập xấp xỉ trên
Bảng quyết định
Rút gọn
Lõi
Ma trận phân biệt được
Hàm phân biệt được
Luật quyết định
Phụ thuộc hàm
Phụ thuộc đa trị
Phụ thuộc xấp xỉ



5

Chương
BẢNG CÁC KÝ HIỆU
A = (U, A): Hệ thống thông tin.
u(a): Giá trị của đối tượng u tại thuộc tính a.
IND(B): Quan hệ B−không phân biệt được.
IND(B|V ): Quan hệ B−không phân biệt được cảm sinh trên tập V .
[u]B : Lớp tương đương chứa u của quan hệ IND(B).
U/B: Tập hợp thương của quan hệ IND(B).
V /B: Tập hợp thương của quan hệ IND(B|V ).
BV : B−xấp xỉ dưới của V .
BV : B−xấp xỉ trên của V .
POSB (D) : B−miền khẳng định của D.
T = (U, C ∪ D): Bảng quyết định.
Lower[B]/[D] : B−xấp xỉ dưới tương ứng với D của U .
Upper[B]/[D] : B−xấp xỉ trên tương ứng với D của U .
Boundary[B]/[D] : B−biên tương ứng với D của U .
k(R, D): Độ phụ thuộc của tập thuộc tính quyết định D vào tập con các thuộc


6
tính điều kiện R.
m(cj , R): Khả năng đóng góp của thuộc tính cj vào R.
V
ωB (cj ): Số cặp đối tượng của V bằng nhau trên tập thuộc tính B nhưng khác

nhau tại thuộc tính cj .
V

ωB (D): Số cặp đối tượng của V bằng nhau trên tập thuộc tính B nhưng khác

nhau trên tập thuộc tính D.
ω V (cj ): Số cặp đối tượng của V khác nhau tại thuộc tính cj .
ω V (D): Số cặp đối tượng của V khác nhau trên tập thuộc tính D.
ωB (cj ): Số cặp đối tượng của U bằng nhau trên tập thuộc tính B nhưng khác
nhau tại thuộc tính cj .
ωB (D): Số cặp đối tượng của U bằng nhau trên tập thuộc tính B nhưng khác
nhau trên tập thuộc tính D.
X →: Y khơng phụ thuộc hàm vào X trên U .
Y

X → Y : Y không phụ thuộc đa trị vào X trên U .
/

X→V Y : Y phụ thuộc hàm vào X đúng trên tập con V ⊆ U .
X→→V Y : Y phụ thuộc đa trị vào X đúng trên tập con V ⊆ U .
α,β

X −→ Y : Y là (α, β)− phụ thuộc hàm vào X trên U .
α,β

X →→ Y : Y là (α, β)− phụ thuộc đa trị vào X trên U .


7

Danh sách bảng

1.1


Bảng dữ liệu các đồ chơi. . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2

Các triệu chứng của bệnh nhân. . . . . . . . . . . . . . . . . . . . . . 14

1.3

Bảng quyết định về bệnh cúm.

1.4

Bảng rút gọn thứ nhất của hệ thống bệnh cúm (R1 ). . . . . . . . . . 19

1.5

Bảng rút gọn thứ hai của hệ thống bệnh cúm (R2 ). . . . . . . . . . . 19

1.6

Dữ liệu bảng quyết định. . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.7

Ma trận phân biệt được M. . . . . . . . . . . . . . . . . . . . . . . . 21

1.8

Bảng chọn ứng cử viên vào ngạch giảng dạy. . . . . . . . . . . . . . . 24


1.9

Bảng dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1

Bảng thông tin về các xe hơi. . . . . . . . . . . . . . . . . . . . . . . 35

2.2

Bảng dữ liệu các đồ chơi. . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.3

Bảng chọn lựa giáo viên. . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.4

Bảng dữ liệu cho ví dụ rút gọn xấp xỉ. . . . . . . . . . . . . . . . . . 54

3.1

Bảng dữ liệu sinh viên. . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.2

Dữ liệu của hệ thống. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.3


Bảng dữ liệu về các lập trình viên . . . . . . . . . . . . . . . . . . . . 80

. . . . . . . . . . . . . . . . . . . . . 18


8
3.4

Quan hệ tương tự trên Ib . . . . . . . . . . . . . . . . . . . . . . . . . 80

3.5

Quan hệ tương tự trên Ic . . . . . . . . . . . . . . . . . . . . . . . . . 80

3.6

Dữ liệu của hệ thống. . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.7

Các quan hệ tương tự trên IX , IY và IZ . . . . . . . . . . . . . . . . . 83

3.8

Bảng dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.9

Các quan hệ tương tự trên IY và IZ . . . . . . . . . . . . . . . . . . . 86



9

Chương
PHẦN MỞ ĐẦU
Lý thuyết tập thô do Zdzisaw Pawlak [24] đề xuất vào những năm đầu thập
niên tám mươi của thế kỷ hai mươi đã được áp dụng ngày càng rộng rãi trong nhiều
lĩnh vực của khoa học máy tính. Lý thuyết tập thô được phát triển trên một nền
tảng tốn học vững chắc và cung cấp những cơng cụ hữu ích để giải quyết các bài
tốn phân lớp dữ liệu, phát hiện luật v.v... đặc biệt thích hợp đối với những bài
tốn chứa dữ liệu mơ hồ khơng chắc chắn.
Mười lăm năm trở lại đây đã đánh dấu sự phát triển mạnh mẽ của lĩnh vực
khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu. Trong xu thế đó, nhiều
nhóm khoa học trên thế giới đã nghiên cứu, phát triển lý thuyết tập thô vào lĩnh vực
nghiên cứu và ứng dụng nổi bật này. Về phương diện nghiên cứu phát triển ứng dụng
lý thuyết tập thơ vào các lĩnh vực như ngân hàng, tài chính, sinh học (biểu thị gen),
... có thể kể đến các cơng trình nghiên cứu [7, 8, 9, 10, 11, 12, 13, 18, 19, 20, 23, 27].
Về phương diện nghiên cứu phát triển mơ hình và giải pháp theo tiếp cận tập thơ
có thể kể đến các cơng trình [14, 26] quan tâm đến các bài tốn tính tốn lõi và rút
gọn, hoặc các cơng trình [15, 16, 17, 25, 31, 32] nghiên cứu tìm kiếm các ràng buộc
trong dữ liệu.
Lý thuyết tập thơ cho phép trình diễn một mơ hình hình thức về tri thức từ
bảng dữ liệu đơn thuần. Mơ hình này được xác định như họ các mối quan hệ "không


10
phân biệt được", nhờ đó tri thức được định nghĩa một cách rõ ràng dưới dạng tốn
học và có thể được phân tích và xử lý bằng những cơng cụ mạnh mẽ và hiệu quả
của toán học.

Trong lý thuyết tập thơ, mơ hình biểu diễn dữ liệu được trình bày thông qua hệ
thông tin hay bảng quyết định và ý tưởng chính trong việc phân tích dữ liệu xuất
phát từ khái niệm "không phân biệt được". Với cách tiếp cận như vậy, lý thuyết tập
thô cho phép phát hiện tri thức từ những bảng dữ liệu lớn với dữ liệu đa dạng, phức
tạp, chưa tinh lọc nhằm phát hiện ra những quy luật tiềm ẩn từ khối dữ liệu này.
Tri thức được biểu diễn dưới dạng các mẫu mô tả mối quan hệ bị che dấu trong
dữ liệu. Trong lý thuyết tập thô, chất lượng của thông tin được đo thông qua các
khái niệm xấp xỉ trên và xấp xỉ dưới. Nhằm thu hẹp nhiều nhất kích thước dữ liệu
đến miền thơng tin chính xác, ý tưởng rút gọn được sử dụng để cho phép loại bỏ
những thông tin dư thừa, khơng cần thiết mà vẫn giữ được các tính chất xấp xỉ
cơ bản của hệ thống. Nếu tìm được những quy luật chung nhất biểu diễn dữ liệu,
người ta có thể tính tốn độ mạnh của các thuộc tính hoặc độ phụ thuộc giữa chúng
trong hệ thơng tin. Vì vâỵ vấn đề phát hiện luật theo tiếp cận tập thơ được đặt ra
là hồn tồn tự nhiên.
Mục tiêu của đề tài luận án là nghiên cứu khía cạnh đại số và logic của bài
toán phát hiện luật theo tiếp cận tập thô. Đây là một hướng nghiên cứu rất rộng,
bao gồm nhiều vấn đề đang được các nhà khoa học nghiên cứu xem xét. Luận án
chỉ tập trung vào hai vấn đề, một là tìm các tập rút gọn của bảng quyết định, hai
là vấn đề phát hiện các mối ràng buộc có trong dữ liệu. Cả hai vấn đề này đều được
phân tích và xem xét dựa vào các công cụ của lý thuyết tập thô mà nền tảng là
quan hệ "khơng phân biệt được".
Với mục tiêu đó, nội dung luận án được trình bày trong ba chương. Chương
Một trình bày một cách tổng quan về các khái niệm cơ bản trong lý thuyết tập thô
như là hệ thống thông tin, quan hệ không phân biệt được, xấp xỉ dưới, xấp xỉ trên,
bảng quyết định, rút gọn, lõi, ma trận phân biệt được. Các khái niệm liên quan tới


11
xấp xỉ cũng được giới thiệu sơ bộ trong chương này như hàm thành viên thô, phụ
thuộc hàm xấp xỉ, rút gọn xấp xỉ.

Chương Hai trình bày các thuật tốn tìm tập rút gọn của bảng quyết định.
Các thuật tốn này được chia làm hai nhóm. Nhóm thứ nhất bao gồm hai thuật
toán (Thuật toán 2.2 và Thuật toán 2.3) dựa vào khái niệm độ phụ thuộc của tập
thuộc tính quyết định vào tập con các thuộc tính điều kiện; và với khái niệm mới
này, chúng tôi đã đưa ra đánh giá về khả năng đóng góp của một thuộc tính khi
tham gia đóng vai trị thành viên của tập rút gọn. Nhóm thứ hai chỉ bao gồm một
thuật tốn (Thuật tốn 2.4) tìm tập rút gọn dựa theo ý tưởng xây dựng ma trận
phân biệt được, tuy nhiên ở đây, các phần tử của ma trận (là các tập hợp) khơng
hề được tính tốn. Thay vào đó, chúng tơi phân tích các đối tượng có giá trị quyết
định khác nhau có mối tương quan như thế nào đối với các giá trị trên tập thuộc
tính điều kiện. Trên cơ sở đó, chúng tơi đã đưa ra tiêu chuẩn của tập rút gọn dựa
vào số cặp đối tượng phân biệt được bởi một tập các thuộc tính. Cả ba thuật toán
được xây dựng trong chương này đều là các thuật tốn heuristic và có độ phức tạp
tính tốn theo thời gian là đa thức, do đó có thể áp dụng được trên bảng dữ liệu
với kích thước lớn.
Nội dung của Chương Ba tập trung vào vấn đề thứ hai liên quan tới khái niệm
phụ thuộc trong lý thuyết cơ sở dữ liệu quan hệ. Cụ thể là, trong chương này chúng
tôi khảo sát các phụ thuộc hàm và phụ thuộc đa trị tiềm ẩn trong bảng dữ liệu có
sẵn. Để kiểm chứng phụ thuộc đa trị đúng trên tập các đối tượng, chúng tôi đã mô
tả đặc trưng của phụ thuộc đa trị bằng một họ các ma trận phụ thuộc. Do dữ liệu
trong thực tế thường rất lớn và có thể bị nhiễu, nên các phụ thuộc đúng tiềm ẩn
trong dữ liệu có thể khó phát hiện. Vì vậy chúng tôi đã nghiên cứu các phụ thuộc đa
trị đúng trên hầu hết các đối tượng trong bảng, gọi là phụ thuộc xấp xỉ, đồng thời
đưa ra đánh giá về sai số của phụ thuộc dựa vào khái niệm độ dầy đặc của họ các
ma trận phụ thuộc. Phần cuối của Chương Ba, chúng tôi xây dựng các phụ thuộc
hàm và phụ thuộc đa trị mở rộng bằng cách thay quan hệ bằng nhau trên các giá


12
trị thuộc tính bởi quan hệ tương tự. Một điều khá thú vị là các phụ thuộc mở rộng

này cũng được đặc trưng bởi họ các ma trận phụ thuộc tương ứng.


Chương Chương 1.
CÁC KHÁI NIỆM CƠ BẢN
1.1.

Giới thiệu

Ngay từ khi xuất hiện, lý thuyết tập thô do Zdzisaw Pawlak [24] khởi xướng
vào những năm đầu thập niên tám mươi của thế kỷ hai mươi đã ngay lập tức thu
hút sự quan tâm của nhiều nhà nghiên cứu và thực nghiệm trên toàn thế giới. Khả
năng ứng dụng trong nhiều lĩnh vực khác nhau cho thấy vai trò quan trọng của lý
thuyết này trong việc nghiên cứu và ứng dụng công nghệ thơng tin trong thời đại
mới.
Lý thuyết tập thơ có thể được xem xét theo hai phương diện là mô hình và thực
hành. Theo phương diện mơ hình, lý thuyết tập thơ cho một cách tiếp cận mới cho
tính mơ hồ. Các khái niệm mơ hồ được đặc trưng bởi một "miền biên" chứa tất cả
các phần tử mà không thể gộp vào miền các đối tượng quan sát hoặc phần bù của
miền này. Lý thuyết tập thô được nghiên cứu và phát triển nhằm hiểu tốt hơn ý
tưởng của tính mơ hồ. Nó cũng xét đến một vài ý tưởng của Gottfried Leibniz (tính
khơng phân biệt được), George Boole (các phương pháp suy luận), Jan Lukasiewicz
(các logic đa trị) và Thomas Bayes (suy luận quy nạp). Về phương diện thực hành,
lý thuyết tập thô là ý tưởng nền tảng cho trí tuệ nhân tạo và khoa học nhận thức,
đặc biệt cho học máy, phát hiện tri thức, phân tích quyết định, suy luận quy nạp


14
và nhận dạng mẫu. Nó là rất quan trọng cho các nghiên cứu về hệ trợ giúp quyết
định và khai phá dữ liệu. Thực tế tiếp cận lý thuyết tập thơ là một cách tiếp cận

mới cho việc phân tích dữ liệu.
Bản chất toán học chặt chẽ làm cho các nội dung cơ sở của lý thuyết tập thơ có
thể được nắm bắt và ứng dụng một cách dễ dàng. Các hệ thống phần mềm sử dụng
lý thuyết tập thô (điển hình như ROSETTA) đã được cài đặt và nhiều ứng dụng
quan trọng trong đời sống của phương pháp luận này đã được xây dựng, chẳng hạn
trong y học, dược học, kỹ thuật, ngân hàng, nhận dạng mẫu, biểu thị gien v.v...
Bản chất toán học chặt chẽ làm cho lý thuyết này khơng mâu thuẫn mà cịn
bổ sung cho các phương pháp đã có và dĩ nhiên cũng có thể được sử dụng đồng thời
với các cách tiếp cận khác.
Mục đích chính của sự phân tích tập thơ là đưa ra các tập xấp xỉ để biểu diễn
các đối tượng không thể được phân lớp một cách chắc chắn bằng cách dùng tri thức
có sẵn. Theo cách tiếp cận của lý thuyết tập thô, mọi tập thô được liên kết với hai
tập "rõ" là xấp xỉ dưới và xấp xỉ trên của nó. Xấp xỉ dưới bao gồm các đối tượng
chắc chắn thuộc, còn xấp xỉ trên chứa tất cả các đối tượng có khả năng thuộc về
tập đó. Các tập xấp xỉ là cơ sở để đưa ra các kết luận từ dữ liệu.

1.2.
1.2.1.

Hệ thống thông tin và tập thô
Hệ thống thông tin

Hệ thống thông tin là một cặp A = (U , A), với U là tập hữu hạn, khác rỗng,
được gọi là tập vũ trụ các đối tượng và A là tập hữu hạn khác rỗng các thuộc tính.
Với mỗi u ∈ U và a ∈ A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a.
Nếu gọi Ia là tập tất cả các gía trị của thuộc tính a, thì u(a) ∈ Ia với mọi u ∈ U .
Bây giờ, nếu B = {b1 , b2 , · · · , bk } ⊆ A là một tập con các thuộc tính thì ta sẽ ký
hiệu bộ các giá trị u(bi ) bởi u(B). Như vậy, nếu u và v là hai đối tượng, thì ta sẽ



15
viết u(B) = v(B) nếu u(bi ) = v(bi ), với mọi i = 1, · · · , k.

1.2.2.

Quan hệ không phân biệt được

Cho hệ thống thông tin A = (U, A). Với mỗi tập con các thuộc tính B ⊆ A,
tồn tại một quan hệ hai ngôi trên U , ký hiệu IND(B), xác định bởi:
IND(B) = {(u, v) ∈ U × U | u(B) = v(B)}.
IND(B) được gọi là quan hệ B−không phân biệt được. Dễ kiểm chứng được rằng
đây là một quan hệ tương đương trên U . Với V ⊆ U , ta ký hiệu IND(B|V ) là quan
hệ tương đương trên V , cảm sinh bởi IND(B), tức là:
IND(B|V ) = {(u, v) ∈ V × V | u(B) = v(B)}.
Nếu (u, v) ∈ IND(B) thì hai đối tượng u và v khơng phân biệt được bởi các
thuộc tính trong B. Lớp tương đương chứa phần tử u được ký hiệu [u]B . Khi đó
quan hệ IND(B) được xác định hồn tồn bởi các lớp tương đương [u]B , u ∈ U . Tập
hợp thương của quan hệ IND(B) được ký hiệu [IND(B)] hay đơn giản là U/B, tức
là [IND(B)] = U/B = {[u]B | u ∈ U } và tập hợp thương của quan hệ IND(B|V ) là
[IND(B|V )] hay V /B.
Ví dụ 1.1. Xét tập 10 đồ chơi với các thuộc tính: Màu sắc, Kích thước, Hình dáng
được cho trong Bảng 1.1. Lúc đó
U /{Màu sắc} = {{u1 , u2 , u6 , u10 }, {u3 , u5 , u9 }, {u4 , u7 , u8 }}
U /{Kích thước} = {{u1 , u5 , u8 , u9 }, {u3 , u4 , u10 }, {u2 , u6 , u7 }}
U /{Hình dáng} = {{u1 , u2 , u6 , u10 }, {u3 , u4 , u9 }, {u5 , u7 , u8 }}
U /{Màu sắc, Hình dáng} = {{u1 , u2 , u6 , u10 }, {u3 , u9 }, {u4 }, {u5 }, {u7 , u8 }}
Như vậy các đồ chơi u1 , u2 không phân biệt được về màu sắc và hình dáng,
nhưng phân biệt được về kích thước. Tương tự, các đồ chơi u3 , u4 không phân biệt
nhau về kích thước và hình dáng, nhưng phân biệt được về màu sắc, v.v...



16
U

Màu sắc

Kích thước

Hình dáng

u1

Xanh

To

Trịn

u2

Xanh

Nhỏ

Trịn

u3

Vàng


Vừa

Vng

u4

Đỏ

Vừa

Vng

u5

Vàng

To

Tam giác

u6

Xanh

Nhỏ

Trịn

u7


Đỏ

Nhỏ

Tam giác

u8

Đỏ

To

Tam giác

u9

Vàng

To

Vng

u10

Xanh

Vừa

Trịn


Bảng 1.1: Bảng dữ liệu các đồ chơi.

1.2.3.

Các tập xấp xỉ

Cho hệ thống thông tin A = (U, A), B ⊆ A và V ⊆ U . Với các tri thức được
cho bởi tập thuộc tính B, liệu chúng ta có thể biểu diễn tập đối tượng V bằng các
tri thức có sẵn này hay khơng? Hay nói cách khác, với một tập thuộc tính B cho
trước, chúng ta có các lớp tương đương của quan hệ IND(B), thế thì một tập đối
tượng V có thể diễn đạt thơng qua các lớp tương đương này như thế nào? Trong lý
thuyết tập thô, để biểu diễn V bằng tri thức có sẵn B người ta xấp xỉ chúng bởi
hợp của một số hữu hạn các lớp tương đương của IND(B). Có hai cách xấp xỉ: Cách
thứ nhất là cho tương ứng bởi "miền trong" và cách thứ hai có thể xấp xỉ bởi "bao
đóng" của V . Hai giá trị xấp xỉ này được gọi tương ứng là B−xấp xỉ dưới và B−xấp
xỉ trên của V , ký hiệu lần lượt là BV và BV , cụ thể các tập xấp xỉ này được xác
định như sau
BV = {u ∈ U | [u]B ⊆ V },
BV = {u ∈ U | [u]B ∩ V = ∅}.


17
Với các xấp xỉ trên, ta gọi B−miền biên của V là tập BNB (V ) = BV \ BV
và B−miền ngòai của V là tập U \ BV . Dễ thấy B−miền biên của V là tập chứa
các đối tượng không chắc chắn thuộc hay không thuộc V , còn B−miền ngòai của V
chứa các đối tượng chắc chắn không thuộc V . Với ký hiệu tập thương của quan hệ
tương đương IND(B) trên U là U/B, các xấp xỉ trên và dưới của V có thể viết lại:
BV = ∪{W ∈ U/B | W ⊆ V },
BV = ∪{W ∈ U/B | W ∩ V = ∅}.
Bây giờ nếu B, D ⊆ A, ta sẽ gọi B−miền khẳng định của D là tập được xác

định như sau
POSB (D) =

(BV ).
V ∈U/D

Rõ ràng POSB (D) là tập tất cả đối tượng u sao cho với mọi v ∈ U mà u(B) =
v(B) ta đều có u(D) = v(D). Nói cách khác, POSB (D) = {u ∈ U | [u]B ⊆ [u]D }.
Ví dụ 1.2. Xét hệ thống thơng tin biểu diễn các triệu chứng cúm của các bệnh
nhân cho ở Bảng 1.2.
U

Đau đầu

Thân nhiệt

Cảm cúm

u1



Bình thường

Khơng

u2




Cao



u3



Rất cao



u4

Khơng

Bình thường

Khơng

u5

Khơng

Cao

Khơng

u6


Khơng

Rất cao



u7

Khơng

Cao



u8

Khơng

Rất cao

Không

Bảng 1.2: Các triệu chứng của bệnh nhân.


18
Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt } là: {u1 }, {u2 }, {u3 },
{u4 }, {u5 , u7 }, {u6 , u8 }. Đặt V = {u | u(Cảm cúm) = Có} = {u2 , u3 , u6 , u7 }. Lúc
đó,
BV = {u2 , u3 } và BV = {u2 , u3 , u6 , u7 , u5 , u8 }. Như vậy, B−miền biên của V

là tập hợp BNB (V ) = {u5 , u6 , u7 , u8 }. Nếu đặt D = {Cảm cúm} thì
U/D = {V1 = {u1 , u4 , u5 , u8 } ; V2 = {u2 , u3 , u6 , u7 }},
BV1 = {u1 , u4 } ; BV2 = {u2 , u3 },
(BV ) = {u1 , u2 , u3 , u4 }.

POSB (D) =
V ∈U/D

1.2.4.

Các tính chất của xấp xỉ

Định lý 1.1. [24] Cho V ⊆ U và B ⊆ A. Khi đó:
a) BV ⊆ V ⊆ BV.
b) B∅ = B∅ = ∅, BU = BU = U.
c) B(V ∪ W ) = BV ∪ BW.
d) B(V ∪ W ) ⊇ BV ∪ BW.
e) V ⊆ W ⇒ BV ⊆ BW và BV ⊆ BW.
f) B(V ∩ W ) = BV ∩ BW.
g) B(V ∩ W ) ⊆ BV ∩ BW.
h) B(U \ V ) = U \ BV.
i) B(U \ V ) = U \ BV.
j) B(BV ) = B(BV ) = BV.
k) B(BV ) = B(B(V ) = BV.


19
Với các khái niệm của tập xấp xỉ đối với phân hoạch IND(B), các tập thô được
chia thành bốn lớp cơ bản:
1) Tập V là B−xác định thô nếu BV = ∅ và BV = U.

2) Tập V là B−không xác định trong nếu BV = ∅ và BV = U.
3) Tập V là B−khơng xác định ngịai nếu BV = ∅ và BV = U.
4) Tập V là B− khơng xác định hồn tịan nếu BV = ∅ và BV = U.

1.2.5.

Độ chính xác của xấp xỉ

Với mỗi B ⊆ A và V ⊆ U , đại lượng đo lường sự chính xác của xấp xỉ tập V
đối với phân hoạch trên B là giá trị
αB (V ) =

Card(BV )
Card(BV )

Rõ ràng 0 ≤ αB (V ) ≤ 1. Nếu αB (V ) = 1, ta nói V là chính xác đối với B, cịn
nếu αB (V ) < 1, V được gọi là thô đối với B.

1.3.

Bảng quyết định

Một lớp đặc biệt của các hệ thống thông tin có vai trị quan trọng trong nhiều
ứng dụng là bảng quyết định. Bảng quyết định là một hệ thống thông tin T với tập
thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D, lần lượt được gọi
là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là T = (U, C ∪ D) với
C ∩ D = ∅. Trong trường hợp không sợ bị nhầm lẫn, người ta ký hiệu T = (C, D).
Bảng quyết định là mơ hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại
các thuộc tính điều kiện có thể cung cấp cho ta thơng tin về giá trị của thuộc tính
quyết định. Bảng quyết định được gọi là nhất quán nếu D phụ thuộc hàm vào C,



20
tức là với mọi u, v ∈ U , u(C) = v(C) kéo theo u(D) = v(D). Ngược lại thì gọi là
không nhất quán hay mâu thuẫn.
Dễ thấy bảng quyết định là nhất quán khi và chỉ khi POSC (D) = U . Trong
trường hợp bảng khơng nhất qn thì POSC (D) chính là tập hợp con cực đại của
U sao cho phụ thuộc hàm C → D đúng.

1.3.1.

Rút gọn và lõi

Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhóm:
Thuộc tính lõi, thuộc tính rút gọn và thuộc tính khơng cần thiết. Thuộc tính lõi là
thuộc tính cốt yếu, khơng thể thiếu trong việc phân hoạch chính xác tập dữ liệu.
Thuộc tính khơng cần thiết là những thuộc tính dư thừa; nghĩa là có thể loại bỏ
một thuộc tính như vậy (khơng phải tất cả!) mà không ảnh hưởng đến việc phân
lớp dữ liệu. Thuộc tính của tập rút gọn nằm giữa hai tập thuộc tính trên, với một
tổ hợp thuộc tính nào đó, nó là thuộc tính dư thừa và với một tổ hợp các thuộc tính
khác nó có thể là cốt yếu.
Chúng ta sẽ đưa ra các định nghĩa chính xác trong phần tiếp theo.
Cho T = (U, C ∪D) là một bảng quyết định, thuộc tính c ∈ C được gọi là không
cần thiết trong bảng quyết định T nếu POSC (D) = POS(C\{c}) (D). Nói cách khác,
c ∈ C là khơng cần thiết khi và chỉ khi trên POSC (D) phụ thuộc hàm C \ {c} → D
nghiệm đúng; ngược lại, c được gọi là cần thiết.
Bảng quyết định T được gọi là độc lập nếu mọi thuộc tính c ∈ C đều cần thiết.
Tập tất cả các thuộc tính cần thiết trong T được gọi là lõi và được ký hiệu Core(C).
Lúc đó, một thuộc tính cần thiết cịn được gọi là thuộc tính lõi.
Tập các thuộc tính R ⊆ C được gọi là một rút gọn của tập thuộc tính điều

kiện C nếu T = (U, R ∪ D) là độc lập và POSR (D) = POSC (D). Nói cách khác, R
là tập rút gọn nếu nó là tập tối tiểu thỏa mãn POSR (D) = POSC (D). Rõ ràng là
có thể có nhiều tập rút gọn của C. Ta ký hiệu Red(C) là tập tất cả các rút gọn của


21
C trong T. Một thuộc tính là cần thiết khi và chỉ khi nó thuộc vào mọi tập rút gọn
của C. Điều đó được thể hiện trong mệnh đề sau.
Mệnh đề 1.2. [11, 26, 28] Core(C) =

R.
R∈ Red(C)

Ví dụ 1.3. Xét bảng quyết định về bệnh cúm cho ở Bảng 1.3. Bảng này có hai
tập rút gọn là R1 ={Đau cơ, Thân nhiệt} và R2 = {Đau đầu, Thân nhiệt}. Như vậy
tập lõi là Core= {Thân nhiệt} và Thân nhiệt là thuộc tính cần thiết duy nhất. Các
thuộc tính Đau đầu, Đau cơ đều không cần thiết theo nghĩa là, từ bảng dữ liệu, có
thể loại bỏ một trong hai thuộc tính này mà vẫn chẩn đốn đúng bệnh. Tức là
POS{Đau cơ, Thân nhiệt} ({Cảm cúm}) = POSC ({Cảm cúm}),
POS{ Đau đầu, Thân nhiệt} ({Cảm cúm}) = POSC ({Cảm cúm}).

U

Đau đầu Đau cơ

Thân nhiệt

Cảm cúm

u1






Bình thường

Khơng

u2





Cao



u3





Rất cao



u4


Khơng



Bình thường

Khơng

u5

Khơng

Khơng

Cao

Khơng

u6

Khơng



Rất cao



Bảng 1.3: Bảng quyết định về bệnh cúm.


1.3.2.

Ma trận và hàm phân biệt được

Xét bảng quyết đinh T = (U, C ∪ D) với U = {u1 , u2 , · · · , un }. Ma trận phân
biệt được của T, ký hiệu M (T) = (mij )n×n , là một ma trận đối xứng mà mỗi phần


22

U

Đau cơ

Thân nhiệt

Cảm cúm

u1 , u4



Bình thường

Khơng

u2




Cao



u3 , u6



Rất cao



u5

Khơng

Cao

Khơng

Bảng 1.4: Bảng rút gọn thứ nhất của hệ thống bệnh cúm (R1 ).
U

Đau đầu Thân nhiệt

Cảm cúm

u1




Bình thường

Khơng

u2



Cao



u3



Rất cao



u4

Khơng

Bình thường

Khơng


u5

Khơng

Cao

Khơng

u6

Khơng

Rất cao



Bảng 1.5: Bảng rút gọn thứ hai của hệ thống bệnh cúm (R2 ).


23
U

c1

c2

c3

c4


d

u1

1

0

2

1

1

u2

1

0

2

0

1

u3

1


2

0

0

2

u4

1

2

2

1

0

u5

2

1

0

0


2

u6

2

1

1

0

2

u7

2

1

2

1

1

Bảng 1.6: Dữ liệu bảng quyết định.

tử của nó là một tập hợp các thuộc tính được xác định như sau [24, 26, 27, 28]



∅
nếu ui (D) = uj (D),
mij =

{c ∈ C | ui (c) = uj (c)} nếu ui (D) = uj (D).
Như vậy, mij là tập hợp gồm tất cả thuộc tính điều kiện có thể xếp các đối tượng
ui và uj vào các lớp tương đương khác nhau đối với quan hệ không phân biệt được
trên mỗi thuộc tính của tập thuộc tính này. Hay nói cách khác hai đối tượng ui và
uj mà ui (D) = uj (D) có thể phân biệt với nhau bởi một thuộc tính bất kỳ trong tập
mij . Nếu mij = ∅ thì ui và uj bằng nhau trên tập thuộc tính D hoặc, trong trường
hợp bảng quyết định đã cho là không nhất quán, hai đối tượng ui và uj có cùng giá
trị trên tập thuộc tính điều kiện nhưng khác nhau trên tập thuộc tính quyết định.
Ví dụ 1.4. Cho bảng quyết định như trong Bảng 1.6 với tập thuộc tính điều kiện
C = {c1 , c2 , c3 , c4 } và tập thuộc tính quyết định D = {d}. Ta có ma trận phân biệt
được tương ứng cho trong Bảng 1.7. Chú ý rằng, đây là ma trận đối xứng nên chúng
ta chỉ trình bày ma trận tam giác dưới.
Do bảng quyết định trong ví dụ này là nhất quán, nên m12 = ∅ trong Bảng 1.7
cho thấy hai đối tượng u1 và u2 có cùng giá trị quyết định (u1 (d) = u2 (d) = 1) hay


24
U

u1

u2

u3


u4

u5

u6

u1



u2





u3

{c2 , c3 , c4 }

{c2 , c3 }



u4

{c2 }

{c2 , c4 }


{c3 , c4 }



u5

{c1 , c2 , c3 , c4 }

{c1 , c2 , c3 }



{c1 , c2 , c3 , c4 }



u6

{c1 , c2 , c3 , c4 }

{c1 , c2 , c3 }



{c1 , c2 , c3 , c4 }






u7





{c1 , c2 , c3 , c4 }

{c1 , c2 }

{c3 , c4 }

{c3 , c4 }

Bảng 1.7: Ma trận phân biệt được M.

nói cách khác u1 và u2 cùng thuộc một lớp tương đương của phân hoạch IND(D).
Trong khi đó m32 = {c2 , c3 }, điều này nói lên rằng hai đối tượng u2 và u3 có
giá trị quyết định khác nhau và chúng có thể phân biệt với nhau bởi các thuộc
tính c2 hoặc c3 nhưng khơng phân biệt được bởi các thuộc tính c1 , c4 . Thật vậy,
u2 (d) = 1 = 2 = u3 (d) và u2 (c2 ) = 0 = 2 = u3 (c2 ), u2 (c3 ) = 2 = 0 = u3 (c3 ),
u2 (c1 ) = u3 (c1 ) = 1, u2 (c4 ) = u3 (c4 ) = 0.
Để tìm tập rút gọn dựa vào ma trận phân biệt được, người ta đưa vào khái
niệm hàm phân biệt được fT [18, 27] được xác định như sau
mij , với mỗi ui ∈ U ,

fT (ui ) =
j=i

trong đó, mỗi thuộc tính cho tương ứng một biến logic cùng tên và

(1)

mij là biểu thức tuyển của tất cả các biến c ∈ mij , nếu mij = ∅.

(2)

mij = true nếu mij = ∅ và ui (D) = uj (D).

(3)

mij = f alse nếu mij = ∅ và ui (D) = uj (D).

Như vậy fT (ui ) chứa những bộ thuộc tính có thể phân biệt ui với các đối tượng
khác trong T. Do đó,
Trong ví dụ trên ta có

fT (ui ) sẽ xác định tất cả các rút gọn của bảng quyết định.

u7




×