ĐỀ TÀI
ỨNG DỤNG TẬP THÔ
TRONG LẬP LUẬN TỪ
DỮ LIỆU
1
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
1. Mở Đầu 3
2. VÍ DỤ 4
3. Tập thô và các xấp xỉ 5
4. Các tập thô và hàm thức 8
5. CÁC BẢNG QUYẾT ĐỊNH VÀ THUẬT GIẢI QUYẾT ĐỊNH 9
6. SỰ PHỤ THUỘC VÀO CÁC THUỘC TÍNH 11
7. THU GỌN CÁC THUỘC TÍNH 13
8. CÁC HÀM VÀ MA TRẬN PHÂN BIỆT 19
9. ĐỘ QUAN TRỌNG CỦA CÁC THUỘC TÍNH VÀ CÁC THU GỌN XẤP XỈ 22
10. KẾT LUẬN 25
2
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
1. Mở Đầu
Các tập thô được xây dựng trên lý thuyết tập hợp. Ta thường sử dụng
thêm một số thông tin về các phần tử của một tập tổng thể. Các phần tử có cùng
thông tin là không phân biệt được và tạo thành một khối có thể được xem như là
các hạt cơ bản của tri thức về tập tổng thể đó. Chẳng hạn, các bệnh nhân mắc
phải một căn bệnh nào đó có cùng các triệu chứng là không phân biệt được và có
thể được biểu diễn như một hạt (khối bệnh) trong tri thức y học. Những hạt này
được gọi là các tập phần tử cơ bản và có thể xem như là những phần tử xây dựng
nên các khối tri thức. Phù hợp với tính chất hạt của tri thức, các tập thô cũng
được mô tả bằng các tri thức có được. Do đó, với mỗi tập hợp khi không phân
biệt được các phần tử một cách chính xác thì ta gắn nó với hai tập hợp rõ được
gọi là xấp xỉ trên và xấp xỉ dưới. Theo trực giác, xấp xỉ dưới của một tập chứa tất
cả các phần tử chắc chắn thuộc vào tập đó, còn xấp xỉ trên được tạo thành từ tất
cả các phần tử có thể thuộc vào tập này. Phần khác biệt giữa xấp xỉ trên và xấp xỉ
dưới gọi là vùng biên. Vùng biên chứa tất cả các phần tử không được phân lớp
một cách duy nhất thuộc vào một tập hợp hoặc phần bù của nó khi sử dụng các
tri thức có được. Do đó, mỗi tập thô khác với tập thông thường là nó có vùng
biên thường khác rỗng.
Bộ lý thuyết tập thô được xác định xấp xỉ. Thông báo, mà bộ thường được
xác định bởi các hàm thành viên. Bộ thô có thể được xác định bằng cách sử
dụng, thay vì xấp xỉ, thành viên chức năng, tuy nhiên hàm thành viên không phải
là một khái niệm nguyên thủy trong cách tiếp cận này, và cả hai định nghĩa là
không tương đương.
Trong bài báo này chúng tôi định nghĩa các khái niệm cơ bản của lý
thuyết tập thô dưới dạng dữ liệu. Các khái niệm này sẽ được áp dụng để thực
hiện lập luận từ dữ liệu. Các tập trong lý thuyết tập thô được định nghĩa bằng các
xấp xỉ dựa trên hàm thuộc.
3
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
2. VÍ DỤ
Trước tiên, chúng tôi trình bày một ví dụ đơn giản để mô tả phương pháp
một cách trực quan. Dữ liệu được biểu diễn bằng một bảng, các cột là các thuộc
tính, các hàng là các đối tượng còn mỗi ô trong bảng là giá trị của thuộc tính của
đối tượng tương ứng. Ví dụ trong một bảng có thông tin về các bệnh nhân nhiễm
phải một căn bệnh nào đó, các đối tượng là các bệnh nhân, các thuộc tính có thể
là: huyết áp, nhiệt độ cơ thể… Những bảng như vậy được gọi là các hệ thông tin
hoặc các bảng thông tin. Dưới đây là một ví dụ về một bảng thông tin
Giả sử chúng ta có dữ liệu về 6 bệnh nhân như trong bảng 1 dưới đây.
Bệnh
nhân
(Patient)
Đau đầu
(Headache
)
Đaucơ
(Muscle-
pain)
Nhiệt độ
(Temperature
)
Bị bệnh cúm
(Flu)
p1 không có cao có
p2 có không cao có
p3 có có rất cao có
p4 không có bình thường không
p5 có không cao không
p6 không có rất cao có
Bảng 1
Các cột của bảng được gán nhãn bởi các thuộc tính là các triệu chứng và
các hàng là các đối tượng (các bệnh nhân). Do đó, các ô của bảng là giá trị của
các thuộc tính của các đối tượng. Mỗi hàng của bảng có thể được xem như thông
tin về một bệnh nhân nào đó. Ví dụ bệnh nhân p2 được biểu diễn trong bảng bởi
tập giá trị-thuộc tính như sau: (Đau đầu, có), (Đau cơ, không), (Nhiệt độ, cao),
(Bị bệnh cúm, có).
Trong bảng 1 các bệnh nhân p2, p3, và p5 là không phân biệt được với
thuộc tính đau đầu, các bệnh nhân p3 và p6 là không phân biệt được với thuộc
tính đau cơ và bị bệnh cúm,và các bệnh nhân p2 và p5 là không phân biệt được
4
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
với các thuộc tính đau đầu, đau cơ và nhiệt độ. Do đó, thuộc tính đau đầu sinh ra
hai tập cơ bản {p2, p3, p5} và {p1, p4, p6}, trong khi các thuộc tính đau đầu và
đau cơ tạo thành các tập cơ bản sau: {p1, p4, p6}, {p2, p5} và {p3}. Tương tự
chúng ta có thể định nghĩa các tập cơ bản sinh bởi một tập con các thuộc tính.
Bệnh nhân p2 bị bệnh cúm, trong khi bệnh nhân p5 thì không. Họ là
không phân biệt được với thuộc tính đau đầu, đau cơ và nhiệt độ. Do đó, bị bệnh
cúm không thể biểu diễn được theo các thuộc tính đau đầu, đau cơ và nhiệt độ.
Vì vậy p2 và p5 là các trường hợp biên, chúng không thể được phân lớp một
cách đúng đắn theo quan sát bằng các tri thức có được. Các bệnh nhân còn lại p1,
p3 và p6 có các triệu chứng cho phép chúng ta có thể phân lớp một cách chính
xác khi bị bệnh cúm. Các bệnh nhân p2 và p5 không được coi là cùng bị cúm và
p4 chắc chắn không bị cúm. Do đó xấp xỉ dưới của tập các bệnh nhân bị cúm là
tập {p1, p3, p6} và xấp xỉ trên của tập này là {p1, p2, p3, p5, p6}, trong đó
trường hợp biên là các bệnh nhân p2 và p5. Tương tự p4 không bị cúm và p2, p5
không thể được coi như bị cúm. Do đó, xấp xỉ dưới của khái niệm không bị cúm
là {p4} và xấp xỉ trên là tập {p2, p4, p5}, vùng biên của nó là tập {p2, p5} giống
như trong trường hợp trước.
3. Tập thô và các xấp xỉ
Như đã đề cập trong phần mở đầu, cơ sở của lý thuyết tập thô là quan hệ
“không phân biệt được” được sinh ra từ thông tin về các đối tượng. Quan hệ
không phân biệt được, được sử dụng để biểu diễn tình trạng thiếu tri thức khi ta
không thể phân biệt được một số đối tượng. Điều đó có nghĩa là không thể xử lý
các đối tượng một cách đơn lẻ nhưng có thể nghiên cứu cụm các đối tượng theo
quan hệ không phân biệt được.
Giả sử có hai tập rỗng U và A, trong đó U là tập tổng thể và A là tập các
thuộc tính. Với mỗi thuộc tính a∈A, ký hiệu V
a
là tập tất cả các giá trị có thể của
a và gọi là miền của a.
5
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Định nghĩa 1: Mỗi tập con B ⊆ A xác định một quan hệ không phân biệt được
I(B) trên U, được định nghĩa như sau:
Mọi x, y∈ U, x I(B)y <=> mọi a∈B, a(x)=a(y), trong đó a(x) biểu diễn
giá trị tại thuộc tính a của phần tử x.
Hiển nhiên, I(B) là một quan hệ tương đương. Lớp tương đương của I(B)
chứa x được kí hiệu bởi B(x). Họ tất cả các lớp tương đương của I(B) là một phân
hoạch của tập U xác định bởi B được ký hiệu là U/I(B), hoặc là U/B.
Nếu (x,y)∈ I/B thì ta nói rằng x và y là B-không phân biệt được. Các lớp
tương đương của quan hệ I(B) được nghiên cứu như các tập B-phần tử. Trong
phương pháp tập thô các tập phần tử là các khối cơ bản các khái niệm của các tri
thức thực tế.
Quan hệ tương đương trên được sử dụng để định nghĩa các xấp xỉ như
sau:
( ) ( ){ }
XxBUxXB ⊆∈=
∗
:
,
( ) ( ){ }
∅≠∩∈=
∗
XxBUxXB :
Nghĩa là, ta gắn với mỗi tập con X của tập tổng thể U hai tập B
*
(X) và
B
*
(X) và gọi chúng là B-xấp xỉ dưới và B-xấp xỉ trên của X.
Tập hợp
)()()( XBXBXBN
B ∗
∗
−=
được gọi là B-vùng biên của X.
Nếu vùng biên của X là tập rỗng thì tập X là tập rõ theo B. Ngược lại nếu
BN
B
(X) = ∅ thì tập X là tập thô theo B.
Một số tính chất của các xấp xỉ:
1)
)()( XBXXB
∗
∗
⊆⊆
,
2)
UUBUB BB ==∅=∅=∅
∗
∗
∗
∗
)()(;)()(
,
3)
)()(( YBXBYXB
∗∗∗
∪=∪
,
4)
)()()( YBXBYXB
∗∗∗
∩=∩
,
5)
YX ⊆
⇒
)()( YBXB
∗∗
⊆
và
)()( YBXB
∗
∗
⊆
,
6
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
6)
)()()( YBXBYXB
∗∗∗
∪⊇∪
,
7)
)()()( YBXBYXB
∗∗∗
∩⊆∪
,
8)
)()( XBXB
∗
∗
−=−
,
9)
)()( XBXB
∗
∗
−=−
,
10)
)())(())(( XBXBBXBB
∗∗
∗
∗∗
==
,
11)
)())(())(( XBXBBXBB
∗∗
∗
∗∗
==
trong đó: -X ký hiệu thay cho U\X và là phần bù của X
Ta phân chia 4 lớp tập thô cơ bản sau đây:
a)
∅≠
∗
)(XB
và
≠
∗
)(XB
U thì X là B-định nghĩa được thô
b)
∅=
∗
)(XB
và
UXB ≠
∗
)(
thì X là B-không định nghĩa được bên trong,
c)
∅≠
∗
)(XB
và
UXB =
∗
)(
thì X là B-định nghĩa được bên ngoài,
d)
∅=
∗
)(XB
và
UXB =
∗
)(
thì X là B-không định nghĩa được hoàn toàn
Ý nghĩa trực quan của các lớp này như sau:
- Nếu X là B-định nghĩa được thô, có nghĩa rằng có thể xác định một số
phần tử của U hoặc là thuộc vào X hoặc là thuộc vào –X khi sử dụng B.
- Nếu X là B-không định nghĩa được bên trong, có nghĩa rằng có thể quyết
định được một số phần tử của U thuộc vào –X nhưng không thể quyết định một
phần tử nào đó của U có thuộc vào X hay không khi sử dụng B.
- Nếu X là B-không định nghĩa được bên ngoài, có nghĩa là có thể quyết
định được một số phần tử của U thuộc vào X nhưng không thể quyết định được
bất kỳ một phần tử nào của U có thuộc vào –X hay không khi sử dụng B.
- Nếu X là B-không định nghĩa được hoàn toàn thì ta không thể quyết định
được với mỗi phần tử của U có thuộc vào X hoặc –X hay không khi sử dụng B.
Các tập thô cũng có thể được tính chất hóa bằng hệ số sau đây:
|)(|
|)(|
)(
XB
XB
X
B
∗
∗
=
α
7
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Hệ số này được gọi là độ chính xác của xấp xỉ. Hiển nhiên,
1)(0 ≤≤ X
B
α
.
Nếu
1)( =X
B
α
thì X là tập rõ theo B còn nếu
1)( <X
B
α
thì X là tập thô theo
B (X không rõ ràng theo B).
Chúng ta mô tả các định nghĩa ở trên bằng các ví dụ từ bảng 1 với khái
niệm “bị bệnh cúm”, tập X={p1, p2,p3,p6} và tập các thuộc tính B = {đau đầu,
đau cơ, nhiệt độ}. Khái niệm “bị bệnh cúm” là B-định nghĩa được thô, vì
∅≠=
∗
}6,3,1{)( pppXB
và
UpppppXB ≠=
∗
}6,5,3,2,1{)(
. Với trường hợp này,
chúng ta nhận được
α
B
(“bị bệnh cúm”) =3/5. Có nghĩa là khái niệm “bị bệnh
cúm” chỉ được mô tả bộ phận từ các triệu chứng: đau đầu, đau cơ và nhiệt độ.
Chỉ xét một triệu chứng B= {đau đầu} chúng ta có
∅=
∗
)(XB
, và
UXB =
∗
)(
, có
nghĩa rằng khái niệm “bị bệnh cúm” không định nghĩa được hoàn toàn theo thuộc
tính đau đầu. Tuy nhiên, khi lấy thuộc tính B = {nhiệt độ} chúng ta có
}6,3{)( ppXB =
∗
và
}6,5,3,2,1{)( pppppXB =
∗
. Do đó, khái niệm “bị bệnh cúm”
định nghĩa được một cách thô. Trong trường hợp này ta nhận được
α
B
(X)= 2/5.
Điều này có nghĩa là triệu chứng nhiệt độ ít ảnh hưởng với bị bệnh cúm hơn toàn
bộ các triệu chứng và bệnh nhân p1 không thể được phân lớp là bị cúm trong
trường hợp này.
4. Các tập thô và hàm thức
Các tập thô có thể được định nghĩa bằng cách sử dụng một hàm thuộc thô
được xác định như sau:
|)(|
|)(|
)(
xB
xBX
x
B
X
∩
=
µ
.
Hiển nhiên:
]1,0[)( ∈x
B
X
µ
Giá trị của hàm thuộc
µ
X
(x) là xác suất có điều kiện và có thể được hiểu
như độ chắc chắn để x thuộc vào X.
8
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Hàm thuộc thô có thể được sử dụng để định nghĩa các xấp xỉ và vùng biên
của một tập hợp như sau:
}1)(:{)( =∈=
∗
xUxXB
B
X
µ
,
}0)(:{)( >∈=
∗
xUxXB
B
X
µ
,
}1)(0:{)( <<∈= xUxXBN
B
XB
µ
Hàm thuộc thô có những tính chất sau đây:
a)
1)( =x
B
X
µ
iff
)(
*
XBx∈
,
b)
0)( =x
B
X
µ
iff
)(
*
XBx −∈
,
c)
1)(0 << x
B
X
µ
iff
)(XBNx
B
∈
,
d) Nếu
}:),{()( UxxxBI ∈=
, thì
)(x
B
X
µ
là hàm đặc trưng của X,
e) Nếu xI(B)y, thì
)(x
B
X
µ
=
)(y
B
X
µ
theo I(B),
f) Mọi x∈U,
)(1)( xx
B
X
B
XU
µµ
−=
−
,
g) Mọi x∈U,
≥
∪
)(x
B
YX
µ
max
))(),(( xx
B
Y
B
X
µµ
h) Mọi x∈U,
≤
∩
)(x
B
YX
µ
min
))(),(( xx
B
Y
B
X
µµ
.
Các tính chất trên cho thấy rõ ràng sự khác biệt giữa thành viên mờ và thô.
Trong các biểu thức g) và h) cho thấy các thành viên thô chính thức có thể được
coi như là một sự tổng quát của các thành viên mờ. Chúng ta hãy nhớ lại rằng “
thô thành viên”, trái ngược với “thành viên mờ” , có tính chất xác suất.
Nó có thể được dễ dàng nhìn thấy rằng có tồn tại một kết nối chặt chẽ giữa
sự mơ hồ và không chắc chắn. Như chúng tôi đã đề cập ở trên không rõ ràng có
liên quan đến bộ( khái niệm), trong khi không chắc chắn liên quan đến các yếu tố
của bộ. Cách tiếp cận tập thô cho thấy kết nối rõ ràng giữa hai khái niệm này.
5. CÁC BẢNG QUYẾT ĐỊNH VÀ THUẬT GIẢI QUYẾT ĐỊNH
Trong một bảng thông tin, ta phân biệt hai lớp các thuộc tính: các thuộc
tính điều kiện và các thuộc tính quyết định. Ví dụ trong bảng 1 các thuộc tính:
9
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
đau đầu, đau cơ và nhiệt độ có thể được xem như các thuộc tính điều kiện, còn
thuộc tính bị cúm là thuộc tính quyết định.
Mỗi hàng của một bảng quyết định xác định một luật quyết định, nó xác
định các quyết định có thể xảy ra khi các điều kiện được thỏa mãn. Ví dụ trong
bảng 1 điệu kiện (đau đầu, không), (đau cơ, có), (nhiệt độ, cao) xác định duy
nhất quyết định (bị bệnh cúm,có). Các đối tượng trong một bảng quyết định được
sử dụng như là các nhãn của các luật quyết định.
Các luật 2) và 5) trong bảng 1 có cùng các điều kiện nhưng khác nhau ở
các quyết định. Những luật như vậy được gọi là mâu thuẫn còn trong trường hợp
ngược lại thì các luật được gọi là nhất quán. Đôi khi các luật quyết định nhất
quán còn được gọi là các luật chắc chắn.
Tỷ lệ các luật nhất quán trên tất cả các luật trong một bảng quyết định có
thể được xem như là hệ số nhất quán của bảng quyết định, và được ký hiệu bởi
γ
(C, D), trong đó C là các thuộc tính điều kiện và D là các thuộc tính quyết định.
Do đó, nếu
γ
(C, D) =1 thì bảng quyết định là nhất quán và nếu
γ
(C, D) ≠ 1 thì
bảng quyết định là không nhất quán. Ví dụ với bảng 1 chúng ta có
γ
(C, D) = 4/6.
Các luật quyết định thường được biểu diễn bằng các phép kéo theo theo
dạng các luật “if…then…”. Ví dụ luật 1) trong bảng 1 có thể được biểu diễn như
sau:
If (Đau đầu, không) và (Đau cơ, có) và (Nhiệt độ, cao) then (Bị bệnh cúm,
có).
Một tập các luật quyết định được gọi là một thuật giải quyết định. Do đó,
với mỗi bảng quyết định ta có thể gắn với một thuật giải quyết định chứa tất cả
các luật quyết định xuất hiện trong bảng quyết định đó.
Chúng ta cần phải phân biệt sự khác biệt giữa các bảng quyết định và các
thuật giải quyết định. Một bảng quyết định là các dữ liệu trong khi một thuật giải
quyết định là một tập các luật kéo theo, chẳng hạn các biểu thức logic. Để xử lý
dữ liệu chúng ta sử dụng một số phương pháp thống kê toán học. Nhưng để phân
tích các luật kéo theo chúng ta cần phải sử dụng tới các công cụ logic. Do đó, hai
10
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
phương pháp này là không tương đương. Tuy nhiên, để đơn giản chúng ta sẽ sử
dụng các luật quyết định theo phép kéo theo chứ không đi sâu hơn về biểu diễn
tự nhiên như đã thực hiện trong trí tuệ nhân tạo.
6. SỰ PHỤ THUỘC VÀO CÁC THUỘC TÍNH
Một vấn đề quan trọng khác trong phân tích dữ liệu là khám phá sự phụ
thuộc giữa các thuộc tính. Một cách trực giác, một tập các thuộc tính D phụ
thuộc hoàn toàn vào một tập các thuộc tính C, ký hiệu: C ⇒D, nếu tất cả các giá
trị của các thuộc tính từ D được xác định một cách duy nhất bằng các giá trị của
các thuộc tính của C. Nói cách khác, D phụ thuộc hoàn toàn vào C nếu tồn tại
một phụ thuộc hàm giữa các giá trị của D và C. Ví dụ trong bảng 1 không có một
sự phụ thuộc hoàn toàn nào. Nhưng nếu giá trị của thuộc tính nhiệt độ của bệnh
nhân p5 là “bình thường” thay cho “cao” thì có một phụ thuộc hoàn toàn {nhiệt
độ}⇒{bị bệnh cúm}, vì với mỗi giá trị của thuộc tính nhiệt độ có một giá trị
tương ứng duy nhất của thuộc tính bị bệnh cúm.
Chúng ta mở rộng khái niệm tính độc lập các thuộc tính và gọi là tính độc
lập bộ phận của các thuộc tính.
Trong bảng 1 thuộc tính nhiệt độ xác định chỉ một số giá trị của thuộc tính
bị bệnh cúm. Do đó (Nhiệt độ, rất cao) có nghĩa là (Bị bệnh cúm, có). Tương
đương (Nhiệt độ, bình thường) có nghĩa (bị bệnh cúm, không). Nhưng (nhiệt độ,
cao) không phải lúc nào cũng có nghĩa (bị bệnh cúm, có). Do đó tính phụ thuộc
bộ phận có nghĩa là chỉ một số giá trị của D được xác định bởi các giá trị của C.
Tính phụ thuộc tổng quát có thể được định nghĩa như sau.
Định nghĩa 2: Giả sử D và C là các tập con của tập các thuộc tính A. D được gọi
là phụ thuộc vào C với mức k, trong đó k =
γ
(C, D) và ký hiệu C ⇒
k
D.
Nếu k =1 ta nói rằng D phụ thuộc hoàn toàn vào C còn nếu k < 1 thì D
phụ thuộc bộ phận vào C (với mức k).
11
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Hệ số k biểu diễn tỷ lệ của tất cả các phần tử của tập tổng thể có thể được
phân lớp chính xác thành các khối của các phân hoạch U/D khi sử dụng các
thuộc tính C.
Do đó khái niệm tính độc lập của các thuộc tính được liên hệ với khái
niệm tính nhất quán của bảng dữ liệu.
Chẳng hạn với quan hệ {đau đầu, đau cơ, nhiệt độ}⇒{bị bệnh cúm} ta
nhận được k=4/6, vì bốn trong sáu bệnh nhân có thể được phân lớp thành tập bị
bệnh cúm khi sử dụng các thuộc tính đau đầu, đau cơ và nhiệt độ.
Khi quan tâm tới việc đánh giá độ chính xác của các chuẩn đoán chỉ sử
dụng một thuộc tính nhiệt độ thì mức phụ thuộc của {nhiệt độ}⇒{bị bệnh cúm}
là k =3/6, vì trong trường hợp này chỉ ba bệnh nhân p3, p4 và p6 trong sáu bệnh
nhân có thể được phân vào một lớp bị bệnh cúm. Đối lập với trường hợp trước
bệnh nhân p4 không thể được phân lớp là bị bệnh cúm hay không. Do đó, thuộc
tính đơn lẻ nhiệt độ thực hiện phân lớp tồi hơn tập tất cả các thuộc tính đau đầu,
đau cơ và nhiệt độ. Một nhận xét thú vị là không phải đau đầu cũng không phải
đau cơ có thể được sử dụng để nhận ra bị bệnh cúm, vì cả hai phụ thuộc {Đau
đầu}⇒{Bị bệnh cúm} và {Đau cơ}⇒{Bị bệnh cúm} đều có k = 0.
Có thể dễ dàng thấy rằng nếu D phụ thuộc hoàn toàn vào C thì I(C) ⊆
I(D). Có nghĩa rằng phân hoạch sinh bởi C là mịn hơn phân hoạch sinh bởi D.
Nếu D-phụ thuộc với mức k, 0 ≤ k ≤ 1 theo C, thì
||
|)(|
),(
U
DPOS
DC
C
=
γ
,
Trong đó
)(/
)()(
DIUX
C
XCDPOS
∈
∗
=
Biểu thức POS
C
(D), được gọi là một vùng chắc chắn của phân hoạch U/D
với C. Đó là tập tất cả các phần tử của U có thể được phân lớp duy nhất vào các
khối của phân hoạch U/D bằng cách sử dụng các thuộc tính C.
12
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Tập thuộc tính D là phụ thuộc hoàn toàn (bộ phận) vào tập các thuộc tính
C nếu tất cả (một số) các phần tử của tập tổng thể U có thể được phân lớp duy
nhất vào các khối của phân hoạch U/D khi sử dụng các thuộc tính trong C.
7. THU GỌN CÁC THUỘC TÍNH
Ta thường gặp câu hỏi: Có thể xóa bớt một số dữ liệu từ bảng dữ liệu mà
vẫn giữ được các tính chất cơ bản của nó hay không? Hay nói một cách khác,
liệu trong bảng có chứa một số dữ liệu không cần thiết hay không?
Dễ thấy rằng, nếu ta xóa trong bảng 1 hoặc là thuộc tính đau đầu hoặc
đau cơ thì sẽ nhận được tập dữ liệu là tương đương với tập ban đầu theo định
nghĩa các xấp xỉ và các phụ thuộc. Dó đó, trong trường hợp này độ chính xác của
các xấp xỉ và mức độ phụ thuộc giống như trong bảng trước đó nhưng với tập các
thuộc tính nhỏ hơn.
Để diễn đạt những ý tưởng trên rõ ràng hơn chúng tôi sử dụng một số khái
niệm bổ trợ.
Định nghĩa 3: Gỉa sử B ⊆ A và a∈B
1. a được gọi là có thể bỏ được trong B nếu I(B)=I(B – {a}; ngược lại a là
không thể bỏ được trong B.
2. Tập B là độc lập nếu tất cả các thuộc tính của nó là không thể bỏ được.
3. Tập con B' của B là một thu gọn của B nếu B' nếu là độc lập và I(B') =
I(B).
Do đó một thu gọn là một tập các thuộc tính bảo toàn phân hoạch. Có
nghĩa rằng một phân hoạch là một tập con nhỏ nhất các thuộc tính có khả năng
phân lớp các phần tử trong tập tổng thể giống như khi sử dụng toàn bộ tập các
thuộc tính. Nói cách khác, các thuộc tính không thuộc vào một thu gọn là các
thuộc tính dư thừa khi phân lớp các phần tử của tập tổng thể.
Các thu gọn có một số tính chất quan trọng. Dưới đây chúng tôi trình bày
hai tính chất trong số đó. Trước hết chúng ta định nghĩa khái niệm về hạt nhân
của các thuộc tính.
13
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Với B ⊆ A Hạt nhân của B là tập của tất cả các thuộc tính không thể bỏ
được của B.
Mối liên hệ giữa khái niệm hạt nhân và các thu gọn như sau:
)()( BdReBCORE
x
x
=
,
trong đó Red(B) là một thu gọn của B:
Vì hạt nhân là giao của tất cả các thu gọn nên nó là tập con trong mỗi thu
gọn, hay mỗi phần tử của hạt nhân thuộc vào các thu gọn. Do đó, hạt nhân là tập
con quan trọng nhất của các thuộc tính, không một phần tử nào của nó có thể bỏ
đi mà không ảnh hưởng tới phân lớp tập tổng thể.
Trong một bảng thông tin ta có thể loại bỏ một số thuộc tính của bảng
theo một phương pháp nào đó mà vẫn có thể phân biệt được các đối tượng trong
bảng như khi có tất cả các thuộc tính ban đầu. Để thực hiện điều này chúng ta có
thể áp dụng một thủ tục tương tự như khi loại bỏ các thuộc tính không cần thết
được định nghĩa như sau:
1) Ta nói rằng giá trị của thuộc tính a∈B là có thể bỏ được với x nếu [x]
I(B)
= [x]
I(B –{A})
, ngược lại thì giá trị của thuộc tính a là không thể bỏ được vơi x.
2) Nếu mọi thuộc tính a∈B, giá trị của a là không thể bỏ được với x thì B
sẽ được gọi là trực giao với x.
3) Tập con B' ⊆ B là một giá trị thu gọn của B theo x, nếu và chỉ nếu B' là
trực giao với x và [x]
I(B)
= [x]
I(B’)
Tập tất cả các giá trị không thể bỏ được của các thuộc tính trong B theo x
sẽ được gọi là hạt nhân của B theo x, và được ký hiệu là CORE
x
(B).
Trong trường hợp này chúng ta cũng có:
)()( BdReBCORE
x
x
=
Trong đó Red
x
(B) là họ tất cả các thu gọn của B theo x.
Giả sử có một phụ thuộc C ⇒ D. Có thể tập D không phụ thuộc hoàn toàn
vào C mà chỉ phụ thuộc vào tập con C' của C. Do vậy, chúng ta cần phải tìm tập
14
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
con này. Để giải quyết bài toán này chúng ta sử dụng khái niệm thu gọn liên
quan được định nghĩa như sau:
Định nghĩa 4:
Gỉa sử C,D ⊆ A.
1. Tập C' ⊆ C là một D-thu gọn của C nếu C' là một tập con nhỏ nhất của
C thỏa mãn:
),(),( DCDC
′
=
γγ
.
2. Thuộc tính a ∈ C là D-có thể bỏ được trong C, nếu
POS
C
(D) = POS
(C
−
{a})
(D), ngược lại thì thuộc tính a là D-không thể bỏ được trong
C.
3. Nếu tất cả các thuộc tính a ∈ C là D-không thể bỏ được trong C, thì C
được gọi là D-không thể bỏ được.
4. Tập con C' ⊆ C là một D-rút gọn của C, nếu và chỉ nếu C' là D-độc lập
và POS
C
(D) = POS
C'
(D).
Tập tất cả các thuộc tính D-không thể bỏ được trong C được gọi là D-hạt
nhân của C, và được ký hiệu bởi CORE
D
(C). Trong trường hợp này chúng ta
cũng có:
)()( CdReCCORE
DD
=
trong đó Red
D
(C) là họ tất cả các D-rút gọn của C.
Ví dụ trong bảng 1 có hai thu gọn liên quan với bị bệnh cúm là {đau đầu,
nhiệt độ} và {đau cơ, nhiệt độ} của tập các thuộc tính điều kiện {đau đầu, đau
cơ, nhiệt độ}. Có nghĩa rằng hoặc là thuộc tính đau đầu hoặc đau cơ có thể bỏ
khỏi bảng và thay cho sử dụng bảng 1 chúng ta sử dụng bảng 2 dưới đây.
Bệnh nhân Đau
đầu
Nhiệt độ Bị bệnh
cúm
p1 không cao có
p2 có cao có
p3 có rất cao có
15
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
p4 không bình
thường
không
p5 có cao không
p6 không rất cao có
Bảng 2
Hoặc bảng 3
Bệnh nhân Đau cơ Nhiệt độ Bị bệnh cúm
p1 có cao có
p2 không cao có
p3 có rất cao có
p4 có bình thường không
p5 không cao không
p6 có rất cao có
Bảng 3
Với bảng 1 hạt nhân liên quan với tập {đau đầu, đau cơ, nhiệt độ} là nhiệt
độ. Điều này khẳng định lại nhận định trước đây chúng tôi đã chỉ ra rằng nhiệt
độ chỉ là triệu chứng chẩn đoán bộ phận về các bệnh nhân.
Chúng tôi sử dụng khái niệm giá trị thu gọn và giá trị hạt nhân. Giả sử
có một phụ thuộc C ⇒D trong đó C là D-thu gọn của C. Ta sẽ tìm hiểu một cách
chính xác các giá trị của các thuộc tính trong D phụ thuộc như thế nào tới các giá
trị của các thuộc tính trong C.
Ta nói rằng giá trị của thuộc tính a∈B là D-có thể bỏ được đối với x∈ U,
nếu:
[x]
I(C)
⊆ [x]
I(D)
⇒ [x]
I(C
−
{a})
⊆ [x]
I(D)
;
còn nếu ngược lại thì giá trị của thuộc tính a là D-không thể bỏ được của
x.
16
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Nếu với mỗi thuộc tính a ∈ C, giá trị của a là D-không thể bỏ được đối với
x, thì C được gọi D-độc lập với x.
Tập con C’ ⊆ C là một D-thu gọn của C với x nếu và chỉ nếu C’ là D-độc
lập với x và:
[x]
I(C)
⊆ [x]
I(D)
⇒ [x]
I(C')
⊆ [x]I(D).
Tập tất cả các giá trị D-không thể bỏ được của x của các thuộc tính trong
C được gọi là D-hạt nhân của C với x và được ký hiệu là
)(CCORE
x
D
.
Ta cũng có tính chất:
)()( CdReCCORE
x
D
x
D
=
, trong đó
)(CdRe
x
D
là họ tất
cả các D-thu gọn C với x.
Sử dụng khái niệm của một giá trị thu gọn, bảng 2 và bảng 3 có thể được
đơn giản hóa như sau:
Bệnh
nhân
Đau đầu Nhiệt độ Bị bệnh cúm
p1 không cao có
p2 có cao có
p3
−
rất cao có
p4
−
bình
thường
không
p5 có cao không
p6
−
rất cao có
Bảng 4
Bệnh nhân Đau cơ Nhiệt độ Bị bệnh cúm
p1 có cao có
p2 không cao có
p3
−
rất cao có
p4
−
bình thường không
p5 không cao không
17
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
p6
−
rất cao có
Bảng 5
Ta cũng có thể biểu diễn các kết quả nhận được dưới dạng thuật giải quyết
định. Với bảng 4 ta nhận được:
if (Đau đầu, không) and (Nhiệt độ, cao) then (Bị bệnh cúm, có),
if (Đau đầu, có) and (Nhiệt độ, cao) then (Bị bệnh cúm, có),
if (Nhiệt độ, rất cao) then (Bị bệnh cúm, có),
if (Nhiệt độ, bình thường) then (Bị bệnh cúm, không),
if (Đau đầu, có) and (Nhiệt độ, cao) then (Bị bệnh cúm, không),
if (Nhiệt độ, rất cao) then (Bị bệnh cúm, có) ,
Và với bảng 5 ta nhận được:
if (Đau cơ, có) and (Nhiệt độ, cao) then (Bị bệnh cúm, có) ,
if (Đau cơ, không) and (Nhiệt độ, cao) then (Bị bệnh cúm, có),
if (Nhiệt độ, rất cao) then (Bị bệnh cúm, có),
if (Nhiệt độ, bình thường) then (Bị bệnh cúm, không),
if (Đau cơ, không) and (Nhiệt độ, cao) then (Bị bệnh cúm, không),
if (Nhiệt độ, rất cao) then (Bị bệnh cúm, có).
Dưới đây là một số tính chất quan trọng của thu gọn:
a) B' ⇒ B − B', trong đó B' là một thu gọn của B.
b) Nếu B ⇒ C, thì B ⇒ C', với mỗi C' ⊆ C,
c) Nếu B ⇒ C, thì B ⇒{a}, với mỗi a∈C.
d) Nếu B' là một thu gọn của B thì hoặc {a} ⇒{b} hoặc {b} ⇒{a} với mỗi
a,b∈B', tất cả các thuộc tính trong một thu gọn độc lập từng đôi một.
18
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
8. CÁC HÀM VÀ MA TRẬN PHÂN BIỆT
Để tính các thu gọn và hạt nhân một cách dễ dàng chúng ta sử dụng ma
trận phân biệt được định nghĩa trong [4] như sau:
Ma trận phân biệt của B ⊆ A ký hiệu M(B) là một ma trận vuông cấp n
trong đó :
)}()(:{)(
jiij
xaxBac ≠∈=
với
nji ,,2,1, =
.
Khi đó các phần tử c
ij
là tập tất cả các thuộc tính phân biệt của các đối
tượng x
i
và x
j
.
Ma trận phân biệt M(B) gắn mỗi cặp đối tượng x và y với một tập con các
thuộc tính
Byx ⊆),(
δ
, có các tính chất sau đây:
1)
δ
(x, x) = ∅,
2)
δ
(x, y) =
δ
(y, x),
3)
δ
(x, z) ⊆
δ
(x, y) ∪
δ
(y, z).
Những tính chất này giống với những tính chất của nửa khoảng cách, do
đó ma trận phân biệt có thể được xem như một ma trận nửa khoảng cách.
Với mọi
Uzyx ∈,,
ta có :
4) |
δ
(x, x)| = 0,
5) |
δ
(x, y)| = |
δ
(y, x)|,
6) |
δ
(x, z)| ≤ |
δ
(x, y)| + |
δ
(y, z)|.
Dễ dàng thấy rằng hạt nhân là tập tất cả các phần tử của ma trận phân biệt
M(B):
}{:{)) acBaBCORE
ij
=∈=
, mọi
}, ji
Ta có
BB ⊆
′
là một thu gọn của B, nếu B' là tập con nhỏ nhất của B thỏa
mãn:
19
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
∅≠∩
′
cB
với bất kỳ một phần tử
)( ∅≠cc
trong M(B).
Nói cách khác thu gọn là tập con nhỏ nhất các thuộc tính phân biệt được
tất cả các đối tượng bằng tập toàn bộ các thuộc tính.
Mỗi ma trận phân biệt M(B) xác định duy nhất một hàm phân biệt f(B)
được định nghĩa như sau:
Gán cho mỗi thuộc tính a∈B mỗi biến logic
a
, và đặt
),( yx
δΣ
là tổng thể
logic của tất cả các biến logic gắn với tập thuộc tính
),( yx
δ
.
Hàm phân biệt được định nghĩa bằng công thức:
∏
∈
∈=
2
),(
2
),(:),({)(
Uyx
UyxyxBf
δΣ
&
}),( ∅≠yx
δ
.
Tính chất sau đây thiết lập mối quan hệ giữa hàm f(B) và tập tất cả các thu
gọn của B.
Định lý 5: Tập tất cả các phần tử trong dạng chuẩn tắc nhỏ nhất của hàm f(B)
chính là tập tất cả các thu gọn của B.
Chứng minh: Thật vậy,với mỗi phần tử trong dạng chuẩn tắc nhỏ nhất
của hàm f(B sẽ là tập các phần tử không thể bỏ được trong B, do đó nó là một thu
gọn của B và ngược lại.
Để tính giá trị hạt nhân và giá trị thu gọn của x chúng ta có thể sử dụng ma
trận phân biệt như định nghĩa trước đây và hàm phân biệt được sửa đổi như sau:
∏
∈
∈=
Uy
x
UyyxBf :),({)(
δΣ
và
}),( ∅≠yx
δ
.
Các thu gọn và hạt nhân cũng được tính bằng cách sử dụng ma trận phân
biệt với một thay đổi như sau:
)()(:{
jiij
xaxaCac ≠∈=
&
)},(
ji
xxw
,
Trong đó
)( & )(,( DPOSxDPOSxxxw
CjCiji
∉∈≡
hoặc
)( & )( DPOSxDPOSx
CjCi
∈∉
hoặc
20
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
)(),( & )(, DIxxDPOSxx
jjCji
∉∈
Với
nji ,,2,1, =
.
Nếu phân hoạch được định nghĩa bằng D là định nghĩa được bằng C thì điều
kiện
),(
ji
xxw
trong định nghĩa trên có thể được biến đổi thành
)(),( DIxx
ji
∉
.
Do đó phần tử c
ij
là tập tất cả các thuộc tính phân biệt các đối tượng x
i
và x
j
không thuộc vào cùng một lớp tương đương của quan hệ I(D).
D-hạt nhân là tập tất cả các phần tử đơn của ma trận phân biệt M
D
(C).
}, voi),(:{)( jiacCaCCORE
ijD
=∈=
.
Tập
CC ⊆
′
là D-thu gọn của C, nếu C' C là tập con nhỏ nhất của C thỏa mãn
∅≠∩
′
cC
Với bất kỳ thực thể khác rỗng
)( ∅≠cc
trong
)(CM
D
Do đó D-thu gọn là tập con nhỏ nhất các thuộc tính phân biệt tất cả các
lớp tương đương của quan hệ I(D).
Mỗi ma trận phân biệt M
D
(C) xác định duy nhất một hàm phân biệt f
D
(C)
được định nghĩa như trước đây. Chúng ta cũng có tính chất sau đây:
Định lý 6: Tập tất cả các phần tử trong dạng phân biệt chuẩn tắc của hàm f
D
(C)
chính là tập tất cả các D-thu gọn của C.
Chứng minh: Thật vậy với mỗi phần tử trong dạng chuẩn tắc phân biệt
của hàm f
D
(C) có tương ứng một ma trận phân biệt M
D
(C). Nó bao gồm tập con
nhỏ nhất các thuộc tính phân biệt tất cả các lớp tương đương của quan hệ I(D),
do đó nó là D-thu gọn của C.
Để tính gá trị các thu gọn và giá trị hạt nhân cho các thu gọn liên quan,
đầu tiên chúng tối sử dụng ma trận phân biệt M
D
(C) và hàm phân biệt sẽ có dạng:
∏
∈
∅≠∈Σ=
Uy
x
D
yxUyyxCf }),( và:),({)(
δδ
21
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Chúng tôi minh họa các định nghĩa trên bằng cách tính các thu gọn liên
quan với tập các thuộc tính {Nhức đầu, đau cơ,nhiệt độ} với bị cúm (Bị bệnh
cúm)
Ma trận phân biệt tương ứng được cho trong bảng 6 dưới đây:
1 2 3 4 5 6
1
2
3
4 T H, M,
T
5 H, M M, T
6 T H, M,
T
Bảng 6
Trong bảng H, M, T tương ứng là ký hiệu Đau đầu, Đau cơ và Nhiệt độ.
Hàm phân biệt cho bảng trên là:
))()(( TMTMHMHT ++++
,
Trong đó ký hiệu + là tổng logic còn phép nhân logic không cần ký hiệu
trong công thức. Sử dụng các luật của đại số logic chúng ta có biểu thức sau:
TH + TM
Điều này chỉ ra rằng có hai thu gọn TH và TM trong bảng dữ liệu và T là hạt
nhân.
9. ĐỘ QUAN TRỌNG CỦA CÁC THUỘC TÍNH VÀ CÁC THU GỌN
XẤP XỈ
Như đã trình bày trong phần thu gọn thuộc tính, các thuộc tính có “mức độ
quan trọng” không như nhau. Một số trong chúng có thể bị loại bỏ khỏi một bảng
22
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
thông tin mà không gây mất thông tin có trong bảng. Ý tưởng thu gọn các thuộc
tính có thể được tổng quát hóa bằng cách giới thiệu khái niệm độ quan trọng của
các thuộc tính. Nó cho phép chúng ta đánh giá các thuộc tính không chỉ bằng cặp
giá trị có thể bỏ được - không thể bỏ được, mà bằng cách gán cho mỗi thuộc tính
một giá trị thực đoạn [0,1] để biểu diễn mức độ quan trọng của một thuộc tính
trong bảng thông tin này.
Độ quan trọng của một thuộc tính có thể được đánh giá bằng cách đo mức
độ ảnh hưởng của việc bỏ đi một thuộc tính từ một bảng thông tin. Chúng ta bắt
đầu với các bảng quyết định.
Gọi C là tập các thuộc tính quyết định, D là tập các thuộc tính điều kiện và
a là một thuộc tính điều kiện a∈C. Giá trị
γ
(C, D) biểu diễn độ nhất quán của
bảng quyết định, hay còn gọi là độ phụ thuộc giữa các thuộc tính C và D. Giá trị
này cũng thể hiện độ chính xác của xấp xỉ U/D bởi C.
Ta có thể đặt câu hỏi: Hệ số
γ
(C, D) thay đổi như thế nào khi bỏ đi thuộc
tính a? Hay sự khác nhau giữa
γ
(C, D) và
γ
(C - {a}, D) là gì ?
Chúng ta có thể tổng quát hóa sự khác biệt và định nghĩa độ quan trọng
của thuộc tính a như sau:
),(
)},{(
1
),(
))},{(),((
)(
),(
DC
DaC
DC
DaCDC
a
DC
γ
γ
γ
γγ
σ
−
−=
−−
=
,
và ký hiệu ngắn gọn là
)(a
σ
, khi C và D đã biết.
Ta có
1)(0 ≤≤ a
σ
. Mức độ quan trọng của thuộc tính a càng cao thì số
)(a
σ
càng lớn. Ví dụ với các thuộc tính điều kiện trong bảng 1 chúng ta có các
kết quả sau:
σ
(Đau đầu) = 0,
σ
(Đau cơ) = 0,
σ
(Nhiệt độ) = 0.75.
23
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Vì độ quan trọng của thuộc tính Nhiệt độ hoặc Đau cơ là 0 nên việc bỏ đi
một trong số các thuộc tính từ các thuộc tính điều kiện không ảnh hưởng tới tập
các luật nhất quán. Do đó thuộc tính Nhiệt độ là thuộc tính quan trọng nhất bảng.
Điều đó có nghĩa rằng bằng cách bỏ đi thuộc tính Nhiệt độ, 75% của các luật
quyết định nhất quán sẽ biến mất khỏi bảng, nên tình trạng thiếu thuộc tính ảnh
hưởng cơ bản tới “khả năng quyết định” của bảng quyết định.
Với một thu gọn của các thuộc tính điều kiện, chẳng hạn {Đau đầu, Nhiệt
độ}, chúng ta nhận được:
σ
(Đau đầu) = 0.25,
σ
(Nhiệt độ) = 1.00.
Trong trường hợp này việc bỏ đi thuộc tính Đau đầu từ thu gọn, chẳng
hạn sử dụng chỉ thuộc tính Nhiệt độ thì 25% các luật quyết định nhất quán sẽ bị
mất. Còn nếu bỏ thuộc tính Nhiệt độ mà chỉ sử dụng thuộc tính Đau đầu thì
100% các luật quyết định nhất quán sẽ bị mất.
Điều đó có nghĩa rằng trong trường hợp này việc ra các quyết định là
không thực hiện được. Nếu sử dụng chỉ thuộc tính Nhiệt độ thì một số quyết định
có thể thực hiện. Do đó, hệ số
σ
(a) được hiểu như một lỗi xuất hiện khi thuộc
tính a bị bỏ đi.
Hệ số độ quan trọng có thể mở rộng cho tập các thuộc tính như sau:
),(
),(
1
),(
)),(),((
)(
),(
DC
DBC
DC
DBCDC
B
DC
γ
γ
γ
γγ
σ
−
−=
−−
=
và ký hiệu
ε
(B), nếu C và D đã biết, trong đó B là một tập con của C.
Nếu B là một thu gọn của C, thì
ε
(B) = 1, do đó việc bỏ đi bất kỳ thu gọn
nào từ một tập của các luật quyết định cho phép tạo ra các quyết định chắc chắn.
Một tập con B nào đó của C được gọi là một thu gọn xấp xỉ của C, và số:
),(
),(
1
),(
)),(),((
)(
),(
DC
DB
DC
DBDC
B
DC
γ
γ
γ
γγ
ε
−=
−
=
24
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
ký hiệu
ε
(B), được gọi là lỗi của các xấp xỉ thu gọn. Nếu biểu diễn độ
chính xác tập các thuộc tính B xấp xỉ tập các thuộc tính điều kiện C.
Ta có
ε
(B) = 1 −
σ
(B) và
ε
(B) = 1 −
ε
(C − B).
Với tập con B nào đó của C,chúng ta có
ε
(B) ≤
ε
(C). Nếu B là thu gọn
của C, thì
ε
(B) = 0.
Ví dụ một trong các thuộc tính Đau đầu và Nhiệt độ có thể được coi như
một thu gọn xấp xỉ của {Đau đầu, Nhiệt độ} và :
ε
(Đau đầu) = 1,
ε
(Nhiệt độ) = 0.25.
Nhưng với toàn bộ tập các thuộc tính điều kiện {Đau đầu, Đau cơ, Nhiệt
độ} chúng ta cũng có thu gọn xấp xỉ sau đây:
ε
(Đau đầu, Đau cơ) = 0.75.
Tập con nhỏ nhất B của các thuộc tính điều kiện C thỏa mãn
),(),( DBDC
γγ
=
, hoặc
0)(
),(
=B
DC
ε
là một thu gọn.
Ý tưởng của một thu gọn xấp xỉ có thể rất hữu dụng trong trường hợp số
các thuộc tính điều kiện ít lại được ưu tiên hơn theo độ chính xác của phân lớp.
10. KẾT LUẬN
Như vậy từ một bảng dữ liệu chúng ta có thể tính toán độ quan trọng của
các thuộc tính và tìm được các thu gọn xấp xỉ cũng như tìm được các thuộc tính
không bỏ được sử dụng lý thuyết tập thô. Điều này cho phép chúng ta dễ dàng
hơn trong việc lập luận với dữ liệu vì số lượng các thuộc tính hay phạm vi của
bài toán đã được thu hẹp lại.
Lý thuyết tập thô có rất nhiều ứng dụng trong phân tích dữ liệu y học, tài
chính, nhận dạng giọng nói, xử lý ảnh và một số lĩnh vực khác. Phương pháp
được trình bày trong bài báo là đơn giản hơn so với nhiều ứng dụng trong thực tế
và đã được mở rộng theo nhiều hướng khác nhau. Những thảo luận chi tiết về
25
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5