Tiểu luận môn Toán khoa học máy tính LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (302.46 KB, 21 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Tiểu luận:
LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI
THỨC

HVTH: Võ Thành Nhân
MSHV: CH1301103
GVPT: TS. Dương Tôn Đảm
Thành phố Hồ Chí Minh 11 – 2014.
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Tiểu luận môn học: Toán cho Công nghệ thông n
Tiểu luận:
LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT
HIỆN TRI THỨC

HVTH: Võ Thành Nhân
MSHV: CH1301103
GVPT: TS. Dương Tôn Đảm
Thành phố Hồ Chí Minh 11 – 2014.
Mục lục
2
Tiểu luận môn học: Toán cho Công nghệ thông n
3
Tiểu luận môn học: Toán cho Công nghệ thông n
1. Mở đầu
Có lẽ ai trong chúng ta cũng biết rằng lý thuyết tập hợp là một trong những lý thuyết
toán học được sử dụng rông rãi nhất, sớm nhất trong công nghệ thông tin. Vì lý thuyết tập
hợp là nền móng xây dựng nên lý thuyết cơ sở dữ liệu quan hệ, một lĩnh vực mà số lượng
ứng dụng chiếm đến 80% các ứng dụng của công nghệ thông tin và tồn tại chủ yếu trong

các tổ chức, xí nghiệp. Ngày nay khi mà khối lượng dữ liệu trong các kho dữ liệu của các
tổ chức, xí nghiệp ngày càng phình to với một tốc độ chóng mặt với nhiều loại dữ liệu khác
nhau thì các công cụ xử lý dữ liệu cũng phát triển với một tốc độ chóng mặt đến nỗi trở
thành một lĩnh vực nghiên cứu chuyên sâu, riêng biệt trong công nghệ thông tin đó là Data
mining(Khai phá dữ liệu). Đó là điều tất yếu bởi công nghệ thông tin sinh ra và phát triển
là để phục vụ cho các nhu cầu phát triển kinh tế, xã hội của con người. Nếu nguồn dữ liệu
đầu vào không đầy đủ(incomplete) hoặc không chính xác thậm chí là mâu
thuẫn(inconsistent) các kết quả thu được từ các công cụ Data mining có thể trở nên mâu
thuẫn và không có nghĩa.
Vấn đề là trong thực tế những nguồn dữ liệu như thế không phải là ít nếu không nói là nó
còn nhiều hơn loại đầy đủ và thống nhất. Lấy ví dụ trong các mẫu điều tra thống kê các vấn
đề xã hội, những dữ liệu mà người ta thu thập được thường là không đầy đủ, hoặc trong các
dữ liệu lưu trữ của một bệnh viện về triệu chứng của một căn bệnh, cùng một tập các triệu
chứng thế nhưng có người thì bị bệnh có người lại không Và đó là nơi mà một khái niệm
toán học mới được đề xuất để giải quyết những trường hợp như thế: lý thuyết tập thô(rough
set theory). Lý thuyết tập thô là một cách tiếp cận mới trong việc phân tích, xử lý dữ liệu
không đầy đủ, không chắc chắn. Vì vậy nó có một vai trò vô cùng quan trọng trong khoa
học Trí tuệ nhân tạo(Artificial Intelligent), khoa học về nhận thức(Cognitive Science) và
đặc biệt là trong Máy học(Machine Learning), hệ Hỗ trợ quyết định(Decision Support
System), hệ Chuyên gia(Expert System) và Suy luận dựa trên quy nạp (Inductive
Reasoning).
4
Tiểu luận môn học: Toán cho Công nghệ thông n
1.1. Giới thiệu tập thô
Lý thuyết tập thô được Zdzislaw Pawlak đề xuất vào đầu những năm 1980 với triết lý
là: mọi đối tượng trong vũ trụ đều gắn với một loại thông tin(dữ liệu, tri thức) nào đó. Vì
vậy có thể mô hình hóa các đối tượng trong vũ trụ bằng một tập các thông tin quan tâm.
Khi các đối tượng mà được đặc trưng bởi cùng thông tin thì từ góc độ thông tin sẵn có trên
các đối tượng ta không thể phân biệt giữa chúng với nhau được. Lý thuyết tập thô định
nghĩa một quan hệ như thế giữa các đối tượng là quan hệ bất khả phân biệt. Một cách tự

nhiên ta thấy rằng quan hệ này chia tách vũ trụ ban đầu thành các lớp rời nhau mà các đối
tượng trong mỗi lớp là không thể phân biệt được. Vì vậy về mặt trực giác, ta thấy rằng đó
là một quan hệ tương đương và đó là cơ sở toán học của tập thô. Tập thô gọi các lớp tương
đương đó là các tập cơ bản hay các hạt(nguyên tử) tri thức trong vũ trụ (granule(atom) of
knowledge).
Trong thế giới của tập thô, một tập hợp bất kì được biểu diễn bằng cặp xấp xỉ trên/xấp xỉ
dưới(upper approximation/lower approximation). Xấp xỉ dưới là những phần tử mà chắc
chắn là thuộc về tập đang quan tâm(ví dụ tập các bệnh nhân có bệnh), xấp xỉ trên gồm các
phần tử có thể thuộc hay không thuộc về tập đang quan tâm. Vậy tại sao không mô tả tập
hợp với các phần tử chắc chắn thuộc về nó mà lại còn thêm các phần tử có thể thuộc hoặc
không ? Ý nghĩa của tập thô là ở chỗ thay vì dùng một số lớn các tính chất để mô hình hóa,
phân loại các đối tượng thì sử dụng tập thô ta có thể sử dụng một số ít các tính chất, thông
tin mà vẫn xấp xỉ được một tập ban đầu. Để đơn giản, ta cứ hình dung, bác sĩ “rõ”(đại diện
cho tập rõ) phải hỏi 10 câu mới biết là người bệnh có bệnh hay không. Còn bác sĩ “thô”(đại
diện cho tập thô) chỉ cần hỏi 3 câu là phân loại được 90% người có bệnh hay không. Như
vây bác sĩ “thô” chỉ sữ dụng có 3 “tính chất” để phân loại 100 người, dẫu rằng còn khoảng
10 người là cần hỏi kĩ hơn. Về mặt hiệu suất, tính hiệu quả, tính tiết kiệm chi phí thì bác sĩ
“thô” làm việc tốt hơn bác sĩ “rõ”. Quan hệ bất khả phân biệt và khái niệm xấp xỉ trên/xấp
xỉ dưới là hai hòn đá tảng của lý thuyết tập thô.
1.2. Ví dụ minh họa trong tiểu luận
Để dễ dàng mô tả các khái niệm của lý thuyết tập thô, sau đây ta sẽ xét một ví dụ minh
họa. Đây là bảng dữ liệu về các triệu chứng bệnh của các bệnh nhân và kết luận là có bị
5
Tiểu luận môn học: Toán cho Công nghệ thông n
cảm cúm hay không. Các ví dụ trong các phần lý thuyết sau đây đều dựa trên bảng dữ liệu
này và ta thống nhất gọi bảng này là Bảng triệu chứng cúm.
Bệnh nhân Thân nhiệt Đau đầu Mệt mỏi Buồn nôn Cảm cúm
B1 rất cao có có không có
B2 cao có không có có
B3 bình thường không không không không

B4 bình thường có có có có
B5 cao không có không có
B6 cao không không không không
B7 bình thường không có không không
B8 bình thường không có không có
Bảng dữ liệu này cũng được dùng để trả lời câu hỏi: với triệu chứng bệnh gì thì sẽ kết luận
là bị cảm cúm hay không trong phần tìm các luật quyết định(decision rule). Ta thấy đây là
loại dữ liệu mâu thuẫn bởi hai bệnh nhân B7 và B8 có cùng triệu chứng bệnh nhưng B7 thì
không bị cảm cúm còn B8 thì lại bị cảm cúm.
2. Các khái niệm nền tảng của tập thô
Nếu như về mặt trực giác chúng ta có thể cảm nhận rằng quan hệ bất khả phân biệt là
một quan hệ tương đương, một khái niệm quen thuộc trong lý thuyết tập hợp thì khái niệm
xấp xỉ trên/xấp xỉ dưới lại khá mơ hồ và mới mẻ. Nên trong phần này ta sẽ tìm hiểu kĩ hơn
về khái niệm xấp xỉ trên/xấp xỉ dưới để từ đó đi đến tính chất quan trọng của tập thô trong
Data mining: các tập rút gọn(reducts, sử dụng ít thông tin hơn nguồn dữ liệu ban đầu) và
một ứng dụng quan trọng, cơ bản của lý thuyết tập thô: sinh luật quyết định từ bảng quyết
định. Như ta đã biết công dụng chủ yếu của lý thuyết tập thô là phân tích, xử lý dữ liệu
không chắc chắn, không đầy đủ. Vì vậy, đầu tiên ta sẽ mô hình hóa các tính chất của các
tập dữ liệu này bằng khái niệm: hệ thông tin.
6
Tiểu luận môn học: Toán cho Công nghệ thông n
2.1. Hệ thông tin
- Hệ thông tin (information system) là một bộ bốn: trong đó:
• , U ≠ , là một tập hữu hạn các đối tượng (objects) gọi là vũ trụ (univerce).
• A hữu hạn và A ≠ , là tập thuộc tính và được chia thành 2 tập con. Các thuộc
tính điều kiện (condition attribute) C và các thuộc tính quyết định (decision
attribute) D;
• V là tập hữu hạn các giá trị thuộc tính trong đó : với là miền giá trị (domain
value) của thuộc tính a .
• là hàm thông tin (information function) trong đó

Ví dụ: Bảng triệu chứng cúm là một hệ thông tin với:
U = { B1, B2, B3, B4, B5, B6, B7, B8 }
C = { Thân Nhiệt, Đau đầu, Mệt mỏi, Buồn nôn }, D = { Cảm cúm },
V
Thân nhiệt
= {bình thường, cao, rất cao}, V
Đau đầu
= {có, không}, V
Mệt mỏi
= { có, không },
V
Buồn nôn
= { có, không }, V
Cảm cúm
= { có, không }
f(B1, Thân nhiệt) = rất cao, f(B2, Cảm cúm) = có,…
- Nếu và lúc đó hệ thông tin được gọi là bảng quyết định. Khi đó hệ thông tin sẽ được
kí hiệu là . Một bảng quyết định gọi là có tính quyết định nếu: ngược lại thì nó không có
tính quyết định.
Ví dụ: Xét các bảng dữ liệu trong cơ sở dữ liệu quan hệ có thuộc tính khóa
chính(primary keys). Trong đó các cột biểu diễn cho các thuộc tính, các hàng biểu diễn cho
các đối tượng. Đặt A = {các thuộc tính của bảng dữ liệu}, C = {các thuộc tính khóa chính
chính}, D = { các thuộc tính còn lại }. Ta có: và . Vậy bảng dữ liệu này là một bảng quyết
định. Mặt khác, theo định nghĩa vể thuộc tính khóa chính thì ta có 1 phụ thuộc hàm ,
7
Tiểu luận môn học: Toán cho Công nghệ thông n
nghĩa là : . Vậy bảng dữ liệu trong các cơ sở dữ liệu quan hệ là bảng quyết định có tính
quyết định.
Ví dụ: Bảng triệu chứng cúm là một bảng quyết định vì và . Tuy nhiên nó là bảng
không có tính quyết định do B7 và B8 giống nhau trên C nhưng khác nhau trên D.

2.2. Quan hệ bất khả phân biệt
- Xét hệ thông tin , B A, x, y ta lập một quan hệ như sau:
x y f(x, b) = f (y, b),
là một quan hệ 2 ngôi và thỏa:
 Tính phản xạ: x x, hiển nhiên vì f(x, b) = f (x, b),
 Tính đối xứng x y f(x, b) = f (y, b) f(y, b) = f (x, b),
 Tính bắc cầu:

Vậy là một quan hệ tương đương, ta kí hiệu là IND(B) và gọi là quan hệ bất khả
phân biệt với tập thuộc tính B. Vậy IND(B) = {(x, y) U x U | f(x, b) = f (y, b), }.
Quan hệ IND(B) chia tập U thành các lớp tương đương, ta kí hiệu sự phân lớp này
là U|IND(B). , lớp tương đương của x trong quan hệ IND(B) được kí hiệu là
[x]
IND(B)
.
- Nếu muốn nhấn mạnh đến các thuộc tính khác biệt của các đối tượng hơn là giá trị
các thuộc tính thì có thể biểu diễn hệ thông tin bằng ma trận phân biệt D
(discernibility matrix), được định nghĩa như sau:
Ví dụ: Xét bảng triệu chứng cúm, đặt P = {Thân nhiệt, Mệt mỏi}, Q = {Đau đầu, Buồn
nôn}. Ta có quan hệ bất khả phân biệt trên P và Q như sau:
IND(P) = {(B2, B6), (B4, B7), (B4, B8), (B7, B8)}
8
Tiểu luận môn học: Toán cho Công nghệ thông n
U|IND(P) = {{B2, B6}, {B4, B7, B8}}
IND(Q) = {(B2, B4), (B3, B5), (B3, B6), (B3, B7) , (B3, B8) , (B5, B6) , (B5, B7) , (B5,
B8), (B6, B7) , (B6, B8) , (B7, B8)}
U|IND(Q) = {{B1 }, {B2, B4}, {B3, B5, B6, B7, B8}}
Và ma trận phân biệt như sau:
B1 B2 B3 B4 B5 B6 B7 B8
B1

B2 {T ,M, B }
B3 {T, Đ, M, C} {T, Đ, B, C}
B4 {T, B} {T, M} {Đ, M, B , C}
B5 {T, Đ, M} {Đ, M, B} {T, M, C} {T, Đ, B}
B6 {T, Đ, M, C} {Đ, B, C} {T} {T, Đ, M, B, C} {M, C}
B7 {T, Đ, C} {T, Đ, M, B, C} {M} {Đ, B, C} {T, C} {T, M}
B8 {T, Đ} {T, Đ, M, B} {M, C} {Đ, B} {T} {T, M, C} {C}
(T: Thân nhiệt, Đ: Đau đầu, M: Mệt mỏi, C: Cảm cúm)
2.3. Xấp xỉ một tập hợp
- Ý tưởng cơ bản của tập thô là mô tả hay xấp xỉ một tập hợp rõ bằng cặp xấp xỉ
trên/xấp xỉ dưới. Với một tập thuộc tính P bất kì(P ⊆ A), nếu không thể dùng nó để mô tả
chính xác một tập hợp X, thì cặp xấp xỉ trên/xấp xỉ dưới được dùng đến. Cho hệ thông tin ,
P A, X U. Bây giờ chúng ta muốn sử dụng tập thuộc tính P để mô tả tập các đối tượng
X(được đặc trưng bằng một số tính chất nào đó), khi đó X được sinh ra bởi cặp xấp xỉ
trên/xấp xỉ dưới kí hiệu bởi như định nghĩa dưới đây:
và gọi là P – xấp xỉ dưới của X
gọi là P – xấp xỉ trên của X
Theo định nghĩa trên ta thấy rằng:
• là tập các đối tượng mà sử dụng tập thuộc tính mô tả P ta chắc chắn chúng là
thành viên của X.
• là tập các đối tượng mà sử dụng tập thuộc tính mô tả P ta chỉ có thể nói rằng các
đối tượng đó có thể là thành viện của X.
9
Tiểu luận môn học: Toán cho Công nghệ thông n
•
- Nếu thì X là tập rõ hay tập P - chính xác(P – exact), ngược lại thì X là tập P –
thô(P – though). Đặt , ta gọi là vùng P – biên(P – boundary) gồm các đối tượng mà sử
dụng tập thuộc tính P ta không thể xác định chúng có thuộc X hay không. Tập hợp U gọi
là vùng P – ngoài của X(P – outside region of X) gồm các đối tượng mà sử dụng tập thuộc
tính mô tả P chắc chắn chúng không là thành viên của X. Một hình ảnh trực quan về các

tập hợp được thể hiện qua hình sau:
Ví dụ: Xét Bảng triệu chứng cúm
Đặt P = { Đau đầu, buồn nôn }, X = { x | f(x, Cảm cúm) = có }. Ta có:
X = { B1, B2, B4, B5, B8 }
U|IND(P) = { {B1 }, {B2, B4}, {B3, B5, B6, B7, B8} }
,
, U =
- Một số tính chất của xấp xỉ trên/xấp xỉ dưới:
1) .
10
Tiểu luận môn học: Toán cho Công nghệ thông n
2)
3)
4)
5) X ⊆ Y
6)
7)
8) . với –X = U - X
9) . với –X = U - X
10)
11)
- Một tập thô X có thể được đặc trưng bằng một hệ số gọi là hệ số chính xác hay độ
chính xác xấp xỉ(accuracy of approximation) định nghĩa như sau:
Nhận xét:
• , do nên || |
• , tập X là tập rõ đối với quan hệ P.
• , tập X là tập thô đối với quan hệ P.
• Cho P, Q A và |P| = |Q|, nếu < thì Q xấp xỉ tập X tốt hơn P
2.4. Hàm thuộc thô
- Trong lý thuyết tập hợp cổ điển, mỗi một tập hợp X có thể được mô tả bởi một hàm

số : U {0,1} (X gọi là hàm đặc trưng hay hàm thuộc của tập X, sao cho ∀ u , = 1 thì u X,
ngược lại = 0 thì u ∉ X. Một cách tương ứng, trong lý thuyết tập thô ta cũng định nghĩa
một hàm thuộc thô như sau:
Cho hệ thông tin , X U, P A, hàm U , ∀ x :
Khi đó hàm được gọi là hàm thuộc thô của tập P – thô X.
- Từ định nghĩa của hàm thuộc thô, ta rút ra một số tính chất sau:
1)
2)
3) 0
X
11
Tiểu luận môn học: Toán cho Công nghệ thông n
4) Nếu
5)
= 1 - ,
6)

7)
2.5. Rút gọn các thuộc tính
Cho hệ thông tin ; P, Q .
2.5.1. Sự phụ thuộc các thuộc tính
- Ta nói rằng tập thuộc tính Q phụ thuộc hoàn toàn vào tập thuộc tính P và kí hiệu là
P → Q ⇔ IND(P) IND(Q) hay nói cách khác:
x, y : f(x, p) = f(y, p) f(x, q) = f(y, q) Q
12
Tiểu luận môn học: Toán cho Công nghệ thông n
Việc tìm ra sự phụ thuộc giữa các thuộc tính là vấn đề rất quan trọng trong việc tìm các luật
quyết định(decision rules), một trong những ứng dụng quan trọng nhất của tập thô trong
Data mining.

- Ta gọi vùng dương của phân loại U/Q đối với tập thuộc tính P là P – vùng dương
của Q(P – positive region of Q) được xác định bởi:
Từ định nghĩa trên ta thấy rằng POS
P
(Q) gồm tất cả các đối tượng mà sử dụng tập thuộc
tính mô tả P ta có thể phân lớp chúng một cách chắc chắn vào một lớp tương đương trong
U|IND(Q). Hãy đặt nhận xét này trong ngữ cảnh của bảng quyết định, giả sử D = Q là tập
thuộc tính quyết định và P là tập một số thuộc tính điều kiện thì POS
P
(Q) = POS
P
(D). Lúc
đó nhận xét này được phát biểu lại là POS
P
(D) là tập những đối tượng mà sử dụng tập P
gồm một số thuộc tính điều kiện ta có thể biết chắc chắn đối tượng đó thuộc một phân lớp
quyết định trong U/. Nói cách khác nếu x POS
P
(D) thì từ { f(x, p)| p ta sẽ xác định { f(x,
d)| d .
- Nếu = U nghĩa là x , U| : [x]
IND(P)
IND(P) IND(Q) P → Q. Như vậy khi = U thì Q
phụ thuộc hoàn toàn vào tập thuộc tính P, có nghĩa là nếu | < |U| thì Q “ít” phụ thuộc vào P
hơn. Từ đó, ta định nghĩa một hệ số gọi là hệ số đo sự phụ thuộc của tập thuộc tính Q vào
tập thuộc tính P như sau:
(do các là rời nhau
Hiển nhiên là Khi = 1 thì Q phụ thuộc hoàn toàn vào P, ngược lại ta nói Q phụ thuộc một
phần vào P.
2.5.2. Các tập rút gọn (reducts)

- Cho a P, P’ = P – {a}, nếu IND(P) = IND(P’) thì thuộc tính a gọi là bỏ qua
được(dispensable) ngược lại thì a gọi là không bỏ qua được(indispensable). Trong thực
hành cũng như trong lý thuyết ta luôn mong muốn tìm tập P với ít thuộc tính nhất mà vẫn
không giảm khả năng phân loại. Tập tất cả các thuộc tính không bỏ qua được của P gọi là
lõi(core) của P, kí hiệu là CORE(P).
13
Tiểu luận môn học: Toán cho Công nghệ thông n
- Một thuộc tính a P gọi là Q – bỏ qua được trong P nếu POS
P
(Q) = POS
P-{a}
(Q)
ngược lại thì a là Q – không thể bỏ được trong P. Tập tất cả thuộc tính Q – không bỏ qua
được trong P gọi là Q – lõi tương đối, kí hiệu là CORE
Q
(P)
- Nếu a P, a là không bỏ qua được thì P gọi là trực giao(orthogonal). Cho P’ ⊆ P và
P’ là trực giao, nếu IND(P’) = IND(P) thì P’ gọi là một rút gọn(reduct) của P, kí hiệu là P’
= RED(P). Từ đây ta suy ra CORE(P) =
- P gọi là Q – trực giao nếu tất cả thuộc tính của P là Q – không bỏ được. Cho P’⊆ P
là Q – trực giao, nếu POS
P’
(Q) = POS
P
(Q) thì B gọi là một Q – rút gọn (Q – reduct) của P
và kí hiệu P’ = RED
Q
(P). Từ định nghĩa Q – rút gọn ta có CORE
Q
(P) =

Ví dụ: Xét hệ thông tin sau đây:
U a b c d
O1 0 0 1 0
O2 0 1 1 1
O3 0 1 1 0
O4 0 1 1 0
O5 1 0 0 1
O6 1 0 0 1
O7 1 1 0 1
O8 1 1 0 1
O9 1 1 0 0
Ta có U = {O1, O2, O3, O4, O5, O6, O7, O8, O9}, A = {a, b, c, d}
Đặt P = {a, b, c}, P1 = P – {c} = {a, b}, P2 = P – {a} = {b, c}, P3 = P - {b} = {a, c}. Ta có:
U|IND(P) = {{O1}, {O2, O3, O4}, {O5, O6}, {O7, O8, O9}}
U|IND(P1 - {b}) = U|IND(P3 - {c}) = {{ O1, O2, O3, O4}, { O5, O6, O7, O8, O9}}
U|IND(P1 - {a}) = U|IND(P2 - {c}) = {{ O1, O5, O6}, {O2, O3, O4, O7, O8, O9}}
U|IND(P2 - {b}) = U|IND(P3 - {a}) = {{ O1, O2, O3, O4}, {O5, O6, O7, O8, O9}}
U|IND(P1) = {{O1}, {O2, O3, O4}, {O5, O6}, {O7, O8, O9}}
14
Tiểu luận môn học: Toán cho Công nghệ thông n
U|IND(P2) = {{O1}, {O2, O3, O4}, {O5, O6}, {O7, O8, O9}}
U|IND(P3) = {{O1, O2, O3, O4},{O5, O6, O7, O8, O9}}
Theo kết quả trên thì P1 và P2 là trực giao và IND(P) = IND(P1) = IND(P2) có 2 reduct
của P là P1 = {a, b} và P2 = {b, c}.
2.6. Luật quyết định (decision rule)
- Một trong những dạng biểu diễn tri thức phổ biến nhất của con người là dạng luật.
Dạng biểu diễn này có dạng IF conditions THEN conclusions, trong đó conditions là tập
các điều kiện và conclusions là tập kết luận(sự kiện) sẽ xảy ra nếu tập điều kiện của luật
được thỏa mãn. Nói chung đây là dạng tri thức tìm kiếm mong muốn của đa số các hệ phát
hiện tri thức(knowledge discovery system) bởi vì nó phản ánh mối quan hệ nhân quả ẩn

bên trong các dữ liệu. Trong lý thuyết tập thô, dạng tri thức này được giới hạn trong các
bảng quyết định và các luật này gọi là các luật quyết định có dạng sau đây:
IF conditions THEN decision class.
Nghĩa là nếu đối tượng thỏa mãn điều kiện của luật thì sẽ phân lớp đối tượng đó vào một
lớp quyết định. Tìm kiếm các luật quyết định là một trong những ứng dụng cơ bản, quan
trọng nhất của tập thô trong Data mining.
Cho bảng quyết định T. Trong đó C là tập thuộc tính điều kiện và {d} là một thuộc
tính quyết định. V
d
= {d
1
, d
2
,…, d
n
}
- Cho x ∈ U, a ∈ , kí hiệu a(x) = f(x, a).
- Một luật quyết định r trong T là một luật có dạng: IF (c
1
= v
1
) ˄ (c
2
= v
2
) ˄… ˄ (c
m
=
v
m

) THEN d = d
k
, với ∈ C, v
i
∈ , d
k
∈ V
d
. Khi đó = { (c
1
, v
1
), (c
2
, v
2
),…, (c
m
,v
m
) } gọi là
tập điều kiện của luật r.
- Cho x ∈ U, r là một luật quyết định IF (c
1
= v
1
) ˄ (c
2
= v
2

) ˄… ˄ (c
m
= v
m
) THEN d
= d
k
, r gọi là phủ(cover) x hay x thỏa mãn điều kiện của luật r nếu { (c
1
, c
1
(x)) , {(c
2
, c
2
(x)) ,
…, {(c
m
, c
m
(x)) }. ∀x ∈ U, nếu luật r phủ x và f(x, d) = d
k
thì ta gọi r là luật chắc chắn.
Tuy nhiên trong thực tế, xuất hiện những trường hợp mà r phủ x nhưng f(x, d) ≠ d
k
.
15
Tiểu luận môn học: Toán cho Công nghệ thông n
- Cho X ∈ U|IND({d}) = { D
1

, D
2
, , D
n
}, với D
i
= { x ∈ U | f(x, d) = d
i
}, hệ số
strength(r) là độ mạnh của luật r, accuracy(r, D
i
) gọi là hệ số chính xác của luật r với phân
lớp D
i
và coverage(r, D
i
) gọi là hệ số bao phủ của luật r với phân lớp D
i
:

Trong đó gồm những đối tượng x thỏa mãn điều kiện của luật r và được phân lớp chắc
chắn vào lớp quyết định D
i
.
Ví dụ: Xét bảng triệu chứng cúm, sử dụng phần mềm ROSE2, dùng thuật toán LEM2,
ta có các luật quyết định và các hệ số như sau:
rule strength(r
)
accuracy(r, D
i

) coverage(r, D
i
)
r1: IF (Đau đầu=không)˄(Mệt mỏi=không) THEN Cảm cúm=không 0.25 1 0.67
r2: IF (Đau đầu=có) THEN Cảm cúm=có 0.38 1 0.6
r3: IF (Thân nhiệt=cao)˄(Mệt mỏi=có) THEN Cảm cúm=có 0.13 1 0.2
3. Ứng dụng tập thô trong phát hiện tri thức
3.1. Khai phá dữ liệu (Data mining)
Ngày nay, lượng thông tin mà xã hội loài người tạo ra không ngừng tăng lên với một
tốc độ chóng mặt. Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau
khoảng hai năm và theo đó số lượng cũng như kích cỡ của các cơ sở dữ liệu (CSDL) cũng
tăng lên một cách nhanh chóng. Thông tin tràn ngập khắp mọi nơi nhất là trong các mạng
xã hội(social network), các giao dịch thương mại điện tử, các phương tiện truyền thông đa
phương tiện(multimedia), các dự án nghiên cứu trên khắp thế giới…Nếu như trước đây,
trong các hệ thống thông tin quản lý(Management Information System), người ta đã có
kinh nghiệm rằng: từ những dữ liệu giao dịch, mua bán hàng ngày luôn chứa đựng những
thông tin quý giá, bổ ích cho vấn đề phát triển, kiểm soát, điều chỉnh kế hoạch kinh doanh
16
Tiểu luận môn học: Toán cho Công nghệ thông n
cho tổ chức, xí nghiệp, thì bây giờ người ta cũng tự hỏi là liệu trong lượng dữ liệu đồ sộ kia
có tiềm ẩn những thông tin có ích nào hay không ?
Trước khi Data mining ra đời thì các công cụ, phân tích và xử lý dữ liệu không thể nào
đáp ứng được nhu cầu phân tích một lượng dữ liệu đồ sộ và ngày càng phình to như thế.
Trước tình hình đó, các nhà khoa học máy tính mới lao vào nghiên cứu, tìm tòi và sáng tạo
ra các công cụ phân tích dữ liệu mới mà có khả năng xử lý được một lượng dữ liệu đồ sộ.
Và thuật ngữ Data mining ra đời từ đó. Nói một cách hình thức thì Data mining là: Tập
hợp các kĩ thuật xử lý dữ liệu một cách tự động được sử dụng nhằm phát hiện ra các thông
tin ẩn chứa trong dữ liệu mà có thể chưa biết và có tiềm năng hữu ích. Cụ thể hơn Data
Mining như là một công cụ giúp khám phá những mối liên hệ ẩn, những hình mẫu(pattern)
dữ liệu chung từ những kho dữ liệu được tích lũy trong suốt quá trình hoạt động của một tổ

chức, xí nghiệp nào đó. Tuy nhiên, để các kĩ thuật Data mining thật sự có hiệu quả, dữ liệu
phải được chọn lựa, sàng lọc từ kho dữ liệu sao cho phù hợp với yêu cầu cần phân tích. Ví
dụ: trong mùa đông, thì khoảng 70% người đi mua quần áo là sẽ mua thêm thêm một áo
khoác. Nếu chỉ lấy dữ liệu từ các hóa đơn trong mùa này ta sẽ thấy nhu cầu áo khoác rất
lớn và sẽ rất tai hại khi dựa vào kết quả này để lên kế hoạch nhập áo khoác cho cả năm.
Như đã đề cập ở trên, Data mining là thuật ngữ đề cập đến một tập hợp các kĩ thuật xử
lý dữ liệu trong các kho dữ liệu đồ sộ. Mỗi kĩ thuật trong Data mining đề cập đến một vấn
đề riêng, một nhu cầu xử lý dữ liệu riêng và được mô hình thành các bài toán(vấn đề) riêng
biệt. Các bài toán điển hình của Data mining gồm:
• Bài toán khám phá luật kết hợp(Association rules): tìm ra những mối liên hệ
giữa các trường(field) dữ liệu mô tả đối tượng trong cơ sở dữ liệu. Kết quả của
bài toán này thường được biểu diễn bởi các luật dạng If…then… Ví dụ: một
siêu thị sau khi phân tích các hóa đơn mua hàng của 10 mặt hàng bán chạy nhất
thì phát hiện ra rằng cứ 100 người mua bắp rang thì có 65 người mua nước ngọt.
Dựa vào thông tin này, ban giám đốc sẽ có kế hoạch sắp xếp các gian hàng bắp
rang và nước ngọt gần nhau.
• Bài toán phân lớp dữ liệu(Classification): gom những đối tượng dữ liệu có đặc
trưng giống nhau vào trong một lớp. Thông thường thì những đặc trưng này là
17
Tiểu luận môn học: Toán cho Công nghệ thông n
được định nghĩa trước. Ví dụ: trong ngân hàng, một trong các vấn đề quan trọng
là giữ chân những khách hàng có lượng tiền gửi lớn. Như vậy, ban giám đốc sẽ
cần biết những “đặc tính” của những khách hàng hay có khuynh hướng thay đổi
nơi gửi tiền, để đề ra những chính sách nhằm giữ chân những khách hàng này.
• Bài toán gom cụm dữ liệu(Clustering): tương tự như bài toán phân lớp dữ liệu,
tuy nhiên có khác biệt là đặc trưng(tiêu chuẩn) để gom nhóm là không biết
trước. Nghĩa là công cụ Data mining phải tự phát hiện ra các tính chất, đặc điểm
chung của các đối tượng dữ liệu để quyết định một đối tượng dữ liệu mới là
thuộc cụm(nhóm) nào.
• Bài toán mẫu tuần tự(Sequences): tìm ra các mối liên hệ giữa các đối tượng dữ

liệu theo trình tự thời gian. Ví dụ: một công ty bán hàng điện máy có thể phát
hiện ra rằng khi một khách hàng mua một tủ lạnh thì có đến 60% khả năng 1
tháng sau anh ta sẽ mua một lò vi sóng.
• Bài toán dự báo(Forecasting): dự báo ở đây là dựa vào một số giá trị hiện hành
của một số đối tượng dữ liệu và dự báo giá trị của các đối tượng dữa liệu. Ví dụ:
công cụ Data mining có thể tìm ra một số hình mẫu dữ liệu để giúp các nhà quản
lý dự báo giá trị giá trị tương lai của một số đối tượng dữ liệu quan tâm chẳng
hạn như doanh thu bán hàng.
3.2. Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD)
Phát hiện tri thức trong cơ sở dữ liệu(hay nói vắn tắt là phát hiện tri thức) là lĩnh vực
nghiên cứu và ứng dụng tập trung vào dữ liệu, thông tin và tri thức. Về mặt hình thức thì có
thể định nghĩa phát hiện tri thức là: Một quá trình có nhiều pha, mang tính tương tác và
lặp nhằm phát hiện ra những hình mẫu hay những mô hình dữ liệu có thể hiểu được, hợp
lệ và mới lạ có tiềm năng mang lại giá trị sử dụng từ một nguồn dữ liệu lớn. Phát hiện tri
thức là một lĩnh vực rộng lớn liên quan đến nhiều ngành khác nhau của khoa học máy tính
và hệ thống thông tin như: Trí tuệ nhân tạo, Cơ sở dữ liệu, Tính toán hiệu năng cao, Tính
toán mềm, Thống kê…như minh họa trong hình sau đây:
18
Tiểu luận môn học: Toán cho Công nghệ thông n
Như vậy chúng ta thấy ngay là trong KDD đã bao hàm luôn Data mining. Thật vậy,
Data mining là một pha then chốt quá trình phát hiện tri thức bởi hệ thống có thu được tri
thức mới hay không là phục thuộc vào kết quả của pha này. Từ kết quả của pha này hệ
thống tiến hành biểu diễn tri thức vừa thu nhận được và sau đó đưa vào đánh giá, sử dụng.
Một quá trình phát hiện tri thức có thể bao gồm các pha sau đây:
• khảo sát miền ứng dụng và xác định, phát biểu vấn đề.
• thu thập và tiền xử lý dữ liệu(Selection and Preprocessing).
• biến đổi dữ liệu sao cho phù hợp với các thao tác của Data
mining(Transformation)
• sử dụng các phương pháp Data mining để trích rút ra các dạng và các mô hình
ẩn trong dữ liệu(Data mining).

• biểu diễn các tri thức được phát hiện và đưa tri thức được phát hiện sử dụng
trong thực tế(Interpretation Evaluation).
Hình sau đây minh họa các pha của quá trình phát hiện tri thức:
19
Tiểu luận môn học: Toán cho Công nghệ thông n
2.2. Vai trò, vị trí của tập thô trong Data mining
Như vậy, dưới quan điểm của hệ phát hiện tri thức pha Data mining không phải là đề
cập đến những chi tiết kĩ thuật xử lý dữ liệu cụ thể mà đề cập đến những vấn đề, yêu cầu
mà kết quả xử lý dữ liệu cần đạt được. Ví dụ như trong bài toán tìm luật kết hợp, yêu cầu là
tìm ra những mối liên hệ giữa các trường trong cơ sở dữ liệu chứ không nói đến cách xử lý
cụ thể. Như vậy sử dụng bất kì một kĩ thuật nào mà đạt được kết quả trên thì đều được xếp
vào hàng công cụ của Data mining. Từ đó chúng ta thấy vị trí của tập thô trong Data
mining là dùng để giải các bài toán của Data mining cho những trường hợp dữ liệu không
đầy đủ, không chắc chắn, thậm chí mâu thuẫn.
Ở đây, xin nêu cụ thể về hai bài toán trong Datamining mà chỉ cần giải bài toán tương
ứng trong tập thô là đạt được kết quả cho 2 bài toán này. Xét bài toán tìm luật kết hợp và
bài toán phân lớp trong Data mining. Hai bài toán này có thể giải được trong tập thô bằng
bài toán tìm luật quyết định. Thật vậy với bài toán phân lớp thì rất tự nhiên nó hoàn toàn
trùng khớp với bài toán tìm luật quyết định trong tập thô. Cho một đối tượng x ∈ U, nếu x
thỏa mãn điều kiện của một luật quyết định thì sẽ tìm được một phân lớp quyết định cho x.
Nghĩa là nếu x thỏa mãn một số tính chất nào đó(mà khớp với điều kiện của một luật) thì ta
sẽ tìm được phân lớp cho x. Còn đối với bài toán tìm luật kết hợp ta tìm những luật có dạng
IF a
1
=v
1
, , a
m
=v
m

THEN b
1
=w
1
, , b
k
=w
k
với một độ support và độ tin cậy cho trước, A =
{a
1
, , a
m
}, B={b
1
, , b
k
} là những tập thuộc tính không biết trước. Để giải bài toán này ta
20
Tiểu luận môn học: Toán cho Công nghệ thông n
chỉ cần giải bài toán tìm A – vùng dương của B POS
A
(B) không rỗng mà thực chất là tìm
luật quyết định với tập thuộc tính điều kiện A và tập thuộc tính quyết định B thỏa mãn một
số tiêu chí về độ mạnh và độ chính xác của luật.
4. Kết luận
Tiểu luận đã tập trung làm những việc sau đây:
• Nêu một cái nhìn tổng quan về ý nghĩa, vai trò của tập thô trong công nghệ
thông tin.
• Cố gắng làm rõ một số khái niệm căn bản của tập thô thông qua các định nghĩa,

các diễn giải và các ví dụ, chứng minh một số tính chất của hàm thuộc thô.
• Trình bày tổng quan về khái niệm luật quyết định, một ứng dụng của tập thô
trong Data mining, cũng như nêu một ví dụ cụ thể cho một bảng quyết định.
• Trình bày sơ lược về Data mining và tiến trình phát hiện tri thức qua đó làm rõ
hơn vai trò, vị trí cụ thể của tập thô trong lĩnh vực phát hiện tri thức.
Tài liệu tham khảo
[1]. Dương Tôn Đảm, Bài giảng Toán cho Công nghệ thông tin: Lý thuyết tập thô.
[2]. Andrzej Skowron, Ning Zhong (2000), Rough Sets in KDD Tutorial Notes.
[3]. Zdzisław Pawlak (2002), “Rough set theory and its applications”. Journal of
Telecommunications and Information Technology.
[4]. Mert Bal (2013), “Rough Sets Theory as Symbolic Data Mining Method: An
Application on Complete Decision Table”. Information Science Letters An International
Journal.
[5]. Ayesha Butalia, M.L Dhore, Geetika Tewani(2008), “Application of Rough Sets in the
field of Data mining”. International Conference on Emerging Trends in Engineering and
Technology.
[6]. Silvia Rissino1, Germano Lambert-Torres2(2009), “Rough Set Theory – Fundamental
Concepts, Principals, Data Extraction, and Applications”. www.intechopen.com.
[7]. Nguyen Hung Son, “Introduction to Rough sets and Data mining”.
/> 21

Tiểu luận môn Toán khoa học máy tính LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về