Nghiên cứu lý thuyết tập thô và ứng dụng trong xử lý dữ liệu (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (807.96 KB, 20 trang )

1

MỞ ĐẦU
Cùng với sự phát triển của Công nghệ thông tin, khai phá tri thức trong các cơ sở
dữ liệu lớn là một trong nhưng lĩnh vực được rất nhiều nhà nghiên cứu và ứng dụng
tin học đặc biệt quan tâm. Việc nghiên cứu những phương pháp có thể tự động phát
hiện những tri thức mới trong cơ sở dữ liệu trên máy tính đã tỏ ra thực sự hữu ích
trong việc hỗ trợ quyết định cho con người.
Hiện nay, trên thế giới có rất nhiều thuật tốn khai phá tri thức bằng cách phân lớp
và rời rạc dữ liệu như: sử dụng cây quyết định, phương pháp thống kê, các mạng
nơron, thuật toán di truyền,... . Trong một thời gian gần đây, lý thuyết tập thơ được
nhiều nhóm nghiên cứu trong lĩnh vực tin học nói chung và khai phá tri thức nói riêng
nghiên cứu và triển khai ứng dụng trong thực tế. Lý thuyết tập thô được xây dựng trên
nền tảng toán học vững chắc giúp cung cấp những cơng cụ hữu ích để giải quyết
những bài tốn phân lớp dữ liệu và khai phá các luật,... . Với đặc tính có thể xử lý
được những dữ liệu mơ hồ, không chắc chắn tập thô tỏ ra rất hữu ích trong việc giải
quyết những bài tốn thực tế. Từ những bảng dữ liệu lớn với dữ liệu dư thừa, khơng
hồn hảo, dữ liệu liên tục hay dữ liệu dưới dạng ký hiệu, phương pháp tiếp cận dựa
trên lý thuyết tập thô cho phép khai phá tri thức từ những khối dữ liệu này nhằm phát
hiện những luật tiềm ẩn.
Đó là lý do học viên chọn đề tài: “Nghiên cứu lý thuyết tập thô và ứng dụng
trong xử lý dữ liệu ” làm luận văn tốt nghiệp cao học.
Trong thời gian gần đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ hồ,
không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương pháp khác với
phương pháp logic cổ điển, ví dụ lý thuyết tập mờ(Fuzzy set theory), lý thuyết tập thơ
(Rough set theory), tính tốn hạt (Granular computing) hay phân tích khái niệm hình
thức(Formal concept analysis)… . Trong các phương pháp này, phương pháp tập thơ
được nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu và phát triển. Điều này
có thể lý giải là do lý thuyết tập thơ được xây dựng trên một nền tốn học vững chắc,
cung cấp những cơng cụ hữu ích để giải quyết các bài toán phân lớp dữ liệu, phát hiện
luật,… , đặc biệt là phục vụ cho việc nghiên cứu các hệ thống thông minh, khai phá dữ

liệu.

2

Ý tưởng chính của lý thuyết tập thơ lần đầu tiên được nhà toán học Ba Lan
Z.Pawlak đề xuất. Bài báo kinh điển nổi tiếng của ông là Rough Sets, xuất bản vào
năm 1982. Tiếp theo sau đó, các nhà khoa học khắp nơi trên thế giới đóng góp nhiều
thành tựu quan trọng nhằm phát triển lý thuyết tập thô và ứng dụng. Một số bài toán
trong lĩnh vực như ngân hàng, tài chính, y học, … đã được giải quyết thành công nhờ
công cụ tập thô.
Kiến thức cơ sở của lý thuyết tập thô cổ điển là các phép toán xấp xỉ trên, xấp xỉ
dưới dựa trên phân hoạch được tạo bởi một quan hệ tương đương.Trên cơ sở đó, các
kỹ thuật tập thơ tập trung vào hai hướng chính:
(1) Nghiên cứu các thuật tốn hữu hiệu để rút gọn tập các thuộc tính nhằm hạn chế
số chiều của khơng gian dữ liệu.
(2) Nghiên cứu các thuật tốn hữu hiệu sinh luật quyết định nhằm phân lớp dữ liệu
để làm giảm độ phức tạp của không gian dữ liệu.
Trong luận văn này, học viên sẽ tập trung nghiên cứu hướng tiếp cận tập thô trên
và ứng dụng trong xử lý dữ liệu.
Ngoài phần mở đầu, kết luận, tài liệu tham khảo, luận văn bao gồm ba chương
chính như sau:
Chƣơng 1: Tổng quan về tập thô
Chương này của luận văn trình bày các khái niệm cơ bản về hệ thơng tin và các
vấn đề liên quan, xấp xỉ trên, xấp xỉ dưới và khái niệm tập thô. Các khái niệm về ma
trận phân biệt được và hàm phân biệt được, hệ quyết định và luật quyết định cũng
được đề cập trong nội dung của chương.
Chƣơng 2: Nghiên cứu một số kỹ thuật tập thô
Chương này của luận văn tập trung khảo sát một số kỹ thuật tập thô thường được
sử dụng trong xử lý dữ liệu bao gồm: các thuật tốn rút gọn tập thuộc tính dựa trên tập

thơ và các thuật toán sinh luật quyết định dựa trên tập thô.
Chƣơng 3: Ứng dụng tập thô trong xử lý dữ liệu
Nội dung chính của chương này là khảo sát ứng dụng tập thơ trong trích chọn đặc
trưng và phân lớp dữ liệu. Trên cơ sở đó, luận văn xây dựng ứng dụng tập thơ hỗ trợ
chẩn đốn bệnh sốt rét.Trong chương này luận văn cũng trình bày các kết quả thử
nghiệm trên bộ dữ liệu cụ thể

3

Chƣơng 1: TỔNG QUAN VỀ TẬP THÔ
Chương này của luận văn trình bày một số khái niệm cơ bản về lý thuyết tập
thô và khảo sát các vấn đề liên quan. Nội dung chương này sẽ bao gồm các kiến thức
nền tảng để nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định sẽ
được nghiên cứu trong chương tiếp theo.

1.1 Hệ thông tin và các vấn đề liên quan
1.1.1 Hệ thông tin
Định nghĩa: Hệ thông tin là một cặp IS = (U, A). Trong đó:
U là một tập hữu hạn khác rỗng các đối tượng (tập vũ trụ hay tập phổ dụng).
A là một tập hữu hạn khác rỗng các thuộc tính.
Với mỗi u

U và a A ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a.

Nếu gọi Ia là tập tất cả các giá trị của thuộc tính a thì u(a)
{b1, b2, . . ,bk}

Ia với mọi u

U. Nếu B =

A, ta ký hiệu bộ các giá trị u(bi) bởi u(B). Như vậy, nếu u và v là hai

đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(bi) = v(bi) với mọi i = 1,2,…,k.

1.1.2 Quan hệ không phân biệt được
Cho tập con các thuộc tính B

A trong hệ thông tin IS = (U, A). Quan hệ B

không phân biệt được ký hiệu là INDA(B) được định nghĩa như sau:
INDA(B) = {(x,x’)

U2 | a B, a(x) = a(x’)}

Khi đó INDA(B) là một quan hệ tương đương trên U.
Lớp tương đương chứa x của quan hệ không phân biệt được trên B ký hiệu là
[x]B.
Hai đối tượng x, x’ mà (x, x’)

INDA(B) được gọi là không phân biệt bởi các

thuộc tính trong B. Khi xét trên một hệ thống thơng tin xác định ta sẽ viết IND(B)
thay cho INDA(B).

1.2 Khái niệm tập thô
1.2.1 Xấp xỉ trên và xấp xỉ dưới
Cho một hệ thông tin IS = ( U, A), với mỗi tập con X
IND(B) ta có hai tập con sau:

(X) = {u

U | [u]B

X};

(X) = {u

U | [u]B X

}

U và B

A, ký hiệu R =

4

(X), (X) lần lượt gọi là R-xấp xỉ dưới và R-xấp xỉ trên của tập X
Tập (X) bao gồm tất cả các phần tử U có khả năng được phân loại vào những
phần tử thuộc X ứng với quan hệ R.
Từ hai tập xấp xỉ người ta định nghĩa các tập:
BNB(X) = (X) - (X): B- miền biên của X.
POSB(X) = (X): B- vùng dương của X.
NEGB(X) = U - (X): B- vùng âm của X.
Ký hiệu tập thương của IND(B) trên U là U/B, các xấp xỉ trên và dưới của X có
thể viết lại:
(X) = {W

U/B | W

X

(X) = {W

U/B | W

X}

Trong trường hợp BNB(X)

}

, X được gọi là tập thô, ngược lại X được gọi là tập

rõ.
Đối với một hệ thông tin IS = ( U, A), B, D

A, ký hiệu R = IND(B), người ta gọi B-

miền khẳng định dương của D là tập được xác định như sau:
POSB(D) = ⋃

(V))

(1)

Rõ ràng POSB(D) là tập tất cả các đối tượng của u sao cho với mọi v

U mà

u(B) = v(B) ta đều có u(D) = v(D).

1.2.2 Các tính chất của xấp xỉ
Cho một hệ thơng tin IS = (U, A),

X, Y

(1L) (U) = U
(1H) (U) = U
(2L) ( ) =
(2H) ( ) =
(3L) (X)

X

(3H) (X)

X

(4L) (X

Y) = (X)

(Y)

(4H) (X Y) = (X)

(Y)

(5L)

(X) = (X)

U và B

A, đặt R = IND(B) khi đó:

5

(5H)

(X) = (X)

(6L) (U – X) = U - X
(6H) (U – X) = U - X
(7L) X

Y => (X)

(Y)

(7H) X

Y => (X)

(Y)

(8L) (U - (X)) = U - (X)
(8H) (U - (X)) = U - (X)
(9L) K

U/R, (K) = K

(9H) K

U/R, (K) = K

Tính chất (3L), (4L) và (8L) là những tính chất đặc trưng cho phép xấp xỉ dưới,
điều đó có nghĩa là những tính chất khác của phép xấp xỉ dưới có thể suy dẫn từ ba
tính chất này. Tương tự với (3H), (4H) và (8H) là những tính chất đặc trưng của phép
xấp xỉ trên.
Sự chính xác của tập xấp xỉ X đối với phân hoạch trên B là giá trị sau:
αR(X) =

))

=|
))

)
)

|

(2)

Trong đó Card(X) = |X| là lực lượng (số phần tử) của tập X. Rõ ràng 0

αR

1,

nếu αR(X) = 1, ta nói X là chính xác đối với R cịn αR(X) <1, X được gọi là tập thơ với
R.

1.2.3 Thuật tốn tìm tập xấp xỉ dưới và xấp xỉ trên
a, Tìm xấp xỉ dưới
b, Tìm tập xấp xỉ trên

1.2.4 Khái niệm tập thơ
Tập thơ là một bộ< (X), (X) >, trong đó

(X) là xấp xỉ dưới và

(X) là xấp xỉ

trên. Độ chính xác thơ của việc biểu diễn bởi X được cho bởi (Pawlak 1991):
0 ≤ αB(X) = (X)/ (X) ≤1
Nếu αB(X) = 1 thì X là tập cổ điển, ngược lại nếu αB(X) < 1 thì X là tập thơ.

1.3 Ma trận phân biệt đƣợc và hàm phân biệt đƣợc
1.3.1 Ma trận phân biệt được

6

Xét hệ thông tin IS = (U, A), giả sử B

A . Ta định nghĩa ma trận B là phân

biệt được, kí hiệu M(B), là ma trận đối xứng cấp n×n mà mỗi phần tử của nó được
xác định như sau :
cij = { a

B: a(xi) ≠ a(xj)}, i,j =

Do vậy phần tử cij là tập tất cả các thuộc tính phân biệt được các đối tượng xi và xj.

1.3.2 Hàm phân biệt được
Tất cả các rút gọn của một hệ thơng tin có thể tìm được thơng qua hàm phân
biệt được. Với hệ thông tin IS = (U, A), B
với (cij) = {aB: a(xi)  a(xj)} và i,j =

A, có ma trận phân biệt M(B) = cij

. Hàm phân biệt fs là một hàm Boolean

của m biến Boolean a*1, a*2, …,a*m (ứng với các thuộc tính a1, a2, …, am) được
xây dựng dưới dạng chuẩn tắc tuyển như sau:
fs(a*1, a*2, …,a*m) =  {  cij | 1  j  i  n, cij}
Trong đó: c*ij = {a* | a  cij}
Tập các đơn thức của fs xác định tập rút gọn của S.

1.4 Hệ quyết định và luật quyết định
1.4.1 Hệ quyết định
Một trường hợp đặc biệt của hệ thông tin gọi là hệ quyết định nếu tập thuộc
tính A được phân thành hai tập rời nhau C và D, trong đó C là tập các thuộc tính

điều kiện, D là tập các thuộc tính quyết định sao cho C ∩ D =
quyết định được ký hiệu là: DS = (U, C

, C D = A. Hệ

D).

1.4.2 Luật quyết định
Cho hệ quyết định DS = (U, C

D),giả sử U/C = {X1, X2, …, Xm} vàU/D = {Y1,

Y2, …, Yn} là các phân hoạch được sinh bởi C, D. Với Xi U/C,Yj U/D và Xi ∩ Yj = ,
ký hiệu des  X i  và des Y j  lần lượt là các mô tả của các lớp tương đương X i và Y j trong
bảng quyết định DS.
Một luật quyết định đơn có dạng Zij: des(Xi) → des(Yj).
Tổng quát, luật quyết định là một luật kết hợp Φ

Ψ, hay "nếu Φ thì Ψ" (“if Φ

then Ψ”), trong đó Φ và Ψ là các biểu thức logic. Khi đó Φ được gọi là điều kiện và Ψ
gọi quyết định của luật quyết định tương ứng.

7

Như vậy, trong hệ quyết định DS có thể sinh được rất nhiều luật quyết định. Để
đánh giá hiệu năng của các các luật quyết định, người ta thường sử dụng ba độ đo: độ
hỗ trợ, độ chính xác và độ bao phủ.

1.4.3 Các độ đo đánh giá luật quyết định
Nội dung trình bày trong mục này dựa trên [10]. Để đơn giản, các độ đo đánh
giá luật quyết định sẽ được trình bày cho luật quyết định tổng quát dạng Φ

Ψ.

Ký hiệu |Φ| số lượng các phần tử của tập hợp tất cả các đối tượng trong U, có
giá trị Φ.
Độ hỗ trợ của luật quyết định
Độ hỗ trợ (còn gọi là độ mạnh) của luật quyết định Φ

Ψ, ký hiệu là

supp(Φ,Ψ), được định nghĩa là tỷ số giữa |Φ ^ Ψ| và |U|:
Ψ

supp(Φ,Ψ) =

(3)

Độ chắc chắn của luật quyết định
Độ chắc chắn của luật quyết định Φ

Ψ, ký hiệu là cer(Φ,Ψ), được định nghĩa

là tỷ số giữa |Φ ^ Ψ| và |Φ|:
cer(Φ,Ψ) =

Ψ

Thông thường, nếu cer(Φ,Ψ) = 1 thì luật quyết định Φ

(4)
Ψ được gọi là chắc

chắn, ngược lại, gọi là không chắc chắn.
Độ bao phủ của luật quyết định
Độ hỗ trợ của luật quyết định Φ

Ψ, ký hiệu là cov(Φ,Ψ) được định nghĩa là tỷ

số giữa |Φ ^ Ψ| và |Ψ|:
cov(Φ,Ψ) =

Ψ

(5)

Thuật toán quyết định
Một tập hợp các luật quyết định Dec(Φ,Ψ) = {ΦiΨi | i = 1, 2, …, k; k  2}
được gọi là một thuật toán quyết định trên hệ quyết định DS nếu thỏa mãn ba điều
kiện sau:
(1) Điều kiện chấp nhận đƣợc: với mỗi i ( 1 ≤ i ≤ k) thì supp(ΦiΨi) > 0.
(2) Điều kiện độc lập: với mỗi cặp luật (ΦiΨi) và (ΦjΨj) có Φi = Φj thì
|Ψi^Ψj| = 0, hoặc có Ψi = Ψj thì |Φi^Φj| = 0.

8

(3) Điều kiện phủ U: Mỗi đối tượng thuộc U đều thỏa mãn ít nhất một Φi và

thỏa mãn ít nhất một Ψj nào đó trong số k luật quyết định trên.
Trong ví dụ 4, tập hợp gồm 6 luật (1)-(6) tạo thành một thuật toán quyết định
trên hệ quyết định DS = (U, {X1, X2, X3}  {Y1, Y2}).

1.5 Ứng dụng của tập thô
Lý thuyết tập thô cung cấp phương pháp có hiệu quả được áp dụng trong nhiều
ngành của trí tuệ nhân tạo, một trong những ưu điểm của lý thuyết tập thơ là chương
trình triển khai thực hiện phương pháp này dễ dàng có thể chạy trên các máy tính song
song, nhưng vẫn cịn một số vấn đề cần giải quyết.
Gần đây, rất nhiều nghiên cứu đã được thực hiện trong tập thô kết hợp với các
phương pháp trí tuệ nhân tạo như logic mờ, mạng nơtron, hệ chuyên gia và một số kết
quả quan trọng đã được tìm thấy. Lý thuyết tập thơ cho phép mơ tả đặc tính của một
tập các đối tượng trong nhóm các giá trị của thuộc tính; tìm ra tồn bộ hoặc một phần
phụ thuộc giữa các thuộc tính; giảm thuộc tính thừa; tìm thấy các thuộc tính có ý
nghĩa và sinh ra các luật quyết định.
Các ứng dụng của tập thô đã giải quyết những vấn đề phức tạp, và do đó đã tạo
nên sự hấp dẫn cho các nhà nghiên cứu trong những năm gần đây, đã được áp dụng
thành công trong một số lĩnh vực đầy thách thức như phương pháp tính tốn mềm,…

1.6 Kết luận chƣơng 1
Chương này của luận văn đã trình bày một số khái niệm cơ bản về lý thuyết tập
thô, các khái niệm cơ bản về hệ thông tin và các vấn đề liên quan, các xấp xỉ trên, xấp
xỉ dưới, ma trận và hàm phân biệt được, hệ quyết định và luật quyết định. Chương này
đã khảo sát các kiến thức nền tảng để nghiên cứu các phương pháp rút gọn thuộc tính
và sinh luật quyết định sẽ được nghiên cứu trong các chương tiếp theo.

9

CHƢƠNG 2: NGHIÊN CỨU MỘT SỐ KỸ THUẬT TẬP THÔ

Trong chương này, luận văn sẽ khảo sát một số thuật tốn rút gọn tập thuộc
tính và sinh luật quyết định dựa trên lý thuyết tập thô.

2.1 Kỹ thuật rút gọn tập thuộc tính dựa trên tập thơ
2.1.1 Thuật tốn tìm tập rút gọn thuộc tính sử dụng ma trận phân biệt được
Nội dung của mục này được tham khảo từ tài liệu [1].

2.1.1.1 Các khái niệm liên quan
a, Khái niệm
Cho hệ thông tin IS = (U,A), B A và a

B. Ta có các định nghĩa về tập rút gọn

và tập lõi.
Định nghĩa 1:
i, Thuộc tính a là khơng quan trong trong B nếu IND(B) = IND(B|{a}), ngược lại a
được gọi là quan trọng trong B.
ii, Tập thuộc tính B là độc lập nếu tất cả các thuộc tính của nó là quan trọng.
iii, Tập con B’ của B là một tập rút gọn( B’= R(B)) của B nếu B’ là độc lập và
IND(B’) = IND(B).
Định nghĩa 2:
Cho B là tập con của A, lõi của tập B (Core(B) là giao tất cả các tập rút gọn của B:
Core( B) = Red(B)
Trong đó, Red(B) là tập tất cả các rút gọn của B
Định lí 1: Core(B) = {b

B:

cij = {b}}

Định lí 2: Nếu B là độc lập trong A và D(B) = 0 thì B = R(A)

b, Quan hệ tương đương:
Mối quan hệ nhị phânR

X Xđược gọi là quan hệ tương đương nếu thỏa mãn:

+ Tính phản xạ: xRx
+ Tính đối xứng: nếu xRy thì yRx .
+ Tính bắc cầu: nếu xRy và yRx thì xRz. Lớptươngđươngtheoquanhệtươngđương
R của phần tử x

X là cả phần tử y

2.1.1.2 Mơ tả thuật tốn

X sao cho xRy.

10

Dựa trên các định lý 1 và 2, thuật toán được đề xuất như dưới đây.
Thuật tốn 2.1:Tìm lõi Core(B)
Input: Hệ thông tin IS = (U, A), // A = {a1, a2, …, am}, B

A

Output: M(B) and Core(B)
1.Core(B) = ; cij:= ; Index: = ; tij = 0 ; Sign(i,j) = -1; //i,j=1,.,n
2.For i: = 2 to n do

For j: = 1 to i-1
For k: = 1 to m do
If ak(xj) ≠ ak(xi) then cij: = cij {ak}, tij:= tij + 1
else cij: = cij; tij: = tij
If tij = 1 then Core(B):= Core(B)
Index:= Index

cij and

[k]; Sign(i,j):=1;

Đánh giá độ phức tạp: Độ phức tạp tính tốn của thuật tốn là O( U A).
Thuật tốn 2.2: Tìm một rút gọn R(A) của A
Input: Hệ thông tin IS = (U , A) // A = {a1, a2 ,..., am}
Output: R(A).
Sử dụng thuật tốn 2.1, ta sẽ tìm được Core(A)
1. Đặt B = Core(A); T = , // if ak
Nếu B

B then k

Index

thì chuyển sang bước 2, ngược lại thì chuyển sang bước 3.

2. Nếu D(B)= 0 thì chuyển sang bước4, ngược lại chuyển sang bước3
3. For k: = 1 to m do
If k

Index

For i:= 2 to n do
For j:=1 do i- do
If Sign(i,j) = -1

If ak

cij and cij B =

then B = B

[ak] and Sign((i,j) = 1; và quay lại

bước 2.
4. R(A) = B
Đánh giá độ phức tạp: Độ phức tạp tính toán của thuật toán là O( U

A).

11

2.1.2 Thuật tốn tìm tập rút gọn thuộc tính với phương pháp đại số
Nội dung của mục này được tham khảo từ tài liệu [6].

2.1.2.1 Các khái niệm liên quan
Cho hệ quyết định DS =( U,C,D,V,f,d). Trong đó, U = {x1, x2, …, xn} là tập
gồm n đối tượng; C = {c1, c2, …, cr} là tập thuộc tính điều kiện gồm r thuộc tính; D là
tập gồm 1 thuộc tính quyết định, CD = . Đặt F = CD, V = Va, a  F (Va là
miền giá trị của thuộc tính a). Khi đó, f : UxC V và d: UxD  V là các hàm thông
tin.

Ma trận quyết định dược M = (mij) của hệ quyết định DS được xác định như
sau:
mij = {ck| ck C, f(xi, ck) ≠ f(xj, ck, d(xi, D) ≠ d(xj, D).
U, đặt X/{a} = {X1, X2, …., Xr. Giả sử B là tập con của F. Đặt U/B =
{B1, B2, …, Bt}; p(Bj) = |Bj|/|U|; U/D = {D1, …, Dk}.
Đặt g(X, a) =∑

∑

sigB(a) = ∑

|

-

(6)

) (7)

2.1.2.2 Mơ tả thuật tốn
Thuật tốn 2.3: Rút gọn thuộc tính cho hệ quyết định
Thủ tục 1: Tính g(X, a);
Input: Hệ quyết định DS = ( U, C, D,V,f, d),

X

U, a

C

Output: g(X,a)
1. Tính X/{a}
2. Tính X/D, Xi/D
3. Tính g(X,a)
Độ phức tạp của thủ tục 1:
Độ phức tạp tính tốn của bước đầu tiên của thuật tốn là O(| X |), độ phức tạp
của bước thứ hai là O(| X |). Do đó độ phức tạp của thuật tốn là O(| X |).
Thủ tục 2: Tính sigB(a);
Input: Hệ quyết định DS = (U,C,D,V,f,d), U/B = {B1, B2,...., Bt}, a
Output: Tính sigB(a).

C-B

12

1. Tính g(Bi,a) với thủ tục 1;
2. Tính sigB(a) với (7)
Độ phức tạp của thủ tục 2 :
Độ phức tạp tính tốn của bước đầu tiên của thuật tốn là O(| Bi |), nên độ phức
tạp của trường hợp xấu nhất của thời gian là ∑

i

)=O( U ) .

Thủ tục 3: Rút gọn thuộc tính
Input: Hệ quyết định DS =(U,C,D,V,f,d).
Output: Tập thuộc tính rút gọn R;
1. R = ;

2. Với bất kì a C - R, tính SigR(a) với thủ tục 2

3. sig R (b)  max │sigR(a)│,nếu sigR(b) 0 thì R = R {b}, quay lại bước
aC R

2 cho tới khi duyệt hết a;
4. Xuất tâp rút gọn thuộc tính R;
Độ phức tạp của thủ tục 3:
). Vì

Độ phức tạp tính tốn ở bước thứ hai của thủ tục 3 là
vậy độ phức tạp tính tốn của thủ tục là 3 là:
∑

∑

)

2

U)

Đánh giá độ phức tạp thuật toán 2.3:
Độ phức tạp tính tốn của thuật tốn là O(|C|2|U|).

2.2 Kỹ thuật sinh luật quyết định dựa trên tập thô
2.2.1 Thuật toán sinh luật quyết định dựa trên tập rút gọn của hệ quyết
định
2.2.1.1 Các khái niệm
Cho hệ quyết định DS = (U, C

D),giả sử U/C = {X1, X2, …, Xm} và U/D =

{Y1, Y2, …, Yn}. Với Xi U/C, Yj U/D và Xi ∩ Yj= . Thuật toán RuleExtract sinh các
luật quyết định dạng Zij: des(Xi) → des(Yj) với độ hỗ trợ supp = supp(Zij) = Xi Yj| / |U|; độ
chắc chắn cer = cer(Zij) = Xi Yj| / |Xi| và độ bao phủ cov = cov(Zij) = Xi Yj| / |Yj|.

13

2.2.1.2 Mơ tả thuật tốn
Thuật tốn 2.4 RuleExtract
Input: Hệ quyết định DS = (U, CD, V, f).
Output: Danh sách các luật với độ hỗ trợ supp, độ chắc chắn cer và độ bao phủ
cov;
1. Tính phân hoạchU/C;
2. For each Xi U/C{
3. TínhXi/D;
4. For each Yj Xi/D
5. Sinh luật Zij: des(Xi) → des(Yj)
6. Tính supp của Zij;
7. Tính cer của Zij;
8. Tính cov của Zij;
9. Xuất luật Zij, độ hỗ trợ sup, độ chắc chắn cer, độ bao phủ cov; };
}
2.2.2 Thuật tốn sinh luật quyết định có bổ sung thêm thuộc tính theo yêu cầu
của ngƣời dùng[5].
Nội dung của mục này được trình bày dựa theo [5].
2.2.2.1 Các khái niệm liên quan
Trong phần này, ta xem xét các vấn đề về việc cập nhật xấp xỉ trên và dưới của

một tập con X của U khi thêm và loại bỏ một thuộc tính.
Định lý1: Cho thuộc tính a A và a

P. Xấp xỉ dưới của X bằng cách thêm

thuộc tính a vào P có thể được cập nhật theo X, pX, {a}X và

{ }

{a}X

{ } 

Với Y = {x

pX

{a}X

như sau:
(8)

‫׀‬

{ }

b

}.

(9)

Định lý 2:
Cho thuộc tính a
được cập nhật theo X,
Với

p – {a}X

= { x in

P, xấp xỉ dưới của X bằng cách bớt đi phần tử a của P có thể
p – {a}X

như sau :

{ }

{b}X

I

Chú ý: Thuộc tính a sẽ không xét khi

{ }X = X { }

b⊄

p – {a}X(

X) =

p – {a}X

X}

(10)
(11)

14

Định lý3:
Cho thuộc tính a A và a
được cập nhật theo

pX

P. Xấp xỉ trên của X bằng cách thêm a vào P có thể
{ }X = x (

như sau:

pX

– Z)

(12)

Trong đó Z là tập của các đối tượng bổ sung mà được xác định bằng cách thêm

thuộc tính a vào P và được định nghĩa là:

= { x in

{ }

̅ {b}X |

{ }

{ }

b

̅{b}X }

(13)

Định lý 4:
Cho thuộc tính a
thể được cập nhật theo

P, Xấp xỉ trên của X bằng cách loại bỏ thuộc tính a từ P có
pX

Với Z’ = {x in

như sau:
{ }

bX

|

{ }X = X
{ }

pX

b⊄

Z’
{ }

(14)
{b}X

}

(15)

2.2.2.2 Mơ tả thuật tốn
Từ các khái niệm, tính chất của mục 2.2.2.1, ta có thuật tốn như sau đây.
Thuật tốn 2.5
Input:
1. Cho hệ quyết định với tập các thuộc tính A và dA là thuộc tính quyết
định;
// d gồm k lớp có nhãn là d1, d2, …, dk;
2. Thuộc tính điều kiện a là thuộc tính được bổ sung bởi người dùng;

Output:
Danh sách các luật quyết định khi thêm thuộc tính điều kiện a;
{
for each <lớp Xitrong thuộc tính quyết định> {
<Tính xấp xỉ dưới và xấp xỉ trên của Xitheo từng thuộc tính điều kiện>;
<Tính miền biên dưới và biên trên của Xitheo từng thuộc tính điều kiện>;
<Tính phủ R của tập tất cả các thuộc tính điều kiện>;
<Tính xấp xỉ dưới và xấp xỉ trên của XitheoR>;
<Tính miền biên dưới và biên trên của XitheoR>;
}
do{

15

< Xét a là thuộc tính được cung cấp bởi người dùng>;
if (a

R) {

<Cập nhật xấp xỉ và miền biên của Xitheo R - {a}>;
<Cập nhật xấp xỉ và miền biên của Xi theo R {a}>;}
else {

{a}>;}

<Sinh luật quyết định>;
while (Dừng theo yêu cầu của người dùng);
}

2.3 Kết luận chƣơng 2
Chương 2 luận văn đã khảo sát một số kỹ thuật tập thô giải quyết hai vấn đề:
rút gọn tập thuộc tính và sinh luật quyết định. Các thuật tốn trình bày trong chương
này có thể được ứng dụng để giải quyết các vấn đề xử lý dữ liệu trong các bài toán
thực tế.
Việc ứng dung các thuật toán trong xử lý dữ liệu sẽ được nghiên cứu trong
chương tiếp theo của luận văn.

16

CHƢƠNG 3 : ỨNG DỤNG TẬP THÔ TRONG XỬ LÝ DỮ LIỆU
Trong chương này luận văn sẽ khảo sát ứng dụng tập thơ để trích chọn đặc
trưng và phân lớp dữ liệu, đưa ra luật quyết định. Từ đó đề xuất mơ hình ứng dụng
tập thơ hỗ trợ chẩn đốn bệnh sốt rét. Các kết quả thử nghiệm cũng được đề cập đến
trong chương này của luận văn.

3.1 Xử lý dữ liệu theo hƣớng tiếp cận tập thô
Dữ liệu là một tập hợp các dữ kiện (số, chữ, hình ảnh, âm thanh, văn bản,…)
khơng có tổ chức, khơng có ý nghĩa rõ ràng nhưng có thể được sắp xếp để tạo thành
những thơng tin hữu ích.
Xử lý dữ liệu là một dãy các hành động hoặc các thao tác chuyển đổi các dữ
liệu đầu vào thành dữ liệu đầu ra hữu ích.

3.1.1 Q trình xử lý dữ liệu
Q trình xử lý dữ liệu thường tiến hành qua các giai đoạn [16]:
(1). Gom dữ liệu
(2). Trích lọc dữ liệu
(3) Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu

(4). Chuyển đổi dữ liệu
(5). Khai phá dữ liệu
(6). Đánh giá các luật và biểu diễn tri thức

3.1.2 Trích chọn đặc trưng dựa trên lý thuyết tập thơ
Lựa chọn thuộc tính (Feature Selection, Feature Extraction) là nhiệm vụ rất
quan trọng giai đoạn tiền xử lý dữ liệu khi triển khai các mô hình xử lý dữ liệu khác
nhau. Một vấn đề gặp phải trong thực tế là các tập dữ liệu cần xử lý thường chứa
nhiều thông tin không cần thiết (thậm chí gây nhiễu) cho việc xây dựng mơ hình làm
giảm độ chính xác của mơ hình và gây khó khăn trong việc phát hiện tri thức.

3.1.3 Phân lớp dữ liệu dựa trên lý thuyết tập thô
Phân lớp(classification) dữ liệu là một tiến trình xử lý nhằm xếp các mẫu dữ
liệu hay các đối tượng vào một trong các lớp đã được định nghĩa trước. Các mẫu dữ
liệu hay các đối tượng được xếp về các lớp dựa vào giá trị của các thuộc
tính(attributes) cho một mẫu dữ liệu hay đối tượng. Sau khi đã xếp tất cả các đối

17

tượng đã biết trước vào các lớp tương ứng, lúc này mỗi lớp được đặc trưng bởi tập các
thuộc tính của các đối tượng chứa trong lớp đó.[16]

3.2 Xây dựng ứng dụng tập thơ hỗ trợ chẩn đốn sớm bệnh sốt rét dựa trên
triệu chứng
3.2.1 Tổng quan về bệnh sốt rét
Sốt rét là bệnh truyền nhiễm lây theo đường máu, do ký sinh trùng sốt rét
Plasmodium gây ra, được truyền từ người bệnh sang người lành bởi muỗi Anopheles.
Bệnh sốt rét có thể gây thành dịch.Sốt rét là một trong những bệnh truyền nhiễm phổ
biến nhất và là vấn đề rất nghiêm trọng đối với sức khoẻ cộng đồng.

3.2.2 Xây dựng bài tốn ứng dụng
3.2.3 Đề xuất mơ hình giải quyết bài toán
3.3 Thử nghiệm và Kết quả
3.3.1 Dữ liệu thử nghiệm
3.3.2 Cài đặt thử nghiệm
3.3.3 Kết quả và đánh giá
3.4 Kết luận chƣơng 3
Chương này của luận văn đã khảo sát quá trình xử lý dữ liệu theo hướng tiếp
cận tập thơ bao gồm: q trình trích chọn đặc trưng dựa trên lý thuyết tập thơ,và q
trình phân lớp dữ liệu dựa trên tập thô . Trên cơ sở xem xét bệnh sốt rét, luận văn đã
xây dựng mô hình ứng dụng tập thơ hỗ trợ chẩn đốn bệnh sốt rét dựa trên các triệu
chứng..Các kết quả thử nghiệm đã chứng tỏ sự phù hợp với các lý thuyết đã nghiên
cứu trong chương 1 và 2.

18

KẾT LUẬN

Luận văn đã đạt được một số kết quả như sau:

Luận văn đã khảo sát tổng quan về tập thơ: trình bày các khái niệm liên
quan đến hệ thơng tin, hệ quyết định, các khái niệm, tính chất về tập thô, các
thông tin về xấp xỉ trên, xấp xỉ dưới, cách tìm tập xấp xỉ dưới, xấp xỉ trên của
tập thô;các khái niệm về luật quyết định, ma trận phân biệt được, hàm phân biệt
được. Luận văn cũng đề cập đến các độ đo đánh giá các luật quyết định và
thuật toán quyết định và khảo sát ứng dụng tập thơ trong trích chọn đặc trưng
và phân lớp dữ liệu.
Luận văn đã nghiên cứu các thuật toán trong việc tìm tập rút gọn các

thuộc tính của hệ thơng tin dựatrên tập thơ và các thuật tốn sinh luật quyết
định trong hệ quyết định dựa trênlý thuyết tập thô.
Luận văn đã khảo sát tổng quan về bệnh sốt rét. Trên cơ sở bộ dữ liệu
được trích rút từ thực tế, luận văn đã xây dựng và cài đặt ứng dụng tập thơ để
chẩn đốn sớm bệnh sốt rét dựa trên triệu chứng.

Hướng phát triển trong tương lai:
Học viên sẽ tiếp tục nghiên cứu, tìm hiểu các thuật tốn, cácphương
pháp rút gọn tập thuộc tính, các phương pháp sinh tập luật quyết địnhtrong hệ
quyết định dựa trên lý thuyết tập thô.
Học viên tiếp tục hoàn thiện cài đặt hệ thống đã xây dựng bước đầu
trong luận văn để có thể áp dụng thực tế, trong đó kể cả việc thu thập dữ liệu
đầu vào từ thực tế trên diện rộng hơn.

19

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Ngọc Minh Châu, Nguyễn Xuân Thảo (2013) -“Một thuật tốn tìm tập rút gọn
thuộc tính sử dụng ma trận phân biệt được” - Tạp chí Khoa học và Phát triển, T. 11, S.
5, Tr. 729-734.
[2] Lê Thị Luyến (2010) -“Bệnh học”–Nhà xuất bản Y học, Hà Nội.
[3] Vũ Thanh Nguyên, Nguyễn Đại Hữu, Trần Đức Tốt (2015) -“Sử dụng lý thuyết
tập thô cho việc tạo cấu trúc cây HAH trong phân đa lớp” - Tạp chí Khoa học ĐHSP
Tp. Hồ Chí Minh, S. 5 (70), Tr. 97-106.
Tiếng Anh
[4] Allam A.A., BakeirM.Y. and Abo-Tabl E.A (2008) -“ Some Methods

for

Generating Topologies by Relations”, Bull. Malays. Maths.Soc, V. 2, No 31, pp. 3545.
[5] ChanCC1998 – “A rough Sets approach to attribute genneralization in data
mining” – Juonal of Information Science V. 107, pp.69-176.
[6] Gao J., Ma H., Han Zh. (2015) - “Atribute Reduction Algorithm Based on
Discernibility Matrix with Algegebraic Method” - IIICEC, pp. 349-353.
[7] Ge H., Li L.S and Yang C.J. (2009) - “Improvement to Quicsck Attribution
Reduction Algorithm” - Journal of Computers, V.30, No2, pp. 308-312.
[8] Jensen, Richart, Qiang Shen (2007) -“Rough set based feature selection: A
rewiew” - Rough Computing.
[9] Li B., Chow W.S., Tang P. (2014) -“Analyzing Rough Set Based Attribute
Reductions by Extension Rule” - NeuroComputing, 123, pp. 185-196.
[10] Pawlak Z. (1998) –“Rough Set Theory and Its Application to Data Analysis” Cybernetics and Systems: An International Journal 29, pp. 661-688.
[11] Ranpure V., Tiwari A. (2014) –“A Rough Set Based Classification Model for The
Generation of Decision Rules” - International Journal of Database Theory and
Application, V. 7, No 5, pp. 95-108.
[12] Ranpure V., Tiwari A. (2015) – “A Rough Set Based Feature Selection on KDD
CUP 99 Data Set” - International Journal of Database Theory and Application, V. 8,
No 1, pp. 149-156.

20

[13] Vashist R., Gang M.L. (2011) –“Rule Generation based on Reduct and Core: A
Rough Set Approach” - International Journal of Computer Applicasion, V. 29, No 9,
pp. 1-5.
[14] Wang C.R. and Ou F.F. (2008) - “An Attribute Reduction Algorithm in Rough
Set Theory Based on Information Entropy” - International Symposium on
Computational Intelligence and Design, IEEE ISCID, pp. 3-6.
[15] Zhao W., Zhang Z. (2005) –“An Email Classification Model Based on Rough Set

Theory” - IEEE, pp. 403-408.
Trang WEB
[16] />

Nghiên cứu lý thuyết tập thô và ứng dụng trong xử lý dữ liệu (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về