Tải bản đầy đủ (.ppt) (33 trang)

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.01 MB, 33 trang )

BÁO CÁO LUẬN VĂN THẠC SỸ
NGHIÊN CỨU MỘT SỐ KỸ THUẬT
KHAI PHÁ DỮ LIỆU MỜ VÀ ỨNG DỤNG
Học viên: Hoàng Hà
Người hướng dẫn: TS. Nguyễn Công Hào
Nghiên cứu một số kỹ thuật khai phá
luật kết hợp mờ
Lý thuyết tập mờ
Đại số gia tử
2

Tìm hiểu các vấn đề trong khai phá luật kết hợp đối với
thuộc tính số, ĐSGT

Tìm hiểu thuật toán khai phá luật kết hợp mờ tổng quát

Nghiên cứu thuật toán khai phá luật kết hợp mờ tổng quát
theo hướng tiếp cận ĐSGT
3

Tìm hiểu các kiến thức liên quan

Thuật toán khai phá luật kết hợp mờ tổng quát theo hướng
lý thuyết tập mờ

Thuật toán khai phá luật kết hợp mờ tổng quát theo hướng
ĐSGT

Cài đặt thuật toán

Đánh giá thuật toán



Kết luận và hướng phát triển
4

Các vấn đề khi chuyển đổi thuộc tính số lượng sang thuộc
tính nhị phân
5

A.v
1,
A.v
2
,…, A.v
k
: k đủ bé

A.v
i
bằng true nếu giá trị bản ghi tại thuộc tính A ban đầu
bằng v
i


Ví dụ 1
6

<A:start
1
end
1

>, <A:start
p
end
p
>

: p lớn

<A:start
i
end
i
>

bằng true nếu bản ghi tại thuộc tính A ban
đầu nằm trong khoảng <A:start
i
end
i
>

Ví dụ 2
7

Khi rời rạc hóa theo khoảng đưa đến các vấn đề
Suy luận

Không đủ độ hỗ trợ, bỏ sót 1 số khoảng thú vị

Nhấn mạnh tầm quan trọng của một khoảng nào đó

Ngữ nghĩa

Giá trị của thuộc tính chỉ cách nhau một giá trị đơn vị
nhưng lại ở 2 khoảng khác nhau

8
9

Biến ngôn ngữ:

Khái niệm về ĐSGT: Miền giá trị của biến ngôn ngữ có thể
được biểu thị như một đại số gia tử (ĐSGT) X = (X, G, H,

),
G là tập các từ nguyên thủy được xem là các phần tử sinh
H là tập các từ nhấn gọi là các gia tử
H được chia làm hai phần rời rạc H
+
, H
-
lần lượt là tập các
gia tử dương và các gia tử âm
≤: là một quan hệ thứ tự có ngữ nghĩa trên X
Trong ĐSGT, mỗi phần tử x

X đều mang dấu âm hay
dương
(Sử dụng hàm Sign)
10
11


Với biến ngôn ngữ X chứa các giá trị ngôn ngữ mang một
thông tin mờ nhất định gọi độ mờ của giá trị ngôn ngữ được
xác định thông qua hàm fm: X

[0,1] và x X ∀ ∈ đặt fm(x)
= |I(x)| [0,1] với I⊆
k
(x) được xem là khoảng mờ mức k của
giá trị ngôn ngữ x, với k là độ dài của x.

Dựa vào các khoảng mờ mức k, ta đưa ra cách biểu diễn
khoảng cho các giá trị ngôn ngữ như sau:

Gọi O
min,k
(x) là một lân cận tối thiểu mức k của x chứa giá trị
tương thích nhất ngữ nghĩa của x với |x| = j, được tính theo
công thức:
O
min,k
(x) = I
k+1
(h
-1
x)

I
k+1
(h

1
x) nếu k = j (1)
O
min,k
(x) = I
j
(x) nếu 1

k < j (2)
O
min,k
(x) I
k+1
(h
m
y)

I
k+1
(h
n
y

) nếu j+ 1

k

k
*
(3)


Suy ra, một biểu diễn khoảng cho x là:
IRP(x) = {O
min,k
(x)|1≤k≤k
*
}
Ví dụ 3: Cho ĐSGT của biến ngôn ngữ chiều cao là AX =
(X, G, H,

)
G = {thấp,cao }
H
-
= {gần, ít}
H
+
= {khá, rất,} với rất> khá và ít > gần; fm(thấp) = 0.42,
fm(cao) = 0.58,
µ
(gần) = 0.27,
µ
(ít) = 0.25,
µ
(khá) = 0.28,
µ
(rất) = 0.20,
Từ giả thiết trên ta có
α
= 0.52,

β
= 0.48.
Xây dựng một biểu diễn khoảng cho giá trị ngôn ngữ x = rất
cao
12
13

Ta có I(cao) = fm(cao) = 0.58. Vì rất cao > cao nên sign(rất
cao) = +1
{I(rất cao), I(khá cao), I(gần cao), I(ít cao)} là một phân
hoạch của I(cao), I(cao) = [0.42, 1].
Giả sử ta phân mức với k = 2

Xét với k =1: Ta có fm(rất cao) =
µ
(rất)*fm(cao) = 0.2*.0.58
= 0.116 nên I(rất cao) = (0.884, 1]. Suy ra O
min,1
(rất cao) =
I(rất cao) = (0.884, 1].

Xét với k =2: Ta có fm(khá rất cao) = 0.032, fm(rất rất cao)=
0.023, fm(gần rất cao) = 0.031 nên I(khá rất cao) = (0.945,
0.977], I(rất rất cao) = ( 0.977, 1], I(gần rất cao) = (0.914,
0.945]. Suy ra O
min,2
(rất cao) = I(gần rất cao)

I(khá rất
cao) = (0.914, 0.977].


Đầu vào: CSDL n giao tác số
Tập mờ và các hàm thành viên
Phân cấp được định nghĩa trước,
minsup và minconf

Đầu ra: Tập các luật kết hợp tổng quát mờ

Phương pháp:

Bước 1: Thêm các ance

Bước 2: Chuyển các giá trị số v
ij
về dạng

f
ij1
/R
j1
+ f
ij2
/R
j2
+…+ f
ijh
/R
jh
14


Bước 3: Tính bản số vô hướng của mỗi vùng mờ R
jl


count
jl
=

Bước 4: Tìm max-count
j
=

Bước 5: Kiểm tra max-count
j
≥ α

L
1
= {max-R
j
│ max-count
j
≥ α }

Bước 6: Tạo ra tập ứng cử C
2
từ L
1

Bước 7: Đối với mỗi 2-itemset s với mục (s

1
, s
2
)

Tính toán lấy giá trị vùng mờ f
is
= min(f
is1
, f
is2
).

Tính toán bản số vô hướng s trong CSDL giao tác

count
s
=

Nếu count
s
≥ α thì đưa s vào L
2
15

Bước 8: Nếu L
2
≠ϴ thực hiện bước tiếp theo

Bước 9: Đặt r = 2


Bước 10: Tạo ra tập ứng viên C
r+1
từ L
r

Bước 11: Đối với mỗi (r+1)-itemset s, thì các bước tính toán
cũng được thực hiện như bước 7

Bước 12: Nếu L
r+1
≠ϴ thì đặt r = r+1 và lặp lại các bước 10
đến bước 12.

Bước 13: Xây dựng các luật kết hợp cho tất cả q-itemset lớn s
chứa (s
1
, s
2
,…, s
q
), q ≥ 2
- Tạo tất cả các luật có thể
- Tính toán các giá trị độ tin cậy của tất cả các luật trên bằng
cách sử dụng công thức sau:

Bước 14: Giữ lại những luật có giá trị độ tin cậy lớn hơn hoặc
bằng ngưỡng tin cậy được định nghĩa trước λ.
16


Đặt vấn đề:

Việc xây dựng hàm thuộc cho các tập mờ

Hướng tiếp cận theo ĐSGT

Đầu vào: CSDL n giao tác số
Phân cấp được định nghĩa trước,
minsup và minconf

Đầu ra: Tập các luật kết hợp tổng quát mờ
17

Phương pháp:

Cách chuyển các giá trị số về đoạn [0,1] bằng công thức
(3.1) như sau:

Xác định các vùng mờ:
Dựa trên độ đo mờ gia tử dương, âm, và các phần tử sinh,
tính
các độ đo mờ của các gia tử tác động lên giá trị ngôn ngữ và
các phân hoạch giá trị ngôn ngữ:
fm (h
e
c
-
), fm(h
e
c

+
), tính I (h
e
c
-
), I(h
e
c
+
)
Dựa vào tính chất về quan hệ thứ tự của gia tử h
-q
< h
-q+1

<…<h
-1
<h
1
<…<h
p
nên ta có I(h
p
c
-
) = [0,

p
w), I(h
p-1

c
-
) =
[

p
w,

p
w+

p-1
w),…., I(h
-q
c
-
) = [

-q+1
w,

-q+1
w+

-q
w).
Đặt

=


-q+1
w+

-q
w
18

Tương tự ta tính I(h
-q
c
+
) = [∂,∂ +∂
-q
(1-w)), I(h
-q+1
c
+
) = [∂
+ ∂
-q
(1-w), ∂ +∂
-q
(1-w)+∂
-q+1
(1-w)), …, I(h
p
c
+
) = (∂ + ∂
-q

(1-
w)+∂
-q+1
(1-w)+ +∂
p
, 1];

Xác định các giá trị ngôn ngữ x

Tính toán các giá trị ngôn ngữ ở các mức k khác nhau sẽ
thu được các luật kết hợp mờ khác nhau bằng cách tính
lân cận tối thiểu mức k của x theo công thức (1) (2) (3)

k: hữu hạn (k = 3)

k=1, xác định các H(hx) để tính các lân cận tối thiểu

H(hx) là tập các giá trị ngôn ngữ có kích thước khác
nhau chứa x
19

Các bước thực hiện như đối với thuật toán tương tự như đối
với thuật toán đã trình bày ở trên

Khác biệt:
Bước 14 có 2 trường hợp xảy ra như sau:
Trường hợp thứ 1:Tìm ra được luật
Xét xem các giá trị độ tin cậy tìm ra được của luật tương
ứng với giá trị ngôn ngữ thuộc vùng mờ nào.Sau đó gán
k=k+1, quay lại bước 2

Trường hợp 2: Ngược lại thì thoát khỏi thuật toán
20

Ví dụ 4: Với bảng các giao tác sau:
21
22

X
số lượng
= (X
số lượng
, G
số lượng
, H
số lượng
,

)

G
số lượng
= {cao, thấp}

H
+
số lượng
= {rất, hơn}

H
-

số lượng
= {khả năng, ít}

rất > hơn, ít > khả năng

Đặt fm(thấp) = 0.7, fm(cao) = 0.3,
µ
(rất) = 0.11,
µ
(hơn) =
0.2,
µ
(khả năng) = 0.3,
µ
(ít) = 0.4

Dom(số lượng) = {2, 3, 4, 5, 7, 8,9, 10,12}

Chuyển các giá trị này về đoạn [0,1]

vì rất thấp < hơn thấp < thấp < khả năng thấp < ít thấp nên

I(rất thấp) = [0, 0.07), I(hơn thấp) = [0.07, 0.21), I(khả năng thấp) =
[0.21, 0.455), I(ít thấp) = [0.455, 0.7).

I(ít cao) = [0.7, 0.805), I(khả năng cao) = [0.805, 0.91), I(hơn cao) =
[0.91, 0.97), I(rất cao) = [0.97, 1].
Xét k = 1

O

min, 1
(thấp) = I (khả năng thấp)

I (hơn thấp)=[0.07, 0.455)

O
min, 1
(cao) = I (khả năng cao)

I (hơn cao) = [0.805, 0.97)

O
min, 1
(khả năng thấp) = I (khả năng thấp)
= [0.21, 0.455)

O
min, 1
(ít thấp) = I (ít thấp) = [0.455, 0.7)

O
min, 1
(hơn thấp) = I (hơn thấp) = [0.07, 0.21)

O
min, 1
(rất thấp) = I (rất thấp) = [0, 0.07)

23


O
min, 1
(ít cao) = I (ít cao) = [0.7, 0.805)

O
min, 1
(khả năng cao) = I (khả năng cao)=[0.805, 0.91)

O
min, 1
(hơn cao) = I (hơn cao) = [0.91, 0.97)

O
min, 1
(rất cao) = I (rất cao) = [0.97, 1]
Với k = 2 ta lần lượt tính các O
min,2
(x) với k = j = 2
O
min, 2
(rất cao), O
min,2
(hơn cao), O
min, 2
(khả năng cao), O
min,2
(ít
cao)…
O
min, 2

(rất cao) = [0,982, 0.987)
tính các O
min,2
(x) với k < j = 3
O
min, 3
(rất rất cao), O
min, 3
(hơn rất cao), O
min, 3
(khả năng rất
cao), O
min, 3
(ít rất cao)
O
min, 3
(rất rất cao) = [0.997, 1]
24
25

×