Tải bản đầy đủ (.ppt) (31 trang)

Báo cáo tốt nghiệp TÌM HIỂU VÀ CÀI đặt THUẬT TOÁN PHÂN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.22 MB, 31 trang )

HVKTQS




 !"#$"%
Hc viên thc hin:

&'()*+



1

2



3



4
 !"#$%&'(
5
)
',' '/)

Trong thời đại bùng nổ công ngh thông tin, các công ngh lưu
trữ dữ liu ngày càng phát triển nhanh chóng tạo điều kin cho
các đơn vị thu thập dữ liu nhiều hơn và tốt hơn.



Khai thác dữ liu là quá trình trích xuất các thông tin có giá trị
tiềm ẩn trong những kho dữ liu. Khai thác dữ liu chỉ là một
khâu trong quy trình Khám phá tri thức trong cơ sở dữ liu.

Hin nay kỹ thuật khai thác dữ liu đang được áp dụng một
cách rộng rãi trong rất nhiều lĩnh vc kinh doanh và đời sống
khác nhau như: y tế, marketing, ngân hàng, viễn thông,
internet… Không ai có thể phủ định được những lợi ích to lớn
mà nhờ áp dụng kỹ thuật khai phá đem lại.
*
',' '/)

CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy
nhiên với tốc độ phát triển của công ngh hin nay, dữ liu
phình lên với tốc độ rất lớn, trung bình là 10% - 15% một năm,
điều này gây khó khăn không nhỏ cho vic áp dụng các phương
thức khai thác dữ liu kinh điển. Các thuật toán xử lý tuần t
đôi khi không thể thc hin trên những CSDL lớn.

Trong những năm gần đây, vic nghiên cứu cải tiến các thuật
toán tuần t trong khai thác dữ liu đang là hướng được nhiều
người quan tâm. Vic cải tiến được thc hin trên hai hướng:

           


 !"!#!#$%%
!&'%(##)
+

0123-4)56768-69:1

Kết quả đạt được

*+,-.%/#'%012
3#4567

*+,,&01283


2,94:;%!2<)=1
2>#?##03./'%/

Hướng phát triển

@8&-,&012
83,%$#;A1#,B8
C2="
,
.;*<,=(><'/)

Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các lớp C= {C1,…,Cm}, bài
toán phân lớp được phát biểu như sau: Xác định ánh xạ
f : D

C sao cho với mỗi ti được quy về một lớp Cj.

Về mặt thc chất, bài toán phân lớp chính là chia D thành các lớp tương
đương.
-

01 )?--@0*=.;*<,=(><'/)

Phân lớp sử dụng khoảng cách

Phân lớp theo thống kê xác suất

Cây quyết định

Mạng Neural

Các kỹ thuật khác

@(

@D

@#=
.
.)?--@0*ABC*D

Phân lớp /nhóm n đối tượng thành k nhóm da trên đặc
tính/thuộc tính của đối tượng (k

n nguyên, dương).
/
.)?--@0*ABC*D

Mỗi đối tượng được coi là 1 véc tơ m chiều
(m - số thuộc tính của đối tượng).


Vic phân lớp được thc hin da trên khoảng cách Euclidean nhỏ nhất
giữa đối tượng đến phần tử trung tâm của các lớp/nhóm.

Phần tử trung tâm của nhóm được xác định bằng giá trị trung bình các
phần tử trong nhóm
0
E*.2.@5*+101.F)1<'(BC*
A = {a1, a2 an} - Tập n đối tượng
aj=(xj1, xj2, xjm) j=1 n - phần tử thứ j cần phân loại
xjs s=1 m - thuộc tính của đối tượng
ci=(ci1, ci2, cim) i=1 k - phần tử trung tâm nhóm i
cis s=1 m - thuộc tính của phần tử trung tâm i
1("2&3
"3'45"36
78#"'
9'


=
−=∂
m
s
isjsij
cx
E
A
FG
:;

E*.<8'-@86&-;G1HCIJ*+

Clusteri = {a1, a2 at} – Nhóm thứ i

i=1 k, k số cluster

j= 1 m, m số thuộc tính

t - số phần tử hin có của nhóm thứ i

xsj - thuộc tính thứ j của phần tử s s=1 t

cij - toạ độ thứ j của phần tử trung tâm nhóm i;
t
x
cij
t
s
sj

=
=
E
(2)

01K9,11HC )?--@0*ABC*D
H
Khởi tạo ci i=1 k ngẫu nhiên
H
Lặp
IEJ K ,L 3#  M;% δ #% %N NOE 2 
OE3;(#>GEF

IAJ*$,P#2!;%δQ
IRJ@'%S$;(#>GAF
,33(#T,P#2=&U$2=!%#
$3
)
LM6N2.O'1HC )?--@0*ABC*D
Data input:
- n objects
- k clusters
Start
Initial k cluster centers
calculate
δ objects-centers
grouping based on
the δmin
No object
move group
recomput c
i
T
F
End
*
&=.P1-8=1HC )?--@0*

Số ô nhớ cần dùng để lưu trữ các đối tượng là O(mn) trong đó m là số
đối tượng còn n là số chiều (hay số thuộc tính) của các đối tượng

Còn độ phức tạp về thời gian của giải thuật K-MEANS là O(I*K*m*n)
trong đó I là số bước lặp cần thiết để giải thuật dừng (hội tụ), K là số

vùng
+
.9:16'QG

Vic khởi tạo phần tử trung tâm của nhóm ban đầu ảnh
hưởng đến s phân chia đối tượng vào nhóm trong trường
hợp dữ liu không lớn.

Số nhóm k luôn phải được xác định trước.

Không xác định được rõ ràng vùng của nhóm, cùng 1 đối
tượng, nó có thể được đưa vào nhóm này hoặc nhóm khác
khi dung lượng dữ liu thay đổi

Điều kin khởi tạo có ảnh hưởng lớn đến kết quả. Điều kin
khởi tạo khác nhau có thể cho ra kết quả phân vùng nhóm
khác nhau.

Không xác định được mức độ ảnh hưởng của thuộc tính đến
quá trình tạo nhóm.
,
)?-23-.:=

Gi I={I
1
, I
2
,…,I
m
} là tập m thuộc tính riêng bit, mỗi thuộc tính

gi là một item. Gi D là một CSDL, trong đó mỗi bản ghi T là
một giao dịch và chứa các tập item, T

I.

Định nghĩa 1: Một luật kết hợp là một quan h có dạng X

Y,
trong đó X, Y

I là các tập item gi là itemsets và X

Y=
φ
. Ở
đây X được gi là tiền đề, Y là mnh đề kết quả.

Hai thông số quan trng của luật kết hợp là độ hỗ trợ (s) và độ
tin cậy (c).

Định nghĩa 2: Độ hỗ trợ (support) của luật kết hợp X

Y là tỷ
l % các giao dịch có chứa X, Y với tổng số các giao dịch có
trong cơ sở dữ liu.

Định nghĩa 3: Độ tin cậy (confidence) của luật là tỷ l % của số
giao dịch có chứa X, Y với số giao dịch có chứa X.
-
)?-23-.:=


Vic tìm các luật kết hợp từ cơ sở dữ liu chính là vic tìm tất
cả các luật có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ
hỗ trợ và độ tin cậy do người sử dụng xác định trước. Các
ngưỡng của độ hỗ trợ và độ tin cậy được ký hiu là minsup và
mincof.

Ví dụ:
MV%;J
I;;W6%;XY3Z ⇒
[\
]
A
^@^
FI;;6%;XXY3G
===
σ
s
_`\
R
A
F6%;XY3G
FI;;6%;XY3XG
===
σ
σ
c
.
)?-23-.:=


Một số khái nim liên quan

@3;2$3;

@;aC2;$,bS1 
%=C#!

@;3G>#cF2;-
,V;Vd$2;aC3(#

Các thuật toán tìm luật kết hợp

@<ef

@fM@Y

@<

@M%
/
.)?--@0*$=R'@R'

Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items tạo từ
tập 1_item,……tập k items tạo từ tập k-1 items. Xây dng
luật từ tập phổ biến k items tìm được.

Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và độ
tin cậy.

Tính chất: mi tập item phổ biến thì tất cả các tập item con

của nó đều là phổ biến.
Qua 2 bước:

Tạo tập item phổ biến: tạo tất cả các tập item d kiến, tính
toán độ hỗ trợ, loại bỏ các tập d kiến không đạt minsup.

Tạo luật kết hợp: Từ các tập con của tập phổ biến xây dng
luật kết hợp và tính độ tin cậy của luật.
0
.)?--@0*$=R'@R'
1. Xác định các tập item phổ biến:

Xác định các tập ứng cử viên (C
k
).

Xác định các tập phổ biến (F
k
) da vào các tập ứng cử viên.

.)?--@0*$=R'@R'
1.1. Xác định C
k
:

Tìm các tập ứng cử viên 1 item.

Quét CSDL để xác định độ hỗ trợ của các tập ứng
cử viên. Tại vòng thứ k (k>1), các tập ứng cử viên
được xác định da vào các tập phổ biến đã xác định

tại vòng (k-1) sử dụng hàm Apriori_gen(). Sau khi
xác định được các tập ứng cử viên, thuật toán quét
từng giao dịch trong CSDL để xác định độ hỗ trợ
của các tập ứng cử viên. Quá trình xác định các tập
item phổ biến sẽ kết thúc khi không xác định được
thêm tập item phổ biến nào nữa.

.)?--@0*$=R'@R'
1.2. Nội dung hàm Apriori_gen()
+ F
k-1
được kết nối với chính nó thu được C
k
+ Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà
có 1 số tập con (k-1) không có trong F
k-1
. Sau đó nó trả về tập
item phổ biến kích thước k còn lại.
g?J
F
R
OZZEXAXRWXZEXAX[WXZEXRX[WX
ZEXRX]WXZAXRX[WW

<h;N
C
[
OZZEXAXRX[WXZEXRX[X]WW

<h;#J

C
[
OZZEXAXRX[WW
C;%!;ZEX[X]W!F
R
GZEXRX[X]W!;;F
)
.)?--@0*$=R'@R'
1<"
='
>? @
<"A
B
*
.)?--@0*$=R'@R'

Ví dụ tìm tập phổ biến
CX;[\
%XCXX;R\
CXX;A\
%XXE\
e;!@e6
CDEF
E
R;
R
RC
A%
fe;!;
%33B3E&%

G33&E
H3%
R;
R
RC
A%
fe;!;
I#&G&'E&E
C
%;
%
;
C;
%C
e;!;
G33&E
;
C;
C
%;
%
%C
e;!;
A
E
A
A
R
E
f

("
H3%
;
C;
C
%
e;!;
A
A
A
R
f
I#&G&'E&E
C;
e;!;
)G33&E
C;
e;!;
A
f
I#&)G&'E&E
H3%
+
.)?--@0*$=R'@R'
2. Sinh các luật kết hợp từ các item phổ biến:

Tìm tất cả các tập con không rỗng h của tập item phổ biến f

F


Với mỗi tập con h tìm được, ta xuất ra luật dạng (h)

(f-h) nếu tỉ l
support(f)/support(h)

mincof.

×