Tải bản đầy đủ (.pdf) (27 trang)

Ứng dụng khai phá luật kết hợp trong phân tích dữ liệu sử dụng web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.83 MB, 27 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VƯƠNG THỊNH

ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP
TRONG PHÂN TÍCH DỮ LIỆU SỬ DỤNG WEB

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – Năm 2012


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VƯƠNG THỊNH

ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP
TRONG PHÂN TÍCH DỮ LIỆU SỬ DỤNG WEB

Ngành:
Chuyên ngành:
Mã số:

Công nghệ thông tin
Hệ thống thông tin
60 48 05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN


NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM

Hà Nội – Năm 2012


3

MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................... 1
LỜI CẢM ƠN ........................................................................................................... 2
MỤC LỤC ................................................................................................................. 3
DANH MỤC CÁC BẢNG ....................................................................................... 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................. 6
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN ........................................................... 9
1.1. Khai phá dữ liệu sử dụng web......................................................................... 9
1.2. Phát biểu bài toán khai phá luật kết hợp từ dữ liệu sử dụng web ................. 11
1.3. Hướng tiếp cận của đề tài .............................................................................. 12
1.4. Kết luận chương 1 ......................................................................................... 13
CHƯƠNG 2: LUẬT KẾT HỢP VÀ CÁC KỸ THUẬT KHAI PHÁ LUẬT
KẾT HỢP ................................................................................................................ 14
2.1. Khái niệm về luật kết hợp và tập phổ biến.................................................... 14
2.2. Luật kết hợp trong dữ liệu sử dụng web ....................................................... 15
2.3. Một số nghiên cứu về khai phá luật kết hợp ................................................. 15
2.4. Khai phá sử dụng Web với giải thuật Apriori ............................................... 19
2.5. Các kỹ thuật khai phá song song luật kết hợp............................................... 24
2.6. Những vấn đề đặt ra khi khai phá luật kết hợp từ dữ liệu web log ............... 30
2.7. Kết luận chương 2 ......................................................................................... 36
CHƯƠNG : TƯ TƯ NG CHIA Đ T Ị T ONG KHAI PHÁ LUẬT KẾT
HỢP ......................................................................................................................... 37
3.1. p dụng chiến lược Chia để trị trong bài toán khai phá luật kết hợp ....... 37

3.2. Cơ sở toán học cho việc áp dụng chiến lược Chia để trị ........................... 38
3.3. Mô hình hệ thống khai phá luật kết hợp từ dữ liệu sử dụng web dựa trên
chiến lược Chia để trị ........................................................................................ 40
3.4. Tư tưởng Chia để trị trong khai phá song song luật kết hợp từ dữ liệu sử
dụng web .............................................................................................................. 46
3.5. Sinh các tập phổ biến cục bộ ......................................................................... 50
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

LUẬN VĂN THẠC SỸ


4
3.6. Sinh các luật kết hợp mạnh từ các tập phổ biến ............................................ 51
3.7. Kết luận chương 3 ......................................................................................... 52
CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM ......................................................... 54
4.1. Đặc trưng của dữ liệu thực nghiệm ............................................................... 54
4.2. Các thao tác tiền xử lý dữ liệu....................................................................... 54
4.2.1. Lọc dữ liệu ............................................................................................. 55
4.2.2. Gán nhãn thời gian ................................................................................. 57
4.2.3. Phân định các phiên truy cập ................................................................. 58
4.3. Một số kết quả thực nghiệm .......................................................................... 63
4.3.1. Mục tiêu của quá trình thực nghiệm ...................................................... 63
4.3.2. Các hệ thống tham gia vào quá trình thực nghiệm ................................ 64
4.3.3. Tổ chức dữ liệu và cách thức tiến hành thực nghiệm ............................ 65
4.3.4. Kết quả thực hiện và đánh giá ................................................................ 66
4.4. Kết luận chương 4 ......................................................................................... 71
KẾT LUẬN ............................................................................................................. 72
TÀI LIỆU THAM KHẢO ..................................................................................... 74

NGUYỄN VƯƠNG THỊNH – LỚP K15T4


LUẬN VĂN THẠC SỸ


2

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN
S bùng nổ ủa Internet đã khiến ho World Wide Web tr th nh
một kho dữ liệu khổng lồ với s l ợng v ùng lớn á máy hủ web rải
rá khắp n i tr n thế giới. Kho t i nguy n dữ liệu Web tiềm ẩn nhiều
mẫu th ng tin quý giá đ i với mỗi á nhân, tổ hứ hay ả ộng đồng.
Trong những năm gần đây, lĩnh v khai phá web (Web Mining) đã ó
những b ớ phát tri n mạnh mẽ, thu hút s quan tâm ủa nhiều nh
nghi n ứu v á nhóm phát tri n ứng dụng.
Khai phá dữ liệu sử dụng web (Web Usage Mining) l một h ớng
nghi n ứu quan tr ng trong khai phá web. Cá máy hủ web th ờng
ghi lại v tí h lũy á dữ liệu phản ánh hoạt động ủa ng ời dùng mỗi
khi nó nhận đ ợ một y u ầu truy ập. Từ những hồ s truy ập web
(hay òn g i l web log), áp dụng á kỹ thuật khai phá dữ liệu ó th
giúp khám phá ra các tri thứ hữu í h li n quan đến quá tr nh t ng tá
ủa ng ời dùng với Internet m ụ th l á trang Web.
Trong luận văn n y, tá giả l a h n h ớng tiếp ận d a tr n khai
phá luật kết hợp nh m á đ nh ra u h ớng truy ập ủa ng ời dùng
đ ợ phản ánh b i á tập phổ biến. Cá phân tí h n y ó th giúp ấu
trú lại á website trong á phân nhóm hiệu quả h n, hay á đ nh ra
v trí đặt á banner quảng áo hiệu quả nhất, ũng nh gắn việ quảng
áo á sản phẩm nhất đ nh ho những ng ời dùng quan tâm đ đạt hiệu
quả ao nhất,…
Khi áp dụng khai phá luật kết hợp v o dữ liệu web log, ta vấp
phải một s những vấn đề sau đây:

1. Dung l ợng dữ liệu đ v o từ tập tin web log ó th quá lớn
đến mứ kh ng th áp dụng tr tiếp á giải thuật khai phá luật
kết hợp do s hạn hế về bộ nhớ trong ủa hệ th ng tính toán.
2. Bản thân dữ liệu web log ó th đ ợ ghi lại một á h phân tán
tr n á tập tin rời rạ (theo từng hu kỳ thời gian
giờ/ng y/tuần/tháng/năm) v dữ liệu th ờng uy n đ ợ phát
sinh mới sau mỗi hu kỳ. Tuy nhi n khi tiến h nh khai phá dữ
liệu th ta ần khai phá to n bộ dữ liệu từ á tập tin n y nh
một hỉnh th . Việ dữ liệu phát sinh mới sẽ khiến kết quả khai
phá tr ớ đó kh ng òn hính á v húng ta phải tiến h nh
khai phá lại từ đầu sau khi dữ liệu đầu v o đã đ ợ ập nhật.
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


3
Liệu ó á h n o ó th tận dụng đ ợ á kết quả khai phá
tr ớ đó hay kh ng l một vấn đề đặt ra.
Trong luận văn, tá giả kh ng tiếp ận d a tr n việ ải tiến á
giải thuật khai phá luật kết hợp đã ó hay đề uất áp dụng một giải thuật
mới m tiếp ận giải quyết vấn đề từ gó độ dữ liệu v o.
T t ng Chia đ tr (Divide and Conquer) đ ợ tá giả đề uất
áp dụng khi ử lý tập dữ liệu v o. Chia đ tr l một á h tiếp ận hết
sứ t nhi n khi giải quyết b i toán. Tập dữ liệu vào sẽ đ ợ phân hia
th nh á tập dữ liệu on ( ó kí h th ớ phù hợp với bộ nhớ trong) và
ó th đ ợ ử lý độ lập nhau. Cá kết quả ử lý n y sẽ đ ợ tổng hợp
lại đ thu đ ợ kết quả mong mu n. Trong luận văn, tá giả sẽ tập trung
tr nh b y
s toán h

ũng nh hứng minh tính đúng đắn ủa việ
áp dụng hiến l ợ Chia đ tr khi ử lý tập dữ liệu v o v đồng thời
đề uất một m h nh hệ th ng phân tí h dữ liệu thu đ ợ từ tập tin á
web log đ đ a ra á luật kết hợp. Cá s liệu th nghiệm ũng đ ợ
tr nh b y một á h đầy đủ đ l m
s so sánh. Cá h thứ tiếp ận d a
tr n t t ng Chia đ tr ó nhiều u đi m, trong đó ó hai u đi m
lớn nhất đó l :
1. Độc lập với các giải thuật khai phá dữ liệu được sử dụng: Khi
tiến h nh ử lý á tập dữ liệu on, ta ó th l a h n một giải
thuật khai phá dữ liệu phù hợp. Thậm hí, kh ng nhất thiết tất ả
á tập dữ liệu on đều phải sử dụng ùng một giải thuật m mỗi
tập dữ liệu on ó th dùng một giải thuật khá nhau đ ử lý.
2. Có thể xử lý độc lập trên các hệ thống tính toán khác nhau:
Cá tập dữ liệu on ó th đ ợ ử lý song song v ho n to n độ
lập tr n ùng một hệ th ng tính toán hoặ tr n á hệ th ng khá
nhau.
B i toán khai phá luật kết hợp kh ng phải l b i toán mới trong
khai phá dữ liệu, tuy nhi n đây l lĩnh v
ó nhiều ứng dụng trong th
tế v đang đ ợ rất nhiều nh nghi n ứu quan tâm, đề uất á thuật
toán đ giải quyết. Khi áp dụng m h nh luật kết hợp v o dạng dữ liệu
đặ thù l dữ liệu web th việ l a h n một thuật toán khai phá dữ liệu
phù hợp l yếu t v ùng quan tr ng. Trong h ng 2, tá giả sẽ tập
trung tr nh b y s bộ một s các kỹ thuật khai phá luật kết hợp đã đ ợ
phát tri n v á vấn đề gặp phải khi áp dụng với dữ liệu web log.

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN



4

CHƯƠNG 2: LUẬT KẾT HỢP VÀ CÁC KỸ
THUẬT KHAI PHÁ LUẬT KẾT HỢP
2.1 Luật kết hợp trong dữ liệu sử dụng web
Sau khi dữ liệu truy ập web đã đ ợ tiền ử lý, á đ nh rõ dữ
liệu t ng ứng với từng ng ời dùng v từng phi n truy ập th một trong
những vấn đề th tiễn đặt ra l những trang web (hay những tập tin t i
nguy n) n o th ờng đ ợ truy ập ùng với nhau. Về
bản, một khi
đã phân đ nh đ ợ á phi n truy ập, ta ó th áp dụng m h nh luật kết
hợp v o dữ liệu thu đ ợ . Mỗi trang web hay tập tin đ ợ truy ập đóng
vai trò l một mụ , một phi n truy ập đ ợ em l một giao d h. Dữ
liệu truy ập web lú n y đ ợ em l một
s dữ liệu giao d h v ó
th sử dụng á thuật toán khai phá luật kết hợp. Cá luật kết hợp ó th
đ ợ sử dụng đ li n kết những trang th ờng đ ợ truy ập ùng với
nhau trong một phi n truy ập. Trong ngữ ảnh ủa khai phá sử dụng
web th á luật kết hợp hỉ ra tập hợp á trang web th ờng đ ợ truy
ập ùng với nhau với độ hỗ trợ lớn h n một ng ỡng quy đ nh tr ớ .
Cá trang web n y kh ng nhất thiết phải đ ợ kết n i với nhau th ng
qua á si u li n kết (hyperlink). Việ sử dụng á giải thuật khai phá
luật kết hợp ó th giúp phát hiện ra m i t ng quan giữa những ng ời
dùng đã viếng thăm á trang web khá nhau.

2.2. Khai phá sử dụng Web với giải thuật Apriori
Giả sử sau khi tiền ử lý dữ liệu thu đ ợ từ web log, ta á đ nh
đ ợ á phi n truy ập ủa ng ời dùng nh bảng 2.1. đây mỗi phi n

truy ập ó th oi l một giao d h v mỗi trang đ ợ truy ập l một
mụ . Việ áp dụng giải thuật Apriori ó th giúp á đ nh đ ợ những
trang n o th ờng đ ợ truy ập ùng với nhau. Những mẫu thu đ ợ sẽ
ung ấp những tri thứ rất hữu í h phụ vụ ho những lĩnh v nh tiếp
th điện tử hay tổ hứ lại website sao ho thuận tiện nhất đ i với ng ời
dùng.
ngắn g n, ta ký hiệu á trang đã truy ập nh sau:
/shopping/ omesti .htm
I1
/shopping/fashion.htm
I2
/sport.htm
I3
/news.htm
I4
/ ars.htm
I5

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


5
Ta ó
s dữ liệu giao d h D gồm 9 giao d h với á tập mụ nh
bảng 2.2.
Bảng 2.1: Các phiên truy cập của một người dùng
Phiên truy
Các trang đã truy cập

cập
Session 1
/shopping/ omesti .htm ,
/shopping/fashion.htm
/ ars.htm
Session 2
/shopping/fashion.htm , /news.htm
Session 3
/shopping/fashion.htm , /sport.htm
Session 4
/shopping/ omesti .htm ,
/shopping/fashion.htm
/news.htm
Session 5
/shopping/ omesti .htm , /sport.htm
Session 6
/shopping/fashion.htm , /sport.htm
Session 7
/shopping/ omesti .htm , /sport.htm
Session 8
/shopping/ omesti .htm ,
/shopping/fashion.htm
/sport.htm , / ars.htm
Session 9
/shopping/ omesti .htm ,
/shopping/fashion.htm
/sport.htm

,


,

,
,

Bảng 2.2: Cơ sở dữ liệu giao dịch D
Giao dịch
Tập mục
T01
I1, I2, I5
T02
I2, I4
T03
I2, I3
T04
I1, I2, I4
T05
I1, I3
T06
I2, I3
T07
I1, I3
T08
I1, I2, I3, I5
T09
I1, I2, I3
Thuật toán Apriori l một thuật toán kinh đi n áp dụng trong khai
phá luật kết hợp. Thuật toán d a tr n nguy n lý Apriori tập on bất kỳ
ủa một tập phổ biến ũng l một tập phổ biến . Mụ đí h ủa thuật
toán Apriori l t m ra đ ợ tất ả á tập phổ biến ó th ó trong

s
dữ liệu giao d h D. Thuật toán hoạt động theo nguy n tắ quy hoạ h
động, nghĩa l từ á tập Fi = { ci | ci l tập phổ biến, | i| = 1} gồm m i
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


6
tập mụ phổ biến ó độ d i i (1 ≤ i ≤ k), đi t m tập F k+1 gồm m i tập
mụ phổ biến ó độ d i k+1. Cá mụ i1, i2,…, in trong thuật toán đ ợ
sắp ếp theo một thứ t
đ nh.
Thuật toán Apriori:
Input:
C s dữ liệu giao d h D = {t1, t2,…, tm}.
Ng ỡng t i thi u minsup > 0.
Output:
Tập hợp tất ả á tập phổ biến.
Begin
Tính sup(ij) = count(ij)/m ho mỗi mụ i1, i2,…, in b ng
á h quét CSDL một lần v đếm s lần uất hiện ủa mỗi
mụ ;
Tập ứng vi n ó độ d i 1 l C1 = {i1, i2,…, in};
Tập á tập phổ biến ó độ d i 1 l F1 = {ij | ij ∈ C1, sup(ij)
≥ minsup};
k=1;
termination = false;
Repeat
Fk+1 = ⍉;

Tạo tập ứng vi n Ck+1 b ng á kết hợp á phần tử
ó độ d i k có k-1 mụ trùng nhau v loại bỏ á ứng
vi n ó hứa tập on độ d i k kh ng thuộ Fk;
Quét CSDL một lần v tính toán độ hỗ trợ ho mỗi
phần tử ủa Ck+1. Nếu độ hỗ trợ lớn h n minsup th
kết nạp phần tử đó v o Fk+1;
If Fk+1 = ⍉ then termination=true
Else k=k+1;
Until termination;
End;
Thủ tụ tạo tập ứng vi n Ck+1 ó nhiệm vụ sinh ra (generation)
á tập mụ ó độ d i k+1 từ á tập mụ ó độ d i k trong tập F k. Thủ
tụ n y đ ợ thi h nh th ng qua việ n i (join) á tập mụ ó hung
á tiền t (prefi ) v sau đó áp dụng nguy n lý Apriori đ loại bỏ bớt
những tập kh ng thỏa mãn

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


7

2.3. Những vấn đề đặt ra khi khai phá luật kết hợp từ dữ liệu
web log
Có rất nhiều vấn đề đặt ra khi khai phá dữ liệu sử dụng web từ
á tập tin web server log.
i với luận văn n y, tá giả tập trung v o
á vấn đề sau đây:
 Dữ liệu cần xử lý quá lớn:

Tất ả á giải thuật khai phá luật kết hợp, dù hiệu quả đến đâu
ũng sẽ b giới hạn b i dung l ợng bộ nhớ ủa hệ th ng tính toán. Khi
s l ợng bản ghi ần ử lý quá lớn, nếu kh ng áp dụng á kỹ thuật ử
lý bổ sung ó th l m hệ th ng tính toán b treo. Dung l ợng dữ liệu
truy ập web ủa á máy hủ đ ợ ghi lại d ới dạng á tập tin log
trong ùng một khoảng thời gian ó th l rất khá nhau tùy theo s
l ợng truy ập đ ợ gửi đến máy hủ. Dung l ợng n y ó th r i v o
khoảng v i hụ đến h ng trăm megabyte mỗi ng y (t ng ứng với
khoảng v i ng n đến h ng trăm ng n bản ghi). L ợng dữ liệu tí h lũy
đ ợ ghi lại sau v i tuần hay v i tháng ó th l n tới h ng gigabyte.
Câu hỏi đặt ra l ta sẽ phải l m g khi dung l ợng dữ liệu ần ử
lý v ợt quá giới hạn về bộ nhớ ủa hệ th ng tính toán. Một trong những
á h t duy hết sứ t nhi n đó l hia nhỏ tập dữ liệu th nh á phần
ó dung l ợng vừa với kí h th ớ bộ nhớ trong v ử lý từng phần độ
lập. Giải pháp ho vấn đề n y sẽ đ ợ tr nh b y trong h ng tiếp theo.
 Dữ liệu thường xuyên có sự phát sinh mới và quá trình khai phá
đòi hỏi phải được thực hiện thường xuyên, liên tục
Một trong những thá h thứ khá khi tiến h nh khai phá dữ liệu
sử dụng web từ á tập tin server log đó l dữ liệu đ ợ ập nhật li n
tụ . Một s phần mềm máy hủ web ho phép á nh quản tr l a h n
á h thứ ghi lại dữ liệu truy ập tr n nhiều tập tin log, mỗi tập tin log
mới sẽ đ ợ tạo ra sau một hu kỳ nhất đ nh (ng y/tuần/tháng) hoặ khi
dung l ợng tập tin v ợt quá một giới hạn ho tr ớ . Ngo i ra nh quản
tr ũng ó th l a h n ghi lại to n bộ dữ liệu truy ập web l n một một
tin log duy nhất v kí h th ớ tập tin n y sẽ gia tăng mãi.
Vấn đề n y ó th đ ợ phát bi u một á h tổng quát nh sau:
Giả sử tại thời đi m t1 ta ó
s dữ liệu giao d h D v ta đã tiến h nh
khai phá tr n
s dữ liệu giao d h n y, thu đ ợ á tập phổ biến

ũng nh á luật kết hợp t ng ứng. ến thời đi m t 2, phát sinh thêm
một tập á giao d h l ∆D. C s dữ liệu giao d h lú n y l D’ = D ∪
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


8
∆D. Câu hỏi đặt ra l đ khai phá
s dữ liệu giao d h D’ ta ó ần
th hiện khai phá lại từ đầu với to n bộ dữ liệu ủa D’ hay hỉ ần khai
phá tr n tập dữ liệu phát sinh ∆D v tận dụng kết quả khai phá thời
đi m t1? iều n y ó ý nghĩa rất lớn trong tr ờng hợp kích thước của
tập D lớn hơn nhiều so với ∆D. Khi đó việ khai phá lại to n bộ D’ l
một s lãng phí v phần lớn á giao d h trong D’ đã đ ợ khai phá
tr ớ đó v ta ần phải tận dụng á kết quả khai phá n y. Vấn đề đặt ra
đây ũng sẽ đ ợ giải quyết một á h triệt đ trong h ng 3 d a tr n
kết quả ủa việ áp dụng hiến l ợ Chia đ tr .

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


9

CHƯƠNG : TƯ TƯ NG CHIA Đ T
T
NG KHAI PHÁ LUẬT KẾT HỢP
.1. Áp dụng chiến lược Chia để trị trong bài toán khai phá

luật kết hợp
Giả sử phải t m á tập phổ biến từ
s dữ liệu giao d h D với
ng ỡng độ hỗ trợ (minsup) l p. Ta ó th áp dụng hiến l ợ Chia đ
tr theo á h nh sau:
ước 1: Ta hia nhỏ D th nh m
s dữ liệu on D1, D2, …, Dm. Các
cơ sở dữ liệu con này là các tập con đôi một không giao nhau của D,
tứ l : D = D1 ∪ D2 …∪ Dm và Di ∩ Dj = ϕ với ∀i, j ∈ [1, m] v i ≠ j.
ước 2: Lần l ợt áp dụng giải thuật khai phá luật kết hợp tr n á
s
dữ liệu on D1, D2,…, Dm với cùng ngưỡng độ hỗ trợ là p ta thu đ ợ
á tập F1, F2,…, Fm l tập á tập phổ biến t ng ứng ủa D1, D2,…,
Dm. Ta g i á tập phổ biến tr n một
s dữ liệu on Dj l á tập phổ
biến ụ bộ (local frequent itemsets).
ước 3: Kết hợp á tập F1, F2,…, Fm đ thu đ ợ tập F l tập á tập
phổ biến t ng ứng với
s dữ liệu giao d h g D. Cá tập phổ biến
tr n to n bộ
s dữ liệu giao d h g D g i l á tập phổ biến to n
ụ (global frequent itemsets).
Một trong những điều kiện đ ó th áp dụng th nh ng hiến
l ợ Chia đ tr đó l ta phải kh ng đ nh đ ợ việ kết hợp nghiệm
ủa á b i toán on hắ hắn sẽ thu đ ợ nghiệm ủa b i toán ban
đầu. Cụ th l ta sẽ phải trả lời hai âu hỏi sau đây:
1. Việ kết hợp á tập F1, F2, …, Fm ó th kh i phụ lại đ ợ tập F
hay không?
2. Nếu ó, thuật toán n o sẽ đ ợ sử dụng đ ây d ng lại tập F từ F1,
F2,…, Fm?


.2. Cơ sở toán h c cho việc áp dụng chiến lược Chia để trị

Ký hiệu F* = F1 ∪ F2 … ∪ Fn. Ta thấy r ng việ kh i phụ lại
đ ợ tập F từ á tập F1, F2,…, Fn hỉ ó th th hiện đ ợ nếu F ⊆ F*.
B i v nếu F ⊆ F* ó nghĩa l F* bảo tồn đ ợ á tập phổ biến v n ó
trong F. Trong tr ờng hợp ng ợ lại, nếu F ⊈ F* th ó nghĩa l việ t m
á tập phổ biến ụ bộ tr n từng s dữ liệu on Dj sau đó kết hợp lại
đã l m mất đi một s tập phổ biến ban đầu đáng ra ó trong D (h nh
3.1). Chúng ta kh ng ó á h n o đ t m lại á tập phổ biến đã mất n y
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


10
v lú n y hiến l ợ Chia đ tr kh ng th áp dụng th nh ng do
việ kết hợp nghiệm ủa á b i toán on kh ng giúp ta ây d ng lại
đ ợ hính á nghiệm ủa b i toán ban đầu.

F
F

F*

F* hỉ hứa một phần ủa F, phần
F*
òn lại ủa F kh ng th á đ nh
F* hứa to n bộ F
đ ợ từ F*

Hình 3.1: Tương quan lực lượng giữa các tập phổ biến cục bộ và tập
phổ biến toàn cục
hứng minh F ⊆ F* ta sẽ hứng minh r ng m i phần tử ủa F
ũng thuộ F*. Mu n hứng minh m i phần tử ủa F ũng thuộ F* ta
phải hứng minh r ng mỗi tập phổ biến Ii ∈ F ũng phải thuộ về ít nhất
một trong s á tập F1,…, Fm. Nói á h khá , ta phải hứng minh r ng
nếu một tập mụ l tập phổ biến to n ụ ứng với CSDL giao d h D th
nó ũng l tập phổ biến ụ bộ ứng với ít nhất một đoạn CSDL on Dj
n o đó ủa D. Tứ l : Nếu sup D ( I i ) ≥ p th phải  j ∈ [1, m] sao cho

sup D j ( Ii ) ≥ p. Trong đó: Ii l tập mụ , p l ng ỡng độ hỗ trợ (minsup),
sup D ( Ii ) l độ hỗ trợ ủa Ii ứng với

sup D j ( Ii ) l độ hỗ trợ ủa Ii ứng với

s dữ liệu giao d h D v
s dữ liệu giao d h on Dj.

Ta sẽ hứng minh mệnh đề n y b ng ph ng pháp phản hứng:
Giả sử nếu với sup D ( I i ) ≥ p, ∄j ∈ [1, m] sao cho sup D j ( I i ) ≥ p, tứ l
∀j ∈ [1, m] ta đều ó sup D j ( I i ) < p.
G i s lần uất hiện (support ount) ủa Ii trong
là CD ( I i ) . Theo đ nh nghĩa về độ hỗ trợ th sup D ( I i ) 

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

s dữ liệu D

CD ( I i )
. Từ

D

TÓM TẮT LUẬN VĂN


11
giả thiết sup D ( I i )  p , ta có

CD ( I i )
 p và suy ra: CD ( I i )  p D
D

(3.2.1).
G i CD j ( I i ) l s lần uất hiện ủa Ii trong
Theo đ nh nghĩa về độ hỗ trợ th sup D j ( I i ) 
hứng: ∀j ∈ [1, m]

CD j ( I i )
Dj

ta đều

CD j ( I i )
Dj

s dữ liệu on Dj.
. Từ giả thiết phản

ó sup D j ( I i ) < p, từ đó suy ra


 p (∀j ∈ [1, m]) hay CD j ( Ii )  p D j (∀j ∈ [1, m]).

Áp dụng bất đ ng thứ tr n lần l ợt ho á
D2,…, Dm, ta thu đ ợ m bất đ ng thứ sau đây:

s dữ liệu on D1,

CD1 ( Ii )  p D1
CD2 ( Ii )  p D2
CD3 ( Ii )  p D3


CDm ( Ii )  p Dm
Cộng á bất đ ng thứ tr n theo từng vế ta đ ợ :

CD1 ( Ii )  CD2 ( Ii )  ...  CDm ( Ii )  p  D1  D2  ...  Dm  (3.2.2)

Do D = D1 ∪ D2 …∪ Dm v
nhau suy ra:

á tập D1, D2,…, Dm đ i một kh ng giao

CD ( Ii )  CD1 ( Ii )  CD2 ( Ii )  ...  CDm ( Ii ) (3.2.3)

D  D1  D2  ...  Dm

(3.2.4)

Từ (3.2.2), (3.2.3) v (3.2.4) suy ra: CD ( I i )  p D (3.2.5).
Dễ thấy hai bất đ ng thứ (3.2.1) v (3.2. ) mâu thuẫn với nhau

n n giả thiết phản hứng ban đầu m húng ta đ a ra l sai.
Vậy nếu nh một tập mụ l tập phổ biến to n ụ ứng với
s
dữ liệu D th nó ũng l tập phổ biến ụ bộ ứng với ít nhất một
s
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


12
dữ liệu on n o đó ủa D tứ l phải thuộ về ít nhất một trong s á
tập F1, F2,…, Fn đồng nghĩa với việ nó phải thuộ F*. V m i phần tử
thuộ F ũng phải thuộ F* nên ta có F ⊆ F* (đp m).
Qua hứng minh tr n, ta ó th kh ng đ nh việ áp dụng hiến
l ợ Chia đ tr trong khai phá luật kết hợp từ
s dữ liệu giao d h
D l ho n to n khả thi v ta ó th kh i phụ đ ợ tập á tập phổ biến
to n ụ F từ tập á tập phổ biến ụ bộ F*. Trong phần tiếp theo, tá
giả in đề uất m h nh hệ th ng khai phá luật kết hợp từ dữ liệu sử
dụng web d a tr n ý t ng hiến l ợ Chia đ tr v một thuật toán
đ n giản đ t m F từ trong F*.

. . Mô hình hệ thống khai phá luật kết hợp từ dữ liệu sử
dụng web dựa trên chiến lược Chia để trị
Rm

...

R2


R1

Các phần dữ liệu riêng rẽ

Tách các
tr ờng dữ liệu

L

dữ liệu

Gán nhãn thời
gian

Phân đ nh á
phi n truy ập
Sinh á tập phổ
biến to n ụ

CSDL các tập phổ
biến cục bộ

Các tập phổ
biến toàn cục

Sinh luật kết
hợp mạnh

Sinh á tập

phổ biến ụ bộ

Các luật kết
hợp mạnh

Hình 3.2: Mô hình KP LKH dựa trên chiến lược “Chia để trị”
Dữ liệu web log sẽ đ ợ hia th nh m phần ri ng rẽ 1, R2,…, m
( ó th ngay từ ban đầu dữ liệu đã đ ợ tổ hứ th nh m tập tin log độ
lập nhau) đ ử lý lần l ợt th ng qua á module hứ năng (hình 3.2).
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


13
Hệ th ng ó một
s dữ liệu đ l u trữ to n bộ kết quả khai phá ụ
bộ tr n á phần dữ liệu i.
Trong ngữ ảnh ủa khai phá dữ liệu, th 04 thao tá từ phân tá h
á tr ờng dữ liệu, l dữ liệu, gán nhãn thời gian ho đến phân đ nh
á phi n truy ập thuộ về quá tr nh tiền xử lý dữ liệu.
Module Sinh tập phổ biến to n ụ
ó th đ ợ
i đặt d a tr n
thuật toán đ n giản sau đây:
Input:
Tập á tập phổ biến ụ bộ F*.
Output: Tập á tập phổ biến to n ụ F.
F* = F1 + F2 +…+ Fm; //Tập chứa toàn bộ các tập phổ biến cục bộ
F = ϕ;

//Tập chứa toàn bộ các tập phổ biến toàn cục
L = I1;
//Tập chứa các tập ứng viên toàn cục
*
*
F =F \{I1};
for each Ii ∈ F*
{
boolean OK = true;
for each Lj ∈ L
if Ii ≡ Lj then
{
Lj.Count = Lj.Count + Ii.Count; //Cập nhật
support count cho Lj
OK = false;
Exit For;
}
if OK then L = L ∪ {Ii}; //Nếu Ii chưa có trong L thì kết nạp Ii
vào L
}
for each Lj ∈ L
if (Lj.Count ≥ p*|D|) then F = F ∪ {Lj};
Ký hiệu s tập phổ biến ụ bộ ó trong F* l N, nh vậy vòng
lặp đầu ti n sẽ phải hạy N lần đ duyệt hết á tập ó trong F*. ng với
mỗi tập phổ biến Ii trong F*, ta so sánh Ii với từng ứng vi n ó trong tập
L xem Ii đã ó mặt trong L hay h a, nếu h a th kết nạp Ii v o L òn
nếu ó rồi th ập nhật giá tr s lần uất hiện (support ount). G i hiều
d i ủa danh sá h L lú đó l li v hiều d i t i đa ủa L l l0. Vòng lặp
thứ 2 sẽ phải duyệt qua li phần tử, ứng với mỗi phần tử Lj phải th hiện
NGUYỄN VƯƠNG THỊNH – LỚP K15T4


TÓM TẮT LUẬN VĂN


14
ki m tra em Ii ó trùng với Lj kh ng. S phép toán so sánh phải th
hiện l min{L(Ii),L(Lj)} với L(Ii) v L(Lj) lần l ợt l hiều d i ủa Ii v
Lj.
ộ phứ tạp ủa thuật toán trong tr ờng hợp ấu nhất ó th
đ ợ đánh giá nh sau:
li


T =  3 +  (min L(Ii ), L(L j ) + 3)  + 2l0
i=1 
j=1

N





li

N






= 3N + 2l0 +  (min L(Ii ), L(L j ) + 3)
i=1 j=1

V 1< L(Ii), L(Lj) ≤ L (∀i,j) nên min{L(Ii), L(Lj)} ≤ L. Từ đó suy ra:
li

N





N

li

N

 (min L(Ii ), L(L j ) + 3)   (L + 3)   li (L + 3)
i=1 j=1

i=1 j=1

i=1

Kí h th ớ t i đa ủa tập ứng vi n to n ụ L l l0 tứ l li ≤ l0 (∀i ∈
[1,N]) v
N


N

l  l
i

i=1

0

= Nl0

i=1

Vậy n n:
N

li

N

 (min L(I ), L(L ) + 3)   l (L + 3)  Nl (L + 3)
i

j

i=1 j=1

i

0


i=1

Suy ra:

T  3N + 2l0 + Nl0 (L + 3)
V á phần tử trong tập ứng vi n to n ụ L th
hất đ ợ
tập F* n n kí h th ớ ủa tập L kh ng th lớn h n kí h th ớ
hay l0 ≤ N. Từ đó:

h n ra từ
ủa tập F*

T  LN2 + 3N2 + 5N

Hay T = O(LN2).
Sau khi thu đ ợ á tập phổ biến to n ụ , module Sinh luật kết
hợp mạnh sẽ đ ợ sử dụng đ t m ra á luật kết hợp mạnh từ á tập
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


15
phổ biến to n ụ thu đ ợ d a tr n một giải thuật sinh luật kết hợp
(mụ 3.6).
M h nh hệ th ng đề uất tr n đáp ứng t t 02 k h bản ó th
ảy ra với dữ liệu web log:
- Trong tr ờng hợp dữ liệu web log ó dung l ợng lớn v ợt quá

khả năng ử lý ủa hệ th ng tính toán, ta ó th em ét tới
ph ng án hia nhỏ tập dữ liệu th nh từng phần nhỏ đ ử lý
dần dần v tí h lũy á tập phổ biến ụ bộ t ng ứng v o
s dữ liệu. Sau đó, ta sẽ áp dụng thuật toán trong mụ 3.3 đ
l
s dữ liệu á tập phổ biến ụ bộ nh m thu đ ợ á
tập phổ biến to n ụ nh mong mu n.
- Trong tr ờng dữ liệu web log đ ợ tí h lũy dần theo thời gian
( hu kỳ) v phải li n tụ tiến h nh khai phá dữ liệu sau mỗi
lần tí h lũy, m h nh n y giúp l m giảm đáng kế thời gian
khai phá do lần khai phá sau ó th kế thừa kết quả ủa lần
khai phá tr ớ (đ ợ l u trong s dữ liệu á tập phổ biến
ụ bộ).

.4. Tư tưởng Chia để trị trong khai phá song song luật kết
hợp từ dữ liệu sử dụng web
Sau đây, tá giả in đề uất một m h nh l m rộng ủa m h nh
trong h nh 3.2 khi áp dụng ho hệ th ng tính toán ó m bộ ử lý song
song. Dữ liệu ần ử lý đ ợ hia th nh m phần (m tập tin log). Sau á
giai đoạn tiền ử lý dữ liệu, ta thu đ ợ m
s dữ liệu giao d h on
t ng ứng D1, D2,…, Dm. Cá
s dữ liệu on n y sẽ đ ợ phân hia
ho m bộ ử lý, bộ ử lý Pi ử lý dữ liệu Di. Mỗi bộ ử lý ó th sử
dụng một thuật toán t m tập phổ biến bất kỳ n o đó đã biết (ví dụ nh
Apriori h ng hạn) đ khai phá tr n
s dữ liệu Di ủa ri ng nó nh m
t m ra á tập phổ biến ụ bộ. Trong quá tr nh ử lý ủa m nh, á bộ
ử lý ho n to n độ lập v kh ng ần ó s trao đổi dữ liệu đ đồng bộ
hóa quá tr nh ử lý.


NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


16
Phần dữ liệu 1

Phần dữ liệu
2

Tá h á tr ờng
dữ liệu

Tá h á tr ờng
dữ liệu

L

dữ liệu

L

...

Phần dữ liệu
m
Tá h á tr ờng
dữ liệu

L

dữ liệu

dữ liệu

Gắn nhãn thời gian

Gắn nhãn thời gian

Gắn nhãn thời gian

Phân đ nh á
phi n truy ập

Phân đ nh á
phi n truy ập

Phân đ nh á
phi n truy ập

CSDL giao d h D1

CSDL giao d h D2

CSDL giao d h Dm

Bộ ử lý P1

Bộ ử lý P2


Bộ ử lý Pm

Tập á tập phổ
biến ụ bộ F1

Tập á tập phổ
biến ụ bộ F2

Tập á tập phổ biến
ụ bộ Fm

Sinh á tập phổ biến
to n ụ
Tập á tập phổ biến to n ụ F

Phân hia tập á tập phổ biến to n ụ

F1

ộ xử lý P1

F2

ho m bộ ử lý
...

ộ xử lý P2

Fm

ộ xử lý Pm

Tập các luật kết hợp mạnh

Hình 3.3: Mô hình “Chia để trị” trong khai phá song song luật kết hợp

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


17

CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM
4.1. Các hệ thống tham gia vào quá trình thực nghiệm
Tá giả sẽ tiến h nh th nghiệm tr n 3 hệ th ng:
 Hệ thống 1: Sử dụng m h nh khai phá luật kết hợp ổ đi n d a
tr n giải thuật Apriori (h nh 4.2). Dữ liệu sử dụng web sau khi
đ ợ tiền ử lý sẽ thu đ ợ tập á phi n truy ập ủa ng ời
dùng ( s dữ liệu giao d h D). Giải thuật Apriori đ ợ áp
dụng đ sinh á tập phổ biến. Sau đó, một giải thuật sinh luật
kết hợp sẽ đ ợ sử dụng đ sinh á luật kết hợp mạnh từ á
tập phổ biến t m đ ợ ( em mụ 3.6 - Ch ng 3). ây l m
h nh hệ th ng khai phá luật kết hợp đi n h nh, đ n giản v đ ợ
sử dụng rộng rãi.
 Hệ thống 2: Sử dụng m h nh khai phá luật kết hợp d a tr n
hiến l ợ Chia đ tr do tá giả đề uất (h nh 3.2 – Ch ng
3).
 Hệ thống : Sử dụng m h nh khai phá song song luật kết hợp
(hình 2.6 – Ch ng 2) với s bộ ử lý N=2. Giải thuật khai phá

song song đ ợ áp dụng đây l giải thuật phân ph i độ hỗ trợ
( ount distribution) do Agrawal v C.Shafer đề uất.

4.2. Tổ chức dữ liệu và cách thức tiến hành thực nghiệm
Dữ liệu th nghiệm lấy từ 04 tập tin web logs đ ợ hỉ ra tr n
bảng 4.1. Dữ liệu đ ợ tổ hứ th nh 04 bộ dữ liệu (ký hiệu b ng s La
Mã từ (I) đến (IV)) (bảng 4.3). Cá bộ dữ liệu n y l bao trùm nhau,
nghĩa l bộ dữ liệu thứ (i+1) sẽ hứa bộ dữ liệu (i) ùng với một phần dữ
liệu phát sinh nữa. Nói á h khá , ta lu n ó (I) ⊂ (II) ⊂ (III) ⊂ (IV).
Cũng ần phải nói th m l yếu t tạo n n nét đặ tr ng ho mỗi
hệ th ng đ ợ thử nghiệm hính l
hế t m á tập phổ biến. óng
góp lớn nhất ủa luận văn ũng n m việ ải tiến
hế t m á tập
phổ biến. Chính v thế trong quá tr nh thử nghiệm, tá giả hỉ tập trung
v o việ so sánh thời gian tìm các tập phổ biến từ cơ sở liệu dữ giao
dịch ủa á hệ th ng với nhau.
Cá h thứ tiến h nh th nghiệm nh sau:
ước 1: ng với mỗi ng ỡng độ hỗ trợ minsup ho tr ớ , á bộ dữ
liệu từ (I) đến (IV) đ ợ lần l ợt ử lý tr n từng hệ th ng. Thời gian t m

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


18
tập phổ biến tr n mỗi hệ th ng ứng với từng bộ dữ liệu đ ợ ghi lại.
Chuy n sang b ớ 2.
ước 2: Cá giá tr ghi lại đ ợ bi u diễn tr n bi u đồ. Trụ ho nh

t ng ứng với s l ợng phi n truy ập, trụ tung t ng ứng với thời
gian th thi (millise ond). Mỗi hệ th ng đ ợ đặ tr ng b i một đ ờng
bi u diễn tr n bi u đồ. Chuy n sang b ớ 3.
ước : Xóa hết dữ liệu trong
s dữ liệu á tập phổ biến ụ bộ ủa
hệ th ng 2. Lặp lại b ớ 1 với ng ỡng độ hỗ trợ minsup khá .

Bộ dữ
liệu
(I)
(II)
(III)

(IV)

Bảng 4.3: Các bộ dữ liệu thử nghiệm
Dung
Số lượng
Số lượng
lượng
phiên truy
Tập tin nguồn
bản ghi
(KB)
cập
41873
164135
443
20120720-access
20120720-access

93139
364988
1087
20120721-access
20120720-access
124351
487363
1556
20120721-access
20120722-access
20120720-access
20120721-access
154940
608083
2364
20120722-access
20120723-access

Chú ý l khi l m việ với 04 bộ dữ liệu tr n bảng 4.3 th hệ th ng
1 v hệ th ng 3 sẽ oi đây l 04 bộ dữ liệu hoàn toàn độc lập. Việ ử
lý bộ dữ liệu (i+1) sẽ kh ng li n quan g đến kết quả ử lý bộ dữ liệu i
tr ớ đó. Hệ th ng 2 l m việ d a tr n nguy n lý Chia đ tr đ i với
tập dữ liệu n n ho phép
hế kế thừa kết quả tr ớ đó đ rút ngắn
kh i l ợng ần khai phá. Khi hệ th ng 2 l m việ với bộ dữ liệu (i+1),
nó sẽ tận dụng kết quả khai phá ủa bộ dữ liệu i tr ớ đó v hỉ khai phá
th m tr n tập dữ liệu phát sinh sau đó tổng hợp kết quả lại ( ập nhật độ
hỗ trợ to n ụ v l ra á tập phổ biến to n ụ ).

4. . Kết quả thực hiện và đánh giá

Sau khi tiến h nh hạy thử nghiệm á bộ dữ liệu tr n từng hệ
th ng ứng với 04 ng ỡng độ hỗ trợ minsup khá nhau l 0.2 %, 0. %,
0.7 %, 1.00%, ta thu đ ợ bảng kết quả th nghiệm (bảng 4.4). Ngo i
NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


19
ra, ăn ứ v o bảng kết quả th nghiệm, ta ũng ây d ng đ ợ 04 bi u
đồ bi u diễn s thay đổi ủa thời gian ử lý theo s gia tăng ủa kí h
th ớ dữ liệu v o t ng ứng với 04 ng ỡng độ hỗ trợ ( á h nh
4.8a,b,c,d).
Bảng 4.4: Kết quả thực nghiệm với 04 bộ dữ liệu trên 03 hệ thống
Thời gian tìm tập phổ
Số
biến
Bộ
Số
lượng
(Đơn vị: ms)
Lần Ngưỡng
dữ
lượng
phiên
thử độ hỗ trợ
Hệ
Hệ
Hệ
liệu bản ghi

truy
thống thống thống
cập
01
02
03
01
(I)
164135
443
56
65
29
02
(II) 364988
1087
275
299
150
0.25%
03
(III) 487363
1556
350
88
178
04
(IV) 608083
2364
535

225
250
05
06
07
08
09
10
11
12
13
14
15
16

0.50%

(I)
(II)
(III)
(IV)

164135
364988
487363
608083

443
1087
1556

2364

52
93
150
223

60
75
62
84

30
48
74
118

0.75%

(I)
(II)
(III)
(IV)

164135
364988
487363
608083

443

1087
1556
2364

53
100
138
180

55
50
42
45

25
48
72
90

1.00%

(I)
(II)
(III)
(IV)

164135
364988
487363
608083


443
1087
1556
2364

44
75
130
155

58
50
40
52

28
40
75
78

Từ bảng s liệu th nghiệm v quan sát 4 bi u đồ, ta ó th rút ra
một s nhận ét hung nh sau:
ng với ùng ng ỡng độ hỗ trợ, khi ử lý bộ dữ liệu (I) tứ l khi
ó ùng uất phát đi m, hệ th ng 2 (Divide and Conquer) tỏ ra chậm

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN



20
hơn so với hai hệ th ng òn lại. S dĩ nh vậy v lú n y hệ th ng 2 phải
uất phát từ đầu v h a kế thừa đ ợ g từ tr ớ đó.
Tuy nhiên s hậm n y hỉ l nhất thời, khi b ớ sang ử lý bộ dữ
liệu (II), hệ th ng 2 đã bắt đầu th hiện s bứt phá. Do tận dụng đ ợ
kết quả khai phá từ lần khai phá bộ dữ liệu (I) tr ớ đó n n hệ th ng 2
hỉ ần khai phá tr n tập dữ liệu phát sinh th m ∆P1 = (II)/(I) (ứng với
644 phi n truy ập).
Khi ử lý sang bộ dữ liệu (III) th hệ th ng 2 tỏ ra hiếm u thế
tuyệt đ i. Do đ ợ kế thừa kết quả khai phá từ lần khai phá bộ dữ liệu
(II) tr ớ đó n n hệ th ng 2 hỉ ần khai phá tr n tập dữ liệu phát sinh
th m ∆P2 = (III)/(II) (ứng với 469 phi n truy ập). Kh i l ợng ần ử lý
ủa hệ th ng 2 lú n y hỉ òn khoảng 30% so với hệ th ng 1 v hệ
th ng 3.
C ng tiến h nh ử lý th u thế ủa hệ th ng 2 ng đ ợ th hiện,
với bộ dữ liệu (IV) ta ũng thu đ ợ k h bản t ng t . Do đ ợ kế thừa
kết quả khai phá từ lần khai phá bộ dữ liệu (III) tr ớ đó n n hệ th ng 2
hỉ ần khai phá tr n tập dữ liệu phát sinh th m ∆P3 = (IV)/(III) (ứng
với 808 phi n truy ập). Kh i l ợng ần ử lý ủa hệ th ng 2 lú n y
ũng hỉ òn khoảng 30% so với hệ th ng 1 v hệ th ng 3.
Qua phân tí h s bộ á kết quả th nghiệm tr n, ta ó th
kh ng đ nh: M h nh hệ th ng khai phá dữ liệu d a tr n hiến l ợ
Chia đ tr do tá giả đề uất hoạt động rất hiệu quả trong tr ờng hợp
dữ liệu ần khai phá th ờng uy n ó s phát sinh mới v ần phải li n
tụ tiến h nh khai phá mỗi khi ó dữ liệu phát sinh. K h bản n y rất hay
gặp trong th tế khi m dữ liệu truy ập web th ờng đ ợ máy hủ
web ghi lại từng hu kỳ (ng y/tuần/tháng). Nếu so với m h nh khai phá
song song luật kết hợp th m h nh Chia đ tr do tá giả đề uất
kh ng hỉ hiếm u thế về hiệu năng ử lý m òn đ n giản v dễ i

đặt h n.

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


21

Hình 4.8a: Biểu đồ so sánh thời gian xử lý với minsup = 0.25%

Hình 4.8b: Biểu đồ so sánh thời gian xử lý với minsup = 0.5%

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN


22

Hình 4.8c: Biểu đồ so sánh thời gian xử lý với minsup = 0.75%

Hình 4.8d: Biểu đồ so sánh thời gian xử lý với minsup = 1.00%

NGUYỄN VƯƠNG THỊNH – LỚP K15T4

TÓM TẮT LUẬN VĂN



×