Tải bản đầy đủ (.doc) (19 trang)

ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN THUẬT TOÁN TÌM TẬP PHỔ BIẾN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.33 MB, 19 trang )

Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
MỤC LỤC
MỞ ĐẦU 2
PHẦN I 3
KHÁI QUÁT VỀ PHƯƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC 3
1. Khoa h cọ 3
1.1 Khoa h c là gì?ọ 3
1.2 Phân lo i khoa h cạ ọ 3
1.3 Tiêu chí nh n bi t b môn khoa h cậ ế ộ ọ 3
2. Nghiên c u khoa h cứ ọ 4
2.1 Ch c n ng c b n c a nghiên c u khoa h cứ ă ơ ả ủ ứ ọ 4
2.2 c đi m c a nghiên c u khoa h cĐặ ể ủ ứ ọ 5
2.3 Các lo i hình nghiên c u khoa h cạ ứ ọ 6
PHẦN II 7
ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN
THUẬT TOÁN TÌM TẬP PHỔ BIẾN 7
1. Thu t toán tìm t p ph bi n theo ph ng pháp IT-tree [3]ậ ậ ổ ế ươ 7
1.1 C u trúc IT-tree (Itemset Tidset – tree) và các l p t ng đ ngấ ớ ươ ươ 7
1.2 Thu t toán phát sinh t p ph bi nậ ậ ổ ế 8
1.3. Minh h aọ 8
2. Gi m th i gian khai thácả ờ 9
2.1 Phép giao 10
2.2 Phép h pợ 11
2.3 Phép tr (dùng trong Diffset)ừ 12
3. Gi m không gian l u trả ư ữ 13
4. So sánh đánh giá k t quế ả 13
KẾT LUẬN 19
TÀI LIỆU THAM KHẢO 19
1.
Học viên: Nguyễn Thị Thúy Loan – CH0401026 1/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm


MỞ ĐẦU
Nghiên cứu khoa học là một việc không thể thiếu trong các trường Đại học,
nhất là ở các bậc học Sau đại học. Phương pháp tiếp cận của nó giúp học viên định
hướng được cách thức chọn lựa đề tài, cách phát triển đề tài sao cho phù hợp với
mục đích nghiên cứu. Báo cáo này nhằm tìm kiếm một giải pháp trong việc ứng
dụng phương pháp luận nghiên cứu khoa học vào trong tin học: nâng cao tính hiệu
quả cho bài toán khai thác tập phổ biến.
Em xin chân thành cảm ơn Thầy, GS. TSKH. Hoàng Văn Kiếm, người đã định
hướng, giúp cho chúng em hoàn thành gần hết đoạn đường của mình. Chính nhờ
Thầy chỉ dạy mà chúng em mới có đủ tự tin để hoàn tất phần còn lại: hoàn tất luận
văn theo cách mà Thầy đã chỉ dạy trong môn Phương pháp luận Nghiên cứu
Khoa học này.
Học viên: Nguyễn Thị Thúy Loan – CH0401026 2/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
PHẦN I
KHÁI QUÁT VỀ PHƯƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC
1. Khoa học
1.1 Khoa học là gì?
Khoa học được hiểu là “hệ thống các tri thức về mọi loại quy luật của vật
chất và sự vận động của vật chất, những quy luật của tự nhiên, xã hội và tư
duy”.
Khoa học còn được là một hoạt động xã hội, nhằm tìm tòi phát hiện quy
luật của sự vật hiện tượng và vận dụng các quy luật ấy để sáng tạo ra nguyên lý
giải pháp tác động vào các sự vật hiện tượng, nhằm biến đổi trạng thái của
chúng.
Theo quan điểm triết học Mác, khoa học được hiểu là một hình thái ý thức
xã hội. Khoa học phân biệt với các hình thái ý thức xã hội khác ở đối tượng và
hình thức phản ánh và mang một chức năng xã hội riêng.
1.2 Phân loại khoa học
Tùy theo mục đích sử dụng mà người ta đưa ra những cách tiếp cận phân

loại khác nhau, các cách phân loại chỉ là tương đối:
 Phân loại theo nguồn gốc hình thành khoa học.
 Phân loại theo mục đích ứng dụng của khoa học.
 Phân loại theo mức độ khái quát của khoa học.
 Phân loại theo tính tương liên giữa các khoa học.
 Phân loại theo kết quả hoạt động chủ quan của con người.
 Phân loại theo cơ cấu của hệ thống tổ chức hay chương trình đào tạo.
 Phân loại theo đối tượng nghiên cứu của khoa học.
1.3 Tiêu chí nhận biết bộ môn khoa học
 Có một đối tượng nghiên cứu
Học viên: Nguyễn Thị Thúy Loan – CH0401026 3/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
 Có một hệ thống phương pháp luận
 Có một hệ thống lý thuyết
 Có mục đích ứng dụng
 Có lịch sử nghiên cứu
2. Nghiên cứu khoa học
Nghiên cứu khoa học nhằm mục đích thỏa mãn các nhu cầu về nhận thức
và cải tạo thế giới:
 Khám phá các thuộc tính, bản chất của sự vật hiện tượng.
 Phát hiện các quy luật vận động của sự vật.
 Vận dụng quy luật để sáng tạo giải pháp tác động vào sự vật.
2.1 Chức năng cơ bản của nghiên cứu khoa học
Nghiên cứu khoa học nhằm vào hai mục đích cơ bản: nhận thức và cải tạo
thế giới. Chúng được thực hiện thông qua những chức năng cụ thể sau:
 Mô tả:
Mô tả một sự vật là sự trình bày bằng ngôn ngữ hình ảnh chung nhất
của sự vật, cấu trúc, trạng thái, sự vận động của sự vật. Có hai loại mô
tả: mô tả định tính và mô tả định lượng.
 Giải thích:

Giải thích một sự vật là làm rõ nguyên nhân dẫn đến sự hình thành và
quy luật chi phối quá trình vận động của sự vật. Mục đích của giải thích
là đưa ra những thông tin về thuộc tính bản chất của sự vật để có thể
nhận dạng không chỉ nhưng biểu hiện bên ngoài, mà còn cả những
thuộc tính bên trong của sự vật. Nội dung của giải thích có thể bao gồm
giải thích nguồn gốc, quan hệ, tác nhân, hậu quả, quy luật chung của sự
vật.
 Tiên đoán:
Tiên đoán một sự vật là sự nhìn trước quá trình hình thành, sự tiêu vong,
sự vận động và những thể hiện của sự vật trong tương lai.
Học viên: Nguyễn Thị Thúy Loan – CH0401026 4/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
 Sáng tạo:
Sáng tạo là sự làm ra một sự vật mới chưa từng tồn tại.
2.2 Đặc điểm của nghiên cứu khoa học
 Tính mới:
Các nghiên cứu phải là các vấn đề mới mẻ. Khi đó mới có thể thúc đẩy
sự phát triển của khoa học.
 Tính tin cậy:
Các nghiên cứu phải có độ tin cậy cao để áp dụng vào thực tiễn.
 Tính thông tin:
Tính thông tin là những thông tin về quy luật vận động của các sự vật
hoặc hiện tượng, thông tin về quy trình công nghệ và các tham số đi
kèm quy trình đó.
 Tính khách quan:
Tính khách quan vừa là một đặc điểm của nghiên cứu khoa học, vừa là
tiêu chuẩn của người nghiên cứu khoa học.
 Tính rũi ro:
Một nghiên cứu khoa học hoàn toàn có tính rủi ro, nghĩa là người ta có
thể không khám phá ra được điều gì sau một thời gian đầu tư nghiên

cứu. Tuy nhiên, trong khoa học thất bại cũng có thể xem như một kết
quả. Kết quả đó cũng cũng mang ý nghĩa về một kết luận của nghiên
cứu khoa học, mà nội dung của là các giả thuyết đã đặt ra không được
xác nhận về mặt khoa học.
 Tính kế thừa:
Tính kế thừa có một ý nghĩa quan trọng về mặt phương pháp luận
nghiên cứu. Một công trình nghiên cứu khoa học không bao giờ là một
chỗ hoàn toàn trống về kiến thức.
Học viên: Nguyễn Thị Thúy Loan – CH0401026 5/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
 Tính cá nhân:
Cho dù một công trình nghiên cứu khoa học do một tập thể thực hiện thì
vai trò cá nhân trong trong sáng tạo cũng mang tính quyết định. Tính cá
nhân được thể hiện trong tư duy cá nhân và chủ kiến riêng của cá nhân.
 Tính phi kinh tế:
Lao động nghiên cứu khoa học rất khó định mức một cách chính xác
như trong các lĩnh vực khác. Những thiết bị chuyên dụng cho nghiên
cứu khoa học hầu như không thể khấu hao.
2.3 Các loại hình nghiên cứu khoa học
 Nghiên cứu cơ bản:
Nghiên cứu cơ bản là những nghiên cứu nhằm phát hiện về bản chất của
và quy luật của các sự vật hoặc hiện tượng trong tự nhiên, xã hội, con
người.
Phát minh là sự phát hiện ra các những quy luật, nhũng tính chất hoặc
những hiện tượng của thế giới vật chất tồn tại một cách khánh quan mà
trước đó chưa ai biết, nhờ đó làm thay đổi cơ bản nhận thức con người.
Nghiên cứu cơ bản được phân thành hai loại:
o Nghiên cứu cơ bản thuần túy. Nó còn được gọi là nghiên cứu cơ bản
tự do, hoặc nghiên cứu cơ bản không định hướng.
o Nghiên cứu cơ bản định hướng. Nó được chia thành nghiên cứu nền

tảng(background research) và nghiên cứu chuyên đề (thematic
research).
 Triển khai:
Hoạt động triển khai còn được gọi là triển khai thực nghiệm hoặc triển
khai thực nghiệm kỹ thuật. Nó được phân thành hai loại: triển khai trong
phòng và triển khai bán đại trà.
Học viên: Nguyễn Thị Thúy Loan – CH0401026 6/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
PHẦN II
ỨNG DỤNG NGHIÊN CỨU KHOA HỌC TRONG VIỆC CẢI TIẾN
THUẬT TOÁN TÌM TẬP PHỔ BIẾN
Tìm tập phổ biến là một giai đoạn quan trọng trong bài toán tìm luật kết
hợp. Gần đây, có khá nhiều phương pháp được đề xuất nhằm làm tăng tính
hiệu quả của việc tìm tập phổ biến đó là:
(i) Giảm thời gian tìm tập phổ biến;
(ii) (ii) Giảm không gian lưu trữ trong quá trình tìm tập phổ biến.
Trong giới hạn của bài báo, tôi xin trình bày việc nâng cao tính hiệu quả
của thuật toán tìm tập phổ biến theo phương pháp IT-tree [3].
1. Thuật toán tìm tập phổ biến theo phương pháp IT-tree [3]
1.1 Cấu trúc IT-tree (Itemset Tidset – tree) và các lớp tương đương
Cho I là tập các danh mục(Itemset) và X ⊆ I. Ta định nghĩa một hàm
p(X,k) = X[1:k] gồm k phần tử đầu của X và một quan hệ tương đương dựa
vào tiền tố
θ
k
trên Itemset như sau:
),(),(,, kYpkXpYXIYX
k
=⇔≡⊆∀
θ

.
Nghĩa là, hai Itemset có cùng một lớp tương đương khi và chỉ khi chúng chia
sẻ chung k phần tử đầu phổ biến. Như được trình bày trong hình 1, mỗi nút
trong IT-tree đại diện cho một cặp Itemset-Tidset
)(XtX ×
, thực tế là một
lớp tiền tố. Tất các các nút con của nút X thuộc về lớp tương đương của nó
bởi vì chúng chia sẻ cùng tiền tố X.
Kí hiệu một lớp tương đương là
[ ]
{ }
n
lllP , ,,
21
=
, trong đó P là nút cha và
mỗi l
i
là một mục dữ liệu đơn, đại diện cho nút Pl
i
×t(Pl
i
). Chẳng hạn, nút gốc
của cây tương ứng với lớp []={A,C,D,T,W}, nút trái cùng của gốc là lớp [A]
chứa tất cả các itemset chứa A là tiền tố, nghĩa là tập {C,D,T,W}. Như vậy,
mỗi lớp thành viên đại diện cho một con của nút cha. Một lớp đại diện cho
các mục dữ liệu mà các mục dữ liệu đó là tiền tố để có thể mở rộng thành các
Học viên: Nguyễn Thị Thúy Loan – CH0401026 7/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
lớp phổ biến mới. Rõ ràng, không có cây con nào của một tiền tố không phổ

biến được xem xét. Sức mạnh của lớp tương đương là nó chia không gian tìm
kiếm ban đầu thành các vấn đề nhỏ độc lập. Đối với mỗi nút gốc con của nút
X, có thể xem nó như một vấn đề mới hoàn toàn, mỗi nút có thể sinh ra các
mẫu dưới nó ….
1.2 Thuật toán phát sinh tập phổ biến
Đầu vào: Lớp tương đương [P] ban đầu chứa tất cả các tập phổ biến 1-
Itemset và ngưỡng phổ biến minSup.
Kết quả: tập FI gồm tất cả các tập phổ biến của CSDL.
Phương pháp thực hiện:
Thuật toán phát sinh tập phổ biến thỏa ngưỡng minSup
1.3. Minh họa
Ví dụ: xét CSDL
Bảng 1: CSDL mẫu ⇒ Định dạng dữ liệu dọc
Mã giao dịch Nội dung giao
dịch
Mã danh
mục
Các giao dịch
có chứa danh
mục
1 A, C, T, W A 1, 3, 4, 5
2 C, D, W C 1, 2, 3, 4, 5, 6
Học viên: Nguyễn Thị Thúy Loan – CH0401026 8/19
ENUMERATE_FREQUENT([P])
for all l
i
∈ [P] do
[P
i
] = ∅

for all l
j
∈ [P], with j > i do
I = l
j
T = t( l
i
)

t( l
j
)
if |T| ≥ minSup then
[P
i
] = [P
i
] ∪ {}
ENUMERATE_FREQUENT([P
i
])
Delete [P
i
]
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
3 A, C, T, W D 2, 4, 5, 6
4 A, C, D, W T 1, 3, 5, 6
5 A, C, D, T, W W 1, 2, 3, 4, 5
6 C, D, T
Với minSup = 50% (3 mục dữ liệu). Ta có cây tìm kiếm minh họa cho quá

trình tìm tập phổ biến như Hình 1.
2. Giảm thời gian khai thác
Do thuật toán dựa vào lý thuyết tập hợp (Itemset, Tidset), vì vậy thuật toán
cần có sự tối ưu về các phép toán trên tập hợp.
Phương pháp IT-tree sử dụng cách tính phần giao, phần hợp giữa các tập
Tidset, Itemset với nhau. Rõ ràng, nếu chúng ta lưu tập hợp theo thứ tự tùy ý
thì độ phức tạp tính toán tương ứng trong cả 3 trường hợp trên là O(m×n) với
Học viên: Nguyễn Thị Thúy Loan – CH0401026 9/19
Hình 1: Cây tìm kiếm tập FI thỏa ngưỡng minSup = 50%
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
m, n là lực lượng của hai tập hợp cần tính toán. Để làm giảm độ phức tạp tính
toán, chúng ta có thể tổ chức tập hợp theo thứ tự tăng dần và điều này làm
giảm đáng kể thời gian khai thác dữ liệu. Ta xét các phép toán cụ thể như sau:
Gọi a, b là hai tập hợp cần tính toán với m = |a|, n = |b| và c là tập hợp kết
quả, ta có các thuật toán ứng với hai cách tổ chức tập hợp trên như sau:
2.1 Phép giao
Hình 2. Thuật toán tính phần giao hai tập hợp
*Nhận xét:
1. Thuật toán tính phần giao của hai tập hợp có độ phức tạp là O(m×n)
trong trường hợp tập hợp không được xếp thứ tự và O(m+n) trong trường
hợp tập hợp có thứ tự.
2. Nếu a, b là hai tập hợp có thứ tự thì tập hợp c = a ∩ b cũng là tập hợp
có thứ tự. Như vậy ta không cần sắp xếp lại tập hợp kết quả.
Học viên: Nguyễn Thị Thúy Loan – CH0401026 10/19
;1;1
;
;1
;1
)()(
;1;1

+=+=
+=>
+=<
< ==<
==
jjii
ctoaAdd
else
jjthenbaifelse
iithenbaif
donjandmiwhile
ji
i
ji
ji
Hình 3. Thuật toán tính phần giao giữa 2 tập hợp có thứ tự tăng
;
;
1
;
1
ctoaAddthentruefif
truef
thenbaif
dontojfor
falsef
domtoifor
i
ji
=

=
=
=
=
=
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
3. Bằng việc áp dụng tập hợp có thứ tự, chúng ta đã giảm thiểu được thời
gian tính phần giao của hai tập hợp. Theo bảng 2.2, chẳng hạn nếu chúng
ta muốn tính phần giao giữa hai tập hợp trong CSDL connect với minSup
= 90%, độ dài trung bình của các Tidset là 62204 thì số lần so sánh tối đa
giữa a
i
và b
j
trong hai cách tiếp cận tương ứng là 62204×62204 và
2×62204. Độ tăng tốc là 31102 lần!
2.2 Phép hợp
Hình 4. Thuật toán tính phần hợp của hai Itemset
Hình 5. Thuật toán tính phần hợp của hai tập hợp có thứ tự tăng.
Học viên: Nguyễn Thị Thúy Loan – CH0401026 11/19
;
1
;
1
ctobAdd
thenainexistnotbif
dontoifor
ctoaAdd
domtoifor
i

i
i
=
=
;1;
;1;
;1;1
;
;1
;
;1
;
)()(
;1;1
+=
<=
+=
<=
+=+=
+=
>
+=
<
<=<=
==
jjctobAdd
domjwhile
iictoaAdd
domiwhile
jjii

ctoaAdd
else
jj
ctobAdd
thenbaifelse
ii
ctoaAdd
thenbaif
donjandmiwhile
ji
j
i
i
j
ji
i
ji
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
* Nhận xét: độ phức tạp tương ứng của hai phương pháp là O(m×n) và
O(m+n).
2.3 Phép trừ (dùng trong Diffset)
Hình 6. Thuật toán tính phần khác nhau của tập hợp a so với tập hợp b
Hình 7. Thuật toán tính phần khác nhau của a so với b
(a, b có thứ tự tăng)
*Nhận xét: độ phức tạp tương ứng là O(m×n) và O(m+n)
Học viên: Nguyễn Thị Thúy Loan – CH0401026 12/19
;
1
ctoaAdd
thenbinexistnotaif

domtoifor
i
i
=
;1;
)(
;1;1
;1
;1
;
)()(
;1;1
+=
<=
+=+=
+=
>
+=
<
<=<=
==
iictoaAdd
domiwhile
jjii
else
jj
thenbaifelse
ii
ctoaAdd
thenbaif

donjandmiwhile
ji
i
ji
i
ji
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
3. Giảm không gian lưu trữ
Để giảm không gian lưu trữ, các tác giả trong [4] đề nghị thay vì tính phần
giao giữa hai Tidset, chúng ta tính phần khác nhau giữa chúng và như vậy,
khối lượng bộ nhớ cần lưu trữ giảm đáng kể.
Bảng 2: Bảng so sánh tỉ lệ trung bình giữa kích thước Tidset và Diffset[4]
CSDL MinSup
(%)
Độ dài trung
bình Diffset
Độ dài trung
bình Tidset
Tỉ lệ
Tidset/Diffset
chess 0.5 26 1820
70
connect 90 143 62204
434.99
mushroom 5 60 622
10.37
pumsb_star 35 301 18977
63.04
pumsb 90 330 45036
136.47

T10I4D100K 0.1 31 230
7.42
T40I10D100K 0.5 96 755
7.86
4. So sánh đánh giá kết quả
Kết quả thực nghiệm được thực hiện trên các CSDL chuẩn được lấy từ trang
web có đặc điểm như sau:
Bảng 3: Đặc điểm của các CSDL thử nghiệm
Tên CSDL Số giao dịch Số danh mục Độ dài
trung bình
Độ dài
tối đa
chess 3196 76 37 37
mushroom 8124 120 23 23
pumsb* 49046 7117 50 62
pumsb 49046 7117 73.6 74
connect 67557 130 43 43
retail 88162 16469 10.3 76
T10I4D100K 100000 1000 39.6 77
T40I10D100K 100000 1000 33.8 51
CSDL: chess
Học viên: Nguyễn Thị Thúy Loan – CH0401026 13/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
CSDL: mushroom
Học viên: Nguyễn Thị Thúy Loan – CH0401026 14/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
CSDL: pumsb
Học viên: Nguyễn Thị Thúy Loan – CH0401026 15/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
CSDL: pumsb*

CSDL: retail
Học viên: Nguyễn Thị Thúy Loan – CH0401026 16/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
CSDL: connect
Học viên: Nguyễn Thị Thúy Loan – CH0401026 17/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
CSDL: accidents
Hình 8: So sánh thời gian tìm tập phổ biến giữa 3 phương pháp
Mỗi CSDL có 2 hình theo thứ tự:
Hình 1: Số lượng tập FI với minSup tương ứng.
Hình 2: So sánh thời gian tìm kiếm tập FI trên cây IT-tree sử dụng Tidset,
Tidset + sắp xếp tăng theo độ phổ biến, Diffset + sắp xếp.
Nhận xét:
1. Trừ CSDL retail (là CSDL khá thưa), tất cả các CSDL khác có thời gian
tìm kiếm theo phương pháp Diffset khá nhanh so với các phương pháp còn
lại. Ví dụ: CSDL connect với minSup = 90% thì Diffset nhanh gấp 170.2
lần so với Tidset. Trong CSDL chess với minSup = 65% sinh ra số lượng
tập phổ biến là 111293 trong thời gian chỉ 0.91s!
Học viên: Nguyễn Thị Thúy Loan – CH0401026 18/19
Phương Pháp Luận Nghiên Cứu Khoa Học GV: GS.TSKH Hoàng Kiếm
2. Ứng với minSup càng nhỏ thì Diffset càng tỏ ra hiệu quả ( Tỉ lệ thời gian
giữa Diffset và các phương pháp khác càng cao).
KẾT LUẬN
Trong quá trình học môn Phương pháp luận nghiên cứu khoa học, tác giả
rất ấn tượng với phương pháp phát hiện vấn đề khoa học: “tìm những kẻ hở,
phát hiện những vấn đề mới”. Chính vì vậy, tác giả đã cố gắng cải tiến và
thực hiện việc cài đặt để so sánh kết quả giữa các phương pháp với nhau nhằm
tìm ra giải pháp tối ưu cho bài toán khai thác tập phổ biến.
TÀI LIỆU THAM KHẢO
[1]. GS.TSKH Hoàng Kiếm, Bài giảng môn Cơ sở Tri thức, 2005.

[2]. GS. TSKH Hoàng Kiếm, Bài giảng môn Phương pháp luận nghiên cứu
khoa học, 8/2005.
[3]. M.J. Zaki, C.J. Hsiao, Efficient Algorithms for Mining Closed Itemsets and
Their Lattice Structure, IEEE TRANSACTIONS ON KNOWLEDGE AND
DATA ENGINEERING, 2005.
[4]. M.J. Zaki and K. Gouda, Fast Vertical Mining Using Diffsets, Proc. Ninth
ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining, Aug.
2003.
Học viên: Nguyễn Thị Thúy Loan – CH0401026 19/19

×