BỘ CƠNG THƯƠNG
ĐẠI HỌC CƠNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC
KẾT QUẢ THỰC HIỆN ĐỀ TÀI
NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG
Tên đề tài: Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng
buộc trọng số/ khai thác Top-K mẫu tuần tự
Mã số đề tài: 20/1.6CNTT01
Chủ nhiệm đề tài: Phạm Thị Thiết
Đơn vị thực hiện: Khoa Công nghệ Thông tin
Tp. Hồ Chí Minh, 2021
LỜI CÁM ƠN
Lời đầu tiên, tôi xin chân thành cảm ơn trường Đại học Công nghiệp Tp.HCM và tiểu
ban Điện – Điện Tử - CNTT đã đồng ý thông qua đề tài của nhóm chúng tơi và tạo cơ
hội cho chúng tơi có điều kiện để nghiên cứu.
Tơi xin gửi lời cảm ơn đến Phịng QLKH&HTQT, phịng Tài chính – Kế tốn trường
Đại học Cơng nghiệp Tp.HCM đã tận tình hỗ trợ, hướng dẫn các thủ tục, hồ sơ giúp chủ
nhiệm đề tài thực hiện các văn bản liên quan.
Cuối cùng tôi xin gửi lời cảm ơn đến BCN Khoa, tập thể GV Khoa Công nghệ thông
tin, các Thầy Cô đã đồng hành động viên, tạo điều kiện để chúng tơi hồn thành đề tài.
Chủ nhiệm đề tài
Phạm Thị Thiết
1
PHẦN I. THƠNG TIN CHUNG
I. Thơng tin tổng qt
1.1. Tên đề tài: Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng
buộc trọng số/ khai thác Top-K mẫu tuần tự
1.2. Mã số: 20/1.6CNTT01
1.3. Danh sách chủ trì, thành viên tham gia thực hiện đề tài
TT
Họ và tên
(học hàm, học vị)
1
2
Đơn vị cơng tác
Vai trị thực hiện đề tài
TS. Phạm Thị Thiết
Khoa CNTT – ĐHCN
TP.HCM
Chủ nhiệm
TS. Võ Thị Thanh Vân
Khoa CNTT – ĐHCN
TP.HCM
Thư ký
1.4. Đơn vị chủ trì: Khoa Cơng nghệ Thơng tin
1.5. Thời gian thực hiện:
1.5.1. Theo hợp đồng: từ tháng 03 năm 2020 đến tháng 03 năm 2021
1.5.2. Gia hạn (nếu có): đến tháng….. năm…..
1.5.3. Thực hiện thực tế: từ tháng 03 năm 2020 đến tháng 03 năm 2021
1.6. Những thay đổi so với thuyết minh ban đầu (nếu có):
(Về mục tiêu, nội dung, phương pháp, kết quả nghiên cứu và tổ chức thực hiện; Nguyên
nhân; Ý kiến của Cơ quan quản lý)
1.7. Tổng kinh phí được phê duyệt của đề tài: 40 triệu đồng.
II. Kết quả nghiên cứu
1. Đặt vấn đề
Khai thác mẫu tuần tự từ cơ sở dữ liệu (CSDL) chuỗi là một nhiệm vụ quan trọng trong
lĩnh khai thác dữ liệu. Một CSDL chuỗi bao gồm tập chuỗi chứa các phần tử
(elements), hoặc các sự kiện (events) được sắp xếp theo thứ tự, trong đó, một mẫu tuần
tự (sequential pattern) là một chuỗi con chứa các itemset xuất hiện phổ biến có trình tự,
tất cả các item trong cùng một itemset được giả sử là chúng có cùng tại thời điểm giao
dịch hoặc chúng có trong cùng một khoảng thời gian giao dịch, thông thường tất cả các
giao dịch của một khách hàng được gắn kết với nhau theo trình tự thời gian và được
xem là một chuỗi. Do đó, bài tốn khai thác mẫu tuần tự trên CSDL chuỗi là khai thác
các chuỗi con phổ biến để tìm kiếm mối liên quan giữa các item khác nhau trong
CSDL, với yêu cầu là các mẫu phổ biến là những chuỗi con trong CSDL chuỗi mà sự
xuất hiện của chúng lớn hơn ngưỡng hỗ trợ nhỏ nhất do người dùng chỉ định hay nói
cách khác, bài tốn khai thác mẫu tuần tự từ CSDL chuỗi là để tìm ra tập các chuỗi con
2
phổ biến thỏa mãn một ngưỡng hỗ trợ tối thiểu (minsup) do người dùng đặt ra. Các
nghiên cứu trước đây đã đề xuất các phương pháp để cải tiến hiệu suất của quá trình
khai thác mẫu tuần tự trên CSDL chuỗi. Tuy nhiên đa số các nghiên cứu này chỉ sử
dụng độ hỗ trợ tối thiểu nhỏ nhất minsup để tìm ra các mẫu phổ biến và khi khai thác
mẫu tuần tự với độ hỗ trợ tối thiểu nhỏ nhất sẽ phát sinh ra tập mẫu rất lớn, điều này có
thể làm cho khơng gian lưu trữ các mẫu bị quá tải. Để giải quyết vấn đề về không gian
lưu trữ thì các phương pháp này cần phải tăng độ hỗ trợ tối thiểu, tuy nhiên việc làm
này có thể làm mất đi nhiều mẫu có tầm quan trọng cao nhưng lại có độ hỗ trợ chưa đủ
lớn do tần suất xuất hiện trong các chuỗi trên tồn CSDL khơng nhiều hoặc luôn phải
thay đổi giá trị minsup cho phù hợp với yêu cầu của người dùng. Cũng có một số
nghiên cứu đã được đề xuất để cải tiến hiệu suất cho bài toán khai thác mẫu tuần tự từ
CSDL chuỗi như bài toán khai thác mẫu tuần tự dựa trên các ràng buộc trọng số hay bài
toán khai thác top-k mẫu tuần tự, v.v. Tuy nhiên, các nghiên cứu này chủ yếu được phát
triển từ thuật toán khai thác mẫu tuần tự PrefixSpan. Chính vì vậy, đề tài tập trung vào
nghiên cứu các điểm yếu của các phương pháp được đề xuất trước đây từ đó đề xuất
giải pháp hiệu quả hơn cho bài toán khai thác mẫu tuần tự dựa trên ràng buộc trọng số
hoặc bài toán khai thác top-k mẫu tuần tự từ CSDL chuỗi. Kết quả của đề tài sẽ đóng
góp thêm vào tài nguyên học tập cho sinh viên, học viên ngành Khoa học máy tính.
2. Mục tiêu
a) Mục tiêu tổng quát.
Đề xuất giải pháp hiệu quả hơn cho bài toán liên quan đến khai thác chuỗi tuần tự
như khai thác top-k mẫu tuần tự/ khai thác mẫu tuần tự với ràng buộc trọng số.
b) Mục tiêu cụ thể.
- Nghiên cứu các phương pháp khai thác chuỗi tuần tự đã được đề xuất trước đây
- Nghiên cứu và đề xuất thuật toán hiệu quả để khai thác top-k mẫu tuần tự / khai
thác mẫu tuần tự với ràng buộc trọng số từ CSDL chuỗi
- Đánh giá hiệu suất của thuật toán đề xuất.
3. Phương pháp nghiên cứu
-
Sử dụng phương pháp tìm kiếm, thu thập, tổng hợp và chọn loc tất cả các TLTK
liên quan đến các vấn đề cần tiếp cận
Sử dụng phương nghiên cứu lý thuyết kết hợp với kết quả đánh giá thuật toán để
đề xuất thuật toán để khai thác chuỗi tuần tự hiệu quả hơn.
Sử dụng phương pháp nghiên cứu thực nghiệm mơ phỏng lập trình với ngơn ngữ
lập trình để xây dựng thực nghiệm cho thuật toán đề xuất
Đánh giá hiệu xuất của thuật toán trên tập CSDL chuẩn.
Viết báo cáo khoa học.
3
4. Tổng kết về kết quả nghiên cứu
Nội dung nghiên cứu của đề tài đạt được kết quả như sau:
- 1 bài báo khoa học đăng trên tạp chí IEEE Access (ISI). Đây là sản phẩm chính của đề
tài.
- 1 bài báo khoa học đăng trên tạp chí khoa học công nghệ - Trường ĐHCN Tp.HCM
(Sản phẩm này được sử dụng làm điều kiện xét hoàn thành nhiệm vụ NCKH của nhà
trường đối với GV có trình độ tiến sĩ).
5. Đánh giá các kết quả đã đạt được và kết luận
Kết quả đạt được trong quá trình thực hiện đề tài:
- Tìm hiểu một số thuật tốn liên quan đến bài toán khai thác mẫu tuần tự - mẫu
-
tuần tự đóng, top-k mẫu tuần tự, mẫu tuần tự với rang buộc trọng số.
Đã đề xuất được 2 thuật toán mới có hiệu suất cao hơn so với thuật tốn hiện tại
cho tài tốn khai thác top-k mẫu tuần tự đóng và bài toán khai thác mẫu tuần tự
với rang buộc trọng số.
Kết quả của đề tài sẽ đóng góp vào tài nguyên cho các môn học liên quan đến Xử lý và
khai thác dữ liệu, làm nền tảng cho việc nghiên cứu, học tập và hồn thành khóa luận
tốt nghiệp cho sinh viên hệ đại học cũng như học viên cao học ngành khoa học máy
tính. Bên cạnh đó, nó cũng góp phần nâng cao chất lượng nghiên cứu khoa học, phát
triển nghề nghiệp của giảng viên cũng như công bố khoa học của giảng viên, khoa và
của nhà trường.
6. Tóm tắt kết quả (tiếng Việt và tiếng Anh)
Đề tài đã đề xuất được 2 thuật tốn mới có hiệu suất cao hơn so với thuật toán hiện tại,
cụ thể như sau:
- Đề xuất thuật toán TKCS (Top-K Closed Sequences) cho bài tốn khai thác top-k mẫu
tuần tự đóng. Thuật tốn TKCS có hiệu suất tốt hơn cả về thời gian lẫn bộ nhớ so với
thuật toán TSP (Top-K Closed Sequential Patterns) hiện tại bởi vì thuật tốn đề xuất đã sử
dụng cách sắp xếp các mẫu theo thứ tự tăng dần của độ hỗ trợ và sau đó mở rộng các
mẫu có giá trị hỗ trợ cao nhất để tạo ra các mẫu ứng cử viên. Hơn nữa, thuật toán cũng
đã sử dụng chiến lược tăng minsup đến giá trị hỗ trợ của mẫu tuần tự trong danh sách
top-k mẫu tuần tự đóng (CSP – Closed Sequential Pattern) với giá trị hỗ trợ nhỏ nhất.
- Đề xuất một thuật tốn hiệu quả để khai thác mẫu tuần tự có trọng số bằng việc kết
hợp giá trị trọng số thực của các item trong CSDL chuỗi cùng với độ hỗ trợ của chúng.
Bên cạnh đó, thuật tốn sử dụng cấu trúc dữ liệu biểu diễn theo chiều dọc nên thuật
toán chỉ cần duyệt CSDL một lần, do đó tiết kiệm được thời gian. Hơn nữa, thuật toán
đã áp dụng khối mã hóa ngun tố trong các bước tính tốn của quá trình phát triển mẫu
làm tăng hiệu suất thực thi của thuật toán so với các tiếp cận khác.
4
This research has proposed 2 new algorithms with higher performance than the current
algorithms, as follows:
- Proposing an algorithm named TKCS (Top-K Closed Sequences) to mine the top-k
CSPs efficiently. The empirical results indicate that TKCS algorithm has better
performance both in terms of time and memory than the current TSP algorithm because
it uses strategies in the process of exploiting the top-k CSPs as: always choosing the
sequential pattern having the greatest support for generating candidate patterns and
storing top-k CSPs in the ascending order of the support values to customize the minsup
value more quickly to prune the search space.
- Proposing an effective algorithm to exploit sequential patterns with weighted
constrain by combining the actual weight values of items in the sequence database with
their support to find higher-value sequential patterns set. Moreover, the proposed
algorithm uses a vertical database approach, so the algorithm only needs to scan the
database once, thus saving execution time. In addition, to increase computational
efficiency, the algorithm applies the prime block encoding approach in the
computational steps of the extension pattern process. Experimental results show that the
proposed algorithm has more effective execution time.
III. Sản phẩm đề tài, công bố và kết quả đào tạo
3.1. Kết quả nghiên cứu (sản phẩm dạng 1,2,3)
TT
Yêu cầu khoa học hoặc/và chỉ tiêu
kinh tế - kỹ thuật
Tên sản phẩm
Đăng ký
1
Bài báo khoa học
1
Đạt được
2
2
…
Ghi chú:
- Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo…) chỉ được
chấp nhận nếu có ghi nhận địa chỉ và cảm ơn trường ĐH Cơng Nghiệp Tp. HCM đã cấp
kính phí thực hiện nghiên cứu theo đúng quy định.
- Các ấn phẩm (bản photo) đính kèm trong phần phụ lục minh chứng ở cuối báo
cáo. (đối với ấn phẩm là sách, giáo trình cần có bản photo trang bìa, trang chính và
trang cuối kèm thông tin quyết định và số hiệu xuất bản)
3.2. Kết quả đào tạo
TT
Họ và tên
Thời gian
thực hiện đề tài
Tên đề tài
Tên chuyên đề nếu là NCS
Tên luận văn nếu là Cao học
Đã bảo vệ
Nghiên cứu sinh
5
Học viên cao học
Sinh viên Đại học
Ghi chú:
- Kèm bản photo trang bìa chuyên đề nghiên cứu sinh/ luận văn/ khóa luận và
bằng/giấy chứng nhận nghiên cứu sinh/thạc sỹ nếu học viên đã bảo vệ thành công
luận án/ luận văn;( thể hiện tại phần cuối trong báo cáo khoa học)
IV. Tình hình sử dụng kinh phí
T
T
A
1
2
3
4
5
6
7
8
B
1
2
Nội dung chi
Chi phí trực tiếp
Th khốn chun mơn
Ngun, nhiên vật liệu, cây con..
Thiết bị, dụng cụ
Cơng tác phí
Dịch vụ th ngồi
Hội nghị, hội thảo,thù lao nghiệm thu giữa kỳ
In ấn, Văn phịng phẩm
Chi phí khác
Chi phí gián tiếp
Quản lý phí
Chi phí điện, nước
Tổng số
Kinh phí
được duyệt
(triệu đồng)
Kinh phí
thực hiện
(triệu đồng)
38,978,000
38,978,000
1,022,000
1,022,000
40,000,000
40,000,000
Ghi
chú
V. Kiến nghị (về phát triển các kết quả nghiên cứu của đề tài)
- Sử dụng kết quả nghiên cứu làm tài liệu học tập, nghiên cứu về lĩnh vực khai phá dữ
liệu
- Áp dụng kết quả nghiên cứu cho việc xây dựng các ứng dụng dạng khuyến nghị.
VI. Phụ lục sản phẩm (liệt kê minh chứng các sản phẩm nêu ở Phần III)
1. Bài báo khoa học
Chủ nhiệm đề tài
Tp. HCM, ngày ........ tháng........ năm .......
Phòng QLKH&HTQT
Trưởng Khoa CNTT
(Họ tên, chữ ký)
Phạm Thị Thiết
PGS.TS. Huỳnh Trung Hiếu
6
PHẦN II. BÁO CÁO CHI TIẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC
(báo cáo tổng kết sau khi nghiệm thu, đã bao gồm nội dung góp ý của hội đồng nghiệm
thu)
7
CHƯƠNG 1. TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU
1.1.
Đặt vấn đề
Khai thác mẫu tuần tự là bài toán quan trọng trong lĩnh vực khám phá tri thức và
khai thác dữ liệu, nó được ứng dụng rộng rãi bao gồm: phân tích thói quen mua sắm của
khách hàng, mẫu truy cập web, các thí nghiệm khoa học, chẩn đốn bệnh, các thảm họa
thiên nhiên, các kết cấu của protein. Bài toán khai thác mẫu tuần tự trên CSDL chuỗi là
đi tìm những mẫu xuất hiện thường xuyên (được gọi là chuỗi phổ biến) để tìm kiếm
mối liên quan giữa các item khác nhau, hoặc giữa các sự kiện tiềm ẩn trong dữ liệu
phục vụ cho các mục đích như các chiến dịch tiếp thị, tái tổ chức kinh doanh, dự báo và
lập kế hoạch.
Cho đến nay đã có rất nhiều cơng trình nghiên cứu về lĩnh vực khai thác dữ liệu
nói chung, khai thác mẫu tuần tự phổ biến nói riêng. Việc khai thác mẫu tuần tự là một
phần quan trọng của khai thác dữ liệu với các ứng dụng rộng rãi trong nhiều lĩnh vực
kinh tế và khoa học như: phân tích q trình mua bán hàng hóa, dự đốn thiên tai, phân
tích chuỗi DNA, phân tích cấu trúc gen,… Bài toán khai thác mẫu tuần tự từ CSDL
chuỗi là để tìm ra tập các chuỗi con phổ biến thỏa mãn một ngưỡng minsup do người
dùng đặt ra [1, 2, 10, 11, 13, 18, 20, 23, 25, 30, 31, 41]. Đây là một trong những bài
toán quan trọng trong lĩnh vực khai thác dữ liệu từ CSDL chuỗi và là nền tảng của
nhiều nhiệm vụ khai thác dữ liệu khác như gom nhóm dữ liệu [4, 15], phân loại và dự
đốn dữ liệu [15], phân loại dữ liệu dựa trên luật kết hợp [30]. Có rất nhiều thuật tốn
được đề xuất để cải thiện hiệu suất của quá trình khai thác mẫu tuần tự trên CSDL
chuỗi như GSP [31], PSP [23], PrefixSpan [25], SPADE [41], SPAM [2], và PRISM
[13], CM-SPADE [10], MCM-SPADE [14].
Tuy nhiên các thuật toán này chỉ sử dụng độ hỗ trợ để tìm ra các mẫu và khi khai
thác mẫu tuần tự với độ hỗ trợ tối thiểu thấp sẽ phát sinh ra một lượng mẫu khổng lồ,
điều này có thể làm cho khơng gian lưu trữ các mẫu bị quá tải. Để giải quyết vấn đề về
không gian lưu trữ thì các phương pháp này cần phải tăng độ hỗ trợ tối thiểu minsup
[35, 40], tập các mẫu thu được giảm đi, tuy nhiên việc làm này có thể làm mất đi nhiều
mẫu có tầm quan trọng cao nhưng lại có độ hỗ trợ chưa đủ lớn (tần suất xuất hiện trong
các chuỗi trên tồn CSDL khơng nhiều). Hơn nữa, các thuật toán khai thác mẫu tuần tự
trên đều thống nhất các mẫu tuần tự có tầm quan trọng là như nhau, trong khi đó, trong
thực tế, mỗi thành phần trong CSDL có tầm quan trọng khác nhau. Những items nằm
trong chuỗi có mức hỗ trợ thấp có thể có tầm quan trọng hơn do tính năng trọng số của
chính những items đó. Do vậy, nếu một mẫu có tầm quan trọng cao (hay trọng số cao)
thì mẫu đó có giá trị cao và nên được lưu trữ lại để sử dụng. Chính vì thế, nếu một mẫu
8
có độ hỗ trợ khơng thỏa điều kiện về ngưỡng hỗ trợ tối thiểu thì mẫu đó vẫn có thể
được giữ lại sau quá trình khai thác mẫu nếu như trọng số của mẫu đó đủ lớn. Vấn đề
tồn tại cần giải quyết là làm cách nào để không làm mất đi các mẫu có tầm quan trọng
nhưng vẫn giữ được độ hỗ trợ tối thiểu ở mức hợp lý cho việc thu thập và lưu trữ tập
các mẫu sau q trình khai thác dữ liệu để khơng tạo ra tập mẫu quá lớn, gây dư thừa.
Bài toán khai thác mẫu tuần tự dựa trên các ràng buộc trọng số được đề xuất để tìm ra
những mẫu tuần tự khơng phổ biến (không thỏa ràng buộc về mức hỗ trợ tối thiểu)
nhưng lại có các items xuất hiện trong mẫu có tầm quan trọng cao trong CSDL chuỗi,
từ đó có thể tìm ra được một tập các mẫu tuần tự có trọng số hồn chỉnh, có tầm quan
trọng hơn, có lợi ích nhiều trong việc sử dụng các mẫu. Nhờ vậy quá trình khai thác
được cải thiện hiệu quả và tập mẫu tìm thấy đáp ứng yêu cầu của người dùng tốt hơn.
Srikant và Agrawal [31] là những người đầu tiên khái quát bài toán khai thác mẫu
tuần tự mà cho phép xử lý các ràng buộc thời gian. Họ đã đưa ra hai loại ràng buộc về
thời gian là ràng buộc khoảng thời gian (time-gap) và ràng buộc thời gian - cửa sổ trượt
(sliding time window). Trong đó, ràng buộc khoảng thời gian giới hạn thời gian xảy ra
giữa hai thành phần liền kề phải nằm trong một khoảng hợp lý, còn ràng buộc thời gian
- cửa sổ trượt qui định những thành phần có thời gian nằm trong phạm vi cửa sổ sẽ nằm
trong cùng một giao dịch. Ngồi ra, các tác giả trong [31] cịn đưa ra ràng buộc phân
cấp trên các mẫu do người dùng định nghĩa.
Garofalakis và đồng sự [12] đã đề xuất các ràng buộc trên mẫu tuần tự dưới dạng
các biểu thức có qui tắc và đưa ra một bộ bốn thuật toán, gọi là bộ SPIRIT. Trong đó,
mỗi thuật tốn giải quyết bài toán khai thác mẫu tuần tự với một loại biểu thức ràng
buộc cho trước.
Yun và Leggett đã đề xuất thuật toán WFIM (Weighted Frequent Itemset Mining)
[38] vào năm 2005 để khai thác mẫu tuần tự có trọng số. Trong thuật toán này, các
items riêng lẻ được gán các trọng số khác nhau trong phạm vi trọng số để phản ánh tầm
quan trọng của chúng và các ràng buộc trọng số sau đó sẽ được đẩy vào trong thuật tốn
tăng trưởng mẫu để giữ thuộc tính giảm bao đóng. WFIM sử dụng một cây tiền tố tiếp
cận theo hướng từ dưới lên (bottom – up) được sắp xếp theo thứ tự tăng dần. Thuật toán
cho phép điều chỉnh số lượng các itemsets phổ biến có trọng số bằng cách thay đổi các
thông số như một dải trọng số và trọng số tối thiểu mặc dù ngưỡng hỗ trợ tối thiểu thấp
hơn trong CSDL dày hoặc CSDL dài. Trọng số và độ hỗ trợ của mỗi item trong WFIM
được xem xét riêng để cắt tỉa khơng gian tìm kiếm. Tuy nhiên, độ hỗ trợ của các itemset
thường giảm khi chiều dài của itemset đó tăng lên nhưng trọng số thì có một đặc trưng
khác như một itemset có trọng số thấp đơi khi sẽ có thể đạt được trọng số cao hơn nếu
nó kết hợp với một item có trọng số cao, do đó nó khơng đảm bảo được thuộc tính giảm
bao đóng.
9
Năm 2006, Yun và Leggett [39] đề xuất thuật toán WSpan (Weighted Sequential
Pattern Mining) để khai thác mẫu tuần tự hiệu quả bằng cách đưa các ràng buộc trọng
số vào trong thuật toán tăng trưởng mẫu tuần tự trong khi vẫn bảo tồn thuộc tính giảm
bao đóng bằng cách tiếp cận theo hướng CSDL chiếu. Một dải trọng số được sử dụng
và các items được gán các giá trị trọng số khác nhau bên trong dải trọng số. Thuật toán
sử dụng một giá trị ngưỡng minsup và ngưỡng trọng số lớn nhất (MaxW) để làm điều
kiện kiểm tra độ phổ biến của các mẫu trong quá trình khai thác CSDL chuỗi.
Năm 2016, Sirisha và các cộng sự [29] đã đề xuất một hướng tiếp cận mới để tìm
ra mẫu tuần tự với giá trị trung bình trọng số (mean_W) của mẫu tuần tự. Trong tiếp
cận này, trước tiên các giá trị trọng số được gán vào các items theo dữ liệu thực tế, sau
đó định nghĩa giá trị trung bình trọng số cho các mẫu tuần tự và dựa vào điều kiện
support * mean_W < minsup để cắt tỉa mẫu. Với thuật toán này, một CSDL tuần tự
được chiếu đệ quy vào một tập các CSDL chiếu có trọng số với kích thước nhỏ hơn và
các mẫu tuần tự có trọng số được phát sinh trong mỗi CSDL chiếu có trọng số.
Năm 2018, Van và các công sự [34] đã đề xuất một thuật toán gọi là MSPIC-DBV
để khai thác các mẫu tuần tự dựa trên các ràng buộc itemset. Thuật toán này đã cải thiện
đáng kể hiệu suất của bài toán khai thác mẫu tuần tự bằng cách sử dụng cấu trúc dữ liệu
vector bit động kết hợp với cấu trúc cây tiền tố để biểu diễn chuỗi ứng viên. Tuy nhiên,
thuật toán yêu cầu người sử dụng phải xác định trước tập các ràng buộc của các itemset
mà không sử dụng các ràng buộc về trọng số thực tế của item trong CSDL. Mặt khác,
các thuật toán khai thác mẫu tuần tự phổ biến từ CSDL chuỗi được đề cập ở trên đều
yêu cầu một ngưỡng minsup do người dùng định nghĩa. Tùy thuộc vào sự lựa chọn
ngưỡng minsup, thuật tốn có thể trở nên rất chậm và tìm ra một số lượng rất lớn các
mẫu hoặc quá ít mẫu, thậm chí khơng có mẫu nào, hoặc bỏ qua các mẫu có thơng tin có
giá trị. Vấn đề này rất quan trọng bởi vì trong thực tế, người sử dụng chỉ có nguồn tài
nguyên giới hạn (thời gian và khơng gian lưu trữ) nên khơng thể phân tích quá nhiều
mẫu kết quả và việc tinh chỉnh thông số minsup để tìm ra số lượng mẫu mà người dùng
mong muốn là rất tốn thời gian. Để giải quyết vấn đề này, các thuật toán khai thác theo
hướng top-k mẫu tuần tự phổ biến đã được nghiên cứu và đề xuất; trong đó, k là số mẫu
có độ hỗ trợ cao nhất mà người dùng mong muốn thuật tốn tìm kiếm và trả về mà
khơng cần xem xét và tính toán ngưỡng minsup bao nhiêu là phù hợp.
Thuật toán TSP (Top-K Closed Sequential Patterns) [33] được Tzvetkov Và các
cộng sự đề xuất năm 2005 để khai thác top-k mẫu tuần tự phổ (tập phổ biến đóng) mà
khơng u cầu người dùng một ngưỡng hỗ trợ tối thiểu minsup. Thuật toán được xây
dựng dựa theo hướng tiếp cận phát triển mẫu từ thuật toán PrefixSpan [25], nghĩa là
thuật toán thực hiện duyệt CSDL để tìm các mẫu chứa một phần tử, và sau đó chỉ xét
các chuỗi con tiền tố và chỉ chiếu chuỗi con hậu tố tương ứng của chúng vào các CSDL
10
chiếu. Ý tưởng chính của thuật tốn là: Bắt đầu với ngưỡng minsup là 1, sau đó minsup
được tăng dần trong quá trình xử lý và minsup này sẽ được sử dụng để tìm các mẫu phỗ
biến với mục đích để giảm khơng gian tìm kiếm. Nghĩa là ngay khi có k mẫu tuần tự
với chiều dài khơng nhỏ hơn min_l được tìm thấy thì minsup sẽ được gán cho một giá
trị là độ phổ biến của mẫu tuần tự tìm được có độ phổ biến nhỏ nhất. Và như thế,
minsup sẽ tiếp tục gia tăng trong suốt quá trình khai thác mẫu của thuật tốn [33]. Lợi
ích chính của hướng tiếp cận CSDL chiếu (projection-based) là nó chỉ xem xét các mẫu
đang xuất hiện trong CSDL mà không thực hiện việc kiểm tra khi phát sinh mẫu. Tuy
nhiên, thuật toán TSP phải thực hiện lặp đi lặp lại việc duyệt/chiếu CSDL nhiều lần nên
tốn chi phí và chi phí có thể rất cao khi thực hiện trên CSDL dày đặc do có rất nhiều
phép chiếu cần được thực hiện. Thuật toán TKS (Top-K Sequential pattern mining) [9]
được đề xuất năm 2013 bởi Fournier-Viger. Thuật toán sử dụng CSDL bitmap dọc để
biểu diễn dữ liệu và sử dụng thủ tục của thuật toán SPAM để tạo ứng viên ban đầu sau
đó tiến hành tìm và mở rộng các mẫu, bên cạnh đó để tăng hiệu quả khai thác k mẫu
tuần tự phổ biến thuật toán TKS đã áp dụng một vài chiến lược như: Tăng ngưỡng hỗ
trợ để cắt tỉa khơng gian tìm kiếm; Mở rộng các mẫu triển vọng nhất; Loại bỏ các item
không phổ biến ngay khi tạo ứng viên; Cắt tỉa ứng viên với bản đồ thứ tự ưu tiên
(Precedence Map). Tuy nhiên, mặc dù thuật toán TKS đã áp dụng một số chiến lược để
nâng cao hiệu quả của quá trình khai thác dữ liệu, nhưng thuật tốn TKS vẫn cịn nhược
điểm là sử dụng bit vec-tơ có kích thước cố định vốn địi hỏi và tiêu tốn rất nhiều thời
gian để thực thi các phép giao bit vec-tơ.
1.2.
Sự cần thiết tiến hành nghiên cứu
Từ những vấn đề đề cập trong phần 2.1, đề tài tập trung nghiên cứu các điểm yếu
của các phương pháp được đề nghị trước đây để từ đó đề xuất giải pháp hiệu quả hơn
cho bài toán liên quan đến khai thác chuỗi tuần tự như bài toán khai thác top-k mẫu
tuần tự hoặc khai thác mẫu tuần tự với ràng buộc trọng số cụ thể như sau:
- Việc khai thác mẫu tuần tự có trọng số sẽ thu thập được tập mẫu tuần tự hồn
chỉnh hơn với những items có mức hỗ trợ thấp nhưng có tầm quan trọng cao, cần thiết
cho q trình sử dụng dữ liệu. Do đó, bài toán khai thác mẫu tuần tự dựa trên các ràng
buộc trọng số đã được đề xuất để cải tiến hiệu suất của bài toán khai thác mẫu tuần tự
khi khai thác các mẫu phổ biến với giá trị độ hỗ trợ tối thiểu cao nhưng vẫn không mất
đi các mẫu có tầm quan trọng cao (là những mẫu có trọng số cao) nhưng lại có độ hỗ
trợ chưa đủ lớn. Tuy nhiên, các thuật toán khai thác mẫu tuần tự với ràng buộc trọng số
được đề cập ở trên trong phần 2.1 đều được phát triển từ thuật toán khai thác mẫu tuần
tự PrefixSpan và phải thực hiện chiếu CSDL cũng như duyệt CSDL chiếu nhiều lần
trong quá trình mẫu phổ biến. Ngồi ra, một số thuật tốn cần phải xác định trước tập
các ràng buộc trọng số của các itemset từ người dùng mà không sử dụng trọng số thực
11
của các item trong CSDL. Do đó, đề tài tập trung nghiên cứu và đề xuất một thuật toán
cho bài toán khai thác mẫu tuần tự với ràng buộc trọng số bằng cách kết hợp cả ràng
buộc về mức hỗ trợ tối thiểu lẫn trọng số của các item trong CSDL chuỗi để khai thác
ra tập mẫu hoàn chỉnh với những tính năng chặt chẽ hơn của các mẫu tuần tự sau q
trình khai thác dữ liệu. Bên cạnh đó, để tăng hiệu suất của quá trình khai thác mẫu tuần
tự với ràng buộc trọng số, đề tài sẽ nghiên cứu và áp dụng phương pháp mã hóa khối
nguyên tố [13] trong các bước tính tốn của q trình phát triển mẫu so với thuật toán
trước đây sử dụng phương pháp chiếu tiền tố.
- Bài toán khai thác top-k mẫu tuần tự phổ biến đã được nghiên cứu và đề xuất để
loại bỏ vấn đề xem xét, tính tốn và lựa chọn giá trị ngưỡng minsup sao cho phù hợp
mà vẫn đưa ra được các mẫu mà người dùng mong muốn. Tuy nhiên, các thuật toán này
vẫn tốn chi phi rất cao cho các phép chiếu trên CSDL chiếu hoặc các phép giao trên bit
vec-tơ để tìm ra mẫu phổ biến. Do đó trong bài tốn khai thác top-k mẫu tuần tự phổ
biến, đề tài sẽ tập trung nghiên cứu và áp dụng cấu trúc CMAP [9] để cắt tỉa ứng viên
sớm tại giai đoạn phát triển mẫu làm tăng hiệu suất của quá trình khai thác top-k mẫu
tuần tự đóng.
1.3.
Mục tiêu của đề tài
Nghiên cứu và đề xuất giải pháp hiệu quả hơn cho bài toán liên quan đến khai thác
chuỗi tuần tự như khai thác top-k mẫu tuần tự/ khai thác mẫu tuần tự với ràng buộc
trọng số từ CSDL chuỗi, sau đó đánh giá hiệu suất của thuật tốn đề xuất so với thuật
tốn hiện có.
-
1.4.
Nghiên cứu các phương pháp khai thác chuỗi tuần tự đã được xuất trước đây
Nghiên cứu và đề xuất thuật toán hiệu quả để khai thác top-k mẫu tuần tự / khai
thác mẫu tuần tự với ràng buộc trọng số từ CSDL chuỗi
Đánh giá hiệu suất của thuật toán đề xuất so với thuật tốn hiện có.
Phương pháp nghiên cứu
Để đạt được mục tiêu nghiên cứu của đề tài, nhóm tác giả đã tiến hành nghiên cứa
các thuật toán như khai thác chuỗi tuần tự, chuỗi tuần tự đóng. Phương pháp nghiên cứu
được tiến hành cụ thể như sau:
- Nghiên cứu các phương pháp khai thác chuỗi tuần tự, chuỗi tuần tự đóng, top-k
chuỗi tuần tự ...đã được xuất trước đây
- Nghiên cứu và đề xuất thuật toán khai thác top-k chuỗi tuần tự đóng/ chuỗi tuần
tự với ràng buộc trọng số
- Sử dụng phương pháp nghiên cứu thực nghiệm mô phỏng để xây dựng thực
nghiệm cho thuật toán đề xuất và đánh giá hiệu xuất của thuật toán trên tập
CSDL chuẩn.
12