Tải bản đầy đủ (.pdf) (4 trang)

Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác top k mẫu tuần tự p5

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (249.68 KB, 4 trang )

CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Mục tiêu chính của đề tài là nghiên cứu một số thuật toán khai thác chuỗi tuần tự,
chuỗi tuần tự đóng hiện có từ đó đề xuất thuật tốn hiệu quả hơn. Kết quả, đề tài đã đề
xuất được 2 thuật toán mới có hiệu suất cao hơn so với thuật tốn hiện tại, cụ thể như
sau:
- Đề xuất thuật toán TKCS cho bài tốn khai thác top-k mẫu tuần tự đóng. Thuật
tốn TKCS có hiệu suất tốt hơn cả về thời gian lẫn bộ nhớ so với thuật toán TSP hiện
tại bởi vì thuật tốn đề xuất đã sử dụng cách sắp xếp các mẫu theo thứ tự tăng dần của
độ hỗ trợ và sau đó mở rộng các mẫu có giá trị hỗ trợ cao nhất để tạo ra các mẫu ứng cử
viên. Hơn nữa, thuật toán cũng đã sử dụng chiến lược tăng minsup đến giá trị hỗ trợ của
mẫu tuần tự trong danh sách top-k CSP với giá trị hỗ trợ nhỏ nhất.
- Đề xuất một thuật toán hiệu quả để khai thác mẫu tuần tự có trọng số bằng việc
kết hợp giá trị trọng số thực của các item trong CSDL chuỗi cùng với độ hỗ trợ của
chúng. Bên cạnh đó, thuật tốn sử dụng cấu trúc dữ liệu biểu diễn theo chiều dọc nên
thuật toán chỉ cần duyệt CSDL một lần, do đó tiết kiệm được thời gian. Hơn nữa, thuật
tốn đã áp dụng khối mã hóa ngun tố trong các bước tính tốn của q trình phát triển
mẫu làm tăng hiệu suất thực thi của thuật tốn so với các tiếp cận khác.
Trong tương lai, nhóm tác giả sẽ hướng tới việc tối ưu hơn thời gian thực thi cho
bài toán khai thác top-k mẫu tuần tự đóng bằng cách kết hợp thêm các kỹ thuật khác
như áp dụng mã hóa khối nguyên tố hoặc phát triển các thuật toán khai thác tập top-k
mẫu tuần tự có trọng số với dữ liệu chuỗi ở một số lĩnh vực cụ thể như chuỗi dữ liệu
giao dịch, chuỗi dữ liệu khách hàng, chuỗi lịch sử truy cập web, ...

34


Tài liệu tham khảo
[1]. Agrawal, R., Srikant, R., "Mining sequential patterns", Proceedings of the 11th
International Conference on Data Engineering, 1995, 3–14.
[2]. Ayres, J., Gehrke, J.E., Yiu, T., Flannick, J., "Sequential pattern mining using a
bitmap representation", Proceedings of the ACM SIGKDD International Conference on


Knowledge Discovery and Data Mining, 2002, 429–435.
[3]. Baralis, E., Chiusano, S., Dutto, R., "Applying Sequential Rules to Protein
Localization Prediction", Computer and Mathematics with Applications 55, (5), 2008,
867–878.
[4]. Chezhian, V. U., Subash, T., Samy, M. R., "Hierarchical sequence clustering
algorithm for data mining", Proceedings of the World Congress on Engineering, 2011,
21 – 25.
[5]. Chuang, K.-T., Huang, J.-L., Chen, M.-S., “Mining top-k frequent patterns in the
presence of the memory constraint”, VLDB Journal, 17(5), 2008, 1321-1344.
[6]. Dong, G., Pei, J., , "Sequence Data Mining", Springer Science + Business Media,
LLC, 2007.
[7]. Fournier-Viger, P., and Tseng, V. S., “Mining Top-K Sequential Rules”, Proc. of
the 7th Intern. Conf. on Advanced Data Mining and Applications (ADMA 2011),
Springer LNAI 7121, 2011, 180-194.
[8]. Fournier-Viger, P., “Mining Top-K Association Rules”, Proc. of the 25th Canadian
Conf. on Artificial Intelligence (AI 2012), Springer, 2012, 61-73.
[9]. Fournier-Viger, P., Gomariz, A. , Gueniche, T. , Mwamikazi, E., Thomas, R. , ,
"TKS: Efficient Mining of Top-K Sequential Patterns", Proc. 9th International
Conference on Advanced Data Mining and Applications (ADMA 2013), Part I,
Springer LNAI 8346, 2013, 109-120.
[10]. Fournier-Viger, P., Gomariz, A., Campos, M., Thomas, R., "Fast vertical mining
of sequential patterns using co-occurrence information", In: PAKDD’14, 2014, 40–52.
[11]. Gan, W., Lin, J. C.-W., Fournier-Viger, P., Chao, H.-C., Yu, P. S., "A Survey of
Parallel Sequential Pattern Mining", ACM Transactions on Knowledge Discovery from
Data, 13(3), Article 25, 2019, 1-34.
[12]. Garofalakis, M. N., Rastogi, R., and Shim, K., "SPIRIT: Sequential Pattern
Mining with Regular Expression Constraints", Proc. of the Very Large Data Bases
Conf., Edinburgh, Scotland, UK, 1999, 223-234
[13]. Gouda, K., Hassaan, M., Zaki, M.J., "PRISM: a primal-encoding approach for
frequent sequence mining", Journal of Computer and System Sciences 76 (1), 2010,

88–102.
35


[14]. Han, J., Dong, G., Yin, Y., "Efficient Mining of Partial Periodic Patterns in Time
Series Database". 15th International Conference on Data Engineering: Proceedings,
1999, 106-115.
[15]. Han, J., Kamber, M., "Data Mining: Concepts and Techniques 3nd Edition",
Morgan Kanufmann, 2012.
[16]. Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.C., "Freespan:
Frequent pattern-projected sequential pattern mining", Proc. 2000 Int. Conf. Knowledge
Discovery and Data Mining (KDD’00), 2000, 355–359.
[17]. Huang, G.-Y., Yang, F., Hu, C.-Z., and Ren, J.-D., “Fast Discovery of Frequent
Closed Sequential Patterns based on Positional”, Proc. of the 2010 International
Conference on Machine Learning and Cybernetics, Qingdao, China, 2010, 444 – 449.
[18]. Huynh, B., Vo, B., Snasel, V., "An efcient method for mining frequent sequential
patterns using multi-core processors", Applied Intelligence, 46(3), 2017, 703–716.
[19]. Huynh, B., Vo, B., and Snasel, V., “An efficient parallel method for mining
frequent closed sequential patterns”, IEEE Access, 5, 2017, 17392-17402.
[20]. Huynh, B., Trinh, C., Huynh, H., Van, T.T., Vo, B., Snasel, V., "An efficient
approach for mining sequential patterns using multiple threads on very large databases",
Engineering Applications of Artificial Intelligence, 74, 2018, 242–251.
[21]. Le, B., Duong, H., Truong, T., and Fournier-Viger, P., “FCloSM, FGenSM: two
efficient algorithms for mining frequent closed and generator sequences using the local
pruning strategy”, Knowledge and Information Systems, 53(1), 2017, 71–107.
[22]. Le, T, Vo, B., Huynh, V.-N., Nguyen, N. T., and Baik, S. W.,” Mining top-k
frequent patterns from uncertain databases”, Appl Intell, 50, 2020, 1487–1497.
[23]. Masseglia, F., Cathala, F., & Poncelet, P., "The PSP Approach for Mining
Sequential Patterns", Proceedings of the 2nd European Symposium on Principles of Data
Mining and Knowledge Discovery, Nantes, France, 1998, 176-184.

[24]. Nguyen, L. T. T., Vo, B., Nguyen, L. T. T., Fournier-Viger, P., and Selamat, A.,
“ETARM: an efficient top-k association rule mining algorithm”. Applied Intelligence,
248, 2018, 1148–1160.
[25]. Pei, J., Han, J., Mortazavi-Asl, B., Wang, J., Pinto, H., Chen, Q., Dayal, U., Hsu,
M. C., "Mining sequential patterns by pattern-growth: the prefixspan approach", IEEE
Transactions on Knowledge and Data Engineering 16 (10), 2004, 1424–1440.
[26]. Pei, J., Han, J., and Mao, R., “CLOSET: An efficient algorithm for mining
frequent closed itemsets”, In DMKD’01 workshop, Dallas, TX, 2001.
[27]. Pham, T. T., Luo, J., and Vo, B., “An effective algorithm for mining closed
sequential patterns and their minimal generators based on prefix trees”, International
Journal of Intelligent Information and Database Systems, 7(4), 2013, 324-339.
36


[28]. Pham, T. T., and Van, V., “Applying the attributed prefix tree for mining closed
sequential patterns”, Journal of Science and Technology, 54(3A), 2016, 106-114.
[29]. Sirisha, A., S. Pabboju, G. Narsimha, "Efficient mining of sequential patterns in a
sequence database with weight constraint". IJRITCC, 2016, 394 – 397.
[30]. Shim, B., Choi, K., Suh, Y., "CRM strategies for a small-sized online shopping
mall based on association rules and sequential patterns", Expert Systems with
Applications, 39, 2012, 7736 – 7742.
[31]. Srikant, R. and Agrawal, R., "Mining sequential patterns: Generalizations and
performance improvements", in: 5th Intl. Conf. Extending Database Technology, 1996,
3 – 17.
[32]. Thilagu, M., Nadarajan, R., Ahmed, M.S.I., and Bama, S.S., “PBFMCSP: Prefix
Based Fast Mining of Closed Sequential Patterns”, The International Conference on
Advances in Computing, Control, and Telecommunication Technologies ATC’09,
Trivandrum, Kerala, India, 2009, 484 – 488.
[33]. Tzvetkov, P., "TSP: Mining Top-k Closed Sequential Patterns", Knowledge and
Information Systems, 7(4), 2005, 438-457.

[34]. Van, T., Vo, B., Le, B., "Mining sequential patterns with itemset
constraints"Knowledge and Information Systems, 57(2), 2018, 311-330.
[35]. Wang, W., Yang, J., "Mining Sequential Patterns From Large Data Sets",
Springer, 2005.
[36]. Wang, J., and Han, J., “BIDE: Efficient mining of frequent closed sequences”, In
proc of the 20th Int’ Conf on Data Engineering (ICDE’95): IEEE Computer Society
Press, DC, USA, 2004, 79-91.
[37]. Yan, X., Han, J., and Afshar, R., “CloSpan: Mining closed sequential patterns in
large datasets”, Proc of the 3th SIAM International Conference on Data Mining, San
Francisco, CA, USA: SIAM Press, 2003, 166 -177.
[38]. Yun, U., and Leggett, J., "WFIM: Weighted frequent itemset mining with a
weight range and a minimum weight", ISBN: 978-0-89871-593-4, 2005, 636–640.
[39]. Yun, U., and Leggett, J., "WSpan: Weighted sequential pattern mining in large
sequence databases", 3rd International IEEE Conference on Intelligent Systems, 2006,
512 – 517.
[40]. Yun, U., "A new framework for detecting weighted sequential patterns in large
sequence databases", Knowledge – base systems, 21, 2008, 110 – 122.
[41]. Zaki, M.J. "SPADE: an efficient algorithm for mining frequent sequences", The
Journal of Machine Learning Research, 42, 2001, 31–60.
[42]. Zaki, M.J., and Hsiao, C., “CHARM: An efficient algorithm for closed itemset
mining”, In SDM ‘02, Arlington, VA, 2002, 457 - 473.
37



×