Tải bản đầy đủ (.pdf) (3 trang)

Một số thuật toán khai phá luật dãy và ứng dụng thử nghiệm vào hệ thống quản lý khách hàng và tính hóa đơn nước

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (142.95 KB, 3 trang )

Một số thuật toán khai phá luật dãy và ứng
dụng thử nghiệm vào hệ thống quản lý khách
hàng và tính hóa đơn nước


Nguyễn Đình Văn


Trường Đại học Công nghệ
Luận văn ThS. ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS.TS. Hà Quang Thụy
Năm bảo vệ: 2011


Abstract. Khái quát chung về luật dãy và khái phá luật dãy: trình bày khái quát về
luật kết hợp, một số đối sánh giữa luật dãy và luật kết hợp, đồng thời giới thiệu sơ bộ
các phương pháp tiếp cận khai phá luật dãy và các thuật toán điển hình tương ứng.
Các phương pháp khai phá luật dãy: tập trung giới thiệu các thuật toán khai phá luật
dãy như AprioriAll, AprioriSome, GSP là những thuật toán khởi thủy khai phá luật
dãy và giới thiệu hai phương pháp khai phá luật dãy được công bố thời gian gần đây
là “Khai phá luật dãy sử dụng kỹ thuật phân vùng” và “Khai phá luật dãy bằng mã
hóa khối cơ bản”. Tổng quan về Hệ thống Quản lý khách hàng và tính hóa đơn nước,
đồng thời đề xuất ứng dụng khai phá luật dãy với thuật toán AprioriAll trong Hệ
thống Quản lý khách hàng và tính hóa đơn nước.

Keywords. Khai phá dữ liệu; Thuật toán; Hệ thống quản lý; Khách hàng; Hóa đơn


Content
Khai phá luật dãy là một trong những lĩnh vực rất quan trọng trong nghiên cứu khai phá
dữ liệu của thập kỷ gần đây và ngày càng được áp dụng rộng rãi trong nhiều lĩnh vực khác


nhau. Vì trong thực tế, dữ liệu dãy tồn tại rất phổ biến, như dãy dữ liệu mua sắm của khách
hàng, dữ liệu điều trị y tế, các dữ liệu liên quan đến các thảm họa tự nhiên, dữ liệu xử lý khoa
học và kỹ thuật, dữ liệu chứng khoán và phân tích thị trường, dữ liệu các cuộc gọi điện thoại,
nhật ký truy cập web, dãy ADN biểu thị gen Mục đích chính của khai phá luật dãy là tìm
kiếm và phát hiện tất cả các dãy con lặp đi lặp lại trong một CSDL theo yếu tố thời gian.
Hiện nay, trên thế giới đã có rất nhiều nhóm tác giả nghiên cứu đề xuất các thuật toán
với các phương pháp tiếp cận khai phá luật dãy khác nhau [1,2,5-12,14-16] nhằm giải quyết
sự đa dạng của các loại bài toán cũng như đưa ra các hướng cải tiến nhằm giảm thiểu chi phí
thời gian và tài nguyên hệ thống.
Luận văn này nghiên cứu một số thuật toán khai phá luật dãy, trong đó tập trung chủ
yếu vào các thuật toán AprioriAll, AprioriSome [1], vì đây là những thuật toán rất nổi tiếng
trong lĩnh vực khai phá luật dãy và phù hợp với việc ứng dụng thử nghiệm vào Hệ thống
Quản lý khách hàng và tính hóa đơn nước. Luận văn tiếp tục khóa luận tốt nghiệp đại học
trước đây của tôi (Nguyễn Đình Văn (2003), Phân tích thiết kế hệ thống và ứng dụng vào bài
toán quản lý khách hàng và tính hóa đơn nước) trong việc bổ sung những tính năng nâng cao
cho hệ thống. Luận văn hy vọng phát hiện được một số luật dãy, chẳng hạn như dãy thời gian
tiêu thụ nước nhiều nhất trong năm, dãy dịch chuyển mức tiêu thụ nước theo mục đích sử
dụng (sinh hoạt, sản xuất, kinh doanh, công cộng, …), phát hiện những trường hợp bất
thường trong sử dụng nước (tỉ lệ đăng ký sử dụng và thực tế sử dụng nước), mức độ thất
thoát nước và nguyên nhân thất thoát nước … để lãnh đạo xí nghiệp có thể đưa ra các biện
pháp quản lý, các chiến lược sản xuất, kinh doanh phù hợp.
Luận văn được trình bày gồm có phần mở đầu, ba chương và phần kết luận.
Trong chương một, luận văn tập trung chủ yếu vào giới thiệu tổng quan về luật dãy và
khái phá luật dãy. Vì luật dãy có những mối liên hệ gần gũi với luật kết hợp và một số thuật
toán khai phá luật dãy trong luận văn là mở rộng của thuật toán điển hình Apirori khai phá
luật kết hợp, nên phần này sẽ trình bày khái quát về luật kết hợp, một số đối sánh giữa luật
dãy và luật kết hợp. Giới thiệu sơ bộ các phương pháp tiếp cận khai phá luật dãy và các thuật
toán điển hình tương ứng. Nội dung của chương này được tổng hợp từ các tài liệu [1,3-4,13].
Trong chương hai, luận văn tập trung giới thiệu các thuật toán khai phá luật dãy như
AprioriAll [1], AprioriSome [1], GSP [2] là những thuật toán khởi thủy khai phá luật dãy.

Giới thiệu hai phương pháp khai phá luật dãy được công bố thời gian gần đây là “Khai phá
luật dãy sử dụng kỹ thuật phân vùng” [10] và “Khai phá luật dãy bằng mã hóa khối cơ bản”
[16].
Trong chương ba, luận văn giới thiệu tổng quan về Hệ thống Quản lý khách hàng và
tính hóa đơn nước, đồng thời đề xuất ứng dụng khai phá luật dãy với thuật toán AprioriAll.
Trong đó, đưa ra yêu cầu đầu bài và mô hình cụ thể giải quyết bài toán. Luận văn sử dụng dữ
liệu mô phỏng của Xí nghiệp kinh doanh nước sạch Hoàn Kiếm làm dữ liệu thử nghiệm để
thực thi chương trình, đánh giá kết quả thực nghiệm.
Luận văn được hỗ trợ một phần từ Đề tài QG.10-38.



References
[1]. Agrawal R., Srikant R. (1995), Mining sequential patterns. In Proceedings of the
International Conference on Data Engineering (ICDE): 3–14, IEEE Computer
Society.
[2]. Srikant R., Agrawal R. (1996), Mining sequential patterns: generalizations and
performance improvements. Proceedings of the International Conference on
Extending Data Base Technology (EDBT), Lecture Notes in Computer Science, 1057:
3–17.
[3]. Masseglia F., Teisseire M., Poncelet P. (2005), Sequential pattern mining: A survey on
issues and approaches.
doi=10.1.1.106.5130.
[4]. Jiawei Han and Micheline Kamber, (2006), Data Mining: Concepts and Techniques 2nd
ed, University of Illinois at Urbana-Champaign
[5]. Zhuo Zhang, Lu Zhang, Shaochun Zhong, Jiwen Guan (2008), A New Algorithm for
Mining Sequential Patterns, FSKD (2) 2008: 625-629.
[6]. Floriana Esposito, Nicola Di Mauro, Teresa Maria Altomare Basile, Stefano Ferilli
(2008), Multi-Dimensional Relational Sequence Mining, Fundam. Inform., 89(1): 23-
43.

[7]. Yu Ning, Hongbin Yang (2008), Sequence Mining for User Behavior Patterns in
Mobile Commerce, CMECG '08 Proceedings of the 2008 International Conference
on Management of e-Commerce and e-Government: 61-64.
[8]. Chun-Sheng Wang, Anthony J.T. Lee (2009), Mining inter-sequence patterns, Expert
Systems with Applications, 36 (2009): 8649–8658.
[9]. D. Vasumathi, Dr. A. Govardhan, K.Venkateswara Rao (2009), Performance
improvement and efficient approach for mining periodic sequential acess patterns,
International Journal of Computer Science and Security (IJCSS),2009, 3 (5):358-370.
[10]. Ding-Ying Chiu, Yi-Hung Wu, Arbee L. P. Chen (2009), Efficient frequent sequence
mining by a dynamic strategy switching algorithm, VLDB J. , 18(1): 303-327.
[11]. Karine Zeitouni (2009), From Sequence Mining to Multidimensional Sequence
Mining, Mining Complex Data 2009: 133-152.
[12]. Ming-Yen Lin, Sue-Chen Hsueh, Ming-Hong Chen, Hong-Yang Hsu (2009), Mining
Sequential Patterns for Image Classification in Ubiquitous Multimedia Systems,
Intelligent Information Hiding and Multimedia Signal Processing 2009(IIH-MSP '09):
303-306.
[13]. Manish Gupta, Jiawei Han (2010), Pattern Discovery Using Sequence Data Mining:
Applications and Studies,
_mining.doc.
[14]. M. Gholizadeh, M. M. Pedram, J. Shanbehzadeh (2010), Sequence Mining for Similar
Mental Concepts, IMECS 2010: 518-521.
[15]. Marc Plantevit, Anne Laurent, Dominique Laurent, Maguelonne Teisseire, Yeow Wei
Choong (2010), Mining multidimensional and multilevel sequential patterns, TKDD
(2010), 4(1).
[16]. Karam Gouda, Mosab Hassaan, Mohammed J. Zaki (2010), Prism: An effective
approach for frequent sequence mining via prime-block encoding, J. Comput. Syst.
Sci. 76(1): 88-102.









×