Tải bản đầy đủ (.pdf) (12 trang)

Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (275.64 KB, 12 trang )

0

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LUẬN VĂN THẠC SỸ

PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU
MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG

Học viên: Nguyễn Thị Thanh Huyền
Người hướng dẫn khoa học: Ts. Đỗ Văn Thành

4/2006


1
MỤC LỤC
Bảng từ viết tắt ................................................................................................. 3
Danh mục bảng biểu ........................................................................................ 4
Danh mục hình vẽ............................................................................................. 6
MỞ ĐẦU .......................................................................................................... 7
Chương 1

TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU ........... 10

1.1 Tại sao phải xây dựng kho dữ liệu? ......................................................... 10
1.2 Khái niệm kho dữ liệu – Data Warehouse .............................................. 11
1.3 Mục đích của kho dữ liệu ........................................................................ 13
1.4 Đặc điểm của kho dữ liệu........................................................................ 14
1.5. Mô hình của Kho dữ liệu (DW)............................................................... 18


1.5.1. Các khái niệm cơ bản........................................................................... 18
1.5.2.Mô hình dữ liệu nhiều chiều.................................................................. 20
1.5.3. Sơ đồ cơ sở dữ liệu nhiều chiều ........................................................... 22
1.6. Kho dữ liệu chủ đề .................................................................................. 25
1.7. Phân bậc khái niệm................................................................................. 27
Kết luận .......................................................................................................... 29
Chương 2

PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU ........... 30

2.1. Mô hình hình thức của phát hiện luật kết hợp ........................................ 30
2.2. Phát hiện luật kết hợp nhiều chiều.......................................................... 33
2.2.1. Các khái niệm cơ bản........................................................................... 33
2.2.2. Biểu thức luật mẫu ............................................................................... 42
2.3. Các thuật toán phát hiện luật kết hợp nhiều chiều ................................. 50
2.3.1. Chuyển đổi mẫu.................................................................................... 50
2.3.2. Giai đoạn tìm tập các ứng cử viên ....................................................... 54


2
2.3.3. Giai đoạn tìm tập mục dữ liệu chuẩn phổ biến.................................... 63
Kết luận .......................................................................................................... 73
Chương 3

PHÁT HIỆN LUẬT KẾT NHIỀU CHIỀU MỜ ............ 74

3.1. Giới thiệu................................................................................................. 74
3.2. Phân loại CSDL nhiều chiều................................................................... 78
3.3. Phát hiện luật kết hợp từ CSDL nhiều chiều loại 2 ................................ 81
3.3.1. Các khái niệm cơ bản........................................................................... 81

3.3.2. Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 2
........................................................................................................................ 86
3.4. Phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều loại 3 ..................... 90
3.4.1. Chuyển CSDL nhiều chiều loại 3 về CSDL nhiều chiều mới............... 90
3.4.2. Các khái niệm cơ bản........................................................................... 95
3.4.3. Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 3
........................................................................................................................ 97
Kết luận .......................................................................................................... 97
KẾT LUẬN ................................................................................................... 100
TÀI LIỆU THAM KHẢO .............................................................................. 102


3

Bảng từ viết tắt

Từ hoặc cụm từ

Viết
tắt

Tiếng anh

Cơ sở dữ liệu

CSDL

Database

Kho dữ liệu


DW

Data Warehouse

Xử lý phân tích trực tuyến

OLAP OnLine Analystical Processing

Xử lý giao dịch trực tuyến

OLTP

Hệ thống ứng dụng tác nghiệp OAS

Online Transaction Processing
Operational Application System


4

Danh mục bảng biểu

Bảng 1: Dữ liệu bán hàng của Công ty Điện tử theo 2 chiều thoi_gian và
mat_hang của chi nhánh bán hàng thuộc thành phố Hà nội. Các tiêu chuẩn
đánh giá là tong_so_ban (đơn vị triệu VNĐ). ............................................... 20
Bảng 2: Dữ liệu bán hàng của Công ty Điện tử được nhìn theo 3 chiều (3-D)
chiều thoi_gian, mat_hang và vi_tri. Tiêu chuẩn đánh giá là Tong_so_ban
(đơn vị triệu VNĐ).......................................................................................... 21
Bảng 3: CSDL tác vụ tại một cửa hàng ......................................................... 31

Bảng 4: Cơ sở dữ liệu tác vụ và được biểu diển dưới dạng bảng ................. 31
Bảng 5:CSDL tác vụ tại một siêu thị............................................................. 34
Bảng 6:CSDL tác vụ mở rộng tại một siêu thị sau khi chuyển đổi................ 36
Bảng 7: Tập ứng viên được đếm trong kế hoạch phát hiện phân biệt........... 56
Bảng 8: Ví dụ kết nối giữa U và V ................................................................. 58
Bảng 9: Các tập ứng viên được đếm trong kế hoạch phát hiện kết nối......... 59
Bảng 10: Thủ tục lập kế hoạch kết nối.......................................................... 61
Bảng 11: Thủ tục phát hiện phân biệt............................................................ 64
Bảng 12: CSDL của 1 công ty máy tính......................................................... 67
Bảng 13: Kế hoạch phát hiện phân biệt và kết hợp cho mẫu:
∆ 0 (∗), ∆1 (∗) → ∆ 2 (∗) ..................................................................................... 67
Bảng 14: Thuật toán phát hiện kết hợp.......................................................... 70
Bảng 15: sử dụng phương pháp rời rạc thuộc tính định lượng có số giá trị
nhỏ. ................................................................................................................. 74
Bảng 16: sử dụng phương pháp rời rạc thuộc tính định lượng có giá trị số. 75
Bảng 17: CSDL định lượng............................................................................ 77
Bảng 18: CSDL mờ ........................................................................................ 78


5
Bảng 19: CSDL nhiều chiều loại 2 ................................................................ 79
Bảng 20: CSDL nhiều chiều loại 3 ................................................................ 80
Bảng 21: CSDL nhiều chiều loại 4 ................................................................ 80
Bảng 22: CSDL nhiều chiều mờ loại 2 .......................................................... 83
Bảng 23:CSDL nhiều chiều mờ loại 2 mở rộng............................................. 84
Bảng 24:Bảng kí hiệu sử dụng trong thuật toán phát hiện luật kết hợp nhiều
chiều mờ ......................................................................................................... 86
Bảng 25: tập mục dữ liệu mờ mở rộng phổ biến có độ dài bằng 1 ............... 88
Bảng 26: tập mục dữ liệu mở rộng mờ phổ biến có độ dài là 2 .................... 89
Bảng 27: CSDL tác vụ nhiều chiều mờ loại 3................................................ 94



6
Danh mục hình vẽ

Hình 1: Luồng dữ liệu trong một tổ chức ...................................................... 12
Hình 2: Tích hợp dữ liệu ................................................................................ 15
Hình 3: Tích hợp dữ liệu ............................................................................... 15
Hình 4: Tính thời gian của dữ liệu................................................................. 17
Hình 5: Khối dữ liệu 3-D thể hiện cho dữ liệu của bảng 2 ........................... 21
Hình 6: Sơ đồ hình sao của DW bán hàng của Công ty Điện tử................... 23
Hình 7: Sơ đồ hình bông tuyết của DW bán hàng của Công ty Điện tử........ 24
Hình 8: Sơ đồ hình chòm sao sự kiện của DW bán hàng của Công ty Điện tử
........................................................................................................................ 25
Hình 9: Phân bậc khái niệm đối với chiều vi_tri........................................... 27
Hình 10: Cấu trúc dàn của các thuộc tính đối với chiều vi_tri trong DW Bán hàng
........................................................................................................................ 28
Hình 11: Đồ thị của CSDL trong bảng .......................................................... 34
Hình 12: Đồ thị hàm thành viên của các tập mờ: “Đường_tăng_thấp”,
“Đường_tăng_TB”, “Đường_tăng_cao”...................................................... 82
Hình 13: Đồ thị hàm thành viên của các tập mờ: “Sữa_tăng_thấp”,
“Sữa_tăng_TB”, “Sữa_tăng_cao”................................................................ 83
Hình 14: Khung lưới dựa trên việc phân hoạch 3 thuộc tính chiều .............. 90
Hình 15: Ví dụ về các phân hoạch mờ........................................................... 91
Hình 16: Định nghĩa các hàm thành viên cho các khoảng mờ...................... 93


7
MỞ ĐẦU
Vấn đề phát hiện luật kết hợp được quan tâm phát triển mạnh, hiện đã

trở thành một trong những khuynh hướng nghiên cứu và ứng dụng quan trọng
của khai phá dữ liệu (data mining). Việc phát hiện luật kết hợp nhằm tìm ra
các mối quan hệ giữa các thuộc tính dữ liệu trong cơ sở dữ liệu. Phát hiện luật
kết hợp đã được ứng dụng hiệu quả trong nhiều ngành kinh tế, khoa học, xã
hội như Thương mại, Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi
trường, ...
Để phát hiện luật kết hợp từ các cơ sở dữ liệu (CSDL), trước hết người
ta xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các CSDL nhị
phân và sau đó phát triển thành phương pháp phát hiện luật kết hợp từ CSDL
định lượng bằng cách sử dụng kỹ thuật chia khoảng giá trị các thuộc tính
trong CSDL định lượng và đưa nó về CSDL nhị phân rồi ứng dụng thuật toán
phát hiện luật kết hợp từ CSDL nhị phân đã biết hoặc là sử dụng lý thuyết tập
mờ để chuyển CSDL định lượng thành CSDL mờ và cải tiến phát triển thuật
toán phát hiện luật kết hợp nhị phân cho phù hợp. Cách tiếp cận sau cùng
đang được quan tâm nhiều vì nó khắc phục được nhược điểm “thiếu tự nhiên”
và “quá cồng kềnh” của cách tiếp cận chia khoảng giá trị thuộc tính trong
CSDL định lượng. Luật kết hợp được phát hiện khi đó được gọi là luật kết
hợp mờ.
Tương tự như vậy để phát hiện luật kết hợp từ CSDL nhiều chiều (hay
Kho dữ liệu – Dataware house) trước hết người ta cũng xây dựng các phương
pháp nhằm phát hiện luật kết hợp từ các cơ sở dữ liệu nhiều chiều nhị phân và
nó được gọi là luật kết hợp nhiều chiều. Đến nay vấn đề phát hiện luật kết hợp
nhiều chiều cơ bản đã được giải quyết, trong khi các kết quả nghiên cứu đề


8
xuất phương pháp phát hiện luật kết hợp từ cơ sở dữ liệu nhiều chiều định
lượng còn rất hạn chế.
Luận văn này liên quan đến những vấn đề phát hiện luật kết hợp từ
CSDL nhiều chiều định lượng theo cách tiếp cận đang được quan tâm sử dụng

nhằm phát hiện luật kết hợp mờ từ cơ sở dữ liệu định lượng.
Cụ thể mục đích của luận văn này là:
Về mặt lý thuyết: luận văn trình bày một cách tổng quan một số vấn đề
về kho dữ liệu, phát hiện luật kết hợp từ CSDL nhị phân, phát hiện luật kết
hợp nhiều chiều từ CSDL định lượng và đề xuất kỹ thuật phát hiện luật kết
hợp nhiều chiều mờ từ các CSDL nhiều chiều định lượng bằng cách mờ hoá
chiều của CSDL.
Về mặt ứng dụng: Cung cấp một cách hệ thống một số khái niệm và kỹ
thuật để phát hiện luật kết hợp từ CSDL nhiều chiều và nhiều chiều định
lượng. Kỹ thuật được đề xuất trong luận văn sẽ góp phần để xây dựng chương
trình ứng dụng nhằm phát hiện luật kết hợp nhiều chiều mờ từ CSDL định
lượng.
Luận văn bao gồm phần mở đầu, 3 chương nội dung và phần kết luận
Chương 1 - Tổng quan về cơ sở dữ liệu nhiều chiều: Chương này bao
gồm các trang từ 10 đến 29, trình bày các kiến thức cơ bản về kho dữ liệu:
khái niệm, mục đích của việc xây dựng kho dữ liệu, đặc điểm, các loại kho dữ
liệu, mô hình trong kho dữ liệu, phân bậc khái niệm của chiều trong CSDL
nhiều chiều. Mục đích của chương là cung cấp các kiến thức cơ bản về kho dữ
liệu (hay CSDL nhiều chiều) để làm cơ sở cho các chương tiếp theo.
Chương 2 - Tổng quan về luật kết hợp tác vụ nhiều chiều: Từ trang 30
đến trang 73, sẽ trình bày các phương pháp phát hiện luật kết hợp nhiều chiều


9
từ CSDL tác vụ nhiều chiều nhị phân. Chương này giới thiệu thuật toán phát
hiện luật kết hợp tác vụ nhiều chiều: phân biệt và kết hợp.
Chương 3 - Phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng.
Chương này gồm các trang từ trang 74 đến trang 99, trình bày phương pháp
phát hiện luật kết hợp nhiều chiều mờ. Trong chương này sẽ trình bày các
khái niệm: CSDL tác vụ nhiều chiều mờ, mục dữ liệu mờ mở rộng, cách tính

độ hỗ trợ cho các tập mục dữ liệu mờ mở rộng,… và đề xuất thuật toán phát
hiện luật kết hợp tác vụ nhiều chiều mờ và thuật toán phát hiện luật kết hợp
nhiều chiều mờ thu gọn
Phần kết luận: nêu lên những kết quả chủ yếu của luận văn và những
hạn chế trong việc giải quyết đề tài luận văn cùng với hướng phát triển tiếp
theo.
Tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy Đỗ Văn
Thành - Trung tâm Thông Tin và Dự báo KT-XH Quốc Gia đã tận tình hướng
dẫn và giúp đỡ tôi hoàn thành bản luận văn.
Tôi cũng xin cảm ơn các thầy cô khoa Công nghệ Thông tin, Trường
Đại học Công Nghệ - Đại học Quốc Gia Hà Nội đã giúp tôi hoàn thành khoá
học.


102

TÀI LIỆU THAM KHẢO
Tiếng Việt

[1] Đỗ Văn Thành (2005), Phát hiện luật kết hợp mờ từ CSDL định lượng có
độ hỗ trợ cực tiểu không giống nhau, nhận đăng trong “Tạp chí tin học” .
[2] Đỗ Văn Thành (2004), Phát hiện luật kết hợp với độ hỗ trợ không giống
nhau, Tạp chí Khoa học và Công nghệ, N1.
[3] Đoàn Văn Ban (1997), Phương pháp thiết kế và khai thác kho dữ liệu,
báo cáo đề tài TT96/97-04, Viện Công Nghệ Thông Tin.
[4] Tài liệu về “Data Warehouse” của Viện Công Nghệ Thông Tin, 1997
Tiếng Anh

[5] Agrawal,R T.Imielinski, and A.Swami, “Mining association rules between
sets of items in large databases”. Proceedings of the ACM SIGMOD Int’l

Conference on Management of Data, page 207-216, may 1993.
[6] Agrawal R, Srikant R, “Fast algorithm for mining association rules in
large databases”. In:Bocca JB, Jarke M, Zaniolo C, editors. Proc 20th VLDB
Conf. San Francisco, CA: MorganKaufmann; 1994. pp 487– 499.
[7] Attila Gyenesei, Jukka Teuhola, “Multidimensional Fuzzy Partitioning of
Attribute Ranges for Mining Quantitative Data” INTERNATIONAL JOURNAL
OF INTELLIGENT SYSTEMS, VOL. 19, 1111–1126 (2004)

[8] Attila Gyenesei, “A Fuzzy Aproach for Mining Quantitative Association
Rules”. Turku Centre for Computer Sciences, TUCS Technical Report, No
336, 2000.
[9] Baralis E, Psaila G (1997), “Designing templates for mining association
rules” J Intell Inf Syst 9 (1):7–32
[10] Chun Hing Cai, “Mining Association Rules with Weighted Items”,
Thesis, Chinese University of HongKong, 8/1998.


103
[11] Fayyad U.M, Platstsky-Shapiro G, Smyth P., and Uthurusamy,” From
Data Mining to Knowledge Discovery”. Advances in Knowledge discovery
and DataMining, , edited by the same authors, AAAI Press/The MIT
Press,1996, pp. 1-34.
[12] Fukuda T, Morimoto Y, Morishita S, Tokuyama T (1996), “Data mining
using two-dimensional optimized association rules: schema, algorithms, and
visualization”, In: Proc.ACMSIGMOD International Conference on
Management of Data, pp 13–23,Montreal, Canada
[13] Han J., Kamber M, “Data mining: Concepts and Techniques”, Morgan
Kaufman Publishers, 2001, 550 pages.
[14] Ke Wang, Yu He, Jiwei Han, “Mining Frequent Itemset Using Support
Constraints”. Proceedings of the 26th VLDB Conference,Cairo,Egypt, 2000.

[15] Ke Wang, Yu He, Jiwei Han, “Pushing support constraints into frequent
itemset mining”. School of Computing, National Univer. Of Singapore, 2000.
[16]. Kuok CM, Fu A, Wong MH, “Fuzzy association rules in databases”,
ACM SIGMOD Rec1998;27:41– 46.
[17] Kuod. M, Ada. P, “Mining Fuzzy Association Rules”, In SIGMOD
Record, 27(1), 1998.

[18] Ling Feng, Jeffrey Xu Yu, Hongjun Lu, Jiawei Han, “A template model
for multidimensional inter-transactional association rules”,2002
[19] Miller RJ,YangY(1997), “Association rules over interval data”, In:
Proc.ACMSIGMOD International Conference on Management of Data, pp
452–461, Tucson, Ariz., USA
[20] Srikant R, Agrawal R,”Mining quantitative association rules in large
relation tables”. In:Widom J, editor. Proc ACM SIGMOD. New York: ACM
Press; 1996. pp 1–12.
[21] Zadeh LA, “Fuzzy sets”, Inform Control 1965;8:338–353.



×