Khai phá dữ liệu phát hiện luật kết hợp và ứng
dụng đối với kho dữ liệu của ngân hàng
Nguyễn Thị Thu Trang
Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS.TS. Vũ Đức Thi
Năm bảo vệ: 2008
Abstract: Tìm hiểu những nét khái quát nhất về hệ thống xử lý giao dịch trực tuyến
(OLTP), Kho dữ liệu (Data warehouse) và hệ thống phân tích dữ liệu trực tuyến
(OLAP). Trình bày các vấn đề chung, cơ bản nhất về Luật kết hợp, giải thuật kinh điển
Apriori, khai phá luật kết hợp với OLAP và sinh luật kết hợp từ tập mục phổ biến.
Nghiên cứu xây dựng khung ứng dụng, bao gồm các công việc: tập hợp, làm sạch,
chuẩn hoá dữ liệu, xây dựng Data-cube, khai phá luật kết hợp từ Data-cube; từ đó triển
khai ứng dụng minh hoạ đối với Kho dữ liệu Ngân hàng
Keywords: Dữ liệu trực tuyến; Khai phá dữ liệu; Kho dữ liệu; Ngân hàng
Content
MỞ ĐẦU
Khai phá dữ liệu trong những năm gần đây đã và đang được ứng dụng rộng rãi trong nhiều
lĩnh vực như: Ngân hàng, Tài chính và thị trường chứng khoán, Thương mại, Giáo dục, Y tế,
Sinh học, Bưu chính viễn thông, … với nhiều hướng tiếp cận khác nhau như: Phân lớp/Dự
đoán, Phân cụm, Luật kết hợp, … Các kỹ thuật chính được áp dụng trong khai phá dữ liệu
phần lớn được thừa kế từ lĩnh vực: Cơ sở dữ liệu, Máy tự học (Machine learning), Trí tuệ
nhân tạo, Lý thuyết thông tin, Xác suất thống kê, … và nổi trội trong đó là phương pháp Khai
phá dữ liệu phát hiện luật kết hợp với cơ sở lý thuyết vững chãi và đầy tính ứng dụng thực
tiễn.
Mặc dù trên thế giới, Khai phá dữ liệu bằng luật kết hợp đã và đang là một trong những
phương pháp phô
̉
du
̣
ng va
̀
hiệu quả , được nhiều nhà khoa học va
̀
ca
́
c tô
̉
chư
́
c , doanh nghiê
̣
p
tìm hiểu, nghiên cứu, thử nghiệm, phát triển và kết quả đã thu được những thành công lớn đặc
biệt trong lĩnh vực Ngân hàng và Tài chính trên những Kho dữ liệu khổng lồ. Tuy nhiên ở
nước ta, các nhà quản trị thậm chí còn chưa biết làm sao tổ chức dữ liệu của mình thành một
Kho dữ liệu, họ mới chỉ dừng lại ở việc trích rút được những báo cáo đơn giản đáp ứng các
nghiệp vụ hàng ngày, chưa có khái niệm về Kho dữ liệu, về phân tích OLAP, chứ chưa nói
đến là Khai phá dữ liệu từ Kho dữ liệu đó. Chính vì vậy đề tài tập trung vào vấn đề rất thực
tiễn này: Khai phá dữ liệu phát hiện luật kết hợp và Ứng dụng đối với Kho dữ liệu của
ngân hàng.
Luận văn được tổ chức thành 3 chương:
Chương 1: Kho dữ liệu và Phân tích dữ liệu trực tuyến
2
Trình bày những nét khái quát nhất về Kho dữ liệu (Data warehouse) và Phân tích dữ
liệu trực tuyến (OLAP).
Chương 2: Khai phá dữ liệu phát hiện luật kết hợp
Trình bày các vấn đề chung, cơ bản nhất về Luật kết hợp, giải thuật kinh điển Apriori
và Khai phá luật kết hợp dựa trên OLAP.
Chương 3: Xây dựng ứng dụng minh hoạ
Triển khai ứng dụng minh hoạ đối với Kho dữ liệu Ngân hàng.
References
Danh sách tài liệu tham khảo tiếng Việt
[001] Tạ Liên Dung (2003), Một số vấn đề khai phá dữ liệu, Luận văn thạc sĩ CNTT, Đại học
Quốc gia Hà Nội.
[002] Trần Vĩnh Hoàng (2007), Một số phương pháp khai phá dữ liệu sinh luật kết hợp, Luận
văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội.
[003] Hoàng Kiếm (4/2005), Giải một bài toán trên máy tính như thế nào, Tập 3 (tái bản lần
thứ nhất). NXB Giáo dục.
[004] Nguyễn Hùng Sơn (2006), Bài giảng Tập thô và Khai phá dữ liệu.
[005] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động của kho dữ liệu.
[006] Vũ Đức Thi (1997), Cơ sở dữ liệu – Kiến thức và thực hành. NXB Thống Kê.
[007] Nguyễn Thanh Thuỷ (8/2001), Bài giảng Khai phá dữ liệu - Kỹ thuật và ứng dụng.
Danh sách tài liệu tham khảo tiếng Anh
[101] (1995) J.Gray, S.Chaudhuri, A.Bosworth, A.Layman, D.Reichart, M.Venkatrao,
F.Pellow and H.Pirahesh, Data-cube: a relational aggregation operator generalizing
group-by, cross-tab and sub-totals, Microsoft Technical report.
[102] J.Han (1999), OLAP-Mining: An integration of OLAP with Data-Mining, Simon Fraser
University.
[103] J.Han and M.Kamber (2001), Data Mining: Concepts and Techniques, Hacours Science
and Technology Company, USA.
[104] W.H.Inmon (1996), Building the Data Warehouse, John Wiley & Sons, Chichester,
second edition.
[105] W.H.Inmon (1995), "What is a Data Warehouse?", Prism, Volume 1.
[106] W.H.Inmon, C. Kelly (1993), Rdb/VMS: Developing the Data Warehouse, QED
Publishing Group, Boston, Massachussetts.
[107] Mehmed Kantardzic (2002), Data Mining: Concepts, Models, Methods and Algorithms,
Wiley-IEEE Press.
[108] R.Kimball (1996), The Data Warehouse Toolkit: Practical Techniques for Building
Dimensional Data Warehouses, John Wiley & Sons.
[109] M. Levene, G. Loizou (2000), “Why is the Snowflake Schema a Good Data Warehouse
Design?”, Birkbeck College, University of London.
[110] M.J.Zaki and M.Ogihara (6/1998), Theoretical Foundations of Association Rules, In 3
rd
ACM SIGMOD Workshop on Research Issues in Data mining and Knowledge
Discovery.
[111] Hua Zhu (1998), Online Analytical Mining of Association Rules, Master thesis, Simon
Fraser University.
3
Danh sách Websites tham khảo
[L01]
[L02]
[L03]
[L04]
[L05]
[L06]
[L07]
[L08]
[L09]
[L10]
b28129/intro_concepts.htm
[L11]
Tutorial.aspx
[L12]
[L13]
[L14]
[L15] />warehouse-20809