Tải bản đầy đủ (.pdf) (22 trang)

Khai phá dữ liệu phát hiện luật kết hợp và ứng dụng đối với kho dữ liệu của ngân hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (733.05 KB, 22 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THU TRANG

KHAI PHÁ DỮ LIỆU PHÁT HIỆN LUẬT KẾT HỢP
VÀ ỨNG DỤNG ĐỐI VỚI KHO DỮ LIỆU CỦA NGÂN HÀNG

Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10


LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. VŨ ĐỨC THI

Hà Nội - 2008

MỤC LỤC
MỞ ĐẦU.....................................................................................................................9
Chương 1: KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN ..............11
1.1. Hệ thống xử lý giao dịch trực tuyến (OLTP) .................................................11
1.2. Kho dữ liệu (Data warehouse) .......................................................................11
1.3. Hệ thống phõn tớch dữ liệu trực tuyến (OLAP) ............................................14
1.3.1. Giới thiệu ................................................................................................14
1.3.2. Mụ hỡnh tổ chức dữ liệu (Data model) ..................................................17
1.3.2.1. Lược đồ hỡnh sao (Star schema) .....................................................18


1.3.2.2. Lược đồ bụng tuyết (Snowflake schema) ........................................19



Chương 2: KHAI PHÁ DỮ LIỆU PHÁT HIỆN LUẬT KẾT HỢPError! Bookmark not defined
2.1. Giới thiệu .......................................................Error! Bookmark not defined.
2.1.1. Định nghĩa luật kết hợp...........................Error! Bookmark not defined.
2.1.1.1. Vớ dụ về luật kết hợp .......................Error! Bookmark not defined.
2.1.1.2. Cỏc định nghĩa cơ bản .....................Error! Bookmark not defined.
2.1.2. Luật kết hợp nhị phõn .............................Error! Bookmark not defined.
2.1.3. Luật kết hợp định lượng ..........................Error! Bookmark not defined.
2.1.4. Luật kết hợp đơn chiều ...........................Error! Bookmark not defined.
2.1.5. Luật kết hợp đa chiều ..............................Error! Bookmark not defined.
2.1.6. Luật kết hợp đa mức ...............................Error! Bookmark not defined.
2.1.6.1. Giới thiệu .........................................Error! Bookmark not defined.
2.1.6.2. Khai phỏ luật kết hợp đa mức ..........Error! Bookmark not defined.

2.2. Thuật toỏn Apriori .........................................Error! Bookmark not defined.
2.3. Đỏnh giỏ.........................................................Error! Bookmark not defined.
2.4. Khai phỏ luật kết hợp với OLAP ...................Error! Bookmark not defined.
2.4.1. Xõy dựng Data-cube ...............................Error! Bookmark not defined.
2.4.2. Khai phỏ cỏc tập mục phổ biến dựa trờn Data-cubeError! Bookmark not defined.
2.4.3. Đỏnh giỏ..................................................Error! Bookmark not defined.
2.5. Sinh luật kết hợp từ tập mục phổ biến ...........Error! Bookmark not defined.
2.5.1. Thuật toỏn đơn giản sinh luật kết hợp từ tập mục phổ biếnError! Bookmark not def
2.5.2. Khai phỏ luật kết hợp dựa trờn Data-cubeError! Bookmark not defined.
2.5.3. Đỏnh giỏ..................................................Error! Bookmark not defined.
Chương 3: XÂY DỰNG ỨNG DỤNG MINH HOẠError! Bookmark not defined.
3.1. Giới thiệu .......................................................Error! Bookmark not defined.
3.2. Xõy dựng khung ứng dụng (Framework) ......Error! Bookmark not defined.
3.2.1. Tập hợp, làm sạch và chuẩn hoỏ dữ liệu Error! Bookmark not defined.
3.2.2. Xõy dựng Data-cube ...............................Error! Bookmark not defined.
3.2.3. Khai phỏ luật kết hợp từ Data-cube ........Error! Bookmark not defined.

3.3. Đỏnh giỏ.........................................................Error! Bookmark not defined.
KẾT LUẬN ...............................................................Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ........................................................................................19
Danh sỏch tài liệu tham khảo tiếng Việt ...........................................................19
Danh sỏch tài liệu tham khảo tiếng Anh ...........................................................20
Danh sỏch Websites tham khảo ........................................................................21


DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN

Bảng 2.1: Ví dụ một CSDL giao dịch. ......................Error! Bookmark not defined.
Bảng 2.2: Ví dụ về các tập mục phổ biến. ................Error! Bookmark not defined.

Bảng 2.3: Các luật kết hợp được sinh từ tập mục phổ biến ACW.Error! Bookmark not defined
Bảng 2.4: Ví dụ CSDL giao dịch bán hàng. .............Error! Bookmark not defined.
Bảng 2.5: Thuật toán Apriori. ...................................Error! Bookmark not defined.
Bảng 2.6: Cơ sở dữ liệu minh hoạ thuật toán Apriori.Error! Bookmark not defined.
Bảng 2.7: Minh hoạ CSDL thống kê tài khoản giao dịch.Error! Bookmark not defined.
Bảng 2.8: Tiêu chí rời rạc hoá CSDL thống kê TKGD.Error! Bookmark not defined.
Bảng 2.9: CSDL thống kê TKGD sau khi rời rạc hoá.Error! Bookmark not defined.
Bảng 2.10: Pivot-table ứng với CSDL thống kê TKGD.Error! Bookmark not defined.

Bảng 2.11: Thuật toán tìm tập mục phổ biến từ Data-cube của Hua Zhu.Error! Bookmark not d
Bảng 2.12: Thuật toán DataCubeSimpleGenFrequentItemsets.Error! Bookmark not defined.
Bảng 2.13: Thuật toán sinh luật kết hợp từ tập mục phổ biến.Error! Bookmark not defined.
Bảng 2.14: Thủ tục GenRules. ..................................Error! Bookmark not defined.
Bảng 2.15: Thuật toán DataCubeSimpleMining. .....Error! Bookmark not defined.
Bảng 3.1: Đoạn mã thực hiện chuẩn hoá dữ liệu. .....Error! Bookmark not defined.
Bảng 3.2: Đoạn mã thực hiện xây dựng Data-cube. .Error! Bookmark not defined.


Bảng 3.3: Đoạn mã thực hiện khai phá luật kết hợp từ Data-cube.Error! Bookmark not defined


DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN

Hình 1.1: Kiến trúc tiêu biểu của Data warehouse. ..................................................12
Hình 1.2: Minh hoạ Data-cube..................................................................................15
Hình 1.3: Minh hoạ dữ liệu được tính toán và lưu trữ bởi OLAP-engine. ...............16
Hình 1.4: Các thao tác cơ bản trong OLAP. .............................................................17
Hình 1.5: Lược đồ hình sao (Star schema). ..............................................................18
Hình 1.6: Minh hoạ phân cấp thuộc tính trong lược đồ hình sao. ............................19
Hình 1.7: Lược đồ bông tuyết (Snowflake schema). Error! Bookmark not defined.
Hình 2.1: Sự phân cấp mức độ trừu tượng của dữ liệu.Error! Bookmark not defined.

Hình 2.2: Khai phá luật kết hợp đa mức với minsup giống nhau tại các mức.Error! Bookmark n
Hình 2.3: Khai phá luật kết hợp đa mức với minsup giảm dần.Error! Bookmark not defined.

Hình 2.4: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc.Error! Bookmark not

Hình 2.5: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc k-mục.Error! Bookma
Hình 2.6: Minh hoạ thuật toán Apriori. ....................Error! Bookmark not defined.
Hình 3.1: Minh hoạ dữ liệu thô. ................................Error! Bookmark not defined.
Hình 3.2: Minh hoạ các tiêu chí lọc và rời rạc hoá dữ liệu.Error! Bookmark not defined.
Hình 3.3: Dữ liệu sau khi chuẩn hoá (Xem dạng Grid).Error! Bookmark not defined.
Hình 3.4: Dữ liệu Data-cube (Dạng Grid và Pivot). .Error! Bookmark not defined.
Hình 3.5: Luật kết hợp khai phá từ Data-cube..........Error! Bookmark not defined.


KÝ HIỆU VÀ TỪ VIẾT TẮT


Stt

Ký hiệu viết
tắt

Nghĩa tiếng Việt

Nghĩa tiếng Anh

1

CSDL

Cơ sở dữ liệu

2

HQTCSDL

Hệ quản trị cơ sở dữ liệu Database Management System

3

KPDL

Khai phá dữ liệu

Data Mining

4


KDD

Khai phá tri thức

Knowledge
Database

Database

Discovery

in


THUẬT NGỮ

Stt

Thuật ngữ

Diễn giải

1

Database

Cơ sở dữ liệu

2


Database Management
System

Hệ quản trị cơ sở dữ liệu

3

Data cube

Khối dữ liệu đa chiều

4

Data mart

CSDL chuyên đề hoặc Kho dữ liệu chuyên
đề

5

Data Mining

Khai phá dữ liệu

6

Data warehouse

Kho dữ liệu


7

Decision-making support
system

Hệ hỗ trợ quyết định

8

Dimension table

Bảng chiều dữ liệu

9

Fact table

Bảng giá trị chi tiết

10

Frequent items set

Tập mục phổ biến

11

KDD


Knowledge Discovery in Database
Khai phá tri thức

12

OLAP

On-Line Analytical Processing
Hệ thống Phân tích dữ liệu trực tuyến

13

OLTP

On-Line Transaction Processing
Hệ thống xử lý giao dịch trực tuyến
14

Star schema

Lược đồ hình sao

15

Snowflake schema

Lược đồ bông tuyết


16


SQL

Structured Query Language
Ngôn ngữ truy vấn có cấu trúc


MỞ ĐẦU
Khai phá dữ liệu trong những năm gần đây đã và đang được ứng dụng rộng rãi
trong nhiều lĩnh vực như: Ngân hàng, Tài chính và thị trường chứng khoán,
Thương mại, Giáo dục, Y tế, Sinh học, Bưu chính viễn thông, … với nhiều hướng
tiếp cận khác nhau như: Phân lớp/Dự đoán, Phân cụm, Luật kết hợp, … Các kỹ
thuật chính được áp dụng trong khai phá dữ liệu phần lớn được thừa kế từ lĩnh vực:
Cơ sở dữ liệu, Máy tự học (Machine learning), Trí tuệ nhân tạo, Lý thuyết thông
tin, Xác suất thống kê, … và nổi trội trong đó là phương pháp Khai phá dữ liệu
phát hiện luật kết hợp với cơ sở lý thuyết vững chãi và đầy tính ứng dụng thực tiễn.
Mặc dù trên thế giới, Khai phá dữ liệu bằng luật kết hợp đã và đang là một
trong những phương pháp phổ du ̣ng và hiệu quả, được nhiều nhà khoa học và các
tổ chức, doanh nghiê ̣p tìm hiểu, nghiên cứu, thử nghiệm, phát triển và kết quả đã
thu được những thành công lớn đặc biệt trong lĩnh vực Ngân hàng và Tài chính
trên những Kho dữ liệu khổng lồ. Tuy nhiên ở nước ta, các nhà quản trị thậm chí
còn chưa biết làm sao tổ chức dữ liệu của mình thành một Kho dữ liệu, họ mới chỉ
dừng lại ở việc trích rút được những báo cáo đơn giản đáp ứng các nghiệp vụ hàng
ngày, chưa có khái niệm về Kho dữ liệu, về phân tích OLAP, chứ chưa nói đến là
Khai phá dữ liệu từ Kho dữ liệu đó. Chính vì vậy đề tài tập trung vào vấn đề rất
thực tiễn này: Khai phá dữ liệu phát hiện luật kết hợp và Ứng dụng đối với Kho
dữ liệu của ngân hàng.

Luận văn được tổ chức thành 3 chương:
Chương 1: Kho dữ liệu và Phân tích dữ liệu trực tuyến

Trình bày những nét khái quát nhất về Kho dữ liệu (Data warehouse) và
Phân tích dữ liệu trực tuyến (OLAP).
Chương 2: Khai phá dữ liệu phát hiện luật kết hợp
Trình bày các vấn đề chung, cơ bản nhất về Luật kết hợp, giải thuật kinh
điển Apriori và Khai phá luật kết hợp dựa trên OLAP.
Chương 3: Xây dựng ứng dụng minh hoạ


Triển khai ứng dụng minh hoạ đối với Kho dữ liệu Ngân hàng.


KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN
Hệ thống xử lý giao dịch trực tuyến (OLTP)
Hầu hết các doanh nghiệp trên thế giới đã và đang áp dụng công nghệ thông tin
trong việc lưu trữ và quản lý dữ liệu. Hệ thống OLTP (On-Line Transaction
Processing: Hệ thống xử lý giao dịch trực tuyến) ra đời với khả năng lưu trữ dữ
liệu lâu dài, hướng giao dịch (Transaction-oriented) nên được áp dụng rất phổ biến
vì dữ liệu mà các doanh nghiệp thực hiện tác nghiệp chủ yếu đều dưới dạng các
giao dịch. Cũng vì vậy mà hầu hết các hệ quản trị CSDL phổ biến hiện nay như:
Oracle, SQL Server, DB2, MySQL, ... đều hỗ trợ OLTP. CSDL trong các hệ OLTP
thường được thiết kế thoả mãn 3NF hoặc cao hơn. Đặc điểm của hệ thống OLTP là
lưu toàn bộ các dữ liệu giao dịch chi tiết hàng ngày, điều đó cũng có nghĩa là mức
độ tổng quát, trừu tượng của dữ liệu này rất thấp. Với công cụ SQL, OLTP có thể
nhanh chóng trả lời được những câu hỏi dạng: Tổng doanh thu từ mặt hàng A trong
6 tháng đầu năm là bao nhiêu, hay Mặt hàng nào bán chạy nhất trong 6 tháng đầu
năm, ....
Tuy nhiên đứng trên góc độ của nhà quản lý họ cần hệ thống trả lời những câu
hỏi dạng: Đưa ra danh sách 10 mặt hàng có doanh thu tốt nhất của từng quý từ
trước cho tới nay, với mỗi mặt hàng, chỉ ra tháng nào trong quý mặt hàng đó có
doanh thu lớn nhất (1). Hay nếu doanh thu của mặt hàng A tăng thì có thể dự đoán

doanh thu của mặt hàng B tăng hay giảm với xác suất là bao nhiêu (2). Với câu hỏi
dạng (1) hệ thống OLTP gặp rất nhiều khó khăn khi trả lời, để trả lời chúng một
cách nhanh chóng chúng ta cần phải sử dụng những công cụ chuyên dụng và cao
cấp hơn như OLAP (xem 0). Còn với những câu hỏi dạng (2) thì việc hệ thống
OLTP trả lời là một điều viễn tưởng, muốn trả lời câu hỏi dạng này chúng ta cần
phải sử dụng công cụ đặc biệt là Data mining (xem Chương 2).

Kho dữ liệu (Data warehouse)
Data warehouse (Kho dữ liệu) được đề xuất bởi W.H.Inmon vào đầu những
năm 1990, là nơi lưu trữ thông tin tích hợp từ nhiều nguồn (Multi-sources), hướng
chủ đề (Subject-oriented), mang tính lịch sử (Time-variant), ổn định (Nonvolatile),
hỗ trợ truy vấn (Query), phân tích (Analyse) thông tin và trợ giúp ra quyết định
(Decision-making support) [105].


Qua khái niệm trên ta thấy dữ liệu và thông tin sẽ được trích rút từ nhiều nguồn
khác nhau với các định dạng khác nhau. Nếu người sử dụng muốn thực hiện các
truy vấn, hệ thống sẽ chỉ thực hiện tìm kiếm dữ liệu tại Data warehouse một cách
thống nhất thay vì tìm kiếm trên các CSDL (Cơ sở dữ liệu) nguồn bằng các công
cụ chuyên biệt tương ứng, từ đó tiết kiệm nhiều thời gian xử lý của người sử dụng.

Hình 0.1: Kiến trúc tiêu biểu của Data warehouse.

Hệ thống Data warehouse gồm có 3 thành phần chính sau:
Các CSDL nguồn: Dữ liệu thô sẽ được tập hợp từ nhiều nơi: bên trong, bên ngoài, tự có,
đi mua, dữ liệu di sản lịch sử hay dữ liệu hoạt động hiện tại (Operational
database), các dữ liệu này và mọi sự thay đổi của chúng sẽ được quản lý bởi một
phân hệ giám sát đặc biệt (Monitor / Wrapper modules).



Ở đây, dữ liệu được tập hợp từ rất nhiều nguồn: bản thân doanh nghiệp, bên ngoài
doanh nghiệp, thậm chí là đi mua, ... được lưu trữ trên rất nhiều loại khuôn dạng:
Oracle, DB2, SQL Server, Microsoft Access, ..., thậm chí là Microsoft Excel file
hay Text file. Tất cả dữ liệu này và mọi sự thay đổi của chúng sẽ được quản lý bởi
phân hệ Monitor / Wrapper.

Lõi của Data warehouse: Tại đây, dữ liệu sẽ được tổng hợp từ các nguồn dữ liệu trên,
thông thường từ các khuôn dạng khác nhau thành một dạng thống nhất và trở
thành trung tâm lưu trữ của toàn bộ hệ thống.

Ở đây, dữ liệu thô được Trích chọn (Extract), Làm sạch (Clean), Chuyển đổi
(Transform) trước khi được Tải (Load) vào Data warehouse. Phân hệ Monitor /
Wrapper sẽ thực hiện định kỳ cập nhật những thay đổi (Refresh) sao cho đảm bảo
sự nhất quán dữ liệu.
Các Data mart (CSDL chuyên đề) cũng được hình thành tại đây, xuất phát từ nhu
cầu cụ thể tập trung phân tích một lĩnh vực chuyên biệt mà người sử dụng quan
tâm. Dữ liệu sẽ được trích rút từ Data warehouse hình thành nên các Data mart
giúp việc truy vấn và phân tích được nhanh chóng, tập trung và tối ưu hơn.

Các công cụ phân tích: Các công cụ này hỗ trợ các truy vấn, tạo báo cáo, OLAP, thậm chí
là hỗ trợ khai phá dữ liệu (phân tích xu hướng, dự đoán, đưa ra các luật ... ).

- Các công cụ này cho phép người sử dụng dễ dàng, chủ động khai thác và tạo
các câu truy vấn (query), tạo lập báo cáo, tạo lập các bản phân tích một cách
nhanh chóng với độ chính xác cao mà không cần yêu cầu kiến thức về
CSDL.
- Cho phép xoay chiều và tạo các báo cáo theo nhiều dạng khác nhau như
dạng bảng ngang (Horizontal), bảng dọc (Vertical), bảng chéo (Cross), cũng
như các dạng đồ thị khác nhau.
- Cung cấp các công cụ thao tác với dữ liệu như Drill (phân tích dữ liệu theo

chiều sâu), Roll up (tổng hợp), Slice (cắt lát dữ liệu), Dice (cắt khối dữ liệu)
hay Pivot (xoay dữ liệu).


- Các công cụ đặc biệt giúp phân tích xu hướng, dự đoán, đưa ra các luật, tri
thức.
Hệ thống phân tích dữ liệu trực tuyến (OLAP)
Giới thiệu
Mặc dù dữ liệu được lưu trữ trong Data warehouse đã được trích chọn, làm sạch
và chuyển đổi về khuôn dạng chuẩn, xong việc truy vấn và đặc biệt là việc phân
tích thông tin trên một khối lượng dữ liệu khổng lồ đòi hỏi phải có những công cụ
đặc biệt.
Kỹ thuật OLAP (OnLine Analytical Processing: Xử lý phân tích dữ liệu trực
tuyến) được hiểu là một tập hợp những những kỹ thuật được phát triển để phân tích
dữ liệu trong Data warehouse [102] đáp ứng được các tiêu chí: Trực tuyến
(Online), nhanh chóng, trực quan và hiệu quả đối với phân tích dữ liệu đa chiều.
OLAP thực hiện một quá trình tạo ra và quản lý dữ liệu đa chiều phục vụ cho phân
tích một cách trực quan, nó cho phép truy vấn trên một CSDL khổng lồ một cách
nhanh chóng và hiệu quả đáng kể so với kỹ thuật truy vấn kinh điển bằng SQL trên
CSDL quan hệ. Để thực hiện được điều đó, OLAP-engine (cơ chế OLAP) phải
thực hiện tính toán trước các toán tử nhóm (Aggregation operator) đồng thời tổ
chức lại dữ liệu và kết quả tính toán dưới dạng các Khối dữ liệu đa chiều (Datacube).
Việc thực hiện OLAP bao gồm 3 giai đoạn:
- Truy vấn dữ liệu từ Data warehouse.
- Xây dựng Data-cube.
- Phân tích trực tuyến dựa trên Data-cube.
Khái niệm Data-cube (Khối dữ liệu đa chiều) lần đầu tiên được đề xuất bởi J. Gray
và các cộng sự [101], nó bao gồm các chiều dữ liệu và các thước đo, cho phép
người sử dụng nhìn vào dữ liệu được lưu trữ trong Data warehouse qua nhiều góc
độ và nhiều chiều dữ liệu. Ví dụ, chúng ta cùng xem xét một Data-cube có 3 chiều

dữ liệu Product, Supplier, Customer và 1 thước đo là SalesTotal qua hình sau:


Hình 0.2: Minh hoạ Data-cube.

Data-cube ở trên có thể được thể hiện qua biểu thức SQL sau:
select Product, Supplier, Customer, Sum(SalesNumber) as SaleTotal
from Sales
group by Product, Supplier, Customer
with cube
;

OLAP-engine sẽ thực hiện tính toán trước các toán tử nhóm và lưu trữ dữ liệu tính
toán này vào các trường bổ sung, ký hiệu là “Any” hoặc “*” như minh hoạ sau:


*

c1 c2 c3
p1 56

c1 c2p2 c311 *8

s2

p1 44
c1 c2
p2 c3
s1


50 110
1

20

4*

67 4812 51 130

*

1

1

1

49

p1 12

*

50
44 62
4

p2 11

8


19

23

8

50 81

*

4

*

Sales(*,*,*)
Sales(p1,*,s2
)

Hình 0.3: Minh hoạ dữ liệu được tính toán và lưu trữ bởi OLAP-engine.

Sau khi xây dựng xong Data-cube, OLAP cung cấp một số thao tác giúp người sử
dụng phân tích dữ liệu gồm:
- Roll-up (Cuộn) thực hiện tính toán gộp theo một hoặc nhiều chiều dữ liệu.
- Drill-down (Đào sâu) thao tác này ngược lại với Roll-up, nó cung cấp các dữ
liệu ở mức chi tiết theo các chiều dữ liệu.
- Slice (Cắt lát) thực hiện “cắt” lấy một “lát” dữ liệu theo 1 chiều nào đó của
Data-cube.
- Dice (Cắt khối) thực hiện “cắt” lấy một “khối con” dữ liệu của Data-cube.
- Pivot (Xoay) cho phép xoay Data-cube theo các chiều dữ liệu, từ đó cung

cấp cho người sử dụng nhiều góc nhìn vào dữ liệu.
Các thao tác trên Data-cube được minh hoạ qua hình sau:


Hình 0.4: Các thao tác cơ bản trong OLAP.

Mô hình tổ chức dữ liệu (Data model)
Hầu hết các hệ quản trị CSDL hiện nay là CSDL quan hệ và ở các dạng chuẩn
hoá nhất định (3NF hoặc cao hơn), tuy nhiên nếu sử dụng trực tiếp CSDL quan hệ
để phân tích trực tuyến sẽ gặp rất nhiều khó khăn, đặc biệt là về tốc độ. Để có thể
phân tích trực tuyến, dữ liệu cần thiết phải được tính toán trước (chấp nhận dư
thừa) và tổ chức lại dưới dạng đặc biệt. Hầu hết Data warehouse hiện nay đều lưu
trữ dữ liệu theo mô hình dữ liệu đa chiều (Multidimensional data model) dạng lược
đồ hình sao (Star schema) hoặc dạng lược đồ bông tuyết (Snowflake schema).


Lược đồ hình sao (Star schema)

Mô hình Star schema (Lược đồ hình sao) được đề xuất bởi R. Kimball [108], là
mô hình phổ biến nhất hiện nay. Mỗi Star schema chứa 1 bảng dữ liệu chi tiết (Fact
table) và một vài bảng chiều dữ liệu (Dimension table). Cụ thể:
- Fact table lưu trữ toàn bộ dữ liệu chi tiết và một danh sách các khoá ngoại
(Forein key) tương ứng với các Dimension table.
- Dimension table chỉ chứa các thuộc tính (Attribute), các thuộc tính này
thường ở dạng đã duỗi phẳng phân cấp (Flatten).
Lược đồ hình sao được minh hoạ qua các hình sau:

Hình 0.5: Lược đồ hình sao (Star schema).



Hình 0.6: Minh hoạ phân cấp thuộc tính trong lược đồ hình sao.

Lược đồ bông tuyết (Snowflake schema)

Mô hình Snowflake schema là sự mở rộng của mô hình Star schema [109] trong
đó ta thực hiện chuẩn hoá một số Dimension table. Tức là từ Dimension table ban
đầu ta thực hiện chuẩn hoá thành nhiều Dimension table có quan hệ phân cấp.
Lược đồ bông tuyết có dạng như sau:

TÀI LIỆU THAM KHẢO
Danh sách tài liệu tham khảo tiếng Việt
[001] Tạ Liên Dung (2003), Một số vấn đề khai phá dữ liệu, Luận văn thạc sĩ
CNTT, Đại học Quốc gia Hà Nội.
[002] Trần Vĩnh Hoàng (2007), Một số phương pháp khai phá dữ liệu sinh luật kết
hợp, Luận văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội.


[003] Hoàng Kiếm (4/2005), Giải một bài toán trên máy tính như thế nào, Tập 3
(tái bản lần thứ nhất). NXB Giáo dục.
[004] Nguyễn Hùng Sơn (2006), Bài giảng Tập thô và Khai phá dữ liệu.
[005] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động của kho dữ
liệu.
[006] Vũ Đức Thi (1997), Cơ sở dữ liệu – Kiến thức và thực hành. NXB Thống
Kê.
[007] Nguyễn Thanh Thuỷ (8/2001), Bài giảng Khai phá dữ liệu - Kỹ thuật và ứng
dụng.

Danh sách tài liệu tham khảo tiếng Anh
[101] (1995) J.Gray, S.Chaudhuri, A.Bosworth, A.Layman, D.Reichart,
M.Venkatrao, F.Pellow and H.Pirahesh, Data-cube: a relational

aggregation operator generalizing group-by, cross-tab and sub-totals,
Microsoft Technical report.
[102] J.Han (1999), OLAP-Mining: An integration of OLAP with Data-Mining,
Simon Fraser University.
[103] J.Han and M.Kamber (2001), Data Mining: Concepts and Techniques,
Hacours Science and Technology Company, USA.
[104] W.H.Inmon (1996), Building the Data Warehouse, John Wiley & Sons,
Chichester, second edition.
[105] W.H.Inmon (1995), "What is a Data Warehouse?", Prism, Volume 1.
[106] W.H.Inmon, C. Kelly (1993), Rdb/VMS: Developing the Data Warehouse,
QED Publishing Group, Boston, Massachussetts.
[107] Mehmed Kantardzic (2002), Data Mining: Concepts, Models, Methods and
Algorithms, Wiley-IEEE Press.
[108] R.Kimball (1996), The Data Warehouse Toolkit: Practical Techniques for
Building Dimensional Data Warehouses, John Wiley & Sons.


[109] M. Levene, G. Loizou (2000), “Why is the Snowflake Schema a Good Data
Warehouse Design?”, Birkbeck College, University of London.
[110] M.J.Zaki and M.Ogihara (6/1998), Theoretical Foundations of Association
Rules, In 3rd ACM SIGMOD Workshop on Research Issues in Data mining
and Knowledge Discovery.
[111] Hua Zhu (1998), Online Analytical Mining of Association Rules, Master
thesis, Simon Fraser University.

Danh sách Websites tham khảo
[L01] />[L02] />[L03] />[L04] />[L05] />[L06] />[L07] />[L08] />[L09] />[L10]
/>ne.111/ b28129/intro_concepts.htm
[L11]
/>g%20 Tutorial.aspx

[L12] />

[L13]
/>px
[L14] />[L15] />


×