Data warehouse &
Data mining
Topic 13
Giáo viên lý thuyết: Nguyễn Trần Minh Thư
Nhóm thực hiện: 09
Thành viên:
0512173 – Nguyễn Khoa
0512256 – Vũ Đình Phong
0512262 – Đoàn Thu Phương
0512292 – Phạm Minh Sang
0512446 – Hồ Hoàng Ánh
Nội Dung
•
Kho dữ liệu (Data warehouse)
–
Giới thiệu
–
Định nghĩa
–
DW - Traditional Database
–
Mục đích
–
Đặc trưng
–
Kiến trúc
–
Úng dụng
–
Khó khăn
•
Khai thác dữ liệu (Data mining)
–
Giới thiệu
–
Qui trình khám phá tri thức
–
Luật kết hợp
–
Cách tiếp cận các vấn đề
KTDL.
–
Ứng dụng
–
Các công cụ KTDL hiện đai sử
dụng trong thương mại.
25/12/2009
Giới thiệu DW
35/12/2009
Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng
chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định
Công nghệ kho dữ liệu (Data Warehouse Technology) là tập
các phương pháp + kỹ thuật và các công cụ có thể kết hợp, hỗ trợ
nhau
cung cấp thông tin cho người sử dụng trên cơ sở tích hợp
từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau.
Định nghĩa Kho Dữ Liệu
Subject
Oriented
Integrated
Time VariantNon Volatile
Data
Warehouse
5/12/20094
W.H.Inmon
Định nghĩa Kho Dữ Liệu (tt)
•
Theo Pandora, Swinburn University :
–
Là một phương thức cho việc kết nối dữ liệu từ nhiều hệ thống khác
nhau.
–
Là một điểm truy cập tập trung dữ liệu của một tổ chức
–
Được trình bày ở một khuông dạng thích hợp
–
Là hệ thống chỉ đọc
–
Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng
•
Theo Paul Lucas, IBM:
–
Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán consistent.
–
Được tổng hợp về từ nhiều nguồn
–
Được làm sẵn cho người sử dụng cuối
–
Dễ hiểu
55/12/2009
Đặc trưng
•
Tính tích hợp (Integration)
•
Dữ liệu gắn thời gian và có tính lịch sử
•
Dữ liệu có tính ổn định (nonvolatility)
•
Dữ liệu không biến động
•
Dữ liệu tổng hợp
65/12/2009
Hướng chủ thể
•
Được tổ chức xung quanh các chủ thể chính, như khách hàng (customer),
sản phẩm (product), bán hàng (sales).
•
Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra
quyết định, mà không tập trung vào các hoạt động hay các xử lý hàng
ngày.
•
Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của
các chủ thể
•
Các chủ thể điển hình.
–
Các tài khoản khách hàng
–
Việc bán hàng
–
Tiền tiết kiệm của khách hàng
–
Các yêu sách bảo hiểm
–
Đặt chỗ hành khách
7
5/12/2009
Tích hợp
8
•
Data Warehouse
•
Operational Environment
•
Subject = Customer
•
Savings
•
Application
•
Current
•
Accounts
•
Application
•
Loans
•
Application
5/12/2009
Biến thời gian
9
•
Data
•
Time
•
01/97
•
02/97
•
03/97
•
Data for January
•
Data for February
•
Data for March
•
Data
•
Warehouse
5/12/2009
Ổn Định
•
Là lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác
nghiệp.
•
Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi
trường kho dữ liệu.
–
Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương
tranh.
–
Chỉ yêu cầu hai thao tác trong kho dữ liệu: Nạp và truy cập dữ liệu.
105/12/2009
DW - Traditional Database
•
Traditional Database
–
Riêng biệt
–
Hiện tại
–
Hướng thực thể
–
Cập nhật thường xuyên (update)
–
Được chuẩn hóa
–
Được mã hóa.
–
Thô
–
Người dùng : văn phòng
11
•
Data ware house
•
Tích hợp
•
Hiện hành – lịch sử
•
Hướng chủ thể
•
Bất biến
•
Không được chuẩn hóa
•
Rõ ràng
•
Tổng quát / chi tiết
•
Người dùng : quản lý
5/12/2009
Mục đích của kho dữ liệu
•
khả năng đáp ứng mọi yêu cầu về thông tin của
người sử dụng.
•
Hỗ trợ nhân viên thực hiện tốt, hiệu quả công
việc của mình, (quyết định hợp lý, nhanh, năng
suất cao hơn... )
•
Giúp cho quản lý và điều hành các dự án, các
nghiệp vụ một cách hiệu quả và chính xác.
•
Tích hợp dữ liệu từ nhiều nguồn khác nhau
Kiến trúc
135/12/2009
145/12/2009
OLAP (on-line analytical processing): các phân tích phức tạp
của dữ liệu từ kho dữ liệu, OLAP sử dụng khả năng tính toán
phân tán cho các phân tích, yêu cầu nhiều không gian lưu trữ và
sức mạnh xử lý cao
DSS (desion-support systems): hệ thống hỗ trợ đưa ra quyết
định có tính lãnh đạo của tổ chức, với các dữ liệu có mức độ
phức tạp và quan trọng
Data mining: khám phá, tìm kiếm dữ liệu cho các kiến thức
mới không dự biết trước