Tải bản đầy đủ (.pptx) (69 trang)

Tìm hiểu về Data Warehouse – OLAP – BI potx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 69 trang )

Thành viên nhóm:
Nguyễn Ngọc Khánh Hương 1041060.
Tạ Thụy Kim Ngân 1041090.
Trần Thị Phượng 1041111.
Dương Quốc Trung 1041155.
Nguyễn Doãn Trường Huy 1041347.
Nguyễn Thị Oanh 1041391.
Topic #9:
Tìm hiểu về Data Warehouse – OLAP –
BI
Công cụ mã nguồn mở SpagoBI
- DATA WAREHOUSE
- OLAP
- BI
- Công cụ mã nguồn mở SpagoBI
1041090 - TẠ THỤY KIM NGÂN
DATA WAREHOUSE
I. GIỚI THIỆU SƠ LƯỢC
1. Giới thiệu
2. Lịch sử
3. Mục tiêu
4. Tính chất
5. Đặc điểm
II. XÂY DỰNG DATA WAREHOUSE
6. Các thành phần
7. Quá trình đưa dữ liệu vào data warehouse
8. Cái khái niệm cơ bản của CSDL đa chiều
9. Tiến trình ETL
10.Ứng dụng Data warehouse
MỤC LỤC
1. Giới thiệu


- Một ứng dụng thường đi kèm 1 CSDL.
-
Một công ty có nhiều ứng dụng.
-
Muốn kiểm soát lượng dữ liệu của toàn công ty ?
-
Muốn đưa ra quyết định tiên đoán tương lai của công ty?
I. GIỚI THIỆU SƠ LƯỢC
I. GIỚI THIỆU SƠ LƯỢC
3. Lịch sử
Cuối những năm 1980, Barry Devlin và Paul Murphy nghiên
cứu “decision support environment”.
I. GIỚI THIỆU SƠ LƯỢC
3. Mục tiêu
1. Truy cập dễ dàng
2. Thông tin nhất quán
3. Thích nghi với thay đổi
4. Bảo mật
5. Hỗ trợ ra quyết định
6. Tính thành công
I. GIỚI THIỆU SƠ LƯỢC
4. Tính chất
1. Tính hướng chủ đề (subject orientation)
-
Tổ chức xoay quanh các chủ đề chính.
-
Tập trung vào việc mô hình hóa và phân tích dữ liệu.
-
Cung cấp khung nhìn đơn giản xoay quanh các chủ đề.
I. GIỚI THIỆU SƠ LƯỢC

4. Tính chất
1. Tính hướng chủ đề
I. GIỚI THIỆU SƠ LƯỢC
4. Tính chất
2. Tính tích hợp (intergrated)
-
Được xây dựng từ các nguồn dữ liệu khác nhau.
-
Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng nhằm
đảm bảo sự đồng nhất của dữ liệu.
I. GIỚI THIỆU SƠ LƯỢC
I. GIỚI THIỆU SƠ LƯỢC
4. Tính chất
3. Tính bền vững (non-volatile)
Data warehouse chỉ cho phép người dùng truy cập và tải
dữ liệu về xem. Người dùng không thể cập nhật lại dữ liệu
đó.
I. GIỚI THIỆU SƠ LƯỢC
4. Tính chất
3. Tính bền vững (non-volatile)
I. GIỚI THIỆU SƠ LƯỢC
4. Tính chất
4. Biến thời gian (time variant)
Thông tin thời gian được lưu kèm theo dữ liệu. Người dùng
có thể truy cập dữ liệu cũ của 5-10 năm trước để đưa ra
các đánh giá đúng hơn.
I. GIỚI THIỆU SƠ LƯỢC
4. Tính chất
4. Biến thời gian (time variant)
I. GIỚI THIỆU SƠ LƯỢC

5. Đặc điểm
1. Thiết kế cho công việc phân tích.
2. Thiết kế cho một nhóm nhỏ người sử dụng.
3. Dữ liệu chỉ đọc.
4. Cập nhật theo giai đoạn: chỉ thêm dữ liệu.
5. Các câu hỏi trả về tập kết quả lớn, đa kết nối.
6. Toàn cục.
I. GIỚI THIỆU SƠ LƯỢC
1. Các thành phần
1. Nguồn dữ liệu (Source system)
2. Khu vực xử lý (Staging area)
3. Khu vực trình bày (Presentation server)
4. OLAP
5. Kho dữ liệu cục bộ (Data mart)
II. XÂY DỰNG DATA WAREHOUSE
1. Các thành phần
II. XÂY DỰNG DATA WAREHOUSE
2. Quá trình đưa dữ liệu vào DWH

Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá
chuyên dụng).

Liên kết các số liệu (Tính trước số liệu tích, tổng, trung
bình).

Biến đổi dữ liệu (Số liệu được biến đổi thành dạng thích
hợp, tổ chức lại phù hợp với DWH).

Tích hợp số liệu từ nguồn khác nhau


Đồng bộ hóa số liệu ở một thời điểm xác định
II. XÂY DỰNG DATA WAREHOUSE
3. Một số khái niệm về mô hình đa chiều
A- Data Cube
II. XÂY DỰNG DATA WAREHOUSE
2. Một số khái niệm về mô hình đa chiều
B- Dimension
II. XÂY DỰNG DATA WAREHOUSE
2. Một số khái niệm về mô hình đa chiều
C- Dimension Table
-
Các bảng dimension chứa các mô tả doanh nghiệp.
-
Một mô hình có hướng được thiết kế tốt thường có nhiều
cột hoặc nhiều thuộc tính. Các thuộc tính này mô tả các
dòng trong bảng dimension. Sẽ là bất thường nếu 1 bảng
dimension có 50-100 thuộc tính
II. XÂY DỰNG DATA WAREHOUSE
2. Một số khái niệm về mô hình đa chiều
D- Fact Table (Bảng sự kiện)
II. XÂY DỰNG DATA WAREHOUSE
4. Tiến trình ETL
-
Đây là tiến trình rút trích và chuyển đổi dữ liệu từ các
nguồn và đặt nó vào DWH
-
Phương pháp ứng dụng ETL truyền thống là lấy dữ liệu
từ các CSDL, đặt nó vào phạm vi hoạt động, sau đó
chuyển đổi và tải nó vào DWH
-

Khu vực hoạt động (staging area) là 1 CSDL vật lý hoặc
các tập tin. Đặt dữ liệu vào khu vực hoạt động là thêm nó
vào CSDL hay các tập tin.
II. XÂY DỰNG DATA WAREHOUSE

×