TỔNG QUAN VỀ
DATA WAREHOUSE
Giảng Viên: Nguyễn Thế Anh
TAI SAO LẠI ĐƯA NỘI DUNG DATA WAREHOUSE ?
Quản trị điều hành ngày càng dựa trên phân tích dữ liệu.
Số lượng người dùng vẫn thế nhưng khi chạy report phức tạp hệ thống quá
Khi chuyển đổi số một thời gian, đủ tích lũy dữ liệu -> Cần khai thác dữ liệu.
tải
Dữ liệu có đủ nhưng mỗi lần cần 1 báo cáo mất cả tuần.
Các hệ thống báo cáo tổng hợp nhiều chiều khơng làm được, hoặc khơng
chính xác.
NỘI DUNG CHÍNH
1
Dữ liệu và thơng tin
2
Data WareHouse
5
6
3
Mơ hình tiến trình xử lý thơng tin
4
Các góc nhìn về phân tích dữ liệu
Quy trình phân tích dữ liệu (Data Analysis)
Cơng cụ phân tích dữ liệu
DỮ LIỆU VÀ THÔNG TIN
Dữ liệu vệ tinh -> Dự báo thời tiết -> Quyết định đi chơi
Data
-> Information
Data
-> Information
DỮ LIỆU VÀ THÔNG TIN
Sự khác biệt giữa Data và Information
Data
Information
Dữ liệu có thể là ký tự, số, ảnh, từ, văn bản, có ý nghĩa hoặc vơ nghĩa với con người
Được tổ chức và biểu diễn lại trong một ngữ cảnh để khiến nó có ích gọi là Thơng tin
Dữ liệu đứng một mình có thể là vơ nghĩa
Nhưng thơng tin thì ln ln tự thân nó có nghĩa
Dữ liệu dựa trên các bản ghi, quan sát,..
Thông tin dựa trên phân tích dữ liệu
Dữ liệu thường khơng được tổ chức và phụ thuộc vào thông tin
Thông tin luôn phụ thuộc vào dữ liệu và có tổ chức
DỮ LIỆU VÀ THÔNG TIN
OLTP VÀ OLAP
SO SÁNH DATA BASE VÀ DATA WAREHOUSE
Tham số
Database
Data warehouse
Mục đích
Được thiết kế để lưu lại bản ghi
Được thiết kế để phân tích
Xử lý
Online Transactional Processing (OLTP)
Online Analytical Processing (OLAP)
Chuẩn hóa
Chuẩn hóa
khơng được chuẩn hóa
Định hướng
phục vụ định hướng cho ứng dụng, sản phẩm
cho các loại mục đích khai thác dữ liệu nhau
giới hạn lưu trữ
thường giới hạn trong 1 ứng dụng
lưu trữ dữ liệu từ nhiều nguồn khác nhau
độ khả dụng
dữ liệu có sẵn từ thời gian thực, cần là có
được làm mới khi cần thiết từ nhiều nguồn khác nhau, cần thì phải đợi hệ thống
chạy tạo lại dữ liệu định kì cần thiết
Kỹ thuật
Capture dữ liệu
Analyze dữ liệu
Loại dữ liệu
Dữ liệu được lưu trữ trong Cơ sở dữ liệu được cập nhật.
Dữ liệu hiện tại và lịch sử được lưu trữ. Có thể khơng được cập nhật.
Lưu trữ dữ liệu
Phương pháp tiếp cận quan hệ phẳng được sử dụng để lưu trữ dữ liệu.
Sử dụng phương pháp tiếp cận đa chiều và chuẩn hóa cho cấu trúc dữ liệu. Ví dụ:
Lược đồ sao và bơng tuyết.
Loại truy vấn
Các truy vấn giao dịch đơn giản được sử dụng.
Các truy vấn phức tạp được sử dụng cho mục đích phân tích.
Tóm tắt dữ liệu
Lưu dữ liệu chi tiết
Lưu trữ dữ liệu tóm tắt
XÂY DỰNG DATA WAREHOUSE
MƠ HÌNH NGƠI SAO
MƠ HÌNH NGƠI SAO
XÂY DỰNG DATA WAREHOUSE
MƠ HÌNH THIÊN HÀ (BƠNG TUYẾT)
MƠ HÌNH THIÊN HÀ (BƠNG TUYẾT)
Sử dụng tùy theo vai trò
Kiến trúc DL tổng thể
& thẩm quyền
Doanh nghiệp
Cơ quan
Cổng
Cổng Web
Web
Cập nhật
Metadata
K h o Từ D i ể n S i ê u D ữ l i ệ u ( M e t a d a t a )
Cơng cụ và Ứng dụng Phân tích (Analytics)
Chủ đề
Đa chiều
Giao dịch
Đa chiều
Báo cáo
Data Marts
Kho Dữ Liệu
Khai phá
tổng hợp EDW
Dữ liệu
Kho Dữ Liệu EDW
Rửa sạch – Đối chiếu – Kiểm tra chất lượng
Xử lý tạm
Trích Rút – Tích lũy
Dữ liệu và thông tin nguồn
MƠ HÌNH TIẾN TRÌNH XỬ LÝ THƠNG TIN
MƠ HÌNH TIẾN TRÌNH XỬ LÝ THƠNG TIN
DANH MỤC CƠNG NGHỆ
Cơng nghệ ETL(Extract-Transfer-Load)
Loại
Cơng nghệ BI
Pentaho Kettle
Open source
Power bi
Talend
Open source
Tableau Public
Jaspersoft-etl
Open source
RapidMiner
Inaplex Inaport
Close source
Python, Excel
SQL Server Integration Service
Close source
Kinme
Loại
CÁC CÔNG CỤ ETL
SQL Server Integration Services
CÁC CÔNG CỤ ETL
CÁC GĨC NHÌN VỀ PHÂN TÍCH DỮ LIỆU
CÁC GIẢI THUẬT/MODEL
Regression (Hồi quy)
Time series
QUY TRÌNH PHÂN TÍCH DỮ LIỆU
CÁC CƠNG CỤ PHÂN TÍCH DỮ LIỆU
CÁC CƠNG CỤ PHÂN TÍCH DỮ LIỆU
TRAO ĐỔI VÀ ĐÓNG GÓP Ý KIẾN
THANK YOU !