Tải bản đầy đủ (.pptx) (28 trang)

Data WareHouse

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.82 MB, 28 trang )

TỔNG QUAN VỀ
DATA WAREHOUSE

Giảng Viên: Nguyễn Thế Anh


TAI SAO LẠI ĐƯA NỘI DUNG DATA WAREHOUSE ?

Quản trị điều hành ngày càng dựa trên phân tích dữ liệu.

Số lượng người dùng vẫn thế nhưng khi chạy report phức tạp hệ thống quá

Khi chuyển đổi số một thời gian, đủ tích lũy dữ liệu -> Cần khai thác dữ liệu.

tải

Dữ liệu có đủ nhưng mỗi lần cần 1 báo cáo mất cả tuần.

Các hệ thống báo cáo tổng hợp nhiều chiều khơng làm được, hoặc khơng
chính xác.


NỘI DUNG CHÍNH

1

Dữ liệu và thơng tin

2

Data WareHouse



5

6

3

Mơ hình tiến trình xử lý thơng tin

4

Các góc nhìn về phân tích dữ liệu

Quy trình phân tích dữ liệu (Data Analysis)

Cơng cụ phân tích dữ liệu


DỮ LIỆU VÀ THÔNG TIN

Dữ liệu vệ tinh -> Dự báo thời tiết -> Quyết định đi chơi
Data

-> Information
Data

-> Information


DỮ LIỆU VÀ THÔNG TIN


Sự khác biệt giữa Data và Information

Data

Information

Dữ liệu có thể là ký tự, số, ảnh, từ, văn bản, có ý nghĩa hoặc vơ nghĩa với con người

Được tổ chức và biểu diễn lại trong một ngữ cảnh để khiến nó có ích gọi là Thơng tin

Dữ liệu đứng một mình có thể là vơ nghĩa

Nhưng thơng tin thì ln ln tự thân nó có nghĩa

Dữ liệu dựa trên các bản ghi, quan sát,..

Thông tin dựa trên phân tích dữ liệu

Dữ liệu thường khơng được tổ chức và phụ thuộc vào thông tin

Thông tin luôn phụ thuộc vào dữ liệu và có tổ chức


DỮ LIỆU VÀ THÔNG TIN


OLTP VÀ OLAP



SO SÁNH DATA BASE VÀ DATA WAREHOUSE

Tham số

Database

Data warehouse

Mục đích

Được thiết kế để lưu lại bản ghi

Được thiết kế để phân tích

Xử lý

Online Transactional Processing (OLTP)

Online Analytical Processing (OLAP)

Chuẩn hóa

Chuẩn hóa

khơng được chuẩn hóa

Định hướng

phục vụ định hướng cho ứng dụng, sản phẩm


cho các loại mục đích khai thác dữ liệu nhau

giới hạn lưu trữ

thường giới hạn trong 1 ứng dụng

lưu trữ dữ liệu từ nhiều nguồn khác nhau

độ khả dụng

dữ liệu có sẵn từ thời gian thực, cần là có

được làm mới khi cần thiết từ nhiều nguồn khác nhau, cần thì phải đợi hệ thống
chạy tạo lại dữ liệu định kì cần thiết

Kỹ thuật

Capture dữ liệu

Analyze dữ liệu

Loại dữ liệu

Dữ liệu được lưu trữ trong Cơ sở dữ liệu được cập nhật.

Dữ liệu hiện tại và lịch sử được lưu trữ. Có thể khơng được cập nhật.

Lưu trữ dữ liệu

Phương pháp tiếp cận quan hệ phẳng được sử dụng để lưu trữ dữ liệu.


Sử dụng phương pháp tiếp cận đa chiều và chuẩn hóa cho cấu trúc dữ liệu. Ví dụ:
Lược đồ sao và bơng tuyết.

Loại truy vấn

Các truy vấn giao dịch đơn giản được sử dụng.

Các truy vấn phức tạp được sử dụng cho mục đích phân tích.

Tóm tắt dữ liệu

Lưu dữ liệu chi tiết

Lưu trữ dữ liệu tóm tắt


XÂY DỰNG DATA WAREHOUSE
MƠ HÌNH NGƠI SAO


MƠ HÌNH NGƠI SAO


XÂY DỰNG DATA WAREHOUSE
MƠ HÌNH THIÊN HÀ (BƠNG TUYẾT)


MƠ HÌNH THIÊN HÀ (BƠNG TUYẾT)



Sử dụng tùy theo vai trò

Kiến trúc DL tổng thể

& thẩm quyền

Doanh nghiệp

Cơ quan

Cổng
Cổng Web
Web

Cập nhật
Metadata

K h o Từ D i ể n S i ê u D ữ l i ệ u ( M e t a d a t a )

Cơng cụ và Ứng dụng Phân tích (Analytics)

Chủ đề

Đa chiều

Giao dịch

Đa chiều


Báo cáo

Data Marts

Kho Dữ Liệu
Khai phá

tổng hợp EDW

Dữ liệu

Kho Dữ Liệu EDW

Rửa sạch – Đối chiếu – Kiểm tra chất lượng

Xử lý tạm

Trích Rút – Tích lũy

Dữ liệu và thông tin nguồn


MƠ HÌNH TIẾN TRÌNH XỬ LÝ THƠNG TIN


MƠ HÌNH TIẾN TRÌNH XỬ LÝ THƠNG TIN


DANH MỤC CƠNG NGHỆ


Cơng nghệ ETL(Extract-Transfer-Load)

Loại

Cơng nghệ BI

Pentaho Kettle

Open source

Power bi

Talend

Open source

Tableau Public

Jaspersoft-etl

Open source

RapidMiner

Inaplex Inaport

Close source

Python, Excel


SQL Server Integration Service

Close source

Kinme

Loại


CÁC CÔNG CỤ ETL

SQL Server Integration Services


CÁC CÔNG CỤ ETL


CÁC GĨC NHÌN VỀ PHÂN TÍCH DỮ LIỆU


CÁC GIẢI THUẬT/MODEL

Regression (Hồi quy)

Time series


QUY TRÌNH PHÂN TÍCH DỮ LIỆU



CÁC CƠNG CỤ PHÂN TÍCH DỮ LIỆU


CÁC CƠNG CỤ PHÂN TÍCH DỮ LIỆU


TRAO ĐỔI VÀ ĐÓNG GÓP Ý KIẾN


THANK YOU !


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×