Tải bản đầy đủ (.pptx) (77 trang)

Data warehouse - OLAP - Business Intellignet(BI) ppt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.04 MB, 77 trang )

LOGO
Business Intellignet(BI)
Business Intellignet(BI)
1041107_1041308_1041397_1041444
Data Warehouse
Data Warehouse
Olap
Olap
TOPIC 8
TOPIC 8
Talend
Talend

Thông tin nhóm:

1041107_Nguyễn Đinh Bảo Phương.

1041308_Lê Nguyễn Sỹ Bình.

1041397_Nguyễn Hà Phương.

1041444_Nguyễn Trần Cao Thị Bích Truyền
Contents
Data warehouse
1
Olap
2
Business Intelligent (BI)
3
Talend
4


Contents
Data warehouse
1
Olap
2
Business Intelligent (BI)
3
Talend
4
Đặt vấn đề

Để giành được lợi thế cạnh tranh , các tổ chức kinh doanh phải có
những thông tin , tri thức cần thiết một cách nhanh chóng và chính
xác.

Các nhà điều hành muốn lên kế hoạch cho tương lai công ty của
mình.
=> Đòi hỏi thông tin mang tính phân tích và hệ thống thông tin có khả
năng hỗ trợ quyết định
Đặt vấn đề

Vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những
khối lượng dữ liệu khổng lồ, lưu trữ nhiều nơi, ở nhiều dạng
dữ liệu khác nhau đó một cách hiệu quả trong các hệ thống
thông tin lớn?
Kho dữ liệu Data warehouse
Theo Pandora, Swinburn University :

Là một phương thức cho việc kết nối dữ liệu từ nhiều hệ thống khác nhau.


Là một điểm truy cập tập trung dữ liệu của một tổ chức

Được trình bày ở một khuông dạng thích hợp

Là hệ thống chỉ đọc

Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng
Định nghĩa Data warehouse

Theo Paul Lucas, IBM:

Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán.

Được tổng hợp về từ nhiều nguồn

Được làm sẵn cho người sử dụng cuối

Dễ hiểu
Định nghĩa Data warehouse

Định nghĩa do W.H.Inmon đề xướng :

DWH là tập hợp dữ liệu tương đối ổn định (không hay thay đổi),cập
nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ
trợ quá trình tạo quyết định về mặt quản lý.

(A data warehouse is a subject-oriented, integrated, time-
variant, and nonvolatile collection of data in support of
management’s decision-making process.”—W. H. Inmon)
Định nghĩa Data warehouse

Định nghĩa Data warehouse
Định nghĩa Data warehouse

Hướng chủ đề (subject-oriented):

Được tổ chức xung quanh các chủ đề chính, như khách hàng (customer), sản phẩm
(product), bán hàng (sales).

Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định,
mà không tập trung vào các hoạt động hay các xử lý giao dịch hàng ngày.

Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ
đề.
Hướng chủ đề

Hướng chủ đề

Các chủ thể điển hình.

Các tài khoản khách hàng

Việc bán hàng

Tiền tiết kiệm của khách hàng

Các yêu sách bảo hiểm

Đặt chỗ hành khách
Định nghĩa Data warehouse


Tích hợp (integrated):
• Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ: Cơ sở
dữ liệu quan hệ (relational databases), flat files( lưu trữ dữ liệu lên các tập tin dạng văn
bản), các bảng ghi giao dịch trực tuyến.
• Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng:
– Đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo, thuộc
tính,…giữa các nguồn khác nhau .
– Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ được chuyển đổi.
Tích hợp

Định nghĩa Data warehouse

Biến thời gian (time-variant):

• Yêu cầu quan trọng cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ
thống tác nghiệp.

– Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời.

– Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ như, 5-10 năm trước).

Yếu tố thời gian được lưu trữ trong CSDL
Biến thời gian

Định nghĩa Data warehouse

Bền vững (non-volatile):

Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp.


Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu:

Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh.

Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp và truy cập dữ liệu.
Bền vững

Các đặc điểm của DW

Tính tích hợp (Integration):

Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều nguồn và trộn ghép
với nhau tạo thành một thể thống nhất.

Dữ liệu gắn thời gian và có tính lịch sử

Gắn thời gian:

Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa chính để bảo
đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu

Có tính lịch sử:

Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung nhìn của
một chủ đề trong một giai đoạn
Các đặc điểm của DW

Dữ liệu có tính ổn định :

Chỉ cho phép thực hiện 2 thao tác cơ bản là nạp dữ liệu vào kho và truy cập vào các cung trong DW.

Do vậy, dữ liệu không biến động.

Không biến động:

Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ
trong kho vẫn không bị xóa

Dữ liệu tổng hợp và chi tiết:

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ liệu tác nghiệp chính là
thông tin mức thấp nhất. Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau.
Data warehouse vs Database

Kho dữ liệu phải được xác định hướng theo chủ đề. Nó được thực hiện theo ý đồ
của người sử dụng đầu cuối. Trong khi đó các hệ CSDL tác nghiệp dùng để phục
vụ các mục đích áp dụng chung.

Những hệ CSDL thông thường không phải quản lý những lượng thông tin lớn mà
quản lý những lượng thông tin vừa và nhỏ. DW phải quản lý một khối lượng lớn
các thông tin được lưu trữ trên nhiều phương tiện lưu trữ và xử lý khác nhau.
Data warehouse vs Database

DW thông thường chứa các dữ liệu lịch sử kết nối nhiều năm trước
của các thông tin tác nghiệp được tổ chức lưu trữ có hiệu quả và có
thể được hiệu chỉnh lại dễ dàng. Dữ liệu trong CSDL tác nghiệp
thường là mới, có tính thời sử trong một khoảng thời gian ngắn.
Data warehouse vs Database

Dữ liệu trong CSDL tác nghiệp được chắt lọc và tổng hợp lại để
chuyển sang môi trường DW. Rất nhiều dữ liệu khác không được

chuyển về DW, chỉ những dữ liệu cần thiết cho công tác quản lý hay
trợ giúp quyết định mới được chuyển sang DW.

×