Tải bản đầy đủ (.pptx) (62 trang)

Tìm hiểu về BI và công cụ mã nguồn mở Pentaho pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.56 MB, 62 trang )

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN
Môn : Phát triển ứng dụng hệ thống
thông tin hiện đại
Giáo viên hướng dẫn:

Nguyễn Trần Minh Thư

Hồ Lê Thị Kim Nhung

Phạm Minh Tú
Thành viên nhóm 18:

Mã Kiếm Long – 1042062

Trần Thị Phụng – 1042088

Nguyễn Minh Tâm – 1042101

Phạm Văn Trung -1041156

Nguyễn Văn Trãi - 1042121
Chủ đề : Tìm hiểu về BI và công cụ mã nguồn mở Pentaho

Tìm hiểu về Data Warehouse

OLAP

BI(Business Intelligene)

Tìm hiểu công cụ mã nguồn mở Pentaho


Data Warehouse là gì?
Đặc điểm của Data Warehouse.
Cấu trúc của Data Warehouse.
Lợi ích của Data Warehouse.
Cơ sở dữ liệu và Data Warehouse.
Data Warehouse hiện nay.
Tìm Hiểu Về Data Warehouse
Trần Thị Phụng - 1042088
Data Warehouse là gì?
Data Warehouse là gì?()

Là một CSDL hướng đối tượng được thiết kế với việc tiếp cận các ý kiến trong mọi lĩnh vực
kinh doanh. Nó cung cấp các công cụ để đáp ứng thông tin cần thiết cho các nhà quản trị kinh
doanh tại mọi cấp độ tổ chức với những yêu cầu dữ liệu phức hợp và lấy thông tin nhanh,
chính xác.
Đặc điểm của Data Warehouse
Đặc điểm của Data Warehouse()

Tính tích hợp - Integrated

Khả năng thu thập dữ liệu từ nhiều nguồn và trộn ghếp với nhau tạo thành một thể thống nhất.

Là một tập hợp thông tin chính xác, chất lượng và nhất quán.
Đặc điểm của Data Warehouse()

Hướng chủ đề - Subject Oriented : Chuyển từ hướng ứng dụng sang hướng hộ trợ quyết định.

Được tổ chức xung quanh các chủ đề chính, như khách hàng(customer), sản phẩm(product), bán hàng( sales).

Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các

hoạt động hay các xử lý giao dịch hàng ngày.

Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ đề.


Biến thời gian – Time Variant : Các dữ liệu được định nghĩa một thời điểm xác định và được ghi chép lại để phục vụ
cho việc so sánh dữ liệu theo thời gian.

Yêu cầu quan trọng cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ thống tác
nghiệp.

Cơ sở dữ liệu tác nghiệp : dữ liệu có giá trị hiện thời.

Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ như, 5 – 10 năm trước).
Đặc điểm của Data Warehouse()

Bền vững - Non Volatile

Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp.

Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu.

Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh.

Chỉ yếu cầu hai thao tác trong truy cập dữ liệu : Nạp và truy cập dữ liệu.

Cấu trúc của Data Warehouse ()

Một Data warehouse được cấu tạo từ một hay nhiều cube.


Enterprise Data warehouse: tập hợp toàn bộ thông tin về các đối tượng của toàn tổ chức/công
ty. Ví dụ: sản phẩm, khách hàng, doanh thu…

Data mart (kho dữ liệu chủ đề): là một tập con của Data warehouse, chỉ tập trung vào những
đối tượng được chọn.
Lợi ích của Data Warehouse

Tạo ra những quyết định có ảnh hưởng lớn.

Công việc kinh doanh trở nên thông minh hơn.

Dịch vụ khách hàng được nâng cao.

Tái sáng tạo những tiến trình kinh doanh.
CSDL và Data Warehouse.

Data warehouse về bản chất là một database bình thường, các hệ quản trị cơ sở dữ liệu quản lý và
lưu trữ nó như các database thông thương(tuy nhiên có hỗ trợ them về quản lý dữ liệu lớn và
truy vấn). Thực ra nét khác biệt của Data warehouse so với database là ở quan niệm, cách nhìn
vấn đề:

Data warehouse là database rất lớn

Database hướng về xử lý thời gian thực, Data warehouse hướng về tính ổn định.

Phục vụ xử lý transaction, cập nhật. Data warehouse thường chỉ đọc, phục vụ cho những nhu
cầu báo cáo. Ví dụ: Chúng ta sẽ yêu cầu hãy cho biết trong 5 năm, bộ phần phần mềm đã làm
được những dự án nào từ đó chúng ta sẽ có quyết định về hiệu năng của nhóm này.
Data Warehouse hiện nay


Ngày nay, hầu hết các data warehouse đang được dùng cho quản trị doanh nghiệp thông minh làm
tăng mối quan hệ khách hàng(CRM) và khai thác dữ liệu.

Một số được sử dụng để báo cáo tổng hợp.

Một số được sử dụng để tích hợp dữ liệu.

Các cách sử dụng này đều tương quan với nhau
OLAP
(Online Analy+cal Processing )
Trình bày : 1041156 Phạm Văn Trung

Khái niệm

So Sánh OLAP & OLTP

Các mô hình lưu trữ hỗ trợ OLAP

Kiến trúc khối Cube của OLAP

Mô hình kiến trúc dịch vụ OLAP


OlAP là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối Cube nhằm cung cấp
khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu
 !"#$%&

Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ lựa chọn , định hướng và khám phá dữ liệu.

Cung cấp một ngôn ngữ truy vấn phân tích , cung cấp sức mạnh để khám phá các mối quan hệ trong

dữ liệu phức tạp

Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời rất
nhanh đối với các truy vấn đặc biệt.

Cung cấp công cụ mạnh giúp người dùng thao tác các dựa trên các khung nhìn của dữ liệu dựa trên
một tập hợp các hàm tính toán đặc biệt.
 !"#$%&

OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn

Mà nếu cho thực thi các truy vấn này trong OLTP thì sẽ không thể cho kết quả hoặc sẽ mất rất
nhiều thời gian.
'(!)*+"$%&

Dịch vụ OLAP hỗ trợ mô hình lưu trữ dữ liệu khác nhau , mỗi mô hình có ưu và khuyết điểm
riêng , chúng được sử dụng tùy theo mục đích khai thác.

Bao gồm 3 mô hình :

Mô hình Multidimensional OLAP (MOLAP)

Mô hình Relational OLAP(ROLAP)

Mô hình Hybird OLAP(HOLAP)
,'(,$%&

Mô hình OLAP đa chiều (MOLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các cấu
trúc đa chiều gọi là các khối (Cube).


Cấu trúc này được lưu bên ngoài cơ sở dữ liệu data mark hoặc kho dữ liệu.
,'(,$%&
Mô hình dữ liệu MOLAP
,'(,$%&

Lưu trữ các khối (Cube) trong cấu trúc MOLAP là tốt nhất cho các truy vấn tổng hợp dữ liệu
thường xuyên mà cần thời gian hồi đáp nhanh.

Mô hình MOLAP cho phép thực thi và truy vấn dữ liệu tốt nhất .
,'(,$%&

Thông tin tổng hợp và dữ liệu cơ sở được lưu trữ trong cấu trúc đa chiều.

Những thao tác kết thì không cần thiết.

Sử dụng thuật toán nén dữ liệu.

Sử dụng chỉ mục bitmap.

Không sử dụng cơ chế khóa.

Có thể được nạp trước vào bộ nhớ cache .

×