Tải bản đầy đủ (.pptx) (72 trang)

Tìm Hiểu Về DW 2.0 Chương 7, 8 ,9 doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (732.84 KB, 72 trang )

Tìm Hiểu Về DW 2.0
Chương 7, 8 ,9
The Architecture for the Next Generation of Data Warehousing
[Nhóm 06]
Tìm Hiểu Về DW 2.0
Chương 7, 8 ,9
Thành viên:
1. Nguyễn Thanh Tuấn
2. Phạm Duy Phương
3. Huỳnh Thị Mọng Diễm
4. Nguyễn Trần Thanh Viên
5. Nguyễn Trọng Bình
[Nhóm 06]
Tìm hiểu về DW 2.0
Nội Dung

Chương 7: Xử Lý Thống Kê và DW 2.0

Chương 8: Mô Hình Dữ Liệu và DW 2.0

Chương 9: Giám Sát Môi Trường DW 2.0
Chương 7
Thống Kê Xử Lý và DW 2.0
Tìm hiểu về DW 2.0
Nội dung

Hai kiểu giao dịch trong DW.

Cách sử dụng phân tích thống kê.

Phân tích Heuristic


Tìm hiểu về DW 2.0
Nội dung

Đóng băng dữ liệu.

Xử lý thăm dò.

Tần suất phân tích.

Cơ sở thăm dò
Tìm hiểu về DW 2.0
Nội dung

Các nguồn xử lý thăm dò.

Làm sạch dữ liệu thăm dò.

Project – based data.

Chợ dữ liệu (data marts) và cơ sỡ dữ liệu thăm dò.
Tìm hiểu về DW 2.0
Nội dung

Dòng chảy ngược của dữ liệu.

Sử dụng dữ liệu thăm dò nội bộ.
Tìm hiểu về DW 2.0
Hai kiểu giao dịch
Hỗ trợ 2 kiểu giao dịch cơ bản trong việc
lưu trữ dữ liệu vào kho dữ liệu:

+ Câu truy vấn.
+ Phân tích thống kê.
Cấu truy vấn: chỉ sử dụng một số tài nguyên, chỉ một vài đơn vị của dữ liệu.
Phân tích thống kê: đòi hỏi thật nhiều tài nguyên, nhiều record.
Tìm hiểu về DW 2.0
Hai kiểu giao dịch
Sự khác nhau:
Cấu truy vấn: chỉ sử dụng một hoặc hai record của dữ liệu cần phải có đối với phân tích.
Phân tích thống kê: Nhiều record được yêu cầu, kết quả của truy vấn đòi hỏi tính toán giá trị
trung bình thống kê gần 26000 record được truy cập.
Tìm hiểu về DW 2.0
Sử dụng phân tích thống kê
Tạo ra profile dữ liệu
Mục đích: phân tích và quan sát các
trường dữ liệu.
Cách tạo: Hỏi những câu hỏi
-
Có bao nhiêu record ở đó?
-
Giá trị cao nhất, thấp nhất là gì?
-
Trung bình mẫu, trung vị, là bao nhiêu?
Tìm hiểu về DW 2.0
Sử dụng phân tích thống kê
So sánh dữ liệu công ty và bên ngoài
Mục đích: có cái nhìn sâu sắc hơn cho việc
kinh doanh.
Khi so sánh cần chú ý:
-
Tính toàn vẹn của phép so sánh.

Tìm hiểu về DW 2.0
Phân tích Heuristic
Là loại phân tích được thực hiện như là
một phần của sự khám phá, là phương
pháp giải quyết vấn đề bằng cách đánh giá
kinh nghiệm và tìm giải pháp qua thử
nghiệm.
Tại sao phải dùng?
-
Trong hoạt động phân tích khám phá, các nhà phân tích không biết được dữ liệu cất giữ
các bí mật gì.
-
Các nhà phân tích Heuristic có quan điểm: “Tôi không biết tôi muốn gì, nhưng tôi sẽ biết
khi tôi thấy nó”
Tìm hiểu về DW 2.0
Đóng băng dữ liệu
Mục đích: khi thực hiện xử lý thống kê
Heuristic thì không cho có sự tác động vào
dữ liệu mà làm ảnh hưởng đến kết quả.
-
Khi dữ liệu đóng băng thì không có dữ liệu mới nào được đưa vào hệ thống.
Tìm hiểu về DW 2.0
Xử lý thăm dò
Mục đích: giải quyết trường hợp khi phân
tích được thực hiện với nội dung, hình
thức và cấu trúc không được được biết
đến.
-
Là tính chất của xử lý thống kê nó luôn luôn là một sự thực hiện trong việc khảo sát.
Tìm hiểu về DW 2.0

Tần suất của phân tích thống kê
Mục đích: khi tần suất phân tích thống kê
tăng, nhu cầu cần tăng thêm một cơ sở
thăm dò riêng biệt.
-
Thích hợp để hỗ trợ xử lý thống kê của DW 2.0
Tìm hiểu về DW 2.0
Cơ sở thăm dò

Là nơi mà xử lý thống kê có thể được thực hiện mà không ảnh hưởng đến hiệu suất của DW 2.0.

Có thể đóng băng trong thời gian nếu cần thiết. Thường chứa tập hợp con của dữ liệu lấy từ môi
trường DW 2.0.

Cơ sở thăm dò lẫy dữ liệu có tính chất hạt thấp nhất. Ngoài ra nó thường sử dụng số lượng lớn dữ
liệu lịch sử.

Cấu trúc dữ liệu của cstd được trộn lẫn. Một số dữ liệu được đưa vào các bảng trên đĩa lưu trữu. Một
số khác được lưu lại thành file.

Chứa đựng một phần lớn dữ liệu đồng nhất.
Tìm hiểu về DW 2.0
Các nguồn xử lý thăm dò
Mục đích: biết được nguồn dữ liệu lấy từ
đâu
-
Cơ sở thăm dò rút ra từ nhiều nguồn dữ liệu từ: Integrated Sector, Archival Sector, Near Line Sector
-
Integrated Sector là nguồn dữ liệu chính của cơ sở thăm dò
-

Đôi khi các cơ sở thăm dò có thể rút dữ liệu từ Interactive Sector.
Tìm hiểu về DW 2.0
Làm mới dữ liệu thăm dò
-
Chu kỳ làm sạch dữ liệu bên trong cơ sở thăm dò cần phải cân nhắc kỹ lưỡng
-
Chu kỳ làm sạch còn tùy thuộc vào nhu cầu phân tích thăm dò.
Mục đích: làm mới dữ liệu thăm dò
Tìm hiểu về DW 2.0
Project – based data
Cơ sở thăm dò là một Project – based có
quy tắc.
-
Quy tắc : các dữ liệu liên quan đến cstd được thực hiện thu thập, phân tích. Kết quả của việc thu thập phân tích được gửi đến doanh
nghiệp để quản lý và nghiên cứu.
-
Cơ sở dữ liệu thăm dò là một cấu trúc bền vững hoặc tạm thời.
Tìm hiểu về DW 2.0
Chợ dữ liệu và cơ sở dữ liệu thăm dò
Data mart (kho dữ liệu chủ đề): là một tập
con của Data warehouse, chỉ tập trung vào
những đối tượng được chọn.
Tìm hiểu về DW 2.0
Dòng chảy ngược của dữ liệu
Dữ liệu cũng có thể đi từ cơ sở thăm dò
vào DW. Tuy nhiên cần phải có điều kiện :
-
Dữ liệu đầu ra từ cơ sở thăm dò phải được sử dụng khắp nơi trong môi trường công ty.
-
Cần có một dấu vết kiểm tra dữ liệu và những sự tính toán có liên quan tới bất kỳ cơ sở thăm dò .

- Không nên dưa dữ liệu tạm thời vào môi trường DW 2.0
Tìm hiểu về DW 2.0
Sử dụng dữ liệu thăm dò nộ bộ
-
Các dữ liệu đi vào cơ sở thăm dò thường không được kiểm tra nghiêm ngặt ( không chính xác )
-
Vì vậy không nên sử dụng những dữ liệu từ cơ sở thăm dò để làm báo cáo cung cấp cho các kiểm
toán viên và giám sát.
-
Các báo cáo nhiều khi cũng dựa trên các dữ liệu thăm dò vì vậy nó có thể không đúng hoặc thiếu
chính xác.
Góc nhìn của nhà phân tích doanh nghiệp
-
Thống kê xử lý đóng một vai trò rất quan trọng trong doanh nghiệp. Vai trò của nó đã được công nhận bởi các doanh
nghiệp sử dụng nguồn nhân lực.
-
Nhiều doanh nghiệp không tận dụng lợi thế của việc xử lý thống kê dữ liệu mà họ sở hữu. Như vậy họ không tận dụng
triệt để được nguồn thông tin.
-
Một số doanh nghiệp lâu đời đã nhận ra giá trị của thông tin xử lý thống kê dữ liệu. Điển hình các doanh nghiệp chuyên
về tính toán, bảo hiểm và nghiên cứu.
Tìm hiểu về DW 2.0
Chương 8
Mô Hình Dữ Liệu và DW 2.0

×