DEMO - Data warehouse pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.08 MB, 32 trang )

DEMO
1
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ
NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
NHÓM 3 THỰC HIỆN
Thông tin nhóm:
Trần Huy Hùng (1041343)
Hồ Văn Cảnh (1042010)
Vũ Quốc Đại (1041321)
Vương Nhật Duy (1041318)
Hà Ngọc Thành (1041416)
Giáo Viên Hướng Dẫn:
Nguyễn Trần Minh Thư
Demo
-Hiện tại ETL tools có sử dụng DW 2.0 gồm :
-
IBM
-
Oracle
-
SQL SERVER
Kiến trúc và lưu trữ dữ liệu không phải là tĩnh. Từ khái niệm đầu tiên của một nhà
kho dữ liệu một kiến trúc xử lý phân tích toàn diện bao gồm các siêu thị dữ liệu,
ETL, lưu trữ dòng gần, kho thăm dò, và các cấu trúc khác, kho dữ liệu và kiến trúc
liên quan của nó tiếp tục phát triển. Trong năm 2008, cuốn sách về sự tiến hóa mới
nhất của kho dữ liệu xuất hiện - DW 2.0: Kiến trúc thế hệ kế tiếp của Kho dữ
liệu (Morgan Kaufman). Trong cuốn sách đó, kiến trúc chung cho việc nhập dữ liệu
trong hình thức phát triển cao nhất xuất hiện.
Demo


Giới thiệu
Kiến trúc và data warehouse không phải là tĩnh. Từ khái niệm
đầu tiên của một nhà kho dữ liệu một kiến trúc xử lý phân
tích toàn diện bao gồm các siêu thị dữ liệu, ETL, lưu trữ dòng
gần, kho thăm dò, và các cấu trúc khác, kho dữ liệu và kiến
trúc liên quan của nó tiếp tục phát triển. Trong năm 2008,
cuốn sách về sự tiến hóa mới nhất của kho dữ liệu xuất hiện
- DW 2.0: Kiến trúc thế hệ kế tiếp của Kho dữ liệu (Morgan
Kaufman). Trong cuốn sách đó, kiến trúc chung cho việc nhập
dữ liệu trong hình thức phát triển cao nhất xuất hiện.
Kiến trúc SQL Pallter
Hình 1: Sơ đồ của các dữ liệu dạng hạt được tìm
thấy trong DW 2.0

Trong số những thứ khác, DW 2.0 nhận ra chu kỳ sống
của dữ liệu trong kho dữ liệu, công nhận sự cần thiết
phải bao gồm cả dữ liệu văn bản trong kho dữ liệu, và
nhận ra rằng siêu dữ liệu là một thành phần thiết yếu
của môi trường kho dữ liệu. Trên đường đi, DW 2.0
thừa nhận rằng kho dữ liệu thu hút một lượng lớn dữ
liệu, lưu trữ dữ liệu qua một thời gian dài của thời
gian, hỗ trợ một loạt các xử lý, và cuối cùng kho dữ
liệu có thể trở nên rất tốn kém nếu bạn chọn để làm
cho thiết kế và cơ sở hạ tầng quyết định là tốn kém
SQL Server trong Evolution

Trong khi kiến trúc đã được phát triển, do đó, Microsoft ® SQL Server ® cũng đã được phát triển. Từ nguồn gốc
khiêm tốn như là một cơ sở dữ liệu phục vụ một lượng nhỏ dữ liệu trên một máy tính cá nhân với các chức năng
rất cơ bản, SQL Server bây giờ được chuẩn bị để phục vụ như một nền tảng cơ sở dữ liệu giữa kích thước và số

lượng rất lớn dữ liệu cho kho dữ liệu.

Nó được cho rằng, để tăng năng lực hoặc thực hiện một hệ thống điều chỉnh hệ thống có thể nhận được lên đến
một cải thiện 10%. Nhưng để có được 1 độ lớn đơn đặt hàng hoặc hai trong hiệu suất và nâng cao năng lực, một sự
thay đổi trong kiến trúc của hệ thống là cần thiết. Và quả thực đó là những gì SQL Server đã trải qua một sự thay
đổi cơ bản trong kiến trúc từ những ngày đầu của SQL Server.

Cũng như kho dữ liệu và kiến trúc đã phát triển, do đó, SQL Server cũng đã được phát triển. Và cho dù tình cờ hay
do thiết kế, SQL Server đã trở thành nền tảng công nghệ ưu tiên cho các hình thức tiên tiến nhất của kho dữ liệu
kiến trúc - DW 2.0.

Điều này có nghĩa rằng SQL Server đã tiến mãnh liệt lên đường tiến hóa để phục vụ cộng đồng kho dữ liệu như là
nền tảng cơ sở dữ liệu cho kho dữ liệu lớn và phức tạp. Không còn là SQL Server hạn chế số lượng nhỏ dữ liệu và
máy tính cá nhân. Với những cải tiến kiến trúc của SQL Server, nó đã sẵn sàng để trở thành cơ sở hạ tầng của sự
lựa chọn khi thực hiện các kho dữ liệu tiên tiến và các kiến trúc phân tích, chẳng hạn như DW 2.0.
Vài nét của DW 2.0

Có rất nhiều khía cạnh kiến trúc DW 2.0. Không phải
tất cả trong số họ có thể được giải quyết trong không
gian này giấy trắng. Tuy nhiên, một số trong những
khía cạnh sâu sắc hơn và quan trọng hơn của DW 2.0
sẽ được thảo luận trong bối cảnh của SQL Server.
Truy cập cơ bản của dữ liệu

Trong nhiều năm các phương tiện lưu trữ dữ liệu ưu tiên cho đĩa lưu trữ. Đĩa lưu trữ xuất hiện tại thời gian xử lý giao dịch trực tuyến lần đầu tiên được thực
hiện. Trong thực tế, trong nhiều cách, nó là sự ra đời của đĩa lưu trữ cho phép xử lý giao dịch trực tuyến trở thành hiện thực. Cách xử lý giao dịch trực tuyến
cho phép truy cập dữ liệu cho xử lý giao dịch là để truy cập lưu trữ trực tuyến ngẫu nhiên. Để kết thúc này dữ liệu được nạp vào ổ đĩa lưu trữ hoặc bằng cách
băm dữ liệu khi nó được đặt vào lưu trữ hoặc bằng cách tạo ra một chỉ số (hoặc cả hai). Khi truy cập vào dữ liệu cho các giao dịch trực tuyến, truy cập ngẫu
nhiên và nhanh chóng của số lượng nhỏ dữ liệu được yêu cầu.


Đối với các ứng dụng trực tuyến nhiều người và cho các tập quán của dữ liệu, một mô hình truy cập ngẫu nhiên nhanh chóng, một lượng nhỏ dữ liệu trên đĩa
lưu trữ làm việc tốt.Nhưng khi nói đến DSS, phân tích xử lý, mô hình cơ bản của truy cập dữ liệu là khá khác nhau. Hầu hết các DSS, xử lý phân tích được
thực hiện bằng phương tiện của SQL. SQL hoạt động trên bộ dữ liệu, không phải hồ sơ dữ liệu. Vì vậy, để xử lý phân tích, một chế độ truy cập kỷ lục đầu tiên
được tìm kiếm được truy cập ngẫu nhiên và sau đó các hồ sơ còn lại trong bộ đó được truy cập tuần tự phù hợp với tối ưu xử lý dữ liệu phân tích kho. Hơn
nữa các bộ dữ liệu được truy cập bởi DSS chế biến có thể không nhỏ ở tất cả.Nhiều lần bộ rất lớn dữ liệu được truy cập. Nói cách khác, một chế độ truy cập
tuần tự cho hầu hết các dữ liệu được truy cập trong một nhà kho dữ liệu tối ưu, không phải là một chế độ truy cập ngẫu nhiên cho mỗi bản ghi dữ liệu được
tìm kiếm. Hình 2 cho thấy sự khác biệt này ở chế độ cơ bản của truy cập trong môi trường OLTP và môi trường kho dữ liệu phân tích.
Truy cập cơ bản của dữ liệu
Hình 2: Minh họa cho sự khác biệt giữa
ngẫu nhiên và tuần tự I / O
Truy cập cơ bản của dữ liệu

Trong phiên bản mới nhất của SQL Server bản ghi
ngẫu nhiên đầu tiên sau đó một chế độ tuần tự truy
cập là một trong đó được hỗ trợ. Điều này có nghĩa
rằng ở cấp độ cơ bản nhất của chế biến, SQL Server
nắm giữ một lợi thế hiệu suất lớn hơn đối thủ cạnh
tranh của họ.
A Data Mart Migration Path

Một vấn đề định kỳ với kho dữ liệu và xử lý phân tích là một thực tế rằng nhiều tổ chức muốn xây dựng siêu thị dữ liệu
đầu tiên, trước khi họ xây dựng một kho dữ liệu thực tế.Sau đó tổ chức một ngày tỉnh dậy và phát hiện ra rằng ngoài các
siêu thị dữ liệu của họ, họ cần có một kho dữ liệu. Đó là vào thời điểm này mà không có kế hoạch di chuyển dễ dàng,
duyên dáng để đi từ siêu thị nhiều dữ liệu đến một môi trường kho dữ liệu trung tâm. Nhiều tổ chức bắt đầu với hy
vọng rằng một mart dữ liệu hoặc hai sẽ đáp ứng nhu cầu phân tích của họ. Nhưng qua thời gian, vấn đề với một kiến
trúc trung tâm dữ liệu mart bắt đầu xuất hiện - đó là dứt khoát không có nguồn dữ liệu doanh nghiệp, có sự cần thiết
phải xây dựng tất cả các siêu thị dữ liệu từ đầu khi xuất hiện một nhu cầu mới cho dữ liệu, dữ liệu siêu thị là khủng
khiếp giòn và cần bị phá hủy và viết lại khi yêu cầu kinh doanh cơ bản thay đổi, và vv.

Trong DW 2.0, các dữ liệu dạng hạt được tìm thấy trong DW 2.0 tạo thành những gì được gọi là "hệ thống của kỷ lục" và

trở thành "phiên bản duy nhất của chân lý" cho tổ chức.Và từ hệ thống hồ sơ, siêu thị dữ liệu được tạo ra giống như khi
chúng được tạo ra trong thế hệ đầu tiên cổ điển kho dữ liệu.

SQL Server hỗ trợ di chuyển dễ dàng từ siêu thị dữ liệu để lưu trữ dữ liệu. SQL Server cung cấp khả năng để xây dựng
kho dữ liệu nhỏ hoặc dữ liệu siêu thị trong tùy chọn FastTrack của nó. Sau đó, khi khối lượng dữ liệu phát triển và phát
sinh cần thiết để tạo ra một kho dữ liệu quy mô đầy đủ, SQL Server cung cấp SQL Server 2008 R2 Parallel Data
Warehouse (trước đây có tên mã là dự án "Madison") tùy chọn.
A Data Mart Migration Path
Hình 3: Parallel Data Warehouse cung cấp
một đường dẫn chuyển đổi dễ dàng từ các
siêu thị dữ liệu(data mart) và kho dữ liệu
nhỏ hơn quy mô kho dữ liệu doanh nghiệp
A Data Mart Migration Path

Trong SQL Server 2008 R2 Parallel Data Warehouse ấn bản của SQL Server có cơ hội để
quản lý dữ liệu càng nhiều càng tốt có thể lên đến petabyte dữ liệu. Có cơ hội để hỗ trợ
khối lượng dữ liệu một cách song song. Có cơ hội để dự phòng của các thành phần để hệ
thống có thể xử lý trong một hiệu quả và trong một cách failsafe.

Nhưng có lẽ quan trọng nhất là cơ hội để đồng bộ hóa tự động dữ liệu cư trú trong các dữ
liệu FastTrack mart hoặc kho dữ liệu nhỏ với các dữ liệu trực thuộc Trung ương quản lý
bởi SQL Server 2008 R2 kho dữ liệu song song. Trong khi có những khía cạnh khác để
chuyển đổi của một mart dữ liệu vào một kho dữ liệu, SQL Server đã giải quyết một số
trong những khía cạnh khó nhất của vấn đề rất độc đáo. Nếu một tổ chức cam kết SQL
Server làm cơ sở cho kho dữ liệu chế biến, nhiều người trong số các vấn đề của di cư từ
một môi trường dữ liệu-siêu thị-trung tâm một kho dữ liệu thực tế được giảm nhẹ.
Data Warehouse Cost

Độ nhạy của DW 2.0 là công nhận rằng chi phí của các kho dữ liệu là một vấn đề. Và nếu nó không phải là một vấn
đề ngày hôm nay, nó sẽ là một vấn đề vào ngày mai. Khi khối lượng dữ liệu kho dữ liệu phát triển, phát triển các chi

phí liên quan với kho dữ liệu. Và chi phí của các kho dữ liệu lớn cùng với sự gia tăng trong khối lượng dữ liệu.

Khi thảo luận về các chi phí phát sinh, nó phải được lưu ý rằng tập trung hơn các thành phần của công nghệ trở
thành, họ trở nên đắt hơn. Ví dụ, giả sử rằng một tổ chức cần có một tổng số của các đơn vị n của sức mạnh xử
lý. Điều đắt nhất một tổ chức có thể làm là mua một bộ xử lý trung tâm cung cấp cho các đơn vị quyền lực n. Điều
hiệu quả nhất về chi phí tổ chức có thể làm là để phá vỡ các đơn vị n quyền lực vào nhiều đơn vị khác nhau. n đơn vị
của quyền lực là cần thiết. Giả sử rằng chi phí của các đơn vị n trong một bộ xử lý duy nhất là X. Bây giờ giả sử rằng
các đơn vị n được chia thành 10 đơn vị - n/10. Giả sử rằng mỗi n/10 chi phí đơn vị Y. Sau đó:

10 x Y <X.

Trong thực tế, 10 x Y là FAR ít hơn X. chu kỳ xử lý đắt tiền nhất là những người được tìm thấy trong các máy lớn
nhất. Khối lượng công việc có thể được chia, ít tốn kém hơn các chu trình chế biến trở thành. Sử dụng phương
trình trên, nó không phải là bất hợp lý mà Y sẽ là 1/100th của X. Sử dụng phương trình này, 10 x Y = 1/10X. Vì vậy, từ
một quan điểm kinh tế, nó làm cho tinh thần để có công việc mà cần phải được thực hiện và phân phối mà làm việc
nhiều hơn bộ vi xử lý khác nhau. Điều này có tác dụng giúp giảm thiểu chi phí của môi trường kho dữ liệu.

DW 2.0 là nhận thức của phương trình này chi phí chung. Trong thực tế, DW 2.0 bắt đầu với giả thuyết này cơ bản
làm cơ sở cho tất cả các quyết định kiến trúc sau đây. SQL Server cũng nhận thức được thực tế này, cơ bản của cuộc
sống liên quan đến chi phí công nghệ.

SQL Server thích ứng với các nhu cầu cho việc phân phối các xử lý trên môi trường lưu trữ dữ liệu. Hình 4 cho thấy
sự hiểu biết cơ bản về chi phí của công nghệ này.
Data Warehouse Cost
Hình 4: Các trung tâm và nói kiến trúc độc
đáo cho kho dữ liệu song song của SQL
Server
Data Warehouse Cost

SQL Server phân phối khối lượng công việc chế biến theo nhiều cách. Cách đầu tiên mà

SQL Server hỗ trợ việc phân phối các công việc trên nhiều địa điểm là hỗ trợ kiến trúc hub-
and-spoke. Cơ bản quản lý dữ liệu được thực hiện trong các kho dữ liệu trung tâm, nơi số
lượng lớn dữ liệu có thể được xử lý. Và cuối cùng người sử dụng xử lý phân tích được xử
lý trong các nan hoa của kiến trúc khác nhau. Trong thực tế, trong bộ xử lý trung tâm phân
phối của khối lượng công việc. Trung tâm xử lý dữ liệu khác nhau ở những nơi khác nhau,
như vậy tránh được một danh sách lớn có thể và tiêu cực sẽ ảnh hưởng đến hiệu suất.

Khi làm như vậy, chi phí của cơ sở hạ tầng cho SQL Server được tổ chức ở mức tối thiểu,
do đó cho phép các tổ chức dễ dàng và chi phí hiệu quả phát triển kho dữ liệu của họ và để
đạt được hiệu suất tốt và phù hợp cùng một lúc.
Nén(Compression)

Một khía cạnh khác của kho dữ liệu được công nhận bởi cả hai 2.0 DW và SQL Server là cần
thiết để lưu trữ và quản lý một khối lượng lớn dữ liệu. Có rất nhiều cách mà khối lượng lớn dữ
liệu có thể được quản lý. Một cách đơn giản để quản lý khối lượng dữ liệu là thông qua
nén. Nén, dữ liệu không liên quan được gỡ bỏ hoặc được lưu trữ trong một thời trang giảm
thiểu. Các kỹ thuật nén đặc biệt là áp dụng cho một kho dữ liệu bởi vì kho dữ liệu được xây
dựng đúng cách - không cho phép dữ liệu được cập nhật. Nén thực sự gây hại cho hiệu suất khi
cập nhật dữ liệu được cho phép bởi vì nó là tốn kém cho hệ thống và tìm kiếm dữ liệu, giải nén
nó, cập nhật nó, nén lại các dữ liệu và sau đó cố gắng và thay thế các dữ liệu trong cơ sở dữ liệu
một cách hiệu quả. Nhưng vì cập nhật dữ liệu không xảy ra trong môi trường kho dữ liệu, nén
dữ liệu làm cho rất nhiều ý nghĩa.Và thực tế, SQL Server cho phép dữ liệu được nén.
Parallel Processing

Tuy nhiên, mức tăng lớn nhất trong việc quản lý khối lượng dữ liệu mà bây giờ là một phần của SQL Server (SQL Server 2008 R2
Parallel Data Warehouse) là quản lý song song khối lượng dữ liệu. Trong xử lý song song của dữ liệu, dữ liệu được lưu trữ trên nhiều
hơn một thiết bị để nhiều hơn một bộ xử lý có thể truy cập và quản lý dữ liệu cùng một lúc.Để hiểu được giá trị của quản lý dữ liệu
song song, hãy xem xét những gì một trình điều khiển lỗi phải làm gì khi trọng lượng của lỗi trở nên quá nặng cho ngựa. Một giải pháp
thay thế là để đi từ một con ngựa có kích thước thông thường một con ngựa quá khổ như Percheron hoặc Clydesdale. Percherons
được tạo ra năm trước đây để cho phép các hiệp sĩ trong bộ giáp đi xe vào trận chiến hoặc các cuộc thi jousting. Và một hiệp sĩ trong bộ

giáp nặng rất nhiều. Chiến lược này hoạt động tốt miễn là có một Percheron đó là có sẵn và ít hơn mười tuổi. Nhưng điều gì sẽ xảy ra
nếu không có Percheron có sẵn? Hoặc những gì sẽ xảy ra nếu tải quá nặng nề cho một Clydesdale kéo? Sau đó, một đàn ngựa - không
phải là một con ngựa duy nhất - là cần thiết. Và đến một điểm con ngựa có thể được thêm vào như là tải được kéo phát triển.

Tương tự cũng được áp dụng để quản lý rất nhiều dữ liệu. Nếu một máy chủ duy nhất được tràn ngập bởi tải dữ liệu, sau đó nhiều
máy chủ có thể được sử dụng cùng một lúc và tải dữ liệu có thể được chia trên nhiều hơn một máy chủ. Phương pháp như vậy được
gọi là một cách tiếp cận song song bởi vì các bộ khác nhau của dữ liệu được vận hành song song độc lập. Khi làm như vậy thêm các
máy chủ nhiều hơn song song làm tăng tổng thông qua một hệ thống có thể xử lý.

Và SQL Server 2008 R2 song song Kho dữ liệu tùy chọn xử lý dữ liệu một cách song song.
Parallel Processing
Hình 5: Song song quản lý dữ liệu tại trung
tâm SQL Server
Xác suất truy cập dữ liệu

Nhưng nén và phương pháp tiếp cận song song với việc quản lý dữ liệu không phải là cách duy nhất mà khối lượng lớn dữ liệu có thể được quản lý. DW
2.0 kêu gọi cho việc tách vật lý của dữ liệu dựa trên xác suất truy cập dữ liệu. Dữ liệu rất cao truy cập cần phải được đặt trong lưu trữ hiệu suất cao. Về
vấn đề này, một kho dữ liệu được xây dựng theo SQL Server cũng giống như bất kỳ hệ thống quản lý cơ sở dữ liệu khác. Tuy nhiên, khối lượng dữ liệu
phát triển và xác suất truy cập của các thuốc nhỏ dữ liệu, nó không còn có ý nghĩa để lưu trữ tất cả dữ liệu về hiệu suất lưu trữ cao. Không chỉ là các dữ
liệu không được truy cập rất đắt để đặt trên cao hiệu suất lưu trữ, dữ liệu không sử dụng được trong các cách truy cập vào các dữ liệu có khả năng truy
cập thực sự là cao. Bằng cách đặt tất cả các dữ liệu về hiệu suất lưu trữ cao, tổ chức có tồi tệ nhất của tất cả các thế giới - chi phí lớn và hiệu suất kém.

Để hiểu lý do tại sao dữ liệu với một xác suất thấp của truy cập cần được loại bỏ từ cao hiệu suất lưu trữ, xem xét rằng một hệ thống thông tin bằng nhiều
cách như bơm máu thông qua cơ thể con người. Trong một vận động viên trẻ chạy marathon, có rất ít cholesterol. Trái tim bơm máu hiệu quả thông qua
các mạch máu của các vận động viên.Nhưng bây giờ xem xét một củ khoai tây chiếc ghế hôn mê. Khoai tây văng có rất nhiều cholesterol trong cơ thể của
ta / cô ta. Trái tim phải làm việc chăm chỉ để bơm máu qua các động mạch bị tắc nghẽn cholesterol của khoai tây văng.

Không hoạt động, dữ liệu không sử dụng trong một kho dữ liệu giống như cholesterol trong cơ thể của một vận động viên. Cholesterol ít có hiệu quả hơn
các máy bơm tim. Các dữ liệu không sử dụng ít có hiệu suất lưu trữ cao, hiệu quả hơn là để tìm dữ liệu đang được xem xét cho hiệu suất lưu trữ cao.


DW 2,0 công nhận thực tế này cơ bản của cuộc sống và SQL Server cũng thừa nhận thực tế này.
Xác suất truy cập dữ liệu
Hình 6: tách logic của dữ liệu dựa trên xác
suất truy cập
Xác suất truy cập dữ liệu

SQL Server cho phép dữ liệu được phân chia theo xác
suất truy cập. Trong dữ liệu SQL Server có thể là
nóng, ấm áp, hoặc lạnh. Thể chất phân chia dữ liệu
vào các lĩnh vực khác nhau, hiệu suất của dữ liệu
được tăng cường rất nhiều.
Parallel Processing

Nhưng có một tính năng rất quan trọng của SQL Server mà
đặt nó ngoài từ bất kỳ hệ thống quản lý cơ sở dữ liệu
khác. Khả năng đó là khả năng xử lý truyền tải dữ liệu.

DW 2.0 kêu gọi cho việc tách thực hiện trực tuyến từ xử lý
dữ liệu tích hợp. DW 2,0 thừa nhận những gì được gọi là
"khu vực tương tác". Đó là trong các lớp tương tác dữ liệu
có thể được nhập vào trong thời trang liên tục, hiệu suất
cao,. Hình 7 cho thấy rằng có hai đơn vị cơ bản của dữ liệu
- dữ liệu tĩnh và xem trực tiếp dữ liệu.
Parallel Processing
Hình 7: tĩnh và xem trực tiếp dữ liệu

Trích đoạn

Hình 8: Hai lớp học của các dữ liệu lịch sử

DEMO - Data warehouse pptx

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về