Tải bản đầy đủ (.pptx) (67 trang)

Siêu dữ liệu trong DW 2.0 pot

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 67 trang )

LOGO
DW 2.0
1041374 - Nguyễn Tấn Nam
1041406 - Lê Thị Như Quỳnh
1041425 - Trịnh Minh Thế
1041431 - Hồng Văn Thuận
GVHD : Nguyễn Trần Minh Thư
1
Giới Thiệu
1
2
Phương Pháp Luận và Phương Pháp Tiếp Cận DW2.0
3
2
Tính Linh Hoạt Của Cơ Sở Hạ Tầng CN DW2.0
Siêu Dữ Liệu Trong DW 2.0
Chương 4 Siêu Dữ Liệu Trong DW 2.0
3
1) Giới thiệu
•)
Siêu dữ liệu là một trong những thành phần
nền tảng trong DW 2.0
•)
Siêu dữ liệu là dữ liệu mô tả về dữ liệu
Chương 4 Siêu Dữ Liệu Trong DW 2.0
2) Siêu dữ liệu trong DW 2.0
•)
Siêu dữ liệu có một quy định đặc biệt và được bổ sung
trong DW 2.0. Siêu dữ liệu yêu cầu tách biệt từng bộ
phận trong DW 2.0.
- Siêu dữ liệu cho bộ phận Tương tác (Interactie


Sector)
- Siêu dữ liệu cho bộ phận Tích hợp (Intergrated
Sector)
- Siêu dữ liệu cho bộ phân Near Line (Near Line
Sector)
- Siêu dữ liệu cho bộ phận Lưu trữ (Archival Sector)
Siêu dữ liệu trong DW 2.0

Khác với các bộ phận siêu dữ liệu khác, bộ phận
siêu dữ liệu lưu trữ được đặt trực tiếp trong dữ
liệu lưu trữ.

Cấu trúc tổng quan của siêu dữ liệu trong
DW 2.0 : là hai cấu trúc siêu dữ liệu song song :
có cấu trúc và phi cấu trúc.
Siêu dữ liệu trong DW 2.0

Đối với dữ liệu có cấu trúc, siêu dư liệu Local tồn
tại ở nhiều nơi , dưới nhiều hình thức : trong tiến
trình ETL,bên trong thư mục DBMS, hoặc trong
một hệ thống BI
Siêu dữ liệu trong DW 2.0

Tất cả các siêu dữ liệu bộ phận ngoại trừ bộ
phận siêu dữ liệu lưu trữ được chứa trong một
kho lưu trữ Repository.
Siêu dữ liệu trong DW 2.0

Kho lưu trữ chủ động/ Kho lưu trữ bị động
- Kho lưu trử chủ động là một trong các siêu

dữ liệu tương tác liên tục với nhà phát triển và các
hoạt động truy vấn của hệ thống.
- Kho lưu trữ thụ động là một trong các siêu
dữ liệu không tương tác trực tiếp với nhà phát triển
và hoạt động truy vấn của người dùng cuối.
Siêu dữ liệu trong DW 2.0

Khi các thay đổi xảy ra sẽ không được cập nhật kịp thời,
dẫn đền bất đồng bộ với hiện tại làm kết quả trở nên vô
dụng.

Kho lưu trữ thụ động ít được lựa chọn và chỉ đóng vai trò
như là một tài liệu
Siêu dữ liệu trong DW 2.0

Kho lưu trữ chủ động là nơi mà các siêu dữ liệu sẽ được
cập nhật khi được sử dụng bởi các nhà phát triển hoặc
các hoạt động truy vấn dữ liệu.

Hệ thống có bất kì sự thay đổi nào thì các siêu dữ liệu
cũng thay đổi theo
Siêu dữ liệu trong DW 2.0

Mối quan hệ giữa các siêu dữ liêu
Enterprise với Local
- Quan hệ ngữ nghĩa : Trong mối quan hệ này siêu
dữ liệu enterprise sẽ mô tả một thuật ngữ toàn cục, sau đó
siêu dữ liệu local sẽ được tham chiếu tới thuật ngữ này
bằng một con trỏ từ enterprise đến local.
Siêu dữ liệu trong DW 2.0

- Các định nghĩa về major subject area.
Siêu dữ liệu trong DW 2.0
- Mối quan hệ của hai loại siêu dữ liệu riêng biệt ở
cấp độ Local là business và technical.
Siêu dữ liệu Business là thông tin về dữ liệu hữu ích
cho việc tìm các từ ngữ chuyên môn của người kinh
doanh.Siêu dữ liệu Technical la thông tin về dữ liệu hữu ích
cho việc tìm các từ ngữ chuyên môn về kỹ thuật
Siêu dữ liệu trong DW 2.0

Siêu dữ liệu và Hệ Thống các Bảng Ghi.
- Siêu dữ liệu cũng có thể dùng để định nghĩa hệ
thống các bảng ghi cho các đối tượng dữ liệu và thuộc tính
của n.ó ở enterprise
Siêu dữ liệu trong DW 2.0

Nguyên Tắc Phân Loại ( Taxonomy)
- Nguyên tắc phân loại (Taxonomy) là một ví dụ về
siêu dữ liệu trong môi trường phi cấu trúc.
- Một Taxonomy là một nhánh chi tiết trong một chủ đề
rộng lớn. Một Taxonomy có một phân tích chi tiết cho các
thành phần cuả chủ đề đó. Bảng thuật ngữ ( Glossary), và
bản học thể thể (Ontology) cũng liên quan đến taxonomy
- Có hai loại taxonomy cơ bản trong DW 2.0 là internal
(nội bộ) và external( ngoại bộ) .
Siêu dữ liệu trong DW 2.0

Taxonomy nội bộ : xây dựng bởi các từ, cụm từ
trong các văn bản của chính nó.
- Ví dụ : giả sử như có đoan văn bản sau “

một loạt các hợp đồng”, các taxonomy cho nhóm
hợp đồng có thể là hơp đồng,điều khoản, độ dài
của thỏa thuân, các khoản thanh toán…
- Đôi khi Taxonomy nội bộ còn được gọi là
“chủ đề: của một văn bản.
Siêu dữ liệu trong DW 2.0

Taxonomy ngoại bộ : có thể đến từ bất kỳ đâu.
Nó được phát triển hoàn toàn từ thể giới thực.
- Một vài taxonomy ngoại bộ :
Siêu dữ liệu trong DW 2.0

Một số loại siêu dữ liệu phổ biến cho
môi trường phi cấu trúc :

Stop Words : Các từ được dùng trong một nhóm câu,văn bản
nhưng nó không phải là các từ diễn đạt ý chính của văn bản. Ví dụ
các từ điển hình của Stop Words : a, and, the, what, that, which,
where, to …

Synonyms : Các từ đồng nghĩa nhưng khác nhau về cách viết.
ví dụ : The fur and the coat of a cat : cả 2 đều chỉ lông của con mèo.

Homographs : Các từ được viết giống nhau nhưng ý nghĩa khác
nhau. Ví dụ : the bow of a ship (boang tàu) khác với a bow and
arrow (cung tên).

Alternate spellings - Cách viết thay thế : Các cách viết khác nhau
được chấp nhận. Ví dụ như color với colour.
Siêu dữ liệu trong DW 2.0

Chương 5
20
1
2
The Technology Infrastructure
Semantically Temporal Data
Semantically Static Data
The Technology Infrastructure
21
Yêu cầu kinh doanh thay đổi liên tục, trong khi cơ sở hạ tầng
công nghệ bị đúc trong khối bê tông
Ví dụ
Phía dưới kinh doanh là cơ sở hạ tầng công nghệ
The Technology Infrastructure
22
Một số trong những lý do khiến cơ sở hạ tầng công nghệ rất khó khăn để thay đổi.
The Technology Infrastructure
23
Cần nhiều thời gian để thực hiện thay đổi cơ sở hạ tầng IT

Những gì sẽ xảy ra khi thay đổi kinh doanh
nhanh hơn so với cơ sở hạ tầng có thể đáp
ứng ???
24
Một mớ hỗn độn
xảy ra sau đó

Giải quyết vấn đề :

Đóng băng các yêu cầu kinh doanh


Thêm nguồn lực IT

Rút ngắn thời gian thay đổi

Trong thực tế chỉ có lựa chọn thứ 3 là khả
thi và lâu dài
25

×