Tải bản đầy đủ (.ppt) (29 trang)

TIỂU LUẬN MÔN CƠ SƠ DỮ LIỆU NÂNG CAO TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (446.38 KB, 29 trang )


Trường THPT Trường Xuân

Page 1
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN VÀ ỨNG
DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
Cán bộ hướng dẫn: PGS. TS Nguyễn Hà Nam
Nhóm thực hiện : Nguyễn Thị Khánh
Hoàng Thị Huế

Trường THPT Trường Xuân
Page 2
N I DUNG:Ộ

Giới thiệu một số khái niệm cơ bản

Giới thiệu mô hình kho dữ liệu phân tán

Quy trình xây dựng và tích hợp kho dữ liệu
phân tán ở các trường đại học.

Tổng kết

Trường THPT Trường Xuân
Page3
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.1 Định nghĩa kho dữ liệu (data warehouse - DW)



Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ
đề được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định.

Theo John Ladley, công nghệ kho dữ liệu (data warehouse
technology) là tập các phương pháp, kĩ thuật và các công cụ
có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử
dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi
trường khác nhau.

Kho dữ liệu rất lớn, thường là hàng trăm gigabyte, thậm chí
hàng terabyte.

Trường THPT Trường Xuân
Page 4
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.2 Đặc tính của kho dữ liệu
Những đặc điểm cơ bản của kho dữ liệu là một tập hợp dữ liệu có
các tính chất sau:
- Tính tích hợp;
- Dữ liệu gắn thời gian và có tính lịch sử;
- Dữ liệu có tính ổn định, không biến động;
- Dữ liệu tổng hợp.

Trường THPT Trường Xuân
Page 5
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC

I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.3 Kho dữ liệu cục bộ (data mart - DM)
Kho dữ liệu cục bộ là CSDL có những đặc điểm giống với kho
dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực,
một chuyên ngành.
Kho dữ liệu cục bộ là một kho dữ liệu riêng rẽ theo phương
diện vật lý, thường được lưu trữ trong một server riêng trong một
mạng cục bộ phục vụ cho một nhóm đối tượng nhất định.
Kho dữ liệu cục bộ thường được chia làm 2 loại: DM phụ
thuộc và DM độc lập.

Trường THPT Trường Xuân
Page 6
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.3 Kho dữ liệu cục bộ (data mart - DM)

Data mart phụ thuộc (Dependent Data Marts): Chứa những dữ liệu
được lấy từ DW và những dữ liệu này sẽ được trích lọc và tinh chế,
tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của DM.

Trường THPT Trường Xuân
Page 7
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.3 Kho dữ liệu cục bộ (data mart - DM)

Data mart phụ thuộc (Dependent Data Marts):

Dependent DM
Data Warehouse
Dependent DM
Data Warehouse

Trường THPT Trường Xuân
Page 8
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.3 Kho dữ liệu cục bộ (data mart - DM)

Data Mart độc lập (Independent Data Mart):

Được xây dựng trước DW, dữ liệu được lấy trực tiếp từ các nguồn khác
nhau. Phương pháp này chi phí thấp và đơn giản hơn, nhưng đổi lại có những
điểm yếu là mỗi DM độc lập có cách tích hợp riêng, do đó dữ liệu giữa các DM
không đồng nhất với nhau.

Một số đặc tính quan trọng của DM độc lập:
- Tính tự trị về dữ liệu cao;
- Được sử dụng trong việc phân tích hỗ trợ quyết định theo mục đích
chung;
- Có thể dựa vào bất kì kĩ thuật nào: quan hệ, hướng đối tượng, phân tán,
- Chứa cả dữ liệu tóm lược và chi tiết.

Trường THPT Trường Xuân
Page 9
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC

I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.3 Kho dữ liệu cục bộ (data mart - DM)

Data mart độc lập (Independent Data Marts):

Trường THPT Trường Xuân
i
RuniRu ∈∈∃∈∀ :],1[,
Page 10
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.4 Cơ sở dữ liệu phân tán ( Distributed Database)
Một CSDL phân tán là sự tập hợp dữ liệu phân tán về mặt luận lý, chúng
cùng một hệ thống nhưng được trải rộng ở nhiều nơi (site) của một mạng máy tính.

Sự phân tán (Distribution)

Sự tương quan luận lý (Logical correlation)

Các mức trong suốt phân tán ( distribution transparency): được thực hiện thông qua
phân mảnh dữ liệu - phân rã các quan hệ toàn cục thành các mảnh.
- Phân mảnh dọc (vertical fragmentation):
- Phân mảnh ngang (horizontal framentation):
Attr(R): tập thuộc tính của quan hệ R
)(:],1[),(
i
RAttrAniRAttrA ∈∈∃∈∀
I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.4 Cơ sở dữ liệu phân tán ( Distributed Database)

Một CSDL phân tán là sự tập hợp dữ liệu phân tán về mặt luận lý, chúng
cùng một hệ thống nhưng được trải rộng ở nhiều nơi (site) của một mạng máy tính.

Sự phân tán (Distribution)

Sự tương quan luận lý (Logical correlation)

Các mức trong suốt phân tán ( distribution transparency): được thực hiện thông qua
phân mảnh dữ liệu - phân rã các quan hệ toàn cục thành các mảnh.
- Phân mảnh dọc (vertical fragmentation):
- Phân mảnh ngang (horizontal framentation):
Attr(R): tập thuộc tính của quan hệ R
)(:],1[),(
i
RAttrAniRAttrA ∈∈∃∈∀

Trường THPT Trường Xuân
Page11
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
I. MỘT SỐ KHÁI NIỆM CƠ BẢN
1.4 Cơ sở dữ liệu phân tán ( Distributed Database)
Một CSDL phân tán là sự tập hợp dữ liệu phân tán về mặt luận lý, chúng
cùng một hệ thống nhưng được trải rộng ở nhiều nơi (site) của một mạng máy tính.

Sự phân tán (Distribution)

Sự tương quan luận lý (Logical correlation)

Các mức trong suốt phân tán ( distribution transparency): được thực hiện thông

qua phân mảnh dữ liệu: phân rã các quan hệ toàn cục thành các mảnh
- Phân mảnh ngang (horizontal fragmentation):
- Phân mảnh dọc (vertical fragmentation):
Với Attr(R) là tập thuộc tính của quan hệ R;
i
RuniRu ∈∈∃∈∀ :],1[,
)(:],1[),(
i
RAttrAniRAttrA ∈∈∃∈∀

Trường THPT Trường Xuân
Page 12
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
Kho dữ liệu phân tán bao gồm sự kết hợp của hai khái niệm cơ bản là sự tích hợp
(Intergration) các thành phần dữ liệu và sự phân tán (Distribution) thông qua các
thành phần của mạng:

Trường THPT Trường Xuân
Page 13
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
Kho dữ liệu phân tán (Distributed Data Warehouse - DDW) có thể
được định nghĩa như là sự tích hợp logic của một tập các chia sẻ dữ liệu
của các dữ liệu được phân tán về mặt vật lý qua các node của một mạng
máy tính.
Kho dữ liệu phân tán có hai kiến trúc chính là kho dữ liệu phân tán
thuần nhất và kho dữ liệu phân tán không thuần nhất.


Trường THPT Trường Xuân
Page 14
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.1. Kho dữ liệu phân tán thuần nhất (Homogenous Distributed Data
Warehouses)
Kho dữ liệu phân tán thuần nhất là kho dữ liệu mà trong đó tất cả các kho dữ liệu
cục bộ (DM) ở các nơi (site) phải dùng chung một hệ quản trị cơ sở dữ liệu.
Ví dụ trong hệ thống CSDL phân tán thuần nhất Oracle thì tại mọi vị trí đều phải
dùng hệ quản trị CSDL Oracle,

Trường THPT Trường Xuân
Page 15
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.1. Kho dữ liệu phân tán thuần nhất (Homogenous Distributed Data
Warehouses)
DAOTAO.VNU.EDU.VN
KHOA.VNU.EDU.VN
THUVIEN.VNU.EDU.VN

Trường THPT Trường Xuân
Page 16
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.1. Kho dữ liệu phân tán thuần nhất (Homogenous Distributed

Data Warehouses)
Kiến trúc kho dữ liệu phân tán thuần nhất có một số ưu điểm là:

Quản trị dễ dàng vì tất cả DM đều dùng chung một DBMS;

Công tác chuyển đổi dữ liệu đơn giản vì tất cả các DM đều dùng
chung một cấu trúc dữ liệu và các ràng buộc dữ liệu;

Việc tích hợp dữ liệu giữa các nguồn đơn giản, dễ quản lý;

Thời gian đáp ứng các truy vấn nhanh.

Trường THPT Trường Xuân
Page 17
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.1. Kho dữ liệu phân tán thuần nhất (Homogenous Distributed
Data Warehouses)
Tuy nhiên, kho dữ liệu phân tán thuần nhất thích hợp đối với
những hệ thống xây dựng mới và có chiến lược từ đầu, còn với những
hệ thống thừa kế dữ liệu từ các nguồn đã có thì công việc chuyển đổi và
tích hợp dữ liệu mất rất nhiều thời gian và phức tạp, đòi hỏi phải có
công cụ chuyển đổi

Trường THPT Trường Xuân
Page 18
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN

2.2. Kho dữ liệu phân tán không thuần nhất (Heterogenous
Distributed Data Warehouses)
Kho dữ liệu phân tán không thuần nhất là kho dữ liệu mà trong đó
các kho dữ liệu cục bộ (DM) ở các nơi (site) có thể không dùng chung
một hệ quản trị cơ sở dữ liệu.


Trường THPT Trường Xuân
Page 19
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.2. Kho dữ liệu phân tán không thuần nhất (Heterogenous
Distributed Data Warehouses)


Trường THPT Trường Xuân
Page 20
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.2. Kho dữ liệu phân tán không thuần nhất (Heterogenous
Distributed Data Warehouses)
Kiến trúc kho dữ liệu phân tán không thuần nhất có một số ưu điểm:

Kế thừa được các nguồn dữ liệu ở các DM đã tồn tại;

Thích hợp cho các hệ thống xây dựng trên cơ sở mở rộng hệ
thống đã có;


Tính tự trị cao.
Tuy nhiên hệ thống phân tán không thuần nhất gặp khó khăn trong
việc tích hợp, chuyển đổi cũng như công tác quản trị dữ liệu vì mỗi
DBMS có cấu trúc dữ liệu, ràng buộc, cách thức truy vấn , bảo mật
dữ liệu khác nhau.

Trường THPT Trường Xuân
Page 21
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.3. Quản trị kho dữ liệu phân tán
Nhiệm vụ chính để tạo lập và quản trị kho dữ liệu phân tán gồm các
công việc chính sau:

Chuyển đổi dữ liệu;

Tích hợp dữ liệu;

Đồng bộ dữ liệu;

Tạo mới;

Lọc dữ liệu;

Phân tán dữ liệu;

Hợp nhất dữ liệu;

Trường THPT Trường Xuân

Page 22
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.4. Đánh giá ưu, nhược điểm của kho dữ liệu phân tán

Ưu điểm:
- Có thể xây dựng nhanh chóng. Mỗi kho cục bộ có thể tự kiểm soát
trên chính thiết kế và tài nguyên của mình.
- Chi phí xây dựng rẻ hơn nhiều so với giải pháp dùng kho tập trung.
- Không giới hạn dữ liệu ở các kho cục bộ và ở kho toàn cục.
- Việc truyền dữ liệu và các truy vấn nhiều bàng không gặp vấn đề
lớn về công nghệ.

Trường THPT Trường Xuân
Page 23
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
II. MÔ HÌNH KHO DỮ LIỆU PHÂN TÁN
2.4. Đánh giá ưu, nhược điểm của kho dữ liệu phân tán

Nhược điểm:
- Trong môi trường phân tán, người sử dụng sẽ gặp khó khăn trong
các vấn đề tích hợp dữ liệu, lọc dữ liệu, chuyển đổi dữ liệu, đồng bộ
dữ liệu,
- Nếu kho dữ liệu được trải rộng trên nhiều máy chủ thì sẽ tăng chi
phí quản lý dữ liệu và nhân lực quản lý.
- Có thể xảy ra tình trạng dư thừa dữ liệu nếu có nhiều DM cùng lưu
trữ một số dữ liệu như nhau.


Trường THPT Trường Xuân
Page 24
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
III. QUY TRÌNH XÂY DỰNG VÀ TÍCH HỢP KHO DỮ LIỆU
PHÂN TÁN Ở CÁC TRƯỜNG ĐẠI HỌC
1. Xác định các yêu cầu dữ liệu và các nguồn dữ liệu của các phòng,
ban, khoa.
2. Xây dựng các Data Mart độc lập

Xác định các dữ liệu cần lưu trữ trong các DM;

Xác định các nguồn dữ liệu đã có và kế thừa;

Xây dựng cấu trúc các DM độc lập.
3. Tích hợp các DM độc lập từ các khoa, phòng, ban;
4. Xây dựng kho dữ liệu chung để lưu trữ các dữ liệu được tích hợp từ
các Data Mart độc lập

Trường THPT Trường Xuân
Page 25
TÌM HIỂU KHO DỮ LIỆU PHÂN TÁN
VÀ ỨNG DỤNG TRONG CÁC TRƯỜNG ĐẠI HỌC
III. QUY TRÌNH XÂY DỰNG VÀ TÍCH HỢP KHO DỮ LIỆU
PHÂN TÁN Ở CÁC TRƯỜNG ĐẠI HỌC
5. Xây dựng bộ công cụ quản trị kho dữ liệu phân tán cho phép
thực hiện các công việc như: chuyển đổi dữ liệu, tích hợp dữ liệu,
trích lọc dữ liệu, làm sạch dữ liệu, phân tán dữ liệu, ;
6. Tổ chức khai thác kho dữ liệu phục vụ quản lý đào tạo: Triển
khai các chương trình ứng dụng khai thác dữ liệu trong kho phục vụ

công tác quản lý đào tạo trong nhà trường.

×