Tải bản đầy đủ (.ppt) (54 trang)

bài giảng hệ cơ sở dữ liệu phân tán chuong 1 nguyên lý cơ bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (725.88 KB, 54 trang )

CHƯƠNG 1
NHỮNG NGUYÊN LÍ CƠ BẢN
1.1 Mở đầu
1.2 Cơ sở dữ liệu quan hệ
1.3 Mạng máy tính
1.4 Cơ sở dữ liệu phân tán

1


1.1 Mở đầu
• Một công ty có 3 chi nhánh. Tính toán trả lương thế
nào?
 Sử dụng cơ sở dữ liệu tập trung (tại London)
Dữ liệu Employee :
– EMP(ENO, NAME, TITLE, SALARY, …)
Đặt dữ liệu EMP này ở đâu?
Dữ liệu nhân viên được quản lý tại văn
phòng nơi nhân viên làm
Ví dụ: Luơng, phụ cấp, tiền thuê..
Định kỳ, Công ty cần hợp nhất truy xuất
đến dữ liệu nhân viên
– Ví dụ: Tính tông số lương cần trả cho bảng
cân đối lương
– Ví dụ: Thưởng thêm hàng năm phụ thuộc
lợi ích mạng toàn cục

London-Trả lương
NewYork-Trả lương
EMP


INTERNET

Hong Kong-Trả lương

2


Sử dụng cơ sở dữ liệu phân tán
London-Trả lương

London EMP

NewYork-Trả lương

NewYork
EMP

INTERNET
HọngKong
EMP

• Chạy nhanh hơn nhiều
• Những vấn đề đòi hỏi:
– Sự phân tán hỗ trợ việc
xử lý song song (Chạy
ở cả LD,NY,HK)
– Việc lặp lại dữ liệu làm
tăng hiệu năng (dữ liệu
HK có thể ở NY)


Hong Kong-Trả lương

3


Tính không đồng nhất và tự tri

4


1.2 CƠ SỞ DỮ LIỆU QUAN HỆ
A. Cơ sở dữ liệu quan hệ
B.

Chuẩn hóa

C. Các ngôn ngữ dữ liệu quan hệ

5


A. Cơ sở dữ liệu quan hệ
• Cơ sở dữ liệu: Tập hợp có cấu trúc dữ liệu liên quan đến các hiện
tượng cuộc sống mà ta cố gắng mô hình hóa.
• Một CSDL quan hệ là CSDL ở đó cấu trúc dữ liệu là ở dạng bảng.
Về hình thức, được định nghĩa qua n tập hợp D1,D2 ,…, Dn là tập các
bộ n (d1,d2,…,dn) sao cho d1 ∈D1 , d2 ∈D2 …., dn ∈Dn

6



B. CHUẨN HÓA
Xét 2 sơ đồ quan hệ :
EMP(ENO, ENAME, TITLE, SAL, PNO, RESP, DUR)
PROJ(PNO,PNAME, BUDGET)
Những vấn đề tồn tại trong cơ sở dữ liệu quan hệ
 Lặp lại bất thường: VD: tên người, chức vụ và lương của mỗi nhân
viên được lặp lại ở mỗi dựa án anh ta tham gialãng phí không gian
lưu trữ.
 Cập nhật bất thường: Hậu quả của lặp lại bất thường. VD: nếu lương
nhân viên thay đổi, kéo theo nhiều bộ thay đổi
 Chèn bất thường: Khi đưa thêm nhân viên vào, các thuộc tính liên
quan trên các quan hệ khác không được thêm vào tương ứng (giá tri
null)
 Xóa bất thường: Một biến đổi của chèn bất thường . VD: Xóa dự án
trên quan hệ NHANVIEN sẽ xóa hết thông tin nhân viên

7


CHUẨN HÓA(tiếp)
Chuẩn hóa : Quan hệ được chia thành hai hay nhiều dạng chuẩn
hóa cao hơn . Quan hệ gọi là chuẩn hóa nếu nó thỏa mãn các
điều kiện của liên kết đến các dạng chuẩn hóa.
 Codd định nghĩa 1NF, 2NF, and 3NF ( Về sau là chuẩn
Boyce-Codd-BCNF) : dạng chuẩn hóa phụ thuộc hàm
 4NF (phụ thuộc đa trị) và 5NF(phụ thuộc chiếu-kết nối )
 Quá trình chuẩn hóa cho ta các sơ đồ quan hệ:
EMP(ENO, ENAME, TITLE)
PAY(TITLE, SAL)

PROJ(PNO, PNAME, BUDGET)
ASG(ENO, PNO, RESP, DUR)
8


MỘT CƠ SỞ DỮ LIỆU ĐÃ CHUẨN HÓA

9


C. CÁC NGÔN NGỮ DỮ LIỆU QUAN HỆ
• Ngôn ngữ vận dụng trên quan hệ được dùng cho mô hình quan
hệ.
• Bao gồm đại số quan hệ và tính toán quan hệ.
• Khác nhau về việc hình thành truy vấn người dùng như thế nào.
• Chúng là tương đương về khả năng diễn đạt
ĐẠI SỐ QUAN HỆ:
- Tập các phép tính thực hiện trên quan hệ. Có thể 1 ngôi hay hai
ngôi
- 5 phép tính cơ bản: Chọn, chiếu, hợp, hiệu và tích Đề cac
- Các phép dẫn suất: Chèn, kết nối tự nhiên, bán kết nối và chia,
giao , kết nối θ.
- Mở rộng hơn : Nhóm hay sắp xếp các kết quả, thực hiện các hàm
đại số hay hợp các hàm.
10


Các phép đại số quan hệ
Chọn(Selection) Chon tập con theo hàng quan hệ đã cho : σF(R)
Chiếu(Projection) Tạo tập con theo cột quan hệ đã cho : VD chiếu

quan hệ R theo các thuộc tính A và B πA,B(R)
Hợp (Union): Hợp của hai quan hệ R và S (R ∪ S) là tập các bộ
trong 2 quan hệ (hoặc R,S hoặc cả hai)
Hiệu (Set Difference) : Hiệu của hai quan hệ R và S (R-S) là tập
các bộ thuộc R không thuộc S
Tích Đề Các (Cartesian Product) : Tích Đề Các của hai quan hệ R
k1 bộ và S k2 bộ (RxS) là tập k1 +k2 bộ mỗi bộ R nối với mọi bộ
của S

11


Giao(Intersection): R∩S =R-(R-S)
Kết nối (θ-Join): Dẫn suất tích Đề Các . Về cơ bản có thể chia ra inner
join và outer join.
Bán kết nối(Semijoin): R(A) và S(B)
R ix F S (F là hàm định nghĩa trước)

12


PHÉP TÍNH QUAN HỆ
• Thay cho việc đặc tả làm thế nào để có kết quả thì ở đây là kết quả gì khi đưa ra quan
hệ để giữ kết quả.
• Có 2 nhóm : phép tính quan hệ bộ và phép tính quan hệ miền.
• Sự khác nhau do các biến đươc đặc tả trong truy vấn
• Tính toán quan hệ có cơ sở lý thuyết là dựa trên logic vị từ của đại số quan hệ ở trên.
CSDL quan hệ được coi tập các bộ và các miền, trên đó có thể thực hiện các tính toán
quan hệ
Phép tính quan hệ trên bộ

Biến nguyên thủy là biến bộ : { t | F(t) } ( t là biến bộ và F là hàm được định nghĩa trước} .
2 dạng:
- Biểu diễn thành viên biến bộ : R.t hay R(t)
- Các điều kiện
 s[A] θ t[B]
 s[A] θ c với c là hằng

13


Phép tính quan hệ trên miền
Sử dụng biến miền trong ngôn ngữ . Phạm vi biến miền bao gồm các
miền qua đó quan hệ định nghĩa.
x1,x2,….,xn| F(x1,x2,….,xn)
F là hàm định nghĩa trước, x1,x2,….,xn là các biến tự do
Thường dùng cho tương tác người dùng

14


1.3. Mạng máy tính
Tập hợp các máy tính tự trị có khả năng trao đổi thông tin
với nhau

15


1.3. Mạng máy tính(tiếp)
A. Các kiểu mạng


– Theo khoảng cách(WAN,LAN, MAN)
– Theo topo (star, ring, bus, mesh)
– Theo kỹ thuật chuyển mạch(kênh, gói)
B. Các sơ đồ truyền thông
• Mạng điểm điểm(point-to-point -unicast)
• Quảng bá : (broadcast - multi-point)

 Multicast

16


C. Các khái niệm truyền thông dữ liệu
• Link: thực thể vật lý
• Kênh: thực thể logic

– Kênh có dung lượng (b/s)
– Băng thông (tương tự và số)

17


D. Các giao thức truyền thông
• Chồng giao thức TCP/IP

– Kiến trúc phân tầng
– Tầng giao vận
– Tầng liên mạng
• Các giao thức khác
- IEEE 802

- ATM

18


1.4 Cơ sở dữ liệu phân tán
Độc lập dữ liệu
• Ban đầu, các chương trình lưu dữ liệu trong các file thông thường.
• Mỗi chương trình phải duy trì dữ liệu của nó
– Tổng phí lớn
– Dễ mắc lỗi

19


Độc lập dữ liệu
• Việc phát triển hệ qtcsdl giúp cho đạt được độc lập dữ liệu (trong suốt)
một cách đầy đủ
• Cung cấp việc duy trì và truy nhập dữ liệu điều khiển và trung tâm
• ứng dụng độc lập với tổ chức vật lý và logic của file.

20


Độc lập dữ liệu ...
• Hệ thống csdl phân tán là bao gồm hai cách tiếp cận khác biệt: các hệ
thống csdl và mạng máy tính
– Mạng máy tính đưa ra chế độ làm việc khác việc tập trung.
• Vấn đề chính :Đối tượng quan trọng nhất của công nghệ csdl là tích
hợp chứ không tập trung.

• Mục tiêu của hệ thống csdl phân tán : đạt được sự tích hợp dữ liệu và trong
suốt phân tán dữ liệu.

21


Tính toán và xử lý dữ liệu phân tán
• Hệ thống tính toán phân tán là tập hợp các phần tử xử lý tự trị được nối
kết với nhau bằng mạng máy tính. Các phần tử hợp tác để thực hiện
nhiệm vụ
• Thuật ngữ “phân tán” được chính xác hóa theo ngữ cảnh.
• Các thuật ngữ đồng nghĩa:
– distributed function( chức năng phân tán)
– distributed data processing (xử lý dữ liệu phân tán)
– multiprocessors/multicomputers (đa xử lý/đa máy tính)
– satellite processing (xử lý vệ tinh)
– back-end processing (xử lý back-end)
– dedicated/special purpose computers (các máy tính mục đích thuần
túy/dbiet)
–timeshared systems (Các hệ thống phân chia thời gian)
– functionally modular systems( Các hệ thống đơn thể chức năng )
22


Tính toán và xử lý dữ liệu phân tán
• Có thể phân tán
– Logic xử lý
– Các chức năng
– Dữ liệu
– Điều khiển

• Phân loại các hệ thống phân tán theo các tiêu chí khác nhau
– Mức độ kết dính: các phần tử xử lý kết nối với nhau như thế nào
( tỷ lệ giữa tổng dữ liệu được trao đổi đối với tổng dữ liệu xử lý cục bộ)
 Kết dính mạnh, kết dính yếu.
– Cấu trúc nối kết
 kết nối điểm-điểm giữa các phần tử xử lý
 Các kênh kết nối chung
– Đồng bộ hóa : đồng bộ và bất đồng bộ
23


Định nghĩa csdl phân tán và hệ
qtcsd phân tán
• Một csdl phân tán là một tập hợp nhiều csdl liên quan logic trải trên
một mạng máy tính
• Một hệ qtcsdl phân tán là phần mềm quản trị csdl phân tán và cung cấp một
cơ chế truy nhập tạo sự phân tán này trong suốt với người dùng
• Hai thuật ngữ trên có thể được dùng lẫn nhau
• Các giả thiết không tường minh :
– Dữ liệu được lưu ở nhiều site, mỗi site bao gồm về mặt logic 1 bộ xử lý đơn
– Các bộ xử lý trên các site khác nhau được nối kết với nhau qua mạng máy
tính ( không tính đến đa xử lý , hệ thống xử lý song song)
– Csdl phân tán là csdl không phải tập hợp các file. Vị trí và truy vấn dữ liệu
được tương tác bởi các mẫu người dùng.
– Hệ qtcsdl phân tán là tập hợp các hệ qtcsdl phân tán(không file hệ thống
file điều khiển từ xa).
24


Định nghĩa csdl phân tán và hệ

qtcsd phân tán

25


×