Chơng I Hệ cơ sở dữ liệu
quan hệ và ngôn ngữ hỏi có cấu trúc sql
A - Hệ cơ sở dữ liệu quan hệ
1. Quan hệ và các phép toán đại số quan hệ
1.1. Quan hệ
Quan hệ là một tập con của tích Đề-các của một hoặc nhiều miền. Nh vậy một quan hệ có thể là vô hạn. ở đây
luôn luôn giả thiết rằng quan hệ là một tập hữu hạn. Mỗi hàng của một quan hệ gọi là một bộ, khi đó quan hệ là tập
con của tích Đề-các D1ìD2ìD3ì...ìDn là quan hệ n ngôi. Mỗi bộ của quan hệ có n thành phần (thờng hiểu là n cột).
Các cột của quan hệ gọi là các thuộc tính. Có thể định nghĩa quan hệ theo cách hình thức nh sau:
Gọi R={A1, A2, ..., An} là tập hữu hạn các thuộc tính, mỗi thuộc tính Ai với i=1, 2, ..., n có miền giá trị tơng
ứng là dom(Ai). Quan hệ trên tập thuộc tính R={ A1, A2, ..., An} là tập con của tích Đề-các, r dom(A1) ì dom(A2)
ì...ì dom(An). Khi đó kí hiệu r(R) hoặc r(A1, A2, ..., An) là quan hệ.
1.2. Khoá của lợc đồ quan hệ
Khoá (Key) của quan hệ r trên tập thuộc tính R={A1, ...An} là tập con KR sao cho bất kì hai bộ khác nhau t1,
t2 r luôn thoả t1(K)t2(K).
Điều này có nghĩa là lợc đồ quan hệ không có hai bộ giống nhau trên mọi thuộc tính của R.
1.3. Các phép toán đại số quan hệ
Gọi r và s là quan hệ trên tập thuộc tính R={A1, A2,...,An} và R1={B1,B2,...,Bn}.
Giả thiết rằng quan hệ r, s là tập hữu hạn các bộ. Đối với các phép hợp, giao và trừ, hai quan hệ tham gia phải là
khả hợp.
1* Hợp của hai quan hệ
Kí hiệu hợp của hai quan hệ r và s là r s.
Biểu diễn hình thức có dạng: r s ={t/ts hoặc tr hoặc tr và s}
2* Phép giao
Kí hiệu giao của hai quan hệ r và s là r s.
Biểu diễn hình thức có dạng: r s ={t/tr và s}
3* Phép trừ
Kí hiệu r-s là tập các bộ thuộc r nhng không thuộc s.
Biểu diễn hình thức có dạng: r-s={t/t r và t s}.
1* Tích Đề-các trên các quan hệ
Tích Đề-các của r và s là tập (n*m) bộ với n thành phần đầu có dạng một bộ thuộc r và m thành phần sau có
dạng của một bộ thuộc s. Biểu diễn hình thức có dạng:
r ì s={t/t có dạng (a1,a2,...,an,b1,b2,...,bn) trong đó (a1,a2,...,an r ) và (b1,b2,...,bn s)}
4* Phép chiếu
Gọi t là một bộ thuộc r, A R, t[A] là giá trị của bộ tại thuộc tính A, X R. Với X={B1,B2,...,Bn} thì
t[X]=(t[B1],t[B2],...,t[Bn]). Phép chiếu trên tập X của quan hệ r kí hiệu là r[X] đợc định nghĩa nh sau:
r[X]={t[X]/t r}.
Thực chất của phép chiếu là loại bỏ đi một số thuộc tính và giữ lại những thuộc tính còn lại của quan hệ đó
5* Phép chọn
Giả sử F đợc diễn tả bằng một tổ hợp Boolean của các toán hạng, mỗi toán hạng là một phép so sánh đơn giản
giữa hai biến là hai thuộc tính, hoặc một bên là thuộc tính một bên là hằng, cho giá trị "đúng" hoặc "sai" đối với mỗi
bộ đã cho khi kiểm tra riêng trên bộ đấy.
Trong F có các phép toán so sánh là {<, =, >, >=, <=, }, và các phép logic là {, , ơ}.
Biểu diễn hình thức có dạng: ơF(r)={t r | F(t)=đúng}
6* Phép kết nối
Gọi là một trong các phép so sánh {=, >=, >, <, <=, <>}, phép kết nối đợc định nghĩa nh sau:
Phép kết nối của quan hệ r đối với thuộc tính A với quan hệ s đối với thuộc tính B là: r s = {(tu)tr,
us và t[A] u[B]}
với giả thiết mỗi giá trị của thuộc tính t[A] đều có thể so sánh đợc với giá trị của thuộc tính u[B] (qua phép so
sánh ). Trờng hợp là dấu "=" gọi là kết nối bằng hay còn gọi là kết nối tự nhiên. Khi đó kết nối tại thuộc tính cùng
tên của hai quan hệ và một trong hai thuộc tính đó sẽ đợc loại bỏ qua phép chiếu.
7* Phép chia
Gọi r là quan hệ n-ngôi và s là quan hệ m-ngôi (n>m, s ). Khi đó phép chia đợc định nghĩa nh sau:
Phép chia r ữ s là tập tất cả (n-m) bộ t sao cho với mọi bộ u s thì t u r.
2. Cơ sở dữ liệu
Cơ sở dữ liệu (CSDL) là mô hình thực thể phản ánh thế giới thực đ ợc đề cập đến, do đó nó là sự trừu tợng hoá
của thế giới thực. CSDL là nguồn dữ liệu cho mọi hệ thống thông tin dựa trên máy tính, những dữ liệu này đ ợc lu giữ
trong máy tính đợc tổ chức dựa trên một qui định nào đó nhằm giảm thiểu đợc sự d thừa và đảm bảo sự thống nhất
với nhau (toàn vẹn dữ liệu).
Trong lịch sử phát triển của CSDL có 3 mô hình CSDL chính đợc sử dụng là:
8* Mô hình phân cấp: Mô hình dữ liệu là một cây trong đó các nút biểu diễn các tập thực thể, giữa các nút con
và các nút cha đợc liên hệ theo một mối liên hệ xác định.
9* Mô hình mạng: Mô hình đợc biểu diễn là một đồ thị có hớng.
10* Mô hình quan hệ: Mô hình này dựa trên cơ sở khái niệm lý thuyết tập hợp của các quan hệ, tức là tập các k-
bộ.
3. Mô hình cơ sở dữ liệu quan hệ
Khái niệm toán học của mô hình CSDL quan hệ (hiểu theo nghĩa lí thuyết tập hợp) thì quan hệ là tập con của
tích Đề-các (đợc gọi là miền). Gọi D1, D2, D3..... Dn là n miền. Tích Đề-các n miền là D1ìD2ìD3ì...ìDn là tập tất
cả n bộ (v1,v2,v3,...,vn) sao cho viDi, với i=1, 2, ..., n.
4. Hệ quản trị cơ sở dữ liệu
Hệ chơng trình để có thể quản lý, tổ chức lu trữ, cho phép tìm kiếm, thay đổi, thêm bớt dữ liệu trong CSDL đợc
gọi là Hệ quản trị CSDL. Hệ quản trị CSDL có nhiệm vụ rất quan trọng là giúp ngời dùng có thể sử dụng đợc hệ
thống mà ít nhiều không cần quan tâm tới thuật toán chi tiết hoặc biểu diễn dữ liệu trong máy tính .
5. Hệ tiên đề phụ thuộc hàm
Khái niệm phụ thuộc hàm trong một quan hệ là một khái niệm rất quan trọng đối với việc xây dựng mô hình dữ
liệu. Trong các hệ thống thông tin quản lý khi cần thiết kế CSDL quan hệ thờng đòi hỏi phải chọn lợc đồ các quan hệ.
Việc chọn các lợc đồ này tốt hơn hay xấu hơn lợc đồ khác đợc dựa trên một số các tiêu chuẩn cụ thể nào đó. Do đó
cần phải nghiên cứu tính chất cơ bản cũng nh các thuật toán để có thể nhận đợc những tập lợc đồ phù hợp. Trọng tâm
của công việc này là xét đến các phụ thuộc dữ liệu, nghĩa là các mối ràng buộc có thể có hiện hữu của l ợc đồ. Chẳng
hạn nh thuộc tính này xác định duy nhất thuộc tính kia. Ví dụ trong công việc quản lý tập hoá đơn thì mã hoá đơn
xác định duy nhất một khách hàng thanh toán hoá đơn đó.
Cho R(U) là một lợc đồ quan hệ với U = {A1, A2, ...An} là tập hợp các thuộc tính. Giả sử có X và Y là tập con
của U.
Nói rằng X
Y (X xác định hàm Y hay Y phụ thuộc vào hàm X) nếu bất kì r là một quan hệ xác định trên
R(U) sao cho bất kì hai bộ t1, t2 r mà
t1[X] = t2[X] thì t1[Y] = t2[Y]
Phụ thuộc hàm kí hiệu là FD. Cần lu ý rằng ở đây chỉ xét các phụ thuộc hàm thoả mãn cho mọi quan hệ trên lợc
đồ tơng ứng của nó. Không thể xem xét một phụ thuộc hàm thoả mãn quan hệ r đặc biệt (ví dụ quan hệ rỗng) của một
lợc đồ R rồi sau đó qui nạp rằng phụ thuộc đó là thoả mãn trên R.
Ví dụ: Mỗi khách hàng tồn tại vừa đúng với một giá trị tơng ứng với từng thuộc tính nh: Tên khách hàng, địa chỉ
...v.v và có thể viết nh sau:
khách hàng
Tên khách hàng, khách hàng
Địa chỉ, ....
Gọi F là tập hợp các phụ thuộc hàm đối với lợc đồ quan hệ R(U) và X
Y là một phụ thuộc hàm, X, YU.
Nói rằng X
Y đợc suy diễn logic từ F nếu mối quan hệ r trên R(U) đều thoả mãn các phụ thuộc hàm của F thì
cũng thoả X
Y. Chẳng hạn có tập phụ thuộc hàm F = {A
B, B
C} thì A
C suy ra từ F. Gọi F
+
là bao
đóng (Closure) của F, tức là tập tất cả các phụ thuộc hàm đợc suy diễn logic từ F. Nếu F = F
+
thì F là họ đầy đủ (Full
Family) của phụ thuộc hàm.
Để xác định khoá của lợc đồ quan hệ và các suy diễn logic giữa các phụ thuộc hàm cần thiết phải tính đợc F
+
từ
F. Do đó đòi hỏi phải có các hệ tiên đề. Tập các qui tắc đợc Armstrong đa ra năm 1974 và thờng đợc gọi là hệ tiên đề
Armstrong.
Gọi R(U) là lợc đồ quan hệ với U = {A1, A2, ... An} là tập các thuộc tính và X, Y, Z U. Hệ tiên đề Armstrong
bao gồm:
11* A1 (Phản xạ): Nếu YX thì X
Y
12* A2 (Tăng trởng): Nếu ZU và X
Y thì XZ
YZ, trong đó kí hiệu XZ là hợp của hai tập hợp X, Z
thay cho kí hiệu XZ
13* A3 (Bắc cầu): Nếu X
Y và Y
Z thì X
Z
Với những lập luận trên có thể rút ra những nhận xét: Giả sử F là tập các phụ thuộc hàm đúng trên quan hệ r.
Nếu X
Y là một phụ thuộc hàm đợc suy dẫn từ F nhờ hệ tiên đề Armstrong thì X
Y là đúng trên quan hệ r.
Những kết luận suy ra từ hệ tiên đề Armstrong:
a. Luật hợp: Nếu X
Y và X
Z thì X
YZ
b. Luật tựa bắc cầu: Nếu X
Y và WY
Z thì WX
Z
c. Luật tách: Nếu X
Y và ZY thì X
Z
6. Các dạng chuẩn trong CSDL quan hệ
Do việc cập nhật dữ liệu (các phép tính nh thêm, loại bỏ, thay đổi) gây nên những dị thờng dữ liệu cho nên các
quan hệ cần thiết phải đợc biến đổi thành các dạng phù hợp. Quá trình đó đợc xem là quá trình chuẩn hoá. Quan hệ
đợc chuẩn hoá là quan hệ mà trong đó mỗi miền của một thuộc tính chỉ chứa những giá trị nguyên tố (Atomic) nghĩa
là không phân nhỏ đợc nữa và do đó mỗi giá trị trong quan hệ cũng là nguyên tố.
Quan hệ có chứa các miền giá trị không nguyên tố gọi là quan hệ không chuẩn hoá. Một quan hệ đ ợc chuẩn hoá
có thể thành một hoặc nhiều quan hệ chuẩn hoá khác và không làm mất mát thông tin.
Ba dạng chuẩn hoá thờng đợc sử dụng trong thiết kế CSDL quan hệ
Dạng chuẩn thứ nhất
(First Normal Form - 1NF)
Dạng không chuẩn hoá
Dạng chuẩn thứ hai
(Second Normal Form - 2NF)
Dạng chuẩn thứ ba
(Third Normal Form - 3NF)
Sơ đồ quan hệ giữa các dạng chuẩn dữ liệu
1NF
Một lợc đồ quan hệ R đợc gọi là ở dạng chuẩn một (1NF) nếu và chỉ nếu toàn bộ các miền có mặt trong R đều
chỉ chứa một giá trị nguyên tố hay nói một cách khác lợc đồ quan hệ phải tồn tại khoá.
Định nghĩa này cho thấy bất kì quan hệ chuẩn nào cũng ở dạng 1NF.
2NF
Lợc đồ quan hệ R ở dạng chuẩn thứ hai nếu nó đã ở dạng chuẩn thứ nhất và nếu mỗi thuộc tính không khoá của
R là phụ thuộc hàm đầy đủ vào khoá chính.
3NF
Trớc khi đa ra định nghĩa của dạng chuẩn 3NF, cần đa thêm khái niệm phụ thuộc bắc cầu:
Cho một lợc đồ quan hệ R(U), X là tập con của các thuộc tính U và A là một thuộc tính thuộc U. Thuộc tính A
đợc gọi là phụ thuộc bắc cầu vào X trên R nếu tồn tại một tập con Y của sao cho X
Y thì Y
A nhng
Y
/
X (và không xác định hàm) với A XY.
Tính bắc cầu có thể đợc biểu diễn theo sơ đồ sau:
X
A
Y
Sơ đồ thuộc tính quan hệ phụ thuộc bắc cầu
Qua sơ đồ có thể thấy rằng A có thể xác định hàm Y. Trong trờng hợp A
/
Y thì đợc gọi là tính bắc cầu chặt.
Tính bắc cầu sẽ đợc sử dụng trong 3NF. Điều kiện A XY là cần thiết vì nếu A Y X thì theo luật phản xạ
luôn có X
Y
A. Điều kiện Y
/
X để loại bỏ nhiều khoá khỏi dạng chuẩn 3NF. Cũng nh ở 2NF việc loại
bỏ phụ thuộc bắc cầu đi đến 3NF cũng nhằm loại bỏ những dị thờng gây ra do quá trình cập nhật dữ liệu vào quan hệ.
Từ đó có thể định nghĩa dạng chuẩn 3NF nh sau:
Lợc đồ quan hệ R ở dạng chuẩn thứ ba (3NF) nếu nó là 2NF và mỗi thuộc tính không khoá của R là không phụ
thuộc hàm bắc cầu vào khoá chính.
B. Giới thiệu về Ngôn ngữ hỏi có cấu trúc SQL
1. Khái niệm về ngôn ngữ SQL
Ngôn ngữ xử lý dữ liệu quan hệ là ngôn ngữ bao gồm tập các chỉ thị cho phép hỏi, thay đổi, thêm bớt và sửa
thông tin của một CSDL.
Trong các ngôn ngữ thao tác dữ liệu SQL, SEQUEL, QUEL, QBE ...v.v thì ngôn ngữ SQL (Structure Query
Language) là ngôn ngữ hỏi đáp dữ liệu có cấu trúc, phi thủ tục, chuẩn mực và điển hình đợc xác nhận là mạnh, phổ
dụng lại dễ sử dụng.