Tải bản đầy đủ (.pdf) (105 trang)

Lý thuyết chuẩn hóa của cơ sở dữ liệu mờ và ngôn ngữ SQL mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (745.47 KB, 105 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


TRẦN QUANG DUY


LÝ THUYẾT CHUẨN HOÁ CỦA CƠ SỞ DỮ LIỆU MỜ
VÀ NGÔN NGỮ SQL MỜ

Ngành: Công nghệ thông tin
Mã số: 1.01.10

LUẬN VĂN THẠC SỸ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. HỒ THUẦN



Hà Nội - 2007
2
MỤC LỤC

MỤC LỤC 2
BẢNG KÝ HIỆU VÀ CHỮ VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 7
MỞ ĐẦU 8
CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU MỜ 11
1.1. Kiến thức cơ sở 11


1.1.1. Tập mờ 11
1.1.2. Các kiểu hàm thuộc 12
1.1.3. Các phép toán trên tập mờ 15
1.1.4. Phân bố khả năng 20
1.1.5. Các toán tử so sánh trên tập mờ 21
1.2. Các mô hình cơ sở dữ liệu mờ 23
1.2.1. Mô hình tập con mờ 25
1.2.2. Mô hình dựa trên quan hệ tương tự 26
1.2.3. Mô hình dựa trên lý thuyết khả năng 27
1.3. Ngôn ngữ truy vấn dữ liệu mờ 29
1.4. Kết luận chương 1 30
CHƯƠNG 2 CƠ SỞ DỮ LIỆU MỜ DỰA TRÊN QUAN HỆ TƯƠNG TỰ 31
2.1. Cơ sở dữ liệu mờ dựa trên quan hệ tương tự 32
2.1.1. Cơ sở dữ liệu quan hệ mờ 32
2.1.2. Quan hệ tương tự 32
2.1.3. Cơ sở dữ liệu quan hệ mờ dựa trên quan hệ tương tự 33
2.2. Các dạng chuẩn mờ đối với các quan hệ mờ 33
2.2.1. Phụ thuộc hàm mờ (ffd) 34
2.2.2. Khoá mờ 42
2.2.3. Dạng chuẩn mờ thứ nhất 47
2.2.4. Dạng chuẩn mờ thứ hai 48
3
2.2.5. Dạng chuẩn mờ thứ ba 51
2.2.6. Dạng chuẩn mờ Boyce Codd 57
2.2.7. Kiểm tra tính bảo toàn phụ thuộc trong phép phân tách 59
2.2.8. Kiểm tra tính kết nối không mất thông tin trong phép phân tách 61
2.3. Kết luận chương 2 66
CHƯƠNG 3 NGÔN NGỮ SQL MỜ 67
3.1. Sơ lược về ngôn ngữ SQL 67
3.2. Ngôn ngữ SQL mờ 68

3.3. FSQL trên mô hình cơ sở dữ liệu rõ 68
3.3.1. Cơ sở 68
3.3.2. Ngôn ngữ thao tác dữ liệu (DML) trong SQL mở rộng (SQLEx) 73
3.4. FSQL trên mô hình cơ sở dữ liệu mờ 76
3.4.1. Dữ liệu mờ và các thuộc tính mờ 76
3.4.2. Ngôn ngữ thao tác dữ liệu (DML) của SQL mờ (FSQL) 79
3.4.3. Các toán tử so sánh mờ 85
3.4.4. Các ví dụ 90
3.5. Kết luận chương 3 93
CHƯƠNG 4 TRIỂN KHAI NGÔN NGỮ SQL MỜ 94
4.1. Ngôn ngữ SQL mờ trên cơ sở dữ liệu rõ 94
4.1.1. Kiến trúc tổng quát 94
4.1.2. Cấu trúc dữ liệu 95
4.1.3. Các hàm, thủ tục chính 97
4.1.4. Giao diện chương trình 98
KẾT LUẬN 100
TÀI LIỆU THAM KHẢO 102

4
BẢNG KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu viết tắt Tiếng Anh Tiếng Việt
π

Possibility distribution Phân bố khả năng
R Relation schema Lược đồ quan hệ
X
+
Transitive Closure of X
Bao đóng bắc cầu của
thuộc tính X.

ffd
Fuzzy Functional
Dependency
Phụ thuộc hàm mờ
1NF First Normal Form Dạng chuẩn thứ nhất
2NF Second Normal Form Dạng chuẩn thứ hai
3NF Third Normal Form Dạng chuẩn thứ ba
BCNF Boyce Code Normal Form Dạng chuẩn Boyce Code
FSQL Fuzzy SQL Ngôn ngữ SQL mờ

5
DANH MỤC CÁC BẢNG
Bảng 1.1: Các hàm t-chuẩn f(x,y) =t(x, y) 17
Bảng 1.2: Các hàm s-chuẩn f(x,y) = s(x, y) 18
Bảng 1.3: Biểu diễn dữ liệu mờ trong mô hình Prade – Testemale 28
Bảng 2.1: Quan hệ tương tự đối với thuộc tính TÊN 35
Bảng 2.2: Quan hệ tương tự đối với thuộc tính NĂNG LỰC 35
Bảng 2.3: Quan hệ tương tự đối với thuộc tính THU NHẬP 36
Bảng 2.4: Các bộ dữ liệu đối với quan hệ NGƯỜI 36
Bảng 2.5: Các bộ dữ liệu mới đối với quan hệ NGƯỜI 38
Bảng 2.6: Bảng khởi tạo cho quan hệ R=(A, B, C, D, E, F) 63
Bảng 2.7: Bảng sau khi áp dụng bước thứ 3 của thuật toán kiểm tra kết nối
không mất thông tin cho R 63
Bảng 2.8: Bảng khởi tạo cho quan hệ R = (A, B, C, D, E, F, G) 64
Bảng 2.9: Kết quả của bước thứ 3 trong thuật toán kiểm tra kết nối không mất
thông tin 65
Bảng 2.10: Kết quả của bước thứ 4 trong thuật toán kiểm tra kết nối không
mất thông tin của ffd đầu tiên của R 65
Bảng 2.11: Bảng cho R = (A, B, C, D, E, F, G) khi kết thúc thuật toán kiểm
tra kết nối không mất thông tin 66

Bảng 3.1. Quan hệ tương tự giữa các nhãn đối với thuộc tính: MAU_TOC 79
Bảng 3.2: Các toán tử so sánh mờ 81
6
Bảng 3.3: Các hằng số mờ trong FSQL 82
Bảng 3.4: Cách tính hàm CDEQ với các toán tử logic trong FSQL 82
Bảng 3.5: Các bộ dữ liệu đối với quan hệ NHAN_VIEN 91

7
DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Các tập mờ hình tam giác: a)Tổng quát và b) Đối xứng 13
Hình 1.2: Tập mờ Singleton 13
Hình 1.3: Tập mờ L (phải) 14
Hình 1.4: Tập mờ Gamma tuyến tính 14
Hình 1.5: Tập mờ hình thang 15
Hình 1.6: Phép giao, hợp cho tập mờ hình thang 19
Hình 3.1: Các nhãn ngôn ngữ đối với thuộc tính THU_NHAP 70
Hình 3.2: Phân bố khả năng đối với các nhãn của thuộc tính Tuổi 78
Hình 3.3: So sánh hai phân bố khả năng hình thang A và B 85

8
MỞ ĐẦU

Mô hình quan hệ do Codd đề xuất năm 1970 đã đạt được những kết quả
hết sức to lớn về phương diện lý thuyết và ứng dụng. Mô hình quan hệ là một
trong những mô hình dữ liệu có cơ sở lý thuyết được xây dựng vững chắc
nhất và là cơ sở cho hầu hết các hệ quản trị cơ sở dữ liệu hiện nay. Nhưng mô
hình này chỉ biểu diễn được những dữ liệu với thông tin chính xác, đầy đủ và
có thể định lượng được.
Tuy nhiên, trong thực tế đời sống, con người thường xuyên phải xử lý
những dữ liệu với thông tin không đầy đủ và không rõ ràng. Trong nhiều lĩnh

vực như sinh vật học, di truyền học, các hệ thống thông tin địa lý, kinh tế và
các hệ thống dự báo thời tiết v.v…, dữ liệu cũng thường không đầy đủ và rõ
ràng. Lớp dữ liệu con người nhận biết chắc chắn và có thể định lượng được là
rất ít so với lớp dữ liệu mà con người nhận biết không chắc chắn, không rõ
ràng. Do đó, một cách tự nhiên cần mở rộng mô hình quan hệ để có thể biểu
diễn được dữ liệu với thông tin không chắc chắn, không đầy đủ, gọi chung là
dữ liệu mờ (fuzzy data). Cơ sở dữ liệu mở rộng mô hình quan hệ truyền
thống, cho phép biểu diễn và xử lý dữ liệu mờ gọi là cơ sở dữ liệu quan hệ mờ
(fuzzy relational database), hay cơ sở dữ liệu mờ.
Việc nghiên cứu xây dựng mô hình cơ sở dữ liệu mờ đã và đang được rất
nhiều các nhà khoa học quan tâm nghiên cứu nhằm đáp ứng được nhu cầu
biểu diễn dữ liệu với thông tin không chắc chắn, không đầy đủ trong thực tế.
Có nhiều mô hình cơ sở dữ liệu mờ đã được đề xuất theo nhiều cách tiếp cận
khác nhau. Tiêu biểu là các mô hình như: mô hình tập con mờ, mô hình dựa
trên quan hệ tương tự, mô hình dựa trên lý thuyết khả năng. Trong các nghiên
cứu mở rộng mô hình quan hệ, các tác giả thường quan tâm giải quyết các vấn
9
đề như: biểu diễn dữ liệu mờ, các phép toán trên quan hệ mờ, các phụ thuộc
dữ liệu mờ, các dạng chuẩn mờ và ngôn ngữ hỏi mờ…Các phương pháp này
thường hướng tới việc bảo toàn các tính chất của mô hình quan hệ.
Cùng với việc nghiên cứu xây dựng mô hình cơ sở dữ liệu mờ, vấn đề
khai thác dữ liệu mờ trên các mô hình cơ sở dữ liệu cũng được rất nhiều tác
giả quan tâm nghiên cứu. Các nghiên cứu thường tập trung mở rộng những
ngôn ngữ hỏi trên mô hình quan hệ như: đại số quan hệ, ngôn ngữ truy vấn dữ
liệu có cấu trúc (SQL) sao cho có thể đáp ứng được nhu cầu khai thác dữ
liệu phong phú và đa dạng của con người. Trong đó việc mở rộng ngôn ngữ
SQL chuẩn trong mô hình quan hệ được đặc biệt quan tâm nghiên cứu. Bởi vì,
ngôn ngữ SQL đã trở thành ngôn ngữ truy vấn chuẩn và được xem là một
trong những yếu tố chính đem lại thành công cho các hệ thống cơ sở dữ liệu
quan hệ thương mại hiện nay. Tuy nhiên, ngôn ngữ SQL này chỉ cho phép

thiết lập các câu truy vấn với các tiêu chuẩn chọn dữ liệu cứng nhắc và dữ
liệu trả về phải chính xác với các tiêu chuẩn đó. Nó không cho phép thiết lập
các câu truy vấn với các tiêu chuẩn chọn dữ liệu là mơ hồ, còn gọi là tiêu
chuẩn mơ hồ hay tiêu chuẩn mờ, và dữ liệu trả về là “gần” với tiêu chuẩn đó.
Do đó, một cách tự nhiên, chúng ta cần phải mở rộng ngôn ngữ SQL chuẩn
sao cho có thể thiết lập được các câu truy vấn mềm dẻo với các tiêu chuẩn
mờ. Ngôn ngữ SQL mờ (fuzzy SQL) là một mở rộng của ngôn ngữ SQL và
cho phép thiết lập các câu truy vấn mềm dẻo với các tiêu chuẩn mờ.
Luận văn này tập trung tìm hiểu trình bày một mô hình cơ sở dữ liệu
mờ dựa trên quan hệ tương tự. Trình bày chi tiết về phụ thuộc hàm mờ, các
dạng chuẩn mờ và phân tách bảo toàn phụ thuộc và có kết nối không mất
thông tin trong mô hình cơ sở dữ liệu mờ này. Đồng thời, luận văn cũng tìm
hiểu trình bày về ngôn ngữ SQL mờ trên hai mô hình cơ sở dữ liệu: mô hình
cơ sở dữ liệu quan hệ truyền thống và mô hình cơ sở dữ liệu mờ.
10
Luận văn gồm phần mở đầu, 4 chương nội dung, phần kết luận và tài
liệu tham khảo.
Chương 1 trình bày những kiến thức, khái niệm cơ sở dùng trong luận
văn. Giới thiệu tổng quan về các mô hình cơ sở dữ liệu mờ, ngôn ngữ SQL
mờ.
Chương 2 trình bày về mô hình cơ sở dữ liệu mờ dựa trên quan hệ tương
tự. Trình bày chi tiết về các phụ thuộc hàm mờ, khoá mờ, các dạng chuẩn mờ.
Vấn đề phân tách quan hệ đảm bảo tính bảo toàn phụ thuộc và có kết nối
không mất thông tin cũng được tìm hiểu và xem xét.
Chương 3 tập trung tìm hiểu về ngôn ngữ SQL mờ trên hai mô hình cơ
sở dữ liệu: mô hình quan hệ truyền thống và mô hình cơ sở dữ liệu mờ.
Chương 4 trình bày về việc triển khai ngôn ngữ SQL mờ trên mô hình
quan hệ truyền thống.
Em xin chân thành gửi lời cảm ơn PGS. TS. Hồ Thuần, các thầy cô giáo
của trường Đại học Công nghệ, các anh chị đồng nghiệp và các bạn cùng lớp

đã trang bị kiến thức và có nhiều đóng góp quý báu giúp em hoàn thành luận
văn.

11
CHƯƠNG 1
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU MỜ
Chương này trình bày những kiến thức cơ sở được sử dụng cho luận văn,
giới thiệu tổng quan về mô hình và một số kết quả nghiên cứu tiêu biểu về cơ
sở dữ liệu mờ.
1.1. Kin thc c s
1.1.1. Tập mờ
Lý thuyết tập mờ dùng công cụ toán học để mô tả các khái niệm mơ hồ
thường gặp trong đời sống hàng ngày như “cao”, “thấp”, “nặng”, “nhẹ”,
“trẻ”, “già”,
Định nghĩa 1.1: Cho X là một tập vũ trụ các đối tượng. Tập mờ A trên X là
một tập các cặp
[
]
{
}
1,0)(,X/)(µ
AA

µ

=
xx:xxA

Trong đó µ
A

(x) là hàm từ X vào [0, 1] gán cho mỗi phần tử x thuộc X giá trị
µ
A
(x) phản ánh mức độ của x thuộc vào tập mờ A. µ
A
(x) được gọi là độ thuộc
của phần tử x vào tập mờ A. Độ thuộc này là một số thực trong đoạn [0, 1].
• µ
A
(x) = 0 nghĩa là x không thuộc vào tập mờ A.
• µ
A
(x) = 1 nghĩa là x hoàn toàn thuộc vào tập mờ A
µ
A
(x) còn được gọi là hàm đặc trưng hay hàm thuộc của tập mờ A.
Nhãn ngôn ngữ (Linguistic label) là một từ, trong ngôn ngữ tự nhiên,
biểu diễn hoặc nhận biết một tập mờ mà có thể được định nghĩa hoặc không.
12
Với định nghĩa này, trong cuộc sống hàng ngày, người ta thường sử dụng
các nhãn ngôn ngữ để biểu diễn các khái niệm trừu tượng như: trẻ, già, nóng,
lạnh, đắt, rẻ, v.v
Về trực giác, định nghĩa về các nhãn này không những biển đổi từ người
này sang người khác và phụ thuộc vào từng thời điểm, mà còn biến đổi theo
ngữ cảnh mà nó được áp dụng. Ví dụ nhãn ngôn ngữ “cao” trong ngữ cảnh
một người cao và tòa nhà cao là khác nhau.
1.1.2. Các kiểu hàm thuộc
Kiểu của tập mờ phụ thuộc vào các kiểu hàm thuộc khác nhau. Đã có
nhiều kiểu hàm thuộc khác nhau được đề xuất. Dưới đây luận văn trình bày
một số hàm thuộc tiêu biểu.

1. Tam giác (Triangular): Định nghĩa bởi các cận dưới a, cận trên b và giá
trị m, a < m < b. Chúng ta gọi giá trị b-m là biên (margin) nếu giá trị này
bằng giá trị m-a (Hình 1.1).









=
<<


<<


≥≤

mxnÕu
b xmnÕu
mb
x b
m xanÕu
am
a x
b x hoÆc a xnÕu
(x)

1
0
A

13

Hình 1.1: Các tập mờ hình tam giác: a)Tổng quát và b) Đối xứng
2. Singleton (hình 1.2): Có giá trị 0 tại tất cả các điểm trong tập vũ trụ, ngoại
trừ tại điểm m có giá trị 1, dùng để biểu diễn các giá trị rõ.



=

=
mxnÕu
m xnÕu
SG(x)
1
0


Hình 1.2: Tập mờ Singleton
3. Hàm L ( hình 1.3): Hàm này được định nghĩa bởi hai tham số a và b theo
cách sau:









<<



=
bxnÕu
b xanÕu
ab
x b
a xnÕu
L(x)
0
1

14

Hình 1.3: Tập mờ L (phải)
4. Hàm Gamma tuyến tính (hình 1.4): Hàm này được định nghĩa bởi hai
tham số a và b theo cách sau:









<<




bxnÕu
b xanÕu
ab
a x
a xnÕu
(x)
1
0


Hình 1.4: Tập mờ Gamma tuyến tính
5. Hàm hình thang (hình 1.5): được định nghĩa bởi bộ 4 giá trị a, b, c, d
theo công thức sau:
15









≤≤
<<



<<


≥≤
=
c xbnÕu
d xcnÕu
cd
x d
b xanÕu
ab
a x
d x hoÆc a xnÕu
T(x)
1
0


Hình 1.5: Tập mờ hình thang
1.1.3. Các phép toán trên tập mờ
Phần này trình bày các khái niệm và các phép toán cơ bản trên tập mờ.
Định nghĩa 1.2: Cho A và B là 2 tập mờ trên X. A bằng B nếu:
A=B



x


X, µ
A
(x) = µ
B
(x)
Định nghĩa 1.3: Cho A và B là 2 tập mờ trên X. A chứa trong B nếu:
A

B



x

X, µ
A
(x)

µ
B
(x)
Định nghĩa 1.4: Giá đỡ của tập mờ A trên tập X là tập các phần tử có độ
thuộc lớn hơn 0, được xác định như sau:
Supp (A) =
{
}
0x)x
>
µ


(,X
A

Định nghĩa 1.5: Tập mức α của một tập mờ A, ký hiệu bởi A
α
, được xác định
như sau:
[
]
{
}
x) X,x:x 1,0,(A


α
α

µ

=


16
Định nghĩa 1.6: Lõi (kernel) của tập mờ A, định nghĩa trên X , ký hiệu bởi
Kern(A), là tập các phần tử có độ thuộc bằng 1.
{
}
1 x) X,x
=


=

(µKern(A)
A

Định nghĩa 1.7: Độ cao của tập mờ A trên X, được định nghĩa như sau:
(x)
X
x
A
supHgt(A)
µ
=



Định nghĩa 1.8: Tập mờ A là chuẩn hoá nếu và chỉ nếu:
1)A(Hgt(
A
=
=
µ


x) X, x

Định nghĩa 1.9: Lực lượng (Cardinality) của tập mờ A, trên tập vũ trụ X
được định nghĩa như sau:



µ=
Xx
x) (Card(A)
A

T-Chuẩn và T-Đối chuẩn
Định nghĩa 1.10: Dạng chuẩn tam giác, t-chuẩn, là ánh xạ nhị phân t: [0,
1]
×
[0, 1]

[0, 1] thoả mãn các tính chất sau:
1. Giao hoán: t(x, y) = t(y, x) với x, y

[0, 1]
2. Kết hợp: t(x, t(y, z)) = t(t(x, y), z) với x, y, z

[0, 1]
3. Đơn điệu: Nếu x

y, và w

z thì t(x, w)

t(y, z)
4. Các điều kiện biên: t(x, 0) = 0, và t(x,1) = x với x

[0, 1]
Định nghĩa 1.11: Dạng đối chuẩn tam giác, t-đối chuẩn hay s-chuẩn, là ánh
xạ nhị phân s: [0, 1]

×
[0, 1]

[0, 1] thoả mãn các tính chất sau:
1. Giao hoán: s(x, y) = s(y, x) với x, y

[0, 1]
2. Kết hợp: s(x, s(y, z)) = s(s(x, y), z) với x, y, z

[0, 1]
3. Đơn điệu: Nếu x

y, và w

z thì s(x, w)

s(y, z)
17
4. Các điều kiện biên: s(x, 0) = x, và s(x, 1) = 1 với x

[0, 1]
Mối quan hệ tồn tại giữa t-chuẩn và t-đối chuẩn là một mở rộng của luật De
Morgan:
s(x, y)= 1 - t(1- x, 1-y)
t(x, y)= 1 - s(1-x, 1-y)
Khi một t-chuẩn hoặc t-đối chuẩn tuân theo tính chất này, nó được gọi là liên
hợp (conjugate) và đối ngẫu (dual).
Dưới đây trình bày một số hàm t-chuẩn (bảng 1.1) và một số hàm t-đối chuẩn
(bảng 1.2) thường được sử dụng.
t-chuẩn Biểu thức

Minimum f(x,y) = min(x,y)
Product
f(x,y)=xy
Drastic Product
f(x,y)=





=
=
kh¸c hîp tr−êng
nÕu
nÕu
0
1xy
1yxy

Bounded Product f(x,y)=max[0,(1+ p)(x+y-1)-pxy], p

-1
Hamacher product
f(x,y)=
0p
xy)yp)(x(1p
xy

−+−+
,


Yager Family f(x,y)=1-min(1,[(1-x)
p
+ (1-y)
p
]
1/p
), p > 0
Dubois – Prade Family
f(x,y)=
1 p
p)y,max(x,
xy
≤≤0,

Bảng 1.1: Các hàm t-chuẩn f(x,y) =t(x, y)
s-chuẩn (t-đối chuẩn) Biểu thức
Maximum f(x,y) = max(x, y)
Sum-Product
f(x, y)=x + y - xy
18
Drastic Sum
f(x, y)=





=
=

kh¸c hîp tr−êng
nÕu
nÕu
1
0xy
0yx

Bounded Sum f(x, y)=min(1, x + y + pxy), p

0
Einstein Sum
f(x, y)=
xy 1
y x
+
+

Yager Family f(x, y)=min(1,[x
p
+ y
p
]
1/p
) , p > 0
Dubois – Prade Family
f(x, y)=
1 p
p)y,-1 x, -max(1
y) - x)(1 - (1
≤≤0,


Bảng 1.2: Các hàm s-chuẩn f(x,y) = s(x, y)
t-chuẩn và t-đối chuẩn không thể sắp xếp theo thứ tự lớn hơn hay nhỏ
hơn. Tuy nhiên có thể dễ dàng xác định giá trị nhỏ nhất và lớn nhất của t-
chuẩn và t-đối chuẩn
• t-chuẩn lớn nhất: hàm Min
• t-chuẩn nhỏ nhất: hàm Drastic Product
• t-đối chuẩn lớn nhất: hàm Drastic Sum
• t-đối chuẩn nhỏ nhất: hàm Max
Các phép toán giao, hợp
Định nghĩa 1.12: Nếu A và B là hai tập mờ trên tập vũ trụ X, hàm thuộc của
hợp hai tập mờ A
U
B được xác định như sau:
µ
A

B
(x)= f(µ
A
(x), µ
B
(x)), x

X
Trong đó, f là t - đối chuẩn hay s-chuẩn (Schweizer và Skalar, 1983)[24].
Định nghĩa 1.13: A, B là hai tập mờ trên tập vũ trụ X, hàm thuộc của giao
hai tập mờ A

B được xác định như sau:

µ
A

B
(x)= g(µ
A
(x), µ
B
(x)), x

X
19
trong đó g là t-chuẩn (Schweizer và Skalar, 1983)[24].
Các kiểu hàm được sử dụng rộng rãi nhất đối với t-chuẩn là hàm Min
(Minimum) và đối với t-đối chuẩn là hàm Max (Maximum). Hình 1.6 trình
bày các phép giao, hợp lần lượt sử dụng các hàm Min và Max cho hai tập mờ
dạng hình thang.

Hình 1.6: Phép giao, hợp cho tập mờ hình thang
Phần bù hay phép phủ định (negation)
Khái niệm phần bù được xây dựng bằng việc sử dụng khái niệm phủ
định mạnh của Trillass [26].
Định nghĩa 1.14: Một hàm C: [0, 1]

[0, 1] là một phủ định mạnh nếu nó
thoả mãn đầy đủ các điều kiện sau:
1. Các điều kiện biên: C(0)=1 và C(1) =0
2. Đối hợp (involution): C(C(x)) = x
3. Đơn điệu (monotonicity) : C là không tăng
4. Tính liên tục (Continuity): C là liên tục

Có nhiều kiểu toán tử thoả mãn các điều kiện trên. Dưới đây là định nghĩa về
phần bù của Zadeh (1965) [32].
20
Cho tập mờ A trên tập vũ trụ X, phần bù của A được ký hiệu bởi
¬
A, hoặc
A
, là một tập mờ của X với hàm thuộc được định nghĩa như sau:
µ
A
(x)= 1 - µ
A
(x), x

X.
Quan hệ mờ và tích đề các
Định nghĩa 1.15: (Quan hệ mờ) Cho X và Y là hai tập khác rỗng. Một quan
hệ mờ R là một tập con mờ của X
×
Y, tức là có một hàm thuộc:
µ
R
: X
×
Y

[0, 1], ở đây µ
R
(x, y) = R(x, y) là độ thuộc của (x, y) vào
quan hệ mờ R.

Định nghĩa 1.16: (Tích đề các) Nếu A và B là hai tập mờ được định nghĩa lần
lượt trên các tập vũ trụ X và Y, tích đề các A
×
B là một quan hệ mờ trên
không gian tích X
×
Y với hàm thuộc:
µ
A
×
B
(x, y) = g(µ
A
(x), µ
B
(y)), trong đó g là t-chuẩn.
1.1.4. Phân bố khả năng
Giả sử X là một biến lấy giá trị trên tập U. Một phân bố khả năng
(possibility distribution)
x
π
gắn với biến X là một hàm từ U vào [0, 1]. Phân
bố khả năng
x
π
dùng để mô tả hiểu biết của con người về giá trị của X, tức là
tập các giá trị có thể của X. Phân bố khả năng có thể dùng để biểu diễn những
tri thức không chắc chắn, không đầy đủ.
Nếu
)u(

x
π
= 0 nghĩa là u không thể là giá trị của X; Nếu
)u(
x
π
= 1
nghĩa là u hoàn toàn có thể là giá trị của X;
)u(
x
π
>
)'u(
x
π
nghĩa là u có
khả năng là giá trị của X nhiều hơn
'
u
. Phân bố khả năng
π
trên U được gọi
là phân bố khả năng chuẩn nếu có u

U sao cho
)
u
(
π
= 1.

21
Theo cách tiếp cận của tập mờ, Zadeh [34] coi phân bố khả năng
x
π
như
một thu hẹp bởi tập mờ A trên miền trị U, có hàm thuộc µ
A
. Khi đó
)u(
x
π
=
µ
A
(u), với mọi u

U.
Ví dụ 1.1. Xét mệnh đề “A là một người trẻ”, với tập mờ trẻ xác định
trên tập cơ sở là đoạn [0, 150], và có hàm thuộc µ
trẻ
. Khi đó phân bố khả năng
biểu diễn tuổi của người A là
π
A(tuổi)
(u)== µ
trẻ
(u), với mọi u

[0, 150].
Theo cách tiếp cận của Zadeh, chúng ta có thể đánh giá khả năng của

biến u là giá trị của (hoặc thuộc vào) một tập mờ A như là độ thuộc của u vào
tập mờ A Các khái niệm về các tập mờ và hàm thuộc được xem như là các
nhãn ngôn ngữ và phân bố khả năng. Thay vì độ thuộc chúng ta có độ khả
năng. Các tập mờ được coi như là các phân bố khả năng và các tính chất của
tập mờ cũng được áp dụng cho các phân bố khả năng.
Trong luận văn này, khi sử dụng khái niệm phân bố khả năng A được
hiểu như là tập mờ A. Độ đo khả năng của biến x đối với tập mờ A trên tập vũ
trụ X, ký hiệu là A(x) được xem như là độ thuộc của x vào tập mờ A, nghĩa là
A(x) = µ
A
(x) với mọi x

X.
1.1.5. Các toán tử so sánh trên tập mờ
Các tập mờ, được định nghĩa bởi hàm thuộc, có thể được so sánh theo
nhiều cách khác nhau. Dưới đây luận văn trình bày một vài phương pháp so
sánh tiêu biểu (Pedrycz & Gomide, 1998) [18].
1.1.5.1. Độ đo khoảng cách
Độ đo khoảng cách xem xét một hàm khoảng cách giữa hàm thuộc của
hai tập mờ trên cùng một tập vũ trụ. Cách này cố gắng chỉ ra độ gần nhau
22
giữa hai tập mờ. Một khoảng cách giữa hai tập mờ A và B trên cùng một tập
vũ trụ được định nghĩa theo (khoảng cách Minkowski) như sau:
p/1









µµ=

x
dx(x) - (x)B) d(A,
p
BA

Trong đó, p

1, µ
A
(x) là độ thuộc của x vào tập mờ A, µ
B
(x) là độ thuộc
của x vào tập mờ B.
Một vài trường hợp hay được sử dụng như sau:
1. Khoảng cách Hamming (p=1)








µµ=

x

dx(x) - (x)B) d(A,
BA

2. Khoảng cách Euclide(p=2)
2/1








µµ=

x
dx(x) - (x)B) d(A,
2
BA

1.1.5.2. Độ đo khả năng và độ đo cần thiết
Định nghĩa 1.17: Độ đo khả năng của tập mờ A đối với tập mờ B, ký hiệu bởi
Poss(A, B), được định nghĩa như sau:
[
]
(x))(x),(supB) Poss(A,
BA
Xx
µµmin


=

Trong đó, µ
A
(x) là độ thuộc của x vào tập mờ A, µ
B
(x) là độ thuộc của x vào
tập mờ B.
23
Độ đo khả năng xác định phạm vi giao nhau của A và B. Độ đo khả năng
này có ý nghĩa là mức độ có thể đúng của mệnh đề “A là B”
Định nghĩa 1.18: Độ đo cần thiết của tập mờ A đối với tập mờ B, ký hiệu bởi
Nec(A, B), được định nghĩa như sau:
[
]
(x))- (x),(infB) Nec(A,
BA
Xx
µ1µ

=

Trong đó, µ
A
(x) là độ thuộc của x vào tập mờ A, µ
B
(x) là độ thuộc của x vào
tập mờ B.
Độ đo cần thiết mô tả mức độ B được bao gồm trong A. Độ đo này có ý
nghĩa là mức độ nhất thiết đúng của mệnh đề “A là B”

Hai độ đo này được sử dụng khi đánh giá độ tin cậy của các điều kiện
mờ trong các ngôn ngữ truy vấn dữ liệu (SQL) trên mô hình cơ sở dữ liệu mờ.
1.2. Các mô hình c s d liu m
Trong cuộc sống, con người thường xuyên phải xử lý các tình huống
thông tin không đầy đủ, không chắc chắn – gọi chung là thông tin mờ. Chẳng
hạn như tuổi của người A là 20 nhưng khi trao đổi con người thường dùng
những từ như “khoảng 20”, “trẻ” để diễn đạt tuổi của người A. Cơ sở dữ liệu
mô hình quan hệ do Codd đề xuất vào năm 1970 [12] chỉ cho phép lưu trữ và
xử lý những dữ liệu với thông tin chắc chắn và chính xác – gọi là dữ liệu rõ.
Tuy nhiên, trên thực tế khi cập nhật cơ sở dữ liệu không phải lúc nào chúng ta
cũng có được những thông tin chắc chắn và chính xác của dữ liệu, mà thường
gặp các tình huống sau:
− Dữ liệu với thông tin không đầy đủ: chẳng hạn ta đã biết đầy đủ các
thông tin về người A nhưng không biết ngày sinh.
24
− Dữ liệu với thông tin không chính xác, không chắc chắn: chẳng hạn ta
biết người A có lương cao, nhưng không biết cụ thể là bao nhiêu.
− Dữ liệu không xác định: Ví dụ như học sinh B không thể có lương vì
còn đang đi học.
− Dữ liệu hoàn toàn không có thông tin: không biết người A có lương hay
không, nếu có là bao nhiêu.
Tất cả các dạng dữ liệu trên, trong luận văn này gọi chung là dữ liệu mờ.
Như ta đã biết, mô hình quan hệ không cho phép lưu trữ và xử lý dữ liệu
mờ nên một cách tự nhiên xuất hiện nhu cầu mở rộng mô hình quan hệ. Có
hai cách mở rộng thường dùng:
1. Mở rộng khả năng khai thác dữ liệu rõ bằng cách sử dụng các yếu tố mờ.
Với cách mở rộng này, dữ liệu vẫn là dữ liệu rõ nhưng cho phép mở rộng
khả năng khai thác cho phép trả lời các câu hỏi mờ, chẳng hạn có thể trả
lời những câu hỏi có dạng “cho biết những nhân viên có thu nhập cao”,
“có phải hầu hết những người có kinh nghiệm làm việc gần như nhau và

có thâm niên công tác xấp xỉ nhau thì có lương tương đương nhau”,
Với cách mở rộng này thì ta phải mô hình hóa các khái niệm mờ như
“cao” , “thấp” và cách gán chân lý cho những phép so sánh như “xấp xỉ
nhau”, “gần nhau”, “tương đương”.
2. Mở rộng miền trị thuộc tính. Cách mở rộng này bổ sung cú pháp cho phép
biểu diễn được nhiều dạng dữ liệu mờ. Nhiều nhà nghiên cứu mở rộng
theo cách này từ những năm 1970 và cho đến nay vẫn tiếp tục phát triển.
Nhiều công cụ toán học được sử dụng để mở rộng khả năng biểu diễn dữ
liệu như: lý thuyết tập mờ, biến ngôn ngữ, lý thuyết khả năng, lý thuyết
xác suất, Bên cạnh việc bổ sung cú pháp biểu diễn còn phải giải quyết
25
vấn đề ngữ nghĩa của các ký hiệu mới, những cơ sở tính toán, logic hỗ trợ
cho việc xử lý dữ liệu với các ký pháp mở rộng.
Có nhiều hướng tiếp cận mở rộng mô hình quan hệ theo hai cách trên.
Trong phần tiếp theo sẽ trình bày ba hướng tiếp cận chính được nhiều nhà
nghiên cứu quan tâm phát triển.
1.2.1. Mô hình tập con mờ
Mô hình này được đề xuất bởi Baldwin và Zhou vào năm 1984 (tham
khảo trong [5],[17]). Cách tiếp cận này không mở rộng miền giá trị các thuộc
tính mà mở rộng ngữ nghĩa của dữ liệu rõ bằng cách đưa ra độ đánh giá độ
thuộc của mỗi bộ vào một quan hệ là một số thuộc [0, 1].
Một cách hình thức, một quan hệ mờ trên lược đồ R = {A
1
, A
2
, , A
n
} là
một tập con mờ của tích Đề-Các: D
1


×
D
2

×

×
D
n
được đặc trưng bởi một
hàm thuộc µ
R
: D
1

×
D
2

×

×
D
n


[0, 1]. Trong đó D
i
là miền trị của thuộc

tính A
i
.
Về mặt biểu diễn, quan hệ mờ trong mô hình này giống như trong mô
hình quan hệ nhưng thêm cột µ để lưu độ thuộc của mỗi bộ. Như vậy một bộ
của R có dạng (u
1
, u
2
, , u
n
, µ
R
(u
1
, u
2
, , u
n
)), trong đó u
i

D
i
với i=1, 2, , n.
Kiểu biểu diễn dữ liệu này đi kèm với giả thiết khái niệm một bộ thuộc về
một quan hệ là một khái niệm mờ trong khi các giá trị cụ thể của các thuộc
tính lại là giá trị không mờ hoặc cũng có thể là một nhãn ngôn ngữ nhưng
được xử lý như một đơn giá trị.
Các phép tính quan hệ như: Phép chiếu, hợp, giao, tích Đề-Các được

thực hiện như các phép toán tương ứng trên tập mờ.
Nhiều kết quả nghiên cứu về cơ sở dữ liệu mờ đã sử dụng mô hình này
như: những kết quả về phụ thuộc hàm mờ, kết nối không tổn thất của Raju

×