Cơ sở dữ liệu hướng đối tượng với thông tin ngôn ngữ mờ (tóm tắt + toàn văn)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (924.87 KB, 34 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ
CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN

ĐOÀN VĂN THẮNG

CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG VỚI THÔNG TIN
NGÔN NGỮ MỜ

Chuyên ngành: Bảo đảm toán học cho máy tính
và hệ thống tính toán
Mã số: 62. 46. 35. 01

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

Người hướng dẫn khoa học:
1. PGS.TS Đoàn Văn Ban
2. PGS.TS Trương Công Tuấn

HÀ NỘI – 2014

1
LỜI NÓI ĐẦU
Như chúng ta đã biết, mô hình hướng đối tượng truyền thống đã chứng
tỏ nhiều ưu điểm trong các vấn đề mô hình hóa, thiết kế và hiện thực các hệ

thống lớn, từ phần mềm cho đến CSDL. Đó là nhờ mô hình này có khả
năng biểu diễn trạng thái và hành vi của các đối tượng cũng như sự phân
cấp, phân loại và quan hệ giữa chúng trong các ứng dụng thực tế. Hơn nữa,
mô hình hướng đối tượng còn giúp tối ưu dữ liệu và tái sử dụng mã khi xây
dựng hệ thống thông qua cơ chế thừa kế thông tin giữa các lớp đối tượng.
Tuy nhiên, trong mô hình hướng đối tượng truyền thống các mối quan hệ
cũng như trạng thái và hành vi của các đối tượng luôn luôn được thể hiện
một cách chắc chắn và chính xác. Điều này không hoàn toàn phù hợp với
thực tế, bởi thông tin về các đối tượng trong thế giới thực có thể mơ hồ,
không chắc chắn, không đầy đủ.
Hệ quả là các ứng dụng dựa trên mô hình CSDL hướng đối tượng
truyền thống không biểu diễn được các đối tượng ma thông tin về chúng
không được xác định một cách chắc chắn và chính xác. Chẳng hạn, các ứng
dụng mô hình CSDL truyền thống không thể trả lời các truy vấn như “tìm
tất cả những bệnh nhân trẻ có tiền sử bệnh viêm thanh quản”; hoặc “tìm tất
cả các gói bưu kiện có thể tích khoảng 25000 cm
3
”… trong đó trẻ và
khoảng 25000 là những khái niệm và giá trị không chính xác. Để khắc phục
được các hạn chế như vậy, các nghiên cứu gần đây đã tập trung nghiên cứu
mô hình CSDL HĐT có khả năng biểu diễn và xử lý được các đối tượng mà
các thông tin về chúng có thể không chắc chắn và không chính xác.
Trên tinh thần đó, trong những năm qua đã có nhiều công trình nghiên
cứu để giải quyết các vấn đề này với các hướng tiếp cận khác nhau, chẳng
hạn theo tiếp cận quan hệ tương tự, tiếp cận lý thuyết khả năng, tiếp cận lý
thuyết xác suất và đã có được những kết quả [22, 24, 38, 40]. Tuy nhiên,
Trở ngại lớn nhất trọng việc phát triển các hệ thống CSDL HĐT (rõ) mờ đó
là chưa có một mô hình dữ liệu chuẩn hay cơ sở toán học thống nhất cho
việc biểu diễn và xử lý dữ liệu đối tượng mờ. Cho đến nay, các nghiên cứu
về mô hình CSDL hướng đối tượng mờ chủ yếu tập trung vào việc mở rộng

mô hình dữ liệu rõ đã có theo nhiều cách tiếp cận khác nhau và cho phép
biểu diễn, thao tác trên dữ liệu mờ. Do đó, các mô hình CSDL HĐT mờ
này chỉ thống nhất trên một tập các khái niệm chung nhất trong mô hình
của ODMG. Có thể thấy rằng, các kết quả nghiên cứu trên CSDL HĐT mờ
2
luôn được xem xét với một mô hình cụ thể, các kết quả này sẽ giải quyết
cho một lớp các bài toán với một tập con các khái niệm, tính chất đặc trưng
hướng đối tượng. Như vậy, việc chọn lựa một mô hình dữ liệu để nghiên
cứu các vấn đề trong CSDL HĐT mờ là rất quan trọng.
Nguyễn Cát Hồ và Wechler [27, 28] đề xuất mô hình đại số gia tử,
trong mô hình này giá trị tập mờ của mỗi thuộc tính được biểu diễn bởi một
nhãn ngôn ngữ. Tuy nhiên, các giá trị thuộc tính như vậy không được diễn
dịch bởi hàm thành viên mà ngữ nghĩa của nó được xác định bởi đại số gia
tử trên miền trị của thuộc tính tương ứng. Nhờ những ưu điểm của cấu trúc
đại số gia tử [4,5][18,32], chúng tôi đã đưa ra và nghiên cứu CSDL HĐT
với thông tin mờ và không chắc chắn dựa trên cách tiếp cận ngữ nghĩa định
lượng của đại số gia tử, trong đó ngữ nghĩa ngôn ngữ được lượng hóa bằng
các ánh xạ định lượng của đại số gia tử. Theo cách tiếp cận này, giá trị
ngôn ngữ là dữ liệu, không phải là nhãn của các tập mờ biểu diễn ngữ nghĩa
của giá trị ngôn ngữ và ưu điểm cơ bản của nó là việc cho phép tìm kiếm,
xác định ngữ nghĩa của thông tin không chắc chắn chỉ bằng các thao tác dữ
liệu kinh điển thường dùng và do đó đảm bảo tính thuần nhất của kiểu dữ
liệu trong xử lý ngữ nghĩa của chúng. Ngoài ra, theo cách tiếp cận ngữ
nghĩa định lượng của đại số gia tử, ngữ nghĩa ngôn ngữ có thể biểu thị bằng
một lân cận các khoảng được xác định bởi độ đo tính mờ của các giá trị
ngôn ngữ của một thuộc tính với vai trò là biến ngôn ngữ. Ví dụ, ngữ nghĩa
của giá trị ngôn ngữ rất cao của thuộc tính “lương nhân viên” sẽ được biểu
thị bằng những khoảng lân cận của giá trị đại diện của giá trị ngôn ngữ rất
cao thông qua ánh xạ định lượng của đại số gia tử của thuộc tính “lương
nhân viên”.

Các kết quả chính của luận án được báo cáo và thảo luận tại các hội
nghị, hội thảo khoa học: Hội thảo quốc gia “Một số vấn đề chọn lọc về
công nghệ thông tin và truyền thông” tại Cần thơ 2011, Hà Nội 2012. The
Fourth International Conference on Knowledge and Systems Engineering,
KSE12, Da Nang - Viet Nam, 08/2012. Hội nghị khoa học FAIR tại Huế
2013, Thái Nguyên 2014.
Chương 1 - Tổng Quan Về Cơ Sở Dữ Liệu Hướng Đối Tượng Mờ
Trong chương này, chúng tôi trình bày một cách ngắn ngọn các khái
niệm của đại số gia tử, đại số gia tử tuyến tính đầy đủ, các mệnh đề, định lý
3
liên quan làm cơ sở nghiên cứu mô hình CSDL hướng đối tượng với thông
tin mờ và không chắc chắn.
1.1 Thông tin không đầy đủ trong mô hình CSDL
Trong các hệ thống CSDL, chúng ta luôn quan tâm đến ba loại thông
tin không hoàn hảo sau [1]: (1) thông tin sai lệch: là loại thông tin không
hoàn hảo đơn giản nhất. Thông tin của cơ sở dữ liệu là sai lệch khi nó khác
với “thông tin thực”; (2) thông tin không chính xác: là không chính xác khi
nó biểu diễn một tập các giá trị có thể, và giá trị thực là một phần tử của tập
đó; (3) thông tin không chắc chắn: là loại thông tin với độ chắc chắn nhất
định không phải là thông tin sai lệch và không làm ảnh hưởng tới tính nhất
quán của CSDL.
1.2 Tập mờ
Lý thuyết tập mờ được Zadeh đề xuất năm 1965 bằng cách mở rộng
khái niệm tập cổ điển, với ý tưởng đầu tiên là giúp biểu diễn và đo ngữ
nghĩa các khái niệm không chính xác, mơ hồ trong thực tế. Lý thuyết tập
mờ là cơ sở toán học được ứng dụng rộng rãi trong thực tế nói chung và
khoa học kỹ thuật nói riêng, đặc biệt là khoa học máy tính, khi xây dựng
các hệ thống tính toán biết phân tích, xử lý và ra quyết định thông minh.
1.2.1 Tập mờ
Trước hết chúng ta xuất phát từ tập hợp kinh điển. Cho U là một tập

hợp và F là một tập con của U. Nếu một phần tử x thuộc F, ký hiệu x  F,
ngược lại x  F. Như vậy, để mô tả khái niệm “thuộc” ta sử dụng hàm
thuộc μ
F
:
1 if
()
0 if







F
xF
x
xF

Rõ ràng, trong tập hợp kinh điển, hàm thuộc của một phần tử nào đó
của F chỉ nhận giá trị trong {0,1}.
Trong tập mờ, hàm thuộc của một phần tử nào đó của F không chỉ nhận
giá trị trong {0,1} mà có thể nhận giá trị trong [0,1].
Định nghĩa 1.1. [49] Cho U là vũ trụ các đối tượng. Tập mờ F trên U là
một tập các cặp có thứ tự (x, μ
F
(x)), với μ
F
là hàm từ U → [0, 1] gán cho

mỗi phần tử x thuộc U giá trị μ
F
(x) để chỉ mức độ của x thuộc hàm tập mờ
F.
Có nghĩa là:
{( , ( ))| , : [0,1]}
FF
F x x x U U

  

4
Tập mờ được biểu diễn dưới dạng:
11
1
()
( ) / ( )/
n
Fi
F F n n
i
i
x
F x x x x
x



   


, với x
1
, , x
n
 U hữu hạn.

()
F
E
x
F
x



Nếu U không hữu hạn.
Ví dụ 1.1. Xét tập U gồm 5 người là x
1
, x
2
,…, x
5
tương ứng có tuổi là 10,
15, 50, 55, 70 và F là tập hợp các người “Trẻ”. Khi đó ta có thể xây dựng
hàm thuộc như sau: μ
Trẻ
(10) = 0.95, μ
Trẻ
(15) = 0.75, μ
Trẻ

(50) = 0.35, μ
Trẻ
(55)
= 0.30, μ
Trẻ
(70) = 0.05 và tập mờ
1 2 3 4 5
0.95 0.75 0.35 0.30 0.05
F
x x x x x
    

Định nghĩa 1.2. [49] Tập mờ F được gọi là chuẩn nếu tồn tại ít nhất một
phần tử x  U sao cho μ
F
(x) = 1.
Định nghĩa 1.3.[49] Tập mờ F có dạng hình thang xác định bởi bộ 4 giá trị
(a, b, c, d), và được xác định:
 
0
x
1
0
F
neu x a
xa
neu a x b
ba
neub x c
dx

neuc x d
dc
neu d x























Định nghĩa 1.4.[1] Cho F là tập mờ trên tập vũ trụ U
(1): Giá đỡ (Support) S
F
của tập mờ F là tập các phần tử có giá trị hàm

thuộc lớn hơn 0. Có nghĩa là S
F
= {x  U | μ
F
(x)> 0}.
(2): Lõi (Core) C
F
của tập mờ F là tập các phần tử có giá trị hàm thuộc
bằng 1. C
F
= {x  U | μ
F
(x) = 1}.
(3): Tập mức

của tập mờ F là tập các phần tử có giá trị hàm thuộc ≥

. F() = {x  U | μ
F
(x) ≥

}.
(4): Tập mờ mức

của tập mờ F, ký hiệu F

là một tập mờ trên tập
F(), được xác định: F
α
={(x,µ

F
(x))|xF(α) }(x,0.0)|xF(α) }.
1.2.2 Các phép toán trên tập mờ
Tương tự như lý thuyết tập hợp, trên các tập mờ cũng định nghĩa một
số phép toán: bằng nhau, bao nhau, giao, hợp là sự mở rộng các định
nghĩa trên lý thuyết tập hợp.
5
Định nghĩa 1.5. [1] Cho F và F
1
là hai tập mờ trên U
(1): F bằng F
1
, ký hiệu F = F
1
, nếu
1
( ) ( ),
FF
x x x U

  
.
(2): F chứa trong F
1
, ký hiệu F  F
1
, nếu
1
( ) ( ),
FF

x x x U

  

(3): Hợp của hai tập mờ F và F
1
, ký hiệu F  F
1
, là một tập mờ trên U
với hàm thuộc xác định bởi:
11
( ) ax{ ( ), ( )},
F F F F
x M x x x U
  

  
.
(4): Giao của hai tập mờ F và F
1
, ký hiệu F ∩ F
1
, là một tập mờ trên U
với hàm thuộc xác định bởi:
11
( ) { ( ), ( )},
F F F F
x Min x x x U
  


  
.
(5): Phần bù của tập mờ F, ký hiệu F là một tập mờ trên U với hàm
thuộc xác định bởi: μ
F
(x) = 1- μ
F
(x), x  U.
Định nghĩa 1.6. [1] Cho F và F
1
là hai tập mờ trên U
(1): Tổng đại số
F + F
1
=
1 1 1 1
{( , ( ))| , ( ) ( ) ( ) ( ). ( )}
F F F F F F F F
x x x U x x x x x
     

   
.
(2): Tích đại số F.F
1
=
1 1 1

{( , ( ))| , ( ) ( ). ( )}
F F F F F F

x x x U x x x
   


1.2.3 Tổng quát hoá ba phép toán cơ bản trên tập mờ
Ngoài ba phép toán cơ bản min, max và phần bù được dùng thao tác
trên các tập mờ, để tổng quát hơn có thể định nghĩa họ các toán tử T là t-
norm, t-conorm và N-Negation cho các phép toán trên.
Định nghĩa 1.7. [1] Hàm T: [0,1] x [0,1] → [0,1] được gọi là t-norm khi và
chỉ khi thoả mãn  x,y,z  [0, l]:
(1) T(x,y) = T(y,x)
(2) T(x,y) ≤ T(x,z),  y ≤ z
(3) T(x,T(y,z)) = T(T(x,y),z)
(4) T(x,1) = 1
Định nghĩa 1.8. [1] Hàm S: [0,1] x [0,1] → [0,1] được gọi là t-conorm khi
và chỉ khi thoả mãn  x,y,z  [0, l]:
(1) S(x,y) = S(y,x)
(2) S(x,y) ≤ S(x,z),  y ≤ z
(3) S(x,S(y,z)) = S(S(x,y),z)
(4) S(x,0) = 0
Định nghĩa 1.9. [1] Hàm N: [0,1] → [0,1] được gọi là hàm phủ định khi và
chỉ khi N thoả mãn x,y  [0, l]:
(1) N(0) = 1, N(1) = 0
(2) N(x) ≤ N(y), y ≤ x
6
Theo định nghĩa, tập các tập mờ là không gian F(U, [0,1]) các hàm từ U
vào đoạn [0,1], một không gian tương đối giàu về cấu trúc tính toán.
Việc xây dựng hàm thuộc của các tập mờ dựa trên ngữ nghĩa của các
khái niệm mờ. Ngược lại, một lớp các khái niệm mờ có thể được mô hình
hoá ngữ nghĩa qua các tập mờ. Trên cơ sở mối quan hệ này, L.A.Zadeh đã

đưa ra khái niệm mới đó là biến ngôn ngữ.
1.2.4 Biến ngôn ngữ
Trong [50] L.A.Zadeh đã viết “khi thiếu hụt tính chính xác bề ngoài
của những vấn đề phức tạp một cách tự nhiên là tìm cách sử dụng các biến
ngôn ngữ, đó là các biến mà giá trị của chủng không phải là số mà là các
từ hoặc các câu trong ngôn ngữ tự nhiên hoặc nhân tạo. Động lực cho việc
sử dụng các từ, các câu hơn các số là đặc trưng ngôn ngữ của các từ, các
câu thường là ít xác định hơn của số”.
Nói tóm lại, ý trên đây đã khái quát cho khái niệm biến ngôn ngữ. Một
cách hình thức biến ngôn ngữ được định nghĩa như sau.
Định nghĩa 1.10. [50] Biến ngôn ngữ là một bộ năm (X, T(X), U, R, M),
trong đó X là tên biến, T(X) là tập các giá trị ngôn ngữ của biến X, U là
không gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là
một biến mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh
các giá trị ngôn ngữ của T(X), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn
ngữ trong T(X) với một tập mờ trên U.
Ví dụ 1.2. [50] Cho X là biến ngôn ngữ có tên là AGE, biến cơ sở u lấy
theo số tuổi của con người có miền xác định là U = [0,100]. Tập các giá trị
ngôn ngữ T(AGE) = {old, very old, more or less young, less young, very
young …} là một qui tắc sinh các giá trị này. M gán ngữ nghĩa mỗi tập mờ
với một giá trị ngôn ngữ. Chẳng hạn, đối với giá trị nguyên thủy old,
M(old) ={µ,µ
old
(u)|u[0,100]}, ở đây chọn
21
0 [0,50]
()
50
(1 ( ) ) [50,100]
5

old
u
u
u
u












1.3 Đại số gia tử
Cho một ĐSGT tuyến tính đầy đủ AX = (X, G, H,

,

, ≤), trong đó
Dom(X) = X là miền các giá trị ngôn ngữ của thuộc tính ngôn ngữ X được
sinh tự do từ tập các phần tử sinh G = {1, c
+
, W, c

, 0} bằng việc tác động
tự do các phép toán một ngôi trong tập H,


và

là hai phép tính với ngữ
7
nghĩa là cận trên đúng và cận dưới đúng của tập H(x), tức là

x =
supremum H(x) and

x = infimum H(x), trong đó H(x) là tập các phần tử
sinh ra từ x, còn quan hệ  là quan hệ sắp thứ tự tuyến tính trên X cảm sinh
từ ngữ nghĩa của ngôn ngữ.
Cho tập các gia tử H = H

H
+
, trong đó H
+
= {h
1
, , h
p
} và H
-
= {h
-
1
, , h
-q

}, với h
1
< < h
p
, h
-1
< < h
-q
, và p, q >1. Ký hiệu fm: X  [0,1] là
độ đo tính mờ của ĐSGT AX. Khi đó ta có mệnh đề sau:
Mệnh đề 1.2. [8] Độ đo tính mờ fm và độ đo tính mờ của gia tử

(h), h
 H, có các tính chất sau:
(1) fm(hx) =

(h)fm(x), x  X.
(2) fm(c

) + fm(c
+
) = 1.
(3)
,0
( ) ( ),
i
q i p i
fm hc fm c
   



trong đó c  {c

, c
+
}.
(4)
,0
( ) ( ),
i
q i p i
fm hx fm x
   


x  X.
(5)
{ ( ): 1}
i
h q i

    

và
{ ( ):1 }
i
h i p

  


,
trong đó

,

>0 và

+

=1

Trong đại số gia tử, mỗi phần tử x  X đều mang dấu âm hay dương,
được gọi là PN-dấu và được định nghĩa đệ quy như sau:
Định nghĩa 1.13. [32] (hàm PN-dấu Sgn): Sgn : X

{-1, 0, 1} là hàm dấu
được xác định như sau, ở đây h, h  H, và c  {c

, c
+
}:
(1) Sgn(c

) = 1, Sgn(c
+
) = +1.
(2) Sgn(h'hx) = 0 , nếu h’hx = hx, còn ngược lại ta có
Sgn(h'hx) = Sgn(hx), nếu h’hx  hx và h' là âm tính đối với h (hoặc c,
nếu h = I và x = c)
Sgn(h'hx) = +Sgn(hx), nếu h’hx  hx và h' dương tính đối với h (hoặc c,

nếu h = I và x = c).
Mệnh đề 1.1. [32] Với x  X, ta có: h  H, nếu Sgn(hx)= +1 thì hx > x,
nếu Sgn(hx) = 1 thì hx < x và nếu Sgn(hx)= 0 thì hx = x.
Từ các tính chất của tính mờ và hàm PN-dấu, ánh xạ ngữ nghĩa định
lượng của ĐSGT được định nghĩa như sau:
Định nghĩa 1.15. [33] Giả sử AX = (X, G, H,

,

, ) là một ĐSGT đầy
đủ, tuyến tính và tự do, fm(x) và

(h) tương ứng là các độ đo tính mờ của
ngôn ngữ và của gia tử h thỏa mãn các tính chất trong mệnh đề 2.1. Khi đó,
ta nói

là ánh xạ cảm sinh bởi độ đo tính mờ fm của ngôn ngữ nếu nó
được xác định như sau:

8
(1)

(W) =

= fm(c

),

(c


) =

-

fm(c

) =

fm(c

),

(c
+
) =

+

fm(c
+
).
(2)
()
( ) ( ) ( ){ ( ) ( ) ( ) ( ) ( )}
j
j j i j j
i Sgn j
h x x Sgn h x h fm x h x h fm x
    


  


trong đó
1
( ) [1 ( ) ( )( )] { , }
2
j j p j
h x Sgn h x Sgn h h x
    
   
, j,
-q

j

p và

0

(3)

(

c

) = 0,

(


c

) =

=

(

c
+
),

(

c
+
) = 1, và j, -q  j  p và j  0,
ta có:


(

h
j
x) =

(x) +
1
()
( ){ ( ) ( )}

j
ji
i sign j
Sgn h x h fm x




và


(

h
j
x) =

(x) +
()
( ){ ( ) ( )}
j
ji
i sign j
Sgn h x h fm x



.
Khoảng mờ của hai khái niệm mờ
Định nghĩa 1.3 [5] Cho P

k
=
 
( ) :
k
I x x X
với X
k
=
 
:x X x k
là một
phân hoạch của [0, 1]. Ta nói rằng u bằng v theo mức k trong P
k
, được ký
hiệu u 
k
v, khi và chỉ khi I(u) và I(v) cùng thuộc một khoảng trong P
k
.
Nghĩa là u, v  X, u 
k
v  
k
 P
k
: I(u)  
k
và I(v)  
k

.
Lân cận mức k
Ta luôn luôn giả thiết rằng mỗi tập H
-
và H
+
chứa ít nhất 2 gia tử. Xét
X
k
là tập tất cả các phần tử độ dài k. Dựa vào khoảng mờ mức k và mức
k+1 các tác giả [5,10] đã xây dựng một phân hoạch của miền [0,1] như sau:
(1). Độ tương tự mức 1: Với k = 1, các khoảng mờ mức 1 gồm I(c

) và
I(c
+
). Các khoảng mờ mức 2 trên khoảng I(c
+
) là I(h
-q
c
+
) ≤ I(h
-q+1
c
+
) ≤
I(h
-2
c

+
) ≤ I(h
-1
c
+
) ≤

A
(c
+
) ≤ I(h
1
c
+
) ≤ I(h
2
c
+
) ≤ ≤ I(h
p-1
c
+
) ≤ I(h
p
c
+
). Khi
đó, ta xây dựng phân hoạch về độ tương tự mức 1 gồm các lớp tương
đương sau: S(0) =I(h
p

c

); S(c

)=I(c

) \ [I(h
-q
c

)  I(h
p
c

)]; S(W) = I(h
-q
c

) 
I(h
-q
c
+
); S(c
+
) = I(c
+
) \ [I(h
-q
c

+
)  I(h
p
c
+
)] và S(1) = I(h
p
c
+
).
Ta thấy, trừ hai điểm đầu mút

A
(0) = 0 và

A
(1) = 1, các giá trị đại
diện

A
(c

),

A
(W) và

A
(c
+

) đều là điểm trong tương ứng của các lớp
tương tự mức 1 S(c

), S(W) và S(c
+
).
(2). Độ tương tự mức 2: với k = 2, các khoảng mờ mức 2, chẳng hạn, trên
một khoảng mờ mức 2, chẳng hạn, I(h
i
c
+
) = (

A
(

h
i
c
+
),

A
(

h
i
c
+
)] với hai

khoảng mờ kề là I(h
i-1
c
+
) và I(h
i+1
c
+
), các lớp tương đương dạng sau:
S(h
i
c
+
) = I(h
i
c
+
) \ [I(h
p
h
i
c
+
)  I(h
-q
h
i
c
+
)], S(


h
i
c
+
) = I(h
-q
h
i-1
c
+
)  I(h
-q
h
i
c
+
)
và S(

h
i
c
+
) = I(h
p
h
i
c
+

)  I(h
p
h
i
c
+
), với i sao cho -q  i  p và i  0.
Bằng cách tương tự như vậy, có thể xây dựng các phân hoạch các lớp
tương tự mức k bất kỳ. Tuy nhiên, trong thực tế ứng dụng theo [6] thì k  4,
9
tức có tối đa 4 gia tử tác động liên tiếp lên phần tử nguyên thủy c

và c
+
.
Các giá trị rõ và các giá trị mờ gọi là có độ tương tự mức k nếu các giá trị
đại diện của chúng cùng nằm trong một lớp tương tự mức k.
Lân cận mức k của khái niệm mờ: Giả sử phân hoạch các lớp tương tự
mức k là các khoảng S(x
1
), S(x
2
), …, S(x
m
). Khi đó, mỗi giá trị ngôn ngữ fu
chỉ và chỉ thuộc về một lớp tương tự, chẳng hạn đó là S(x
i
) nó gọi là lân cận
mức k của fu và ký hiệu là FN
k

(fu).
1.4 Mô hình CSDL hướng đối tượng mờ
Các nghiên cứu mở rộng trên mô hình CSDL HĐT mờ dựa trên mô
hình CSDL HĐT truyền thống tập trung vào các vấn đề sau
[19][23][24][25][52]:
1. Biểu diễn giá trị thuộc tính không chắc chắn hoặc không chính xác
của các đối tượng.
2. Biểu diễn và thực thi các phương thức lớp.
3. Mô hình hóa khả năng áp dụng không chắc chắn của các tính chất
(thuộc tính hoặc phương thức) lớp.
4. Mô hình hóa các quan hệ lớp và định nghĩa mức độ thành viên
không chắc chắn của các đối tượng.
5. Xác định cơ chế thừa kế không chắc chắn của các đối tượng.
1.4.1 Đối tượng mờ
Các đối tượng được dùng để đặc tả các thực thể trong thế giới thực
hoặc các khái niệm trừu tượng. Mỗi đối tượng lưu trữ trong các được hệ
thống CSDL HĐT cung cấp một định danh duy nhất. Định danh này do hệ
thống tự động tạo và được gọi là định danh đối tượng (OID. Ngoài ra, các
đối tượng này chứa một tập nhất định các thông tin về đối tượng và các
hành vi dựa trên các thông tin đó. Thông tin về đối tượng được gọi là thuộc
tính đối tượng và được xác định bởi các giá trị cụ thể, giá trị này có thể là
giá trị rõ hoặc vì một lý do nào đó mà ta không xác định được giá trị chính
xác của nó. Chẳng hạn, thuộc tính tuổi của một đối tượng được cho là
“khoảng 18”, hoặc có thể là một giá trị ngôn ngữ “rất trẻ”… Những thông
tin không chính xác, không rõ ràng như vậy gọi là thông tin mờ. Như vậy,
một đối tượng là mờ vì có một hoặc nhiều thuộc tính có chứa thông tin mờ
(gọi là thuộc tính mờ).
1.4.2 Lớp mờ
Một lớp đươc xem là mờ bởi các lý do sau [23]:
10

-
Thứ nhất, một số đối tượng của một lớp được xác định là đối tượng mờ.

- Thứ hai, khi một lớp được định nghĩa, miền trị của một thuộc tính nào
đó có thể là mờ và như vậy một lớp mờ được hình thành.
- Thứ ba, một lớp con được thừa kế một hoặc nhiều lớp cha, trong đó
có ít nhất một lớp cha là lớp mờ.
Sự khác biệt chính giữa các lớp mờ và các lớp rõ đó là ranh giới của
các lớp mờ không rõ ràng. Sự thiếu chính xác trong ranh giới giữa các lớp
mờ là do sự mơ hồ của những giá trị trong miền trị thuộc tính.
1.4.3 Giá trị thuộc tính
Giá trị là một phần của dữ liệu. Thuộc tính của đối tượng là thuộc tính
của lớp được mô tả bởi giá trị của mỗi đối tượng trong lớp đó. Giá trị thuộc
tính của đối tượng có thể là một trong bốn trường hợp sau: (1) Giá trị
chính xác; (2) Giá trị không chính xác (hoặc mờ): Trường hợp với giá trị
không chính xác (hoặc mờ) rất phức tạp, thường thì nhãn ngôn ngữ được sử
dụng để biểu diễn cho những loại giá trị này; (3) Đối tượng: Trong trường
hợp này giá trị thuộc tính có thể tham chiếu đến một đối tượng khác (đối
tượng phức); (4) Tuyển tập (collection): Thuộc tính có thể là tập các giá trị
hoặc tập (set) các đối tượng.
1.4.4 Phương thức
Thuộc tính và phương thức đối tượng, là một trong những khái niệm
trung tâm của mô hình CSDL HĐT truyền thống. Trong mô hình CSDL
HĐT mờ, các giá trị thuộc tính là các giá trị không chính xác hoặc mờ,
trong khi đó phương thức được biểu diễn như một hàm thao tác trên các giá
trị thuộc tính này. Chính vì vậy, phương thức xác định các đối tượng lớp
này cũng trở nên mơ hồ và không chắc chắn.
Cho C là một lớp với các thuộc tính {a
1
, a

2
, ,a
n
} và ký hiệu Attr(C), và
Attr’(C) là tập thuộc tính có được từ việc xây dựng mức phân hoạch cho
các thuộc tính trong Attr(C). Và với những tính chất của giá trị thuộc tính
đã nêu ở trên, vậy miền giá trị của thuộc tính kinh điển của a
i
là dom(a
i
) =
Cdom(a
i
), miền giá trị thuộc tính mờ a
j
là dom(a
j
) = Cdom(a
j
) Fdom(a
j
). o
là một đối tượng trên tập thuộc tính {a
1
, a
2
, ,a
n
}, và o.a
i

biểu thị giá trị
thuộc tính của o trên thuộc tính a
i
.
1.4.5 Quan hệ lớp đối tượng mờ
Trong mô hình CSDL HĐT mờ, bốn trường hợp sau đây có thể được
dùng để phân biệt cho các quan hệ lớp đối tượng mờ [23]: (1) Lớp rõ và đối
11
tượng rõ; (2) Lớp rõ và đối tượng mờ; (3) Lớp mờ và đối tượng rõ: Giống
như trường hợp ở (2); (4) Lớp mờ và đối tượng mờ: Trong trường hợp này,
đối tượng thuộc về lớp với mức độ thuộc k.
Các mối quan hệ lớp đối tượng trong (2), (3), và (4) trên đây được gọi
là quan hệ lớp đối tượng mờ. Trong thực tế, trường hợp (1) có thể được
xem như là trường hợp đặc biệt của mối quan hệ lớp đối tượng mờ, với độ
thuộc vào lớp là 1.
1.4.6 Quan hệ kế thừa mờ
Sự thừa kế là một trong những khái niệm trung tâm của mô hình CSDL
HĐT. Thừa kế là cơ chế cho phép một lớp được áp dụng các tính chất của
lớp cha của nó, phản ánh một đặc trưng vốn có trong quan hệ giữa các đối
tượng thực tế.
Trong CSDL HĐT mờ, các lớp có thể là mờ hoặc rõ. Ba dạng cơ bản
của quan hệ kế thừa mờ trong mô hình này đó là [23]: (1) Lớp cha rõ và lớp
con rõ; (2) Lớp cha rõ và lớp con mờ; (3) Lớp cha mờ và lớp con mờ.
Trong đó, trường hợp 1 giống như trong các CSDL HĐT truyền thống,
nghĩa là các lớp có thể có hoặc không có sự kế thừa một cách chắc chắn.
Trường hợp 2, 3 được gọi là quan hệ kế thừa mờ, nghĩa là hai lớp có sự kế
thừa với mức độ thuộc k.
1.4.7 Mô hình lớp đối tượng mờ và một số phép toán
1.4.7.1 Chuyển các giá trị thuộc tính về giá trị khoảng [a, b]
Trong phần này, trình bày phương pháp biến đổi các giá trị này về các

khoảng [a, b] tương ứng. Đây là phương pháp biểu diễn một cách thống
nhất các dạng dữ liệu, nhằm thuận tiện cho việc đánh giá quan hệ gần nhau
giữa chúng. Phương pháp chuyển về giá trị khoảng được thực hiện như sau:
- Giá trị thuộc tính là giá trị số: (1) Nếu giá trị thuộc tính là a thì chuyển
thành [a, a]; (2) Nếu giá trị thuộc tính là vào khoảng a thì chuyển thành [a -
, a + ], với  là bán kính với tâm a; (3) Nếu giá trị thuộc tính là a đến b thì
chuyển thành [a, b].
- Giá trị thuộc tính là giá trị ngôn ngữ: Thuộc tính của đối tượng được
xem như là thuộc tính ngôn ngữ và được biểu diễn theo cấu trúc ĐSGT.
Xây dựng phân hoạch các lớp tương tự mức k và từ đó xác định được
khoảng giá trị tương ứng cho giá trị thuộc tính này.
1.4.7.2 Định nghĩa lớp mờ
12
Các lớp trong CSDL HĐT mờ có thể mờ. Về mặt hình thức, định nghĩa
của một lớp mờ được thể hiện như sau:
CLASS tên lớp
INHERITES
tên lớp thứ 1 WITH LEVEL OF mức 1

tên lớp thứ n WITH LEVEL OF mức n
ATTRIBUTES
tên thuộc tính thứ 1: [FUZZY] DOMAIN dom 1: TYPE OF kiểu 1

tên thuộc tính thứ n: [FUZZY] DOMAIN dom n: TYPE OF kiểu n
METHODS

END
1.4 Ngôn ngữ truy vấn dữ liệu
Trong CSDL mờ, các điều kiện được sử dụng khi truy vấn dữ liệu gọi
là điều kiện mờ. Có thể phân tích các thành phần chính trong một điều kiện

mờ được biểu diễn bởi ngữ nghĩa của đại số gia tử như sau:
- Vị từ nguyên tố (atomic predicate): là ánh xạ từ tập các miền trị thuộc
tính vào [0, 1]. Một vị từ nguyên tố thường tương ứng với một giá trị ngôn
ngữ như “già”, “trẻ”…
- Toán tử sửa đổi: là ánh xạ từ [0, 1] vào [0, 1] ứng với một từ nhấn
như “rất”, “có thể”…
- Các toán tử so sánh: là các phép toán đối sánh giữa các giá trị mờ trên
những miền trị, chẳng hạn như phép so sánh “xấp xỉ”, “gần nhau”…
- Liên kết logic: thường dùng các phép toán hội, tuyển, phủ định.

Chương 2 - Phụ Thuộc Dữ Liệu Trong Mô Hình Cơ Sở Dữ Liệu
Hướng Đối Tượng Mờ
Trong chương này, trình bày các dạng phụ thuộc dữ liệu: phụ thuộc
hàm giữa các thuộc tính, phụ thuộc giữa các thuộc tính và phương thức
trong một lớp các đối tượng mờ trong mô hình CSDL HĐT mờ, và các luật
suy dẫn liên quan đến các phụ thuộc hàm. Lý thuyết về suy diễn tương tự
cũng được xem xét, và cuối cùng áp dụng các phụ thuộc hàm mờ vào quá
trình suy diễn tương tự để tìm ra câu trả lời gần đúng cho truy vấn Null.
Các kết quả nghiên cứu chính liên quan đến phụ thuộc dữ liệu trong
một lớp đối tượng mờ được công bố trong các bài báo (1), (2), (5).
13

2.1. Quan hệ ngữ nghĩa của dữ liệu mờ
2.1.1 Đối sánh giá trị khoảng
Cho ĐSGT X= (X, G,H,) và một giá trị khoảng [f
a
,f
b
]. Vì tính mờ x 

X là đoạn con của [0,1], do đó để đối sánh x  X và một giá trị khoảng
[f
a
,f
b
], chúng ta ánh xạ đoạn con [0,1] của x  X vào miền giá trị thực và
sau đó tìm phần giao của hai khoảng tương ứng.
1. [f
a
, f
b
] và x  X, sao cho [f
a
, f
b
]  (x)
thì [f
a
, f
b
]  (x)

2. [f
a
, f
b
]  (x), x
1
, x
2

 X thì khi đó với x và x1, giả sử x < x1, nếu
[ , ] ( ) [ , ] / 2
a b a b
f f x f f 
thì [f
a
, f
b
]  (x) , còn ngược lại [f
a
, f
b
]  (x
1
)

3. [f
a
, f
b
]  (x) = , thì nếu z  X, sao cho [f
a
, f
b
]  (z) và (x)  (z),
thì [f
a
, f

b
]  (z)

2.1.2 Sự tương đương hai giá trị thuộc tính
Trong cơ sở dữ liệu rõ, để kiểm tra hai giá trị trên một thuộc tính của
hai đối tượng có giống nhau hay không người ta thưởng sử dụng phép so
sánh bằng. Trong cơ sở dữ liệu mờ, hai giá trị trên một thuộc tính của hai
đối tượng được xem là “xấp xỉ nhau” nếu giá trị của chúng cùng thuộc về
một lớp tương đương.
Định nghĩa 2.1: Cho lớp mờ C xác định trên tập thuộc tính Attr(C) và tập
phương thức M, A
i
 Attr(C) (1 ≤ i ≤ n) (A
i
là thuộc tính kiểu nguyên tố),
o
1
, o
2
 C và k là mức phân hoạch. Ta nói rằng o
1
.A
i
bằng nhau bậc k với
o
2
.A
i

được ký hiệu o
1
.A
i

k
o
2
.A
i
nếu:
(1) Nếu o
1
.A
i
, o
2
.A
i
 CDom(A
i
) thì o
1
.A
i
= o
2
.A
i
hoặc tồn tại FN

k
(o
2
.A
i
)
sao cho o
1
.A
i
 FN
k
(o
2
.A
i
).

(x)
f(a)
f(b)

(x
1
)

(x)
f(a)
f(b)
14

(2) Nếu o
1
.A
i
hoặc o
2
.A
i
 FDom(A
i
), chẳng hạn o
1
.A
i
thì ta phải có o
2
.A
i

 FN
k
(o
1
.A
i
).
(3) Nếu o
1
.A
i

, o
2
.A
i
 FDom(A
i
) thì FN
k
(o
1
.A
i
) = FN
k
(o
2
.A
i
).

2.1.3 Xấp xỉ ngữ nghĩa
Từ kết quả chuyển các giá trị thuộc tính về các khoảng [a, b] tương
ứng, luận án kế thừa, mở rộng và bổ sung một số tính chất để hàm xấp xỉ
ngữ nghĩa (Semantic Proximity) [40] để phù hợp trong ngữ nghĩa mới, ký
hiệu SP(f
1
, f
2
)(0 ≤ SP(f
1

, f
2
) ≤ 1), được định nghĩa như sau:
Định nghĩa 2.2 Cho lớp các đối tượng mờ C xác định trên tập thuộc tính
Attr(C), A
i

Attr(C) (
1 in
). Hàm đánh giá độ xấp xỉ ngữ nghĩa giữa
hai giá trị thuộc tính a
i
của hai đối tượng o
1
.A
i
, o
2
.A
i
, o
1
, o
2


C có hai
khoảng tương ứng là [l
1
, u

1
] và [l
2
, u
2
], ký hiệu SP(o
1
.A
i
,o
2
.A
i
) (Semantic
Proximity), được xác định như sau:
     
1 2 1 2 1 2 1 2
( . , . ) . . / . . . . /
i i i i i i i i
SP o A o A o A o A o A o A o A o A

    

Trong đó: [h] là độ dài của khoảng h được định nghĩa như sau:
0
[a, a]
[]
| | [a, b] và a b
h
h

h
b a h
h









  





và hệ số α được xác định tương đối lớn, δ là số tương đối nhỏ, δ = 1/α.
Xấp xỉ ngữ nghĩa (SP) thỏa mãn một số tính chất sau:
Cho f
1
= [a
1
, b
1
], f
2
= [a
2

, b
2
], g
1
= [c
1
, d
1
], g
2
= [c
2
, d
2
], và |b
1
- a
1
| là độ
dài của f
1
.
1. Nếu f
1
, f
2
là hai khoảng bằng nhau thì xấp xỉ ngữ nghĩa của f
1
và f
2

bằng 1 (nghĩa là, nếu a
1
= b
1
= a
2
= b
2
thì SP(f
1
, f
2
) = 1).
2. Nếu f
1
, f
2
là hai khoảng không giao nhau, thì xấp xỉ ngữ nghĩa của
f
1
và f
2
bằng 0 (nghĩa là 



  thì SP(f
1
, f

2
) = 0).
3. Nếu (f
1
, f
2
) và (g
1
, g
2
) là hai cặp giống nhau, và chiều dài f
1
nhỏ
hơn chều dài của g
1
, thì SP(f
1
, f
2
) lớn hơn SP(g
1
, g
2
) (nghĩa là, a
1
=
a
2
, b
1

= b
2
, c
1
= c
2
, d
1
= d
2
và |d
1
- c
1
| ≥ |b
1
- a
1
|, thì SP(f
1
, f
2
) ≥
SP(g
1
, g
2
)).
4. Nếu độ dài của f
1

bằng độ dài của f
2
và độ dài giao của f
1
, g
1
lớn
hơn độ dài giao của f
2
, g
1
thì SP(f
1
, g
1
) lớn hơn SP(f
2
, g
1
) (nghĩa là,
15
nếu |a
2
– b
2
| ≥ |a
1
- b
1
| và |




| ≥ |



| thì SP(f
1
, g
1
) ≥ SP(f
2
,
g
1
)).
Ví dụ 2.3: giả sử phạm vi của miền giá trị là 10, và α = 10000, δ = 1/α.
1. Nếu f
1
= [10, 10] và f
2
= [10, 10], thì SP(f
1
, f
2
) = δ/δ – δ/α  1.
2. Nếu f
1
= [2, 5] và f

2
= [6, 7]. thì SP(f
1
, f
2
) = 0/4 – 0/α = 0.
3. Nếu f
1
= [2, 5] và f
2
= [2, 5], g
1
= [2, 8] và g
2
= [2, 8], thì SP(f
1
, f
2
)
= 3/3 – 3/α = 0.9997 và SP(g
1
, g
2
) = 6/6 – 6/α = 0.9994. Ta có
SP(f
1
, f
2
) ≥ SP(g
1

, g
2
).
4. Nếu f
1
= [3, 5], f
2
= [2, 4], g
1
= [3, 6], thì SP(f
1
, g
1
) = 2/3 – 2/α =
0.6665 và SP(f
2
, g
1
) = 1/4 – 1/α = 0.2499. Ta có SP(f
1
, g
2
) ≥ SP(f
2
,
g
1
).
Đối với CSDL hướng đối tượng mờ, giá trị của các thuộc tính không
đơn thuần là các giá trị mờ đơn mà còn có các giá trị tập, giá trị bộ, Vì

vậy, hàm xấp xỉ ngữ nghĩa trên tập thuộc tính X  Attr(C) của hai đối
tượng o
1
, o
2
của lớp mờ C, được ký hiệu SP(o
1
.X,o
2
.X), và được xác định
đệ qui như sau:
1. Nếu giá trị A
i
là giá trị đơn SP(o
1
.A
i
,o
2
.A
i
) được xác định như công
thức 2.1
2. Nếu giá trị A
i
là giá trị tập, giả sử o
1
.A
i
= {s

1
, s
2
,…, s
k
,…, s
n
}, o
2
.A
i
=
{s
1
, s
2
,…, s
j
,…, s
m
} thì xấp xỉ ngữ nghĩa của hai giá trị mờ o
1
.A
i
và o
2
.A
i

được tính là SP(o

1
.A
i
,o
2
.A
i
) =min(max(SP(s
k
,s
j
))) với k=1 n,j=1 m
3. Nếu giá trị A
i
là giá trị bộ, giả sử o
1
.A
i
= [v
1
, v
2
,…, v
k
,…, v
n
], o
2
.A
i

=
[w
1
, w
2
,…, w
k
,…, w
n
] thì xấp xỉ ngữ nghĩa của hai giá trị mờ o
1
.A
i
và o
2
.A
i

được tính là SP(o
1
.A
i
,o
2
.A
i
) = min(SP(v
k
, v
j

) với k,j =1 n
4. Nếu X={A
1
, A
2
,…, A
k
} thì
SP(o
1
.X, o
2
.X) = min(SP(o
1
.A
1
,o
2
.A
1
),…, SP(o
1
.A
k
,o
2
.A
k
))
2.2 Phụ thuộc thuộc tính mờ và tập luật suy dẫn

Khi mở rộng mô hình quan hệ để có thể biểu diễn và xử lý được những
thông tin không chắc chắn, không đầy đủ gọi chung là dữ liệu mờ đã có rất
nhiều công trình tập trung nghiên cứu mở rộng các dạng phụ thuộc này trên
mô hình mới. Các cách tiếp cận mở rộng phụ thuộc hàm kinh điển này dựa
vào hai nguyên tắc chính:
- Nguyên tắc thứ nhất (mở rộng ký hiệu): Nguyên tắc mở rộng này thay
cho quan hệ bằng nhau trên dữ liệu rõ bởi quan hệ gần nhau hoặc quan hệ
tương tự trên dữ liệu mờ và đặt ngưỡng để xác định độ gần nhau.
16
- Nguyên tắc thứ hai (mở rộng ngữ nghĩa): Nguyên tắc này dựa vào ý
nghĩa của các phụ thuộc dữ liệu để xây dựng định nghĩa tương ứng cho mô
hình mới sao cho bảo toàn một số kết quả quan trọng đã được xây dựng
trong mô hình quan hệ.
Với mô hình CSDL HĐT mờ được trình bày trong Chương 1, một số
dạng phụ thuộc dữ liệu mờ trong mô hình này được đề xuất và nghiên cứu.
2.2.1 Phụ thuộc hàm mờ trong lớp đối tượng
Định nghĩa 2.3: Cho lớp mờ C với tập thuộc tính U, X, Y  U. Ta định
nghĩa Y phụ thuộc thuộc tính mờ vào X, ký hiệu
fa
XY
khi và chỉ khi 
o
1
, o
2
 C, nếu SP(o
1
.X, o
2
.X) ≤ SP(o

1
.Y, o
2
.Y)
.
Bổ đề 2.1: Cho lớp mờ C với tập thuộc tính U, X  U, A  U,
fa
XA
,
nếu A được thay thế bởi tập thuộc tính {A
1
, A
2
,…, A
k
} trong C thì
fa
i
XA
, i = 1, 2,…, k.
Định lý 2.1. Phụ thuộc hàm trong cơ sở dữ liệu quan hệ thỏa mãn định
nghĩa phụ thuộc thuộc tính mờ trong CSDL HĐT mờ.
Dựa vào định lý 2.1, có thể thấy rằng việc chuyển đổi từ mô hình quan
hệ sang mô hình HĐT, các phụ thuộc hàm giữa các thuộc tính được bảo
toàn.
2.2.2 Các luật suy dẫn trên phụ thuộc hàm mờ
U là tập các thuộc tính của lớp C; X, Y, W  U, các luật suy dẫn bao
gồm:
Luật 2.1: Phản xạ. Nếu Y  X thì
fa

XY
.
Luật 2.2: Tăng trưởng. Nếu
fa
XY
và W  U thì
WW
fa
XY
.
Luật 2.3: Bắc cầu. Nếu
fa
XY
và
fa
YZ
thì
fa
XZ
.
Bổ đề 1 Các luật suy dẫn 2.1 đến 2.3 là đúng đắn và đầy đủ.
2.3 Phụ thuộc phương thức mờ trong lớp đối tượng
Định nghĩa 2.4: Cho M
j
là một phương thức của một lớp C, X là tập các
thuộc tính nhận giá trị đơn (giá trị rõ hoặc mờ) (có thể đọc hoặc sửa đổi).
Quan hệ giữa X và M
j
, được ký hiệu
fm

j
XM
, nếu X được sử dụng bởi
M
j
thỏa mãn FM-phụ thuộc.
17
Các luật suy dẫn của phụ thuộc phương thức mờ như sau:
Luật 2.4: Nếu
fm
j
XM
và
fm
j
YM
thì
fm
j
XY M
.
Luật 2.5: Nếu
fm
i
XM
và
fm
j
XM
thì

fm
ij
X M M
.
Luật 2.6: Nếu
fm
j
XM
và Y  X thì
fm
j
YM
.
2.4 Truy vấn Null và lập luận tương tự
2.4.1 Các giá trị Null
Trong nghiên cứu về CSDL theo mô hình quan hệ, thông tin không đầy
đủ được biểu diễn bằng các giá trị Null. Nhiều người sử dụng thuật ngữ này
với những ý nghĩa khác nhau. Nói chung có các trường hợp như sau:
- Những giá trị không tồn tại, thường kí hiệu là noe (nonexistent).
- Những giá trị tồn tại nhưng chưa biết tại thời điểm đang xét, thường
kí hiệu là unk (unknown).
- Không có thông tin về một thuộc tính A của bộ t, thường ký hiệu là ni
(no-information).
2.4.2 Truy vấn Null
Một câu truy vấn được xem là truy vấn Null khi nó nhận được câu trả
lời Null từ CSDL. Câu trả lời Null có thể được sinh ra do nhiều nguyên
nhân khác nhau. Nguyên nhân thứ nhất, là khi dữ liệu trong CSDL không
thỏa mãn điều kiện của câu truy vấn. Một nguyên nhân tiếp theo, là do dữ
liệu không tồn tại trong CSDL, chẳng hạn chúng ta truy vấn các bộ (tuple)
dữ liệu từ quan hệ R, nhưng chúng không tồn tại trong CSDL. Một nguyên

nhân nữa, đó là do thông tin không đầy đủ trong CSDL, nguyên nhân này
thường là do giá trị thuộc tính của một số đối tượng bị thiếu.
Luận án tập trung nghiên cứu mô hình CSDL HĐT với thông tin mờ và
không chắc chắn, vì vậy, với những thông tin không đầy đủ của các giá trị
thuộc tính trong mô hình này chính là nguyên nhân gây ra dữ liệu bị thiếu
và khi truy vấn dữ liệu câu trả lời Null có thể được sinh ra.
Ví dụ 2.6. Cho một lớp mờ C với tập thuộc tính Attr(C) = {ten, quocGia,
ngonNgu, mauMat}, và o
1
(C) = <ten: An, quocGia: My, ngonNgu: Anh,
mauMat: xanh>; o
2
(C) = <ten: Binh, quocGia: VietNam, ngonNgu: Viet,
mauMat: den>; o
3
(C) = <ten: Quoc, quocGia: My, ngonNgu: Anh,
mauMat: nau>; o
4
(C) = <ten: Hai, quocGia: My, ngonNgu: ni, mauMat:
den>;
18
Xét câu truy vấn “Cho biết ngôn ngữ của Hai?”. Rõ ràng, câu trả lời
Null được sinh ra, bởi thuộc tính ngonNgu của Hai bị thiếu. Ta có thể giả
thiết rằng có câu trả lời gần đúng cho câu trả lời Null đó là ngôn ngữ của
Hai là Anh. Bởi vì, quốc gia của Hai là My và có thể tìm thấy ngôn ngữ
trong tập các đối tượng có quốc gia My là Anh, đây chính là ngô ngữ của
An và Quoc vì quốc gia của An và Quoc là My. Tất nhiên, câu trả lời xấp xỉ
có thể không đúng vì do ngôn ngữ của Hai có thể là Viet hoặc ngôn ngữ
khác. Tuy nhiên, việc có được trả lời xấp xỉ có thể tốt hơn là không có câu
trả lời khi truy vấn dữ liệu.

2.4.3Lập luận tương tự
Suy diễn tương tự là một công cụ suy diễn quan trọng trong nghiên cứu
trí tuệ nhân tạo. Trong lý thuyết suy diễn tương tự, nếu gọi S là đối tượng
nguồn, T là đối tượng đích, đối tượng nguồn và đích có tính chất tương tự
nhau là P. Khi đó, nếu S có tính chất P’ thì chúng ta suy ra T có thể cũng có
P’ dựa vào tính chất P có trong cả S và T. Sơ đồ, có thể được biểu diễn như
sau: P(S) and P’(S) and P(T) -> P’(T)
Suy diễn tương tự có thể áp dụng để tìm ra câu trả lời gần đúng cho
truy vấn Null khá hiệu quả. Có hai vấn đề có thể giải quyết trong quá trình
suy diễn:
- Thứ nhất, đó là xác định tính chất tương tự nhau P giữa đối tượng
nguồn và đích, chẳng hạn, thuộc tính quốc gia như ở ví dụ trên.
- Thứ hai, là tính chất (thuộc tính) P trong cả S và T có thể xác định
tính chất (thuộc tính) Q không rõ. Vấn đề này liên quan đến phụ thuộc hàm
(mờ) giữa các thuộc tính.
2.4.4 Thuật toán tìm câu trả lời gần đúng cho truy vấn Null
1. Trường hợp sử dụng tính chất tương tự nhau P trong đối tượng
nguồn và đích để xác định thuộc tính chưa biết
a. Đối với truy vấn thuộc tính, chúng ta có lời giải thuật toán như sau:
Thuật toán NQAO (Null Queries for Attributes Objects)
Vào:1. Một lớp C với m thuộc tính và p phương thức; O = {o
1
, o
2
, , o
n
} 
C. Trong đó: (o
1
, o

2
, , o
n-1
).[A
1
, A
2
, , A
m
] và o
n
.[A
1
, A
2
, , A
m-1
] được
xác định (có nghĩa là giá trị dữ liệu tồn tại) và o
n
.a
m
chưa được định nghĩa
(có nghĩa là giá trị dữ liệu bị thiếu).
2. Ma trận độ tương tự b.
Ra: Trả về giá trị tương tự gần đúng cho o
n
.A
m
.

19
Phương pháp: Xác định thuộc tính có liên quan nhất đối với thuộc tính
chưa biết dựa trên ma trận quan hệ tương tự. Tiếp theo xây dựng các
khoảng lân cận mức k cho hai thuộc tính này. Cuối cùng, xác định giá trị
cho thuộc tính chưa được định nghĩa.
b. Đối với truy vấn phương thức, chúng ta có lời giải thuật toán như sau:
Thuật toán NQMO (Null Queries for Method Objects)
Vào:1. Một lớp C với m thuộc tính và p phương thức; O = {o
1
, o
2
, , o
n
} 
C. Trong đó: (o
1
, o
2
, , o
n-1
).[A
1
, A
2
, , A
m
] và o
n
.[A
1

, A
2
, , A
m-1
] là được
xác định (có nghĩa là giá trị dữ liệu tồn tại) và o
n
.a
m
là chưa được định
nghĩa (có nghĩa là giá trị dữ liệu bị thiếu).
2. Ma trận độ tương tự b.
Ra: Trả về giá trị tương tự gần đúng cho phương thức.
Phương pháp: Xác định thuộc tính có liên quan nhất đối với thuộc tính
chưa biết dựa trên ma trận quan hệ tương tự. Tiếp theo, xây dựng các
khoảng lân cận mức k cho hai thuộc tính này. Tiếp đến, chọn hàm kết nhập
ĐSGT cho phương thức. Cuối cùng, xác định giá trị cho phương thức.
Định lý 2.2. Thuật toán NQAO và NQMO luôn dừng và đúng đắn.
Độ phức tạp thuật toán: Thuật toán NQAO và NQMO có độ phức tạp
tính toán là O(n*m), với n là số đối tượng và m tập thuộc tính.
2. Trường hợp sử dụng phụ thuộc hàm để xác định thuộc tính chưa
biết
a. Đối với truy vấn thuộc tính, lời giải thuật toán như sau:
Thuật toán ASAO (Approximate Semantic for Attributes Object)
Vào:Một lớp C với m thuộc tính và p phương thức; O = {o
1
, o
2
, , o
n

}  C.
Trong đó: (o
1
, o
2
, , o
n-1
).[A
1
, A
2
, , A
m
] và o
n
.[A
1
, A
2
, , A
m-1
] là
được định nghĩa (có nghĩa là giá trị dữ liệu tồn tại) và o
n
.A
m
là chưa được
định nghĩa (có nghĩa là giá trị dữ liệu bị thiếu).
Ra: Trả về giá trị tương tự gần đúng cho phương thức.
Phương pháp: Chuyển các giá trị thuộc tính về các giá trị khoảng tương

ứng, tiếp theo kiểm tra các FA-phụ thuộc. Cuối cùng, dựa trên các FA phụ
thuộc này để xác định giá trị gần đúng cho thuộc tính chưa định nghĩa.
b. Đối với truy vấn phương thức, lời giải thuật toán như sau:
Thuật toán ASMO (Approximate Semantic for Method Objects)
Vào:Một lớp C với m thuộc tính và p phương thức; O = {o
1
, o
2
, , o
n
}  C.
20
Trong đó: (o
1
, o
2
, , o
n-1
).[A
1
, A
2
, , A
m
] và o
n
.[A
1
, A
2

, , A
m-1
] là
được định nghĩa (có nghĩa là giá trị dữ liệu tồn tại) và o
n
.a
m
là chưa được
định nghĩa (có nghĩa là giá trị dữ liệu bị thiếu).
Ra: Trả về giá trị tương tự gần đúng cho phương thức.
Phương pháp: Chuyển các giá trị thuộc tính về các giá trị khoảng tương
ứng. Tiếp theo kiểm tra các FA phụ thuộc và dựa trên các phụ thuộc này để
xác định giá trị gần đúng cho thuộc tính chưa định nghĩa. Tiếp đến, xác
định các FM phụ thuộc và dựa trên các phụ thuộc này chọn hàm kết nhập
DSGT cho phương thức. Cuối cùng, xác định giá trị gần đúng cho phương
thức.
Định lý 2.3. Thuật toán ASAO và ASMO luôn dừng và đúng đắn.
Độ phức tạp thuật toán: Thuật toán ASAO và ASMO có độ phức tạp
tính toán là O(n*m), với n là số đối tượng và m tập thuộc tính.
2.6 Một số ví dụ minh họa
Truy vấn 2.1: Xét câu truy vấn trên “Cho biết cân nặng của Nhân?”, với
giá trị thuộc tính canNang của Nhân là chưa định nghĩa. Áp dụng thuật toán
ASAO để tìm ra câu trả lời gần đúng trong CSDL ở ví dụ 2.3 như sau:
Bước 1: Chuyển giá trị thuộc tính chieuCao và canNang về các giá trị
khoảng tương ứng. Áp dụng phương pháp ở mục 1.5.7.1 ta được kết quả ở
bảng 2.3(a).
iDSV
chieuCao
canNang
sucKhoe()

Id1
[1.568, 1.688]
[60, 64]

Id2
[1.62, 1.68]
[58, 62]

Id3
[1.63, 1.66]
[62.5, 66.5]

Id4
[1.472, 1.568]
[50.25, 56.25]

Id5
[1.4, 1.5]
ni

Id6
[1.392, 1.472]
[58, 60]

Bảng 2.3(a) kết quả thực hiện bước 1
Bước 2: Xây dựng các khoảng mờ cho thuộc tính chieuCao, canNang, và
đối sánh các giá trị khoảng và khoảng mờ. Kết quả được cho ở bảng 2.3(b)
iDSV
chieuCao
canNang

sucKhoe()
Id1
[1.52, 1.76]
[60, 70]

Id2
[1.52, 1.76]
[60, 70]

Id3
[1.52, 1.76]
[60, 70]

Id4
[1.36, 1.52]
[45, 60]

Id5
[1.36, 1.52]
[45, 60]

Id6
[1.36, 1.52]
[45, 60]

Bảng 2.3(b) kết quả thực hiện bước 2
Bước 3: Áp dụng định nghĩa 2.3, dễ dàng nhận thấy rằng phụ thuộc
fa
chieuCao canNang
thỏa mãn định nghĩa FA-phụ thuộc.

21
NhanVien
ten
viTri
trinhDo
luong
BoPhan
tienNgoaiGio
QuanLy
tienThuong
Hình 2.6 Lược đồ lớp NhanVien
Bước 4: Giá trị gần đúng cho thuộc tính canNang của đối tượng Nhân =
[56.25, 62.5]  S(W).
Ví dụ 2.7. Xét mô hình CSDL HĐT mờ được cho như sau

Sau đây là một số thể hiện của lớp BoPhan, lớp QuanLy để đơn giản ta giới
hạn bảng dữ liệu chỉ gồm những thuộc tính.

Bảng 2.5 Thể hiện của lớp BoPhan và QuanLy
Thể hiện của lớp BoPhan

Thể hiện của lớp QuanLy

BoPhan

QuanLy
iDBP
ten
viTri
t.Do
tNGio
Luong

iDQL
ten
viTri
t.Do
t.T
luong
iD1
An
ketoan
CĐ
30
90

iD1
Hai
Gd
CĐ
30
90
iD2

Binh
ketoan
CĐ
27
80

iD2
Minh
Qlvh
TC
27
ni
iD3
Hoa
vanhanh
TC
24
70

iD3
Tam
Qlsp
CĐ
15
25
iD4
Hue
vanhanh
TH
23

65

iD4
Nam
Qlht
CH
22
30

Truy vấn 2.3: Cho biết lương của tất cả nhân viên quản lý
Từ CSDL HĐT đã cho ở ví dụ 2.6 ta nhận thấy lương của đối tượng
Minh là chưa định nghĩa (bị thiếu), vì vậy chúng ta cần tìm giá trị tương tự
gần đúng cho lương của đối tượng này. Sử dụng thuật toán NQAO, các
bước thực hiện như sau:
Bước (1) - (3): Xây dựng ma
trận quan hệ phụ thuộc giữa
các thuộc tính

Bước (4) - (5): Xác định thuộc tính liên quan
Từ ma trận trên suy ra thuộc tính tienThuong là thuộc tính liên quan
đến thuộc tính luong, vì quan hệ phụ thuộc là 0.9.
Bảng 2.6 Ma trận quan hệ phụ thuộc giữa các thuộc tính

viTri
trinhDo
tienThuong
luong
viTri
1

0.7
0.7
0.7
trinhDo
0.7
1
0.8
0.8
tienThuong
0.7
0.8
1
0.9
luong
0.7
0.8
0.9
1

22
Bước (6) - (26): Chọn độ đo tính mờ, xây dựng các mức phân hoạch 2
thuộc tính tienThuong và luong.
D
tienThuong
= [0, 30] và D
luong
= [0, 100]. FD
tienThuong
và FD
luong

có cùng tập
xâu giống nhau với tập các phần tử sinh là {0, thấp, W, cao, 1} và tập các
gia tử là {ít, khá, hơn, rất}.
+ Đối với thuộc tính tienThuong: Chọn fm(cao) = 0.35, fm(thấp) = 0.65,
µ(khá) = 0.25, µ(ít) = 0.20, µ(hơn) = 0.15 và µ(rất) = 0.40. Ta phân hoạch
đoạn [0, 30] thành 5 khoảng tương tự và lân cận mức 1.
+ Đối với thuộc tính luong: fm(cao) = 0.60, fm(thấp) = 0.40, µ(khá) = 0.15,
µ(ít) = 0.25, µ(hơn) = 0.25 và µ(rất) = 0.35. Ta phân hoạch đoạn [0, 100]
thành 5 khoảng tương tự mức 1 và lân cận mức 1 của các lớp tương tự
Bước (27) - (30): Xác định giá trị gần đúng cho thuộc tính chưa định nghĩa.
Vì o
1
.tienThuong = 30 
1
tienThuong
FN
(1), o
2
.tienThuong = 27 
1
tienThuong
FN
(1), nên o
1
.tienThuong 
1
o
2
.tienThuong (theo định nghĩa 2.1).
Từ suy diễn tương tự, ta suy ra o

1
.luong 
1
o
2
.luong, mà o
1
.luong = 90 
1
luong
FN
(1). Vậy giá trị tương tự đúng cho thuộc tính luong của đối tượng
Minh 
1
luong
FN
(1) = (79, 100].
Chương 3 - Truy Vấn Dữ Liệu Trong Hệ Thống Hướng Đối Tượng Với
Thông Tin Không Chắc Chắn
Trong chương này, đề xuất các phép toán đại số mờ cho các lớp mờ và
các đối tượng mờ làm cơ sở cho việc xử lý và truy vấn dữ liệu trong mô
hình cơ sở dữ liệu HĐT mờ. Phương pháp xác định giá trị chân lý của điều
kiện mờ và việc định giá lượng từ trong câu truy vấn được trình bày. Ngoài
ra, việc đưa lượng từ ngôn ngữ vào truy vấn được xem xét.
Các kết quả nghiên cứu chính liên quan đến chương được công bố
trong các bài báo (3), (4), (6), (7), (8).
3.1 Đánh giá trùng lặp của các đối tượng mờ
Một nhiệm vụ cơ bản của các phép toán đại số được sử dụng để xác
định mối quan hệ ngữ nghĩa giữa hai đối tượng và đánh giá nếu chúng là
trùng lặp.

3.1.1 Xấp xỉ mức k
Định nghĩa 3.1. Cho lớp mờ C xác định trên tập thuộc tính Attr(C) = {A
1
,
A
2
,…, A
n
} (Ai là thuộc tính kiểu nguyên tố với 1 ≤ i ≤ n) và tập phương
thức M, o
1
, o
2
 C. Ta nói rằng o
1
.A
i
xấp xỉ bậc k o
2
.A
i
được ký hiệu o
1
.A
i

23

k
o

2
.A
i
nếu o
1
.A
i
và o
2
.A
i
cùng thuộc một về một lớp tương tự FN
k
(fu).
Trong đó FN
k
(fu) là một khoảng phân hoạch các lớp tương tự mức k.
3.1.2 Đối tượng mờ dư thừa
Trong CSDL HĐT rõ, một đối tượng được coi là dư thừa nếu và chỉ
nếu trùng hoàn toàn với một đối tượng khác. Nhưng trong mô hình CSDL
HĐT mờ, do đối tượng là mờ nên để đánh giá sự dư thừa của hai đối tượng
mờ o
i
và o
j
, chúng tôi đưa ra định nghĩa như sau.
Định nghĩa 3.2. Cho lớp mờ C với tập thuộc tính {A
1
, A
2

,…, A
n
}, trong đó
kiểu thuộc tính A
i
(1 ≤ i ≤ m) là kiểu nguyên tố. Cho hai đối tượng o
i
và o
j

thuộc lớp mờ C, k là mức phân hoạch và i  j được coi là thừa đối với nhau
nếu h = 1, 2, , n, o
i
.A
h
o
j
.A
h
:o
i
.A
h

k
o
j
.A
h
, và ngược lại. Dùng ký hiệu

o
i

k
o
j
. để nói rằng o
i
thừa đối với o
j
theo mức phân hoạch k, k  {k
1
, k
2
, ,
k
n
}.
Để loại bỏ những đối tượng mờ dư thừa theo mức phân hoạch k trong
lớp C, chúng ta thực hiện kết hợp những đối tượng dư thừa lại với nhau cho
đến khi không còn tồn tại hai đối tượng mờ thừa đối với nhau nữa.
Cho o
1
và o
j
là hai đối tượng dư thừa mức k trong lớp C, để loại bỏ dư
thừa này sẽ thực hiện kết hợp o
1
và o
j

thành một đối tượng o mới. Có ba
loại thao tác kết hợp cho các đối tượng mờ để đáp ứng các yêu cầu khác
nhau trong các thao tác đối tượng.
o=
( , )
k
ij
merge o o

=<
k
merge

(o
i
.a
1
,o
j
.a
1
),
k
merge

(o
i
.a
2
,o

j
.a
2
), ,
k
merge

(o
i
.a
n
,o
j
.a
n
)>
o =
( , )
k
ij
merge o o

=<
k
merge

(o
i
.a
1

,o
j
.a
1
),
k
merge

(o
i
.a
2
,o
j
.a
2
), ,
k
merge

(o
i
.a
n
,o
j
.a
n
)>
o=

( , )
k
ij
merge o o

= <
k
merge

(o
i
.a
1
,o
j
.a
1
),
k
merge

(o
i
.a
2
,o
j
.a
2
), ,

k
merge

(o
i
.a
n
,o
j
.a
n
)>
Thuộc tính mờ của đối tượng được xem như là thuộc tính ngôn ngữ và
được biểu diễn theo cấu trúc ĐSGT. Từ đó, xây dựng phân hoạch các lớp
tương tự mức k cho các thuộc tính ngôn ngữ. Xác định giá trị ngôn ngữ
thuộc lớp tương tự mức k và từ đó xác định được khoảng giá trị [a, b] tương
ứng cho các giá trị thuộc tính.
Do vậy, các thao tác kết hợp giá trị thuộc tính của hai đối tượng là các
phép giao, hợp, trừ trên các khoảng.
-
k
merge

(o
i
.a
1
,o
j
.a

1
): hợp hai khoảng o
i
.a
1
= [a, b] và o
j
.a
1
= [c, d].
-
k
merge

(o
i
.a
1
,o
j
.a
1
): giao hai khoảng o
i
.a
1
= [a, b] và o
j
.a
1

= [c, d].
24
-
k
merge

(o
i
.a
1
,o
j
.a
1
): trừ hai khoảng o
i
.a
1
= [a, b] và o
j
.a
1
= [c, d]. Có
các trường hợp:
1. nếu c  [a, b], và d  [a, b] thì kết quả phép trừ là [a, c].
2. nếu c  [a, b], và d  [a, b] thì kết quả phép trừ là [d, b].
3. nếu [c, d]  [a, b] thì kết quả phép trừ là [a, c]  [d, b].
4. nếu [c, d] ∩ [a, b] =  thì kết quả phép trừ là [a, b].
3.2 Các phép toán đại số mờ
Dựa trên các phép toán đại số mờ trong CSDL quan hệ mờ (Umano và

Fukami 1994; Ma và Mili 2002; Hồ Cẩm Hà 2002), các phép toán đại số
mờ trên mô hình CSDL HDT mờ cũng được chia thành hai loại: các phép
toán đại số cho lớp mờ và các phép toán đại số cho các đối tượng mờ.
3.2.1 Phép toán đại số cho đối tượng mờ
Đối với các đối tượng mờ, phép toán đại số là phép chọn mờ. Một phép
lựa chọn được xem như một qui trình chọn ra các đối tượng của lớp thỏa
mãn điều kiện lựa chọn. Vấn đề đặt ra ở đây làm thế nào để xác định một
đối tượng thỏa mãn điều kiện lựa chọn. Trước tiên, chúng ta xem xét cú
pháp điều kiện chọn cho việc chọn đối tượng mờ.
Trong CSDL quan hệ truyền thống, điều kiện lựa chọn được ký hiệu là
vị từ P được tạo thành thông qua việc kết hợp mệnh đề cơ bản “X θ Y” như
các toán hạng với các phép toán ¬ (not),  (and), và  (or), trong đó θ  {>,
<, =, ≠, ≥, ≤}, X là thuộc tính, Y có thể là hằng số, các thuộc tính hoặc biểu
thức mà biểu thức này được tạo thành thông qua việc kết hợp các hằng số,
các thuộc tính hoặc các biểu thức với các phép toán số học. Đối với CSDL
mờ, thuộc tính và hằng số trong “X θ Y” có thể mờ, và ngoài ra “θ” có thể
là các phép toán so sánh mờ, chẳng hạn {>
k
, <
k
, ≥
k
, ≤
k
, 
k
}, trong đó k là
mức phân hoạch. Các phép toán so sánh mờ >
k
, <

k
, ≥
k
, ≤
k
, 
k
có cùng tính
chất với các phép toán so sánh cổ điển >, <, =, ≠, ≥, ≤. Từ đó, một biểu thức
mờ cơ bản được hình thành và sử dụng như một dạng vị từ mờ, ký hiệu là
P
f
, được xem như một điều kiện lựa chọn mờ.
Cho C là lớp mờ, P
f
là một vị từ mờ được ký hiệu là điều kiện lựa chọn
và k là mức phân hoạch k. Việc lựa chọn P
f
trên C với mức phân hoạch k
được định nghĩa như sau:
( ) { ( )| ( ) ( ) }
Pf
f
kk
C o C o C P o true

  

Trích đoạn

Thuật toán SMLQ: Tìm kiếm dữ liệu trong trường hợp đơn điều kiện

Cơ sở dữ liệu hướng đối tượng với thông tin ngôn ngữ mờ (tóm tắt + toàn văn)

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về