Tải bản đầy đủ (.pdf) (75 trang)

Biễu diễn dữ liệu mờ bằng ngôn ngữ XML và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.78 MB, 75 trang )




ĐẠI HỌC THÁI NGUN
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN & TRUYỀN THƠNG



NGUYỄN ĐÌNH HUY




BIỂU DIỄN DỮ LIỆU MỜ
BẰNG NGƠN NGỮ XML VÀ ỨNG DỤNG




LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH






Thái Ngun - Năm 2013
Số hóa bởi Trung tâm Học liệu />




ĐẠI HỌC THÁI NGUN
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG


NGUYỄN ĐÌNH HUY


BIỂU DIỄN DỮ LIỆU MỜ
BẰNG NGƠN NGỮ XML VÀ ỨNG DỤNG


Chun ngành: KHOA HỌC MÁY TÍNH
Mã số : 60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH


Người hướng dẫn khoa học: PGS.TS Đồn Văn Ban





Thái Ngun - Năm 2013
Số hóa bởi Trung tâm Học liệu />i



LỜI CAM ĐOAN


.





Thái Ngun, ngày tháng 2013
Tác giả


Nguyễn Đình Huy

Số hóa bởi Trung tâm Học liệu />ii



MỤC LỤC
Trang
LỜI CAM ĐOAN i
MỤC LỤC ii
CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv
DANH MỤC BẢNG v
DANH MỤC HÌNH vi
MỞ ĐẦU 1
CHƯƠNG 1. CÁC MƠ HÌNH BIỂU DIỄN CƠ SỞ DỮ LIỆU MỜ 4
1.1. CƠ SỞ DỮ LIỆU MỜ 4
1.1.1. Một số khái niệm 4
1.1.2. Các mơ hình cơ sở dữ liệu mờ 5
1.2. ĐẠI SỐ GIA TỬ 8
1.2.1. Một số khái niệm 8

1.2.2. Các tính chất của độ đo tính mờ trong ĐSGT 11
1.3. MƠ HÌNH BIỂU DIỄN CSDL MỜ THEO CÁCH TIẾP CẬN ĐSGT 12
1.3.1. Ngữ nghĩa dữ liệu dựa trên việc định lượng ĐSGT 13
1.3.2. Xấp xỉ dữ liệu mờ theo cách tiếp cận ĐSGT 16
1.3.3. Ngữ nghĩa dữ liệu dựa trên lân cận tơpơ của ĐSGT 23
1.4. NGƠN NGỮ ĐÁNH DẤU MỞ RỘNG XML 26
1.4.1. Giới thiệu về ngơn ngữ XML 26
1.4.2. Cấu trúc tài liệu XML 28
Số hóa bởi Trung tâm Học liệu />iii



1.4.3. Các thành phần cơ bản trong tài liệu XML 29
1.4.4. Định nghĩa kiểu tư liệu (DTD) 30
1.5. TỔNG KẾT CHƯƠNG 32
CHƯƠNG 2. BIỂU DIỄN DỮ LIỆU MỜ BẰNG NGƠN NGỮ XML 33
2.1. MƠ HÌNH TỔNG QT 33
2.2. ĐỀ XUẤT GIẢI PHÁP 34
2.2.1. Mờ hóa cơ sở dữ liệu bằng đại số gia tử 34
2.2.2. Biểu diễn dữ liệu mờ hóa bằng XML 36
2.2.3. Truy vấn trên dữ liệu mờ 40
2.3. TỔNG KẾT CHƯƠNG 54
CHƯƠNG 3. XÂY DỰNG ỨNG DỤNG 55
3.1. MƠ TẢ ỨNG DỤNG 55
3.2. CƠNG CỤ LỰA CHỌN 55
3.3. PHÁT TRIỂN CÁC MODUL 55
3.3.1. Modul biểu diễn dữ liệu mờ 55
3.3.2. Modul biểu diễn truy vấn mờ 56
3.4. GIAO DIỆN CHƯƠNG TRÌNH 57
3.5. THỬ NGHIỆM VÀ ĐÁNH GIÁ 60

3.6. TỔNG KẾT CHƯƠNG 64
KẾT LUẬN 65


Số hóa bởi Trung tâm Học liệu />iv



CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Tiếng Anh
Từ viết tắt
Tên đầy đủ
Diễn giải
DTD
Doucument Type Definition
Định nghĩa kiểu tài liệu
HTML
Hypertext markup language
Ngơn ngữ đánh dấu siêu văn bản
HTTP
HyperText Transfer Protocol
Giao thức truyền tải siêu văn bản
XML
eXtensible Markup Language
Ngơn ngữ đánh dấu mở rộng
SQL
Structured Query Language
Ngơn ngữ truy vấn có cấu trúc

Tiếng Việt

CSDL
Cơ sở dữ liệu
ĐSGT
Đại số gia tử

Số hóa bởi Trung tâm Học liệu />v



DANH MỤC BẢNG
Trang
Bảng 1: Quan hệ Lý lịch 38
Bảng 2: Quan hệ Lương Tuổi 52
Bảng 3: Kết quả tìm kiếm của ví dụ (a) 54
Bảng 4: Kết quả tìm kiếm của ví dụ (b) 54

Số hóa bởi Trung tâm Học liệu />vi



DANH MỤC HÌNH
Trang
Hình 2: Mơ hình tng qt ca h thng 33
Hình 3: Cu trúc mt c s d liu m c m hóa 56
Hình 4: Cu trúc file lu tr câu truy vn m bng XML 57
Hình 5: Giao din chính ca chng trình 58
Hình 6: Giao din cha chn các trng thuc tính m 59
Hình 7: Giao din chp nht tp gia t 59
Hình 8: C s d liu ngun 60
Hình 9: nh min giá tr ca thuc tính Lng 61

Hình 10: nh tp phn t sinh ca thuc tính Lng 61
Hình 11: nh tp gia t 62
Hình 12: Cu trúc ca trng thuc tính m 62


Số hóa bởi Trung tâm Học liệu />1




MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, việc xây dựng và phát triển các hệ cơ sở dữ liệu
(CSDL) mờ phục vụ cho việc thu thập, xử lý và khai thác những dữ liệu với thơng
tin khơng chắc chắn, khơng đầy đủ - là những dạng dữ liệu mà con người vẫn
thường xun xử lý trong thực tế - được nhiều nhà nghiên cứu quan tâm. Nhiều mơ
hình CSDL mờ mở rộng từ mơ hình CSDL quan hệ cổ điển do Codd đề xuất dựa
trên cơ sở lý thuyết tập mờ của Zadeh được phát triển, tiêu biểu là mơ hình tập con
mờ, mơ hình dựa trên quan hệ tương tự, mơ hình dựa trên lý thuyết khả năng,
Song song với việc phát triển các mơ hình, nhiều cơng trình nghiên cứu việc xử lý
và khai thác dữ liệu mờ từ các mơ hình CSDL mờ cũng được phát triển, tiêu biểu là
các nghiên cứu về các phụ thuộc dữ liệu mờ, các ngơn ngữ hỏi mềm dẻo, khai phá
tri thức từ dữ liệu, Những nghiên cứu về CSDL mờ đã và đang được tiếp tục phát
triển trong nước và trên thế giới.
Trong luận văn này, chúng tơi tập trung nghiên cứu cách biểu diễn dữ liệu mờ
bằng ngơn ngữ XML. Mơ hình CSDL mờ được biểu diễn là mơ hình dựa trên lý
thuyết của đại số gia tử (ĐSGT). Mục đích nghiên cứu của đề tài là ứng dụng lý
thuyết về mơ hình cơ sở dữ liệu mờ, sử dụng ngơn ngữ XML để biểu diễn nhiều
dạng dữ liệu mờ khác nhau, cho phép mờ hóa CSDL sẵn có nhằm thu thập, lưu trữ
và thực hiện các truy vấn trên cơ sở dữ liệu mờ ứng dụng trong việc khai phá dữ

liệu nhằm đưa ra các dự báo trong tương lai.
2. Mục tiêu của đề tài
Mục đích nghiên cứu của đề tài là ứng dụng lý thuyết về mơ hình cơ sở dữ liệu
mờ, sử dụng ngơn ngữ XML để biểu diễn nhiều dạng dữ liệu mờ khác nhau, cho
phép mờ hóa cơ sở dữ liệu sẵn có nhằm thu thập, lưu trữ và thực hiện các truy vấn
trên cơ sở dữ liệu mờ ứng dụng trong việc khai phá dữ liệu nhằm đưa ra các dự báo
trong tương lai.
Số hóa bởi Trung tâm Học liệu />2




3. Đối tượng nghiên cứu
- Tìm hiểu về mơ hình CSDL mờ.
- Tìm hiểu về ngơn ngữ XML.
- Tìm hiểu về lý thuyết đại số gia tử
- Cách biểu diễn dữ liệu mờ bằng ngơn ngữ XML dựa trên lý thuyết về ĐSGT.
4. Phương pháp nghiên cứu
Đề tài thực hiện dựa trên nhiều phương pháp nghiên cứu khác nhau: khảo sát
tình hình thực tế về các vấn đề về sử dụng những thơng tin khơng đầy đủ, khơng
chắc chắn trong thực tế, vấn đề về lưu trữ và xử lý những thơng tin đó, tìm hiểu về
cách xử lý thơng tin nhân sự, nghiên cứu lý thuyết về cơ sở dữ liệu mờ dựa trên lý
thuyết về đại số gia tử và ngơn ngữ XML. Từ đó đề xuất giải pháp xây dựng hệ
thống  ứng dụng mơ hình cơ sở dữ liệu mờ theo hướng
tiếp cận đại số gia tử và sử dụng ngơn ngữ XML để biểu diễn.
5. Ý nghĩa khoa học và thực tiễn của đề tài
- Xây dựng chức năng cho phép thu thập, lưu trữ những thơng tin khơng chắc
chắn, khơng đầy đủ của hệ thống quản lý nhân viên.
- Cho phép lưu trữ, xử lý và thực hiện truy vấn trên những thơng tin khơng chắc
chắn, khơng đầy đủ, góp phần quan trọng trong lĩnh vực khai thác thơng tin đặc biệt

là những thơng tin mờ.
- Kết quả của đề tài còn tiếp tục phát triển cho các tính tốn và khai thác tri thức
từ cơ sở dữ liệu mờ.
6. Bố cục của luận văn
Cấu trúc của luận văn gồm 3 chương và phần kết luận
Chương 1: Trình bày các khái niệm, tính chất về cơ sở dữ liệu mờ, ngơn ngữ
XML và Đại số gia tử.
Số hóa bởi Trung tâm Học liệu />3




Chương 2: Đề xuất hướng giải quyết và đưa ra các mơ hình cơ sở dữ liệu mờ
dựa trên lý thuyết về đại số gia tử đã được phân tích để giải quyết các u cầu của
hệ thống, đồng thời trình bày phương pháp sử dụng ngơn ngữ XML để biểu diễn cơ
sở dữ liệu mờ đó.
Chương 3: Ứng dụng các kết quả của chương hai để bổ sung thêm chức năng
ứng dụng logic mờ trong hệ thống “Quản lý thơng tin học sinh, nhân viên”. Chức
năng này cho phép thực hiện mờ hóa dữ liệu đã có, thu thập, lưu trữ cơ sở dữ liệu
mờ để làm dữ liệu nguồn cho các hệ thống khai phá dữ liệu để đưa ra các dự báo
trong tương lai và đừa các truy vấn mờ trên CSDL đã được mờ hóa.
Kết luận và kiến nghị: Những nội dung đã đạt được trong luận văn và định
hướng phát triển.

Số hóa bởi Trung tâm Học liệu />4




CHƯƠNG 1. CÁC MƠ HÌNH BIỂU DIỄN CƠ SỞ DỮ LIỆU MỜ

Trong những năm gần đây, CSDL mờ được nhiều tác giả trong và ngồi nước
quan tâm nghiên cứu và đã có những kết quả đáng kể. Có nhiều cách tiếp cận khác
nhau như cách tiếp cận quan hệ mờ, tiếp cận trên tính tương tự, theo lý thuyết khả
năng,… hay mơ hình cơ sở dữ liệu mờ theo cách tiếp cận đại số gia tử. Để hiểu rõ
hơn về các vấn đề này, trong chương này sẽ tập trung trình bày những kiến thức về
đại số gia tử, mơ hình biểu diễn cơ sở dữ liệu mờ theo cách tiếp cận đại số gia tử và
ngơn ngữ XML.
1.1. CƠ SỞ DỮ LIỆU MỜ
1.1.1. Một số khái niệm
1.1.1.1. 
Mơ hình cơ sở dữ liệu quan hệ (rõ) sử dụng khái niệm lý thuyết tập hợp để biểu
diễn và liên kết dữ liệu. Trong mơ hình cổ điển này, mỗi giá trị trong quan hệ là giá
trị ngun tố. Ngoại trừ giá trị null, mỗi thuộc tính phải có một giá trị chính xác và
khơng thể có giá trị mờ hoặc khơng chắc chắn. Tuy nhiên, theo một số phương pháp
tiếp cận được đề xuất để mở rộng mơ hình cơ sở dữ liệu cổ điển sang cơ sở dữ liệu
quan hệ mờ, mỗi giá trị trong quan hệ mờ có thể là một tập hợp có hơn 1 phần tử
tương tự với nhau (theo một ngưỡng nào đó). Cơ sở dữ liệu quan hệ mờ là cơ cơ dữ
liệu có thể lưu trữ, xử lý dữ liệu mờ và khơng chắc chắn [14].
1.1.1.2. 
Quan hệ đồng nhất (trên một miền D) sử dụng trong cơ sở dữ liệu quan hệ (rõ)
sẽ chia miền D thành nhiều lớp tương đương mà mỗi lớp ứng với một giá trị. Quan
hệ đồng nhất là trường hợp đặc biệt của quan hệ tương tự.
Một quan hệ tương tự s(x,y), cho một miền D
j
, là phép ánh xạ của tất cả các cặp
phần tử trong miền đơn vị vào khoảng [0,1], một quan hệ tương tự có tính phản xạ,
đối xứng và bắc cầu, nó là quan hệ tương đương [14].
1.1.1.3. 
Mơ hình quan hệ mờ dựa trên sự tương tự khơng phải là một mở rộng của quan
hệ ban đầu, nhưng thực sự là một mơ hình tổng qt của nó. Nó cho phép một tập

Số hóa bởi Trung tâm Học liệu />5




hợp giá trị cho một thuộc tính hơn là giá trị ngun tố duy nhất và thay thế các khái
niệm đồng nhất với một khái niệm tương tự.
Mơ hình quan hệ dựa trên sự tương tự cho phép một bộ tại một thuộc tính được
nhận một tập các giá trị đủ tương tự với nhau. Đặc tính này rất hữu ích cho việc xử
lý truy vấn và thao tác cập nhật. Nếu giá trị thuộc tính là chính xác và chắc chắn, thì
giá trị là ngun tố. Trong trường hợp chấp nhận dữ liệu khơng chính xác, khơng
chắc chắn thì giá trị một bộ tại một thuộc tính có thể là một tập hợp. Mức độ tương
tự giữa các giá trị được xác định rõ bởi định nghĩa quan hệ tương tự cho miền giá trị
thuộc tính.
Mơ hình ban đầu so sánh hai giá trị thuộc tính bằng cách kiểm tra xem hai giá trị
bằng nhau hay khơng. Đặc tả quan hệ thực tế này phản ánh: i(x,y)=1 khi và chỉ khi
x = y, ngồi ra i(x,y)=0. Mơ hình quan hệ tương tự so sánh hai thuộc tính bằng cách
đo sự tương tự của các giá trị trong điều kiện của khai báo rõ ràng miền thuộc tính.
Một bộ trong mơ hình này được gọi là dư thừa nếu nó có thể sáp nhập với nhau
thơng qua việc thiết lập phép hợp các miền giá trị tương ứng.
1.1.1.4. 
Xét một lược đồ CSDL  









, trong đó U = {A
1
, A
2
, …A
n
}
là tập vũ trụ các thuộc tính, 

lược đồ quan hệ, tức là một tập con của U. Mỗi thuộc
tính A được gắn với một miền giá trị thuộc tính, trong đó một số thuộc tính cho
phép nhận các giá trị ngơn ngữ trong lưu trữ CSDL và được gọi là thuộc tính mờ,
những thuộc tính còn lại được gọi là thuộc tính kinh điển. Thuộc tính kinh điển A
được gắn với một miền trị kinh điển, ký hiệu là 

và một miền giá trị ngơn ngữ


hay là tập các phần tử của một ĐSGT. Một CSDL như vậy được gọi là CSDL
mờ theo cách tiếp cận ĐSGT [2][3][4].
1.1.2. Các mơ hình cơ sở dữ liệu mờ
Mơ hình quan hệ đóng một vai trò quan trọng và được sử dụng rất phổ biến kể
từ khi Codd đề xuất vào năm 1970 [14]. Tuy nhiên, những hệ thống như vậy chỉ
chấp nhận dữ liệu chính xác. Trên thực tế, thơng tin về thế giới thực cần xử lý phần
nhiều lại là thơng tin khơng đầy đủ, khơng chắc chắn. Có nhiều đề xuất về cách tiếp
cận nhằm giải quyết vấn đề này. Việc dùng lý thuyết mờ để mở rộng mơ hình cơ sở
dữ liệu đã được nhiều nhà nghiên cứu quan tâm. Kerre E.F và Chen G.Q đã cho
Số hóa bởi Trung tâm Học liệu />6





rằng có 5 cách tiếp cận trong việc biểu diễn dữ liệu tương ứng với việc làm mờ hóa
các mơ hình cơ sở dữ liệu quan hệ để biểu diễn thơng tin khơng chính xác. Đó là
cách tiếp cận như sau:
Mơ hình dựa trên quan hệ mờ (the fuzzy ralation-based approach) [14]
Cách tiếp cận nà do Baldwin và Zhou đưa ra năm 1984, Zvieli đưa ra năm 1986
với quan niệm rằng một quan hệ R  D
1
x D
2
x….D
n
được đặc trưng bởi một hàm
thuộc 
R
: D
1
x D
2
x….D
n
-> [0,1]. Như vậy một bộ của R có dạng (u
1
, u
2
, …,u
n
, 
R

(u
1
, u
2
, …,u
n
)), trong đó u
i
 D
i
, với i=1,2,…n. Kiểu biểu diễn dữ liệu như vậy đi
kèm với giả thiết khái niệm một bộ thuộc về một quan hệ là một khái niệm mờ
trong khi các giá trị cụ thể của các thuộc tính lại là giá trị khơng mờ hoặc cũng có
thể là các biến ngơn ngữ nhưng được xử lý như một đơn giá trị.
Mơ hình dựa trên tính tương tự (the similarity-based approach) [14]
Cách tiếp cận này do Buckles và Petry đưa ra năm 1982, Anvari đưa ra năm
1984, với quan điểm cho phép sự thiếu chính xác ở giá trị của các thuộc tính cũng
như ở mối quan hệ giữa các phần tử thuộc cùng một miền (miền trị của một thuộc
tính). Trong mơ hình này, giá trị tại mỗi thuộc tính (của mỗi bộ) có thể là một tập
con thực sự của miền và trên mỗi miền đều xác định một quan hệ tương tự. Như vậy
một quan hệ mờ R, là một tập con của tập tích đề các 2
D1
x2
D2
x 2
D3
x…2
Dm
, ký
hiệu 2

Dj
để chỉ tập các tập con khác rỗng của D
j
, D
j
là miền trị của thuộc tính thứ j,
một n-bộ tR có dạng: t = (d
1
, d
2
, …,d
n
),   D
j
.
Với mỗi D
j,
một quan hệ S
i
: D
i
x D
i
 [0,1] là một quan hệ mờ hai ngơi nên D
i

thỏa tính chất:
* Phản xạ: (S
i
(x,x) = 1)

* Đối xứng: (S
i
(x,y) = S(y,x))
* Bắc cầu max-min: (S
i
(x, z) Max
y
(Min[S
i
(x,y), S
i
(y,z)]))
Mơ hình dựa trên tính khả năng (the possbility-based approach) [14]
Cách tiếp cận này do Prade và Testemale đưa năm 1983, Umano đưa ra năm
1983 và Zemankova năm 1984. Các tác giả này đã làm mờ hóa các giá trị thuộc
tính. Nghĩa là một quan hệ R là một tập con của  (D
1
) x  (D
2
) x…x (D
n
) trong
Số hóa bởi Trung tâm Học liệu />7




đó  (D
i
) = {

Ai

Ai
là một phân phối khả năng của A
i
trêm D
i
}. Một n_bộ tR có
dạng: (
A1
, 
A2
,…. 
An
), 
Ai
 (D
i
). Ngồi ra có một phần tử đặc biệt e dùng để
chỉ những giá trị “khơng thể áp dụng”. Nói một cách khác, 
Ai
được định nghĩa là
một hàm từ (D
i

e) lên [0,1].
Năm 1986, Testemale đã mở rộng cách biểu diễn này cho trường hợp các thuộc
tính có đa giá trị bằng việc xem xét các phân phối khả năng trên 



, và khi đó, một
n_bộ có dạng (
D
, 
D
,…. 
D
), 
D
: 


-> [0,1] và 


D
i
.
Mở rộng mơ hình trên tính khả năng (The extended possbility-based
approach) [14]
Các tác giả Rundensteiner, Hawkes và Bandler (1989), Chen (1991) đã mở rộng
cách tiếp cận dựa trên cơ sở tính khả năng bằng việc cho phép mỗi miền trị (của
thuộc tính) đã được gắn kết với một quan hệ thể hiện sự gần gũi. Cụ thể, một quan
hệ R là một tập con của  (D
1
) x  (D
2
) x…x  (D
n
). Một n_bộ tR có dạng:

(









) 


 (D
i
). Thêm vào đó một quan hệ c
i
xác định trên mỗi miền D
i

thể hiện mối quan hệ “gần nhau” giữa các phần tử của miền c
i
: D
i
x D
i
-> [0,1] là
một quan hệ mờ hai ngơi trên D
i
thỏa các tính chất: phản xạ (c

i
(x,x)=1), đối xứng
c
i
(x,y)=c
i
(y,x). Có thể thấy rằng cách tiếp cận này cũng là tổng qt hóa của cách
tiếp cận trên cơ sở tính tương tự do phân phối khả năng là trường hợp tổng qt của
các tập con thơng thường và quan hệ “gần gũi” là một tổng qt của hệ “tương tự”.
Các mơ hình tiếp cận kết hợp (the combined approach) [14]
Một số nhà nghiên cứu có ý định biểu diễn tính mờ cả trong sự thuộc vào một
quan hệ của một bộ cũng như tính mờ trong các giá trị thuộc tính hay mối quan hệ
giữa các phần tử của miền. Trong các nghiên cứu của Van Schooten (1988) và
Kerre (1988), các giá trị thuộc tính là các phân phối khả năng và mỗi bộ được gán
cho một cặp (p,n) để biểu diễn một cách tương ứng khả năng có thể thuộc quan hệ
và khả năng khơng thể thuộc quan hệ của bộ này. Như vậy một n_bộ có dạng (
A1
,










, p
1

, n
t
), 


 (D
i
).
Có thể thấy rằng trong bất cứ một mơ hình biểu diễn nào cho phép giá trị tại các
thuộc tính khơng cần phải là giá trị ngun tố, khơng cần phải là một giá trị đơn thì
tuy các giá trị này khơng buộc phải được đánh giá bằng nhau (hay khơng bằng
Số hóa bởi Trung tâm Học liệu />8




nhau) nhưng phải được đánh giá “gần nhau” ở cấp độ tương tự của hai giá trị thuộc
tính d
i
và d’
I
là 










. Trong một mở rộng của cách tiếp cận trên cơ sở
tính khả năng do Rundensteiner và các cộng sự đưa ra năm 1989, sự giống nhau của
hai giá trị thuộc tính 
Ai
và 
Ai
’ được đo bởi hai cấp độ.
(i)
,
min Re ( , )
Ai
i
x y t
S x y


Trong đó t
Ai
= {w
Ai
>0, wD
i
}, t
Ai
’= {w
Ai
’>0, wD
i
}, và Res

i
là một quan hệ
“giống nhau” của A
i
trên D
i
(định nghĩa quan hệ giống nhau ở đây cũng trùng với
định nghĩa quan hệ gần nhau đã nêu ở trên).
(ii)
min
z Di
(1-
Ai
(z)- 
Ai
’(z))
Cũng trong một mở rộng của cách tiếp cận trên cơ sở tính khả năng của Chen,
Vandenbulcke và Kerre (1992), tính “gần nhau” của hai giá trị thuộc tính 
Ai
và 
Ai

được đo bởi.
1 nếu 
I
trùng với 
I


Poss (

i
= 
I

là đúng) = sup min (
i
(x), 
I

(y)) nếu 
i
 
I


c
i
(x,y) ≥ 
i

x,y  D
i

trong đó c
i
là một quan hệ gần nhau của A
i
trên D
i
và 

i
là một ngưỡng cụ thể
cho c
i
.
1.2. ĐẠI SỐ GIA TỬ
1.2.1. Một số khái niệm
Xét miền ngơn ngữ của biến chân lý TRUTH gồm các từ sau: Dom(TRUTH)
= {true, false, very true, very false, more-or-less true, more-or-less false, possibly
true, possibly false, approximately true, approximately false, little true, little false,
very possibly true, very possibly false }, trong đó true, false là các từ ngun
thủy, các từ nhấn (modifier or intensifier) very, more-or-less, possibly,
approximately, little gọi là các gia tử (hedges) [2][3][8][13].
Số hóa bởi Trung tâm Học liệu />9




Khi đó, miền ngơn ngữ T = Dom(TRUTH) có thể biểu thị như một đại số X =(X,
G, H, ), trong đó G là tập các từ ngun thủy được xem là các phần tử sinh.
H = H
-
H
+

-
và H
+
tương ứng là tập các gia tử âm, dương và được xem là các
phép tốn một ngơi, quan hệ sắp thứ tự tuyến tính trên X cảm ngữ sinh từ ngữ

nghĩa của ngơn ngữ. Ví dụ dựa trên ngữ nghĩa, các quan hệ thứ tự sau là đúng: false
true, more true very true nhưng very false more false, possibly true true
nhưng false . Tập X được sinh ra từ G bởi các phép tốn trong H.
Như vậy, mỗi phần tử của X sẽ có dạng biểu diễn x=h
n
h
n-1

1
c, c G. Tập tất cả các
phần tử được sinh ra từ một phần tử x được ký hiệu là H(x). Nếu G có đúng hai từ
, thì một được gọi là ký hiệu c
+
, một gọi là 
 ký hiệu là c
-
và ta có c
-
c
+
. Trong ví dụ trên true là 
còn false là 
Về mối quan hệ giữa các gia tử chúng ta có các khái niệm sau:
(1) : Mỗi gia tử hoặc là dương, hoặc là âm đối với bất kỳ một gia tử nào khác,
kể cả chính nó.
(2) : Nếu hai khái niệm u và v độc lập, nghĩa là u H(v) và v H(u) thì
 ta có x H(v). Ngồi ra nếu u và v là khơng sánh được thì bất kỳ 
cũng khơng sánh được với bất kỳ .
(3) : Nếu    thì    và nếu h  và    thì   
với mọi gia tử . Hơn nữa hx  thì hx độc lập kx.

(4) : Nếu  và    (  ) thì u   (  ), đối với mọi gia tử h.
Định nghĩa trên mới chỉ dựa vào các tính chất ngữ nghĩa và di truyền ngữ nghĩa
của ngơn ngữ nhưng đã tạo ra cấu trúc đủ giàu để xây dựng các quan hệ đối sánh
trong mơ hình CSDL mờ.
Tiếp theo là định lý thể hiện ý nghĩa trực quan trong ngơn ngữ về tính chất di
truyền ngữ nghĩa của ngơn ngữ [2][3][8][13].
Định lý 1.1: Giả sử x = h
n

1
u và y = k
m

1
u là các biểu diễn chính tắc của x
và y đối với u. Khi đó tồn tại một chỉ số   



  sao cho với mọi i < j ta
có h
i
= k
i

(1) x < y khi và chỉ khi h
j
x
j
< k

j
x
j
, trong đó x
j
= h
j-1

1
u;
Số hóa bởi Trung tâm Học liệu />10




(2) x = y khi và chỉ khi n = m = j và h
j
x
j
= k
j
x
j
;
(3) x và y là khơng sánh được khi và chỉ khi h
j
x
j
và k
j

x
j
là khơng sánh được.
Vì tất cả các thuộc tính có miền trị chứa giá trị số trong CSDL đều tuyến tính,
nên một cách tự nhiên ta giả thiết trong chương này, ĐSGT được sử dụng là ĐSGT
tuyến tính, do đó tập H
+
và H
-
là tập sắp thứ tự tuyến tính. Như vậy, cho X = (X, G,
H, ) với G = {0, c
-
, W, c
+
, 1}, H= H
-
H
+
với giả thiết H
-
= {h
1
, h
2

p
}, H
+
=
{h

-1
, h
-2

-q
}, h
1
>h
2

p
và h
-1

-q
là dãy các gia tử, ta có các định nghĩa
liên quan như sau:
Định nghĩa 1.1: [5][6][7] Cho X = (X, G, H, ) là một ĐSGT, với mỗi   ,
độ dài của x được ký hiệu



và xác định như sau:
(1) Nếu x = c
+
hoặc x = c
-
thì




 .
(2) Nếu  thì



  



, với mọi h H.
Định nghĩa 1.2: [1][2][4] Hàm fm: X



được gọi là độ đo tính mờ trên X
nếu thỏa mãn các điều kiện sau:
(1) fm là độ đo mờ đầy đủ trên X, tức là







 






(2) Nếu x khái niệm rõ, tức là H(x) = {x} thì fm(x) = 0. Do đó
fm(0) = fm(W)= fm(1)=0.
(3) Với mọi x, y X và h H ta có





, nghĩa là tỉ số này khơng
phụ thuộc vào x và y, được kí hiệu là  gọi là độ đo tính mờ (fuzziness
measure) của gia tử h.
Trong đại số gia tử, mỗi phần tử    đều mang dấu âm hay dương, được gọi
là PN- và được định nghĩa đệ quy như sau:
Định nghĩa 1.3: [1][2][4][5] Hàm Sgn:    là một ánh xạ được định
nghĩa một các đệ quy như sau, với 

   



:
(1) Sgn(c
-
) = -1 và Sgn(c
+
) = +1.
(2) -Sgn(hx) nếu  là negative với h và  hx.
(3) nếu  là positive với h và  hx.
(4) nếu 

Số hóa bởi Trung tâm Học liệu />11




Mệnh đề 1.1: Với   , ta có:   , nếu Sgn(hx) = +1 thì hx>x, nếu
Sgn(hx) = -1 thì hx<x và nếu Sgn(hx) = 0 thì hx=x.
Để chuyển đổi một giá trị trong ĐSGT (giá trị ngơn ngữ) thành một số [0, 1] ta
sử dụng hàm định lượng ngữ nghĩa.
Định nghĩa 1.4: [3][5][9][10] Cho fm là độ đo tính mờ trên X, hàm định lượng
ngữ nghĩa  trên X được định nghĩa như sau:
(1) 



   




, 




   





và 




  






(2) Nếu      thì 





 



 










 











Nếu      thì 





 



 







 













Trong đó 









  














  

.
1.2.2. Các tính chất của độ đo tính mờ trong ĐSGT
Dựa trên cấu trúc của ĐSGT, trong đó quan hệ giữa các phần tử là quan hệ thứ
tự ngữ nghĩa, mơ hình tốn học của tính mờ và độ đo tính mờ của các khái niệm mờ
đã được định nghĩa trong các cơng trình của N.C.Ho và cộng sự, ở đây chúng tơi chỉ
trình bày một số mệnh đề và bổ đề liên quan đến hàm fm và hàm v.
Mệnh đề 1.2 [5]:
(1) fm(hx) = 



, vi   
(2) fm(c
-
) + fm(c
-
)= 1
(3)








 

, trong đó   




(4)







 

, vi   
(5)







 












, với    và     
Bổ đề 1.1: Cho fm là hàm độ đo tính mờ trên X và hàm định lượng ngữ nghĩa v
trên X gắn với fm. Khi đó tồn tại một phân hoạch gắn fm sao cho phát biểu sau là
đúng,    v(x)  thành hai đoạn con tỷ lệ . Và nếu Sgn(h
1
x) = 1 thì
Số hóa bởi Trung tâm Học liệu />12




đoạn con tương ứng với  lớn hơn đoạn con tương ứng với  và nếu Sgn(h
1
x) = -1
thì đoạn con tương ứng với  nhỏ hơn đoạn con tương ứng với .
Định lý 1.2: [5][9] Cho X = (X, G, H, ) là một ĐSGT tuyến tính. Ta có các

phát biểu sau:
(1) Với , H(x) là tập sắp thứ tự tuyến tính.
(2) Nếu G là tập sắp thứ tự tuyến tính thì H(G) cũng sắp thứ tự tuyến tính.
Trong ĐSGT tuyến tính, bổ sung thêm vào hai phép tính và với ngữ nghĩa
là cận trên đúng và cận dưới đúng của tập H(x), khi đó ĐSGT tuyến tính được gọi là
ĐSGT tuyến tính đầy đủ.
Cho một ĐSGT tuyến tính đầy đủ   , trong đó
Dom() = X là miền các giá trị ngơn ngữ của thuộc tính ngơn ngữ  được sinh từ
tập các phần tử sinh G = {0, c
-
, W, c
+
, 1} bằng việc tác động các gia tử trong tập H,
, và là hai phép tính với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập
H(x), tức là

   H(x) and   , quan hệ là quan
hệ sắp thứ tự tuyến tính trên X cảm sinh từ ngữ nghĩa của ngơn ngữ.
1.3. MƠ HÌNH BIỂU DIỄN CSDL MỜ THEO CÁCH TIẾP CẬN ĐSGT
Xét một lược đồ CSDL trên miền vũ trụ U={A
1
, A
2
, …, A
n
}. Mỗi thuộc tính A
i

được gắn với một miền trị thuộc tính, ký hiệu là Dom(A
i

), trong đó một số thuộc
tính cho phép nhận các giá trị ngơn ngữ trong lưu trữ hay trong các câu truy vấn và
được gọi là thuộc tính mờ. Các thuộc tính còn lại được gọi là thuộc tính kinh điển.
Thuộc tính kinh điển A
i
sẽ được gắn một miền giá trị kinh điển 


và một miền giá
trị ngơn ngữ 


hay là tập các phần tử của một ĐSGT. Xem giá trị ngơn ngữ như
là một phần tử của ĐSGT. Để bảo đảm tính nhất qn trong xử lý ngữ nghĩa dữ liệu
trên cơ sở thống nhất kiểu dữ liệu của thuộc tính mờ, mỗi thuộc tính mờ sẽ được
gắn với một ánh xạ định lượng ngữ nghĩa ĐSGT.
Theo cách tiếp cận này giá trị ngơn ngữ là dữ liệu, khơng phải là nhãn của các
tập mờ biểu diễn ngữ nghĩa của giá trị ngơn ngữ và ưu điểm cơ bản của nó là việc
cho phép tìm kiếm, đánh giá ngữ nghĩa của thơng tin khơng chắc chắn chỉ bằng thao
các thao tác dữ liệu kinh điển thường dùng và do đó bảo đảm tính thuần nhất của
kiểu dữ liệu trong xử lý ngữ nghĩa của chúng.
Số hóa bởi Trung tâm Học liệu />13




Vì tất cả các thuộc tính có miền trị chứa giá trị số trong CSDL đều tuyến tính,
nên một cách tự nhiên ta giả thiết ĐSGT được sử dụng là ĐSGT tuyến tính, do đó
tập H
+

và H
-
là tập sắp thứ tự tuyến tính. Như vậy, cho X = (X, G, H, ) với G = {0,
c
-
, W, c
+
, 1},   

 

với giả thiết H
-
={h
1
, h
2
,…, h
p
}, H
+
= {h
-1
, h
-2
,…, h
-qq
}
thỏa h
1

> h
2
>…> h
p
và h
-1
< h
-2
<…< h
-q
là dãy các gia tử.
Cho một ĐSGT tuyến tính đầy đủ = (X, G, C, H,

,

,), trong đó




  là miền các giá trị ngơn ngữ của thuộc tính ngơn ngữ  được sinh ra
từ tập các phần tử sinh G = {0, c
-
, W, c
+
, 1} bằng việc tác động các gia tử trong tập
 và là hai phép tính với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập
H(x), tức là

   and   , quan hệ là quan

hệ sắp thứ tự tuyến tính trên X cảm sinh từ ngữ nghĩa của ngơn ngữ [5].
1.3.1. Ngữ nghĩa dữ liệu dựa trên việc định lượng ĐSGT
1.3.1.1. t v
Cho một CSDL DB = {U; R
1
, R
2
, …, R
n
; Const}, với U = {A
1
, A
2
, …, A
n
} là tập
vũ trụ các thuộc tính, R
1
, R
2
, …, R
n
là lược đồ xác định trên U, Const là tập ràng
buộc trong CSDL. Mỗi thuộc tính A
i
được gắn với một miền trị, ký hiệu là 


.
Thuộc tính mờ A

i
sẽ được gắn với miền giá trị kinh điển 


và một miền giá trị
ngơn ngữ 


. Như vậy, ta có 




=


 


, với 


là tập các giá trị kinh
điển của A
i
, 


là tập các giá trị ngơn ngữ của A
i

. Tuy nhiên, để rút gọn khi trình
bày, trong chương này nếu cho U = {A
1
, A
2
, …, A
n
} thì ta cũng gọi U là một lược
đồ quan hệ.
1.3.1.2. Ng  liu da trên vi
Trong phần này, các khái niệm như: bằng nhau theo mức k, khác nhau theo mức
k và bé hơn theo mức k được trình bày. Về ngun tắc, chúng ta có thể định nghĩa
với mức k là số ngun dương bất kỳ. Tuy nhiên, trong ngơn ngữ tự nhiên, người ta
thường sử dụng một số gia tử tác động liên tiếp, điều này dẫn đến trong CSDL chỉ
có một số giới hạn các gia tử tác động liên tiếp vào phần tử sinh khơng vượt q p
Số hóa bởi Trung tâm Học liệu />14




cho trước. Do đó, trong chương này, giá trị k được xét là     , với k, p
ngun.
Vì tính mờ của các giá trị trong ĐSGT là một đoạn con của [0, 1] cho nên họ các
đoạn con như vậy của các giá trị có cùng độ dài sẽ tạo thành phân hoạch của [0, 1].
Phân hoạch ứng với các giá trị có độ dài từ lớn hơn sẽ mịn hơn và khi độ dài lớn vơ
hạn thì độ dài của các đoạn trong phân hoạch giảm dần về 0. Do đó, các phân hoạch
được xây dựng dựa trên tính mờ các giá trị trong ĐSGT hay là dựa trên tính mờ các
giá trị trong Dom(A
i
).

Với A
i
là thuộc tính mờ, để đối sánh hai giá trị trong Dom(A
i
) ta xây dựng phân
hoạch của Dom(A
i
). Nếu đặt miền giá trị kinh điển 



 , bằng một phép
biến đổi tuyến tính hoặc sử dụng một hàm chuyển đổi nào đó thì ta có thể xem mỗi




 . Do đó, xây dựng phân hoạch của Dom(A
i
) trở thành xây dựng phân
hoạch của [0, 1].
Định nghĩa 1.5: [5] Cho 

   



 , xét 

 




  

 là một
phân hoạch của [0, 1]. Gọi  là hàm định lượng ngữ nghĩa trên X.
(1) u bằng v theo mức k, được ký hiệu u=
k
v, khi và chỉ khi I(u) và I(v) cùng
chứa trong một khoảng mờ mức k. Có nghĩa là với    

  




  

và   

.
(2) u khác v theo mức k, được ký hiệu  

, khi và chỉ khi I(u) và I(v) khơng
cùng chứa trong một khoảng mờ mức k.
(3) u nhỏ hơn v theo mức k, được ký hiệu u<
k
v, khi và chỉ khi I(u) và I(v) khơng
cùng chứa trong một khoảng mờ mức k và (u) < (v).

Ví dụ 1.1: Cho ĐSGT X = (X, G, H, ), trong đó   

 

, H
+
= {,
},  <  H
-
={}, ít >  G = {}. Ta có P
1
= {I(),
I(già)} là một phân hoạch của [0, 1]. Tương tự, P
2
= { I(), I(), I(),
I(), I(), I(), I(ít già), I()} là một phân hoạch
của [0, 1].
Số hóa bởi Trung tâm Học liệu />15




(a) Ta có P
1
là phân hoạch của [0, 1]. Do đó =
1
rt tr vì 

 







  

và   

.
Ta có P
2
là phân hoạch của [0, 1]. Do đó ít già=
2
rt ít già vì 

 






  

và   

.
(b) Ta có P
2

là phân hoạch của [0, 1]. Chọn 

   

, ta có
  

và   

(1’)
Mặt khác với mọi 

   

, ta có   

và  


(2’).
Từ (1’) và (2’) suy ra  

. Hơn nữa, vì  

 và




  nên  


.
Bổ đề 1.2: Quan hệ =
k
là một quan hệ tương đương trong P
k
.
Bổ đề 1.3: [5] Cho   



 và   



 là biểu diễn chính tắc của u
và v đối với x.
(1) : Nếu u = v thì u =
k
v với mọi k.
(2) : Nếu 

 

thì u =
|x|
v.
Ví dụ 1.2: Cho u = r và v t tr. Ta có h
1
= 

1
= rt,
x = tr. Vì 

 

nên theo tính chất (2) của Bổ đề 1.3 ta có u =
||
v, hay u =
1
v.
Định lý 1.3: [5] Cho 

   



 , xét 

 



  

 là một
phân hoạch của [0,1], u = h
n

1

x và v= 
m

1
x là biểu diễn chính tắc của u và v
đối với x.
(1) Nếu u =
k
v thì u =

v,   

 .
(2) Nếu tồn tại một chỉ số    lớn nhất sao cho mọi    ta có


 

thì  




.
Ví dụ 1.3: Cho u = rt rt tr và v   t tr. Ta có h
1
= rt, h
2
= rt,


1
= r
2
= = tr. Ta thấy tồn tại chỉ số j = 1 lớn nhất sao cho 

 

, do
đó theo tính chất (2) của Định lý 1.3 ta có u =
j+||
v, hay u =
2
v.
Hệ quả 1.1: Nếu    thì u=
|v|
v.
Số hóa bởi Trung tâm Học liệu />16




Ví dụ 1.4: Cho u = rt rt tr và v = rt tr. Vì    nên theo Hệ quả 1.1
ta có u =
tr|
v, hay u =
2
v.
Bổ đề 1.4: Cho 

   




 , xét 

 



  

 là một phân
hoạch của [0, 1],   



 và   



 là biểu diễn chính tắc của u và v
đối với x.
(1) Nếu tồn tại chỉ số    lớn nhất sao cho u =
k
v thif  


(2) Nếu  

 hoặc  


 thì với   , với    ta có  


hoặc  

.
Ví dụ 1.5: Cho u = rt rt tr và v = t tr. Theo Ví dụ 1.4 ta có u =
2
v
nên theo bổ đề 1.3 ta có  

.
1.3.2. Xấp xỉ dữ liệu mờ theo cách tiếp cận ĐSGT
Trong mục này, sẽ trình bày một phương pháp để xấp xỉ dữ liệu trên miền trị của
thuộc tính mờ trong quan hệ của cơ sở dữ liệu mờ. Việc đánh giá dữ liệu trên miền
trị thuộc tính mờ của quan hệ trong cơ sở dữ liệu mờ theo cách tiếp cận đại số gia tử
được xây dựng dựa trên phân hoạch tính mờ của các giá trị trong đại số gia tử (giá
trị ngơn ngữ). Như vậy, nếu gọi Dom(A
i
) là miền trị tương ứng với thuộc tính mờ A
i

và xem như một đại số gia tử thì khi đó Dom(A
i
) = Num(A
i
)

LV(A

i
), với Num(A
i
)
là tập các giá trị số của A
i
và LV(A
i
) là tập các giá trị ngơn ngữ của A
i
. Để xấp xỉ dữ
liệu, ta xét hai trường hợp sau:
1.3.2.1. Min tr ca thuc tính trong quan h là giá tr ngơn ng
Trong trường hợp này chúng ta đi xây dựng các phân hoạch dựa vào tính mờ của
các giá trị ngơn ngữ.
Vì tính mờ của các giá trị trong đại số gia tử là một đoạn con của [0,1] cho nên
họ các đoạn con như vậy của các giá trị có cùng độ dài sẽ tạo thành phân hoạch của
[0,1]. Phân hoạch ứng với các giá trị độ dài từ lớn hơn sẽ mịn hơn và khi độ dài lớn
vơ hạn thì độ dài của các đoạn trong phân hoạch giảm dần về 0.
Định nghĩa 1.6: [11][12] Gọi fm là độ đo tính mờ theo ĐSGT X. với mỗi x

X,
ta ký hiệu I(x)  [0,1] và I(x) là độ dài của I(x).
Số hóa bởi Trung tâm Học liệu />17




Một họ các


= {I(x): x

X} được gọi là phân hoạch của [0,1] gắn với x nếu:
(1). {I(c
+
)), I(c
-
)} là phân hoạch của [0,1] sao cho

I(c)

= fm(c), với c

{c
+
,c
-
}.
(2). Nếu đoạn I(x) đã được định nghĩa và

I(x)

= fm(x), thì {I(h
i

được định nghĩa là phân hoạch của I(x) sao cho thỏa mãn điều kiện I(h
i
x) = fm(h
i
x)

và I(h
i
x) là tập sắp thứ tự tuyến tính.
Tập {I(h
i
x)} được gọi là phân hoạch gắn với phần tử x, ta có
1
( ) ( ) ( ).
pq
i
i
I h x I x fm x





Định nghĩa 1.7: [8] Cho
{ ( ): }
kk
P I x x X
với
{ : =k}
k
X x X x
là một phân
hoạch. Ta nói rằng u xấp xỉ v theo mức k trong P
k
được ký hiệu u 
k

v khi và chỉ
khi I(u) và I(v) cùng thuộc một khoảng trong P
k
. Có nghĩa là

u, v

X, u 
k
v



k


P
k
: I(u)



k
và I(v)



k
.
Ví dụ 1.6: Cho đại số gia tử

X
= (X, G, H, ), trong đó H = H
+
 H
-
, H
+

= {hơn, rất}, hơn<rất, H
-
= {ít, khả năng}, ít>khả năng, G = {trẻ, già}. Ta có P
1
=
{I(trẻ, I(già)} là một phân hoạch của [0,1]. Tương tự, P
2
= {I(hơn trẻ), I(rất trẻ), I(ít
trẻ), I(ít trẻ), I(khả năng trẻ), I(hơn già), I(rất già), I(rất già), I(khả năng già)} là
phân hoạch của [0,1].
Ví dụ 1.7: Theo Ví dụ 1.6, P
1
là phân hoạch của [0,1]. Ta có hơn trẻ 
1
rất trẻ vì

1
= I(trẻ)  P
1
mà I(hơn trẻ)  
1
và I(rất trẻ)  

1
. P
2
là phân hoạch của [0,1], ta
có ít già 
2
rất ít già vì 
2
= I(ít già)  P
2
mà I(ít già)  
2
và I(rất ít già)  
2
.
Định nghĩa 1.8: Xét P
k
= {I(x) : x

X
k
với X
k

= {x

X : x = k} là một phân
hoạch. Ta nói rằng u khơng xấp xỉ v mức k trong P
k
được ký hiệu u


k v

k


P
k
; I(u)



k
hoặc I(v)



k
.
Ví dụ 1.8: Theo Ví dụ 1.6, P
2
= {I(hơn trẻ), I(rất trẻ), I(ít trẻ), I(khả năng trẻ),
I(hơn già), I(rất già), I(ít già), I(khả năng già)} là phân hoạch của [0,1]. Chọn

2
= I(rất trẻ)  P
2
, ta có I(ít trẻ)  
2
và I(rất trẻ) 

2
(1’). Mặt khác với mọi

2
 I(ít trẻ)  P
2
ta có I(ít trẻ)  
2
và I(rất trẻ))  
2
(2’). Từ (1’) và (2’) ta suy ra
ít trẻ 
2
rất trẻ.
Số hóa bởi Trung tâm Học liệu />

×