Tải bản đầy đủ (.pdf) (79 trang)

Đề xuất cải tiến thuật toán tìm kiếm trong cơ sở dữ liệu mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 79 trang )

i NGUYÊN
ĐẠI HỌC THÁI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN THANH TÂN

ĐỀ XUẤT CẢI TIẾN THUẬT TOÁNTÌM KIẾM
TRONG CƠ SỞ DỮ LIỆU MỜ

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2016


ii NGUYÊN
ĐẠI HỌC THÁI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN THANH TÂN

ĐỀ XUẤT CẢI TIẾN THUẬT TOÁNTÌM KIẾM
TRONG CƠ SỞ DỮ LIỆU MỜ

Chuyên ngành: Khoa học máy tính
Mã số: 60480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS. NGUYỄN THIỆN LUẬN


Thái Nguyên - 2016


i
LỜI CAM ĐOAN

Tôi xin cam đoan những nội dung trong luận văn “Đề xuất cải tiến thuật
toán tìm kiếm trong cơ sở dữ liệu mờ” là do tôi thực hiện dưới sự hướng dẫn
trực tiếp của thầy giáo PGS. TS. Nguyễn Thiện Luận.
Mọitham khảo dùngtrongluận văn đều đượctrích dẫnrõràngtêntác giả,tên
công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợplệ, vi phạm quy chế đàotạo, hay giantrá, tôi xin
chịu trách nhiệm hoàn toàn.
Thái Nguyên, ngày 12 tháng 5 năm 2016
Học viên

Nguyễn Thanh Tân


ii
LỜI CẢM ƠN

Em xin bày tỏ lòng biết ơn sâu sắc tới PGS. TS. Nguyễn Thiện Luận
người thầy kính mến đã hướng dẫn, chỉ dạy tận tình để em hoàn thành luận
văn này. Em xin chân thành cảm ơn các thầy, cô giáo trường Đại học Công
nghệ thông tin và Truyền thông Thái Nguyên, Khoa đào tạo sau đại học - Đại
học Thái Nguyên, Viện Công nghệ thông tin Việt Nam đã đón nhận và truyền
thụ kiến thức cho em trong suốt quá trình học tập vừa qua.
Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những
người thân đã cùng chia sẻ, giúp đỡ, động viên và tạo mọi điều kiện thuận lợi

để tôi hoàn thành nhiệm vụ học tập và bản luận văn này.
Thái Nguyên, ngày 12 tháng 5 năm 2016
Học viên
Nguyễn Thanh Tân


iii
DANH MỤC TỪ TIẾNG ANH VÀ VIẾT TẮT

ANN
BK - trees
Codd E. F.
Damerau - Levenshtein distance
DoG
Episode
Full text search
Fuzzy Databases
Fuzzy join
Fuzzy Natural joint
Fuzzy projection
Fuzzy Search
Fuzzy Selection
Fuzzy Sets
Frame
Incomplete
Information Retrieval
KD - tree
Keypoint
Keypoint localization
Keypoint descriptor

L.A. Zadeh
Levenshtein distance
Lia, shot
Match
Necessity
Optical flow
Orientation assignment
Panning
Possibility

Approximative Nearest Neibour
Cây Burkhard - Keller
Edgar Frank "Ted" Codd
Khoảng cách Damerau - Levenshtein
Deffirence of Gaussisan
Một hồi
Tìm kiếm toàn văn
Cơ sở dữ liệu mờ
Phép kết nối mờ
Phép kết nối tự nhiên mờ
Phép chiếu mờ
Tìm kiếm mờ
Phép chọn mờ
Tập mờ
Khung hình
Không đầy đủ
Hệ thống tìm kiếm thông tin hỗ trợ
short for k-dimensional tree
Điểm quan trọng
Định vị điểm đặc trưng

Mô tả các điểm đặc trưng
Lotfi Aliasker Zadeh
Khoảng cách Levenshtein
Đoạn cơ sở
Đối sánh
Tất yếu
Dòng quang học
Xác định hướng
Chỉ sự quay trái, phải của máy quay
Khả năng


iv
Process
RGB
Scale
Scale - Space extrema detection
Scene
Sequence
SIFT
Spell - checker method
Task
TFN
uncertainty
unexact
Weighted tuples

Tiến trình
Red, Green, Blue
Tỉ lệ

Phát hiện các điểm cực trị
Cảnh
Chuỗi video, dãy video
Scale Invariant Feature Transform
Phương pháp kiểm tra chính tả
Tác vụ
Triangular Fuzzy Number
Không chắc chắn
Không chính xác
Bộ có trọng số


v
DANH MỤC BẢNG VÀ HÌNH VẼ
Hình 1.1:Biểu diễn các miền của một tập mờ ............................................................... 6
Hình 1.2: Biểu diễn các hàm liên thuộc của phép lấy phần bù .................................... 8
Hình 1.3: Các tập mờ hình tam giác .............................................................................. 9
Hình 1.4: Tập mờ Singleton ........................................................................................... 9
Hình 1.5: Tập mờ L (phải) ............................................................................................. 9
Hình 1.6: Tập mờ Gamma tuyến tính .......................................................................... 10
Hình 1.7: Tập mờ hình thang ....................................................................................... 10
Hình 2.1: Biểu diễn số mờ tam giác ............................................................................ 24
Hình 2.2: Minh họa các bước chính trong giải thuật SIFT ........................................ 26
Hình 2.3: Quá trình tính không gian đo (L) và hàm sai khác D ..................................... 28
Hình 2.4: Quá trình tìm điểm cực trị trong các hàm sai khác DoG ........................... 29
Hình 2.5: Mô phỏng công thức mở rộng của Taylor cho hàm DoG.......................... 30
Hình 2.6:Minh họa các bước của quá trình lựa chọn các điểm keypoints ................ 32
Hình 2.7: Tính độ lớn và hướng của Gradient ............................................................ 34
Hình 2.8: Tạo bộ mô tả cục bộ ..................................................................................... 35
Hình 2.9: Mô hình dữ liệu video .................................................................................. 37

Hình 2.10: Sơ đồ khối thuật toán phát hiện chuyển cảnh ........................................... 39
Hình 3.1: Mô hình bài toán tìm kiếm video trong CSDL........................................... 46
Hình 3.2: Quy trình tìm kiếm video bằng hình ảnh trong CSDL .............................. 47
Hình 3.3: Mô phỏng các điểm keypoint cần lưu trữ ................................................... 48
Hình 3.4: Biểu diễn các tình huống trong trường hợp thông thường ........................ 50
Hình 3.5: Biểu diễn các tình huống trong trường hợp xấu ......................................... 51
Hình 3.6: Sơ đồkhối đối sánh 2 số mờ tam giác ......................................................... 55
Hình 3.7: Giao diện chương trình phân đoạn và mờ hóa video ................................. 56
Hình 3.8: Giao diện chương trình Smart Cutter for DV and DVB ............................ 57
Hình 3.9: Mô hình lập trình socket TCP giữa 2 tiến trình client và server .............. 59
Hình 3.10: Giao diện chương trình tìm kiếm video .................................................... 61
Bảng dữ liệu thông tin Video ....................................................................................... 53
Bảng dữ liệu Video shot ............................................................................................... 54
Bảng kết quả đánh giá hiệu năng tìm kiếm ................................................................. 62


vi
MỤC LỤC

LỜI CAM ĐOAN ........................................................................................................... i
LỜI CẢM ƠN ............................................................................................................... ii
DANH MỤC TỪ TIẾNG ANH VÀ VIẾT TẮT..................................................... iii
DANH MỤC BẢNG VÀ HÌNH VẼ ........................................................................... v
MỤC LỤC .................................................................................................................... vi
MỞ ĐẦU ........................................................................................................................ 1

1. Đặt vấn đề .................................................................................................................. 1
2. Đối tượng và phạm vi nghiên cứu......................................................................... 2
3. Hướng nghiên cứu của đề tài ................................................................................. 2
4. Những nội dung nghiên cứu chính........................................................................ 3

5. Phương pháp nghiên cứu ........................................................................................ 3
6. Ý nghĩa khoa học của đề tài ................................................................................... 4
CHƯƠNG 1: TỔNG QUAN VỀ LÝ THUYẾT MỜ CSDL MỜ VÀ ỨNG DỤNG....... 5

1.1. Tổng quan về lý thuyết mờ ................................................................................. 5
1.1.1. Khái niệm tập mờ........................................................................................... 5
1.1.2. Một số khái niệm của tập mờ ..................................................................... 5
1.1.3. Các phép toán trên tập mờ............................................................................ 6
1.1.4. Các kiểu hàm thuộc ....................................................................................... 9
1.1.5. Các loại số mờ ............................................................................................. 11
1.2. Cở sở dữ liệu mờ, phương thức biểu diễn và ứng dụng ............................. 12
1.2.1. Định nghĩa .................................................................................................... 12
1.2.2. Biểu diễn thuộc tính trong quan hệ mờ ................................................... 13
1.2.3. So sánh các giá trị thuộc tính mờ ............................................................. 13
1.2.4. Các phép toán tập hợp trên quan hệ mờ ........................................... 15
1.2.5. Các phép toán quan hệ mờ ........................................................................ 15
1.2.6. Phụ thuộc hàm mờ ...................................................................................... 16
1.2.7. Các mô hình cơ sở dữ liệu mờ .................................................................. 17
a. Mô hình tập con mờ ....................................................................................... 17


vii
b. Mô hình dựa trên quan hệ tương tự ............................................................ 17
c. Mô hình dựa trên phân bố khả năng ........................................................... 18
d. Mô hình dựa trên phân bố khả năng mở rộng ........................................... 18
e. Mô hình CSDL mờ dựa trên tổ hợp các mô hình trên ............................. 18
f. Mô hình theo cách tiếp cận đại số gia tử .................................................... 19
1.3. Tổng quan về phương pháp tìm kiếm mờ ..................................................... 19
1.3.1. Khoảng cách Levenshtein ......................................................................... 20
1.3.2. Khoảng cách Damerau - Levenshtein ..................................................... 20

1.3.3. Thuật toán Bitap với những thay đổi của Wu và Manber ................... 21
1.3.4. Phương pháp kiểm tra chính tả................................................................. 22
1.3.5. Phương pháp N-gram ................................................................................. 22
1.3.6. Cây - BK (BK - trees) ................................................................................ 22
1.4. Kết luận chương ................................................................................................. 23
CHƯƠNG 2: THUẬT TOÁN TÌM KIẾM TRONG CSDL MỜ ................................ 23

2.1. Số mờ tam giác................................................................................................... 24
2.1.1. Các phép toán trên số mờ tam giác.......................................................... 24
2.1.2. Quan hệ so sánh trên số mờ tam giác ...................................................... 25
2.2. Tổ chức dữ liệu cho thuật toán tìm kiếm dữ liệu mờ .................................. 26
2.2.1. Đối sánh ảnh dựa trên đặc trưng SIFT .................................................... 26
a. Phát hiện các điểm cực trị ............................................................................. 27
b. Định vị các điểm đặc trưng .......................................................................... 31
c. Xác định hướng cho các điểm đặc trưng.................................................... 34
d. Mô tả các điểm đặc trưng ............................................................................. 35
e. Đối sánh đặc trưng SIFT ............................................................................... 37
2.2.2. Phân đoạn dữ liệu video ............................................................................ 38
a. Mô hình dữ liệu video ................................................................................... 38
b. Một số kỹ thuật phân đoạn video ................................................................ 39
c. Kỹ thuật phân đoạn video bằng đối sánh đặc trưng SIFT....................... 40
d. Tóm tắt video .................................................................................................. 41


viii
2.3. Cải tiến thuật toán tìm kiếm dữ liệu mờ ........................................................ 42
2.3.1. Thuật toán tìm kiếm ................................................................................... 42
2.3.2. Thuật toán tìm kiếm dữ liệu mờ ............................................................... 44
2.3.3. Đánh giá thuật toán tìm kiếm ................................................................... 44
2.4. Kết luận chương ................................................................................................. 45

CHƯƠNG 3: CÀI ĐẶT THUẬT TOÁN TÌM KIẾM ................................................. 46

3.1. Phân tích một số nhu cầu tìm kiếm video trong CSDL .............................. 46
3.2. Thiết kế mô hình bài toán tìm kiếm trong CSDL ........................................ 47
3.2.1. Mô hình bài toán tìm kiếm video ............................................................. 47
3.2.2. Quy trình tìm kiếm video theo hình ảnh ................................................. 48
3.2.3. Quy trình sử dụng logic mờ ...................................................................... 49
3.2.4. Mở rộng csdl quan hệ thành csdl mờ dựa trên phân bố khả năng ..... 50
a. Bộ có trọng sốtrong quan hệ mờ ................................................................. 50
b. Biểu diễn dữ liệu mờ bằng phân bố khả năng .......................................... 51
c. Mối quan hệ với dạng chuẩn 1NF ............................................................... 54
d. Độ đo khả năng và độ đo cần thiết.............................................................. 54
3.3. Cài đặt thuật toán tìm kiếm mờ và một số giao diện chính........................ 55
3.3.1. Lựa chọn công cụ ........................................................................................ 55
3.3.2. Thiết kế cơ sở dữ liệu ................................................................................. 55
3.3.3. Cài đặt thuật toán tìm kiếm và một số giao diện chính........................ 56
a. Kỹ thuật đối sánh hai số mờ tam giác ........................................................ 56
b. Cài đặt thuật toán phân đoạn video............................................................. 57
c. Cài đặt thuật toán trích chọn frame đại diện và mờ hóa video .............. 59
d. Kỹ thuật khởi tạo các tiến trình và trao đổi dữ liệu ................................. 60
e. Cài đặt thuật toán tìm kiếm dữ liệu mờ ...................................................... 62
3.3.4. Thử nghiệm và đánh giá ............................................................................ 64
3.4. Kết luận chương ................................................................................................. 64
KẾT LUẬN ................................................................................................................... 65
TÀI LIỆU THAM KHẢO ............................................................................................ 67


1
MỞ ĐẦU


1. Đặt vấn đề
Ngày nay, cùng với sự phát triển nhanh chóng của Công nghệ tin học thì
khối lượng dữ liệu rất lớn với sự phong phú, đa dạng và phức tạp của nhiều
loại hình thông tin như: văn bản, hình ảnh, âm thanh, video được thu thập và
lưu trữ dưới dạng số ngày càng nhiều. Tương ứng với khối lượng dữ liệu
khổng lồ đó, người ta quan tâm nhiều đến cơ sở dữ liệu mờ (Fuzzy
Databases)trong khoa học công nghệ và trong thực tiễn. Với hệ thống cơ sở
dữ liệu mờ, bao gồm các trường dữ liệu truyền thống và phi truyền thống dưới
dạng hình ảnh, video, audio và văn bảnđang có xu thế thâm nhập vào rất
nhiều lĩnh vực và đang dần trở thành hệ cơ sở dữ liệu được quan tâm từ người
sử dụng và các chuyên gia trong vấn đề lưu trữ, xử lý và ứng dụng. Với khối
lượng dữ liệu lớn này dẫn tới việc tìm kiếm dữ liệu trở nên khó khăn vì vậy
cần có các hệ thống tìm kiếm thông tin (Information Retrieval) hỗ trợ người
dùng tìm kiếm một cách chính xác và nhanh chóng các thông tin mà họ cần
trên kho tư liệu khổng lồ này.
Cho đến nay, vấn đề tìm kiếm thông tin theo điều kiện tìm kiếm mờ
trong cơ sở dữ liệu vẫn được các chuyên gia nghiên cứu, trong việc truy tìm
thông tin phù hợp với yêu cầu của một truy vấn đưa ra từ người sử
dụng.Người sử dụng có xu hướng tìm kiếm chủ yếu trong cơ sở dữ liệu, ví dụ
như tìm kiếm một loạt hình ảnh cổ vật liên quan đến nền văn hoá cổ Việt
Nam, tìm kiếm dữ liệu âm thanh có bản text kèm theo, tìm kiếm video bài
giảng cho học sinh ôn thi đại học.
Bài toán tìm kiếm thông tin trong cơ sở dữ liệu đóng vai trò quan trọng
là bài toán so mẫu, với mẫu có thể ở bất kỳ kiểu dữ liệu nào, từ văn bản đến
các loại dữ liệu đa phương tiện khác (hình ảnh, video, âm thanh, ...). Trong


2
các bài toán tìm kiếm, để tìm kiếm nhanh đáp ứng được nhu cầu và không chỉ
tìm kiếm cứng nhắc với từ khoá đưa ra. Người dùng mong muốn có thể tìm

được cả những thông tin liên quan gợi ý cho người dùng. Vậy bài toán tìm
kiếm trong cơ sở dữ liệu mờ theo điều kiện tìm kiếm mờ là rất cần thiết. Do
đó cần phải xây dựng các thuật toán mềm dẻo cho phép phát huy được sức
mạnh của tìm kiếm với điều kiện tìm kiếm mờ và đặc biệt cho phép sử dụng
được nguồn tri thức giàu tính chuyên gia trong những tính huống tìm kiếm
phức tạp.
Để tìm kiếm những thông tin với điều kiện tìm kiếm mờ trong mô hình
cơ sở dữ liệu có cấu trúc gồm các trường dữ liệu truyền thống và phi truyền
thống, có nhiều hướng tiếp cận khác nhau như cách tiếp cận theo lý thuyết tập
mờ, theo phân bố khả năng, theo quan hệ tương tự,... Tất cả các cách tiếp cận
này nhằm mục đích nắm bắt và xử lý một cách thỏa đáng các thông tin không
đầy đủ (incomplete), thông tin không chính xác (unexact), hay những thông
tin không chắc chắn (uncertainty).
Vì vậy, luận văn tập trung nghiên cứu về “Cải tiến thuật toán tìm kiếm
trong cơ sở dữ liệu mờ”.
2. Đối tượng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu của luận văn tập trung vào các phương
pháp và giải pháp để tìm kiếm thông tin theo điều kiện tìm kiếm mờ (chứa
đựng các thông tin không chắc chắn) trong cơ sở dữ liệu có cấu trúc gồm các
trường dữ liệu truyền thống và phi truyền thống như: file text, file ảnh, video.
3. Hướng nghiên cứu của đề tài
- Tìm hiểu về lý thuyết mờ và ứng dụng.
- Tìm hiểu về cơ sở dữ liệu mờ và ứng dụng.


3
- Tìm hiểu các kỹ thuật và quy trình tìm kiếm thông tin trong cơ sở
dữ liệu mờ với các yêu cầu tìm kiếm chứa đựng thông tin không rõ ràng
không chính xác.
- Cải tiến thuật toán tìm kiếm trong cơ sơ dữ liệu mờ.

4. Những nội dung nghiên cứu chính
Luận văn được trình bày trong 3 chương, có phần mở đầu, phần kết luận,
phần mục lục, phần tài liệu tham khảo và phần danh mục bảng và hình vẽ.
Các nội dung cơ bản của luận văn được trình bày theo cấu trúc như sau:
Chương 1: Tổng quan về lý thuyết mờ, cơ sở dữ liệu mờ và ứng dụng
1.1. Tổng quan về lý thuyết mờ
1.2. Cở sở dữ liệu mờ, phương thức biểu diễn và ứng dụng
1.3. Tổng quan về phương pháp tìm kiếm mờ
1.4. Kết luận chương
Chương 2: Thuật toán tìm kiếm trong cơ sở dữ liệu mờ
2.1. Số mờ tam giác
2.2. Tổ chức dữ liệu cho thuật toán tìm kiếm dữ liệu mờ
2.3. Cải tiến thuật toán tìm kiếm dữ liệu mờ
2.4. Kết luận chương
Chương 3:Cài đặt thuật toán tìm kiếm trong cơ sở dữ liệu quản lý các
chương trình truyền hình Đài PT-TH tỉnh Hòa Bình.
3.1. Phân tích một số nhu cầu tìm kiếm video trong CSDL quản lý các
chương trình truyền hình.
3.2. Thiết kế mô hình bài toán tìm kiếm trong CSDL mờ quản lý các
chương trình truyền hình.
3.3. Cài đặt thuật toán tìm kiếm mờ và một số giao diện chính.
3.4. Kết luận chương.
5. Phương pháp nghiên cứu


4
Sử dụng các phương pháp nghiên cứu chính sau:
- Phương pháp nghiên cứu lý thuyết: Phân tích, liệt kê, đối sánh, nghiên
cứu tài liệu, tổng hợp các kết quả của các nhà nghiên cứu liên quan đến lĩnh
vực nghiên cứu.

- Phương pháp trao đổi khoa học, lấy ý kiến chuyên gia.
- Phương pháp thực nghiệm: Cài đặt thử nghiệm thuật toán cho bài toán
tìm kiếm với điều kiện tìm kiếm mờ trong cơ sở dữ liệu mờ quản lý các
chương trình truyền hình.
6. Ý nghĩa khoa học của đề tài
- Giúp tìm hiểu, đánh giá khái quát về hệ cơ sở dữ liệu mờ, các thuật
toán tìm kiếm với điều kiện tìm kiếm mờ.
- Vận dụng tốt thuật toán tìm kiếm với điều kiện tìm kiếm mờ, giúp
chúng ta có thể dễ dàng tìm kiếm những nội dung trong cơ sở dữ liệu.
- Xây dựng cơ sở khoa học cho các bài toán tìm kiếm trong cơ sở dữ
liệu.


5

CHƯƠNG 1: TỔNG QUAN VỀ LÝ THUYẾT
MỜCƠ SỞ DỮ LIỆU MỜ VÀ ỨNG DỤNG

1.1. Tổng quan về lý thuyết mờ[5]
L.A. Zadeh là người sáng lập ra lý thuyết tập mờ với hàng loạt bài báo
mở đường cho sự phát triển và ứng dụng của lý thuyết này, khởi đầu là bài
báo “Fuzzy Sets” trên Tạp chí Information and Control, 8, 1965. Ý tưởng nổi
bật của khái niệm tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ
nghĩa của thông tin mờ, không chắc chắn như trẻ, nhanh, caothấp, xinh đẹp..,
ông đã tìm ra cách biểu diễn nó bằng một khái niệm toán học, được gọi là tập
mờ, như là một sự khái quát trực tiếp của khái niệm tập hợp kinh điển.
1.1.1. Khái niệm tập mờ
Tập mờ A được xác định trên không gian nền X bao gồm các phần tử, mà
mỗi phần tử là một cặp (x, µA (x)) trong đó x∈Xvà µA (x) là ánh xạ:
µA : X → [0,1]

Ánh xạ µA được gọi là hàm liên thuộc (hàm phụ thuộc hay hàm thuộc)
của tập mờ A.
1.1.2. Một số khái niệm của tập mờ
Định nghĩa 1.1.1.Độ cao của một tập mờ A trên không gian nền Xlà giá
trị = sup


( )chỉ giá trị nhỏ nhất trong các giá trị chặn trên của hàm µA

(x).
Định nghĩa 1.1.2. Miền xác định của tập mờ A trên không gian nền X
được ký hiệu bởiS là tập con của X thoả mãn:


6
S = suppµA (x) = {x ∈ X / µA (x) > 0}
Định nghĩa 1.1.3. Miền tin cậy của tập mờ tập mờ A trên không gian nền
X được ký hiệu bởiT là tập con của X thoả mãn: T = {x ∈X / µA (x) = 1}
Định nghĩa 1.1.4. Miền biên của tập mờ tập mờ A trên không gian nền X
được ký hiệu bởiU là tập con của Xthoả mãn: U = {x ∈X / 0< µA (x) < 1}

Hình 1.1: Biểu diễn các miền của một tập mờ
Định nghĩa 1.1.5. Tập cắt α (α∈ [0,1]) của tập mờ A trên không gian nền
X được ký hiệu bởiAα là tập con của Xthỏa mãnAα = {x / µA (x)≥ α} và được
gọi là tập cắt mạnh α và ký hiệu là Aα+ nếu Aα+ = {x / µA (x)>α}
Định nghĩa 1.1.6. Tập mức α, hay là tập nhát cắt - α của tập mờ tập mờ
A trên không gian nền Xký hiệu bởi Λ(A) là tập các tập con của Xthỏa mãn:
Λ(A) = {x / µA (x) = α} vớiα ∈[0,1]
Định nghĩa 1.1.7. Tập mờ A trên không gian nền X tuyến tính được gọi
là tập mờ lồi nếu Aα là tập lồi ∀ ∈ [0,1].

Định nghĩa 1.1.8. Lực lượng của tập mờ A trên không gian nền X được
biểu diễn như sau:

( ,

( )) =

1.1.3. Các phép toán trên tập mờ
a) Phép hợp hai tập mờ:

( )


7
Định nghĩa 1.1.8: Hợp của hai tập mờ A B là một tập mờ được xác
định trong không gian nền X và có hàm liên thuộcµA B (x) thỏa mãn các tiên
đề:
+ Chỉ phụ thuộc vào µA (x) và µB (x)
+ Nếu µB (x) = 0 với∀x thì µA B (x) = µA (x)
+ Có tính giao hoánµA B (x) = µB A (x)
+ Có tính kết hợpµ(A B) C (x) = µA (B C) (x)
+ Có tính không giảm (đồng biến). Nếu A1⊆A2thìA1B⊆A2B:
µA1 (x) ≤µA2 (x) ⇒µA1B (x) ≤µA2B (x)
b) Phép giao hai tập mờ:
Định nghĩa 1.1.9: Giao của hai tập mờ A và B là một tập mờ A ÇBxác
định trong không gian nền Xcó hàm liên thuộcµA ÇB (x) thỏa mãn các tiên đề:
+ Chỉ phụ thuộc vào µA (x) và µB (x)
+ Nếu µB (x) = 0 với∀x thì µA ÇB (x) = µA (x)
+ Có tính giao hoánµA ÇB (x) = µB Ç A (x)
+ Có tính kết hợpµ(A ÇB) ÇC (x) = µA Ç(B ÇC) (x)

+ Có tính không giảm (đồng biến). Nếu A1⊆A2 thìA1ÇB⊆A2ÇB:
µA1 (x) ≤µA2 (x) ⇒µA1ÇB (x) ≤µA2ÇB (x)
c. Phép bù của một tập mờ
Định nghĩa 1.1.10:Tập bù của tập mờA trên nền X là một tập mờ ( ,
µ )xác định trên không gian nền Xvới hàm liên thuộc thỏamãn các điều kiện:
+µ (x) chỉ phụ thuộc vào µA (x)
+ Nếu µA (x) = 0 thì µ (x) = 1
+ Nếu µA (x) = 1 thì µ (x) = 0
+ Nếu AB thì có µ (x) ≥ µ (x)


8
Định nghĩa 1.1.11: Tập bù của tập mờ A trên nền X là một tập mờ ( ,
µ )xác địnhtrên không gian nền Xvới hàm liên thuộcµ(µA): [0,1] → [0,1] thỏa
mãn các điều kiện sau:
+ µ(0) = 1
+ µ(1) = 0
+ µA≤µB⇒µ(µA) ≥µ(µB)
Nếu hàm một biến µ(µA) còn thỏamãn thêm điều kiện
+Liên tục và µA<µB⇒µ(µA) >µ(µB)
Thì phép bù trên còn gọi là phépbù mờ chặt. Một phép bù mờ chặt được
gọi là phépbù mờ mạnh nếu:
+ µ(µ(µA)) = µA tức là =

Hình 1.2: Biểu diễn hàm liên thuộc của phép lấy phần bù
d. Phép hiệu đối xứng: Mở rộng công thức cho phép hiệu đối xứng
cáctập kinh điển: A ∇B = (A B) \ (A ÇB) = (A Ç ) ( ÇB)có thể xây dựng
phép hiệu đối xứng cho các tập mờ. Từ công thức xác định hàm liên thuộc đối
với phép hiệu đối xứng của các tập kinh điển. Có thể áp dụng trực tiếp để xây
dựng hàm liên thuộc hiệu đối xứng của các tập mờ (A, µA (x)) và (B, µB (x))

µA ∇ B (x) = µA (x) + µB (x) – 2µA (x) ´µB (x)
e. Tích Đề các: Cho n tập mờ (xi, µAi(xi)), i=1,2,...n trên các không gian
nền Xi. Tích Đề các của n tập mờ là một tập mờ:
{(x1, x2,...xn), µX1´X2´...´Xn(x1, x2,...xn)}


9
trên không gian nềền X1´ X2´…´Xn có hàm liên thuộc đượcc xác định
đ
như
sau:

µX1´X2´...´Xn(x1, x2,...x
,... n) = min {µXi(xi)}
, ,…

1.1.4. Các kiểu
u hàm thu
thuộc
a. Tam giác (Triangular):Định
(Triangular):
nghĩa bởi các cận dướii a, cận
c trên b và
giá trị m, a < m < b. Chúng ta g
gọi giá trị b-m
m là biên (margin) nếu
n giá trị này
bằng giá trị m-a.
0


nếu



hoặc

nếu

<

<

<

<

nếu

=



( )=
nếu
1

Hình 1.3: Các tập
p mờ
m hình tam giác: a)Tổng
ng quát và b) Đ

Đối xứng
b. Singleton: Có giá trị
tr 0 tại tất cả các điểm trong tập vũ trụụ, ngoại trừ tại
điểm m có giá trị 1, dùng để
đ biểu diễn các giá trị rõ.
( )= 0
1

nếu
nếu


=

Hình 1.4: Tập mờ Singleton
c. Hàm L:Hàm
:Hàm này được
đư định nghĩa bởi hai tham số a và b theo cách
cách:
1
( )=

nếu
0

nếu



<


<

nếu




10

Hình 1.5: Tập mờ L (phải)

d. Hàm Gamma tuy
tuyến tính:Hàm này được định nghĩa bởii hai tham ssố a
và b theo cách sau:
0
Γ( ) =

nếu
nếu

1


<

nếu

<



Hình 1.
1.6: Tập mờ Gamma tuyến tính
e. Hàm hình thang
thang:Được định nghĩa bởi bộ 4 giá trị a, b, c, d theo công
thức sau:
0

nếu
nếu



<

<

nếu <

<

hoặc

( )=
1

nếu









11

Hình 1.7: Tập mờ hình thang
1.1.5. Các loại số mờ
a. Định nghĩa 1.1.12
1.1.12: Tập mờ A = (x, µA (x)) trong không gian nnền số
thực R được gọi là số thực
th mờ nếu thỏa mãn 3 điều kiện:
-A là tập
ập mờ chính tắc
-Aα là là các khoảng
ảng đóng với ∀α ∈ (0,1]
- Tập S = suppµA (x) = {{x ∈ X / µA (x) > 0} giới nội
b. Số mờ hình
ình chuông:Là
chuông:
một tập mờ có dạng [a-α, aa+β] trong đó
α ≥ 0, β≥ 0 là các số
ố thực với hàm
h liên thuộc:
( , , )(

)=

( )khi

≤ ≤
( )khi ≤ ≤ +
0
khi ( <
)Λ( >

+ )

c. Số mờ dạng
ng tam giác
giác:Là một tập mờ có dạng [ a-α, a, aa+β ] trong đó
α ≥ 0, β≥ 0 là các số thự
ực với hàm liên thuộc:

( , , )(

)=
0

+1

khi

+1

khi



khi


<







+


>

+

d. Số mờ dạng
ng hình thang: Là một tập mờ có dạng [ a-α, a,, b, b+β ] trong
đó α ≥ 0, β≥ 0 là các số
ố thực với hàm liên thuộc:


12
1
( , , )(

khi
+1

khi


+1

khi










+

)=
0



)hoặc ( >

khi( <

+

)

e. Số mờ dạng khoảng: Là tập mờ có dạng (a, ε) trong đó ε ≥ 0 là các số

thực với hàm liên thuộc:

( , )(

)=
0

+1

khi

+1

khi
khi









+
hoặc

>

+


1.2. Cở sở dữ liệu mờ, phương thức biểu diễn và ứng dụng[5]
Mô hình quan hệ do Codd E. F. đề xuất năm 1970 đã đáp ứng được nhu
cầu lưu trữ và xử lý dữ liệu của con người trong một thời gian dài. Tuy nhiên,
mô hình này vẫn tồn tại nhiều hạn chế chưa giải quyết được. Trên thực tế, đôi
khi chúng ta có thể thu nhận được dữ liệu với thông tin không đầy đủ, hoặc có
những thông tin không chính xác, không chắc chắn gọi chung là các dữ liệu
mờ. Nếu giới hạn trong mô hình cơ sở dữ liệu kinh điển thì phải đợi đầy đủ
thông tin về đối tượng mới cập nhật vào cơ sở dữ liệu, hoặc nếu cứ cập nhật
thì sẽ gây khó khăn, mất ngữ nghĩa và không nhất quán trong xử lý dữ liệu.
Do đó để đáp ứng nhu cầu thực tế, mô hình cơ sở dữ liệu đã được mở rộng để
biểu diễn và xử lý những dữ liệu mờ gọi là cơ sở dữ liệu mờ (Fuzzy
Databases).
1.2.1. Định nghĩa
Cho W=(, A1, A2, ...An) là tập hữu hạn các thuộc tính, các miền giá trị
tương ứng D(A1), D(A2),...D(An), D() =[0,1]. Trong đó, D(Ai) (i=1..n) có thể
nhận giá trị rõ hoặc giá trị mờ. Một quan hệ mờ fr trên lược đồ quan hệ mờ là
tập con của tích Descartes D(A1) ´D(A2) ´...´D(An) ´D().


13
Một bộ dữ liệu tfr có dạng: (t, fr(t)) Do đó quan hệ fr có thể biểu diễn
lại như sau:
fr = {(t, fr(t) | fr(t)[0,1] và tr} VớirD(A1) ´D(A2) ´..........´D(An)
1.2.2. Biểu diễn thuộc tính trong quan hệ mờ
Xét lược đồ quan hệ R=(, A1,.....An)
Đối với thuộc tính Ai là rõ thì D(Ai)=U(Ai)
Đối với thuộc tính Ai là thuộc tính mờ thì:
D(Ai)=U(Ai) T(Ai) F(Ai) I(Ai)
Ở đâyU(Ai): Là miền giá trị cơ sở, T(Ai): Tập các giá trị ngôn ngữ của

biến ngôn ngữ Ai, F(Ai): Tập các tập mờ biểu diễn dưới dạng số mờ hình
thang, I(Ai): Tập các tập mờ biểu diễn dưới dạng số mờ dạng khoảng. Rõ ràng
là trong nhiều trường hợp các tập giá trị có thể là tập rỗng.
Trong cơ sở dữ liệu quan hệ truyền thống, các phép toán quan hệ được
thực hiện dựa trên cơ sở việc đánh giá dữ liệu chỉ thể hiện ở hai trang thái là
"đúng" hoặc "sai". Đối với cơ sở dữ liệu quan hệ mờ, với miền trị của thuộc
tính mờ được mở rộng như trên, thì rõ ràng cách đánh giá dữ liệu truyền
thống là không phù hợp, mà phải đánh giá trên cơ sở hàm thuộc của tập mờ,
trong đó trạng thái "đúng" tương ứng với 1, trạng thái "sai" tương ứng với 0.
Còn những giá trị  (0,1) là phản ánh mức độ đúng sai của việc đánh giá:
càng gần 1 càng đúng, càng gần 0 càng sai. Bởi vậy trong mỗi quan hệ mờ sẽ
có một thuộc tính đặc biệt gọi là thuộc tính độ thỏa, ký hiệu là  với Dom()
= [0,1], dùng để chỉ mức độ là thành viên của mỗi bộ trong quan hệ.
1.2.3. So sánh các giá trị thuộc tính mờ
Trong mô hình quan hệ kinh điển các thao tác và các phép toán so sánh
giá trị: . Để đánh giá được phép so sánh trên thì trước hết phải
chuyển đổi dữ liệu ở cả hai vế của phép so sánh về cùng một dạng và điều đó


14
chỉ có thể làm được khi chuyển về dạng tập mờ, sau đó các phép so sánh sẽ
dựa trên các tham số này.
Dưới đây sẽ trình bày phương pháp xây dựng hàm đánh giá các phép so
sánh giữa hai tập mờ 1, 2 ký hiệu là (1 2), trong đó  là một trong các
phép so sánh  và:
1 = (a1, b1, c1, d1), thoả mãn a1b1c1d1
2 = (a2, b2, c2, d2), thoả mãn a2b2c2d2
Hàm đánh giá sẽ được xây dựng trên cơ sở hàm thuộc của tập mờ hình
thang và các tham số a1, b1, c1, d1; a2, b2, c2, d2, của hai tập mờ.
Gọi Sf1,Sf2 là biểu diễn số mờ hình thang tương ứng của 2 tập mờ f1 và f2.

Nếu  là phép "="cần xây dựng sao cho khi f1 và f2 gần nhau thì

(f1f2) 1, khi f1 và f2 xa nhau thì (f1f2) 0.
Trường hợp 1: Nếu Sf1ÇSf2= Æ thì (f1 f2) = 0
Trường hợp 2: Nếu Sf1Sf2 hoặcSf2Sf1 thì (f1 f2) = 1
Trường hợp 3: Nếu f1P(A) và f2U(A) hoặc f1U(A) và f2P(A), khi
đó giá trị hàm (f1 f2) chính là giao điểm I của Sf1 và Sf2
Trường hợp 4: Nếu f1P(A) và f2P(A) nhưng Sf1ÇSf2Æ và f1 f2 và f2
f1, khi đó hàm  được xây dựng như sau:
(

)=1

|
2 ´(

(

,

|+|
)

|+|
( , )) +

|+|
(|

Nếu  là phép so sánh "" Ta có (f1 f2) = 1 –(f1 = f2)

Nếu  là phép so sánh ""

(f1f2) = 0 khi Sf1ÇSf2 = Æ và d1(f1f2) = 1 khi a1a2, b1b2, c1c2, d1d2

|
|, |

|)


15
Nếu  là phép so sánh "" Ta có (f1 f2) (f2 f1). Vì vậy chỉ cần
hoán đổi 2 tập mờ f1 và f2
Nếu  là phép so sánh "<" Ta có (f1 Nếu  là phép so sánh ">"Ta có (f1 >f2) (f2 đổi 2 tập mờ f1 và f2
1.2.4. Các phép toán tập hợp trên quan hệ mờ
* Phép hợp: Hợp của 2 quan hệ fr1 và fr2 khả hợp (tập các thuộc tính
như nhau) là một quan hệ trên R1 ký hiệu fr1 fr2 và được xác định như sau:
fr1fr2 = (t, fr1(t) fr2(t))  (t, fr1(t) fr1 hoặc (t, fr2(t)) fr2
* Phép giao: Giao của 2 quan hệ mờ fr1 và fr2 là một quan hệ mờ trên R,
ký hiệu fr1Çfr2 và được xác định như sau:
fr1Çfr2 = (t, fr1(t) fr2(t))  (t, fr1(t) fr1 và (t, fr2(t)) fr2
* Phép tích đề các: Cho fr1 xác định trên R1, fr2 xác định trên R2. Tích
Đề các fr1 và fr2 ký hiệu:
fr1´fr2 = (t ,t2),(fr1(t1) fr2(t2))  (t1, fr1(t1) fr1 , (t2, fr2(t)) fr2
* Phép trừ: Cho fr1 và fr2 là 2 quan hệ mờ trên R = A1, A2, ..., An, .
Hiệu của fr1 và fr2 là 1 quan hệ mờ trên R, Ký hiệu fr1–fr2 và xác định:
fr1 –fr2 = (t, fr(t)  (t, fr(t)) fr1 and (t, fr(t) fr2

1.2.5. Các phép toán quan hệ mờ
* Phép chọn mờ (Fuzzy Selection)
Đối với phép toán chọn trong cơ sở dữ liệu quan hệ, việc chọn một bộ
thỏa mãn tính chất nào đó sẽ cho ra kết quả True (1) hoặc False (0). Trên cơ
sở dữ liệu mờ thì kết quả của phép chọn không chỉ 0, 1 mà mở rộng thành
[0, 1].
Cho R = A1, A2, ..., An, , fr là quan hệ mờ trên R
AR, cD(A). Phép chọn Fs được định nghĩa như sau:


×