Luận văn thạc sĩ công nghệ thông tin vận dụng khả năng tìm kiếm của hệ thống truy vấn mở để xây dựng môdun tích hợp vào sql server nhằm hỗ trợ cho hệ thống trả lời truy vấn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 84 trang )

LỜI CẢM ƠN
Trước tiên, tôi thể hiện sự biết ơn sâu sắc đến cha mẹ tôi, những người
đã nuôi nấng tôi nên người, là chỗ dựa tinh thần vững chắc để tôi tự tin
bước vào đời. Kế tiếp, tôi xin gửi lời cảm ơn tới PGS.TS Đặng Trần
Khánh, người đã cho tôi những ý tưởng quý báu, mới lạ, hướng dẫn tận
tình và đầy lịng nhiệt huyết. Bên cạnh đó, tôi cũng chân thành cảm ơn
chồng tôi, người luôn ủng hộ và tạo mọi điều kiện để tơi có thể hồn
thành chương trình học cũng như q trình thực hiện luận văn. Cuối cùng
là lời cảm ơn tới những người đồng nghiệp đã đóng góp cho tơi những ý
kiến bổ ích để tơi hịan thiện luận văn này.

MỤC LỤC
LỜI CẢM ƠN.............................................................................................................................. 1
DANH MỤC CÁC HÌNH VẼ .............................................................................................. 6
CHƯƠNG 1: GIỚI THIỆU ............................................................................... 7
1. Lý do chọn đề tài: .......................................................................................... 1
2. Mục đích nghiên cứu: .................................................................................... 3
3. Đối tượng và phạm vi nghiên cứu: ................................................................ 5
4. Phương pháp nghiên cứu: .............................................................................. 5
CHƯƠNG 2: TỔNG QUAN VỀ CÁC HỆ THỐNG TRẢ LỜI TRUY VẤN
LINH HOẠT ...................................................................................................... 6
1. Một số nghiên cứu liên quan.......................................................................... 6
1.1.Phân loại các mơ hình truy vấn mờ ....................................................... 6
1.2.Các giải pháp dựa trên nền tảng mờ (Fuzzy Based Solutions) ............. 8
1.3.Phương pháp lân cận gần nhất (Nearest Neighbors)............................. 8
2. Một số hệ thống hỗ trợ khả năng tìm kiếm linh hoạt ..................................11
2.1.ARES ...................................................................................................11
2.2.VAGUE ...............................................................................................13
2.3.VQS (Vague Query System) ...............................................................15
2.4.QBIC (Query By Image Content) .......................................................15

3. Kết luận chương:..........................................................................................18
CHƯƠNG 3: HỆ THỐNG TRUY VẤN MỜ VQS (Vague Query System) ..20
1. Giới thiệu: ....................................................................................................20

2. Tìm kiếm tương tự dựa vào ngữ nghĩa: .......................................................21
3. Các khái niệm cơ bản và kiến trúc tổng quan của hệ thống VQS: ..............25
3.1.Các khái niệm cơ bản .........................................................................25
3.2.Ngôn ngữ truy vấn mờ VQL (Vague Query Language) .....................30
3.3.Kiến trúc tổng quan của hệ thống VQS ..............................................33
4.Hệ thống thông tin bất động sản (Property Information System) ................35
4.1. Truy vấn mờ và các chức năng cơ bản: .......................................... 35
4.2. Truy vấn mờ trong hệ thống thông tin bất động sản: .................... 37
4.3. Định nghĩa siêu thông tin ngữ nghĩa .............................................. 41
4.4. Thực thi các truy vấn mờ ................................................................ 44
4.5. Các điều kiện thêm vào ................................................................... 49
4.6. Việc thực hiện hệ thống VQS: ........................................................ 50
4.7.Nhúng VQS vào hệ thống thông tin bất động sản ............................ 51
5. Xử lý kết nối mờ trong VQS: .....................................................................52
6. Tích hợp thêm các điều kiện sắp xếp mờ: .................................................57
7. Kết luận .......................................................................................................62
CHƯƠNG 4: XÂY DỰNG HỆ THỐNG HỖ TRỢ TRẢ LỜI TRUY
VẤN LINH HOẠT VÀO SQL SERVER ............................................... 63
1. Giới thiệu .....................................................................................................63
2. Một số tập lệnh SQL cơ bản dùng để xây dựng VQS ..............................63
2.1. Dạng chuẩn của truy vấn SQL trong SQL Server: ........................ 63
2.2. Một số phép tốn và hàm có sẵn để xây dựng ngôn ngữ VQS ..... 64

2.3. Hàm do người dùng định nghĩa ...................................................... 64

2.4. Chuẩn bị dữ liệu hỗ trợ cho việc tìm kiếm gần đúng .................... 67
2.4.1.Các quan hệ và siêu dữ liệu .......................................................... 67
2.4.2.Khung nhìn..................................................................................... 68
2.5. Xây dựng ngơn ngữ truy vấn mờ mở rộng .................................... 69
3. Thử nghiệm và đánh giá .............................................................................71
3.1. Các giao diện modun quản lý ......................................................... 72
Hình 4.3 Giao diện quản lý siêu dữ liệu dành cho người quản trị ....... 73
3.2. Các giao diện thực thi ngôn ngữ VQS gốc .................................... 73
4. Kết luận chương ..........................................................................................75
CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN ........................ 76
1. Tổng kết .......................................................................................................76
2. Hướng nghiên cứu trong tương lai .............................................................76

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT
TẮT
Viết tắt

Tiếng Anh

Tiếng Việt
Truy tìm hình ảnh dựa vào nội
dung

CBIR

Content-Based Image
Retrieval

DBMS

DataBase Management System Hệ quản trị cơ sở dữ liệu

ICA

Incremental hyper-Cube
Approach

Phương pháp mở rộng siêu
khối

ISA

Incremental hyper-Sphere
Approach

Phương pháp mở rộng siêu cầu

FQAS

Flexible Query Answering
System

Hệ thống trả lời truy vấn linh
hoạt

MAM

Multidimensional Access
Method

Phướng pháp truy xuất đa
chiều

NCR

Numeric Coordinate
Representation

Biểu diễn tọa độ số

SQL

Structured Query Language

Ngôn ngữ truy vấn cấu trúc

PIS

Property Information Systems

Hệ thống thông tin bất động
sản

VQL

Vague Query Language

Ngôn ngữ truy vấn mờ

VQS

Vague Query System

Hệ thống truy vấn mờ

RDBMSs Relation Database
Management Syterms

Cơ sở dữ liệu quan hệ

IR

Information Retrival

Truy vấn thông tin

FD

Fuzzy Database

Cơ sở dữ liệu mờ

DANH MỤC CÁC HÌNH VẼ
Hình 2.1 Các kiểu truy vấn Nearest neighbor ........................................ 10
Hình 2.2 Quan hệ khơng tương tự được định nghĩa trên thuộc tính Huong
........................................................................................ 11
Hình 2.3 Kiến trúc tổng quan của QBIC ................................................ 17
Hình 3.1 Ví dụ bảng NCR về các tên màu ............................................. 27

Hình 3.2 Việc bình thường hóa sử dụng đường kính có ảnh hưởng ....... 29
Hình 3.3 Mơ tả chính thức của ngơn ngữ VQL ...................................... 31
Hình 3.4 Một ví dụ về sử dụng các bảng NCR ....................................... 32
Hình 3.5 Sơ đồ kiến trúc tổng quát của hệ thống [4] .............................. 34
Hình 3.6 Mẫu dữ liệu bất động sản ....................................................... 39
Hình 3.7 Khung nhìn được chuẩn bị cho ứng dụng VQS ....................... 40
Hình 3.8 Các bảng NCR trong dữ liệu mẫu về hệ thống thơng tin bất
động sản
........................................................................................ 43
Hình 3.9 Minh họa về việc ánh xạ các bảng NCR đến các trường mờ ... 44
Hình 3.10 Tập kết quả đã được sắp xếp của truy vấn mẫu ..................... 47
Hình 3.11 Tập kết quả đã được sắp xếp với độ ưu tiên về vị trí địa lý ... 48
Hình 3.12 Tập kết quả được sắp xếp của một truy vấn với các điều kiện
cố định.
........................................................................................ 50
Hình 3.13 PIS-VQL Adapter với các khả năng truy vấn mờ .................. 52
Hình 3.14 Mơ tả chính thức của ngơn ngữ VQL mở rộng ...................... 55
Hình 3.15: Cú pháp mở rộng ngơn ngữ truy vấn mờ. ............................. 58
Hình 3.16 : Bảng 1 - thơng tin KHACH_SAN ....................................... 60
Hình 3.17 Bảng 2 - Tập kết quả ............................................................. 61
Hình 4.1 Các quan hệ và các bảng miêu tả tọa độ số ............................. 68
Hình 4.2 Khung nhìn làm nguồn dữ liệu chính ...................................... 69

Hình 4.4 Giao diện thực thi ngơn ngữ VQL ........................................... 73
Hình 4.5 Kết quả của truy vấn mờ ......................................................... 74

CHƯƠNG 1: GIỚI THIỆU
1. Lý do chọn đề tài:

Trong suốt nhiều thập kỉ qua, mơ hình cơ sở dữ liệu quan hệ đã
chiếm lĩnh thị trường và rất thành công trong việc thỏa mãn phần lớn các
yêu cầu của các ứng dụng. Thành cơng này có thể là do sự tinh tế, đơn
giản của mơ hình quan hệ và những ý tưởng phát triển như: các giao dịch,
kiểm soát và khôi phục sự đồng bộ, cơ sở dữ liệu phân tán, đặc biệt là
ngôn ngữ truy vấn cấu trúc SQL. Mặc dù thành công, nhưng các cơ sở dữ
liệu ngày nay đang đối mặt với những thách thức mới trong giai đọan mà
khoa học máy tính phát triển một cách nhanh chóng. Một trong những
thách thức đang nổi lên trong thế giới thương mại là làm thế nào để việc
xử lý những truy vấn của người dùng không chỉ hiệu quả mà cịn phải linh
hoạt. Vì thực tế thì trong mơ hình xử lý truy vấn của các hệ quản trị cơ sở
dữ liệu truyền thống (Relational Database Management Systems RDBMSs) thường trả về một kết quả trùng khớp với truy vấn của người
dùng một cách tuyệt đối, điều này không đủ đáp ứng nhu cầu của người
dùng và đặc biệt khơng có tính linh hoạt. Rõ nghĩa hơn là, khi dữ liệu có
sẵn trong một cơ sở dữ liệu quan hệ mà không trùng khớp với những truy
vấn của người dùng một cách tuyệt đối thì hệ thống quản trị cơ sở dữ liệu
quan hệ sẽ trả về cho người dùng tập kết quả rỗng và do đó điều này làm
hạn chế khả năng ứng dụng của các hệ quản trị cơ sở dữ liệu truyền thống.
Trong nhiều lĩnh vực ứng dụng, người dùng không chỉ mong muốn những
kết quả chính xác một cách tuyệt đối theo truy vấn mà họ cũng muốn có
những kết quả khác có liên quan hoặc gần đúng với yêu cầu của họ trong
một ý nghĩa nhất định[1] . Những ứng dụng này thường xuất hiện thực tế
trên thế giới như xử lý hình ảnh, hệ thống CAD/CAM, hệ thống thông tin

địa lý, hệ thống thông tin du lịch, hệ thống thông tin thời gian, thư viện
số, truy vấn thông tin hiện đại IR (modern Information Retrieval), thương
mại điện tử và các ứng dụng khác.
Lĩnh vực thương mại bất động sản là một trong những lĩnh vực kinh
doanh “nóng bỏng nhất hiện nay ở Việt Nam” với nhu cầu mua, bán, cho

thuê bất động sản thu hút sự quan tâm của nhiều người. Mặc dù có nhiều
trang web đã cung cấp nhiều thơng tin với cơng cụ hỗ trợ tìm kiếm, nhưng
đến nay vẫn chưa có một hệ thống hỗ trợ tìm kiếm nào đáp ứng tốt được
nhu cầu thơng tin cho người dùng. Điều đó cho thấy cần phải có một sự
đầu tư đúng mức trong việc xây dựng dịch vụ hỗ trợ tìm kiếm thực sự
hiệu quả, đồng thời thực tế cho nhu cầu hiện tại và tương lai.
Bài tóan đặt ra: khi một khách hàng tìm kiếm thơng tin của một sản
phẩm: ví dụ tìm kiếm thơng tin về bất động sản để mua một căn nhà diện
tích 100m2, kích thước mặt tiền 5m hướng đơng với giá 1.000đ thuộc khu
vực Quận 2, người khách hàng này sẽ khơng tìm thấy trong hệ thống quản
lý cơ sở dữ liệu truyền thống nếu như khơng có căn nhà nào như vậy. Và
khi đó, hệ thống sẽ trả về một kết quả rỗng và dĩ nhiên người khách hàng
cảm thấy hơi thất vọng. Trên thực tế thì người khách hàng này có lẽ chấp
nhận một thơng tin rằng có ít nhất một căn nhà có diện tích lớn hơn hoặc
nhỏ hơn 100m2, hoặc giá bán lớn hơn hoặc nhỏ hơn 1.000đ, thậm chí cũng
chấp nhận thơng tin rằng căn nhà đó có địa chỉ khơng thuộc quận 2 mà
thuộc quận khác.
Để giải quyết bài tóan này, giải pháp là: biểu diễn lại các giá trị
không phải là số trong cơ sở dữ liệu bằng các tọa độ số trong không gian
đặc trưng và thông tin này được lưu trữ trong các bảng biểu diễn tọa độ
số. Từ đó việc xác định độ tương tự về ngữ nghĩa được tính tốn trên các
bảng biểu diễn tọa độ số được dễ dàng và có độ chính xác cao, nhất là

trong không gian dữ liệu nhiều đặc trưng, nhiều chiều. Đồng thời sử dụng
hệ thống hỗ trợ trực tiếp khả năng truy vấn mờ VRC (Vague Retrieval
Capabilities) để xây dựng một hệ thống hỗ trợ tìm kiếm một cách linh
hoạt. Khi đó, một cơ sở dữ liệu hay hệ thống thông tin mà hỗ trợ cho giải
pháp này được gọi là hệ thống trả lời truy vấn linh họạt FQAS (Flexible
Query Answering System).

Từ thực tế, cụ thể là bài tóan đã nêu trên, chúng tôi thấy rằng trong
hệ thống thương mại điện tử ngày nay, hệ thống FQAS trở nên ngày càng
quan trọng. Bởi vì, những khách hàng chưa cần tiếp cận thực tế các mặt
hàng (chẳng hạn xe hơi, quần áo, bất động sản, điện thoại...) , nhưng họ
cần thấy thơng tin của những hàng hóa bằng việc sử dụng máy tính trước
khi quyết định mua/th chúng hay khơng. Nếu hệ thống không hỗ trợ
trực tiếp khả năng truy vấn mờ VRC thì người dùng hệ thống buộc phải
thử đi thử lại nhiều lần câu truy vấn cụ thể khác (với sự thay đổi nhỏ) cho
đến khi họ có được dữ liệu thỏa đáng và nếu người dùng không có bất kỳ
sự điều chỉnh nào về những câu truy vấn của họ thì giải pháp này trở nên
khơng khả thi [2]. Như vậy, kết quả là việc phát triển các hệ thống FQASs
sẽ mang đến những giải pháp đối với những vấn đề cần thiết và không thể
thiếu được cho sự phát triển của khoa học máy tính.

2. Mục đích nghiên cứu:
Dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu khá đa dạng, với
dữ liệu đa chiều, nhiều đặc trưng. Việc xử lý thông tin từ nguồn dữ liệu
này để đưa ra các kết quả đáp ứng nhu cầu tìm kiếm nhiều chiều của
người sử dụng một cách linh hoạt là mục đích cần đặt ra.

Trong luận văn này chúng tôi tập trung vào các kỹ thuật tìm kiếm
tương tự: xử lý các truy vấn và kết nối mờ, các truy vấn xấp xỉ, truy vấn
lân cận gần nhất qua các không gian đặc trưng và tích hợp các khả năng
này vào các hệ quản trị cơ sở dữ liệu. Bên cạnh đó, hệ thống VQS sẽ được
giới thiệu khá rõ trong [4] là một sự mở rộng của các hệ quản trị cơ sở dữ
liệu (DBMS) trước đây, hệ thống VQS có thể tự động vận hành "on top"
trước khi DBMS truy tìm dữ liệu nhằm vừa đáp ứng nhu cầu thông tin (từ
VQS) và nhu cầu dữ liệu (từ DBMS) cho người sử dụng. Luận văn nhằm
tận dụng các khả năng tìm kiếm của hệ thống VQS đã được xây dựng

trong [4] để mở rộng thêm toán tử so sánh tương tự cho ngôn ngữ SQL
chuẩn, gọi là ngôn ngữ VQL (Vague Query Language), từ đó chúng tơi sẽ
lựa chọn giải pháp đơn giản và hiệu quả nhất để tích hợp khả năng tìm
kiếm của VQS vào hệ quản trị cơ sở dữ liệu SQL Server 2008, phục vụ
nhu cầu tìm kiếm cho hệ thống thơng tin bất động sản nói riêng và các hệ
thống truy tìm thơng tin hiện đại nói chung.
Đề tài cịn xây dựng mơ đun quản trị và mơ đun thực thi các truy vấn
mờ "on top" để trả lời các câu hỏi linh hoạt hơn, từ đó mở rộng dịch vụ
tìm kiếm và tích hợp khả năng này vào hệ quản trị SQL Server 2008 sao
cho hệ thống phải đảm bảo được tính ổn định, vận hành trơn tru và dễ sử
dụng, đáp ứng được nhu cầu tìm kiếm hiện tại của người dùng muốn tìm
kiếm thơng tin về bất động sản.
Luận văn này cũng đi vào việc giới thiệu thêm những nghiên cứu
mới cho việc thiết lập lại về mặt toán học cho khái niệm VQS theo nghĩa
của quan hệ mờ.

3. Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu là cơ sở dữ liệu lưu tất cả các thơng tin cần tìm
kiếm liên quan đến bất động sản: phòng trọ, nhà, căn hộ, đất, mặt bằng...;
hệ quản trị cơ sở dữ liệu SQL Server 2008. Các giải thuật về tính khoảng
cách, tìm kiếm lân cận gần nhất dựa vào ngữ nghĩa.
Đề tài được thực hiện trên việc khai thác dữ liệu từ hệ thống cơ sở dữ
liệu của các trang thông tin mua bán cho thuê bất động sản trên Internet
và các phòng giao dịch bất động sản.

4. Phương pháp nghiên cứu:
Các phương pháp nghiên cứu được sử dụng để thực hiện đề tài:
- Khảo sát, thu thập dữ liệu: tập hợp các nguồn dữ liệu liên quan đến
bất động sản từ hệ thống cơ sở dữ liệu của các trang thông tin mua bán

cho thuê bất động sản trên Internet và các phòng giao dịch bất động sản.
- Phân tích và thiết kế hệ thống: đặc tả các yêu cầu của người sử
dụng, thiết kế các chức năng để giao tiếp và xử lý.
- Mơ hình hóa: đưa ra mơ hình hệ thống kiến trúc lưu trữ siêu dữ liệu
hỗ trợ cho việc tìm kiếm tương tự.

-

Phương pháp thực nghiệm: Cài đặt và vận hành thử nghiệm phần

mềm tích hợp vào SQL Server 2008.

CHƯƠNG 2: TỔNG QUAN VỀ CÁC HỆ
THỐNG TRẢ LỜI TRUY VẤN LINH HOẠT
Chương này chúng tôi giới thiệu một số phương pháp, giải pháp liên
quan đến các truy vấn mờ, các truy vấn xấp xỉ và truy vấn lân cận gần
nhất. Bên cạnh đó, chúng tơi cũng giới thiệu một số hệ thống hỗ trợ tìm
kiếm linh hoạt, trong đó sẽ tập trung các đặc trưng chính và khía cạnh
hiệu quả của hệ thống.

1. Một số nghiên cứu liên quan
1.1.

Phân loại các mơ hình truy vấn mờ

Các mơ hình truy vấn mờ được tác giả Josef Kung và Jurgen
Palkoska giới thiệu trong VQS – A Vague Query System Prototype [15].
Trong tài liệu này, mức độ mờ được phân loại theo bốn cấp độ khác nhau,
bao gồm: Dữ liệu chính xác, truy vấn chính xác và kết quả chính xác; Dữ

liệu chính xác, truy vấn mờ và kết quả mờ; Dữ liệu mờ, truy vấn mờ và
kết quả mờ và Dữ liệu chính xác, truy vấn chính xác và kết quả mờ.
+ Dữ liệu chính xác, truy vấn chính xác và kết quả chính xác (Crisp
Data, Crisp Query, and Crisp Result – CDCQ_CR): Đây là một hệ cơ sở
dữ liệu quan hệ điển hình. Ở dạng này, chỉ các giá trị chính xác được lưu
trữ trong cơ sở dữ liệu, chỉ các truy vấn chính xác được nhập vào và cũng
chỉ các tập kết quả chính xác được trả về cho người dùng mà thơi. Điều
này có nghĩa là tập kết quả chỉ bao gồm dữ liệu hoàn toàn trùng khớp với
truy vấn tương ứng.

+ Dữ liệu chính xác, truy vấn mờ và kết quả mờ (Crisp Data, Fuzzy
Query, and Fuzzy Result – CDFQ_FR): Mơ hình này khác với
CDCQ_CR ở các truy vấn và tập kết quả. Với mơ hình này hệ thống sẽ
cho phép các giá trị mờ chẳng hạn như "dài", "ngắn", "cao", "thấp"...
Chẳng hạn chúng ta có thể thực hiện một truy vấn liên quan đến học sinh
một trường học như tìm các học sinh có điểm số cao, và truy vấn có thể
được biểu diễn như sau: "Tìm tất cả các học sinh có điểm cao". Trong
trường hợp này, tìm điểm cao là một truy vấn mờ và do đó tập kết quả là
mờ.
+ Dữ liệu mờ, truy vấn mờ và kết quả mờ (Fuzzy Data, Fuzzy Query,
and Fuzy Result – FDFQ_FR): Đây là một đặc điểm đặc trưng của một hệ
thống cơ sở dữ liệu mờ cơ bản, hệ thống có thể lưu trữ các kiểu dữ liệu
khơng chính xác khác nhau, ví dụ: tuổi của Long trẻ, dáng người của
Minh là cao, v.v... Trong các hệ thống này, việc định nghĩa các thuộc tính
mờ ("trẻ", "cao") và các phép so sánh mờ ("lớn hơn nhiều") được cung
cấp để cho phép người sử dụng có thể xác định các truy vấn mờ.
+ Dữ liệu chính xác, truy vấn chính xác và kết quả mờ (Crisp Data,
Crisp Query, and Fuzzy Result – CDCQ_FR): Các hệ thống làm cho phù
hợp với mơ hình này có thể trả về các kết quả cho một truy vấn chính xác

nhưng các kết quả phù hợp với truy vấn chỉ là xấp xỉ. Một truy vấn minh
họa cho các hệ thống như thế này có thể được diễn đạt như sau: "Tìm các
căn hộ có giá khoảng 1000". Ở đây "khoảng" là yếu tố mờ trong truy vấn,
tuy nhiên nó khơng phải là một giá trị mờ mà chỉ là một toán tử mờ.

1.2.

Các giải pháp dựa trên nền tảng mờ (Fuzzy Based

Solutions)
Trong thời gian qua đã có rất nhiều nghiên cứu và ứng dụng dựa trên
Lý thuyết Tập mờ (Fuzzy-Sets) [20], [21], trong đó phải kể đến những đề
tài như:

Extentions of SQL được thực hiện bởi Bosc, Galibourg và

Hamom [17], The Fuzzy Database – Query Language bởi tác giả Wong và
Leung [18] và Fuzzy Base được giới thiệu bởi Gazzotti, Piancastelli,
Sartori và Beneventano [19]. Hầu hết những nghiên cứu này đều thuộc mơ
hình FDCQ_FR, tức là dữ liệu mờ, truy vấn chính xác và hệ thống trả về
kết quả mờ. Điều này có nghĩa là các tác giả đã sử dụng dữ liệu mờ FD
(fuzzy data), trong khi dạng dữ liệu này khơng tương thích với hầu hết các
dạng cơ sở dữ liệu hiện hành.
Như đã đề cập ở trên, trong khi hầu hết các giải pháp được cho là sử
dụng FD thì cách tiếp cận của Fuzzy Based là thuộc mơ hình CDCQ_FR.
Với cách tiếp cận này thì hệ thống cũng có thể thực hiện được những truy
vấn chính xác, và kể cả trong trường hợp kết quả là rỗng thì hệ thống
cũng tự xây dựng và thực hiện một chuỗi các truy vấn. Chuỗi truy vấn này
cũng từng bước được tăng lên cho đến khi những kết quả truy vấn đầu

tiên được trả về cho người dùng.

1.3.

Phương

pháp

lân

cận

gần

nhất

(Nearest

Neighbors)
Với phương pháp lân cận gần nhất (Nearest Neighbors), các bảng ghi
và các truy vấn cơ sở dữ liệu được xem như các điểm (chẳng hạn các
vector đặc trưng) trong một không gian đa chiều S với một độ đo MS
(khoảng cách Ơ-clit). Ví dụ, trong cơ sở dữ liệu ảnh, người sử dụng có thể

đưa ra một truy vấn tìm ảnh tương tự nhất với một ảnh đã cho. Phương
pháp này còn được hiểu như là một dạng truy vấn lân cận gần nhất [6].
Hai dạng truy vấn lân cận gần nhất quan trọng nhất trong cơ sở dữ
liệu, đó là truy vấn theo khoảng ɛ và truy vấn k lân cận gần nhất.
 Truy vấn theo khoảng ɛ: Người sử dụng chỉ rõ một đối tượng truy

vấn qϵS và một bán kính ɛ. Hệ thống tìm tất cả các đối tượng từ cơ sở
dữ liệu DB  S có một khoảng cách từ q không vượt quá ɛ. Đơn giản
hơn,

tập

kết

quả

RQq

được

định

nghĩa

như

sau:

RQq  {t  DB | M S (q, t )   }

 Truy vấn k lân cận gần nhất: Người sử dụng chỉ rõ một đối tượng
truy vấn q và số yếu tố k của tập kết quả. Hệ thống truy tìm k đối
tượng từ cơ sở dữ liệu DB  S có khoảng cách nhỏ nhất từ q. Để rõ
hơn, tập kết quả được định nghĩa như sau:
t  NN kq , t ' DB \ NN kq , M S (q, t )  M S (q, t ' )

1.

ɛ-Range Query

(b) 5-Nearest Neighbor Query

Hình 2.1 Các kiểu truy vấn Nearest neighbor
Một giải pháp đơn giản để trả lời truy vấn lân cận gần nhất đã cho là
quét qua toàn bộ cơ sở dữ liệu và thử cho mỗi đối tượng nằm trong các
kết quả. Rõ ràng, giải pháp này rất tốn kém và không hiệu quả cho tập đối
tượng rất lớn. Nhiều cấu trúc chỉ mục đa chiều đã được đề cập để có thể
được cắt bớt phần lớn các khơng gian tìm kiếm. Phổ biến nhất là R-Tree
và các biến thể của nó R*-Tree, X-Tree, SS-Tree, v.v...
Dù các phương pháp mô tả ở trên khác biệt về các chi tiết thực hiện,
nhưng nhìn tổng thể thì mục đích là giống nhau, đó là cho phép hệ thống
cơ sở dữ liệu trả về các câu trả lời truy vấn khơng chính xác, hơn là trả về
kết quả rỗng.

2. Một số hệ thống hỗ trợ khả năng tìm kiếm linh hoạt
2.1.

ARES

ARES (Associative Information Retrieval) [3, 14] giới thiệu một tốn
tử có tên là 'similar-to' để định nghĩa cho phép tương đương (≈), theo đó
thay vì sử dụng tốn tử bằng (=) thì phép tương đương có thể được sử
dụng như một toán tử so sánh, chẳng hạn như A≈v sẽ lựa chọn các giá trị
của một thuộc tính A tương tự với một hằng số v. Cách hiểu toán tử ≈

được dựa trên các mối quan hệ khác nhau trên từng miền khác nhau. Một
quan hệ không tương tự DRA(A1, A2, Distance) trên miền DA của thuộc
tính A chứa các cặp có dạng (v1,v2, dist), trong đó v1ϵ DA, v2ϵ DA và dist
biểu diễn giá trị khoảng cách (sự khác nhau) giữa v1 và v2 (giá trị dist
nhỏ hơn nghĩa là v1 và v2 tương tự nhau hơn). Bảng sau đây minh họa
một ví dụ về quan hệ khơng tương tự cho thuộc tính Huong của một quan
hệ HUONG_BDS:

Huong_1

Huong_2

Distance

Bắc

Bắc

0

Bắc

Đơng Bắc

1

Bắc

Tây Bắc

1

Bắc

Đơng

2

Bắc

Đơng Nam

2

…

…

…

Hình 2.2 Quan hệ khơng tương tự được định nghĩa trên thuộc tính Huong

Với ví dụ trên “Tất cả các bất động sản có hướng tương tự với hướng
Bắc” sẽ được trả về là các hướng Bắc, Đông Bắc, Tây Bắc với điều kiện
độ mờ dist được thiết đặt đến 1.
Trong một truy vấn, các điều kiện truy vấn mờ (chẳng hạn các điều
kiện liên quan đến toán tử tương tự ≈) được thực hiện theo trình tự. Trước
hết, với mỗi điều kiện mờ, người sử dụng cho một giá trị khoảng cách
được chấp nhận tối đa. Sau đó hệ thống ARES truy xuất các quan hệ

không tượng tự để đưa ra một truy vấn luận lý được xử lý bởi hệ thống cơ
sở dữ liệu trước đây.
Ví dụ, điều kiện mờ A≈v được chuyển sang một phép luận lý:
Aϵ {xϵDA|(v,x,dist)ϵ DRA & dist≤t}, với t là khoảng cách cho phép tối đa
bởi người sử dụng trên miền DA.
Nói cách khác, x và v được xem xét đến mức dist có thể, dist≤t. Truy
vấn được đưa ra sau đó sẽ lựa chọn các cặp chấp nhận được cho khoảng
cách chung được tính tốn, bằng việc tính tổng trên các khoảng cách từng
phần ứng với mỗi điều kiện mờ trong truy vấn. Cuối cùng, các cặp được
sắp xếp theo thứ tự tăng dần theo các giá trị khoảng cách chung và hệ
thống sẽ cho ra nhiều cặp có thể có trong giới hạn được chỉ rõ bởi người
sử dụng.
Mặt hạn chế chính của ARES là chi phí lưu trữ và duy trì các mối
quan hệ không tương tự quá lớn: mỗi mối quan hệ không tương tự cần m2
bộ với m giá trị thuộc tính khác nhau trong quan hệ tương ứng; và khi một
giá trị thuộc tính mới được thêm vào, cần phải thêm vào 2m+1 bộ quan hệ
không tương tự tương ứng. Hơn nữa, ARES không cho phép việc định
nghĩa sự không tương tự giữa các giá trị thuộc tính cho các miền vơ hạn
bởi vì sự khơng tương tự chỉ có thể được định nghĩa chủ yếu bởi các bảng.

2.2.

VAGUE

Bên cạnh mối quan hệ đại số của ARES được mở rộng bởi tốn tử
“similar - to” thì Amihai Motro đã giới thiệu VAGUE [5] như là một cách
tiếp cận mới nhằm nâng cao tính hiệu quả của cơ sở dữ liệu. VAGUE là
một sự mở rộng nhắm đến mô hình dữ liệu quan hệ với các độ đo dữ liệu
(data metrics) và ngôn ngữ SQL sử dụng phép so sánh ~. Mơ hình đã sử

dụng cấu trúc là mỗi thuộc tính tương ứng với một miền, mỗi miền có ít
nhất một độ đo xác định. Và dưới đây là bốn dạng độ đo khác nhau:
+ Computation metric: là một độ đo dữ liệu khi nhận được kết quả từ
việc tính tốn bằng máy tính.
+ Tabular metric: độ đo dữ liệu thuộc dạng bảng nếu kết quả khoảng
cách nhận được qua việc truy xuất từ cơ sở dữ liệu mà khơng thơng qua
bất kỳ khâu tính tốn trung gian nào bằng máy tính. Khoảng cách giữa bất
kỳ hai giá trị nào cũng sẽ được lưu trữ trong một bảng, do đó độ đo chỉ
tìm kiếm từ bảng đó. Ví dụ bảng chứa thông tin khoảng cách địa lý giữa
hai địa điểm được xem là một dạng bảng Tabular metric.
+ Referential metric: là độ đo được tính tốn trong trường hợp một
thuộc tính là một khóa được ánh xạ đến một quan hệ khác, khi đó độ đo
giữa 2 giá trị bất kỳ của thuộc tính này được nhận từ sự kết hợp của các
khoảng cách giữa các phần tử tương ứng trong quan hệ ánh xạ.
+ Default metric: khi một miền không thể cung cấp cho một độ đo phù
hợp thì độ đo mặc định sẽ được sử dụng và trở thành miền trong cơ sở dữ
liệu quan hệ truyền thống.
0 𝑛ế𝑢 𝑥 = 𝑦
𝐷𝐸𝐹𝐴𝑈𝐿𝑇(𝑥, 𝑦) = {
1 𝑛ế𝑢 𝑥 ≠ 𝑦

Như vậy, mỗi miền thuộc tính D được gán cho một độ đo MD để định
nghĩa khoảng cách (sự không tương tự) giữa các giá trị. MD là một ánh xạ
từ tích đề-các DxD sang tập hợp các số thực không âm như sau:
 Phản xạ: MD (x,x)=0, với mọi giá trị x trong D.
 Đối xứng: MD (x,y)=MD (y,x), với mọi giá trị x và y trong D
 Bắt cầu: MD (x,y)<=MD (x,z)+MD (z,y), với mọi giá trị x,y,z trong
D.
Hơn nữa, MD được hình thành với một bán kính r. Khái niệm này rất

giống với sự sai khác cho phép tối đa trong hệ thống ARES. Vì vậy, hai
giá trị v1 và v2 trong D được xem là tương tự nếu MD (v1,v2)≤r. Trong
quá trình xử lý truy vấn, mỗi điều kiện mờ biểu diễn trong truy vấn được
chuyển sang một điều kiện luận lý (giống như cách đối với ARES) sử
dụng độ đo thích hợp và truy vấn kết quả để lựa chọn các bộ dữ liệu. Sau
đó thực hiện q trình sắp xếp dựa vào việc tính tốn các khoảng cách
(trung bình của các độ đo kết hợp) cho các điều kiện mờ từng phần.
Khoảng cách gộp gắn liền với một cặp được lựa chọn trong trường hợp
của một truy vấn tách rời là khoảng cách nhỏ nhất liên quan tới mỗi điều
kiện mờ. Khoảng cách gộp được sử dụng như là căn bậc hai của tổng các
bình phương (chẳng hạn độ đo Ơ-clit) của các khoảng cách ứng với mỗi
điều kiện mờ.
Trong VAGUE, người sử dụng khơng thể đưa ra các điểm bắt đầu có
tính tương tự đối với mỗi điều kiện truy vấn, nhưng khi một điều kiện truy
vấn không cho ra dữ liệu phù hợp, VAGUE sẽ tìm kiếm trong phạm vi
bán kính kép. Vì vậy việc thực hiện tìm kiếm có thể xấu đi đáng kể.

2.3.

VQS (Vague Query System)

Là hệ thống được cho là dựa trên những ý tưởng của ARES và
VAGUE, VQS có thể tự động vận hành "on top" trước khi DBMS truy tìm
dữ liệu nhằm vừa đáp ứng nhu cầu thơng tin (từ VQS) và nhu cầu dữ liệu (từ
DBMS) cho người sử dụng. Đây là một loại của hệ thống trả lời truy vấn
linh hoạt (FQASs) dựa trên ngữ nghĩa. Đặc trưng chính của VQS là khái
niệm về các bảng biểu diễn tọa độ số NCR (Numeric-CoordinateRepresentation) lưu trữ các thuộc tính siêu thơng tin về ngữ nghĩa (semantic
meta-information). Các thuộc tính có kiểu dữ liệu bất kỳ trong một khung
nhìn hoặc quan hệ truy vấn được tham chiếu đến các không gian Ơ-clit và

được lưu giữ bởi các bảng NCR. Khi khơng tìm thấy dữ liệu phù hợp cho
một truy vấn q trong cơ sở dữ liệu quan hệ, hệ thống sẽ tìm kiếm trên các
bảng NCR tương ứng với các điều kiện truy vấn của q và trả về kết quả phù
hợp nhất với q. Về trực quan, các bảng NCR trong VQS tương đương với
các không gian vector.
Để hiểu rõ thêm chúng tôi xin dành một chương (chương 3) để trình
bày rõ hơn về mặt phương pháp cho hệ thống truy vấn mờ VQS này cùng
với sự tích hợp của hệ thống vào hệ thống thông tin bất động sản đã tồn tại
trước đó để thấy rõ hơn khả năng làm việc "on top".

2.4.

QBIC (Query By Image Content)

Tìm kiếm dựa vào nội dung hình ảnh (Query By Image Content) được
phát triển bởi Trung tâm nghiên cứu IBM Almaden. Hệ thống QBIC cho
phép các truy vấn trên cơ sở dữ liệu video và hình ảnh lớn dựa trên các hình
ảnh mẫu. Trong phương pháp trước đây, các video và hình ảnh được xử lý
để rút trích các đặc trưng mô tả nội dung của chúng như màu sắc, kết cấu,

hình dạng, vị trí của một đối tượng,... và các đặc trưng được lưu trữ trong cơ
sở dữ liệu. Trong phương pháp sau này, người sử dụng có thể đưa ra một
truy vấn sử dụng một giao diện người dùng trực quan sinh động. Các đặc
trưng được rút trích từ truy vấn và đưa vào bộ máy tìm kiếm để tìm các hình
ảnh và video từ cơ sở dữ liệu với các đặc trưng tương tự. Chú ý rằng QBIC
nhận biết giữa các hình ảnh và các đối tượng. Một hình ảnh (hay một cảnh)
là một hình màu hoặc một trạng thái của video và một đối tượng là một phần
của hình ảnh hay cảnh. Ví dụ, một con mèo trong một hình ảnh cố định.
Hình sau đây chỉ ra toàn bộ cấu trúc hệ thống QBIC [4].

Hình ảnh,
Video
Rút trích đặc trưng

Cơ sở dữ liệu

Giao diện truy

lọc, chỉ mục

Bộ máy tìm kiếm

vấn

Người
sử dụng

Các kết quả
tốt nhất trả về
theo thứ tự tương
tự.

Hình 2.3 Kiến trúc tổng quan của QBIC
Trong QBIC, các truy vấn tương tự được thực hiện dựa vào cơ sở dữ liệu
của các đặc trưng rút trích trước đó sử dụng các hàm tương tự hoặc khoảng
cách tương ứng giữa các đặc trưng. Các hàm khoảng cách này được bình
thường hóa để chúng có thể được kết hợp một cách có ý nghĩa. Hầu hết các
hàm được dựa trên khoảng cách Ơ-clit mở rộng trong không gian đặc trưng

tương ứng. Các độ rộng được biến đổi nghịch đảo mỗi thành phần qua các
mẫu trong cơ sở dữ liệu. Hình 2.3 chỉ ra bộ máy tìm kiếm bao gồm tập hợp
tất cả các hàm khoảng cách như màu sắc, kết cấu, hình dạng, đa đối tượng,
bản phát thảo, vị trí, văn bản, cử động của đối tượng, cử động của camera và
các hàm do người sử dụng định nghĩa. Bộ máy tìm kiếm tương tác với mơđun lọc hoặc chỉ mục để hỗ trợ các phương pháp tìm kiếm nhanh như kỹ
thuật đánh chỉ mục. QBIC được coi là một trong những hệ thống chỉ mục
đặc trưng đa chiều. Với các khơng gian đặc trưng có số chiều thấp, các
phương pháp truy xuất đa chiều chẳng hạn như R-trees hoặc R*-trees có thể
được sử dụng một cách trực tiếp. Đối với các khơng gian đặc trưng có số
chiều lớn, QBIC sử dụng biến đổi Karhunen-Loeve1 để thực hiện việc thu
nhỏ số chiều và sau đó sử dụng các cấu trúc chỉ mục. Ngoài ra, người sử
dụng QBIC tương tác với giao diện truy vấn để sinh ra một truy vấn cụ thể,
cho kết quả trong các đặc trưng để định nghĩa truy vấn được xác thực và xử
lý bởi bộ máy tìm kiếm.
Nhìn chung, mẫu hệ thống và các kỹ thuật sử dụng trong QBIC đã được
nghiên cứu nhiều trên các hệ thống truy tìm hình ảnh sau này. Các ứng dụng
điển hình của QBIC gồm y khoa, tranh ảnh và nhiều lĩnh vực khác như mỹ
thuật, thời trang, cơng nghiệp, ...

3. Kết luận chương:
Qua nội dung đã trình bày ở phần trên, chúng tôi đã giới thiệu một số
phương pháp truy vấn linh hoạt. Cụ thể đã đề cập đến cách phân loại các
1

Karhunen-Loeve là phép biến đổi theo khối tối ưu cho nén dữ liệu, nó có thể giải tương quan một

cách tối ưu tín hiệu ảnh trong miền phép biến đổi (bằng cách tập trung hầu hết thông tin ảnh vào một số hệ
số của phép biến đổi), nó có thể tối thiểu hố sai số bình phương trung bình giữa ảnh khơi phục và ảnh gốc.

Trích đoạn

Việc thực hiện hệ thống VQS:

Luận văn thạc sĩ công nghệ thông tin vận dụng khả năng tìm kiếm của hệ thống truy vấn mở để xây dựng môdun tích hợp vào sql server nhằm hỗ trợ cho hệ thống trả lời truy vấn

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về