Click to edit Master
subtitle style
Group 8 5/21/12
5/21/12
BÁO CÁO BÀI TẬP LỚN
CƠ SỞ DỮ LIỆU
[2011]
ĐH Bách Khoa Hà Nội
GV: Nguyễn Thị Kim Anh
Nhóm 8:
•
Vũ Việt Trung – SHSV: 20092898
•
Bạch Ngọc Sơn – SHSV: 20092225
Group 8 11
Group 8 5/21/12
5/21/12
Universal Top-k Keyword Search
over Relational Databases
Tìm kiếm từ khóa phổ dụng top-k
trên các cơ sở dữ liệu quan hệ
Group 8 22
Group 8 5/21/12
5/21/12
KHÁI QUÁT
Tìm kiếm theo khóa
•
Một trong những mô hình hiệu quả
nhất cho khai phá thông tin
•
Đơn giản
•
Chất lượng kết quả: nội dung & cấu
trúc
Giải pháp đề xuất cho kết quả tốt hơn
•
Cách tiếp cận tổng hợp - lai
•
Sử dụng bộ đệm
•
Phân tách các truy vấn phức tạp
Group 8 33
Group 8 5/21/12
5/21/12
GIỚI THIỆU
Hạn chế của truy vấn văn bản trên các hệ
quản trị cơ sở dữ liệu hiện nay:
•
Chỉ thực hiện trên một lược đồ dữ liệu
cụ thể
•
Người dùng cần nắm thống tin về lược
đồ
•
Người dùng cần biết về khả năng tìm
kiếm văn bản đầy đủ (full-text search)
•
Các truy vấn cấu trúc trở nên phức tạp
với yêu cầu thông tin ngày càng cao
Group 8 44
Group 8 5/21/12
Quan hệ Cô - Cháu gái
5/21/12 Group 8 55
Group 8 5/21/12
Tìm người tên Joan có cháu gái tên Caroline
5/21/12 Group 8 66
Group 8 5/21/12
5/21/12
ĐẶT VẤN ĐỀ
•
Chất lượng truy vấn tìm kiếm theo
từ khóa được đánh giá dựa trên
quan hệ giữa kết quả và từ khóa
hàm tính điểm (scoring function)
•
Sự khác biệt giữa IR System và
DBMSs
o
Single document
o
Virtual record (Joining tuples)
Group 8 77
Group 8 5/21/12
5/21/12
Các khái niệm
•
Relational database schema
•
Schema graph (SG)
đồ thị có hướng biểu thị các mối quan hệ
o
relation Ri node si
o
relationship(Ri Rj) edge(si, sj)
•
Data graph (DG) - đồ thị dữ liệu
o
Tuple t node di
o
Referencing(ti tj) edge(ti, tj)
•
Joining tree of tuples (JTT)
đồ thị con liên thông phi chu trình của DG
Group 8 88
Group 8 5/21/12
5/21/12
Joining tree of tuple (JTT)
Group 8 99
Information node
nút thông tin – chứa từ khóa
cần tìm
Connection node
nút liên kết – kết nối các
info node
Mọi nút lá của JTT đều là nút thông tin
Group 8 5/21/12
5/21/12
Quality of JTT
•
Content quality
cho biết mức độ các nút thông tin
khớp với từ khóa
•
Structural quality
đánh giá ngữ nghĩa của sự liên kết
thông tin – tính chính xác của mối
quan hệ tương ứng
Group 8 10
10
Group 8 5/21/12
5/21/12
Phân loại các giải pháp
•
Explicit data graph model
o
Cụ thể hóa DG
o
Lưu cả DG trong bộ nhớ
truy cập trực tiếp các bộ dữ liệu, dễ dàng mở rộng cây tìm kiếm
o
Structural quality:
-
số bộ trong JTT
-
tổng trọng lượng cạnh độ kết dính
o
Content quality:
Đơn giản nhưng không hiệu quả vì tính toán phân tán trên từng bộ
Ø
DBXplorer[1], DISCOVER[6], DISCOVER2[5], SPARK[10]…
Group 8 11
11
ω1=‘Joan’
ω2=‘Caroli
ne’
ω3=‘Kenne
dy’
IR-score của JTT-1 bị ảnh
hưởng đáng kể bởi họ
‘Kennedy’ do sự xuất hiện
lặp lại trên các bộ
Group 8 5/21/12
5/21/12
Phân loại các giải pháp (tt)
•
Implicit data graph model
o
DG được giữ dưới DBMS
o
Chỉ lưu SG trong bộ nhớ, lấy thông tin cần thiết qua truy vấn
SQL
tiết kiệm không gian nhớ, nhưng I/O cao
o
Không bị hạn chế về content quality nhưng đòi hỏi hàm kết
hợp phức tạp
Ø
BANKS[2], BLINKS[4], Kacholia et al. technique [8]
Group 8 12
12
hybrid approach
Explicit DG Implicit DG
Better structural
quality
Better content
quality
Group 8 5/21/12
5/21/12
Định nghĩa vấn đề
Group 8 13
13
Group 8 5/21/12
5/21/12
Định nghĩa vấn đề (tt)
•
Top-k keyword search result
T1, T2, … Tk
Xếp hạng kết quả theo hàm tính điểm
score(Ti, Q)
Group 8 14
14
Group 8 5/21/12
5/21/12
Đề xuất ma trận chất lượng cấu trúc
Group 8 15
15
Group 8 5/21/12
5/21/12
Độ kết nối
Group 8 16
16
Group 8 5/21/12
5/21/12
Table 1
Group 8 17
17
Group 8 5/21/12
5/21/12
Summary
•
Discuss topics covered
•
Reiterate welcome
•
Wrap-up
Group 8 18
18