Tải bản đầy đủ (.pdf) (18 trang)

Tìm kiếm từ khóa phổ dụng top-k trên các cơ sở dữ liệu quan hệ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (310.98 KB, 18 trang )

Click to edit Master
subtitle style
Group 8 5/21/12
5/21/12
BÁO CÁO BÀI TẬP LỚN
CƠ SỞ DỮ LIỆU
[2011]
ĐH Bách Khoa Hà Nội
GV: Nguyễn Thị Kim Anh
Nhóm 8:

Vũ Việt Trung – SHSV: 20092898

Bạch Ngọc Sơn – SHSV: 20092225
Group 8 11
Group 8 5/21/12
5/21/12
Universal Top-k Keyword Search
over Relational Databases
Tìm kiếm từ khóa phổ dụng top-k
trên các cơ sở dữ liệu quan hệ
Group 8 22
Group 8 5/21/12
5/21/12
KHÁI QUÁT
Tìm kiếm theo khóa

Một trong những mô hình hiệu quả
nhất cho khai phá thông tin

Đơn giản



Chất lượng kết quả: nội dung & cấu
trúc
Giải pháp đề xuất cho kết quả tốt hơn

Cách tiếp cận tổng hợp - lai

Sử dụng bộ đệm

Phân tách các truy vấn phức tạp
Group 8 33
Group 8 5/21/12
5/21/12
GIỚI THIỆU
Hạn chế của truy vấn văn bản trên các hệ
quản trị cơ sở dữ liệu hiện nay:

Chỉ thực hiện trên một lược đồ dữ liệu
cụ thể

Người dùng cần nắm thống tin về lược
đồ

Người dùng cần biết về khả năng tìm
kiếm văn bản đầy đủ (full-text search)

Các truy vấn cấu trúc trở nên phức tạp
với yêu cầu thông tin ngày càng cao
Group 8 44
Group 8 5/21/12

Quan hệ Cô - Cháu gái
5/21/12 Group 8 55
Group 8 5/21/12
Tìm người tên Joan có cháu gái tên Caroline
5/21/12 Group 8 66
Group 8 5/21/12
5/21/12
ĐẶT VẤN ĐỀ

Chất lượng truy vấn tìm kiếm theo
từ khóa được đánh giá dựa trên
quan hệ giữa kết quả và từ khóa
hàm tính điểm (scoring function)

Sự khác biệt giữa IR System và
DBMSs
o
Single document
o
Virtual record (Joining tuples)
Group 8 77
Group 8 5/21/12
5/21/12
Các khái niệm

Relational database schema

Schema graph (SG)
đồ thị có hướng biểu thị các mối quan hệ
o

relation Ri node si
o
relationship(Ri Rj) edge(si, sj) 

Data graph (DG) - đồ thị dữ liệu
o
Tuple t node di
o
Referencing(ti tj) edge(ti, tj) 

Joining tree of tuples (JTT)
đồ thị con liên thông phi chu trình của DG
Group 8 88
Group 8 5/21/12
5/21/12
Joining tree of tuple (JTT)
Group 8 99
Information node
nút thông tin – chứa từ khóa
cần tìm
Connection node
nút liên kết – kết nối các
info node
 Mọi nút lá của JTT đều là nút thông tin
Group 8 5/21/12
5/21/12
Quality of JTT

Content quality
cho biết mức độ các nút thông tin

khớp với từ khóa

Structural quality
đánh giá ngữ nghĩa của sự liên kết
thông tin – tính chính xác của mối
quan hệ tương ứng
Group 8 10
10
Group 8 5/21/12
5/21/12
Phân loại các giải pháp

Explicit data graph model
o
Cụ thể hóa DG
o
Lưu cả DG trong bộ nhớ
truy cập trực tiếp các bộ dữ liệu, dễ dàng mở rộng cây tìm kiếm 
o
Structural quality:
-
số bộ trong JTT
-
tổng trọng lượng cạnh độ kết dính 
o
Content quality:
Đơn giản nhưng không hiệu quả vì tính toán phân tán trên từng bộ
Ø
DBXplorer[1], DISCOVER[6], DISCOVER2[5], SPARK[10]…
Group 8 11

11
ω1=‘Joan’
ω2=‘Caroli
ne’
ω3=‘Kenne
dy’
IR-score của JTT-1 bị ảnh
hưởng đáng kể bởi họ
‘Kennedy’ do sự xuất hiện
lặp lại trên các bộ
Group 8 5/21/12
5/21/12
Phân loại các giải pháp (tt)

Implicit data graph model
o
DG được giữ dưới DBMS
o
Chỉ lưu SG trong bộ nhớ, lấy thông tin cần thiết qua truy vấn
SQL
tiết kiệm không gian nhớ, nhưng I/O cao
o
Không bị hạn chế về content quality nhưng đòi hỏi hàm kết
hợp phức tạp
Ø
BANKS[2], BLINKS[4], Kacholia et al. technique [8]
Group 8 12
12
hybrid approach
Explicit DG Implicit DG

Better structural
quality
Better content
quality
Group 8 5/21/12
5/21/12
Định nghĩa vấn đề
Group 8 13
13
Group 8 5/21/12
5/21/12
Định nghĩa vấn đề (tt)

Top-k keyword search result
T1, T2, … Tk
Xếp hạng kết quả theo hàm tính điểm
score(Ti, Q)
Group 8 14
14
Group 8 5/21/12
5/21/12
Đề xuất ma trận chất lượng cấu trúc
Group 8 15
15
Group 8 5/21/12
5/21/12
Độ kết nối
Group 8 16
16
Group 8 5/21/12

5/21/12
Table 1
Group 8 17
17
Group 8 5/21/12
5/21/12
Summary

Discuss topics covered

Reiterate welcome

Wrap-up
Group 8 18
18

×