BÁO CÁO LUẬN VĂN THẠC SĨ
NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ
HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA
TRÊN KHO TÀI LIỆU KHMT
HỌC VIÊN: CHÂU KIM HÙNG
HƯỚNG DẪN KHOA HỌC: PGS. TS. ĐỖ VĂN NHƠN
Nội dung
1.
2.
3.
4.
5.
Giới thiệu đề tài
Cải tiến mô hình CK-ONTO
Các vấn đề và thuật giải cải tiến
Ứng dụng và thử nghiệm
Kết luận và hướng pháp triển
1.1.
Đặt vấn đề
Tầm quan trọng của các hệ thống thư viện điện tử, các hệ quản lý
tài nguyên học tập.
Một số công cụ tìm kiếm và hệ thống quản lý tài nguyên thông dụng
hiện nay
1.1.
Giải pháp “Thiết kế hệ thống truy vấn tài liệu” đã đưa ra một giải pháp tổng thể,
mang tính hệ thống cho việc quản lý thông tin ngữ nghĩa liên quan đến nội dung
tài liệu và hỗ trợ biểu diễn ngữ nghĩa và xử lý trong truy vấn tài liệu.
Đặt vấn đề (tt)
Kết quả:
Hệ thống tổng
hợp tin tức trực
tuyến
Ứng dụng quản lý
kho tài liệu học tập
lĩnh vực CNTT
Khả năng biểu diễn ngữ nghĩa và tri thức cho lĩnh vực của ontology hiện tại còn nhiều hạn
chế, việc biểu diễn nội dung của tài liệu và các kỹ thuật xử lý ngữ nghĩa còn khá đơn giản:
- Kỹ thuật tính toán và so khớp các đồ thị keyphrase
- Thuật giải xử lý các câu truy vấn
Hạn chế:
Chưa xây dựng hoàn chỉnh bộ rút trích keyphrase tự động để tạo tập đồ thị keyphrase biểu
diễn cho tài liệu
Chưa xây dựng bộ lập chỉ mục tự động cho tập tài liệu
1.2.
Mục tiêu đề tài
Ứng dụng: thừa kế và xây
dựng hệ thống quản lý tài
nguyên học tập lĩnh vực KHMT
trong phạm vi của một trường
đại học.
Với 2 tác vụ chính: tổ chức
quản lý lưu trữ và tìm kiếm
(giới hạn trong phạm vi kho tài
liệu tiếng Anh)
Nghiên cứu đề xuất một mô hình
ontology cải tiến dựa trên việc định
nghĩa thành phần lớp có mô tả cấu
trúc thông tin và xây dựng tập các
luật phổ biến trên miền tri thức của
lĩnh vực:
- Mở rộng việc xử lý câu truy vấn
- Cải tiến kỹ thuật tính toán và so
khớp các đồ thị keyphrase
2.
Cải tiến mô hình CK-ONTO
1
Vai trò của ontology trong giải pháp
2
Mô hình CK-ONTO
3
Mô hình CK-ONTO cải tiến
2.1.
Vai trò của ontology trong giải pháp
Mô hình cơ sở tài liệu có ngữ nghĩa
(Semantic Document Base - SDB)
FS
CK-ONTO
DB
SDB_R
Tập hợp các tài
liệu, mỗi tài liệu
tương ứng một
tập tin
Mô hình lưu trữ
kho tài liệu theo
hệ thống thư mục
có qui chuẩn
Mô hình ontology
mô tả tri thức của
lĩnh vực
Mô hình lớp Cơ
sở dữ liệu của kho
tài liệu
Các hàm liên kết
các thành phần
D
2.1.
Vai trò của ontology trong giải pháp
Ontology là thành phần quan trọng nhất trong mô hình tổng thể. Khả
năng biểu diễn ngữ nghĩa và tri thức cho lĩnh vực của ontology quyết
định toàn bộ hiệu quả của hệ thống, ảnh hưởng đến hầu hết các kỹ
thuật xử lý:
Biểu diễn ngữ nghĩa cho tài liệu
Đo lường mức độ liên quan ngữ nghĩa giữa tài liệu và câu truy vấn
Xử lý câu truy vấn
Kỹ thuật tìm kiếm theo ngữ nghĩa các tài liệu
…
Cải tiến mô hình ontology sẽ mang lại ý nghĩa rất quan trọng
cho toàn bộ hệ thống.
2.2.
Mô hình CK-ONTO
Mô hình “Ontology cho các keyphrase được phân lớp” (CK-ONTO)
(K, C, R
KC
, R
CC
, R
KK
, label)
trong đó, các thành phần được mô tả như sau:
K : tập hợp các keyphrase
C : tập hợp các lớp keyphrase
R
KC
: tập hợp các quan hệ giữa keyphrase và lớp
R
CC
: tập hợp các quan hệ giữa các lớp
R
KK
: tập hợp các quan hệ giữa các keyphrase
label : hàm gán nhãn phân loại keyphrase
2.2.
Mô hình CK-ONTO (tt)
Ontology là thành phần quan trọng nhất trong mô hình tổng
thể của hệ thống nhưng chủ yếu dựa trên tập keyphrase và
tập lớp; mà mỗi lớp chỉ chứa các keyphrase, các quan hệ
thuộc về giữa keyphrase và lớp, và quan hệ phân cấp giữa
các lớp.
=> Vì vậy, khả năng thể hiện ngữ nghĩa và kiến thức cho
lĩnh vực của ontology hiện tại còn hạn chế; việc biểu diễn
nội dung của tài liệu và các kỹ thuật xử lý ngữ nghĩa còn
khá đơn giản. Chẳng hạn như giải thuật tính độ liên quan
về mặt ngữ nghĩa giữa hai keyphrase trong kỹ thuật tính
toán và so khớp các đồ thị keyphrase còn khá chậm và
nhiều trường hợp có độ chính xác chưa cao.
2.3.
Mô hình CK-ONTO cải tiến
Tiếp cận ontology
Ontology biểu diễn tri thức, ontology tổng quát, metadata ontology,
ontology lĩnh vực, ontology tác vụ, ontology chỉ mục, ontology hỏi và trả lời,…
Các lớp (classes): mô tả các khái niệm trong miền
lĩnh vực
Quan hệ (relations): biểu diễn các quan hệ giữa các
khái niệm
ONTOLOGY
Thuộc tính (attributes): mô tả các đặc tính, tính chất
khác nhau của mỗi khái niệm
Tiền đề (formal axioms): được sử dụng để kiểm
chứng sự nhất quán của ontology hoặc cơ sở tri thức
Hàm (functions): là loại thuộc tính hay quan hệ đặc
biệt
Thực thể, thể hiện (instances) : các thể hiện của lớp
2.3.
Mô hình CK-ONTO cải tiến (tt)
Ứng dụng ontology trong các hệ thống tìm kiếm
Chức
năng
Tập
trung vào
Đặc
điểm kỹ thuật ontology
Truy
vấn tài liệu
Khái
niệm
Khái
niệm, tính phân cấp
Duyệt
tri thức
Cấu trúc của ontology
Thuộc
tính và quan hệ
Đưa
ra sự phản hồi
Suy luận
Lôgíc
và ràng buộc
Trong các hệ thống hỗ trợ giáo dục, ontology được sử
dụng chủ yếu cho 3 mục đích: (1) biểu diễn và lưu trữ
tri thức về các lĩnh vực cũng như các đối tượng cần
thiết trong ứng dụng; (2) xây dựng các mô hình tổ chức
lưu trữ, biểu diễn ngữ nghĩa, biểu diễn tài liệu, lập chỉ
mục cho các tài liệu (3) xây dựng các chiến lược
tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu.
2.3.
Mô hình CK-ONTO cải tiến
Mô hình CK-ONTO cải tiến là một hệ thống gồm 5 thành phần
(K, C, R, Rules, label)
trong đó, các thành phần được mô tả như sau:
K : tập hợp các keyphrase
C : tập hợp các lớp khái niệm
R : tập hợp các quan hệ giữa các đối tượng
Rules : tập hợp các luật suy diễn
label : hàm gán nhãn phân loại keyphrase
2.3.
Mô hình CK-ONTO cải tiến (tt)
(K, C, R, Rules, label)
Tập hợp K các keyphrase
K = {k| k là keyphrase thuộc về lĩnh vực đang xét}
K = K
1
K
2
K
1
: tập keyphrasr đơn, K
2
: tập keyphrase tổ hợp
KEYPHRASE
Thành phần chính để hình thành các
khái niệm của ontology.
Một đơn vị ngôn ngữ học cấu trúc
như một từ, một từ kép,
một ngữ.
Sử dụng các keyphrase làm yếu tố
đơn vị để mô tả tri thức trong lĩnh
vực hay nội dung tài liệu.
CẤU TRÚC
Keyphrase đơn: cấu tạo bằng một
đơn vị từ vựng đơn.
Ví dụ : “computer”, “network”,
“database”
Keyphrase tổ hợp: nhiều đơn vị từ
vựng đơn kết hợp thành (đẳng lập,
chính phụ)
Ví dụ: “image processing”, “database
programming”
2.3.
(K, C, R, Rules, label)
Mỗi lớp trong tập C là một hệ thống gồm ba thành phần
(K
b
, Attr, Inst)
Mô hình CK-ONTO cải tiến (tt)
Attr
Một tập hợp các
thuộc tính
K
b
Một tập hợp các
keyphrase nền
Inst
Một tập hợp các
thực thể của lớp
2.3.
(K, C, R, Rules, label)
Tập hợp K
b
các keyphrase nền
K
b
= {k
b
| k
b
là keyphrase nền của lớp đang xét}
K
b
K
K: t
ậ
p các keyphrase c
ủ
a lĩnh v
ự
c đang xét
Định nghĩa: keyphrase nền là keyphrase thể hiện ngữ nghĩa quan trọng hình
thành nên định nghĩa của một khái niệm ở dạng ngôn ngữ tự nhiên; trong đó,
tên khái niệm cũng chính là tên của lớp.
Ví dụ: Xét định nghĩa của khái niệm “a programming language”:
“A
programming language
is an
artificial language
designed to communicate
instructions to a machine, particularly a computer. Programming languages can
be used to create
programs
that control the behavior of a machine and/or to
express
algorithms
”
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp Attr các thuộc tính
Thuộc tính là thành phần thể hiện tính đặc trưng cho lớp, mô tả cấu trúc bên
trong của khái niệm. Trong đó, tên thuộc tính là tên của keyphrase hoặc là tên
của lớp.
Một số kiểu giá trị của thuộc tính như: String, Number, Boolean, Instance.
Giả sử, ta có lớp B là lớp dẫn xuất của lớp A, khi đó:
Attr
A
Attr
B
Trong đó:
- Attr
A
là tập thuộc tính của lớp A
- Attr
B
là tập thuộc tính của lớp B
Ví dụ:
ALGORITHM
{COMPLEXITY}
complexity
{ARRAY, LIST, GRAPH, TREE}
data structure
Boolean
heuristic
Boolean
recursive
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp Inst các thực thể
Một thực thể là một đối tượng cụ thể của lớp. Tên của thực thể là tên của một
keyphrase k K và thực thể có cấu trúc là cấu trúc của lớp mà nó thể hiện.
Giả sử, ta có lớp B là lớp dẫn xuất của lớp A, khi đó:
Inst
B
Inst
A
Trong đó:
- Inst
A
là tập thực thể của lớp A
- Inst
B
là tập thực thể của lớp B
Ví dụ: BINARY SEARCH ALGORITHM là một thể hiện của lớp ALGORITHM
INSTANCE NAME PROPERTY VALUE
Binary Search
Algorithm
complexity
logarit
complexity
data structure array
heuristic false
recursive true
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Một tập hợp quan hệ giữa các
lớp
Một tập hợp quan hệ giữa
keyphrase và lớp
Một tập hợp quan hệ giữa
keyphrase và keyphrase
R
R
CC
R
KC
R
KK
Thành phần R là một tập gồm ba tập quan hệ con
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp R
CC
quan hệ giữa các lớp
R
CC
= {r | r ⊆ C × C}
Trong phạm vi đề tài, ta xét R
CC
gồm 3 quan hệ: {r
HYP
,r
RE
, r
PART_OF
}
Quan hệ phân cấp trên lớp r
HYP
SuperClass
SubClass
ALGORITHM
SEARCHING
ALGORITHM
ALGORITHM
SORTING
ALGORITHM
SEARCHING
ALGORITHM
SHORTEST
PATH SEARCH ALGORITHM
SEARCHING
ALGORITHM
CYCLE
DETECTION ALGORITHM
SEARCHING
ALGORITHM
MINIMUN SPANNING TREE ALGORITHM
SORTING
ALGORITHM
INTERNAL
SORTING ALGORITHM
SORTING
ALGORITHM
EXTERNAL
SORTING ALGORITHM
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Quan hệ A-Part-of giữa các lớp r
PART_OF
Partial
class
Entire
class
COMPLEXITY
ALGORITHM
“is
a part of”
DATA
TYPE
PROGRAMMING
LANGUAGE
“is
a part of”
OPERATING
SYSTEM
SMART
PHONE
“is
a part of”
Quan hệ “có liên quan” giữa các lớp Rre
Related
Class
Intermediary
Class
Class
DATA
TYPE
DATA
STRUCTURE
ALGORITHM
“related”
function
LIBRARY
PROGRAMMING
LANGUAGE
“related”
Quan hệ Related giữa keyphrase và lớp thể hiện mối quan hệ ngữ nghĩa giữa bộ
phận của một lớp với một lớp khác. Một keyphrase a được gọi là có quan hệ
Related với lớp B khi và chỉ khi tồn tại một lớp A, mà ở đó keyphrase a có quan hệ
A-Part-of với lớp A và lớp A có quan hệ A-Part-of với lớp B
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp R
KC
quan hệ giữa các lớp
R
KC
= {r | r ⊆ K × C}
Trong phạm vi đề tài, ta xét R
KC
gồm 3 quan hệ: {r
HYP
,r
RE
, r
PART_OF
}
Quan hệ A-Part-of giữa keyphrase và lớp r
PART-OF
Property
Keyphrase
Class
heuristic
ALGORITHM
“is
a part of”
type
checking
PROGRAMMING
LANGUAGE
“is
a part of”
operator
DATA
TYPE
“is
a part of”
Quan hệ “thiết lập” giữa keyphrase và lớp r
ESTAB
Establishing
Keyphrase
Class
artificial
language
PROGRAMMING
LANGUAGE
“establishing”
procedure
ALGORITHM
“establishing”
ordered
collection
LINKED
LIST
“establishing”
Quan hệ “có liên quan” giữa keyphrase và lớp r
PART-OF
Related
Keyphrase
Intermediary
Class
Class
operator
DATA
TYPE
ALGORITHM
“related”
function
LIBRARY
PROGRAMMING
LANGUAGE
“related”
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp R
KK
quan hệ giữa các keyphrase
R
KK
= {r | r ⊆ K × K}
Trong ontology của lĩnh vực KHMT,
Nhóm quan hệ tương đương
Nhóm quan hệ phân cấp
25
1
KK i
i
Rr
Quan
hệ ngữ nghĩa
Relation
Symbol
Mô
tả
Ví
dụ
r
1
Synonym
syn
A
đồng nghĩa với B
(
Twittworking,
Twitter
networking)
r
2
Acronym
acr
A
là dạng viết tắt của B
(KR,
knowledge representation)
r
3
Near
synonym
nsyn
A
gần nghĩa với B
(access
code, password)
r
4
A
part of
partOf
A
là một phần của B
(recognition,
image processing)
r
5
A
kind of
kindOf
A
là một (một dạng của) B
(binary
tree, tree)
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Nhóm quan không phân cấp
r
6
Extension
ex
A
là mở rộng của B
r
7
Same
class
Sacl
A
cùng lớp với B
r
8
Relation
re
A
có liên quan với B
r
9
Cause
cause
A
là nguyên nhân gây ra B
r
10
Influence
inf
A
ảnh hưởng đến B
r
11
Instrument
inst
A
được sử dụng như là một phương tiện công cụ cho B
r
12
Make
make
A
tạo ra B
r
13
Possession
poss
A
sở hữu B
r
14
Source
source
A
có xuất xứ từ B
r
15
Aim
aim
Th
ực hiện A để mà/với mục đích B
r
16
Location
loc
Quan
hệ vị trí/ không gian
r
17
Temporal
temp
Quan
hệ thời gian
r
18
Manner
manner
A
là cách thức mà B xảy ra
r
19
Support
support
A
xây dựng trên nền tảng B
r
20
Beneficiary
benef
A
hưởng lợi ích từ B
r
21
Property
pro
A
là một thuộc tính của B
r
22
Agent
agent
A
là tác nhân của B, quan hệ chủ thể - hành động
r
23
Circumstance
circ
A
là một trường hợp/tình huống của B
r
24
Person
pers
Liên
quan đến con người/tổ chức
r
25
Application
app
A
được ứng dụng trong B
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp Rules các luật suy diễn
Rules là tập hợp các luật suy diễn trên các sự kiện liên quan đến tính chất của quan hệ
hoặc sự kiện liên quan đến các keyphrase và các lớp.
Có 2 loại sự kiện chính: sự kiện về tính chất của quan hệ và sự kiện về quan hệ giữa 2
đối tượng (giữa k và k’, giữa c và c’, hoặc giữa k và c).
Định nghĩa: (các loại sự kiện)
(1) Sự kiện thông tin về tính chất của quan hệ: [<relation>, <property_of_relation>].
Ví dụ: [R
sym
, “Đối xứng”]
(2) Sự kiện về quan hệ giữa 2 đối tượng: [<obj
1
>, <relation>, <obj
2
>]
Lo
ại sự kiện
Ví
dụ
a
. Sự kiện về quan hệ giữa keyphrase và keyphrase
[k
1, R
syn
, k2]
b
. Sự kiện về quan hệ giữa lớp và lớp
[c
1, R
RE
, c2]
c
. Sự kiện về quan hệ giữa keyphrase và lớp
[k,
R
part_of
, c]
Mô hình CK-ONTO cải tiến (tt)