Tải bản đầy đủ (.pdf) (53 trang)

NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.37 MB, 53 trang )

BÁO CÁO LUẬN VĂN THẠC SĨ
NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ
HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA
TRÊN KHO TÀI LIỆU KHMT
HỌC VIÊN: CHÂU KIM HÙNG
HƯỚNG DẪN KHOA HỌC: PGS. TS. ĐỖ VĂN NHƠN
Nội dung
1.
2.
3.
4.
5.
Giới thiệu đề tài
Cải tiến mô hình CK-ONTO
Các vấn đề và thuật giải cải tiến
Ứng dụng và thử nghiệm
Kết luận và hướng pháp triển
1.1.
Đặt vấn đề
Tầm quan trọng của các hệ thống thư viện điện tử, các hệ quản lý
tài nguyên học tập.
Một số công cụ tìm kiếm và hệ thống quản lý tài nguyên thông dụng
hiện nay
1.1.
Giải pháp “Thiết kế hệ thống truy vấn tài liệu” đã đưa ra một giải pháp tổng thể,
mang tính hệ thống cho việc quản lý thông tin ngữ nghĩa liên quan đến nội dung
tài liệu và hỗ trợ biểu diễn ngữ nghĩa và xử lý trong truy vấn tài liệu.
Đặt vấn đề (tt)
Kết quả:
Hệ thống tổng
hợp tin tức trực


tuyến
Ứng dụng quản lý
kho tài liệu học tập
lĩnh vực CNTT

Khả năng biểu diễn ngữ nghĩa và tri thức cho lĩnh vực của ontology hiện tại còn nhiều hạn
chế, việc biểu diễn nội dung của tài liệu và các kỹ thuật xử lý ngữ nghĩa còn khá đơn giản:
- Kỹ thuật tính toán và so khớp các đồ thị keyphrase
- Thuật giải xử lý các câu truy vấn





Hạn chế:
Chưa xây dựng hoàn chỉnh bộ rút trích keyphrase tự động để tạo tập đồ thị keyphrase biểu
diễn cho tài liệu
Chưa xây dựng bộ lập chỉ mục tự động cho tập tài liệu
1.2.
Mục tiêu đề tài
Ứng dụng: thừa kế và xây
dựng hệ thống quản lý tài
nguyên học tập lĩnh vực KHMT
trong phạm vi của một trường
đại học.

Với 2 tác vụ chính: tổ chức
quản lý lưu trữ và tìm kiếm
(giới hạn trong phạm vi kho tài
liệu tiếng Anh)


Nghiên cứu đề xuất một mô hình
ontology cải tiến dựa trên việc định
nghĩa thành phần lớp có mô tả cấu
trúc thông tin và xây dựng tập các
luật phổ biến trên miền tri thức của
lĩnh vực:

- Mở rộng việc xử lý câu truy vấn
- Cải tiến kỹ thuật tính toán và so
khớp các đồ thị keyphrase

2.
Cải tiến mô hình CK-ONTO
1
Vai trò của ontology trong giải pháp
2
Mô hình CK-ONTO
3
Mô hình CK-ONTO cải tiến
2.1.
Vai trò của ontology trong giải pháp
Mô hình cơ sở tài liệu có ngữ nghĩa
(Semantic Document Base - SDB)
FS
CK-ONTO
DB
SDB_R
Tập hợp các tài
liệu, mỗi tài liệu

tương ứng một
tập tin
Mô hình lưu trữ
kho tài liệu theo
hệ thống thư mục
có qui chuẩn
Mô hình ontology
mô tả tri thức của
lĩnh vực

Mô hình lớp Cơ
sở dữ liệu của kho
tài liệu
Các hàm liên kết
các thành phần
D
2.1.
Vai trò của ontology trong giải pháp
Ontology là thành phần quan trọng nhất trong mô hình tổng thể. Khả
năng biểu diễn ngữ nghĩa và tri thức cho lĩnh vực của ontology quyết
định toàn bộ hiệu quả của hệ thống, ảnh hưởng đến hầu hết các kỹ
thuật xử lý:
 Biểu diễn ngữ nghĩa cho tài liệu
 Đo lường mức độ liên quan ngữ nghĩa giữa tài liệu và câu truy vấn
 Xử lý câu truy vấn
 Kỹ thuật tìm kiếm theo ngữ nghĩa các tài liệu
 …
Cải tiến mô hình ontology sẽ mang lại ý nghĩa rất quan trọng
cho toàn bộ hệ thống.
2.2.

Mô hình CK-ONTO
Mô hình “Ontology cho các keyphrase được phân lớp” (CK-ONTO)
(K, C, R
KC
, R
CC
, R
KK
, label)
trong đó, các thành phần được mô tả như sau:

 K : tập hợp các keyphrase

 C : tập hợp các lớp keyphrase

 R
KC
: tập hợp các quan hệ giữa keyphrase và lớp

 R
CC
: tập hợp các quan hệ giữa các lớp

 R
KK
: tập hợp các quan hệ giữa các keyphrase

 label : hàm gán nhãn phân loại keyphrase
2.2.
Mô hình CK-ONTO (tt)

Ontology là thành phần quan trọng nhất trong mô hình tổng
thể của hệ thống nhưng chủ yếu dựa trên tập keyphrase và
tập lớp; mà mỗi lớp chỉ chứa các keyphrase, các quan hệ
thuộc về giữa keyphrase và lớp, và quan hệ phân cấp giữa
các lớp.

=> Vì vậy, khả năng thể hiện ngữ nghĩa và kiến thức cho
lĩnh vực của ontology hiện tại còn hạn chế; việc biểu diễn
nội dung của tài liệu và các kỹ thuật xử lý ngữ nghĩa còn
khá đơn giản. Chẳng hạn như giải thuật tính độ liên quan
về mặt ngữ nghĩa giữa hai keyphrase trong kỹ thuật tính
toán và so khớp các đồ thị keyphrase còn khá chậm và
nhiều trường hợp có độ chính xác chưa cao.
2.3.
Mô hình CK-ONTO cải tiến
Tiếp cận ontology
Ontology biểu diễn tri thức, ontology tổng quát, metadata ontology,
ontology lĩnh vực, ontology tác vụ, ontology chỉ mục, ontology hỏi và trả lời,…
Các lớp (classes): mô tả các khái niệm trong miền
lĩnh vực
Quan hệ (relations): biểu diễn các quan hệ giữa các
khái niệm
ONTOLOGY
Thuộc tính (attributes): mô tả các đặc tính, tính chất
khác nhau của mỗi khái niệm
Tiền đề (formal axioms): được sử dụng để kiểm
chứng sự nhất quán của ontology hoặc cơ sở tri thức
Hàm (functions): là loại thuộc tính hay quan hệ đặc
biệt
Thực thể, thể hiện (instances) : các thể hiện của lớp

2.3.
Mô hình CK-ONTO cải tiến (tt)
Ứng dụng ontology trong các hệ thống tìm kiếm
Chức
năng
Tập
trung vào
Đặc
điểm kỹ thuật ontology

Truy
vấn tài liệu
Khái
niệm
Khái
niệm, tính phân cấp
Duyệt
tri thức
Cấu trúc của ontology

Thuộc
tính và quan hệ
Đưa
ra sự phản hồi
Suy luận

Lôgíc
và ràng buộc
Trong các hệ thống hỗ trợ giáo dục, ontology được sử
dụng chủ yếu cho 3 mục đích: (1) biểu diễn và lưu trữ

tri thức về các lĩnh vực cũng như các đối tượng cần
thiết trong ứng dụng; (2) xây dựng các mô hình tổ chức
lưu trữ, biểu diễn ngữ nghĩa, biểu diễn tài liệu, lập chỉ
mục cho các tài liệu (3) xây dựng các chiến lược
tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu.
2.3.
Mô hình CK-ONTO cải tiến
Mô hình CK-ONTO cải tiến là một hệ thống gồm 5 thành phần
(K, C, R, Rules, label)
trong đó, các thành phần được mô tả như sau:

 K : tập hợp các keyphrase

 C : tập hợp các lớp khái niệm

 R : tập hợp các quan hệ giữa các đối tượng

 Rules : tập hợp các luật suy diễn

 label : hàm gán nhãn phân loại keyphrase
2.3.
Mô hình CK-ONTO cải tiến (tt)
(K, C, R, Rules, label)
Tập hợp K các keyphrase
K = {k| k là keyphrase thuộc về lĩnh vực đang xét}
K = K
1
 K
2


K
1
: tập keyphrasr đơn, K
2
: tập keyphrase tổ hợp
KEYPHRASE
Thành phần chính để hình thành các
khái niệm của ontology.
Một đơn vị ngôn ngữ học cấu trúc
như một từ, một từ kép,
một ngữ.

Sử dụng các keyphrase làm yếu tố
đơn vị để mô tả tri thức trong lĩnh
vực hay nội dung tài liệu.
CẤU TRÚC
Keyphrase đơn: cấu tạo bằng một
đơn vị từ vựng đơn.
Ví dụ : “computer”, “network”,
“database”
Keyphrase tổ hợp: nhiều đơn vị từ
vựng đơn kết hợp thành (đẳng lập,
chính phụ)
Ví dụ: “image processing”, “database
programming”
2.3.
(K, C, R, Rules, label)
Mỗi lớp trong tập C là một hệ thống gồm ba thành phần
(K
b

, Attr, Inst)
Mô hình CK-ONTO cải tiến (tt)
Attr
Một tập hợp các
thuộc tính
K
b

Một tập hợp các
keyphrase nền
Inst
Một tập hợp các
thực thể của lớp
2.3.
(K, C, R, Rules, label)
Tập hợp K
b
các keyphrase nền
K
b
= {k
b
| k
b
là keyphrase nền của lớp đang xét}
K
b
 K
K: t


p các keyphrase c

a lĩnh v

c đang xét
Định nghĩa: keyphrase nền là keyphrase thể hiện ngữ nghĩa quan trọng hình
thành nên định nghĩa của một khái niệm ở dạng ngôn ngữ tự nhiên; trong đó,
tên khái niệm cũng chính là tên của lớp.
Ví dụ: Xét định nghĩa của khái niệm “a programming language”:
“A
programming language
is an
artificial language
designed to communicate
instructions to a machine, particularly a computer. Programming languages can
be used to create
programs
that control the behavior of a machine and/or to
express
algorithms

Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp Attr các thuộc tính
Thuộc tính là thành phần thể hiện tính đặc trưng cho lớp, mô tả cấu trúc bên
trong của khái niệm. Trong đó, tên thuộc tính là tên của keyphrase hoặc là tên
của lớp.

Một số kiểu giá trị của thuộc tính như: String, Number, Boolean, Instance.


Giả sử, ta có lớp B là lớp dẫn xuất của lớp A, khi đó:
Attr
A
 Attr
B
Trong đó:
- Attr
A
là tập thuộc tính của lớp A
- Attr
B
là tập thuộc tính của lớp B

Ví dụ:
ALGORITHM
{COMPLEXITY}

complexity
{ARRAY, LIST, GRAPH, TREE}
data structure
Boolean

heuristic
Boolean
recursive
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp Inst các thực thể

Một thực thể là một đối tượng cụ thể của lớp. Tên của thực thể là tên của một
keyphrase k  K và thực thể có cấu trúc là cấu trúc của lớp mà nó thể hiện.

Giả sử, ta có lớp B là lớp dẫn xuất của lớp A, khi đó:
Inst
B
 Inst
A
Trong đó:
- Inst
A
là tập thực thể của lớp A
- Inst
B
là tập thực thể của lớp B

Ví dụ: BINARY SEARCH ALGORITHM là một thể hiện của lớp ALGORITHM
INSTANCE NAME PROPERTY VALUE
Binary Search
Algorithm
complexity
logarit

complexity
data structure array
heuristic false
recursive true
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)

Một tập hợp quan hệ giữa các
lớp
Một tập hợp quan hệ giữa
keyphrase và lớp
Một tập hợp quan hệ giữa
keyphrase và keyphrase
R
R
CC

R
KC

R
KK

Thành phần R là một tập gồm ba tập quan hệ con
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp R
CC
quan hệ giữa các lớp
R
CC
= {r | r ⊆ C × C}
Trong phạm vi đề tài, ta xét R
CC
gồm 3 quan hệ: {r
HYP

,r
RE
, r
PART_OF
}
 Quan hệ phân cấp trên lớp r
HYP

SuperClass

SubClass

ALGORITHM

SEARCHING
ALGORITHM
ALGORITHM

SORTING
ALGORITHM
SEARCHING

ALGORITHM

SHORTEST
PATH SEARCH ALGORITHM
SEARCHING

ALGORITHM


CYCLE
DETECTION ALGORITHM
SEARCHING

ALGORITHM

MINIMUN SPANNING TREE ALGORITHM
SORTING
ALGORITHM
INTERNAL
SORTING ALGORITHM
SORTING
ALGORITHM
EXTERNAL
SORTING ALGORITHM
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
 Quan hệ A-Part-of giữa các lớp r
PART_OF

Partial
class
Entire
class


COMPLEXITY

ALGORITHM


“is
a part of”
DATA
TYPE
PROGRAMMING
LANGUAGE

“is
a part of”
OPERATING
SYSTEM
SMART
PHONE
“is
a part of”
 Quan hệ “có liên quan” giữa các lớp Rre

Related
Class
Intermediary
Class
Class



DATA
TYPE
DATA
STRUCTURE

ALGORITHM

“related”

function

LIBRARY

PROGRAMMING

LANGUAGE
“related”

Quan hệ Related giữa keyphrase và lớp thể hiện mối quan hệ ngữ nghĩa giữa bộ
phận của một lớp với một lớp khác. Một keyphrase a được gọi là có quan hệ
Related với lớp B khi và chỉ khi tồn tại một lớp A, mà ở đó keyphrase a có quan hệ
A-Part-of với lớp A và lớp A có quan hệ A-Part-of với lớp B
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp R
KC
quan hệ giữa các lớp
R
KC
= {r | r ⊆ K × C}
Trong phạm vi đề tài, ta xét R
KC
gồm 3 quan hệ: {r
HYP

,r
RE
, r
PART_OF
}
 Quan hệ A-Part-of giữa keyphrase và lớp r
PART-OF

Property
Keyphrase
Class



heuristic

ALGORITHM

“is
a part of”
type
checking
PROGRAMMING
LANGUAGE
“is
a part of”
operator

DATA
TYPE

“is
a part of”
 Quan hệ “thiết lập” giữa keyphrase và lớp r
ESTAB

Establishing
Keyphrase
Class



artificial
language
PROGRAMMING
LANGUAGE
“establishing”

procedure

ALGORITHM

“establishing”

ordered
collection
LINKED
LIST
“establishing”

 Quan hệ “có liên quan” giữa keyphrase và lớp r

PART-OF

Related
Keyphrase

Intermediary
Class
Class



operator

DATA
TYPE
ALGORITHM

“related”

function

LIBRARY

PROGRAMMING
LANGUAGE
“related”

Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)

Tập hợp R
KK
quan hệ giữa các keyphrase
R
KK
= {r | r ⊆ K × K}
Trong ontology của lĩnh vực KHMT,
 Nhóm quan hệ tương đương
 Nhóm quan hệ phân cấp
 
25
1
KK i
i
Rr




Quan
hệ ngữ nghĩa
Relation

Symbol


tả

dụ
r

1

Synonym

syn

A
đồng nghĩa với B
(
Twittworking,
Twitter
networking)

r
2

Acronym

acr

A
là dạng viết tắt của B
(KR,
knowledge representation)
r
3

Near
synonym
nsyn


A
gần nghĩa với B
(access
code, password)
r
4

A
part of
partOf

A
là một phần của B
(recognition,
image processing)
r
5

A
kind of
kindOf

A
là một (một dạng của) B
(binary
tree, tree)
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)

 Nhóm quan không phân cấp
r
6

Extension

ex

A
là mở rộng của B
r
7

Same
class
Sacl

A
cùng lớp với B
r
8

Relation

re

A
có liên quan với B
r
9


Cause

cause

A
là nguyên nhân gây ra B
r
10

Influence

inf

A
ảnh hưởng đến B
r
11

Instrument

inst

A
được sử dụng như là một phương tiện công cụ cho B
r
12

Make


make

A
tạo ra B
r
13

Possession

poss

A
sở hữu B
r
14

Source

source

A
có xuất xứ từ B
r
15

Aim

aim

Th

ực hiện A để mà/với mục đích B
r
16

Location

loc

Quan
hệ vị trí/ không gian
r
17

Temporal

temp

Quan
hệ thời gian
r
18

Manner

manner

A
là cách thức mà B xảy ra
r
19


Support

support

A
xây dựng trên nền tảng B
r
20

Beneficiary

benef

A
hưởng lợi ích từ B
r
21

Property

pro

A
là một thuộc tính của B
r
22

Agent


agent

A
là tác nhân của B, quan hệ chủ thể - hành động
r
23

Circumstance

circ

A
là một trường hợp/tình huống của B
r
24

Person

pers

Liên
quan đến con người/tổ chức
r
25

Application

app

A

được ứng dụng trong B
Mô hình CK-ONTO cải tiến (tt)
2.3.
(K, C, R, Rules, label)
Tập hợp Rules các luật suy diễn
Rules là tập hợp các luật suy diễn trên các sự kiện liên quan đến tính chất của quan hệ
hoặc sự kiện liên quan đến các keyphrase và các lớp.

Có 2 loại sự kiện chính: sự kiện về tính chất của quan hệ và sự kiện về quan hệ giữa 2
đối tượng (giữa k và k’, giữa c và c’, hoặc giữa k và c).

Định nghĩa: (các loại sự kiện)
(1) Sự kiện thông tin về tính chất của quan hệ: [<relation>, <property_of_relation>].
Ví dụ: [R
sym
, “Đối xứng”]

(2) Sự kiện về quan hệ giữa 2 đối tượng: [<obj
1
>, <relation>, <obj
2
>]


Lo
ại sự kiện

dụ
a
. Sự kiện về quan hệ giữa keyphrase và keyphrase

[k
1, R
syn
, k2]
b
. Sự kiện về quan hệ giữa lớp và lớp
[c
1, R
RE
, c2]
c
. Sự kiện về quan hệ giữa keyphrase và lớp
[k,
R
part_of
, c]
Mô hình CK-ONTO cải tiến (tt)

×