Tải bản đầy đủ (.pdf) (43 trang)

Mô hình và giải pháp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1011.87 KB, 43 trang )



51

CHƯƠNG 3
MÔ HÌNH VÀ GIẢI PHÁP

Vấn đề trọng tâm trong việc xây dựng một hệ thống quản lý kho tài nguyên theo
ngữ nghĩa được đặt ra như sau: cho trước một tập các tài liệu D, làm thế nào để tổ chức
lưu trữ tập tài liệu này, trong đó cố gắng quản lý được các thông tin ngữ nghĩa liên quan
đến nội dung của tài liệu, cũng như hỗ trợ biểu diễn và xử lý ngữ nghĩa trong tìm kiếm.
Trong phần này sẽ
trình bày một mô hình tổ chức lưu trữ kho tài liệu theo ngữ nghĩa
cùng với các phương pháp biểu diễn và xử lý tri thức, biểu diễn và xử lý ngữ nghĩa của
các tài liệu. Biểu diễn ngữ nghĩa dựa trên các ontology hiện nay là cách tiếp cận hiện
đại và phù hợp cho việc thiết kế biểu diễn và xử lý nội dung, ý nghĩa của các tài liệu
của con người. Việc nghiên cứu các ontology cho biểu diễn tri thứ
c và biểu diễn ngữ
nghĩa, trên cơ sở đó phát triển và xây dựng giải pháp sẽ cho ta giải pháp tốt theo mục
tiêu và nhu cầu của ứng dụng thực tế đặt ra. Các phương pháp dựa trên ontology sẽ
được vận dụng một cách linh hoạt có sự phát triển để tạo ra các mô hình, các ngôn ngữ
đặc tả phục vụ việc xử lý lưu trữ và tìm kiếm theo ngữ nghĩa một cách hiệu quả hơn.
3.1.
MÔ HÌNH ONTOLOGY

Luận văn trình bày cách tiếp cận mới trong việc xây dựng một hệ thống quản lý
tài nguyên dựa trên ontology. Mục đích áp dụng ontology trong hệ thống này là: biểu
diễn và lưu trữ tri thức về các lĩnh vực cũng như các đối tượng cần thiết trong ứng
dụng; xây dựng các mô hình tổ chức lưu trữ, mô hình biểu diễn ngữ nghĩa, biểu diễn tài
liệu; tổ chức lập ch
ỉ mục, hỗ trợ xử lý và tìm kiếm theo ngữ nghĩa liên quan đến nội


dung tài liệu. Trong phần này ta sẽ xem xét một mô hình ontology biểu diễn tri thức về
một lĩnh vực đặc biệt là CNTT bao gồm các khái niệm và quan hệ được sử dụng để
hình thức hóa tri thức của lĩnh vực. Cấu trúc ontology được thiết kế có tính tổng quát và
dễ dàng mở rộng cho nhiều lĩnh vực khác nhau cũng như các loạ
i hình ứng dụng khác


52

nhau. Một nhóm các chuyên gia hay còn gọi là kỹ sư tri thức sẽ chịu trách nhiệm xây
dựng và cải tiến lược đồ ontology này.
Các mô hình đề xuất trong luận văn có thể xem như một chọn lựa tốt hơn so với
các mô hình đã có với việc sử dụng các keyphrase làm yếu tố đơn vị để mô tả tri thức
trong lĩnh vực hay nội dung tài liệu. Việc dùng keyphrase xuất phát từ ý tưởng là
keyphrase thì ít nhậ
p nhằng và biểu diễn nội dung tài liệu chính xác hơn keyword. Trên
thực tế, nhiều tài liệu khoa học yêu cầu tác giả cung cấp một danh sách các từ khóa cho
các bài viết của mình, chúng thường là những cụm từ của hai hoặc nhiều từ, hơn là
những từ đơn lẻ. Qua đó, nội dung của tài liệu có thể được biểu diễn thông qua một
danh sách ngắn của những cụm từ phản ánh các chủ đề chính
được thảo luận trong tài
liệu. Tuỳ thuộc vào từng mục đích sử dụng mà việc sử dụng keyphrase trong biểu diễn
và truy vấn thông tin mang lại những lợi ích khác nhau:
 Cung cấp một tóm tắt cô đọng về tài liệu, cho khả năng mô tả mức cao về nội
dung, giúp người dùng có thể nhận biết dễ dàng mối liên quan giữa tài liệu và nội dung
chuyên môn họ đang quan tâm. Ví dụ như khi đọc lướt qua m
ột tài liệu nào đó, chỉ cần
duyệt qua các keyphrase, người đọc có thể nhanh chóng xác định được chủ đề của tài
liệu đó; so sánh độ tương quan về ngữ nghĩa giữa các tài liệu; cho khả năng gom cụm
hay phân loại các tài liệu theo chủ đề.

 Keyphrases cho Metadata: Nhiều nhà nghiên cứu tin rằng siêu dữ liệu là điều
cần thiết để giải quyết các vấn đề về quản lý tài li
ệu. Có một số tiêu chuẩn đối với siêu
dữ liệu văn bản, bao gồm Dublin Core Metadata Element Set sử dụng trong thư viên
Trung tâm máy tính Hoa Kỳ , định dạng MARC (Machine-Readable Cataloging) được
khai thác bởi Thư viện Quốc hội Hoa Kỳ, tiêu chuẩn LOM, IMS, ... Tất cả các tiêu
chuẩn này bao gồm một trường cho các keyphrase.
 Keyphrases cho Indexing: Một danh sách keyphrase hay tổ hợp đặc biệt các
keyphrase được rút trích từ bộ sưu tập các tài liệu có thể được dùng làm chỉ mục củ
a tài
liệu. Việc sử dụng keyphrase để lập chỉ mục thì ít nhập nhằng và biểu diễn nội dung tài


53

liệu chính xác hơn từ đơn.
 Keyphrases trong việc truy vấn tương tác: Sử dụng một công cụ tìm kiếm thường
là một quá trình lặp đi lặp lại. Người dùng nhập vào một truy vấn, xem xét danh sách
kết quả, sửa đổi các truy vấn, sau đó cố gắng tìm lại một lần nữa. Hầu hết các công cụ
tìm kiếm không có bất kỳ tính năng đặc biệt có hỗ trợ các khía c
ạnh tìm kiếm lặp đi lặp
lại. Một cách tiếp cận để sàng lọc truy vấn tương tác là từ câu truy vấn của người dùng,
rút trích keyphrase của những tài liệu kết quả được xếp hạng cao và sau đó hiển thị
danh sách tài liệu này cho người dùng, cùng với những đề xuất tinh chỉnh câu truy vấn,
dựa trên sự kết hợp của câu truy vấn ban đầu với các keyphrase trích xuất.
 Keyphrases cho việc phân tích người dùng: ng
ười quản lý kho tài nguyên thường
muốn biết những gì người dùng hệ thống của họ đang tìm kiếm. Hầu hết các hệ thống
có các file nhật ký ghi lại thông tin người dùng, bao gồm cả ngày và thời gian yêu cầu,
các tài liệu được yêu cầu. Việc sử dụng các keypkrase có thể cung cấp một cái nhìn sâu

sắc hơn về lưu lượng tài liệu được chia sẽ. Thay vì thống kê một danh sách các tài liệu
được ưa thích nhất, ta có thể truy xuấ
t ra được một danh sách các keyphrase được tìm
kiếm nhiều nhất. Điều này có thể cung cấp cho nhà quản lý hiểu biết về các chủ đề nào
được người dùng quan tâm nhất.
3.1.1. Mô hình ontology cho ngữ nghĩa của các tài liệu
Ta gọi một mô hình “Ontology cho các keyphrase được phân lớp”, viết tắt là mô
hình CK_ONTO (Classed Keyphrase based Ontology) là một hệ thống gồm có sáu
thành phần:
(K, C, R
KC
, R
CC
, R
KK
, label)
trong đó các thành phần được mô tả như sau:
1) Một tập hợp K các keyphrase

Keyphrase là thành phần chính để hình thành các khái niệm của ontology, ngoài
ra keyphrase cũng có nghĩa là một đơn vị ngôn ngữ học cấu trúc như một từ, một từ
kép, một ngữ (ở đây chúng tôi dùng nguyên từ kephrase để chỉ cùng lúc cả hai ý nghĩa


54

trên). Nói cách khác, keyphrase được xem là những từ vựng hay thuật ngữ chuyên
ngành biểu thị khái niệm khoa học, chủ yếu dùng trong các văn bản khoa học công
nghệ.
Keyphrase là thành phần cơ bản và nền tảng của ontology. Về mặt cấu trúc thì có

hai loại keyphrase là keyphrase đơn và keyphrase tổ hợp. Keyphrase đơn là những
keyphrase chỉ biểu thị cho một khái niệm, được hiểu là những keyphrase cấu tạo bằng
một đơn vị t
ừ vựng đơn là từ hay một đơn vị tương đương từ như cụm từ cố định (đơn
vị do một số từ hợp lại, tồn tại với tư cách một đơn vị có sẵn như từ, có thành tố cấu tạo
và ngữ nghĩa cũng ổn định như từ). Ví dụ: computer, network, database, data structure,
wireless, communication, algorithm. Keyphrase tổ hợp gồm nhiều đơn v
ị từ vựng đơn
kết hợp thành, được xây dựng theo phương thức ghép các keyphrase đơn (hay
keyphrase tổ hợp khác) lại, mà giữa các keyphrase (thành tố cấu tạo) đó có quan hệ về
nghĩa với nhau. Dựa vào tính chất của mối quan hệ về nghĩa giữa các thành tố cấu tạo,
có thể phân loại keyphrase tổ hợp như sau:
- Đẳng lập: Đây là những keyphrase mà các thành tố cấu tạo có quan hệ bình đẳ
ng với
nhau về nghĩa, thường có cú pháp đơn giản là dùng liên từ “and”, “with”, “by”, ….
Ví dụ: computer networking and communication, computer graphic and image
processing.
- Chính phụ: Những keyphrase mà có thành tố cấu tạo này phụ thuộc vào thành tố cấu
tạo kia, thành tố phụ có vai trò phân loại, chuyên biệt hoá và sắc thái hoá cho thành
tố chính, biểu hiện thuộc tính, tính chất, đặc điểm. Ví dụ: database programming,
network programming, document retrieval, wireless communication.
Như vậy, gọi K = {k| k là keyphrase thuộc về lĩnh vực đang xét}, K = K
1
∪ K
2
,
trong đó K
1
là tập các keyphrase đơn và K
2

là tập các keyphrase tổ hợp. Hiện nay, tập
keyphrase về lĩnh vực CNTT mà chúng tôi thu thập được bao gồm khoảng 16000
keyphrase.



55

2) Một tập hợp C các lớp keyphrase

Mỗi lớp keyphrase c ∈ C là một tập hợp các keyphrase có liên quan với nhau
theo một tính chất hay ngữ nghĩa nào đó. Chúng có thể chứa các keyphrase, các lớp
khác, hay là sự phối hợp của cả hai. Như vậy, một lớp có thể bao gồm nhiều lớp hoặc
được gộp vào lớp khác hình thành mối quan hệ phân cấp giữa lớp cha và lớp con. Theo
đó các lớp được cho phép có một số lượng lớp cha bất kỳ. Mộ
t keyphrase có thể thuộc
nhiều lớp khác nhau. Sự phân lớp trong K được phân thành nhiều cấp theo mức độ cụ
thể của khái niệm tăng dần. Xây dựng được một tập hợp lớp tốt sẽ tạo nên một hệ thống
tốt, tuy nhiên việc phân lớp các keyphrase khi phân tích và mô tả một miền tri thức
không phải là việc đơn giản, không có một phương pháp hoàn chỉnh để tìm lớp. Trong
phạm vi nghiên cứu, dự
a trên ngữ nghĩa của keyphrase, của các lớp chủ đề, việc gán
keyphrase vào một (hay một số) lớp chủ đề thích hợp được thực hiện thủ công với các
kỹ thuật điều khiển bằng tay dưới sự giám sát và ý kiến của một số chuyên gia tri thức
về lĩnh vực khảo sát.

Hình 3.1. Không gian các keyphrase
Như vậy, ta gọi C = {c ∈ P(K) | c là lớp keyphrase mô tả các lĩnh vực hay chủ đề
con thuộc về lĩnh vực đang xét}. Đối với lĩnh vực CNTT ta có
{ }

( )}, 1,...,360
i
CC Ki=∈Ρ =
, có 360 lớp tương ứng với 360 chủ đề.
360
1
i
i
KC
=
=
U
.
Ví dụ: Lớp DATA STRUCTURE chứa các keyphrase liên quan cấu trúc dữ liệu như


56

sau: DATA STRUCTURE = {stack, queue, contiguous list, linked list, hash table,
graph, tree, sorting, multiway tree, root, strictly binary tree, complete binary tree, AVL
tree, Red Black tree, Bubble sort, Merge sort,…}, trong đó bao gồm các lớp con khác
như GRAPH, TREE, SORTING, …
Phần lớn sức mạnh của ontology nằm ở khả năng diễn đạt quan hệ. Tập hợp các
quan hệ cùng nhau mô tả ngữ nghĩa của một lĩnh vực. Các quan hệ trong ontology được
phân làm ba nhóm: quan hệ giữa keyphrase và lớp, quan hệ giữa các lớp, quan hệ trực
tiếp giữa các keyprase.
3) Một tập hợp R
KC
các quan hệ giữa keyphrase và lớp
Ta có tập C ≠ ∅, K ≠ ∅, một quan hệ hai ngôi giữa K và C là một tập con của

KC×

{| }
KC
R rr K C=⊆×
. Trong phạn vi đề tài, ta chỉ xét R
KC
gồm một quan hệ
“thuộc về” giữa keyphrase và lớp (ký hiệu r
BL
). Ta nói một keyphrase a “thuộc về” lớp
A khi và chỉ khi (a, A) ∈ r
BL
(trong ontology đã xây dựng thì | r
BL
| ≈ 21000). Ví dụ :
Keyphase inClass
data warehouse DATABASES
database DATABASES
digital imaging GRAPHICS
4) Một tập hợp R
CC
các quan hệ giữa các lớp
Ta có tập C ≠ ∅ , một quan hệ hai ngôi trên tập các lớp keyphrase C là tập con
của
CC×

{| }
CC
R rr C C=⊆×

. Trong phạm vi đề tài, ta chỉ xét hai loại quan hệ trên
lớp như sau:
- Quan hệ phân cấp trên lớp r
HYP
:
Một lớp có thể bao gồm nhiều lớp hoặc được gộp vào lớp khác hình thành mối
quan hệ phân cấp giữa lớp cha và lớp con. Lớp con là một lớp thông thường nhưng có
thêm tính chất kế thừa một phần hay toàn bộ các đặc tính của một lớp khác. Lớp chia sẻ
sự kế thừa gọi là lớp cha. Cho hai lớp keyphrase A và B thuộc C, ta nói A có quan hệ


57

phân cấp với B khi và chỉ khi
(,)
HYP
AB r∈
và viết là A r
HYP
B, khi đó A là một đặc biệt
hóa của B, phản ánh một chủ đề hay lĩnh vực con của B và tập A ⊂ B, ngược lại B có
quan hệ r
HYP
-1
so với A. Ví dụ: ta có một sơ đồ phân cấp các lớp như sau:
PROGRAMMING
|--- PROGRAMMING LANGUAGE
|--- PROGRAMMING METHODOLOGY
|--- OBJECT ORIENTED PROGRAMMING
|--- FUNCTIONAL PROGRAMMING

|--- LOGIC PROGRAMMING
|--- PROGRAMMING TECHNIQUE
trong đó, mối quan hệ giữa các lớp được mô tả như bảng bên dưới:
SuperClass SubClass
PROGRAMMING PROGRAMMING LANGUAGE
PROGRAMMING PROGRAMMING TECHNIQUE
PROGRAMMING PROGRAMMING METHODOLOGY
PROGRAMMING METHODOLOGY OBJECT ORIENTED PROGRAMMING
PROGRAMMING METHODOLOGY FUNCTIONAL PROGRAMMING
PROGRAMMING METHODOLOGY LOGIC PROGRAMMING
Tổng số các lớp dùng mô hình hóa cho lĩnh vực CNTT là 360 lớp và có | r
HYP
| ≈
600 mối quan hệ phân cấp giữa các lớp với nhau. Ví dụ: sơ đồ hình vẽ mối quan hệ
phân cấp của lớp NETWORK


58


Hình 3.2. Sơ đồ phân cấp của lớp NETWORK
- Quan hệ có liên quan giữa các lớp r
RE
:
Theo cách thức xây dựng lớp thì một keyphrase có thể thuộc nhiều lớp khác
nhau hay một lớp con được cho phép có một số lượng lớp cha bất kỳ dẫn đến việc xuất
hiện một loại quan hệ trên lớp mà theo đó các lớp được gọi là “có liên quan với nhau”
nhưng không hình thành quan hệ phân cấp theo nghĩa bao hàm chứa trong. Các lớp này
có một số đặc điểm chung, ít nhiều liên quan với nhau bởi vì chúng có những keyphrase
hay l

ớp con tương tự, giao nhau tại một số keyphrase hay thậm chí là những lớp con
thuộc về lớp đó. Như vậy, cho hai lớp keyphrase A và B thuộc C, ta nói lớp A có liên
quan với lớp B khi và chỉ khi
(, )
RE
AB r∈
và viết là A r
RE
B, khi đó tồn tại một tập các
keyphrase hay lớp con X sao cho X chứa trong A và X chứa trong B, đặc biệt A không
chứa trong B hoặc ngược lại. Ví dụ: ta có một số lớp có liên quan với nhau như sau:
Related class Related class
PROGRAMMING LANGUAGE PROGRAMMING METHODOLOGY


59

GRAPHICS IMAGE PROCESSING
COMMUNICATION NETWORK
HARDWARE ELECTRONIC TECHNOLOGY

Hình 3.3. Quan hệ giữa các lớp
5) Một tập hợp R
KK
các quan hệ giữa các keyphrase
Các keyphrase trong tập K không tồn tại một cách cô lập, tách biệt, rời nhau mà
luôn có những mối quan hệ nhất định. Phân loại quan hệ ngữ nghĩa giữa các keyphrase
là rất đa dạng và phức tạp, phụ thuộc vào những đặc trưng ngữ nghĩa cũng như mục
đích, lĩnh vực hay miền tri thức tiếp cận.
Ta có tập K ≠ ∅ , một quan hệ hai ngôi trên K là một tập con c

ủa
KK×
, nghĩa
là một tập hợp các cặp keyphrase thuộc K và R
KK
= {r |
rKK⊆×
}. Tùy thuộc vào
miền tri thức, ta có nhiều quan hệ về ngữ nghĩa khác nhau trên keyphrase. Nhìn chung,
các quan hệ này có thể được chia thành ba nhóm chính: nhóm quan hệ tương đương,
nhóm quan hệ phân cấp, nhóm quan hệ không phân cấp. Trong ontology đã xây dựng
thì
{}
25
1
KK i
i
R r
=
=
tương ứng với 25 quan hệ chính được trích chọn trong lĩnh vực CNTT.
Cho hai phần tử x và y thuộc K, ta nói x có quan hệ r
i
với y khi và chỉ khi (x,y) ∈ r
i

viết là x r
i
y, ngược lại y có quan hệ r
i

-1
so với x.
• Nhóm quan hệ tương đương : Liên kết các keyphrase tương đồng với nhau về
nghĩa, chúng có thể thay thế cho nhau trong một số ngữ cảnh nào đó.


60

- Quan hệ đồng nghĩa r
1
, quan hệ viết tắt r
2
:
Ta nói keyphrase a có quan hệ đồng nghĩa (r
1
) hoặc quan hệ viết tắt (r
2
) với
keyphrase b nếu trong một ngữ cảnh nào đó chúng có cùng nghĩa với nhau và thay thế
được cho nhau (a là dạng viết tắt của b trong trường hợp quan hệ r
2
). Ví dụ:
Excluded keyphrase Selected keyphrase
JSP Java Server Page “is a acronym of”
Algorithm and data
structure
Data structure and algorithm “is a synonym of”
Twittworking Twitter networking “is a synonym of”
UMA Unified Memory Architecture “is a acronym of”
UMA Unlicensed Mobile Access “is a acronym of”

UMA Upper Memory Area “is a acronym of”
Những keyphrase đồng nghĩa với nhau tập hợp thành một nhóm gọi là nhóm
keyphrase đồng nghĩa. Trong mỗi nhóm keyphrase đồng nghĩa thường có một
keyphrase mang nghĩa chung, được dùng phổ biến và trung hoà về mặt phong cách,
được lấy làm cơ sở để tập hợp và so sánh, phân tích các keyphrase khác, gọi là
keyphrase trung tâm hay keyphrase đại diện của nhóm. Tuy nhiên, việc xác định
keyphrase trung tâm của nhóm không phải lúc nào cũng dễ và đối với nhóm nào cũng
làm đượ
c. Nhiều khi ta không thể xác định một cách dứt khoát được theo những tiêu chí
vừa nêu trên, mà phải dựa vào những tiêu chí phụ như: tần số xuất hiện cao (hay được
sử dụng) hoặc khả năng kết hợp rộng.
- Quan hệ gần nghĩa r3:
Quan hệ giữa những keyphrase gần nhau về nghĩa trong một số ngữ cảnh nào
đó, những keyphrase này ít nhiều giống nhau, song không đồng nhất về nghĩ
a. Ta nói
keyphrase a có quan hệ gần nghĩa (r
3
) với keyphrase b nếu trong một ngữ cảnh nào đó
chúng có nghĩa gần nhau và có thể thay thế cho nhau (trong ontology đã xây dựng
123
| | 7000
rrr≈
UU
).Ví dụ:


61

Excluded keyphrase Selected keyphrase
access code Password

document representation indexation of a document
query by content search by content
Quan hệ tương đương sẽ liên kết các keyphrase đồng nghĩa (hay gần nghĩa) (gọi là
excluded keyphrase) với một keyphrase đặc biệt đại diện cho nhóm tương đương (gọi là
selected keyphrare) và được thay thế bởi keyphrase này trong quá trình xử lý ngữ nghĩa.
• Nhóm quan hệ phân cấp: thể hiện phạm vi ngữ nghĩa giữa các keyphrase
(nghĩa rộng hơn, nghĩa hẹp hơn)
- Quan hệ A-Part-Of r
4
:
Quan hệ giữa bộ phận và toàn thể, mang ý nghĩa bao hàm, chứa trong. Một
keyphrase a được gọi là có quan hệ A-Part-Of (r
4
) với keyphrase b khi chúng ta có thể
nói “một b có một a” hoặc “một a là một phần của b”(|r
4
| ≈600). Mối quan hệ phân cấp
r
HYP
giữa các lớp có thể mô tả thành mối quan hệ A-Part-Of giữa các keyphrase nếu
keyphrase đó có tên giống với tên lớp mà nó thuộc về.
- Quan hệ A-Kind-of r
5
:
Quan hệ mà theo đó có thể có những khái niệm là sự đặc biệt hóa của những
khái niệm khác. Có thể hiểu đây là một loại quan hệ theo kiểu ISA (là một). Khi đó
nghĩa con kế thừa tất cả những tính chất của nghĩa cha đồng thời bổ sung thêm những
thuộc tính mới phân biệt với những nghĩa con khác. Một keyphrase a được gọi là có
quan hệ A-Kind-of (r
5

) với keyphrase b khi chúng ta có thể nói nói “a là một (một dạng
của) b” (|r
5
| ≈4000). Mối quan hệ thuộc về giữa keyphrase và lớp có thể mô tả thành
mối quan hệ A-Kind-Of giữa các keyphrase nếu keyphrase có tên giống với tên lớp mà
nó thuộc về. Ví dụ:
Narrower keyphrase Broader keyphrase
soft computing computer science “is a part of”


62

genetic algorithm soft computing “is a part of”
Regconition image processing “is a part of”
Semantic net graph “is a kind of”
Conceptual graph graph “is a kind of”
Java Programming language “is a kind of”
• Nhóm quan hệ không phân cấp: liên kết các keyphrase có liên hệ ngữ nghĩa
với nhau nhưng không hình thành cây phân cấp hay tương đương ngữ nghĩa.
- Quan hệ mở rộng r
6
:
Extended keyphrase a có quan hệ mở rộng (r
6
) với keyphrase b nếu a là một mở
rộng và nâng cao trên nền tảng của b, bổ sung nâng cao thêm nhiều tính năng và chức
năng mới không có trong b. Ví dụ:
Keyphrase Extended keyphrase
C C++
RDF OWL

- Quan hệ cùng lớp r
7
:
Ta nói keyphrase a có quan hệ cùng lớp (r
7
) với keyphrase b nếu có một lớp C
i

sao cho a ∈ C
i
và b ∈ C
i
. Ví dụ: các keyphrase Java, PHP, C#, Perl, Pascal đều thuộc
cùng một lớp PROGRAMMING LANGUAGE.
- Quan hệ có liên quan r
8
:
Sự xuất hiện của các keyphrase đều có quan hệ mật thiết với nhau theo một ngữ
nghĩa nào đó nhằm để diễn tả một ngữ cảnh xác định. Do đó có những keyphrase luôn
đi cùng với nhau (đồng hiện) và mang một nghĩa xác định và ngược lại. Ví dụ:
Related keyphrase Related keyphrase
Networking Operating system
LAN server workstation
License Copyright
- Các quan hệ khác


63

Các quan hệ ngữ nghĩa trên được hiểu là các quan hệ từ điển cơ bản, phản ánh độ

tương tự nhau về ngữ nghĩa giữa các keyphrase. Theo đó, hệ thống từ vựng (keyphrase)
được chia thành những tập hợp từ vựng có sự đồng nhất về nghĩa xét theo một phương
diện nào đấy để phát hiện ra tính hệ thống và cấu trúc của hệ thống t
ừ vựng. Tuy nhiên,
các quan hệ này chỉ mới phản ánh được một vài liên kết ngữ nghĩa của những
keyphrase thuộc cùng một chủ đề (có thể là một chủ đề rộng và phức tạp), do đó vẫn
chưa đủ để biểu diễn cho nhiều mối quan hệ đa dạng khác trên nhiều chủ đề khác nhau.
Ví dụ: để biểu diễn nội dung “document representation using conceptual graph” nếu
chỉ dùng các quan hệ kể
trên là rất khó do các quan hệ này không phản ánh được liên
kết ngữ nghĩa giữa document representation và conceptual graph. Câu văn này không
phải đề cấp đến document representation “và” conceptual graph (hai chủ đề độc lập)
mà là về một vấn đề document representation “using” conceptual graph. Khi đó,
“document representation” và “conceptual graph” có liên quan với nhau về nghĩa theo
quan hệ “instrument” (phương tiện, công cụ) và việc sử dụng quan hệ này sẽ cho phép
biểu diễn chủ đề của câu văn mộ
t cách linh hoạt, rõ ràng và chính xác hơn.
Như vậy, ngoài các quan hệ kể trên, các keyphrase còn có thể được liên kết với
nhau thông qua 17 quan hệ khác từ r
8
đến r
25
(được mô tả trong bảng sau):
Bảng 3.1: Quan hệ giữa các keyphrase trong CK_ONTO
Quan hệ ngữ
nghĩa
Relation
Symbol
Mô tả
r

1
Synonym syn A đồng nghĩa với B
r
2
Acronym acr A là dạng viết tắt của B
r
3
Near synonym nsyn A gần nghĩa với B
r
4
A part of partOf A là một phần/công đoạn của B
r
5
A kind of kindOf A là một ( một dạng của) B
r
6
Extension ex A là mở rộng của B


64

r
7
Same class Sacl A cùng lớp với B
r
8
Relation re A có liên quan với B
r
9
Cause cause A là nguyên nhân gây ra B

r
10
Influence inf A ảnh hưởng đến B
r
11
Instrument inst A được sử dụng như là một phương tiên
công cụ cho B
r
12
Make make A tạo ra B
r
13
Possession poss A sở hữu B
r
14
Source source A có xuất xứ từ B
r
15
Aim aim Thực hiện A để mà/với mục đích B
r
16
Location loc Quan hệ vị trí/ không gian
r
17
Temporal temp Quan hệ thời gian
r
18
Manner manner A là cách thức mà B xảy ra
r
19

Support support A xây dựng trên nền tảng B
r
20
Beneficiary benef A hưởng lợi ích từ B
r
21
Property pro A là một thuộc tính của B
r
22
Agent agent A là tác nhân của B, quan hệ chủ thể - hành
động
r
23
Circumstance circ A là một trường hợp/tình huống của B
r
24
Person pers Liên quan đến con người/tổ chức
r
25
Application app A được ứng dụng trong B

- Quan hệ thành lập (quan hệ về cấu trúc):
Một quan hệ trên keyphrase khác có thể kể đến là quan hệ thành lập giữa các
keyphrase. Một keyphrase a có quan hệ thành lập với keyphrase b khi b là tổ hợp có
thành phần là a. Ví dụ :


65

Multi- keyphrase Mono-keyphrase

Wireless Communication Wireless, Communication property
Data structure and algorithm Data structure, algorithm AND
game programming for mobile devices game programming, mobile device FOR
Việc xác định quan hệ giữa các keyphrase là một vấn đề quan trọng trong tìm
kiếm thông tin. Điều này sẽ làm tăng tính ngữ nghĩa cho câu hay tập tài liệu. Đồng thời,
khi tìm kiếm một thông tin nào đó, ta có thể nhận được những thông tin về các vấn đề
khác liên quan tới nó. Vì vậy, để tìm kiếm được những thông tin chính xác, chúng ta
cần biết các loại quan hệ và tìm hiểu các phương pháp để xác định được các quan hệ đó.
6)
Hàm gán nhãn phân loại keyphrase
Nền tảng của biểu diễn ngữ nghĩa là hệ thống các keyphrase. Theo cách tiếp cận
trong đề tài, một keyphrase có thể chỉ đến một thuật ngữ thông thường hay một lớp khi
tên keyphrase trùng lớp tên lớp mà keyphrase thuộc về. Như vậy, ngữ nghĩa của
keyphrase xét ở một gốc độ nào đó sẽ có liên quan đến cấp độ của nó về nội dung. Sự
phân cấp này dựa trên sự phân cấ
p đi từ các phạm vi rộng như ngành, chuyên ngành
đến các phạm vị hẹp hơn như môn học, nhóm chuyên đề, chủ đề con trong lĩnh vực
hình thành các cấp độ của keyphrase như cấp ngành, cấp chuyên ngành, cấp chuyên
đề…Để mô tả thông tin về một keyphrase biểu thị cho một lớp và cấp độ của nó về nội
dung, ta sử dụng một hàm gán nhãn ngữ nghĩa cho keyphrase như sau:
Cho Labels là tập các nhãn phân loại.
Labels = {“Ngành”, “Chuyên ngành”, “Môn học”, “Chuyên đề
”, “Chủ đề”,
“Thuật ngữ chuyên môn”, …}.
Hàm label: K Æ P(Labels), trong đó mặc định mỗi keyphrase là một “Thuật
ngữ chuyên môn”
Ví dụ: “soft computing”
a
{“Thuật ngữ chuyên môn”, “Chuyên ngành”}, keyphrase
soft computing không chỉ là một thuật ngữ chuyên môn thông thường mà còn biểu thị

cho một lớp ở cấp độ là chuyên ngành của một lớp ngành nào đó (cụ thể là lớp ngành


66

COMPUTER SCIENCE).
“natural language processing”
a
{“Thuật ngữ chuyên môn”, “Chuyên ngành”,
“Chuyên đề”}, keyphrase natural language processing biểu thị cho cả lớp chuyên
ngành NATURAL LANGUAGE PROCESSING và lớp chuyên đề con của lớp chuyên
ngành này.
3.1.2. Qui trình xây dựng ontology cho lĩnh vực CNTT
Trong phần này, chúng tôi sẽ trình bày phương pháp và qui trình để xây dựng
Ontology chuyên ngành tin học. Qui trình xây dựng gồm các bước chính sau:

Hình 3.4. Qui trình xây dựng ontology lĩnh vực CNTT
3.1.2.1. Thu thập dữ liệu và tích hợp Ontology
Với qui mô lớn thì không thể xây dựng ontology từ vạch xuất phát vì đòi hỏi
nhiều chi phí và công sức. Mặt khác, việc tái sử dụng các ontology đang tồn tại và được
sử dụng phổ biến đã mang lại nhiều lợi ích. Hiện tại có rất nhiều trang Web trên thế
giới cung cấp sẵn các ontology đơn giản chuyên ngành tin học, một s
ố trang Web cho
phép chúng ta xem ontology trực tuyến. Do đó, mục đích của bước này là thu thập các
ontology từ nhiều nguồn khác nhau. Hầu hết các ontology này vẫn còn sơ sài, đơn giản,
chỉ được tổ chức dưới dạng cây phân cấp.
Ngoài ra, ta có thể dựa vào WordNet, từ điển LLOCE, LDOCE, từ điển tin học
để làm giàu nguồn dữ liệu có được vì trong đó các khái niệm đã được sắp xếp và định



67

nghĩa cũng đã được cung cấp, vì vậy có thể lợi dụng chúng cho việc xây dựng ontology.
Bên cạnh đó, các từ điển này còn cung cấp cho ta một hệ thống các quan hệ phân cấp,
quan hệ đồng nghĩa, gần nghĩa đơn giản hình thành nên các quan hệ trong ontology.
Hình sau đây là một phần cây phân cấp các thuật ngữ tin học được lấy từ trang
web: />

Hình 3.5: Phân loại phạm vi tin học trên yahoo.com
Sự phân loại các phạm vi tin học tại trang web www.webopedia.com
như sau:

Hình 3.6: Phân loại phạm vi tin học trên webopedia.com
Theo thống kê từ dữ liệu tại trang webopedia ta có được 16 lớp chính cho lĩnh

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×