Tải bản đầy đủ (.doc) (26 trang)

Tiểu luận môn biểu diễn tri thức và suy luận TÌM HIỂU MỘT SỐ KỸ THUẬT SO KHỚP ONTOLOGY VÀ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (869.14 KB, 26 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TIỂU LUẬN MÔN HỌC:
BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG
ĐỀ TÀI:
TÌM HIỂU MỘT SỐ KỸ THUẬT SO
KHỚP ONTOLOGY VÀ ỨNG DỤNG
GVHD: PGS.TS ĐỖ VĂN NHƠN
HVTH: NGUYỄN MINH PHÁT
MSHV: CH1301047
TP. HỒ CHÍ MINH
Tháng 3/2014
Biểu Diễn Tri Thức Và Ứng Dụng
MỤC LỤC
Lời cảm ơn 3
MỞ ĐẦU 4
I Tổng quan về Ontology Matching 6
1. Một số định nghĩa 6
2. Quy trình Ontology Matching 7
II Các kỹ thuật OM 9
1. Các kỹ thuật khớp mức phân tử 11
1.1. Kỹ thuật khớp dựa vào so khớp chuỗi (String - based) 11
1.1.1 Tiền tố 12
1.1.2 Hậu tố 12
1.1.3 Khoảng cách soạn thảo 12
1.1.4 Khoảng cách n-gram 13
2. Các kỹ thuật dựa trên ngôn ngữ (Language-based) 14
2.1 Các phương pháp bên trong: Tiêu chuẩn hóa ngôn ngữ học 14
2.1.1 Tách từ (Tokenization) 15
2.1.2 Biến đổi về dạng cơ bản của từ (Lemmatization) 15


2.1.3 Loại bỏ từ dừng (stopword elimination) 15
3. Các kỹ thuật dựa trên ràng buộc 16
3.1 So sánh kiểu dữ liệu 16
3.2 So sánh khoảng giá trị (Multiplicity comparison) 17
3.3 Cơ sở ngữ nghĩa (Linguistic resources) 17
3.4 Liên kết dùng lại (Alignment reuse) 18
4. Các kỹ thuật khớp mức cấu trúc 18
4.1 Các kỹ thuật dựa trên đồ thị 19
4.2 Các kỹ thuật dựa vào câu trúc có thứ bậc (taxonomy) 19
4.3 Kho cấu trúc (Repository of structures) 20
4.4 Các kỹ thuật dựa vào mô hình 20
4.5 Các kỹ thuật phân tích và thống kê dữ liệu 21
III Ứng dụng Ontology Matching trong bài toán tích hợp tiến trình nghiệp vụ các doanh
nghiệp 21
1. B2Bi - bài toán tích hợp các doanh nghiệp 21
2. Xây dựng mô hình ứng dụng OM cho bài toán tích hợp các doanh nghiệp 21
2.1 Mô hình tổng quát của bài toán 22
2.2. Xây dựng khung ứng dụng OM System 22
2.3 Matching Engine 23
IV Kết luận và hướng phát triển 24
TÀI LIỆU THAM KHẢO 26
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 2
Biểu Diễn Tri Thức Và Ứng Dụng
Lời cảm ơn
Em xin chân thành cảm ơn PGS.TS Đỗ Văn Nhơn đã giảng dạy chúng em
môn học “Biểu diễn tri thức và ứng dụng”. Thầy đã truyền đạt những kiến thức để
chúng em có thể hiểu nhiều về môn học và tạo điều kiện cho em hoàn thành tiểu luận
này.
Vì điều kiện thời gian và khả năng có hạn nên tiểu luận không thể tránh khỏi

những thiếu sót. Em rất mong nhận được ý kiến đóng góp của thầy để tiểu luận được
hoàn thiện.
Xin chúc Thầy cùng các Thầy cô trong Trường Đại học Công nghệ Thông
tin - Đại học Quốc gia Thành phố Hồ Chí Minh lời chúc sức khoẻ, hạnh phúc và
đạt được nhiều thành công trong sự nghiệp nghiên cứu và đào tạo nguồn nhân lực
CNTT cho đất nước Việt Nam.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 3
Biểu Diễn Tri Thức Và Ứng Dụng
MỞ ĐẦU
Ngày này, khoa học máy tính và công nghệ thông tin phát triển mạnh mẽ, thâm nhập
hầu hết vào các lĩnh vực hoạt động của con người. Nhu cầu về hệ thống thông minh đã
trở thành nhu cầu thiết yếu. Đó là lý do ra đời Trí Tuệ nhân tạo, một lĩnh vực của khoa
học máy tính chuyện nghiên cứu, phát triển các hệ thống ngày càng thông minh hơn.
Trong đó, Biểu diến tri thức là một phần rất cơ bản và quan trọng trong các hệ thống trí
tuệ nhân tạo. Như John Naisbitt đã nói:“Chúng ta đang chìm ngập trong thông tin
nhưng lại khát khao tri thức” Đúng vậy, World Wide Web chứa một lượng thông tin
khổng lồ, chúng được tạo ra từ các tổ chức, cộng đồng và nhiều cá nhân với nhiều lý do
khác nhau. Tuy nhiên, đi kèm với lượng thông tin rất nhiều và phong phú, đa dạng về
mọi mặt thì việc tự động tìm kiếm và thu thập những thông tin hữu ích và cần thiết theo
nhu cầu người dùng lại trở nên rất khó khăn, do đó nguồn tài nguyên trên Web chưa
được khai thác một cách hiệu quả. Hệ thống thông tin trên Web hiện nay tồn tại các vấn
đề nêu trên vì nội dung thông tin được cấu trúc hóa nhằm mục đích để con người có thể
hiểu được, vì thế rất khó để các máy có thể hiểu, xử lý và tích hợp thông tin một cách có
ý nghĩa. Vấn đề đặt ra là cần phải làm sao để thông tin trở nên hữu ích và dễ dàng cho
việc tìm kiếm ứng dụng. Để giải quyết vấn đề đó, nhiều tổ chức nghiên cứu và kinh
doanh đã phối hợp nghiên cứu và phát triển Web có ngữ nghĩa (Semantic Web).Với
Web có ngữ nghĩa, người ta đang hướng tới xây dựng những bộ ngữ nghĩa cho dữ liệu
trên Internet, xây dựng một mạng dữ liệu ngữ nghĩa liên kết toàn cầu, giúp ích cho việc
tìm kiếm và truy tìm thông tin trên Web hiện nay.

Ontology là thành phần trọng tâm của Web có ngữ nghĩa. Để con người hoặc máy
móc có thể giao tiếp được với nhau thì cần một sự thống nhất chung về một tập khác
khái niệm, được định nghĩa trong các ontology. Kể từ khi ra đời cho đến nay, đi đôi với
sự phát triển của Web ngữ nghĩa, ngày càng có nhiều tổ chức cá nhân xây dựng các
ontology cho chính các ứng dụng riêng lẽ của họ. Số lượng ontology ngày càng nhiều
tạo nên sự phong phú về ngữ nghĩa nhưng cũng mang lại những khó khăn nhất định.
Mặc dù các ontology được phát triển cho các ứng dụng khác nhau nhưng nó thường
trùng lặp về thông tin và không dễ dàng để có thể kết hợp các ontology này vào một
ứng dụng mới. Hơn thế nữa, những người sử dụng ontology hay bản thân các nhà xây
dựng ontology lại không chỉ sử dụng ontology của chính họ mà còn muốn mở rộng hay
tích hợp các ontology từ nhiều nguồn khác nhau.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 4
Biểu Diễn Tri Thức Và Ứng Dụng
Khớp Ontology (Ontology Matching) nhằm vào tìm kiếm các ánh xạ giữa mối
quan hệ ngữ nghĩa giữa các thực thể của các Ontology khác nhau. Nhiều giải pháp khớp
khác nhau đã được đề xuất dựa trên nhiều quan điểm như cơ sở dữ liệu, hệ thống thông
tin, trí tuệ nhân tạo,…
Đề tài này nhằm mục đích tìm hiều về Ontology và các kỹ thuật khớp Ontology,
trên cơ sở đó áp dụng vào một số bài toán khớp Ontology.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 5
Biểu Diễn Tri Thức Và Ứng Dụng
I Tổng quan về Ontology Matching
1. Một số định nghĩa
Định nghĩa 1.1: ”Ontology Matching là quá trình tìm kiếm mối quan hệ hay sự
tương đồng giữa các tập thực thể của các ontology khác nhau”[2]
Định nghĩa 1.2: “Ontology Alignment là tập các sự tương đồng giữa hai hay
nhiều ontology” [3]
Như vậy, ta có thể thấy rằng Ontology Alignment chính là kết quả của quá trình

OM.
Hình 1. Ontology Matching

Hình 2. Ví dụ về Ontology Matching
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 6
Biểu Diễn Tri Thức Và Ứng Dụng
Định nghĩa 1.3 (Similarity): Cho O là một tập hợp các thực thể, độ tương tự σ :
O× O → R là một ánh xạ có đầu vào là cặp thực thể thuộc O× O và cho kết quả là một
giá trị số biểu diễn độ tương tự giữa cặp thực thể thỏa mãn các tính chất sau:
∀x, y ∈ O, σ(x, y) ≥ 0
∀x ∈ O, ∀y, z ∈ O, σ(x, x) ≥ σ(y, z)
∀x, y ∈ O, σ(x, y)= σ(y,x)
Định nghĩa 1.4 (Dissimilarity): Cho O là một tập hợp các thực thể, độ sai khác
δ: O × O → R là một ánh xạ có đầu vào là cặp thực thể thuộc O× O và cho kết quả là
một giá trị số biểu diễn độ sai khác giữa cặp thực thể thỏa mãn các tính chất sau:
∀x, y ∈ O, δ(x, y) ≥ 0
∀x ∈ O, δ(x, x)=0
∀x, y ∈ O, δ(x, y)= δ(y,x)
2. Quy trình Ontology Matching
Quy trình OM là một quy trình bao gồm nhiều bước và là một quy trình lặp. Đối
với hầu hết các phương pháp hiện nay, quy trình này được chia thành các bước cơ bản.
Trong một số phương pháp khác, trật tự các bước có thể khác nhau, hoặc một số bước
trong quy trình có thể được sát nhập vào nhau nhưng nhìn chung các phương pháp đều
có cùng các thành phần cơ bản. Ta có thể chia quy trình thành 6 bước cơ bản sau:
Hình 3. Quy trình Ontology Matching
Xây dựng các đặc trưng: Đây là bước khởi đầu của quy trình OM sử dụng các
giá trị đầu vào là các ontology và alignment (nếu có). Để chọn lựa ontology đầu vào,
đầu tiên chúng ta sẽ dựa vào tập các khái niệm dùng để định nghĩa ontology. Ngoài ra,
dựa vào các đặc điểm chung của các thành phần của ontology đầu vào, trong bước này

ta sẽ phân loại chúng theo từng nhóm. Các nhóm thuộc tính này sẽ được sử dụng trong
quá trình so khớp ở các bước tiếp theo.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 7
Biểu Diễn Tri Thức Và Ứng Dụng
Tìm và lựa chọn cặp thực thể: Trong bước này, các alignment đầu vào, nếu có,
sẽ được sử dụng đến. Dựa vào sự phân loại thuộc tính ở bước một và các alignment ứng
cử viên, ta sẽ chọn ra các cặp thực thể của hai ontology để thực hiện việc OM trong
bước tiếp theo. Việc chọn ra các cặp phù hợp, loại bỏ các cặp không phù hợp làm cho
quá trình OM diễn ra nhanh hơn và kết quả chính xác, giảm thiểu độ dư thừa.
Tính toán độ tương tự: Độ tương tự là thước đo xác định sự giống nhau giữa
hai thực thể cần OM. Việc tính toán giá trị này được thực hiện thông qua một tập các
hàm tương tự.
Kết hợp các độ tương tự: Dựa vào các giả thuyết đầu vào, sau khi tính toán độ
tương tự ta có thể đưa ra kết quả OM giữa các ontology. Tuy nhiên, có rất nhiều phương
pháp để tính toán các độ tương tự cho ra các kết quả khác nhau. Do đó, việc kết hợp các
kết quả này để cho ra kết luận đúng đắn nhất là rất quan trọng. Nhiều nhóm nghiên cứu
đã đưa ra các công thức kết hợp các độ tương tự nhưng việc đưa ra công thức cho kết
quả tối ưu nhất thì vẫn đang trong giai đoạn nghiên cứu.
Đưa ra kết luận: Sau khi đã kết hợp được các độ tương tự và đưa ra kết quả
cuối cùng, ta cần đưa ra kết luận dựa vào kết quả đó, hay nói cách khác là kết quả cần
phải được thông dịch nhằm khẳng định hai thực thể của hai ontology có tương tự nhau
hay không. Để thực hiện điều này, hầu hết các hệ thống hiện nay điều sử dụng một giá
trị ngưỡng nhất định. Nếu kết quả cuối cùng lớn hơn giá trị ngưỡng này thì kết luận là
hai thực thể tương tự nhau, ngược lại là không.
Quy trình lặp: Quá trình lặp này sẽ giúp cho việc đưa ra kết quả chính xác hơn,
tránh bỏ sót và loại bỏ các trường hợp không phù hợp. Tuy nhiên, để tránh sự lặp vô
hạn, người ta thường đưa ra các điều kiện để dừng vòng lặp. Các điều kiện đó là :
Quá trình lặp dừng lại sau một số bước nhất định
Quá trình lặp dừng lại sau một thời gian nhất định

Các giá trị thay đổi vẫn không vượt quá ngưỡng
Khi vòng lặp dừng lại, ta đưa ra kết quả cuối cùng. Ứng với ví dụ trên, ta có kết
quả cuối cùng được thể hiện trong Bảng 1:
Bảng 1. Bảng kết quả sau quá trình OM
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 8
Biểu Diễn Tri Thức Và Ứng Dụng
Ontology O
1
Ontology O
2
Similarity Alignment
object
vehicle
car
speed
hasSpeed
Porsche
KA-123
300 km/h
motor
thing
vehicle
automobile
speed
hasProperty
Marc’s Porsche
fast
owner
0.95

0.9
0.85
0.8
0.75
0.75
0.6
0.3
yes
yes
yes
yes
yes
yes
no no
II Các kỹ thuật OM
Mục đích của quy trình OM là nhằm tìm ra mối quan hệ giữa các thực thể được
mô tả ở các ontology khác nhau. Một cách thông thường, mối quan hệ giữa các thực thể
cũng chính là mối quan hệ được tìm thấy thông qua việc tìm ra các độ tương tự giữa các
thực thể của các ontology.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 9
Biểu Diễn Tri Thức Và Ứng Dụng
Hình 4. Phân loại các kỹ thuật khớp
Tìm hiểu một số kỹ thuật khớp Ontology
Matching techniques
Element-level
Structure-level
String-based
name
similarity,

description
similarity,
global
namespase
Language-
based
Tokenisation,
lemmatisation
morphology,
elimiation
Linguistic
resounces
lexicons,
thesauri
Constraint
-based
Type
similarity,
key
properties
Alignment
reuse
Entire
schema or
ontology,
fragment
Upper level,
Domain
specific,
ontologies

SUMO,
DOLCE,
FMA
Data analysis
and statistics
frequency
distributation
Graph-based
Graph
honomophism,
path, children,
leases
Taxonomy
- based
Taxonomy
structure
Repository
of structures
Structure
metadata
Linguistic
resounces
lexicons,
thesauri
Syntactic External Syntactic External Semantics
Linguistic
Internal Retational
Terminological Structural Extensitional Semantic
Matching techniques
Kind of input

Basic techniques
Granularity/ Input interpretation
Trang 10
Biểu Diễn Tri Thức Và Ứng Dụng
Các phân loại được biểu diễn dạng cây với các lá, mỗi lá là một kỹ thuật khớp và
các ví dụ cụ thể của chúng. Một số phương pháp cơ bản để đánh giá sự giống nhau hoặc
các mối quan hệ giữa các thực thể Ontology sẽ được trình bày chi tiết dưới đây.
1. Các kỹ thuật khớp mức phân tử.
Các kỹ thuật mức phân tử xem xét các thực thể Ontology hoặc các trường hợp của
chúng một cách riêng biệt, bỏ qua mối quan hệ giữa chúng với các thực thể khác hoặc
các trường hợp của chúng.
1.1. Kỹ thuật khớp dựa vào so khớp chuỗi (String - based)
Kỹ thuật string-based thường được sử dụng để so khớp tên hoặc mô tả về tên của
các thực thể ontology. Kỹ thuật này xem một string như là một chuỗi các ký tự alphabet.
Nguyên tắc OM chủ yếu là: càng nhiều chuỗi giống nhau, thì khả năng cùng mô tả về
một khái niệm càng cao. Để tính toán độ tương tự giữa hai chuỗi, các nhóm nghiên cứu
đã đưa ra một số phương pháp sau:
Dựa trên khoảng cách Hamming
Dựa vào độ tương tự của chuỗi con để tính ra độ tương tự giữa các chuỗi mẹ
Số phép toán hiệu chỉnh để hai chuỗi giống nhau
Định nghĩa 3. Đẳng thức xâu: Một đẳng thức xâu là một hàm
[ ]
10:
→×
SS
σ

1),(,,
=∈∀
xxSyx

σ
và nếu x ≠ y, σ(x,y) = 0.
Thước đo này không giải thích được hai xâu khán nhau như thế nào. Vì thế người
ta sử dụng khoảng cách Hamming để so sánh hai xâu bằng cách đếm số các vị trí khác
nhau trong hai xâu.
Định nghĩa 4. Khoảng cách Hamming. Khoảng cách Hamming là một hàm
[ ]
10: →× SS
σ
mà:
[ ] [ ]
( )
( )
ts
tstsis
ts
ts
i
,max
),(
),min(
1
−+≠
=

=
δ
Hai xâu được xem là giống nhau khi xâu này là xâu con của xâu kia.
Định nghĩa 5. Kiểm tra xâu con. Kiểm tra xâu con là một hàm:
[ ]

10: →× SS
σ

∀ x,y ∈ S, nếu tồn tại p, s ∈ S trong đó x = p + y + s hoặc y = p + x + s, thì σ(x,y) = 1,
ngược lại σ(x,y) = 0.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 11
Biểu Diễn Tri Thức Và Ứng Dụng
Thước đo này có thể được tinh chế thành một xâu con tương tự các thước đo tỷ lệ
của các thành phần con chung giữa hai xâu.
Định nghĩa 6. Xâu con giống nhau. Xâu con giống nhau là một hàm
[ ]
10: →× SS
σ
mà ∀ x,y ∈ S, và t là xâu con chung dài nhất của x và y:
yx
t
yx
+
=
2
),(
σ
Dễ dàng thấy rằng các thước đo này quả thực giống nhau. Định nghĩa này có thể
được dùng để xây dựng các hàm dựa vào tiền tố chung dài nhất và hậu tố chung dài
nhất.
1.1.1 Tiền tố
Nhận hai chuỗi đầu vào và so sánh sự giống nhau của tiền tố.
Ví dụ: net = network; hay hot = hotel.
1.1.2 Hậu tố

Nhận hai chuỗi đầu vào và so sánh sự giống nhau của hậu tố.
Ví dụ: phone = telephone; hay word = sword.
1.1.3 Khoảng cách soạn thảo
Một khoảng cách soạn thảo giữa hai đối tượng là giá trị tối thiểu của các phép toán
được áp dụng cho một trong các đối tượng để thu được đối tượng khác. Khoảng cách
soạn thảo được thiết kế để đo sự đồng dạng giữa các xâu mà có thể chứa các lỗi chính
tả.
Định nghĩa 7. Khoảng cách soạn thảo. Đưa ra một tập Op các phép toán xâu (Op = S
 S), và một hàm giá trị w: Op  R, mà với cặp các xâu bất kỳ tồn tại một dãy các
phép toán biến đổi xâu đầu tiên thành xâu thứ hai (và ngược lại), khoảng cách soạn thảo
là một hàm không đồng dạng
[ ]
10: →× SS
σ
trong đó δ(s,t) là giá trị của dãy con ít
giá trị nhất của các phép toán biến đổi s thành t.








=


=
Ii
Op

tsOpOpOp
i
ni
wts
))(( );(
1
min),(
δ
Trong xâu khoảng cách soạn thảo, các phép toán thường được xem xét gồm phép
chèn một ký tự ins(c,i), thay thế một ký tự bởi một ký tự khác sub(c,c’,i) và xóa bỏ một
ký tự del(c,i)
-1
. Có thể dễ dàng kiểm tra thấy các phép toán này được quy cho một giá trị
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 12
Biểu Diễn Tri Thức Và Ứng Dụng
và khoảng cách giữa hai xâu là tổng giá trị của mỗi phép toán trên giá trị nhỏ nhất của
tập các phép toán.
Khoảng cách δ(s,t) từ một chuỗi s đến một chuỗi t là một số tối thiểu các thao tác
soạn thảo đơn giản (chèn, xóa, thay thế, đổi chỗ) để biến đổi chuỗi s thành chuỗi t.
Ví dụ: δ(“Virginia”, “Vermont”)=5
Virginia  Verginia  Verminia  Vermonia  Vermonta  Vermont
1.1.4 Khoảng cách n-gram
n-gram cũng được dùng để so sánh các xâu. Nhận hai xâu đầu vào và tính toán số
n-gram chung, ví dụ: dãy n ký tự giữa chúng. Ví dụ, 3-gram cho xâu “article” là: art, rti,
tic, icl, cle.
Định nghĩa 8. Đồng dạng n-gram. Đặt ngram(s,n) là tập các xâu con của s độ dài n.
Đồng dạng n-gram là hàm: σ: S x X  R mà:
( )
1,min

),(),(
),(
+−

=
nts
ntngramnsmgram
ts
σ
Hàm này hoàn toàn hiệu quả khi chỉ một vài ký tự bị mất.
Ví dụ: đồng dạng 3-gram giữa “article” và “aricle” là 2/4 = 0,5; trong khi đồng
dạng 3-gram giữa “article” và “paper” là 0 và đồng dạng 3-gram giữa “article” và
particle là 5/5 = 1.
Trong trường hợp các xâu quá nhỏ, có thể thêm các ký tự vào đầu hoặc cuối các
xâu để xử lý xâu.
Ví dụ : ta sẽ so sánh chuỗi “Article” với các chuỗi “aricle” và “particle”
Nếu áp dụng công thức tính khoảng cách Hamming :
Aricle và aricle: δ(s,t) = = 0.71
Nếu áp dụng việc tính độ tương tự các chuỗi con chung giống nhau giữa hai
chuỗi mẹ: Aricle và aricle :
Aricle và particle :

Kỹ thuật OM string-based sẽ có hiệu quả cao khi người xây dựng ontology sử
dụng các từ giống nhau để định nghĩa cho các khái niệm. Tuy nhiên, vấn đề chính mà kỹ
thuật này hay gặp phải đó là trường hợp các từ đồng âm khác nghĩa hoặc các từ đồng
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 13
Biểu Diễn Tri Thức Và Ứng Dụng
nghĩa. Lúc này, kết quả nếu chỉ dựa vào kỹ thuật này sẽ không có độ chính xác cao.
Chính vì vậy, kỹ thuật không thường được sử dụng một mình mà thường được sử dụng

đi kèm với các kỹ thuật khác.
2. Các kỹ thuật dựa trên ngôn ngữ (Language-based)
Hình 5. Kỹ thuật OM dựa vào mối quan hệ giữa các từ
Các nguồn tài nguyên về ngôn ngữ như các bộ từ điển từ vựng, các từ điển
chuyên đề được sử dụng nhằm so khớp các từ (trong trường hợp này, tên của các thực
thể ontology được xem như là các từ biểu diễn trong ngôn ngữ tự nhiên) dựa trên các
mối quan hệ giữa chúng như dựa vào các từ đồng nghĩa, từ bao hàm…
Phương pháp OM chủ yếu khi sử dụng các nguồn tài nguyên này là dựa vào tập
các từ có một mối quan hệ nào đó với mỗi từ cần so khớp, ví dụ như tập các từ đồng
nghĩa. Nếu hai tập này có nhiều từ chung nghĩa là độ tương tự giữa hai từ gốc càng cao.
Tuy nhiên, phương pháp này có hạn chế là phụ thuộc vào tính chính xác của nguồn tài
nguyên đang sử dụng.
2.1 Các phương pháp bên trong: Tiêu chuẩn hóa ngôn ngữ học
Tiêu chuẩn hóa ngôn ngữ học nhắm vào rút gọn mỗi dạng của một thuật ngữ đến
một vài dạng tiêu chuẩn có thể được thừa nhận dễ dàng. Ví dụ thuật ngữ (theory paper)
có thể xuất hiện dưới nhiều dạng khác nhau (Bảng 2). Có ba kiểu chính của biến đổi
thuật ngữ: hình thái học (biến đổi dạng và hàm của một từ dựa vào cùng gốc), cú pháp
(biến đổi cấu trúc ngữ pháp của một thuật ngữ) và ngữ nghĩa (biến đổi dạng của thuật
ngữ, thường sử dụng hypernym (từ hoặc cụm từ mà nghĩa của nó chứa nghĩa của từ
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 14
Biểu Diễn Tri Thức Và Ứng Dụng
khác) hoặc hyponym (từ hoặc cụm từ mà nghĩa của nó được bao gồm trong nghĩa của từ
khác).
Bảng 2. Các dạng của thuật ngữ theory paper
Kiểu Kiểu con Ví dụ
Morphological Inflection
Derivation
Inflectional-Derivational
Theory papers

Theoretical paper
Theoretical papers
Syntactic Insertion
Permutation
Coordination
Theory review paper
Paper on theory
Philosophy and theory paper
Morphosyntactic Derivation-Coordination
Inflection-Permutation
Philosophical and theoretical paper
Papers on theory
Semantic Foundational paper
Multiligual French Article theorique
2.1.1 Tách từ (Tokenization)
Tokenization phân tích các chuỗi đầu vào thành dãy các phần tử dựa vào dấu hiệu
đoán nhận dấu tách câu như dấu chấm, dấu cách, các ký tự trống, các số,…
Ví dụ: Hands-Free_Kits  <hands, free, kits>
Peer-reviewed periodic publication  <peer, reviewed, periodic, publication>.
2.1.2 Biến đổi về dạng cơ bản của từ (Lemmatization)
Các chuỗi nằm dưới các phần tử được phân tích hình thái học để rút gọn chúng về
các dạng cơ bản và đưa ra tất cả các dạng cơ bản có thể có của chúng.
Ví dụ: reviewed  review
Kits  kit
2.1.3 Loại bỏ từ dừng (stopword elimination)
Các phần tử được thừa nhận như các mạo từ, các giới từ, các liên từ,…(thường các
từ như “to” hoặc “a”), được đánh dấu để loại bỏ bởi vì chúng được xem như các từ
không có ý nghĩa (rỗng) để khớp.
Ví dụ: collection of article collection article
Tìm hiểu một số kỹ thuật khớp Ontology

Trang 15
Biểu Diễn Tri Thức Và Ứng Dụng
Một khi các kỹ thuật này được áp dụng, các thực thể Ontology được biểu diễn như
tập các thuật ngữ chứ không phải các từ.
3. Các kỹ thuật dựa trên ràng buộc
Kỹ thuật này chủ yếu dựa vào cấu trúc nội tại của các thực thể và sử dụng các
điều kiện như tập các thuộc tính, miền giá trị của thuộc tính, các bội số về quan hệ… để
tính độ giống nhau giữa chúng.
Số lượng các thực thể có thể so sánh về bản chất nội tại hoặc các thuộc tính
giống nhau về miền giá trị và miền xác định thường rất nhiều. Chính vì vậy, kỹ thuật so
sánh này thường được sử dụng để đưa ra tập các sự tương ứng làm ứng cử viên hơn là
tìm ra sự tương ứng chính xác giữa các thực thể. Kỹ thuật này thường được sử dụng kèm
với kỹ thuật OM dựa và các thành phần, ví dụ như phương pháp so sánh thuật ngữ,
nhằm giảm đi số lượng các bộ tương ứng được chọn làm ứng cử viên (candidate
correspondences).

Hình 6. Kỹ thuật OM dựa vào cấu trúc
Việc xác định độ tương tự dựa vào các đặc điểm nội tại của các thực thể là rất
quan trọng, cung cấp cơ sở cho các thuật toán. Phương pháp này có ưu điểm là dễ thực
hiện và mang lại hiệu quả cao.
Tuy vậy, phương pháp này không cung cấp nhiều thông tin về thực thể để so
sánh: nhiều đối tượng khác nhau nhưng lại có các thuộc tính giống nhau về kiểu dữ liệu.
Do đó, phương pháp này chủ yếu dùng để loại trừ các bộ tương ứng không phù hợp và
thường được sử dụng kèm với một số kỹ thuật khác.
3.1 So sánh kiểu dữ liệu
So sánh thuộc tính bao gồm so sánh kiểu dữ liệu thuộc tính. Ở đây chúng ta phân
biệt giữa kiểu dữ liệu tương ứng với cách các giá trị được lưu trữ trong máy tính (như
integer, float, string hoặc uri) và phạm vi mô tả tập con của các kiểu dữ liệu thực tế (như
[1012 hoặc “*book”). Trong mục này ta xem xét các kiểu dữ liệu.
Các kiểu dữ liệu không tách rời hoàn toàn, mặc dù có các luật mà một đối tượng

của một kiểu có thể được xem như một đối tượng của kiểu khác và các luật mà một giá
trị của một vài kiểu có thể được biến đổi trong biểu diễn bộ nhớ của kiểu khác.
Ví dụ: integer < real
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 16
Biểu Diễn Tri Thức Và Ứng Dụng
Date 2 [1=4=2005 30=6=2005] < date[year=2005]
Trạng thái gần giữa các kiểu dữ liệu lớn nhất khi các dữ liệu cùng kiểu, nhỏ hơn
khi các kiểu tương thích (ví dụ:integer và float là tương thích) và nhỏ nhất khi chúng
không tương thích. Thêm vào đó, phạm vi so sánh lý tưởng nên dựa vào so sánh kiểu dữ
liệu và so sánh các tập giá trị biến đổi bởi các phạm vi này. Khả năng tương thích giữa
các kiểu dữ liệu thuộc tính có thể được quyết định bằng cách sử dụng một bảng tra cứu
cơ bản.
Kỹ thuật này cho cách kết quả khớp mong đợi, tuy nhiên, cũng có những trường
hợp kỹ thuật này cho kết quả không đúng. Vì thế, phương pháp này không thể được sử
dụng riêng rẽ mà phải kết hợp với các phương pháp khác.
3.2 So sánh khoảng giá trị (Multiplicity comparison)
Hai khoảng giá trị có thể tương thích nếu giao của các khoảng cách tương ứng
khác rỗng.
Định nghĩa 9. Multiplicity similarity: Đưa ra hai đoạn [be] và [b’e’], multiplicity
similarity là một sự giống nhau giữa các khoảng cách nguyên không âm σ: 2
t
x 2
t


[0 1] thỏa mãn:
[ ] [ ]
( )








>>
=
otherwise
bbee
bbee
eborebif
eb
)',min()',max(
)',max()',min(
''0
'',eb,
σ
Ví dụ: nếu so sánh đoạn [0 6] với [2 8], [8 12] và [0 +∞], so sánh sẽ tương ứng là
0.5,0 và 6/MAXINT.
3.3 Cơ sở ngữ nghĩa (Linguistic resources)
Cơ sở ngữ nghĩa sử dụng các tài nguyên mở rộng như các từ vựng hoặc các từ
điển vùng để khớp các từ.
- Cơ sở ngữ nghĩa: WordNet
Những quan hệ giữa lược đồ/ontologies có thể được tính toán dưới dạng những
mối quan hệ từ vựng:
A ⊆ B nếu A – từ nghĩa hẹp của B.
Ví dụ: Brand ⊆ Name
A ⊇ B nếu A – từ nghĩa rộng của B.
Ví dụ: Europe ⊇ Greece

A=B nếu như chúng tương đương
Ví dụ: Quantily = Amount
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 17
Biểu Diễn Tri Thức Và Ứng Dụng
A ⊥ B nếu như chúng là những từ trái nghĩa hoặc anh em trong phần phân cấp.
Ví dụ: Microprocessor ⊥ PC_Board
Khoảng cách cấp bậc trong Wordnet: Hai đầu vào
được gọi là tương đương nếu khoảng cách cấp bậc của
chúng nhỏ hơn một ngưỡng cho phép
Ví dụ: red = pink
Cơ sở chú thích: So sánh chú thích trong Wordnet.
Cơ sở các từ điển đồng nghĩa đặc biệt: Thông thường
được xây dựng để lưu trữ tri thức các lĩnh vực đặc biệt.
Ví dụ: PO = Purchase Order
uom = UnitOfMeasure
line = item
3.4 Liên kết dùng lại (Alignment reuse)
Các kỹ thuật liên kết dùng lại biểu diễn một cách khác khai thác các tài nguyên
nội tại, các liên kết bản ghi của các Ontology đã khớp trước đó. Trong trường hợp, khi
chúng ta cần khớp Ontology o’ và o’’, đưa ra các liên kết giữa o và o’, và giữa o và o’’
sẵn có từ tài nguyên nội tại. Liên kết dùng lại được thúc đẩy bởi nhiều Ontology được
khớp giống các Ontology đã khớp, đặc biệt là nếu chúng mô tả cùng lĩnh vực ứng dụng.
Những kỹ thuật này đặc biệt hứa hẹn khi quan hệ với các Ontology lớn hơn gồm có
hàng trăm và hàng nghìn thực thể. Trong những trường hợp này, đầu tiên, các vấn đề
khớp lớn hơn được phân chia thành các vấn đề con, vì thế sinh ra một tập hợp các vấn
đề khớp các đoạn Ontology. Sau đó, dùng lại các kết quả khớp trước đó có thể cho ứng
dụng hiệu quả ở mức các đoạn Ontology hơn ở mức thực thể Ontology.
4. Các kỹ thuật khớp mức cấu trúc
Các kỹ thuật mức cấu trúc tính toán sự tương ứng bằng việc phân tích các thực thể

hoặc các trường hợp của chúng xuất hiện cùng nhau trong một cấu trúc như thế nào.
Trái ngược với các kỹ thuật mức phân tử, các kỹ thuật mức cấu trúc xem xét các thực
thể Ontology hoặc các trường hợp của chúng để so sánh mối quan hệ của chúng với các
thực thể khác hoặc các trường hợp của chúng.
Việc so sánh giữa các lớp con hoặc lớp cha sẽ được thực hiện dựa vào các kỹ
thuật cơ bản ở phần trên. Việc so khớp ontology dựa vào cấu trúc quan hệ mang lại hiệu
quả cao bởi vì nó cho phép ta tận dụng được tất cả các quan hệ giữa các thực thể. Tuy
vậy, để sử dụng phương pháp này cần phải có các phương pháp cơ sở vững chắc. Đó là
lý do tại sao phương pháp này thường được sử dụng kết hợp với các phương pháp so
khớp các đặc điểm nội tại hoặc các phương pháp dựa vào so sánh thuật ngữ.
Tìm hiểu một số kỹ thuật khớp Ontology
Chromatic color
red pink
Trang 18
Biểu Diễn Tri Thức Và Ứng Dụng

Hình 7. Ví dụ về OM hai ontology dựa trên cấu trúc quan hệ
4.1 Các kỹ thuật dựa trên đồ thị
Các kỹ thuật dựa trên đồ thị là các thuật toán đồ thị xem các Ontology đầu vào
(gồm có các lược đồ cơ sở dữ liệu và các phân loại) như là các đồ thị có cấu trúc đã
được gán nhãn. Thông thường, so sánh sự giống nhau giữa cặp các nút từ hai Ontology
dựa vào việc phân tích vị trí của chúng trong hai đồ thị. Nếu hai nút của hai Ontology
giống nhau, các nút láng giềng của chúng cũng phải giống nhau.
Cùng với các kỹ thuật dựa trên đồ thị hoàn toàn, còn có các kỹ thuật dựa trên cấu
trúc khác rõ ràng hơn, ví dụ cây bao trùm.
4.2 Các kỹ thuật dựa vào câu trúc có thứ bậc (taxonomy)
Các kỹ thuật dựa vào cấu trúc có thứ bậc là các thuật toán đồ thị mà chỉ xem xét
mối quan hệ chuyên môn. Các kỹ thuật này là các liên kết is-a kết nối các từ giống nhau
(được hiểu như tập con hoặc tập ở trên của mỗi từ khác), vì thế các láng giềng của
chúng có thể cũng giống nhau theo cách này hay cách khác. Các kỹ thuật dựa vào cấu

trúc có thứ bậc thường được dùng để so khớp các lớp.
Có nhiều phương pháp được đề xuất để so sánh các lớp dựa vào cấu trúc có thứ
bậc. Một trong những phương pháp chung nhất là dựa vào việc đếm số cạnh trong cùng
thứ bậc giữa hai lớp.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 19
Biểu Diễn Tri Thức Và Ứng Dụng
Thông thường người ta sử dụng bảng dữ liệu WordNet (cơ sở dữ liệu từ vựng điện
tử dùng cho tiếng anh, dựa vào khái niệm các từ đồng nghĩa) và thước đo khoảng cách
sau :
Định nghĩa (Cấu trúc topo không đồng dạng trong hệ thống thứ bậc) : hàm : o x
o  R là hàm không đồng dạng trên thứ bậc
≤= ,oH
thỏa mãn:
)],'(),([min)',(,',
0
ceceeeoee
c
δδδ
+=∈∀

Trong đó δ(e,c) là số cạnh trung gian giữa phần tử e và phần tử c.
Định nghĩa (Wu-Palmer similarity): Hàm σ : o x o  R là giống nhau trên bậc H
=
≤,o
thỏa mãn:
),'(2)','()',(
),'(2
)',(
pcccccccc

pcc
cc
∧×+∧+∧
∧×
=
δδδ
δ
σ
trong đó p là gốc của thứ bậc, δ(c,c’) là số cạnh trung gian giữa lớp c và lớp c’, và
c ∧ c’ = {c’’ ∈ o ; c ≤c’’∧ c’ ≤c’’}.
4.3 Kho cấu trúc (Repository of structures)
Kho cấu trúc chứa các Ontology và các phân đoạn của chúng cùng với các thước
đo sự giống nhau, ví dụ các hệ số trong khoảng [0 1]. Không giống liên kết dùng lại,
kho cấu trúc chỉ chứa sự giống nhau giữa các Ontology chứ không phải giữa các liên
kết. Để đơn giản việc trình bày, chúng ta gọi các Ontology hoặc các phân đoạn của
chúng như các cấu trúc. Khi các cấu trúc mới được khớp, chúng được kiểm tra đầu tiên
dựa vào các cấu trúc giống nhau đã có sẵn trong kho. Mục đích là để xác định cấu trúc
đủ giống nhau để đánh giá vấn đề khớp chi tiết hơn, hoặc dùng lại các liên kết hiện nay,
vì thế, tránh các phép toán khớp trên các cấu trúc không giống nhau. Rõ ràng, việc xác
định sự giống nhau giữa các cấu trúc nên được tính toán thấp hơn khớp chúng chi tiết
đầy đủ. Để khớp hai Ontology đề xuất sử dụng một vài siêu dữ liệu mô tả các cấu trúc
này, như tên cấu trúc, tên gốc, số các nút, độ dài đường dẫn tối đa,…Những chỉ báo này
sau đó được phân tích và tập hợp thành một hệ số đơn, đánh giá sự giống nhau giữa
chúng. Ví dụ, hai cấu trúc có thể được tìm thấy như một so khớp thích hợp nếu chúng
có cùng số nút.
4.4 Các kỹ thuật dựa vào mô hình
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 20
Biểu Diễn Tri Thức Và Ứng Dụng
Các kỹ thuật dựa vào mô hình xử lý đầu vào dựa vào sự thể hiện ngữ nghĩa của

nó, ví dụ các ngữ nghĩa mô hình lý thuyết. Nếu hai thực thể giống nhau, chúng chia sẻ
cùng các thể hiện. Vì thế, chúng là các phương pháp suy diễn vững chắc. Ví dụ: các kỹ
thuật định đề thỏa mãn và lập luận logic mô tả.
4.5 Các kỹ thuật phân tích và thống kê dữ liệu
Các kỹ thuật phân tích và thống kê dữ liệu là những kỹ thuật lợi dụng một mẫu
đại diện của một mẫu để tìm các quy tắc và sự không thống nhất. Điều này giúp nhóm
các mục cùng một nhóm hoặc tính toán khoảng cách giữa chúng. Trong số các kỹ thuật
phân tích dữ liệu chúng ta thảo luận sự phân loại khảng cách cơ sở, phân tích dạng các
khái niệm và phân tích sự tương ứng; trong số các phương pháp phân tích thống kê
chúng ta xem xét phân phối thường xuyên. Các kỹ thuật này được xem xét như các
chiến lược khớp.
III Ứng dụng Ontology Matching trong bài toán tích hợp tiến trình
nghiệp vụ các doanh nghiệp
1. B2Bi - bài toán tích hợp các doanh nghiệp
B2Bi là viết tắt của thuật ngữ Business-to-Business Integration - mô hình kinh
doanh thương mại điện tử trong đó giao dịch diễn ra trực tiếp giữa các doanh nghiệp với
nhau. Giao dịch của các công ty với nhau thường được bắt đầu từ các giao tiếp điện tử,
trong đó có giao tiếp qua các sàn giao dịch điện tử. Thay vì hình thức kinh doanh độc
lập manh mún trước đây, mô hình B2Bi đã giúp cho các doanh nghiệp có sự hỗ trợ nhau
rất nhiều, tạo nên một vòng khép kín đối với các tiến trình nghiệp vụ.
Vấn đề đặt ra là trong môi trường hiện nay, mặc dù tham gia hoạt động kinh
doanh dưới hình thức thương mại điện tử nhưng vẫn xảy ra tình trạng nhỏ lẻ, manh mún
và phân tán của các doanh nghiệp. Một trong những lý do của nguyên nhân này là các
doanh nghiệp chưa biết đến nhau, sự phối hợp thông tin giữa các doanh nghiệp chưa tốt
và quá trình hợp tác cũng chỉ được làm một cách thủ công. Tình trạng này đặt ra yêu cầu
cần có một hệ thống có thể tích hợp các tiến trình nghiệp vụ của các doanh nghiệp một
cách nhanh chóng, chính xác và tự động, đảm bảo thỏa mãn các yêu cầu của khách hàng
nhưng đồng thời cũng tránh sự lặp lại về chức năng, về thông tin hoặc bổ sung cho nhau
giữa các tiến trình nghiệp vụ. Các yêu cầu tiến trình nghiệp vụ gởi đến hệ thống, hệ
thống sẽ tìm kiếm Web Service có thể thực thi các tiến trình nghiệp vụ này. Để quá trình

tìm kiếm diễn ra một cách tự động, hiệu quả và nhanh chóng, mỗi Web Service sẽ được
gán ngữ nghĩa thông qua các profile mô tả chức năng của Web Service. Các Service
profile này chính là các ontology. Như vậy, bài toán đặt ra ở đây là thông qua các
ontology mô tả các Web Service, hệ thống sẽ tiến hành so khớp, tích hợp, ánh xạ nhằm
tìm ra các Web Service phù hợp với yêu cầu đưa vào.
2. Xây dựng mô hình ứng dụng OM cho bài toán tích hợp các doanh nghiệp
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 21
Biểu Diễn Tri Thức Và Ứng Dụng
2.1 Mô hình tổng quát của bài toán
Dựa vào bài toán tổng quát đã đặt ra, ta chia mô hình thành 3 phần (Hình 7):

Hình 8. Mô hình tổng quát bài toán tích hợp doanh nghiệp
Business Process Integration System (BPIS): Các doanh nghiệp cộng tác với
nhau ở trong phần này. Đưa ra các tiến trình nghiệp vụ của mình để tích hợp nhằm thực
hiện một tiến trình nghiệp vụ chung nào đó.
Web services Providers: Các yêu cầu về nghiệp vụ sẽ được gởi đến hệ thống
WSP. WSP sẽ tìm kiếm các WS thích hợp rồi gởi kết quả trở về BPIS.
OM System (OMS): Để WSP có thể tìm kiếm các WS thích hợp thì WSP cần có
sự hỗ trợ của OMS. Từ các yêu cầu về WS của BPIS gởi đến WSP, WSP sẽ gởi đến
OMS nhằm so khớp để tìm ra các WS thích hợp với các yêu cầu của tiến trình nghiệp
vụ.
2.2. Xây dựng khung ứng dụng OM System
Khung ứng dụng OM System gồm có 4 phần như sau:
Matching Repository: là kho chứa các thành phần OM có thể tái sử dụng và các
metadata mô tả các thuộc tính của nó
Ontology Repository: quản lý các dữ liệu đầu vào của quá trình OM được mô tả
bởi ontology metadata
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 22

Biểu Diễn Tri Thức Và Ứng Dụng
Rule Repository: được xem như là bộ phấn nối kết giữa ontology và các thuộc
tính so khớp, quy định các luật OM thích hợp đối với các ontology đầu vào
Matching Engine: chịu trách nhiệm chọn lựa (thông qua các luật) và thực thi
các thuật toán OM đối với các dạng cụ thể của ontology đầu vào
Các metadata (Matching metadata, Ontology metadata) có nhiệm vụ mô tả ngữ
nghĩa các thuộc tính của các thuật toán OM, các ontology. Các metadata này được xây
dựng theo một chuẩn thống nhất. Dựa vào các mô tả này, các Matching Engine sẽ tự
động so sánh các metadata của các giá trị đầu vào với các ràng buộc của các thuật toán
có sẵn cùng với các tập luật được xây dựng bởi các chuyên gia nhằm loại bỏ việc áp
dụng các thuật toán OM không phù hợp, không thỏa mãn các thuộc tính của các
ontology sẽ được OM.

Hình 9. Mô hình khung ứng dụng OM System
2.3 Matching Engine
Kiến trúc chi tiết của hệ thống Matching Engine gồm các thành phần sau:
Composition: là tầng kết hợp các dữ liệu đầu vào bao gồm ontology metadata,
Matching metadata, các ontology cần so khớp, các kỹ thuật OM cơ bản, tập các Rule.
Thông qua sự kết hợp đó, hệ thống sẽ chọn ra các kỹ thuật OM phù hợp nhất đối với
dạng ontology đầu vào.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 23
Biểu Diễn Tri Thức Và Ứng Dụng
Similarity Computation: sau khi đã chọn được các kỹ thuật OM thích hợp ở
tầng dưới, việc tính toán độ tương tự sẽ được tiến hành.
Evaluation and Aggregation Result: đây là tầng tổng hợp các kết quả đơn lẻ
tính được. Bằng cách sử dụng các chiến lược tổng hợp cùng với sự định giá độ chính
xác, tầng ứng dụng này sẽ đưa ra kết quả mang tính tổng quát và chính xác nhất.
Extraction: dựa vào kết quả đưa ra ở tầng dưới để đưa ra kết luận các cặp thực
thể giống nhau của các ontology được so khớp dựa vào một giá trị ngưỡng cho trước.

Kết quả xuất ra là các alignment.
Domain knowledge and constraints: nơi cung cấp các tri thức miền và các ràng
buộc như: các bộ từ điển, WordNet… phục vụ trong quá trình OM các ontology sử dụng
kỹ thuật dựa vào ngôn ngữ.

Hình 10. Kiến trúc Matching Engine
Transformation: là một tùy chọn của hệ thống Matching Engine, cho phép
chuyển đổi các thực thể của ontology nguồn sang dạng ontology đích nhằm phục vụ quá
trình trộn, ánh xạ hoặc tích hợp ontology.
IV Kết luận và hướng phát triển
Sự phát triển của Web Ngữ nghĩa đã đem lại nhiều hướng nghiên cứu mới trong
lĩnh vực Công nghệ Thông tin. Với cơ sở là các ontology, các dữ liệu đã được ngữ nghĩa
hóa để có thể “hiểu được” bởi máy tính. Điều này đã giúp ích rất nhiều trong các lĩnh
vực cần sự truy xuất, trao đổi thông tin một cách chính xác và tự động, trong đó có lĩnh
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 24
Biểu Diễn Tri Thức Và Ứng Dụng
vực thương mại điện tử. Khi mỗi doanh nghiệp xây dựng ontology mô tả các tiến trình
nghiệp vụ của doanh nghiệp mình, việc tích hợp giữa các doanh nghiệp sẽ được tự động
hóa và chính xác hơn thông qua quá trình Ontology Matching thay vì phải “bắt tay” thủ
công như trước đây.
Mô hình đưa ra ở trên tập trung vào việc đưa ra một sự chọn lựa cho việc tích
hợp các tiến trình của các doanh nghiệp. Mô hình tập trung vào việc mô tả nhiều thông
tin hơn đối với các ontology đầu vào nhằm tìm ra phương pháp OM thích hợp qua sự kết
hợp với các tập luật. Tuy vậy, mô hình này không tự động hóa hoàn toàn mà cần phải có
sự can thiệp của con người trong việc xây dựng các metadata và các tập luật.
Bài toán so khớp ontology và một số vấn đề có liên quan, đặc biệt là vấn đề tương
tác người dùng trong hệ thống so khớp ontology. Một hướng tiếp cận đầy hứa hẹn để xử
lý các thông tin nhận được từ tương tác người dùng là sử dụng các mô hình học máy.
Các mô hình học máy đã được sử dụng thành công trong nhiều bài toán trong ngành

khoa học máy tính đặc biệt đối với bài toán có liên quan đến bài tóan so khớp ontology
như truy vấn thông tin.
Trong thời gian tới, em dự kiến sẽ triển khai cài đặt ứng dụng ontology matching
trong bài toán tích hợp tiến trình nghiệp vụ các doanh nghiệp.
Trong quá trình thực hiện tiểu luận mặc dù đã có rất nhiều cố gắng nhưng chắc
chắn vẫn còn nhiều thiếu sót, em rất mong nhận được những ý kiến đóng góp quý báu
của Thầy.
Tìm hiểu một số kỹ thuật khớp Ontology
Trang 25

×