Tải bản đầy đủ (.pdf) (114 trang)

Luận văn: Đối sánh tự động lược đồ XML pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 114 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI







LUẬN VĂN THẠC SỸ KHOA HỌC

®èi s¸nh tù ®éng l−îc ®å XML


NGÀNH: CÔNG NGHỆ THÔNG TIN

MS: ……………………….



VÕ SỸ NAM

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS. HUỲNH QUYẾT THẮNG













HÀ NỘI - 2006


Mục lục


Danh mục từ viết tắt, thuật ngữ Error! Bookmark not defined.
Danh mục bảng biểu Error! Bookmark not defined.
Danh mục hình vẽ Error! Bookmark not defined.
Mở đầu Error! Bookmark not defined.
1. Giới thiệu chung Error! Bookmark not defined.
2. Nội dung luận văn Error! Bookmark not defined.
Chương 1 Đối sánh lược đồ Error! Bookmark not defined.
1.1 Tổng quan về đối sánh lược đồ Error! Bookmark not defined.
1.1.1 Các khái niệm cơ bản về đối sánh lược đồ Error! Bookmark not defined.
1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ Error! Bookmark not defined.
1.2 Các tiếp cận đối sánh lược đồ Error! Bookmark not defined.
1.2.1 Phân loại các tiếp cận đối sánh lược đồ Error! Bookmark not defined.
1.2.2 Các tiếp cận đối sánh lược đồ Error! Bookmark not defined.
1.2.3 Các phương pháp đối sánh lược đồ Error! Bookmark not defined.
1.3 Các h
ệ thống đối sánh lược đồ XML Error! Bookmark not defined.
1.3.1 Cupid (trung tâm nghiên cứu Microsoft) Error! Bookmark not defined.
1.3.2 Similarity Flooding (Đại học Stanford và đại học Leipzig) Error! Bookmark

not defined.
1.3.3 LSD (Đại học Washington) Error! Bookmark not defined.
1.3.4 Clio (IBM Almaden và đại học Toronto) Error! Bookmark not defined.
1.3.5 Một số hệ thống đối sánh lược đồ khác Error! Bookmark not defined.
1.4 Kết chương Error! Bookmark not defined.
Chương 2 Các định nghĩa hình thức Error! Bookmark not defined.
2.1 Vấn đề đối sánh lược đồ XML Error! Bookmark not defined.
2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp Error! Bookmark not defined.
2.1.2 Thông tin đầu vào của tiến trình đối sánh Error! Bookmark not defined.
2.1.3 Thông tin đầu ra của tiến trình đối sánh Error! Bookmark not defined.
2.1.4 Các định nghĩa hình thức Error! Bookmark not defined.
2.2 Mô hình hóa lược đồ XML Error! Bookmark not defined.
2.2.1 Các nút đồ thị lược đồ Error! Bookmark not defined.
2.2.2 Các cạnh đồ thị lược đồ Error! Bookmark not defined.
2.2.3 Các ràng buộc đồ thị lượ
c đồ Error! Bookmark not defined.
2.2.4 Các định nghĩa hình thức Error! Bookmark not defined.
2.3 Ánh xạ nguồn–đích Error! Bookmark not defined.
2.4 Kết chương Error! Bookmark not defined.
Chương 3 Đối sánh tự động lược đồ XML Error! Bookmark not defined.
3.1 Tổng quan về đối sánh tự động lược đồ XML Error! Bookmark not defined.
3.2 Đo độ tương đồng ngôn ngữ Error! Bookmark not defined.
3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ Error! Bookmark not defined.
3.2.2 Thuật toán của Hirst và St-Onge Error! Bookmark not defined.
3.2.3 Giải pháp của hệ thống Cupid Error! Bookmark not defined.
3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu
người thiết kế Error! Bookmark not defined.
3.3.1 Xét tính tương thích kiểu dữ liệu lượ
c đồ XML Error! Bookmark not defined.
3.3.2 Phân tích phân cấp kiểu người thiết kế Error! Bookmark not defined.

3.4 Đo độ tương đồng cấu trúc Error! Bookmark not defined.
3.4.1 Định nghĩa ngữ cảnh nút Error! Bookmark not defined.
3.4.2 Đo độ tương tự đường dẫn Error! Bookmark not defined.
3.4.3 Đo độ tương đồng ngữ cảnh nút Error! Bookmark not defined.
3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử Error! Bookmark not
defined.
3.5.1 Đ
o độ tương đồng nút Error! Bookmark not defined.
3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh Error! Bookmark not defined.
3.6 Đánh giá tiến trình đối sánh lược đồ XML Error! Bookmark not defined.
3.6.1 Các phương pháp đánh giá Error! Bookmark not defined.
3.6.2 Đánh giá giải pháp Error! Bookmark not defined.
3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc Error!
Bookmark not defined.
3.7.1 Tổng quan về tài liệu có cấu trúc Error! Bookmark not defined.
3.7.2 Chuyển đổi tự động tài liệu có cấu trúc
Error! Bookmark not defined.
3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML Error! Bookmark not
defined.
3.8 Kết chương Error! Bookmark not defined.
Kết luận và hướng phát triển Error! Bookmark not defined.
1. Đóng góp chính của luận văn Error! Bookmark not defined.
2. Hướng phát triển Error! Bookmark not defined.
Danh mục tài liệu tham khảo Error! Bookmark not defined.
Phụ lục Error! Bookmark not defined.
Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML Error! Bookmark not defined.
Phụ lục B: Lược đồ XML Error! Bookmark not defined.
Phụ lục C: Thuật toán của Hirst và St-Onge Error! Bookmark not defined.

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI







LUẬN VĂN THẠC SỸ KHOA HỌC

®èi s¸nh tù ®éng l−îc ®å XML


NGÀNH: CÔNG NGHỆ THÔNG TIN

MS: ……………………….



VÕ SỸ NAM

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS. HUỲNH QUYẾT THẮNG














HÀ NỘI - 2006
Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
i


Lời cảm ơn

Luận văn này đánh dấu kết thúc hai năm cao học tại trường đại học Bách
Khoa Hà Nội. Trong quãng thời gian tuy chưa dài nhưng cũng không phải là ngắn
đó, tôi đã trưởng thành rất nhiều về kiến thức cũng như khả năng nghiên cứu.
Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo – TS. Huỳnh Quyết Thắng,
người đã hướng dẫn, giúp đỡ tôi hết sức tận tình trong quá trình th
ực hiện luận văn
tốt nghiệp. Thầy là người đã cung cấp ý tưởng, tài liệu ban đầu về đề tài, các hướng
dẫn quan trọng trong suốt quá trình thực hiện luận văn, dành thời gian đọc và sửa
chữa báo cáo cũng như có những góp ý rất quan trọng cho tôi trong suốt quá trình
hoàn thiện luận văn này.
Tôi xin cám ơn thư viện trường EPFL, Thụy Sỹ đã cung cấp cho tôi một số tài
liệu tham khả
o bổ ích, xin cảm ơn các nhóm sinh viên K48 khoa Công nghệ thông
tin, trường đại học Bách Khoa Hà Nội đã tận tình làm việc cùng tôi và góp nhiều

công sức trong quá trình cài đặt thử nghiệm chương trình.
Tôi xin gửi lời cám ơn sâu sắc tới các thầy giáo, cô giáo của trường đại học
Bách Khoa Hà Nội, khoa Công nghệ thông tin đã tận tình giảng dạy, trang bị kiến
thức cho chúng tôi, xin gửi lời cám ơn bộ môn Kỹ thuật hệ thống, khoa Công nghệ
thông tin, trường đại h
ọc Xây dựng Hà Nội đã hết sức tạo điều kiện về thời gian cho
tôi hoàn thành luận văn này.
Tôi cũng xin gửi lời cám ơn tới các bạn của tôi, những người đã chia sẻ với tôi
nhiệt huyết và niềm say mê học tập & nghiên cứu khoa học, chia sẻ với tôi kiến thức
và phương pháp tìm hiểu vấn đề, cung cấp cho tôi các tài liệu thiết thực cũng như
những ý t
ưởng bổ sung cho luận văn, góp phần giúp tôi thực hiện luận văn này
trong sự cố gắng và nỗ lực cao nhất.
Cuối cùng nhưng cũng là điều quan trọng nhất, cho tôi gửi lời cảm ơn sâu sắc
tới bố, mẹ, em trai và những người thân của tôi, những người đã giúp đỡ tôi rất
nhiều cả về vật chất lẫn tinh thần trong suốt quá trình học tập và công tác, độ
ng
viên tôi trong những lúc khó khăn cũng như chia sẻ niềm vui với tôi những lúc
thành công. Một lần nữa tôi xin chân thành cám ơn tất cả./.

Hà Nội, tháng 11 năm 2006
Võ Sỹ Nam
Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
ii

Mục lục



Danh mục từ viết tắt, thuật ngữ iv
Danh mục bảng biểu v
Danh mục hình vẽ v
Mở đầu 1
1. Giới thiệu chung 1
2. Nội dung luận văn 3
Chương 1 Đối sánh lược đồ 6
1.1 Tổng quan về đối sánh lược đồ 7
1.1.1 Các khái niệm cơ bản về đối sánh lược đồ 7
1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ 8
1.2 Các tiếp cận đối sánh lược đồ 14
1.2.1 Phân loại các tiếp cận đối sánh lược đồ 14
1.2.2 Các tiếp cận đối sánh lược đồ 15
1.2.3 Các phương pháp đối sánh lược đồ 17
1.3 Các hệ thống đối sánh lược đồ XML 20
1.3.1 Cupid (trung tâm nghiên cứu Microsoft)
21
1.3.2 Similarity Flooding (đại học Stanford và đại học Leipzig) 23
1.3.3 LSD (đại học Washington) 24
1.3.4 Clio (IBM Almaden và đại học Toronto) 25
1.3.5 Một số hệ thống đối sánh lược đồ khác 26
1.4 Kết chương 28
Chương 2 Các định nghĩa hình thức 29
2.1 Vấn đề đối sánh lược đồ XML 30
2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp 30
2.1.2 Thông tin đầu vào của tiến trình đối sánh 32
2.1.3 Thông tin đầu ra của tiến trình đối sánh 34
2.1.4 Các định nghĩa hình thức 35
2.2 Mô hình hóa lược đồ XML 36
2.2.1 Các nút đồ thị lược đồ 37

2.2.2 Các cạnh đồ thị lược đồ 37
2.2.3 Các ràng buộc đồ thị lược đồ 38
2.2.4 Các định nghĩa hình thức 40
2.3 Ánh xạ nguồn–
đích 43
2.4 Kết chương 46
Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
iii
Chương 3 Đối sánh tự động lược đồ XML 47
3.1 Tổng quan về đối sánh tự động lược đồ XML 48
3.2 Đo độ tương đồng ngôn ngữ 49
3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ 49
3.2.2 Thuật toán của Hirst và St-Onge 50
3.2.3 Giải pháp của hệ thống Cupid 52
3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu
người thiết kế 53
3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML 53
3.3.2 Phân tích phân cấp kiểu người thiế
t kế 55
3.4 Đo độ tương đồng cấu trúc 56
3.4.1 Định nghĩa ngữ cảnh nút 56
3.4.2 Đo độ tương tự đường dẫn 58
3.4.3 Đo độ tương đồng ngữ cảnh nút 63
3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử 66
3.5.1 Đo độ tương đồng nút 66
3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh 67
3.6 Đánh giá tiến trình đối sánh l
ược đồ XML 68

3.6.1 Các phương pháp đánh giá 68
3.6.2 Đánh giá giải pháp 70
3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc 72
3.7.1 Tổng quan về tài liệu có cấu trúc 73
3.7.2 Chuyển đổi tự động tài liệu có cấu trúc 76
3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML 78
3.8 Kết chương 80
Kết luận và hướng phát triển 81
1. Đóng góp chính của luận văn 81
2. Hướng phát triển 84
Danh mục tài liệu tham khảo 86
Phụ lục 88
Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML 89
Phụ lục B: Lược đồ XML 97
Phụ lục C: Thuật toán của Hirst và St-Onge 100
Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
iv


Danh mục từ viết tắt, thuật ngữ

Từ viết tắt/ thuật ngữ Giải nghĩa Ghi chú
CSDL
Cơ sở dữ liệu

TTNT
Trí tuệ nhân tạo


XML
eXtended Markup Language

DTD
Document Type Definition

XSD
XML Schema Definition

SGML
Standard Generalized Markup Language

LCS
Longest Common Subsequence


Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
v


Danh mục bảng biểu

Bảng 3. 1 Đặc điểm các lược đồ thử nghiệm 70
Bảng 3. 2 Kết quả đo chất lượng đối sánh 71











Danh mục hình vẽ

Hình 2. 1 Ví dụ về đồ thị lược đồ 36

Hình 3. 1 Tiến trình tính toán độ tương đồng phần tử 49
Hình 3. 2 Ngữ cảnh của một phần tử lược đồ 57
Hình 3. 3 So sánh các đối sánh thực với các đối sánh suy diễn được 70
Hình 3. 4 Biểu đồ so sánh kết quả thực thi 72
Hình 3. 5 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML 79
Mở đầu
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
1


Mở đầu


1. Giới thiệu chung
Một vấn đề rất quan trọng trong các hệ thống xử lý thông tin là trao đổi
và sử dụng lại dữ liệu giữa các hệ thống có dữ liệu không đồng nhất. Tính
không đồng nhất của dữ liệu là do các tổ chức hoặc ứng dụng thường tạo ra
dữ liệu cho chính mình dựa trên các yêu cầu riêng biệt. Các yêu cầu này hầu
hết thường được đặc tả trong các mô hình dữ liệu trừu t
ượng, còn gọi là các

lược đồ (chẳng hạn như lược đồ quan hệ, lược đồ hướng đối tượng và gần đây
là lược đồ XML). Trong những năm gần đây, sự phát triển mạnh mẽ của các
nguồn dữ liệu Web với rất nhiều mô hình thông tin và cú pháp mã hóa khác
nhau đã dẫn đến nhu cầu ngày càng cấp thiết của việc phát triển các phương
pháp và công cụ hỗ trợ cho việ
c trao đổi và sử dụng lại dữ liệu, do vậy đã có
rất nhiều nghiên cứu quan tâm đến vấn đề này. Như ta biết, đối sánh lược đồ
là vấn đề trung tâm trong hầu hết các nghiên cứu đó. Bài toán đối sánh lược
đồ có thể được định nghĩa một cách phi hình thức như sau: [6], [11] “Cho hai
lược đồ S
1
và S
2
trên mô hình dữ liệu bất kỳ, có thể có thêm thông tin phụ trợ
và một ánh xạ khởi đầu, hãy tìm ánh xạ giữa các phần tử lược đồ thỏa mãn
yêu cầu người dùng”. Nói cách khác, đây là vấn đề tìm kiếm sự tương đồng
giữa các phần tử của S
1
và S
2
(hay là việc xác định các thành phần tương
đương nhau giữa hai lược đồ nguồn và đích đã cho) bằng cách khai thác các
thông tin tồn tại trong lược đồ, dữ liệu và các nguồn thông tin phụ trợ.
Mở đầu
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
2
Thực tế cho thấy, các thách thức gặp phải khi tìm kiếm giải pháp cho bài
toán đối sánh lược đồ là rất lớn. Thứ nhất, quá trình này cần đến sự phân tích
ngữ nghĩa trong các lược đồ đó, hay nói cách khác ta cần suy diễn được nhận
thức về lược đồ của người tạo ra nó. Tuy vậy, các lược đồ thường được thiết

kế bởi những con người khác nhau với những nhận thức khác nhau v
ề thế giới
thực cho các mục đích khác nhau. Thứ hai, việc khai thác thông tin cho bài
toán đối sánh lược đồ gặp rất nhiều khó khăn vì ta phải khai thác một lượng
lớn thông tin hỗn tạp và không chắc chắn, ví dụ như tài liệu đặc tả lược đồ,
các nguồn dữ liệu của lược đồ… Từ các phân tích trên, có thể thấy rằng việc
đối sánh lược đồ bằng tay thường khá tốn kém và dễ gây lỗ
i. Điều đó cho thấy
việc phát triển các kỹ thuật nhằm tự động hóa một cách tối đa tiến trình đối
sánh lược đồ là rất quan trọng.
Hiện nay, XML (eXtended Markup Language - ngôn ngữ đánh dấu mở
rộng) [24] đã trở thành chuẩn ngôn ngữ hiệu quả và thích hợp cho việc biểu
diễn dữ liệu trên Web. Nhu cầu sử dụng XML như là chuẩn biểu diễn và trao
đổi dữ
liệu ngày càng tăng của cộng đồng Web đã tạo nên một lượng dữ liệu
XML ngày càng lớn. Gắn liền với sự gia tăng đó, một lượng lớn các lược đồ
XML [25], [26], [27] đã được phát triển với rất nhiều đặc tả khác nhau, dẫn
đến một lượng lớn dữ liệu XML không đồng nhất. Thêm vào đó, hiện tại lại
có khá nhiều ngôn ngữ lược đồ khác nhau đượ
c đưa ra, dẫn đến sự không
đồng nhất về mặt cú pháp ở các ngôn ngữ lược đồ. Với sự phát triển nhanh
chóng và sự tăng trưởng mạnh mẽ về mặt quy mô của các ứng dụng Web, đặc
biệt là sự phổ dụng của Internet và công nghệ XML, đã có rất nhiều nghiên
cứu quan tâm đến vấn đề trao đổi và sử dụng lại dữ liệu XML. Vấn đề đối
sánh l
ược đồ XML do vậy ngày càng trở nên quan trọng. Nhằm góp phần tìm
hiểu và giải quyết vấn đề đó một cách hiệu quả hơn, luận văn này sẽ tổng hợp
lại cũng như đưa ra các đóng góp thêm cho bài toán đối sánh lược đồ XML.

Mở đầu

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
3
2. Nội dung luận văn
Luận văn này nghiên cứu vấn đề đối sánh tự động lược đồ XML. Luận
văn bao gồm ba chương. Chương 1 mô tả tổng quan về vấn đề đối sánh lược
đồ. Chương 2 đưa ra các định nghĩa hình thức cho vấn đề đối sánh lược đồ
XML. Chương 3 mô tả giải pháp đối sánh tự động lược đồ XML. Cũng trong
chương 3, chúng tôi sẽ xem xét vấn đề chuyển đổi tự
động tài liệu XML. Cuối
cùng, phần kết luận nêu lên những đóng góp chính và các hướng phát triển.
Sau đây là những nội dung chính của luận văn:
Chương 1: Đối sánh lược đồ. Chương này bao gồm ba nội dung chính:
- Trình bày các khái niệm, định nghĩa cơ bản về vấn đề đối sánh lược đồ
và các lĩnh vực ứng dụng chính của đối sánh lược đồ như tích hợp lược đồ,
tích hợp d
ữ liệu, kho dữ liệu, chuyển đổi (hay dịch, trao đổi) dữ liệu, quản lý
dữ liệu ngang hàng, thương mại điện tử, đối sánh và tích hợp ontology, Web
ngữ nghĩa, xử lý truy vấn ngữ nghĩa, v.v
- Trình bày các tiếp cận đối sánh lược đồ điển hình. Phần này chúng tôi
sẽ xem xét các tiếp cận điển hình như tiếp cận dựa trên học máy, dựa trên
luật, dựa trên siêu d
ữ liệu cũng như một số tiếp cận khác. Tiếp theo chúng tôi
sẽ xem xét các phương pháp đối sánh điển hình như đối sánh ngôn ngữ, đối
sánh dựa trên ràng buộc, đối sánh cấu trúc và một số phương pháp khác.
Chúng tôi cũng sẽ phân tích những điểm mạnh cũng như những hạn chế của
các giải pháp này, từ đó lựa chọn giải pháp cho tiếp cận của chúng tôi.
- Mô tả một s
ố hệ thống đối sánh lược đồ cũng như phân tích các đặc
điểm cơ bản nhất của các hệ thống đó. Thông qua các hệ thống này, đặc biệt
là hai hệ thống Cupid [11] và Similarity Flooding [12], chúng tôi sẽ phân tích

các giới hạn của các thuật toán đối sánh lược đồ hiện tại, từ đó lựa chọn các
thuật toán đối sánh sẽ sử dụng trong tiếp cận của chúng tôi.

Mở đầu
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
4
Chương 2: Các định nghĩa hình thức. Chương này bao gồm ba nội dung
chính:
- Trình bày các định nghĩa hình thức cho vấn đề đối sánh lược đồ, tập
trung vào lược đồ XML. Các giải pháp hiện hành nhìn chung không quan tâm
nhiều đến việc đưa ra các định nghĩa hình thức đầy đủ cho vấn đề. Trong
chương này, chúng tôi cũng sẽ mô tả các giả thiết cơ bản cho vấn đề đối sánh
lược đồ XML.
- Trình bày giải pháp mô hình hóa lược đồ
XML dựa trên đồ thị gán nhãn
có hướng với các ràng buộc. Các nút của đồ thị biểu diễn các phần tử và các
thuộc tính của lược đồ XML trong khi các cạnh của đồ thị biểu diễn các quan
hệ khác nhau giữa các phần tử.
- Mô tả đại số ánh xạ nguồn–đích áp dụng cho vấn đề chuyển đổi dữ liệu.
Đại số ánh xạ nguồn–đích là một mở rộng c
ủa đại số quan hệ chuẩn. Trong
luận văn này chúng tôi sẽ xem xét tập các phép toán bao gồm hợp, chọn,
nhập, tách, nối, áp dụng và đổi tên.
Chương 3: Đối sánh tự động lược đồ XML.
Chương này mô tả giải pháp đối sánh tự động lược đồ XML, đánh giá
giải pháp và mô tả một ứng dụng điển hình cho đối sánh lược đồ, vấn đề
chuyển đổi tự
động tài liệu XML. Chương này bao gồm các nội dung chính
sau:
- Mô tả tiến trình tính toán độ tương đồng phần tử theo ba pha:

+ Đo độ tương đồng ngôn ngữ: sử dụng thuật toán của Hirst và St-
Onge để tính toán khoảng cách ngữ nghĩa dựa trên WordNet [7]. Thuật toán
này được thay đổi để đưa ra hệ số tương đồng cũng như các quan hệ ngữ
nghĩa (tương đương, rộng hơn, hẹp hơn, v.v ).
+ Xét tính tương thích kiểu dữ liệu: dựa trên việc phân tích các kiểu dữ
liệu lược đồ XML để suy ra hệ số tương thích kiểu dữ liệu. Với nút nguyên tố
(tức nút lá) chúng tôi sử dụng phân cấp kiểu lược đồ XML [27], còn với nút
Mở đầu
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
5
trung gian chúng tôi sử dụng các tính năng như thừa kế kiểu, nhóm thay thế
và kiểu trừu tượng để tìm kiếm các ánh xạ phức hợp.
+ Đo độ tương đồng cấu trúc: khác với các thuật toán đối sánh cấu trúc
hiện hành, chúng tôi nhấn mạnh vào khái niệm ngữ cảnh của phần tử. Ngữ
cảnh của một phần tử là sự kết hợp ngữ cảnh tổ tiên, ngữ cả
nh con và ngữ
cảnh lá của nó. Để so sánh các ngữ cảnh này, chúng tôi so sánh các đường
dẫn dựa trên các ý tưởng về trả lời truy vấn đường dẫn.
- Đưa ra các ánh xạ trực tiếp cũng như phức hợp giữa các phần tử lược
đồ (với các phép toán chuyển đổi và điều kiện chuyển đổi tương ứng) từ độ
tương đồng phần tử đã tính toán.
- Đánh giá giả
i pháp đối sánh lược đồ XML đã đưa ra sử dụng các phép
đo chất lượng được đã được định nghĩa trong [5].
Cũng trong chương này, chúng tôi sẽ xem xét một trong những ứng dụng
điển hình của đối sánh lược đồ, vấn đề chuyển đổi tài liệu có cấu trúc. Đầu
tiên chúng tôi mô tả tổng quan về tài liệu có cấu trúc, tiếp theo chúng tôi trình
bày vấn đề chuyển đổi tự động tài liệu có cấ
u trúc và cuối cùng chúng tôi đưa
ra một mô hình cho hệ thống chuyển đổi tự động tài liệu XML. Trong tương

lai chúng tôi có ý định áp dụng giải pháp đối sánh lược đồ nêu trên vào mô
hình này.
Kết luận và các hướng phát triển.
Trong phần này, chúng tôi sẽ nêu lên các đóng góp chính của luận văn và
đưa ra một số định hướng phát triển trong tương lai cho đề tài.

Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
6


Chương 1
Đối sánh lược đồ

Trong chương này chúng tôi tổng hợp lại các kết quả nghiên cứu điển
hình về vấn đề đối sánh lược đồ. Trước hết chúng tôi trình bày các khái niệm
cơ bản cũng như các lĩnh vực ứng dụng điển hình của đối sánh lược đồ. Như
ta sẽ thấy, các lĩnh vực này là rất phong phú, cho thấy tầm quan trọng của
bài toán đối sánh lược đồ. Tiếp theo chúng tôi mô tả các tiếp c
ận đối sánh cơ
bản và các phương pháp đối sánh thông dụng hiện nay. Dựa trên các khảo
sát về đối sánh lược đồ cũng như một số nghiên cứu gần đây, chúng tôi tiến
hành phân tích và so sánh các tiếp cận này. Như ta sẽ thấy, các giải pháp đối
sánh thường kết hợp nhiều phương pháp khác nhau để tăng tính hiệu quả cho
tiến trình đối sánh.
Trong chương này chúng tôi cũng mô tả một số hệ thống đố
i sánh lược
đồ điển hình đã được thực hiện, đánh giá và so sánh các thuật toán được sử
dụng trong các hệ thống này. Từ các đánh giá đó chúng tôi nêu ra các hạn
chế cơ bản của các thuật toán này, đặc biệt là trong vấn đề chuyển đổi dữ

liệu. Cuối cùng, trên cơ sở các phân tích trên, chúng tôi sẽ chứng tỏ rằng các
thuật toán đối sánh lược đồ hiện tại cần được phát triển và hoàn thi
ện thêm
nhằm giải quyết vấn đề tự động hóa tiến trình đối sánh lược đồ một cách có
hiệu quả nhất.

Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
7
1.1 Tổng quan về đối sánh lược đồ
1.1.1 Các khái niệm cơ bản về đối sánh lược đồ
Đối sánh lược đồ là quá trình thao tác trên các lược đồ với đầu vào là hai
lược đồ không đồng nhất và có thể có thêm thông tin phụ, trả về một tập các
ánh xạ cho biết sự liên quan ngữ nghĩa giữa các phần tử lược đồ [17]. Trong
thực tế, đối sánh lược đồ thường được thực hiện bằng tay với sự hỗ trợ của
các công cụ đồ họa. Quá trình này thường tốn thời gian và dễ
gây lỗi, bởi vậy
đã có nhiều nghiên cứu được tiến hành nhằm tự động hóa tiến trình đối sánh
lược đồ. Tuy nhiên đây là một vấn đề khó và phức tạp do một số lý do cơ bản
sau: [21]
- Các phần tử lược đồ được đối sánh trên cơ sở ngữ nghĩa của chúng.
Ngữ nghĩa có thể được thể hiện từ một số nguồn thông tin như người thi
ết kế,
tài liệu, lược đồ và thể hiện dữ liệu. Thực tế cho thấy người thiết kế rất khó để
nhớ được tất cả chi tiết lược đồ và tài liệu hiện có thì thường không chính xác,
không được cập nhật và không thể truy cập. Do đó tiến trình đối sánh lược đồ
thường dựa hoàn toàn trên các dấu hiệu trong lược đồ và thể hiện dữ liệu.
- Các lược
đồ đã phát triển cho các ứng dụng khác nhau thì thường
không đồng nhất, tức là mặc dù dữ liệu chúng mô tả là tương đồng về ngữ

nghĩa nhưng cấu trúc và cú pháp sử dụng lại có thể khác nhau đáng kể.
- Để giải quyết các xung đột ngữ nghĩa và lược đồ, đối sánh lược đồ
thường dựa trên tên phần tử, kiểu dữ liệu phần tử, các định nghĩa cấ
u trúc, các
ràng buộc toàn vẹn và các giá trị dữ liệu. Tuy vậy, các dấu hiệu này thường
không chắc chắn và không đầy đủ. Ví dụ các nhãn giống nhau có thể được sử
dụng cho các phần tử lược đồ có ý nghĩa hoàn toàn khác nhau. Ngược lại, hai
phần tử với các nhãn khác nhau có thể tham chiếu tới cùng một thực thể thực
tế. Kiểu dữ liệu cũng thường không chính xác (ví dụ sử dụng kiểu "string"
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
8
thay vì "date") và các ràng buộc thường là không đầy đủ. Trong điều kiện
này, vấn đề chính sẽ không chỉ là việc phải xác định được các quan hệ đang
tồn tại giữa các phần tử lược đồ mà còn phải chắc chắn rằng tiến trình đối
sánh sẽ không đưa ra các ánh xạ không chính xác.
- Ánh xạ đơn giản nhất là ánh xạ một-một, nối kết một phần tử lược đồ
nguồn trực tiếp tới một phần tử lược đồ đích. Tuy vậy trong thực tế, một phần
tử trong lược đồ này có thể tương ứng với nhiều phần tử trong lược đồ khác
bằng cách áp dụng một hoặc một vài phép toán (ví dụ phần tử đích “Name”
tương ứng với ghép nối của hai phần tử nguồn “firstName” và “lastName”) và
thậm chí nhi
ều phần tử trong lược đồ này cũng có thể tương ứng với nhiều
phần tử trong một lược đồ khác. Loại ánh xạ này được gọi là phức hợp hay
gián tiếp và thường không thể suy ra được ngay từ lược đồ và các thể hiện mà
thường đòi hỏi sự can thiệp của người dùng. Việc khám phá ánh xạ phức hợp
là một vấn đề khó và phức tạp bởi vì quá trình đố
i sánh không chỉ cần tìm
kiếm các ánh xạ này mà còn phải nhận biết các phép toán cần đến chẳng hạn
như ghép nối hai phần tử, hợp nhất hoặc phân chia các giá trị dữ liệu, v.v

- Hiển nhiên quá trình đối sánh lược đồ không thể thực hiện tự động
được hoàn toàn, do vậy nó đòi hỏi phải có sự can thiệp của người dùng. Từ đó
có thể thấy một điều quan trọng là quá trình đối sánh không ch
ỉ cần tự động
đến mức có thể mà còn phải nhận biết được khi nào đầu vào người dùng là
cần thiết và đầu vào đó phải được khai thác một cách hiệu quả nhất.
1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ
Đối sánh lược đồ là bước then chốt trong những ứng dụng mà dữ liệu
chúng xử lý được cấu trúc hóa dưới các mô hình đã chỉ ra (chẳng hạn như
lược đồ quan hệ, lược đồ hướng đối tượng, DTD, lược đồ XML, v.v ) hoặc
những ứng dụng mà các lược đồ chúng khai thác là không đồng nhất. Đối
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
9
sánh lược đồ cho phép thao tác trên các lược đồ, dịch dữ liệu và trả lời truy
vấn qua các lược đồ không đồng nhất. Nhiều ứng dụng khác nhau dựa trên đối
sánh lược đồ đã xuất hiện và đã được nghiên cứu rộng rãi trong các lĩnh vực
cơ sở dữ liệu (CSDL) và trí tuệ nhân tạo (TTNT) [17], chẳng hạn như tích
hợp lược đồ, tích hợp dữ liệu, kho dữ liệu, chuyể
n đổi (hay dịch, trao đổi) dữ
liệu, quản lý dữ liệu ngang hàng, thương mại điện tử, đối sánh và tích hợp
ontology, Web ngữ nghĩa, xử lý truy vấn ngữ nghĩa, v.v Sau đây chúng tôi sẽ
xem xét tổng quan các vấn đề chính trong các lĩnh vực này.
1.1.2.1 Tích hợp lược đồ
Hầu hết các nghiên cứu về đối sánh lược đồ ban đầu là nhằm giải quyết
vấn đề tích hợp lược đồ
, là vấn đề hợp nhất các lược đồ tự trị và không đồng
nhất thành một lược đồ tổng thể, gọi là lược đồ trung gian. Vấn đề tích hợp
lược đồ là một mối quan tâm chính trong hai thập kỷ qua trong lĩnh vực
CSDL [17]. Do các lược đồ là tự trị và được phát triển độc lập, chúng thường

biểu diễn không đồng nhất các ngôn ngữ và cấu trúc khác nhau. Quá trình tích
hợp đòi hỏi nhậ
n dạng được các phụ thuộc liên lược đồ. Đây là một quá trình
đối sánh lược đồ. Một khi chúng đã được nhận dạng, các phần tử đối sánh
được hợp nhất dưới một lược đồ trung gian cố kết.

1.1.2.2 Tích hợp dữ liệu
Các hệ thống tích hợp dữ liệu có mục đích cung cấp cho người dùng một
giao diện truy vấn đồng bộ cho rất nhiều nguồn dữ liệu. Hai thành phần chính
tạo thành kiến trúc của một hệ thống tích hợp dữ liệu: trình bao bọc và trình
môi giới. Trình bao bọc bọc một nguồn thông tin và mô hình hóa nguồn thông
tin đó sử dụng một lược đồ
nguồn. Trình môi giới duy trì một lược đồ tổng thể
và các ánh xạ giữa lược đồ tổng thể và các lược đồ nguồn. Mỗi khi người
dùng đưa ra một truy vấn trên lược đồ tổng thể, trình môi giới sử dụng các
ánh xạ này để công thức hóa lại một truy vấn tổng thể thành một tập các truy
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
10
vấn con mà có thể thi hành trong các lược đồ nguồn và như vậy trình môi giới
có thể tập hợp các trả lời được trả lại từ các nguồn và kết hợp chúng thành trả
lời cho truy vấn
[21].
Như vậy một vấn đề then chốt trong việc xây dựng hệ thống tích hợp dữ
liệu là việc cung cấp chính xác các ánh xạ giữa các lược đồ tổng thể và nguồn.
Hiện nay, có hai giải pháp chính cho việc cung cấp các ánh xạ này: khung
nhìn tổng thể và khung nhìn cục bộ. Trong tiếp cận đầu, lược đồ trung gian
được định nghĩa dưới dạng các lược đồ của các nguồn. Còn trong tiếp cận
sau, các mô tả của nguồn được cho theo hướng ngược lại. Thuận lợi chính của
tiếp cận đầu là việc công thức hóa lại truy vấn là đơn giản. Tuy vậy, việc thêm

các nguồn vào lược đồ trung gian lại không phải là việc tầm thường. Ngược
lại, trong tiếp cận sau, việc công thức hóa lại truy vấn khó hơn nhưng việc
thêm vào các nguồn mới thì khá đơn giản. Từ đó một số nghiên c
ứu đã đề
xuất giải pháp kết hợp hai tiếp cận trên để tích hợp các nguồn dữ liệu không
đồng nhất
[20].
1.1.2.3 Kho dữ liệu
Một biến thể của vấn đề tích hợp dữ liệu là tập hợp các nguồn dữ liệu
tích hợp vào một kho tập trung, gọi là kho dữ liệu. Quá trình này đòi hỏi phải
chuyển đổi dữ liệu từ định dạng nguồn thành định dạng kho dữ liệu, do đó có
thể sử dụng đối sánh lược đồ để thực hiện các chuyể
n đổi này. Với một nguồn
dữ liệu đã cho, một phương pháp thích hợp để tạo các chuyển đổi là tìm kiếm
các phần tử của nguồn mà có mặt trong kho dữ liệu. Thuận lợi chính của kho
dữ liệu là hiệu quả cao trong trả lời truy vấn (bởi vì các truy vấn được áp dụng
trực tiếp tới dữ liệu trong kho). Tuy vậy, nó đòi hỏi kho phải được cập nhật
khi dữ liệu thay đổi, điều này không thích hợp khi điều quản một số lượng lớn
nguồn hoặc khi nguồn thường xuyên thay đổi. Hiện nay một khung làm việc
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
11
hỗ trợ cho các khung nhìn tích hợp mà kết hợp các tiếp cận kho dữ liệu và
kho ảo đã được đề xuất [17].
1.1.2.4 Chuyển đổi dữ liệu
Trong vài năm gần đây, sự phát triển nhanh chóng của thông tin trực
tuyến trong các nguồn không đồng nhất phân biệt lưu trữ dưới các định dạng
khác nhau đã dẫn đến một ứng dụng khác đòi hỏi việc đối sánh lược đồ: trao
đổ
i dữ liệu. Trao đổi dữ liệu mà thường được gọi là dịch hay chuyển đổi dữ

liệu là vấn đề dịch nội dung của nguồn dữ liệu thành thể hiện của một lược đồ
đích mà phản ánh dữ liệu nguồn chính xác đến mức có thể.
Tuy vấn đề trao đổi dữ liệu có một số điểm tương đồng với vấn đề tích
hợp dữ liệu, vẫn có một số khác biệt quan trọng giữa hai vấn đề này. Trong
kịch bản chuyển đổi dữ liệu, lược đồ đích nhìn chung được tạo ra độc lập và
có các ràng buộc của bản thân nó. Còn trong tích hợp dữ liệu lược đồ tổng thể
là một lược đồ ảo và có tính hòa hợp, không có các ràng buộc định nghĩa
trước. Một khác biệt quan trọng nữa là trong trao đổi d
ữ liệu ta phải tạo ra
một thể hiện đích mà phản ánh tốt nhất thể hiện nguồn đã cho. Trong tích hợp
dữ liệu không có sự trao đổi nào về dữ liệu được yêu cầu. Việc tự động hóa
quá trình dịch dữ liệu đòi hỏi sử dụng đối sánh lược đồ để phát hiện sự tương
đồng giữa lược đồ nguồn và đích, đây là m
ột bước then chốt để đưa ra một
chương trình dịch thích hợp [17].

1.1.2.5 Thương mại điện tử
Với sự phổ biến của Internet hiện nay, các công ty kinh doanh ngày càng
phải quản lý nhiều giao dịch trực tuyến như trao đổi thông tin, đặt hàng, xác
nhận và thanh toán Các giao dịch này là quá trình trao đổi các tài liệu hay
thông điệp giữa các công ty. Tuy vậy các công ty thường phát triển ứng dụng
với các định dạng thông điệp khác nhau như EDI (Electronic Data Exchange),
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
12
XML (Extended Markup Language) hoặc một số định dạng khác. Để trao đổi
các thông điệp đó, các ứng dụng cần phải chuyển đổi được các thông điệp từ
định dạng này sang định dạng khác. Như đã nói ở trên, đây chính là vấn đề
chuyển đổi dữ liệu [17].
1.1.2.6 Quản lý dữ liệu ngang hàng

Một ứng dụng quan trọng của đối sánh lược đồ là quản lý dữ liệu ngang
hàng, là một mở rộng tự nhiên của tích hợp dữ liệu. Ngược lại với môi trường
tích hợp dữ liệu, một quản lý dữ liệu ngang hàng không dựa trên khái niệm
lược đồ trung gian mà cho phép một số tùy ý các điểm truy vấn và lấy dữ liệu
trực tiếp từ mỗi điểm khác. Việc xử lý thông tin và lấy nội dung giữa vô số
các điểm tự trị đòi h
ỏi các kỹ thuật đối sánh thích hợp để xác định các ánh xạ
giữa các khái niệm của các điểm khác nhau mà có liên quan về ngữ nghĩa
[17].
1.1.2.7 Đối sánh và tích hợp ontology
Ontology được định nghĩa như là việc khái niệm hóa một lĩnh vực dưới
dạng các khái niệm và quan hệ. Hiện nay ontology được thừa nhận là một
công cụ cơ bản cho phép chia sẻ tri thức giữa các ứng dụng phân tán và không
đồng nh
ất. Nhiều nghiên cứu xoay quanh ontology đã được thực hiện, từ thiết
kế đến phát triển và sử dụng lại. Đối sánh ontology là một trong những bước
cơ bản của hầu hết các ứng dụng dựa trên ontology, trong đó có vấn đề tích
hợp ontology. [6].
1.1.2.8 Web ngữ nghĩa
Một trong những vấn đề đang được quan tâm nhiều hiện nay là Web ngữ
nghĩa, tứ
c là vấn đề sử dụng một số ontology lĩnh vực nhằm mô tả ý nghĩa của
dữ liệu trên Web. Sự phát triển nhanh chóng của Internet với lượng thông tin
khổng lồ khiến ta rất khó khai thác và sử dụng hiệu quả các nguồn thông tin
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
13
đó, bởi vì các thông tin trên Web hiện nay được thiết kế chủ yếu cho con
người sử dụng chứ không phải máy tính. Mục đích của Web ngữ nghĩa là làm
giàu các tài liệu Web hiện nay bằng các mô tả ngữ nghĩa nhằm làm cho máy

tính có thể hiểu được. Phương pháp làm giàu các tài liệu Web hiện nay là sử
dụng ontology. Tuy vậy các Website khác nhau lại thường sử dụng ontology
khác nhau, bởi vậy để làm cho Web có khả năng liên tác được, ta cần các kỹ

thuật đối sánh thích hợp giữa các ontology tự trị để xác định các ánh xạ ngữ
nghĩa giữa các khái niệm ontology khác nhau mà có liên quan về ngữ nghĩa
[6].
1.1.2.9 Xử lý truy vấn ngữ nghĩa
Tích hợp dữ liệu, kho dữ liệu, và chuyển đổi dữ liệu nhìn chung là các
vấn đề tương tự nhau bởi vì chúng đều phải phân tích các lược đồ để đưa ra
các ánh xạ (và có thể một lược đồ
tích hợp) – ta gọi đây là việc phân tích tại
thời điểm thiết kế. Một vấn đề khác hơn đôi chút là xử lý truy vấn ngữ nghĩa -
một vấn đề tại thời điểm thực thi ở đó người dùng sẽ chỉ rõ đầu ra của một
truy vấn và hệ thống sẽ tính toán xem làm thế nào để đưa ra đầu ra đó. Đặc tả
của người dùng
được phát biểu dưới dạng các khái niệm quen thuộc với họ
mà có thể không giống như tên các phần tử được chỉ ra trong lược đồ CSDL.
Bởi vậy, trong pha đầu tiên của việc xử lý truy vấn, hệ thống phải ánh xạ các
khái niệm người dùng yêu cầu trong đầu ra truy vấn tới các phần tử lược đồ.
Đây cũng là một ứng dụng tự nhiên của phép toán đối sánh.
Sau khi ánh xạ đầu ra truy vấ
n tới các phần tử lược đồ, hệ thống phải
nhận được một phát biểu cho biết ngữ nghĩa của ánh xạ. Đã có nhiều kỹ thuật
được phát triển trong nhiều thập kỷ qua nhằm thu nhận các phát biểu này.
Một trong những hướng nghiên cứu hiện nay là tổng quát hóa các kỹ thuật
này để chỉ ra ngữ nghĩa của một ánh xạ đưa ra bởi phép toán đối sánh tìm
được [17].
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin

14
1.2 Các tiếp cận đối sánh lược đồ
1.2.1 Phân loại các tiếp cận đối sánh lược đồ
Đối sánh lược đồ là một vấn đề mới mẻ và thường được nghiên cứu riêng
lẻ trên nhiều lĩnh vực khác nhau, do vậy đã có nhiều khảo sát được đưa ra
nhằm phân loại các tiếp cận này. Đáng chú ý hơn cả là khảo sát của Rahm &
Bernstein [17], trong đó các tác giả phân biệt các phương pháp đối sánh dựa
trên phương pháp tiếp cận mà chúng sử dụng như sau:
* Tiếp cận dựa trên lược đồ >< Tiếp c
ận dựa trên thể hiện: Tiếp cận dựa
trên lược đồ chỉ sử dụng các thông tin chứa trong lược đồ như tên, kiểu Còn
tiếp cận dựa trên dữ liệu chỉ sử dụng nội dung dữ liệu.
* Tiếp cận dựa trên phần tử >< Tiếp cận dựa trên cấu trúc: quá trình đối
sánh có thể thực hiện cho từng phần tử (như các thuộc tính) hoặc kế
t hợp các
phần tử với nhau trong 1 cấu trúc.
* Tiếp cận dựa trên ngôn ngữ >< Tiếp cận dựa trên ràng buộc: đối sánh
có thể sử dụng cách tiếp cận dựa trên ngôn ngữ như so sánh tên các phần tử,
các thông tin mô tả phần tử hoặc sử dụng cách tiếp cận dựa trên ràng buộc
như ràng buộc như kiểu dữ liệu, ràng buộc đơn nhất, khóa, v.v
* Tiếp cận lai >< Tiếp cậ
n kết hợp: Để có một kết quả đối sánh tốt hơn
ta thường kết hợp các tiếp cận độc lập với nhau. Các cách tiếp cận này có thể
được thực hiện trong một bộ đối sánh lai hoặc kết hợp các kết quả đối sánh
của các tiếp cận độc lập khác nhau.
* Số yếu tố đối sánh: kết quả đối sánh có thể là một hay nhiều phầ
n tử
của lược đồ nguồn đối sánh với một hay nhiều phần tử của lược đồ đích. Có
bốn trường hợp cơ bản, bao gồm đối sánh 1:1, 1:n, n:1 và n:m. Ngoài ra một
phần tử của lược đồ này cũng có thể liên quan đến nhiều phần tử của lược đồ

kia, khi đó có thể cần đến các phép toán hợp nhất hoặc phân tách.
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
15
* Thông tin trợ giúp: các tiếp cận đối sánh thường sử dụng nhiều nguồn
thông tin trợ giúp khác nhau như từ điển, lược đồ tổng thể, các kết quả đối
sánh sẵn có từ trước hay đầu vào người dùng.
1.2.2 Các tiếp cận đối sánh lược đồ
Các tiếp cận đối sánh lược đồ đã được phát triển chủ yếu trong các
nghiên cứu về CSDL và TTNT. Trong mục này chúng tôi sẽ tổng kết lại, mô
tả và so sánh các tính năng đặc trưng của các tiếp cận này.
1.2.2.1 Tiếp cận dựa trên học máy
Học máy là khả năng khai thác các kết quả nhận được trước đó của một
máy để cải thiện hiệu năng của nó, đặc biệt là để
tự động hóa các quá trình đắt
tiền và tốn thời gian. Nhiều nghiên cứu gần đây trong các lĩnh vực CSDL và
TTNT đã tận dụng các kỹ thuật học máy để thực hiện đối sánh lược đồ [21],
[6]. Các công cụ đối sánh lược đồ dựa trên học máy thông thường bao gồm
một số các môđun, gọi là người học bao gồm một môđun riêng và siêu người
học để kết hợp chúng. Mỗ
i người học khai thác một loại thông tin khác nhau
có trong các định nghĩa cấu trúc và/hoặc trong các nguồn dữ liệu. Một khi
người học đã được đào tạo, công cụ đối sánh có thể tìm kiếm các ánh xạ cho
một nguồn dữ liệu mới bằng cách áp dụng các người học và sau đó kết hợp
các kết quả của chúng bằng cách sử dụng một siêu người học. Ví dụ hệ thống
LSD [6] áp dụ
ng một chiến lược siêu học để tạo nên một số đối sánh cơ sở mà
có xem xét đến các thể hiện dữ liệu hoặc thông tin lược đồ. Ngoài ra còn một
số hệ thống khác như được nêu trong mục 1.3.
1.2.2.2 Tiếp cận dựa trên luật

Phần lớn các công cụ đối sánh lược đồ hiện tại đều sử dụng luật để đối
sánh các lược đồ không đồ
ng nhất. Đã có nhiều nghiên cứu về vấn đề này cả
trong lĩnh vực CSDL và TTNT [6], [17], [21]. Các tiếp cận dựa trên luật khai
Chương 1: Đối sánh lược đồ
Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
16
thác nhiều loại thông tin lược đồ như tên phần tử, kiểu dữ liệu, các ràng buộc
phần tử và phân cấp cấu trúc. Hệ thống Cupid [11] và Similarity Flooding
[12] sử dụng các luật tính toán độ tương đồng giữa hai lược đồ như là tổng có
trọng số của các độ tương đồng tên phần tử, kiểu dữ liệu và vị trí cấu trúc.
1.2.2.3 Tiếp cận dựa trên siêu dữ liệu
Một ti
ếp cận khác cho vấn đề đối sánh lược đồ là tiếp cận dựa trên siêu
dữ liệu. Các tiếp cận dựa trên siêu dữ liệu khai thác thêm thông tin ngữ nghĩa
được cung cấp chung bởi các chuyên gia lĩnh vực, ví dụ như siêu dữ liệu RDF
hoặc các ontology lĩnh vực. Nhìn chung tiếp cận này cố gắng ánh xạ tự động
tất cả các trường của mỗi nguồn dữ liệu (hoặc lược
đồ) để định nghĩa trước
ontology lĩnh vực và sau đó thực hiện đối sánh lược đồ ở mức ontology. Như
vậy tiếp cận này thực chất là giải pháp chuyển vấn đề ánh xạ các nguồn dữ
liệu và các lược đồ thành việc ánh xạ các ontology.
1.2.2.4 Một số tiếp cận khác
Ngoài việc sử dụng kỹ thuật học máy, một số tiế
p cận còn sử dụng mạng
nơ-ron để đối sánh lược đồ [21]. Tiếp cận sử dụng mạng nơ-ron khai thác các
ưu điểm của mạng nơ-ron trong việc phát hiện sự tương đồng giữa các nguồn
dữ liệu. Lợi ích chính của mạng nơ-ron là thuật toán sử dụng trong pha đào
tạo không cần huấn luyện. Một số tiếp cận khác cũng đã đượ
c đề xuất cho vấn

đề đối sánh lược đồ, chẳng hạn tiếp cận hướng đối tượng [21]. Tiếp cận
hướng đối tượng dựa trên biểu diễn các lược đồ theo mô hình hướng đối
tượng, sau đó dịch các đặc tả lược đồ thành các biểu diễn hướng đối tượng
này. Tiếp cận này thường được sử dụng trong các hệ thống tích hợp dữ liệ
u.
1.2.2.5 So sánh các tiếp cận
Các tiếp cận trên cơ sở luật nhìn chung có giá thành không lớn và hiệu
năng cao do chúng không đòi hỏi phải có pha đào tạo và thường chỉ hoạt động

×