Tải bản đầy đủ (.pdf) (83 trang)

Tích hợp lược đồ sử dụng phương pháp học bayes và ánh xạ ngữ nghĩa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.08 MB, 83 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------o0o-------

LÊ NHƯ HIỀN

ĐỀ TÀI: TÍCH HỢP LƯỢC ĐỒ SỬ DỤNG PHƯƠNG PHÁP
HỌC BAYES VÀ ÁNH XẠ NGỮ NGHĨA

LUẬN VĂN THẠC SĨ KHOA HỌC
NGÀNH: CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. Nguyễn Kim Anh

HÀ NỘI - 2010


LỜI CAM ĐOAN

Tôi xin cam đoan bản luận văn này là công trình nghiên cứu của riêng tôi. Các
kết quả nêu trong luận văn là trung thực, có nguồn gốc rõ ràng, không sao chép toàn
văn của bất kỳ công trình nào khác.

Tác giả luận văn:
Lê Như Hiền


LỜI CẢM ƠN
Tôi xin gửi lời biết ơn sâu sắc đến cô giáo, PGS.TS. Nguyễn Kim Anh đã trực
tiếp hướng dẫn, giúp đỡ, định hướng để tôi có thể thực hiện và hoàn thành luận văn tốt


nghiệp này.
Tôi xin gửi lời cám ơn tới các thầy, cô giáo trong Viện Công nghệ thông tin và
Truyền thông - Trường Đại học Bách khoa Hà Nội đã trang bị cho tôi những kiến thức
quý báu trong suốt quá trình học tập tại trường.
Tôi cũng xin gửi lời cám ơn tới Viện đào tạo Sau đại học - Trường Đại học
Bách khoa Hà nội đã tạo điều kiện giúp đỡ tôi trong thời gian học tập và nghiên cứu.
Cuối cùng, tôi muốn được nói lời cám ơn tới gia đình, người thân, bạn bè và
đồng nghiệp Trường Đại học Công Nghiệp Hà Nội nơi tôi đang công tác đã luôn bên
cạnh động viên, khích lệ tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn.

Hà Nội, ngày 28 tháng 10 năm 2010

Tác giả luận văn:
Lê Như Hiền


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Phân loại tích hợp cơ bản
Hình 1.2: Phân loại đầu vào tích hợp
Hình 1.3: Phân loại sản phẩm tích hợp
Hình 1.4: Các chiến lược tích hợp
Hình 1.5: Ví dụ về đồng âm
Hình 1.6: Ví dụ về về đồng nghĩa
Hình 1.7: Chuyển đổi một thuộc tính về một thực thể
Hình 1.8: Một lược đồ dư thừa
Hình 1.9: Khả năng dễ hiểu: a) Lược đồ A b) Lược đồ B
Hình 1.10: Kiến trúc tích hợp
Hình 2.1: Đối sánh lược đồ
Hình 2.2: Một ví dụ về lược đồ SQL và XSD
Hình 2.3: Kiến trúc tổng thể của bài toán đối sánh lược đồ

Hình 2.4: Các phương pháp tiếp cận đối sánh lược đồ
Hình 2.5: Đánh giá hệ thống đối sánh
Hình 3.1: Phần đậm biểu thị ảnh hưởng ngưỡng tới sai số phân lớp
Hình 3.2: Quy tắc Bayes cho 2 lớp với thiệt hại khi quyết định sai khác nhau
Hình 3. 3: Đồ thị 3 phần đại diện cho các trọng số thuộc tính riêng
Hình 3.4: Đồ thị lưu lượng tối đa chi phí tối thiểu để tìm đối sánh lược đồ tối ưu
Hình 4.1: Lược đồ S1 và S2: Nguồn dữ liệu sinh viên đại học và sau đại học


Hình 4.2: Lược đồ S12, tích hợp của S1 và S2
Hình 4.3: Các lược đồ tích hợp từng phần: thực thể ER giả định, giao nhau, rời nhau
Hình 4.4: Kiến trúc đề xuất để khám phá USRs
Hình 4.5: Hai mối quan hệ ER: R1 và R2
Hình 4.6: Hai sự lựa chọn cuối cùng trong tích hợp lược đồ


DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1: Các phương pháp tiếp cận chuyển đổi lược đồ
Bảng 2.1: Sự khác nhau giữa các phương pháp tiếp cận đối sánh lược đồ
Bảng 2.2: Một ví dụ về đối sánh dựa trên mối quan hệ số lượng các phần tử
Bảng 2.3: Bảng hệ số tương tự giữa các phần tử
Bảng 4.1: Bảng sự thật thay thế mối quan hệ ngữ nghĩa giữa các sinh viên
Bảng 4.2: Kết hợp mối quan hệ ngữ nghĩa có thể giữa các đối tượng lược đồ
Bảng 4.3: Phụ thuộc giữa các thuộc tính và mối quan hệ ER
Bảng 4.4: Phụ thuộc giữa các đối tượng lược đồ cùng loại
Bảng 4.5: Kết hợp các quan hệ ngữ nghĩa có thể có của lược đồ tích hợp


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Thuật ngữ


Ý nghĩa

DTD

Document Type Definition

OWL

Web Ontology Language

XSD

XML Schema Definition

SQL

Schema Query Language

RDF

Relation Database File

ER

Entity Relation

USR

Uncertain Sematic Relationship


CSDL

Cơ sở dữ liệu


MỤC LỤC
MỞ ĐẦU......................................................................................................................... 1
Chương 1: TỔNG QUAN VỀ TÍCH HỢP LƯỢC ĐỒ .................................................. 4
1.1.

Bài toán tích hợp .................................................................................................. 4

1.1.1. Tích hợp lược đồ.............................................................................................. 4
1.1.2. Tích hợp dữ liệu............................................................................................... 5
1.2.

Phân loại tích hợp lược đồ. .................................................................................. 5

1.3.

Các bước tích hợp lược đồ. .................................................................................. 8

1.3.1. Tiền tích hợp.................................................................................................. 10
1.3.2. Đối sánh lược đồ............................................................................................ 12
1.3.3. Giải quyết xung đột lược đồ. ......................................................................... 14
1.4.4. Trộn và tái cấu trúc. ....................................................................................... 16
1.4.

Kiến trúc tích hợp............................................................................................... 18


1.5.

Tổng kết chương ................................................................................................ 19

Chương 2: BÀI TOÁN ĐỐI SÁNH LƯỢC ĐỒ........................................................... 20
2.1.

Đối sánh lược đồ ................................................................................................ 20

2.2.

Bài toán đối sánh lược đồ................................................................................... 21

2.2.1. Lược đồ.......................................................................................................... 22
2.2.2. Đầu vào (Input).............................................................................................. 23
2.2.3. Đầu ra (Output).............................................................................................. 23
2.3.

Mô hình kiến trúc tổng thể. ................................................................................ 24

2.4. Các phương pháp tiếp cận đối sánh lược đồ. ........................................................ 25
2.4.1. Phân loại đối sánh lược đồ............................................................................. 25


2.4.2. Đối sánh mức lược đồ (Schema-level matchers)........................................... 26
2.4.3. Đối sánh mức thể hiện (Instance-level matchers). ........................................ 29
2.4.4. Đối sánh lai. ................................................................................................... 29
2.4.5. Các hệ thống đối sánh lược đồ ..................................................................... 29
2.4.6. Các hệ số mặc định trong bài toán đối sánh. ................................................. 34

2.5. Các phương pháp đánh giá hệ thống đối sánh ...................................................... 35
2.6. Tổng kết chương .................................................................................................. 36
Chương 3: ĐỐI SÁNH LƯỢC ĐỒ SỬ DỤNG PHƯƠNG PHÁP HỌC MÁY BAYES
VỚI SỰ LỰA CHỌN ĐẶC TRƯNG ........................................................................... 37
3.1.

Phương pháp học Bayes..................................................................................... 37

3.1.1. Phân lớp Bayes .............................................................................................. 38
3.1.2. Phân lớp xác suất hậu nghiệm cực đại........................................................... 38
3.1.3. Phân lớp cực tiểu rủi ro.................................................................................. 41
3.2.

Hệ thống đối sánh lược đồ sử dụng phương pháp học Bayes............................ 42

3.2.1. Phương pháp tiếp cận .................................................................................... 42
3.2.2. Bài toán.......................................................................................................... 44
3.2.3. Từ điển thuộc tính và hàm trọng số............................................................... 45
3.2.4. Tối ưu đối sánh lược đồ................................................................................. 46
3.3.

Lựa chọn đặc trưng ............................................................................................ 49

3.3.1. Thông tin hỗ trợ (Mutual Information).......................................................... 50
3.3.2. Gia lượng thông tin (Information Gain) ........................................................ 51
3.3.3. Tỷ số khả năng (Likelihood ratio) ................................................................. 51
3.4.

Tổng kết chương ................................................................................................ 52



Chương 4: TÍCH HỢP LƯỢC ĐỒ DỰA TRÊN ÁNH XẠ NGỮ NGHĨA KHÔNG
CHẮC CHẮN ............................................................................................................... 54
4.1. Phương pháp tiếp cận............................................................................................ 54
4.2. Tích hợp lược đồ dựa trên ánh xạ ngữ nghĩa ........................................................ 56
4.2.1. Mối quan hệ ngữ nghĩa .................................................................................. 56
4.2.2. Trộn lược đồ .................................................................................................. 58
4.3. Tích hợp lược đồ không chắc chắn ....................................................................... 58
4.3.1. Mối quan hệ ngữ nghĩa không chắc chắn ...................................................... 58
4.3.2. Khám phá của USRs...................................................................................... 61
4.3.3. Phụ thuộc giữa các quan hệ ngữ nghĩa. ........................................................ 63
4.3.4. Trộn lược đồ .................................................................................................. 67
4.4.

Tổng kết chương ................................................................................................ 69

KẾT LUẬN ................................................................................................................... 70
TÀI LIỆU THAM KHẢO


MỞ ĐẦU
1. Lý do chọn đề tài
Sự phát triển của công nghệ thông tin, sự bùng nổ của mạng Internet đã tạo
ra nhiều cơ hội mới đồng thời cũng đặt ra nhiều thách thức mới cho các tổ chức và
doanh nghiệp. Khai thác các nguồn tài nguyên thông tin có xuất xứ khác nhau, được
lưu trữ ở nhiều nơi khác nhau trở thành nhu cầu cần thiết. Tuy nhiên các nguồn tài
nguyên này thường được lưu trữ rải rác trên nhiều nguồn dữ liệu tách biệt và chúng
sử dụng các kiểu đặc tả cũng như các mô hình dữ liệu khác nhau. Do đó, vấn đề
thống nhất chúng thành một hệ thống duy nhất để truy xuất là một giải pháp không
tưởng, nhất là khi còn phải ràng buộc điều kiện truy cập một cách trong suốt vào dữ

liệu. Do vậy, để có thể khai thác trực tiếp các nguồn tài nguyên thông tin đa dạng và
sẵn có này cần phải xây dựng một khung nhìn tổng thể thống nhất cho chúng.
Trong những năm gần đây vấn đề tích hợp lược đồ CSDL ngày càng được
quan tâm trong lĩnh vực công nghệ thông tin. Các phương pháp tiếp cận tích hợp
lược đồ đã phát triển rất xa, hầu hết tập trung vào giải quyết các xung đột giữa hai
lược đồ ví dụ như xung đột đặt tên và xung đột cấu trúc được phát hiện từ các quan
hệ liên lược đồ [5].
Từ nhu cầu thực tế đó, việc nghiên cứu về các kỹ thuật mới, nền tảng lý
thuyết cho vấn đề tích hợp lược đồ là rất cần thiết. Sau khi nghiên cứu một số tài
liệu liên quan đến lĩnh vực tích hợp lược đồ CSDL và được sự đồng ý, động viên
của cô giáo hướng dẫn khoa học tôi đã chọn đề tài: “Tích hợp lược đồ sử dụng
phương pháp học Bayes và ánh xạ ngữ nghĩa” để nghiên cứu trong luận văn tốt
nghiệp của mình.

2. Mục đích nghiên cứu
Mục đích của luận văn là nghiên cứu hệ thống lý thuyết chung về tích hợp
lược đồ. Luận văn sẽ tập trung nghiên cứu về lược đồ, đối sánh lược đồ, tích hợp
1


lược đồ. Trên cơ sở nghiên cứu lý thuyết cơ bản đó, đi sâu vào tìm hiểu một số hệ
thống đối sánh lược đồ tự động để xây dựng một tích hợp lược đồ tổng thể.

3. Đối tượng, phạm vi và phương pháp nghiên cứu
Luận văn nghiên cứu về vấn đề tích hợp lược đồ với các định dạng và ngôn
ngữ biểu diễn khác nhau của lược đồ như: SQL, XSD, OWL… Luận văn tập trung
nghiên cứu phương pháp tích hợp lược đồ dựa vào phương pháp học Bayes. Ngoài
ra luận văn cũng trình bày về một phương pháp tích hợp lược đồ tổng thể dựa trên
ánh xạ ngữ nghĩa không chắc chắn.


4. Ý nghĩa khoa học và thực tiễn của đề tài
Về mặt lý thuyết: Đề tài tiếp cận một hướng nghiên cứu mới trong lĩnh vực
cơ sở dữ liệu, đặc biệt là các nguồn tài nguyên thông tin được lưu trữ rải rác ở nhiều
nơi khác nhau, sử dụng nhiều hệ quản trị CSDL khác nhau, sử dụng các khung nhìn
khác nhau … được truy xuất từ lược đồ tích hợp tổng thể. Đề tài trình bày lý thuyết
chung về tích hợp lược đồ, đi sâu tìm hiểu chi tiết các thuật toán của hệ thống đối
sánh lược đồ sử dụng học Bayes, các phương pháp tích hợp lược đồ sử dụng ánh xạ
ngữ nghĩa không chắc chắn.
Về mặt thực tiễn: Với việc triển khai thực hiện chương trình, đề tài này có
thể ứng dụng trong việc quản lý dữ liệu tại các tổ chức, doanh nghiệp,…

5. Bố cục luận văn
Luận văn bao gồm phần mở đầu, bốn chương nội dung, phần kết luận và tài
liệu tham khảo.
Chương một trình bày tổng quan về tích hợp lược đồ, trong đó trình bày về
bài toán tích hợp, phân loại tích hợp và đi sâu vào tìm hiểu bốn bước tích hợp lược
đồ cơ bản đó là: Tiền tích hợp, đối sánh lược đồ, xử lý các xung đột, trộn và tái cấu
trúc. Chương này cũng trình bày về một kiến trúc tích hợp lược đồ.
2


Chương hai trình bày bài toán đối sánh lược đồ, là một bước cốt lõi trong
tích hợp lược đồ. Chương này đi sâu vào tìm hiểu các phương pháp tiếp cận và
đánh giá hệ thống đối sánh lược đồ đồng thời trình bày vắn tắt một số hệ thống đối
sánh lược đồ điển hình cho từng phương pháp tiếp cận.
Chương ba trình bày một hệ thống đối sánh lược đồ sử dụng phương pháp
học Bayes với sự lựa chọn đặc trưng. Cụ thể trình bày về lý thuyết Bayes và
phương pháp đối sánh lược đồ sử sử dụng học Bayes, lựa chọn đặc trưng thống kê
và thuật toán mạng lưu lượng tối đa chi phí tối thiểu để tìm ra đối sánh tối ưu của
các thuộc tính giữa hai lược đồ có liên quan về mặt ngữ nghĩa.

Chương bốn xây dựng một phương pháp tích hợp lược đồ tổng thể dựa trên
ánh xạ ngữ nghĩa không chắc chắn. Chương này tìm hiểu sâu một phương pháp mới
của tích hợp lược đồ đó là quản lý tính không chắc chắn cố hữu trong đối sánh lược
đồ tự động và hỗ trợ sáu loại quan hệ ngữ nghĩa giữa các đối tượng lược đồ.

3


Chương 1
TỔNG QUAN VỀ TÍCH HỢP LƯỢC ĐỒ
1.1. Vấn đề tích hợp
Tích hợp dữ liệu từ hai hoặc nhiều nguồn dữ liệu khác nhau là một vấn đề
phức tạp. Các ứng dụng hoặc các CSDL với các khung nhìn rộng rãi khác nhau và
cách tổ chức khác nhau thường cần đến quá trình tích hợp. Do vậy, tích hợp là một
vấn đề thách thức đòi hỏi phải giải quyết sự xung đột ở cả mức cấu trúc và mức ngữ
nghĩa. Một vấn đề phức tạp hơn nữa là hầu hết các hệ thống không dễ dàng nhận
biết chính xác thông tin ngữ nghĩa. Điều này buộc các nhà thiết kế phải đặt ra các
giả định trên dữ liệu và hợp nhất thủ công các nguồn dữ liệu khác nhau dựa trên giả
định đó để thực hiện quá trình tích hợp.
Hai mức cơ bản của tích hợp là tích hợp mức lược đồ và tích hợp mức dữ
liệu. Mức cao hơn của tích hợp là tích hợp ở mức lược đồ. Lược đồ bao gồm định
dạng, cấu trúc và tổ chức của dữ liệu trong một hệ thống. Hầu hết các hệ thống đều
không nhận biết được toán tử hoặc dữ liệu ngữ nghĩa ở mức lược đồ. Tích hợp lược
đồ là quá trình kết hợp các lược đồ CSDL để tạo thành một khung nhìn tổng thể.
Sau khi tích hợp lược đồ được hoàn thành thì vấn đề liên quan là tích hợp dữ liệu.
Tích hợp dữ liệu tập trung vào tích hợp thông tin ở mức dữ liệu. Điều này bao gồm
những công việc như là: So sánh các khóa để đảm bảo rằng chúng đại diện cho cùng
một thực thể ở các CSDL khác nhau và kết hợp các chỉ mục dữ liệu giống nhau lưu
trữ trong các định dạng dữ liệu khác nhau. Chương này đi sâu vào nghiên cứu tích
hợp lược đồ.

1.1.1. Tích hợp lược đồ
Tích hợp lược đồ là quá trình kết hợp nhiều lược đồ cơ sở dữ liệu khác nhau
để tạo thành một khung nhìn tổng thể. Tích hợp lược đồ thường được ứng dụng
trong các cơ sở dữ liệu với khung nhìn khác nhau. Mục đích chính của tích hợp

4


lược đồ là xây dựng một lược đồ thống nhất (gọi là lược đồ tổng thể) từ các lược đồ
được phát triển độc lập (gọi là lược đồ cục bộ). Lược đồ tổng thể biểu diễn một
khung nhìn nhất quán về mặt ngữ nghĩa trong một miền riêng biệt.
Do vậy tích hợp là một vấn đề thách thức đòi hỏi phải giải quyết sự xung đột
ở cả mức cấu trúc và mức ngữ nghĩa. Một vấn đề phức tạp hơn nữa là hầu hết các
hệ thống không dễ dàng nhận biết chính xác thông tin ngữ nghĩa. Điều này buộc các
nhà thiết kế phải đặt ra các giả định trên dữ liệu và hợp nhất thủ công các nguồn dữ
liệu khác nhau dựa trên giả định đó để thực hiện quá trình tích hợp.
1.1.2. Tích hợp dữ liệu
Tích hợp dữ liệu là quá trình kết hợp dữ liệu ở mức thực thể. Quá trình này
thực sự là một thách thức bởi vì những thực thể dữ liệu giống nhau có thể không có
khóa chung. Việc kết hợp các thể hiện dữ liệu liên quan đến việc định danh thực thể
(có nghĩa là xác định các thể hiện tương đương) và giải quyết các xung đột dữ liệu
liên quan đến các kiểu trường, kích cỡ, độ chính xác và yếu tố quy mô. Định danh
thực thể xác định sự tương ứng giữa các thể hiện đối tượng từ nhiều CSDL. Các
phương pháp thông thường để xác định thực thể tương đương có thể được phân
nhóm thành bốn loại:
-

Kỹ thuật tương đương khóa.

-


Kỹ thuật người dùng đặc tả.

-

Kỹ thuật tiếp cận xác suất.

-

Kỹ thuật dựa trên tri thức.

1.2. Phân loại tích hợp lược đồ
Có ba cách để phân loại các phương pháp luận tích hợp lược đồ:
Tích hợp lược đồ cơ bản mô tả giải thuật tích hợp trong khi hai loại tích hợp
lược đồ còn lại phân loại đầu vào giải thuật và đầu ra giải thuật tích hợp.

5


Hình 1.1: Phân loại tích hợp cơ bản
-

Kiểu tích hợp cơ bản: Bao gồm ba trục đó là xung đột được giải quyết,

phương pháp và mức độ tự động. Khả năng giải quyết xung đột của một phương
pháp tích hợp ở mức lược đồ cơ bản sẽ được phát triển theo các ý tưởng và các mô
hình dữ liệu khác nhau. Điều này gây ra xung đột về cấu trúc và xung đột về ngữ
nghĩa. Xét một cách hoàn hảo phương pháp tích hợp lược đồ giải quyết mọi xung
đột bao gồm: Tên, cấu trúc và xung đột ngữ nghĩa. Phương pháp tích hợp càng
mạnh khi nó giải quyết được càng nhiều xung đột và càng có khả năng ứng dụng.

-

Kiểu phân loại đầu vào tích hợp: Đặc trưng các phương pháp dựa trên đầu

vào tích hợp bao hàm các kiểu CSDL được kết hợp và xây dựng được giả định của
nó. Trục nguồn tích hợp phân biệt các kiểu biểu diễn dữ liệu của thuật toán tích hợp
được sử dụng bao gồm các ứng dụng hợp pháp, CSDL quan hệ, CSDL hướng đối
tượng hoặc trộn các nguồn dữ liệu đa dạng. Một cách lý tưởng, một thuật toán có
6


thể làm việc với trộn các nguồn dữ liệu đa dạng nhưng một vài thuật toán chỉ làm
việc với kiểu nguồn dữ liệu đặc biệt và dựa vào các biến đổi lược đồ để chuyển các
nguồn dữ liệu khác thành dạng chuẩn. Hai loại phân lớp khác: Nội dung siêu dữ liệu
và cấu trúc siêu dữ liệu là kiểu của siêu dữ liệu được thuật toán sử dụng bao gồm
siêu dữ liệu cấu trúc và siêu dữ liệu tác nghiệp. Cấu trúc siêu dữ liệu phân loại siêu
dữ liệu này được cất giữ và biểu diễn trong hệ thống như thế nào. Siêu dữ liệu có
thể ở dạng luật logic, quan hệ hoặc đối tượng phức tạp. Nguồn siêu dữ liệu cho biết
siêu dữ liệu này được hệ thống thu thập như thế nào và nó có thể là một trục nhưng
các phương pháp đang dùng hầu như làm thủ công nên nó ít khi là bộ phân lớp.

Hình 1.2: Phân loại đầu vào tích hợp
-

Kiểu phân loại sản phẩm tích hợp: Phương pháp luận sản phẩm tích hợp

phân loại các kết quả cuối cùng sau khi tích hợp được thực hiện và sử dụng như thế
nào. Hầu hết các phương pháp luận tích hợp được thiết kế để cho ta một khung nhìn
toàn cục phù hợp nhưng một số ít cũng có thể cho ta một quản lý thao tác. Sự công
khai của người dùng cuối là một đặc tính then chốt của các kỹ thuật tích hợp lược

7


đồ. Tính công khai đo mức độ tốt của kết quả tích hợp ẩn trong sự phức tạp hệ
thống đối với người dùng và ứng dụng. Tính tự động trong kiểu tích hợp cơ bản đo
tính công khai tích hợp hoặc quan tâm của người dùng trong khi tích hợp, nó khác
với công khai người dùng cuối.

Hình 1.3: Phân loại sản phẩm tích hợp

1.3. Các bước tích hợp lược đồ
Theo C.Batini [5] có bốn bước tích hợp lược đồ cơ bản là: Tiền tích hợp, đối
sánh, xử lý các xung đột, trộn và tái cấu trúc. Trong đó bước tiền tích hợp xác định
chiến lược tích hợp. Đối sánh lược đồ là nhận dạng sự tương ứng hoặc ánh xạ để
làm rõ sự giống nhau và phát hiện những xung đột giữa các đối tượng lược đồ tích
hợp. Xử lý các xung đột giải quyết các xung đột đã được phát hiện ở bước đối sánh.
Trộn và tái cấu trúc lược đồ là tạo ra một lược đồ thống nhất dựa trên các ánh xạ
đồng nhất bằng cách sắp xếp lại những lược đồ đã được xử lý xung đột và xây dựng
lược đồ kết quả.
Quá trình tích hợp lược đồ được phân tích chi tiết thành các các bước:
• Chuyển các lược đồ về dạng tương đồng .

8


• So sánh ngữ nghĩa và cấu trúc để xác định các thành phần tương đương giữa
các lược đồ cũng như phát hiện các xung đột.
• Xử lý các xung đột.
• Trộn.
• Chọn một lược đồ kết quả trong số những lược đồ kết quả phát sinh do

những giải pháp khác nhau.
• Biểu diễn lược đồ kết quả.
Có nhiều giải thuật được áp dụng trong các bước này để tạo ra các lược đồ
tích hợp dựa trên tính đầy đủ, cực tiểu hóa và sự dễ hiểu. Tuy nhiên, hầu hết các
giải thuật này đều không có tính tự động cao và thường phụ thuộc vào người dùng
tìm kiếm và giải quyết xung đột lược đồ một cách thủ công. Đầu vào hệ thống bao
gồm: Cách nhìn của doanh nghiệp, đặc tính cơ sở dữ liệu, yêu cầu và những qui tắc
ánh xạ từ các lược đồ trung gian đến lược đồ kết quả.
Những kỹ thuật tích hợp ban đầu có thể phân loại thành hai quan điểm: Mô
hình quan hệ và mô hình ngữ nghĩa. Trong mô hình quan hệ, những người tích hợp
sử dụng giả định quan hệ vũ trụ cho phép họ bỏ qua các xung đột định danh. Thuyết
giả định quan hệ vũ trụ [16] cho rằng một quan hệ đơn lẻ có thể được định nghĩa là
chứa đựng tất cả các thuộc tính từ các quan hệ. Điều này có thể suy ra rằng mọi
thuộc tính trong một cơ sở dữ liệu có một tên duy nhất có thể cho phép giải thuật sử
dụng các đặc tính của mô hình quan hệ. Mô hình ngữ nghĩa giải quyết nhiều hơn
đối với các xung đột và không giả định đặc điểm định danh hoặc quan điểm thiết kế
như mô hình quan hệ. Vì vậy việc tích hợp sử dụng mô hình ngữ nghĩa khó hơn
nhưng thực tế hơn.
Có rất nhiều mô hình đã được khảo sát [5] nhưng người ta tổng kết một thực
tế rất quan trọng về tính hiệu quả của chúng đó là: Trong các phương pháp đã được
khảo sát không một phương pháp nào đưa ra phân tích hoặc bằng chứng về tính đầy
đủ của việc chuyển đổi lược đồ để giải quyết bất cứ loại xung đột nào xảy ra. Tóm
lại, những công trình nghiên cứu ban đầu về tích hợp lược đồ chỉ ra một cách rõ
9


ràng vấn đề và đưa ra một số giải thuật cơ bản để trợ giúp người thiết kế tích hợp
những lược đồ cơ bản.
Mô hình ngữ nghĩa được khảo sát sâu bởi Hull và King [10]. Mô hình ER có
lẽ là mô hình ngữ nghĩa nổi tiếng nhất. Các mô hình ngữ nghĩa thường mạnh về

biểu diễn dữ liệu nhưng lại được các nhà thiết kế cơ sở dữ liệu sử dụng nhiều nhất
và không được thiết kế chuyên về tích hợp dữ liệu tự động. Mô hình ngữ nghĩa tốt
hơn mô hình quan hệ bởi vì chúng đạt được sự tách biệt tốt hơn giữa mức khái niệm
và mức vật lý của dữ liệu, làm giảm tính ngữ nghĩa của các kiểu quan hệ. Mặc dù
các mô hình ngữ nghĩa rất phù hợp với việc mô tả dữ liệu nhưng chúng chưa đủ để
tích hợp bởi vì chúng không được thiết kế cho mục đích này.
1.3.1. Tiền tích hợp
Mục tiêu của bước này là chuẩn hóa các lược đồ tham gia tích hợp làm cho
chúng đồng nhất. Thông thường, các CSDL tham gia tích hợp phát triển độc lập và
không nhất quán. Các CSDL này được cài đặt với những hệ quản trị CSDL khác
nhau, sử dụng những mô hình dữ liệu khác nhau. Bên cạnh đó, khả năng mô tả về
mặt ngữ nghĩa của mỗi mô hình dữ liệu là khác nhau. Ví dụ: Mô hình thực thể liên
kết [25] sử dụng hai khái niệm phân biệt là thực thể và mối liên kết trong khi mô
hình quan hệ tương đương (mô tả cùng loại dữ liệu) không phân biệt tường minh
giữa thực thể và mối liên kết. Do đó để đối sánh hai lược đồ cần phải xác định chính
xác quan hệ nào là thực thể, quan hệ nào là mối liên kết. Ngoài ra, hai quan niệm
khác nhau cũng có thể mô tả cùng một đối tượng trong thế giới thực với cùng một
mô hình dữ liệu nhưng có thể có hai lược đồ khác nhau. Bởi vậy các vấn đề cần giải
quyết trong bước này theo [20] là:
-

Sự đa dạng của các mô hình dữ liệu: Trước khi tiến hành tích hợp các lược

đồ thành phần phải có cùng một mô hình dữ liệu được gọi là mô hình chung. Tuy
nhiên lược đồ ban đầu thường có những mô hình dữ liệu khác nhau như: Mô hình
thực thể liên kết, mô hình quan hệ, mô hình hướng đối tượng,… Bởi vậy, việc chọn
mô hình dữ liệu chung là một vấn đề đáng được quan tâm. Có hai hướng tiếp cận là:
10



Chọn mô hình hướng đối tượng và chọn mô hình với ngữ nghĩa tối thiểu. Mô hình
hướng đối tượng giàu ngữ nghĩa và có khả năng mô tả đầy đủ những quan niệm của
thế giới thực. Tuy nhiên việc chọn mô hình nào trong số những mô hình hướng đối
tượng khác nhau lại là một vấn đề khó. Mặt khác đối với mô hình càng giàu ngữ
nghĩa thì quá trình xử lý tích hợp càng phức tạp. Mô hình với ngữ nghĩa tối thiểu
như mô hình nhị phân thì quá trình xử lý tích hợp sẽ đơn giản nhưng khả năng mô
tả thế giới thực lại hạn chế.
-

Sự xung đột của các mô hình về khả năng mô tả thế giới thực: Các mô hình

dữ liệu không thể biểu diễn được tất cả ngữ nghĩa của thế giới thực nên luôn có sự
nhập nhằng trong cách biểu diễn của lược đồ. Bởi vậy phải có sự tham gia của
người quản trị dữ liệu để giải quyết vấn đề này.
-

Tính đa dạng trong việc mô hình hóa: Lược đồ được xây dựng theo nhiều

dạng khác nhau dựa trên quan điểm của người phân tích. Ví dụ, với cùng một đối
tượng nhưng ở mô hình này là thực thể nhưng ở mô hình khác lại là một thuộc tính.
C.Batini, M.Lenzerini, S.Navathe [5] cho rằng việc định nghĩa và lựa chọn
các chiến lược tích hợp cũng là vấn đề quan trọng trong bước này.
Các yếu tố chính cần quan tâm trong chiến lược tích hợp lược đồ là: Lược đồ
được chọn để tích hợp, thứ tự tích hợp, khả năng tích hợp là toàn bộ lược đồ hay chỉ
tích hợp một phần của lược đồ. Ngoài ra khả năng về tài chính cũng là một yếu tố
để lựa chọn chiến lược tích hợp.
Theo C.Batini [5] có bốn chiến lược tích hợp khác nhau trong đó mỗi chiến
lược biểu diễn dưới dạng một cây. Node lá của cây tương đương với các lược đồ
thành phần và các node khác tương đương với các kết quả trung gian của việc tích
hợp. Node gốc là kết quả cuối cùng. Bốn chiến lược này được chia làm hai loại

chính là nhị phân và n-ary.
Chiến lược nhị phân cho phép tích hợp hai lược đồ cùng lúc. Chiến lược nhị
phân bao gồm chiến lược bậc thang và chiến lược cân bằng. Chiến lược nhị phân
được gọi là bậc thang khi một lược đồ mới được tích hợp với một kết quả trung gian
11


ở mỗi bước. Chiến lược nhị phân được gọi là cân bằng khi những lược đồ được chia
thành từng cặp ở thời điểm bắt đầu và được tích hợp theo cách cân xứng.
Chiến lược nhị phân có ưu điểm là đơn giản trong việc đối sánh ở mỗi bước
tích hợp. Hầu hết các phương pháp tích hợp đều theo chiến lược nhị phân vì độ
phức tạp của mỗi bước tích hợp phụ thuộc vào số lược đồ được tích hợp. Nhược
điểm của chiến lược này là sự gia tăng các thao tác tích hợp và cần phải thực hiện
thêm một phân tích cuối cùng để bổ sung các thuộc tính toàn cục còn thiếu.
Chiến lược xử lý theo bậc thang có thể lựa chọn lược đồ thành phần để tích
hợp nhằm giảm khối lượng tích hợp liên quan đồng thời có một sự kế thừa quan
trọng liên kết với những thành phần lược đồ đang có. Chiến lược nhị phân cân bằng
cực tiểu hóa số lượng so sánh giữa những khái niệm trong lược đồ.
Chiến lược n-ary cho phép thực hiện tích hợp n lược đồ cùng lúc (n>2). Một
chiến lược n-ary là một pha khi n lược đồ được tích hợp trong một bước và lặp lại
trong trường hợp ngược lại. Chiến lược sau là trường hợp tổng quát nhất.
Chiến lược “n-ary” có ưu điểm là số lượng các lược đồ phân tích có thể được
xem xét thực hiện trước khi trộn và tối thiểu số lượng các bước tích hợp.

Hình 1.4: Các chiến lược tích hợp
1.3.2. Đối sánh lược đồ
Đối sánh lược đồ nhằm tìm kiếm sự tương đương và sự xung đột giữa các
lược đồ. Bởi vậy việc định nghĩa sự tương đương cũng như xác định sự xung đột
12



giữa các lược đồ là một vấn đề trọng tâm trong bước này. Sự xung đột được chia
làm ba loại:
-

Xung đột về định danh (Naming conflicts): Thường là những trường hợp liên

quan đến từ đồng âm và đồng nghĩa, nó tồn tại trong các lược đồ quan niệm biểu
diễn thế giới thực [5]. Cùng một khái niệm thế giới thực nhưng biểu diễn trong hai
lược đồ quan niệm với tên khác nhau gây nên sự xung đột về đồng nghĩa và ngược
lại, hai quan niệm khác nhau của thế giới thực lại xuất hiện với tên giống nhau trong
hai lược đồ gây nên xung đột về đồng âm. Một ví dụ minh họa về sự xung đột này
như sau:

Hình 1.5: Ví dụ về đồng âm
-

Hình 1.6: Ví dụ về về đồng nghĩa

Xung đột về cấu trúc (Structural conflicts): Phát sinh khi dữ liệu là kết quả

của việc sử dụng các mô hình, các cách xây dựng mô hình khác nhau hoặc các hạn
chế tính toàn vẹn. Sự xung đột này được chia thành những loại sau:
• Vấn đề đa dạng mô hình: Các dữ liệu biểu diễn dưới các mô hình khác
nhau theo thứ tự như: Mô hình quan hệ, mô hình thực thể liên kết, mô hình
hướng đối tượng.
• Xung đột về kiểu (Type conflicts): Sử dụng các cách xây dựng mô hình
khác nhau để biểu diễn các dữ liệu tương đương.
• Xung đột lệ thuộc (Dependency conflicts): Những mối liên quan lẫn nhau
giữa các khái niệm tương phản trong lược đồ.

• Xung đột về khóa (Key conflicts): Khóa khác nhau cho cùng một thực thể.
13


• Xung đột về hành vi (Behavioral conflicts): Những chính sách về cập nhật,
xóa, thêm cho các khái niệm giống nhau.
• Đặc tính liên lược đồ (Interschema properties): Đặc tính liên lược đồ chỉ
xuất hiện khi các lược đồ được liên hợp với nhau.
-

Xung đột về ngữ nghĩa: Xuất hiện khi ý nghĩa của dữ liệu là không nhất

quán. Vấn đề này thường phát sinh do sự khác biệt về quan điểm “word views”.
1.3.3. Giải quyết xung đột lược đồ
Mục đích của bước này là làm hài hòa các lược đồ để chúng có thể tích hợp
được với nhau. Đạt được mục tiêu này nghĩa là giải quyết được xung đột, đến lượt
nó đòi hỏi việc chuyển đổi lược đồ được thực hiện. Để giải quyết được xung đột
nhà thiết kế phải hiểu được mối quan hệ ngữ nghĩa liên quan đến xung đột. Trong
một số trường hợp các xung đột không thể được giải quyết bởi vì chúng phát sinh từ
một số điểm cơ bản không nhất quán. Lúc đó các xung đột được thông báo đến
người dùng, người này phải hướng dẫn người thiết kế để giải quyết.
Khái niệm chuyển đổi lược đồ tập trung hướng về giải quyết xung đột bởi vì
các phương pháp thực hiện việc chuyển đổi lược đồ trong quá trình trộn và tái cấu
trúc. Bảng 1.1 giới thiệu việc phân loại các kiểu chuyển đổi lược đồ. Từ bảng này
chúng ta có thể thấy rằng một số ít các loại chuyển đổi được đưa ra để giải quyết
xung đột. Trong hầu hết các phương pháp, việc định danh đơn giản được sử dụng để
giải quyết các xung đột định danh. Đối với các loại xung đột khác các phương pháp
này không nêu rõ quá trình giải quyết được thực hiện như thế nào, tuy nhiên vẫn
đưa ra một số gợi mở về việc cần phải thực hiện. Ví dụ như khi nói về sự tương
đương, Batini và Lenzerini [1984] gợi ý rằng chúng ta có thể chuyển đổi các khái

niệm (ví dụ như chuyển đối thực thể, thuộc tính, mối quan hệ với nhau) để đạt đến
sự biểu diễn cơ bản của lược đồ.

14


Bảng 1.1: Các phương pháp tiếp cận chuyển đổi lược đồ

Hình 1.7 là ba ví dụ của việc chuyển đổi một thuộc tính về một thực thể như
gợi ý của Batini và Lenzerini [1984]. Các nét đứt trong các hình vẽ thể hiện các
định danh. Trong hình 1.7a thuộc tính A không phải là một định danh, nó được
chuyển đổi thành một thực thể. Trong hình 1.7b thuộc tính A là một định danh và
trở thành thực thể trong lược đồ mới; thực thể A bây giờ lại trở thành đặc trưng cho
thực thể E (bởi vì quan hệ 1: n nghĩa là mỗi thể hiện của A tham gia chỉ một lần
trong mối quan hệ với E). Trong hình 1.7c thuộc tính A chỉ là một phần của định
danh và vì vậy trong cấu trúc mới thực thể A trở thành một phần của định danh hỗn
hợp của thực thể E.

15


×