Tải bản đầy đủ (.pdf) (98 trang)

Nghiên cứu một số vấn đề về tích hợp dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.85 MB, 98 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


NGUYỄN TRÍ HIỂN


NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ
TÍCH HỢP DỮ LIỆU

Chuyên ngành: Công nghệ thông tin.
Mã số: 1.01.10



LUẬN VĂN THẠC SỸ.



NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. ĐẶNG VĂN ĐỨC



HÀ NỘI – 2007

Trang 4


MỤC LỤC


CHƯƠNG 1 - GIỚI THIỆU 6
1.1 Định nghĩa tích hợp dữ liệu 6
1.2 Tích hợp dữ liệu – Xu hướng thời đại. Động lực cho việc phát triển các hệ
thống tích hợp dữ liệu 8
1.3 Tình hình nghiên cứu về tích hợp dữ liệu 12
1.4 Mục tiêu của luận văn 14
1.5 Giới thiệu các phần của luận văn. 14
CHƯƠNG 2 - MỘT SỐ VẤN ĐỀ CƠ BẢN CỦA TÍCH HỢP DỮ LIỆU 16
2.1 Những đặc trưng của nguồn dữ liệu trong tích hợp dữ liệu 16
2.1.1 Tính hỗn tạp 16
2.1.2 Tính phân tán 18
2.1.3 Tính tự trị 21
2.2 Kiến trúc hệ thống tích hợp dữ liệu 22
2.3 Khuôn mẫu và mô hình dữ liệu 29
2.3.1 Các nguồn dữ liệu 29
2.3.2 Chuẩn trao đổi dữ liệu XML 32
2.4 Truy vấn trong tích hợp dữ liệu 41
2.4.1 Mô hình và ánh xạ dữ liệu 43
2.4.1.1. Datalog 46
2.4.1.2. Mô hình ánh xạ các nguồn dữ liệu 46
2.4.1.3. Sử dụng thông tin dựa trên xác suất. 50
2.4.2 Viết lại câu truy vấn. 51
2.4.2.1. Trả lời truy vấn dựa trên các khung nhìn 52
2.4.2.2. Tính đầy đủ và phức tạp trong việc tìm câu truy vấn viết lại. 53
2.4.2.3. Các thuật toán tính toán lại 54
2.4.3 Bộ đánh giá và bộ thực thi truy vấn. 59
2.4.4 Trình bao bọc. 61

Trang 5



CHƯƠNG 3 - KHẢO SÁT MỘT SỐ HỆ THỐNG TÍCH HỢP DỮ LIỆU 63
3.1 XQuare Bridge/Fusion 63
3.2 DB2 Information Integrator (IBM) 67
3.3 Tukwila (University of Washington) 70
CHƯƠNG 4 - QUI TRÌNH PHÁT TRIỂN HỆ THỐNG TÍCH HỢP DỮ LIỆU. 76
KẾT LUẬN 93
TÀI LIỆU THAM KHẢO 95




Trang 2


DANH MỤC HÌNH ẢNH
Hình 1.1: Kho dữ liệu (a) là bản sao dữ liệu tất cả các nguồn (offline) và quá
trình thực thi truy vấn trên kho dữ liệu. Hệ thống tích hợp dữ liệu ảo (b) thể
hiện một lược đồ trung gian ảo có thể lấy dữ liệu thực tế từ các nguồn dữ liệu.
10
Hình 2.1 Lược đồ kiến trúc tích hợp dữ liệu. Ứng dụng và giao diện người
dùng cho truy vấn dưới dạng lược đồ trung gian. Bộ tính toán lại sử dụng dữ
liệu từ nhiều nguồn và viết lại câu truy vấn này để liên hệ với các nguồn dữ
liệu thật. Bộ xử lý truy vấn sẽ tìm một kế hoạch tối ưu nhất để thực thi câu
truy vấn này. Sau đó lấy dữ liệu từ các nguồn (trong một số trường hợp thông
qua các bộ chuyển hoặc các điểm lưu trữ) và chúng được kết hợp trả về câu
trả lời toàn diện nhất. 23
Hình 2.2: Một tài liệu XML mẫu thể hiện dữ liệu book và publisher 33
Hình 2.3: Đồ thị XML-QL cho hình 2.2. Các cạnh nét gạch nối thể hiện
IDREFS; Các cạnh nét chấm điểm thể hiện PCDATA. 34

Hình 2.4: Thể hiện mô hình dữ liệu XQuery đơn giản cho hình 2.2. Các cạnh
nét gạch nối thể hiện mối liên hệ định nghĩa bằng IDREFS; các cạnh nét
chấm điểm chỉ tới các điểm văn bản. 36
Hình 2.5: Câu truy vấn XQuery tìm tên những nguời có tài liệu xuất bản.
Lệnh FOR xác định Xpath duyệt trên cây XML, và trả về giá trị cây con trong
các biến (có tiền tố là dấu $). 38
Hình 2.6: Kết quả của việc truy vấn từ hình 2.5 với dữ liệu XML trong hình
2.2. Kết quả là một tập giá trị person-publisher, kết quả đó được nằm trong
một thành phần gốc ”result”. 39
Hình 2.7: Lược đồ ánh xạ trong hệ tích hợp dữ liệu. 42
Hình 2.8: Kiến trúc lược đồ toàn cục và bộ trung gian. 43
Hình 2.9: Các bước trong xử lý câu truy vấn. 44
Hình 2.10: Ví dụ về viết lại truy vấn. 51
Hình 3.1: Kiến trúc của XQuare Bridge 64

Trang 3


Hình 3.2: Kiến trúc của XQuare Fusion 65
Hình 3.3: Quá trình thực hiện XQuery. 66
Hình 3.4: Công nghệ tích hợp dữ liệu trong DB2 II. 68
Hình 3.5: DB2 Information Integrator sử dụng wrapper. 69
Hình 3.6: Kiến trúc của hệ thống tích hợp thông tin Tukwila. 71
Hình 3.7: Kiến trúc của phần thực thi truy vấn Tukwila. Sau khi bản đồ truy
vấn đến từ bộ đánh giá, dữ liệu được đọc từ các nguồn XML và chuyển thành
các bộ kết quả nhờ phép toán x-scan. Các cây con được lưu trữ trong một
phần quản lý cây, và các bộ kết quả chứa các liên hệ tới các cây này. Phép
toán truy vấn kết nối các cây và thêm các thẻ thông tin, sau đó chúng được
đưa vào một bộ sinh XML và trả về một chuỗi kết quả XML. 73
Hình 4.1 Các bước phát triển một hệ thống tích hợp dữ liệu 76

Hình 4.2: Ví dụ một hệ thống tích hợp dữ liệu. 80
Hình 4.3: Các tình huống lấy thông tin từ 2 nguồn dữ liệu. 82
Hình 4.4: Tình huống lấy giao và hợp từ 2 nguồn dữ liệu 82
Hình 4.5: Tình huống lấy giao dữ liệu toàn bộ trong B 83
Hình 4.6: Qúa trình truy vấn thông tin. 84

Trang 6


CHƢƠNG 1 - GIỚI THIỆU

Tiếp cận thông tin chính xác một cách nhanh chóng trong thời đại ngày nay
là một thử thách lớn mà các tổ chức phải đương đầu. VD: một nhân viên cảnh sát
cấn biết liệu anh ta có quyền thực thi luật pháp trong khi nảy sinh một tình huống
mới hay không, một nhân viên xã hội cần phải chắc chắn rằng những người xin trợ
cấp liệu đã được hưởng một trợ cấp nào khác chưa, một thẩm phán cần nhận biết
kịp thời tất cả những thông tin quan trọng chống lại bị cáo.
Những trường hợp trên và vô số những tình huống khác đặt ra yêu cầu phải
tiếp cận nhanh chóng với nguồn thông tin phong phú một cách chính xác mà thông
thường chúng ta phải thu thập qua rất nhiều những nguồn tin khác nhau. Tuy nhiên,
vấn đề nảy sinh ra là: có rất nhiều nguồn cung cấp thông tin thường chỉ cho phép
chúng ta có được những thông tin đặc thù của riêng các tổ chức của họ mà bỏ qua
những thông tin liên quan từ nguồn bên ngoài những tổ chức ấy. Bên cạnh đó, nhiều
dịch vụ tin có vẻ như có những ác cảm cố hữu bởi lí do chính trị hay văn hoá trong
việc chia sẻ, hợp tác và khai thác thông tin với nhau, họ thường hoạt động riêng lẻ
và tách biệt hoặc đôi khi trở thành đối thủ của nhau.
Vì vậy, xảy ra một sự bùng nổ lớn về lượng dữ liệu sẵn có trên các phiên bản
tin trong một vài thập kỉ gần đây. Một lượng lớn các dữ liệu trên nhiều vấn đề được
thu thập, tồ chức lại và lưu giữ bởi số lượng ít các cá nhân làm việc trong các tổ
chức khác nhau. Trong mối quan hệ với sự tăng lên mạnh mẽ về số lượng dữ liệu và

những lợi ích của tích hợp dữ liệu, một hệ thống khung để thực hiện tích hợp dữ
liệu từ nhiều nguồn là hết sức cần thiết
1.1 Định nghĩa tích hợp dữ liệu
Đến nay, đã có rất nhiều định nghĩa về tích hợp dữ liệu, sau đây là một trong
các định nghĩa đó:

Trang 7


Theo Heimbigner, McLeod, Litwin và một số tác giả khác (tại trang 1 tài liệu
[21]) thì tích hợp dữ liệu quá trình chuẩn hoá các định nghĩa dữ liệu và cấu trúc dữ
liệu bằng việc sử dụng một giản đồ định nghĩa chung trên tập các nguồn dữ liệu
Theo AFT (Advanced Forest Technologies, 1997) thì mục đích của việc tích
hợp dữ liệu là kết nối các dữ liệu từ các nguồn thông tin liên quan với nhau và lấy
thông tin theo mục đích của người sử dụng.
Theo Aurora (trang 2 tài liệu [22]), quá trình tính hợp là quá trình nối kết các
dữ liệu, thiết bị, hệ thống không đồng dạng và phân tán phục vụ cho việc tính toán
dưới một khung làm việc hợp nhất. Tích hợp dữ liệu được thực thi do nhiều lý do:
tăng năng lực tính toán, giảm thiểu các yêu cầu bảo trì từ các hệ thống không đồng
dạng, và cung cấp dữ liệu tới người dùng thông qua một giao diện duy nhất.
ARF (một công ty tại NewYork, tháng 11 năm 2003 – tài liệu [15]) định
nghĩa tích hợp dữ liệu là một quá trình kết nối thông tin từ hai hoặc nhiều nguồn dữ
liệu khác nhau, và sử dụng các thông tin từ các nguồn dữ liệu đó tạo ra các thông tin
mới phù hợp với yêu cầu của người sử dụng.
Như vậy, một cách đơn giản thì việc tích hợp dữ liệu là vấn đề kết nối nhiều
nguồn dữ liệu khác nhau, và cung cấp cho người dùng một khung nhìn chung thống
nhất trên tất cả các nguồn dữ liệu đó.
Qua hệ thống tích hợp dữ liệu chúng ta có thể lấy thông tin từ tất cả các
nguồn dữ liệu mà chúng ta mong muốn. Có nghĩa là chúng ta thao tác với các nguồn
dữ liệu, lấy thông tin từ các nguồn dữ liệu với những ràng buộc giữa các nguồn dữ

liệu và kết nối câu trả lời từ các nguồn dữ liệu lại với nhau rồi đưa ra câu trả lời
thống nhất phù hợp với yêu cầu người sử dụng. Các nguồn dữ liệu đó không có thể
không nằm tập trung tại một địa điểm và cũng có thể không đồng nhất về mặt kiến
trúc cũng như ngữ nghĩa của thông tin dữ liệu nằm trong đó.

Trang 8


1.2 Tích hợp dữ liệu – Xu hƣớng thời đại. Động lực cho
việc phát triển các hệ thống tích hợp dữ liệu
Hơn 20 năm qua, các mô hình tính toán cơ bản cho việc xử lý dữ liệu đã tiến
triển như chính sự phát triển của công nghệ tính toán luôn có sự đổi thay. Chúng ta
đã dần đi từ các các máy tính cỡ lớn mainframe, đến các hệ điều hành dữ liệu của
máy tính cá nhân, tới các nhóm máy chủ, tới mạng Internet. Xu hướng gần đây, các
nghiên cứu đã chỉ ra chúng ta có thể đi đến những cái đích xa hơn nữa thậm chí có
thể vượt qua cả tầm tưởng tượng, các mô hình dựa trên tính ngang hàng trong đó tất
cả các máy cùng đồng thời sử dụng và cung cấp dữ liệu cũng như tính toán trong
một mô hình phân cấp đầy đủ theo thời gian thực (tài liệu [17]).
Động cơ thúc đẩy các thay đổi này không chỉ đến từ sự phát triển của phần
cứng và các công nghệ mạng, mà còn đến từ một mong muốn tự nhiên là khả năng
điều khiển sự phân cấp và quản trị đối với liệu và các dịch vụ máy tính. Không chỉ
các hệ thống tập trung thông thường có mô hình điều hành là dạng cổ chai mà các
mô hình tính toán tập trung cũng cần phải được quản trị theo mô hình này. Khi dữ
liệu được sở hữu và quản trị bởi các nhóm không đồng nhất và với các mục đích
khác nhau, thực sự khó khăn khi chúng ta thiết kế một mô hình tập trung, các đặc
trưng của nó dựa trên sự thể hiện các tiêu chuẩn trước khi nó có thể đựơc xây dựng,
và rất khó khăn có thể cập nhật theo yêu cầu của tất cả các nhân tố mới – bên ngoài.
Tuy nhiên, một tập hợp phân quyền của các hệ thống tự trị có thể trở nên năng động
hơn, có nghĩa như một thành phần độc lập có thể được thiết kế độc tập và thiết kế
lại để phù hợp với yêu cầu của các nhóm người dùng.

Hiện tại, hầu hết các hãng, các viện, các cơ quan (tập hợp các thành phần, bộ
phận mà chúng có tính độc lập tương đối với nhau) thông thường hoạt động không
chỉ với các hệ thống dữ liệu tập trung. Các thành phần con độc lập đó có thể tạo các
hệ thống các dữ liệu riêng rẽ, mỗi một lược đồ và các dữ liệu chỉ liên quan đến
những gì họ cần. Các nghiên cứu mới nhất chỉ ra rằng thông thường các hàng lớn có
trung bình khoảng 49 cơ sở dữ liệu (trang 3, tài liệu [17]). Hơn nữa, một tổ chức dữ

Trang 9


liệu hiếm khi mô tả hết được tất cả các dữ liệu mà nó sở hữu hoặc đã thực thi, trong
một số tình huống các dữ liệu thêm vào được mã hoá dưới các đinh dạng khác như:
văn bản, các ứng dụng người dùng. Ngày nay, các tổ chức thường phải cộng tác với
nhiều các thực thể bên ngoài để nhận được sự chia sẻ thông tin một cách chính xác.
Các mô hình quản trị dữ liệu thông thường cho hệ thống tập hợp phân quyền
tự trị và không đồng nhất phải chấp nhận một vấn đề sau: không còn một điểm duy
nhất để truy cập các dữ liệu mà tại đó dữ liệu được truy vấn và phân tích. Phải kết
hợp tính mềm dẻo và tính hỗ trợ một phối cảnh chung và duy nhất để xây dựng hệ
truy vấn trên nhiều nguồn dữ liệu.
Trong tích hợp dữ liệu đưa ra 2 cách giải quyết vấn đề này, đó là: phương
pháp kho dữ liệu (data warehousing) và phương pháp tích hợp dữ liệu ảo (virtual
data integration). Cả hai phương pháp này đều làm việc trên một tập các nguồn dữ
liệu phi tập trung liên quan cùng đến một lĩnh vực, và phát triển chúng thành một
lược đồ duy nhất (trung gian) cho lĩnh vực đó. Trong quá trình trên, tập các kết quả
biển đổi hoặc các ánh xạ nguồn dữ liệu được xác định để mô tả mối liên hệ giữa
nguồn dữ liệu và lược đồ trung gian.
So sánh giữa tích hợp dữ liệu ảo và kho dữ liệu
Sự khác biệt mang tính cơ bản giữa phương pháp tích hợp dữ liệu và kho dữ
liệu là giữa tính “năng động” và sự “lười nhác”. Trong kho dữ liệu, điều mong
muốn nhất là các dữ liệu ít thay đổi hoặc các khung nhìn tích hợp không cần thiết là

dữ liệu hiện tại ở các nguồn và hầu hết các câu hỏi quan trọng được đặt ra trên
khung nhìn tích hợp dữ liệu này. Vì thế, tất cả nội dung của lược đồ toàn cục được
tính toán trước (bằng các định lượng tất cả các ánh xạ nguồn), chúng được lưu trữ
trong một cơ sở dữ liệu riêng biệt “Warehouse” và sau đó được sử dụng để truy vấn.

Trang 10


Ứng dụng
hoặc
các giao
diện người
dùng
Công cụ ETL
(Offline)
Ứng dụng
hoặc
các giao
diện người
dùng
Trình bao bọc
(Được điều
khiển
theo yêu cầu)
Thực thi truy vấn trên kho dữ liệu
a) Kho dữ liệu (Data Warehouse)
On Demand Offline
Các công cụ ETL lấy dữ liệu theo định kỳ
Hệ quản trị CSDL
Warehouse

Các bảng
DL Warehouse
Truy vấn
trên
lược đồ
Warehouse
Kết quả
Dữ liệu
Dữ liệu
Dữ liệu
Các nguồn XML
Các nguồn DL quan hệ
Các nguồn dữ liệu khác
Dữ liệu
Dữ liệu
Dữ liệu
Các nguồn XML
Các nguồn DL quan hệ
Các nguồn dữ liệu khác
Dữ liệu
trong
Định dạng

Lược đồ
chung
Dữ liệu trong
Định dạng
chung
Hệ thống
tích hợp dữ liêu

Truy vấn
trên
lược đồ
trung gian
Kết quả
Lược đồ
trung gian ảo
Thực thi truy vấn trực tiếp trên trình bao bọc nguồn dữ liệu
On Demand
b) Hệ thống tích hợp dữ liệu ảo (Virtual Data Integration System)

Hình 1.1: Kho dữ liệu (a) là bản sao dữ liệu tất cả các nguồn (offline) và
quá trình thực thi truy vấn trên kho dữ liệu. Hệ thống tích hợp dữ liệu ảo (b)

Trang 11


thể hiện một lƣợc đồ trung gian ảo có thể lấy dữ liệu thực tế từ các nguồn dữ
liệu.
Sự tập trung của phương pháp kho dữ liệu nhằm vào cách thiết kế, bảo trì và
đánh chỉ số vật lý của kho chứa, làm thế nào để chúng ta thực thi các câu truy vấn
dữ liệu một cách hợp lý nhất. Quá trình cập nhật, làm mới kho chứa thông thường là
đắt và làm thủ công ở dạng offline - sử dụng các công cụ ETL (chiết xuất, biến đổi,
và chất chở).
Phương pháp tích hợp dữ liệu ảo thay thế trong các tình huống kho dữ liệu
không có tính thực tế, quá đắt, hoặc không khả thi: ví dụ, khi truy vấn chỉ yêu cầu
một phần dữ liệu rất nhỏ, dữ liệu thay đổi nhanh, dữ liệu thời gian thực được yêu
cầu, các đối tác cung cấp dữ liệu chỉ sẵn sàng cho quyền giới hạn để truy nhập dữ
liệu, hoặc bản thân lược đồ toàn cục thay đổi thường xuyên. Trong khung nhìn tích
hợp dữ liệu, lược đồ toàn cục thực ra là một thực thể logic, ảo (các truy vấn đặt ra

và được viết lại một cách tự động và chuyển đến các nguồn dữ liệu thực tế) và dữ
liệu được lấy từ các nguồn (thông qua các trình bao bọc) rồi kết hợp với nhau. Tích
hợp dữ liệu ảo ngày càng được quan tâm và nghiên cứu trong các năm gần đây, bởi
vì nó có rất nhiều ích lợi: nó có khả năng hỗ trợ các nguồn dữ liệu cho phép ít
quyền truy nhập, hỗ trợ một khung nhìn sống (live) của môi trường dữ liệu, nó có
thể thể hiện nhiều phiên bản của lược đồ trung gian tại cùng 1 thời điểm (ví dụ: khả
năng duy trì tương thích với các các câu truy vấn).
Một điều trở ngại tiềm tàng của phương pháp tích hợp dữ liệu là việc kiểm
tra sự đúng đắn của dữ liệu và các phép toán đối sánh ngữ nghĩa giữa các nguồn dữ
liệu là rất khó khăn để thực thi một cách trực tiếp trong quá trình; một lý do nữa là
tích hợp dữ liệu có thể gặp khó khăn trong việc chất chở dữ liệu từ các nguồn dữ
liệu – đó là vấn đề truyền thông trong mạng. Đối với các vấn đề này, một thể hiện là
sự kết hợp giữa khả năng tính toán trước của mô hình kho dữ liệu và khả năng của
tích hợp dữ liệu ảo là điều mong muốn.

Trang 12


1.3 Tình hình nghiên cứu về tích hợp dữ liệu
Tích hợp dữ liệu là một chủ đề được nghiên cứu từ những thập niên 80. John
Miles Smith (trang 145 và 185 tài liệu [17]) và các tác giả khác đã đưa ra vấn đề
“Tích hợp các hệ thống cơ sở dữ liệu phân tán và hỗn tạp” tại hội thảo quốc gia về
máy tính năm 1981. Thời điểm này việc tích hợp dựa trên các hệ thống cơ sở dữ
liệu, đây là những bước đi đầu tiên trong lĩnh vực này. Tuy nhiên, điểm khác biệt
lớn nhất của hệ thống tích hợp dữ liệu là khả năng làm việc với các nguồn dữ liệu
không phải là cơ sở dữ liệu (ví dụ: các trang web, các file văn bản …).
Sự phát triển của World Wide Web và Internet đã đưa tích hợp dữ liệu thành
một trong những nội dung nghiên cứu phổ biến vào giữa thập niên 90. Trong thực
tế, tích hợp dữ liệu không chỉ là vấn đề quan tâm của các nhà nghiên cứu về cơ sở
dữ liệu mà bên cạnh đó các cộng đồng trí tuệ nhân tạo cũng tham gia vào lĩnh vực

này. Cụ thể là các tác giả như Oren Etzioni, Daniel Weld, Yigal Arens, Craig A.
Knoblock, … đều đến từ lĩnh vực AI. Các tác giả này chủ yếu tập trung vào việc lập
kế hoạch định hướng cho tích hợp dữ liệu, ví dụ như tìm các bản đồ truy vấn thích
hợp (đưa ra các giới hạn trên đầu vào tại các nguồn dữ liệu), và tối ưu hoá bản đồ
truy vấn đó. Một số tài liệu đã đề cập tới việc ánh xạ các nguồn tới lược đồ trung
gian, sử dụng kỹ thuật lập kế hoạch và suy diễn để dịch các câu truy vấn.
Một chủ đề khác được tập trung là việc phát triển các trình bao bọc, trình bao
bọc có khả năng biến đổi dữ liệu và các câu truy vấn giữa định dạng các nguồn dữ
liệu và hệ thống tích hợp dữ liệu. Các kỹ thuật được tập trung cho việc phát triển
khả năng học tự động của trình bao bọc. Tuy nhiên, các yêu cầu trong trình bao bọc
ngày nay được giảm thiểu do sự ra đời của chuẩn trao đổi dữ liệu XML.
Các nhà nghiên cứu về cơ sở dữ liệu cũng đã mất nhiều năm tập trung vào
việc nghiên cứu vấn đề liên kết các cơ sở dữ liệu phân tán trước khi hiện tượng Web
phát triển mạnh. Các kết quả đầu tiên của những nỗ lực này là hệ thống System-R
và Distributed INGRES, cả hai hệ thống này thực hiện cho các cơ sở dữ liệu phân

Trang 13


tán nằm trong mạng cục bộ LAN. Đã có nhiều nghiên cứu để tăng cường khả năng
của 2 hệ thống này như hệ thống Mariposa, Stonebraker song chúng đều không
thành công. Cùng thời điểm này, các hệ cơ sở dữ liệu phân tán đơn giản ra đời như
Oracle, DB2, Informix… Bên cạnh đó các chuẩn như ODBC và OLE-DB được
công bố làm thay đổi một phần khả năng trao đổi dữ liệu giữa các cơ sở dữ liệu với
nhau. Chính những nghiên cứu này cũng đã tạo ra những nền tảng để phát triển hơn
nữa hệ thống tích hợp dữ liệu sau này.
Hệ thống Stanford TSIMMIS (năm 1997) là một trong những hệ thống đầu
tiên hỗ trợ mô hình dữ liệu bán cấu trúc. Các hệ thống khác như Hermes, IPRODB,
Carnot … đều cố gắng sử dụng khung nhìn toàn cục để tiếp cận lược đồ trung gian:
một lược đồ trung gian được định nghĩa như một khung nhìn trên các nguồn dữ liệu.

Hệ thống Information Manifold (năm 1996) ra đời đóng một vai trò rất ý
nghĩa, nó đã truyền bá khuôn dạng khung nhìn cục bộ. Với cách tiếp cận này hệ
thống đã tạo ra một khẳ năng xử lý mềm dẻo trong việc thực hiện tính toán lại truy
vấn (việc thêm vào các nguồn dữ liệu rất đơn giản, và các nguồn dữ liệu không đầy
đủ cũng có thể đưa vào mô hình …).
Ngày nay, việc nghiên cứu tích hợp dữ liệu tập trung nhiều vào lĩnh vực
thương mại điện tử. Các hệ thống tích hợp dữ liệu ngày một mạnh mẽ và linh hoạt
hơn. Các trường đại học lớn như Washington, nhiều hãng lớn như IBM, Oracle …
cũng đã và đang có những bước nghiên cứu mạnh mẽ trong lĩnh vực này.
Ở Việt Nam vấn đề nghiên cứu tích hợp dữ liệu đang là một trong những nội
dung mới. Các lĩnh vực như ngân hàng, địa lý, quân đội … cũng đang quan tâm đến
các sản phẩm trong lĩnh vực tích hợp dữ liệu, song việc phát triển nghiên cứu trong
lĩch vực này chưa được tập trung.

Trang 14


1.4 Mục tiêu của luận văn.
Tích hợp dữ liệu là một lĩnh vực trong công nghệ thông tin đang được nghiên
cứu rất nhiều trên thế giới. Qua luận văn này, tác giả mong muốn đưa ra một cái
nhìn tổng quan về nội dung này. Từ đó chúng ta nhìn thấy sự cần thiết của tích hợp
dữ liệu và khả năng ứng dụng tích hợp dữ liệu cho các hệ thống thực tế tại Việt
Nam. Trong luận văn này, tác giả cũng đưa ra các bước chính trong việc xây dựng
một hệ thống tích hợp dữ liệu.
Trong luận văn tác giả tập trung giải quyết tích hợp dữ liệu theo phương
pháp tích hợp dữ liệu ảo. Phương pháp này cho phép truy vấn và lấy thông tin trên
nhiều nguồn dữ liệu hỗn tạp và tự trị theo thời gian thực.
1.5 Giới thiệu các phần của luận văn.
Luận văn được chia thành làm 4 chương.
Các thông tin, định nghĩa về tích hợp dữ liệu, tầm quan trọng cũng như tình

hình nghiên cứu về tích hợp dữ liệu hiện nay được mô tả trong CHƢƠNG 1.
Trong CHƢƠNG 2 là các nội dung cơ bản của tích hợp dữ liệu. Kiến trúc
một hệ thống tích hợp dữ liệu nói chung, các vấn đề về khuôn mẫu và các mô hình
trong tích hợp dữ liệu, các vấn đề về truy vấn dữ liệu trong hệ thống như thế nào sẽ
được làm rõ trong chương này. Phần khuôn mẫu trong chương sẽ đề cập tới chuẩn
trao đổi dữ liệu XML. Đây là một chuẩn được sử dụng phổ biến hiện nay và cũng là
một chuẩn trao đổi dữ liệu chính của các hệ thống tích hợp dữ liệu. Trong chương
này, các lược đồ hệ thống tích hợp dữ liệu cũng được phân tích và trình bày kỹ.
CHƢƠNG 3 là giới thiệu, mô tả các một số hệ thống tích hợp hiện có như
là XQuare, DB2 II, Tukwila.

Trang 15


Trong CHƢƠNG 4 tác giả đề xuất và đưa ra các bước cơ bản để xây dựng
một hệ thống tích hợp dữ liệu đơn giản. Đây là quá trình kết hợp nghiên cứu từ việc
quản lý dự án và các kiến trúc của hệ tích hợp dữ liệu.
Tiếp theo của luận văn là phần KẾT LUẬN. Phần này điểm lại một số kết
quả đạt được và các vấn đề cần giải quyết tiếp trong lĩnh vực tích hợp dữ liệu. Cuối
cùng là đầu mục các tài liệu tham khảo, các tài liệu được xếp theo thứ tự tên tác giả.


Trang 16


CHƢƠNG 2 - MỘT SỐ VẤN ĐỀ CƠ BẢN CỦA
TÍCH HỢP DỮ LIỆU

Chương này bao gồm 4 phần, phần đầu là những đặc trưng của nguồn dữ liệu
trong tích hợp dữ liệu. Phần thứ hai là kiến trúc của hệ tích hợp dữ liệu. Phần thứ ba

là khuôn mẫu và mô hình dữ liệu. Phần cuối là vấn đề truy vấn trong tích hợp dữ
liệu.
2.1 Những đặc trƣng của nguồn dữ liệu trong tích hợp dữ
liệu
Để làm rõ nét đặc trưng của nguồn dữ liệu trong hệ pháp tích hợp dữ liệu
chúng ta sẽ phân tích theo ba hướng: tính phân tán, tính hỗn tạp và tính tự trị của
các nguồn dữ liệu (theo tài liệu [9]).
2.1.1 Tính hỗn tạp
Tính hỗn tạp (không đồng nhất) của các nguồn dữ liệu được tích hợp là một
trong những nội dung quan trọng cần giải quyết trong tích hợp dữ liệu. Vấn đề mà
chúng ta cần vượt qua nhất là làm thế nào hỗ trợ khả năng tích hợp từ các nguồn,
mà trong đó các dữ liệu được tích hợp có các mức khác biệt về cấu trúc, về ngữ
nghĩa. Chúng ta có thể phân loại tính hỗn tạp này theo các đặc tả sau:
+ Sự hỗn tạp về hệ thống, kỹ thuật, bao gồm cơ sở hạ tầng của phần cứng và
phần mềm trong các hệ thống nguồn dữ liệu.
 Phần cứng
 Mạng và cơ sở hạ tầng của nó.
 Các giao thức và các phần mềm trung gian.
 Hệ thống cơ sở dữ liệu và các hình thái lưu trữ khác.
 Mô hình dữ liệu.
 Ngôn ngữ và giao diện.

Trang 17


Các nội dung này có thể được sắp xếp và phân chia dựa trên các chuẩn giao
thức và giao diện. Việc ánh xạ giữa các ngôn ngữ và giao diện khác nhau là một vấn
đề khó khăn, thậm chí ngay cả với những miền hẹp, miền cụ thể như chỉ đối với
việc truy cập các cơ sở dữ liệu thông qua giao diện Web.
+ Sự hỗn tạp về lược đồ: vấn đề này nảy sinh từ việc thiết kế độc lập các mô

hình các hệ thống dữ liệu khác nhau. Dựa trên các yêu cầu riêng của các hệ thống
các mô hình dữ liệu được thiết kế theo các cách khác nhau mặc dù chúng cùng mô
tả một nội dung nào đó của thế giới thực.
+ Sự hỗn tạp về ngữ nghĩa: Tính hỗn tạp về ngữ nghĩa bắt nguồn từ việc sử
dụng hệ thống. Nó bao gồm sự khác nhau về việc giải thích và nghĩa của các giá trị
dữ liệu, đối tượng, các phần tử lược đồ và bao gồm cả phạm vi dữ liệu trong nhiều
hệ thống khác nhau có mối liên hệ kết nối.
Sự hỗn tạp về lược đồ đang là một trong những nội dung nghiên cứu rộng rãi
hiện nay. Sự hỗn tạp về lược đồ được phát sinh từ các kỹ thuật tích hợp lược đồ và
trong các quá trình xử lý để thiết kế các lược đồ tích hợp. Kỹ thuật tích hợp lược đồ
có thể được xem như là việc xác nhận giữa các lược đồ và dựa trên các định nghĩa
khung nhìn, hay cao hơn nữa là các mô hình dữ liệu khác nhau. Việc tích hợp lược
đồ giống như việc thiết kế lược đồ thông thường với các cấp độ tự do khác nhau,
tính tiêu chuẩn cho tích hợp lược đồ là tính toàn vẹn, tính chính xác, tính tối thiểu
và tính có thể hiểu được.
Một trong các cách phân loại nữa của phương pháp dựa trên khung nhìn
được đưa ra là khung nhìn dựa cục bộ và khung nhìn toàn cục. Cả hai cách thức trên
có sự khác nhau trong việc tăng cường khả năng bảo trì và xử lý truy vấn trong hệ
tích hợp dữ liệu. Dù thế nào đi nữa, các phương pháp tích hợp lược đồ đều dựa trên
các kiểu ánh xạ giữa lược đồ nguồn cục bộ và lược đồ toàn cục. Các kiểu ánh xạ
này được sử dụng để viết lại các câu truy vấn và biến đổi kết quả trong một kịch bản
tích hợp.

Trang 18


Một trong những phương pháp phân loại thô sơ cho quá trình tích hợp lược
đồ được đưa ra thông qua sự khác biệt giữa việc tích hợp lược đồ theo hướng top
down và tích hợp lược đồ theo hướng bottom up. Sự khác biệt được tạo ra trong việc
phân chia này là dựa trên lược đồ mục tiêu được thiết kế để thỏa mãn các yêu cầu

của ứng dụng tổng thể.
Một trong những nội dung liên quan mật thiết tới tính hỗn tạp là nhu cầu về
tính trong suốt trong kết quả của hệ thống tích hợp. Tính trong suốt của hệ thống
của hệ thống là khả năng cung cấp một giao diện thống nhất cho người dùng và ẩn
tất cả các nội dung hỗn tạp trên. Đối với người dùng, khi sử dụng hệ thống họ
không cần quan tâm đến:
 Dữ liệu nguồn ban đầu.
 Các mối liên hệ để lấy thông tin.
 Các sự biến đổi hoặc cô đọng dữ liệu.
 Điều hoà các xung đột dữ liệu và các xung đột hệ thống …
Đối lập với yêu cầu tính trong suốt trong các ứng dụng tích hợp là yêu cầu về
tính lần vết của dữ liệu. Ví dụ một người sử dụng quan tâm đến các vấn đề như: dữ
liệu được đến từ đâu, chi phí và thời gian để chiết xuất dữ liệu, làm thế nào dữ liệu
có khả năng thêm các thông tin khi truy cập từ nhiều hệ thống riêng biệt nhau.
2.1.2 Tính phân tán
Một trong các đặc trưng của tích hợp dữ liệu là các dữ liệu được lưu trữ ở
các địa điểm khác nhau và hoạt động trên các hệ quản trị khác nhau. Sự phân tán
của dữ liệu trong hệ tích hợp dữ liệu khác với sự phân tán trong cơ sở dữ liệu phân
tán (tổng thể được thiết kế từ ban đầu, trong hệ cơ sở dữ liệu phân tán thì vai trò của
tĩnh hỗn tạp và tự trị không quan trọng), các nguồn dữ liệu được thiết kế độc lập và
phục vụ cho các ứng dụng cụ thể khác nhau. Các phương pháp tiếp cận để giải
quyết vấn đề phân tán đều có những điểm chung sau:

Trang 19


 Phải tạo ra một khung nhìn trong suốt đối với vị trí vật lý của dữ liệu.
 Chấp nhận và đối mặt với tính tự trị của nguồn dữ liệu.
 Xử lý truy vấn phân tán kèm theo các ràng buộc khác nhau.
 Độc lập về phần cứng, phần mềm và truyền thông mạng, …

Đối mặt với vấn đề phân tán dữ liệu và dựa trên vị trí vật lý của tập dữ liệu
kết quả được tích hợp có hai phương pháp tiếp cận chính trong tích hợp dữ liệu
được xây dựng ( trang 16 tài liệu [9]).
Phƣơng pháp tích hợp cụ thể (materialised integration). Phương pháp này
sao chép các dữ liệu từ các nguồn và lưu trữ chúng tại một kho chứa (warehouse).
Phương pháp này còn gọi là phương pháp kho dữ liệu (Data Warehouse), vì nó là
đại diện đặc trưng nhất cho phương pháp này. Ích lợi của phương pháp kho dữ liệu
là có thể thực hiện truy vấn trực tiếp trên nguồn dữ liệu đã được tích hợp bởi nó đã
nằm trong kho chứa. Điểm bất lợi của phương pháp này đến cùng với tính tự trị của
nguồn dữ liệu, phương pháp này không thích hợp với các dữ liệu có tính thay đổi
liên tục và cần truy vấn theo thời gian thực. Có 3 bước quan trọng trong việc xây
dựng và bảo trì một kho chứa dữ liệu là: (1) mô hình và thiết kế. Trong bước thiết
kế kho dữ liệu những người phát triển cần xác định thông tin nào từ mỗi nguồn sẽ
được sử dụng trong kho chứa và khung nhìn nào (truy vấn) trên các nguồn sẽ được
thực thi, và lược đồ toàn cục nào trong kho chứa được xác định sẵn; (2) vấn đề bảo
trì (làm mới dữ liệu). Làm thế nào để khởi tạo kho dữ liệu và làm thế nào để làm
mới kho dữ liệu khi dữ liệu tại một nguồn nào đó được cập nhật. (3) các phép toán.
Các phép toán trong phương pháp kho dữ liệu bao gồm xử lý truy vấn, lưu trữ và
đánh chỉ mục.
Phƣơng pháp tích hợp ảo (Virtual integration). Trong phương pháp này dữ
liệu được truy cập từ các nguồn theo yêu cầu khi chúng ta đưa một truy vấn và hệ
thống tích hợp dữ liệu. Có hai kiến trúc trong việc tích hợp các nguồn dữ liệu sử
dụng phương pháp tích hợp ảo đó là: hệ thống kết hợp cơ sở dữ liệu và hệ thống

Trang 20


trung gian. Hệ thống kết hợp cơ sở dữ liệu là một trong những hệ thống đầu tiên
trong lĩnh vực tích hợp dữ liệu, nó bao gồm các khả năng: tích hợp lược đồ; ngôn
ngữ truy vấn đa cơ sở dữ liệu; xử lý và đánh giá truy vấn trong hệ đa cơ sở dữ liệu;

xử lý giao dịch giữa các thành phần của hệ thống; có khả năng tích hợp các hệ
thống không phải là hệ thống cơ sở dữ liệu. Hệ thống trung gian có khả năng tích
hợp các nguồn dữ liệu hỗn tạp (có thể là cơ sở dữ liệu, các dịch vụ hệ thống, các
nguồn dữ liệu Web, …) bằng cách cung cấp một khung nhìn ảo trên tất cả những dữ
liệu này. Người dùng có thể hỏi một câu truy vấn tới hệ thống trung gian mà không
cần phải biết về trị trí các nguồn dữ liệu cụ thể, các lược đồ hay các phương pháp
truy cập, bởi vì hệ thống đã cung cấp một lược đồ toàn cục tới người sử dụng. Các
thành phần chính của một hệ thống trung gian bao gồm bộ trung gian (mediator) và
các trình bao bọc (wrapper) cho mỗi một nguồn dữ liệu. Bộ trung gian (đôi khi còn
gọi là bộ tích hợp) thực hiện các chức năng sau trong hệ thống: (1) nhận câu truy
vấn ban đầu từ hệ thống; (2) chia câu truy vấn thành các câu truy vấn con độc lập
dựa trên mô tả các nguồn dữ liệu; (3) đánh giá và thực thi bản đồ truy vấn dựa trên
mô tả nguồn dữ liệu; (4) gửi câu truy vấn con tới trình bao bọc. Trình bao bọc sẽ
thực thi câu truy vấn trên các nguồn dữ liệu cụ thể và lấy kết quả trả về cho bộ trung
gian. Bộ trung gian kết nối tất cả các câu trả lời cho bản đồ truy vấn thành kết quả
cuối cùng và trả lời câu truy vấn ban đầu cho hệ thống.
Do tính phân tán của dữ liệu nên quá trình xử lý truy vấn là phức tạp và khó
khăn. Đã có rất nhiều các đề tài nghiên cúu về nội dung xử lý truy vấn này, tất cả
các nghiên cứu đều gặp phải các điểm sau:
 Việc viết lại truy vấn giống như việc biến đổi truy vấn dựa trên các ánh
xạ lược đồ. Các phép biến đổi này là rất phức tạp và có thể không dựa
trên các phép toán chuẩn (như của ngôn ngữ SQL) .
 Trong quá trình kết hợp các mô hình dữ liệu, các ngôn ngữ và các giao
diện tự trị và hỗn tạp thì khả năng truy vấn của các nguồn dữ liệu được
tích hợp có thể khác nhau.

Trang 21


 Việc ước tính truy vấn và kết quả của biến đổi truy vấn có thể khác nhau

giữa các hệ thống.
 Quá trình truyền dữ liệu thông qua mạng giống như các đường ống dạng
thắt nút cổ chai. Do đó, tính tổi thiểu của giao thông mạng trở thành một
trong những điểm chính trong quá trình đánh giá truy vấn, và các thuật
toán riêng biệt để giải quyết việc xử lý dữ liệu theo đường ống và song
song được yêu cầu.
 Sự thiếu thông tin về thống kê dữ liệu cho việc đánh giá truy vấn đã trở
thành một vấn đề của đánh giá truy vấn.
 Trong quá trình truyền thông các cơ sở dữ liệu tự trị, các thành phần hệ
thống có thể có hoặc không cho phép việc xử lý truy vấn, thậm chí có
những trường hợp mất kết nối trong quá trình thực thi một câu truy vấn.
2.1.3 Tính tự trị
Đặc điểm quan trọng thứ ba, đó là các nguồn dữ liệu có tính tự trị. Tính tự trị
liên quan đến mặt điều khiển và phản ánh tính độc lập giữa các nguồn hệ thống dữ
liệu. Sự khác nhau giữa các hệ thống đó như việc thiết kế, việc thực hiện, và các
toán tử.
Tự trị về thiết kế: phản ánh tính độc lập trong việc thiết kế hệ thống. Đó là
độc lập về:
 Hệ thống quản trị dữ liệu và các mô hình dữ liệu.
 Các lược đồ và các ràng buộc.
 Các toán tử kèm theo.
 Không gian bao hàm và ngữ nghĩa của dữ liệu.
Tự trị về truyền thông: liên quan đến khả năng các hệ thống nguồn dữ liệu
truyền thông với các hệ thống khác, ví dụ như khi nào và như thế nào để đáp ứng

Trang 22


các yêu cầu. Điều này cũng có thể hiểu theo khả năng của các hệ thống nguồn dữ
liệu lúc nào thì kết nối hoặc cắt kết nối với hệ thống tích hợp.

Tự trị về thực thi: Các hệ thống được thực thi một cách độc lập với nhau.
Tự trị về kết hợp: Thể hiện khả năng hệ thống độc lập quyết định mức độ
cũng như các chức năng chia sẻ với các hệ thống khác. Điều này bao gồm dữ liệu
được quản lý bởi hệ thống, một phần của lược đồ hay một tập con của nội dung sẽ
được chia sẻ.
Tính tự trị nói chung đã tạo nên những thách thức làm cho tích hợp dữ liệu
trở thành một nhiệm vụ phức tạp. Tính tự trị thiết kế tạo ra sự hỗn tạp của hệ thống
và lược đồ. Tính tự trị về truyền thông, thực thi, kết hợp làm cho quá trình xử lý các
toán tử toàn cục trở nên khó khăn.
2.2 Kiến trúc hệ thống tích hợp dữ liệu
Như đã trình bày trước đây, các thuộc tính trọng tâm của hệ tích hợp dữ liệu
đó là khả năng tích hợp, tạo ra một lược đồ trung gian cho người dùng truy vấn, khả
năng biên dịch, tính toán lại câu truy vấn ban đầu để lấy thông tin từ các nguồn dữ
liệu dựa trên mối liên hệ của chúng với lược đồ dữ liệu trung gian, và khả năng thực
hiện các truy vấn và điều khiển tại các nguồn cơ sở dữ liệu. Một hệ thống tích hợp
dữ liệu là sự biến đổi và mang hầu hết các tính chất của hệ cơ sở dữ liệu tiêu chuẩn:
nó có hoặc rất ít các hệ thống lưu trữ vật lý con, và thường không chứa các cập nhật
nhanh, nhưng nó cần khả năng biên dịch truy vấn và khả năng lấy dữ liệu từ các
nguồn dữ liệu từ xa. Các thành phần chính của hệ tích hợp dữ liệu được thể hiện
như hình 2.1, chúng gồm có những nội dung sau:

Trang 23


Ứng dụng
hoặc
các giao
diện người
dùng
Bộ tính toán lại truy

vấn
(Viết lại và lựa chọn
nguồn dữ liệu)
Trình bao bọc
Dữ liệu
Các nguồn XML động Các nguồn dữ liệu quan hệ
Các nguồn dữ liệu XML có thể lưu trữ;
Các nguồn dữ liệu khác
Truy vấn trên
lược đồ
trung gian
Kết quả
Danh sách
Nguồn dữ liệu
Bộ xử lý truy vấn
(đánh giá và thực thi)
Dữ liệu
Dữ liệu
Các thông số
Nguồn dữ liệu
Mô tả
nguồn dữ liệu
Tính toán lại
câu truy vấn
Điểm chứa

Hình 2.1 Lƣợc đồ kiến trúc tích hợp dữ liệu. Ứng dụng và giao diện
ngƣời dùng cho truy vấn dƣới dạng lƣợc đồ trung gian. Bộ tính toán lại sử
dụng dữ liệu từ nhiều nguồn và viết lại câu truy vấn này để liên hệ với các


Trang 24


nguồn dữ liệu thật. Bộ xử lý truy vấn sẽ tìm một kế hoạch tối ƣu nhất để thực
thi câu truy vấn này. Sau đó lấy dữ liệu từ các nguồn (trong một số trƣờng hợp
thông qua các bộ chuyển hoặc các điểm lƣu trữ) và chúng đƣợc kết hợp trả về
câu trả lời toàn diện nhất.
Ứng dụng hoặc các giao diện ngƣời dùng.
Thông thường, hệ thống gồm một giao diện có khả năng khởi tạo truy vấn và
tổng kết các thông tin trả về một cách linh động, giao diện người dùng dựa trên
chuẩn GUI, ứng dụng người dùng hợp lý, hoặc một ứng dụng dựa trên nền Web.
Thông thường thì các dữ liệu yêu cầu được khởi tạo trước khi có câu trả lời do đó
nó có thể cung cấp thông tin phản hồi nhanh hơn tới người dùng. Hơn nữa, nhiều
ứng dụng được đặt ở chế độ đặc biệt, các câu truy vấn con có thể kết thúc trước khi
chúng hoàn thành.
Bộ tính toán lại câu truy vấn.
Câu truy vấn ban đầu được viết dưới dạng một lược đồ gián tiếp, một lược đồ
đơn thống nhất. Lược đồ sẽ được điều chỉnh dựa trên các mối quan hệ giữa lược đồ
chung và các nguồn dữ liệu trên cơ sở định nghĩa khung nhìn.
Có hai loại công nghệ được đề cập (xem thêm tại tài liệu [13]): local-as-view
(khung nhìn cục bộ) định nghĩa nguồn dữ liệu như là khung nhìn trên lược đồ trung
gian, global-as-view (khung nhìn toàn cục) định nghĩa lược đồ trung gian như là
khung nhìn dựa trên các nguồn dữ liệu. Lược đồ khung nhìn toàn cục có ưu điểm là
các câu truy vấn lược đồ trung gian có thể dễ dàng kết hợp với định nghĩa khung
nhìn (”trải ra”) để có được câu truy vấn đầy đủ. Khung nhìn cục bộ yêu cầu sự phức
tạp nhiều hơn trong vấn đề tính toán lại câu truy vấn, nhưng nó có khả năng thể hiện
một cách có ý nghĩa hơn – và hầu hết các hệ tích hợp hiện đại đều sử dụng nó (hoặc
một mô hình lai giữa hai công nghệ).

Trang 25



Hiện nay, vấn đề thuật toán tính toán lại truy vấn là một trong những nội
dung nghiên cứu chính tại đại học Washington. Các thuật toán phổ biến ra đời tại
đại học này là thuật toán Bucket và thuật toán Minicon.
Vấn đề tính toán lại truy vấn hiện nay được thực hiện trên truy vấn liên kết
và hầu hết trong dữ liệu quan hệ. Tuy nhiên, hầu như các mô hình dữ liệu tự nhiên
đều phù hợp với chuẩn trao đổi dữ liệu XML, kể từ khi chuẩn dữ liệu này đủ thông
dụng để hoà hợp với các nguồn dữ liệu như hướng đối tượng, văn bản, và dữ liệu
quan hệ. XQuery là chuẩn ngôn ngữ được phát triển bởi XML, ngôn ngữ này được
xây dựng để thực hiện truy vấn trong các tài liệu XML và nó đang được nghiên cứu
và xác định là có thể thể hiện câu truy vấn trong hệ tích hợp dữ liệu bằng ngôn ngữ
này. Trong thực tế, các nghiên cứu gần đây của dự án Piazza (trang 14 tài liệu [17])
đã bắt đầu sử dụng thuật toán Minicom để làm việc với tập con liên kết của
XQuery.
Danh mục các nguồn dữ liệu.
Danh mục các nguồn dữ liệu chứa một vài dạng kiểu siêu dữ liệu về mỗi một
nguồn dữ liệu. Đầu tiên là mô tả ngữ nghĩa nội dung của nguồn dữ liệu. Một lượng
lớn các dự án, đã từng thảo luận về việc phát triển công nghệ cho việc tự động hoặc
bán tự động tạo ra các ánh xạ giữa các nguồn dữ liệu và lược đồ trung gian của hệ
tích hợp dữ liệu.
Kích cỡ của các nguồn dữ liệu và mặt khác là tính phân tán của dữ liệu cũng
có thể được ghi chú vào cùng với các thông tin về các ánh xạ, nhưng điều này chỉ có
tính khả thi nếu như các nguồn dữ liệu hiếm khi thay đổi và nó có thể được khảo sát
nhanh chóng; chúng ta thực sự không thể trông đợi đây là một tình huống thông
thường được. Trong một vài tình huống, hệ thống thậm chí phải có nhiều thông tin
mô tả hơn về tính gối chồng giữa các giá trị dữ liệu tại các nguồn dữ liệu khác nhau.
Một mô hình cho vấn đề gối chồng mô tả khả năng rằng một giá trị dữ liệu d xuất
hiện trong nguồn S1 và nó cũng được xuất hiện trong nguồn S2. Điều này có thể

×