Tải bản đầy đủ (.pdf) (98 trang)

(LUẬN VĂN THẠC SĨ) Nghiên cứu một số vấn đề về tích hợp dữ liệu Luận văn ThS Công nghệ thông tin 1 01 10

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.8 MB, 98 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TRÍ HIỂN

NGHIÊN CỨU MỘT SỐ VẤN ĐỀ VỀ
TÍCH HỢP DỮ LIỆU

Chuyên ngành: Công nghệ thông tin.
Mã số: 1.01.10

LUẬN VĂN THẠC SỸ.

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. ĐẶNG VĂN ĐỨC

HÀ NỘI – 2007

TIEU LUAN MOI download :


Trang 4

MỤC LỤC
CHƯƠNG 1 - GIỚI THIỆU .......................................................................................6
1.1 Định nghĩa tích hợp dữ liệu ...............................................................................6
1.2 Tích hợp dữ liệu – Xu hướng thời đại. Động lực cho việc phát triển các hệ
thống tích hợp dữ liệu ..............................................................................................8
1.3 Tình hình nghiên cứu về tích hợp dữ liệu .......................................................12
1.4 Mục tiêu của luận văn......................................................................................14
1.5 Giới thiệu các phần của luận văn. ...................................................................14
CHƯƠNG 2 - MỘT SỐ VẤN ĐỀ CƠ BẢN CỦA TÍCH HỢP DỮ LIỆU .............16


2.1 Những đặc trưng của nguồn dữ liệu trong tích hợp dữ liệu ............................16
2.1.1 Tính hỗn tạp ..............................................................................................16
2.1.2 Tính phân tán ............................................................................................18
2.1.3 Tính tự trị ..................................................................................................21
2.2 Kiến trúc hệ thống tích hợp dữ liệu .................................................................22
2.3 Khn mẫu và mơ hình dữ liệu .......................................................................29
2.3.1 Các nguồn dữ liệu .....................................................................................29
2.3.2 Chuẩn trao đổi dữ liệu XML ....................................................................32
2.4 Truy vấn trong tích hợp dữ liệu .......................................................................41
2.4.1 Mơ hình và ánh xạ dữ liệu ........................................................................43
2.4.1.1.

Datalog.........................................................................................46

2.4.1.2.

Mơ hình ánh xạ các nguồn dữ liệu ..............................................46

2.4.1.3.

Sử dụng thông tin dựa trên xác suất. ...........................................50

2.4.2 Viết lại câu truy vấn. .................................................................................51
2.4.2.1.

Trả lời truy vấn dựa trên các khung nhìn ....................................52

2.4.2.2.

Tính đầy đủ và phức tạp trong việc tìm câu truy vấn viết lại. .....53


2.4.2.3.

Các thuật tốn tính tốn lại ..........................................................54

2.4.3 Bộ đánh giá và bộ thực thi truy vấn. .........................................................59
2.4.4 Trình bao bọc. ...........................................................................................61

TIEU LUAN MOI download :


Trang 5

CHƯƠNG 3 - KHẢO SÁT MỘT SỐ HỆ THỐNG TÍCH HỢP DỮ LIỆU ............63
3.1 XQuare Bridge/Fusion.....................................................................................63
3.2 DB2 Information Integrator (IBM) .................................................................67
3.3 Tukwila (University of Washington) ..............................................................70
CHƯƠNG 4 - QUI TRÌNH PHÁT TRIỂN HỆ THỐNG TÍCH HỢP DỮ LIỆU. ...76
KẾT LUẬN ..............................................................................................................93
TÀI LIỆU THAM KHẢO ......................................................................................95

TIEU LUAN MOI download :


Trang 2

DANH MỤC HÌNH ẢNH
Hình 1.1: Kho dữ liệu (a) là bản sao dữ liệu tất cả các nguồn (offline) và quá
trình thực thi truy vấn trên kho dữ liệu. Hệ thống tích hợp dữ liệu ảo (b) thể
hiện một lược đồ trung gian ảo có thể lấy dữ liệu thực tế từ các nguồn dữ liệu.

.........................................................................................................................10
Hình 2.1 Lược đồ kiến trúc tích hợp dữ liệu. Ứng dụng và giao diện người
dùng cho truy vấn dưới dạng lược đồ trung gian. Bộ tính tốn lại sử dụng dữ
liệu từ nhiều nguồn và viết lại câu truy vấn này để liên hệ với các nguồn dữ
liệu thật. Bộ xử lý truy vấn sẽ tìm một kế hoạch tối ưu nhất để thực thi câu
truy vấn này. Sau đó lấy dữ liệu từ các nguồn (trong một số trường hợp thông
qua các bộ chuyển hoặc các điểm lưu trữ) và chúng được kết hợp trả về câu
trả lời tồn diện nhất. .......................................................................................23
Hình 2.2: Một tài liệu XML mẫu thể hiện dữ liệu book và publisher.............33
Hình 2.3: Đồ thị XML-QL cho hình 2.2. Các cạnh nét gạch nối thể hiện
IDREFS; Các cạnh nét chấm điểm thể hiện PCDATA. ..................................34
Hình 2.4: Thể hiện mơ hình dữ liệu XQuery đơn giản cho hình 2.2. Các cạnh
nét gạch nối thể hiện mối liên hệ định nghĩa bằng IDREFS; các cạnh nét
chấm điểm chỉ tới các điểm văn bản. ..............................................................36
Hình 2.5: Câu truy vấn XQuery tìm tên những nguời có tài liệu xuất bản.
Lệnh FOR xác định Xpath duyệt trên cây XML, và trả về giá trị cây con trong
các biến (có tiền tố là dấu $). ..........................................................................38
Hình 2.6: Kết quả của việc truy vấn từ hình 2.5 với dữ liệu XML trong hình
2.2. Kết quả là một tập giá trị person-publisher, kết quả đó được nằm trong
một thành phần gốc ”result”. ...........................................................................39
Hình 2.7: Lược đồ ánh xạ trong hệ tích hợp dữ liệu. ......................................42
Hình 2.8: Kiến trúc lược đồ tồn cục và bộ trung gian. ..................................43
Hình 2.9: Các bước trong xử lý câu truy vấn. .................................................44
Hình 2.10: Ví dụ về viết lại truy vấn. ..............................................................51
Hình 3.1: Kiến trúc của XQuare Bridge..........................................................64

TIEU LUAN MOI download :


Trang 3


Hình 3.2: Kiến trúc của XQuare Fusion.........................................................65
Hình 3.3: Quá trình thực hiện XQuery. ...........................................................66
Hình 3.4: Cơng nghệ tích hợp dữ liệu trong DB2 II. ......................................68
Hình 3.5: DB2 Information Integrator sử dụng wrapper. ...............................69
Hình 3.6: Kiến trúc của hệ thống tích hợp thơng tin Tukwila. .......................71
Hình 3.7: Kiến trúc của phần thực thi truy vấn Tukwila. Sau khi bản đồ truy
vấn đến từ bộ đánh giá, dữ liệu được đọc từ các nguồn XML và chuyển thành
các bộ kết quả nhờ phép toán x-scan. Các cây con được lưu trữ trong một
phần quản lý cây, và các bộ kết quả chứa các liên hệ tới các cây này. Phép
toán truy vấn kết nối các cây và thêm các thẻ thông tin, sau đó chúng được
đưa vào một bộ sinh XML và trả về một chuỗi kết quả XML. .......................73
Hình 4.1 Các bước phát triển một hệ thống tích hợp dữ liệu ..........................76
Hình 4.2: Ví dụ một hệ thống tích hợp dữ liệu. ..............................................80
Hình 4.3: Các tình huống lấy thơng tin từ 2 nguồn dữ liệu. ...........................82
Hình 4.4: Tình huống lấy giao và hợp từ 2 nguồn dữ liệu ..............................82
Hình 4.5: Tình huống lấy giao dữ liệu tồn bộ trong B ..................................83
Hình 4.6: Qúa trình truy vấn thơng tin. ...........................................................84

TIEU LUAN MOI download :


Trang 6

CHƢƠNG 1 - GIỚI THIỆU
Tiếp cận thơng tin chính xác một cách nhanh chóng trong thời đại ngày nay
là một thử thách lớn mà các tổ chức phải đương đầu. VD: một nhân viên cảnh sát
cấn biết liệu anh ta có quyền thực thi luật pháp trong khi nảy sinh một tình huống
mới hay khơng, một nhân viên xã hội cần phải chắc chắn rằng những người xin trợ
cấp liệu đã được hưởng một trợ cấp nào khác chưa, một thẩm phán cần nhận biết

kịp thời tất cả những thông tin quan trọng chống lại bị cáo.
Những trường hợp trên và vơ số những tình huống khác đặt ra u cầu phải
tiếp cận nhanh chóng với nguồn thơng tin phong phú một cách chính xác mà thơng
thường chúng ta phải thu thập qua rất nhiều những nguồn tin khác nhau. Tuy nhiên,
vấn đề nảy sinh ra là: có rất nhiều nguồn cung cấp thông tin thường chỉ cho phép
chúng ta có được những thơng tin đặc thù của riêng các tổ chức của họ mà bỏ qua
những thông tin liên quan từ nguồn bên ngoài những tổ chức ấy. Bên cạnh đó, nhiều
dịch vụ tin có vẻ như có những ác cảm cố hữu bởi lí do chính trị hay văn hoá trong
việc chia sẻ, hợp tác và khai thác thông tin với nhau, họ thường hoạt động riêng lẻ
và tách biệt hoặc đôi khi trở thành đối thủ của nhau.
Vì vậy, xảy ra một sự bùng nổ lớn về lượng dữ liệu sẵn có trên các phiên bản
tin trong một vài thập kỉ gần đây. Một lượng lớn các dữ liệu trên nhiều vấn đề được
thu thập, tồ chức lại và lưu giữ bởi số lượng ít các cá nhân làm việc trong các tổ
chức khác nhau. Trong mối quan hệ với sự tăng lên mạnh mẽ về số lượng dữ liệu và
những lợi ích của tích hợp dữ liệu, một hệ thống khung để thực hiện tích hợp dữ
liệu từ nhiều nguồn là hết sức cần thiết

1.1 Định nghĩa tích hợp dữ liệu
Đến nay, đã có rất nhiều định nghĩa về tích hợp dữ liệu, sau đây là một trong
các định nghĩa đó:

TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

Trang 7

Theo Heimbigner, McLeod, Litwin và một số tác giả khác (tại trang 1 tài liệu
[21]) thì tích hợp dữ liệu q trình chuẩn hố các định nghĩa dữ liệu và cấu trúc dữ

liệu bằng việc sử dụng một giản đồ định nghĩa chung trên tập các nguồn dữ liệu..
Theo AFT (Advanced Forest Technologies, 1997) thì mục đích của việc tích
hợp dữ liệu là kết nối các dữ liệu từ các nguồn thông tin liên quan với nhau và lấy
thông tin theo mục đích của người sử dụng.
Theo Aurora (trang 2 tài liệu [22]), q trình tính hợp là q trình nối kết các
dữ liệu, thiết bị, hệ thống khơng đồng dạng và phân tán phục vụ cho việc tính tốn
dưới một khung làm việc hợp nhất. Tích hợp dữ liệu được thực thi do nhiều lý do:
tăng năng lực tính tốn, giảm thiểu các u cầu bảo trì từ các hệ thống không đồng
dạng, và cung cấp dữ liệu tới người dùng thông qua một giao diện duy nhất.
ARF (một công ty tại NewYork, tháng 11 năm 2003 – tài liệu [15]) định
nghĩa tích hợp dữ liệu là một q trình kết nối thơng tin từ hai hoặc nhiều nguồn dữ
liệu khác nhau, và sử dụng các thông tin từ các nguồn dữ liệu đó tạo ra các thơng tin
mới phù hợp với yêu cầu của người sử dụng.
Như vậy, một cách đơn giản thì việc tích hợp dữ liệu là vấn đề kết nối nhiều
nguồn dữ liệu khác nhau, và cung cấp cho người dùng một khung nhìn chung thống
nhất trên tất cả các nguồn dữ liệu đó.
Qua hệ thống tích hợp dữ liệu chúng ta có thể lấy thông tin từ tất cả các
nguồn dữ liệu mà chúng ta mong muốn. Có nghĩa là chúng ta thao tác với các nguồn
dữ liệu, lấy thông tin từ các nguồn dữ liệu với những ràng buộc giữa các nguồn dữ
liệu và kết nối câu trả lời từ các nguồn dữ liệu lại với nhau rồi đưa ra câu trả lời
thống nhất phù hợp với yêu cầu người sử dụng. Các nguồn dữ liệu đó khơng có thể
khơng nằm tập trung tại một địa điểm và cũng có thể khơng đồng nhất về mặt kiến
trúc cũng như ngữ nghĩa của thơng tin dữ liệu nằm trong đó.

(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10


Trang 8

1.2 Tích hợp dữ liệu – Xu hƣớng thời đại. Động lực cho
việc phát triển các hệ thống tích hợp dữ liệu
Hơn 20 năm qua, các mơ hình tính toán cơ bản cho việc xử lý dữ liệu đã tiến
triển như chính sự phát triển của cơng nghệ tính tốn ln có sự đổi thay. Chúng ta
đã dần đi từ các các máy tính cỡ lớn mainframe, đến các hệ điều hành dữ liệu của
máy tính cá nhân, tới các nhóm máy chủ, tới mạng Internet. Xu hướng gần đây, các
nghiên cứu đã chỉ ra chúng ta có thể đi đến những cái đích xa hơn nữa thậm chí có
thể vượt qua cả tầm tưởng tượng, các mơ hình dựa trên tính ngang hàng trong đó tất
cả các máy cùng đồng thời sử dụng và cung cấp dữ liệu cũng như tính tốn trong
một mơ hình phân cấp đầy đủ theo thời gian thực (tài liệu [17]).
Động cơ thúc đẩy các thay đổi này không chỉ đến từ sự phát triển của phần
cứng và các công nghệ mạng, mà còn đến từ một mong muốn tự nhiên là khả năng
điều khiển sự phân cấp và quản trị đối với liệu và các dịch vụ máy tính. Khơng chỉ
các hệ thống tập trung thơng thường có mơ hình điều hành là dạng cổ chai mà các
mơ hình tính tốn tập trung cũng cần phải được quản trị theo mơ hình này. Khi dữ
liệu được sở hữu và quản trị bởi các nhóm khơng đồng nhất và với các mục đích
khác nhau, thực sự khó khăn khi chúng ta thiết kế một mơ hình tập trung, các đặc
trưng của nó dựa trên sự thể hiện các tiêu chuẩn trước khi nó có thể đựơc xây dựng,
và rất khó khăn có thể cập nhật theo yêu cầu của tất cả các nhân tố mới – bên ngoài.
Tuy nhiên, một tập hợp phân quyền của các hệ thống tự trị có thể trở nên năng động
hơn, có nghĩa như một thành phần độc lập có thể được thiết kế độc tập và thiết kế
lại để phù hợp với yêu cầu của các nhóm người dùng.
Hiện tại, hầu hết các hãng, các viện, các cơ quan (tập hợp các thành phần, bộ
phận mà chúng có tính độc lập tương đối với nhau) thơng thường hoạt động không
chỉ với các hệ thống dữ liệu tập trung. Các thành phần con độc lập đó có thể tạo các
hệ thống các dữ liệu riêng rẽ, mỗi một lược đồ và các dữ liệu chỉ liên quan đến
những gì họ cần. Các nghiên cứu mới nhất chỉ ra rằng thơng thường các hàng lớn có

trung bình khoảng 49 cơ sở dữ liệu (trang 3, tài liệu [17]). Hơn nữa, một tổ chức dữ

(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

Trang 9

liệu hiếm khi mô tả hết được tất cả các dữ liệu mà nó sở hữu hoặc đã thực thi, trong
một số tình huống các dữ liệu thêm vào được mã hoá dưới các đinh dạng khác như:
văn bản, các ứng dụng người dùng. Ngày nay, các tổ chức thường phải cộng tác với
nhiều các thực thể bên ngoài để nhận được sự chia sẻ thông tin một cách chính xác.
Các mơ hình quản trị dữ liệu thơng thường cho hệ thống tập hợp phân quyền
tự trị và không đồng nhất phải chấp nhận một vấn đề sau: không còn một điểm duy
nhất để truy cập các dữ liệu mà tại đó dữ liệu được truy vấn và phân tích. Phải kết
hợp tính mềm dẻo và tính hỗ trợ một phối cảnh chung và duy nhất để xây dựng hệ
truy vấn trên nhiều nguồn dữ liệu.
Trong tích hợp dữ liệu đưa ra 2 cách giải quyết vấn đề này, đó là: phương
pháp kho dữ liệu (data warehousing) và phương pháp tích hợp dữ liệu ảo (virtual
data integration). Cả hai phương pháp này đều làm việc trên một tập các nguồn dữ
liệu phi tập trung liên quan cùng đến một lĩnh vực, và phát triển chúng thành một
lược đồ duy nhất (trung gian) cho lĩnh vực đó. Trong q trình trên, tập các kết quả
biển đổi hoặc các ánh xạ nguồn dữ liệu được xác định để mô tả mối liên hệ giữa
nguồn dữ liệu và lược đồ trung gian.
So sánh giữa tích hợp dữ liệu ảo và kho dữ liệu
Sự khác biệt mang tính cơ bản giữa phương pháp tích hợp dữ liệu và kho dữ
liệu là giữa tính “năng động” và sự “lười nhác”. Trong kho dữ liệu, điều mong

muốn nhất là các dữ liệu ít thay đổi hoặc các khung nhìn tích hợp khơng cần thiết là
dữ liệu hiện tại ở các nguồn và hầu hết các câu hỏi quan trọng được đặt ra trên
khung nhìn tích hợp dữ liệu này. Vì thế, tất cả nội dung của lược đồ tồn cục được
tính tốn trước (bằng các định lượng tất cả các ánh xạ nguồn), chúng được lưu trữ
trong một cơ sở dữ liệu riêng biệt “Warehouse” và sau đó được sử dụng để truy vấn.

(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

Trang 10

On Demand
Thực thi truy vấn trên kho dữ liệu

Offline
Các công cụ ETL lấy dữ liệu theo định kỳ

Kết quả

Ứng dụng
hoặc
các giao
diện người
dùng

Hệ quản trị CSDL

Warehouse

Các nguồn XML

Dữ liệu
Truy vấn
trên
lược đồ
Warehouse

Các bảng
DL Warehouse

Dữ liệu
trong
Định dạng

Lược đồ
chung

Công cụ ETL
(Offline)

Dữ liệu
Dữ liệu

Các nguồn DL quan hệ

Các nguồn dữ liệu khác


a) Kho dữ liệu (Data Warehouse)

On Demand
Thực thi truy vấn trực tiếp trên trình bao bọc nguồn dữ liệu
Kết quả

Ứng dụng
hoặc
các giao
diện người
dùng

Hệ thống
tích hợp dữ liêu

Các nguồn XML

Trình bao bọc
Truy vấn
trên
lược đồ
trung gian

Lược đồ
trung gian ảo

(Được điều
Dữ liệu trong
khiển
Định dạng theo yêu cầu)

chung

Dữ liệu
Dữ liệu
Dữ liệu

Các nguồn DL quan hệ

Các nguồn dữ liệu khác

b) Hệ thống tích hợp dữ liệu ảo (Virtual Data Integration System)

Hình 1.1: Kho dữ liệu (a) là bản sao dữ liệu tất cả các nguồn (offline) và
quá trình thực thi truy vấn trên kho dữ liệu. Hệ thống tích hợp dữ liệu ảo (b)

(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

Trang 11

thể hiện một lƣợc đồ trung gian ảo có thể lấy dữ liệu thực tế từ các nguồn dữ
liệu.
Sự tập trung của phương pháp kho dữ liệu nhằm vào cách thiết kế, bảo trì và
đánh chỉ số vật lý của kho chứa, làm thế nào để chúng ta thực thi các câu truy vấn
dữ liệu một cách hợp lý nhất. Q trình cập nhật, làm mới kho chứa thơng thường là
đắt và làm thủ công ở dạng offline - sử dụng các công cụ ETL (chiết xuất, biến đổi,

và chất chở).
Phương pháp tích hợp dữ liệu ảo thay thế trong các tình huống kho dữ liệu
khơng có tính thực tế, q đắt, hoặc khơng khả thi: ví dụ, khi truy vấn chỉ yêu cầu
một phần dữ liệu rất nhỏ, dữ liệu thay đổi nhanh, dữ liệu thời gian thực được yêu
cầu, các đối tác cung cấp dữ liệu chỉ sẵn sàng cho quyền giới hạn để truy nhập dữ
liệu, hoặc bản thân lược đồ toàn cục thay đổi thường xun. Trong khung nhìn tích
hợp dữ liệu, lược đồ tồn cục thực ra là một thực thể logic, ảo (các truy vấn đặt ra
và được viết lại một cách tự động và chuyển đến các nguồn dữ liệu thực tế) và dữ
liệu được lấy từ các nguồn (thông qua các trình bao bọc) rồi kết hợp với nhau. Tích
hợp dữ liệu ảo ngày càng được quan tâm và nghiên cứu trong các năm gần đây, bởi
vì nó có rất nhiều ích lợi: nó có khả năng hỗ trợ các nguồn dữ liệu cho phép ít
quyền truy nhập, hỗ trợ một khung nhìn sống (live) của mơi trường dữ liệu, nó có
thể thể hiện nhiều phiên bản của lược đồ trung gian tại cùng 1 thời điểm (ví dụ: khả
năng duy trì tương thích với các các câu truy vấn).
Một điều trở ngại tiềm tàng của phương pháp tích hợp dữ liệu là việc kiểm
tra sự đúng đắn của dữ liệu và các phép toán đối sánh ngữ nghĩa giữa các nguồn dữ
liệu là rất khó khăn để thực thi một cách trực tiếp trong quá trình; một lý do nữa là
tích hợp dữ liệu có thể gặp khó khăn trong việc chất chở dữ liệu từ các nguồn dữ
liệu – đó là vấn đề truyền thơng trong mạng. Đối với các vấn đề này, một thể hiện là
sự kết hợp giữa khả năng tính tốn trước của mơ hình kho dữ liệu và khả năng của
tích hợp dữ liệu ảo là điều mong muốn.

(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

Trang 12


1.3 Tình hình nghiên cứu về tích hợp dữ liệu
Tích hợp dữ liệu là một chủ đề được nghiên cứu từ những thập niên 80. John
Miles Smith (trang 145 và 185 tài liệu [17]) và các tác giả khác đã đưa ra vấn đề
“Tích hợp các hệ thống cơ sở dữ liệu phân tán và hỗn tạp” tại hội thảo quốc gia về
máy tính năm 1981. Thời điểm này việc tích hợp dựa trên các hệ thống cơ sở dữ
liệu, đây là những bước đi đầu tiên trong lĩnh vực này. Tuy nhiên, điểm khác biệt
lớn nhất của hệ thống tích hợp dữ liệu là khả năng làm việc với các nguồn dữ liệu
không phải là cơ sở dữ liệu (ví dụ: các trang web, các file văn bản …).
Sự phát triển của World Wide Web và Internet đã đưa tích hợp dữ liệu thành
một trong những nội dung nghiên cứu phổ biến vào giữa thập niên 90. Trong thực
tế, tích hợp dữ liệu khơng chỉ là vấn đề quan tâm của các nhà nghiên cứu về cơ sở
dữ liệu mà bên cạnh đó các cộng đồng trí tuệ nhân tạo cũng tham gia vào lĩnh vực
này. Cụ thể là các tác giả như Oren Etzioni, Daniel Weld, Yigal Arens, Craig A.
Knoblock, … đều đến từ lĩnh vực AI. Các tác giả này chủ yếu tập trung vào việc lập
kế hoạch định hướng cho tích hợp dữ liệu, ví dụ như tìm các bản đồ truy vấn thích
hợp (đưa ra các giới hạn trên đầu vào tại các nguồn dữ liệu), và tối ưu hố bản đồ
truy vấn đó. Một số tài liệu đã đề cập tới việc ánh xạ các nguồn tới lược đồ trung
gian, sử dụng kỹ thuật lập kế hoạch và suy diễn để dịch các câu truy vấn.
Một chủ đề khác được tập trung là việc phát triển các trình bao bọc, trình bao
bọc có khả năng biến đổi dữ liệu và các câu truy vấn giữa định dạng các nguồn dữ
liệu và hệ thống tích hợp dữ liệu. Các kỹ thuật được tập trung cho việc phát triển
khả năng học tự động của trình bao bọc. Tuy nhiên, các yêu cầu trong trình bao bọc
ngày nay được giảm thiểu do sự ra đời của chuẩn trao đổi dữ liệu XML.
Các nhà nghiên cứu về cơ sở dữ liệu cũng đã mất nhiều năm tập trung vào
việc nghiên cứu vấn đề liên kết các cơ sở dữ liệu phân tán trước khi hiện tượng Web
phát triển mạnh. Các kết quả đầu tiên của những nỗ lực này là hệ thống System-R
và Distributed INGRES, cả hai hệ thống này thực hiện cho các cơ sở dữ liệu phân

(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10


TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

Trang 13

tán nằm trong mạng cục bộ LAN. Đã có nhiều nghiên cứu để tăng cường khả năng
của 2 hệ thống này như hệ thống Mariposa, Stonebraker song chúng đều không
thành công. Cùng thời điểm này, các hệ cơ sở dữ liệu phân tán đơn giản ra đời như
Oracle, DB2, Informix… Bên cạnh đó các chuẩn như ODBC và OLE-DB được
công bố làm thay đổi một phần khả năng trao đổi dữ liệu giữa các cơ sở dữ liệu với
nhau. Chính những nghiên cứu này cũng đã tạo ra những nền tảng để phát triển hơn
nữa hệ thống tích hợp dữ liệu sau này.
Hệ thống Stanford TSIMMIS (năm 1997) là một trong những hệ thống đầu
tiên hỗ trợ mơ hình dữ liệu bán cấu trúc. Các hệ thống khác như Hermes, IPRODB,
Carnot … đều cố gắng sử dụng khung nhìn toàn cục để tiếp cận lược đồ trung gian:
một lược đồ trung gian được định nghĩa như một khung nhìn trên các nguồn dữ liệu.
Hệ thống Information Manifold (năm 1996) ra đời đóng một vai trị rất ý
nghĩa, nó đã truyền bá khn dạng khung nhìn cục bộ. Với cách tiếp cận này hệ
thống đã tạo ra một khẳ năng xử lý mềm dẻo trong việc thực hiện tính tốn lại truy
vấn (việc thêm vào các nguồn dữ liệu rất đơn giản, và các nguồn dữ liệu không đầy
đủ cũng có thể đưa vào mơ hình …).
Ngày nay, việc nghiên cứu tích hợp dữ liệu tập trung nhiều vào lĩnh vực
thương mại điện tử. Các hệ thống tích hợp dữ liệu ngày một mạnh mẽ và linh hoạt
hơn. Các trường đại học lớn như Washington, nhiều hãng lớn như IBM, Oracle …
cũng đã và đang có những bước nghiên cứu mạnh mẽ trong lĩnh vực này.
Ở Việt Nam vấn đề nghiên cứu tích hợp dữ liệu đang là một trong những nội
dung mới. Các lĩnh vực như ngân hàng, địa lý, quân đội … cũng đang quan tâm đến

các sản phẩm trong lĩnh vực tích hợp dữ liệu, song việc phát triển nghiên cứu trong
lĩch vực này chưa được tập trung.

(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

Trang 14

1.4 Mục tiêu của luận văn.
Tích hợp dữ liệu là một lĩnh vực trong công nghệ thông tin đang được nghiên
cứu rất nhiều trên thế giới. Qua luận văn này, tác giả mong muốn đưa ra một cái
nhìn tổng quan về nội dung này. Từ đó chúng ta nhìn thấy sự cần thiết của tích hợp
dữ liệu và khả năng ứng dụng tích hợp dữ liệu cho các hệ thống thực tế tại Việt
Nam. Trong luận văn này, tác giả cũng đưa ra các bước chính trong việc xây dựng
một hệ thống tích hợp dữ liệu.
Trong luận văn tác giả tập trung giải quyết tích hợp dữ liệu theo phương
pháp tích hợp dữ liệu ảo. Phương pháp này cho phép truy vấn và lấy thông tin trên
nhiều nguồn dữ liệu hỗn tạp và tự trị theo thời gian thực.

1.5 Giới thiệu các phần của luận văn.
Luận văn được chia thành làm 4 chương.
Các thơng tin, định nghĩa về tích hợp dữ liệu, tầm quan trọng cũng như tình
hình nghiên cứu về tích hợp dữ liệu hiện nay được mơ tả trong CHƢƠNG 1.
Trong CHƢƠNG 2 là các nội dung cơ bản của tích hợp dữ liệu. Kiến trúc
một hệ thống tích hợp dữ liệu nói chung, các vấn đề về khn mẫu và các mơ hình
trong tích hợp dữ liệu, các vấn đề về truy vấn dữ liệu trong hệ thống như thế nào sẽ

được làm rõ trong chương này. Phần khuôn mẫu trong chương sẽ đề cập tới chuẩn
trao đổi dữ liệu XML. Đây là một chuẩn được sử dụng phổ biến hiện nay và cũng là
một chuẩn trao đổi dữ liệu chính của các hệ thống tích hợp dữ liệu. Trong chương
này, các lược đồ hệ thống tích hợp dữ liệu cũng được phân tích và trình bày kỹ.
CHƢƠNG 3 là giới thiệu, mô tả các một số hệ thống tích hợp hiện có như
là XQuare, DB2 II, Tukwila.

(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

TIEU LUAN MOI download :


(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Nghien.cuu.mot.so.van.de.ve.tich.hop.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.

×