TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.81 MB, 100 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thế Cường

TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ
NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN

LUẬN VĂN THẠC SĨ

HÀ NỘI – 2007

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THẾ CƯỜNG

TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ
NGỮ NGHĨA
TRONG MÔI TRƯỜNG PHÂN TÁN

Ngành: Công nghệ thông tin
Chuyên ngành:
Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ

HÀ NỘI – 2007

iv
MỤC LỤC
Lời cảm ơn ii
Mục lục iv
Danh sách hình vẽ vi
Danh sách bảng viii
Ký hiệu viết tắt ix
Mở đầu 1
Đặt vấn đề 1
Những nghiên cứu về tích hợp và phân lớp dữ liệu phân tán 3
Mục tiêu của luận văn 4
Tóm tắt nội dung luận văn 5
Chương 1 Tổng quan về tích hợp thông tin và phân lớp dữ liệu phân tán 6
1.1 Tổng quan về tích hợp thông tin phân tán 6
1.1.1 Nhu cầu tích hợp thông tin 6
1.1.2 Những vấn đề cần quan tâm trong xây dựng hệ tích hợp dữ liệu 7
1.1.3 Những phương pháp tích hợp thông tin 8
1.2 Phân lớp dữ liệu phân tán 13
1.2.1 Dữ liệu phân tán 13
1.2.2 Phân lớp dữ liệu 14
1.3 Kết luận 19
Chương 2 Ontology trong tích hợp thông tin phân tán và không thuần nhất 20
2.1 Ontology trong tích hợp thông tin không thuần nhất về ngữ nghĩa 20
2.1.1 Định nghĩa ontology 21
2.1.2 Tích hợp các ontology 24
2.1.3 Nguồn dữ liệu mở rộng với ontology 30
2.1.4 Các phép toán mở rộng ontology 32
2.2 Tích hợp thông tin thống kê dựa trên ontology 33

2.3 Hệ tích hợp thông tin thống kê trong môi trường phân tán 37
2.4 Kết luận 40
Chương 3 Phân lớp dữ liệu tập trung và phân tán 41

v
3.1 Một số giải thuật phân lớp dữ liệu tập trung 41
3.1.1 Phân lớp Naive Bayes 41
3.1.2 Tree Augmented Naive Bayes 44
3.2 Một số giải thuật phân lớp dữ liệu phân tán 48
3.2.1 Phân lớp Naive Bayes cho dữ liệu phân tán 48
3.2.2 Phân lớp Tree Augmented Naive Bayes cho dữ liệu phân tán 51
3.3 Kết luận 55
Chương 4 Cài đặt thử nghiệm 56
4.1 Mục đích cài đặt thử nghiệm 56
4.2 Nguồn dữ liệu 56
4.2.1 Chuyển đổi các nguồn dữ liệu 57
4.2.2 Biểu diễn nguồn dữ liệu 58
4.3 Phân lớp dữ liệu tập trung 62
4.3.1 Phân lớp tập trung 62
4.3.2 Phân lớp dựa trên Naive Bayes 63
4.3.3 Phân lớp dựa trên TANB 66
4.4 Phân lớp dữ liệu phân tán 71
4.4.1 Phân lớp phân tán 71
4.4.2 Phân lớp dựa trên Naive Bayes 76
4.4.3 Phân lớp dựa trên TANB 79
4.5 Đánh giá 80
4.6 Kết luận 83
Kết luận 84
Tài liệu tham khảo 86

vi
DANH SÁCH HÌNH VẼ

1.1 Sơ đồ hệ tích hợp dữ liệu 7
1.2 Ví dụ về kiến trúc cơ sở dữ liệu liên kết 9
1.3 Kiến trúc trung gian 10
1.4 Kiến trúc kho dữ liệu 12
1.5 Phân mảnh dữ liệu: phân mảnh ngang (trái) và phân mảnh dọc (phải) 13
1.6 Truy vấn dữ liệu và kết hợp kết quả trong phân lớp phân tán 18

2.1 Ví dụ về ontology cho phương tiện giao thông 22
2.2 Ontology liên quan đến bảng dữ liệu Claims 1 28
2.3 Ontology liên quan đến bảng dữ liệu Claims 2 28
2.4 Ontology tích hợp Claim1 và Claim2 29
2.5 Ontology biểu diễn lượng mưa 31
2.6 Ontology biểu diễn nguồn dữ liệu D
1
của tổ chức T
1
34
2.7 Ontology biểu diễn nguồn dữ liệu D
2

của tổ chức T
2
34
2.8 Ontology người dùng O
U
(tích hợp của các ontology O
1
và O
2
) 35
2.9 Sơ đồ hệ thống tích hợp thông tin thống kê 39

3.1 Phân loại Naive Bayes cho dữ liệu tập trung 42
3.2 Ví dụ về mạng Naive Bayes 45
3.3 Ví dụ về mạng Augmented Bayes 45
3.4 Giải thuật TANB cho dữ liệu tập trung 47
3.5 Ví dụ PlaySport đối với giải thuật Naive Bayes cho dữ liệu phân tán phân mảnh
ngang 49
3.6 Giải thuật phân lớp Naive Bayes cho dữ liệu phân tán phân mảnh ngang 49
3.7 Giải thuật phân lớp Naive Bayes cho dữ liệu phân tán phân mảnh dọc 50
3.8 Phân lớp TANB cho dữ liệu phân tán phân mảnh ngang 52
3.9 Phân lớp TANB cho dữ liệu phân tán phân mảnh dọc 54

vii
4.1 Sơ đồ phân lớp Naïve Bayes cho dữ liệu tập trung 62
4.2 Cây bao trùm cực đại được xây dựng trên nguồn dữ liệu ADULT 67
4.3 Mô hình TANB cho nguồn dữ liệu ADULT 67
4.4 Cây trùm cực đại được xây dựng dựa trên nguồn dữ liệu CARS 68

4.5 Mô hình TANB cho nguồn dữ liệu CARS 68
4.6 Cây bao trùm cực đại của nguồn dữ liệu NURSERY 69
4.7 Mô hình TANB cho nguồn dữ liệu NURSERY 69
4.8 Mô hình gọi các đối tượng từ xa (RMI) 72
4.9 Sử dụng RMI registry nhận tham chiếu của một đối tượng từ xa 73
4.10 Sơ đồ phân lớp Naïve Bayes cho dữ liệu phân tán 75

viii
DANH SÁCH CÁC BẢNG

2.1 Nguồn dữ liệu Claims 1 26
2.2 Nguồn dữ liệu Claims 2 26

2.3 Các ánh xạ hỗ trợ tích hợp các ontology 29

3.1 Nguồn dữ liệu PlaySport cho phân lớp Naive Bayes 43

4.1 Thuộc tính và các giá trị thuộc tính có thể có (ADULT) 59
4.2 Thuộc tính và các giá trị của thuộc tính sau khi đã rời rạc hóa (ADULT) 60
4.3 Thuộc tính và các giá trị thuộc tính có thể có (CARS) 61
4.4 Thuộc tính và các giá trị có thể có của thuộc tính (NURSERY) 61
4.5 Kết quả phân lớp tập trung theo phương pháp Naïve Bayes 65
4.6 Kết quả phân lớp TANB cho các nguồn dữ liệu 71
4.7 Bảng dữ liệu ánh xạ dùng cho thuần nhất thuộc tính 75
4.8 Kết quả phân lớp theo phương pháp Naive Bayes 79
4.9 Kết quả phân lớp phân tán theo phương pháp TANB 79
4.10 Kết quả phân lớp dữ liệu sử dụng thuật toán Naive Bayes cho môi trường tập
trung và phân tán 80
4.11 Kết quả phân lớp dữ liệu sử dụng thuật toán Augmented Naive Bayes cho
môi trường tập trung và phân tán 80

ix
KÝ HIỆU VIẾT TẮT

NB Naïve Bayes
TANB Tree Augmented Naïve Bayes
EOC Equational Ontological Conflicts
INDUS Intelligent Data Understanding System
CAD Computer-Aided Design
DXF Drawing Exchange Format
FDBS Federated Databases System
SVM Support vector machines
GO Gene Ontology
ETAN Extended Tree Augmented Naïve Bayes
SAN Selective Augmented Bayesian
AODE Averaged One-Dependence Estimator
UCI University California Irvine
XML Extensible Markup Language
RMI Remote Method Invoke

1
MỞ ĐẦU
Đặt vấn đề
Những phát triển trong công nghệ truyền thông và trong công nghệ lưu trữ
dữ liệu dưới dạng số cùng với sự phát triển về khả năng thu nhận và lưu trữ dữ liệu
tạo nên sự phong phú và đa dạng về các dạng và các nguồn dữ liệu. Hiện nay,
chúng ta đã có khả năng thu thập các nguồn dữ liệu lớn thuộc nhiều lĩnh vực khác
nhau, như trong y học (dữ liệu về ADN, dữ liệu về các chuỗi protein, dữ liệu về các

chuỗi gen), trong thương mại (dữ liệu về hàng hoá, dữ liệu khách hàng, dữ liệu về
các giao dịch), trong địa lý (dữ liệu về thông tin bề mặt trái đất).
Sự đa dạng về nguồn thông tin trong cùng một lĩnh vực đặt ra khó khăn cho
nhu cầu kết hợp các nguồn dữ liệu để cung cấp những thông tin cần thiết cho người
sử dụng. Xét ví dụ về một người dùng muốn tìm mua một máy tính xách tay trên
mạng. Để có thể đưa ra được quyết định cuối cùng, người dùng sẽ truy cập đến
nhiều trang web khác nhau. Tại mỗi trang web, người dùng có thông tin về giá
thành, chế độ bảo hành, thời gian bảo hành. Sau khi so sánh các thông số trên,
người dùng sẽ đưa ra được loại máy tính mà mình cần mua.
Trong tự động hóa quá trình tìm kiếm thông tin, các hệ thống trợ giúp người
dùng sẽ lấy thông tin từ các nguồn dữ liệu tại các trang web khác nhau, thực hiện
việc so sánh và đưa ra gợi ý cho người dùng. Thông thường dữ liệu từ các nguồn
này có các đặc trưng phân tán, tự trị và không thuần nhất.
 Tính phân tán: Các nguồn dữ liệu thường được lưu trữ phân tán tại các
vị trí khác nhau và hoàn toàn độc lập với nhau. Do vậy, khi cần lấy thông
tin, hệ thống phải xác định được vị trí lưu trữ của các nguồn dữ liệu.
 Tính không thuần nhất: Thể hiện dưới nhiều dạng: không thuần nhất về
cấu trúc, không thuần nhất về khuôn dạng dữ liệu và không thuần nhất về
ngữ nghĩa. Không thuần nhất về cấu trúc có nghĩa là mỗi nguồn dữ liệu
khác nhau sử dụng một cấu trúc khác nhau để lưu trữ dữ liệu. Không

2
thuần nhất về khuôn dạng dữ liệu là các nguồn dữ liệu không sử dụng
cùng một khuôn dạng trong quá trình lưu trữ dữ liệu. Đặc biệt là không
thuần nhất về ngữ nghĩa, đó là việc sử dụng những biểu diễn khác nhau
cho một đối tượng. Dạng đơn giản của không thuần nhất ngữ nghĩa là sử
dụng các tên gọi khác nhau cho một đối tượng xác định. Xét ví dụ về hai
bảng dữ liệu của công ty kinh doanh thiết bị xe máy Honda.

Khi muốn so sánh giá của các thiết bị thuộc hai nguồn dữ liệu D1 và D2,
hệ thống cần hiểu rằng “Lốp sau” ở nguồn D1 và “Lốp 2.75” ở
nguồn D2 là cùng chỉ đến một đối tượng. Trong quá trình lưu trữ,
“Thiết bị” ở nguồn D1 và “Mặt hàng” ở nguồn D2 đều là tên trường
dữ liệu lưu trữ tên của các đối tượng.
 Tính tự trị: Các nguồn dữ liệu xác định cấu trúc và định dạng lưu trữ khi
xây dựng. Các hệ thống khác khi muốn sử dụng thông tin của các nguồn
chỉ có thể lấy thông tin mà không thể thay đổi về cấu trúc cũng như định
dạng. Hoạt động của các nguồn dữ liệu là hoàn toàn độc lập với các đối
tượng khác.
Để có thể tích hợp thông tin trong môi trường phân tán và không thuần nhất,
cần phải đưa ra các giải pháp cho vấn đề phân tán và không thuần nhất về ngữ
nghĩa. Trong phần tiếp theo, luận văn tập trung trình bày các nghiên cứu về tích hợp
thông tin và giải pháp thuần nhất ngữ nghĩa cho các nguồn dữ liệu.

Thiết bị
Giá bán
VAT
Lốp trước
137.060
13.706
Lốp sau
155.100
15.510
Đĩa phanh
750.000

75.000
Dây phanh
28.500
2.850
Hộp dầu
160.000
16.000
…
…
…

Bảng 1: Nguồn dữ liệu D1

Mặt hàng
Giá
Thuế
Lốp 2.75
155.100
15.500
Vành đúc
1.150.000
115.000
Phanh đĩa
1.000.000
100.000
Má phanh
61.000
6.100
Vành nan
169.000

16.900
…
…
…

Bảng 2: Nguồn dữ liệu D2

3
Những nghiên cứu về tích hợp và phân lớp dữ liệu phân tán
Tích hợp thông tin là cách tiếp cận thông tin bằng cách kết hợp các thành
phần dữ liệu từ các hệ thống quản lý dữ liệu, các hệ thống quản lí nội dung, các kho
dữ liệu và các ứng dụng thương mại khác vào một miền chung. Tích hợp thông tin
được nghiên cứu và sử dụng rộng rãi trong lĩnh vực tài chính [21] với giải pháp
quản lí các biểu diễn ngữ nghĩa dựa trên EOC (Equational Ontological Conflicts),
nhằm tạo ra sự thuần nhất trong việc biểu diễn và tính toán dữ liệu tại các nguồn dữ
liệu khác nhau.
Trong sinh học [8], Caragea (2005) cùng các cộng sự xây dựng INDUS
(Intelligent Data Understanding System) như một hệ thống trả lời các truy vấn
người dùng từ các nguồn dữ liệu phân tán và không thuần nhất về ngữ nghĩa.
INDUS xây dựng một hệ thống các ontology cho quá trình thuần nhất ngữ nghĩa các
nguồn dữ liệu. Để giải quyết vấn đề mất thông tin trong việc sử dụng định dạng dựa
trên CAD như DXF để biểu diễn dữ liệu cho bài toán tích hợp thông tin địa lý, F.
Fonseca đưa ra một hướng tiếp cận dựa trên role [22]. Ở đây, role thực hiện vai trò
cầu nối giữa các cấp độ chi tiết khác nhau trong một cấu trúc ontology.
Một trong lớp những giải thuật học máy, phân lớp dữ liệu nhận được sự
quan tâm của nhiều nhà nghiên cứu. Caragea [10] trình bày các giải thuật học từ dữ
liệu thông qua việc cải tiến các giải thuật phân lớp tập trung thành các giải thuật
phân lớp phân tán trong môi trường không thuần nhất về ngữ nghĩa. Ferrari [20] khi

nghiên cứu về gien liên quan đến công việc quản gia đã sử dụng phân lớp Naïve
Bayes để phân lớp dữ liệu. Phân lớp được sử dụng trong việc phân loại các văn bản
trong các công việc văn phòng ([36],[43]) và phân loại thư điện tử [54]. Trong lĩnh
vực tài chính, việc nhận dạng giả mạo cũng cần đến các giải thuật phân lớp dữ liệu
([13],[47]). ([1],[27]) đã xây dựng hệ thống phân lớp dữ liệu về bệnh nhân nhằm
xác định các trường hợp có khả năng mắc bệnh ung thư cho các nghiên cứu về y
học.

4
Mục tiêu của luận văn
Với nguồn dữ liệu huấn luyện sử dụng trong giai đoạn xây dựng mô hình và
nguồn dữ liệu kiểm thử sử dụng trong giai đoạn phân lớp, bài toán phân lớp dữ liệu
trong môi trường phân tán được chia thành các lớp bài toán sau:
 Bài toán 1: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng phân
tán và nguồn dữ liệu kiểm thử ở dạng tập trung.
 Bài toán 2: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng tập
trung và nguồn dữ liệu kiểm thử ở dạng phân tán.
 Bài toán 3: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng phân
tán và nguồn dữ liệu kiểm thử ở dạng phân tán.
Luận văn tập trung giải quyết bài toán 1 với nguồn dữ liệu huấn luyện ở dạng
phân tán và nguồn dữ liệu kiểm thử ở dạng tập trung. Sau khi giải quyết xong bài
toán 1, bằng cách xây dựng nguồn dữ liệu tập trung dựa trên những dữ liệu huấn
luyện phân tán và phân tán nguồn dữ liệu kiểm thử ta có được hướng giải quyết cho
bài toán 2. Giải pháp cho bài toán 3 dựa vào giải pháp cho vấn đề phân tán của
nguồn dữ liệu huấn luyện (bài toán 1) và giải pháp cho vấn đề phân tán của nguồn
dữ liệu kiểm thử (bài toán 2).
Mục tiêu nghiên cứu cụ thể của luận văn:
 Tìm hiểu sự không thuần nhất về ngữ nghĩa tồn tại giữa những nguồn dữ

liệu tự trị, phân tán cho việc tích hợp dữ liệu. Dựa trên cách tiếp cận
ontology, luận văn tích hợp các nguồn dữ liệu phân tán và không thuần
nhất về ngữ nghĩa thông qua việc tích hợp các ontology.
 Tìm hiểu về phân lớp, các phương pháp phân lớp dữ liệu. Nghiên cứu các
phương pháp dựa trên xác suất là Naïve Bayes (NB) và Tree Augmented
Naïve Bayes (TANB). Trình bày việc áp dụng phân lớp NB, TANB cho
các nguồn dữ liệu tập trung và phân tán.

5
Tóm tắt nội dung luận văn
Phần còn lại của luận văn được tổ chức như sau:
Chương 1: Tổng quan về tích hợp thông tin và phân lớp dữ liệu phân tán.
Trong chương này, luận văn sẽ trình bày về nhu cầu tích hợp thông tin cũng như
những vấn đề cần quan tâm và phương pháp tích hợp thông tin từ các nguồn dữ liệu
phân tán. Đồng thời, giới thiệu về phân lớp dữ liệu phân tán và các phương pháp
được sử dụng trong phân lớp dữ liệu.
Chương 2: Ontology trong tích hợp thông tin phân tán và không thuần
nhất. Trình bày phương pháp tích hợp thông tin dựa trên tích hợp các ontology của
các nguồn dữ liệu mở rộng với ontology. Trong đó, luận văn cũng đưa ra được vai
trò biểu diễn ngữ nghĩa dữ liệu của ontology trong việc tích hợp thông tin phân tán
và không thuần nhất.
Chương 3: Phân lớp dữ liệu tập trung và phân tán. Nội dung chương này
nhằm trình bày một số giải thuật thường được sử dụng trong phân lớp dữ liệu. Luận
văn tập trung trình bày về phân lớp NB, phân lớp TANB trong môi trường tập trung
và phân tán do sự đơn giản trong cài đặt và độ chính xác chấp nhận được của các
phân lớp này đối với những nguồn dữ liệu cần phân lớp.
Chương 4: Cài đặt thử nghiệm. Phần này trình bày kết quả thực nghiệm cho
phân lớp NB và TANB. Sau đó, luận văn đưa ra kết luận, đánh giá về phân lớp NB,
TANB và hiệu quả của các phân lớp này đối với dữ liệu phân tán.

Kết luận trình bày những nghiên cứu về tích hợp thông tin không thuần nhất
về ngữ nghĩa, những đóng góp của luận văn và những định hướng nghiên cứu sắp
tới.

6
Chương 1
TỔNG QUAN VỀ TÍCH HỢP THÔNG TIN
VÀ PHÂN LỚP DỮ LIỆU PHÂN TÁN

Trong chương này, chúng ta sẽ tìm hiểu nhu cầu và những vấn đề cần quan
tâm trong tích hợp thông tin. Ngoài ra, chúng ta cũng định nghĩa phân lớp dữ liệu
phân tán và giới thiệu các kĩ thuật thường được dùng trong phân lớp dữ liệu phân
tán.
1.1 Tổng quan về tích hợp thông tin phân tán
1.1.1 Nhu cầu tích hợp thông tin
Công nghệ thông tin được áp dụng trong rất nhiều lĩnh vực của cuộc sống
như tài chính [21], địa lý [22] hay sinh học [8] tạo ra các thách thức cho các nhà
khoa học trong việc nghiên cứu và phát triển các kĩ thuật tích hợp thông tin. Sự phát
triển về số lượng nguồn dữ liệu cùng với yêu cầu cung cấp thông tin chính xác cho
người dùng đặt ra nhu cầu phát triển các hệ thống tích hợp thông tin đa nguồn. Tùy
theo từng lĩnh vực, các kĩ thuật phù hợp sẽ được áp dụng nhằm mang lại hiệu quả
tối ưu. Bài toán tích hợp thông tin trong môi trường phân tán có thể được tóm tắt
như sau:

Cho
12
, , ,
K
D D D
là các mảnh của dữ liệu D được lưu trữ phân tán tại các trạm
1,2, ,K
tương ứng. Với các ràng buộc Z, lớp các giả thiết H và các tiêu chuẩn về
hiệu năng P, nhiệm vụ của bộ phận tích hợp dữ liệu T
D
là sử dụng lớp các giả thiết
H để đưa ra kết quả với những phép toán được cho phép bởi Z.
Trong đó: Z: là tập các ràng buộc trong môi trường phân tán.
H: là tập các giả thiết được sinh ra.
P: là các tiêu chuẩn về hiệu năng mà hệ thống cần đạt được.

7
Để giải quyết bài toán tích hợp thông tin, cần xây dựng được một hệ tích hợp
có thể cung cấp các truy cập trong suốt đến các nguồn dữ liệu (Hình 1.1). Hệ tích
hợp cung cấp khả năng thu thập dữ liệu được truy vấn từ các nguồn dữ liệu phân
tán, sau đó kết hợp các dữ liệu để cho ra kết quả cuối cùng. Hệ tích hợp dữ liệu cho
phép người dùng thu thập các thông tin cần thiết mà không cần quan tâm đến cách
thu thập như thế nào. Để có được điều này, hệ thống cần cung cấp một khung nhìn
tích hợp cho tất cả các nguồn dữ liệu [24]. Khi đó, người dùng có thể truy cập đến
tất cả các nguồn dữ liệu cần thiết cũng thuận tiện như truy cập đến một nguồn dữ
liệu.

1.1.2 Những vấn đề cần quan tâm khi xây dựng hệ tích hợp
dữ liệu
Các ràng buộc trong môi trường phân tán
Do phân tán về mặt vật lý và chịu sự tác động của yếu tố truyền thông, các
hệ thống tích hợp khi xây dựng phải chịu những ràng buộc sau ([10]):
 Không truyền dữ liệu thô từ các trạm phân tán về trạm trung tâm, dữ liệu
được truyền là các thông tin thống kê của các nguồn dữ liệu phân tán.
Ngăn chặn việc thực thi chương trình từ xa của một số nguồn dữ liệu.
 Chỉ cho phép truyền dữ liệu thô trong trường hợp các nguồn dữ liệu
không hỗ trợ các phép toán thống kê.
Hệ tích hợp dữ liệu
Nguồn dữ liệu
Nguồn dữ liệu
Nguồn dữ liệu
…….

Truy vấn
Truy vấn
Hình 1.1: Sơ đồ hệ tích hợp dữ liệu

8
 Có thể cho phép việc truyền mã nguồn trong trường hợp các nguồn dữ
liệu không cung cấp được các thông tin thống kê.
 Một số ứng dụng còn hạn chế lượng dữ liệu có thể được truyền đi giữa
các trạm (điều này nhằm hạn chế việc nghẽn mạng).
Những vấn đề chung

Trong việc xây dựng và sử dụng các hệ thống tích hợp dữ liệu, cần quan tâm
đến những vấn đề về thiết kế, về mô hình hóa và về thực thi hệ thống.
 Về thiết kế: Một hệ thống tích hợp dữ liệu về cơ bản cũng là một hệ thống
thông tin. Bởi vậy, kiến trúc của hệ thống tích hợp cũng phải được thiết
kế sao cho các nguồn dữ liệu cần được tích hợp là các thành phần chính
của hệ thống, có vai trò cung cấp thông tin cho toàn bộ hệ thống.
 Về mô hình hóa: Giống như tất cả các hệ thống thông tin khác, trong một
miền ứng dụng nào đó, một hệ thống tích hợp phải được mô hình hóa.
 Về thực thi: Sau khi được thiết kế và mô hình hóa, các hệ thống tích hợp
cũng cần phải có chức năng truy vấn. Chức năng truy vấn là cầu nối quan
trọng giữa nhu cầu người dùng với khả năng đáp ứng của hệ thống. Khả
năng trả lời truy vấn của hệ thống phụ thuộc vào các khả năng trả lời truy
vấn của các nguồn dữ liệu.
1.1.3 Những phương pháp tích hợp thông tin
Có hai phương pháp thường được sử dụng là phương pháp ảo và phương
pháp kho dữ liệu. Mỗi phương pháp đều có cách tổ chức các nguồn dữ liệu trong hệ
thống tính hợp. Có ba cách tổ chức các nguồn dữ liệu là: (i) kiến trúc cơ sở dữ liệu
liên kết (federated databases), (ii) kiến trúc trung gian (mediation), (iii) kiến trúc
kho dữ liệu (data warehousing). Việc phân loại các kiến trúc trên dựa trên tiêu chí
về việc truy vấn cơ sở dữ liệu tại các nguồn dữ liệu là trước hay sau khi các truy vấn
của người dùng được gửi đến.

9
1.1.3.1 Phương pháp ảo
Trong phương pháp này, dữ liệu sẽ được truy cập mỗi khi người dùng gửi
một truy vấn tới hệ tích hợp dữ liệu. Phương pháp sử dụng kiến trúc cơ sở dữ liệu
liên kết và kiến trúc trung gian cho việc tích hợp thông tin.
Kiến trúc cơ sở dữ liệu liên kết.
Một hệ thống cơ sở dữ liệu liên kết (FDBS) bao gồm những thành phần bán

tự trị (semi-autonomous) tham gia vào một nhóm để có thể chia sẻ dữ liệu với
những thành phần khác. Các thành phần chỉ là bán tự trị bởi ngoài việc chúng có thể
độc lập hoạt động, mỗi thành phần có thể bị thay đổi bởi một giao diện dùng để giao
tiếp với tất cả các thành phần khác và với toàn nhóm.

Theo Heimbigner và McLeod [30], để có thể vừa duy trì được tính tự trị và
vừa chia sẻ được các thông tin, các thành phần của FDBS cần phải có những tiện
ích để giao tiếp với nhau theo 3 cách sau:
 Trao đổi dữ liệu: Các thành phần cần có khả năng truy cập đến các dữ
liệu có thể chia sẻ của các thành phần khác trong FDBS. Đây là mục đích
quan trọng của việc liên kết và một chiến lược tốt trong việc trao đổi dữ
liệu.
DB3
DB2
DB4
DB1
Hình 1.2. Ví dụ về kiến trúc FDBS được xây dựng bởi 4 nguồn dữ liệu.

10
 Chia sẻ tương tác: Trong nhiều trường hợp, một thành phần nào đó
không muốn cung cấp các truy cập trực tiếp đến nguồn dữ liệu của chúng,
nhưng có thể chia sẻ các thao tác trên nguồn dữ liệu đó. Các thành phần
cũng cần có khả năng xác định những tương tác nào chúng cần thực hiện,
và những tương tác cần được thực hiện bởi thành phần khác.
 Cộng tác: Vì không có sự điều khiển tập trung nên cộng tác là vấn đề
được đặt lên hàng đầu. Mỗi nguồn dữ liệu cần có khả năng để có thể thực
thi một truy vấn phức tạp liên quan đến việc truy cập dữ liệu từ các thành
phần khác.
Kiến trúc trung gian

Hệ thống trung gian (Hình 1.3) tích hợp các nguồn dữ liệu không thuần nhất
bằng việc cung cấp một khung nhìn ảo cho các nguồn dữ liệu. Người dùng truy vấn
đến hệ thống thông qua giao diện chung mà không cần quan tâm đến vị trí, lược đồ
hay phương thức truy cập đến các nguồn dữ liệu. Thành phần chịu trách nhiệm cung
cấp giao diện chung được gọi là mediator (hay còn gọi là integrator), thực hiện
những hoạt động sau:
Truy vấn
Truy vấn
Truy vấn
Truy vấn

Mediator
Metadata
Wrapper
Wrapper
Nguồn 1
Nguồn n
…
Truy vấn
Hình 1.3. Kiến trúc trung gian

11
 Nhận một truy vấn từ người dùng.
 Chia truy vấn này thành các truy vấn con tới các nguồn dữ liệu thành
phần dựa vào các mô tả nguồn (source descriptions).
 Tối ưu hóa việc thực thi các truy vấn.
 Gửi các truy vấn con đến các wrapper của các nguồn dữ liệu thành phần.
Nhận các câu trả lời cho các truy vấn con, kết hợp các câu trả lời con và

gửi nó đến người dùng.
1.1.3.2 Phương pháp kho dữ liệu
Trong phương pháp kho dữ liệu, việc tích hợp dữ liệu của các nguồn được
thực hiện bằng việc cung cấp một khung nhìn thống nhất cho tất cả các nguồn dữ
liệu (giống như trong phương pháp ảo). Tuy nhiên, những dữ liệu tại các nguồn dữ
liệu được truy vấn trước và được lưu trữ tại một kho riêng biệt (được gọi là kho dữ
liệu: data warehousing) [55]. Việc xây dựng và bảo trì kho dữ liệu bao gồm 3 bước
quan trọng sau:
 Mô hình hóa và thiết kế: Trong khi thiết kế một kho dữ liệu, người phát
triển cần phải quyết định thông tin nào sẽ được sử dụng trong kho dữ
liệu, những truy vấn nào đối với các nguồn dữ liệu cần được cụ thể hóa,
lược đồ nào là lược đồ chung cho kho dữ liệu.
 Bảo trì: Việc bảo trì kho dữ liệu liên quan đến việc xác định cách thức
xây dựng kho dữ liệu từ các nguồn dữ liệu, và cách thức cập nhập thông
tin tại kho dữ liệu mỗi khi dữ liệu tại các nguồn dữ liệu được cập nhập.
 Thực thi: Việc thực thi tại kho dữ liệu liên quan đến việc xử lí các truy
vấn, lưu trữ thông tin và các vấn đề về chỉ mục

12

1.1.3.3 So sánh hai phương pháp
Trong hai phương pháp ảo và phương pháp kho dữ liệu, phương pháp ảo
được ưa thích hơn trong những trường hợp sau:
 Số lượng các nguồn dữ liệu trong hệ thống tích hợp lớn, các nguồn dữ
liệu thường xuyên được cập nhập. Điều này không thích hợp cho phương
pháp kho dữ liệu vì phải truy vấn nhiều nguồn dữ liệu mỗi khi các nguồn
dữ liệu cập nhập thông tin.
 Không thể dự báo trước được dạng truy vấn mà người dùng sẽ sử dụng.
Bởi vì kho dữ liệu được xây dựng trên nguyên tắc các nguồn dữ liệu được
truy vấn trước và kết quả được lưu trữ tại kho dữ liệu. Nếu không thể dự
báo trước được các kiểu truy vấn của người dùng thì không thể truy vấn
các nguồn dữ liệu trước được.
Tuy nhiên, nếu các nguồn dữ liệu là cố định và không cần cập nhật thường
xuyên thì phương pháp kho dữ liệu mang lại hiệu năng cao hơn bởi giảm được thời
Truy vấn
…
Kho dữ liệu
Metadata
Integrator
Wrapper
Wrapper
Nguồn 1
Nguồn n
Hình 1.4. Kiến trúc kho dữ liệu

13
gian phản hồi cho các truy vấn, điều này có được là vì bộ tích hợp không cần thời

gian để truy cập đến các nguồn dữ liệu phân tán.
1.2 Phân lớp dữ liệu phân tán
1.2.1 Dữ liệu phân tán
Trong môi trường phân tán, dữ liệu có thể được lưu trữ tại các trạm khác
nhau, mỗi trạm chỉ chứa một phần của nguồn dữ liệu. Hiện tượng này được gọi là
phân mảnh dữ liệu. Trong trường hợp phân tán, nguồn dữ liệu
D
được chia thành
các mảnh
12
, , ,
K
D D D
và được lưu trữ tại các trạm
1,2, ,K
tương ứng. Khi đó,
các nguồn dữ liệu
12
, , ,
K
D D D
chứa thông tin đầy đủ về các bản ghi để có thể cấu
trúc lại được nguồn dữ liệu
D
khi cần thiết. Có hai dạng phân mảnh chính của
nguồn dữ liệu là phân mảnh ngang và phân mảnh dọc (Hình 1.5).
Phân mảnh ngang
Phân mảnh ngang là hiện tượng các tập con của các mẫu dữ liệu được lưu trữ
tại các trạm khác nhau, mỗi trạm chứa đầy đủ tập thuộc tính của nguồn dữ liệu.
Những tập con bản ghi của các nguồn dữ liệu có thể chồng nhau. Tuy nhiên, đối với

trường hợp dữ liệu chồng nhau, sẽ cần phải có những thao tác tiền xử lí trước khi

D
1
D
2
…

D
K
Thuộc tính

Bản ghi

Thuộc tính

D
1
D
2
…

D

K
Hình 1.5. Phân mảnh dữ liệu: phân mảnh ngang (trái) và phân mảnh dọc (phải)

14
thực hiện các phép toán. Việc tổ chức lại nguồn dữ liệu
D
được thực hiện bằng
phép toán kết hợp đa nguồn dữ liệu
12

K
D D D D   
.
Phân mảnh dọc
Phân mảnh dọc là hiện tượng mỗi trạm chứa một tập các thuộc tính của
nguồn dữ liệu. Toàn bộ dữ liệu tương ứng với các thuộc tính đều được lưu trữ đầy
đủ tại các trạm khác nhau. Trong trường hợp dữ liệu phân mảnh dọc, tại mỗi nguồn
dữ liệu, các bản ghi cần có chỉ mục duy nhất kèm theo. Điều này hỗ trợ việc tổ chức
lại nguồn dữ liệu
D
khi cần.
Cho
12
, , ,
K
A A A
là các tập thuộc tính mà giá trị của chúng được lưu trữ tại
các trạm
1,2, K

tương ứng và
A
là tập các thuộc tính của nguồn dữ liệu
D
. Khi
đó,
12

K
A A A A  
. Bản ghi thứ
i
trong mảnh dữ liệu
j
D
được kí kiệu là
j
i
D
t
.
Ta kí hiệu
.
j
i
D
t index
là chỉ mục duy nhất liên quan đến bản ghi thứ
i
và


biểu diễn
phép toán kết nối. Khi đó, để tổ chức lại nguồn dữ liệu
D
ban đầu, ta thực hiện
phép toán kết nối:
12

K
D D D D   
với
, , . .
jk
ii
j k D D
D D t index t index
. Như
vậy, chỉ mục của các bản ghi trong môi trường phân tán dọc được sử dụng như một
phương tiện để kết hợp các nguồn dữ liệu phân tán thành một nguồn dữ liệu chung
nhất khi cần. Ngoài ra, chúng còn được sử dụng để xác định mối quan hệ của các
bản ghi trong từng nguồn dữ liệu phân tán riêng biệt.
1.2.2 Phân lớp dữ liệu
Khai phá dữ liệu [ là quá trình
khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong các nguồn
dữ liệu đã có. Theo [50] các công cụ khai phá dữ liệu bao gồm các mô hình dựa trên
các thông tin thống kê, các giải thuật và các phương pháp học máy (các giải thuật
hỗ trợ việc tự động cải tiến hiệu năng như mạng nơron, cây quyết định). Các công
cụ khai phá dữ liệu dự báo về các hành vi và các xu hướng trong tương lai dựa việc

15
phân tích các nguồn dữ liệu. Phân lớp dữ liệu là một những lớp giải thuật học dựa
trên dữ liệu được sử dụng rộng rãi trong cuộc sống.
Những giải thuật phân lớp được quan tâm nhiều nhất là giải thuật SVM
([27],[32]), giải thuật dựa trên mô hình thống kê Bayes ([8],[19],[20],[23],[33]), giải
thuật cây quyết định ([3],[5],[47]), mạng nơ ron ([10]), K lân cận gần nhất ([5]).
Trong những giải thuật này, lớp giải thuật dựa trên mô hình thống kê Bayes (với NB
và NB tăng cường) được sử dụng rộng rãi bởi sự đơn giản trong cài đặt và độ chính
xác cao.
1.2.2.1 Phân lớp dữ liệu tập trung
Phân lớp dữ liệu tập trung là quá trình xác định lớp cho các bản ghi dữ liệu
trong môi trường tập trung, các nguồn dữ liệu tham gia vào quá trình phân lớp được
lưu trữ tại cùng một vị trí. Phân lớp dữ liệu gồm 2 quá trình: quá trình xây dựng mô
hình từ dữ liệu huấn luyện và quá trình sử dụng mô hình để phân lớp dữ liệu mới.
 Xây dựng mô hình
 Mỗi bộ dữ liệu được xác định là thuộc một lớp nào đó
 Lớp của bộ dữ liệu được xác định là giá trị của thuộc tính lớp
 Các dữ liệu huấn luyện được sử dụng để xây dựng mô hình
 Mô hình có thể được biểu diễn bằng các luật phân lớp, cây quyết định
hoặc thống kê toán học.
 Sử dụng mô hình
 Phân lớp các dữ liệu mới
 Ước lượng độ chính xác của mô hình: lớp của dữ liệu kiểm thử được
so sánh với lớp được đưa ra bởi mô hình; độ chính xác là tỉ lệ phần
trăm của các bộ dữ liệu kiểm thử có lớp đưa ra bởi mô hình đúng với
lớp thực của dữ liệu.

16
Phân lớp dữ liệu dựa trên thông tin thống kê sử dụng thông tin thống kê đầy

đủ để xây dựng mô hình cho phân lớp. Thông tin thống kê đầy đủ được thu thập từ
các nguồn dữ liệu huấn luyện của phân lớp.
Theo Casella và Berger ([11]), một thống kê
()sD
được gọi là thống kê đầy
đủ cho một tham số

nếu
()sD
cung cấp tất cả các thông tin cần thiết cho việc
đánh giá tham số

từ dữ liệu D. Chúng ta có thể tổng quát khái niệm thống kê đầy
đủ cho một tham số

thành khái niệm thống kê đầy đủ
( , )
L
s D h
cho việc học một
giả thiết
h
bằng việc sử dụng giải thuật
L
cho
D
.
Để hiểu rõ hơn, chúng ta xét phân lớp dựa trên Naive Bayes cho việc xây
dựng mô hình phân lớp.

Phân lớp Naive Bayes
Giai đoạn học:
Với mỗi lớp c
j
và mỗi giá trị thuộc tính a
i
, tính xác suất
j
P(c )

và
ij
P(a |c )
dựa vào tần số của chúng trong dữ liệu huấn luyện.
Giai đoạn phân loại:
Với một trường hợp mới
1 2 n
x =< a ,a , ,a >
sẽ được phân loại như
sau:


j
n
NB j i j
i=1
C (x)= argmaxP(c ) P(a |c )
cC

Trong đó,

x
argmax f(x)
là giá trị của x sao cho f(x) lớn nhất.

Trong phân lớp Naive Bayes, mỗi một bản ghi dữ liệu
x
được mô tả bằng
một dãy các thuộc tính, nghĩa là
1 2 n
x =< a ,a , ,a >
. Nhãn lớp của một bản ghi
nào đó có thể là một giá trị trong tập hữu hạn
 
1 2 m
C = c ,c , ,c
. Chúng ta giả
định rằng các giá trị thuộc tính là không phụ thuộc vào giá trị các lớp. Một tập các
bản ghi đã được gán nhãn
 
1 1 2 2 t t
D = < x ,y >,< x ,y >, ,< x ,y >
được coi là dữ
liệu huấn luyện cho giải thuật.

17
Trong suốt quá trình huấn luyện, một giả thiết h được biểu diễn như một tập
các xác suất
j
P(c )

và
ij
P(a |c )
được thu thập từ dữ liệu huấn luyện. Trong giai
đoạn đánh giá, phân lớp được yêu cầu để tiên đoán lớp cho một bản ghi mới. Tập
các xác suất
j
P(c )
và
ij
P(a |c )
có thể được tính toán dựa vào
i D j
t =count(c )
và
ij D i j
t =count(a |c )
(trong đó count(x)là số bản ghi có chứa giá trị x). Bởi vậy,
các giá trị tần suất biểu diễn các thống kê đầy đủ cho việc xây dựng các giả thiết
trong giai đoạn xây dựng mô hình của phân loại Naive Bayes và có thể được tính
mỗi lần duyệt qua dữ liệu.
Tóm lại, trong các giải thuật phân lớp, thông tin thống kê được tính toán
trong quá trình xây dựng mô hình, sinh ra các giả thiết [9]. Ví dụ như trong các giải
thuật NB, giải thuật NB tăng cường, các thông tin thống kê được biểu diễn như sau:
 Giải thuật NB: tần số của các bản ghi thỏa mãn những tiêu chuẩn nào đó
(ví dụ, giá trị thuộc tính lớn hơn một hằng số nào đó) biểu diễn thông tin
thống kê đầy đủ.
 Giải thuật NB tăng cường: sử dụng thông tin thống kê đầy đủ để xây
dựng mô hình TANB.
1.2.2.2 Phân lớp dữ liệu phân tán

Phân lớp dữ liệu phân tán là việc các nguồn dữ liệu tham gia vào quá trình
phân lớp được lưu trữ phân tán về mặt vật lý. Giả sử nguồn dữ liệu D được lưu trữ
phân tán dưới các mảnh
1 2 K
D ,D , ,D
và được lưu trữ tại các trạm
1,2, K
tương
ứng. Để thực hiện phân lớp, hệ thống cần thu thập các thông tin thống kê từ các
nguồn dữ liệu
1 2 K
D ,D , ,D
nhằm xây dựng mô hình phân lớp.
Trong giai đoạn xây dựng mô hình, mỗi truy vấn q được chia thành các truy
vấn con
1 2 K
q ,q , ,q
mà có thể được trả lời độc lập bởi các nguồn dữ liệu tương
ứng. Sau đó, một thủ tục kết hợp các câu trả lời của các truy vấn con thành kết quả
cho truy vấn q nhằm cung cấp thông tin cho mô hình (Hình 1.6).

TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về