Nghiên cứu khai phá luật kết hợp trong cơ sở dữ liệu địa lý

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.61 MB, 86 trang )

i

MỤC LỤC
TRANG
Trang phụ bìa
Lời cảm ơn.....................................................................................................................i
Lời cam đoan................................................................................................................ii
Mục lục........................................................................................................................iii
Danh mục các ký hiệu, các chữ viết tắt......................................................................iv
Danh mục các bảng.....................................................................................................vi
Danh mục các hình (hình vẽ, ảnh chụp, đồ thị...)......................................................vii

ii

iii

MỞ ĐẦU

1. Đặt vấn đề
Những tiến bộ trong các công nghệ CSDL và các kỹ thuật thu thập dữ liệu
như đọc mã số mã vạch, viễn thám, ghi nhận thông tin từ các vệ tinh,… đã thu gom
được một lượng lớn dữ liệu trong các CSDL khổng lồ. Việc dữ liệu tăng lên một
cách dữ dội đòi hỏi phải được khai phá để trích chọn ra các tri thức hữa ích phục vụ

cho công tác chuyên môn. Chính điều này đã dẫn đến sự ra đời của một lĩnh vực
mới đầy hứa hẹn gọi là khai phá dữ liệu hay khai phá tri thức trong các CSDL. Khai
phá tri thức trong các CSDL có thể được định nghĩa là khai phá tri thức đáng quan
tâm, tiềm ẩn và chưa biết trước trong các CSDL lớn [21]. Khai phá dữ liệu là sự kết
hợp của một số lĩnh vực bao gồm học máy, các hệ thống CSDL, thể hiện dữ liệu,
thống kê và lý thuyết thông tin.
Đã có nhiều nghiên cứu về khai phá dữ liệu trong các CSDL quan hệ và giao
dịch, nhưng đối với các CSDL không gian vấn đề khai phá dữ liệu vẫn còn là những
thách thức cần được giải quyết.
Dữ liệu không gian là dữ liệu liên quan đến các đối tượng trong không gian.
Một CSDL không gian lưu trữ các đối tượng không gian bao gồm các kiểu dữ liệu
không gian và các quan hệ không gian giữa các đối tượng. Dữ liệu không gian
mang thông tin hình học và khoảng cách thường được tổ chức theo các cấu trúc chỉ
mục không gian và truy cập bằng các phương pháp truy cập không gian. Chính các
đặc trưng khác biệt này của các CSDL không gian đã đặt ra nhiều trở ngại nhưng
cũng mang đến nhiều cơ hội cho khai phá tri thức từ CSDL không gian. Khai phá
dữ liệu không gian hay khai phá tri thức trong CSDL không gian là trích trọn ra các
tri thức tiềm ẩn, các quan hệ không gian hay các mẫu chưa rõ lưu trữ trong các
CSDL không gian [21].

iv

Các nghiên cứu trước đây về học máy, các hệ thống CSDL và thống kê đã
đặt nền móng cho nghiên cứu khai phá tri thức trong các CSDL. Và những tiến bộ
của các CSDL không gian như cấu trúc dữ liệu không gian, lập luận không gian,
tính toán hình học,… đã mở đường cho khai phá dữ liệu không gian. Trở ngại lớn
nhất trong khai phá dữ liệu không gian là hiệu quả của các thuật toán khai phá dữ

liệu không gian do lượng dữ liệu không gian khổng lồ, các kiểu dữ liệu không gian
và các phương pháp truy cập không gian phức tạp.
Các phương pháp khai phá dữ liệu không gian tập trung theo ba hướng chính
là khai phá luật kết hợp không gian, phân lớp không gian và phân cụm không gian.
Với mong muốn nghiên cứu về khai phá luật kết hợp không gian, luận văn đi sâu
tìm hiểu một lĩnh vực nhỏ trong không gian đó là không gian địa lý.
2. Mục tiêu của luận văn
Luận văn tập trung nghiên cứu về các kỹ thuật khai phá luật kết hợp không
gian trong CSDL địa lý nhằm trích rút ra các dữ liệu địa lý có ích tiềm ẩn bên trong
các kho tri thức địa lý khổng lồ. Cụ thể luận văn hướng vào các công việc:
-

Thu thập một số lớp dữ liệu bản đồ (bao gồm cả dữ liệu hình học và dữ
liệu thuộc tính) để thử nghiệm với thuật toán khai phá luật kết hợp không
gian.

-

Nghiên cứu một vài thuật toán tiền xử lý dữ liệu phục vụ cho khai phá dữ
liệu không gian và một vài thuật toán khai phá luật kết hợp truyền thống
để mở rộng áp dụng trên dữ liệu địa lý.

-

Cài đặt chương trình thử nghiệm thuật toán lựa chọn nhằm khai phá luật
kết hợp với dữ liệu hình học và dữ liệu thuộc tính của một số lớp bản đồ.

3. Tóm tắt nội dung luận văn
Phần còn lại của luận văn được tổ chức như sau:
Chương 1: Tổng quan về dữ liệu không gian và khai phá luật kết hợp không

gian. Bao gồm các phần như: Giới thiệu khái quát về dữ liệu địa lý, luật kết hợp,

v

luật kết hợp không gian, những vấn đề khó khăn trong khai phá luật kết hợp không
gian.
Chương 2: Một số thuật toán khai phá luật kết hợp không gian. Bao gồm:
các phương pháp tiền xử lý dữ liệu không gian phục vụ khai phá dữ liệu và các
phương pháp khai phá luật kết hợp không gian trên cả dữ liệu hình học và dữ liệu
thuộc tính.
Chương 3: Cài đặt chương trình thử nghiệm. Bao gồm mô tả bài toán, xây
dựng dữ liệu thử nghiệm, thiết kế chương trình, cài đặt thuật toán và đánh giá kết
quả thử nghiệm.
Kết luận trình bày những nghiên cứu về khai phá luật kết hợp không gian,
những đóng góp của luận văn và những định hướng nghiên cứu sắp tới.

vi

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
CSDL
GKB
OGC
GIS
GeoARM

SQL
JDBC
ODBC
GUI
ER
OO
GPS
Max-FGP

Cơ sở dữ liệu
Geographic Knowledge Base
Open Gis Consortium
Geographic information system
Geographic Association Rule Miner
Structured Query Language
Java Database Connectivity
Open Database Connectivity
Graphical User Interface
Entity Relationship
Object Oriented
Global Positioning System
Maximal Frequent Geographic Patterns

vii

DANH MỤC CÁC BẢNG

Bảng 1.1: Tập dữ liệu đã được tiền xử lý cho khai phá tập thường xuyên và luật
kết hợp không gian...................................................................................................22
Bảng 1.2: Các tập thường xuyên có độ hỗ trợ 50%.................................................22
Bảng 1.3: Các tập thường xuyên và các luật có các phụ thuộc...............................23
Bảng 1.4: Các tập thường xuyên đóng.....................................................................24
Bảng 1.5:Các quan hệ topo theo ngữ cảnh của các đối tượng địa lý......................24
Bảng 1.6: Các quan hệ topo khả năng sử dụng trong khai phá dữ liệu...................25
Bảng 1.7: Các tập thường xuyên có độ hỗ trợ = 50%.............................................27
Bảng 1.8: Các luật kết hợp tạo ra từ các tập thường xuyên có kích thước 2,3,4 có
chứa phụ thuộc.........................................................................................................28

viii

DANH MỤC CÁC HÌNH

Hình 1.1: Lưu trữ dữ liệu địa lý trong các CSDL quan hệ............................................
Hình 1.2: Quan hệ không gian tiềm ẩn...............................................................................
Hình 1.3: Quan hệ không gian có các phụ thuộc địa lý đã biết.......................................
Hình 1.4: Các quan hệ không gian.................................................................................
Hình 1.5: Một phần lược đồ CSDL địa lý mức khái niệm và logic..............................
Hình 1.6: Thể hiện của geo-ontology..........................................................................11
Hình 1.7: Tập dữ liệu có 6 bộ và các tập thường xuyên với minsup = 50%..............13
Hình 1.8: Tập dữ liệu có 6 bộ và các tập thường xuyên đóng có minsup=50%.........15
Hình 1.9: Quan hệ khoảng cách trong thực tế và quan hệ giữa các điểm trung
tâm................................................................................................................................19
Hình 1.10: Phân cấp khái niệm của nguồn nước.........................................................29
Hình 1.11: a) Tập dữ liệu có nguồn nước ở mức 2 và b) Các tập thường xuyên với

minsup=30% ...............................................................................................................31
Hình 1.12: a) Tập dữ liệu có nguồn nước ở mức 3 và b) Các tập thường xuyên với
minsup 30%..................................................................................................................33
Hình 2.1. Sơ đồ khai phá luật kết hợp không gian từ các CSDL địa lý......................25
Hình 2.2: Giả mã của thuật toán trích chọn các phụ thuộc từ lược đồ CSDL............36
Hình 2.3: Giả mã của thuật toán tiền xử lý dữ liệu ....................................................38
Hình 2.4. Tập dữ liệu có 6 bộ và các tập thường xuyên với minsnup= 50%.............40
Hình 2.5: Đồ thị thể hiện các tập thường xuyên có phụ thuộc {D} (trái) và các
tập thường xuyên không có phụ thuộc {D} (phải)......................................................41
Hình 2.6: Thuật toán Apriori – KC tạo các tập thường xuyên không có các phụ
thuộc đã biết.................................................................................................................43
Hình 2.7: Đồ thị thể hiện các tập thường xuyên có phụ thuộc {A, W} (trái) và các
tập thường xuyên không có phụ thuộc {A, W} (phải)................................................46

ix

Hình 2.8: Đồ thị thể hiện các tập thường xuyên có phụ thuộc {D} và {A, W} (trái)
và các tập thường xuyên không có phụ thuộc {D} và {A, W} (phải).......................47
Hình 2.9: Các tập thường xuyên và các tập thường xuyên đóng................................48
Hình 2.10: Đồ thị thể hiện các tập thường xuyên đóng có các phụ thuộc đã biết
(trái) và các tập thường xuyên đóng không có các phụ thuộc đã biết (phải)..............49
Hình 2.11: Đồ thị thể hiện các tập thường xuyên không có phụ thuộc đã biết và
các tập thường xuyên không dư thừa cực đại không có các phụ thuộc đã biết (phải)
......................................................................................................................................51
Hình 2.12: Giả mã của thuật toán Max-FGP...............................................................52
Hình 3.1: Quá trình khai phá luật kết hợp từ CSDL địa lý của chương trình
Weka-geo......................................................................................................................

Hình 3.2: Một lược đồ CSDL địa lý............................................................................
Hình 3.3: Cấu trúc lưu trữ dữ liệu dịa lý trong OGC..................................................
Hình 3.4: Giao diện kết nối CSDL..............................................................................
Hình 3.5: Giao diện tiền xử lý dữ liệu địa lý...............................................................
Hình 3.6: Giao diện tạo các cặp phụ thuộc địa lý........................................................
Hình 3.7: Message khi không tìm thấy quan hệ không gian.......................................
Hình 3.8: Message khi file .arff đã được tạo ra...........................................................
Hình 3.9: Giao diện thẻ Association các thuật toán khai phá luật kết hợp.................
Hình 3.10: Giao diện xuất kết quả của thuật toán khai phá luật kết hợp không
gian ..............................................................................................................................

1

CHƯƠNG 1: TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN
VÀ KHAI PHÁ DỮ LIỆU KHÔNG GIAN
1.1.

Cơ sở dữ liệu địa lý
CSDL địa lý lưu trữ các thực thể trong thế giới thực hay còn gọi là các đối

tượng địa lý thuộc một vùng nghiên cứu nào đó. Các đối tượng địa lý chứa cả các
thuộc tính không gian (tọa độ địa lý x,y) và các thuộc tính phi không gian (tên, dân
số,…). Đó là hai thành phần chính của dữ liệu không gian.
Dữ liệu địa lý của các đối tượng địa lý thường được lưu trữ trong các CSDL
quan hệ hoặc CSDL quan hệ đối tượng. Hình 1.1 thể hiện dữ liệu địa lý được lưu
trữ trong CSDL quan hệ, trong đó các đối tượng địa lý như đường, nguồn nước và
siêu thị là các quan hệ khác nhau (các bảng CSDL), chúng có cả các thuộc tính

không gian (dữ liệu hình học) và các thuộc tính phi không gian (dữ liệu thuộc tính).
a) Duong
Gid Name

Shape

1

Trần Duy Hưng

Multiline[(x1,y1),(x2,y2),...]

2

Bưởi

Multiline[(x1,y1),(x2,y2),...]

b) NguonNuoc
Gid Name

Shape

1

Hồ Hoàn Kiếm

Multiline[(x1,y1),(x2,y2),...]

2

Sông Tô Lịch

Multiline[(x1,y1),(x2,y2),...]

c) SieuThi
Gid Name

Shape

1

Big C Thăng Long Point[(x1,y1)]

2

Plaza Tràng Tiền

Point[(x1,y1)]

Hình 1.1: Lưu trữ dữ liệu địa lý trong các CSDL quan hệ
Ví dụ đặc trưng không gian Siêu thị Big C Thăng Long có dữ liệu hình học
là điểm được biểu diễn trong CSDL là cặp tọa độ, dữ liệu thuộc tính có thể là số loại
mặt hàng kinh doanh, doanh thu hàng ngày... của cửa hàng.

2

Ví dụ khác là đặc trưng không gian đường phố Trần Duy Hưng (Hà Nội), có
dữ liệu hình học là tập các điểm để tạo nên đường gấp khúc, dữ liệu thuộc tính có
thể là số làn xe, chiều dài của đường phố...
Các thuộc tính không gian của các đối tượng địa lý (hình 1.1) có các quan hệ
không gian: gần (close), xa (far), chứa (contains), cắt (intersects). Do đó, các đối
tượng gần nhau trong thế giới thực thường có ảnh hưởng lẫn nhau hay phụ thuộc
lẫn nhau. Đây chính là đặc trưng của dữ liệu địa lý trong khai phá dữ liệu và cũng là
sự khác biệt của việc khai phá dữ liệu không gian so với các phương pháp khai phá
dữ liệu truyền thống.
Quá trình trích chọn quan hệ không gian sẽ tạo ra rất nhiều kết hợp không
gian mà có thể được người sử dụng quan tâm hoặc không quan tâm. Hình 1.2 là ví
dụ về các quan hệ không gian tiềm ẩn giữa các siêu thị, các trạm ATM và các
đường phố, không có một mối quan hệ rõ ràng nào giữa các dữ liệu này. Tuy nhiên,
trong thực tế những người đi mua hàng ở siêu thị hay tìm đến các các trạm ATM
gần đó để rút tiền nên việc trích chọn ra các quan hệ không gian giữa các trạm
ATM, các siêu thị và đường sẽ được quan tâm trong quá trình khai phá dữ liệu. Nói
cách khác, chúng có sự phụ thuộc địa lý giữa các đối tượng không gian.

Hình 1.2: Quan hệ không gian tiềm ẩn

3

Hình 1.3 là hai ví dụ về các quan hệ không gian trong đó thể hiện các phụ
thuộc địa lý đã biết. Hình 1.3 (trái) cho thấy cầu vượt luôn cắt đường còn cầu luôn
cắt các sông, trong đó cả cầu vượt và cầu đều có cùng ngữ nghĩa là nối các đường.
Hình 1.3 (phải) có một phụ thuộc địa lý đã biết là mỗi siêu thị đều nằm trên ít nhất
một đường.

Hình 1.3: Quan hệ không gian có các phụ thuộc địa lý đã biết
Khác biệt chính giữa các ví dụ ở hình 1.2 và hình 1.3 là: hình 1.3 chứa các
quan hệ không gian đã biết. Ví dụ: is_a(Cau_vuot)intersects(Duong) hoặc
is_a(Sieu_thi)intersects(Duong). Còn hình 1.2 chứa các quan hệ không gian tiềm
ẩn có thể được quan tâm trong quá trình khai phá dữ liệu.
Các phụ thuộc địa lý đã biết là các quan hệ không gian bắt buộc thể hiện các
ràng buộc toàn vẹn không gian được sử dụng để đảm bảo sự thống nhất của dữ liệu.
Chúng thường được thể hiện rõ trong các lược đồ CSDL địa lý.
1.1.1. Quan hệ không gian và ràng buộc toàn vẹn không gian
Có ba kiểu quan hệ không gian chính là: quan hệ khoảng cách, quan hệ
hướng và quan hệ topo.
Quan hệ khoảng cách dựa trên khoảng cách Euclid giữa 2 đối tượng địa lý
(hình 1.4a). Đặt dist là hàm khoảng cách, operator là toán tử thuộc tập {<, >,<=, >=,

4

=}, d là một số thực, A và B là hai đối tượng địa lý. Khi đó khoảng cách giữa A và
B được biểu diễn bởi hàm dist(A,B) có giá trị là d.
Quan hệ hướng thể hiện vị trí của đối tượng này so với các đối tượng khác
trong quan hệ không gian (hình 1.4b).
Quan hệ topo có kiểu đặc trưng điển hình là giao giữa hai đối tượng địa lý và
chúng bất biến trên các phép biến đổi hình học như quay và co giãn. Có nhiều
phương pháp để xác định các quan hệ topo giữa các điểm, đường, vùng. Hầu như,
chúng đều dựa trên mô hình giao nhau như: bên trong và đường bao hoặc bên trong,
bên ngoài và đường bao [15]. Phép giao là sự phối hợp của các toán tử logic và( ∧ )
và or( ∨ ). Các mô hình giao nhau xác định 8 quan hệ topo nhị phân là: cắt

(crosses), chứa (contains), trong (within), bao (covers), bao bở (-coveredBy), trùng
(equals), không nối (disjoint), chồng (overlaps) [28].
Quan hệ topo cũng có thể được xác định theo phương pháp tích phân hoặc
phương pháp mở rộng chiều. Các phương pháp này xác định 6 quan hệ không gian
là: crosses, contains, within, equals, disjoint, overlaps (hình 1.4c).
Quan hệ topo mức cao là không nối (disjoint) và nối (connected). Khi các
đối tượng được nối với nhau thì chúng chỉ có các quan hệ là: crosses, contains,
within, covers, coveredBy, equals, overlaps.

Hình 1.4: Các quan hệ không gian
Quan hệ không gian giữa hai đối tượng địa lý có thể thuộc một trong các
dạng: khả năng (possible), bắt buộc (mandatory) và cấm (prohibited). Quan hệ khả

5

năng là quan hệ có thể tồn tại hoặc không tồn tại trong CSDL (Ví dụ: đường cắt
sông, thành phố có các nhà máy). Quan hệ bắt buộc và quan hệ cấm thể hiện ràng
buộc toàn vẹn không gian trong CSDL nhất quán [p37.45].
Ràng buộc toàn vẹn không gian chứa các tính chất riêng của dữ liệu địa lý và
các quan hệ không gian để đảm bảo cũng như duy trì chất lượng và sự nhất quán
của các đối tượng địa lý trong CSDL địa lý. Ràng buộc toàn vẹn không gian giữa
hai đối tượng địa lý A và B có thể được xác định bởi các quan hệ thông qua các
ràng buộc toán học. Ví dụ, quan hệ bắt buộc giữa siêu thị và đường có thể được thể
hiện bởi quan hệ 1-1 (một-một) hoặc 1-n (một-nhiều) có nghĩa là mỗi siêu thị phải
liên quan đến ít nhất một đường. Quan hệ bắt buộc thể hiện phụ thuộc địa lý đã biết,
mà phụ thuộc địa lý đã biết lại tạo ra các mẫu đã biết, chúng không được quan tâm
trong khai phá luật kết hợp không gian.

1.1.2. Phụ thuộc địa lý
Trong không gian địa lý, ”mỗi đối tượng đều có quan hệ đến các đối tượng
khác nhưng những đối tượng gần thì có quan hệ mật thiết hơn những đối tượng
xa”[p186, 29]. Tuy nhiên có một số đối tượng luôn có quan hệ với các đối tượng
khác không phụ thuộc vào khoảng cách. Khi đó, chúng được gọi là một phụ thuộc
địa lý.
Định nghĩa 1 (Phụ thuộc địa lý): là quan hệ không gian bắt buộc giữa hai
đối tượng địa lý A và B, trong đó mỗi trường hợp của A phải liên quan với ít nhất
một trường hợp của B.
Phụ thuộc địa lý gọi là đã biết khi chúng được thể hiện rõ ràng trong lược đồ
CSDL địa lý để đảm bảo sự toàn vẹn không gian của dữ liệu địa lý. Lược đồ CSDL
địa lý là sự mở rộng của lược đồ quan hệ thực thể (ER) hoặc lược đồ hướng đối
tượng (OO) để xử lý các kiểu dữ liệu địa lý. Trong các lược đồ CSDL địa lý, các
phụ thuộc địa lý là quan hệ không gian (Ví dụ: giáp, chứa) hoặc là quan hệ 1-1 hay
1-n giữa các bảng dữ liệu.

6

Hình 1.5 là ví dụ thể hiện một phần của lược đồ CSDL địa lý mức khái niệm
và một phần của lược đồ mức logic tương ứng cho CSDL quan hệ và CSDL hướng
đối tượng. Trong lược đồ thể hiện các quan hệ bắt buộc (ví dụ: siêu thị và đường,
đường và thành phố, nguồn nước và thành phố), còn các quan hệ khả năng không
thể hiện các phụ thuộc đã biết nhưng có thể là đáng được quan tâm trong khai phá
tri thức thì không được thể hiện (ví dụ: siêu thị và nguồn nước).
Ở mức logic quan hệ bắt buộc thể hiện bởi quan hệ 1-1 hoặc 1-n của các
khóa ngoại trong CSDL địa lý quan hệ hoặc thể hiện bởi con trỏ trỏ tới các lớp
trong CSDL địa lý hướng đối tượng.

Một phần của lược đồ ER
Creat Table Duong
(duongid integer,
ten varchar(30),
geometry integer,
Primary Key (duongid))
Creat Table SieuThi
(sieuthiid integer,
ten varchar(30),
diachi varchar(30),
geometry integer,
Primary Key (sieuthiid)
Foriegn Key (duongid) reference Duong)

Một phần của lược đồ OO
Public class Duong{
private varchar(30) ten;
private integer geometry;
public Duong() { }
}
Public class SieuThi{
private varchar(30) tene;
private varchar(30) diachi;
private integer geometry;
Duong Duong
public SieuThi() { }
}

Hình 1.5: Một phần lược đồ CSDL địa lý mức khái niệm và logic

7

1.1.3. Geo-Ontology và ràng buộc toàn vẹn không gian
Năm 1993, Gruber [24] đưa ra một định nghĩa về ontology: “Một ontology
là một đặc tả rõ ràng, mang tính hình thức của một khái niệm có thể chia sẻ”. Định
nghĩa của Gruber về ontology là một định nghĩa chung của ontology, ontology có
thể được định nghĩa theo những ngữ cảnh cụ thể và có những đặc điểm sau:
•

Các ontology được dùng để miêu tả một miền xác định.

•

Các thuật ngữ và các quan hệ của các thuật ngữ được miêu tả
rõ ràng trong miền dữ liệu đó.

•

Tồn tại một cơ chế để tổ chức các thuật ngữ (ví dụ cấu trúc
phân cấp).

•

Có sự thống nhất giữa những người dùng về ý nghĩa của các
thuật ngữ được sử dụng trong miền.

Gần đây, khái niệm ontology đã được sử dụng nhiều trong các lĩnh vực khác
nhau như: khoa học máy tính, trí tuệ nhân tạo, CSDL, mô hình khái niệm,... Do đó,
có nhiều ontology được đưa ra và cũng nhiều mô hình, ngôn ngữ, công cụ được
phát triển. Chaves đã định nghĩa được một geo-ontology cho quản trị dữ liệu của
nước Bồ Đào Nha và một siêu mô hình (meta-model) tên là GKB, đây chính là
điểm khởi đầu cho việc định nghĩa một ontology cho dữ liệu địa lý [14].
Trong geo-ontology, các ràng buộc toàn vẹn không gian được thể hiện bởi
các thuộc tính của dữ liệu địa lý. Chúng được xem như là các thuộc tính giới hạn và
được xác định như một quan hệ không gian và phi không gian với các ràng buộc
nhỏ nhất và lớn nhất tương ứng,... Ví dụ: khái niệm đảo là một khu đất có nước bao
quanh, có quan hệ 1-1 với khái niệm nước.
Hình 1.6 là ví dụ của một geo-ontology định nghĩa về các quan hệ topo khác
nhau để minh họa xem các ràng buộc ngữ nghĩa bắt buộc được thể hiện như thế nào.
Trong ví dụ ở hình 1.6 bus stop (trạm xe buýt) và gas station (trạm xăng) có
một ràng buộc bắt buộc với road (đường) vì mỗi trạm xe buýt và mỗi trạm xăng

8

phải nằm trên (touch) ít nhất một đường nào đó. Tuy nhiên, đường không nhất thiết
phải có trạm xe buýt hay trạm xăng. Sự kết hợp một chiều thể hiện quan hệ bắt buộc
mà các trạm xe buýt và trạm xăng phải có với đường.
Để đánh giá số lượng các phụ thuộc đã biết trong các geo-ontology, chúng ta
phân tích geo-ontology đầu tiên của Bồ Đào Nha tên là geo-net-pt01 [14]. Mặc dù,
không phải tất cả các thành phần của miền địa lý được định nghĩa trong geo-netpt01 nhưng ở đây cũng có nhiều phụ thuộc 1-1 và 1-n.
Kho geo-ontology lưu trữ tại 3 mức thông tin: mức quản trị (geoadministrative), mức vật lý (geo-physical) và mức mạng (network). Mức quản trị
lưu trữ thông tin quản trị về phân chia phạm vi và gồm các đối tượng địa lý như các
đô thị (municipality), các đường (road),... Mức vật lý lưu trữ các đối tượng như các

lục địa (continent), các đại dương (ocean), các hồ (lake), các vịnh (bay),... Mức
mạng lưu trữ các dữ liệu phi không gian và các quan hệ của tầng quản trị như dân
số của một thành phố.
Geo-net-pt01 có 58 đối tượng địa lý và 55 quan hệ 1-1.

Hình 1.6: Thể hiện của geo-ontology
1.2.

Luật kết hợp

9

Luật kết hợp là một biểu thức có dạng: XY, trong đó X và Y là tập các
mục cùng xuất hiện trong một bộ cho trước [3].
Bài toán luật kết hợp thông thường được đặc tả hình thức như sau:
-

Cho một tập mục F = {f1, f2,..., fk,…, fn} và bộ dữ liệu Ψ là tập các dòng
(còn gọi là các giao tác) W, trong đó W là một tập mục (bộ) và thỏa mãn
W ⊆ F; W là một véc tơ nhị phân mà phần tử w[k]=1 nếu W chứa thuộc
tính fk và w[k]=0 trong trường hợp ngược lại.

-

Trong mỗi giao tác sẽ có đúng một dòng trong tập dữ liệu được khai phá.
Xét X là một tập của F, W chứa X nếu với ∀ fk∈ X đều có w[k]=1. Tương
tự Y là một tập của F, W chứa Y nếu với ∀ fk∈ Y đều có w[k]=1.

-

Luật kết hợp là một biểu thức có dạng XY, trong đó X, Y ⊂ F; X, Y≠ Ø
và X ∩ Y=Ø.

-

Độ hỗ trợ (support) s của một tập mục X là phần trăm số dòng X xuất
hiện như là một tập con so với số dòng của tập mục. Độ hỗ trợ của luật
XY được ký hiệu là s(X ∪ Y).

-

Luật XY thỏa mãn tập Ψ với độ tin cậy 0 ≤ c ≤ 1 nếu có ít nhất c% các
trường hợp của Ψ thỏa mãn cả X và Y, được ký hiệu là c(XY)=s(X ∪
Y)/s(X).

Bài toán khai phá luật kết hợp được thực hiện qua hai bước [3]:
-

Bước 1 Tìm tất cả các tập mục thường xuyên: một tập mục là thường
xuyên nếu độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng nào đó gọi là
minsup.

-

Bước 2 Tạo luật mạnh (luật có độ tin cậy cao): luật là mạnh nếu độ hỗ
trợ của nó lớn hơn hoặc bằng độ hỗ trợ nhỏ nhất minsup và độ tin cậy của
nó thì lớn hơn hoặc bằng một ngưỡng nào đó gọi là minconf.

Nếu tập thuộc tính Z là tập thường xuyên thì tất cả các tập con của nó đều là
tập thường xuyên. Nếu tập thuộc tính Z không phải là tập thường xuyên thì tất cả

10

các tập chứa nó cũng không phải là tập thường xuyên. Nếu tập Z thỏa mãn ràng
buộc về độ hỗ trợ thì tất cả các luật được tạo ra từ tập Z cũng thỏa mãn ràng buộc về
độ hỗ trợ [3].
Thuật toán khai phá luật kết hợp Apriori tạo ra các tập ứng viên và sau đó
tính mức độ thường xuyên của chúng để tạo ra các tập thường xuyên. Việc tạo ra
các tập ứng viên được thực hiện bằng cách duyệt đa cấp trên tập dữ liệu.
Đầu tiên, tính độ hỗ trợ của các phần tử riêng lẻ để xác định các tập thường
xuyên (gọi là tập mục k thường xuyên). Các bước con, nhóm các tập thường xuyên
Lk-1 vào các tập Ck có k phần tử. Tính độ hỗ trợ của từng tập ứng viên, nếu độ hỗ trợ
lớn hơn hoặc bằng minsup thì tập đó được coi là tập thường xuyên. Lặp lại quá trình
trên cho đến khi tập thường xuyên trong kết quả của bước duyệt là tập rỗng,... Các
luật kết hợp được tạo ra từ các tập thường xuyên kết quả đạt minsup.
a) Tập dữ liệu

b) Các tập thường xuyên với minsup = 50%

Tid itemset
1

A, C, D, T, W

2

C, D, W

3

A, D, T, W

4

A, C, D, W

5

A, C, D, T, W

6

C, D, T

k

Các tập thường xuyên

1

{A}, {C}, {D}, {T}, {W}

2

{A,C}, {A,D}, {A,T}, {A,W}, {C,D},
{C,T}, {C,W}, {D,T}, {D,W}, {T,W}

3

{A,C,D}, {A,C,W}, {A,D,T}, {A,D,W},
{A,T,W}, {C,D,T}, {C,D,W}, {D,T,W}

4

{A,C,D,T}, {A,D,T,W}

Hình 1.7: Tập dữ liệu có 6 bộ và các tập thường xuyên với minsup = 50%

11

Đã có nhiều thuật toán áp dụng cho dữ liệu phi không gian được đưa ra nhằm
giảm thiểu thời gian tính toán, số lượng các tập thường xuyên và các luật kết hợp.
Các thuật toán giảm thiểu cả số lượng các tập thường xuyên và các luật kết hợp
được phân làm hai loại: các thuật toán Apriori-like tạo ra các tập thường xuyên và
sử dụng các độ đo khác nhau để giảm thiểu các luật kết hợp; và các thuật toán tạo
các tập thường xuyên đóng nhằm giảm thiểu các tập thường xuyên và các luật dư
thừa.
Các thuật toán Apriori-like đều tập trung vào các luật đáng quan tâm. Một số
đại lượng đã được đưa ra sử dụng như độ hỗ trợ, độ tin cậy, entropy gain, gini, độ
cải tiến, độ chắc chắn,... Tuy nhiên, theo Bayardo khó có thể có được một đại lượng
đơn giản để xác định mức độ đáng quan tâm hay mức độ tốt của một luật kết hợp

[6]. Trong hầu hết các thuật toán này, các luật không đáng quan tâm thường bị khử
trong quá trình tạo luật – bước cuối cùng trong khai phá dữ liệu.
Các ngưỡng và các ràng buộc khác nhau đã được áp dụng, chỉ có các luật
thỏa mãn các ràng buộc đó mới được tạo ra. Các phương pháp xem xét độ mong đợi
và tin cậy yêu cầu xác định các thông tin đáng tin cậy phức tạp như các khả năng
phụ thuộc vào điều kiện cụ thể mà trong thực tế chúng khó có thể đạt được [23].
Srikant đã sử dụng phân cấp khái niệm để khử các tập ứng viên chứa mức cha (ví
dụ: cloth) và mức con (ví dụ: jacket, dress) của một phân cấp trong cùng một tập
[30]. Trong thực tế khai phá dữ liệu ở các mức khác nhau trong một quá trình khai
phá không phải là phổ biến. Phương pháp này giảm thiểu các luật nên tránh trong
quá trình tiền xử lý dữ liệu, ví dụ: jacket=yesclothes=yes. Vì vậy, không nên xét
đồng thời các loại dữ liệu này trong cùng một quá trình khai phá.
Định nghĩa 2 (tập thường xuyên đóng): tập thường xuyên L là tập thường
xuyên đóng nếu Ω (L)=L [28].
Trong đó, Ω (L) là tập cực đại trong tất cả các tập ở giao tác có chứa tập
thường xuyên L. Toán tử Ω cho phép xác định tất cả các tập thường xuyên đóng
(các tập thường xuyên không dư thừa nhỏ nhất). Mà các tập thường xuyên không

12

đóng lại có cùng độ hỗ trợ với tập thường xuyên đóng tương ứng của nó nên tập
thường xuyên cực đại là tập thường xuyên đóng. Tính chất này đảm bảo không bị
mất mát thông tin và các luật được tạo ra từ các tập thường xuyên không đóng sẽ là
dư thừa so với các luật được tạo ra từ các tập thường xuyên đóng tương ứng.
Các phương pháp tạo các tập thường xuyên đóng thực hiện tìm các tập
thường xuyên sau đó loại bỏ đi các tập thường xuyên không phải là đóng. Để hiểu
được khái niệm tập thường xuyên đóng chúng ta xét ví dụ ở hình 1.8.

Tập {A,D,W} là tập thường xuyên vì nó đạt được minsup=50%. Nó cũng là
tập thường xuyên đóng vì trong tập giao tác (1345) không có tập nào lớn hơn tập
{A,D,W} (lớn hơn theo nghĩa số lượng các phần tử) đạt được minsup. Tập thường
xuyên {A,D,T} xuất hiện trong giao tác (135), nhưng trong cùng giao tác này tập
thường xuyên {A,D,T,W} cũng được tạo ra. Trong trường hợp này
tidset(A,D,T)=135, tidset(A,D,T,W)=135 và (A,D,T) ⊂ (A,D,T,W) nên tập thường
xuyên {A,D,T} không phải là đóng.
a) Tập dữ liệu

b) Các tập thường xuyên đóng

Tid itemset
1
2

A, C, D, T, W
C, D, W

3
4
5
6

A, D, T, W
A, C, D, W
A, C, D, T, W
C, D, T
Các tập thường xuyên đóng
{D}
{C,D}, {D,T}, {D,W}

{A,D,W}, {C,D,T}, {C,D,W}
{A,C,D,T}, {A,D,T,W}

k

1
2
3
4

c) Các tập thường xuyên trong cùng một giao tác

TidSet

13

Tập phổ biến L

123456 {D}
12456

{C}, {C,D}

12345

{W}, {D,W}

1245

{C,W}, {C,D,W}

1345

{A}, {A,D}, {A,W}, {A,D,W}

1356

{T}, {D,T}

145

{A,C}, {A,C,W}, {A,C,D}, {A,C,D,W}

135

{T,W}, {A,T}, {A,D,T}, {D,T,W}, {A,D,T,W}

156

{C,T}, {C,D,T}

Hình 1.8: Tập dữ liệu có 6 bộ và các tập thường xuyên đóng có minsup=50%
Trong hình 1.8c các tập thường xuyên đóng trong các giao tác được in đậm.
Ví dụ:
- Trong giao tác 12345 tập thường xuyên cực đại của là {D,W} vì {W} ⊂ {D,W}.
- Trong giao tác 1245 tập thường xuyên cực đại là {C,D,W} vì {C,W} ⊂ {C,D,W}.
- Trong giao tác 145 tập thường xuyên cực đại là {A,C,D,W} vì {A,C} ⊂

{A,C,D,W}, {A,C,W} ⊂ {A,C,D,W} và {A,C,D} ⊂ {A,C,D,W}.
- Trong giao tác 135 tập thường xuyên cực đại là {A,D,T,W} vì {T,W} ⊂
{A,D,T,W},

{A,T} ⊂ {A,D,T,W},

{A,D,T} ⊂ {A,D,T,W},

{A,T,W} ⊂

{A,D,T,W} và {D,T,W} ⊂ {A,D,T,W}.
Theo Pasquier tất cả các tập thường xuyên L trong cùng một giao tác sẽ tạo
ra các luật có cùng độ hỗ trợ và độ tin cậy. Khi L là tập thường xuyên cực đại thì
các tập thường xuyên còn lại trong cùng giao tác đó sẽ là các tập dư thừa [40].
Định nghĩa 3 (luật không dư thừa nhỏ nhất): luật r:l1l2 là luật kết hợp
không dư thừa nhỏ nhất nếu không có luật r’:l’ 1l’2 mà support(r)=support(r’),
confidence(r)= confidence(r’), l’1 ⊆ l1 và l’2 ⊆ l2 [5].

14

Theo định nghĩa 3, luật AW được tạo từ tập {A,W} là dư thừa trong quan
hệ với luật ADW tạo từ tập thường xuyên đóng {A,D,W}. Việc tạo tập thường
xuyên đóng khử được các tập thường xuyên dư thừa nhưng không đảm bảo khử
được tất cả các luật dư thừa. Đã có nhiều bài viết đề cập đến các phương pháp giảm
thiểu các luật dư thừa trích chọn từ các tập thường xuyên đóng. Tuy nhiên, các luật
dư thừa có thể được xác định theo nhiều cách khác nhau.
Ví dụ theo Zaki trong các luật kết hợp được tạo ra từ một tập thường xuyên

đóng có cùng độ hỗ trợ và độ tin cậy thì chỉ có luật nhỏ nhất là không dư thừa (nhỏ
nhất theo nghĩa có ít phần tử nhất) [31]. Vì vậy, có thể thấy ngay luật AB là luật
không dư thừa nhỏ nhất được tạo ra từ tập thường xuyên {A,B,C,D}. Theo Pasquier
các luật không dư thừa nhỏ nhất là các luật có cùng độ hỗ trợ, độ tin cậy và có tập
bên trái nhỏ hơn còn tập bên phải lớn hơn [28]. Ví dụ: ABCD.
1.3.

Luật kết hợp không gian
Luật kết hợp không gian có dạng X→Y, với X và Y là tập các thuộc tính

trong đó có ít nhất một thuộc tính là thuộc tính không gian [21].
Trong quá trình khai phá luật kết hợp giao dịch mỗi dòng trong tập dữ liệu là
một giao tác và các cột là các mục, còn trong khai phá luật kết hợp không gian thì
mỗi dòng là một trường hợp (ví dụ: Hà Nội) của một đối tượng địa lý nào đó (ví dụ:
thành phố) gọi là đối tượng đích và các cột là các thuộc tính. Mỗi thuộc tính có thể
là một thuộc tính phi không gian (ví dụ: dân số) của đối tượng đích hoặc một quan
hệ không gian với một đối tượng địa lý khác (gọi là đối tượng liên quan). Đối tượng
liên quan có quan hệ không gian với các trường hợp của đối tượng đích (ví dụ:
contains(SieuThi)).
Bài toán khai phá luật kết hợp truyền thống áp dụng cho dữ liệu phi không
gian được thực hiện qua hai bước như đã trình bày ở mục 1.2, còn bài toán khai phá
luật kết hợp không gian được soạn lại qua ít nhất ba bước ngoài bước đầu tiên là
bước tiền xử lý dữ liệu:

15

a) Trích chọn thuộc tính không gian: thuộc tính không gian là một quan hệ

không gian (ví dụ: khoảng cách, hướng, hình học) giữa một đối tượng
nào đó và một tập các đối tượng liên quan;
b) Tìm tất cả các tập/thuộc tính/mẫu thường xuyên: tập các thuộc tính là tập
thường xuyên nếu độ hỗ trợ của nó lớn hơn hoặc bằng một ngưỡng nào
đó gọi là minsup;
c) Tạo các luật mạnh: luật là mạnh nếu nó đạt được minsup và độ tin cậy
của nó lớn hơn hoặc bằng một ngưỡng nào đó gọi là minconf.
Bước kết nối không gian thực hiện trích chọn các thuộc tính không gian để
có được dữ liệu đầu vào thích hợp cho các thuật toán khai phá dữ liệu. Đây là một
bước xử lý khó trong quá trình khai phá dữ liệu không gian sẽ được trình bày chi
tiết ở chương 2.
Các quan hệ không gian được tính bằng cách thực hiện các kết nối không
gian giữa tất cả các trường hợp của một đối tượng đích T và tất cả các trường hợp o
của từng đối tượng liên quan O trong một tập các đối tượng liên quan S. Trong đó:
T={t1, t2,…, tn}, S={O1, O2,…, Om} và Oi={o1, o2,…, oq}. Việc trích chọn các thuộc
tính không gian nhằm so sánh từng trường hợp của T với từng trường hợp của các
O, với ∀ O ∈ S.
Các thuật toán khai phá luật kết hợp không gian là các phương pháp Apriorilike tạo ra các tập thường xuyên và sau đó trích chọn ra các luật kết hợp. Trong khai
phá luật kết hợp không gian việc tạo các ứng viên không khó khăn như trong các
CSDL giao dịch vì trong CSDL giao dịch số lượng các thuộc tính thường ít hơn
nhiều so với số lượng các mục. Do đó, giá thành tính toán của các thuật toán chủ
yếu dựa vào việc trích chọn thuộc tính không gian (bước a), số lượng các trường
hợp của đối tượng đích và số lượng của các đối tượng liên quan cũng như biểu diễn
hình học tương ứng của chúng.
1.4.

Tình hình nghiên cứu về khai phá luật kết hợp không gian

16

Trong khi có khá nhiều thuật toán khai phá luật kết hợp áp dụng cho các
CSDL quan hệ và CSDL giao dịch thì các thuật toán khai phá luật kết hợp áp dụng
cho CSDL địa lý lại rất ít và có thể được phân thành hai loại chính:
Loại thứ nhất: lập luận định lượng được Yoo đưa ra năm 2006 chủ yếu dựa
trên việc tính các quan hệ khoảng cách trong quá trình tạo tập thường xuyên.
Phương pháp này có ưu điểm là không cần xác định đối tượng, nhưng lại có nhược
điểm là thường chỉ áp dụng với dữ liệu dạng điểm (tọa độ x, y), chỉ xét các quan hệ
định lượng và không xét các thuộc tính phi không gian của dữ liệu địa lý, mà dữ
liệu này lại rất quan trọng trong khai phá tri thức. Với các đối tượng không gian
dạng đường hoặc vùng chỉ có điểm trung tâm của chúng được quan tâm. Tọa độ địa
lý được biến đổi thành các giá trị nguyên đã làm giảm đi mức độ chính xác của
chúng dẫn đến mất mát thông tin và tạo ra các mẫu không thực. Hình 1.9 là ví dụ về
sự khác biệt lớn của quan hệ khoảng cách giữa hai đối tượng địa lý đường và vùng
khi xét chúng trong quan hệ thực tế và trong quan hệ giữa các điểm trung tâm.

Hình 1.9: Quan hệ khoảng cách trong thực tế và quan hệ giữa các điểm trung tâm
Loại thứ hai: lập luận định tính dựa trên các quan hệ topo và khoảng cách
giữa một đối tượng địa lý nào đó và các đối tượng liên quan có dạng điểm, đường,
vùng. Các quan hệ này thường được trích chọn ở bước đầu tiên (bước tiền xử lý dữ
liệu) còn các tập thường xuyên lại được tạo ra ở bước sau.
Trong cả hai phương pháp lập luận định tính và định lượng, tri thức có sẵn
rất ít khi được sử dụng để khử các mẫu địa lý không liên quan và để tạo ra các luật

Nghiên cứu khai phá luật kết hợp trong cơ sở dữ liệu địa lý

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về