Tải bản đầy đủ (.pdf) (21 trang)

DSpace at VNU: Nghiên cứu một số kỹ thuật khai phá dữ liệu ứng dụng trongCSDL không gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (449.35 KB, 21 trang )

1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHÊ

ĐẶNG QUỐC HỮU

NGHIÊN CỨU MỘT SỐ KỸ THUẬT
KHAI PHÁ DỮ LIỆU ỨNG DỤNG
TRONG CSDL KHÔNG GIAN

LUẬN VĂN THẠC SĨ

Hà Nội - 2015


2

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

ĐẶNG QUỐC HỮU

NGHIÊN CỨU MỘT SỐ KỸ THUẬT
KHAI PHÁ DỮ LIỆU ỨNG DỤNG
TRONG CSDL KHÔNG GIAN
Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103
LUẬN VĂN THẠC SĨ
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. ĐẶNG VĂN ĐỨC



Hà Nội - 2015


3

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành nhất tới PGS. TS Đặng Văn Đức - người đã
hướng dẫn, chỉ bảo tận tình, cung cấp tài liệu và phương pháp luận nghiên cứu khoa học
để tôi hoàn thành bản luận văn này.
Tôi xin bày tỏ lòng cảm ơn sâu sắc tới thầy cô, bạn bè cùng khóa, cùng lớp đã
giúp đỡ tôi trong suốt những năm học qua.
Xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích, động viên và giúp
đỡ tôi trong mọi hoàn cảnh khó khăn.
Tôi xin cảm ơn các thầy cô trong trường Đại học Công nghệ, Đại học Quốc gia
Hà Nội đã hết sức tạo điều kiện cho tôi trong quá trình học và làm luận văn này.
Luận văn được hoàn thành trong thời gian hạn hẹp nên không thể tránh được
những thiếu sót. Tôi xin cảm ơn thầy cô, bạn bè, đồng nghiệp đã và sẽ có những ý kiến
đóng góp chân thành cho nội dung của luận văn, để tôi có thể tiếp tục đi sâu tìm hiểu về
lĩnh vực này trong tương lai.

Hà Nội, tháng 6 năm 2015
ĐẶNG QUỐC HỮU


4

LỜI CAM ĐOAN


Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân
tôi, không sao chép lại của người khác. Trong toàn bộ nội dung luận văn, những điều đã
được trình bày hoặc là của riêng cá nhân tôi, hoặc là được tổng hợp từ nhiều nguồn tài
liệu. Tất cả các nguồn tài liệu tham khảo được dùng đều có xuất xứ rõ ràng, được trích
dẫn hợp pháp.
Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy định
cho lời cam đoan của mình.

Hà Nội, tháng 6 năm 2015

Đặng Quốc Hữu


5

MỤC LỤC
MỞ ĐẦU.........................................................................................................................................1
CHƢƠNG I: TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI PHÁ DỮ LIỆU .......3
1.1. Tổng quan về dữ liệu không gian địa lý................................................................................3
1.1.1. Một số khái niệm ...............................................................................................................3
1.1.2. Mô hình dữ liệu Vector .....................................................................................................5
1.1.3. Quan hệ không gian giữa các đối tượng địa lý ..................................................................7
1.2. Khai phá dữ liệu .....................................................................................................................8
1.2.1. Định nghĩa khai phá dữ liệu .............................................................................................. 8
1.2.2. Nhiệm vụ chính trong khai phá dữ liệu .............................................................................9
1.2.3. Các phương pháp khai phá dữ liệu ..................................................................................10
CHƢƠNG 2: KHAI PHÁ DỮ LIỆU KHÔNG GIAN SỬ DỤNG CÂY QUYẾT ĐỊNH
....................................................................................... ERROR! BOOKMARK NOT DEFINED.
2.1. Cây quyết định .......................................................................... Error! Bookmark not defined.
2.1.1. Khái niệm ........................................................................ Error! Bookmark not defined.

2.1.2. Ưu điểm và nhược điểm của cây quyết định ................... Error! Bookmark not defined.
2.1.3. Xây dựng cây quyết định ................................................. Error! Bookmark not defined.
2.2. Phân lớp dữ liệu ........................................................................ Error! Bookmark not defined.
2.3. Cây quyết định ứng dụng trong phân lớp dữ liệu ................. Error! Bookmark not defined.
2.3.1. Thuật toán ID 3 ................................................................ Error! Bookmark not defined.
2.3.2. Thuật toán C4.5 .............................................................. Error! Bookmark not defined.
2.4. Xây dựng cây quyết định trong khai phá dữ liệu không gian ............ Error! Bookmark not
defined.
2.4.1. Tư tưởng xây dựng thuật toán ......................................... Error! Bookmark not defined.
2.4.2. Thuật toán cây quyết định không gian mở rộng từ ID3 .. Error! Bookmark not defined.
2.4.3. Ví dụ xây dựng cây quyết định không gian ..................... Error! Bookmark not defined.
2.4.4. Đề xuất phương pháp mới phân lớp dữ liệu không gian . Error! Bookmark not defined.
CHƢƠNG 3: KHAI PHÁ DỮ LIỆU KHÔNG GIAN BẰNG PHÂN CỤM DỮ LIỆU
KHÔNG GIAN ............................................................ ERROR! BOOKMARK NOT DEFINED.
3.1. Phân cụm phân hoạch ............................................................. Error! Bookmark not defined.
3.2. Phân cụm phân cấp ................................................................. Error! Bookmark not defined.
3.3. Phân cụm dựa trên mật độ ..................................................... Error! Bookmark not defined.
3.4. Phân cụm dựa trên lƣới .......................................................... Error! Bookmark not defined.
CHƢƠNG 4: ỨNG DỤNG PHÂN CỤM KHÔNG GIAN TRONG BÀI TOÁN XÁC ĐỊNH
VỊ TRÍ TỐI ƢU ĐẶT ĐIỂM TẬP KẾT TAXI ........ ERROR! BOOKMARK NOT DEFINED.
4.1. Phân tích bài toán ..................................................................... Error! Bookmark not defined.
4.1.1. Nguồn dữ liệu đầu vào và phạm vi bài toán .................... Error! Bookmark not defined.
4.1.2. Phương pháp kỹ thuật giải quyết bài toán ....................... Error! Bookmark not defined.
4.2. Xây dựng chƣơng trình ứng dụng........................................... Error! Bookmark not defined.
4.2.1. Phân tích thiết kế hệ thống .............................................. Error! Bookmark not defined.
4.2.2. Cài đặt chương trình ........................................................ Error! Bookmark not defined.
4.3. Thử nghiệm và đánh giá các thuật toán phân cụm ............... Error! Bookmark not defined.
KẾT LUẬN .................................................................. ERROR! BOOKMARK NOT DEFINED.



6
TÀI LIỆU THAM KHẢO...........................................................................................................11


7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
CSDL

Cơ sở dữ liệu

GIS

Geographic information system

Object ID

Identifier of objects

SDT

Spatial Decision Tree

SJI

Spatial Join Index

SJR

Spatial Join Relation


SpatRel

Spatial Relation

SpatMes

Spatial Measure

SQL

Structured Query Language


8

DANH MỤC CÁC BẢNG
Bảng 1.1: Topology vùng ............................................................................................ 5
Bảng 1.2: Topology nút ............................................................................................... 6
Bảng 1.3: Topology cung ............................................................................................. 6
Bảng 1.4: Dữ liệu tọa độ cung ..................................................................................... 6
Bảng 1.5: Mô tả dữ liệu đặc trưng cấu trúc Spaghetti .................................................. 7
Bảng 2.1: Dữ liệu thời tiết .......................................................................................... 22
Bảng 2.2: So sánh Gain của các thuộc tính tại nút gốc .............................................. 22
Bảng 2.3: So sánh Gain trong nhánh "Quang cảnh" = "Nắng" .................................. 23
Bảng 2.4: So sánh Gain trong nhánh "Quang cảnh" = "Mưa" ................................... 24
Bảng 2.5: Dữ liệu thời tiết xét thuộc tính độ ẩm dạng số ........................................... 29
Bảng 2.6: Bảng tính Gain ........................................................................................... 30
Bảng 2.7: Dữ liệu thời tiết xét thuộc tính ngày .......................................................... 30
Bảng 2.8: Bảng quan hệ không gian .......................................................................... 37

Bảng 2.9: Bảng quan hệ không gian và độ đo không gian ........................................ 42
Bảng 2.10: Bảng quan hệ không gian đã lược thuộc tính Object ID.......................... 44
Bảng 2.11: Bảng quan hệ không gian: khoảng cách đến sông gần nhất .................... 45
Bảng 2.12: Bảng quan hệ không gian rút gọn (đầu vào thuật toán) ........................... 46
Bảng 3.1: Kết quả thực nghiệm đánh giá thời gian thực hiện thuật toán ................... 59
Bảng 4.1: So sánh tổng quan các thuật toán K-means, DBSCAN và DBRS ............. 72
Bảng 4.2: Kết quả so sánh thời gian thực hiện phân cụm cùng tập dữ liệu ............... 73


9

DANH MỤC CÁC HÌNH
Hình 1.1: Đối tượng dữ liệu cơ bản điểm, đường vùng ............................................... 4
Hình 1.2: Biểu diễn đối tượng bằng mô hình dữ liệu Raster........................................ 4
Hình 1.3: Bản đồ minh họa cấu trúc Topology ............................................................ 5
Hình 1.4: Minh họa dữ liệu Spaghetti .......................................................................... 7
Hình 1.5: Các bước của quá trình khai phá dữ liệu ..................................................... 8
Hình 2.1: Cây quyết định ........................................................................................... 13
Hình 2.2: Phân lớp sử dụng thuộc tính "Quang cảnh" .............................................. 23
Hình 2.3: Phân nhánh "Quang cảnh" = "Nắng" ........................................................ 23
Hình 2.4: Cây nhánh "Quang cảnh" = "Nắng" .......................................................... 24
Hình 2.5: Cây quyết định tính toán từ thuật toán ID3 ................................................ 24
Hình 2.6: Xác định giá trị phân chia kiểu số .............................................................. 30
Hình 2.7: Chỉ mục kết nối không gian ...................................................................... 33
Hình 2.8: Các Layer dự báo cháy rừng ..................................................................... 36
Hình 2.9: Layer mục tiêu và Layer phủ bề mặt và mật độ dân số ............................. 37
Hình 2.10: Cây quyết định không gian ...................................................................... 39
Hình 2.11: Mô tả Object ID các Layer ...................................................................... 41
Hình 2.12: Quan hệ không gian giữa Layer mục tiêu và các Layer mô tả ................ 41
Hình 2.13: Thống kê Layer phủ bề mặt theo loại phủ bề mặt ................................... 43

Hình 2.14: Thống kê Layer mật độ dân số theo loại mật độ dân số .......................... 47
Hình 2.15: Thống kê Layer khoảng cách đến sông gần nhất .................................... 47
Hình 2.16: Phân lớp Layer phủ bề mặt theo loại phủ bề mặt .................................... 48
Hình 2.17: Nhánh Dryland forest - thống kê Layer mật độ dân số ........................... 48
Hình 2.18: Nhánh Dryland forest - thống kê khoảng cách đến sông gần nhất .......... 49
Hình 3.1: Minh họa thuật toán k-mean .......................................................................... 52
Hình 3.2: Phân cụm phân cấp ....................................................................................... 53
Hình 3.3: Kề mật độ trực tiếp ...................................................................................... 55
Hình 3.4: Kề mật độ .................................................................................................... 55
Hình 3.5: Kết nối theo mật độ ...................................................................................... 55
Hình 3.6: Minh họa đồ thị khoảng các .......................................................................... 58
Hình 3.7: Các cụm phát hiện được bởi CLARANS và DBSCAN ................................. 59
Hình 3.8: Các cụm được phát hiện bởi DBRS, DBSCAN, K-Means, CLARANS ............ 63
Hình 3.9: Phân cụm dựa theo lưới vùng ....................................................................... 63
Hình 4.1: Biểu đồ ca sử dụng ..................................................................................... 67
Hình 4.2: Biểu đồ hoạt động của thuật toán phân cụm đã cài đặt K-means .............. 67
Hình 4.3: Biểu đồ hoạt động của thuật toán phân cụm đã cài đặt DBSCAN ........... 68
Hình 4.4: Biểu đồ hoạt động của thuật toán phân cụm đã cài đặt DBRS ................. 69
Hình 4.5: Phân cu ̣m lớp dữ liê ̣u "Khách sạn-nhà hàng" trong nô ̣i thành Hà Nô ̣i, các
vùng màu vàng là các cụm tìm được ......................................................................... 70
Hình 4.6: Hình ảnh chồng phủ (vùng màu vàng) của các cụm “Siêu thi”̣ và các cu ̣m
“Khách sa ̣n- nhà khách” . .....................................................................................71


10

Hình 4.7: Kết quả phân cụm DBSCAN đối với dữ liệu thử nghiệm tự tạo ............... 71
Hình 4.8: Khả năng phát hiện nhiễu và cụm của K-means và DBSCAN ................. 72
Hình 4.9: : Khả năng phân cụm theo thuộc tính của DBSCAN và DBRS ................. 72
Hình 4.10: Đồ thị so thời gian thực hiện phân cụm của các thuật toán K-measn,

DBSCAN và DBRS với cùng một tập dữ liệu đầu vào .............................................. 74


1

MỞ ĐẦU
1. Đặt vấn đề
Những tiến bộ trong các công nghệ CSDL và các kỹ thuật thu thập dữ liệu như đọc
mã số mã vạch, viễn thám, ghi nhận thông tin từ các vệ tinh,… đã tạo ra một lượng lớn
thông tin, dữ liệu. Việc dữ liệu tăng lên nhanh với quy mô lớn đòi hỏi phải được khai phá
để trích chọn ra các tri thức hữa ích phục vụ cho công tác chuyên môn. Chính điều này đã
dẫn đến sự ra đời của lĩnh vực khai phá dữ liệu hay khai phá tri thức trong các CSDL.
Khai phá tri thức trong các CSDL có thể được định nghĩa là khai phá tri thức đáng quan
tâm, tiềm ẩn và chưa biết trước trong các CSDL. Khai phá dữ liệu là sự kết hợp của một
số lĩnh vực bao gồm học máy, các hệ thống CSDL, thể hiện dữ liệu, thống kê và lý thuyết
thông tin.
Đã có nhiều nghiên cứu về khai phá dữ liệu trong các CSDL quan hệ và giao dịch,
nhưng đối với các CSDL không gian vấn đề khai phá dữ liệu vẫn còn là những thách thức
cần được giải quyết.
Dữ liệu không gian là dữ liệu liên quan đến các đối tượng trong không gian. Một
CSDL không gian lưu trữ các đối tượng không gian bao gồm các kiểu dữ liệu không gian
và các quan hệ không gian giữa các đối tượng. Dữ liệu không gian mang thông tin hình
học và khoảng cách thường được tổ chức theo các cấu trúc chỉ mục không gian và truy
cập bằng các phương pháp truy cập không gian. Chính các đặc trưng khác biệt này của
các CSDL không gian đã đặt ra nhiều trở ngại nhưng cũng mang đến nhiều cơ hội cho
khai phá tri thức từ CSDL không gian. Khai phá dữ liệu không gian hay khai phá tri thức
trong CSDL không gian là trích trọn ra các tri thức tiềm ẩn, các quan hệ không gian hay
các mẫu chưa rõ lưu trữ trong các CSDL không gian.
Các nghiên cứu trước đây về học máy, các hệ thống CSDL và thống kê đã đặt nền
móng cho nghiên cứu khai phá tri thức trong các CSDL. Và những tiến bộ của các CSDL

không gian như cấu trúc dữ liệu không gian, lập luận không gian, tính toán hình học,…
đã mở đường cho khai phá dữ liệu không gian. Trở ngại lớn nhất trong khai phá dữ liệu
không gian là hiệu quả của các thuật toán khai phá dữ liệu không gian do lượng dữ liệu


2

không gian thường là có quy mô lớn, các kiểu dữ liệu không gian và các phương pháp
truy cập không gian phức tạp.
Các phương pháp khai phá dữ liệu không gian tập trung theo ba hướng chính là
khai phá luật kết hợp không gian, phân lớp dữ liệu không gian và phân cụm dữ liệu
không gian. Với mong muốn nghiên cứu về phân lớp dữ liệu không gian sử dụng cây
quyết định, luận văn đi sâu tìm hiểu một lĩnh vực nhỏ đó là phân lớp dữ liệu không gian
sử dụng cây quyết định.
2. Mục tiêu của luận văn
Luận văn tập trung nghiên cứu kỹ thuật phân lớp không gian sử dụng cây quyết
định và phân cụm dữ liệu nhằm trích rút ra các dữ liệu địa lý có ích tiềm ẩn bên trong. Cụ
thể luận văn hướng vào các công việc:
- Thu thập một số lớp dữ liệu bản đồ (bao gồm cả dữ liệu hình học và dữ liệu thuộc
tính) để thử nghiệm với thuật toán phân lớp dữ liệu không gian sử dụng cây quyết định.
- Nghiên cứu một số thuật toán phân lớp dữ liệu quan hệ dựa trên cây quyết định
đối với cơ sở dữ liệu truyền thống, đề xuất mở rộng áp dụng trên dữ liệu địa lý.
- Nghiên cứu một số thuật toán phân lớp dữ liệu quan hệ dựa trên phân cụm dữ liệu
- Cài đặt chương trình thử nghiệm thuật toán lựa chọn trên dữ liệu hình học và dữ
liệu thuộc tính của một số lớp bản đồ.
3. Tóm tắt nội dung luận văn
Phần còn lại của luận văn được tổ chức như sau:
Chƣơng 1: Tổng quan về dữ liệu không gian và khai phá dữ liệu. Bao gồm các
phần như: Giới thiệu khái quát về dữ liệu địa lý, khai phá dữ liệu, cây quyết định.
Chƣơng 2: Khai phá dữ liệu không gian sử dụng cây quyết định. Bao gồm: Giới

thiệu một số kỹ thuật khai khai phá dữ liệu sử dụng cây quyết định trên cơ sở dữ liệu
quan hệ truyền thống, vận dụng đề xuất thuật toán trong khai phá dữ liệu không gian.
Chƣơng 3: Khai phá dữ liệu không gian bằng phân cụm dữ liệu.
Chƣơng 4: Cài đặt chương trình thử nghiệm. Bao gồm mô tả bài toán, xây dựng dữ
liệu thử nghiệm, thiết kế chương trình, cài đặt thuật toán và đánh giá kết quả thử nghiệm.
Kết luận trình bày những nghiên cứu về phân lớp dữ liệu không gian sử dụng cây
quyết định, những đóng góp của luận văn và những định hướng nghiên cứu sắp tới.


3

CHƢƠNG I:
TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI
PHÁ DỮ LIỆU
1.1. Tổng quan về dữ liệu không gian địa lý
1.1.1. Một số khái niệm
- Đối tượng địa lý: Trên bản đồ, các đối tượng như trạm xe bus, bến tàu, trạm xăng
là các thực thể dữ liệu quản lý, còn được gọi là đối tượng địa lý. Một trạm xăng trên bản
đồ là một thể hiện cụ thể của đối tượng địa lý trạm xăng.
- Dữ liệu địa lý và cơ sở dữ liệu địa lý: Dữ liệu địa lý là thông tin về các đối tượng địa lý
được mã hóa trong máy tính. Cơ sở dữ liệu địa lý là một tập hợp các dữ liệu địa lý có chuẩn
cấu trúc được lưu trữ trên máy tính và các thiết bị lưu trữ thông tin khác, có thể thỏa mãn
yêu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương trình
ứng dụng với nhiều mục đích khác nhau.
- Dữ liệu không gian và dữ liệu phi không gian: Một đối tượng địa lý chứa các
thông tin dữ liệu không gian và dữ liệu phi không gian.
+ Dữ liệu không gian: Dữ liệu không gian được sử dụng theo nghĩa rộng bao gồm
các điểm đa chiều, các đường thẳng, hình khối,...và các đối tượng hình học nói chung.
Mỗi đối tượng này chiếm một vùng không gian được đặc trưng bởi hai thuộc tính vị trí và
biên. Trong luận văn, khái niệm dữ liệu không gian được hiểu đơn giản hơn, dữ liệu

không gian mô tả các đối tượng địa lý được thể hiện dưới dạng hình học, được quản lý
bằng hình thể và được biểu diễn dưới ba dạng đối tượng cơ bản là điểm, đường, vùng.
+ Dữ liệu phi không gian: Một đối tượng địa lý ngoài các thuộc tính không gian còn
có các thông tin thuộc tính khác. Ví dụ con đường có thể có các thông tin như tên đường,
độ rộng, chất liệu làm đường, đơn vị quản lý, thời gian đưa vào sử dụng, ... Các thuộc
tính này gọi là các thông tin thuộc tính phi không gian (dữ liệu phi không gian). Dữ liệu
phi không gian đôi khi gọi tắt là dữ liệu thuộc tính.
- Hệ thống GIS: Khi đề cập đến dữ liệu địa lý, hệ thống thông tin địa lý (Geographic
Information System - gọi tắt là GIS) thường được nhắc đến bởi GIS sử dụng dữ liệu địa
lý. GIS được hình thành vào những năm 1960 và phát triển mạnh trong 10 năm lại đây.
Xét dưới góc độ hệ thống, GIS có thể được hiểu như một hệ thống gồm các thành phần:
phần cứng, phần mềm, dữ liệu và con người (người dùng và các quy định, chính sách liên
quan đến duy trì, phát triển hệ thống).
- Các phương pháp mô hình hóa đối tượng địa lý (mô hình dữ liệu địa lý):


4

Mô hình dữ liệu địa lý là mô hình dữ liệu sử dụng trong hệ thống thông tin địa lý, là
sự hình dung thế giới giới thực được sử dụng trong GIS để tạo các bản đồ, trình diễn các
truy vấn giữa người và máy và thực hiện các phép xử lý, phân tích.
Có nhiều mô hình dữ liệu được sử dụng trong hệ thống thông tin địa lý, tuy nhiên,
phổ biến nhất trong biểu diễn thành phần không gian của thông tin địa lý là hai mô hình
dữ liệu cơ bản Vector và Raster.
+ Mô hình dữ liệu Vector: sử dụng các đường hay điểm, được xác định tường minh
bằng các tọa đọa x, y của chúng trên bản đồ.
Điểm: Dùng cho tất cả các đối tượng không gian được biểu diễn như một cặp tọa độ (x,
y). Ngoài giá trị tọa độ (x, y), điểm còn thể hiện kiểu điểm, màu, hình dạng và dữ liệu thuộc
tính đi kèm. Do đó, trên bản đồ điểm có thể được biểu hiện bằng ký hiệu hoặc văn bản.


Hình 1.1. Đối tượng dữ liệu cơ bản Điểm, Đường, Vùng
Đường: Dùng để biểu diễn tất cả các thực thể có dạng tuyến, được tạo nên từ hai
hoặc nhiều hơn cặp tọa độ (x, y). Ngoài tọa độ, đường còn có thể bao hàm cả góc quay tại
đầu mút.
Vùng: là một đối tượng hình học hai chiều. Vùng có thể là một đa giác đơn giản hay
tập hợp của nhiều đa giác đơn giản. Do một vùng được cấu tạo từ nhiều đa giác nên cấu
trúc dữ liệu của đa giác phải ghi lại được sự thể thiện của các thành phần này và các phần
tử cấu tạo nên đa giác.
+ Mô hình dữ liệu Raster: Sử dụng tập hợp các ô. Cấu trúc đơn giản nhất là mảng
gồm các ô của bản đồ. Mỗi ô trên bản đồ được biểu diễn bởi tổ hợp tọa độ (hàng, cột) và
một giá trị biểu diễn kiểu hoặc thuộc tính của ô đó trên các bản đồ. Trong cấu trúc này,
mỗi ô tương ứng là một điểm. Khái niệm đường là một dạng của các ô liền nhau có cùng
giá trị biểu diễn. Miền là một nhóm các ô liền nhau có cùng một giá trị biểu diễn.

Hình 1.2. Biểu diễn đối tượng bằng mô hình dữ liệu Raster


5

1.1.2. Mô hình dữ liệu Vector
Mô hình dữ liệu Vector được sử dụng để miêu tả các đối tượng được xác định chính
xác vị trí, kích thước và hình dạng. Dữ liệu Vector có khả năng phân giải cao và in ấn xuất
bản tương tự như bản đồ làm bằng tay. Dữ liệu Vector cần ít không gian lưu trữ và duy trì
mối quan hệ hình học dễ dàng. Hai loại cấu trúc được biết đến trong mô hình dữ liệu Vector
là cấu trúc Spaghetti và cấu trúc Topology. Cấu trúc Spaghetti ra đời trước và được sử dụng
cho đến ngày nay ở một số các phần mềm GIS như phần mềm Arcview GIS, ArcGIS,
MapInfo,… Cấu trúc Topology ra đời trên nền tảng của mô hình dữ liệu cung – nút.
- Cấu trúc Topology:
Trong GIS, khi biết hình dạng hình học, vị trí, kích thước và hệ tọa độ của đối
tượng chỉ mới đáp ứng được tính đầy đủ của dữ liệu GIS. Topology thể hiện mối quan hệ

hoặc sự liên kết giữa các đối tượng trong không gian. Trong cấu trúc Topology, các đối
tượng địa lý được mô tả trong bốn bảng. Ba bảng đầu lưu trữ các phần tử không gian
vùng, nút, cung. Bảng thứ tư lưu trữ tọa độ nút đầu, nút cuối và đỉnh.
Cho bản đồ như hình sau:

Hình 1.3. Bản đồ minh họa cấu trúc Topology
Bảng Topology vùng xác định những cung làm đường biên của vùng, phần bên
ngoài bản đồ cũng được xem như một vùng không xác định cung đường biên.
Topology vùng
Vùng
Cung
A
a1, a5, a3
B
a2, a5, 0, a6, 0, a7
C
a7
D
a6
E
vùng ngoài
Bảng 1.1. Topology vùng


6

Bảng Topology nút xác định mỗi nút thuộc những cung nào.
Topology nút
Nút
N1

N2
N3
N4
N5
N6

Cung
a1, a3, a4
a1, a2, a5
a2, a3, a5
a4
a6
a7

Bảng 1.2. Topology nút
Bảng Topology cung xác định quan hệ của nút và vùng với cung.
Topology cung
Cung
Nút đầu
Nút cuối Vùng trái Vùng phải
a1
N1
N2
E
A
a2
N2
N3
E
B

a3
N3
N1
E
A
a4
N4
N1
A
A
a5
N3
N2
A
B
a6
N5
N5
B
B
a7
N6
N6
B
C
Bảng 1.3. Topology cung
Từ 3 bảng này, có thể phân tích các quan hệ của các phần tử trong bản đồ.
Bảng thứ tư lưu trữ tọa độ của các cung bằng cách lưu trữ tọa độ của các nút và đỉnh
của cung, để từ đó vị trí của mỗi phần tử trên bản đồ được liên hệ với thế giới thực. Cấu
trúc Topology rất thích hợp với những toán tử phân tích không gian, nhất là những bài

toán kề và kết nối. Trong đó, cấu trúc Topology định rõ các liên kết.
Dữ liệu tọa độ cung
Cung
Nút đầu (x, y)
Đỉnh Vertex (x, y)
Nút cuối (x, y)
a1
40, 60
70, 60
70, 50
a2
70, 50
10, 70; 10, 10
10, 25
a3
10, 25
10, 60
40, 60
a4
40, 60
30, 50
30, 40
a5
10, 25
20, 27; 30, 30; 50, 32
70, 50
a6
30, 20
30, 20
a7

55, 27
55, 15; 40, 15; 45, 27
55, 27
Bảng 1.4. Dữ liệu tọa độ cung
- Cấu trúc Spaghetti: về bản chất cấu trúc này, điểm và đường được biểu diễn đơn
thuần là vị trí, hầu như không có mô tả rõ ràng cấu trúc Topology.
Trong cấu trúc dữ liệu Spaghetti, đơn vị cơ sở là các cặp tọa độ trên một không gian
địa lý xác định. Do đó, mỗi đối tượng điểm được xác định bằng một cặp tọa độ (x, y);


7

mỗi đối tượng đường được biểu diễn bằng một chuỗi những cặp tọa độ (xi, yi); mỗi đối
tượng vùng được biểu diễn bằng một chuỗi những cặp toạ độ (xj, yj) với điểm đầu và
điểm cuối trùng nhau. Minh họa cho dữ liệu Spaghetti như hình vẽ sau:

Hình 1.4. Minh họa dữ liệu Spaghetti
Bảng mô tả đặc trưng của cấu trúc Spaghetti
Đặc trƣng
Điểm A
Điểm B
Cung AB
Vùng a
Vùng b

Vị trí
(xA, yA)
(xB, yB)
(xA, yA), (xB, yB)
(xA, yA), (xa1, ya1), …, (xa5, ya5) , (xB, yB), (xA, yA)

(xA, yA), (xb1, yb1), (xb2, yb2), (xb3, yb3) , (xB, yB), (xA, yA)

Bảng 1.5. Mô tả dữ liệu đặc trưng cấu trúc Spaghetti
Đặc điểm: Cấu trúc Spaghetti không ghi nhận đặc trưng kề nhau của hai vùng kề
nhau, nghĩa là tại hai vùng kề nhau sẽ có hai cạnh chung kề nhau, cạnh chung của hai
vùng kề nhau là hai cạnh độc lập nhau. Ở thí dụ trên vùng a và vùng b có chung cạnh AB.
1.1.3. Quan hệ không gian giữa các đối tượng địa lý
Có ba kiểu quan hệ không gian chính là: quan hệ khoảng cách, quan hệ hướng và
quan hệ Topo.
Quan hệ khoảng cách dựa trên khoảng cách Euclid giữa 2 đối tượng địa lý.
Quan hệ hướng thể hiện vị trí của đối tượng này so với các đối tượng khác trong
quan hệ không gian.
Quan hệ Topo có kiểu đặc trưng điển hình là giao giữa hai đối tượng địa lý và
chúng bất biến trên các phép biến đổi hình học như quay và co giãn. Có nhiều phương
pháp để xác định các quan hệ Topo giữa các điểm, đường, vùng. Hầu như, chúng đều dựa
trên mô hình giao nhau như: bên trong và đường bao hoặc bên trong, bên ngoài và đường
bao. Phép giao là sự phối hợp của các toán tử logic và(  ) và hoặc(  ). Các mô hình giao
nhau xác định 8 quan hệ Topo nhị phân là: cắt(crosses), chứa(contains), trong(within),
bao(covers), bao bở(-coveredBy), trùng(equals), không nối(disjoint), chồng(overlaps).


8

1.2. Khai phá dữ liệu
1.2.1. Định nghĩa khai phá dữ liệu
Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL.
Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước
kia (ví dụ như phương pháp thống kê).
Quy trình phát hiện tri thức thường tuân theo các bước sau:


Hình 1.5. Các bước của quá trình khai phá dữ liệu
- Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán. Là tìm hiểu lĩnh vực
ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành. Bước
này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương
pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu.
- Bước thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý thô, còn được
gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lý việc thiếu dữ liệu
(làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường
chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức. Do dữ liệu được lấy
từ nhiều nguồn khác nhau, không đồng nhất, có thể gây ra các nhầm lẫn. Sau bước này,
dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và rời rạc hoá.
- Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức. Là khai phá dữ liệu, hay nói
cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu. Giai đoạn này rất
quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích của khai phá
dữ liệu, dùng phương pháp khai phá nào? Thông thường, các bài toán khai phá dữ liệu
bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung nhất của dữ liệu, các bài
toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có. Tùy theo
bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp.


9

- Bước thứ tư: Là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự
đoán. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy
trung bình trên tất cả các lần thực hiện.
- Bước thứ năm: Sử dụng các tri thức phát hiện được. Là hiểu tri thức đã tìm được,
đặc biệt là làm sáng tỏ các mô tả và dự đoán.
Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy
trung bình trên tất cả các lần thực hiện. Các kết quả của quá trình phát hiện tri thức có thể
được đưa và ứng dụng trong các lĩnh vực khác nhau. Do các kết quả có thể là các dự đoán

hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự
động hoá quá trình này.
1.2.2. Nhiệm vụ chính trong khai phá dữ liệu
Nhiệm vụ chính trong khai phá dữ liệu bao gồm : Phân lớp, Hồi qui, Phân nhóm,
Tổng hợp, Mô hình hoá sự phụ thuộc và Phát hiện sự biến đổi và độ lệch.
- Phân lớp (phân loại - Classification)
Là việc xác định một ánh xạ để ánh xạ các mẫu dữ liệu thỏa mãn ràng buộc nào đó
vào cùng một lớp, do đó dữ liệu sẽ được phân thành các lớp có thể giao nhau hoặc không.
Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự
báo và thuộc tính phân lớp. Như thế quá trình phân lớp có thể sử dụng mối quan hệ này
để dự báo cho các mục mới. Các kiến thức được phát hiện biểu diễn dưới dạng các luật
theo cách sau: “Nếu các thuộc tính dự báo của một mục thoả mãn điều kiện của các tiền
đề thì mục nằm trong lớp chỉ ra trong kết luận”.
- Hồi qui (regression)
Là việc dùng một hàm dự báo để từ các mẫu dữ liệu đã có hàm dự báo sẽ cho một
giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính là ở chỗ
thuộc tính để dự báo là liên tục chứ không phải rời rạc. Việc dự báo các giá trị số thường
được làm bởi các phương pháp thống kê cổ điển, chẳng hạn như hồi quy tuyến tính. Tuy
nhiên, phương pháp mô hình hoá cũng được sử dụng, ví dụ: cây quyết định.
Ứng dụng của hồi quy: dự báo thời tiết, ước lượng sác xuất người bệnh có thể
chết bằng cách kiểm tra các triệu chứng; dự báo nhu cầu của người dùng đối với một sản
phẩm, kháng sản,…
- Phân nhóm (clustering)
Là việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ liệu. Các nhóm
có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ liệu có thể vừa thuộc
nhóm này lại vừa thuộc nhóm khác. Các ứng dụng khai phá dữ liệu có nhiệm vụ phân
nhóm như phát hiện tập các khách hàng có phản ứng giống nhau trong CSDL tiếp thị; xác
định các quang phổ từ các phương pháp đo tia hồng ngoại, … Liên quan chặt chẽ đến



10

việc phân nhóm là nhiệm vụ đánh giá dữ liệu, hàm mật độ xác suất đa biến/ các trường
trong CSDL.
- Tổng hợp (summarization)
Là công việc liên quan đến các phương pháp tìm kiếm một mô tả tập con dữ liệu.
Kỹ thuật tổng hợp thường áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo
cáo tự động.
Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho một lớp. Mô tả loại này là
một kiểu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu hết các mục của một
lớp. Các mô tả đặc trưng thể hiện theo luật có dạng sau: “Nếu một mục thuộc về lớp đã
chỉ trong tiền đề thì mục đó có tất cả các thuộc tính đã nêu trong kết luận”. Lưu ý rằng
luật dạng này có các khác biệt so với luật phân lớp. Luật phát hiện đặc trưng cho lớp chỉ
sản sinh khi các mục đã thuộc về lớp đó.
- Mô hình hoá sự phụ thuộc (dependency modeling)
Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai
mức:
+ Mức cấu trúc của mô hình mô tả (thường dưới dạng đồ thị). Trong đó, các biến
phụ thuộc bộ phận vào các biến khác.
+ Mức định lượng mô hình mô tả mức độ phụ thuộc. Những phụ thuộc này thường
được biểu thị dưới dạng theo luật “nếu - thì” (nếu tiền đề là đúng thì kết luận đúng).
- Phát hiện sự biến đổi và độ lệch (change and deviation dectection)
Nhiệm vụ này tập trung vào khám phá hầu hết sự thay đổi có nghĩa dưới dạng độ đo
đã biết trước hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ
liệu thực và nội dung mong đợi. Hai mô hình độ lệch hay dùng là lệch theo thời gian hay
lệch theo nhóm.
1.2.3. Các phương pháp khai phá dữ liệu
- Các thành phần của giải thuật khai phá dữ liệu: Giải thuật khai phá dữ liệu bao
gồm 3 thành phần chính như sau: biểu diễn mô hình, kiểm định mô hình và phương pháp
tìm kiếm.

+ Biểu diễn mô hình: Mô hình được biểu diễn theo một ngôn ngữ nào đó để miêu tả
các mẫu có thể khai thác được. Mô tả mô hình rõ ràng thì học máy sẽ tạo ra mẫu có mô
hình chính xác cho dữ liệu. Tuy nhiên, nếu mô hình quá lớn thì khả năng dự đoán của học
máy sẽ bị hạn chế. Khả năng miêu tả mô hình càng lớn thì càng làm tăng mức độ nguy
hiểm do bị học quá và làm giảm đi khả năng dự đoán các dữ liệu chưa biết. Hơn nữa, việc
tìm kiếm sẽ càng trở lên phức tạp hơn và việc giải thích mô hình cũng khó khăn hơn.
Mô hình ban đầu được xác định bằng cách kết hợp biến đầu ra (phụ thuộc) với các


11

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]

Đặng Văn Đức, Hệ thống thông tin địa lý, NXB Khoa học và kỹ thuật, 2001.

[2]

Lê Thị Hồng, 2011. Kỹ thuật khai phá luật kết hợp không gian trong CSDL địa lý. Luận
văn tốt nghiệp Thạc sỹ Khoa học máy tính, Đại học Công nghệ thông tin và Truyền
thông, Đại học Thái Nguyên, Thái Nguyên, Việt Nam.

Tiếng Anh
[3]

[4]

[5]
[6]

[7]

[8]
[9]
[10]
[11]

[12]
[13]
[14]

[15]
[16]

Chelghoum, N.; Karine, Z.; Azedine, B., “A Decision Tree for MultiLayered Spatial
Data” in Symposium on Geospatial Theory, Processing and Applications, Ottawa,
2002.
Clementini, E.; Felice, P.D.; Oosterorn, O., A small set of formal topological
relationships suitable for end-user interaction. Lecture Notes in Computer Science.
New York: Springer, pp. 277–295, 1993.
Egenhofer, M.J.; Robert, D.F., “Point-set topological spatial relations” International
Journal of Geographical Information Systems, vol. 5(2), pp. 161 – 174, 1991.
Ester, M.; Hans-Peter, K.; Jorg, S., “Spatial Data Mining: A Database Approach” in
Proc. of the Fifth Int. Symposium on Large Spatial Databases, Berlin, Germany, 1997.
Ester, M.; Hans-Peter, K.; Jorg, S., “Algorithms and Applications for Spatial Data
Mining” Geographic Data Mining and Knowledge Discovery, Research Monographs
in GIS, Taylor and Francis, 2001.
Han, J.; Kamber, M.; Data Mining Concepts and Techniques, 2nd ed., San Diego,
USA: Morgan-Kaufmann, 2006.
Koperski, K.; Han, J.; Stefanovic, N., “An efficient two-step method for classification

of spatial data” In Symposium on Spatial Data Handling, 1998.
Quinlan, J.R., “Induction of Decision Trees” Machine Learning, vol. 1, Kluwer
Academic Publishers, Boston, pp. 81-106, 1986.
Rinzivillo, S.; Franco, T., Classification in Geographical Information Systems.
Lecture Notes in Artificial Intelligence. Berlin Heidelberg: Springer-Verlag, pp. 374385, 2004.
Valduriez, P., “Join indices” ACM Trans. on Database Systems, vol. 12(2), pp. 218246, June 1987.
Sitanggang. I.M. ; Yaakob, R. ; Mustapha, N. ; Nuruddin, A.A.B., An extended ID3
decision tree algorithm for spatial data, IEEE International Conference. 2011.
Zeitouni, K.; Yeh, L.; Aufaure, M.A., “Join Indices as a Tool for Spatial Data Mining”
in International Workshop on Temporal, Spatial and Spatio-Temporal Data Mining,
2000.
Zeitouni, K.; Nadjim, C., “Spatial Decision Tree – Application to Traffic Risk
Analysis” in ACS/IEEE International Conference, IEEE, 2001.
ESRI Geodatabase, Website: .

[17] />


×