Tải bản đầy đủ (.pdf) (175 trang)

Phát triển các mô hình và thuật toán biểu diễn, xử lý, khai thác dữ liệu không gian và ứng dụng giải một số bài toán GIS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.56 MB, 175 trang )

MỤC LỤC
DANH MỤC HÌNH .................................................................................................vi
DANH MỤC BẢNG.................................................................................................xi
Chương 1.

TỔNG QUAN .....................................................................................1

1.1.

Động lực ........................................................................................................2

1.2.

Phạm vi luận án .............................................................................................6

1.3.

Hướng tiếp cận .............................................................................................7

1.4.

Tổ chức luận án .............................................................................................9

Chương 2.

XỬ LÝ DỮ LIỆU KHÔNG GIAN ...................................................11

2.1.

Giới thiệu.....................................................................................................11


2.2.

Cấu trúc chỉ mục không gian.......................................................................11

2.2.1.

R-tree ....................................................................................................12

2.2.2.

Kd-Tree.................................................................................................14

Tìm kiếm lân cận gần nhất dựa theo cây Kd-tree ..............................................15
2.3.

Lưới tam giác Delaunay ..............................................................................16

2.3.1.

Các khái niệm cơ bản và định nghĩa.....................................................17

2.3.2.

Mô hình biểu diễn dữ liệu.....................................................................18

2.3.3.

Tối ưu cục bộ ........................................................................................25

2.3.4.


Kiểm tra điều kiện Delaunay ................................................................26

2.4.

Các thuật toán xây dựng lưới tam giác Delaunay .......................................27

2.4.1.

Phương pháp chèn đỉnh tuần tự ............................................................27

2.4.2.

Phương pháp chia để trị ........................................................................37

2.4.3.

Thuật toán song song xây dựng lưới tam giác Delaunay .....................40

2.5.

Thuật toán xây dựng lưới tam giác Delaunay ràng buộc ............................45

2.5.1.

Loại bỏ các tam giác giao .....................................................................46

i



2.5.2.
2.6.

Tạo lưới tam giác cho các đa giác giả ..................................................47

Một số đặc thù khi cài đặt các thuật toán xây dựng lưới tam giác Delaunay

và lưới tam giác Delaunay ràng buộc ....................................................................50
2.7.

Các kết quả thử nghiệm...............................................................................53

2.8.

Kết luận .......................................................................................................58

Chương 3.

XÂY DỰNG HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU KHAI THÁC DỮ

LIỆU KHÔNG GIAN ...............................................................................................60
3.1.

Giới thiệu.....................................................................................................60

3.2.

Hệ cơ sở dữ liệu không gian........................................................................62

3.2.1.


Mô hình hóa..........................................................................................63

3.2.2.

Cấu trúc chỉ mục...................................................................................67

3.2.3.

Kiến trúc hệ thống cơ sở dữ liệu không gian........................................69

3.3.

Hệ quản trị cơ sở dữ liệu GeoBase..............................................................71

3.3.1.

Tiêu chí thiết kế GeoBase.....................................................................71

3.3.2.

Các tính năng cơ bản của GeoBase ......................................................71

3.4.

Tổng quan về khai thác dữ liệu không gian ................................................76

3.4.1.

Giới thiệu ..............................................................................................77


3.4.2.

Khai thác dữ liệu ...................................................................................77

3.4.3.

Khai thác dữ liệu không gian................................................................78

3.4.4.

Các quan hệ không gian lân cận ...........................................................78

3.5.

Một số thuật toán khai thác dữ liệu không gian ..........................................79

3.5.1.

Bài toán lân cận gần nhất (nearest neighbor search – NNS) ................79

3.5.2.

Bài toán tìm các đối tượng quan tâm xung quanh tuyến đường hoạch

định

87

3.6.


Kết luận .......................................................................................................94

Chương 4.

ỨNG DỤNG ĐỂ GIẢI QUYẾT CÁC BÀI TOÁN GIS ..................96

ii


4.1.

Giới thiệu.....................................................................................................96

4.2.

Một số thuật toán cho các bài toán GIS cơ bản ...........................................97

4.2.1.

Bài toán tạo các vùng từ lưới tam giác .................................................97

4.2.2.

Bài toán tạo vùng đệm ..........................................................................98

4.2.3.

Bài toán hiệu chỉnh dữ liệu không gian từ nhiều nguồn khác nhau ...102


4.3.

Các bài toán ứng dụng trên mạng giao thông............................................105

4.3.1.

Giới thiệu ............................................................................................105

4.3.2.

Mô hình biểu diễn mạng giao thông ...................................................107

4.3.3.

Thuật toán xây dựng mạng giao thông ...............................................114

4.3.4.

Bài toán tìm đường đi ngắn nhất ........................................................118

4.4.

Mô hình cao độ số (DEM).........................................................................131

4.4.1.

Khái niệm về mô hình cao độ số ........................................................131

4.4.2.


Thuật toán tạo dữ liệu cho mô hình DEM ..........................................132

4.5.

Kết luận .....................................................................................................135

Chương 5.

KẾT LUẬN .....................................................................................137

5.1.

Các đóng góp trong luận án.......................................................................137

5.2.

Những vấn đề cần tiếp tục nghiên cứu ......................................................138

TÀI LIỆU THAM KHẢO TIẾNG ANH ..........................................................140
TÀI LIỆU THAM KHẢO TIẾNG NGA ..........................................................146
1. Tổng quan về thư viện GEOLIB ...............................................................147
1.1.

Mô hình biểu diễn ..................................................................................147

1.2.

Các phép toán không gian .....................................................................147

1.3.


Quan hệ không gian ...............................................................................148

1.4.

Các thuật toán không gian .....................................................................148

1.5.

Các cấu trúc dữ liệu không gian ............................................................148

iii


1.6.

Nhập/xuất dữ liệu...................................................................................148

1.7.

Các cấu trúc dữ liệu phi không gian......................................................148

2. Tổng quan về hệ GEOBASE......................................................................151
2.1.

Sơ đồ thiết kế dữ liệu..............................................................................151

2.2.

Quản lý bộ nhớ.......................................................................................154


3. Một số ứng dụng .........................................................................................156

iv


DANH MỤC CÁC TỪ VIẾT TẮT
GIS

Geographic Information System

TIN

Triangulated Irregular Network

DT

Delaunay Triangulation

CDT

Constraint Delaunay Triangulation

SDT

Spatial Data Type

VLSI

Very-Large-Scale Integration


OGC

Open Geospatial Consortium

CAD

Computer Aided Design

DBMS

Database Management System

SDBMS Spatial Database Management System
POI

Point Of Interest

GA

Genetic Algorithm

TSP

Travelling Salesman Problem

VRP

Vehicle Routing Problem


AI

Artificial Intelligence

KDD

Knowledge-Discovery in Databases

SDM

Spatial Datamining

BTS

Base Transceiver Station

GPS

Global Positioning System

v


DANH MỤC HÌNH
Hình 2.1. (a) R-Tree cho tập các đoạn thẳng và (b) các vùng không gian của các
khung chữ nhật bao. ..................................................................................................13
Hình 2.2.Kd-Tree. .....................................................................................................14
Hình 2.3. Kết quả phân rã tập điểm theo Kd-Tree với thông tin chỉ chứa ở nút lá...15
Hình 2.4.Thể hiện vị trí tập điểm trong Kd-Tree ......................................................15
Hình 2.5. Lưới tam giác Delaunay cùng lược đồ Voronoi .......................................17

Hình 2.6.(a) Một tập các ràng buộc S gồm một tam giác, một đường gấp khúc và
một vùng phức tạp. (b) Lưới tam giác Delaunay ràng buộc của S - CDT(S). ..........18
Hình 2.7.Cấu trúc Winged-Edge...............................................................................20
Hình 2.8.Lưới tam giác biểu diễn bằng cấu trúc Winged-Edge................................20
Hình 2.9.Cấu trúc Quad-Edge...................................................................................21
Hình 2.10. Lưới tam giác biểu diễn bằng cấu trúc Quad-Edge.................................22
Hình 2.11. Cấu trúc Winged-Edge mở rộng .............................................................23
Hình 2.12. Lưới tam giác biểu diễn bằng cấu trúc Winged-Edge thu gọn ...............23
Hình 2.13. Cấu trúc tam giác lân cận........................................................................24
Hình 2.14. Đảo cạnh (flip edge)................................................................................25
Hình 2.15. Phương án phát sinh 3 đỉnh nhân tạo tạo thành siêu tam giác ................28
Hình 2.16. Các trường hợp phân rã thành các tam giác con .....................................29
Hình 2.17. Cách xác định đỉnh thuộc một tam giác..................................................31
Hình 2.18. Quá trình tìm theo đường xoắn ốc dựa trên khung lưới..........................32
Hình 2.19. Cấu trúc dữ liệu biểu diễn lưới tam giác theo Winged-Edge rút gọn dựa
trên danh sách liên kết...............................................................................................35
Hình 2.20. Cấu trúc dữ liệu biểu diễn lưới tam giác theo Winged-Edge rút gọn dựa
trên mảng ..................................................................................................................35
Hình 2.21. Cấu trúc dữ liệu biểu diễn lưới tam giác theo cấu trúc tam giác lân cận
dựa trên danh sách liên kết........................................................................................36
Hình 2.22. Cấu trúc dữ liệu biểu diễn lưới tam giác theo cấu trúc tam giác lân cận
dựa trên mảng ...........................................................................................................36

vi


Hình 2.23. Sơ đồ phân rã tập đỉnh trong thuật toán chia để trị .................................37
Hình 2.24. Sơ đồ ghép lưới tam giác trong thuật toán chia để trị .............................38
Hình 2.25. Ghép hai lưới tam giác trong thuật toán chia để trị.................................39
Hình 2.26. Phương pháp phân rã cho nguyên lý “chia để trị” ..................................42

Hình 2.27. Phương pháp gộp thành lưới tam giác tổng thể ......................................42
Hình 2.28. Nguyên lý của thuật toán xây dựng lưới tam giác Delaunay song song
(a)Thực hiện 4 lần cắt liên tục để tạo thành các mảnh nhỏ (b) Xây dựng lưới tam
giác Delaunay cho mỗi mảnh (c) Xác định các tam giác không bị hiệu chỉnh khi
ghép (d) Xác định các đỉnh độc lập khi xóa đi các tam giác có tiềm năng bị hiệu
chỉnh (e) Quá trình ghép các mảnh lưới thành lưới tam giác tổng thể .....................44
Hình 2.29. Hiện trạng trước khi thêm cạnh ab (a), loại bỏ tam giác giao với cạnh (b)
hình thành hai đa giác giả PU và PL(c) và lưới tam giác của PU và PL (d) ..............46
Hình 2.30. Duyệt các tam giác bao quanh đến khi tam giác t1 được tìm thấy. .........47
Hình 2.31. Di chuyển qua các tam giác theo chiều mũi tên......................................47
Hình 2.32. Tạo lưới tam giác cho đa giác giả: Tam giác abc thỏa điều kiện
Delaunay, nên đỉnh c chia đa giác thành PE và PL ....................................................48
Hình 2.33.Các bước quá trình thêm cạnh ràng buộc vào lưới tam giác....................50
Hình 2.34. Một số tình huống sử lý sai số dựa trên r-epsilon ...................................52
Hình 2.35. Biểu đồ thời gian xây dựng lưới tam giác Delaunay của các thuật toán.54
Hình 2.36. 10000 điểm với các loại phân bố khác nhau ...........................................55
Hình 2.37. Biểu đồ tốc độ các thuật toán theo các loại phân bố điểm ......................55
Hình 2.38. Biểu đồ so sánh hiệu quả của thuật toán song song theo số lượng tiểu
trình ...........................................................................................................................56
Hình 2.39. Sơ đồ thời gian thực thi lưới tam giác Delaunay ràng buộc của một số dữ
liệu thực tế.................................................................................................................57
Hình 3.1. Ba trừu tượng không gian cơ bản điểm, đường và vùng ..........................64
Hình 3.2. Phân hoạch và mạng .................................................................................64
Hình 3.3. Mô hình cây phân cấp các lớp hình học....................................................65
Hình 3.4.Kiến trúc đối ngẫu......................................................................................69
Hình 3.5 Sơ đồ lưu trữ trong GeoBase .....................................................................72

vii



Hình 3.6 Sơ đồ truy xuất dữ liệu không gian và thuộc tính ......................................73
Hình 3.7 Sơ đồ hoạt động GeoBase..........................................................................73
Hình 3.8 Sơ đồ tương tác giữa kiểu dữ liệu và thao tác ...........................................74
Hình 3.9 Biểu đồ tốc độ thực thi 3 thao tác cơ bản trên cơ sở dữ liệu .....................75
Hình 3.10. Mô phỏng kết quả của quá trình tìm k - lân cận gần nhất (k = 5, d = 2)
Các điểm tròn là tập điểm đầu vào, điểm hình sao q là điểm tìm kiếm. Đường tròn
với bán kính là khoảng cách từ q đến điểm gần thứ 5. .............................................80
Hình 3.11.Minh họa thuật toán k - lân cận gần nhất dựa trên lưới tam giác ............82
Hình 3.12. Biểu đồ thời gian thực thi các thuật toán tìm k-lân cận gần nhất............83
Hình 3.13. Tìm 1000 điểm lân cận ...........................................................................85
Hình 3.14. Tìm 1000 cạnh lân cận ............................................................................85
Hình 3.15.Các trường hợp đoạn thẳng quan hệ với đường tròn ...............................89
Hình 3.16. Mô phỏng thuật toán R-PRQ xác định các điểm thuộc vùng đệm của P90
Hình 3.17. Khung bao mở rộng quanh đoạn thẳng chứa hầu hết tập điểm đầu vào .91
Hình 3.18. Mô phỏng thuật toán T-PRQ...................................................................92
Hình 3.19. Biểu đồ thời gian thực thi thuật toán tìm kiếm đối tượng xung quanh
tuyến đường hoạch định............................................................................................93
Hình 3.20. Mô phỏng thuật toán tìm đối tượng xung quanh tuyến đường hoạch định
...................................................................................................................................94
Hình 3.21. Kết quả tìm các cửa hàng dọc đường Đồng Khởi với bán kính 100 mét 94
Hình 4.1.Quá trình tạo vùng từ lưới tam giác (a) lưới tam giác đã phân lớp (b) Lọc
các cạnh biên (c) Nối các cạnh biên thành đường bao..............................................97
Hình 4.2. Mô phỏng vùng đệm của điểm, đường và vùng .......................................98
Hình 4.3. Mô phỏng xấp xỉ các cung tròn bởi đa giác đều .......................................99
Hình 4.4. Quá trình lấy vùng đệm của đối tượng polyline với khoảng cách d .........99
Hình 4.5. Minh họa kết quả thuật toán lấy vùng đệm của 3 loại đối tượng điểm,
đường, vùng ............................................................................................................100
Hình 4.6. Biểu đồ thời gian thực thi thuật toán lấy vùng đệm của dữ liệu nước Anh
.................................................................................................................................101
Hình 4.7. Lấy vùng đệm của đường........................................................................102

Hình 4.8. Lấy vùng đệm của vùng ..........................................................................102

viii


Hình 4.9. Nắn trực tuyến ảnh vệ tinh thành phố Hà nội .........................................105
Hình 4.10. Nắn trực tuyến ảnh vệ tinh thành phố Hồ Chí Minh.............................105
Hình 4.11. Yêu cầu về mô hình mô phỏng mạng giao thông .................................107
Hình 4.12. Minh họa mô hình winged-edge ...........................................................108
Hình 4.13. Ví dụ về mạng giao thông thực tế, ni là các nút thể hiện giao lộ của
mạng giao thông, oi là các đối tượng trên mạng giao thông...................................109
Hình 4.14. Biểu diễn chiều đường/đường cấm .......................................................110
Hình 4.15. Biểu diễn mạng mở rộng.......................................................................111
Hình 4.16. Biểu diễn mạng dựa trên liên kết ..........................................................111
Hình 4.17. Biểu diễn đồ thị đường..........................................................................112
Hình 4.18. Tình huống cần phải tách nút khi sử dụng đồ thị đường ......................112
Hình 4.19. Biểu diễn đồ thị đường*đường .............................................................113
Hình 4.20. Phân bố các đối tượng trên cạnh ...........................................................114
Hình 4.21.Cấu trúc B+-tree quản lý các đối tượng dựa trên các khoảng cách di....114
Hình 4.22. Gom nút ................................................................................................115
Hình 4.23. Cách tìm LE, RE và FE.........................................................................116
Hình 4.24.Minh họa tạo quan hệ topology cho mạng giao thông Vietnam ............118
Hình 4.25. Không gian tìm kiếm trường hợp theo một hướng và song hướng sử
dụng thuật toán Dijkstra..........................................................................................120
Hình 4.26. Ví dụ về mạng phân cấp giao thông......................................................121
Hình 4.27. Vùng lân cận (Neighborhood - Local area) ..........................................123
Hình 4.28. Tìm các đoạn cao tốc ............................................................................123
Hình 4.29. Chọn các nút cần loại bỏ .......................................................................123
Hình 4.30. Điều kiện dừng của đường đi ngắn nhất của đồ thị ..............................124
Hình 4.31. Mô phỏng thuật toán tìm đường đi trên mạng phân cấp .......................126

Hình 4.32. Ví dụ minh họa đồ thị phân cấp ............................................................128
Hình 4.33. Cấu trúc mảng kề và lớp mở rộng trạng thái mức nút ..........................129
Hình 4.34.Cấu trúc cạnh mở rộng...........................................................................130
Hình 4.35. Biểu diễn 3D của dữ liệu lưới ...............................................................132
Hình 4.36. Biểu Dạng TIN......................................................................................132
Hình 4.37. Cách xác định độ cao x của điểm (x,y) bên trong tam giác ..................133

ix


Hình 4.38. Ảnh vệ tinh thành phố Hồ Chí Minh phủ lưới địa hình 3D ..................135
Hình Phụ lục 1: Mô hình phân cấp các đối tượng không gian cơ bản trong GEOLIB
.................................................................................................................................149
Hình Phụ lục 2: Phân cấp cài đặt thư viện lưới tam giác Delaunay trong GEOLIB
.................................................................................................................................150
Hình Phụ lục 3: Định dạng tập tin của GEOBASE ................................................151
Hình Phụ lục 4: Cấu trúc mô tả trường dữ liệu trong GEOBASE ..........................152
Hình Phụ lục 5: Cấu trúc mô tả bản ghi trong GEOBASE .....................................152
Hình Phụ lục 6: Cấu trúc mô tả bảng trong GEOBASE .........................................153
Hình Phụ lục 7: Truy cập các khối dữ liệu thông qua bộ đệm................................153
Hình Phụ lục 8: Các lớp hỗ trợ thao tác dữ liệu trong GEOBASE.........................155
Hình Phụ lục 9. DolGis 8.0.....................................................................................156
Hình Phụ lục 10. Hiển thị 3D..................................................................................156
Hình Phụ lục 11. www.vietbando.com ...................................................................156
Hình Phụ lục 12. Bản đồ TP. HCM ........................................................................156
Hình Phụ lục 13. Tracking trên Web ......................................................................157
Hình Phụ lục 14. Tracking trên ứng dụng...............................................................157

x



DANH MỤC BẢNG
Bảng 2.1. Bảng mô tả quan hệ giữa các đối tượng trong Winged-Edge...................20
Bảng 2.2. Ví dụ mô tả quan hệ giữa các đối tượng tam giác trong Winged-Edge ...21
Bảng 2.3. Bảng mô tả quan hệ giữa các đối tượng trong Quad-Edge.......................22
Bảng 2.4. Bảng mô tả quan hệ giữa các đối tượng trong Winged-Edge thu gọn .....24
Bảng 2.5. Bảng mô tả quan hệ giữa các đối tượng trong Triangle Neighbor ...........24
Bảng 2.6. Thời gian(s) thực thi các thuật toán xây dựng lưới tam giác Delaunay ...53
Bảng 2.7. So sánh các thuật toán theo các loại phân bố ...........................................55
Bảng 2.8. Bảng so sánh độ tăng tốc thuật toán Delaunay song song........................56
Bảng 2.9. Thời gian thực thi thuật toán xây dựng lưới tam giác Delaunay ràng buộc
...................................................................................................................................57
Bảng 3.1. Các chức năng khai thác dữ liệu không gian cơ bản ...............................66
Bảng 3.2. Các kiểu dữ liệu cơ bản trong GeoBase ...................................................72
Bảng 3.3. Tốc độ thực thi 3 thao tác cơ bản trên cơ sở dữ liệu ................................74
Bảng 3.4. Các mức dữ liệu ảnh chứa trong GeoBase ...............................................76
Bảng 3.5.Thời gian thực thi các thuật toán tìm k-lân cận gần nhất ..........................83
Bảng 3.6.Thời gian thực thi thuật toán tìm kiếm đối tượng xung quanh tuyến đường
hoạch định.................................................................................................................93
Bảng 4.1.Thời gian thực thi thuật toán lấy vùng đệm của dữ liệu nước Anh .........101
Bảng 4.2. Thống kê thời gian thiết lập mạng giao thông toàn Vietnam .................118
Bảng 4.3. So sánh tốc độ thực thi các thuật toán ....................................................131
Bảng 4.4. Tốc độ thực thi các công đoạn của thuật toán xây dựng lưới địa hình 3D
từ tập điểm độ cao...................................................................................................135

xi


TỔNG QUAN


Chương 1.

Từ những thập kỷ cuối của thế kỷ 20 và tiếp sang những năm đầu của thế kỷ 21,
cuộc cách mạng khoa học và công nghệ càng tiến tới trình độ cao và phát triển
nhanh. Cuộc cách mạng đó đã là động lực chi phối các chuyển động có tính toàn
cầu, tạo ra những tiền đề và điều kiện để tiến vào nền văn minh tin học, xây dựng cơ
sở cho nền kinh tế tri thức phát triển.
Thông tin và tri thức (trong đó phải tính đến những kinh nghiệm và tri thức
truyền thống của cha ông để lại) trở thành những yếu tố đầu vào của hệ thống sản
xuất, quản lý, đồng thời là công cụ sáng tạo ra của cải, nguồn động lực cơ bản của
sự phát triển. Đã có dự báo cuộc cạnh tranh kinh tế trong tương lai là cạnh tranh
nhằm tăng nhanh tỷ trọng các sản phẩm công nghệ cao để chiếm lĩnh lợi thế trên thị
trường thế giới.
Việc nghiên cứu, ứng dụng khoa học công nghệ nhằm đạt tới trình độ tiên tiến
của các nước trong khu vực, góp phần tạo ra các bước đổi mới mạnh mẽ về công
nghệ trong việc phát triển các sản phẩm, dịch vụ giá trị gia tăng có hàm lượng trí
tuệ cao để phục vụ hiệu quả cho các lĩnh vực phát triển kinh tế-xã hội và bảo đảm
an ninh-quốc phòng đã và đang trở thành mục tiêu chủ đạo của quốc gia. Một trong
các hướng phát triển công nghệ chủ đạo chính là lãnh vực Công nghệ Thông tin mà
hệ thống Thông tin Địa lý (Geographical Information Systems- GIS) có thể coi là
một chuyên ngành hẹp.
Bắt đầu hình thành từ những năm 60 của thế kỷ trước, hệ thống thông tin địa lý
trong hơn nửa thế kỷ qua đã đi được những bước tiến dài trên toàn thế giới, được
ứng dụng ở đa dạng lĩnh vực, ngành nghề và phần nào đã trở thành một công cụ trợ
giúp quyết định trong nhiều hoạt động kinh tế xã hội, an ninh-quốc phòng của nhiều
quốc gia trên thế giới.
Tại Việt Nam, mặc dù được biết đến khoảng vài thập kỷ nay nhưng công nghệ
GIS mới chỉ thực sự được chú ý đến và bước đầu phát triển trong khoảng hơn chục
năm lại đây. GIS đã trở thành một công cụ cực kỳ hữu hiệu khi các nhà quản lý, quy
hoạch muốn tham vấn những vấn đề về quy hoạch, đầu tư với ít chi phí và công sức


1


hơn. Nhìn từ góc độ quản lý, góc độ doanh nghiệp cũng như góc độ người dân, việc
ứng dụng công nghệ GIS vào đời sống thực tế sẽ mang lại nhiều hiệu quả. Hàng loạt
chương trình GIS với sự tham gia của các trường đại học, các viện nghiên cứu, các
chuyên gia trong và ngoài nước đã được triển khai nhưng kết quả đạt được còn khá
khiêm tốn.
GIS là loại hình công nghệ đắt tiền và đòi hỏi sự đầu tư rất cao, vậy bài toán dựa
vào nội lực để phát triển công nghệ này ở cấp quốc gia là rất cần thiết và giúp chúng
ta ở thế chủ động đối với một số dự án nhạy cảm, đặc biệt trong lĩnh vực an ninhquốc phòng. Ở Việt Nam, nhân lực để khai thác, vận hành đã thiếu nhưng nhân lực
để xây dựng và phát triển công nghệ GIS lại còn thiếu hơn vì nguồn nhân lực của
chúng ta hầu như chưa được đào tạo bài bản về lãnh vực này. Việc đầu tư cho các
dự án xây dựng giải pháp GIS hạt nhân là chiến lược rất cần đầu tư nghiên cứu của
các chuyên gia trong nước và theo thiển nghĩ của chúng tôi, chúng ta hoàn toàn có
thể làm được. Cách tiếp cận này mới bảo đảm khả năng làm chủ công nghệ lâu dài,
dễ dàng mở rộng để thích ứng với các yêu cầu thực tế luôn thay đổi mà trước đây
chúng ta chỉ sử dụng công nghệ nước ngoài như các “hộp đen”. Đối với những nước
đang phát triển như Việt Nam, cần phải có ý thức hơn nữa và đầu tư một cách
nghiêm túc cho việc nghiên cứu công nghệ nền tảng GIS.
1.1. Động lực
Với việc ứng dụng rộng rãi các kỹ thuật viễn thám và các công cụ thu thập dữ
liệu tự động, một lượng dữ liệu không gian và phi không gian khổng lồ đã được thu
thập và lưu trữ trong cơ sở dữ liệu không gian lớn. Việc gia tăng dung lượng và bản
chất đa dạng của dữ liệu địa lý dễ dàng làm quá tải những kỹ thuật được thiết kế để
lưu trữ, truy vấn và xử lý trên những cơ sở dữ liệu nhỏ, có mẫu khoa học và đồng
nhất. Vì vậy, nhu cầu về các kỹ thuật xử lý và khai thác hiệu quả các kho dữ liệu
này là cần thiết.
Các cơ sở dữ liệu không gian đã được sử dụng trong nhiều thập niên để lưu trữ

và khai thác dữ liệu không gian. Chúng cho phép mô tả các tính chất không gian
của các đối tượng trong thế giới thực. Có hai hướng tiếp cận cơ bản để mô hình dữ
liệu không gian trong các ứng dụng cơ sở dữ liệu. Trong hướng tiếp cận hướng đối

2


tượng, không gian được phân rã thành các đối tượng có thể xác định và hình dạng
của chúng được mô tả. Hướng tiếp cận này cho phép biểu diễn đường xá như là đối
tượng đường hoặc tỉnh/thành như đối tượng vùng. Cách tiếp cận khác dựa vào
trường dữ liệu được sử dụng để mô tả các hiện tượng thay đổi theo không gian liên
kết với mỗi điểm trong một phạm vi không gian thích hợp, một giá trị đặc trưng hóa
một tính chất tại điểm đó. Các ví dụ tiêu biểu là nhiệt độ, độ cao, thảm thực vật và
mức độ ô nhiễm.
Bất kể cấu trúc nào được chọn để lưu trữ các đối tượng không gian hoặc tập các
đối tượng này, chẳng hạn raster (ảnh) hoặc vector, hoặc spaghetti hoặc topology, hai
loại kiến trúc máy tính khác nhau có thể được sử dụng: kép hoặc tích hợp. Cấu trúc
kép dựa vào các hệ quản lí tách biệt cho dữ liệu không gian và phi không gian,
trong khi đó cấu trúc tích hợp mở rộng các DBMS với các kiểu dữ liệu không gian
(ví dụ, point (điểm), line (đường), surface (mặt)) và các hàm (ví dụ: chồng lấn,
khoảng cách, và diện tích). Một vài DBMS thương mại hỗ trợ quản lí dữ liệu không
gian như Oracle Spatial, IBM DB2 Spatial Extender và SQL Server 2008. Các hệ cơ
sở dữ liệu này là các hệ cơ sở dữ liệu giao dịch nên có nhiều ràng buộc chặt chẽ
giữa các hệ thống bảng cũng như duy trì tính bảo mật của hệ thống do đó có ảnh
hưởng nhiều đến tốc độ truy vấn và xử lí.
Trên thế giới các ứng dụng biên tập, xử lý và quản lý dữ liệu không gian phát
triển mạnh là các ứng dụng GIS như: ArcGIS, MapInfo,… Các ứng dụng này cũng
hỗ trợ các ngôn ngữ lập trình để người dùng xây dựng các ứng dụng riêng dựa trên
nền tảng ứng dụng của họ. Các ứng dụng này đa phần có chi phí rất cao và có rất
nhiều chức năng người dùng ít sử dụng. Do đó đầu tư một ứng dụng như thế là một

vấn đề cần cân nhắc kỹ. Một xu hướng khác đang sử dụng rộng rãi là dùng phần
mềm và thư viện mã nguồn mở như MapWinGIS, GDAL, GEOS…Đối với cách
tiếp cận này người xây dựng ứng dụng sử dụng chúng như hộp đen chức năng. Việc
sử dụng, mở rộng và cải tiến những mã nguồn mở này gặp nhiều khó khăn do tài
liệu không đầy đủ dẫn đến những rủi ro tiềm ẩn trong những hệ thống lớn.
Ở Việt Nam, các sản phẩm làm việc trên dữ liệu không gian rất ít, đa phần chỉ là
bổ sung thêm các chức năng dựa vào khả năng mở rộng của các ứng dụng GIS

3


mạnh như: ArcGIS, MapInfo và AutoCAD,… các chức năng này chỉ phục vụ cho
những nhu cầu cụ thể và phạm vi áp dụng mang tính cục bộ.
Xuất phát từ yêu cầu thực tiễn, đề tài đặt ra mục tiêu phát triển một số mô hình
thuật toán giải quyết các vấn đề nền tảng trong GIS. Về mặt lý thuyết, đây là mục
tiêu rất rộng và liên quan đến nhiều vấn đề cần giải quyết trong lãnh vực khai thác
dữ liệu nói chung và khai thác dữ liệu không gian nói riêng. Một loạt các thuật toán
xử lý không gian cần được giải quyết với thời gian thực thi hiệu quả để đáp ứng yêu
cầu thực tế. Về mặt ứng dụng thực tế, đề tài đặt mục tiêu xây dựng giải pháp GIS
phù hợp điều kiện thực tế ở Việt Nam để giảm thiểu kinh phí mua bản quyền với
các chức năng nền tảng nhất theo ý tưởng thiết kế dựa trên tính mở và tính tương
tác cao.
Có nhiều cách tiếp cận khác nhau trong việc tổ chức cấu trúc khai thác và xử lý
dữ liệu không gian. Một trong những hướng tiếp cận hiệu quả là sử dụng lưới tam
giác Delaunay và các biến thể của nó. Một cách tiếp cận thường thấy trong bài toán
xây dựng lưới Delaunay là chèn tuần tự. Hiểu một cách đơn giản, tiếp cận này qui
về bài toán “Trên mặt phẳng, cho một lưới tam giác và một điểm P. Cần tìm tam
giác chứa điểm P đã cho”, sau đó chia tam giác này thành 3 tam giác nhỏ hơn với
một đỉnh mới chính là điểm P. Thách thức ở bài toán này chính là tốc độ tìm kiếm.
Fang, T.P., và L. Piegl đã đề xuất giải quyết bài toán này bằng cách dùng cấu trúc

khung lưới chữ nhật đều để xác định nhanh tam giác chứa điểm P[14] . Tuy nhiên,
lượng thông tin cần lưu trữ ở mỗi ô lưới là khá lớn và chưa thật hiệu quả khi tập
đỉnh tam giác đầu vào phân bố không đều. Một cải tiến đáng kể theo cách tiếp cận
trên là cấu trúc lưới đều theo hai mức đã được B. Zalik và I. Kolingerova trình bày
trong công trình [13] . Độ phức tạp thực nghiệm của thuật toán xấp xỉ

.

Trong công trình [84] Skvortsov đề cập giải pháp xây dựng lưới tam giác sử dụng
kích thước khung lưới tăng trưởng động theo số lượng đỉnh được thêm vào lưới tam
giác. Cách tiếp cận này bảo đảm ở mọi thời điểm từ vị trí ô lưới xác định nhanh hơn
đến tam giác thuộc lưới tam giác chứa đỉnh vừa thêm vào.
Fortune đã đề ra giải pháp áp dụng cách tiếp cận sweep-line cho việc xây dựng
lược đồ Voronoi [18] . Từ lược đồ Voronoi tìm được dễ dàng có được lưới tam giác

4


Delaunay tương ứng. Theo hướng tiếp cận này, các công trình của Zalik được xem
là có kết quả tốt nhất hiện nay [32] . Ý tưởng chia để trị trong việc xây dựng lưới
tam giác Delaunay đã được đề cập bởi Dwyer trong [16] . Các thuật toán theo cả 2
cách tiếp cận này đều có độ phức tạp

. Trong chương 2 chúng tôi sẽ trình

bày các đề xuất cải tiến của mình trên cả 3 hướng tiếp cận đã nêu.
Cần lưu ý rằng, mặt dù lời giải tốt nhất trong cách tiếp cận chèn tuần tự có độ
phức tạp xấp xỉ

trong khi 2 cách tiếp cận sau có lời giải tốt nhất là


nhưng trên thực tế, thường 2 cách tiếp cận sau cho thời gian thực hiện nhanh hơn so
với cách tiếp cận đầu. Tuy nhiên, trong trường hợp bài toán cập nhật dữ liệu động
như bài toán thêm điểm POI (points of interest) thường gặp trong các hệ GIS thì
cách tiếp cận chèn tuần tự có ưu thế tuyệt đối (xem chi tiết ở chương 2 của luận án).
Một mở rộng của lưới tam giác Delaunay là lưới tam giác Delaunay có ràng
buộc. Các kết quả đáng quan tâm trong việc giải quyết bài toán này là Shewchuck
[25] và Anglada [30] . Trong công trình [33] Domiter V. và B. Žalik đưa ra cách
tiếp cận xây dựng lưới tam giác Delaunay ràng buộc dựa trên nguyên lý sweep-line.
Các tác giả đã đề nghị giải pháp gộp công đoạn chèn đỉnh và chèn ràng buộc đồng
thời. Tuy nhiên, cách tiếp cận này phải xử lý khá phức tạp khi cạnh ràng buộc cắt
đường tiền tuyến và có thể làm hiệu suất thực thi bị giảm đi. Hơn nữa, các công
trình nghiên cứu [25] [27] [30] [33] đều không đề cập việc xử lý trường hợp cạnh
ràng buộc thêm vào cắt một hay một số cạnh ràng buộc của lưới tam giác đang xây
dựng. Trong công trình [31] , Kallmann và các cộng sự thực hiện tuần tự hai công
đoạn để xác định các điểm giao của các cạnh ràng buộc rồi mới thực hiện chèn cạnh
và cập nhật các thông tin quan hệ liên quan.
Bài toán khai thác dữ liệu không gian, hay khám phá tri thức trong cơ sở dữ liệu
không gian là đề cập đến trích chọn kiến thức tiềm ẩn, quan hệ không gian, hoặc các
mẫu khác không xác đĩnh rõ được lưu trong cơ sở dữ liệu không gian [58] . Các
nghiên cứu về cấu trúc dữ liệu không gian và cơ sở dữ liệu không gian cho phép
truy vấn cơ sở dữ liệu lớn hiệu quả không gian được đề cập trong [59] [60] [61] . Số
lượng lớn các dữ liệu không gian và sự phức tạp của các loại dữ liệu không gian

5


cũng như các phương thức truy cập không gian làm cho bài toán khai thác dữ liệu
không gian trở thành bài toán đầy thách thức.
Một bài toán khác thường được quan tâm trong GIS là bài toán tìm lân cận gần

nhất. Hầu hết các thuật toán tốt giải bài toán này có độ phức tạp trung bình là
. Phương pháp tìm kiếm lân cận gần nhất dựa trên lưới tam giác Delaunay
đã được đề cập trong các công trình [77] [78] . Phương pháp tìm kiếm lân cận gần
nhất đề cập bởi Birn và các cộng sự [77] dựa trên Full Delaunay Hierachy (FDH) có
tốc độ thực thi khá nhanh nhưng đòi hỏi khá tốn không gian để lưu trữ tất cả các
mức phân cấp và thời gian tiền xử lý thực tế khá lâu. Một bài toán mở rộng của bài
toán này là bài toán tìm k lân cận gần nhất. Việc mở rộng để giải quyết bài toán này
từ các lời giải của bài toán tìm 1 láng giếng một cách hiệu quả là hoàn toàn không
đơn giản. Ở chương 3, chúng tôi sẽ trình bày một cách tiếp cận hiệu quả do luận án
đề xuất.
1.2. Phạm vi luận án
Trong luận án này, tác giả tập trung nghiên cứu việc xử lý và khai thác dữ liệu
không gian tích hợp trong một số lĩnh vực bao gồm cơ sở dữ liệu không gian, trực
quan hóa dữ liệu không gian, các cấu trúc chỉ mục không gian. Những vấn đề liên
quan cần giải quyết khi xây dựng và phát triển các công cụ xử lý và khai thác dữ
liệu không gian trong một hệ thống nhất bao gồm:
 Biểu diễn và lưu trữ dữ liệu không gian bao gồm việc nghiên cứu và phát
triển cơ sở dữ liệu không gian cho phép lưu trữ dữ liệu vector, raster và mạng
lưới (network) lớn và khai thác hiệu quả các dữ liệu này.
 Mô hình dữ liệu nền tảng cho các thuật toán khai thác bao gồm việc
nghiên cứu, đánh giá, cải tiến và phát triển các thuật toán xây dựng mô hình
dữ liệu được chọn.
 Các cấu chỉ mục không gian bao gồm việc chọn lựa cấu trúc chỉ mục phù
hợp như R-Tree hay KD-Tree để tăng tốc quá trình truy vấn các đối tượng
không gian. Các cấu trúc này dùng xây dựng cơ chế chỉ mục cho các đối
tượng không gian trong cơ sở dữ liệu không gian.

6



 Trực quan hóa dữ liệu không gian bao gồm việc tìm kiếm các phương thức
giải quyết các vấn đề tối ưu hóa truy vấn các đối tượng không gian, lược
điểm,… để có thể tăng tốc độ hiển thị dữ liệu không gian lớn.
 Thiết lập hệ thống thư viện GIS hạt nhân để hỗ trợ người sử dụng tự giải
quyết một loạt bài toán chuyên biệt phức tạp.
 Phát triển các thuật toán xử lý và khai thác bao gồm việc nghiên cứu và
phát triển các thuật toán khai thác như:
 Tìm một hoặc nhiều các đối tượng gần với đối tượng truy vấn nhất
 Tìm các đối tượng dọc theo tuyến
 Tìm đường tối ưu giữa hai điểm
 Hiệu chỉnh dữ liệu, lấy vùng đệm đối tượng…
 Xây dựng các ứng dụng GIS trên môi trường ứng dụng cũng như khai thác
trực tuyến trên Internet.
Trong luận án này, tác giả phát triển một hệ thống nền tảng có khả năng tương
tác, xử lý, khai thác và lưu trữ dữ liệu không gian lớn mà vẫn đảm bảo tốc độ và độ
tin cậy cao. Luận án cũng cố gắng cải tiến một số thuật toán phân tích, xử lý không
gian như: chia lưới tam giác Delaunay (TIN), chia lưới tam giác Delaunay có ràng
buộc làm cơ sở nền tảng để phát triển các chức năng phân tích mạng (network),
chồng lớp thông tin, tìm kiếm lân cận….Các thuật toán này được phân tích đánh giá
chi tiết để tiện nghiên cứu và phát triển thêm. Nguyên lý thiết kế và mục tiêu xây
dựng một cơ sở dữ liệu không gian hiệu suất cao cho phép lưu trữ dữ liệu vector,
raster (ảnh), mạng topology với dung lượng lên đến hàng terabyte cũng sẽ được đề
cập.
Và mục tiêu cuối cùng của tác giả là phát triển một giải pháp GIS toàn diện góp
phần vào phát triển chung của công nghệ GIS ở Việt Nam.
1.3. Hướng tiếp cận
Những nghiên cứu của tác giả dựa trên các nguyên tắc sau:
 Cơ sở dữ liệu không gian nên xây dựng theo cấu trúc tích hợp.

7



Kiến trúc kép được sử dụng bởi các hệ thống thông tin địa lí thương mại
(GIS). Kiến trúc này sử dụng các mô hình dữ liệu không đồng nhất để biểu
diễn dữ liệu không gian và phi không gian. Dữ liệu không gian thường được
biểu diễn thông qua các cấu trúc dữ liệu riêng ẩn chứa những khó khăn trong
việc mô hình, sử dụng và tích hợp, dẫn đến làm gia tăng sự phức tạp của quản
lý hệ thống.
Tác giả đã xây dựng hệ quản trị cơ sở dữ liệu không gian đơn giản GeoBase
theo kiến trúc tích hợp. Geobase hỗ trợ việc lưu trữ, lấy, truy vấn và cập nhật
các đối tượng không gian trong khi vẫn giữ các chức năng DBMS khác như
các kỹ thuật phục hồi và tối ưu hóa truy vấn. GeoBase cho phép người dùng
định nghĩa thuộc tính của bảng cũng như các kiểu dữ liệu không gian, để lấy
các quan hệ topology giữa các đối tượng không gian sử dụng các toán tử
không gian và các hàm không gian, để tăng tốc các truy vấn không gian sử
dụng các chỉ mục không gian. Sự hỗ trợ này giúp dễ dàng phát triển các ứng
dụng dùng dữ liệu không gian vì dữ liệu không gian được lưu trữ cùng với dữ
liệu phi không gian.
 Lưu trữ dữ liệu không gian dựa trên các chuẩn mở hiện nay
Các ứng dụng GIS truyền thống sử dụng các phương thức mã hóa lưu trữ
riêng nên việc chuyển đổi dữ liệu qua lại giữa các hệ thống thường phải qua
ứng dụng thứ 3. Hiện tại, Open GeoSpatial Consortium (OGC) định nghĩa
lược đồ SQL chuẩn hỗ trợ lưu trữ, lấy, truy vấn, và cập nhật dữ liệu không
gian qua SQL Call-Level Interface (SQL/CLI). Cụ thể là chuẩn này định
nghĩa sự phân cấp của các loại hình học với các phương pháp liên quan. Hơn
nữa, SQL:2003 chuẩn đã được mở rộng bởi chuẩn ISO/IEC 13249 SQL/MM
để quản lí đa phương tiện và các gói riêng cho ứng dụng. Sự mở rộng này bao
gồm một vài phần, một trong số chúng định nghĩa kiểu dữ liệu không gian do
người dùng định nghĩa, các thủ tục và các lược đồ để điều khiển dữ liệu
không gian tổng quát. Nó dành cho nhu cầu lưu trữ, quản lí và lấy thông tin

trên cơ sở các khía cạnh của dữ liệu không gian như hình học, vị trí và

8


topology. Do đó tác giả đề xuất việc lưu trữ dữ liệu không gian nên theo các
chuẩn mở để thuận tiện cho việc tích hợp giữa các hệ thống với nhau [1] .
 Lưới tam giác (TIN) là mô hình nền tảng để phát triển các thuật toán xử
lý và phân tích
Lưới tam giác Delaunay là cấu trúc hình học đa dụng và được sử dụng trong
rất nhiều lãnh vực như hệ thống thông tin địa lý (GIS), vật lý, thiên văn học,
tìm kiếm lân cận, phần tử hữu hạn, đồ họa máy tính và đa phương tiện… Bài
toán xây dựng lưới tam giác Delaunay là bài toán cơ bản trong hình học tính
toán. Trong luận án này, tác giả đã sử dụng mô hình lưới tám giác Delaunay
như một cấu trúc hỗ trợ tiền xử lý dữ liệu (tạo mạng dữ liệu giao thông, xây
dựng vùng đệm đối tượng, nắn chỉnh dữ liệu, tạo lưới dữ liệu địa hình…) và
khai thác dữ liệu không gian (tìm kiếm k-lân cận gần nhất, tìm kiếm các đối
tượng không gian trong vùng đệm của tuyến đường xác định…). Tác giả cũng
đề xuất một số cải tiến cho thuật toán xây dựng lưới tam giác [2] [3] [4] và
ứng dụng để phát triển các bài toán khác [5] .
 Kiểm chứng các nghiên cứu qua dữ liệu và ứng dụng thực tế
Nhiều nghiên cứu phát triển các thuật toán chỉ có thể thực thi trên các bộ dữ
liệu mẫu nên chưa giải quyết thấu đáo các vấn đề phát sinh khi làm việc với
dữ liệu thực tế. Vấn đề thường gặp nhất là vấn đề sai số ảnh hưởng đến tính
đúng đắn và ổn định của giải thuật. Tác giả đã đúc kết một số giải pháp để
giải quyết vấn đề sai số khi xây dựng và vận hành ứng dụng trong thức tế.
1.4. Tổ chức luận án
Phần còn lại của luận án được tổ chức như sau:
 Chương 2. Xử lý dữ liệu không gian trình bày tổng quan một số cấu trúc dữ
liệu hỗ trợ khai thác và xử lý dữ liệu không gian như R-Tree, Kd-Tree, lưới

tam giác Delaunay. Do bài toán xây dựng lưới tam giác Delaunay là một bài
toán có tính ứng dụng cao nên một loạt tiếp cận xây dựng thuật toán chia
lưới tam giác Delaunay và lưới tam giác Delaunay ràng buộc được đề cập.
Tác giả đã xây dựng mô hình xử lý song song để cải tiến tốc độ thực thi thuật

9


toán xây dựng lưới. Lưới tam giác đã được xây dựng thành thư viện trong hệ
thống GEOLIB để phát triển ứng dụng.
 Chương 3. Xây dựng cơ sở dữ liệu khai thác dữ liêu không gian trình bày
tổng quan về các nguyên lý khai thác dữ liệu không gian và giới thiệu một số
hướng tiếp cận thực tế hiện nay để xây dựng hệ cơ sở dữ liệu không gian.
Trong chương này, tác giả đề xuất mô hình hệ cơ sở dữ liệu không gian
GeoBase với tính năng gọn nhẹ nhưng khá đầy đủ để áp dụng cho một hệ
thống GIS hoàn chỉnh. Chi tiết thiết kế được tác giả giới thiệu trong phần
phụ lục 2.1. Ngoài ra, tác giả đã phát triển các thuật toán hiệu quả dựa trên
lưới tam giác Delaunay như bài toán tìm kiếm đối tượng không gian lân cận
hay bài toán tìm kiếm đối tượng không gian theo một tuyến đường hoạch
định.
 Chương 4. Ứng dụng để giải quyết các bài toán GIS giới thiệu khả năng
ứng dụng để giải quyết nhóm bài toán GIS cơ bản và nhóm bài toán GIS
nâng cao (các bài toán ứng dụng trên mạng lưới giao thông). Đối với nhóm
bài toán GIS cơ bản, bài toán lấy vùng đệm đối tượng là một trong các bài
toán thông dụng và có độ phức tạp rất cao. Tác giả đã đưa ra phương pháp
xây dựng vùng đệm dựa trên lưới tam giác Delaunay ràng buộc rất nhanh và
khá dễ dàng trong cài đặt. Tác giả còn đưa ra thuật toán hiệu chỉnh dữ liệu
không gian từ nhiều nguồn thông tin khác nhau như dữ liệu ảnh, vector....
Đối với nhóm bài toán trên mạng lưới giao thông, tác giả chú trọng vào sự
biểu diễn phù hợp mạng giao thông để giải quyết tốt bài toán tìm đường đi

theo các tiêu chí tối ưu phù hợp với các ràng buộc đa dạng, hạt nhân cho rất
nhiều ứng dụng thực tế… Tác giả cũng đề xuất giải pháp xây dựng dữ liệu
độ cao số 3D đơn giản và hiệu quả dựa trên lưới tam giác Delaunay.
 Chương 5. Kết luận nêu nhận xét đánh giá về các kết quả nghiên cứu mà tác
giả thực hiện trong phạm vi đề tài và gợi mở ra các vấn đề cần tiếp tục đầu tư
nghiên cứu trong tương lai.
Phụ lục: Giới thiệu một số ứng dụng giới thiệu một số ứng dụng đã được hiện
thực và khai thác thực tế dựa trên một số kết quả nghiên cứu ở trong luận án. Các

10


kết quả trong phần này cho phép chúng ta tin tưởng vào khả năng tự phát triển công
nghệ GIS ở Việt Nam ở cấp nền tảng nhất trong tương lai gần.

11


Chương 2.

XỬ LÝ DỮ LIỆU KHÔNG GIAN

2.1. Giới thiệu
Để xử lý dữ liệu không gian một cách hiệu quả thì cần sử dụng các cấu trúc biểu
diễn dữ liệu không gian phù hợp. Nhiều cấu trúc chỉ mục không gian đã được
nghiên cứu nhằm nâng cao hiệu suất truy vấn và xử lý. Một số cấu trúc chỉ mục
không gian quan trọng hay được sử dụng trong thực tế như R-Tree, Kd-Tree… Các
cấu trúc này thường chú trọng việc hỗ trợ truy xuất nhanh đến các đối tượng không
gian nhưng vẫn phần nào hạn chế cho các thuật toán xử lý thông tin không gian.
Một trong các cấu trúc hỗ trợ tốt các thao tác xử lý dữ liệu không gian là lưới tam

giác Delaunay. Tuy nhiên, do các thuật toán xây dựng lưới tam giác rất phức tạp và
đôi khi chưa thật ổn định trong thực tế cài đặt nên rất nhiều hệ thống khai thác dữ
liệu không gian thương mại như các hệ thống GIS chưa áp dụng nó. Các thuật toán
xây dựng lưới tam giác rất đa dạng và tính hiệu quả thực thi của chúng phụ thuộc
rất nhiều vào mô hình biểu diễn dữ liệu. Chính vì vây, trong chương này tác giả tập
trung nghiên cứu mô hình và các thuật toán xây dựng lưới tam giác Delaunay. Ở
đây tác giả đề cập đến một số phương pháp xây dựng lưới tam giác Delaunay và
lưới tam giác Delaunay ràng buộc, phân tích tính hiệu quả của các mô hình biểu
diễn dữ liệu trong quá trình hiện thực thuật toán xây dựng lưới tam giác và so sánh
độ phức tạp giữa các thuật toán đề cập. Tác giả cũng đề cập một số cải tiến để nâng
cao tính hiệu quả khi thực thi thuật toán xây dựng lưới tam giác Delaunay, đặc biệt
là thuật toán dựa trên nguyên lý xử lý song song. Một số kết quả của chương này
được tác giả công bố trong công trình [2] [3] [4] .
2.2. Cấu trúc chỉ mục không gian
Cấu trúc chỉ mục không gian được sử dụng trong các hệ cơ sở dữ liệu không gian
(cơ sở dữ liệu lưu trữ thông tin liên quan đến các đối tượng trong không gian) để tối
ưu hóa truy vấn không gian. Chỉ mục được sử dụng bởi cơ sở dữ liệu phi không
gian không hiệu quả khi xử lý các tính năng như hai điểm cách nhau ra sao hay liệu
các điểm nằm có nằm trong khu vực không gian đang quan tâm hay không.

12


Có một số cách tiếp cận cơ bản để phân rã không gian dữ liệu cần hiển thị. Một
cách tiếp cận thông dụng là dùng ngăn chứa dữ liệu dựa vào khái niệm khung bao
chữ nhật nhỏ nhất. Trong trường hợp này, các đối tượng được gom nhóm (hy vọng
là chúng lân cận nhau) thành các phân cấp, rồi được lưu trữ trong cấu trúc khác,
chẳng hạn như: R-tree [47] , Kd-tree[48] .
2.2.1.


R-tree

R-tree và các biến thể của nó được thiết kế để tổ chức tập các đối tượng không
gian bất kì bằng cách thể hiện chúng như những khung chữ nhật d chiều. Mỗi nút
trong cây tương ứng với khung chữ nhật d chiều nhỏ nhất bao các nút con của nó.
Các nút lá chứa những con trỏ trỏ đến các đối tượng thật sự trong cơ sở dữ liệu thay
vì các nút con. Các đối tượng được thể hiện bởi khung chữ nhật nhỏ nhất chứa
chúng.
Thường thì các nút tương ứng với các trang trên đĩa và vì vậy các thông số định
nghĩa cây được chọn sao cho một số lượng nhỏ các nút được thăm trong suốt quá
trình truy vấn không gian. Cần chú ý rằng khung chữ nhật bao tương ứng với các
nút khác nhau có thể chồng lấp. Hơn nữa, một đối tượng có thể chứa về mặt không
gian ở một vài nút, tuy nhiên nó chỉ được liên kết với một nút. Điều đó có nghĩa là
truy vấn không gian có thể yêu cầu một vài nút được thăm trước khi biết chính xác
đối tượng đó có hay không.
Các luật cơ sở để xây dựng cây R-tree tương tự với B-tree [46] . Tất cả các nút lá
xuất hiện ở cùng một mức. Mỗi mục trong một nút lá là một bộ gồm hai trường có
dạng (R, O) sao cho R là khung chữ nhật nhỏ nhất về mặt không gian chứa đối
tượng O. Mỗi mục ở nút trong là một bộ có hai trường có dạng (R, P) sao cho R là
khung chữ nhật nhỏ nhất về mặt không gian chứa các khung chữ nhật trong nút con
được P trỏ đến. Bậc của R-tree (m, M) có nghĩa là mỗi nút trong cây ngoại trừ nút
gốc chứa từ

đến M mục. Nút gốc có tối thiểu hai mục ngoại trừ khi nó là

nút lá.
Cho M = 3 và m = 2. R-tree cho tập này có thể được cho trong Hình 2.1a. Hình
2.1b cho thấy vùng không gian của các khung chữ nhật bao của các nút trong Hình

13



2.1a. với các đường đứt đoạn kí hiệu cho các khung chữ nhật tương ứng với các cây
con có gốc ở các nút trong. Cần chú ý rằng R-tree không phải là duy nhất. Cấu trúc
của nó phụ thuộc nặng vào thứ tự mà các đoạn thẳng được thêm vào hay xóa khỏi
cây.

4

Hình 2.1. (a) R-Tree cho tập các đoạn thẳng và (b) các vùng không gian của các
khung chữ nhật bao.
Hạn chế của các phương pháp này là chúng không cho phân rã ra không gian
tách rời. Vấn đề là đối tượng chỉ liên kết với một khung chữ nhật bao (ví dụ, đoạn
thẳng i trong được liên kết với hình chữ nhật R5, tuy nhiên nó đi qua R1, R2, R4 và
R5). Trong trường hợp xấu nhất, điều này có nghĩa là khi chúng ta muốn xác định
đối tượng nào liên kết với điểm cụ thể (ví dụ: khung chữ nhật đang chứa trong cơ sở
dữ liệu khung chữ nhật hoặc đường thẳng giao trong cơ sở dữ liệu đoạn thẳng)
trong không gian hai chiều mà đối tượng được vẽ, chúng ta có thể phải tìm kiếm
toàn bộ cơ sở dữ liệu.
Ví dụ: giả sử chúng ta muốn xác định đoạn thẳng nào trong tập các đoạn thẳng
được cho trong đi qua điểm Q. Vì Q có thể ở trong R1 hoặc trong R2, chúng ta phải
tìm kiếm trong cả hai cây con của chúng. Trước tiên, tìm kiếm trong R1, chúng ta
tìm thấy rằng Q chỉ có thể được chứa trong R4. Tìm kiếm trong R4 không dẫn đến
đoạn thẳng chứa Q cho dù Q nằm trong giao của khung chữ nhật R4 và R1. Do đó,
chúng ta phải tìm trong R2 và chúng ta tìm thấy rằng Q chỉ có thể được chứa trong
R5. Trong R5 tìm thấy đoạn thẳng cần tìm ở vị trí i.

14



×