Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.48 MB, 74 trang )

...

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
-------------------

MAI ĐĂNG CƯỜNG

NGHIÊN CỨU PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU BẢN
ĐỒ VÉC TƠ VÀ ỨNG DỤNG

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Chun ngành : Khoa học máy tính
Mã số

: 60 48 01

Thái Nguyên, năm 2011
Số hóa bởi Trung tâm Học liệu – ĐHTN

1

LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Đặng Văn Đức người đã tận
tình có những chỉ bảo cần thiết để giúp đỡ tôi trong suốt quá trình nghiên cứu
và phát triển luận văn.
Xin chân thành cảm ơn các bạn công tác tại Viện Công nghệ thông tin đã

hỗ trợ tôi rất nhiều về mặt công nghệ sử dụng trong luận văn.
Xin chân thành cảm ơn quý thầy cô trong Viện Công nghệ thông tin,
Trường Đại học Công nghệ thông tin và Truyền thông -Đại học Thái Ngun đã
tận tình giảng dạy cho tơi những kiến thức quý báu trong suốt thời gian học tập
tại trường.
Xin trân thành cảm ơn các bạn cùng lớp, đồng nghiệp và đơn vị công tác
đã tạo điều kiện cho tôi hoàn thành luận văn này.
Xin gửi lời cảm ơn đến gia đình đã động viên tơi trong suốt q trình học
tập và làm luận văn.

Số hóa bởi Trung tâm Học liệu – ĐHTN

2

MỤC LỤC
LỜI CẢM ƠN ....................................................................................................... 1
MỤC LỤC ............................................................................................................. 2
DANH MỤC CÁC HÌNH ..................................................................................... 4
TỔNG QUAN ....................................................................................................... 5
CHƢƠNG 1 – KHÁI QUÁT PHÂN CỤM DỮ LIỆU VÀ DỮ LIỆU BẢN ĐỒ
VÉC TƠ ................................................................................................................. 7
1.1. Khái niệm và mục tiêu của phân cụm dữ liệu ........................................... 7
1.2. Các ứng dụng của phân cụm dữ liệu ......................................................... 9
1.3. Các yêu cầu của phân cụm dữ liệu ............................................................ 9
1.4. Hệ thống thông tin địa lý .......................................................................... 11
1.4.1. Một số định nghĩa về hệ thống thông tin địa lý ................................. 11
1.4.2 Các lĩnh vực sử dụng ........................................................................... 13

1.4.3. Biểu diễn dữ liệu địa lý ..................................................................... 14
1.4.3.1. Mơ hình véctơ .............................................................................. 16
1.4.3.2. Mơ hình raster .............................................................................. 18
1.4.4. Cấu trúc lƣu trữ dữ liệu địa lý ............................................................ 22
1.4.4.1. Cây tứ phân .................................................................................. 23
1.4.4.2.Cây R – tree .................................................................................. 26
1.4.4.3. Cây R* - tree ................................................................................ 27
1.4.4.4. Cây k-d-tree ................................................................................. 29
1.5. Cấu trúc dữ liệu bản đồ véc tơ ................................................................. 31
1.5.1. Khái niệm ........................................................................................... 31
1.5.2.Kiểu đối tƣợng điểm (Points) .............................................................. 31
1.5.3..Kiểu đối tƣợng đƣờng (Arcs) ............................................................. 32
1.5.4.Kiểu đối tƣợng vùng (Polygons) ......................................................... 32
1.5.5. Cấu trúc dữ liệu véctơ ........................................................................ 33
1.5.5.1. Cấu trúc Spaghetti ....................................................................... 33
1.5.5.2. Cấu trúc Topology ...................................................................... 34
1.6. Kỹ thuật tiếp cận trong phân cụm dữ liệu................................................. 34
CHƢƠNG 2 - CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU ........................... 36
2.1 Giới thiệu về phân cụm dữ liệu bản đồ véctơ ............................................ 36
2.1.1.Phân cụm dữ liệu và một số khái niệm liên quan ............................... 36
2.1.2.Phân cụm dữ liệu bản đồ ..................................................................... 38
2.1.2.1. Mục tiêu của ứng dụng ................................................................ 39
2.1.2.2. Cân đối giữa chất lƣợng và tốc độ ............................................... 39
2.1.2.3. Đặc tính của dữ liệu ..................................................................... 40
2.2. Các phƣơng pháp phân cụm dữ liệu bản đồ véc tơ ................................. 41
2.2.1. Phƣơng pháp phân cụm phân hoạch................................................... 41
2.2.2. Phƣơng pháp phân cụm phân cấp....................................................... 41
2.2.3. Phƣơng pháp phân cụm dựa trên mật độ ............................................ 42
2.2.4. Phƣơng pháp phân cụm dựa trên lƣới ................................................ 42
2.2.5. Phƣơng pháp phân cụm dựa trên mơ hình ......................................... 43

Số hóa bởi Trung tâm Học liệu – ĐHTN

3

2.2.6. Phƣơng pháp phân cụm có dữ liệu ràng buộc .................................... 44
2.3 Thuật toán phân cụm dữ liệu bản đồ không gian véc tơ........................... 45
2.3.1 Phƣơng pháp phân đoạn ...................................................................... 45
2.3.1.1. Thuật toán k-means ...................................................................... 46
2.3.1.2. Thuật toán k-medoids .................................................................. 47
2.3.2.Phƣơng pháp phân cấp ........................................................................ 49
2.3.2.1. Thuật toán BIRCH ....................................................................... 50
2.3.2.2. Thuật toán CHAMELEON .......................................................... 51
2.3.3.Phƣơng pháp dựa trên mật độ ............................................................. 52
2.3.3.1. Thuật toán DBSCAN ................................................................... 53
2.3.3.2. Thuật toán DENCLUE................................................................. 54
2.3.4.Phƣơng pháp dựa trên lƣới .................................................................. 56
2.3.4.1. Thuật toán STING ....................................................................... 56
2.3.4.2. Thuật toán CLIQUE ..................................................................... 57
2.3.5.Phƣơng pháp phân cụm dựa trên ràng buộc ........................................ 59
CHƢƠNG 3 – XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM ..................... 62
3.1. Phát biểu bài toán ..................................................................................... 62
3.2. Xây dựng bản đồ véc tơ hệ thống khách sạn nội thành Hà Nội ............... 63
3.2.1. Thu thập dữ liệu khách sạn nội thành Hà Nội .................................. 63
3.2.2. Xây dựng bản đồ nền nội thành Hà Nội ............................................ 63
3.2.2.1.Qt số hóa bản đồ giấy ................................................................ 63
3.2.2.2.Nắn chính bản đồ véc tơ ............................................................... 63
3.2.3.3.Kết nạp thông tin thuộc tính ......................................................... 64

3.2.3. Xây dựng lớp bản đồ khách sạn nội thành Hà Nội ........................... 64
3.3 Cài đặt thử nghiệm thuật toán ................................................................... 64
3.4 Đánh giá kết quả thử nghiệm .................................................................... 69
3.4.1. Dữ liệu gồm 189 mẫu, số cụm k=8 .................................................... 69
3.4.2. Dữ liệu gồm 189 mẫu, số cụm k=4 .................................................... 70
3.4.3. Dữ liệu gồm 189 mẫu, số cụm k=5 .................................................... 70
KẾT LUẬN ......................................................................................................... 72
TÀI LIỆU THAM KHẢO ................................................................................... 73

Số hóa bởi Trung tâm Học liệu – ĐHTN

4

DANH MỤC CÁC HÌNH
Hình 1.1. Mơ tả tập dữ liệu đƣợc phân thành 3 cụm……………………………...
Hình 1.2. Các tầng bản đồ………………………………………………………...
Hình 1.3. Biểu diễn vector………………………………………………………...
Hình 1.4. Mơ hình Spaghetti……………………………………………………...
Hình 1.5. Mơ hình Topological…………………………………………………...
Hình 1.6. Mơ hình TIN……………………………………………………………
Hình 1.7. Biểu diễn thế giới bằng mơ hình Raster………………………………
Hình 1.8. Biểu diễn giá trị của ơ…………………………………………………..
Hình 1.9. Biểu diễn liệt kê tồn bộ………………………………………………..
Hình 1.10. Biểu diễn Mã loạt dài…………………………………………………
Hình 1.11. Sự ảnh hƣởng của độ phân giải………………………………………
Hình 1.12. Cây tứ phân lƣu trữ đối tƣợng vùng………………………………….
Hình 1.13. Cây tứ phân PR………………………………………………………

Hình 1.14. Biểu diễn cây R tree………………………………………………….
Hình 1.15. Các khả năng nhóm hình chữ nhật trong R* - tree…………………..
Hình 1.16. Cây k-d-tree 2 chiều………………………………………………..
Hình 1.17. Dữ liệu vector biểu diễn dƣới dạng điểm (Point)…………………….
Hình 1.18. Dữ liệu vector biểu diễn dƣới dạng Acr………………………….
Hình 1.19. Dữ liệu vector biểu diễn dƣới dạng vùng (Poligan)……………….
Hình 1.20. Minh họa dữ liệu Spaghetti……………………….
Hình 1.21. Các đối tƣợng trong mơ hình Topology…………………………
Hình 2.1. Các chiến lƣợc phân cụm phân cấp………………………………….
Hình 2.2. Cấu trúc phân cấp…………………………………….
Hình 2.3. Các cách mà các cụm có thể đƣa ra…………………………………….
Hình 2.4. Các bƣớc thuật tốn CHAMELION…………………………………
Hình 2.5. Ba lớp liên kết trong cấu trúc STRING………………………….

Số hóa bởi Trung tâm Học liệu – ĐHTN

5

TỔNG QUAN
Trong cuộc sống, chúng ta đã gặp rất nhiều ứng dụng của bài toán phân
cụm. Chẳng hạn nhƣ trong ngành bƣu điện, hàng ngày bƣu điện phải phân
loại thƣ theo mã nƣớc, trong mã nƣớc lại phân loại theo mã tỉnh/thành phố,
sau đó khi thƣ về đến bƣu điện tỉnh thì bƣu điện tỉnh lại phải phân loại thƣ
theo quận/huyện để gửi đi, đến bƣu điện quận/huyện lại phân loại thƣ theo
xã/phƣờng để gửi thƣ. Đó chính là một ứng dụng của bài toán phân cụm.
Khai phá dữ liệu khơng gian hay cịn gọi là khai phá tri thức từ dữ liệu
khơng gian là một lĩnh vực có nhu cầu rất cao. Bởi lẽ dữ liệu đầu vào ở đây bao

gồm một khối lƣợng dữ liệu không gian khổng lồ đã đƣợc thu thập từ nhiều ứng
dụng khác nhau, từ thiết bị viễn thám đến hệ thống thông tin địa lý, từ bản đồ số,
từ các hệ thống quản lý và đánh giá môi trƣờng, … Con ngƣời không đủ khả
năng để phân tích đƣợc khối lƣợng dữ liệu khổng lồ này.
Khai phá dữ liệu không gian đƣợc sử dụng nhiều trong các hệ thống thông
tin địa lý (GIS), viễn thám, khai phá dữ liệu ảnh, ảnh y học, rô bốt dẫn đƣờng,
… Khám phá tri thức từ dữ liệu khơng gian có thể đƣợc thực hiện dƣới nhiều
hình thức khác nhau nhƣ sử dụng các quy tắc đặc trƣng và quyết định, trích rút
và mơ tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian, …
Trong q trình khai phá và phân tích dữ liệu khơng gian, bƣớc làm sạch
dữ liệu có một vai trị quan trọng. Để thực hiện bƣớc này, phƣơng pháp đƣợc
quan tâm và phát triển nhiều nhất là phƣơng pháp phân cụm. Phƣơng pháp này
dựa trên lý thuyết thống kê và cho phép tìm ra cấu trúc hoặc các cụm trực tiếp từ
dữ liệu.
Luận văn này giới thiệu một số phƣơng pháp phân cụm dữ liệu bản đồ véc
tơ đang đƣợc sử dụng hiện nay, và một số thuật toán phân cụm liên quan. Đồng
thời luận văn giới thiệu và cài đặt thử nghiệm thuật toán phân cụm dữ liệu Kmeans hỗ trợ tìm kiếm theo vị trí trên bản đồ địa lý của thành phố Hà nội.
Bố cục luận văn gồm:
- Chƣơng I: Khái quát phân cụm dữ liệu và dữ liệu bản đồ véc tơ
Số hóa bởi Trung tâm Học liệu – ĐHTN

6

- Chƣơng II: Các thuật toán phân cụm dữ liệu
- Chƣơng II: Cài đặt chƣơng trình thử nghiệm

Số hóa bởi Trung tâm Học liệu – ĐHTN

7

CHƢƠNG 1 – KHÁI QUÁT PHÂN CỤM DỮ LIỆU VÀ DỮ LIỆU BẢN
ĐỒ VÉC TƠ
1.1. Khái niệm và mục tiêu của phân cụm dữ liệu
Phân cụm dữ liệu là quá trình nhóm một tập các đối tƣợng tƣơng tự
nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc cùng
một cụm là tƣơng đồng còn các đối tƣợng thuộc các cụm khác nhau sẽ
không tƣơng đồng. Phân cụm dữ liệu là một ví dụ của phƣơng pháp học khơng
có thầy. Khơng giống nhƣ phân lớp dữ liệu, phân cụm dữ liệu khơng địi hỏi
phải định nghĩa trƣớc các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm
dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví
dụ… Ngồi ra phân cụm dữ liệu cịn có thể đƣợc sử dụng nhƣ một bƣớc tiền xử
lí cho các thuật toán khai phá dữ liệu khác nhƣ là phân loại và mơ tả đặc điểm,
có tác dụng trong việc phát hiện ra các cụm..

Hình 1.1 Mơ tả tập dữ liệu vay nợ đƣợc phân thành 3 cụm.
Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con ngƣời.
Ngay từ lúc bé, con ngƣời đã học cách làm thế nào để phân biệt giữa mèo và
chó, giữa động vật và thực vật và liên tục đƣa vào sơ đồ phân loại trong tiềm
thức của mình. Phân cụm đƣợc sử dụng rộng rãi trong nhiều ứng dụng, bao
gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trƣờng....Với
tƣ cách là một chức năng khai phá dữ liệu, phân tích phân cụm có thể đƣợc sử
dụng nhƣ một công cụ độc lập chuẩn để quan sát đặc trƣng của mỗi cụm thu
đƣợc bên trong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của
các cụm để giúp cho việc phân tích đạt kết quả.

Số hóa bởi Trung tâm Học liệu – ĐHTN

8

Một vấn đề thƣờng gặp trong phân cụm là hầu hết các dữ liệu cần cho
phân cụm đều có chứa dữ liệu nhiễu do q trình thu thập thiếu chính
xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lƣợc cho bƣớc tiền xử lí
dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trƣớc khi chuyển sang giai đoạn
phân tích cụm dữ liệu. Nhiễu ở đây đƣợc hiểu là các đối tƣợng dữ liệu khơng
chính xác, khơng tƣờng minh hoặc là các đối tƣợng dữ liệu khuyết thiếu
thông tin về một số thuộc tính... Một trong các kỹ thuật xử lí nhiễu phổ biến
là việc thay thế giá trị các thuộc tính của đối tƣợng nhiễu bằng giá trị
thuộc tính tƣơng ứng. Ngồi ra, dị tìm phần tử ngoại lai cũng là một trong
những hƣớng nghiên cứu quan trọng trong phân cụm, chức năng của nó là
xác định một nhóm nhỏ các đối tƣợng dữ liệu khác thƣờng so với các dữ liệu
trong cơ sở dữ liệu (CSDL), tức là các đối tƣợng dữ liệu không tuân theo các
hành vi hoặc mơ hình dữ liệu nhằm tránh sự ảnh hƣởng của chúng tới quá trình
và kết quả của phân cụm.
Mục tiêu của phân cụm là xác định đƣợc bản chất nhóm trong tập dữ liệu
(DL) chƣa có nhãn. Nhƣng để có thể quyết định đƣợc cái vì tạo thành một cụm
tốt. Nó có thể đƣợc chỉ ra rằng khơng có tiêu chuẩn tuyệt đối “tốt” mà
có thể khơng phụ thuộc vào kết qủa phân cụm. Vì vậy, nó đòi hỏi ngƣời sử
dụng phải cung cấp tiêu chuẩn này, theo cách mà kết quả phân cụm sẽ đáp ứng
yêu cầu.
Theo các nghiên cứu cho thấy thì hiện nay chƣa có một phƣơng pháp
phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc
CSDL. Hơn nữa, các phƣơng pháp phân cụm cần có cách thức biểu diễn cấu

trúc của các CSDL, với mỗi cách thức biểu diễn khác nhau sẽ có tƣơng ứng
một thuật tốn phân cụm phù hợp. Vì vậy phân cụm dữ liệu vẫn đang là một vấn
đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù
hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang
ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là một trong
những thách thức lớn trong lĩnh vực khai phá dữ liệu (KPDL).

Số hóa bởi Trung tâm Học liệu – ĐHTN

9

1.2. Các ứng dụng của phân cụm dữ liệu
Phân cụm dữ liệu có thể đƣợc ứng dụng trong nhiều lĩnh vực nhƣ:
Thƣơng mại: Tìm kiếm nhóm các khách hàng quan trọng có đặc trƣng
tƣơng đồng và những đặc tả họ từ các bản ghi mua bán trong CSDL
Sinh học: Phân loại các gen với các chức năng tƣơng đồng và thu đƣợc
các cấu trúc trong mẫu.
Thƣ viện: Phân loại các cụm sách có nội dung và ý nghĩa tƣơng đồng
nhau để cung cấp cho độc giả
Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi
thƣờng cao, nhận dạng gian lận thƣơng mại
Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lí,...
nhằm cung cấp thông tin cho quy hoạch đô thị
Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất
nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm
WWW: Có thể khám phá các nhóm tài liệu quan trọng, có nhiều ý nghĩa
trong mơi trƣờng Web. Các lớp tài liệu này trợ giúp cho việc khai phá thông tin

từ dữ liệu.
1.3. Các yêu cầu của phân cụm dữ liệu
Phân cụm là một thách thức trong lĩnh vực nghiên cứu ở chỗ những
ứng dụng tiềm năng của chúng đƣợc đƣa ra ngay chính trong những yêu cầu đặc
biệt của chúng. Sau đây là những yêu cầu cơ bản của phân cụm trong
KPDL:
Có khả năng mở rộng: Nhiều thuật toán phân cụm làm việc tốt với
những tập dữ liệu nhỏ chứa ít hơn 200 đối tƣợng, tuy nhiên, một CSDL lớn có
thể chứa tới hàng triệu đối tƣợng. Việc phân cụm với một tập dữ liệu lớn có thể
làm ảnh hƣởng tới kết quả. Vậy làm cách nào để chúng ta có thể phát triển các
thuật tốn phân cụm có khả năng mở rộng cao đối với các CSDL lớn ?
Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật
toán đƣợc thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểu số). Tuy
nhiên, nhiều ứng dụng có thể địi hỏi việc phân cụm với nhiều kiểu dữ liệu
Số hóa bởi Trung tâm Học liệu – ĐHTN

10

khác nhau, nhƣ kiểu nhị phân, kiểu tƣờng minh (định danh - khơng thứ
tự), và dữ liệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu này.
Khám phá các cụm với hình dạng bất kỳ: Nhiều thuật toán phân cụm
xác định các cụm dựa trên các phép đo khoảng cách Euclidean và
khoảng cách Manhattan. Các thuật toán dựa trên các phép đo nhƣ vậy hƣớng
tới việc tìm kiếm các cụm hình cầu với mật độ và kích cỡ tƣơng tự nhau. Tuy
nhiên, một cụm có thể có bất cứ một hình dạng nào. Do đó, việc phát triển các
thuật tốn có thể khám phá ra các cụm có hình dạng bất kỳ là một việc làm
quan trọng.

Tối thiểu lƣợng tri thức cần cho xác định các tham số đầu vào: Nhiều
thuật toán phân cụm yêu cầu ngƣời dùng đƣa vào những tham số nhất định
trong phân tích phân cụm (nhƣ số lƣợng các cụm mong muốn). Kết quả
của phân cụm thƣờng khá nhạy cảm với các tham số đầu vào. Nhiều tham số rất
khó để xác định, nhất là với các tập dữ liệu có lƣợng các đối tƣợng lớn. Điều này
không những gây trở ngại cho ngƣời dùng mà cịn làm cho khó có thể điều chỉnh
đƣợc chất lƣợng của phân cụm.
Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những CSDL thực
đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chƣa biết hoặc dữ liệu sai.
Một số thuật toán phân cụm nhạy cảm với dữ liệu nhƣ vậy và có thể dẫn đến
chất lƣợng phân cụm thấp.
Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân
cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ nhƣ với cùng một tập dữ liệu,
khi đƣợc đƣa ra với các thứ tự khác nhau thì với cùng một thuật tốn có thể
sinh ra các cụm rất khác nhau. Do đó, việc quan trọng là phát triển các thuật
tốn mà ít nhạy cảm với thứ tự vào của dữ liệu.
Số chiều lớn: Một CSDL hoặc một kho dữ liệu có thể chứa một số
chiều hoặc một số các thuộc tính. Nhiều thuật tốn phân cụm áp dụng tốt cho
dữ liệu với số chiều thấp, bao gồm chỉ từ hai đến 3 chiều. Ngƣời ta đánh giá việc
phân cụm là có chất lƣợng tốt nếu nó áp dụng đƣợc cho dữ liệu có từ 3 chiều trở
lên. Nó là sự thách thức với các đối tƣợng dữ liệu cụm trong khơng gian với số
Số hóa bởi Trung tâm Học liệu – ĐHTN

11

chiều lớn, đặc biệt vì khi xét những khơng gian với số chiều lớn có thể rất thƣa
và có độ nghiêng lớn.

Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện
phân cụm dƣới các loại ràng buộc khác nhau. Một nhiệm vụ đặt ra là đi tìm
những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc.
Dễ hiểu và dễ sử dụng: Ngƣời sử dụng có thể chờ đợi những kết quả
phân cụm dễ hiểu, dễ lý giải và dễ sử dụng. Nghĩa là, sự phân cụm có thể cần
đƣợc giải thích ý nghĩa và ứng dụng rõ ràng.
Với những yêu cầu đáng lƣu ý này, nghiên cứu của ta về phân tích phân
cụm diễn ra nhƣ sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và cách
chúng có thể gây ảnh hƣởng tới các phƣơng pháp phân cụm. Thứ hai, ta đƣa ra
một cách phân loại chung trong các phƣơng pháp phân cụm. Sau đó, ta
nghiên cứu chi tiết mỗi phƣơng pháp phân cụm, bao gồm các phƣơng pháp
phân hoạch, phân cấp, dựa trên mật độ,... Ta cũng khảo sát sự phân cụm trong
không gian đa chiều và các biến thể của các phƣơng pháp khác.
1.4. Hệ thống thơng tin địa lý
Có nhiều cách diễn giải khác nhau cho từ viết tắt GIS, tuy nhiên các cách
diễn giải đó đều mơ tả việc nghiên cứu các thơng tin địa lý và các khía cạnh
khác liên quan đến địa lý nhƣ pháp lý, kinh tế, …
1.4.1. Một số định nghĩa về hệ thống thông tin địa lý
GIS cũng giống nhƣ các hệ thống thơng tin khác, có khả năng nhập, tìm
kiếm và quản lý các dữ liệu lƣu trữ, để từ đó đƣa ra các thơng tin cần thiết cho
ngƣời sử dụng. Ngồi ra, GIS cịn cho phép lập bản đồ với sự trợ giúp của máy
tính, giúp cho việc biểu diễn dữ liệu bản đồ tốt hơn so với cách truyền thống.
Dƣới đây là một số định nghĩa GIS hay dùng:
 Định nghĩa của dự án The Geographer's Craft, Khoa Địa lý, Trƣờng
Đại học Texas
GIS là cơ sở dữ liệu số chuyên dụng trong đó hệ trục tọa độ khơng gian là
phƣơng tiện tham chiếu chính. GIS bao gồm các công cụ để thực hiện những
công việc sau:
Số hóa bởi Trung tâm Học liệu – ĐHTN

12

- Nhập dữ liệu từ bản đồ giấy, ảnh vệ tinh, ảnh máy bay, số liệu điều tra
và các nguồn khác.
- Lƣu trữ dữ liệu, khai thác, truy vấn cơ sở dữ liệu.
- Biến đổi dữ liệu, phân tích, mơ hình hóa, bao gồm cả dữ liệu thống kê
và dữ liệu không gian.
- Lập báo cáo, bao gồm bản đồ chuyên đề, bảng biểu, biểu đồ và kế
hoạch.
Từ định nghĩa trên, ta thấy: Thứ nhất, GIS có quan hệ với ứng dụng cơ sở
dữ liệu. Thông tin trong GIS đều liên kết với tham chiếu không gian và GIS sử
dụng tham chiếu khơng gian nhƣ phƣơng tiện chính để lƣu trữ và truy nhập
thông tin. Thứ hai, GIS là công nghệ tích hợp, cung cấp các khả năng phân tích
nhƣ phân tích ảnh máy bay, ảnh vệ tinh hay tạo lập mơ hình thống kê, vẽ bản
đồ... Cuối cùng, GIS có thể đƣợc xem nhƣ một hệ thống cho phép trợ giúp quyết
định. Cách thức nhập, lƣu trữ, phân tích dữ liệu trong GIS phải phản ánh đúng
cách thức thông tin sẽ đƣợc sử dụng trong công việc lập quyết định hay nghiên
cứu cụ thể.
 Định nghĩa của Viện Nghiên cứu Hệ thống Môi trƣờng ESRI, Mỹ
GIS là một công cụ trên máy tính để lập bản đồ và phân tích những đối
tƣợng đang tồn tại cũng nhƣ các sự kiện xảy ra trên Trái đất. Cơng nghệ GIS
tích hợp các chức năng cơ sở dữ liệu nhƣ truy vấn và thống kê với các chức
năng hiển thị và phân tích thống kê bản đồ. Với định nghĩa này, GIS đƣợc phân
biệt với các hệ thơng tin khác. Có rất nhiều chƣơng trình máy tính sử dụng dữ
liệu khơng gian (spatial) nhƣ AutoCAD và các chƣơng trình thống kê, nhƣng
chúng khơng phải là GIS vì chúng khơng có khả năng thực hiện các thao tác
không gian.

 Định nghĩa của David Cowen, NCGIA, Mỹ
GIS là hệ thống phần cứng, phần mềm và các thủ tục đƣợc thiết kế để thu
thập, quản lý, xử lý, phân tích, mơ hình hóa và hiển thị các dữ liệu qui chiếu
không gian để giải quyết các vấn đề quản lý và lập kế hoạch phức tạp.

Số hóa bởi Trung tâm Học liệu – ĐHTN

13

Một cách đơn giản, có thể hiểu GIS nhƣ một sự kết hợp giữa bản đồ (map)
và cơ sở dữ liệu (database).
GIS = Bản đồ + Cơ sở dữ liệu
Bản đồ trong GIS là một cơng cụ hữu ích cho phép chỉ ra vị trí của từng địa
điểm. Với sự kết hợp giữa bản đồ và cơ sở dữ liệu, ngƣời dùng có thể xem thơng
tin chi tiết về từng đối tƣợng/thành phần tƣơng ứng với địa điểm trên bản đồ
thông qua các dữ liệu đã đƣợc lƣu trữ trong cơ sở dữ liệu. Ví dụ, khi xem bản đồ
về các thành phố, ngƣời dùng có thể chọn một thành phố để xem thơng tin về
thành phố đó nhƣ diện tích, số dân, thu nhập bình qn, số quận/huyện của
thành phố, …
1.4.2 Các lĩnh vực sử dụng
Ngày nay, GIS đã chứng tỏ đƣợc ƣu thế của mình, bởi lẽ GIS có khả năng
dùng dữ liệu khơng gian và phi khơng gian từ nhiều nguồn khác nhau trong q
trình phân tích dữ liệu. GIS đƣợc xây dựng dựa trên tri thức của nhiều ngành
khoa học:
- Ngành địa lý: ngành liên quan mật thiết đến việc hiểu thế giới và vị trí
của con ngƣời trong thế giới.
- Ngành bản đồ (cartography): do thông tin địa lý là thông tin tham chiếu

không gian nên GIS có liên quan đến ngành bản đồ. Dữ liệu đầu vào của
GIS chính là các bản đồ theo chuẩn của ngành này.
- Công nghệ viễn thám (remote sensing): gồm kỹ thuật thu thập và xử lý
dữ liệu tại mọi vị trí trên trái đất từ các ảnh vệ tinh và ảnh máy bay. Dữ
liệu này có thể trộn với các lớp dữ liệu trong GIS.
- Ảnh máy bay: với kỹ thuật đo chính xác từ hệ thống trên máy bay, nó sẽ
cung cấp dữ liệu về độ cao trái đất cho GIS. Nên bỏ đoạn này.
- Bản đồ địa hình: Cung cấp dữ liệu có chất lƣợng cao về vị trí của ranh
giới đất đai, nhà cửa,...
- Khoa đo đạc, ngành thống kê, khoa học tính tốn, tốn học: kỹ thuật của
các ngành này hỗ trợ cho việc tính tốn, thống kê cũng nhƣ hiển thị dữ
liệu sau khi đã phân tích trong GIS.
Số hóa bởi Trung tâm Học liệu – ĐHTN

14

Công nghệ GIS đƣợc sử dụng trong nhiều lĩnh vực khác nhau nhƣ bản đồ
học, đầu tƣ, quản lý nguồn tài nguyên, quản lý tài sản, khảo cổ học
(archaeology), phân tích điều tra dân số, đánh giá sự tác động lên môi trƣờng, kế
hoạch đô thị, nghiên cứu tội phạm,… Việc trích rút thơng tin từ dữ liệu địa lý
thơng qua hệ thống GIS bao gồm các câu hỏi cơ bản sau:
- Nhận diện (identification): Nhận biết tên hay các thông tin khác của đối
tƣợng bằng việc chỉ ra vị trí trên bản đồ. Ví dụ, có cái gì tại tọa độ (X,
Y).
- Vị trí (location): Câu hỏi này đƣa ra một hoặc nhiều vị trí thỏa mãn u
cầu. Nó có thể là tập tọa độ hay bản đồ chỉ ra vị trí của một đối tƣợng cụ
thể, hay tồn bộ đối tƣợng. Ví dụ, cho biết vị trí các văn phịng của cơng

ty nào đó trong thành phố.
- Xu thế (trend): Câu hỏi này liên quan đến các dữ liệu khơng gian tạm
thời. Ví dụ, câu hỏi liên quan đến xu hƣớng phát triển thành thị dẫn tới
chức năng hiển thị bản đồ của GIS để chỉ ra các vùng lân cận đƣợc xây
dựng từ 1990 đến 2000.
- Tìm đƣờng đi tối ƣu (optimal path): Trên cơ sở mạng lƣới đƣờng đi (hệ
thống đƣờng bộ, đƣờng thủy...), câu hỏi là cho biết đƣờng đi nào là tối
ƣu nhất (rẻ nhất, ngắn nhất,...) giữa 2 vị trí cho trƣớc.
- Mẫu (pattern): Câu hỏi này khá phức tạp, tác động trên nhiều tập dữ
liệu. Ví dụ, cho biết quan hệ giữa khí hậu địa phƣơng và vị trí của các
nhà máy, cơng trình cơng cộng trong vùng lân cận.
- Mơ hình (model): Câu hỏi này liên quan đến các hoạt động lập kế hoạch
và dự báo.Ví dụ, cần phải nâng cấp, xây dựng hệ thống mạng lƣới giao
thông, điện nhƣ thế nào nếu phát triển khu dân cƣ về phía bắc thành phố.
1.4.3. Biểu diễn dữ liệu địa lý
Hệ thống GIS là sự kết hợp giữa bản đồ và cơ sở dữ liệu. Khái niệm về cơ
sở dữ liệu trong hệ thống GIS cũng giống nhƣ khái niệm truyền thống, nó bao
gồm các bảng có mối liên hệ với nhau cùng phục vụ cho mục đích của ngƣời sử
dụng. Do đó, cơ sở dữ liệu trong GIS sẽ bao gồm các bảng để lƣu các thơng tin
Số hóa bởi Trung tâm Học liệu – ĐHTN

15

mô tả về các thành phần/ đối tƣợng của bản đồ. Bản đồ trong GIS có thể đƣợc
biểu diễn bởi nhiều kiểu mơ hình dữ liệu GIS khác nhau. Việc hiểu đƣợc các
loại mơ hình dữ liệu của GIS có thể giúp ngƣời sử dụng biết dữ liệu đƣợc tổ
chức nhƣ thế nào và dùng dữ liệu đó để phân tích sao cho hiệu quả và chính xác.

Do thế giới thực có nhiều đối tƣợng, để hạn chế sự phức tạp khi quản lý, hệ
thống GIS phân chia các đối tƣợng thành từng lớp. Tƣơng ứng với mỗi lớp dữ
liệu là một tầng (layer) bản đồ, các tầng bản đồ có khả năng liên kết với nhau để
hình thành bản đồ chuyên đề (thematic). Việc biểu diễn theo tầng là trong suốt
đối với ngƣời dùng nên cho phép ngƣời dùng xem và phân tích thơng tin đƣợc
lựa chọn theo từng chuyên đề. Việc tổ chức thành các tầng nhằm
- Giúp quản lý dữ liệu dễ dàng,
- Chỉ có các đối tƣợng liên quan đến chuyên đề,
- Hạn chế số lƣợng thông tin cần gán cho đối tƣợng bản đồ sẽ quản lý,
- Tăng khả năng cập nhật thông tin và bảo trì dữ liệu vì thơng thƣờng mỗi
một lớp thơng tin có các nguồn tƣ liệu thu thập khác nhau,
- Hiển thị bản đồ nhanh và dễ truy cập.
Ngƣời dùng có thể thực hiện các thao tác kết hợp trên nhiều tầng bản đồ để
có thể đƣa ra một tầng bản đồ mới phục vụ yêu cầu lấy thông tin. Các phép kết
hợp này tùy thuộc vào kiểu mơ hình lƣu trữ dữ liệu của tầng bản đồ đó.

Hình 1.2 Các tầng bản đồ
Giả sử ta có bản đồ nhƣ trên Hình 1.2. Mỗi nhóm ngƣời sử dụng chỉ quan
tâm chủ yếu đến một hay vài loại thơng tin. Thí dụ, sở giao thơng cơng chính sẽ
quan tâm nhiều đến đƣờng phố, sở nhà đất sẽ quan tâm nhiều đến các khu dân
Số hóa bởi Trung tâm Học liệu – ĐHTN

16

cƣ và công sở, sở thƣơng mại quan tâm nhiều đến phân bổ khách hàng trong
vùng. Tƣ tƣởng tách bản đồ thành lớp tuy đơn giản nhƣng lại mềm dẻo và hiệu
quả, chúng cho khả năng giải quyết hữu hiệu về thế giới thực, từ những việc

theo dõi điều hành xe cộ trong giao thông, đến các ứng dụng lập kế hoạch và mơ
hình hố lƣu thơng.
Mơ hình dữ liệu địa lý là các qui tắc đƣợc sử dụng để biến đổi đặc trƣng địa
lý của thế giới thực thành các đối tƣợng rời rạc với các mức độ phức tạp khác
nhau. Việc lựa chọn mơ hình dữ liệu phụ thuộc vào loại ứng dụng và kết quả kỳ
vọng đạt đƣợc. Hiện nay, để biểu diễn đồ họa trong mỗi tầng khơng gian địa lý,
GIS sử dụng 2 mơ hình dữ liệu cơ bản là mơ hình vector và mơ hình raster. Việc
chọn mơ hình dữ liệu hợp lý sẽ quyết định sự thành cơng của việc phân tích của
GIS sau này. Dƣới đây là mô tả sơ lƣợc về các mơ hình trên.
1.4.3.1. Mơ hình véctơ
Mơ hình vector sử dụng tọa độ 2 chiều (x, y) để lƣu trữ hình khối của các
thực thể khơng gian trên bản đồ 2D. Mơ hình này sử dụng các đặc tính rời rạc
nhƣ điểm, đƣờng, vùng để mô tả không gian, đồng thời cấu trúc topo của các đối
tƣợng cũng cần đƣợc mơ tả chính xác và lƣu trữ trong hệ thống.

Hình 1.3 Biểu diễn vector
Theo Hình 1.3, các đối tƣợng khơng gian đƣợc lƣu trữ dƣới dạng vertor,
đồng thời các thuộc tính liên quan đến lĩnh vực cần quản lý (dữ liệu chuyên đề thematic data) của đối tƣợng đó cũng cần kết hợp với dữ liệu trên. Các nhân tố
Số hóa bởi Trung tâm Học liệu – ĐHTN

17

chỉ ra sự tác động qua lại lẫn nhau giữa các đối tƣợng cũng đƣợc quản lý, các
nhân tố đó có thể là quan hệ topo (giao/ khơng giao nhau, phủ, tiếp xúc, bằng
nhau, chứa, …), khoảng cách và hƣớng (láng giềng về hƣớng nào).
Một số loại mơ hình vector:
- Mỳ ống (Spaghetti): không theo cấu trúc topo, đơn giản và dễ quản lý,

nhƣng dữ liệu trùng lặp nhiều. Mô hình này thƣờng đƣợc dùng vào việc
lập bản đồ bằng máy tính trong CAC (Computer assisted Cartography) .

Hình 1.4 Mơ hình Spaghetti
- Quan hệ Topo (Topological): các đối tƣợng địa lý trong bản đồ số có
thể đƣợc diễn tả bằng việc lƣu trữ điểm, vùng trong các bảng mô tả topo.
Đây là mơ hình đƣợc sử dụng nhiều nhất trong các hệ thống GIS.

Hình 1.5 Mơ hình Topological
- Mạng lƣới tam giác không đều - TIN (Triangulated Irregular
Network): đƣợc hỗ trợ trong GIS 3 chiều để mơ tả hình ảnh có độ sâu/
dốc. Mơ hình thực hiện chia bản đồ thành mạng các tam giác khơng đều.
Số hóa bởi Trung tâm Học liệu – ĐHTN

18

Hình 1.6. Mơ hình TIN
- Ngồi ra cịn có một số kiểu mơ hình vector khác nhƣ TIGER, TGLs,
Network, Shapefile, …
Hệ thống GIS nhận dữ liệu theo khuôn dạng mô hình vector từ nhiều nguồn
nhƣ: dữ liệu từ ngành bản đồ truyền thống, tự thu thập thông tin đo đạc, …
1.4.3.2. Mơ hình raster
Mơ hình raster hay cịn gọi mơ hình dạng ảnh (image) biểu diễn các đặc
tính dữ liệu bởi ma trận các ô (cell) trong không gian liên tục. Mỗi ơ có chỉ số
tọa độ (coordinate) và các thuộc tính liên quan. Mỗi vùng đƣợc chia thành các
hàng và cột, mỗi ơ có thể là hình vng hoặc hình chữ nhật và chỉ có duy nhất
một giá trị.

Hình 1.7. Biểu diễn thế giới bằng mơ hình raster

Giá trị của mỗi ơ có thể đƣợc biểu diễn tại trung tâm, đƣờng biên hoặc phủ
trên tồn bộ ơ đó.
Số hóa bởi Trung tâm Học liệu – ĐHTN

19

Hình 1.8. Biểu diễn giá trị của ơ

Khơng giống nhƣ lƣu trữ rõ ràng quan hệ topo trong mơ hình vector, vị trí
khơng gian của mỗi ơ ẩn chứa bên trong trật tự của ma trận. Các ô đƣợc lƣu trữ
có thứ tự lần lƣợt theo quy ƣớc lƣu trữ (từ trên xuống, từ dƣới lên, trái sang phải,
phải sang trái). Với mơ hình raster, dữ liệu khơng gian khơng còn liên tục mà
đƣợc chia thành các đối tƣợng rời rạc. Kích thƣớc ơ đƣợc sử dụng trong mơ hình
raster ảnh hƣởng đến kết quả phân tích và chất lƣợng bản đồ hiển thị, thậm chí
là mất thơng tin lƣu trữ. Trong một số trƣờng hợp, cách lƣu trữ này gây tốn bộ
nhớ do trong ma trận lƣu trữ có nhiều ô không chứa dữ liệu.
Dƣới đây là một số cách lƣu trữ theo mơ hình raster:
- Liệt kê tồn bộ (Exhaustive enumeration): mỗi ô chỉ lƣu duy nhất một
giá trị, do đó khơng có sự đụng độ về mặt giá trị. Ví dụ minh họa thể
hiện trong Hình 1.9.

Hình 1.9. Biểu diễn liệt kê tồn bộ
Số hóa bởi Trung tâm Học liệu – ĐHTN

20

- Mã loạt dài (run-length encoding): đây là kỹ thuật nén ảnh raster.
Trong một dịng, nếu có một nhóm các ơ liên tiếp cùng một giá trị thì có
thể lƣu trữ nén lại. Thay vì việc lƣu giá trị từng ô, ngƣời ta chỉ việc ghi
giá trị chung của các ơ đó và vị trí ơ kết thúc chuỗi giá trị chung đó. Kết
quả biểu diễn đƣợc mơ tả trong Hình 1.10.

Hình 1.10. Biểu diễn mã loạt dài

Mơ hình raster có thể lƣu trữ ảnh theo nhiều định dạng khác nhau từ cấu
trúc dựa trên tệp chuẩn nhƣ GIF, JPEG, PNG, TIFF, … đến đối tƣợng dữ liệu
nhị phân BLOB (binary large object) đƣợc trích rút trực tiếp từ hệ quản trị cơ sở
dữ liệu giống nhƣ trong mơ hình vector.
Hệ thống GIS thu thập dữ liệu theo khuôn dạng mơ hình raster từ nhiều
nguồn nhƣ: thơng tin chụp từ vệ tinh, máy bay hay các định dạng ảnh khác mà
mỗi điểm ảnh có một giá trị, …
Trên thực tế, chọn kiểu mơ hình nào để biểu diễn bản đồ là câu hỏi luôn đặt
ra với ngƣời sử dụng. Việc lƣu trữ kiểu đối tƣợng nào sẽ quyết định mô hình sử
dụng. Ví dụ nếu lƣu vị trí của các khách hàng, các trạm rút tiền hoặc dữ liệu cần
tổng hợp theo từng vùng nhƣ vùng theo mã bƣu điện, các hồ chứa nƣớc, … thì
sử dụng mơ hình vector. Nếu đối tƣợng quản lý đƣợc phân loại liên tục nhƣ loại
đất, mức nƣớc hay độ cao của núi, … thì thƣờng dùng mơ hình raster. Đồng
thời, nếu dữ liệu thu thập từ các nguồn khác nhau đƣợc dùng một mơ hình nào
đó thì có thể chuyển đổi từ mơ hình này sang mơ hình khác để phục vụ tốt cho
việc xử lý của ngƣời dùng.
Mỗi mơ hình có ƣu điểm và nhƣợc điểm khác nhau. Về mặt lƣu trữ, việc

lƣu trữ giá trị của tất cả các ô/ điểm ảnh trong mơ hình raster địi hỏi khơng gian
nhớ lớn hơn so với việc chỉ lƣu các giá trị khi cần trong mơ hình vector. Cấu
Số hóa bởi Trung tâm Học liệu – ĐHTN

21

trúc dữ liệu lƣu trữ của raster đơn giản, trong khi vector dùng các cấu trúc phức
tạp hơn. Dung lƣợng lƣu trữ trong mơ hình raster có thể lớn hơn gấp 10 đến 100
lần so với mơ hình vector. Đối với thao tác xếp chồng (overlay), mơ hình raster
cho phép thực hiện một cách dễ dàng, trong khi mơ hình vector lại phức tạp và
khó khăn hơn. Về mặt hiển thị, mơ hình vector có thể hiển thị đồ họa vector
giống nhƣ bản đồ truyền thống, cịn mơ hình raster chỉ hiển thị ảnh nên có thể
xuất hiện hình khối tại đƣờng biên của các đối tƣợng tùy theo độ phân giải của
tệp raster. Mức độ ảnh hƣởng của độ phân giải khi lƣu trữ đƣợc chỉ ra trong
Hình 1.11.

Hình 1.11. Sự ảnh hƣởng của độ phân giải

Với dữ liệu vector, ngƣời dùng có thể bổ sung, co dãn hoặc chiếu bản đồ,
thậm chí có thể kết hợp với các tầng bản đồ khác thuộc các nguồn khác nhau,
đồng thời dữ liệu này tƣơng thích với mơi trƣờng cơ sở dữ liệu quan hệ. Hiện
nay, mơ hình vector đƣợc sử dụng nhiều trong các hệ thống GIS bởi các lý do
trên, ngồi ra mơ hình này cho phép cập nhật và duy trì đơn giản, dễ truy vấn dữ
liệu. Khi có nhu cầu chuyển đổi dữ liệu từ mơ hình vector sang raster (raster hóa
– rasterization) và ngƣợc lại (vector hóa – vectorization) để phục vụ cơng việc
phân tích dữ liệu trên bản đồ, có thể dùng các phần mềm hỗ trợ chuyển đổi. Bản
Số hóa bởi Trung tâm Học liệu – ĐHTN

22

chất việc chuyển đổi này là GIS thực hiện việc xây dựng lại cấu trúc dữ liệu từ
các định dạng dữ liệu khác nhau. Ví dụ, ảnh thu đƣợc từ vệ tinh satellite có cấu
trúc raster, GIS chuyển sang cấu trúc vector bằng việc sinh thêm các đƣờng viền
bao quanh các ô cùng loại đồng thời xác định mối quan hệ khơng gian của các ơ
đó.
Q trình chuyển đổi này có thể địi hỏi thêm nhiều kỹ thuật khác trong xử
lý ảnh. Do dữ liệu ảnh số đƣợc thu thập và lƣu trữ nhiều cách khác nhau, nên
nguồn dữ liệu khơng hồn tồn tƣơng thích với cơng việc. Hầu hết các hệ thống
GIS thƣơng mại đều hỗ trợ công cụ để chuyển đổi dữ liệu giữa hai mơ hình trên.
1.4.4. Cấu trúc lƣu trữ dữ liệu địa lý
Tùy theo mô hình dữ liệu địa lý thì cấu trúc lƣu trữ dữ liệu sẽ khác nhau.
Cấu trúc dữ liệu không gian cho biết các thực thể đƣợc tổ chức lƣu trữ vật lý
nhƣ thế nào, từ đó ngƣời lập trình hoặc nhà phát triển hệ thống có thể sử dụng
các thuật tốn thích hợp với cấu trúc dữ liệu đó để xử lý dữ liệu. Mục đích của
việc tổ chức lƣu trữ dữ liệu địa lý chính là tăng tốc độ xử lý, đây là vấn đề cần
thiết trong các kỹ thuật cải tiến tốc độ của thuật toán.
Một kỹ thuật đơn giản để cải tiến tốc độ khi truy vấn dữ liệu khơng gian và
dữ liệu thuộc tính là xây dựng cây chỉ số cho trƣờng dữ liệu khóa để kết nối 2
thông tin trên, phƣơng pháp này đƣợc gọi là lập chỉ mục không gian (spatial
index). Một kỹ thuật khác đó là tổ chức lƣu trữ theo 2 thành phần dữ liệu trên.
Với dữ liệu thuộc tính do hệ quản trị cơ sở dữ liệu quản lý, việc tìm kiếm trên
các thông tin này đƣợc hệ quản trị đảm nhiệm. Với thành phần dữ liệu không
gian cần tổ chức theo một cấu trúc bất kỳ, thao tác xử lý đƣợc thực hiện trực tiếp
trên dữ liệu. Để tăng tốc độ trong trƣờng hợp này chính là thiết kế cấu trúc dữ

liệu để lƣu trữ cho dữ liệu không gian, lý do: Thứ nhất, dữ liệu khơng gian có
cấu trúc phức tạp, bởi lẽ mỗi đối tƣợng có thể là điểm, đƣờng, vùng hoặc thậm
chí kết hợp các kiểu dữ liệu trên. Thứ hai, dữ liệu không gian luôn thay đổi. Thứ
ba, dữ liệu khơng gian thƣờng có xu hƣớng nhiều, bộ dữ liệu lớn. Thứ tư, khơng
có đại số chuẩn (standard algebra) trên dữ liệu không gian, nên không có tập

Số hóa bởi Trung tâm Học liệu – ĐHTN

23

các phép toán đại số chuẩn. Cuối cùng, một số thao tác khơng gian khơng đóng
(closed), ví dụ phép giao của các vùng có thể trả về tập các điểm, đƣờng, vùng.
Tùy theo đối tƣợng không gian quản lý sẽ lựa chọn cấu trúc lƣu trữ thích
hợp. Dữ liệu khơng gian có thể gồm các đối tƣợng đƣợc hình thành bởi điểm,
đƣờng, vùng, bề mặt, khối và thậm chí dữ liệu có thêm chiều khơng gian. Tuy
nhiên, trong phạm vi hệ thống GIS 2D chỉ tập trung vào các đối tƣợng điểm,
đƣờng, vùng, nên phần này chỉ đề cập đến một vài cấu trúc dữ liệu sử dụng
trong hệ thống này.
Hầu hết cấu trúc dữ liệu sử dụng ở đây là cấu trúc cây phân cấp
(hierarchical), sử dụng phép đệ quy chia nhỏ không gian để thu đƣợc dữ liệu
cần quản lý. Cấu trúc này đƣợc sử dụng nhiều trong đồ họa máy tính, xử lý ảnh,
robotics, hệ thống GIS.
1.4.4.1. Cây tứ phân
Cây tứ phân là cấu trúc dữ liệu cổ điển nhất đƣợc sử dụng để thiết kế cho
việc truy xuất dữ liệu khơng gian. Cây tứ phân có nhiều dạng khác nhau để tham
chiếu không gian 2 chiều, tuy nhiên cấu trúc này có thể phát triển để sử dụng
trong không gian k-chiều.

Cấu trúc này chia không gian thành 4 phần, mỗi phần đƣợc đánh dấu theo
phƣơng hƣớng NW (North West – Tây Bắc), NE (North East – Đông Bắc), SW
(South West – Tây Nam), SE (South East – Đông Nam) hoặc từ trái qua phải, từ
trên xuống và mỗi phần tƣơng ứng một nút trên cây. Nếu phần chứa duy nhất
một đối tƣợng quản lý thì dừng, cịn phần nào có nhiều hơn một đối tƣợng lại
tiến hành chia tiếp. Công việc lặp lại cho đến khi tất cả các đối tƣợng đều đƣa
hết vào cây.
Cây tứ phân thƣờng dùng để biểu diễn dữ liệu kiểu vùng. Ngƣời ta xây
dựng vùng chứa dữ liệu thành khối hình vng theo kích thƣớc chuẩn (lũy thừa
của 2), sau đó chia thành 4 phần bằng nhau. Nếu phần nào thuộc vùng chứa dữ
liệu thì điền giá trị 1, ngƣợc lại là 0. Công việc chia và điền giá trị đƣợc lặp lại
cho đến khi thu đƣợc toàn bộ vùng cần quản lý (việc chia có thể lặp đến khi các

Số hóa bởi Trung tâm Học liệu – ĐHTN

24

ơ chia có kích thƣớc đơn vị 1*1). Sau đó, dùng mảng giá trị thu đƣợc trong quá
trình trên để xây dựng cây.
Hình 1.12 biểu diễn vùng dữ liệu cần lƣu trữ, việc phân chia vùng và xây
dựng cây tứ phân để lƣu trữ vùng đó. Cây tứ phân có 3 mức kể từ dƣới lên. Nút
A là nút gốc chỉ toàn bộ mảng chứa vùng. Mỗi con của A là một góc phần tƣ của
vùng phân chia, và đƣợc gán nhãn lần lƣợt là NW, NE, SW, SE. Các nút lá chỉ
các khối của vùng phân chia, nút có màu đen/ trắng là nút thuộc/không thuộc
vùng. Nút khác lá chỉ vùng đƣợc phân chia tiếp và có màu xám.

Hình 1.12. Cây tứ phân lƣu trữ đối tƣợng vùng

Cây tứ phân cũng đƣợc dùng để lƣu trữ đối tƣợng điểm. Trong hình 1.13 là
một dạng cây sử dụng để quản lý các đối tƣợng kiểu điểm, trong đó các điểm
nên rời rạc gọi là cây tứ phân PR (Point Region Quadtree).

Số hóa bởi Trung tâm Học liệu – ĐHTN

Nghiên cứu phương pháp phân cụm dữ liệu bản đồ véc tơ và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về