Tải bản đầy đủ (.pdf) (61 trang)

Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.63 MB, 61 trang )

1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THỊ HƢƠNG

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ
DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2015


2

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THỊ HƢƠNG

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ
DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HẢI CHÂU



Hà Nội – 2015


3
LỜI CAM ĐOAN
Tôi xin cam đoan nội dung và những kết quả của luận văn tốt nghiệp này là do tôi tự
nghiên cứu dưới sự hướng dẫn của PGS.TS Nguyễn Hải Châu. Trong toàn bộ nội dung
của luận văn, những nội dung được trình bày là của cá nhân tôi hoặc được tổng hợp từ
nhiều nguồn tài liệu khác. Tất cả các tài liệu tham khảo đều được trích dẫn rõ ràng ở
phần cuối của luận văn.
Tôi xin cam đoan những lời trên là sự thật. Nếu sai tôi xin hoàn toàn chịu trách nhiệm.
Hà Nội, ngày 20 tháng 11 năm 2015
Học viên

Trần Thị Hương


4
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Hải Châu, người đã tận tình
chỉ bảo tôi những kiến thức chuyên môn, phương pháp nghiên cứu khoa học đồng thời
cũng là tấm gương trong mọi mặt của cuộc sống để tôi học tập và noi theo.
Tôi xin chân thành cảm ơn các thầy, cô giáo trường Đại học Công nghệ đã cung
cấp cho tôi những kiến thức bổ ích trong thời gian tôi học tập tại trường.
Cuối cùng tôi xin gửi lời cảm ơn tới gia đình tôi đã luôn ủng hộ tôi trên con
đường học tập và nghiên cứu với nhiều khó khăn, vất vả. Mặc dù tôi đã cố gắng hết
sức trong quá trình làm luận văn nhưng không thể tránh khỏi thiếu sót, rất mong nhận
được những góp ý của thầy cô và các bạn.
Hà Nội, ngày 20 tháng 11 năm 2015

Học viên

Trần Thị Hương


5
MỤC LỤC

LỜI CAM ĐOAN ..........................................................................................................1
LỜI CẢM ƠN ................................................................................................................4
MỤC LỤC ......................................................................................................................5
DANH MỤC CHỮ VIẾT TẮT.....................................................................................7
DANH MỤC HÌNH .......................................................................................................8
DANH MỤC BẢNG BIỂU .........................................................................................10
MỞ ĐẦU .......................................................................................................................11
CHƢƠNG 1. TỔNG QUAN .......................................................................................12
1.1. Khái quát hóa bản đồ........................................................................................12
1.1.1. Lịch sử phát triển và các khái niệm đang tồn tại .......................................12
1.1.2. Định nghĩa, ý nghiã, mục đích và các nhân tố...........................................13
1.1.3. Khái quát hóa bản đồ số và các quy tắc khái quát hóa bản đồ .................16
1.1.4. Lược giản hóa bản đồ từ tập dữ liệu điểm cụm. ........................................22
1.2. Phân cụm (Phân cụm).......................................................................................26
1.2.1. Khái niệm .....................................................................................................26
1.2.2. Phân tích cụm là gì? ....................................................................................27
1.2.3. Các kĩ thuật phân cụm.................................................................................28
1.3. Giới thiệu hệ quản trị cơ sở dữ liệu PostgreSQL ...........................................29
1.3.1. Giới thiệu ......................................................................................................29
1.3.2. Các đặc điểm của PostgreSQL ....................................................................29
1.3.3. Ưu nhược điểm của PostgreSQL ................................................................ 31
1.3.4. Module PostGIS ...........................................................................................33

CHƢƠNG 2. GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ DỮ LIỆU ĐỊA LÝ
TRÊN BẢN ĐỒ TRỰC TUYẾN ................................................................................34
2.2. Giới thiệu các kĩ thuật phân cụm. ...................................................................34
2.2.1. Các thuật toán phân cụm cơ bản. ...............................................................34
2.2.2. Các độ đo sử dụng trong phân cụm. ...........................................................36
2.3. Gộp nhóm với thuật toán phân vùng K-means ..............................................37
2.3.1. Giới thiệu về thuật toán phân vùng K-means.............................................37


6
2.3.2. Cấu trúc của thuật toán phân vùng K-means ............................................39
2.4. Gộp nhóm với thuật toán phân cấp Agglomerative Hirearchical (AH) ......41
2.4.1. Giới thiệu về thuật toán phân cấp ...............................................................41
2.4.2. Cấu trúc của thuật toán phân cấp ..............................................................43
2.5.

So sánh thuật toán K-means và thuật toán AH...........................................47

2.5.1.

Thuật toán K-means .................................................................................47

2.5.2.

Thuật toán AH ..........................................................................................48

CHƢƠNG 3. THỰC NGHIỆM ..................................................................................49
3.1. Xây dựng bộ CSDL thực nghiệm.....................................................................49
3.2. Import dữ liệu vào hệ quản trị CSDL PostgreSQL .......................................50
3.3. Lập trình xây dựng trang Web thử nghiệm ...................................................54

3.3.1. Xây dựng trang Web và hiển thị dữ liệu điểm ATM ..................................54
3.3.2. Ứng dụng thuật toán phân cấp Agglomerative Hirearchical lập trình tăng
tốc độ hiển thị dữ liệu điểm ATM .........................................................................55
KẾT LUẬN ..................................................................................................................59
TÀI LIỆU THAM KHẢO...........................................................................................60


7
DANH MỤC CHỮ VIẾT TẮT
Ký hiệu
AH
API
ATM
DBMS
GIS
GPS

Diễn giải
Agglomerative Hirearchical
Application Programming Interface
Automatic Teller Machine
Database Management System
Geographical Information System
Global Positioning System

Tiếng Việt
Phân cấp gộp
Giao diện lập trình ứng dụng
Máy rút tiền tự động
Hệ quản trị cơ sở dữ liệu

Hệ thống thông tin địa lý
Hệ thống định vị toàn cầu


8
DANH MỤC HÌNH
Hình 1.1. Sự khác biệt giữa khái quát hóa bản đồ và tỷ lệ hóa bản đồ………….……11
Hình 1.2. Khái quát hóa bản đồ ………………...…………………………………….12
Hình 1.3. Phương pháp hình sao và phương pháp bậc thang trong kỹ thuật khái quát
hóa …………………………………………………………………………………....14
Hình 1.4. Lược giản hóa đối với một tập điểm ………………………………….…...20
Hình 1.5. Lựa chọn các điểm gần nhất để nhóm. . …………………………………...22
Hình 1.6. Loại bỏ các điểm gần tâm cụm……………………………………………..23
Hình 1.7. Sự khác biệt giữa các dữ liệu điểm gốc và các dữ liệu điểm sau khi khái quát
hóa lúc bản đồ được phóng to………………………………………………………...23
Hình 1.8. Việc thể hiện tập dữ liệu điểm gốc và tập dữ liệu điểm sau khi khái quát hóa
về tỷ lệ 1:10.000.000………………………………………………………………….24
Hình 1.9. Các cách khác nhau để phân cụm cùng một tập điểm ………………..…...27
Hình 2.1a. Thuật toán phân cụm phân cấp 1……………………………………….…34
Hình 2.1b. Sơ đồ cây 1 ……………………………………………………………….34
Hình 2.1c. Thuật toán phân cụm phân cấp 2 …………………………………………34
Hình 2.1d. Sơ đồ cây 2 ………………………………………………………….……34
Hình 2.2: Thuật toán phân vùng………………………………………………………34
Hình 2.3. Quy trình hoạt động của thuật toán k-means…………………...…...……..36
Hình 2.4. Gán k tâm cụm một cách ngẫu nhiên………………………………………36
Hình 2.5. Gán mỗi điểm vào một cụm gần nhất …………………………….......……37
Hình 2.6. Tâm của mỗi cụm dịch chuyển sau khi được tính toán lại ………….……..37
Hình 2.7. Gán lại các điểm vào các cụm gần nhất và lặp lại………………………….37
Hình 2.8. Thuật toán phân cụm phân cấp……………………………………………..40
Hình 2.9. Quá trình chạy thuật toán phân cấp phân cụm……………………..………40

Hình 2.10. Quy trình thuật toán phân cấp phân cụm………………………………....42
Hình 2.11. Sơ đồ hình cây…………………………………………………………….43
Hình 2.12. Độ đo single-link.…………………………...…………………………….44
Hình 2.13. Độ đo complete-link ……..……..…………………………...……………44
Hình 2.14. Độ đo centroid-link ………..…………………………………...…………45
Hình 2.15. Độ đo group-average …………………………….………………..……...45
Hình 2.16. Một cây phân cấp của thuật toán phân cụm AH………………….……... 45
Hình 3.1. Biên tập dữ liệu trên phần mềm ArcGIS…………………………...………48
Hình 3.2. Cấu trúc bảng thuộc tính của dữ liệu………………………………………48
Hình 3.3. Bảng thuộc tính của dữ liệu ATM khu vực Hà Nội…………….………….49


9
Hình 3.4. Hộp thoại tạo Databases…………………………………..………………..50
Hình 3.5. Cơ sở dữ liệu ATM Thành phố Hà Nội ……………………………………50
Hình 3.6. Hộp thoại đưa shapefile lên Databases……………………………..……...51
Hình 3.7. Hộp thoại Import Options……………………………………….………….52
Hình 3.8. Cơ sở dữ liệu trong Databases db_test – atm………………………………52
Hình 3.9. Trang Web đơn giản với bản đồ nền GoogleMap……………..….………..53
Hình 3.10. Mã tạo trang Web với bản đồ nền GoogleMap……..…………….………54
Hình 3.11. Hiển thị dữ liệu điểm ATM trên Web…………………………….………54
Hình 3.12. Minh họa quá trình gộp nhóm bằng thuật toán AH…………………...…..55


10
DANH MỤC BẢNG BIỂU
Bảng 1.1. Minh họa các quy tắc khái quát hóa……………………………………17
Bảng 1.2. So sánh hiệu suất lưu trữ số liệu …………………………….………...29
Bảng 1.3. So sánh một số tính năng cơ bản………………………………………30
Bảng 1.4. So sánh phương thức quản lý và phân vùng..…………………...….….30

Bảng 1.5. So sánh một số tính năng cơ bản………………………………………31
Bảng 1.6. So sánh phương thức quản lý và phân vùng…………………………...31
Bảng 3.1. Các hạng mục xây dựng trang Web thử nghiệm……………………….53
Bảng 3.2. Thống kê hiệu suất phân cụm với thuật toán AH……………………...57


11
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Công nghệ thông tin là một ngành khoa học đang phát triển rất mạnh và được áp
dụng trong rất nhiều ngành khoa học khác, giúp cho con người xử lý công việc một
cách nhanh hơn, chính xác hơn và hiệu quả hơn. Ngày nay, xu thế ứng dụng bản đồ số
qua bản đồ số giúp nâng cao hiệu quả làm việc mà lại tiết kiệm rất nhiều trong công
tác lưu trữ và chia sẻ. Tuy nhiên, việc thể hiện các đối tượng không gian trên bản đồ
với số lượng lớn là vấn đề khó, vẫn đang dần được khắc phục. Phương pháp chủ yếu
được sử dụng hiện nay là khái quát hóa bản đồ thông qua các quy tắc nhất định. Luận
văn này tập trung chủ yếu vào khái quát hóa dữ liệu dạng điểm nhằm nâng cao tốc độ
hiển thị dữ liệu dạng điểm trên Web.
Phân cụm dữ liệu là quá trình nhóm các đối tượng tương tự nhau trong tập dữ liệu
vào các cụm sao cho các đối tượng cùng cụm là tương tự nhau còn các đối tượng khác
cụm thì không tương tự nhau. Phân cụm chính là nhiệm vụ chính trong khai phá dữ
liệu và là một kỹ thuật phổ biến để phân tích số liệu thông tin, các hệ trợ giúp quyết
định, các thuật toán nhận dạng mẫu và phân lớp mẫu,…và đặc biệt là khai phá dữ liệu.
Ngày nay có rất nhiều các kỹ thuật phân cụm được sử dụng, nhưng không phải kỹ
thuật phân cụm nào cũng có thể giải quyết tốt tất cả các vấn đề của quá trình phân
cụm.
Phân cụm là kỹ thuật được sử dụng rất hiệu quả và phổ biến trong khai phá dữ liệu
và thông tin (Seo & Sheiderman, 2002), đồng thời nó được sử dụng để đơn giản hóa
các cụm điểm (Lu và nnk, 2001). Cùng với sự phát triển của GIS, kỹ thuật này thể hiện
nhiều điểm mạnh vượt trội, đáp ứng được các yêu cầu của khái quát hóa bản đồ số và

đảm bảo được các đặc tính phân bố, cấu trúc của cụm dữ liệu. Tuy nhiên, phân cụm
vẫn còn là khái niệm khá mới mẻ đối với các nhà bản đồ học và nhà nghiên cứu ở Việt
Nam. Vì những lý do trên, học viên quyết định chọn đề tài “Nghiên cứu giải pháp
nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến”.
2. Mục tiêu và nhiệm vụ của đề tài
+ Đúc kết được những vấn đề lý thuyết căn bản của bản đồ trực tuyến hiện đại,
những vấn đề về công nghệ liên quan và xây dựng quy trình công nghệ thành lập và
phát hành bản đồ trên mạng.
+ Tìm hiểu về các thuật toán gộp điểm giúp nâng cao tốc độ hiển thị dữ liệu dạng
điểm trên Web.
+ Sản phẩm thử nghiệm phải đạt chất lượng của bản đồ là nâng cao tốc độ hiển thị
dữ liệu địa lý dạng điểm.


12
CHƢƠNG 1. TỔNG QUAN
1.1. Khái quát hóa bản đồ
1.1.1. Lịch sử phát triển và các khái niệm đang tồn tại
Khái quát hóa bản đồ được các nhà địa lý và các nhà bản đồ học thảo luận và
phân tích từ đầu thế kỷ 20. Các nhà bản đồ học đã gặp rất nhiều khó khăn trong nhiều
thập kỷ trong việc khái quát hóa bản đồ và việc thể hiện bề mặt trái đất trên mặt phẳng
bản đồ.Trải qua 1 thế kỷ, các định nghĩa, quan điểm mà các nhà địa lý và các nhà bản
đồ học đưa ra rất đa dạng.
- Từ việc xem khái quát hóa bản đồ như là một quá trình chủ quan đến việc
xem khái quát hóa bản đồ như là một phương pháp vẽ bản đồ khoa học khách quan:
Năm 1921 Max Eckert lần đầu tiên đưa ra khái niệm khái quát hóa bản đồ, ông cho
rằng thực chất khái quát hóa bản đồ nằm ở việc đối với các đối tượng vẽ bản đồ tiến
hành chọn lọc và khái quát, nhân tố chủ yếu để dẫn dắt là công dụng của bản đồ, điều
này đến nay vẫn hoàn toàn chính xác.
- Erwin Raisz (Tổng quan về bản đồ học, 1948) đã trình bày một quan điểm

khá đơn giản về khái quát hóa. Theo Raisz, không có quy tắc rõ ràng nào cho khái quát
hóa bản đồ nhưng nó bao gồm các bước để kết hợp, loại bỏ một số yếu tố và lược giản
hóa dữ liệu.
- Từ thập kỉ 60 đến thập kỉ 80 của thế kỷ 20, nhiều học giả đã nghiên cứu về
mô hình khái quát hóa bản đồ và mô hình bản đồ. Khái niệm về mô hình bản đồ được
đưa ra và sau đó trở thành những chỉ dẫn về lý thuyết cho sự chuyển đổi từ khái quát
hóa bản đồ thủ công sang khái quát hóa bản đồ trên máy tính. Về mặt khái niệm, trong
cuốn “Từ điển đa ngôn ngữ cho các thuật ngữ kỹ thuật trong Bản đồ học” do Hiệp hội
bản đồ quốc tế (ICA) viết, khái quát hóa bản đồ được định nghĩa như sau: “Khái quát
hóa bản đồ là việc lựa chọn và đơn giản hóa thể hiện những chi tiết bản đồ phù hợp với
tỷ lệ hay mục đích sử dụng bản đồ”. Tuy nhiên, Brophy và David Michael (1973) lại
cho rằng “Khái quát hóa là quá trình khuếch trương hóa mà không có bất kỳ quy định,
hướng dẫn hay sự hệ thống hóa nào”. Keates, JS (1973), mặt khác, đã giải thích sản
phẩm của quá trình khái quát hóa bằng việc mô tả nó như “những yếu tố ảnh hưởng
đến cả vị trí và ý nghĩa của các yếu tố bản đồ, các tính năng về không gian giảm đi khi
tỷ lệ bản đồ giảm, các thông tin vị trí, đặc tính được đưa lên bản đồ ít hơn”.
- Goodchild, Michael.F (1991) đã đưa ra định nghĩa khá quan trọng: “Khái
quát hóa bản đồ là sự giản lược hóa các đặc tính không gian và hiển thị một cách đại
diện các đối tượng này trên bản đồ”, Müller J.C (1991) lại cho rằng “khái quát hóa bản
đồ là quá trình định hướng thông tin nhằm thể hiện nội dung của một cơ sở dữ liệu
không gian cho phù hợp với nhu cầu của người sử dụng”. Theo Jones CB, Ware JM


13
(1998), “Khái quát hóa bản đồ là quá trình xây dựng bản đồ tỷ lệ nhỏ từ bản đồ có tỷ lệ
lớn. Nó bao gồm các bước như lược giản hóa, lựa chọn, di chuyển và hợp nhất để
thành lập bản đồ khi tỷ lệ bản đồ giảm”.
1.1.2. Định nghĩa, ý nghiã, mục đích và các nhân tố
Bản đồ địa lý có vai trò là miêu tả từ một phạm vi nhỏ hẹp đến toàn bộ bề mặt
trái đất. Đối tượng trong thực tế vô cùng đa dạng nên trên cùng một tờ bản đồ không

thể hiện đầy đủ tất cả các đối tượng, hiện tượng được. Vì vậy, phải có quá trình lựa
chọn các đối tượng thể hiện. Quá trình lựa chọn, phân cấp này được gọi là quá trình
khái quát hóa bản đồ.
a. Định nghiã
Quá trình khái quát hóa bản đồ là quá trình lựa chọn và phân cấp các đối tượng
thể hiện sao cho phù hợp với nhiệm vụ ,chủ đề, tỷ lệ bản đồ, phù hợp với những đặc
điểm khu vực thành lập bản đồ.
Khái quát hóa bản đồ được hiểu đơn giản là việc xử lý thông tin khi người sử
dụng phóng to, thu nhỏ bản đồ. Tuy nhiên, cách hiểu này không mô tả được đúng ý
nghĩa của khái quát hóa bản đồ. Việc thu nhỏ một bản đồ có tỷ lệ nhỏ có thể dẫn đến
tình trạng quá tải của các đối tượng bản đồ, lúc này bề mặt bản đồ không đủ để thể
hiện các đối tượng dữ liệu một cách tách biệt và dễ hiểu (hình 1.1)

Hình 1.1. Sự khác biệt giữa khái quát hóa bản đồ và tỷ lệ hóa bản đồ
(Bader M., 2001)


14
Mỗi tỷ lệ bản đồ được thành lập với mục đích khác nhau, có nghĩa là bản đồ ở
tỷ lệ 1:25.000 sẽ bao gồm các thông tin và đối tượng khác với bản đồ tỷ lệ 1:50.000.
Trong ví dụ đơn giản dưới đây (hình 1.2), ta có thể thấy rõ sự khác biệt. Lưu ý rằng
một số con phố trên bản đồ tỷ lệ 1:25.000 đã biến mất trên bản đồ 1:50.000 và chỉ
những con phố chính được giữ lại. Có thể thấy là nếu tất cả các con phố trên bản đồ tỷ
lệ lớn được giữ lại thì các đối tượng thể hiện trên bản đồ tỷ lệ nhỏ sẽ là quá nhiều
khiến người sử dụng khó đọc và khó hiểu.

Một mảnh bản đồ tỷ lệ 1:25.000

Vẫn mảnh bản đồ
này nhưng khái

quát hóa về tỷ lệ
1:50.000

Bản đồ tỷ lệ 1:50.000 sau khi
phóng to

Hình 1.2. Khái quát hóa bản đồ (Batsos E. & Politis P., 2006)
b. Ý nghĩa, mục đích của khái quát hóa bản đồ
 Khái quát hóa là việc quan trọng nhằm tìm hiểu đặc trưng của hiện tượng
chứ không trình bày tất cả ở các hiện tượng và cũng không đi nghiên cứu một hiện
tượng riêng rẽ nào.
 Tuy rằng bản đồ là phương tiện để biểu hiện thực tế và truyền đạt thông
tin nhưng không thể đưa lên bản đồ tất cả những gì có trong thực tế mà chỉ biểu diễn
những đối tượng thông qua quá trình lựa chọn để đi đến giữ lại những gì phù hợp và
loại bỏ những gì không cần thiết.
 Những yếu tố loại bỏ không có nghĩa là quá nhỏ bé mà vì nó không nêu
được đặc trưng của hiện tượng. Trong nhiều trường hợp cần thiết phải cường điệu hóa
đối tượng lên để thể hiện được đặc trưng của đối tượng nhỏ bé.
Như vậy, việc lựa chọn các đối tượng thể hiện trên bản đồ không phụ thuộc vào ý
muốn chủ quan của người thành lập bản đồ mà phải căn cứ vào cơ sở khoa học nhất
định để giữ lại những nét cơ bản điển hình và không xa rời thực tế.


15
c. Mục đích
- Sửa đổi các dữ liệu định tính và định lượng mà vẫn miêu tả được đúng đặc
trưng địa lý kinh tế xã hội của khu vực thành lập bản đồ.
- Giảm số lượng các chi tiết không cần thiết.
- Lược giản hóa các đối tượng bản đồ.
d. Các nhân tố ảnh hưởng đến quá trình khái quát hóa bản đồ

Tỷ lệ bản đồ: được định nghĩa là tỷ lệ giữa khoảng cách giữa hai điểm đo trên
bản đồ với khoảng cách giữa hai điểm đó trên bề mặt trái đất. Tỷ lệ bản đồ có vai trò
quyết định trong việc khái quát hóa bản đồ, xác định quy trình khái quát và các thuật
toán được dùng để khái quát hóa.
Mục đích sử dụng bản đồ: chức năng của bản đồ tác động trực tiếp đến nội dung
và hình thức phản ánh nội dung bản đồ. Một bản đồ tốt nên phản ánh được những đặc
tính không gian cần thiết cho nhu cầu của người sử dụng, liên quan đến tính chuyên đề
của bản đồ trong khi các đối tượng quan trọng vẫn được ưu tiên thể hiện tương ứng với
mức độ quan trọng của chúng. Trong các nhân tố quan trọng ảnh hưởng đến quá trình
khái quát hóa phải kể đến nhân tố mục đích. Hai bản đồ có cùng nội dung nhưng mục
đích sử dụng khác nhau sẽ khác nhau về mức độ khái quát hóa. Tóm lại, do mục đích
sử dụng khác nhau nên nội dung bản đồ khác nhau. Nội dung được lựa chọn nhiều hay
ít, chi tiết hay đơn giản phụ thuộc vào mức độ khái quát hóa ít hay nhiều, phù hợp với
mục đích sử dụng đó.
Các đặc trưng của khu vực trên bản đồ: khi cần hiển thị thêm nhiều thông tin
đặc trưng, quá trình khái quát bản đồ có sự ảnh hưởng khác nhau đến các khu vực khác
nhau, ví dụ như giữa khu vực thành thị và khu vực nông thôn. Một số kỹ thuật đã được
áp dụng thành công để khái quát hóa khu vực đô thị trong khi một số khác thể hiện ưu
điểm khi được áp dụng với khu vực nông thôn hoặc nội thành, là nơi có mật độ đối
tượng bản đồ thưa hơn.
Chất lượng của dữ liệu: Khái quát hóa bản đồ được tiến hành dựa trên các tiêu
chí về chất lượng hoặc độ tin cậy của dữ liệu. Các dữ liệu có thể bắt nguồn từ nhiều
nguồn khác nhau: như ảnh hàng không, ảnh vệ tinh, dữ liệu GPS, dữ liệu thực địa, số
hóa bản đồ và biểu đồ. Chất lượng, độ chính xác của các loại dữ liệu này cần được
kiểm chứng.
Các kỹ thuật khái quát hóa bản đồ:
Có nhiều kỹ thuât, thuật toán khác nhau được sử dụng để khái quát hóa, tùy
theo các loại dữ liệu khác nhau và đối tượng bản đồ khác nhau. Đồng thời cũng có
nhiều phương pháp khác nhau để áp dụng các kỹ thuật này để hỗ trợ tập dữ liệu điểm
cho những tỷ lệ bản đồ khác nhau. Hiện nay tồn tại hai phương pháp khái quát hóa:

- Phương pháp bậc thang: bản đồ ở mỗi tỷ lệ là kết quả của việc khái quát
hóa từ các bản đồ có tỷ lệ lớn hơn trước đó.


16
- Phương pháp hình sao: các bản đồ ở mỗi tỷ lệ đều được áp dụng kỹ thuật
khái quát hóa từ một bản đồ gốc.
Trong phạm vi luận văn này, học viên sẽ áp dụng phương pháp hình sao để khái quát
hóa, trong đó bản đồ tỷ lệ nhỏ là 1:10.000.000 được khái quát từ bản đồ có tỷ lệ lớn
nhất là 1:3.500.000 (hình 1.3)

Hình 1.3. Phương pháp hình sao và phương pháp bậc thang trong kỹ thuật khái
quát hóa (Stoter J.E, 2005)
Tóm lại, việc khái quát hóa bản đồ có rất nhiều điểm mạnh mà người thành lập
bản đồ và người sử dụng có thể áp dụng. Có thể kể ra: làm giảm tính phức tạp của bản
đồ, loại trừ các chi tiết không cần thiết, giữ lại và thể hiện các chi tiết quan trọng, duy
trì độ chính xác về không gian, thuộc tính, đồng thời cung cấp phương tiện khai thác
thông tin từ bản đồ hiệu quả hơn.
1.1.3. Khái quát hóa bản đồ số và các quy tắc khái quát hóa bản đồ
Với bản đồ số hiện đại, khái quát hóa bản đồ được hiểu là đem quá trình xử lý
thủ công của người thành lập bản đồ thành cách thức xử lý tự động trên máy tính. Khái
quát hóa bản đồ số có tác dụng rõ rệt ở bốn phương diện sau: Thứ nhất, khi sử dụng
dữ liệu bản đồ số ở tỷ lệ lớn để thành lập các bản đồ số ở tỷ lệ nhỏ hơn, bắt buộc phải
vận dụng phương pháp khái quát hóa bản đồ số; thứ hai, khi sử dụng kho dữ liệu
không gian tỉ lệ lớn để thành lập kho dữ liệu không gian đa tỉ lệ và khi thực hiện cập
nhật cho toàn bộ kho dữ liệu đa tỉ lệ thì phương pháp khái quát hóa bản đồ số là giải
pháp hiệu quả nhất; thứ ba, để phù hợp với yêu cầu hiển thị đa tỉ lệ các dữ liệu không
gian trong hệ thống thông tin địa lý thì không những bắt buộc phải áp dụng phương
pháp khái quát hóa bản đồ số mà còn cần tự động khái quát hóa trực tiếp từ một tỉ lệ
gốc đến một tỉ lệ đích bất kỳ nào đó; thứ tư, khi bắt đầu xây dựng kho dữ liệu không

gian, với số lượng lớn dữ liệu đến từ nhiều nguồn khác nhau đòi hỏi phải vận dụng


17
phương pháp khái quát hóa bản đồ số để chọn ra các dữ liệu không gian mà phù hợp
với mục đích của người dùng .
Khi đưa bản đồ tỷ lệ lớn về bản đồ tỷ lệ nhỏ, việc áp dụng khái quát hóa đối với
dữ liệu không gian là bắt buộc để thay đổi về mặt hình học cũng như đặc tính của bản
đồ. Quá trình này được thực hiện bởi hệ thống quy tắc khái quát hóa bản đồ, với nhiệm
vụ thay đổi vị trí, hình dáng, ký hiệu của dữ liệu không gian để tách dữ liệu thành các
nhóm riêng biệt.
Hệ thống quy tắc khái quát hóa bản đồ đầu tiên xuất hiện trong nghiên cứu của
Robinson và nnk (1984) và DELICIA - Black (1987), nghiên cứu này đề cập đến rất ít
hệ thống quy tắc, nhưng Keates (1989) và McMaster - Monmonior (1989) đã bổ sung
thêm một vài quy tắc đặc biệt cần thiết. Cho đến nay, các hệ thống quy tắc đã tương
đối hoàn thiện và có thể tóm tắt như dưới đây:
Gộp (Agglomeration): được dùng với các đối tượng mà mỗi đối tượng có một
ranh giới riêng, tính năng này hợp nhất các ranh giới lại thành một ranh giới chung và
đưa sát các đối tượng lại với nhau.
Gộp điểm (Aggregation): để nhóm các điểm thành một điểm duy nhất hoặc để
kết hợp các đối tượng hình học vốn ngăn cách nhau thành một đối tượng hợp nhất.
Gộp vùng (Amalgamation): dùng để hợp nhất các đối tượng hình học như
polygon (các tòa nhà) và các đối tượng này bị chia cắt bởi đối tượng khác (như đường
giao thông)
Phân loại (Classification): Xếp các đối tượng có cùng đặc trưng hoặc thuộc tính
vào một nhóm.
Thu gọn (Collapse): thay đổi kích thước thể hiện của đối tượng, Vì khi tỷ lệ
giảm, nhiều đối tượng trong thực tế chỉ số thể biểu diễn bằng điểm hoặc đường. Có 2
cách thu gọn: đưa các polygon khép kín về thành 1 điểm, các đối tượng dạng đường
với 2 nét ranh giới được đưa về 1 đường nét duy nhất, hoặc sử dụng các biểu tượng với

kích thước nhỏ.
Kết hợp (Combination): kết hợp một số đối tượng thành một đối tượng kích
thước lớn hơn.
Dịch chuyển (Displacement): dịch chuyển một đối tượng ra xa đối tượng khác
hoặc nhóm đối tượng khác vì khoảng cách giữa chúng trở nên quá nhỏ khi giảm tỷ lệ
bản đồ; hoặc dịch chuyển đối tượng dạng đường theo một chiều xác định; hoặc di
chuyển một đối tượng dạng vùng nhưng không quá xa, thường là để giải quyết vấn đề
chồng lấp giữa các đối tượng khi giảm tỷ lệ bản đồ.
Nhấn mạnh (Enhancement): để nhấn mạnh các đối tượng, đặc trưng quan trọng,
thường phóng đại hình dạng, kích thước của các đối tượng này để đáp ứng một số nhu
cầu cụ thể của bản đồ.


18
Cường điệu hóa (Exaggeration): để đảm bảo những đối tượng có kích thước quá
nhỏ nhưng vẫn được thể hiện trên các bản đồ tỷ lệ nhỏ hơn.
Hợp nhất (Merge): để gộp hai hay nhiều đối tượng dạng đường lại với nhau, đảm
bảo đối tượng mới được tạo thành ở bản đồ tỷ lệ nhỏ nằm ở vị trí chính giữa hai đường
gốc và mang tính đại diện cho cả hai đường gốc; hoặc để gộp hai khu vực lân cận vào
thành một.
Bỏ qua (Omission): lựa chọn những đối tượng quan trọng hơn để giữ lại ở bản
đồ tỷ lệ nhỏ và loại bỏ những đối tượng ít quan trọng nếu không gian bản đồ hạn chế.
Tinh lọc (Refinement): tính năng này loại bỏ những đối tượng nhỏ nhất, hoặc
những đối tượng không ảnh hưởng nhiều đến cục diện bản đồ và các đối tượng khác.
Dựa vào tổng thể các đối tượng ban đầu, một mô hình chung, đại diện cho các đối
tượng được thiết lập, mô hình này chỉ bao gồm với các đặc trưng được lựa chọn và
được đặt tại chính xác vị trí cũ của các đối tượng ở bản đồ tỷ lệ lớn.
Lựa chọn (Selection): để lựa chọn các đối tượng đặc trưng, theo từng loại đặc
trưng.
Loại bỏ (Elimination): để loại bỏ các đối tượng không quan trọng trên bản đồ

Lược giản hóa (Simplification): để giảm bớt sự phức tạp về cấu trúc của một số
điểm lân cận bằng cách loại bỏ một vài điểm, chỉ giữ lại cấu trúc ban đầu; lược giản
hóa hình dáng của các đối tượng dạng vùng; duy trì cấu trúc của các đối tượng dạng
vùng bằng cách lựa chọn các đặc điểm quan trọng và loại bỏ những đặc điểm không
quan trọng; loại bỏ bớt những điểm gấp khúc không quan trọng trên đối tượng dạng
đường.
Làm mượt (Smoothing): làm mượt các đối tượng dạng đường, hoặc ranh giới của
các đối tượng dạng vùng.
Điển hình hóa (Typification): giữ lại cấu trúc điển hình của các đối tượng dạng
điểm và bỏ đi một số điểm; giữ lại cấu trúc điển hình của đối tượng dạng đường nhưng
bỏ đi một số chỗ uốn khúc; giữ lại sắp xếp điển hình của một nhóm các đối tượng dạng
vùng, bỏ đi một số đối tượng (ví dụ như vị trí các tòa nhà), chỉ thể hiện sự phân bố
theo hàng và cột.


19
Bảng 1.1. Minh họa các quy tắc khái quát hóa (Robert B.McMaster, K.Stuart
Shea, 1992; Jiawei Han, Micheline Kamber, 2006; Robert B.McMaster, K.Stuart
Shea, 1989)
Các đối tƣợng trên bản
Các quy tắc khái quát
đồ gốc
bản đồ

Các đối tƣợng trên bản đồ
sau khi khái quát hóa

Ở tỷ lệ của bản đồ gốc

Tỷ lệ nhỏ hơn


Gộp (Agglomeration)

Gộp điểm
(Aggregation)

Gộp vùng
(Amalgamation)

1,2,3,4,5,6,7,8,9,10,11
12,13,14,15,16,17,18
19,20
Phân loại
(Classification)

1‐5,6‐10,11‐1
5,16‐20

Not Applicable


20

Thu gọn
(Collapse)

Vòng
tròn
thành 1
điểm

Đường
đôi
thành
đường
đơn
Vùng
thành
điểm
Vùng
thành
đường
Vùng bị
thu gọn

Dịch chuyển
(Displacement)

Nhấn mạnh
(Enhancement)

Cường điệu hóa
(Exaggeration)


21

Hợp nhất (Merge)

Bỏ qua (Omission)


Tinh lọc (Refinement)

Lược giản hóa
(Simplification)


22

Làm mượt
(Smoothing)

Điển hình hóa
(Typification)

Trong khái quát hóa bản đồ đối với dữ liệu dạng điểm, có năm quy tắc được sử
dụng là gộp điểm, dịch chuyển, điển hình hóa, lựa chọn và lược giản hóa. Các quy tắc
này liên quan mật thiết đến các mối quan hệ không gian và các thay đổi về mặt không
gian cần được xem xét kỹ, đồng thời phạm vi áp dụng đối với các đối tượng bản đồ
của các quy tắc khái quát hóa cũng cần được xác định trước. Trong luận văn này, học
viên sẽ tập trung vào phép lược giản hóa tập dữ liệu dạng điểm.
1.1.4. Lược giản hóa bản đồ từ tập dữ liệu điểm cụm.
Lược giản hóa các dữ liệu dạng điểm có thể coi là việc thiết lập các chỉ tiêu
chọn lựa dựa trên các đặc tính không gian. Quy tắc này thường sử dụng kỹ thuật tối ưu
hóa với mục đích là tìm ra một tập hợp điểm đáp ứng được tối đa các tính năng, hoặc
đặc điểm được xác định trước. Kích thước của tập điểm này có thể được xác định
trước hoặc phụ thuộc một số tiêu chí biết trước. Việc giản lược hóa thường được áp
dụng trên phạm vi cả bản đồ, mặc dù nó có thể áp dụng riêng cho các cụm riêng lẻ.
Mục đích của quy tắc này là giãn cách mật độ không gian cho các đối tượng chồng lấp
nhau, chứ không phải để xử lý tất cả các đối tượng. Nói chung, mục đích của lược giản
hóa là giảm bớt mật độ hoặc mức độ chi tiết của dữ liệu. Như vậy, quy tắc này có thể

được coi là chủ yếu liên quan đến khía cạnh thứ tự của những thay đổi về mặt không
gian. Hình 1.4 minh họa quy tắc lược giản hóa xử lý một tập hợp điểm.

Hình 1.4. Lược giản hóa đối với một tập điểm (Batsos E., Politis P., 2006)


23
Khá nhiều thuật toán (Douglas & Peker 1973, de Breg et al. 1995, Li &
Openshaw 1992) đã sử dụng các phép tính về hình học để thực hiện các thao tác về
hình học và công nghệ GIS dễ dàng đáp ứng những điều này. Dễ nhận thấy rằng khái
quát hóa là vấn đề không hề đơn giản. Để khái quát hóa bản đồ, không thể chỉ sử dụng
một thuật toán duy nhất. Khái niệm về hệ thống quy tắc và thuật toán cũng thường bị
nhầm lẫn. Một quy tắc là một sự biến đổi đối tượng bản đồ và thuật toán là phương
tiện được dùng để thực hiện sự biến đổi đó. Quy tắc là cách thức khái quát hóa bản đồ,
còn thuật toán là các thao tác xử lý hình học hoặc xử lý ảnh...Việc biến đổi dữ liệu bản
đồ được thực hiện bằng một loạt quy tắc khái quát hóa và quy tắc xử lý hình học.
Trong phần này, học viên sẽ tập trung vào phương pháp giản lược hóa tập dữ
liệu điểm cụm do hai thuật toán k-means và thuật toán phân cấp gộp tạo ra. Giản lược
hóa là kỹ thuật giản lược dữ liệu cơ bản và thường bị nhầm lẫn với các quá trình xử lý
rộng hơn của khái quát hóa. Các thuật toán giản lược hóa không thay đổi hay dịch
chuyển tọa độ các điểm mà chỉ đơn giản là loại bỏ những điểm được coi là không quan
trọng đối với những đặc trưng về hình dáng còn lại của tập dữ liệu. Cụ thể, lược giản
hóa được áp dụng khi nhiều điểm thuộc cùng một lớp được biểu diễn trên bản đồ. Một
số lượng nhất định các điểm được giữ lại trong khi các điểm khác bị loại bỏ khi đưa
bản đồ gốc tỷ lệ 1: 3.500.000 về bản đồ tỷ lệ nhỏ hơn 1:10.000.000. Như vậy số điểm
trên bản đồ sẽ giảm đi khi tỷ lệ bản đồ giảm, nếu không cục diện bản đồ sẽ trở nên rất
lộn xộn.
Khi đưa bản đồ tỷ lệ 1: 3.500.000 về bản đồ tỷ lệ nhỏ hơn 1:10.000.000, rất
nhiều điểm không thể nhận ra được vì một số rất gần nhau, trong khi một số khác lại
chồng lấp lên nhau. Điều này khiến các điểm thể hiện không rõ ràng, bởi vậy để duy

trì cấu trúc ban đầu, mật độ các điểm và độ phức tạp về cấu trúc của mỗi cụm được
giảm đi hoặc phải khái quát hóa toàn bộ dữ liệu điểm. Ý tưởng này được thực hiện
thông qua các bước sau:
Nhóm các điểm dựa trên khoảng cách “hàng xóm gần nhất”
Xác định ngưỡng tối thiểu cho khoảng cách để tiến hành giản lược hóa.
Giản lược hóa nhóm các điểm
• Nhóm các điểm dựa trên “khoảng cách hàng xóm gần nhất”
Đầu tiên, khoảng cách của các cặp điểm trong cụm được tính toán. Những cặp
điểm này được coi là “hàng xóm gần nhất” trong mỗi cụm (phải chọn một cụm để áp
dụng các bước xử lý vì các bước này là giống nhau với tất cả cụm).


24

Hình 1.5. Lựa chọn các điểm gần nhất để nhóm
Hình minh họa trên cho thấy trong tất cả các nhóm, khoảng cách giữa các điểm
đều nhỏ hơn hoặc bằng giá trị ngưỡng. Những điểm có khoảng cách với các điểm khác
lớn hơn giá trị ngưỡng thì không được gán vào nhóm nào và sẽ không được lược giản
hóa. Chúng sẽ được giữ nguyên ở bản đồ tỷ lệ nhỏ hơn.
• Xác định ngưỡng khoảng cách tối thiểu cho lược giản hóa bản đồ
Ngưỡng khoảng cách tối thiểu là khoảng cách tối thiểu chấp nhận được cho
việc áp dụng tính toán dựa trên một vài tiêu chí. Trong trường hợp này, ngưỡng
khoảng cách tối thiểu là khoảng cách tối thiểu giữa các điểm bị xếp quá gần nhau hoặc
chồng lấp lên nhau khi đưa về bản đồ tỷ lệ 1:10.000.000.
• Giản lược hóa nhóm các điểm
Sau khi lựa chọn để nhóm các điểm trên tiêu chí về ngưỡng khoảng cách, quá
trình lược giản hóa các nhóm sẽ được tiến hành. Vì những điểm trong cùng một nhóm
sẽ rất sát nhau trên bản đồ kết quả nên mỗi nhóm sẽ bị loại bỏ một số điểm. Việc loại
bỏ các điểm được thực hiện theo nhiều cách khác nhau nhưng trong trường hợp này,
các điểm sẽ được loại bỏ trên tiêu chí tỷ lệ bản đồ kết quả nhỏ hơn hai lần so với bản

đồ gốc. Để phục vụ mục tiêu này, đầu tiên tâm của các cụm được xác định sau đó
khoảng cách từ tâm đến mỗi điểm còn lại trong cụm được tính toán. Sau đó trong mỗi
nhóm, chỉ những điểm xa nhất, tính từ tâm được giữ lại để thể hiện ở bản đồ kết quả,
nghĩa là những điểm gần tâm nhất sẽ bị loại bỏ. Kết quả là chỉ còn lại một điểm trong
mỗi cụm và đây là điểm xa tâm cụm nhất.


25
Tâm cluster

Tâm cluster

Hình 1.6. Loại bỏ các điểm gần tâm cụm.
Hình minh họa trên cho thấy các nhóm điểm được giản lược hóa bằng cách loại
bỏ một số điểm. Ví dụ, nhóm các điểm 7, 8, 12 và 16, điểm xa tâm cụm nhất là điểm
16. Vì thế chỉ duy nhất điểm 16 được giữ lại để thể hiện trên bản đồ kết quả. Lý do
chọn các điểm xa tâm cụm nhất là để duy trì ranh giới của các cụm. Nguyên tắc này
không chỉ giữ cho đường ranh giới các cụm không thay đổi, mà bất kỳ điểm nào xa
tâm nhất nằm trên ranh giới này cũng không bị loại bỏ. Tuy nhiên, điều này có thể dẫn
đến việc quá sát nhau của ranh giới các cụm. Sau khi tiến hành giản lược hóa, các
điểm này sẽ xuất hiện trên bản đồ kết quả, nghĩa là trên bản đồ 1:10.000.000. Hình
minh họa dưới đây thể hiện các cụm của tập dữ liệu điểm gốc (bên trái) và tập dữ liệu
điểm sau khi khái quát hóa (bên phải).

Các điểm gốc

Sau khi khái quát hóa

Hình 1.7. Sự khác biệt giữa các dữ liệu điểm gốc và các dữ liệu điểm sau khi
khái quát hóa lúc bản đồ được phóng to.

Hình minh họa trên cho thấy tập dữ liệu điểm gốc là rõ ràng hơn hoặc kém rõ
ràng hơn ở tỷ lệ 1:3.500.000 nhưng chắc chắn nếu không được khái quát hóa, những


×