Tải bản đầy đủ (.pdf) (137 trang)

Xây dựng thuật toán đánh giá sai số dữ liệu không gian trong dữ liệu gis

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (386.76 KB, 137 trang )

1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

PHAN HỌC

XÂY DỰNG THUẬT TOÁN ĐÁNH GIÁ SAI SỐ DỮ
LIỆU KHÔNG GIAN TRONG DỮ LIỆU GIS

Chuyên ngành: Hệ thống thông tin địa lý (GIS)
Mã số ngành: 2.15.04

LUẬN VĂN THẠC SĨ

Thành phố Hồ Chí Minh, tháng 07/2004


2

CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: Tiến só LÊ HOÀI BẮC.

Cán bộ chấm nhận xét 1:

Cán bộ chấm nhận xét 2:


Luận văn thạc só được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN
VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày . . . . . tháng . . . . .năm 2004


3

ĐẠI HỌC QUỐC GIA TP. HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc Lập – Tự Do – Hạnh Phúc
---------

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: PHAN HỌC

Phái: Nam

Ngày, tháng, năm sinh: 15/02/1978

Nơi sinh: Quảng Nam

Chuyên ngành: Hệ thống thông tin địa lý (GIS) MSSV: TTĐL13.001
I. TÊN ĐỀ TÀI:

XÂY DỰNG THUẬT TOÁN ĐÁNH GIÁ SAI SỐ DỮ
LIỆU KHÔNG GIAN TRONG DỮ LIỆU GIS

II. NHIỆM VỤ VÀ NỘI DUNG:
• Nghiên cứu tổng quan các phương pháp đánh giá sai số tiêu biểu ứng
dụng trong bài toán xác định sai số dữ liệu không gian trong dữ liệu GIS.
• Phân tích nguồn gốc gây ra sai số dữ liệu không gian trong dữ liệu GIS.
• Phát triển phương pháp xác định sai số của lớp dữ liệu điểm so với lớp
dữ liệu điểm tham chiếu.
• Thiết kế giải thuật xác định sai số của lớp dữ liệu điểm so với lớp dữ
liệu điểm tham chiếu.
• Cài đặt thuật toán xác định sai số.
• Tổng kết đánh giá kết quả.


4

III. NGÀY GIAO NHIỆM VỤ:

09/02/2004

IV. NGÀY HOÀN THÀNH NHIỆM VỤ:

09/07/2004

V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN:

Tiến Só LÊ HOÀI BẮC

CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM NGÀNH


BỘ MÔN QUẢN LÝ NGÀNH

Nội dung và đề cương luận văn thạc só đã được Hội Đồng Chuyên Ngành
thông qua.
Ngày . . . tháng . . . năm 2004
PHÒNG ĐÀO TẠO SĐH

KHOA QUẢN LÝ NGÀNH


5

LỜI CẢM ƠN
Tôi chân thành bày tỏ lòng biết ơn sâu sắc Thầy Giáo Hướng dẫn Tiến Só
Lê Hoài Bắc đang công tác tại Khoa Công nghệ thông tin, trường ĐH Khoa Học
Tự Nhiên, ĐH Quốc Gia Tp.Hồ Chí Minh đã tận tình hướng dẫn, giúp đỡ tôi hoàn
thành luận văn thạc só này.
Chân thành bày tỏ lòng biết ơn Phó Giáo sư Tiến Só Trần Vónh Phước là
Giám đốc Trung Tâm Công Nghệ Thông Tin Địa Lý, trường Đại học Bách Khoa,
Đại học Quốc Gia Tp.Hồ Chí Minh) đã tận tình hướng dẫn và tạo điều kiện thuận
lợi trong học tập và nghiên cứu, giúp đỡ tôi hoàn thành luận văn này.
Chân thành cảm ơn Quý Thầy Cô đã tận tình giảng dạy, hướng dẫn và giúp
đỡ tôi trong học tập và nghiên cứu khoa học.
Chân thành cảm ơn Phòng Đào Tạo Sau Đại Học, Trung Tâm Công Nghệ
Thông Tin Địa Lý, trường Đại học Bách Khoa Tp. Hồ Chí Minh đã tạo điều kiện
tốt cho tôi về trang thiết bị và tài liệu học tập trong suốt khóa học.
Chân thành cám ơn đồng nghiệp, các bạn học viên cao học GIS và gia đình
đã ủng hộ, giúp đỡ tôi trong học tập và thực hiện luận văn tốt nghiệp này.

Phan Học.



6

TÓM TẮT LUẬN VĂN THẠC SĨ
Nội dung trình bày của luận văn thạc só bao gồm bốn chương:
Chương 1: GIỚI THIỆU
Chương một trình bày lý do chọn đề tài, mục tiêu của đề tài, đối tượng và
phạm vi nghiên cứu, giới thiệu tổng quan tình hình nghiên cứu trong nước và
trên thế giới có liên quan đến đề tài, nội dung và phương pháp nghiên cứu, ý
nghóa khoa học và thực tiễn của đề tài.
Chương 2: CƠ SỞ LÝ THUYẾT
Nội dung chính được giới thiệu trong chương này bao gồm cơ sở định vị
các thực thể không gian trên bề mặt trái đất, các hệ thống toạ độ. Lý thuyết khái
quát về tương quan liên quan đến nội dung của đề tài cũng được giới thiệu trong
phần này. Ngoài ra các vấn đề về sai số dữ liệu không gian trong cơ sở dữ liệu
GIS và khái quát về chất lượng dữ liệu GIS cũng được đề cập trong chương hai.
Chương 3: PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍ
Chương ba giới thiệu khái quát về lớp dữ liệu điểm và sai lệch vị trí trên
lớp dữ liệu điểm. Nghiên cứu phương pháp biểu diễn các đặc tính vị trí của lớp
dữ liệu điểm phục vụ cho bài toán đánh giá sai lệch vị trí của lớp dữ liệu điểm.
Dựa trên cơ sở phân tích ý nghóa và khả năng ứng dụng của các thuật toán
tương quan xét cho hàm thực trong miền liên tục và miền rời rạc, hàm phức
trong miền liên tục và miền rời rạc đề tài được phát triển với ba phương pháp
xác định sai số vị trí giữa hai lớp dữ liệu điểm trong dữ liệu GIS. Nội dung
chương này còn phân tích ưu điểm và ý nghóa của phương pháp tương quan trong


7


bài toán đánh giá sai số vị trí lớp dữ liệu điểm so với các phương pháp khác,
chứng minh các tính chất của tương quan trong miền số phức.
Chương 4: PHÂN TÍCH THIẾT KẾ THUẬT TOÁN ĐÁNH GIÁ SAI SỐ
VỊ TRÍ
Nội dung chương này bao gồm các giải thuật tương quan giữa hai ma trận,
giải thuật tự tương quan giữa hai ma trận, giải thuật tương quan và giải thuật tự
tương quan giữa hai vector trong miền số thực và số phức, giải thuật tương quan
cao độ giữa hai tập dữ liệu điểm, giải thuật tương quan vị trí tương đối giữa hai
tập dữ liệu điểm, giải thuật tương quan vị trí tuyệt đối giữa hai tập dữ liệu điểm.
Nội dung chương này còn trình bày tóm lược và đánh giá các kết quả mới
của đề tài, đề xuất một số phương hướng nghiên cứu phát triển tiếp theo.


8

MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU ........................................................11
1.1

GIỚI THIỆU .....................................................................................................................11

1.2

TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU....................................................................13

1.2.1

TÌNH HÌNH NGHIÊN CỨU TRONG NƯỚC .............................................................................13

1.2.2


TÌNH HÌNH NGHIÊN CỨU TRÊN THẾ GIỚI ...........................................................................13

1.3

MỤC TIÊU, ĐỐI TƯNG VÀ PHẠM VI NGHIÊN CỨU ............................................15

1.3.1

MỤC TIÊU CỦA ĐỀ TÀI .....................................................................................................15

1.3.2

ĐỐI TƯNG VÀ PHẠM VI NGHIÊN CỨU..............................................................................16

1.4

NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU .........................................................16

1.4.1

NỘI DUNG NGHIÊN CỨU ...................................................................................................16

1.4.2

PHƯƠNG PHÁP NGHIÊN CỨU .............................................................................................17

1.5

Ý NGHĨA ĐỀ TÀI............................................................................................................17


1.5.1

Ý NGHĨA KHOA HỌC.........................................................................................................17

1.5.2

Ý NGHĨA KINH TẾ XÃ HỘI.................................................................................................18

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT...........................................19
2.1

MỘT SỐ VẤN ĐỀ VỀ CHẤT LƯNG DỮ LIỆU KHÔNG GIAN ..............................19

2.1.1

NGUỒN GỐC SAI SỐ..........................................................................................................19

2.1.2

CHỈ TIÊU CHẤT LƯNG DỮ LIỆU .......................................................................................20

2.1.3

QUI ĐỊNH VỀ SAI SỐ VÀ ĐỘ CHÍNH XÁC CỦA DỮ LIỆU SỐ HOÁ ..........................................22

2.2

SAI SỐ DỮ LIỆU KHÔNG GIAN...................................................................................23


2.2.1

KHÁI NIỆM LIÊN QUAN ĐẾN SAI SỐ DỮ LIỆU KHÔNG GIAN ................................................23

2.2.2

PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ DỮ LIỆU KHÔNG GIAN ....................................................24

2.2.3

PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍ TRÊN ĐỐI TƯNG ĐIỂM........................................25


9

2.3

LÝ THUYẾT TƯƠNG QUAN .........................................................................................29

2.3.1

CÁC KHÁI NIỆM VỀ TƯƠNG QUAN ....................................................................................29

2.3.2

TƯƠNG QUAN GIỮA HAI MA TRẬN TRONG MIỀN THỰC ......................................................31

2.3.3

MỞ RỘNG CÁC THUẬT TOÁN TƯƠNG QUAN MA TRẬN SANG MIỀN SỐ PHỨC ......................36


2.3.4

XÁC ĐỊNH VỊ TRÍ TƯƠNG ĐỒNG LỚN NHẤT BẰNG TƯƠNG QUAN........................................44

CHƯƠNG 3. PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ
SAI SỐ VỊ TRÍ .............................................................................47
3.1

KHÁI QUÁT LỚP DỮ LIỆU ĐIỂM...............................................................................47

3.1.1

GIỚI THIỆU VỀ LỚP DỮ LIỆU ĐIỂM....................................................................................47

3.1.2

SAI SỐ VỊ TRÍ TRÊN LỚP DỮ LIỆU ĐIỂM .............................................................................47

3.2

YÊU CẦU VÀ CƠ SỞ PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍ

TRÊN TẬP DỮ LIỆU ĐIỂM ...................................................................................................51
3.2.1

YÊU CẦU CỦA BÀI TOÁN ĐÁNH GIÁ SAI SỐ VỊ TRÍ ............................................................51

3.2.2


CƠ SỞ PHÁT TRIỂN PHƯƠNG PHÁP-THUẬT TOÁN TƯƠNG QUAN GIỮA HAI MA TRẬN ..........52

3.2.3

CƠ SỞ PHÁT TRIỂN PHƯƠNG PHÁP- CHUẨN NSSDA .........................................................56

3.3

PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍ GIỮA HAI TẬP DỮ

LIỆU ĐIỂM...............................................................................................................................59
3.3.1

PHÁT TRIỂN PHƯƠNG PHÁP TƯƠNG QUAN CAO ĐỘ GIỮA HAI TẬP DỮ LIỆU ĐIỂM ...............59

3.3.2

PHÁT TRIỂN PHƯƠNG PHÁP TƯƠNG QUAN VỊ TRÍ TƯƠNG ĐỐI GIỮA HAI TẬP DỮ LIỆU ĐIỂM68

3.3.3

PHÁT TRIỂN PHƯƠNG PHÁP TƯƠNG QUAN VỊ TRÍ TUYỆT ĐỐI GIỮA HAI TẬP DỮ LIỆU ĐIỂM 76

CHƯƠNG 4. PHÂN TÍCH THIẾT KẾ THUẬT TOÁN
ĐÁNH GIÁ SAI SỐ VỊ TRÍ........................................................81
4.1

PHÂN TÍCH YÊU CẦU...................................................................................................81

4.2


PHÂN TÍCH THIEÁT KEÁ .................................................................................................82


10

4.2.1

GIẢI THUẬT TỔNG QUÁT TÍNH VECTOR TƯƠNG QUAN GIỮA HAI VECTOR..........................83

4.2.2

GIẢI THUẬT TÍNH VECTOR TỰ TƯƠNG QUAN.....................................................................84

4.2.3

GIẢI THUẬT TỔNG QUÁT TÍNH MA TRẬN TƯƠNG QUAN THỰC ...........................................85

4.2.4

GIẢI THUẬT TỔNG QUÁT TÍNH MA TRẬN TƯƠNG QUAN PHỨC ...........................................86

4.2.5

GIẢI THUẬT TỔNG QUÁT TÍNH MA TRẬN TỰ TƯƠNG QUAN ...............................................87

4.2.6

GIẢI THUẬT TƯƠNG QUAN CAO ĐỘ GIỮA HAI TẬP DỮ LIỆU ĐIỂM ......................................88


4.2.7

GIẢI THUẬT TƯƠNG QUAN VỊ TRÍ TƯƠNG ĐỐI GIỮA HAI TẬP DỮ LIỆU ĐIỂM ......................89

4.2.8

GIẢI THUẬT TƯƠNG QUAN VỊ TRÍ TUYỆT ĐỐI GIỮA HAI TẬP DỮ LIỆU ĐIỂM .......................91

4.3

KẾT QUẢ THỰC NGHIỆM ...........................................................................................92

4.4

KẾT QUẢ VÀ KẾT LUẬN .............................................................................................94

4.4.1

KẾT QUẢ ĐẠT ĐƯC ........................................................................................................94

4.4.2

ƯU NHƯC ĐIỂM ..............................................................................................................95

4.4.3

KẾT LUẬN........................................................................................................................95

4.5


HƯỚNG PHÁT TRIỂN....................................................................................................96

PHỤ LỤC ..................................................................................................................................97
TÀI LIỆU THAM KHAÛO ......................................................................................................135


11

Chương 1. GIỚI THIỆU
1.1 GIỚI THIỆU
Thông tin địa lý là nguồn thông tin hết sức phong phú và đa dạng. Thông
tin địa lý nắm giữ vai trò quan trọng trong chiến lược bảo vệ và phát triển của
mỗi quốc gia. Hầu hết các lónh vực của đời sốn g xã hội đều cần đến thông tin
địa lý. Đối với những ngành liên quan đến an ninh quốc gia, hoạch định đường
lối chiến lược phát triển kinh tế xã hội, quy hoạch phát triển vùng lãnh thổ tầm
quốc gia và địa phương thì thông tin địa lý đóng vai trò rất quan trọng. Công
nghệ và khoa học thông tin địa lý ra đời nghiên cứu những kỹ thuật, phương tiện,
phương pháp nhằm đáp ứng tốt nhất những nhu cầu cấp thiết đó. Công nghệ
thông tin địa lý là một trong nhóm những ngành công nghệ cao hiện nay được
nhiều nước phát triển và đang phát triển quan tâm rất lớn.
Hệ thống thông tin địa lý (Geographic Information System-GIS) ngày nay
được ứng dụng rộng rãi ở khắp nơi. Hệ thống thông tin địa lý có chức năng biểu
diễn thông tin địa lý bằng máy tính, nhập dữ liệu, lưu trữ dữ liệu, phân tích dữ
liệu và cung cấp thông tin cho người sử dụng. Trong các bộ phận cấu thành một
hệ thống thông tin địa lý , dữ liệu là thành phần quan trọng và tốn nhiều chi phí
xây dựng nhất. Vào giai đoạn khởi đầu phát triển các hệ thống thông tin địa lý,
dữ liệu GIS được xây dựng chủ yếu từ nguồn bản đồ giấy. Dữ liệu GIS bao gồm
dữ liệu không gian và dữ liệu thuộc tính. Dữ liệu không gian xác định hình dạng,
vị trí của các sự vật, hiện tượng trong thế giới thực. Các sự vật hiện tượng này
được gọi là các thực thể không gian. Dữ liệu thuộc tính mô tả đặc điểm và tính

chất của các thực thể không gian.


12

Tuy nhiên, vì một số nguyên nhân trong quá trình số hoá dữ liệu từ các
bản đồ, các ảnh chụp, các sơ đồ, cũng như quá trình thành lập bản đồ giấy,
phương pháp chụp ảnh và vẽ các sơ đồ nên dữ liệu có được sau khi số hoá chỉ
đạt độ chính xác nhất định. Hơn nữa, khả năng khai thác cơ sở dữ liệu GIS đã
mở ra nhiều hướng phát triển thuận lợi trong công tác của các cơ quan quản lý
nhà nước, các thành phần kinh tế và nhân dân. Một khi cơ sở dữ liệu GIS được
sử dụng ngày càng phổ biến thì yêu cầu đặt ra ngày càng cao đối với dữ liệu đó
là độ chính xác. Độ chính xác của thành phần không gian trong dữ liệu GIS là
một yếu tố cần được xét đến trong quá trình đánh giá chất lượng dữ liệu GIS.
Phương pháp chủ yếu được áp dụng để đánh giá độ chính xác không gian là so
sánh tập dữ liệu xét với tập dữ liệu tham chiếu. Tập dữ liệu tham chiếu có thể là
ảnh chụp, tập các điểm điều khiển mặt đất có độ chính xác cao. Chính vì thế nên
cần thiết phải có những nghiên cứu nhằm định lượng sai lệch vị trí của các đối
tượng trong một lớp dữ liệu so với lớp dữ liệu có độ chính xác cao để trên cơ sở
này đánh giá chất lượng của lớp dữ liệu hiện có.
Đặc điểm của dữ liệu GIS là tính liên ngành và đa ngành, các lónh vực
kinh tế xã hội hay khoa học tự nhiên đều có thể ứng dụng và khai thác hiệu quả
cơ sở dữ liệu GIS, đặc biệt là dữ liệu không gian. Tuy nhiên, hiện trạng của các
lớp dữ liệu không gian đã được số hoá theo nhiều phương pháp khác nhau và đã
phát sinh nhiều sai lệch so với thực tế. Do đó yêu cầu xác định và đánh giá sai
lệch vị trí của các đối tượng không gian trong các hệ thống thông tin địa lý trở
nên rất cần thiết. Yêu cầu về chất lượng dữ liệu là mối quan tâm hàng đầu trong
hệ thống thông tin địa lý, dữ liệu kém tin cậy dẫn đến kết quả của bài toán phân
tích bị sai hoặc thiếu chính xác và hậu quả sẽ rất lớn nếu quyết định đưa ra
không đúng đắn. Bài toán kiểm soát sai lệch của các đối tượng không gian và



13

không ngừng tăng độ chính xác dữ liệu là vấn đề cấp bách và thường xuyên đối
với các chuyên gia trong ngành.
1.2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
1.2.1 Tình hình nghiên cứu trong nước
Ở Việt Nam vấn đề chất lượng dữ liệu đã được các tổ chức quan tâm từ
rất sớm, tuy nhiên do tính chất mới mẻ của ngành nên các công trình nghiên cứu
liên quan đến bài toán đánh giá sai số dữ liệu cho đến nay vẫn chưa có. Trong
những năm gần đây vấn đề chất lượng dữ liệu được nhìn nhận là một tiêu chuẩn
quan trọng nhất trong các ứng dụng GIS. Một trong những thành phần của chất
lượng dữ liệu là độ chính xác vị trí (không gian) của dữ liệu GIS.
1.2.2 Tình hình nghiên cứu trên thế giới
Trên thế giới, các nhà khoa học đã công bố những công trình nghiên cứu
đánh giá sai số dữ liệu không gian ứng dụng các phương pháp đánh giá khác
nhau.
Phương pháp đánh giá chất lượng dữ liệu khôn g gian dựa trên cơ sở so
sánh hai mô hình ngẫu nhiên tương ứng với hai tập dữ liệu là kết quả của công
trình [1]. Phương pháp đánh giá sai số trong bài báo này được xây dựng dựa trên
mô hình ngẫu nhiên để xác định mức độ khác nhau giữa hai tập dữ liệu, mỗi tập
dữ liệu được biểu diễn bằng một quá trình ngẫu nhiên trong không gian hai
chiều hoặc không gian ba chiều.
Một phương pháp đánh giá sai số khác được trình bày trong bài báo [7].
Nội dung bài báo đã đề xuất một mô hình xác định sai số trong quá trình hiệu


14


chỉnh và phân tích dữ liệu bằn g các phép toán topology. Tính bất định của các
phép toán topology là một trong nhiều tác nhân tạo nên sự thiếu chính xác của
dữ liệu. Công trình này phân tích đặc điểm không chắc chắn về topology của dữ
liệu không chính xác và xây dựng mô hình tính sai số dựa vào ma trận hiệp
phương sai của tập hợp điểm xử lý topology nhằm giúp người dùng phân tích và
hiểu được ảnh hưởng của sai số trong quá trình sử dụng dữ liệu.
Một công trình khác có tên [5]. Mô hình các thành phần sai số không gian
(spatial error components model SEC) được đề xuất để ước lượng sai số không
gian. Phương pháp được thực hiện bằng cách thiết lập các ma trận phương saihiệp phương sai của sai số theo một mô hình hồi quy tuyến tính. Các phương
pháp kiểm định thống kê được áp dụng để ước lượng sai số không gian: kiểm
định Kelejian-Robinson, kiểm định GMM-Based, kiểm định Lagrange Multiplier.
Một kết quả khác được trình bày trong bài báo [2]. Ý tưởng cơ bản dựa
trên việc mở rộng các phương pháp kiểm định Breusch và Pagan LM kết hợp với
mô hình sai số không gian. Phương pháp kiểm định thống kê kết hợp được áp
dụng đồng thời để ước lượng tương quan sai số không gian. Phương pháp này có
ý nghóa quan trọng vì nó có xét đến tương quan không gian trong quá trình đánh
giá sai số không gian.
Tóm lại, bài toán đánh giá sai số dữ liệu không gian trong dữ liệu GIS
đang được các nhà khoa học rất quan tâm, nhiều phương pháp đánh giá sai số
khác nhau được phát triển. Các phương pháp đánh giá sai số dữ liệu không gian
được tổng quát hoá thành các nhóm chính: phương pháp trung bình bình phương
nhỏ nhất, phương pháp thống kê, phương pháp tương quan. Tuy có nhiều phương
pháp đánh giá sai số được phát triển nhưng các chuẩn về chất lượng dữ liệu GIS


15

vẫn sử dụng hai phương pháp đánh giá sai số vị trí chủ yếu là phương pháp sai số
trung bình phương RMSE và phương pháp tỷ lệ các điểm sai lệch Error Ratio.
Phương pháp RMSE có ưu điểm thể hiện ở khả năng đánh giá sai số trên phạm

vị toàn bộ tập dữ liệu điểm so với tập dữ liệu tham chiếu. Tuy nhiên hạn chế của
phương pháp này là không thể phát hiện sai lệch hệ thống tồn tại giữa tập dữ
liệu kiểm tra và tập dữ liệu tham chiếu. Phương pháp tỷ lệ các điểm sai lệch
phát hiện được phần trăm số điểm có sai lệch không vượt quá giá trị sai lệch
ngưỡng. Nhưng nhược điểm của phương pháp này là không đánh giá được mức
độ sai lệch vị trí tuyệt đối giữa hai tập dữ liệu điểm và sai lệch hệ thống tồn tại
giữa chúng.
Đề tài nghiên cứu tập trung vào nghiên cứu phương pháp tương quan được
ứng dụng rất phổ biến trong nhiều lónh vực nhằm phát triển các bài toán đánh
giá sai lệch vị trí giữa hai tập dữ liệu điểm. Phương pháp tương quan vị trí tuyệt
đối cho phép đánh giá sai lệch vị trí tuyệt đối trên phạm vi toàn cục của lớp dữ
liệu kiểm tra so với lớp dữ liệu tham chiếu. Phương pháp tương quan vị trí tương
đối cho phép phát hiện sai lệch hệ thống tồn tại giữa hai tập dữ liệu. Do vậy,
việc áp dụng phương pháp tương quan vào bài toán đánh giá sai lệch vị trí giữa
hai tập dữ liệu điểm có khả năn g khắc phục được các nhược điểm của các
phương pháp đánh giá sai số nêu trên.
1.3 MỤC TIÊU, ĐỐI TƯNG VÀ PHẠM VI NGHIÊN CỨU
1.3.1 Mục tiêu của đề tài
Mục đích của đề tài là phát triển thuật toán xác định sai lệch vị trí của các
đối tượng điểm trên một lớp dữ liệu không gian dạng điểm so với lớp dữ liệu coù


16

độ chính xác cao hơn, làm tiền đề cho việc phát triển những thuật toán nắn chỉnh
tập dữ liệu điểm hiện hữu về tập dữ liệu có độ chính xác cao hơn.
1.3.2 Đối tượng và phạm vi nghiên cứu
Đề tài nghiên cứu phát triển phương pháp xác định sai lệch vị trí của dữ
liệu không gian trong cơ sở dữ liệu GIS.
Dữ liệu không gian trong cơ sở dữ liệu GIS bao gồm nhiều loại khác nhau

và được tổ chức theo nhiều định dạng, đề tài giới hạn nghiên cứu giải thuật xác
định sai số vị trí của một lớp dữ liệu điểm so với lớp dữ liệu điểm tương ứng có
độ chính cao hơn được gọi là lớp dữ liệu tham chiếu.
1.4 NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
1.4.1 Nội dung nghiên cứu
Đề tài bao gồm các nội dung nghiên cứu:
• Nghiên cứu tổng quan các phương pháp đánh giá sai số tiêu biểu ứng
dụng trong bài toán xác định sai số dữ liệu không gian trong dữ liệu GIS.
• Phân tích nguồn gốc gây ra sai số dữ liệu không gian trong dữ liệu GIS.
• Phát triển phương pháp xác định sai số của lớp dữ liệu điểm so với lớp
dữ liệu điểm tham chiếu.
• Thiết kế giải thuật xác định sai số của lớp dữ liệu điểm so với lớp dữ
liệu điểm tham chiếu.
• Cài đặt thuật toán xác định sai số.
• Tổng kết đánh giá kết quaû.


17

1.4.2 Phương pháp nghiên cứu
Đề tài tiếp cận các phương pháp cứu sau đây:
Phương pháp tương quan trên miền thực rời rạc trong bài toán xác định sai
số.
Phương pháp tương quan trên miền phức rời rạc trong bài toán xác định
sai số.
Phương pháp tương quan ứng dụng trong lónh vực nhận dạng của xử lý ảnh,
phương pháp tương quan đánh giá mức độ tương đồng giữa hai tín hiệu và giữa
hai ảnh.
Phương pháp biểu diễn dữ liệu GIS.
1.5 Ý NGHĨA ĐỀ TÀI

1.5.1 Ý nghóa khoa học
Dữ liệu là thành phần quan trọng nhất trong các hệ thống thông tin địa lý,
do đó yêu cầu đánh giá một cách định lượng về chất lượng dữ liệu của hệ thống
là vấn đề rất cần thiết. Kết quả nghiên cứu của đề tài có thể mở ra hướng triển
khai ứng dụng nhằm kiểm soát sai lệch vị trí các đối tượng không gian trong các
lớp dữ liệu của hệ thống thông tin địa lý. Với công nghệ tích hợp GPS-RS-GIS,
chúng ta có thể tạo được những tập dữ liệu điểm có độ chính xác cao phục vụ
cho các bài toán đánh giá sai lệch vị trí các đối tượng không gian.
Kết quả của đề tài mở ra nhiều hướng nghiên cứu mới về chất lượng dữ
liệu của hệ thống thông tin địa lý.


18

1.5.2 Ý nghóa kinh tế xã hội
Chi phí để bảo dưỡng và duy trì dữ liệu trong các hệ thống thông tin địa lý
là rất lớn. Quy trình cập nhật dữ liệu không gian đòi hỏi nhiều trang thiết bị và
phương pháp thực hiện. Đề tài phát triển các thuật toán cho phép những người có
liên quan đến hệ thống xác định được thông tin về chất lượng không gian của
nguồn dữ liệu đang sử dụng. Dựa vào đó, họ có thể phát triển các phương pháp
hiệu chỉnh cập nhật dữ liệu có hiệu quả cao, tiết kiệm chi phí.


19

Chương 2. CƠ SỞ LÝ THUYẾT
2.1 MỘT SỐ VẤN ĐỀ VỀ CHẤT LƯNG DỮ LIỆU KHÔNG GIAN
2.1.1 Nguồn gốc sai số
2.1.1.1 Sai số trong quá trình thu thập dữ liệu
Sai số phát sinh trong quá trình thu thập dữ liệu từ thế giới thực. Sai số

này phát sinh do sự hạn chế về độ chính xác của thiết bị đo vẽ và thao tác
nghiệp vụ của người thực hiện.
Sai số tồn tại trong các tư liệu sử dụng làm nguồn dữ liệu đầu vào. Nếu cơ
sở dữ liệu hệ thống thông tin địa lý được khởi tạo từ việc số hoá bản đồ là chính
thì chất lượng bản đồ là nguyên nhân chủ yếu gây ra sai số trong các lớp dữ liệu
sau khi số hoá. Nếu cơ sở dữ liệu được xây dựng từ ảnh viễn thám thì chất lượng
ảnh đầu vào, phương pháp phân tích xử lý dữ liệu là nguyên nhân chính gây ra
sai số của dữ liệu.
2.1.1.2 Sai số trong quá trình khởi tạo dữ liệu
Sai số còn phát sinh do sự thiếu chính xác trong quá trình số hoá. Quy
trình số hoá thủ công hay tự động đều gây ra sai số trên các đối tượng được
vector hoá. Sai số này phát sinh do quá trình quét ảnh, độ phân giải màn hình,
khả năng nhận dạng và vẽ đối tượng.
Sai số vốn có trên các thực thể địa lý. Các thực thể địa lý trong thế giới
thực là một hình khối phức tạp. Trong khi đó, việc thể hiện toàn bộ các đặc tính


20

không gian của mỗi đối tượng là điều không thể thực hiện được. Việc biểu diễn
quy ước các đối tượng sẽ gây ra sai số đáng kể.
2.1.1.3 Sai số trong quá trình lưu trữ dữ liệu
Sai số trong quá trình lưu trữ dữ liệu bao gồm sự thiếu chính xác trong lưu
trữ các giá trị số. Sự thiếu chính xác trong việc lưu trữ các giá trị về mặt không
gian.
2.1.1.4 Sai số trong quá trình thao tác dữ liệu
Sai số trong quá trình phân tích dữ liệu bao gồm:phân lớp không thích
hợp; sai số trên các đường ranh giới; sai số phát sinh trong quá trình chồng lớp;
sai số do quá trình phân tích topology.
2.1.2 Chỉ tiêu chất lượng dữ liệu

2.1.2.1 Những thành phần của chất lượng dữ liệu
Thành phần của chất lượng dữ liệu bao gồm những thành phần ở mức vi
mô và những thành phần ở mức vó mô. Những thành phần ở mức vi mô : độ
chính xác vị trí, độ chính xác thuộc tính, độ kiên định hợp lý và độ phân giải.
Độ chính xác vị trí là độ sai lệch về vị trí của một đối tượng không gian
trong tập dữ liệu so với vị trí đúng của nó trên mặt đất. Thông thường người ta
kiểm tra bằng cách chọn ra những điểm tiêu biểu cho tập dữ liệu và so sánh toạ
độ vị trí của nó so với nguồn dữ liệu có độ chính xác cao hơn. Có hai yếu tố để
đánh giá độ chính xác vị trí là độ sai lệch hệ thống và độ sai lệch ngẫu nhiên.
Độ sai lệch ngẫu nhiên ảnh hưởng trên từng vị trí và được đánh giá bằng cách
tính độ lệch chuẩn của những điểm được chọn ñeå kieåm tra.


21

Độ chính xác thuộc tính bao gồm thông tin biểu diễn sai lệch của dữ liệu
thuộc tính biểu diễn các đối tượng trong cơ sở dữ liệu.
Tính hợp lý xét đến sự quan hệ hợp lý giữa các đối tượng trong không
gian. Thí dụ, bìa rừng không thể lấn vào mặt đường giao thông, bờ hồ thường ở
cạnh hồ, mặt đường giao thông không thể lấn xuống sông.
Tính kiên định nhằm thống nhất dữ liệu trong những trường hợp nguồn dữ
liệu được thu thập không khớp nhau. Thí dụ như mực nước hồ thay đổi tại những
thời điểm khác nhau sẽ cung cấp nguồn dữ liệu khác nhau và hệ thống thông tin
địa lý cần xác định một giá trị dữ liệu.
Những thành phần mức vó mô:
Chất lượng dữ liệu còn được đánh giá ở mức tổng quát, toàn tập dữ liệu
gồm 3 thành phần ở mức vó mô: tính đầy đủ, tính thời gian và tính kế thừa.
Tính đầy đủ của cơ sở dữ liệu địa lý được xem xét ở mức độ đầy đủ chi
tiết của dữ liệu, mức độ đầy đủ các lớp dữ liệu. Đối với mỗi lớp dữ liệu, tính đầy
đủ thể hiện ở khả năng sẵn sàng cung cấp dữ liệu không gian và thuộc tính đến

mức chi tiết theo yêu cầu. Sự đầy đủ các lớp dữ liệu và chứng thực dữ liệu là
những hệ số chất lượng quan trọng để xác định tính thích hợp của tập dữ liệu đối
với ứng dụng.
Tính thời gian: khi dùng nhiều loại dữ liệu địa lý khác nhau, yếu tố thời
gian rất quan trọn g. Dữ liệu về dân số rất nhạy với thời gian, nó luôn luôn biến
động. Đất đai thay đổi mục đích sử dụng nhanh chóng trong vùng có tốc độ đô
thị hoá cao. Nhiều loại dữ liệu khác cũng thay đổi theo thời gian, có những loại
dữ liệu vừa được cập nhật cũng có sự khác biệt so với thế giới thực teá.


22

Đối với những loại dữ liệu địa lý thay đổi nhanh thì thời điểm thu thập dữ
liệu là một thuộc tính quan trọng mà khi thiết kế cơ sở dữ liệu địa lý cũng như
khi tích hợp nhiều lớp dữ liệu, yếu tố thời gian phải được quan tâm đầy đủ.
Tính kế thừa xác định nguồn gốc dữ liệu và tiến trình xử lý để tạo ra tập
dữ liệu. Tài liệu về tính kế thừa giúp người sử dụng dữ liệu có sự chọn lựa thích
hợp vì nguồn gốc dữ liệu sẽ xác định tính đúng đắn của dữ liệu , tiến trình xử lý
sẽ cho người sử dụng đánh giá được độ tin cậy, sai số có thể có của dữ liệu.
2.1.3 Qui định về sai số và độ chính xác của dữ liệu số hoá
Các qui định này được trích dẫn từ cuốn “Qui định kỹ thuật số hoá bản đồ
địa hình tỷ lệ 1:10000, 1:25000, 1:50000 và 1:100000” do Tổng cục Địa chính
ban hành.
2.1.3.1 Quy định về sai số định vị và nắn bản đồ
Sai số định vị 4 góc khung bản đồ và nắn hình ảnh theo các điểm khống
chế toạ độ trắc địa không vượt quá 0.1mm trên bản đồ; theo các điểm đối khác
như mắt lưới kilomet, điểm tăng dày cũng không được vượt quá 0.15mm.
Sai số khoảng cách từ các mắt lưới kilomet đến điểm khống chế trắc địa
gần nhất không vượt quá 0.15mm.
Sai số kích thước của hình ảnh bản đồ sau khi nắn so với kích thước lý

thuyết quy định: các cạnh góc khung (khung trong) không vượt quá 0.2 mm;
đường chéo không vượt quá 0.3mm.
2.1.3.2 Qui định về độ chính xác số hoá các yếu tố nội dung bản đồ
Sai số dữ liệu về vị trí của các địa vật độc lập trên bản đồ sau khi số hoá
không được vượt quá hạn sai của sai số thanh vẽ bản đồ bằng công nghệ truyền


23

thống là 0.2mm so với gốc biên vẽ hoặc gốc thanh vẽ chế in (có thể kiểm tra
bằng cách đối chiếu bản đồ đã vector hoá với ảnh raster nắn chính xác cuối cùng
trước khi vector hoá, hoặc bằng cách xác định toạ độ, khoảng cách của các địa
vật trên máy tính).
2.2 SAI SỐ DỮ LIỆU KHÔNG GIAN
2.2.1 Khái niệm liên quan đến sai số dữ liệu không gian
2.2.1.1 Sai số tương đối
Sai số tương đối là giá trị sai số xác định dựa trên sai lệch khoảng cách
tương đối giữa vị trí của một đối tượng so với các đối tượng khác trong cùng một
lớp dữ liệu. Sai số tương đối đánh giá trên vị trí tương quan của một đối tượng so
với các đối tượng khác nằm quanh nó. Sai số này chỉ có ý nghóa khi các đối
tượng dùng để đánh giá đã xác định và có độ chính xác cao, đồng thời vị trí
tương quan của đối tượng cần đánh giá với các đối tượng dùng để đánh giá ngoài
thế giới thực phải được xác định trước.
2.2.1.2 Sai số tuyệt đối
Sai số tuyệt đối là giá trị sai số giữa vị trí các đối tượng biểu diễn trên tập
dữ liệu so với vị trí đúng của thực thể tương ứng ngoài thế giới thực. Sai số tuyệt
đối phát sinh từ nhiều nguyên nhân khác nhau. Mỗi điểm trên tập dữ liệu được
xác định bằng một cặp toạ độ (x,y), đây là toạ độ của thực thể trong hệ toạ độ
quy chiếu địa phương. Để khởi tạo các đối tượng không gian trong cơ sở dữ liệu
người ta phải thực hiện nhiều quy trình thu thập và xử lý khác nhau. Các quá

trình này phát sinh các nguồn sai số làm cho các đối tượng không gian biểu diễn
trên dữ liệu sai lệch đi so với vị trí đúng ngoài thế giới thực.


24

2.2.1.3 Sai số ngẫu nhiên
Sai số ngẫu nhiên xuất hiện trong các kết quả thu thập là không thể tránh
khỏi trong mọi quá trình thực nghiệm. Trong từng trường hợp cụ thể, sai số ngẫu
nhiên có thể đánh giá được khi biết phân phối xác suất của nó.
Giả sử đại lượng X được đo n lần với các giá trị x1, …, xn trong đó chứa các
sai số ngẫu nhiên tương ứng δ k = xk − x . Nếu các sai số quan trắc δ k có phân bố
chuẩn và là một đại lượng liên tục thì hàm phân phối xác suất được xác định như
sau:

1
f ( x) =
e
σ 2π

( x − a )2
2σ 2

; -∞ < x < +∞ (2.1)

Khi đó xác suất để biến x nhận giá trị nhỏ hơn một giá trị ngưỡng x0 nào
đó được xác định bằng hàm tích phân như sau:
x0



1
F ( x) = P(−∞ < x0 ) = ∫
e
− ∞ σ 2π

( x − a )2
2σ 2

dx (2.2)

2.2.2 Phương pháp đánh giá sai số dữ liệu không gian
2.2.2.1 Phương pháp suy diễn
Phương pháp suy diễn đánh giá các sai số tiềm ẩn xuất hiện trong mỗi
bước quy trình xây dựng dữ liệu và tình trạng phổ biến của các sai số này. Để
thực hiện kiểm tra theo phương pháp này, người ta cần kiểm soát được sai số
trong mỗi quy trình từ công đoạn thu thập mặt đất cho đến công đoạn cuối cùng
trong việc khởi tạo lớp dữ liệu . Phương pháp này khá phức tạp, phải qua nhiều
công đoạn phân tích đòi hỏi người phân tích phải nắm rõ sơ đồ luồng dữ liệu


25

trong toàn bộ quy trình và các sai số phát sinh trong mỗi bước quy trình. Trong
thực tế, phương pháp này không được sử dụng nhiều.
Thông thường người ta xác định độ chính xác dựa trên các nguồn sai số đã
biết, ví dụ như sau: sai số nguồn dữ liệu đầu vào: 1mm; sai số trong quá trình
nhận dạng bản đồ để số hoá: 0.5mm; sai số trong quá trình số hoá: 0.2mm. Các
nguồn sai số kết hợp một cách độc lập với nhau, do vậy có thể ước lượng tổng
sai số bằng cách tính tổng bình phương của mỗi thành phần và sau đó lấy căn
bậc hai.

E = 12 + 0.5 2 + 0.2 2 = 1.35mm

Tổng quát, giả sử e1, e2, … , en là các thành phần sai số tương ứng với mỗi
công đoạn khởi tạo dữ liệu. Sai số trên lớp dữ liệu không gian được xác định như
sau:
E = e12 + e22 + ... + en2 (2.3)

2.2.2.2 Phương pháp so sánh với dữ liệu tham chiếu
Phương pháp này được sử dụng rộng rãi trong thực tế. Đây là phương
pháp xác định sai số dựa trên việc so sánh tập điểm với tập dữ liệu tham chiếu.
Tập dữ liệu tham chiếu được xác định là có độ chính xác cao hơn nhiều so với
tập dữ liệu đánh giá. Đây là hướng nghiên cứu và phát triển của đề tài.
2.2.3 Phương pháp đánh giá sai số vị trí trên đối tượng điểm
2.2.3.1 Đánh giá sai số theo phương pháp RMS
Phương pháp RMS là một trong những phương pháp được sử dụng phổ
biến trong các bài toán đánh giá sai số như các bài toán đánh giá độ chính xác


×