PHÂN TÍCH DỮ LIỆU
1. KHÁI NIỆM
GIS được phân biệt với các loại hệ thống thông tin khác nhờ vào
chức năng phân tích dữ liệu, đặc biệt là các chức năng phân tích không
gian.
Các chức năng này sử dụng dữ liệu không gian và dữ liệu thuộc tính
của cơ sở dữ liệu GIS để trả lời cho các vấn đề đặt ra trong thế giới
thực.
Do tính chất phức tạp của các câu hỏi có thể đặt ra, các phép phân
tích không gian có thể là chồng lớp số học hoặc luận lý đơn giản cho
đến các phân tích mô hình phức tạp.
1. KHÁI NIỆM
Để có thể thực hiện các phân tích dữ liệu một cách hiệu quả đòi hỏi
dữ liệu phải được lưu trữ, tổ chức, sắp xếp hợp lý. Dữ liệu thường được
tổ chức thành các lớp dữ liệu.
Mỗi lớp dữ liệu thường bao gồm tập hợp các đối tượng địa lý liên
quan với nhau và thường được tổ chức theo chủ đề, cùng kiểu biểu
diễn.
Vd Lớp dữ liệu giao thông gồm đường sắt, đường bộ…
Lớp dữ liệu thủy văn gồm sông, suối, hồ
1. KHÁI NIỆM
Phân tích dữ liệu có thể được nhóm vào 3 nhóm chức năng chính
- Phân tích dữ liệu không gian
- Phân tích dữ liệu thuộc tính
- Phân tích kết hợp dữ liệu không gian và dữ liệu thuộc tính
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.1. CHUYỂN ĐỔI ĐỊNH DẠNG DỮ LIỆU
Có rất nhiều hệ GIS khác nhau và thường mỗi hệ GIS lưu dữ liệu
theo một định dạng dữ liệu riêng biệt. Để sử dụng dữ liệu tạo ra từ 1 hệ
thống thông tin khác hoặc ngay cả 1 hệ GIS khác cũng cần phải chuyển
đổi định dạng dữ liệu sang cấu trúc dữ liệu và dạng tập tin phù hợp với
hệ GIS đang sử dụng.
Quá trình chuyển đổi có thể rất nhanh hoặc dễ dàng trong trường
hợp không đòi hỏi xử lý phức tạp. VD tập tin raster số được nhập vào
hệ raster GIS có thể không đòi hỏi định dạng lại, chỉ cần thay đổi 1 số
thông số mô tả như tên, nguồn gốc, kích thước…
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.1. CHUYỂN ĐỔI ĐỊNH DẠNG DỮ LIỆU
Quá trình chuyển đổi có thể tốn thời gian và chi phí nếu dữ liệu không ở
định dạng thích hợp với hệ GIS.
VD như chuyển thông tin được số hóa bằng phần mềm vẽ thiết kế CAD
vào GIS. Kỹ thuật viên vẽ CAD thường chỉ chú ý đến biểu diễn các đối tượng
cho đúng màu sắc và vị trí mà không quan tâm đến việc biểu diễn các đối
tượng như những phần tử đồ học độc lập. VD một mảnh đất nằm gần sông
thường được biểu diễn như là 1 phần ranh giới của nhà và ranh giới của
sông…
Do vậy khi chuyển dữ liệu CAD vào GIS thường gặp những tình huống
như vùng không đóng kín, các đường không gặp nhau… như vậy tốn nhiều
thời gian để biên tập dữ liệu.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.1. CHUYỂN ĐỔI ĐỊNH DẠNG DỮ LIỆU
Quá trình chuyển đổi dữ liệu vector sang raster được gọi là raster hóa và
quá trình ngược lại gọi là vector hóa.
Quá trình raster hóa gồm 3 bước
- Bước 1 – xây dựng 1 lưới raster với kích thước ô hay pixel xác định chồng
phủ lên trên khu vực thể hiện của dữ liệu vector và chỉ định giá trị zero cho tất
cả pixel.
- Bước 2 – thay đổi giá trị của các pixel tương ứng tới các điểm, đường hoặc
ranh giới vùng.
- Bước 3 – điền các pixel nằm bên trong vùng với giá trị vùng.
Sai số từ quá trình raster hóa thường liên quan đến thuật toán thiết kế, kích
thước của pixel, và mức độ phức tạp của ranh giới.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.2. CHUYỂN ĐỔI HÌNH HỌC
- Chuyển đổi hình học từ bản đồ đến bản đồ - chuyển đổi 1 bản đồ số hóa
từ bàn số hóa có tọa độ của các phần tử hình học đo theo đơn vị inch hoặc cm
thành các phần tử hình học có tọa độ theo hệ tọa độ chiếu quy định.
- Chuyển đổi hình học từ ảnh đến bản đồ - áp dụng đối với dữ liệu thu
thập từ vệ tinh và ảnh quét, chuyển đổi tọa độ ảnh dạng hàng – cột sang tọa độ
chiếu quy định.
Chuyển đổi hình học còn được gọi là địa tham chiếu. Là quá trình sử dụng
tập các điểm không chế và các phương trình chuyển đổi để đăng ký bản đồ số
hóa, ảnh quét, ảnh vệ tinh theo 1 hệ thống tọa độ chiếu quy định.
Sai số RME – Root Mean Square Error được sử dụng để đo lường chất
lượng của kết quả chuyển đổi hình học. RME đo lường sự khác biệt giữa vị trí
thực và vị trí ước đoán của các điểm khống chế.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.2. CHUYỂN ĐỔI HÌNH HỌC
a. Các phương pháp chuyển đổi
Các phương pháp chuyển đổi được phân biệt bởi đặc tính hình học
được bảo toàn và bởi những thay đổi cho phép.
- Chuyển đổi tương tự hay chuyển đổi Helmert cho phép xoay hình
chữ nhật, bảo toàn hình dáng nhưng không bảo toàn kích thước.
- Chuyển đổi Affine cho phép biến dạng góc của hình chữ nhật nhưng
bảo toàn tính song song của các đường. Được sử dụng trong chuyển đổi
từ bản đồ đến bản đồ, hoặc ảnh đến bản đồ.
- Chuyển đổi Projective cho phép biến dạng cả về góc lẫn độ dài, cho
phép hình chữ nhật biến thành hình 4 cạnh thẳng bất kỳ. Được sử dụng
để chuyển đổi ảnh hàng không do có những dịch chuyển phần tử ảnh do
sự khác biệt của địa hình.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.2. CHUYỂN ĐỔI HÌNH HỌC
b. Chuyển đổi Affine
Cho phép đối tượng – ví dụ 1 hình chữ nhật xoay, dịch chuyển, làm
nghiêng và thay đổi tỷ lệ không giống nhau trên 2 trục tọa độ x, y trong
khi vẫn đảm bảo tính song song của các đường trong hình chữ nhật
- Phép xoay – xoay trục x và trục y của đối tượng quanh gốc.
- Phép dịch chuyển – dịch chuyển tuyến tính tọa độ của đối tượng
đến 1 vị trí mới.
- Phép nghiêng – cho phép các trục không vuông gốc với nhau, làm
thay đổi hình dáng của hình chữ nhật.
- Phép rút tỷ lệ - cho phép làm thay đổi tỷ lệ bằng cách mở rộng hay
thu nhỏ theo chiều x hoặc chiều y.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.2. CHUYỂN ĐỔI HÌNH HỌC
b. Chuyển đổi Affine
Chuyển đổi Affine được thể hiện qua phương trình đa thức bậc 1.
u = ax + by + c
v = dx + ey + f
Trong đó x, y – tọa độ nhập được cho
u, v – tọa độ xuất được xác định
a, b, c, d, e, f – các hệ số chuyển đổi
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.2. CHUYỂN ĐỔI HÌNH HỌC
b. Chuyển đổi Affine
Các bước chuyển đổi Affine:
- Bước 1 – xác định tọa độ x, y và tọa độ u, v của các điểm khống chế
chọn lọc
- Bước 2 – áp dụng chuyển đổi affine đến các điểm khống chế chọn
lọc và xem xét sai số RMS. Nếu sai số RMS cao hơn ngưỡng quy định,
chọn tập các điểm khống chế khác và quay lại bước đầu tiên. Nếu sai số
RMS được chấp nhận, sáu hệ số chuyển đổi được xác định.
- Bước 3 – sử dụng các hệ số ước đoán và phương trình chuyển đổi để
tính toán tọa độ mới u, v của các phần tử bản đồ trong bản đồ số hóa
hoặc các pixel trong ảnh.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.2. CHUYỂN ĐỔI HÌNH HỌC
c. Các điểm khống chế
Các điểm khống chế đóng vai trò chính trong việc xác định độ đúng
của chuyển đổi Affine.
Các điểm khống chế thường được chọn sao cho chúng phân bố đều
khắp phạm vi của bản đồ số hóa và thường được chọn tại những vị trí
có thể nhìn thấy và xác định chính xác tọa độ.
Chuyển đổi Affine đòi hỏi tối thiểu 3 điểm khống chế để xác định 6
hệ số chuyển đổi, nhưng thường 4 hoặc nhiều hơn được sử dụng để
kiểm tra sai số và giải theo phương pháp số bình phương nhỏ nhất.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.2. CHUYỂN ĐỔI HÌNH HỌC
d. Sai số RMS
Sai số RMS đo đạc sự khác biệt giữa vị trí của 1 điểm khống chế
trên bản đồ số và vị trí được cho là tọa độ thực của chúng. Sự khác biệt
này dẫn đến tọa độ tính được cho các điểm kiểm tra u’, v’ không hoàn
toàn trùng khớp với tọa độ u, v đã xác định của chúng.
Sai số cho 1 điểm kiểm tra được tính bởi công thức …
Sai số RMS được tính như sai số trung bình từ tất cả các điểm khống
chế…
Để đảm bảo độ đúng của chuyển đổi, sai số RMS phải nằm trong
ngưỡng sai số quy định. Nếu sai số vượt quá ngưỡng quy định thì phải
chọn lại tập các điểm khống chế mới.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.3. CHUYỂN ĐỔI GIỮA CÁC PHÉP CHIẾU
Chiếu bản đồ là quá trình chuyển đổi vị trí trên bề mặt cong trái đất
với tọa độ trắc địa thành tọa độ phẳng.
Các phép chiếu được phân loại theo thuộc tính được bảo toàn hoặc
theo mô hình hình học.
Nguồn dữ liệu GIS rất đa dạng và có thể ở các phép chiếu khác
nhau. Để tiện cho việc quản lý, các lớp dữ liệu được dùng trong 1 hệ
GIS cần được biểu diễn theo cùng 1 hệ thống tọa độ chung.
Các phần mềm GIS thường cho phép chuyển dữ liệu từ 1 số hệ lưới
chiếu này sang một số hệ lưới chiếu khác.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.4. KHỚP ĐỐI TƯỢNG
Về lý thuyết, dữ liệu GIS đòi hỏi cùng 1 đối tượng xuất hiện trên các
bản đồ khác nhau phải trùng khít khi chồng lớp với nhau. Nhưng trong
thực tế, các đối tượng có thể không trùng lên nhau 1 cách chính xác do
các sai số phát sinh trong quá trình thành lập.
Trong trường hợp này, phương pháp khớp đối tượng được sử dụng
để làm trùng khít tọa độ các đối tượng tương ứng trong các lớp dữ liệu
khác nhau.
Thông thường, các đối tượng trên bản đồ có độ chính xác cao, ví dụ
như bản đồ địa hình, được sử dụng làm chuẩn. Các đối tượng trên các
bản đồ khác phải được biên tập, điều chỉnh cho phù hợp với đối tượng
được sử dụng làm chuẩn. Quá trình này được thực hiện thủ công với sự
trợ giúp của các công cụ biên tập không gian có trong hệ GIS.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.5. GHÉP BIÊN
Một khu vực thường được đo đạc và thể hiện bằng 1 tập hợp các bản
đồ. Các mảnh bản đồ này cần được gắn lại với nhau để thể hiện toàn
khu vực.
Vấn đề phát sinh là các đường nên gặp nhau tại các cạnh của mảnh
bản đồ nhưng lại không gặp nhau. Sai số có thể do sai số của bản đồ
gốc, khác biệt ngày tháng thành lập bản đồ, co giãn của bản đồ giấy
không đồng bộ, sai số của bản đồ số hóa…
Do vậy, hầu hết các hệ GIS hỗ trợ các chức năng giúp hiệu chỉnh tự
động sự khác biệt xảy ra tại các rìa của mảnh bản đồ.
Đây là quá trình không đơn giản do mỗi sự khác biệt tại biên, 1
quyết định phải được thực hiện để làm cho 1 hoặc cả 2 đường phải dịch
chuyển.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.6. SOẠN THẢO ĐỒ HỌA
Chức năng soạn thảo trong GIS nhằm giúp thực hiện các chức năng
thêm, xóa hoặc thay đổi vị trí của đối tượng.
Trong trường hợp số hóa các đối tượng trên bản đồ có thể xảy ra
trường hợp các đường được số hóa ngắn đi vài milimet và không tiếp
xúc đối tượng.
Trong trường hợp này, các phần mềm cho phép sử dụng các phương
pháp bắt điểm – snap to point hoặc bắt đường để hiệu chỉnh sai số này.
Bắt điểm là phương pháp được ứng dụng trong biên tập các yếu tố
hình học nhằm gắn kết các đối tượng hình học lại với nhau.
Khi chế độ bắt điểm được thực hiện, vẽ 1 điểm thường có 1 vòng
tròn với bán kính bằng khoảng cách bắt dính xuất hiện. Nếu có 1 điểm
cần bắt dính nằm trong vòng tròn thì điểm sẽ được vẽ dịch chuyển về
trùng với điểm đó.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.7. LÀM THƯA TỌA ĐỘ
Trong quá trình số hóa sử dụng chế độ đường có thể dãn đến số tọa độ nhập vào
nhiều hơn cần thiết để biểu diễn 1 đường.
Để giúp làm giảm số liệu tọa độ được lưu trữ trong hệ GIS, chức năng làm thưa
tọa độ được sử dụng.
Thuật toán Douglas - Peucker là 1 thuật toán nổi tiếng được sử dụng để làm thưa
độ. Thuật toán xử lý từng đường trên cơ sở 1 ngưỡng khoảng cách d đã định.
Thuật toán bắt đầu bằng cách nối kết các điểm đầu và cuối tạo thành đường
khuynh hướng.
Sau đó, độ lệch của các điểm đỉnh so với đường khuynh hướng được tính toán.
Nếu tất cả các điểm có độ lệch nhỏ hơn giá trị d đã cho, tất cả các điểm đỉnh sẽ bị
loại và như vậy đường đã làm thưa tọa độ là đường nối nút đầu và nút cuối.
Nếu có những điểm có độ lệch lớn hơn d thì điểm với độ lệch lớn nhất sẽ được
chọn như là điểm ngắt để tách đường khuynh hướng ra 2 đường con.
Quá trình tính toán ở trên lại áp dụng cho từng đường con cho đến khi tất cả các
đường con nếu có đều được xử lý.
2. PHÂN TÍCH DỮ LIỆU KHÔNG GIAN
2.7. LÀM THƯA TỌA ĐỘ
Trình tự xử lý làm thưa
tọa độ sử dụng thuật toán
Douglas - Peucker
3. PHÂN TÍCH DỮ LIỆU THUỘC TÍNH
Phân tích dữ liệu thuộc tính bao gồm các chức năng soạn thảo, kiểm
tra và phân tích dữ liệu thuộc tính. Nhiều hoạt động phân tích trong GIS
có thể được thực hiện chỉ với dữ liệu thuộc tính.
Ví dụ, trong 1 hệ GIS nền vector, diện tích, chu vi, loại sử dụng đất
và thuộc tính liên quan khác của các vùng thường được lưu trữ trong
các bảng thuộc tính. Để tạo 1 bảng diện tích sử dụng của 1 loại sử dụng
đất cụ thể nào đó, dữ liệu có thể rút ra từ bảng thuộc tính mà không cần
quan tâm đến dữ liệu không gian.
Trong hệ GIS nền raster, dữ liệu thuộc tính gắn liền với dữ liệu
không gian. Trong khi các hệ thống GIS nền vector dữ liệu thuộc tính
được lưu tách biệt dữ liệu không gian và thường được lưu trong hệ cơ
sở dữ liệu tách biệt. Cấu trúc này cho phép người sử dụng thao tác với
số lượng lớn các mẫu tin dữ liệu thuộc tính trong quá trình biên tập
hoặc phân tích.
3. PHÂN TÍCH DỮ LIỆU THUỘC TÍNH
3.1. SOẠN THẢO THUỘC TÍNH
Chức năng này cho phép dữ liệu thuộc tính được lấy ra, kiểm tra và
thay đổi. Trong đó, các thuộc tính mới có thể thêm vào hoặc các thuộc
tính cũ có thể bỏ đi; hai bảng dữ liệu thuộc tính có thể liên kết bằng
cách nối bảng hoặc tạo liên hệ thông qua các trường dữ liệu chung.
Người sử dụng có thể thay đổi thủ công dữ liệu thuộc tính của từng
mẫu tin hoặc có thể thực hiện thay đổi đồng thời nhiều mẫu tin thông
qua việc áp dụng các hàm toán học, các hàm thống kê lên trên các mẫu
tin với sự trợ giúp của các công cụ hoặc chức năng có sẵn trong phần
mềm GIS.
- Các hàm toán học gồm cộng, trừ, nhân, lũy thừa, căn, và các hàm
lượng giác.
- Các hàm thống kê gồm tổng, cực đại, cực tiểu, trung bình và độ lệch
chuẩn.
Tính toán thống kê, mô tả
Thống kê mô tả có tác dụng tóm lược dữ liệu thuộc tính. Thống kê
làm giảm độ phức tạp từ rất nhiều giá trị riêng lẻ về một vài con số có ý
nghĩa để mô tả tập hợp các địa vật riêng rẽ. Các con số thống kê mô tả
được quy vào hai nhóm: đo xu hướng trung tâm và đo xu hướng phân
tán.
Xu hướng trung tâm mô tả trung tâm của phân bố dữ liệu thuộc
tính. Các số đo thông thường gồm có: trị trung bình, trung vị, và số
đông (mode).
3. PHÂN TÍCH DỮ LIỆU THUỘC TÍNH
Xu hướng trung tâm
- Trị trung bình - được tính bằng cách cộng lại các giá trị thuộc tính
của từng địa vật rồi đem chia cho số các địa vật.
- Trung vị - nếu ta xếp các giá trị thuộc tính theo thứ tự tăng dần hoặc
giảm dần, thì trung vị đứng ở vị trí chính giữa trong phân phối (điều
này áp dụng được cho trường hợp số giá trị là lẻ). Đối với phân phối có
số giá trị là chẵn, thì trung vị bằng trung bình cộng hai giá trị đứng
giữa.
- Số đông là số thường xảy ra nhất trong một phân phối. Dĩ nhiên, có
những loại phân phối không có số đông nếu không có giá trị nào lặp lại.
3. PHÂN TÍCH DỮ LIỆU THUỘC TÍNH
Xu hướng trung tâm
- Ví dụ
Các giá trị thuộc tính: 24, 25, 30, 39, 40, 45, 45, 45, 45, 45, 48, 50, 50,
55, 58, 60, 61, 65, 65, 65, 70, 72, 75, 200, 205
Trị trung bình 63,28
Trung vị 50
Số đông 45
3. PHÂN TÍCH DỮ LIỆU THUỘC TÍNH