Phương pháp lan truyền độ tương tự trong phân cụm dữ liệu và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 63 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

TẠ DUY KHÁNH

PHƯƠNG PHÁP LAN TRUYỀN ĐỘ TƯƠNG TỰ TRONG
PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2015

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

TẠ DUY KHÁNH

PHƯƠNG PHÁP LAN TRUYỀN ĐỘ TƯƠNG TỰ TRONG
PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS NGUYỄN ĐÌNH HÓA

Thái Nguyên - 2015

ii

LỜI CÁM ƠN
Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo, cán bộ hướng dẫn
khoa học PGS.TS Nguyễn Đình Hóa đã tận tình hướng dẫn tôi từ những buổi
đầu tiên khi tiếp cận với đề tài khoa học. Trong quá trình làm luận văn, tôi cũng
nhận được sự giúp đỡ rất nhiệt tình từ nhóm nghiên cứu của TS. Lê Hoàng Sơn
tại Trung tâm tính toán hiệu năng cao, trường ĐH KHTN và đề tài NCKH cấp
ĐHQG, mã số GG.14.60.
Tôi xin bày tỏ lòng biết ơn đến các thầy cô giáo ở trường Đại học Công
nghệ thông tin và Truyền thông – Đại học Thái Nguyên, các cán bộ Trung tâm
Đông Đô - Hà Nội, đã tận tình giảng dạy và tạo mọi điều kiện cho tôi học tập,
nghiên cứu và hoàn thành luận văn này.
Tôi xin chân thành cảm ơn các bạn học viên lớp CK12H, CK13H – Khoa
học máy tính đã giúp đỡ, tạo điều kiện cho tôi trong suốt quá trình học tập và
thực hiện luận văn.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc nhất đến gia đình, đồng nghiệp
và bạn bè tôi, những người đã động viên, tạo mọi điều kiện cho tôi lao động và
học tập trong suốt thời gian qua.
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi,
không sao chép của ai. Luận văn là do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng
hợp và thực hiện. Nội dung lý thuyết trong luận văn có sử dụng một số tài liệu
tham khảo như đã trình bày trong phần tài liệu tham khảo. Chương trình phần
mềm và những kết quả trong luận văn là trung thực và chưa được công bố trong
bất kỳ một hệ thống nào khác.
Một lần nữa, xin chân thành cảm ơn!

i

MỤC LỤC
LỜI CÁM ƠN.................................................................................................... i
MỤC LỤC………………………………………………………………………ii
DANH MỤC CÁC TỪ VIẾT TẮT................................................................. iv
DANH MỤC CÁC HÌNH VẼ .......................................................................... v
MỞ ĐẦU ........................................................................................................... 1
CHƯƠNG 1: HỆ THỐNG THÔNG TIN ĐỊA LÝ VÀ PHÂN CỤM DỮ
LIỆU ĐỊA LÝ ................................................................................................... 5
1.1 Tổng quan về hệ thống thông tin địa lý ................................................. 5
1.1.1 Lịch sử ra đời ..................................................................................... 5
1.1.2 Định nghĩa.......................................................................................... 6
1.1.3 Các thành phần của hệ thống thông tin địa lý ..................................... 7
1.1.4 Dữ liệu trong hệ thống thông tin địa lý ............................................... 9
1.2 Phân cụm dữ liệu địa lý ....................................................................... 10
1.2.1 Phân cụm dữ liệu.............................................................................. 10
1.2.2 Một số kỹ thuật phân cụm dữ liệu .................................................... 11
1.2.2.1 Thuật toán phân cụm theo cây phân cấp ........................................ 12
1.2.2.2 Thuật toán phân cụm phân hoạch : Phân cụm k-means.................. 13
1.2.2.3 Phân cụm mờ ................................................................................ 14
1.3 Dữ liệu địa lý và vấn đề phân cụm đối tượng địa lý ........................... 16
1.3.1 Cấu trúc dữ liệu trong GIS ............................................................... 16
1.3.1.1 Hai mô hình dữ liệu không gian .................................................... 16
1.3.1.2 Dữ liệu thuộc tính.......................................................................... 18
1.3.2 Các vấn đề trong phân cụm dữ liệu địa lý ........................................ 18
CHƯƠNG 2: PHÂN CỤM BẰNG THUẬT TOÁN LAN TRUYỀN ĐỘ
TƯƠNG TỰ.................................................................................................... 20
2.1 Các khái niệm cơ sở .............................................................................. 20
2.1.1 Ý tưởng thuật toán............................................................................ 20
2.1.2 Các công thức chính trong thuật toán AP..................................... 22
2.1.3 Thuật toán AP nguyên thủy ............................................................. 23

2.2 Thuật toán lan truyền AP tự thích nghi ............................................. 25
2.2.1 Phương pháp thích ứng giảm dần ..................................................... 26
2.2.2 Kỹ thuật thích nghi p-scanning ......................................................... 27
ii

2.3 Thuật toán lan truyền AP với tập dữ liệu hỗn hợp kiểu số và kiểu
phân loại ...................................................................................................... 29
2.3.1 Khoảng cách và ý nghĩa ................................................................... 30
2.3.2 Phương pháp .................................................................................... 30
2.3.3 Cải thiện độ đo tương tự ................................................................... 32
2.3.4 Thích nghi thuật toán lan truyền ....................................................... 34
CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ 37
3.1 Bài toán thực tế và cách tiếp cận phân cụm dữ liệu............................ 37
3.1.1 Bài toán khai thác các dữ liệu quan trắc khí tượng ........................... 37
3.1.2 Lựa chọn giải pháp kỹ thuật công nghệ ............................................ 38
3.2 Các phần mềm GIS .............................................................................. 38
3.3 Tìm hiểu về phần mềm mã nguồn mở MapWindow........................... 40
3.4 Thiết kế một plug-in trên phần mềm mã nguồn mở Mapwindown ... 42
3.4.1 Thêm một plug-ins từ Visual Studio vào MapWindow..................... 42
3.4.2 Xây dựng ứng dụng với Active X map control trong Visual Studio.. 43
Kết quả chạy thử nghiệm ........................................................................... 51
KẾT LUẬN..................................................................................................... 54
1. Một số kết quả đạt được của luận văn ................................................... 54
2. Những hạn chế và hướng phát triển ....................................................... 54
TÀI LIỆU THAM KHẢO ............................................................................. 55

iii

DANH MỤC CÁC TỪ VIẾT TẮT

STT
1

Từ
viết tắt
GIS

Từ tiếng Anh

Ý nghĩa

Geographical

Hệ thống thông tin địa lý

Information System
2

AP

affinity propagation

Thuật toán lan truyền độ tương tự

3

CSDL

Database

Cơ sở dữ liệu

4

SIL

Silhouette

Công thức Silhouette

5

DEM

Digital Elevation Model

Mô hình kỹ thuật số độ cao

6

DTM

Digital Terrain Model

Mô hình kỹ thuật số các địa hình

7

TIN

Triangulated Irregular

Lưới tam giác không đều

Network
8

SQL

Structured Query

Ngôn ngữ truy vấn có cấu trúc

Language

iv

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Các thành phần của hệ thống thông tin địa lý Gis
Hình 1.2: Thuật toán phân cụm K-means
Hình 1.3: Cấu trúc vector và raster
Hình 2.1: Đồ thị Affinity Propagation (AP)
Hình 2.2: Minh họa hiệu năng của ba kỹ thuật rời rạc hóa khác nhau
Hình 3.1: Phần mềm mã nguồn mở Mapwindow
Hình 3.2: Kiếm tra plug-ins vừa add trong MapWindow
Hình 3.3: Kéo thả Map Control vào form

Hình 3.4: Kéo Legend vào form
Hình 3.5: Kéo thêm DataGridView vào form Table
Hình 3.6: Giao diện plugin APCluster

v

MỞ ĐẦU
1. Đặt vấn đề
Nguồn dữ liệu dồi dào cung cấp nhiều thông tin, từ đó nhân loại đúc rút
thành tri thức trong quá trình phát triển xã hội loài người. Với sự phát triển của
công nghệ điện toán và hệ thống lưu trữ dữ liệu thì khối lượng tài nguyên số
ngày càng trở nên phong phú và đồ sộ. Trong xã hội hiện đại, thông tin đóng
một vai trò then chốt. Nhu cầu xử lý dữ liệu, trích rút thông tin, kịp thời khai
thác chúng để mang lại những hiệu quả thiết thực cho công tác quản lý, hoạt
động sản xuất kinh doanh,… ngày càng trở nên cấp thiết.
Khai phá dữ liệu nói chung để trích rút thông tin và phân cụm dữ liệu nói
riêng là một trong những trọng tâm nghiên cứu của khoa học máy tính. Phân
cụm dữ liệu là một trong những biện pháp để tìm kiếm tri thức, khi ta chưa biết
nhiều thông tin về miền ứng dụng. Phân cụm được coi như một công cụ độc lập
để xem xét phân bố dữ liệu, là bước tiền xử lý cho các bước sau. Phân cụm dữ
liệu hiện có nhiều ứng dụng trong hầu hết các lĩnh vực hoạt động kinh tế, xã hội.
Có nhiều phương pháp và thuật toán phân cụm dữ liệu khác nhau, tùy theo cách
tiếp cận bài toán dưới góc độ nào. Một phương pháp mới được đề xuất tương đối
gần đây là Phương pháp lan truyền độ tương tự.
Thuật toán lan truyền độ tương tự (Affinity Propagation - AP) là thuật
toán phân cụm dữ liệu được đưa ra bởi Frey & Dueck vào năm 2007 dựa trên ý
tưởng thuật toán lan truyền độ tin cậy trong suy diễn trên mạng xác xuất Bayes,
dựa trên cơ sở toán học của lý thuyết xác suất. Thuật toán lan truyền làm việc
dựa trên sự tương đồng (affinity nghĩa là sự giống nhau, sự tương thích, sự hấp

dẫn) giữa các cặp điểm dữ liệu và đồng thời xem xét tất cả các điểm dữ liệu như
các tâm cụm tiềm năng, theo thuật ngữ ở đây là tất cả các điểm dữ liệu đều là
hình mẫu (exemplar) tiềm năng, và trao đổi các thông điệp giá trị thực cho đến
khi có được tập hình mẫu tốt (phân cụm tương ứng).
1

Thuật toán phân cụm AP có một số ưu điểm: cho kết quả phân cụm tốt,
đặc biệt là trong trường hợp có số lượng lớn các cụm, phát hiện cụm có hình
dáng bất kỳ, không yêu cầu phải xác định trước số cụm. Nó cũng cho phép dễ
dàng thực hiện phân cụm thỏa mãn một số điều kiện xác định trước nào đó, tức
là phân cụm bán giám sát. Đặc tính này thích hợp cho phân cụm dữ liệu trong
GIS vì những ràng buộc điều kiện địa hình tự nhiên hoặc quản lý hành chính cần
tính đến trong các bài toán thực tế.
Luận văn chọn đề tài “Phương pháp lan truyền độ tương tự trong phân
cụm dữ liệu và ứng dụng” là hướng nghiên cứu chính, với mục tiêu khám phá
những điểm mạnh, điểm yếu của phương pháp này, hiểu biết sâu thêm về một
cách tiếp cận phân cụm, đồng thời nâng cao kỹ năng thực hành triển khai ứng
dụng.
2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu là các phương pháp phân cụm dữ liệu, tập trung
vào thuật toán lan truyền độ tương tự.
Phạm vi nghiên cứu là các điểm mạnh, điểm yếu và tiềm năng ứng dụng
phương pháp lan truyền độ tương tự trong phân cụm dữ liệu địa lý.
3. Hướng nghiên cứu của đề tài
Luận văn dự kiến hướng nghiên cứu là:
Nghiên cứu lý thuyết: tìm hiểu sâu hơn về thuật toán lan truyền độ tương
tự, trên cơ sở nắm vững bản chất của phương pháp lan truyền độ tin cậy trong
suy diễn trên mạng xác xuất Bayes. dựa trên cơ sở toán học của lý thuyết xác
suất.

Nghiên cứu ứng dụng: Cài đặt thử nghiệm thuật toán với dữ liệu mô
phỏng để đánh giá, phân tích đánh giá kết quả; thử với dữ liệu thực tế.
4. Những nội dung nghiên cứu chính
2

Nội dung nghiên cứu của luận văn bao gồm:
Tìm hiểu tổng quan về phân cụm dữ liệu; các điểm đặc thù của bài toán
phân cụm dữ liệu địa lý; Một số đặc điểm của thuật toán lan truyền độ tương tự,
trên cơ sở lý thuyết toán học hoặc phân tích thực nghiệm.
Về thực hành: Cài đặt thử nghiệm thuật toán với dữ liệu mô phỏng để
đánh giá, phân tích đánh giá kết quả; thử với dữ liệu thực tế.
Làm quen với hệ thống thông tin địa lý nguồn mở; cơ sở dữ liệu địa lý;
cách viết plugin tích hợp phép phân tích dữ liệu địa lý.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết: tổng quan, phân tích các kết quả
nghiên cứu đã có, nhận biết các ưu nhược điểm, lựa chọn cách tiếp cận phù hợp
nhất để giải quyết bài toán ứng dụng.
Nghiên cứu thực nghiệm qua phân tích kết quả thử nghiệm với dữ liệu mô
phỏng; dữ liệu thực tế; so sánh đánh giá và kết luận.
6. Ý nghĩa khoa học của đề tài
Đề tài nghiên cứu có ý nghĩa khoa học, góp phần làm hiểu biết sâu sắc
hơn phương pháp lan truyền độ tương tự trong phân cụm dữ liệu.
Ứng dụng thực tế: phân cụm dữ liệu môi trường, không khí, thời tiết…
nhận được từ các trạm quan trắc khí tượng để xác định những tiểu vùng môi
trường khí tượng trong một địa phương, khu vực.
7. Bố cục của luận văn
Luận văn bao gồm 3 chương cùng với phần Mở đầu, phần Kết luận, phần
Mục lục, phần Tài liệu tham khảo.
Chương 1: Tổng quan về phân cụm dữ liệu GIS và phân cụm dữ liệu địa

lý: Trình bày các khái niệm cơ bản, các cách tiếp cận, phương pháp, thuật toán;
Chú trọng các kết quả đã biết về đánh giá điểm mạnh điểm yếu.
3

Chương 2: Phương pháp lan truyền độ tương tự trong phân cụm dữ liệu
Trình bày tổng quan một số phương pháp
Chương 3: Xây dựng chương trình thử nghiệm
Giới thiệu bài toán thử nghiệm. Dữ liệu thử nghiệm. Thiết kế hệ thống.
Viết chương trình thử nghiệm. Dự định sử dụng ngôn ngữ lập trình C# để xây
dựng chương trình demo
Kết luận và hướng phát triển của luận văn

4

CHƯƠNG 1
HỆ THỐNG THÔNG TIN ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ
1.1 Tổng quan về hệ thống thông tin địa lý
1.1.1 Lịch sử ra đời
Từ lâu bản đồ luôn là một công cụ thông tin quen thuộc đối với loài
người. Trong quá trình phát triển kinh tế kĩ thuật, bản đồ luôn được cải tiến sao
cho ngày càng đầy đủ thông tin và chính xác hơn. Với sự đa dạng của các loại
bản đồ trong việc thể hiện các đối tượng khác nhau trên bề mặt trái đất, các nhà
quy hoạch nhận thức được sự cần thiết trong xử lý đồng thời nhiều hơn một bản
đồ. Các mô hình đồ họa cổ điển xử lý thông tin bản đồ gặp rất nhiều khó khăn
trong xử lý đồng thời dữ liệu không gian và dữ liệu thuộc tính. Điều này đã dẫn
đến sự phát triển các phương pháp và kỹ thuật xử lý tổng hợp thông tin nhằm
phục vụ tốt hơn cho công tác quy hoạch và ra quyết định.
Trong những năm đầu thập kỉ 60 (1963-1964) các nhà khoa học ở Canada

đã cho ra đời hệ thông tin địa lý. Hệ thống thông tin địa lý kế thừa mọi thành tựu
trong ngành bản đồ cả về ý tưởng lẫn thành tựu của kỹ thuật bản đồ. Hệ thông
tin địa lý bắt đầu hoạt động bằng việc thu thập dữ liệu theo định hướng tuỳ
thuộc vào mục tiêu đặt ra.
Cùng với Canada, các trường đại học tại Mỹ cũng tiến hành nghiên cứu và
xây dựng hệ thống thông tin địa lý và càng ngày nhu cầu sử dụng, nghiên cứu hệ
thống thông tin địa lý càng được quan tâm nhiều hơn.
Một số mốc lịch sử trong quá trình hình thành và phát triển công nghệ GIS:
 1963 – Phòng đồ họa vi tính của trường đại học tổng hợp Harvard
(R.Fisher, J. Dangermond, D. Sinton, N. Chrisman, G. Dutton, S.
Morehouse, T.Peuker).

5

 1963 – thành lập Hiệp hội các hệ thống thông tin đô thị và khu vực
(URISA).
 1964 – Symap ra đời (Hệ thống phần mềm vẽ bản đồ cơ sở do Đại học
tổng hợp Harvard xây dựng).
 Giữa những năm 1960 – Tổng cục điều tra dân số của Mỹ xây dựng
quy trình vẽ bản đồ địa chính theo địa chỉ (D. Cooke, M. White xây
dựng lý thuyết về quan hệ không gian cho các dữ liệu địa lý).
 1967 – GIS Canađa ra đời (R. Tomlinson là tác giả của thuật ngữ GIS).
 1967 – Thành lập Cơ quan đo vẽ bản đồ thực nghiệm ở Anh (Boyle,
Rhind).
 1969 – Thành lập Intergraph và ESRI (Dangermond và Morehouse).
 1973 – Các hội nghị về Hệ thống thông tin đô thị (URPIS) được tổ
chức tại Australia dẫn đến sự thành lập của Tổ chức các hệ thống
thông tin đô thị Ôxtrâylia (AURISA) vào năm 1975.
 1974 – Các hội nghị về AutoCarto được tổ chức.

 1973 – ODYSSEY (tiền thân của phần mềm GIS do trường đại học
Harvard xây dựng) ra đời.
 1978 – Hệ thống hiển thị thông tin nội địa Nhà Trắng (Mỹ) ra đời.
 1980 – Phần mềm ArcINFO ra đời.
 1987 - Phần mềm MapINFO ra đời.
 1987- Tạp chí GIS quốc tế ra đời.
1.1.2 Định nghĩa
Hệ thông tin địa lý GIS (Geographical Information System) là tập hợp các
công cụ để thu thập, lưu trữ, chỉnh sửa, truy cập, phân tích và cập nhật các thông
6

tin địa lý cho một mục đích chuyên biệt. Ngoài ra cũng có nhiều định nghĩa khác
về GIS:
GIS là công cụ trên cơ sở nền máy tính để lập bản đồ và phân tích những
hiện tượng đang tồn tại và các sự kiện xảy ra trên trái đất (Environmental System
Research Institute ESRI – Mỹ).
GIS là hệ thống phần cứng, phần mềm và các thủ tục được thiết kế nhằm
thu thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị các dữ liệu quy chiếu
không gian để giải quyết các vấn đề quản lý và lập kế hoạch (National Center
for Geography Information and Analysis NCGIA – Mỹ).
GIS là một tập hợp các nguyên lý, phương pháp, dụng cụ và dữ liệu quy
chiếu không gian được sử dụng để nhập, lưu trữ, chuyển đổi, phân tích, lập mô
hình, mô phỏng và lập bản đồ các hiện tượng, sự kiện trên trái đất, nhằm sản
sinh các thông tin thiết thực hổ trợ cho việc ra quyết định (Thesriault – Canada).
1.1.3 Các thành phần của hệ thống thông tin địa lý
GIS bao gồm 5 thành phần chính là: phần cứng, phần mềm, dữ liệu, con
người và các chính sách.

Hình 1.1: Các thành phần của hệ thống thông tin địa lý Gis

7

Phần cứng
Phần cứng là hệ thống các thiết bị có nhiệm vụ chạy các chương trình GIS
nhằm thực hiện các yêu cầu về thu thập, phân tích, tính toán, xử lý, truy vấn dữ
liệu.
Hệ thống phần cứng gồm:
 Thiết bị nhập: Chuột, bàn phím, máy quét ảnh, bàn số hoá, máy quét
bản đồ.
 Thiết bị xử lý: Máy tính - cụ thể là bộ xử lý trung tâm.
 Thiết bị xuất: Máy in, máy chiếu, máy vẽ.
 Thiết bị lưu trữ: Đĩa từ, đĩa quang, đĩa cứng.
Phần mềm
Tuỳ vào nhu cầu sử dụng và tuỳ vào từng sản phẩm mà các phần mềm có
thể khác nhau. Tuy nhiên, các thành phần chính của các phần mềm GIS gồm có :
 Nhập và tìm kiếm dữ liệu
 Lưu trữ và quản lý cơ sở dữ liệu
 Xuất dữ liệu
 Chỉnh sửa dữ liệu
 Tương tác với người sử dụng
Dữ liệu
Có thể coi dữ liệu là thành phần quan trọng nhất của mọi hệ thống cơ sở
dữ liệu cũng như hệ thống GIS. Dữ liệu này có thể thu thập từ trắc địa, viễn
thám hoặc mua lại từ các nhà cung cấp để xử lý, phân tích, và là cơ sở để phát
triển và nghiên cứu GIS. Hệ GIS sẽ kết hợp dữ liệu không gian với các nguồn dữ
liệu khác, thậm chí có thể sử dụng hệ quản trị cơ sở dữ liệu để tổ chức lưu giữ và
quản lý dữ liệu.
Con người

8

Là đối tượng chính sử dụng GIS vào việc học tập, nghiên cứu, ra quyết
định. Người sử dụng GIS có thể là những chuyên gia kỹ thuật, người thiết kế và
duy trì hệ thống, hoặc những người dùng GIS để giải quyết các vấn đề trong
công việc.
Chính sách
Là yếu tố quan trọng quyết định đến sự thành công của việc phát triển
công nghệ GIS.
1.1.4 Dữ liệu trong hệ thống thông tin địa lý
Cơ sở dữ liệu nền GIS là cơ sở dữ liệu mà những lĩnh vực trong công tác
quản lý tài nguyên môi trường cần đến nó và sử dụng chúng. Cơ sở dữ liệu nền
GIS là phần giao của từng cơ sở dữ liệu trong công tác quản lý tài nguyên môi
trường. Cơ sở dữ liệu nền GIS bao gồm hai phần:
 Cơ sở dữ liệu không gian (bản đồ nền).
 Cơ sở dữ liệu thuộc tính chung.
Bản đồ nền
Bản đồ nền là bản đồ chỉ bao gồm yếu tố nền cơ sở địa lý. Nó là cơ sở để
xác định vị trí địa lý của các đối tượng trong dữ liệu chuyên ngành. Nền cơ sở
địa lý của bản đồ là tập hợp những yếu tố thuỷ văn, giao thông, dân cư, biên giới
quốc gia, địa giới hành chính, địa danh và địa hình để làm cơ sở thể hiện cách
nội dung khác trên bản đồ.
Bản đồ nền được phân thành hai nhóm: bản đồ địa lý chung và địa lý
chuyên đề.
Bản đồ địa lý chung là bản đồ thể hiện mọi đối tượng, hiện tượng địa lý
của bề mặt trái đất, bao gồm đầy đủ các đối tượng và hiện tượng kinh tế, văn
hóa, xã hội như thủy văn, địa hình, thực vật, đất đai, dân cư, giao thông, công
nghiệp, nông nghiệp, lâm nghiệp văn hóa, hành chính – chính trị.
9

Bản đồ địa lý chuyên đề là loại bản đồ trên đó thể hiện rõ ràng, nổi bật và
hoàn thiện một hoặc một số các yếu tố đã được thể hiện trên bản đồ địa lý
chung.
Cơ sở dữ liệu thuộc tính chung
Là những số liệu phi không gian mô tả về các đặc tính, đặc điểm và các
hiện tượng xảy ra tại các vị trí địa lý xác định, ví dụ: tên đường phố, số lượng
dân số tại một khu vực, lượng mưa hàng năm tại một khu vực.
Trên bản đồ, các sự vật trên thế giới thực được thể hiện qua tập các điểm,
đường và miền, còn các ký hiệu, nhãn thể hiện các thông tin về thuộc tính của sự
vật đó.
1.2 Phân cụm dữ liệu địa lý
1.2.1 Phân cụm dữ liệu
Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm,
phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ
liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định.
Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhóm
dữ liệu mà trong đó các đối tượng là tương tự nhau. “Phân cụm dữ liệu là quá
trình tổ chức các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều
tương tự nhau theo một tính chất nào đó, những đối tượng không tương tự tính
chất sẽ ở nhóm khác.”
Dữ liệu địa lý là dữ liệu bao gồm dữ liệu không gian và dữ liệu thuộc tính
được kết hợp với nhau một cách tương ứng. Dữ liệu địa lý có thể là các bản đồ
số trên máy vi tính, các mô hình mô phỏng hình dáng bề mặt trái đất, các cơ sở
dữ liệu ảnh bề mặt trái đất.

10

Dữ liệu địa lý ngày một phát triển với lượng dữ liệu ngày càng lớn và
phức tạp hơn, đòi hỏi các nhà nghiên cứu cần có những phương pháp, kỹ thuật
để phân tích và khai phá dữ liệu hiệu quả hơn.
Trong những năm gần đây, việc nghiên cứu và khai phá dữ liệu đã có xu
hướng chuyển từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao dịch sang cơ sở dữ
liệu không gian.
Khám phá tri thức từ dữ liệu không gian có thể được thực hiện dưới nhiều
hình thức khác nhau như sử dụng các quy tắc đặc trưng và quyết định, trích rút
và mô tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian.
Ứng dụng của phân cụm dữ liệu địa lý
Phân cụm dữ liệu địa lý được ứng dụng trong nhiều lĩnh vực khác nhau:
 Y tế: Xác định và khoanh vùng các ổ dịch giúp cho việc điều trị, quản
lý, phòng chống lây lan sang các khu vực khác.
 Nông – lâm nghiệp: Nhận dạng các vùng đất, điều kiện địa lý phù hợp
với loại cây trồng tương ứng.
 Sinh học: Phân loại động – thực vật thông qua các Gen tương đồng của
chúng.
 Kinh tế: Phân cụm các nhóm khách hàng quan trọng theo từng vùng
miền.
 Xã hội – phòng chống tội phạm: Khoanh vùng các khu vực là điểm
nóng về tội phạm.
1.2.2 Một số kỹ thuật phân cụm dữ liệu
- Thuật toán phân cụm có thể là kiểu phân cấp. một trong hai dạng – gộp
dần, hoặc chia tách dần "từ trên xuống". Gộp dần: bắt đầu với mỗi cụm là một
phần tử , hợp nhất liên tiếp thành các cụm ngày càng lớn hơn. Chia tách : bắt
đầu với toàn bộ tập hợp, phân chia tiếp thành các cụm nhỏ hơn.
11

- Kiểu phân hoạch thường xác định tất cả các cụm một lần, cùng lúc.

Cũng có thể sử dụng như các thuật toán chia tách nói trên.
- Dựa trên mật độ để khám phá các cụm hình dạng tùy ý. Một cụm là một
vùng, trong đó mật độ của các đối tượng dữ liệu vượt quá một ngưỡng nào đó.
DBSCAN và OPTICS là hai thuật toán điển hình loại này.
1.2.2.1 Thuật toán phân cụm theo cây phân cấp
Tạo ra một hệ thống các cụm, có thể biểu diễn trong một cấu trúc cây.
Gốc cây là một cụm duy nhất có chứa tất cả các phần tử, và lá tương ứng với
từng phần tử.
Các thuật toán : gộp dần hoặc chia tách dần.
Có thể sử dụng bất kỳ độ đo hợp lệ nào của sự tương tự giữa các cặp quan
sát (phần tử). Chọn cụm để sáp nhập hoặc chia tách theo một tiêu chí nối liên
kết, là một hàm của khoảng cách từng đôi giữa các quan sát.
Cắt cây ở độ cao nhất định sẽ cho một phân cụm đạt một độ chính xác đã
chọn.
Thông thường, khoảng cách giữa hai cụm A,B là một trong những độ đo
sau đây:
• Khoảng cách tối đa giữa các cặp phần tử của mỗi cụm (còn gọi là phân
cụm liên kết đầy đủ):
max{ d(x,y):

,

}

• Khoảng cách tối thiểu giữa các cặp phần tử của mỗi cụm (còn gọi là
phân cụm liên kết đơn lẻ - single link):
min{ d(x,y):

,

}

• Khoảng cách trung bình giữa các cặp phần tử của mỗi cụm (còn gọi là
phân cụm liên kết trung bình):
12

• Tổng của tất cả các phương sai nội bộ cụm.
• Độ gia tăng phương sai cho các cụm được sáp nhập (tiêu chí Ward).
• Xác suất mà cụm ứng viên sinh ra từ cùng một hàm phân phối (V-liên
kết).
Việc gộp lần sau ở khoảng cách xa hơn lần trước. Có thể quyết định
ngừng gộp khi các cụm là quá xa để sáp nhập (tiêu chí khoảng cách) hoặc khi số
cụm đã đủ nhỏ (tiêu chí số cụm).
Một biến thể của phân cụm gộp dần là conceptual clustering
1.2.2.2 Thuật toán phân cụm phân hoạch : Phân cụm k-means
Các thuật toán k-means gán mỗi điểm tới cụm có trung tâm (cũng gọi là
trọng tâm) gần nhất. Trung tâm này là trung bình của tất cả các điểm trong cụm tọa độ bằng trung bình số học tất cả các điểm trong cụm, tính riêng theo từng
chiều.

Hình 1.2: Thuật toán phân cụm K-means
13

Các bước thực hiện thuật toán là :
• Chọn số cụm, k.
• Ngẫu nhiên tạo ra k cụm và xác định các trung tâm cụm, hoặc trực tiếp
tạo ra k điểm ngẫu nhiên làm các trung tâm cụm.
• Gán mỗi điểm đến trung tâm cụm gần nhất.
• Tính lại các trung tâm cụm mới.

• Lặp lại các bước trước đó cho đến khi thỏa mãn một tiêu chuẩn hội tụ
nào đó (thường là sự gán không thay đổi nữa).
Ưu điểm chính của thuật toán này là đơn giản và tốc độ nhanh, cho phép
chạy trên bộ dữ liệu lớn.
Nhược điểm là nó:
- Không mang lại kết quả như nhau với mỗi lần chạy, kết quả phụ thuộc
vào tạo ngẫu nhiên ban đầu.
- Nó tối thiểu phương sai nội bộ cụm, nhưng không đảm bảo tối thiểu toàn
cục của phương sai.
- Một nhược điểm nữa là cần cho k, không phải luôn luôn tính được →
biến thể k-medoids thích hợp hơn.
1.2.2.3 Phân cụm mờ
Trong phân cụm mờ, mỗi điểm có một mức độ thuộc cụm, như trong
logic mờ. Với mỗi điểm x, chúng ta có một hệ số uk(x) = mức độ x thuộc cụm
thứ k. Thông thường, chuẩn hóa để tổng các hệ số là 1
Trọng tâm của cụm là trung bình có trọng số uk(x) của mọi điểm x thuộc
cụm.
=

14

Mức độ “thuộc về” cụm là nghịch đảo của khoảng cách

Như vậy, các hệ số được chuẩn hóa và làm mờ, với một tham số m>1,
sao cho tổng bằng 1

Với m bằng 2, điều này là tương đương với chuẩn hóa tuyến tính để tổng
các hệ số là 1.
Khi m gần 1, trung tâm cụm gần nhất với điểm có trọng số lớn nhất, và

thuật toán tương tự như K-means.
Các bước phân cụm C-means mờ rất giống K-means:
• Chọn số cụm.
• Gán ngẫu nhiên cho mỗi điểm hệ số thuộc cụm.
• Lặp lại cho đến khi thuật toán hội tụ (có nghĩa là, thay đổi hệ số giữa hai
lần lặp không lớn hơn ngưỡng nhạy cảm đã cho):
Tính trọng tâm cho mỗi cụm, bằng cách sử dụng công thức trên.
Đối với mỗi điểm, tính hệ số “thuộc cụm” của nó với các cụm, sử dụng
công thức trên.
Thuật toán cũng tối thiểu phương sai trong cụm, nhưng có những vấn đề
tương tự như k-means, tối thiểu là tối thiểu địa phương, và kết quả phụ thuộc
vào sự lựa chọn trọng số ban đầu.
Các thuật toán tối đa kỳ vọng, là một phương pháp thống kê hình thức
hơn, bao gồm một số những ý tưởng này. Được dùng nhiều hơn c-means mờ.

15

1.3 Dữ liệu địa lý và vấn đề phân cụm đối tượng địa lý
Dữ liệu địa lý nhằm phản ảnh thế giới thực, cần trả lời được các câu hỏi:
- Cái gì? (dữ liệu thuộc tính).
- Ở đâu? (dữ liệu không gian).
- Khi nào? (thời gian).
- Tương tác với các đối tượng khác ra sao? (quan hệ).
Một đối tượng của dữ liệu địa lý được coi là đã xác định khi có thông tin
về các lĩnh vực trên.
1.3.1 Cấu trúc dữ liệu trong GIS
Dữ liệu địa lý được biểu diễn như thế nào? Có loại dữ liệu cơ bản nào
trong GIS. Đó là dữ liệu không gian và dữ liệu thuộc tính. Đặc điểm quan trọng
trong tổ chức dữ liệu của GIS là: dữ liệu không gian (bản đồ) và dữ liệu thuộc

tính được lưu trữ trong cùng một cơ sở dữ liệu (CSDL) và có quan hệ chặt chẽ
với nhau.

Hình 1.3: Cấu trúc vector và raster
1.3.1.1 Hai mô hình dữ liệu không gian
Dữ liệu không gian có hai dạng cấu trúc. Đó là dạng raster và dạng vector
(xem hình 1.3).

16

Cấu trúc raster: Có thể hiểu đơn giản là một “ảnh” chứa các thông tin về
một chuyên đề. Mô phỏng bề mặt trái đất và các đối tượng trên đó bằng một lưới
(đều hoặc không đều) gồm các hàng và cột. Những phần tử nhỏ này gọi là
những pixel hay cell. Giá trị của pixel là thuộc tính của đối tượng. Kích thước
pixel càng nhỏ thì đối tượng càng được mô tả chính xác. Một mặt phẳng chứa
đầy các pixel tạo thành raster. Cấu trúc này thường được áp dụng để mô tả các
đối tượng, hiện tượng phân bố liên tục trong không gian, dùng để lưu giữ thông
tin dạng ảnh (ảnh mặt đất, hàng không, vũ trụ...). Một số dạng mô hình biểu diễn
bề mặt như DEM (Digital Elevation Model), DTM (Digital Terrain Model), TIN
(Triangulated Irregular Network) trong CSDL cũng thuộc dạng raster.
Ưu điểm của cấu trúc dữ liệu dạng raster là dễ thực hiện các chức năng
xử lý và phân tích. Tốc độ tính toán nhanh, thực hiện các phép toán bản đồ dễ
dàng. Dễ dàng liên kết với dữ liệu viễn thám. Cấu trúc raster có nhược điểm là
kém chính xác về vị trí không gian của đối tượng. Khi độ phân giải càng thấp
(kích thước pixel lớn) thì sự sai lệch này càng tăng
Cấu trúc vector: Cấu trúc vector mô tả vị trí và phạm vi của các đối tượng
không gian bằng tọa độ cùng các kết hợp hình học gồm nút, cạnh, mặt và quan
hệ giữa chúng. Về mặt hình học, các đối tượng được phân biệt thành 3 dạng: đối
tượng dạng điểm (point), đối tượng dạng đường (line) và đối tượng dạng vùng

(region hay polygon). Điểm được xác định bằng một cặp tọa độ X,Y. Đường là
một chuỗi các cặp tọa độ X,Y liên tục. Vùng là khoảng không gian được giới
hạn bởi một tập hợp các cặp tọa độ X,Y trong đó điểm đầu và điểm cuối trùng
nhau. Với đối tượng vùng, cấu trúc vector phản ảnh đường bao.
Cấu trúc vector có ưu điểm là vị trí của các đối tượng được định vị chính
xác (nhất là các đối tượng điểm, đường và đường bao). Cấu trúc này giúp cho
người sử dụng dễ dàng biên tập bản đồ, chỉnh sửa, in ấn. Tuy nhiên cấu trúc này
có nhược điểm là phức tạp khi thực hiện các phép chồng xếp bản đồ.

17

1.3.1.2 Dữ liệu thuộc tính
Dữ liệu thuộc tính dùng để mô tả đặc điểm của đối tượng. Dữ liệu thuộc
tính có thể là định tính - mô tả chất lượng (qualitative) hay là định lượng
(quantative). Về nguyên tắc, số lượng các thuộc tính của một đối tượng là không
có giới hạn. Để quản lý dữ liệu thuộc tính của các đối tượng địa lý trong CSDL,
GIS đã sử dụng phương pháp gán các giá trị thuộc tính cho các đối tượng thông
qua các bảng số liệu. Mỗi bản ghi (record) đặc trưng cho một đối tượng địa lý,
mỗi cột của bảng tương ứng với một kiểu thuộc tính của đối tượng đó.
Các dữ liệu trong GIS thường rất lớn và lưu trữ ở các dạng file khác nhau
nên tương đối phức tạp. Do vậy để quản lý, người ta phải sử dụng các hệ CSDL
mạnh. Hiện nay, có nhiều hệ CSDL, cả thương mại lẫn nguồn mở, đã tích hợp
hỗ trợ quản lý dữ liệu địa lý
1.3.2 Các vấn đề trong phân cụm dữ liệu địa lý
Phân cụm dữ liệu địa lý có nhiều ứng dụng trong lĩnh vực khai phá dữ
liệu, trích xuất thông tin và tri thức cần thiết để giải quyết nhiều bài toán ứng
dụng trong kinh tế, xã hội.
Bài toán phân cụm dữ liệu địa lý có một số đặc thù riêng cần xem xét.
-Các đối tượng vùng là các đa giác. Phân cụm các đa giác (các vùng địa

lý ) có hai cách tiếp cận: 1) Lấy 1 điểm đại diện cho cả đa giác, ví dụ trọng tâm
(centroid). Cách làm này đơn giản, nhưng có nhược điểm khi các vùng có kích
thước và hình dáng rất đa dạng: rất to hoặc rất bé, khá tròn trịa hoặc dài và hẹp,
v.v… Khoảng cách giữa hai điểm đại diện cho hai đa giác không phản ánh thích
hợp hai vùng ở gần nhau hay xa nhau. 2) Xét toàn bộ đa giác như một đối tượng
hình học. Lúc này có thể áp dụng một số định nghĩa khoảng cách khác nhau,
phản ánh tốt hơn “khoảng cách” nhưng tính toán sẽ phức tạp hơn.
- Kết hợp giữa dữ liệu thuộc tính và dữ liệu không gian. Hàm tính
khoàng cách sẽ kết hợp khoảng cách không gian và “khoảng cách” của các
18

Phương pháp lan truyền độ tương tự trong phân cụm dữ liệu và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về