Tải bản đầy đủ (.pdf) (64 trang)

Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam luận văn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 64 trang )

0

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Nội – 2014
NGUYỄN THỊ KHÁNH LINH

PHÂN CỤM DỮ LIỆU ĐỊA LÝ VÀ ÁP DỤNG TRONG
PHÂN TÍCH MỘT SỐ CHỈ SỐ KINH TẾ XÃ HỘI CỦA
CÁC ĐỊA PHƯƠNG Ở VIỆT NAM

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa

Hà Nội - 2015


1

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của tôi và không sao chép của
bất kỳ ai. Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và
trình bày lại theo cách hiểu. Trong quá trình làm luận văn, tôi có tham khảo các tài liệu
có liên quan và đã ghi rõ nguồn tài liệu tham khảo.
Hà Nội, ngày tháng năm 2015


Học viên

Nguyễn Thị Khánh Linh


2

LỜI CẢM ƠN
Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS.
Nguyễn Đình Hóa – Viện CNTT – Trường Đại học Quốc gia Hà Nội và thầy giáo TS.
Lê Hoàng Sơn – ĐH Khoa học Tự nhiên đã trực tiếp hướng dẫn và tận tình giúp đỡ em
trong suốt thời gian thực hiện luận văn.
Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo
trong khoa Công nghệ thông tin, trường Đại học Công nghệ Hà Nội, Đại học Quốc gia
Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa.
Trong quá trình thực hiện luận văn, em cũng nhận được sự giúp đỡ rất nhiều từ
các thầy cô, các anh chị và các bạn tại Trung tâm Tính toán Hiệu năng cao, trường Đại
học Khoa học tự nhiên. Luận văn này được thực hiện dưới sự tài trợ của đề tài cấp
ĐHQG, mã số: QG.14.60.
Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp, những
người đã luôn bên cạnh em để động viên, giúp đỡ và tạo điều kiện tốt nhất để em có
thể hoàn thành luận văn.
Hà Nội, ngày tháng năm 2015
Học viên

Nguyễn Thị Khánh Linh


3


MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. 1
LỜI CẢM ƠN .................................................................................................... 2
MỤC LỤC ......................................................................................................... 3
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT ...................................... 5
DANH MỤC CÁC HÌNH VẼ ............................................................................ 7
DANH MỤC CÁC BẢNG BIẾU ....................................................................... 8
MỞ ĐẦU ........................................................................................................... 9
CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ ........ 10
1.1

GIS và dữ liệu địa lý ..................................................................................... 10

1.1.1

GIS ........................................................................................................ 10

1.1.2

Dữ liệu địa lý ......................................................................................... 11

1.1.2.1 Dữ liệu không gian............................................................................... 11
1.1.2.2 Dữ liệu thuộc tính ................................................................................ 12
1.2

Tổng quan về phân cụm dữ liệu địa lý .......................................................... 14

1.2.1

Khái niệm về phân cụm dữ liệu .............................................................. 14


1.2.2

Ứng dụng của phân cụm dữ liệu địa lý ................................................... 15

1.2.3

Các thuật toán phân cụm dữ liệu địa lý................................................... 15

1.2.3.1 Thuật toán FCM ................................................................................... 16
1.2.3.2 Thuật toán NE...................................................................................... 18
1.2.3.3 Thuật toán FGWC ................................................................................ 19
1.2.3.4 Thuật toán CFGWC ............................................................................. 21
1.2.3.5 Thuật toán CFGWC 2 .......................................................................... 22
1.2.3.6 Thuật toán IPFGWC ............................................................................ 26
1.2.3.7 Thuật toán MIPFGWC ......................................................................... 27
1.3

Kết luận ........................................................................................................ 29

CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ
VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOW .................................... 30
2.1

MapWindow và các plug-in để mở rộng chức năng ...................................... 30


4

2.1.1


Các phần mềm GIS ................................................................................ 30

2.1.2

Phần mềm GIS MapWindow.................................................................. 31

2.1.3

Xây dựng và sử dụng plug-in với MapWindow ...................................... 32

2.1.3.1 Quy tắc chung ...................................................................................... 32
2.1.3.2 Các bước cụ thể ................................................................................... 33
2.2

Phân tích thiết kế plug-in để thực hiện các thuật toán phân cụm ................... 34

2.2.1

Mô hình ca sử dụng................................................................................ 35

2.2.1.1 Mô hình ca sử dụng tổng thể của plug-in.............................................. 35
2.2.1.2 Mô hình ca sử dụng chức năng phân cụm dữ liệu ................................. 35
2.2.2

Mô tả ca sử dụng .................................................................................... 36

2.2.3

Biểu đồ lớp phân tích ............................................................................. 37


2.2.4

Thiết kế lớp ............................................................................................ 37

2.2.4.1 Lớp giao diện ....................................................................................... 37
2.2.4.2 Lớp điều khiển ..................................................................................... 39
2.3

Kết luận ........................................................................................................ 40

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ .......................................... 41
3.1

Dữ liệu thực nghiệm ..................................................................................... 41

3.1.1

Chuẩn bị dữ liệu không gian .................................................................. 41

3.1.2

Chuẩn bị bộ dữ liệu phân cụm ................................................................ 41

3.2

Các kịch bản chạy thử................................................................................... 44

3.3


Một số kết quả khi chạy chương trình ........................................................... 45

3.3.1 Kết quả khi chạy các thuật toán phân cụm khác nhau cho cùng một tập dữ
liệu chuyên đề .................................................................................................... 46
3.3.2

Kết quả khi chạy nhiều chuyên đề với một thuật toán............................. 52

3.3.3

Kết quả khi chạy phân cụm đồng thời nhiều thuộc tính .......................... 56

3.4

Kết luận ........................................................................................................ 59

KẾT LUẬN...................................................................................................... 61
TÀI LIỆU THAM KHẢO ................................................................................ 62


5

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT
STT

Từ viết tắt/thuật
ngữ

Từ tiếng Anh


Ý nghĩa

Trí tuệ nhân tạo

1

AI

Artifical Intelligence

3

GIS

Geographical

Information Hệ thống thông tin địa

System



4

NE

Neighbourhood Effects

Thuật toán hiệu ứng
vùng lân cận


5

FCM

Fuzzy C-means

Thuật toán phân cụm
mờ

6

FGWC

Fuzzy

Geographically Thuật toán phân cụm

Weight Clustering

7

CFGWC

Context
Geographically
Clustering

8


IPFGWC

Intuitionistic

dữ liệu theo trọng số
địa lý
Fuzzy Thuật toán phân cụm
Weight địa lý kết hợp ngữ cảnh

Possiblistic Thuật toán phân cụm

Fuzzy
Geographically địa lý trên tập mờ trực
Weighted Clustering
cảm
9

MIPFGWC

Modification Intuitionistic Thuật toán phân cụm
Possiblistic
Fuzzy địa lý hiệu chỉnh trên
Geographically
Clustering

10

KMIPFGWC

Weighted tập mờ trực cảm


Kernel-based Modification Thuật toán phân cụm
Intuitionistic Possiblistic địa lý hiệu chỉnh trên
Fuzzy
Geographically tập mờ trực cảm sử
dụng hàm nhân
Weighted Clustering

11

CSDL

12

UC

Cơ sở dữ liệu
Usecase

Ca sử dụng


6

13

SIM

Spatial Interaction Model


Mô hình tương tác
không gian

14

SIM2

Spatial
Interaction
Modification Model

- Mô hình tương tác hiệu chỉnh không gian


7

DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Ví dụ về dữ liệu thuộc tính .............................................................. 13
Hình 1.2. Dữ liệu địa lý................................................................................... 14
Hình 2.1. Mô hình ca sử dụng tổng quan của plug-in ...................................... 35
Hình 2.2. Mô hình usecase chức năng phân cụm ............................................. 35
Hình 2.3: Biểu đồ lớp của plug-in ................................................................... 37
Hình 2.4. Lớp giao diện chính của plug-in ...................................................... 38
Hình 2.5. Lớp giao diện của chức năng phân cụm ........................................... 38
Hình 2.6. Lớp giao diện tải chuyên đề ............................................................. 38
Hình 2.7. Lớp giao diện nhập tham số thuật toán ............................................ 39
Hình 2.8. Lớp điều khiển tính toán phân cụm .................................................. 39
Hình 2.9. Lớp điều khiển cập nhật dữ liệu vào bảng thuộc tính ....................... 40
Hình 2.10. Lớp điều khiển Reset bảng thuộc tính ............................................ 40
Hình 3.1. Dữ liệu chuyên đề ở dạng file .csv ................................................... 42

Hình 3.2. Dữ liệu chuyên đề ở dạng file .txt .................................................... 42
Hình 3.3. Giao diện chương trình khi tải layer và bật plug-in .......................... 45
Hình 3.4. Giao diện in bản đồ ......................................................................... 46
Hình 3.5. Kết quả khi chạy thuật toán MIPFGWC trên dữ liệu “Tổng mức bán
lẻ hàng hóa và dịch vụ” với số cụm bằng 4. ............................................................... 52


8

DANH MỤC CÁC BẢNG BIẾU
Bảng 3.1: Kết quả chạy phân cụm với các thuật toán trên dữ liệu “Tổng mức
bán lẻ hàng hóa và dịch vụ”. ...................................................................................... 49
Bảng 3.2: Thời gian chạy các thuật toán trên các bộ dữ liệu với tham
số

............................................................................................ 50
Bảng 3.3:Thời gian chạy các thuật toán trên các bộ dữ liệu với tham

số

............................................................................................ 51
Bảng 3.4:Thời gian chạy các thuật toán trên các bộ dữ liệu với tham

số

............................................................................................ 51
Bảng 3.5: Kết quả phân cụm thuật toán MIPFGWC chạy trên 3 chuyên đề:

“Tổng mức bán lẻ hàng hóa và dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất
công nghiệp” giai đoạn 2005-2013 ............................................................................ 55

Bảng 3.6: Kết quả phân cụm đồng thời nhiều thuộc tính khi thay đổi tỉ lệ giữa
các trọng số................................................................................................................ 59


9

MỞ ĐẦU
Hệ thống thông tin địa lý (GIS) là một ứng dụng rất có giá trị và là công cụ trợ
giúp quyết định trong nhiều hoạt động kinh tế - xã hội, quốc phòng của nhiều quốc
gia trên thế giới. Hiện nay, GIS được phát triển và ứng dụng ngày càng nhiều tại Việt
Nam. Trong sự phát triển của đất nước ta hiện nay, việc tổ chức quản lý thông tin địa
lý một cách tổng thể có có vai trò rất quan trọng trong việc sử dụng có hiệu quả hơn
nguồn tài nguyên của đất nước. GIS giúp các cơ quan chính phủ có cái nhìn khách
quan hơn về hiện trạng các thực thể tự nhiên, kinh tế xã hội thông qua việc xử lý các
dữ liệu không gian và dữ liệu thuộc tính.
Các dữ liệu về kinh tế, xã hội, môi trường… đều gắn với các địa phương, tức là
các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá những dữ liệu này.
Có nhiều phương pháp khai phá dữ liệu, trong đó phân cụm là một phương pháp được
sử dụng khá nhiều. Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau
như: dựa trên phân hoạch, phân cấp, dựa trên lưới, dựa trên mật độ, dựa trên mô hình,
dựa trên đồ thị… Phân cụm dữ liệu địa lý là một hướng nghiên cứu nhiều triển vọng.
Đề tài nghiên cứu hướng tới các thuật toán phân cụm dữ liệu không gian. Trên
cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng được vào
chương trình thực hiện thuật toán phân cụm dữ liệu không gian, chúng tôi sẽ thử áp
dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm.
Bố cục của luận văn gồm 3 chương:
Chương 1: Trình bày các khái niệm chung về GIS và dữ liệu địa lý, các thuật
toán sử dụng trong phân cụm dữ liệu địa lý.
Chương 2: Trình bày cách thức xây dựng ứng dụng phân cụm dữ liệu và thể
hiện một số chỉ tiêu kinh tế xã hội của các địa phương ở Việt Nam dựa trên phần mềm

mã nguồn mở MapWindow
Chương 3: Chạy chương trình trên số liệu thực tế thu thập được với từng thuật
toán, so sánh kết quả từng thuật toán. Đánh giá, phân tích một số kết quả đầu ra của
các thuật toán phân cụm.


10

CHƯƠNG 1:

DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU
ĐỊA LÝ

1.1 GIS và dữ liệu địa lý
1.1.1 GIS
Từ lâu bản đồ luôn là một công cụ thông tin quen thuộc đối với loài người.
Trong quá trình phát triển kinh tế kĩ thuật, bản đồ luôn được cải tiến sao cho ngày
càng đầy đủ thông tin và chính xác hơn. Với sự đa dạng của các loại bản đồ trong việc
thể hiện các đối tượng khác nhau trên bề mặt trái đất, các nhà quy hoạch nhận thức
được sự cần thiết trong xử lý đồng thời nhiều hơn một bản đồ. Các mô hình đồ họa cổ
điển xử lý thông tin bản đồ gặp rất nhiều khó khăn trong xử lý đồng thời dữ liệu không
gian và dữ liệu thuộc tính. Điều này đã dẫn đến sự phát triển các phương pháp và kỹ
thuật xử lý tổng hợp thông tin nhằm phục vụ tốt hơn cho công tác quy hoạch và ra
quyết định. [1]
Trong những năm đầu thập kỉ 60 (1963-1964) các nhà khoa học ở Canada đã
cho ra đời hệ thông tin địa lý. Hệ thống thông tin địa lý kế thừa mọi thành tựu trong
ngành bản đồ cả về ý tưởng lẫn thành tựu của kỹ thuật bản đồ. Hệ thông tin địa lý bắt
đầu hoạt động bằng việc thu thập dữ liệu theo định hướng tuỳ thuộc vào mục tiêu đặt
ra.
Cùng với Canada, các trường đại học tại Mỹ cũng tiến hành nghiên cứu và xây

dựng hệ thống thông tin địa lý và càng ngày nhu cầu sử dụng, nghiên cứu hệ thống
thông tin địa lý càng được quan tâm nhiều hơn.
Hệ thông tin địa lý (Geographical Information System – GIS) là tập hợp các
công cụ để thu thập, lưu trữ, chỉnh sửa, truy cập, phân tích và cập nhật các thông tin
địa lý cho một mục đích chuyên biệt.
Ngoài ra cũng có nhiều định nghĩa khác về GIS [1]:
GIS là công cụ trên cơ sở nền máy tính để lập bản đồ và phân tích những hiện
tượng đang tồn tại và các sự kiện xảy ra trên trái đất (Environmental System Research
Institute ESRI – Mỹ).
GIS là hệ thống phần cứng, phần mềm và các thủ tục được thiết kế nhằm thu
thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị các dữ liệu quy chiếu không
gian để giải quyết các vấn đề quản lý và lập kế hoạch (National Center for Geography
Information and Analysis NCGIA – Mỹ).


11

GIS là một tập hợp các nguyên lý, phương pháp, dụng cụ và dữ liệu quy chiếu
không gian được sử dụng để nhập, lưu trữ, chuyển đổi, phân tích, lập mô hình, mô
phỏng và lập bản đồ các hiện tượng, sự kiện trên trái đất, nhằm sản sinh các thông tin
thiết thực hổ trợ cho việc ra quyết định (Thériault – Canada).
Hệ thống thông tin địa lý bao gồm các phần chính sau:
1. Hệ thống thiết bị phần cứng bao gồm máy tính hoặc hệ mạng máy tính, các
thiết bị đầu vào, các thiết bị đầu ra.
2. Hệ thống phần mềm bao gồm phần mềm vẽ bản đồ, phần mềm quản trị, phần
mềm ứng dụng.
3. Hệ thống thông tin đầu vào và hệ thống cập nhật thông tin.
4. Hệ thống cơ sở dữ liệu bao gồm các dữ liệu địa lý và các dữ liệu thuộc tính
(các dữ liệu chữ - số, dữ liệu multimedia, v.v.) và mối quan hệ giữa hai loại dữ liệu
này.

5. Hệ thống hiển thị thông tin và giao diện với người sử dụng đòi hỏi những đặc
thù riêng về độ chính xác (hệ tọa độ, quy chiếu không gian).
1.1.2 Dữ liệu địa lý
Dữ liệu địa lý là dữ liệu bao gồm dữ liệu không gian và dữ liệu thuộc tính (còn
gọi là dữ liệu phi không gian) được kết hợp với nhau một cách tương ứng. Dữ liệu địa
lý có thể là các bản đồ số trên máy vi tính, các mô hình mô phỏng hình dáng bề mặt
trái đất, các cơ sở dữ liệu ảnh bề mặt trái đất.
1.1.2.1 Dữ liệu không gian
Dữ liệu không gian là những mô tả số của các đối tượng thực tế được thể hiện
hình ảnh bản đồ. Đó có thể là thửa đất, con đường, sông ngòi, hồ ao, rừng núi, tòa nhà,
sân bay, bến cảng ….. Chúng bao gồm toạ độ, quy luật và các ký hiệu dùng để thể
hiện thành một hình ảnh cụ thể trên bản đồ. Hệ thống thông tin địa lý dùng các dữ liệu
không gian để tạo ra một bản đồ hay hình ảnh bản đồ trên màn hình hoặc trên giấy
thông qua thiết bị ngoại vi, v.v.
Có hai mô hình dữ liệu không gian được sử dụng đồng thời trong hệ thống
thông tin địa lý, là mô hình vector và mô hình raster. Mỗi mô hình có những ưu điểm
và nhược điểm riêng.
Mô hình raster: Có thể hiểu đơn giản là một “ảnh” chứa các thông tin về một
chuyên đề. Nó mô hình hóa bề mặt trái đất và các đối tượng trên đó bằng một lưới
(đều hoặc không đều) gồm các hàng và cột. Những phần tử nhỏ này gọi là những pixel


12

hay cell. Giá trị của pixel là thuộc tính của đối tượng. Kích thước pixel càng nhỏ thì
đối tượng càng được mô tả chính xác. Một mặt phẳng chứa đầy các pixel tạo thành
raster. Mô hình này thường được áp dụng để mô tả các sự vật, hiện tượng phân bố liên
tục trong không gian, dùng để lưu giữ thông tin dạng ảnh (ảnh mặt đất, hàng không, vũ
trụ...). Một số dạng mô hình biểu diễn bề mặt như DEM (Digital Elevation Model),
DTM (Digital Terrain Model), TIN (Triangulated Irregular Network) trong CSDL

cũng thuộc dạng raster .
Ưu điểm của dữ liệu dạng raster là dễ thực hiện các chức năng xử lý và phân
tích. Tốc độ tính toán nhanh, thực hiện các phép toán bản đồ dễ dàng. Dễ dàng liên kết
với dữ liệu viễn thám. Mô hình raster có nhược điểm là kém chính xác về vị trí không
gian của đối tượng. Khi độ phân giải càng thấp (kích thước pixel lớn) thì sự sai lệch
này càng tăng
Mô hình vector: mô tả vị trí và phạm vi của các đối tượng không gian bằng tọa
độ cùng các kết hợp hình học gồm các điểm nút, các cung trên đường biên, các vùng
mặt phẳng và quan hệ giữa chúng. Về mặt hình học, các đối tượng được phân biệt
thành 3 dạng: đối tượng dạng điểm (point), đối tượng dạng đường (line) và đối tượng
dạng vùng (region hay polygon). Điểm được xác định bằng một cặp tọa độ X,Y.
Đường là một chuỗi các cặp tọa độ X,Y liên tục. Vùng là khoảng không gian được giới
hạn bởi một tập hợp các cặp tọa độ X,Y trong đó điểm đầu và điểm cuối trùng nhau.
Với đối tượng vùng, mô hình vector phản ảnh đường bao.
Dữ liệu vector có ưu điểm là vị trí của các đối tượng được định vị chính xác
(nhất là các đối tượng điểm, đường và đường bao). Điều này giúp cho người sử dụng
dễ dàng biên tập bản đồ, chỉnh sửa, in ấn. Tuy nhiên mô hình dữ liệu vector có nhược
điểm là phức tạp khi thực hiện các phép chồng xếp bản đồ.
Dữ liệu vector có thể được lưu trữ trong máy tính theo các khuôn dạng tệp khác
nhau và các hệ thông tin địa lý có thể hỗ trợ/ không hỗ trợ một số khuôn dạng dữ liệu
không gian nhất định. Tuy nhiên, khuôn dạng shape (*.shp) được coi như chuẩn thực
tế và mọi hệ thông tin địa lý đều hỗ trợ khuôn dạng này.

1.1.2.2 Dữ liệu thuộc tính
Dữ liệu thuộc tính diễn tả các đặc tính của các đối tượng thực tế được thể hiện
trên bản đồ. Dữ liệu thuộc tính có thể là định tính - mô tả chất lượng (qualitative) hay
là định lượng (quantative). Dữ liệu định lượng ví dụ như chiều dài đoạn đường, diện


13


tích thửa đất, độ sâu hồ nước, dân số của một đơn vị hành chính (xã, huyện, tỉnh..) cụ
thể. Dữ liệu định tính ví dụ như xếp hạng độ màu mỡ của thửa đất, mức độ phát triển
kinh tế một tỉnh...
Về nguyên tắc, số lượng các thuộc tính của một đối tượng là không có giới hạn.
Để quản lý dữ liệu thuộc tính của các đối tượng địa lý trong CSDL, GIS đã sử dụng
phương pháp gán các giá trị thuộc tính cho các đối tượng thông qua các bảng số liệu.
Mỗi bản ghi (record) đặc trưng cho một đối tượng địa lý, mỗi cột của bảng tương ứng
với một kiểu thuộc tính của đối tượng đó.
Thông thường hệ thống thông tin địa lý có 4 loại số liệu thuộc tính:
 Đặc tính của đối tượng: liên kết chặt chẽ với các thông tin không gian có thể
thực hiện câu lệnh truy vẫn và phân tích.
 Số liệu hiện tượng, tham khảo địa lý: miêu tả những thông tin, các hoạt
động thuộc vị trí xác định.
 Chỉ số địa lý: tên, địa chỉ, khối, phương hướng định vị, …liên quan đến các
đối tượng địa lý.
 Quan hệ giữa các đối tượng trong không gian, có thể đơn giản hoặc phức tạp
(sự liên kết, khoảng tương thích, mối quan hệ đồ hình giữa các đối tượng).

Hình 1.1. Ví dụ về dữ liệu thuộc tính

Hình 1.2 là ví dụ về một số tệp dữ liệu địa lý gồm 4 tệp chính:
 VNM_adm2.dbf: Dữ liệu thuộc tính lưu trong cơ sở dữ liệu dạng bdf, có thể
mở file này bằng excel
 VNM_adm2.prj: File mô tả về lưới chiếu sử dụng cho bộ dữ liệu này


14

 VNM_adm2.shp: File dữ liệu không gian dạng shape.

 VNM_adm2.shx: Đây là dữ liệu để ánh xạ mỗi vùng không gian trong file
.shp tương ứng với từng bản ghi trong file .shx.

Hình 1.2. Dữ liệu địa lý

1.2 Tổng quan về phân cụm dữ liệu địa lý
1.2.1 Khái niệm về phân cụm dữ liệu
Phân cụm dữ liệu là một kỹ thuật khai phá dữ liệu (data mining) nhằm tìm
kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ
liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định.
Phân cụm dữ liệu là sự phân chia một tập dữ liệu lớn thành các nhóm dữ liệu
mà các đối tượng trong cùng nhóm là tương tự nhau. “Phân cụm dữ liệu là quá trình tổ
chức các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự nhau
theo một tính chất nào đó, những đối tượng có tính chất không tương tự sẽ ở nhóm
khác.” [2]
Dữ liệu địa lý ngày một phát triển với lượng dữ liệu ngày càng lớn và phức tạp
hơn, đòi hỏi các nhà nghiên cứu cần có những phương pháp, kỹ thuật để phân tích và
khai phá dữ liệu hiệu quả hơn.
Trong những năm gần đây, việc nghiên cứu và khai phá dữ liệu đã có xu hướng
chuyển từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao dịch sang cơ sở dữ liệu không
gian. Khám phá tri thức từ dữ liệu không gian có thể được thực hiện dưới nhiều hình


15

thức khác nhau như sử dụng các quy tắc đặc trưng và quyết định, trích rút và mô tả các
cấu trúc hoặc cụm nổi bật, kết hợp không gian.

1.2.2 Ứng dụng của phân cụm dữ liệu địa lý
Phân cụm dữ liệu địa lý được ứng dụng trong nhiều lĩnh vực khác nhau như:

 Y tế: Xác định và khoanh vùng các ổ dịch giúp cho việc điều trị, quản lý,
phòng chống lây lan sang các khu vực khác.
 Nông – lâm nghiệp: Nhận dạng các vùng đất, điều kiện địa lý phù hợp với
loại cây trồng tương ứng.
 Sinh học: Phân loại động – thực vật thông qua các Gen tương đồng của
chúng.
 Kinh tế: Phân cụm các nhóm khách hàng quan trọng theo từng vùng miềm.
 Xã hội – phòng chống tội phạm: Khoanh vùng các khu vực là điểm nóng về
tội phạm.
1.2.3 Các thuật toán phân cụm dữ liệu địa lý
Bài toán phân cụm dữ liệu địa lý được định nghĩa như sau:
Định nghĩa 1.Cho tập dữ liệu thuộc tính X gồm N điểm dữ liệu trong không
gian r chiều. Mỗi điểm dữ liệu tương ứng với một kiểu đối tượng điểm của hệ thống
Vector. Hãy phân chia tập dữ liệu thuộc tính này thành C cụm sao cho thỏa mãn hàm
mục tiêu [2]:
N

C

J    u kj || X k  V j || 2  min,

(1)

k 1 j 1

Với các ràng buộc:
u kj  [0 ,1]
C
 u  1
kj


.
 j 1
u  u (W )
kj
j
 kj
V j  V j (W j )

Trong đó:

 u kj  0,1 là độ thuộc của điểm dữ liệu thứ k vào cụm j , j  1, C ,

(2)


16



X k là điểm dữ liệu thứ k ( k  1, N ),

 V j là tâm cụm không gian thứ j ( j  1, C ),
 W j là trọng số không gian của cụm j ( j  1, C ).
Khoảng cách giữa hai đối tượng x và y được tính thông qua các độ đo khoảng
cách sau:
1
n
q
 Khoảng cách Minskowski: d ( x, y )    | xi  yi | q  , trong đó q là số tự nhiên

 i 1


dương.
n

 Khoảng cách Euclidean: d ( x, y ) 

 (x

i

 y i ) 2 , đây là trường hợp đặc biệt của

i 1

khoảng cách Minskowski trong trường hợp q  2 .
n

 Khoảng cách Manhattan: d ( x, y)   | xi  yi | , đây là trường hợp đặc biệt của
i 1

khoảng cách Minskowski trong trường hợp q  1 .

 Khoảng cách Chenbysev: d(x, y)  max in1 | X i  Yi |, đây là trường hợp đặc biệt
của khoảng cách Minskowski trong trường hợp q   .
1.2.3.1 Thuật toán FCM
FCM [3] là thuật toán phân cụm cho phép một phần dữ liệu có thể nằm ở một
hoặc nhiều cụm khác nhau. Phương pháp phân cụm này được Dunn xây dựng vào năm
1973 và được Bezdek cải tiến vào năm 1981, thường được sử dụng trong việc nhận

dạng mẫu.
FCM sử dụng phép lặp để tối ưu hàm mục tiêu, dựa trên đo đạc độ tương tự có
trọng số giữa xk và cụm trung tâm V i .
Đầu vào:
-

Số cụm c và tham số mũ m cho hàm mục tiêu J :
N

C

J   u kjm X k  V j
k 1 j 1

2

 min

(a)


17

Đầu ra:
-

c cụm

dữ liệu sao cho hàm mục tiêu trong (a) đạt giá trị cực tiểu.


Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo ma trận U (t ) với t  0
 Bước 2: Tính ma trận tâm V (t ) bởi công thức:
N

u
Vi 

m
ki

k 1
N

u

(1)

Xk
; i  1, C
m
ki

k 1

 Bước 3: Tính U ( t 1) bởi công thức:
1

u ki 


 || X k  V i || 


j 1 
k  V j || 
C

2
m

; i  1, C ; k  1, N

(2)

  || X

 Bước 4: Nếu || U (t  1)  U (t ) ||  thì dừng thuật toán, ngược lại thì quay lại
bước 2.
Chưa có quy tắc nào nhằm lựa chọn tham số m đảm bảo việc phân cụm hiệu
quả, thông thường chọn m  2 .
Độ phức tạp của thuật toán FCM tương đương với độ phức tạp của thuật toán
K-means trong trường hợp số đối tượng của tập dữ liệu cần phân cụm là rất lớn. Tóm
lại, thuật toán phân cụm mờ FCM là một mở rộng của thuật toán K-means nhằm khám
phá ra các cụm chồng lên nhau, tuy nhiên, FCM vẫn chứa đựng các nhược điểm của
thuật toán K-means trong việc xử lý đối với các phần tử ngoại lai và nhiễu trong dữ
liệu.
Ưu điểm [3] của thuật toán này là đơn giản, dễ thực hiện. Nhược điểm [3] của
thuật toán là nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu, chưa sử dụng
đến các yếu tố địa lý.



18

1.2.3.2 Thuật toán NE
Thuật toán NE [10] là thuật toán phân cụm dữ liệu có tính đến yếu tố địa lý đầu
tiên, được đưa ra bởi Feng và Flowerdew vào năm 1998. Thuật toán này sẽ tích hợp
thêm các đặc trưng địa lý thông qua mô hình tương tác không gian (SIM). Mô tả của
thuật toán:
Đầu vào:
-

Tập dữ liệu đầu vào X , số mờ m

-

Số điểm dữ liệu N , số cụm C , số chiều r

-

Các tham số địa lý a,b,  , 

-

Ngưỡng  .
Đầu ra:

-

C cụm dữ liệu sao cho thỏa mãn hàm mục tiêu:

N

C

J   u kjm X k  V j

2

 min

(3)

k 1 j 1

Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo ma trận U (t ) với t  0
 Bước 2: Tính ma trận tâm V (t ) bởi công thức:
N

u
Vi 

m
ki

(4)

Xk


k 1
N

; i  1, C.

 u kim
k 1

 Bước 3: Tính U (t  1) bởi công thức:
1

u ki 

 || X k  Vi || 



V
||
j 1 
k
j 
C

2
m

; i  1, C , k  1, N .

(5)


  || X

 Bước 4: Nếu || U (t  1)  U (t ) ||  thì dừng thuật toán, ngược lại thì quay lại
bước 2.

 Bước 5: Hiệu chỉnh bởi các đặc trưng địa lý:


19

uki'    uki   

1 C
  wij  uki ; i  1, C , k  1, N
A j 1

   1
wij 

( p ij ) b
d

(6)

(7)
(8)

a
ij


Trong đó, pij là khoảng cách lớn nhất giữa các điểm trong phần biên chung
giữa cụm i và cụm j , d ij là khoảng cách tâm cụm i và cụm j , A là hệ số để đảm bảo
tổng độ thuộc của một phần tử vào tất cả các cụm luôn bằng 1.
Do có kết hợp các yếu tố địa lý nên chất lượng phân cụm của thuật toán NE tốt
hơn so với thuật toán FCM. Tuy nhiên, thuật toán vẫn còn một số nhược điểm [10]
như:
-

Thuật toán bỏ qua các tác động của các khu vực mà không có biên chung.

-

Thuật toán loại trừ ảnh hưởng của yếu tố dân số - là một yếu tố quan trọng
trong bài toán phân cụm dữ liệu địa lý.

-

Việc hiệu chỉnh địa lý được thực hiện ở bước cuối cùng (ngoài vòng lặp) nên
các cụm không gắn chặt với yếu tố không gian.

1.2.3.3 Thuật toán FGWC
Thuật toán FGWC [4] do Mason và Jacobson xây dựng vào năm 2007 nhằm
khắc phục những hạn chế của thuật toán NE. Ý tưởng của thuật toán là tích hợp thêm
yếu tố dân cư và đưa việc cập nhật địa lý bằng mô hình SIM vào trong vòng lặp thuật
toán.
Đầu vào:
-

Số cụm c và các tham số m,  cho hàm mục tiêu J ;


-

Tập dữ liệu đầu vào X , số mờ m

-

Số điểm dữ liệu N , số cụm C , số chiều r

-

Các tham số địa lý a,b, , 

-

Ngưỡng  .
Đầu ra:

-

C cụm dữ liệu sao cho thỏa mãn hàm mục tiêu:


20

N

C

J   u kjm X k  V j


2

 min

(9)

k 1 j 1

Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo ma trận U (t ) với t  0
 Bước 2: Tính ma trận tâm V (t ) bởi công thức:
N

u
Vi 

m
ki

(10)

Xk

k 1
N

; i  1, C.


u

m
ki

k 1

 Bước 3: Tính U (t  1) bởi công thức:
1

u ki 

 || X k  Vi || 



V
||
j 1 
k
j 
C

2
m

; i  1, C , k  1, N .

(11)


  || X

 Bước 4: Hiệu chỉnh bởi các đặc trưng địa lý:
u ki'    u ki   

1 C
  wij  u ki ; i  1, C , k  1, N .
A j 1

   1
wij 

(mi m j ) b
d

(12)

(13)
(14)

a
ij

Trong đó, mi là dân số hay số lượng phần tử thuộc của cụm i , d ij là khoảng
cách tâm cụm i và cụm j , A là hệ số để giới hạn tổng độ thuộc của một phần tử vào
tất cả các cụm luôn bằng 1.

 Bước 5: Nếu U ' (t  1)  U (t )   thì dừng thuật toán, ngược lại thì quay lại
bước 2.



21

FGWC [4] là thuật toán được sử dụng rộng rãi nhất hiện nay do nó khắc phục
được nhược điểm của thuật toán NE như xem xét các tác động của những khu vực
không có biên chung, kết hợp dân cư vào các bước thực hiện của nó và các cụm được
gắn chặt với quan hệ không gian.
Nhược điểm của thuật toán này là [4]:
-

Thời gian thực hiện thuật toán chậm.

-

Chất lượng phân cụm thu được là không cao

1.2.3.4 Thuật toán CFGWC
Thuật toán CFGWC do nhóm nghiên cứu của Tiến sỹ Lê Hoàng Sơn cùng cộng
sự đưa ra để khắc phục nhược điểm về tốc độ tính toán của thuật toán FGWC (Mason
và Jacobson).
Ý tưởng của thuật toán [7]:
Thuật toán sẽ đưa thêm một biến ngữ cảnh để thu hẹp dữ liệu gốc theo một số
điều kiện cho trước. Biến ngữ cảnh sẽ tăng tốc độ tính toán đưa ra kết quả chính xác
hơn.
Đầu vào:
-

Tập dữ liệu đầu vào X , số mờ m

-


Số điểm dữ liệu N , số cụm C , số chiều r

-

Các tham số địa lý a,b, , 

-

Ngưỡng  , ngữ cảnh f .
Đầu ra:

-

C cụm dữ liệu sao cho thỏa mãn hàm mục tiêu:
N

C

J   u kjm X k  V j

2

 min

k 1 j 1

Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo ma trận U (t ) với t  0

 Bước 2: Tính ma trận tâm V (t ) bởi công thức:

(15)


22

N

u
Vi 

m
ki

(16)

Xk

k 1
N

; i  1, C.

u

m
ki

k 1


 Bước 3: Tính U (t  1) bởi công thức:
fk

u ki 

 || X k  Vi || 


j 1 
k  V j || 
C

2
m

; i  1, C , k  1, N .

(17)

  || X

 Bước 4: Hiệu chỉnh bởi các đặc trưng địa lý:
u ki'    u ki   

1 C
  wij  u ki ; i  1, C , k  1, N .
A j 1

   1

wij 

(mi m j ) b

(18)

(19)
(20)

d ija

Trong đó, mi là số lượng phần tử thuộc của cụm i , d ij là khoảng cách tâm cụm
i và cụm j , A là hệ số để giới hạn tổng độ thuộc của một phần tử thứ i vào tất cả các

cụm luôn bằng f i .

 Bước 5: Nếu U ' (t  1)  U (t )   thì dừng thuật toán, ngược lại thì quay lại bước
2.
Ưu điểm của thuật toán là cải tiến tốc độ tính toán so với thuật toán FGWC.
Nhược điểm của thuật toán này là chất lượng phân cụm không cao.
1.2.3.5 Thuật toán CFGWC 2
Thuật toán này được đưa ra để nâng cao chất lượng phân cụm cho thuật toán
FGWC dựa trên ý tưởng về tập mờ loại 2, biến ngữ cảnh, tối ưu bầy đàn và tính toán
song song. Thuật toán được Tiến sỹ Lê Hoàng Sơn đưa ra năm 2014 [5]. Mô tả thuật
toán:
Đầu vào:


23


-

Tâm khởi tạo V(0), tập mẫu X , khoảng mờ m1 , m 2 

-

Số phần tử (số cụm) – N , số chiều của tập dữ liệu r

-

Các tham số địa lý a,b,  , 

-

Ngưỡng  , số bước lặp MaxStep
Đầu ra:

-

Ma trận tâm kết quả V 3
Các bước thực hiện thuật toán:

 Bước 1: Tính khoảng ma trận độ thuộc U ( x)  [U ( x),U ( x)] từ ma trận tâm cụm
khởi tạo V ( 0 ) và tập mẫu X bởi các công thức:
C

U ( x )  {U kj  (0,1) | k  1, N ; j  1, C ;

U


kj

 1}

(21)

j 1
C

U ( x)  {U kj  (0,1) | k  1, N ; j  1, C ;  U kj  1}

(22)

j 1



 C  || X k
  
 i1  || X k
U kj = 

 C
  || X k


 i1  || X k


 C  || X k

  
 i1  || X k
U kj = 

 C
  || X k


 i1  || X k

(23)

1
2
m1 1

 V j( 0 ) || Nếu
 ,
1
 Vi ( 0 ) ||  1

(
0
)
C || X  V
|| C
k
j
1
2

(0 )
m
2 1

 V j || , Ngược
lại

 Vi ( 0 ) || 
1

Nếu

2
m1 1

 V j( 0 ) ||  1
1
 ,

 Vi ( 0C) ||||X  V ( 0) || C
 k j
1
2
, Ngược lại
 V j( 0 ) ||  m2 1

 Vi ( 0 ) || 

(24)



24

 Bước 2: Gán V ( A)  V ( 0) và thực hiện phương pháp hiệu chỉnh Kanik [9] để tính
tâm phải V R và tâm trái VL từ V ( A) và U (x) . Sắp xếp X theo các đặc trưng
l (l  1, r ) theo thứ tự tăng dần.

 Bước 3: Tìm chỉ số k 0 thỏa mãn công thức:
(25)

 C

X k0l    v (jlA )  / C  X ( k0 1) l
 j 1


Nếu không chỉ số nào được tìm thấy, gán k 0  N  1

 Bước 4: Tính U (1)(l ) bởi công thức:
U kj
U kj(1)(l )  
U kj

, Nếu

k  k0

, ngược lại

(26)

,

j  1, C , k  1, N

 Bước 5: Tính ma trận tâm mới V (1) bởi công thức:
N

V ji(1) 

 U

 m1  m2 
(1)( l )  2 


kj



k 1

N

 U

(27)

X ki
, j  1, C , i  1, r


 m1  m2 
(1)( l )  2 


kj



k 1

 Bước 6: Nếu V (1)  V ( A) thì dừng việc tìm VR  V (1) . Với mỗi s  l  1, r , gán
U kj(1)( s )  U kj , j  1, C , k  1, N . Sau đó, tính U (1) bởi:
r

U (1)   U

(28)

(1)(l )
r

l 1

Ngược lại, gán V ( A)  V (1) và quay lại bước 3 và bước 6 là ma trận tâm phải V R
và ma trận độ thuộc U (1)

 Bước 7: Tính ma trân tâm trái VL và ma trận độ thuộc U (2) giống như ở Bước 2
đến Bước 6 với hai thay đổi ở bước 4 và bước 6 là:
U kj
U kj( 2 )( l )  

U kj

Nếu

k  k0

, ngược lại

(29)
, j  1, C , k  1, N


×