Tải bản đầy đủ (.pdf) (14 trang)

Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (365.7 KB, 14 trang )

0

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Nội – 2014
NGUYỄN THỊ KHÁNH LINH

PHÂN CỤM DỮ LIỆU ĐỊA LÝ VÀ ÁP DỤNG TRONG
PHÂN TÍCH MỘT SỐ CHỈ SỐ KINH TẾ XÃ HỘI CỦA
CÁC ĐỊA PHƯƠNG Ở VIỆT NAM

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480101
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa

Hà Nội - 2015


1

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của tôi và không sao chép của
bất kỳ ai. Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và
trình bày lại theo cách hiểu. Trong quá trình làm luận văn, tôi có tham khảo các tài liệu
có liên quan và đã ghi rõ nguồn tài liệu tham khảo.
Hà Nội, ngày tháng năm 2015
Học viên



Nguyễn Thị Khánh Linh


2

LỜI CẢM ƠN
Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS.
Nguyễn Đình Hóa – Viện CNTT – Trƣờng Đại học Quốc gia Hà Nội và thầy giáo TS.
Lê Hoàng Sơn – ĐH Khoa học Tự nhiên đã trực tiếp hƣớng dẫn và tận tình giúp đỡ em
trong suốt thời gian thực hiện luận văn.
Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo
trong khoa Công nghệ thông tin, trƣờng Đại học Công nghệ Hà Nội, Đại học Quốc gia
Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa.
Trong quá trình thực hiện luận văn, em cũng nhận đƣợc sự giúp đỡ rất nhiều từ
các thầy cô, các anh chị và các bạn tại Trung tâm Tính toán Hiệu năng cao, trƣờng Đại
học Khoa học tự nhiên. Luận văn này đƣợc thực hiện dƣới sự tài trợ của đề tài cấp
ĐHQG, mã số: QG.14.60.
Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp, những
ngƣời đã luôn bên cạnh em để động viên, giúp đỡ và tạo điều kiện tốt nhất để em có
thể hoàn thành luận văn.
Hà Nội, ngày tháng năm 2015
Học viên

Nguyễn Thị Khánh Linh


3

MỤC LỤC

LỜI CAM ĐOAN.................................................................................................. 1
LỜI CẢM ƠN ....................................................................................................... 2
MỤC LỤC ............................................................................................................. 3
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT ....................................... 5
DANH MỤC CÁC HÌNH VẼ............................................................................... 7
DANH MỤC CÁC BẢNG BIẾU ......................................................................... 8
MỞ ĐẦU ............................................................................................................... 9
CHƢƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ ........ 10
1.1

GIS và dữ liệu địa lý ........................................................................................ 10

1.1.1

GIS ............................................................................................................10

1.1.2

Dữ liệu địa lý ............................................. Error! Bookmark not defined.

1.1.2.1 Dữ liệu không gian .................................. Error! Bookmark not defined.
1.1.2.2 Dữ liệu thuộc tính ................................... Error! Bookmark not defined.
1.2

Tổng quan về phân cụm dữ liệu địa lý ............. Error! Bookmark not defined.

1.2.1

Khái niệm về phân cụm dữ liệu ................ Error! Bookmark not defined.


1.2.2

Ứng dụng của phân cụm dữ liệu địa lý ..... Error! Bookmark not defined.

1.2.3

Các thuật toán phân cụm dữ liệu địa lý ..... Error! Bookmark not defined.

1.2.3.1 Thuật toán FCM ...................................... Error! Bookmark not defined.
1.2.3.2 Thuật toán NE ......................................... Error! Bookmark not defined.
1.2.3.3 Thuật toán FGWC ................................... Error! Bookmark not defined.
1.2.3.4 Thuật toán CFGWC ................................ Error! Bookmark not defined.
1.2.3.5 Thuật toán CFGWC 2 ............................. Error! Bookmark not defined.
1.2.3.6 Thuật toán IPFGWC ............................... Error! Bookmark not defined.
1.2.3.7 Thuật toán MIPFGWC ............................ Error! Bookmark not defined.
1.3

Kết luận ............................................................ Error! Bookmark not defined.

CHƢƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ
VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOWError! Bookmark not defined.


4

2.1

MapWindow và các plug-in để mở rộng chức năngError!

Bookmark


not

defined.
2.1.1

Các phần mềm GIS ................................... Error! Bookmark not defined.

2.1.2

Phần mềm GIS MapWindow .................... Error! Bookmark not defined.

2.1.3

Xây dựng và sử dụng plug-in với MapWindowError!

Bookmark

not

defined.
2.1.3.1 Quy tắc chung ......................................... Error! Bookmark not defined.
2.1.3.2 Các bƣớc cụ thể ....................................... Error! Bookmark not defined.
2.2

Phân tích thiết kế plug-in để thực hiện các thuật toán phân cụm ............ Error!

Bookmark not defined.
2.2.1


Mô hình ca sử dụng ................................... Error! Bookmark not defined.

2.2.1.1 Mô hình ca sử dụng tổng thể của plug-in Error! Bookmark not defined.
2.2.1.2 Mô hình ca sử dụng chức năng phân cụm dữ liệuError! Bookmark not
defined.
2.2.2

Mô tả ca sử dụng ....................................... Error! Bookmark not defined.

2.2.3

Biểu đồ lớp phân tích ................................ Error! Bookmark not defined.

2.2.4

Thiết kế lớp ............................................... Error! Bookmark not defined.

2.2.4.1 Lớp giao diện .......................................... Error! Bookmark not defined.
2.2.4.2 Lớp điều khiển ........................................ Error! Bookmark not defined.
2.3

Kết luận ............................................................ Error! Bookmark not defined.

CHƢƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁError! Bookmark not defined.
3.1

Dữ liệu thực nghiệm ........................................ Error! Bookmark not defined.

3.1.1


Chuẩn bị dữ liệu không gian ..................... Error! Bookmark not defined.

3.1.2

Chuẩn bị bộ dữ liệu phân cụm .................. Error! Bookmark not defined.

3.2

Các kịch bản chạy thử ...................................... Error! Bookmark not defined.

3.3

Một số kết quả khi chạy chƣơng trình ............. Error! Bookmark not defined.

3.3.1 Kết quả khi chạy các thuật toán phân cụm khác nhau cho cùng một tập dữ
liệu chuyên đề ........................................................ Error! Bookmark not defined.
3.3.2

Kết quả khi chạy nhiều chuyên đề với một thuật toánError!

not defined.

Bookmark


5

3.3.3

Kết quả khi chạy phân cụm đồng thời nhiều thuộc tínhError! Bookmark


not defined.
3.4

Kết luận ............................................................ Error! Bookmark not defined.

KẾT LUẬN ......................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ................................................................................... 11


6

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT
STT

Từ viết tắt/thuật
ngữ

Từ tiếng Anh

Ý nghĩa
Trí tuệ nhân tạo

1

AI

Artifical Intelligence

3


GIS

Geographical

4

NE

Information Hệ thống thông tin địa

System



Neighbourhood Effects

Thuật toán hiệu ứng
vùng lân cận

5

FCM

Fuzzy C-means

Thuật toán phân cụm
mờ

6


FGWC

Fuzzy
Geographically Thuật toán phân cụm
Weight Clustering
dữ liệu theo trọng số
địa lý

7

CFGWC

Context
Geographically
Clustering

Fuzzy Thuật toán phân cụm
Weight địa lý kết hợp ngữ cảnh

8

IPFGWC

Intuitionistic Possiblistic Thuật toán phân cụm
Fuzzy
Geographically địa lý trên tập mờ trực
Weighted Clustering
cảm


9

MIPFGWC

Modification Intuitionistic Thuật toán phân cụm
Possiblistic
Fuzzy địa lý hiệu chỉnh trên
Geographically Weighted tập mờ trực cảm
Clustering

10

KMIPFGWC

11

CSDL

12

UC

Kernel-based Modification Thuật toán phân cụm
Intuitionistic Possiblistic địa lý hiệu chỉnh trên
Fuzzy
Geographically tập mờ trực cảm sử
dụng hàm nhân
Weighted Clustering
Cơ sở dữ liệu
Usecase


Ca sử dụng


7

13

SIM

Spatial Interaction Model

Mô hình

tƣơng tác

không gian
14

SIM2

Spatial
Interaction
Modification Model

- Mô hình tƣơng tác hiệu chỉnh không gian


8


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Ví dụ về dữ liệu thuộc tính ................. Error! Bookmark not defined.
Hình 1.2. Dữ liệu địa lý ...................................... Error! Bookmark not defined.
Hình 2.1. Mô hình ca sử dụng tổng quan của plug-inError!

Bookmark

not

defined.
Hình 2.2. Mô hình usecase chức năng phân cụmError!

Bookmark

not

defined.
Hình 2.3: Biểu đồ lớp của plug-in ...................... Error! Bookmark not defined.
Hình 2.4. Lớp giao diện chính của plug-in ......... Error! Bookmark not defined.
Hình 2.5. Lớp giao diện của chức năng phân cụmError!

Bookmark

not

defined.
Hình 2.6. Lớp giao diện tải chuyên đề ............... Error! Bookmark not defined.
Hình 2.7. Lớp giao diện nhập tham số thuật toánError!

Bookmark


not

defined.
Hình 2.8. Lớp điều khiển tính toán phân cụm .... Error! Bookmark not defined.
Hình 2.9. Lớp điều khiển cập nhật dữ liệu vào bảng thuộc tính ................ Error!
Bookmark not defined.
Hình 2.10. Lớp điều khiển Reset bảng thuộc tínhError!

Bookmark

not

defined.
Hình 3.1. Dữ liệu chuyên đề ở dạng file .csv ..... Error! Bookmark not defined.
Hình 3.2. Dữ liệu chuyên đề ở dạng file .txt ...... Error! Bookmark not defined.
Hình 3.3. Giao diện chƣơng trình khi tải layer và bật plug-inError! Bookmark
not defined.
Hình 3.4. Giao diện in bản đồ ............................ Error! Bookmark not defined.
Hình 3.5. Kết quả khi chạy thuật toán MIPFGWC trên dữ liệu “Tổng mức bán
lẻ hàng hóa và dịch vụ” với số cụm bằng 4. .................. Error! Bookmark not defined.


9

DANH MỤC CÁC BẢNG BIẾU
Bảng 3.1: Kết quả chạy phân cụm với các thuật toán trên dữ liệu “Tổng mức
bán lẻ hàng hóa và dịch vụ”. ......................................... Error! Bookmark not defined.
Bảng 3.2: Thời gian chạy các thuật toán trên các bộ dữ liệu với tham
số


................................................ Error! Bookmark not defined.
Bảng 3.3:Thời gian chạy các thuật toán trên các bộ dữ liệu với tham

số

................................................ Error! Bookmark not defined.
Bảng 3.4:Thời gian chạy các thuật toán trên các bộ dữ liệu với tham

số

................................................ Error! Bookmark not defined.

Bảng 3.5: Kết quả phân cụm thuật toán MIPFGWC chạy trên 3 chuyên đề:
“Tổng mức bán lẻ hàng hóa và dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất
công nghiệp” giai đoạn 2005-2013................................ Error! Bookmark not defined.
Bảng 3.6: Kết quả phân cụm đồng thời nhiều thuộc tính khi thay đổi tỉ lệ giữa
các trọng số .................................................................... Error! Bookmark not defined.


10

MỞ ĐẦU
Hệ thống thông tin địa lý (GIS) là một ứng dụng rất có giá trị và là công cụ trợ
giúp quyết định trong nhiều hoạt động kinh tế - xã hội, quốc phòng của nhiều quốc
gia trên thế giới. Hiện nay, GIS đƣợc phát triển và ứng dụng ngày càng nhiều tại Việt
Nam. Trong sự phát triển của đất nƣớc ta hiện nay, việc tổ chức quản lý thông tin địa
lý một cách tổng thể có có vai trò rất quan trọng trong việc sử dụng có hiệu quả hơn
nguồn tài nguyên của đất nƣớc. GIS giúp các cơ quan chính phủ có cái nhìn khách
quan hơn về hiện trạng các thực thể tự nhiên, kinh tế xã hội thông qua việc xử lý các

dữ liệu không gian và dữ liệu thuộc tính.
Các dữ liệu về kinh tế, xã hội, môi trƣờng… đều gắn với các địa phƣơng, tức là
các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá những dữ liệu này.
Có nhiều phƣơng pháp khai phá dữ liệu, trong đó phân cụm là một phƣơng pháp đƣợc
sử dụng khá nhiều. Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau
nhƣ: dựa trên phân hoạch, phân cấp, dựa trên lƣới, dựa trên mật độ, dựa trên mô hình,
dựa trên đồ thị… Phân cụm dữ liệu địa lý là một hƣớng nghiên cứu nhiều triển vọng.
Đề tài nghiên cứu hƣớng tới các thuật toán phân cụm dữ liệu không gian. Trên
cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng đƣợc vào
chƣơng trình thực hiện thuật toán phân cụm dữ liệu không gian, chúng tôi sẽ thử áp
dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm.
Bố cục của luận văn gồm 3 chƣơng:
Chƣơng 1: Trình bày các khái niệm chung về GIS và dữ liệu địa lý, các thuật
toán sử dụng trong phân cụm dữ liệu địa lý.
Chƣơng 2: Trình bày cách thức xây dựng ứng dụng phân cụm dữ liệu và thể
hiện một số chỉ tiêu kinh tế xã hội của các địa phƣơng ở Việt Nam dựa trên phần mềm
mã nguồn mở MapWindow
Chƣơng 3: Chạy chƣơng trình trên số liệu thực tế thu thập đƣợc với từng thuật
toán, so sánh kết quả từng thuật toán. Đánh giá, phân tích một số kết quả đầu ra của
các thuật toán phân cụm.


11

CHƯƠNG 1:

DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU
ĐỊA LÝ

1.1 GIS và dữ liệu địa lý

1.1.1 GIS
Từ lâu bản đồ luôn là một công cụ thông tin quen thuộc đối với loài ngƣời.
Trong quá trình phát triển kinh tế kĩ thuật, bản đồ luôn đƣợc cải tiến sao cho ngày
càng đầy đủ thông tin và chính xác hơn. Với sự đa dạng của các loại bản đồ trong việc
thể hiện các đối tƣợng khác nhau trên bề mặt trái đất, các nhà quy hoạch nhận thức
đƣợc sự cần thiết trong xử lý đồng thời nhiều hơn một bản đồ. Các mô hình đồ họa cổ
điển xử lý thông tin bản đồ gặp rất nhiều khó khăn trong xử lý đồng thời dữ liệu không
gian và dữ liệu thuộc tính. Điều này đã dẫn đến sự phát triển các phƣơng pháp và kỹ
thuật xử lý tổng hợp thông tin nhằm phục vụ tốt hơn cho công tác quy hoạch và ra
quyết định. [1]
Trong những năm đầu thập kỉ 60 (1963-1964) các nhà khoa học ở Canada đã
cho ra đời hệ thông tin địa lý. Hệ thống thông tin địa lý kế thừa mọi thành tựu trong
ngành bản đồ cả về ý tƣởng lẫn thành tựu của kỹ thuật bản đồ. Hệ thông tin địa lý bắt
đầu hoạt động bằng việc thu thập dữ liệu theo định hƣớng tuỳ thuộc vào mục tiêu đặt
ra.
Cùng với Canada, các trƣờng đại học tại Mỹ cũng tiến hành nghiên cứu và xây
dựng hệ thống thông tin địa lý và càng ngày nhu cầu sử dụng, nghiên cứu hệ thống
thông tin địa lý càng đƣợc quan tâm nhiều hơn.
Hệ thông tin địa lý (Geographical Information System – GIS) là tập hợp các
công cụ để thu thập, lƣu trữ, chỉnh sửa, truy cập, phân tích và cập nhật các thông tin
địa lý cho một mục đích chuyên biệt.
Ngoài ra cũng có nhiều định nghĩa khác về GIS [1]:
GIS là công cụ trên cơ sở nền máy tính để lập bản đồ và phân tích những hiện
tƣợng đang tồn tại và các sự kiện xảy ra trên trái đất (Environmental System Research
Institute ESRI – Mỹ).
GIS là hệ thống phần cứng, phần mềm và các thủ tục đƣợc thiết kế nhằm thu
thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị các dữ liệu quy chiếu không
gian để giải quyết các vấn đề quản lý và lập kế hoạch (National Center for Geography
Information and Analysis NCGIA – Mỹ).



12

TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Nguyễn Hồng Phƣơng, Đinh Văn Ƣu (2006), Hệ thống thông tin địa lý và
một số ứng dụng trong hải dương học. NXB Đại Học Quốc Gia Hà Nội.
2. Phạm Văn Cự, Lƣơng Anh Tuấn, Hoàng Kim Hƣơng (2005), Giáo trình về
hệ thống thông tin địa lý GIS và bản đồ. NXB Đại Học Quốc Gia Hà Nội.
Tiếng Anh
3. Bezdek, J.C., R. Ehrlich, et al (1984), FCM: the fuzzy c-means clustering
algorithm, Computers and Geosciences, 10, pp.191-203
4. G. A.Mason, R. D. Jacobson (2007), Fuzzy Geographically Weighted
Clustering. Proceedings of the 9th International Conference on
GeoComputation, Maynooth, Eire, Ireland, (electronic proceedings on CDROM).
5. Le Hoang Son (2014), Enhancing Clustering Quality of Geo-Demographic
Analysis Using Context Fuzzy Clustering Type-2 and Particle Swarm
Optimization. Applied Soft Computing
6. Le Hoang Son, Bui Cong Cuong, Hoang Viet Long (2013), Spatial
interaction – modification model and applications to geo-demographic
analysis. Knowledge-Based Systems.
7. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Hoang Anh Hung (2011)
Data Mining in GIS: A Novel Context-Based Fuzzy Geographically
Weighted Clustering Algorithm. International Journal of Machine Learning
and Computing.
8. Le Hoang Son, Bui Cong Cuong, Pier Luca Lanzi, Nguyen Tho Thong
(2012), A Novel Intuitionistic Fuzzy Clustering Method for GeoDemographic Analysis. Expert Systems with Applications.
9. R.Zaiane, Dr.Osmar (2001), Principles of knowledge discovery in
databases. University of Alberta.
10. Zadeh, L. A (1965), Fuzzy sets. Information and control, .



13

Internet
11. Tài
liệu
Hƣớng
dẫn
sử
dụng
MapWindow
4.8.6,
/>e_to_mapwindows_4.8.6.pdf
12. />13. (download shapefile bản đồ VN).



×