ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
HÀ THANH VÂN
THÀNH LẬP BẢN ĐỒ THÍCH NGHI CÂY LÚA
SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
TRONG HỆ THỐNG THÔNG TIN ĐỊA LÝ
Chuyên ngành
Mã số
: Bản đồ, Viễn Thám và Hệ Thơng Tin Địa Lý
: 604476
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 06 năm 2012
i
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA –TP.HCM
Cán bộ hướng dẫn khoa học :TS Vũ Xuân Cường ..................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 : TS Lê Cảnh Định............................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2 :TS Lê Minh Vĩnh.............................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 30 tháng 08 năm 2012
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. TS Trần Trọng Đức ..............................
2. TS Lê Trung Chơn ...............................
3. TS Lê Cảnh Định .................................
4. TS Lê Minh Vĩnh ................................
5. TS Vũ Xuân Cường..............................
Xác nhận của Chủ tịch hội đồng đánh giá luận văn và Bộ môn quản lý chuyên ngành sau
khi luận văn đã được sữa chữa (nếu có).
Chủ tịch hội đồng đánh giá LV
Bộ môn quản lý chuyên ngành
TS Trần Trọng Đức
ii
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
NAM Độc lập - Tự do - Hạnh phúc
Tp. HCM, ngày 30 tháng 06 năm 2012
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Hà Thanh Vân.................................................MSHV: 01008737
Ngày, tháng, năm sinh: 01/10/1974 ...........................................Nơi sinh: Tiền Giang
Chuyên ngành: Bản đồ, Viễn Thám & Hệ Thông Tin Địa Lý... Mã số : 604476
TÊN ĐỀ TÀI: THÀNH LẬP BẢN ĐỒ THÍCH NGHI CÂY LÚA SỬ DỤNG KỸ
THUẬT KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG THÔNG TIN ĐỊA LÝ
I. NHIỆM VỤ VÀ NỘI DUNG:
− Tìm hiểu phương pháp đánh giá đất đai, kỹ thuật khai phá dữ liệu, phương
pháp GIS.
− Xây dựng mơ hình tích hợp khai phá dữ liệu trong hệ thống thơng tin địa lý
nhằm đánh giá thích nghi cho cây lúa.
− Ứng dụng mơ hình để thành lập bản đồ thích nghi cây lúa tỉnh Vĩnh Long.
II. NGÀY GIAO NHIỆM VỤ : (02/2012).......................................................................
III. NGÀY HOÀN THÀNH NHIỆM VỤ: (30/06/2012) ...............................................
IV.CÁN BỘ HƯỚNG DẪN : TS Vũ Xuân Cường ..........................................................
Nội dung và đề cương Luận văn thạc sĩ đã được Hội đồng Chuyên ngành thông qua.
CÁN BỘ HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN
QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)
TS. Vũ Xuân Cường
iii
LỜI CẢM ƠN
− Chân thành bày tỏ lòng biết ơn TS. Vũ Xn Cường đã tận tình
hướng dẫn, giúp đỡ tơi hồn thành luận văn thạc sĩ này.
− Chân thành cảm ơn Q Thầy Cơ ngành GIS, Trường Đại Học
Bách Khoa Tp.HCM đã tận tình giảng dạy, hướng dẫn và giúp đỡ
tơi trong học tập và thực hiện đề tài.
− Chân thành cảm ơn Phịng Đào Tạo Sau Đại Học, Khoa Kỹ thuật
Xây dựng‐ Bộ mơn Địa Tin học đã tạo điều kiện tốt cho tơi tronrg
suốt khóa học.
− Chân thành cảm ơn Phân vi n Quy ho ch và Thi t k
Nơng nghi p đã tạo điều kiện về q trình thu thập số liệu và tài
liệu nghiên cứu.
− Chân thành cảm ơn Sở Nông nghiệp và Phát triển Nông thôn tỉnh
Vĩnh long đã tạo điều kiện về quá trình thu thập tài liệu nghiên
cứu.
− Chân thành cảm ơn các đồng nghiệp, các bạn học viên cao học GIS
và Gia đình đã ủng hộ, giúp đỡ tơi trong học tập và thực hiện luận
văn tốt nghiệp.
Hà Thanh Vân
iv
TĨM TẮT
Cây lúa được xem là cây chính yếu trong chiến lược sản xuất nông nghiệp
của tỉnh Vĩnh Long. Để đảm bảo nguồn nguyên liệu cây lúa ổn định và xuất khẩu
hiệu quả thì việc lựa chọn vùng khơng gian thích nghi là điều tất yếu. Có nhiều
phương pháp để giải quyết bài tốn trên trong đó phương pháp áp dụng kỹ thuật
khai phá dữ liệu để phân tích dữ liệu GIS đang được chú trọng nghiên cứu. Đề tài
này đã tích hợp kỹ thuật khai phá dữ liệu trong GIS để thành lập bản đồ thích nghi
cây lúa nhằm hỗ trợ hiệu quả vào công tác quy hoạch vùng sản xuất lúa chất lượng
cao. Đề tài tập trung xây dựng mơ hình dữ liệu huấn luyện trên nền GIS và ứng
dụng mơ hình trên khu vực tỉnh Vĩnh Long, sử dụng kỹ thuật phân loại- là kỹ thuật
thường dùng trong khai phá dữ liệu. Kết quả nghiên cứu là mơ hình tập luật dạng
“if..then” xác định tính thích nghi cây lúa, kết quả này liên kết với GIS để thành lập
bản đồ thích nghi cây lúa.
v
ABSTRACT
Rice is considered the major crops in the agricultural strategy of Vinh Long. To
ensure a stable source of raw rice and export performance, the selection of the
adaptive space is inevitable. There are many methods to solve the problem on which
method to apply data mining techniques to analyze GIS data is being focused
research. This thesis has integrated data mining techniques in GIS for the mapping
of rice adapted to support the effectiveness of regional planning in the work of high
quality rice production. This thesis focused on building data model trained on GIS
and modeling applications, use-classification technique is commonly used
techniques in data mining. Research results are set model rules of the form "if ..
then" identify adaptation rice, results associated with GIS to map the adaptive rice.
vi
BẢNG CHỮ VIẾT TẮT
ĐBSCL
Đồng bằng sông Cửu Long
KPDL
Khai phá dữ liệu
GIS
Hệ thống thơng tin địa lý
CSDL
Cơ sở dữ liệu
S1
Rất thích nghi
S2
Thích nghi trung bình
S3
Ít thích nghi
N
Khơng thích nghi
LUT1
Lúa 3 vụ
LUT2
Lúa 2 vụ
LUT3
Lúa 2 vụ + Màu
LUT4
Lúa 2 vụ + Thủy sản
LUT5
Lúa 1 vụ + Màu
LUTK
Loại hình khác
Data Mining
Khai phá dữ liệu
KDD
Classification
Phát hiện tri thức (Knowledge Discovery)
Tổ chức LHQ về lương thực và nông nghiệp (Food and
Agriculture Organization)
Phân loại, phân lớp
Prediction
Dự báo
Clustering
Phân cụm
Suitability Map
Bản đồ thích nghi
Land
Đất đai
LMU
Đơn vị đất đai (Land Mapping Unit)
LUT
Loại hình sử dụng đất (Land Use Type)
Land Evaluation
Đánh giá thích nghi đất đai
Suitability Map
Bản đồ thích nghi đất đai
LUR
Yêu cầu sử dụng đất (Land Use Requirement)
FAO
vii
DANH SÁCH CÁC HÌNH ẢNH
Hình 2.1
Cấu trúc hệ thống khai phá dữ liệu khơng gian
Hình 2.2
Mơ hình cây quyết định đánh giá kinh tế của một vùng
Hình 2.3
Mơ hình kiến trúc phần mềm khai phá dữ liệu ARES
Hình 2.4
Khai phá dữ liệu trong hệ hỗ trợ ra quyết định rũi ro hạn hán
Hình 2.5
Giao diện chính phần mềm khai phá dữ liệu khơng gian M-SDM
Hình 3.1
Q trình phát hiện tri thức
Hình 3.2
Xử lý phân loại dữ liệu
Hình 3.3
Cây quyết định phân lớp mức độ thích nghi đất đai với cây ăn trái
Hình 3.4
Phân chia theo thuộc tính loại đất
Hình 3.5
Sơ đồ phân chia theo ngưỡng tách
Hình 3.6
Cây phân loại kết quả sử dụng thuật tốn C4.5
Hình3.7
Kỹ thuật holdout -đánh giá độ chính xác phân loại
Hình3.8
Kỹ thuật CV n found -đánh giá độ chính xác phân loại
Hình 3.9
Các thành phần cơ bản của HTTĐL
Hình 3.10
Các bước xây dựng và phát triển mơ hình
Hình 3.11
Giao diện phần mềm Weka
Hình 4.1
Mơ hình tích hợp KPDL & GIS đánh giá thích nghi cây lúa
Hình 4.2
Mơ hình 1 : Chuẩn bị dữ liệu huấn luyện
Hình 4.3
Mơ hình2: Xây dựng cây quyết định
Hình 4.4
Áp dụng cụ thể mơ hình 1 cho địa bàn tỉnh Vĩnh Long
Hình 4.5
Áp dụng cụ thể mơ hình 2 cho địa bàn tỉnh Vĩnh Long
Hình 5.1
Sơ đồ vị trí khu vực nghiên cứu
Hình 5.2
Ranh giới các huyện tỉnh Vĩnh Long
Hình 5.3
Thiết kế mơ hình CSDL đánh giá thích nghi cây lúa ở mức ý niệm
Hình 5.4
Các lớp dữ liệu điều kiện tự nhiên để tạo bản đồ đơn vị đất đai
viii
Hình 5.5
Bản đồ đơn vị đất đai tỉnh Vĩnh Long
Hình 5.6
Hiện trạng sử dụng đất tỉnh Vĩnh Long
Hình 5.7
Cấu trúc bảng thuộc tính lớp kết quả mơ hình 1 và cấu trúc bảng
yeucaulua.dbf
Hình 5.8
Cấu trúc dữ liệu huấn luyện định dạng .CSV (Bộ 12)
Hình 5.9
Hình thể khơng gian dữ liệu huấn luyện và dữ liệu cần giải đốn-Bộ 12
Hình 5.10
Hình thể khơng gian dữ liệu đã giải đốn cho các loại hình cây lúa
Hình 5.11
Hình 5.12
Bản đồ thích nghi cây lúa tỉnh Vĩnh Long-Áp dụng kỹ thuật KPDL &
GIS
Bản đồ thích nghi cây lúa tỉnh Vĩnh Long-Áp dụng kỹ thuật GIS truyền
thống
ix
DANH SÁCH CÁC BẢNG BIỂU
Bảng 3.1
Một số chỉ tiêu định lượng xác định các lớp thích nghi đất đai
Bảng 3.2
Tiêu chí lựa chọn thuật tốn
Bảng 3.3
Tập dữ liệu huấn luyện quyết định phân lớp mức độ thích nghi đất đai
với cây ăn trái
Bảng 3.4
Thuộc tính B/C của Mẫu T
Bảng 3.5
Thuộc tính loại đất của Mẫu T
Bảng 3.6
Thuộc tính B/C của Mẫu TB/C=”Phèn”
Bảng 3.7
Các ngưỡng (Threshold) cho phép tách
Bảng 5.1
Yếu tố sử dụng và tiêu chuẩn phân cấp BĐĐVĐĐ
Bảng 5.2
Hiện trạng các loại hình SDĐ cho cây lúa
Bảng 5.3
Các yêu cầu về ĐKTN & phân cấp thích nghi các loại hình SDĐ cây
lúa
Bảng 5.4
Phân loại khả năng thích nghi cây lúa đối với điều kiện đất đai Vĩnh
Long
Bảng 5.5
Cấu trúc bảng Huyen
Bảng 5.6
Cấu trúc bảng Song
Bảng 5.7
Cấu trúc bảng Dat
Bảng 5.8
Cấu trúc bảng Diahinh
Bảng 5.9 :
Cấu trúc bảng Dosaungap
Bảng 5.10
Cấu trúc bảng Thoigianngap
Bảng 5.11
Cấu trúc bảng Htsdd
Bảng 5.12
Cấu trúc bảng donvidatdai
Bảng 5.13
Cấu trúc bảng thichnghi
Bảng 5.14
Cấu trúc bảng Yeucaucaylua
x
Bảng 5.15
Đặc tính từng loại LMU
Bảng 5.16
Thống kê số vùng con thích nghi/LMU_Thuộc tính thích nghi
Bảng 5.17
Mơ tả kiểu dữ liệu trường thuộc tính tham gia huấn luyện
Bảng 5.18
Tổ hợp các bộ tham gia KPDL
Bảng 5.19
Kết quả thực nghiệm trên dữ liệu bộ 12
Bảng 5.20
Mơ hình dạng luật, thuật tốn Trees.J48 cho bộ dữ liệu 12
Bảng 5.21
Kết quả đánh giá khả năng thích nghi đất đai cho các LUT
Bảng 5.22
Ma trận sai số phân loại kết quả đánh giá thích nghi các LUT
Bảng 5.23
Đề xuất sử dụng đất cho các loại hình trồng lúa
xi
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU ..................................................................................................... 3
1.1 ĐẶT VẤN ĐỀ.............................................................................................................. 3
1.2 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU ............................... 4
1.2.1 Mục tiêu ................................................................................................................ 4
1.2.2 Nội dung ............................................................................................................... 4
1.2.3 Phương pháp nghiên cứu ...................................................................................... 5
1.3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU............................................................. 5
1.4 Ý NGHĨA KHOA HỌC Ý NGHĨA THỰC TIỄN CỦA LUẬN VĂN........................ 5
1.5 CẤU TRÚC CỦA LUẬN VĂN .................................................................................. 6
CHƯƠNG 2. TÌNH HÌNH NGHIÊN CỨU ............................................................................ 7
2.1 TỔNG QUAN TÌNH NGHIÊN CỨU NGỒI NƯỚC ............................................... 7
2.2 TỔNG QUAN TÌNH NGHIÊN CỨU TRONG NƯỚC ............................................ 10
CHƯƠNG 3. CƠ SỞ LÝ THUYẾT...................................................................................... 15
3.1 CƠ SỞ KHOA HỌC XÁC ĐỊNH VÙNG THÍCH NGHI SẢN XUẤT LÚA........... 15
3.1.1 Khái niệm đánh giá thích nghi đất đai ................................................................ 15
3.1.2 Một số thuật ngữ trong đánh giá đất đai ............................................................. 16
3.1.3 Cơ sở phân loại khả năng thích nghi đất đai....................................................... 17
3.2 CƠ SỞ LÝ THUYẾT KHAI PHÁ DỮ LIỆU (DATA MINING) ............................. 18
3.2.1 Tổng quan phát hiện tri thức và khai phá dữ liệu ............................................... 18
3.2.2 Quá trình phát hiện tri thức................................................................................. 18
3.2.3 Chức năng khai phá dữ liệu ................................................................................ 20
3.2.4 Các kỹ thuật khai phá dữ liệu ............................................................................. 21
3.2.5 Kỹ thuật phân loại trong KPDL.......................................................................... 22
3.3 CƠ SỞ LÝ THUYẾT GIS ......................................................................................... 43
3.3.1 Giới thiệu GIS..................................................................................................... 43
3.3.2 Mơ hình và mơ hình hóa trong GIS .................................................................... 44
3.4 GIỚI THIỆU PHẦN MỀM SỬ DỤNG ..................................................................... 46
3.4.1 Giới thiệu phần mềm ArcGIS ............................................................................. 46
3.4.2 Giới thiệu phần mềm WEKA ............................................................................. 48
CHƯƠNG 4. XÂY DỰNG MƠ HÌNH TÍCH HỢP KỸ THUẬT KHAI PHÁ DỮ LIỆU
TRONG GIS 50
4.1 PHÂN TÍCH CÁC PHƯƠNG PHÁP ĐÁNH GIÁ THÍCH NGHI ........................... 50
4.1.1 Phương pháp hạn chế lớn nhất của FAO (1976) ................................................ 50
4.1.2 Phương pháp tốn học ........................................................................................ 50
4.2 PHÂN TÍCH CÁC KỸ THUẬT XỬ LÝ................................................................... 51
4.2.1 Kỹ thuật chồng lớp thuần túy.............................................................................. 51
4.2.2 Kỹ thuật chồng lớp tích hợp hệ quản trị cơ sở dữ liệu quan hệ .......................... 52
4.2.3 Kỹ thuật chồng lớp tích hợp khai phá dữ liệu..................................................... 52
4.3 ĐỀ XUẤT GIẢI PHÁP.............................................................................................. 54
4.3.1 Mơ hình tổng thể................................................................................................. 54
4.3.2 Cụ thể hóa mơ hình KPDL trong GIS trên địa bàn tỉnh Vĩnh Long ................... 59
CHƯƠNG 5. ỨNG DỤNG MƠ HÌNH, XÂY DỰNG BẢN ĐỒ THÍCH NGHI CÂY LÚA
TỈNH VĨNH LONG.................................................................................................................. 62
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
1
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
5.1 ĐẶC ĐIỂM TỈNH VĨNH LONG LIÊN QUAN ĐẾN SỬ DỤNG ĐẤT NÔNG
NGHIỆP................................................................................................................................ 62
5.2 NGUYÊN TẮC, TIÊU CHUẨN PHÂN CẤP CÁC THÀNH PHẦN THAM GIA
XÂY DỰNG BẢN ĐỒ THÍCH NGHI CÂY LÚA.............................................................. 65
5.2.1 Bản đồ đơn vị đất đai .......................................................................................... 65
5.2.2 Hiện trạng sử đất nông nhiệp.............................................................................. 66
5.2.3 Yêu cầu sử dụng đất cho cây lúa ........................................................................ 67
5.2.4 Phân loại khả năng thích nghi............................................................................. 68
5.3 TỔ CHỨC XÂY DỰNG CƠ SỞ DỮ LIỆU PHỤC VỤ XÂY DỰNG BẢN ĐỒ
THÍCH NGHI CÂY LÚA..................................................................................................... 69
5.3.1 Thiết kế mơ hình CSDL ở mức ý niệm............................................................... 69
5.3.2 Mơ hình CSDL ở mức luận lý ............................................................................ 71
5.3.3 Cấu trúc các bảng dữ liệu.................................................................................... 71
5.4 QUÁ TRÌNH XÂY DỰNG BẢN ĐỒ THÍCH NGHI CÂY LÚA ............................ 76
5.4.1 Thực hiện mơ hình 1: Chuẩn bị dữ liệu huấn luyện ........................................... 76
5.4.2 Kết quả mơ hình 1............................................................................................... 78
5.4.3 Thực hiện mơ hình 2: Mơ hình huấn luyện......................................................... 83
5.4.4 Kết quả mơ hình 2............................................................................................... 92
5.5 KẾT QUẢ BÀI TỐN .............................................................................................. 93
5.6 ĐÁNH GIÁ KẾT QUẢ.............................................................................................. 97
5.6.1 Kiểm tra các tập luật ........................................................................................... 97
5.6.2 Đánh giá kết quả giải đoán ................................................................................. 97
5.7 NHẬN XÉT KẾT QUẢ ............................................................................................. 98
5.8 ĐỀ XUẤT SỬ DỤNG ĐẤT ...................................................................................... 99
CHƯƠNG 6. KẾT LUẬN VÀ KIẾN NGHỊ....................................................................... 100
6.1 KẾT LUẬN.............................................................................................................. 100
6.2 KIẾN NGHỊ ............................................................................................................. 100
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
2
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
CHƯƠNG 1.
1.1
GIỚI THIỆU
ĐẶT VẤN ĐỀ
Đồng bằng sơng Cửu Long (ĐBSCL) có diện tích trồng lúa khoảng 3,9 triệu ha,
đóng góp trên 50% sản lượng lúa và trên 90% tổng lượng gạo xuất khẩu của nước ta
(tổng cục thống kê, 2009). Tuy nhiên, “ĐBSCL vẫn là vùng có năng lực cạnh tranh
bình qn thấp, … “ (theo Tiến sĩ Lê Văn Bảnh, Viện trưởng Viện Lúa ĐBSCL) [16].
Có nhiều nguyên nhân khách quan lẫn chủ quan trong đó : sản xuất nơng nghiệp vẫn
cịn sản xuất nhỏ lẻ, manh mún và thiếu tổ chức, dẫn đến sản xuất không đúng chất,
không đủ lượng, không đúng thời điểm và không đạt giá trị cao nhất chưa đủ sức cạnh
tranh trên thị trường quốc tế. Đây là tồn tại lớn trong quá trình xuất khẩu lúa gạo của
ĐBSCL hiện nay. Mặc khác trong hội thảo khoa học “Thực trạng và giải pháp phát
triển nông nghiệp bền vững vùng ĐBSCL” vừa được diễn đàn hợp tác kinh tế ĐBSCL
tổ chức tại TP.HCM 04/2010 đã nêu “Một trong những giải pháp trước tiên là khu vực
này cần có một chính sách quy hoạch tổng thể ĐBSCL”[16]. Như vậy giải pháp cơ bản
là tổ chức lại sản xuất lúa gạo theo hướng hình thành vùng sản xuất có quy mơ lớn,
khép kín từ sản xuất đến chế biến gắn với thị trường tiêu thụ.
Vậy, vấn đề làm sao để các nhà quản lý, nhà doanh nghiệp, nhà khoa học “thấy”
được sự phân bố không gian của vùng nguyên liệu lúa, các giống lúa chất lượng cao
được phân bố ở đâu, năng suất dự kiến của mỗi giống lúa trên từng vùng như thế
nào?...từ đó mới có những chiến lược, kế hoạch, chỉ đạo sản xuất hay quyết định đầu tư
thích hợp … Đối với những yêu cầu này GIS chứng tỏ là cơng cụ thích hợp nhờ vào
khả năng biểu diễn sự phân bố không gian trực quan, sinh động, khả năng phân tích
khơng gian nhanh chóng, chính xác …mà khó có cơng cụ nào so sánh được.
Mặt khác, tiến trình trong thu thập dữ liệu số và cơng nghệ lưu trữ nói chung,
cơng nghệ GIS nói riêng đã dẫn đến sự tích lũy đồ sộ của khối lượng cơ sở dữ liệu
(CSDL). Điều này đã xuất hiện trong tất cả lĩnh vực đời sống con người nhất là lĩnh
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
3
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
vực nông nghiệp. Cùng với sự tích lũy nhiều lên của dữ liệu là sự ngày một nhiều lên
của mối quan tâm đến khả năng rút trích từ CSDL các thơng tin giá trị, mà trong môi
trường cạnh tranh hiện nay, người ta ngày càng cần có nhiều thơng tin có giá trị với tốc
độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất
định tính cần phải trả lời…để đáp ứng nhu cầu đó, một khuynh hướng kỹ thuật mới đó
là kỹ thuật khai phá dữ liệu và phát hiện tri thức (Data Mining and KDD - Knowledge
Discovery) đang được chú ý. Khai phá dữ liệu (Data Mining) được định nghĩa là: q
trình trích xuất các thơng tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ
trong các CSDL, kho dữ liệu… Kỹ thuật khai phá dữ liệu và phát hiện tri thức đã và
đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế
giới, tại Việt Nam kỹ thuật cũng đang được nghiên cứu và đưa vào ứng dụng.
Từ các vấn đề trên, đề tài “Thành Lập Bản Đồ Thích Nghi Cây Lúa Sử Dụng
Kỹ Thuật Khai Phá Dữ Liệu Trong Hệ Thống Thông Tin ĐỊa Lý” được thực hiện
nhằm khai thác các lợi thế của 2 kỹ thuật trên để thành lập bản đồ thích nghi cho cây
lúa, hỗ trợ hiệu quả vào công tác quy hoạch vùng sản xuất lúa chất lượng cao, đồng
thời góp phần nghiên cứu bổ sung vào hướng phát triển GIS tích hợp với mơ hình suy
luận, một xu thế mới, hướng đến phát triển GIS thông minh (Interligent GIS).
1.2
MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
1.2.1 Mục tiêu
Ứng dụng kỹ thuật chồng lớp truyền thống trong GIS có tích hợp kỹ thuật khai
phá dữ liệu: phân loại để đánh giá thích nghi cây lúa đối với đất đai nhằm hỗ trợ công
tác quy hoạch vùng sản xuất lúa chất lượng cao.
1.2.2 Nội dung
− Tìm hiểu phương pháp đánh giá đất đai.
− Tìm hiểu kỹ thuật khai phá dữ liệu: Kỹ thuật phân loại
− Tìm hiểu công nghệ GIS : Kỹ thuật chồng lớp.
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
4
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
− Xây dựng mơ hình tích hợp Khai phá dữ liệu trong GIS
− Ứng dụng mơ hình để thành lập bản đồ thích nghi cây lúa tỉnh Vĩnh Long.
1.2.3 Phương pháp nghiên cứu
− Nghiên cứu theo tài liệu : Kế thừa khung đánh giá đất đai của FAO (1993) có
điều chỉnh, tìm hiểu các chính sách nơng nghiệp của địa phương, kế thừa các kết
quả của các nghiên cứu đề tài trước đó.
− Phương pháp chọn lọc số liệu : Kế thừa có chọn lọc số liệu, dữ liệu sẵn có như
dữ liệu khơng gian, thuộc tính của tỉnh Vĩnh Long về các điều kiện tự nhiên,
hiện trạng sử dụng đất, các yếu tố thích nghi của giống lúa cao sản.
− Phương pháp chuyên gia: Tham khảo ý kiến của các chuyên gia về yêu cầu sử
dụng đất của cây lúa.
− Phương pháp công nghệ GIS: Sử dụng phương pháp chồng lớp xây dựng các
bản đồ đơn vị đất đai, bản đồ đánh giá thích nghi.
− Phương pháp kỹ thuật khai phá dữ liệu : sử dụng kỹ thuật của khai phá dữ liệu:
kỹ thuật phân loại để xây dựng mơ hình cây quyết định đánh giá thích nghi cây
lúa.
1.3
ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
− Dữ liệu chạy thử nghiệm mơ hình trên địa bàn tỉnh Vĩnh Long, chỉ tiến hành
đánh giá thích nghi điều kiện tự nhiên, phù hợp với hiện trạng sử dụng đất,
khơng đánh giá thích nghi kinh tế-xã hội.
1.4
Ý NGHĨA KHOA HỌC Ý NGHĨA THỰC TIỄN CỦA LUẬN VĂN
− Đề tài góp phần nghiên cứu ứng dụng GIS theo hướng tiếp cận: tích hợp kỹ khai
phá dữ liệu trong GIS.
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
5
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
− Kết quả nghiên cứu tạo tiền đề cho công tác quy hoạch trồng lúa chất lượng cao,
đồng thời giúp các nhà quản lý có những quyết định nhanh chóng và hiệu quả về
cách chọn giống cây trồng phù hợp với điều kiện tự nhiên, kinh tế của vùng.
1.5
CẤU TRÚC CỦA LUẬN VĂN
− Chương 1 : Giới thiệu.
− Chương 2 : Tình hình nghiên cứu.
− Chương 3 : Cơ sở lý thuyết.
− Chương 4 : Xây dựng mơ hình tích hợp KPDL trong GIS
− Chương 5 : Ứng dụng mơ hình tích hợp KDDL trong GIS để xây dựng bản đồ
thích nghi cây lúa tỉnh Vĩnh Long.
− Chương
6
:
Kết
luận,
kiến
nghị.
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
6
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
CHƯƠNG 2.
2.1
TÌNH HÌNH NGHIÊN CỨU
TỔNG QUAN TÌNH NGHIÊN CỨU NGỒI NƯỚC
“Research On Spatial Data Mining Technique Applied In Land Use Dynamic
Monitoring” Zhong yong, Zhang jixian, Yan qin, Chinese Academy of Surveying and
Mapping. Nghiên cứu này đã áp dụng kỹ thuật khai phá dữ liệu không gian giám sát
biến động sử dụng đất đai và đã đưa ra mơ hình cấu trúc khai phá dữ liệu khơng gian
hình 2.1 [1]
Hình 2.1 Cấu trúc hệ thống khai phá dữ liệu không gian
“Spatial and Temporal Data Mining in Census of Population and Housing”
Chin Jui Chang. Nghiên cứu này mơ tả q trình ứng dụng khai phá dữ liệu khơng gian
và thời gian vào bài tốn quản lý dân cư, sử dụng phương pháp phân loại
(classification) cho kết quả mơ hình cây quyết định như hình 2.2. [2]
“Mining Census And Geographic Data In Urban Planning Environments”
Donato Malerba. Nghiên cứu đã sử dụng phần mềm SPADA (Spatial Pattern
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
7
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
Discovery Algorithm) là thành phần của ARES (Association Rules Extractor from
Spatial data), lưu trữ dữ liệu trên nền hệ quản trị cơ sở dữ liệu không gian Oracle và đã
thử nghiệm dữ liệu ở UK, STOCKPORT district, cho 22 Ward, 589 EDs (Enumeration
districts) bao gồm 89 Table, 120 Attributes trung bình/1Table, áp dụng kỹ thuật luật
kết hợp khơng gian (Spatial Association rule). Hình 2.3 là mơ hình kiến trúc của phần
mềm ARES. [3]
Population of City
Low
High
Type of neighbor of city
amount of taxes of city
Low
High
economic power
of city = high(0.8)
City
Airport
neighbor of neighbor
of city
City
Airport
economic power of city
= high (0.9)
Hình 2.2 Mơ hình cây quyết định đánh giá kinh tế của một vùng
Hình 2.3 Mơ hình kiến trúc phần mềm khai phá dữ liệu ARES
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
8
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
“Data Mining in a Geospatial Decision Support System for Drought Risk
Management”, Sherri K. Harms. Nghiên cứu đã tích hợp kỹ thuật khai phá dữ liệu với
kỹ thuật GDSS (Geospatial Decision Support System) vào bài toán quản lý rủi ro hạn
hán. Nghiên cứu đã sử dụng kỹ thuật khai phá dữ liệu vào cơ sở dữ liệu khơng gian,
thời gian của GIS hình 2.4. [4]
Hình 2.4 Khai phá dữ liệu trong hệ hỗ trợ ra quyết định rũi ro hạn hán
“Design and Implementation of Spatial Data Mining System (M-SDM) based
on MATLAB” Zhao Lu, October 2008. Nghiên cứu đã thiết kế phần mềm khai phá dữ
liệu khơng gian dựa trên nền MATLAB. Hình 2.5. [15]
“Spatial Data Preparation for Knowledge Discovery”-Vania Bogorny1, đề xuất
quy trình chuẩn bị dữ liệu địa lý cho quá trình khai phá dữ liệu để rút trích thơng tin
tìm ẩn và đề xuất mơ hình hệ thống xử lý dữ liệu. [29]
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
9
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
Cây quyết
định trong
Hình 2.5 Giao diện chính phần mềm khai phá dữ liệu khơng gian M-SDM
2.2
TỔNG QUAN TÌNH NGHIÊN CỨU TRONG NƯỚC
“Đánh giá biến động thích nghi đất nơng nghiệp lưu vực Sơng Bé”- của PGS,
TS. Lê Văn Trung, ThS. Nguyễn Trường Ngân, Bộ môn Địa Tin học - Khoa Kỹ thuật
Xây dựng - Trường ĐH Bách Khoa TP.HCM được đăng trên đặc san Viễn Thám –Tin
Học, số 06/06/2009 có đề cập tới ứng dụng phần mềm ALES (Automated Land
Evaluation System) kết hợp với GIS để xây dựng mơ hình đánh giá biến động thích
nghi đất nơng nghiệp theo phương pháp đánh giá đất đai của FAO, lấy địa bàn nghiên
cứu là lưu vực sông Bé. [5].
Dựa trên cơ sở các kết quả đánh giá đất đai ở địa bàn lưu vực sông Bé, thơng
qua kết quả xây dựng mơ hình biến đổi thủy văn, thủy lực từ các phần mềm
Hec-HMS, Hec-RAS để tiến hành dự báo các thay đổi về điều kiện tưới, chế độ ngập
trên lưu vực khi hệ thống các hồ đập thủy điện, thủy lợi được đưa vào vận hành. Từ đó,
tác giả tiến hành xây dựng lại bản đồ thích nghi đất nơng nghiệp cho tương lai, so sánh
với kết quả đánh giá bản đồ thích nghi trước đây, từ đó đề xuất các hướng khai thác sử
dụng đất thích hợp hơn cho địa phương trong tương lai.
“Ứng dụng GIS để đánh giá sự thích hợp đất đa tiêu chí cho cây trồng trường
hợp nghiên cứu ở xã Hương Bình, Thừa Thiên Huế” của Huỳnh Văn Chương Trường
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
10
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
Đại học Nông Lâm, Đại học Huế được đăng trên tạp chí khoa học, Đại học Huế, Số 50,
2009 lại nghiên cứu tìm kiếm một tiếp cận mới trong quá trình đánh giá sự thích hợp
đất bằng việc kết hợp nguồn thơng tin hai chiều từ trên xuống “top-down” và dưới lên
“bottomup”. [6]. Đánh giá sự thích hợp đất cho cây trồng nơng nghiệp được tiến hành
theo hai giai đoạn gồm: Đánh giá sự thích hợp của điều kiện mơi trường tự nhiên, tiếp
đến là đánh giá sự thích hợp cả tự nhiên, kinh tế và xã hội và được gọi là tiếp cận đánh
giá đa tiêu chí. Cơng cụ GIS được sử dụng là phần mềm MapInfo kết hợp với phần
mềm có sử dụng mơ hình AHP.
=>Điểm đặc biệt trong bài này tác giả đã kết hợp kỹ thuật hệ thống thông tin địa
lý (GIS) với các phần mềm hỗ trợ trong phân tích thứ bậc tiêu chí (AHP). Với kết quả
nghiên cứu là : Xác định 3 tiêu chí chính với các trọng số : Điều kiện kinh tế-cơ sở hạ
tầng (0.589) , điều kiện môi trường tự nhiên (0.252), yếu tố bền vững xã hội (0.159)
“ Nghiên cứu phát triển công cụ đánh giá tài nguyên đất hỗ trợ ra quyết định về
quy hoạch sử dụng đất”, Tạ Thị Hoàng Mai, Luận văn thạc sỹ, 2008, đánh giá tài
nguyên đất theo hướng tiếp cận ứng dụng kỹ thuật chồng lớp có tích hợp mơ hình suy
luận sử dụng kỹ thuật tri thức logic mờ (Fuzzy loggic) để xác định giá trị mức độ thích
hợp với tập luật được cho trước bởi các chuyên gia : tập luật mờ đánh giá mức độ thích
hợp để xây dựng cơng trình trọng tải lớn, tập luật mờ đánh giá mức độ thích hợp để
xây dựng cơ sở hạ tầng, tập luật mờ đánh giá mức độ thích hợp để xây dựng khu dân
cư. Công cụ được xây dựng trên phần mềm Acrview, các giải thuật được mã hóa bằng
ngơn ngữ Avenue được tích hợp trong phần mềm ArcView. [7]
“Nghiên cứu mơ hình phân tích GIS để xây dựng bản đồ thích nghi lúa chất
lượng cao trên địa bàn tỉnh Vĩnh Long”, Huỳnh Thị Hà Thủy, Luận văn Thạc sỹ 2004,
đề tài đã xây dựng bản đồ thích nghi lúa chất lượng cao của một giống lúa, sử dụng
phần mềm ArcView với kỹ thuật chồng lớp để giải quyết bài tốn. [8]
“ Mơ hình ứng dụng GIS đánh giá khả năng thích nghi của đất đai phục vụ sản
xuất nông nghiệp”, Trần Thị Thu Dung, Luận văn Thạc sỹ 2005, đánh giá khả năng
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
11
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
thích nghi của đất đai phục vụ sản xuất nông nghiệp sử dụng phương pháp đánh giá đất
đai của FAO, dùng phần mềm AcrView phương pháp chồng lớp, ngôn ngữ Avenue. [9]
“Ứng dụng GIS trong quản lý canh tác lúa và cảnh báo sớm tình hình rầy nâu
trên lúa”, Trương Chí Quang, Luận văn Thạc sỹ 2009, nghiên cứu xây dựng ứng dụng
GIS trên nền ngơn ngữ lập trình Visual Studio.NET 2008 và thư viện mã nguồn mở
SharpMap, dữ liệu được lưu trong cơ sở dữ liệu không gian SQL Server 2008, áp dụng
phương trình hồi quy tuyến tính để xây dựng bản đồ cảnh báo diện tích nhiễm rầy. [10]
“Ứng dụng khai phá dữ liệu để tìm hiểu thơng tin khách hàng”, Hồng Kiếm,
Lê Bá Phương, 2003, dùng kỹ thuật gom nhóm K-mean để phân loại khách hàng dựa
trên việc sử dụng điện thoại của khách hàng, Phân lớp dựa trên cây quyết định và luật
kết hợp đa chiều (Multidimention Association rule) để tìm hiểu việc sử dụng các dịch
vụ VoIP và Internet. Kết quả được ứng dụng cho việc quản lý khách hàng, cung cấp
các dịch vụ phục vụ khách hàng, phục vụ kinh doanh, tiếp thị. [11]
“Nghiên cứu tính ứng dụng của khai thác luật kết hợp trong cơ sở dữ liệu giao
dịch” Trương Ngọc Châu, Phan Văn Dũng, Trường Đại Học Bách Khoa, Đại Học Đà
Nẵng, các tác giả đưa ra giải pháp từ việc thu gom dữ liệu trên các phiên giao dịch, trên
thương trường… rồi tiến hành khai thác chúng để chiết xuất ra các tri thức cần thiết.
Các tri thức này lại tối ưu hóa và đem vào sử dụng hiệu quả trên các phiên giao dịch
tiếp theo. Nghiên cứu này đưa ra một cách nhìn tổng quan về quy trình khai phá dữ liệu
từ các nguồn dữ liệu khác nhau đến việc ứng dụng các tri thức đã chiết xuất vào thực tế
cuộc sống. [12]
“Áp dụng kỹ thuật khai phá dữ liệu trên dữ liệu bán hàng để hỗ trợ việc đặt
hàng tại siêu thị”, Cao Tấn thiết, Luận văn thạc sỹ, 2007 dùng phương pháo dự báo và
phân loại (Prediction and classification) hay [14] “Khai phá dữ liệu trong kinh doanh”,
Ngô Nhất Linh, Luận văn thạc sỹ, 2008 dùng kỹ thuật phân cụm (Clustering): Phân
cụm phân cấp, sử dụng phân tích khái niệm hình thức (FCA) để rút trích luật phụ thuộc
trong kinh doanh. [13]
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
12
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
“Tích hợp mờ GIS và kỹ thuật tối ưu hóa đa mục tiêu mờ để hỗ trợ quy hoạch
sử dụng đất nông nghiệp”- Lê Cảnh Định, luận văn tiến sỹ, 2011. Mục tiêu là xây dựng
mơ hình tích hợp GIS và kỹ thuật tối ưu hoá đa mục tiêu mờ để hỗ trợ quy hoạch sử
dụng đất nông nghiệp. [23]
“ Tổng hợp phần mềm Ales và GIS trong đánh giá thích nghi đất đai”, Lê Cảnh
Định, luận văn thạc sỹ, 2008. Đánh giá đất đai sử dụng cây quyết định - phần mềm
Ales và GIS. [24]
“Giám sát biến động rừng ngập mặn sử dụng kỹ thuật viễn thám và Gis” Trần
Trọng Đức, Bộ môn Địa tin học, Khoa Kỹ thuật Xây dựng, Đại học Bách khoa, Tp. Hồ
Chí Minh, Việt Nam. Nghiên cứu này đã sử dụng phương pháp phân loại có giám sát :
thuật toán xác suất cực đại, xử lý trên bộ dữ liệu raster, kết hợp kỹ thuật chồng lớp
trong GIS, xử lý trên bộ dữ liệu vector [38].
=>Nhận xét các hướng nghiên cứu đề tài trong nước như sau:
Như phần 3.2 sẽ trình bày, KPDL là một lĩnh vực liên quan tới rất nhiều ngành
học khác như: hệ CSDL, thống kê,... hơn nữa, tùy vào cách tiếp cận được sử dụng,
KPDL cịn có thể áp dụng một số kĩ thuật như mạng nơ ron, lí thuyết tập thơ hoặc tập
mờ, biểu diễn tri thức… cho nên, khai phá dữ liệu thực ra là dựa trên các phương pháp
cơ bản đã biết.
Như vậy các nghiên cứu [5], [7], [23], [24]… có thể được xem là các nghiên
cứu theo hướng tiếp cận tích hợp KDDL trong GIS, xử lý dữ liệu vector khác với
nghiên cứu [38] cũng được xem là nghiên cứu theo hướng tiếp cận tích hợp KDDL
trong GIS-xử lý dữ liệu raster. Thật ra, tất các nghiên cứu ứng dụng có sử dụng kỹ
thuật giải đốn ảnh trong viễn thám cũng đều được xem là nghiên cứu theo hướng khai
phá dữ liệu trên nền cấu trúc dữ liệu raster, vì hầu hết trong giải đốn ảnh viễn thám có
hai kiểu phân loại chính: phân loại có giám sát -Supervised Classification với nhiều
thuật toán bao gồm: Parallelepiped, Minimum Distance, Mahalanobis Distance,
Maximum Likelihood, Spectral Angle Mapper, Binary Encoding và Neural Net và
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
13
Luận văn cao học
GVHD: TS. Vũ Xuân Cường
----------------------------------------------------------------------------------------------------------------------------------------
phân loại không giám sát -Unsupervised Classification có các thuật tốn thường sử
dụng : Isodata và KMeans. Phân loại có giám sát phải chọn mẫu “học” trước, phân loại
không giám sát không cần chọn mẫu “học” trước.
Nhìn chung, theo hướng KPDL “riêng biệt”, thì hầu hết các nghiên cứu đều áp
dụng trong lĩnh vực kinh doanh chẳng hạn như [11],[12],[14].., theo hướng GIS truyền
thống, thì có rất nhiều nghiên cứu, được ứng dụng trong hầu hết các lĩnh vực, trong đó
đánh giá thích nghi đất đai, phục vụ công tác quy hoạch sử dụng đất thì rất phổ biến
chẳng hạn như [8],[9]…theo hướng tích hợp KPDL trong GIS có vài ứng dụng như :
tích hợp kỹ thuật GIS với một số kỹ thuật như mạng nơ ron, logic mờ, hay phân loại
bằng cây quyết định trong đánh giá thích nghi đất đai chẳng hạn như nghiên cứu [23],
[24] , hay như trong tính tốn mơ hình động thủy lực…hầu như ít có nghiên cứu tích
hợp KPDL trong GIS cho lĩnh vực nơng nghiệp cụ thể là cây lúa- xử lý dữ liệu vector.
Tuy nhiên cùng một hướng tiếp cận kỹ thuật KPDL nhưng lại có nhiều phương
pháp trong đó lại có vơ số giải thuật và thuật tốn, ví dụ kỹ thuật phân loại có rất nhiều
phương pháp như: phân loại bằng cây quyết định, phân loại Bayesian…trong phân loại
bằng cây quyết có rất nhiều thuật toán như : ID3, J48, CLS, ID3, C4.5, SLIQ,
SPRINT, EC4.5, C5.0…. cho nên việc lựa chọn phương pháp nào, chọn giải thuật,
thuật toán nào là tối ưu lại phụ thuộc rất nhiều vào bộ dữ liệu nghiên cứu của từng lĩụh
vực ứng dụng cụ thể.
Trên cơ sở các nghiên cứu trên, đề tài sẽ tiếp tục nghiên cứu theo hướng tích
hợp kỹ thuật khai phá dữ liệu trong GIS cho cây lúa tỉnh Vĩnh Long, ứng dụng kỹ thuật
phân loại và chồng lớp để xây dựng bản đồ thích nghi cây lúa phục vụ cơng tác quy
hoạch vùng sản xuất lúa chất lượng cao đạt hiệu quả nhanh chóng.
---------------------------------------------------------------------------------------------------------------------------------HVTH: Hà Thanh Vân
14