Tải bản đầy đủ (.pdf) (71 trang)

ĐÁNH GIÁ NHU CẦU KHAI THÁC THÔNG TIN KHOA HỌC CÔNG NGHỆ HỖ TRỢ ĐỊNH HƯỚNG SẢN XUẤT TRÊN LĨNH VỰC NÔNG NGHIỆP Xem nội dung đầy đủ tại: https://123doc.net/document/6632177-luan-van-bui-xuan-phong.htm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.2 MB, 71 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
***

BÙI XUÂN PHONG

ĐÁNH GIÁ NHU CẦU KHAI THÁC THÔNG TIN
KHOA HỌC CÔNG NGHỆ HỖ TRỢ ĐỊNH HƯỚNG
SẢN XUẤT TRÊN LĨNH VỰC NÔNG NGHIỆP

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Đồng Nai, Năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
***

BÙI XUÂN PHONG

ĐÁNH GIÁ NHU CẦU KHAI THÁC THÔNG TIN
KHOA HỌC CÔNG NGHỆ HỖ TRỢ ĐỊNH HƯỚNG
SẢN XUẤT TRÊN LĨNH VỰC NÔNG NGHIỆP

Chuyên ngành: Công nghệ thông tin
Mã số: 8480201

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. ĐỖ PHÚC


Đồng Nai, Năm 2018


LỜI CÁM ƠN
-----o0o----Mặc dù đã hết sức nỗ lực, song do thời gian và kinh nghiệm nghiên cứu
khoa học còn hạn chế nên không thể tránh khỏi những thiếu sót.
Qua luận văn này em xin chân thành cảm ơn PGS .TS Đỗ Phúc – Trường
Đại học Công nghệ thông tin TPHCM đã tận tình giúp đỡ, động viên, định
hướng, hướng dẫn em nghiên cứu và hoàn thành luận văn này.
Em xin cảm ơn các thầy cô giáo trong Khoa Sau đại học, Khoa Công nghệ
thông tin trường Đại học Lạc Hồng, đã giảng dạy và giúp đỡ em trong năm học
qua, cảm ơn sự giúp đỡ nhiệt tình của các bạn đồng nghiệp trong cơ quan, các
bạn học trong lớp cao học khóa 8 đã tạo điều kiện, giúp đỡ tôi trong suốt thời
gian qua.
Rất mong nhận được sự góp ý của tất cả các thầy cô, bạn bè đồng nghiệp
để luận văn có thể phát triển và hoàn thiện hơn.
Đồng Nai, ngày tháng năm 2018
Người viết luận văn

Bùi Xuân Phong


LỜI CAM ĐOAN
-----o0o----Tôi xin cam đoan:
- Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn
trực tiếp của PGS.TS Đỗ Phúc.
- Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và
trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố.
- Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin
chịu hoàn toàn trách nhiệm.

NGƯỜI CAM ĐOAN

Bùi Xuân Phong


MỤC LỤC
Chương 1 ............................................................................................................... 1
TỔNG QUAN ....................................................................................................... 1
1.1 ĐẶT VẤN ĐỀ ............................................................................................. 1
1.2 LÝ DO CHỌN ĐỀ TÀI ............................................................................... 2
1.3 MỤC TIÊU CỦA ĐỀ TÀI ........................................................................... 4
1.4 PHẠM VI VÀ ĐỐI TƯỢNG NGHIÊN CỨU ............................................ 5
1.5 NỘI DUNG THỰC HIỆN ........................................................................... 5
1.6 PHƯƠNG PHÁP THỰC HIỆN................................................................... 5
1.7 BỐ CỤC LUẬN VĂN ................................................................................. 6
Chương 2 ............................................................................................................... 7
CƠ SỞ LÝ THUYẾT ............................................................................................ 7
2.1 TỔNG QUAN VỀ KỸ THUẬT KHAI PHÁ DỮ LIỆU (DATA MINING)
............................................................................................................................ 7
2.1.1 Khái niệm về Khai phá dữ liệu (KPDL) ............................................... 7
2.1.2 Các giai đoạn của quá trình KPDL ....................................................... 8
2.2 TỔNG QUAN LÝ THUYẾT NGHIÊN CỨU CỦA LUẬN VĂN ........... 10
2.2.1 Giới thiệu chung về mô hình cung cấp thông tin KH&CN ................ 11
2.2.2 Giới thiệu Cơ sở dữ liệu thông tin KH&CN ....................................... 12
2.2.3 Giới thiệu về Hệ thống mạng lưới cung cấp thông tin KH&CN ........ 16
2.3 GIỚI THIỆU BÀI TOÀN PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU ....... 17
2.4 LỰA CHỌN MIỀN ỨNG DỤNG ............................................................ 18
2.5 PHƯƠNG PHÁP VÀ CÔNG CỤ ............................................................ 19
2.5.1 Lựa chọn phương pháp ........................................................................ 19
2.5.2 Lựa chọn công cụ ................................................................................ 19

2.6 CÁC KHÁI NIỆM SỬ DỤNG TRONG NGHIÊN CỨU ......................... 20
2.6.1 Áp dụng thông tin KH&CN trong hoạt động sản xuất ....................... 20
2.6.2 Mức độ áp dụng và sử dụng thông tin KH&CN trong sản xuất ......... 21
2.7 CÁC YẾU TỐ ĐƯỢC CHỌN TRONG NGHIÊN CỨU .......................... 21
2.7.1 Thông tin cung cấp về “Kỹ thuật” trong sản xuất: ............................ 21
2.7.2 Thông tin cung cấp về “Phân bón” trong sản xuất:............................ 21
2.7.3 Thông tin cung cấp về “công nghệ” trong sản xuất: .......................... 22
2.7.4 Thông tin cung cấp về “Dịch bệnh” trong sản xuất ........................... 22
2.7.5 Thông tin cung cấp về “Giống” trong sản xuất .................................. 22


2.7.6 Thông tin cung cấp về “Áp dụng” trong sản xuất: .............................. 22
2.7.7 Thông tin khác: gồm các thông tin cố định là “Diện tích”, “Năng suất”
và Thông tin về “Sản lượng” là những thông tin khẳng định. .................... 22
2.8 Ứng dụng mô hình hồi quy tuyến tính vào phân tích dữ liệu ................ 22
Chương 3 ............................................................................................................. 27
PHÂN TÍCH VÀ ĐÁNH GIÁ ............................................................................ 27
3.1 PHÁT BIỂU BÀI TOÁN THỰC TẾ ....................................................... 27
3.2 TIẾN HÀNH XÂY DỰNG MÔ HÌNH ..................................................... 27
3.2.1 Thu thập dữ liệu .................................................................................. 27
3.2.2 Tiền xử lý dữ liệu ................................................................................ 29
3.3 KHẢO SÁT VÀ ĐÁNH GIÁ DỮ LIỆU ................................................... 30
3.4 NHỮNG YẾU TỐ THÔNG TIN NÀO ẢNH HƯỞNG ĐẾN “SẢN
LƯỢNG CÂY TRỒNG HÀNG NĂM CỦA CÁC VÙNG TRÊN ĐỊA BÀN
TỈNH ĐỒNG NAI. .......................................................................................... 35
Chương 4 ............................................................................................................. 40
TỔNG KẾT ......................................................................................................... 40
4.1 KẾT LUẬN............................................................................................... 40
4.2 HẠN CHẾ CỦA LUẬN VĂN ................................................................. 40
4.3 HƯỚNG PHÁT TRIỂN ........................................................................... 41

TÀI LIỆU THAM KHẢO
PHỤ LỤC 1
PHỤ LỤC 2
PHỤ LỤC 3


DANH MỤC HÌNH

Hình 2.1: Các lĩnh vực khai thác dữ liệu liên quan đến khai phá dữ liệu ............. 8
Hình 2.2: Các bước thực hiện trong quá trình khai phá tri thức ......................... 10
Hình 2.3: Mô hình tổ chức và khai thác tin và cung cấp tại 144 Điểm .............. 15
Hình 2.4: Các bước của quá trình phân tích dữ liệu ........................................... 17
Hình 3.1: Quá trình tiền xử lý dữ liệu ................................................................. 29
Hình 3.2: Mô hình nghiên cứu chính thức .......................................................... 34
Hình 3.3: Mô hình hồi quy tuyến tính ................................................................. 38


DANH MỤC CÁC BẢNG

Bảng 2.1: Cung cấp thông tinh KH&CN trên địa bàn tỉnh Đồng Nai ................ 11
Bảng 2.2: Số liệu theo dõi dữ liệu cung cấp thông tin ........................................ 25
Bảng 2.3: Số liệu bảng hồi quy ........................................................................... 26
Bảng 3.1: Danh sách thuộc tính của tập dữ liệu thu thập.................................... 28
Bảng 3.2: Danh sách các thuộc tính đã tiền xử lý ............................................... 29
Bảng 3.3: Phân tích thống kê biến tổng “Thông tin kỹ thuật” ............................ 30
Bảng 3.4: Phân tích thống kê biến tổng “Thông tin phân bón” .......................... 30
Bảng 3.5: Phân tích thống kê biến tổng “Thông tin công nghệ” ........................ 31
Bảng 3.6: Phân tích thống kê biến tổng “Thông tin dịch bệnh” ......................... 31
Bảng 3.7: Phân tích thống kê biến tổng “Thông tin giống” ................................ 31
Bảng 3.8: Phân tích thống kê biến tổng “Thông tin áp dụng” ............................ 32

Bảng 3.9: Hệ số Cronbach’s Alpha các thang đo ............................................... 32
Bảng 3.10: Phân tích thống kê biến tổng ............................................................ 33
Bảng 3.11: Hệ số Cronbach’s Alpha các nhân tố ............................................... 34
Bảng 3.12: Mức độ giải thích của mô hình ......................................................... 36
Bảng 3.13: Kết quả phân tích hồi quy tuyến tính bội ......................................... 36
Bảng 3.14: Phân tích phương sai ........................................................................ 37
Bảng 3.15: Thông tin dự đoán và phần dư .......................................................... 37


1

Chương 1
TỔNG QUAN
1.1 ĐẶT VẤN ĐỀ
Phát triển Khoa học và công nghệ (KH&CN) cùng với giáo dục đào tạo là
quốc sách hàng đầu của đất nước ta được quy định tại Hiến pháp năm 2013.
Trong những năm gần đây chính phủ nước ta đặc biệt quan tâm và đầu tư nhiều
cho 02 lĩnh vực này thông qua các chính sách, nguồn vốn, các chương trình
trọng điểm và các công trình nghiên cứu khoa học, đặc biệt là trong lĩnh vực
KH&CN phục vụ nông nghiệp;
Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin có thể nói
là được áp dụng cho hầu hết tất cả mọi lĩnh vực của đời sống xã hội. Từ đó tạo
ra một lượng dữ liệu lớn và không ngừng tăng lên cả về số lượng lẫn chất lượng,
đây chính là điều kiện tốt cho việc khai thác kho dữ liệu này để đem lại tri thức
có ích. Các hệ quản trị cơ sở dữ liệu truyền thống cũng chỉ khai thác được một
lượng thông tin nhỏ không còn đáp ứng đầy đủ những yêu cầu, những thách
thức mới. Do vậy một khuynh hướng mới được ra đời đó là kỹ thuật phát hiện tri
thức trong cơ sở dữ liệu [2].
Khai phá dữ liệu (KPDL) là một kỹ thuật dựa trên nền tảng của nhiều lý
thuyết như thống kê, học máy, trực quan,… nhằm tìm kiếm các tri thức tiềm ẩn

trong các kho lưu trữ dữ liệu lớn mà người dùng khó có thể nhận biết bằng
những kỹ thuật thông thường.
Nguồn dữ liệu KH&CN phục vụ phát triển văn hóa, kinh tế - xã hội đặc
biệt là trên lĩnh vực phát triển nông nghiệp, nông thôn, nông dân là rất lớn nếu
áp dụng kỹ thuật KPDL nó sẽ mang lại nhiều ý nghĩa và sẽ cung cấp những
thông tin quý giá để hỗ trợ tốt hơn cho mọi người dân trong việc lực chọn nuôi
con gì? trồng cây gì? đồng thời là cơ sở để những người quản lý có một bức
tranh tổng thể về tình hình sản xuất, chăn nuôi trên địa bàn mình. Trên cơ sở
thông kê, phân tích CSDL của nhiều năm có thể chỉ ra được những thông tin nào


2

là quan trọng nó ảnh hưởng đến năng suất, chất lượng của sản phẩm, chỉ ra
những thông tin nào mà người dân ít quan tâm, chú ý từ đó người quản lý có thể
điều chỉnh các chính sách, kế hoạch và ra những quyết định phù hợp với tình
hình thực tế chung của tỉnh và từng huyện nói riêng.
1.2 LÝ DO CHỌN ĐỀ TÀI
Cho đến nay, Việt Nam đã hình thành một mạng lưới các tổ chức dịch vụ
thông tin KH&CN với hàng trăm cơ quan thông tin KH&CN công lập hoạt động
ở Trung ương, các Bộ/ngành, các tổng công ty, các tỉnh/thành, các địa phương
và các đơn vị cơ sở… Sản phẩm mà mạng lưới các tổ chức này cung cấp cho
người dùng tin và xã hội rất đa dạng và phong phú, bao gồm những sản phẩm
truyền thống như ấn phẩm, các bộ phiếu tra cứu thủ công cho tới các CSDL, các
Website, các bản tin điện tử, các băng hình, đĩa hình với âm thanh, hình ảnh
động. Phương thức phục vụ thông tin cũng hết sức linh hoạt, đa dạng: từ thủ
công cho tới tự động hoá và phục vụ on-line/ trực tuyến, thuê bao nguồn tin trên
Internet.
Mạng lưới các tổ chức dịch vụ thông tin này đã góp phần nhất định vào
phát triển kinh tế xã hội của đất nước. Tuy nhiên sự phát triển mạnh mẽ của

khoa học và công nghệ, đặc biệt là công nghệ thông tin và truyền thông
(CNTT&TT) trong những thập kỷ gần đây đã tác động sâu sắc đến sự phát triển
kinh tế, xã hội nói chung và hoạt động thông tin KH&CN nói riêng. Người ta đã
đề cập đến việc chuyển đổi của thế giới từ kỷ nguyên công nghiệp sang kỷ
nguyên thông tin với kinh tế tri thức, xã hội thông tin. Trong bối cảnh đó, hoạt
động thông tin khoa học và công nghệ đang có những thay đổi quan trọng, đòi
hỏi hoạt động này cũng phải được điều chỉnh phù hợp.[4]
* Một số nghiên cứu có liên quan.
Cùng với vấn đề đổi mới, nâng cao chất lượng thông tin đặt biệt thông tin
phục vụ nông nghiệp, vấn đề ứng dụng công nghệ thông tin trong hoạt động
cung cấp thông tin được các cơ quan, các nhà nghiên cứu quan tâm trong suốt
những năm qua. Nhiều công trình có giá trị như Cục Thông tin KH&CN quốc
gia có xây dựng mô hình chung là cung cấp thông tin KH&CN phục vụ phát


3

triển kinh tế - xã hội đặt biệt là các thông tin KH&CN phục vụ nông nghiệp,
nông thôn trên cơ sở đó một số tỉnh, thành phố cũng áp dụng nhiều phương thức,
phương pháp và công nghệ truyền thông để đưa thông tin KH&CN về các xã,
phường, thị trấn phục vụ nhu cầu dùng tin của người dân và nông nghiệp như:
mô hình “Đưa internet đến các điểm Văn hóa xã phường” của tỉnh An Giang;
“Xây dựng mô hình ứng dụng KH&CN phục vụ phát triển kinh tế xã hội nông
thôn miền núi” của tỉnh Ninh Bình; “Cung cấp thông tin KH&CN tại một số xã
trong tỉnh” của tỉnh Lạng Sơn; “Xây dựng thư viện số về kỹ thuật sản xuất nông
– lâm nghiệp và cung cấp thông tin cho các xã” của tỉnh Bắc Cạn, Bình Dương,
Vĩnh Long…[1][4][5][6]
Đối với tỉnh Đồng Nai, từ năm 2003 Sở Khoa học Công nghệ Đồng Nai
hiện đã và đang triển khai thực hiện “Mô hình cung cấp thông tin khoa học và
công nghệ phục vụ phát triển kinh tế - xã hội trên địa bàn các huyện tỉnh Đồng

Nai” [1] để phục vụ cho nhu cầu tìm kiếm, áp dụng những tiến bộ khoa học và
kỹ thuật vào trong cuộc sống, sản xuất và kinh doanh nhằm phục vụ phát triển
kinh tế - xã hội trên địa bàn các xã, huyện nói riêng và cả tỉnh nói chung.
Qua thực tế triển khai ở các tỉnh/thành trong cả nước và của tỉnh Đồng Nai
nhận thấy dữ liệu được ghi chép lại rất nhiều tuy nhiên việc khai thác, phân tích
chúng thì hầu như chưa được chú trọng và gặp nhiều khó khăn. Nhằm để có thể
biến chúng trở thành những thông tin hữu ích phục vụ cho công tác quản lý của
nhà nước và người dân, cho nên những thông tin, dữ liệu đó trở thành lãng phí.
Việc thu thập, lưu trữ, và phân tích dữ liệu đang tuân theo quỹ đạo có xu
hướng đi lên và dường như không có ranh giới. Vì vậy việc thu thập, lưu trữ, và
phân tích dữ liệu để tìm ra những quy luật chung nhất giúp cho những người
quản lý có thể định hướng giúp cho bà con nông dân trong sản xuất và kinh
doanh nhằm phát triển có định hướng và bền vững. [8]
Qua tìm hiểu thì nhận thấy nhưng phân tích dữ liệu trong lĩnh vực thông tin
khoa học và công nghệ cung cấp cho người dân cho đến nay, đã có một số bài
viết, bài nghiên cứu về vấn đề này tuy nhiên mỗi tác giả có hướng tiếp cận,
hướng giải quyết vấn đề khác nhau và chỉ dừng lại ở việc nghiên cứu nguồn lực


4

thông tin nói chung chứ chưa thấy tác giả nào nghiên cứu và phân tích các dữ
liệu thông tin KH&CN đã cung cấp cho người dân để hỗ trợ và ra quyết định của
cơ quan quản lý nhà nước.
Vì vậy tôi nghiên cứu xây Luận văn “đánh giá nhu cầu khai thác thông tin
khoa học và công nghệ để hỗ trợ định hướng trong lĩnh vực nông nghiệp tại tỉnh
Đồng Nai” bằng kỹ thuật thống kê và phân tích dữ liệu trên cơ sở dựa vào quy
luật tìm kiếm thông tin của người dân và thông tin KH&CN áp dụng thực tiễn để
có thể phân lớp đối tượng và thông tin, từ đó tìm ra được những thông tin nào
người dân dùng nhiều, dùng ít có khi không quan tâm nhưng đó lại là những nội

dung hữu ích nó liên quan đến năng suất và chất lượng của sản phẩm. Có thể
nói cách khác sản lượng của một loại cây trồng vật nuôi nó có mối tương quan
giữa các thông tin KH&CN được áp dụng ngay từ khi bắt đầu trồng cho đến khi
thu hoạch sản phẩm dựa trên diện tích, từ nhận định đó nó là cơ sở khoa họa để
nhà quản lý hoạch định chiến lượng, định hướng tốt hơn cho bà con nông dân
trong điều kiện sản xuất thực tế của địa phương mình.
1.3 MỤC TIÊU CỦA ĐỀ TÀI
Nghiên cứu đánh giá mức độ ứng dụng thông tin KH&CN trong sản xuất
của địa phương đồng thời xác định mối tương quan các yếu tố ảnh hưởng đến
mức độ ứng dụng thông tin KH&CN của người dân trong sản xuất.
Kết quả nghiên cứu sẽ cho thấy:
- Thực trạng mức độ ứng dụng các thông tin KH&CN trong sản xuất của
người dân trên địa bàn các huyện thuộc tỉnh Đồng Nai.
- Chỉ ra các yếu tố tác động và mức độ tác động của từng yếu tố đến mức
độ ứng dụng thông tin KH&CN trong sản xuất của người dân tại tỉnh Đồng Nai;
Từ nghiên cứu đó sẽ đề xuất một số gợi ý đối với Sở KH&CN, UBND các
huyện và người dân, nhằm nâng cao mức độ ứng dụng thông tin KH&CN và
trong sản xuất của người dân góp phần nâng cao chất lượng, sản lượng sản phẩm
trong sản xuất nông nghiệp trên địa bàn tỉnh đồng thời đề xuất các giải pháp hỗ


5

trợ định hướng sản xuất trên lĩnh vực nông nghiệp, tăng cường nguồn tin số hóa
cho địa phương và định hướng xây dựng mô hình cho phù hợp hơn nữa.
1.4 PHẠM VI VÀ ĐỐI TƯỢNG NGHIÊN CỨU
- Phạm vị: Đề tài tập trung nghiên cứu kỹ thuật phân tích và thống kê trong
khai phá dữ liệu (cụ thể là phân lớp và hồi quy tuyến tính bội) để áp dụng vào
việc phân tích cơ sở dữ liệu trong hệ thống quản lý tra cứu và cung cấp thông tin
KH&CN tại 144 điểm thông tin KH&CN trên địa bàn tỉnh Đồng Nai từ 2016 2017.

- Đối tượng: Thông tin KH&CN đã cung cấp cho người dân.
1.5 NỘI DUNG THỰC HIỆN
- Thu thập đầy đủ nội dung thông tin KH&CN đã cung cấp và nhu cầu khai
thác thông tin KH&CN của người dân của 144 Điểm thông tin KH&CN để triển
khai thực hiện xây dựng đánh giá, phân tích và thông kê CSDL;
- Thu thập về tình hình sản xuất thực tế của địa phương để xây dựng mối
tương quan các yếu tố ảnh hưởng đến mức độ ứng dụng thông tin KH&CN của
người dân trong sản xuất;
- Phân tích và đánh giá các thông tin KH&CN thu thập các thông tin sản
xuất thực tế từ đó chỉ ra thực trạng mức độ ứng dụng các thông tin KH&CN và
các yếu tố tác động và mức độ tác động của từng yếu tố đến mức độ ứng dụng
thông tin KH&CN trong sản xuất của người dân tại tỉnh Đồng Nai;
1.6 PHƯƠNG PHÁP THỰC HIỆN
* Thu thập thông tin
- Thập thông tin KH&CN đã cung cấp cho người dân tại 144 Điểm Thông
tin KH&CN năm 2016 – 2017 (theo mẫu);
- Tạo cây phân cấp theo chủ đề dựa trên khung phân loại Dewey;


6

- Thu thập thông tin về tình hình sản xuất thực tế của 08 huyện, thành phố
Long Khánh và thành phố Biên Hòa tỉnh Đồng Nai năm 2016-2017 (theo
mẫu).
* Phân tích và xử lý dữ liệu
- Xử lý dữ liệu thu thập đã được thu thập;
- Phân tích dữ liệu đã được xử lý.
* Thử nghiệm, đánh giá
- Phân tích hồi quy bội bằng phần mềm SPSS;
- Đánh giá và kết luận.

1.7 BỐ CỤC LUẬN VĂN
Luận văn gồm các phần sau:
Chương 1: Tổng quan
Giới thiệu về những vấn đề liên quan đến việc tại sao phải khai phá dữ liệu,
lý do chọn đề tài, mục tiêu, phạm vi nghiên cứu, nội dung và phương pháp thực
hiện,…
Chương 2: Cơ sở lý thuyết
Nói lên cách tiếp cận và giải quyết các vấn đề của đề tài, trình bày cơ sở
khoa học và áp dụng lý thuyết vào bài toán, trình bày các kiến thức cơ bản về
khai phá dữ liệu, hồi quy tuyến tính bội,…, kiến thức về thông tin KH&CN cung
cấp, ý nghĩa vận dụng thông tin KH&CN và trong sản xuất.
Chương 3: Phân tích và đánh giá
Trong chương này trình bày các đặc điểm của dữ liệu, các bước tiến hành
xử lý dữ liệu trước khi đưa vào hệ thống. Xây dựng và đánh giá mô hình tìm ra
được những thông tin nào ảnh hưởng đến sản lượng của cây trồng.
Chương 4: Tổng kết
Đánh giá kết luận, ý nghĩa thực tế mang lại, những hạn chế và hướng phát
triển của luận văn.


7

Chương 2
CƠ SỞ LÝ THUYẾT
2.1 TỔNG QUAN VỀ KỸ THUẬT KHAI PHÁ DỮ LIỆU (DATA
MINING)
2.1.1 Khái niệm về Khai phá dữ liệu (KPDL)
Khai phá dữ liệu (Data mining) là quá trình trích xuất kiến thức ẩn từ khối
lượng dữ liệu thô thông qua việc sử dụng thuật toán và các kỹ thuật được rút ra
từ lĩnh vực thống kê (Statistics), học máy (Machine Learning), trực quan

(Visualization) và hệ thống quản lý cơ sở dữ liệu (Databases).
Khai phá dữ liệu cũng được gọi là khám phá kiến thức trong dữ liệu lớn
cho phép ra các quyết định của một công ty và tổ chức bằng cách tích lũy, phân
tích và truy cập dữ liệu của công ty đó. Nó sử dụng nhiều công cụ như công cụ
truy vấn và báo cáo, xử lý phân tích và các công cụ hệ thống hỗ trợ quyết định
(DSS).
KPDL nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin có
ích Tự động (Automated) và thông tin mang tính dự đoán (Predictive).
KPDL có thể được sử dụng cho các lĩnh vực nông nghiệp như chọn cây
trồng, vật nuôi,… có thể được xem như là kết quả của sự tiến bộ và phát triển
của công nghệ thông tin trong thời đại hiện nay, khai phá dữ liệu trong lĩnh vực
nông nghiệp sẽ hỗ trợ cho người dân và nhà quản lý trong vấn đề trồng cây gì?
nuôi con gì? để giữa cung và cầu được cân đối giảm thiểu những rui ro có thể
xảy ra.
Tóm lại : Việc khai phá dữ liệu còn hơn việc chạy một số truy vấn phức tạp
trên dữ liệu mà bạn đã lưu trong cơ sở dữ liệu của mình. Chúng ta phải làm việc
với dữ liệu của mình, định dạng lại nó hoặc cấu trúc lại nó, bất kể chúng ta có
đang sử dụng SQL, cơ sở dữ liệu dựa trên tài liệu như Hadoop hoặc các tệp
phẳng đơn giản hay không. Việc nhận ra định dạng thông tin mà chúng ta cần
được dựa trên kỹ thuật và việc phân tích mà bạn muốn làm. Sau khi chúng ta có
thông tin theo định dạng mà chúng ta cần, chúng ta có thể áp dụng các kỹ thuật


8

khác (riêng lẻ hay kết hợp lại với nhau) không phân biệt cấu trúc dữ liệu cơ bản
hay tập hợp dữ liệu cần thiết.

Machine
Learning


Visualization

Data Mining
Knowledge Discovery

Statistics

Databases

Hình 2.1: Các lĩnh vực khai thác dữ liệu liên quan đến khai phá dữ liệu
2.1.2 Các giai đoạn của quá trình KPDL
Quá trình khai thác dữ liệu có tính chất lặp lại và không ngừng tìm kiếm
khi có một giải pháp cụ thể nào được triển khai. Kết quả khai thác dữ liệu kích
hoạt các câu hỏi sản xuất mới mà lần lượt có thể được sử dụng để phát triển tập
trung hơn mô hình.
a) Tìm hiểu và xác định vấn đề cần giải quyết
Giai đoạn này ta tập trung tìm hiểu, xác định vấn đề cần giải quyết, tìm
hiểu bài toán đang thực hiện bao gồm các tri thức của các chuyên gia trong lĩnh
vực cần nghiên cứu từ đó xác định chính xác nguồn dữ liệu để thu thập đồng
thời phải hiểu được cấu trúc dữ liệu, ý nghĩa và tầm quan trọng của nó để từ đó
ta đưa ra bài toán cụ thể để giải quyết vấn đề.
b) Thu thập và chuẩn bị dữ liệu
Giai đoạn hiểu dữ liệu liên quan đến thu thập và thăm dò dữ liệu, xem xét
kỹ hơn từ đó xác định xem nó giải quyết vấn đề tốt như thế nào được gọi là tiền
xử lý dữ liệu.


9


Tiền xử lý dữ liệu bao gồm:
- Xử lý dữ liệu bị thiếu hoặc mất: Các giá trị bị thiếu hoặc mất sẽ được thay
thế bằng các giá trị thích hợp hơn hoặc xóa những dữ liệu sai miền giá trị và giải
quyết sự không nhất quán.
- Khử sự trùng lắp dữ liệu : Loại bỏ những dữ liệu bị trùng.
- Giảm nhiễu dữ liệu: Các dữ liệu bị nhiễu sẽ được điều chỉnh hoặc loại ra
khỏi cơ sở dữ liệu.
- Giảm chiều: Loại bớt các thuộc tính chứa ít thông tin để tiết kiệm thời
gian và tài nguyên của máy tính.
- Chuyển đổi dữ liệu: Trong giai đoạn này dữ liệu sẽ được chuyển đổi về
dạng thuận tiện để tiến hành các thuật toán khám phá dữ liệu.Khai phá dữ liệu
(Data ming): trong giai đoạn này ta sử dụng các kỹ thuật nhằm phát hiện ra các
tri thức tiềm ẩn trong dữ liệu. một số kỹ thuật được sử dụng đó là: phân lớp,
gom cụm, luật kết hợp,..
c) Xây dựng mô hình và đánh giá
Giai đoạn này lựa chọn và áp dụng các kỹ thuật mô hình hóa khác nhau và
hiệu chỉnh các tham số cho các giá trị tối ưu. Nếu thuật toán yêu cầu chuyển đổi
dữ liệu, chúng ta sẽ cần phải quay trở lại giai đoạn trước để thực hiện chúng.
Giai đoạn này là thời gian để đánh giá mức độ phù hợp của mô hình ban đầu với
mục tiêu đã nêu.
Đây là giai đoạn biến đổi từ những luật rút ra được (của giai đoạn trước) từ
tập huấn luyện sang dạng phù hợp với nghiệp vụ của bài toán đang nghiên cứu.
Đồng thời cũng sẽ là giai đoạn đánh giá của các chuyên gia tư vấn dựa trên tập
dữ liệu thử. Dựa vào nhận xét và hỗ trợ của các chuyên gia khi đó sẽ điều chỉnh
kịp thời các mô hình của các giai đoạn trước. Các mô hình đạt yêu cầu với các
chuyên gia sẽ được sử dụng.
d) Triển khai kiến thức
Triển khai kiến thức là việc sử dụng khai phá dữ liệu trong môi trường
đích. Trong thông tin chi tiết về giai đoạn triển khai và thông tin có thể hành
động có thể được lấy từ dữ liệu. Triển khai có thể liên quan đến việc chấm điểm



10

mô hình chi tiết hoặc tích hợp khai thác dữ liệu trong cơ sở hạ tầng kho dữ liệu
ứng dụng hoặc truy vấn và báo cáo công cụ. (Các mô hình đạt yêu cầu sẽ được
xây dựng thành chương trình ứng dụng thực tế nhằm hỗ trợ đưa ra quyết định
theo yêu cầu của người dùng.)

Hình 2.2: Các bước thực hiện trong quá trình khai phá tri thức
2.2 TỔNG QUAN LÝ THUYẾT NGHIÊN CỨU CỦA LUẬN VĂN
Như đã trình bày trong chương 1, đến nay đã có nhiều tác giả đã có một số
bài viết, bài nghiên cứu về vấn đề này tuy nhiên mỗi tác giả có hướng tiếp cận,
hướng giải quyết vấn đề khác nhau và chỉ dừng lại ở việc nghiên cứu nguồn lực
thông tin nói chung chứ chưa thấy tác giả nào nghiên cứu về nguồn dữ liệu
thông tin KH&CN đã cung cấp cho người dân để hỗ trợ và ra quyết định của cơ
quan quản lý nhà nước.
Kết quả lưu trữ những năm qua và phỏng vấn sâu chuyên gia trong lĩnh vực
ứng dụng thông tin trong sản xuất cho thấy các yếu tố chính tác động đến mức
độ ứng dụng thông tin trong sản xuất trên địa bàn tỉnh gồm yếu tố khách quan
và yếu tố chủ quan. Yếu tố khách quan gồm điều kiện cơ sở vật chất, chính sách,
đặc điểm chung, đặc thù của từng loại cây trồng vật nuôi…; yếu tố chủ quan
gồm năng lực, nhận thức, tính tích cực, hứng thú của người dân về ứng dụng
thông tin trong sản xuất.


11

Kế thừa kết quả các nghiên cứu trước đây, dựa vào kết quả lưu trữ, và
tham khảo các ý kiến chuyên gia, trong phạm vi của đề tài này, tác giả xác định

các yếu tố tác động đến mức độ ứng dụng thông tin trong sản xuất gồm (1)
Thông tin về kỹ thuật, (2) Thông tin về công nghệ, (3) thông tin về phân bón, (4)
thông tin dịch bệnh, (5) thông tin về tình hình áp dụng kỹ thuật vào sản xuất.
Như vậy, Khung lý thuyết nghiên cứu của luận văn được xác định
2.2.1 Giới thiệu chung về mô hình cung cấp thông tin KH&CN
Mô hình “Cung cấp thông tin khoa học và công nghệ phục vụ phát triển
kinh tế - xã hội trên địa bàn các huyện tỉnh Đồng Nai” ra đời và kết quả từ năm
2003 đến nay về hoạt động cung cấp thông tin KH&CN: đã cung cấp thông tin
cho 52.995 lượt người dân đến Điểm yêu cầu cung cấp thông tin. Đối tượng cung
cấp thông tin đa số là nông dân, học sinh, sinh viên và cán bộ công chức, viên
chức xã, phường thị trấn; Thông tin do Điểm thông tin KH&CN cung cấp chủ yếu
về kỹ thuật chăn nuôi, trồng trọt, dịch hại cây trồng, một số mô hình thuộc lĩnh
vực nông nghiệp, văn bản pháp luật….
Bảng 2.1: Cung cấp thông tinh KH&CN trên địa bàn tỉnh Đồng Nai
STT
Tên địa phương
1 Thành phố Biên Hòa

Năm
2009
242

Năm
2010
588

Năm
2015
609


Năm
2016
640

Năm
2017
1.511

Tổng
3.590

0

1.820

2.180

2.210

2.340

8.550

2

Huyện Cẩm Mỹ

3

Huyện Định Quán


367

471

1.114

1.160

2.379

5.491

4

Huyện Long Thành

10

102

83

140

1.229

1.569

5


Thị xã Long Khánh

890

759

1.811

1.603

2.211

7.274

6

Huyện Nhơn Trạch

0

393

533

679

1.107

2.712


7

Huyện Tân Phú

598

677

676

1.040

1.270

4.261

8

Huyện Thống Nhất

472

763

975

1.150

1.382


4.742

9

Huyện Trảng Bom

677

657

677

807

1.344

4.162

10

Huyện Xuân Lộc

0

1.014

1.334

1.728


2.163

6.239

11

Huyện Vĩnh Cửu

0

665

1.107

1.211

1.422

4.405

Tổng cộng:

3.256

7.909 11.099 12.368

18.358 52.995



12

Nhu cầu tin đóng một vai trò hết sức quan trọng trong hoạt động cung cấp
thông tại các Điểm thông tin. Nhu cầu tin chính là cơ sở để định hướng cho việc
xây dựng và phát triển nguồn lực thông tin nói chung.
Việc nắm bắt nhu cầu tin của người dùng tin cũng có một ý nghĩa quan
trọng trong hoạt động cung cấp thông tin, bởi vì nếu nắm bắt được từng loại nhu
cầu tin của từng đối tượng người dùng tin khác nhau thì sẽ tạo ra nguồn thông
tin, tổ chức được các sản phẩm và dịch vụ thông tin, thiết kế hệ thống thông tin
trong đó có các công cụ tìm tin truyền thống hoặc hiện đại phù hợp với người
dùng tin, qua đó, hoạt động cung cấp thông tin của Điểm mới đạt hiệu quả kinh
tế, hiệu quả xã hội, hiệu quả khoa học cao.
Nhu cầu dùng tin tại 144 Điểm có thể chia thành các nhóm, gồm:
- Nhóm người dùng tin là Cán bộ quản lý (nghiên cứu);
- Nhóm người dùng tin là người nông dân (thuần nông)
- Nhóm người dùng tin là các DN, công ty, trang trại lớn;
- Nhóm người dùng tin là các em học sinh, sinh viên;
- Nhóm người dùng tin khác.
2.2.2 Giới thiệu Cơ sở dữ liệu thông tin KH&CN
* Nguồn tin KH&CN
Cho tới nay, trong toàn Hệ thống có hơn 3 triệu đầu tên sách, trên 25 triệu
bản mô tả sáng chế phát minh, trên 200 nghìn tiêu chuẩn; 50 nghìn catalo công
nghiệp, 4.000 bộ báo cáo địa chất, 4.500 báo cáo lâm nghiệp; 20.000 báo cáo kết
quả nghiên cứu, luận án tiến sĩ; hàng chục triệu biểu ghi trên CD/ROM,....
Đặc biệt, Cục Thông tin KH&CN Quốc gia, với tư cách là cơ quan đầu mối
trung tâm của mạng lưới các tổ chức dịch vụ thông tin KH&CN đã được phát
triển được nguồn tin KH&CN trực tuyến với hàng chục nghìn đầu tên tạp chí
điện tử, có khả năng truy cập tới hàng chục triệu tài liệu gốc với độ cập nhật rất
nhanh và độ hồi cố khá sâu như: STD (Tài liệu KH&CN Việt Nam);
ScienceDirect; SringerLink; ISI-Web of Knowledge; Proquest Central; Ebrary;

Tạp chí điện tử của một số hội KH&CN uy tín,…


13

* Cơ sở dữ liệu thông tin KH&CN
Điểm thông tin KH&CN đặt tại Trung tâm Văn hóa Thể thao và Học tập
cộng đồng hoặc tại trụ sở UBND các xã/phường. Điểm thông tin KH&CN được
trang bị gồm: 02 máy vi tính, 01 máy chụp hình KTS, 01 máy in, 01 bộ lưu điện,
02 bộ bàn vi tính, 01 bộ bàn ghế để đọc sách báo và tiếp người dân khi đến
Điểm thông tin, 01 bảng hiệu ghi tên Điểm thông tin, 01 tủ đựng tài liệu, 01 cán
bộ có trình độ tin học tương đương A trở lên và được đào tạo các kỹ năng quản
lý và cung cấp thông tin.
Điểm Điểm được trang bị các cơ sở dữ liệu (CSDL) thông tin KH&CN,
gồm: CSDL 10 vạn câu hỏi đáp khoa học và kỹ thuật; CSDL 60.000 công nghệ
nông thôn toàn văn; CSDL 40.000 câu hỏi đáp khoa học thường thức; CSDL
3.000 phim công nghệ nông thôn; CSDL 2000 câu hỏi đáp về dịch hại trên cây
trồng và cách sử dụng thuốc bảo vệ thực vật; CSDL 21 giống cây ăn trái có lợi
thế cạnh tranh và xuất khẩu; CSDL 150 chuyên gia và tổ chức KH&CN có khả
năng tư vấn về các vấn đề trong sản xuất, kinh doanh và đời sống vùng nông
thôn. Ngoài ra mỗi Điểm còn được trang bị 01 Trang Thông tin điện tử (website)
trên Internet để chia sẻ, giới thiệu, quảng bá hình ảnh, hoạt động phát triển kinh
tế - xã hội, sản phẩm, hàng hóa của địa phương với mọi cá nhân, tổ chức trong
và ngoài tỉnh, khu vực và quốc tế.
* Sơ lược về quy trình cung cấp thông KH&CN, gồm:
+ Yêu cầu cung cấp thông tin
+ Xử lý thông tin
+ Tra cứu, tìm kiếm trong thư viện của Điểm
+ Chuyển chuyên gia xử lý (bao gói thông tin)
+ Phản hồi

* Tổ chức và khai thác tin và cung cấp thông tin tại 144 Điểm
a) Yêu cầu cung cấp thông tin
- Phân loại người dân đến lấy thông tin:
+ Cán bộ quản lý, hội (nông dân, phụ nữ, hưu trí,..);
+ Doanh nghiệp, tổ chức;


14

+ Thuần nông (nông dân);
+ Sinh viên, học sinh;
+ Thành phần khác (buôn bán, …)…
- Tần suất lấy thông tin:
+ Hàng năm;
+ Hàng tháng;
+ Hàng tuần;
+ Hàng ngày.
- Khả năng áp dụng:
+ Áp dụng (70 - 100%);
+ Áp dụng ít (50% – 70%);
+ Tham khảo (20 – 50%);
b) Xử lý thông tin (dành cho cán bộ quản lý)
+ Phân loại dựa trên mức độ ưu tiên;
+ Phân loại dựa theo lĩnh vực;
+ Phân loại dựa trên tần suất lấy thông tin;
+ Phân loại dựa trên vùng sản xuất.
c) Tra cứu, tìm kiếm trong thư viện của Điểm
Sau khi nhận thông tin cán bộ tra cứu trong thư viện điện tử của Điểm để
lấy thông tin
+ Một yêu cầu sẽ cho ra nhiều kết quả thuộc nhiều “Dạng tài liệu” của

“nhiều đơn vị cung cấp tài liệu”; Dựa vào mức độ ưu tiên; Dựa vào lĩnh vực cần
cung cấp; Tìm kiếm trên nhiều nguồn tư liệu.
d) Chuyển chuyên gia xử lý (bao gói thông tin)
+ Thông tin không đáp ứng;
+ Thông tin đáp ứng nhu cầu một phần;
+ Thông tin đáp ứng những chưa đủ.
e) Phản hồi (ghi nhận phản hồi)
Ghi nhận kết quả sử dụng, áp dụng thông tin KH&CN vào trong điều kiện
sản xuất thực tế của mình


15

Trung tâm
…….
(Đơn vị đầu
mối)
Xử lý yêu cầu tin

Bao gói
thông tin
theo yêu
cầu (đặc
thù địa
bàn)
So sánh lựa chọn
nguồn tin phù hợp

ĐỐI
TƯỢN

G
DÙNG
TIN
TẠI
CÁC


THƯ
VIỆN
ĐIỆN TỬ
CÔNG
NGHỆ
NÔNG
THÔN
CÁC XÃ

Yêu
cầu

- Mạng
KH&CN
- Văn phòng
điện tử
- Ngân hàng
dữ liệu
KH&CN
Ng
uồ
n
tin


- Thư viện KHKT
TW.
- Trung tâm Thông
tin KH&CN Quốc
gia.
- Bộ Nông nghiệp –
Phát triển Nông
thôn.
- Sách, Báo, tài
liệu.
- Kết quả nghiên
cứu.
- Kỷ yếu.
- Tài liệu nghe
nhìn.
- Điều tra cơ bản.
- Giới thiệu sản
phẩm.
- Các nguồn khác.

- Xử lý nội
dung
- Xử lý kỹ
thuật

- Tạo tiềm lực
thông tin vùng
sâu, vùng xa


Yêu
cầu

Cung
cấp
thông
tin
theo
yêu
cầu

- Bao gói phục
vụ cung cấp
thông tin

Hình 2.3: Mô hình tổ chức và khai thác tin và cung cấp tại 144 Điểm


16

2.2.3 Giới thiệu về Hệ thống mạng lưới cung cấp thông tin KH&CN
a) Mạng lưới các tổ chức cung cấp thông tin KH&CN Việt Nam
Ở Việt Nam, hoạt động lưu trữ và cung cấp thông tin KH&CN bắt đầu triển
khai từ cuối năm 1959 khi thành lập Uỷ ban Khoa học Nhà nước (Sắc lệnh số
016-SL ngày 4/3/1959 của Chủ tịch nước Việt Nam Dân chủ Cộng hòa), bao
gồm 4 giai đoạn:
+ Giai đoạn mở đầu (1959-1972);
+ Giai đoạn hình thành và phát triển Hệ thống (1972-1986);
+ Giai đoạn đổi mới hoạt động thông tin KH&CN (1986-1996);
+ Giai đoạn phát triển phục vụ CNH và HĐH (Từ 1996 đến nay).

Hoạt động cung cấp thông tin KH&CN trong thời gian vừa qua đã đạt được
những kết quả đáng kể như: Mạng lưới tổ chức dịch vụ thông tin KH&CN quốc
gia đã hình thành và phát triển rộng khắp trên cả nước;
Nguồn tin KH&CN được phát triển đáng kể, cơ bản đáp ứng những nhu
cầu cơ bản về thông tin KH&CN của người dân; Cục Thông tin Khoa học và
Công nghệ Quốc gia là đầu mối liên kết mạng lưới các tổ chức dịch vụ thông tin
khoa học và công nghệ của cả nước; 63 cơ quan/đơn vị thông tin KH&CN cấp
tỉnh và thành phố trực thuộc Trung ương...
b) Mạng lưới các Điểm cung cấp thông tin KH&CN Đồng Nai
Ở Đồng Nai, hoạt động cung cấp thông tin KH&CN được bắt đầu hình
thành và triển khai từ năm 2003, bao gồm 3 giai đoạn chủ yếu:
+ Giai đoạn hình thành và thử nghiệm (2003-2008) với 12 Điểm trên toàn
tỉnh;
+ Giai đoạn nhân rộng (2008-2010) với 44 Điểm;
+ Giai đoạn đầu tư phát triển phục vụ CNH và HĐH (từ 2010 đến nay)
nâng tổng số Điểm thông tin trong toàn tỉnh lên 144 Điểm đi vào hoạt động ổn
định. Trung tâm Thông tin và Thống kê KH&CN Đồng Nai là đơn vị được giao
quản lý vận hành toàn bộ mạng lưới cung cấp thông tin KH&CN trên địa bàn
toàn tỉnh.


17

2.3 GIỚI THIỆU BÀI TOÀN PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU
Dữ liệu được tạo ra từng giây, từng phút trong đời sống xã hội hiện đại.
Chúng có thể là dữ liệu web, dữ liệu từ các cảm biến, các tệp lưu nhật ký, dữ
liệu cá nhân, dữ liệu từ các thiết bị thông minh,… Từ khối dữ liệu này mà chúng
ta có thể tìm kiếm, khai thác và trích xuất ra những thông tin hữu ích. Làm thế
nào để có được những thông tin ấy là vấn đề được đặt ra. Phân tích dữ liệu là
một trong những chìa khóa giúp chúng ta giải quyết vấn đề nêu trên. Vậy phân

tích dữ liệu là gì?
Phân tích dữ liệu là một trong những ứng dụng thực tiễn của kỹ thuật khai
phá dữ liệu (Data mining). Phân tích dữ liệu là một quá trình trích xuất thông tin
hữu ích từ tập dữ liệu được cung cấp.
Các bước cơ bản của quá trình phân tích dữ liệu bao gồm: Kiểm định
(Inspecting), làm sạch (Cleaning), chuyển đổi (Transforming), mô hình hóa
(Modeling) và phân tích (Analysing) dữ liệu nhằm mục đích tìm kiếm thông tin,
cho thấy kết luận, hỗ trợ đưa ra quyết định (minh họa bằng hình 2.4).

Hình 2.4: Các bước của quá trình phân tích dữ liệu
Trước khi có máy tính, nhiều phương pháp phân tích cho tập dữ liệu nhỏ đã
phát triển và tập trung phân tích từng biến riêng lẻ. Ngày nay, khi khả năng tính
toán của máy tính đã phát triển vượt bậc, phân tích dữ liệu đã phân tích đồng
thời quan hệ của nhiều biến.
Phân tích dữ liệu được chia thành phân tích dữ liệu thăm dò EDA và phân
tích dữ liệu khẳng định CDA. Phân tích dữ liệu thăm dò dùng dữ liệu để xác


×