Tải bản đầy đủ (.pdf) (70 trang)

Luận văn thạc sĩ công nghệ thông tin xây dựng hệ thống hỗ trợ qua mạng thông tin di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.35 MB, 70 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC CẦN THƠ

LƢƠNG THẾ ANH

XÂY DỰNG HỆ THỐNG HỖ TRỢ KHUYẾN
NÔNG TRÊN CÂY LÚA QUA MẠNG THÔNG
TIN DI ĐỘNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Cần Thơ - 2014


BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƢỜNG ĐẠI HỌC CẦN THƠ

LƢƠNG THẾ ANH

XÂY DỰNG HỆ THỐNG HỖ TRỢ KHUYẾN
NÔNG TRÊN CÂY LÚA QUA MẠNG THÔNG
TIN DI ĐỘNG

Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 24 11 030

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Ngƣời hƣớng dẫn khoa học


TS. NGUYỄN CHÍ NGÔN
TS. NGUYỄN THÁI NGHE

Cần Thơ - 2014


LỜI CAM ĐOAN
------------------------------

Tôi xin cam đoan Luận văn Thạc sĩ ngành Hệ thống thông tin “Xây dựng hệ
thống hỗ trợ khuyến nông trên cây lúa qua mạng thông tin di động” là kết quả
của quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc.
Ngoài việc sử dụng lại kết quả nghiên cứu của các tác giả khác như được
trích dẫn trong tài liệu thì các kết quả của nghiên cứu này chưa từng được công bố
trong bất cứ luận văn cùng cấp nào khác trước đây.
Các số liệu trong luận văn là trung thực, được rút trích từ quá trình nghiên
cứu và thực nghiệm. Các phương pháp nêu trong luận văn được rút ra từ những cơ
sở lý luận và quá trình nghiên cứu tìm hiểu.
--------------------------------------

Cần Thơ, ngày 13 tháng 03 năm 2014
Tác giả

Lương Thế Anh

i


LỜI CẢM TẠ
-----------------------------Trước tiên, tôi xin chân thành cảm ơn Tiến sĩ Nguyễn Chí Ngôn giảng viên khoa

Công nghệ và Tiến sĩ Nguyễn Thái Nghe giảng viên khoa Công nghệ Thông tin trường
Đại học Cần Thơ đã tận tình chỉ dạy và hướng dẫn tôi trong quá trình học tập tại trường và
quá trình thực hiện luận văn này.
Tôi xin cảm ơn quý Thầy, Cô giảng viên đã tận tình giảng dạy trong thời gian tôi
học tập và nghiên cứu tại trường Đại Học Cần Thơ.
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè và đồng nghiệp đã giúp đỡ, ủng hộ tôi
trong suốt thời gian học tập và hoàn thành luận văn này.
-----------------------------Cần Thơ, ngày 13 tháng 03 năm 2014
Tác giả

Lương Thế Anh

ii


MỤC LỤC
Lời cam đoan ................................................................................................................ i
Lời cảm ơn .................................................................................................................. ii
Mục lục ....................................................................................................................... iii
Danh mục từ viết tắt .................................................................................................... v
Danh mục biểu bảng.................................................................................................. vii
Danh mục hình ảnh .................................................................................................. viii
Tóm tắt ........................................................................................................................ x
Chƣơng 1: GIỚI THIỆU .......................................................................................... 1
1.1 Lý do chọn đề tài .......................................................................................................1
1.2 Mục tiêu .....................................................................................................................4
1.3 Nội dung .....................................................................................................................5
1.4 Đối tƣợng và phạm vi nghiên cứu ...........................................................................6
1.4.1 Nghiên cứu, tìm hiểu các cơ sở lý thuyết ...................................................................... 6
1.4.2 Xây dựng hệ thống thử nghiệm ..................................................................................... 6


1.5 Ý nghĩa khoa học và thực tiễn .................................................................................7

Chƣơng 2: CƠ SỞ LÝ THUYẾT ............................................................................. 8
2.1 Hệ thống thông tin di động.......................................................................................8
2.1.1 Hệ thống tin nhắn văn bản (SMS) ................................................................................. 8
2.1.2 Hệ thống tin nhắn đa phương tiện (MMS) .................................................................. 13

2.2 Khai mỏ dữ liệu .......................................................................................................17
2.2.1 Khám phá tri thức và khai mỏ dữ liệu......................................................................... 17
2.2.2 Bài toán phân lớp ........................................................................................................ 18
2.2.3 Máy học Véc-tơ Hỗ trợ (SVM) .................................................................................... 18

2.3 Phân lớp văn bản ....................................................................................................20
2.3.1 Khái niệm .................................................................................................................... 20
2.3.2 Xây dựng tập đặc trưng văn bản ................................................................................. 23
2.3.3 Biểu diễn văn bản bằng véc-tơ đặc trưng ................................................................... 29

iii


Chƣơng 3: XÂY DỰNG HỆ THỐNG ................................................................... 31
3.1 Tổng quan hệ thống ................................................................................................31
3.2 Cài đặt mô-đun gửi/nhận tin nhắn SMS ...............................................................31
3.3 Cài đặt mô-đun gửi và nhận tin đa phƣơng tiện (MMS) ....................................33
3.4 Cài đặt mô-đun phân loại tin nhắn SMS bằng SVM ...........................................35
3.4.1 Xây dựng mô hình phân loại ....................................................................................... 35
3.4.2 Sử dụng mô hình phân loại ......................................................................................... 37

3.5 Cài đặt mô-đun huấn luyện lại mô hình phân loại ..............................................38

3.6 Xây dựng website quản lý, cấu hình hệ thống ......................................................38
3.6.1 Tổng quan ................................................................................................................... 38
3.6.2 Các chức năng nhiệm vụ của người dùng là chuyên gia ............................................ 42
3.6.3 Các chức năng nhiệm vụ của người dùng là quản trị/điều phối viên ......................... 44

Chƣơng 4: KẾT QUẢ THỰC NGHIỆM .............................................................. 48
Chƣơng 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .......................................... 49
5.1 Kết luận ....................................................................................................................49
5.2 Hƣớng phát triển ....................................................................................................50

TÀI LIỆU THAM KHẢO ...................................................................................... 51
Tiếng Việt.......................................................................................................................51
Tiếng Anh ......................................................................................................................51
Website ...........................................................................................................................51

PHỤ LỤC ................................................................................................................. 54

iv


DANH MỤC TỪ VIẾT TẮT
3G

: Third-Generation technology – Công nghệ truyền thông thế hệ thứ ba

3GPP

: 3rd Generation Partnership Project  Dự án đối tác thế hệ thứ ba

APN


: Access Point Name  Tên điểm truy cập

AT

: Attention – Lệnh AT để chỉ thị cho modem thực hiện yêu cầu

CIMD

: Computer Interface to Message Distribution  Giao diện máy tính để
phân phối tin nhắn

CRFs

: Conditional random fields  Các trường ngẫu nhiên có điều kiện

CSDL

: Cơ sở dữ liệu

DF

: Document Frequency  Tần suất văn bản

DNS

: Domain Name System  Hệ thống phân giải tên miền

EAIF


: External Application Interface  Giao diện ứng dụng bên ngoài

EMI

: External Machine Interface – Giao diện máy ngoại vi

ERD

: Entity-Relationship diagram  Mô hình thực thể kết hợp

GSM

: Global System for Mobile Communications – Hệ thống thông tin di
động toàn cầu

GPRS

: General Packet Radio Service – Dịch vụ vô tuyến gói tổng hợp

HLR

: Home location register  Bộ ghi định vị thường trú

IDF

: Inverted Document Frequency  Tần suất tài liệu nghịch đảo

IP

: Internet Protocol  Giao thức liên mạng


LibSVM : (A Library for Support Vector Machines)  Thư viện hỗ trợ cho việc
phân lớp với SVM
Maxent

: Maximum Entropy  Entropy cực đại

MMS

: Multimedia Messaging Service  Dịch vụ tin nhắn đa phương tiện

MMSC

: Multimedia Messaging Service Center  Trung tâm dịch vụ tin nhắn đa
phương tiện

MSCF

: Messaging Service Control Function  Cơ quan kiểm soát dịch vụ tin
nhắn

v


MVC

: Model-View-Control  Mô hình web MVC

OMA


: The Open Mobile Alliance  Liên minh di động mở

SIM

: Subscriber Identity Module  Mô-đun nhận diện thuê bao (thẻ sim)

SMS

: Short Message Services  Dịch vụ tin nhắn ngắn

SMSC

: Short Message Service Center  Trung tâm dịch vụ tin nhắn ngắn

SMTP

: Simple Mail Transfer Protocol  Giao thức truyền tải thư đơn giản

SOAP

: Simple Object Access Protocol  Giao thức truy cập đối tượng đơn giản

SVM

: Support Vector Machine  Máy học véc tơ hỗ trợ

TBL

: Transformation-based learning  Giải thuật học cải biến


TF

: Term Frequency – Tần suất từ

URL

: Uniform Resource Locator  Bộ định vị tài nguyên hợp nhất

VASP

: Value Added Service Provider  Nhà cung cấp dịch vụ giá trị gia tăng

VLSP

: Vietnamese Language and Speech Processing) – Dự án nghiên cứu phát
triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt

VNPT

: Vietnam Posts and Telecommunications  Bưu chính viễn thông Việt Nam

WAP

: Wireless Application Protocol  Giao thức ứng dụng không dây

WML

: Wireless Markup Language  Ngôn ngữ đánh dấu không dây

vi



DANH MỤC BẢNG
Bảng 2.1 Một số lệnh AT liên quan đến việc gửi tin nhắn .................................... 11
Bảng 2.2 Một số lệnh AT liên quan đến việc nhận tin nhắn SMS ......................... 12
Bảng 2.3 Một số h m nh n th

ng đ

c d ng ...................................................... 20

Bảng 2.4 Các điểm khác biệt chính giữa tiếng Việt v tiếng Anh ......................... 23
Bảng 3.1 Các thông số cấu hình modem cần thiết để gửi/đọc tin nhắn qua modem
3G .......................................................................................................... 31
Bảng 3.2 Các thông số cấu hình cơ sở dữ liệu hệ thống ........................................ 32
Bảng 3.3 Các thuộc tính cần quan t m của bảng tbl_mms_in ............................... 33
Bảng 3.4 Các thuộc tính cần quan t m của bảng tbl_mms_out ............................. 33
Bảng 3.5 Một số thông số cơ bản cấu hình MMS của ba nh mạng lớn nhất Việt
Nam ....................................................................................................... 34
Bảng 3.6 Các chuyên ng nh nhỏ trên c y lúa ........................................................ 35
Bảng 3.7 Các thuộc tính của bảng tbl_expert ........................................................ 40
Bảng 3.8 Các thuộc tính của bảng tbl_major ......................................................... 40
Bảng 3.9 Các thuộc tính của bảng tbl_expertmajor ............................................... 41
Bảng 3.10 Các thuộc tính của bảng tbl_mms......................................................... 41

vii


DANH MỤC HÌNH
Hình 1.1 Biểu đồ thống kê về lao động từ 15 tuổi trở lên đang làm việc tại thời điểm

năm 2012 phân theo ngành kinh tế ............................................................. 1
Hình 1.2 Biểu đồ thống kê về giá trị sản xuất ngành trồng trọt theo giá phân theo
nhóm cây trồng ........................................................................................... 2
Hình 1.3 Biểu đồ thống kê diện tích gieo trồng một số cây trồng hàng năm ............. 2
Hình 1.4 Biểu đồ thống kê sản lượng một số cây trồng hàng năm tại thời điểm năm
2012 ............................................................................................................ 3
Hình 1.5 Biểu đồ thống kê tình hình xuất khẩu nhóm hàng nông sản của Nước ta
tháng 10 năm 2013 ..................................................................................... 3
Hình 1.6 Mô hình tổng quan hoạt động của hệ thống ................................................. 5
Hình 2.1 Hệ thống SMS và các thiết bị ....................................................................... 8
Hình 2.2 Cách thức SMS hoạt động thông qua một trung tâm tin nhắn SMS ............ 9
Hình 2. 3 Chức năng của SMS Gateway..................................................................... 9
Hình 2.4 Ứng dụng SMS kết nối tới SMSC không qua trung gian SMS Gateway .. 10
Hình 2.5 Ứng dụng SMS kết nối tới SMSC qua trung gian SMS Gateway ............. 10
Hình 2.6 Một ứng dụng SMS kết nối đến điện thoại di động hoặc modem thông qua
một SMS Gateway .................................................................................... 11
Hình 2.7 Hoạt động hệ thống tin nhắn MMS ............................................................ 13
Hình 2.8 Mô hình hoạt động của Trung tâm tin nhắn đa phương tiện ...................... 14
Hình 2.9 Mô hình gửi tin nhắn MMS từ ứng dụng ................................................... 16
Hình 2.10 Mô hình nhận tin nhắn MMS từ ứng dụng .............................................. 16
Hình 2.11 Quá trình khám phá tri thức ..................................................................... 17
Hình 2.12 hân lớp tuyến tính với S M .................................................................. 19
Hình 2.13 Sơ đồ phân lớp văn bản với S M ............................................................ 22
Hình 2.14 Mô hình xử lý tiếng iệt của JvnText ro ................................................ 24
Hình 2.15 Tách từ theo phương pháp so khớp tối đa ................................................ 26
Hình 3.1 Mô hình lưu trữ và xử lý tin nhắn .............................................................. 31
Hình 3.2 Giao diện trang chủ website ....................................................................... 39

viii



Hình 3.3 Mô hình thực thể kết hợp (ERD) ............................................................... 40
Hình 3.4 Giao diện đăng ký thông tin chuyên gia .................................................... 42
Hình 3.5 Giao diện xem thông tin cá nhân của chuyên gia ...................................... 43
Hình 3.6 Giao diện cập nhật thông tin cá nhân của chuyên gia ................................ 43
Hình 3.7 Giao diện trả lời và phân loại lại câu hỏi của chuyên gia. ......................... 44
Hình 3.8 Giao diện cập nhật chuyên ngành (phân lớp)............................................. 45
Hình 3.9 Giao diện duyệt chuyên gia ........................................................................ 46
Hình 3.10 Giao diện cập nhật, phân loại tin nhắn bán tự động ................................. 46
Hình 3.11 Giao diện cập nhật Gateway .................................................................... 46
Hình 3.12 Giao diện cấu hình hệ thống .................................................................... 47
Hình 3.13 Giao diện thống kê tin nhắn ..................................................................... 47

ix


TÓM TẮT
Đề tài được thực hiện với mục tiêu xây dựng một hệ thống nhịp cầu giữa nhà
nông và các chuyên gia nông nghiệp nhằm hỗ trợ công tác khuyến nông qua mạng
thông tin di động, đồng thời thu thập dữ liệu thực tế dùng để phát triển các hệ thống
khuyến nông tự động sau này. Hệ thống được xây dựng trong nghiên cứu này có thể
được coi là “nhịp cầu nhà nông 24/7”. Để xây dựng được hệ thống, trước hết ta
cần xây dựng mô-đun truyền và nhận tin nhắn SMS/MMS. Các mô-đun quan trọng
này hỗ trợ cho nông dân gửi dữ liệu về tình trạng của cây lúa để được tư vấn bởi
các chuyên gia nông nghiệp. Tiếp đến, một mô-đun phân loại tin nhắn được thiết
lập dựa trên sự kết hợp các phương pháp máy học với công nghệ xử lý ảnh và xử lý
văn bản. Để thuận lợi cho các chuyên gia và người dùng hệ thống, một website
được xây dựng để tích hợp các mô-đun trên lại với nhau. Kết quả nghiên cứu bước
đầu cho thấy việc xây dựng hệ thống này là rất khả thi. Đó cũng là nền tảng để xây
dựng hệ thống hỗ trợ khuyến nông trực tuyến qua mạng thông tin di động.

Từ khóa: Hệ thống hỗ trợ khuyến nông, tách từ tiếng việt, gửi và nhận tin nhắn,
phân loại văn bản
ABSTRACT
The objective of this research was to build a link system between farmers and
agricultural experts to support the agricultural extension via mobile communication
network and to get real data used for automatic agricultural extension systems in
the future. The system can be considered as the program called "24/7 farmers link".
To build this system, at first, we need to build modules for sending and receiving
SMS and MMS messages. These modules are important for farmers to send data of
rice status that need to be consulted by agricultural experts. Next, a message
classification module is built by basing on a combination of machine learning
methods with image and text processing technology. To make more convenient for
experts and system users, we need to build a website to integrate these modules into
the whole system. Initial results show that construction of this system is feasible.
This is also the foundation for building an online agricultural extension support
system through mobile communication network.
Keywords: Agricultural support system, Vietnamese word segmentation, send and
receive SMS/MMS, text classification

x


CHƯƠNG 1: GIỚI THIỆU
1.1

Lý do chọn đề tài

Theo số liệu thống kê của tổng cục thống kê về lao động từ 15 tuổi trở lên
đang làm việc tại thời điểm năm 2012 phân theo ngành kinh tế nước ta. Lao động
thuộc ngành nông nghiệp, lâm nghiệp và thủy sản có số lượng cao nhất chiếm tỷ

lệ 47% trong tất cả các ngành, từ đó thấy rằng phần lớn người dân nước ta sống
chủ yếu dựa vào trồng trọt và chăn nuôi [30].
Thống kê về lao động từ 15 tuổi trở lên đang làm việc tại thời
điểm năm 2012 phân theo ngành kinh tế
Dịch vụ lưu trú và
ăn uống
4%

Vận tải, kho bãi
3%
Bán buôn và bán lẻ;
sửa chữa ô tô, mô tô,
xe máy và xe có động
cơ khác
Xây dựng
12%
6%

Giáo dục và đào tạo
3%

Nông nghiệp, lâm
nghiệp và thủy sản
47%

Công nghiệp chế biến,
chế tạo
14%

Khai khoáng

1%

Hình 1.1 Biểu đồ thống kê về lao động từ 15 tuổi trở lên đang làm việc tại thời điểm năm 2012
phân theo ngành kinh tế

Trong đó nhóm cây lương thực chiếm giá trị sản xuất và xuất khẩu cao,
hình 1.2 minh họa giá trị sản xuất ngành trồng trọt theo giá vào thời điểm năm
2012 phân theo nhóm cây [31].

1


Giá trị sản xuất ngành trồng trọt theo giá năm 2012 phân
theo nhóm cây

Giá trị sản xuất

300000
250000
200000
150000

Series1

100000
50000
0
Lương thực

Rau đậu


Cây ăn quả

Cây CN

Nhóm cây trồng
Hình 1.2 Biểu đồ thống kê về giá trị sản xuất ngành trồng trọt theo giá phân theo nhóm cây trồng

Trong đó, lúa là một loại cây lương thực quan trọng nhất, là nguồn an ninh
lượng thực chủ yếu. Hình 1.3, 1.4 minh họa diện tích gieo trồng và sản lượng của
một số cây trồng hàng năm quan trọng, trong đó cây lúa chiếm diện tích và sản
lượng lớn nhất [32] và [33].

Diện tích (nghìn ha)

Diện tích gieo trồng một số cây hàng năm thời điểm năm
2012
10000
8000
6000

Series1

4000
2000
0
Lúa

Ngô


Mía

Bông

Lạc

Đậu
tương

Cây trồng
Hình 1.3 Biểu đồ thống kê diện tích gieo trồng một số cây trồng hàng năm

2


Biểu đồ thống kê sản lượng một số cây trồng
hàng năm tại thời điểm năm 2012
Bông Lạc Đậu tương
0%
0% 1%
Mía
28%
Lúa
64%

Ngô
7%

Hình 1.4 Biểu đồ thống kê sản lượng một số cây trồng hàng năm tại thời điểm năm 2012


Lúa cũng là mặt hàng có giá trị và sản lượng xuất khẩu cao so với các mặt
hàng nông nghiệp khác. Ngành trồng lúa nước ta đã đạt được những thành tựu
đáng kể đưa Việt Nam trở thành nước có sản lượng gạo xuất khẩu lớn hàng đầu
thế giới. Hình 1.5 thống kê tình hình xuất khẩu nhóm hàng nông sản của Nước ta
tháng 10 năm 2013 theo [34] và [35].

Trị giá (Triệu USD)

Tình hình xuất khẩu nhóm hàng nông sản của Việt Nam
trong 10 tháng năm 2013
1000
900
800
700
600
500
400
300
200
100
0

Series1

Hàng
rau quả

Hạt
điều


Cà phê

Chè

Hạt tiêu

Gạo

Sắn & Cao su
sp sắn

Tên hàng

Hình 1.5 Biểu đồ thống kê tình hình xuất khẩu nhóm hàng nông sản của Nước ta tháng 10 năm
2013

3


Ngày nay, việc trồng lúa trở nên khó khăn hơn, phức tạp hơn, thường xuyên
phát sinh nhiều loại bệnh lạ và mới do môi trường, khí hậu bị ô nhiễm. Vì vậy việc
trồng lúa ngày nay đòi hỏi phải có sự tích lũy những kinh nghiệm, tích hợp các tri
thức và thông tin từ nhiều nguồn khác nhau. Để duy trì khả năng cạnh tranh, nâng
cao năng suất, chất lượng hạt gạo, người nông dân hiện đại thường dựa vào các
chuyên gia nông nghiệp và các cố vấn để cung cấp kiến thức, thông tin cho việc ra
quyết định. Khó khăn ở chỗ là các chuyên gia không phải lúc nào cũng luôn có sẵn
khi nhà nông cần đến và chi phí mà nông dân bỏ ra để được hỗ trợ là khá cao.
Với sự phát triển của mạng thông tin và các thiết bị di động, khả năng tiếp
cận với tri thức thông qua mạng thông tin di động càng ngày càng trở nên đơn
giản và phổ biến với tất cả mọi thành phần xã hội, đặc biệt là đối với người nông

dân.
Công nghệ thông tin và các giải pháp máy học đã phát triển khá mạnh mẽ
trong những năm gần đây, trong khi đó nguồn dữ liệu nông nghiệp dành cho khai
phá (mining) hiện còn rất khan hiếm. Đồng bằng sông Cửu Long hiện chưa có
một hệ thống tin học nào được xây dựng để hỗ trợ công tác khuyến nông và thực
hiện thu thập dữ liệu qua mạng thông tin di động.
Từ thực tiễn đó, việc xây dựng một hệ thống nhằm hỗ trợ về mặt thông tin,
kỹ thuật cho nhà nông đồng thời để thu thập dữ liệu thực tế là rất cần thiết và cấp
bách. Với sự ra đời của hệ thống này sẽ khắc phục được một phần những khó khăn
của người nông dân trong quá trình sản xuất lúa gạo, với khả năng ứng dụng rộng
rãi trong lĩnh vực nông nghiệp nó được xem là một công cụ hữu ích với tiềm năng
rộng lớn để hỗ trợ kỹ thuật cho nông dân một cách kịp thời, tiết kiệm chi phí và là
một công cụ hiệu quả để thu thập dữ liệu thực tế, đặc biệt là dữ liệu ảnh làm cơ sở
cho việc phát triển các hệ thống hỗ trợ tự động sau này.
1.2

Mục tiêu

Để xây dựng được một hệ thống hỗ trợ khuyến nông trên cây lúa hoàn chỉnh,
hoàn toàn tự động thì cần trải qua hai giai đoạn.
Giai đoạn một: Xây dựng hệ thống hỗ trợ khuyến nông trên cây lúa qua mạng
thông tin di động một cách bán tự động (có sự giám sát của điều phối viên) để thu
thập và xây dựng tập dữ liệu làm nền tảng cho việc phát triển giai đoạn hai của
nghiên cứu.
Giai đoạn hai: Xây dựng hệ thống hỗ trợ khuyến nông trên cây lúa qua mạng
thông tin di động một cách hoàn toàn tự động (không cần sự giám sát của điều phối
viên).
Mục tiêu của luận văn là hoàn thành được giai đoạn một của đề tài, là xây
dựng được một hệ thống bán tự động để hỗ trợ việc trồng lúa qua mạng thông tin di
động (có sự giám sát của con người) để thu thập và xây dựng tập dữ liệu làm nền

tảng cho việc phát triển giai đoạn hai của đề tài.
Mục tiêu cụ thể cần đạt được của giai đoạn một là:

4


a. Xây dựng được mô-đun quản lý, gửi và nhận tin nhắn SMS và MMS.
b. Xây dựng được mô-đun phân loại nội dung tin nhắn (bán tự động).
c. Xây dựng được mô-đun quản lý chuyên gia và nội dung phản hồi từ chuyên
gia.
d. Xây dựng thử nghiệm được mô-đun phân loại (tự động) nội dung tin nhắn
văn bản bằng kỹ thuật phân loại Máy học Vectơ Hỗ trợ (SVM).
e. Xây dựng được website tích hợp các mô-đun trên.
1.3

Nội dung

Khi nhà nông có vấn đề/câu hỏi (chẳng hạn như liên quan đến bệnh hại trên
cây lúa, cần tư vấn cách điều trị,…) thì họ có thể đặt câu hỏi bằng tin nhắn SMS
hoặc chụp lại hình ảnh hiện trạng (MMS) (có thể kèm theo câu hỏi) gửi đến hệ
thống bằng điện thoại di động. Yêu cầu này sẽ được hệ thống chuyển đến các
chuyên gia thích hợp trong từng lĩnh vực để được giải đáp. Ngay sau khi nhận được
phản hồi từ phía chuyên gia, hệ thống sẽ phản hồi lại kết quả cho nhà nông. Hệ
thống này cũng có thể xem như “Nhịp cầu nhà nông trực tuyến 24/7”.

Hình 1.6 Mô hình tổng quan hoạt động của hệ thống

Để xây dựng một hệ thống hoàn chỉnh cần trải qua hai giai đoạn như phần mục
đích của đề tài đã trình bày. Trong khuôn khổ luận văn chỉ thực hiện giai đoạn một


5


của đề tài là “Xây dựng hệ thống hỗ trợ khuyến nông trên cây lúa qua mạng
thông tin di động một cách bán tự động (có sự giám sát của điều phối viên)” để
thu thập và xây dựng tập dữ liệu làm nền tảng cho việc phát triển giai đoạn hai của
đề tài.
Đối với tin nhắn hình ảnh, khi hệ thống nhận được hình ảnh mà nhà nông gửi
lên, điều phối viên sẽ xem xét và phân loại hình ảnh đó rồi gửi cho chuyên gia giải
đáp, sau khi nhận được câu trả lời của chuyên gia thì hệ thống sẽ tự động gửi nội
dung trả lời cho nhà nông.
Đối với tin nhắn văn bản, khi nhận được câu hỏi của nhà nông qua mô-đun gửi
nhận tin nhắn SMS, mô-đun phân loại tin nhắn tự động sẽ tự động thực hiện một số
bước tiền xử lý cơ bản. Sau khi tách từ, do văn bản là tin nhắn, nên số lượng từ khóa
không nhiều và ít khi lặp lại, nghiên cứu đưa ra hai phương án chọn từ khóa là
phương án thủ công và phương án tự động. Với phương án thủ công thì hệ thống sẽ
giữ lại những từ có trong danh sách từ khóa (tập đặc trưng văn bản) đã được xây
dựng thủ công bởi các chuyên gia từ trước, sau đó véc-tơ hóa các từ được giữ lại đó
và đưa vào mô hình của phương án này để phân loại. Với phương án tự động thì hệ
thống sẽ chọn từ khóa bằng cách loại bỏ các từ dừng (stopwords) là những từ
thường xuất hiện trong văn bản nhưng không có giá trị phân loại chẳng hạn như từ
“và”, “nhưng”, “có”, “không”, sau đó véc-tơ hóa tất cả các từ còn lại và đưa vào mô
hình phân loại của phương án này để phân loại. Trong giai đoạn ban đầu này, bộ từ
khóa và tập dữ liệu do tác giả thu thập và xây dựng trong quá trình làm luận văn
chưa nhiều, chưa phong phú, đa dạng và khách quan nên việc phân loại tự động chỉ
nhằm mục đích minh họa cho mô-đun phân loại tự động và kiểm tra việc vận hành
của hệ thống, còn việc phân loại vẫn là một hệ thống bán tự động, có sự kiểm tra,
giám sát của con người. Do hệ thống hiện là bán tự động nên điều phối viên cần
kiểm tra kết quả phân loại của mô-đun tự động và thực hiện phân loại lại để làm cơ
sở cho việc xây dựng và huấn luyện lại mô hình, sau khi điều phối viên phân loại,

câu hỏi mới được chuyển đến chuyên gia thích hợp để trả lời. Khi nhận được câu trả
lời từ chuyên gia, hệ thống tự động gửi nội dung trả lời cho nhà nông.
Khi hệ thống nhận đủ số lượng tin nhắn SMS mới đến, hệ thống sẽ tự động
xây dựng lại bộ từ khóa và huấn luyện lại mô hình với bộ từ khóa và dữ liệu mới,
sau khi huấn luyện xong hệ thống sẽ sử dụng mô hình mới huấn luyện vào phân loại
tin nhắn mới đến hệ thống. Hệ thống sẽ lặp đi lặp đi lặp lại việc xây dựng lại bộ từ
khóa và huấn luyện lại mô hình cho đến khi lượng dữ liệu thu thập đủ lớn và độ
chính xác phân loại là chấp nhận được thì hệ thống sẽ chuyển sang giai đoạn hai của
đề tài là xây dựng hệ thống hỗ trợ khuyến nông trên cây lúa một cách tự động.
1.4

Đối tượng và phạm vi nghiên cứu

1.4.1 Nghiên cứu, tìm hiểu các cơ sở lý thuyết
a. Tìm hiểu, thu thập và xử lý dữ liệu (các câu hỏi/vấn đề) liên quan đến cây
lúa.
b. SMS, MMS và cách gửi nhận tin nhắn văn bản và đa phương tiện.

6


c. Kỹ thuật phân loại văn bản tự động với SVM, các kỹ thuật tách từ tiếng
việt.
1.4.2 Xây dựng hệ thống thử nghiệm
a. Mô-đun quản lý, gửi, nhận tin nhắn văn bản và đa phương tiện.
b. Mô-đun phân loại nội dung tin nhắn bán tự động.
c. Mô-đun quản lý chuyên gia và nội dung phản hồi từ chuyên gia.
d. Mô-đun thử nghiệm phân loại tự động nội dung tin nhắn văn bản bằng kỹ
thuật phân loại Máy học Vectơ Hỗ trợ (SVM).
e. Một website để tích hợp các mô-đun trên.

1.5

Ý nghĩa khoa học và thực tiễn

Đưa ứng dụng vào thực tế sử dụng và khai thác để hỗ trợ kịp thời về thông tin,
kỹ thuật cho nhà nông. Xây dựng một hệ thống dựa trên tri thức thực sự để đưa ra
những hỗ trợ nhanh chóng nhất, chính xác nhất, với chi phí hợp lý nhất, đáp ứng
đầy đủ những thắc mắc, yêu cầu của nhà nông.
Sau một thời gian vận hành và khai thác, hệ thống sẽ thu thập được một lượng
dữ liệu cần thiết, kết hợp với công nghệ khai phá dữ liệu, xử lý văn bản và xử lý ảnh
để xây dựng một hệ thống hỗ trợ khuyến nông trên cây lúa qua mạng thông tin di
động một cách hoàn toàn tự động.
Nếu mô hình này thành công thì sẽ có thể nhân rộng sang nhiều mô hình khác,
nhiều giống cây trồng, vật nuôi khác trong nông nghiệp và cả các lĩnh vực ngoài
nông nghiệp như giáo dục, y tế, kinh tế…

7


CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1

Hệ thống thông tin di động

2.1.1 Hệ thống tin nhắn văn bản (SMS)
a. Giới thiệu
SMS là viết tắt của Short Message Services (dịch vụ tin nhắn ngắn). Công
nghệ SMS cho phép gửi và nhận tin nhắn giữa điện thoại di động với nhau, giữa
máy vi tính hoặc thiết bị cầm tay với điện thoại di động. Mỗi tin nhắn SMS chứa tối
đa 140 bytes dữ liệu, vì vậy mỗi tin nhắn chứa:

 Không quá 160 ký tự nếu sử dụng kiểu mã hóa 7-bit (mã hóa ký tự 7 bit phù
hợp với kiểu mã hóa ký tự La-tinh chẳng hạn như bảng chữ cái tiếng Anh).
 Không quá 70 ký tự nếu sử dụng kiểu mã hóa UCS2 Unicode (tin nhắn văn
bản chứa những ký tự không phải ký tự La-tinh chẳng hạn như tiếng Trung
Hoa, là kiểu mã hóa ký tự 16 bit).
Tin nhắn văn bản SMS hỗ trợ đa ngôn ngữ toàn cầu. Tin nhắn SMS có thể
truyền tải dữ liệu nhị phân do đó SMS có thể được sử dụng như là một phương tiện
truyền tải vô tuyến. Công nghệ SMS cho phép “đẩy” thông tin. Điều này khác với
mô hình “kéo” là mô hình mà thiết bị phải thường xuyên thăm dò máy chủ để kiểm
tra xem có thông tin mới nào không. Mô hình “kéo” thường không phù hợp cho các
ứng dụng cảnh báo và thông báo vì nó lãng phí băng thông và tăng tải cho máy chủ.
Hình 2.1 mô tả hệ thống SMS và các thiết bị.

Hình 2.1 Hệ thống SMS và các thiết bị [10]

b.

Trung tâm tin nhắn SMS (SMSC)

8


Trung tâm tin nhắn SMS chịu trách nhiệm xử lý các hoạt động SMS của mạng
vô tuyến. Khi một tin nhắn được gửi từ một thiết bị nhắn tin, trước tiên tin nhắn đó
sẽ được gửi đến trung tâm tin nhắn SMS. Sau đó trung tâm tin nhắn sẽ chuyển tiếp
tin nhắn này đến máy đích. Một tin nhắn SMS có thể phải đi qua nhiều hơn một
trạm (nhiều SMSC và nhiều SMS Gateway) trước khi nó đến được máy đích.
Nhiệm vụ chính của SMSC là định tuyến tin nhắn SMS và điều chỉnh những tiến
trình này. Nếu máy nhận chưa sẵn sàng (đang tắt máy hoặc hết pin) thì SMSC sẽ lưu
trữ tin nhắn đó, và nó sẽ chuyển tiếp tin nhắn khi máy nhận đã sẵn sàng. Hình 2.2

mô tả cách thức SMS hoạt động thông qua một trung tâm tin nhắn SMS.

Hình 2.2 Cách thức SMS hoạt động thông qua một trung tâm tin nhắn SMS [11]

c.

SMS Gateway

Một vấn đề của việc truyền tải tin nhắn SMS là những SMSC được phát triển
bởi những tổ chức khác nhau sử dụng giao thức truyền thông riêng và hầu hết các
giao thức này là độc quyền. Chẳng hạn, Nokia có một giao thức SMSC gọi là CIMD
trong khi một nhà cung cấp khác là CMG lại có một giao thức gọi là EMI. Không
thể kết nối hai SMSC này lại với nhau nếu chúng không hỗ trợ cùng một giao thức
SMSC chung [13]. Để giải quyết vấn đề này, một SMS Gateway được đặt giữa hai
SMSC như minh họa trong hình 2.3.

Hình 2.3 Chức năng của SMS Gateway [12]

SMS Gateway hoạt động như một cầu nối giữa hai SMSC. Nó biên dịch giao
thức SMSC này thành giao thức SMSC kia và ngược lại. Bằng cách đó, nó có thể
kết nối các nhà mạng khác nhau lại để có thể trao đổi tin nhắn SMS trên liên mạng.
SMS Gateway làm giảm sự phức tạp và thời gian cho việc phát triển các ứng dụng
SMS [13]. Hình 2.4 minh họa một ứng dụng tin nhắn SMS kết nối đến SMSC mà
không qua trung gian SMS Gateway.

9


Hình 2.4 Ứng dụng SMS kết nối tới SMSC không qua trung gian SMS Gateway [12]


Ứng dụng SMS nếu không qua SMS Gateway sẽ cần phải hỗ trợ nhiều giao
thức SMSC cụ thể bởi vì các nhà mạng khác nhau có thể sử dụng SMSC của các
nhà cung cấp khác nhau. Với việc cài đặt SMS Gateway để tạo kết nối đến SMSC,
ta có thể giải quyết vấn đề phức tạp này. Khi đó các ứng dụng SMS chỉ cần biết làm
thế nào để kết nối tới SMS Gateway, các việc còn lại do SMS Gateway tự xử lý. Để
hỗ trợ thêm SMSC, chỉ cần bổ sung các thiết lập của SMS Gateway vào ứng dụng
SMS [13]. Hình 2.5 minh họa một ứng dụng SMS kết nối đến SMSC thông qua một
SMS Gateway.

Hình 2.5 Ứng dụng SMS kết nối tới SMSC qua trung gian SMS Gateway [12]

Bên cạnh việc sử dụng một kết nối trực tiếp đến trung tâm tin nhắn SMS của
nhà mạng không dây để gửi hoặc nhận tin nhắn, có một cách khác để gửi và nhận
tin nhắn SMS từ máy vi tính đó là sử dụng điện thoại di động hoặc modem
GSM/GPRS/3G kết nối trực tiếp vào máy tính. Để làm được điều đó, ứng dụng

10


SMS phải biết làm thế nào để giao tiếp với các thiết bị gửi tin này bằng cách sử
dụng lệnh AT. Một vài SMS Gateway có khả năng nắm giữ kết nối đến các thiết bị
gửi tin này, nhờ đó để gửi và nhận tin nhắn SMS từ máy tính với một điện thoại di
động hoặc modem được kết nối, ứng dụng SMS chỉ cần biết làm cách nào để giao
tiếp được với SMS Gateway và không cần phải biết gì về lệnh AT [13].

Hình 2.6 Một ứng dụng SMS kết nối đến điện thoại di động hoặc modem thông qua một SMS
Gateway [12]

d.


Cách gửi tin nhắn SMS

Về tổng thể, có 2 cách để gửi tin nhắn SMS từ máy tính đến điện thoại di
động:
Cách 1: Kết nối điện thoại di động hoặc modem GSM/GPRS/3G vào máy
tính. Sau đó dùng tập lệnh AT để chỉ thị cho điện thoại hoặc modem gửi tin nhắn
SMS.
Để gửi tin nhắn, trước hết cần lắp SIM được nhà mạng không dây cung cấp
vào điện thoại hoặc modem, sau đó kết nối modem vào máy vi tính bằng dây cáp,
hồng ngoại hay bluetooth. Sau khi kết nối thành công, ta có thể điều khiển modem
bằng cách gửi chỉ thị đến nó. Chỉ thị được sử dụng để điều khiển modem được gọi
là tập lệnh AT. Tập lệnh AT là những chỉ thị được sử dụng để điều khiển modem
hay điện thoại di động. AT là từ viết tắt của ATtention. Mọi dòng lệnh đều bắt đầu
bởi “AT” hay “at”.
Bảng 2.1 Một số lệnh AT liên quan đến việc gửi tin nhắn [14]
Lệnh AT
AT + CMGS
AT + CMSS
AT + CMGW
AT + CMGD
AT + CMMS

Công dụng
Gửi tin nhắn
Gửi tin nhắn từ bộ lưu trữ
Ghi tin nhắn vào bộ nhớ
Xóa tin nhắn
Gửi thêm tin nhắn

Cách 2: Kết nối máy tính với Trung tâm SMS (SMSC) hoặc SMS Gateway

của mạng không dây hoặc nhà cung cấp dịch vụ SMS. Sau đó gửi tin nhắn SMS

11


bằng cách sử dụng các giao thức/giao diện được hỗ trợ bởi SMSC hoặc SMS
Gateway.
Cách gửi tin nhắn thông qua modem hay điện thoại di động kết nối trực tiếp
với máy tính có hạn chế là tốc độ gửi tin nhắn SMS rất thấp. Nếu cần tốc độ gửi cao
hơn thì cần thiết phải thiết lập kết nối trực tiếp đến Trung tâm SMS hoặc SMS
Gateway của mạng không dây. Kết nối này có thể được thực hiện qua mạng Internet
hoặc kết nối quay số. Nếu không thể kết nối trực tiếp đến Trung tâm SMS hoặc
SMS Gateway của mạng không dây thì ta có thể kết nối đến SMS Gateway của một
nhà cung cấp dịch vụ SMS nào đó, lúc đó SMS Gateway này sẽ chuyển tiếp tin
nhắn SMS đến một Trung tâm SMS thích hợp.
Sau khi đăng ký và thiết lập tài khoản với nhà mạng không dây hoặc nhà cung
cấp dịch vụ SMS, ta đã có thể bắt đầu gửi tin nhắn SMS bằng cách sử dụng các giao
thức/giao diện được hỗ trợ bởi SMSC hoặc SMS Gateway.
e.

Cách nhận tin nhắn SMS

Tương tự như việc gửi tin SMS, ta cũng có 2 cách để nhận tin nhắn SMS trên
máy tính.
Cách 1: Kết nối điện thoại di động hoặc modem GSM/GPRS/3G vào máy
tính. Sau đó dùng máy tính và tập lệnh AT để đọc tin nhắn nhận được từ điện thoại
đi động hoặc modem.
Việc nhận tin nhắn SMS thông qua một modem có một lợi thế là nhà mạng
không dây thường không tính phí nhận tin nhắn khi dùng với một Mô-đun Nhận
diện Thuê bao (thẻ SIM). Bất lợi của việc nhận tin nhắn theo cách này là modem

không thể xử lý một số lượng lớn lưu lượng tin nhắn SMS truy cập. Có một cách để
giải quyết vấn đề này đó là sử dụng nhiều modem để cân bằng tải lưu lượng SMS
truy cập. Mỗi một modem sẽ có một thẻ SIM và số thuê bao riêng. Trong lập trình,
việc gửi và nhận tin nhắn SMS thông qua một modem là tương tự nhau. Những gì
cần phải làm là gửi các chỉ thị (dưới dạng lệnh AT) cho modem, các việc còn lại
modem tự thực hiện.
Bảng 2.2 Một số lệnh AT liên quan đến việc nhận tin nhắn SMS [14]
Lệnh AT

Công dụng

AT + CNMI
AT + CMGL
AT + CMGR

Để xác định tin nhắn mới
Liệt kê tất cả tin nhắn
Đọc tin nhắn

Cách 2: Truy cập đến Trung tâm tin nhắn (SMSC) hoặc SMS Gateway của
mạng không dây. Mọi tin nhắn SMS nhận được sẽ được chuyển tiếp đến máy tính
thông qua giao thức/giao diện được hỗ trợ bởi SMSC hoặc SMS Gateway.
Cũng giống như việc gửi tin nhắn, việc nhận tin nhắn thông qua điện thoại
hoặc modem GSM/GPRS có một số hạn chế, đó là tốc độ truyền tải SMS quá thấp.
Nếu cần tốc độ cao hơn thì cần thiết phải thiết lập kết nối trực tiếp đến Trung tâm
SMS hoặc SMS Gateway của mạng không dây.

12



Sau khi thiết lập một tài khoản với nhà mạng không dây hoặc nhà cung cấp
dịch vụ SMS, SMSC hoặc SMS Gateway sẽ bắt đầu chuyển tiếp các tin nhắn đến
ứng dụng SMS bằng cách sử dụng một số các giao thức/giao diện. Cũng giống như
việc gửi tin, để kết nối đến SMSC, bắt buộc phải có các giao thức SMSC. Việc nhận
tin nhắn theo cách này cũng dễ như việc gửi.
2.1.2 Hệ thống tin nhắn đa phương tiện (MMS)
a. Giới thiệu
MMS (Multimedia Messaging Service) là dịch vụ cho phép khách hàng có thể
gửi và nhận các tin nhắn đa phương tiện (bao gồm văn bản, hình ảnh, âm thanh,
đoạn video ngắn) từ điện thoại di động. Ngoài ra tin nhắn MMS cũng cho phép
người sử dụng gửi tin nhắn từ điện thoại đến địa chỉ email.
Để có thể gửi và nhận tin nhắn MMS người sử dụng phải có một điện thoại hỗ
trợ MMS. Nếu máy nhận có hỗ trợ MMS thì sẽ nhận được trực tiếp nội dung tin
nhắn MMS. Nếu máy nhận không hỗ trợ tin nhắn MMS thì tin nhắn nhận được là
một tin nhắn SMS có chứa địa chỉ trang Web mà người nhận có thể truy cập Internet
bằng máy tính để xem được nội dung tin nhắn MMS đó.

Hình 2.7 Hoạt động hệ thống tin nhắn MMS [13]

b. Trung tâm tin nhắn MMS (MMSC)
Trung tâm MMS (MMSC) là một trung tâm tin nhắn đa phương tiện. MMSC
bao gồm một MMS relay và một MMS server. MMS relay chịu trách nhiệm về
đường đi của tin nhắn không chỉ trong mà còn cả bên ngoài môi trường MMS.
Trong khi đó MMS server có trách nhiệm lưu trữ tạm thời những tin nhắn và đợi
thông tin từ phía máy nhận MMS.
MMSC tích hợp sẵn khả năng chuyển mã, chức năng hỗ trợ người dùng và các
cơ sở dữ liệu dùng để lưu trữ những cấu hình của người dùng. Tuy nhiên những

13



×