Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (12.75 MB, 296 trang )

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

LỜI NÓI ĐẦU
Hội thảo Khoa học Quốc gia lần thứ 5 về Nghiên cứu, phát triển và ứng dụng Công nghệ
Thông tin và Truyền thông (gọi tắt là Hội thảo ICT.rda’10) do Chương trình KHCN trọng
điểm cấp Nhà nước về Công nghệ Thông tin và Truyền thông giai đoạn 2006-2010 (Chương
trình KC.01/06-10) chủ trì dưới sự bảo trợ của Bộ Khoa học và Công nghệ và Bộ Thông tin và
Truyền thông đã được tổ chức thành công vào ngày 18/3/2011.
Hội thảo ICT.rda’10 được tổ chức trong khuôn khổ Lễ Tổng kết Chương trình KC.01/0610 đã nhận được hàng trăm báo cáo khoa học của các tác giả với các chủ đề đa dạng, tập trung
phản ánh các kết quả nghiên cứu mới nhất của các đề tài, dự án trong Chương trình.
Được sự đồng ý của Tạp chí Công nghệ Thông tin và Truyền thông (Bộ Thông tin và
Truyền thông), Ban Chương trình Hội thảo ICT.rda’10 và Ban Biên tập Chuyên san “Các công
trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông” đã tiến hành
quy trình phản biện tuyển chọn các bài báo có chất lượng để công bố trong số đặc biệt của
Chuyên san thay cho Kỷ yếu của Hội thảo.
Ban Chương trình Hội thảo và Ban Biên tập Chuyên san chân thành cám ơn các nhà khoa
học đã nhiệt tình tham gia báo cáo, đánh giá phản biện các báo cáo để xuất bản số Chuyên san
đặc biệt này.

GS.TS. Nguyễn Thúc Hải
Trưởng Ban Chương trình Hội thảo ICT.rda’10 - Trưởng Ban Biên tập Chuyên san

-3-

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Mục lục
Tác giả
Phan Thượng Cang
Lê Quyết Thắng
Đỗ Thanh Nghị

Tên bài

Trang

Dịch vụ hỗ trợ ngữ nghĩa cho nông dân tìm kiếm thông tin
về dịch hại

12

Nhận dạng tấn công mạng với mô hình trực quan cây quyết định

23

Tiếp cận đa tác tử trên môi trường hệ thống thông tin địa lý
mô phỏng sự lan truyền dịch bệnh cá tra

32

Một giải pháp thiết kế, chế tạo máy thu đa kênh cho đài rađa
cộng hưởng cảnh báo sớm các mục tiêu có dấu vết nhỏ

45

Thiết kế chế tạo máy thu đa kênh dùng cho rađa cộng hưởng

dải sóng mét trên cơ sở sử dụng linh kiện tích hợp cao

54

Nghiên cứu xây dựng hệ thống rađa thụ động sử dụng tín hiệu
phát thanh, truyền hình tại Việt Nam

64

Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới dữ liệu
VNGrid

72

Mô phỏng và chế tạo cách tử Bragg trong sợi quang

82

Lê Quyết Thắng
Hồ Văn Tú
Huỳnh Xuân Hiệp
Alexis Drogoul
Nguyễn Thị Ngọc Minh
Nguyễn Văn Hạnh
Trần Mạnh Quý
Trần Thị Trâm
Lê Ngọc Uyên
Nguyễn Thành
Võ Văn Phúc
Trần Minh Tuấn

Lương Xuân Trường
Đào Quang Minh
Lê Đức Tùng
Lê Đức Hùng
Nguyễn Hữu Đức
Nguyễn Thanh Thủy
Phạm Thanh Bình
Nguyễn Thúy Vân
Nguyễn Thế Anh
Nguyễn Thanh Hải
Bùi Huy
Phạm Văn Hội

-4-

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Nguyễn Thế Hiếu
Nguyễn Trọng Tuấn
Nguyễn Đại Hưng

Nghiên cứu chế tạo hệ thống LIDAR đo đạc thông số khí quyển

89

Đinh Văn Trung
Nguyễn Thanh Bình

Đặng Trọng Trình
Nguyễn Tuấn Phước
Nguyễn Tư Hoàn

Thiết kế lõi điều khiển bộ nhớ DDR3 SDRAM tích hợp
trong hệ thống SoC theo chuẩn giao tiếp AMBA AXI
tay

99

Nguyễn Linh Giang

Một cách tiếp cận cho bài toán nhận dạng kí tự viết
bằng mạng nơ-ron nhân chập

Hà Quốc Trung

Mô hình hệ thống giám sát mạng hướng chức năng của dịch vụ

118

Xây dựng bộ hệ số tin cậy bằng thuật giải di truyền
cho nhận dạng ảnh đối tượng

124

Hệ thống tìm kiếm video bằng giọng nói với bộ từ vựng giới hạn

134

Một đề xuất phát triển hệ thống hỏi đáp thông tin hỗ trợ tiếng Việt

141

109

Lê Hoàng Thái
Trương Phước Hưng
Đặng Đăng Khoa
Dương Anh Đức
Nguyễn Ngọc Huệ
Lê Nguyễn Tường Nhi
Phạm Minh Nhựt
Dương Anh Đức
Vũ Hải Quân
Phan Thị Tươi
Nguyễn Chánh Thành
Huỳnh Thị Ngọc Thúy
Nguyễn Đình Dũng

Một số cải tiến thuật toán phân cụm c-means mờ loại hai
152

Ngô Thành Long
Phạm Thế Long
Bùi Trọng Tùng
Nguyễn Linh Giang

Mô hình tích hợp sinh trắc tăng cường an ninh cho cơ sở hạ tầng
khóa công khai PKI

Lương Ánh Hoàng

-5-

163

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Hoàng Xuân Minh
Nguyễn Thị Hoàng Lan

Tập V-1, Số 6 (26), tháng 9/2011

Thuật toán xác thực đa sinh trắc trong hệ thống BioPKI

172

Trần Quang Đức
Nguyễn Văn Toàn
Nguyễn Thị Hương Thủy
Nguyễn Ngọc Kỷ

Bảo mật truy cập dựa trên hệ BioPKI và ứng dụng để bảo mật
hệ nhận dạng vân tay C@FRIS

183

Nguyễn Thị Hoàng Lan

Hoàng Đăng Hải

Một hướng tiếp cận mới cho thiết kế và phát triển các hệ thống
phát hiện xâm nhập mạng

196

Ngô Thị Duyên
Trần Nguyễn Lê
Lê Quốc Khánh

Cách tiếp cận để xây dựng khuôn mặt nói tiếng Việt

207

Phạm Chính Hữu
Bùi Lê Hùng
Ma Thị Châu
Nguyễn Đình Tư

Mô hình hóa khuôn mặt ba chiều dựa vào cặp ảnh

217

Nguyễn Tấn Khôi

Tái tạo mặt cong dựa trên lược đồ hợp mảnh không đồng nhất
Catmull-Clark

225

Ngô Hoàng Huy

Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng hợp

236

Lê Hoàn

Giải thuật xấp xỉ cho bài toán đặt trạm chuyển tiếp trong mạng
WiMAX 802.16j

242

Một cách tiếp cận mới cho vấn đề nâng cao khả năng mở rộng
của hệ thống thông tin theo mô hình tính toán khắp nơi

250

Giải pháp lọc nội dung hỗ trợ quản lý và đảm bảo an toàn
– an ninh trên Internet

260

Bùi Thế Duy
Đặng Trung Kiên

Ngô Hồng Sơn
Nguyễn Chấn Hùng
Hà Quang Thụy

Nguyễn Ngọc Hóa
Nguyễn Viết Thế
Lương Nguyễn Hoàng Hoa

-6-

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Lê Hoàng Sơn
Phạm Huy Thông
Trương Thị Hạnh Phúc

Một cải tiến của thuật toán SESA cho bài toán tăng tốc hiển thị
địa hình GIS-3D

271

Kỹ thuật mã hóa âm tiết tiếng Việt và các mô hình N-GRAMS
ứng dụng kiểm lỗi cách dùng từ và cụm từ tiếng Việt

280

Mạng truy nhập sử dụng công nghệ PON với topo lưới
có dự phòng

290

Nguyễn Đình Hóa
Nguyễn Thị Hồng Minh
Trần Ngọc Anh
Đào Thanh Tĩnh
Trương Thị Diệu Linh

Phạm Tuấn Anh

Danh sách phản biện Chuyên san tiếng Việt V-1, số 6 (26), tháng 9-2011

-7-

296

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Contents
Authors
Phan Thuong Cang
Le Quyet Thang
Do Thanh Nghi

Paper name

Page

The Semantic Support Service for Farmers in Searching

for Pest Information

12

Network Intrusion Detection with Intuitive Decision Trees

23

Multi Agent-Based Approach in GIS
Simulation of Catfish Disease Propagation

32

Le Quyet Thang
Ho Van Tu
Huynh Xuan Hiep

Environment:

Alexis Drogoul
Nguyen Thi Ngoc Minh
Nguyen Van Hanh
Tran Manh Quy

One Solution to Design and Manufacture a VHF- Band Multi
Channel Receiver for Small RCS Targets Early Warning
Resonance Radar

45

Design and Manufacture Multi – Channel Receiver For Meter
Band Resonance Radar Using High Integreted Components

54

Research to Build a Passive Radar System Using Broadcasting
Signals In Vietnam

64

Building a Digital Document Matching Service on VNGRID
Data Grid

72

Fiber Bragg Grating: from Simulation and Fabrication

82

Tran Thi Tram
Le Ngoc Uyen
Nguyen Thanh
Vo Van Phuc
Tran Minh Tuan
Luong Xuan Truong
Dao Quang Minh
Le Duc Tung
Le Duc Hung
Nguyen Huu Duc
Nguyen Thanh Thuy

Pham Thanh Binh
Nguyen Thuy Van
Nguyen The Anh
Nguyen Thanh Hai
Bui Huy
Pham Van Hoi

-8-

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Nguyen The Hieu
Nguyen Trong Tuan
Nguyen Dai Hung

Designing and Manufacturing LIDAR System for Measurement
the Atmospheric Parameter

89

Hardware Implementation of AXI-Compatible DDR3 SDRAM
Controller for SoC

99

An Approach for Handwriting Character Recognition Using
Convolutional Neural Network

109

A Service Functionality Oriented Network Management System
Model

118

Using Genetic Algorithms to Find Reliable Set of Coefficients
for Face Recognition

124

A Voice Search System in Small Vocabulary Context

134

A Proposal of Vietnamese Question Answering System
Development

141

Some Improvements of Type-2 Fuzzy C-Means Clustering
Algorithm

152

A Biometric and Public Key Infrastructure (PKI) Integration
Model for Strengthening Security

163

Dinh Van Trung
Nguyen Thanh Binh
Dang Trong Trinh
Nguyen Tuan Phuoc
Nguyen Tu Hoan
Nguyen Linh Giang
Ha Quoc Trung
Le Hoang Thai
Truong Phuoc Hung
Dang Dang Khoa
Duong Anh Duc
Nguyen Ngoc Hue
Le Nguyen Tuong Nhi
Pham Minh Nhut
Duong Anh Duc
Vu Hai Quan
Phan Thi Tươi
Nguyen Chanh Thanh
Huynh Thi Ngoc Thuy
Nguyen Dinh Dung
Ngo Thanh Long
Pham The Long
Bui Trong Tung
Nguyen Linh Giang
Luong Anh Hoang

-9-

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Hoang Xuan Minh
Multibiometric Authentication Algorithm in BioPKI System
Nguyen Thi Hoang Lan

172

Tran Quang Duc
Nguyen Van Toan
Nguyen Thi Huong Thuy
Nguyen Ngoc Ky

Security Access Control Based
and Application for C@FRIS System

on

BioPKI

System
183

Nguyen Thi Hoang Lan
A New Approach for Designing and Developing Network
Intrusion Detection Systems

196

An Approach for Building a Vietnamese Talking Face

207

3D Facial Modeling from Pair of Images

217

Nguyen Tan Khoi

A Surface Reconstruction Approach Based on Non- Uniform
Inverse Catmull-Clark Subdivisions

225

Ngo Hoang Huy

Forecasting
Acoustic
for Speech Synthesis

236

Hoang Dang Hai
Ngo Thi Duyen
Tran Nguyen Le
Le Quoc Khanh
Pham Chinh Huu

Bui Le Hung
Ma Thi Chau
Nguyen Dinh Tu
Bui The Duy
Dang Trung Kien

Le Hoan
Ngo Hong Son
Nguyen Chan Hung

Values of Vietnamese Prosody

Heuristic Approach for Optimal Placement of Relay Stations in
WiMAX 802.16j Networks

242

A Novel Approach for Improving Scalibility of Pervasive
Information System

250

Ha Quang Thuy
Nguyen Ngoc Hoa

Toward a Content-Based Filtering Solution for Supporting
Internet Information Security

Nguyen Viet The
Luong Nguyen Hoang Hoa

- 10 -

260

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Le Hoang Son
Pham Huy Thong
Truong Thi Hanh Phuc

An Improvement of SESA Algorithm for Terrain Splitting
and Mapping Problem

271

Nguyen Dinh Hoa
Nguyen Thi Hong Minh
Tran Ngoc Anh

Apply The Coding Vietnamese Syllable and N-GRAM Models

Dao Thanh Tinh

to Check The Usage of Word and Chunk in Vietnamese Text

280

Truong Thi Dieu Linh
Survivable Mesh PON Access Networks

290

Pham Tuan Anh
List of Paper Reviewers in Volume V-1, No.6 (26), September (2011)

- 11 -

296

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Dịch vụ hỗ trợ ngữ nghĩa cho nông dân
tìm kiếm thông tin về dịch hại
The Semantic Support Service for Farmers
in Searching for Pest Information
Phan Thượng Cang, Lê Quyết Thắng
Abstract: Nowadays, to improve crop-livestock
productivity, farmers have continuously self-improved
their knowledge via various media, and especially, the
Internet. In reality, however, they faced many
difficulties in accessing information on pest
prevention. These have partly derived from the current
keyword-based web search engines. Another

important reason is that Vietnamese language used
among individual farmers, scientists, managers and
regions are different. In this paper, we propose three
Ontologies for pest prevention on rice, shrimp and
fish. With the proposed ontologies, we built the
semantic generator, semantic processor and
developed an application called semantic support
service for farmers in finding information on pest. As
a result, this service will assist the three objects
including farmers, scientists and managers in
“meeting together” when they have the same idea but
different expressions. The service is actually practical
by offering farmers an online consultant in the field of
agriculture and fisheries. Also, it provides knowledge
warehouse about pest prevention for farmers in the
Mekong Delta provinces as well as for the ones in
Vietnam.

I. ĐẶT VẤN ĐỀ
Ngày nay, phần lớn các thông tin cần thiết trong
các lĩnh vực như nông nghiệp, thủy sản, giáo dục, y tế,
pháp luật, v.v, đều được cung cấp trên mạng Internet.

Những thông tin đó được các cơ quan, tổ chức hoặc
các cá nhân tạo ra với những mục đích khác nhau và
thường xuyên được cập nhật. Người sử dụng Web có
thể tìm ra thông tin bằng cách sử dụng các công cụ tìm
kiếm hiện có và theo các liên kết để tìm ra các tài
nguyên liên quan.
Tuy nhiên, tính đơn giản của Web hiện nay đã dẫn

tới một số hạn chế như: chúng ta có thể dễ dàng bị lạc
hay phải đối mặt với một lượng thông tin khổng lồ,
không hợp lý và không liên quan mà chúng được trả
về từ một công cụ tìm kiếm trên Web. Thật vậy, nếu
xét trong lĩnh vực nông nghiệp và thủy sản, hằng ngày
không ít nông dân và nhà quản lý phải sử dụng
phương tiện Internet để tra cứu các giống nuôi, cây
trồng, triệu trứng và cách phòng trị bệnh cho cây trồng
hay vật nuôi của mình. Trong trường hợp đó, họ gặp
rất nhiều khó khăn để xác định thông tin nhận được là
chính xác và phù hợp với điều kiện nuôi trồng của
mình. Nhiều câu hỏi của nông dân khó tìm được câu
trả lời hợp lý mặc dù nhiều tổ chức hay hội nuôi trồng
đã có đầy đủ các thông tin và kinh nghiệm về vấn đề
đó và cung cấp rộng rãi dưới nhiều hình thức khác
nhau. Bên cạnh đó, với cùng một ý nghĩa, nhưng ngôn
ngữ được sử dụng để truy vấn thông tin của nhà nông,
nhà khoa học và nhà quản lý là khác nhau. Thậm chí,
sự khác nhau đó còn thể hiện ở những vùng miền. Một
ví dụ cụ thể để minh họa cho vấn đề trên là một nhà
khoa học chia sẻ thông tin về bệnh nhiễm trùng máu
trên cá basa lên Internet. Người nông dân thay vì sử
dụng câu truy vấn “bệnh nhiễm trùng máu trên cá

- 12 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
basa” thì họ lại dùng từ ngữ quen thuộc của mình là
“bệnh đốm đỏ của cá basa là sao” mặc dù chúng có

cùng nghĩa. Điều này dẫn đến kết quả tìm kiếm không
như ý muốn. Chúng ta thử dùng công cụ tìm kiếm
Google để trả lời cho câu hỏi trên với cụm từ khóa
“bệnh đốm đỏ của cá basa”, sau đó thu được khoảng
8.890 kết quả tìm kiếm có dạng: “chữa bệnh đốm đỏ ở
cá mè trắng”, “Một số bệnh của cá tra và basa”, “Bệnh
trên các loài cá nước ngọt”, “Dịch bệnh đốm trắng, đỏ
thân, đầu vàng”, “Tác nhân gây bệnh đốm trắng trên
gan”, “Kỹ thuật nuôi cá basa và cá tra”, “Đừng ăn cá
Basa”… Rõ ràng những câu trả lời là chưa thỏa đáng
thậm chí là ‘lạc đề’. Chúng ta sẽ giải quyết vấn đề này
bằng cách nào?
Sự bùng nổ thông tin trên Internet hiện nay đã gây
ra nhiều khó khăn trong việc rút trích, bảo trì và phát
triển thông tin. Máy tính chỉ được dùng như một thiết
bị gửi và nhận thông tin. Do đó, chúng chỉ hỗ trợ ở
mức giới hạn nào đó trong việc truy xuất hay xử lý
thông tin. Kết quả là người sử dụng phải gánh trên vai
trách nhiệm không những truy cập và xử lý thông tin
mà còn rút trích và thông dịch mọi thông tin.
Để khắc phục các yếu điểm của Web hiện tại, khái
niệm Web ngữ nghĩa (Semantic Web) đã ra đời. Theo
Tim Berners Lee, Web ngữ nghĩa là sự mở rộng của
Web hiện tại mà trong đó thông tin được bổ sung thêm
ngữ nghĩa mà máy tính có thể hiểu và tăng khả năng
xử lý tự động [1].
Sử dụng Web ngữ nghĩa để xây dựng dịch vụ hỗ
trợ ngữ nghĩa cho nông dân nhằm từng bước hiện thực
hóa việc liên kết ba nhà: nhà nông, nhà khoa học và
nhà quản lý trong việc phòng chống dịch bệnh và tăng

năng suất cây trồng vật nuôi. Vấn đề này đã trở nên
bức thiết hơn bao giờ hết khi mà tình hình dịch bệnh
trên cây trồng vật nuôi trong những năm gần đây ở
nước ta có nhiều diễn biến phức tạp. Đó là lý do chính
mà chúng tôi đã quan tâm và thực hiện trong một phân
hệ của đề tài KC.01.15/06-10.
Trong bài viết này, chúng tôi không dự định trình

Tập V-1, Số 6 (26), tháng 9/2011

bày lại Web ngữ nghĩa và các công nghệ có liên quan
bởi vì nó đã được nói đến trong nhiều bài báo trước
đây [1,5,16-17] hoặc gần đây [7,13]. Thay vào đó,
chúng tôi tập trung trên đề xuất ba bộ từ vựng và ba
Ontology tương ứng trong lĩnh vực phòng chống dịch
hại cho Lúa, Tôm và Cá. Trên cơ sở các Ontology đã
đề xuất, chúng tôi đã xây dựng bộ tạo ngữ nghĩa, bộ
xử lý và bộ giao tiếp với người dùng cho dịch vụ hỗ
trợ ngữ nghĩa cho nông dân trong việc tìm kiếm thông
tin dịch hại.
Nội dung của bài viết được trình bày với bố cục
như sau. Sau phần đặt vấn đề, phần II sẽ trình bày sơ
lược về Ontology và một số nhận xét khi phát triển
Ontology trong những bước tiếp theo. Trong phần III,
chúng tôi đề cập đến việc xây dựng các bộ từ vựng về
phòng chống dịch hại trên lúa, tôm và cá. Dựa trên kết
quả ba bộ từ vựng đã xây dựng, chúng tôi đề xuất ba
Ontology trong lĩnh vực phòng chống dịch hại và đây
sẽ là nội dung của phần IV. Phần V trình bày việc xây
dựng dịch vụ hỗ trợ ngữ nghĩa cho nông dân. Phần VI

trình bày kịch bản ứng dụng minh họa hiện thực hóa
từ các Ontology và mô hình đề xuất. Phần VII tổng kết
về các đề xuất và kết quả đã thực hiện.
II. ONTOLOGY
Trong lĩnh vực tin học, Ontology có nhiều định
nghĩa khác nhau [6,14]. Ontology là mô hình khái
niệm trong phạm vi ứng dụng nhất định, có thể chia sẻ
và thực thi trên máy tính (Maedche & B. Motik & L.
Stojanovic, 2003). Định nghĩa gần đây nhất của Ivan
Herman, thành viên của tổ chức W3C, Ontology định
nghĩa các khái niệm và những mối quan hệ dùng để
diễn tả và trình bày trong một lĩnh vực [7].
Mặc dù có nhiều định nghĩa khác nhau tùy thuộc
vào quá trình phát triển và phạm vi nghiên cứu. Nhưng
bản chất của Ontology không thay đổi và có những
tính chất chung như được sử dụng để mô tả phạm vi
ứng dụng nhất định, các khái niệm và quan hệ được
định nghĩa rõ ràng trong phạm vi ứng dụng, cơ chế tổ
chức các khái niệm thường là phân cấp và Ontology

- 13 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
cho phép chúng ta biểu diễn từ việc tham chiếu các
luật.
Các thành phần chính trong Ontology:
Khái niệm: là một thành phần dùng để tổ chức
phân loại tập các thuộc tính, các thao tác đặc trưng
vốn có của bất cứ thành phần nào thuộc lĩnh vực đang

thực hiện.
Quan hệ: dùng để thể hiện sự tương tác lẫn nhau
của các khái niệm.
Thể hiện: là phần tử cụ thể và xác định của khái
niệm trong Ontology.
Slots: một khái niệm được định nghĩa bằng bộ
ba: Property, Facet và Filler, bộ ba này được gọi là
Slots.
Thuộc tính: là một bộ ba của một khái niệm
(Object, Event, Property) hoặc được dùng để định
nghĩa các khái niệm khác trong Ontology như Object,
Event và cả Property khác.
Một số nhận xét khi phát triển một Ontology:
Chưa có một cách nào để hoàn chỉnh mô hình
một Domain. Giải pháp tốt nhất tùy thuộc vào ứng
dụng mà chúng ta nghĩ đến và sự mở rộng mà chúng ta
lường trước.
Những khái niệm trong Ontology phải gần gũi
với những đối tượng và mối quan hệ với Domain.
Những khái niệm giống như là chủ ngữ và vị ngữ mà
chúng ta dùng để mô tả Domain.
Quyết định sử dụng Ontology để làm gì và chi
tiết hay tổng quát Ontology đó như thế nào sẽ giúp
chúng ta ở những bước sau. Điều cần lưu ý, một
Ontology là một mô hình của thế giới thực vì thế
những khái niệm trong nó phải phản ánh thế giới thực.
Sau khi chúng ta định nghĩa một Ontology ban đầu,
chúng ta có thể đánh giá và sửa lỗi nó bằng cách dùng
nó vào ứng dụng thực tế hoặc trao đổi với chuyên gia
thuộc lĩnh vực đó.

Tập V-1, Số 6 (26), tháng 9/2011

III. XÂY DỰNG CÁC BỘ TỪ VỰNG VỀ PHÒNG
CHỐNG DỊCH HẠI
III.1. Phương pháp xây dựng các bộ từ vựng về
phòng chống dịch hại
Để thực hiện việc xây dựng bộ từ vựng phòng
chống dịch bệnh trên lúa, tôm và cá, chúng ta có nhiều
hướng tiếp cận khác nhau. Phương pháp nghiên cứu,
phân tích tổng hợp, lấy ý kiến chuyên gia và tiếp xúc
trực tiếp người nông dân là một lựa chọn để nhóm
thực hiện.
Từ ngữ của nhà khoa học thường xuất hiện trên các
sách báo, bài viết hay Internet. Nhà quản lý cũng có
thể là nhà khoa học nên từ ngữ của họ cũng gần với
nhà khoa học và có mở rộng thêm các từ mà nông dân
thường sử dụng để dễ dàng cho việc quản lý. Từ ngữ
người nông dân đa phần là các từ địa phương, các từ
mang tính quan sát và miêu tả. Bằng phương pháp đã
chọn, mặc dù các từ ngữ khác nhau do cách sử dụng
của ba nhà nhưng chúng đã được đối chiếu tương ứng.
Với các tài liệu về phòng chống dịch bệnh trên lúa,
tôm và cá, chúng tôi đã tiến hành phân tích để xây
dựng bộ từ vựng về phòng chống dịch bệnh. Tiếp tục
khảo sát, lấy ý kiến đóng góp của các chuyên gia quản
lý hay nhà khoa học để hoàn thiện bộ từ vựng theo nhà
quản lý và nhà khoa học.
Tiếp xúc trực tiếp người nông dân ở các khu vực
khác nhau để lấy thông tin về phòng chống dịch bệnh

dựa trên bộ từ vựng của nhà quản lý. Từ đó, chúng tôi
xây dựng bộ từ vựng cho người nông dân trong lĩnh
vực phòng chống dịch bệnh. Qua đó, bộ từ vựng về
phòng chống dịch bệnh cho nhà khoa học và nhà quản
lý đã được xây dựng hoàn chỉnh. Riêng đối với bộ từ
vựng của nhà nông từng bước được hoàn chỉnh dần,
bộ từ vựng này sẽ được xây dựng như một bộ từ mở
thường xuyên được cập nhật.
III.2. Bộ từ vựng về phòng chống dịch hại trên lúa
Tiến hành thu thập các tài liệu có liên quan đến
phòng chống dịch hại trên lúa và xác định một số

- 14 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
thông tin như: tên bệnh, tác nhân, triệu chứng, tác hại,
nấm gây bệnh, điều kiện phát sinh, phát triển, biện
pháp phòng trừ, v.v.
Trong phần này, chúng tôi giới thiệu một từ vựng
trong tập từ vựng phòng chống dịch hại trên lúa. Mục
đích chính là nhằm minh họa cho vấn đề đã nêu trong
mục III.1.

số bệnh thường gặp trên tôm. Đặc biệt là đối với tôm
sú, một đối tượng trọng điểm được nuôi ở khu vực
Đồng bằng sông Cửu Long. Bộ từ vựng được phân
loại theo thuật ngữ thường dùng của ba nhà với các
lớp sau: các từ vựng về bộ phận trên tôm, các từ vựng
về bệnh trên tôm, các từ vựng về triệu chứng bệnh lý,

các từ vựng về phòng trị bệnh trên tôm.
Bảng 2: Từ vựng của ba nhà đối với
Bệnh thân đỏ đốm trắng

Bảng 1: Từ vựng của ba nhà đối với Bệnh đạo ôn
Nhà Khoa
học
Bệnh đạo
ôn

Nhà Quản lý
Bệnh đạo ôn,
Bệnh cháy lá,
Bệnh khô cổ
bông,
Bệnh khô cổ gié.

Tập V-1, Số 6 (26), tháng 9/2011

Nhà Nông

Nhà Khoa học
White spot
syndrime virus.
Systemic
Ectodermal and
Mesodorma
Baculoviras.

Bệnh đạo ôn,

Bệnh cháy lá,
Bệnh khô cổ bông,
Bệnh khô cổ gié,
Bệnh thối cổ bông,
Bệnh thối cổ gié,
Bệnh thúi cổ bông,
Bệnh đạo ôn lá,
Bệnh thúi khô.

Nhà Quản lý
Hội chứng
đốm trắng ở
giáp xác,
WSSV,
SEMBV.

Nhà Nông
Bệnh đốm
trắng,
Bệnh thân đỏ
đốm trắng.

III.4. Bộ từ vựng về phòng chống dịch hại trên cá

Bảng 1 cho thấy, mặc dù cùng đề cập về một bệnh
hại trên lúa là “đạo ôn” nhưng giữa nhà khoa học, nhà
quản lý và nhà nông lại có những tên gọi khác nhau về
nó.
Kết quả chúng tôi đã xây dựng bộ từ vựng phòng
chống dịch hại trên lúa theo thuật ngữ thường dùng

của nhà nông, nhà quản lý và nhà khoa học với các lớp
sau: các từ vựng về sâu hại, các từ vựng về thuốc
phòng trừ sâu hại, các từ vựng về bệnh hại, các từ
vựng về thuốc phòng trừ bệnh hại, các từ vựng về
giống lúa, các từ vựng về thời kỳ sinh trưởng và phát
triển của cây lúa, các từ vựng về triệu chứng của dịch
hại, các từ vựng về tác hại của dịch hại.
III.3. Bộ từ vựng về phòng chống dịch hại trên tôm
Một từ vựng trong tập từ vựng phòng chống dịch
bệnh trên tôm.
Bảng 2 thể hiện nhiều tên gọi khác nhau của cùng
một bệnh dịch trên tôm là “thân đỏ đốm trắng”.
Bộ từ vựng đã được xây dựng chủ yếu dựa trên một

Với kiến thức về bệnh lý của các bệnh thường gặp
trên cá, kết hợp với ý kiến của chuyên gia và tiếp xúc
với nông dân tại các vùng nuôi cá trong khu vực, ban
đầu bộ từ vựng về phòng chống dịch bệnh trên cá đã
được xây dựng. Nó chủ yếu là bộ từ về bệnh, dấu hiệu
bệnh lý và cách phòng trị bệnh trên cá. Bộ từ này được
phân loại như sau: các từ vựng về bộ phận trên cá, các
từ vựng về loại bệnh, các từ vựng về dấu hiệu bệnh lý,
các từ vựng về phòng và trị bệnh.
IV. ĐỀ XUẤT 3 ONTOLOGY TRONG LĨNH
VỰC PHÒNG CHỐNG DỊCH HẠI
Thông qua việc phân tích các bộ từ vựng, chúng tôi
thiết lập được mối quan hệ giữa các nhóm từ cũng như
vấn đề liên kết ngữ nghĩa trong cách diễn tả của mỗi
đối tượng. Từ đó, xây dựng được tri thức về bản thể
luận (Ontology) cho phòng chống dịch hại trên lúa,

tôm và cá. Việc đề xuất ba Ontology về phòng chống
dịch hại dựa trên cơ sở là ba bộ từ vựng của nhà quản
lý làm bộ từ chuyên môn bởi vì bộ từ vựng của nhà
quản lý có nhiều ưu điểm cho quá trình xây dựng
Ontology. Nó có ít từ đồng nghĩa, đa nghĩa và chính
xác hơn so với bộ từ của nhà nông do đó dễ dàng cho

- 15 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
quá trình xây dựng Ontology và xử lý ngữ nghĩa trong
cấu trúc truy vấn. Bên cạnh đó, nhà quản lý cũng có
thể là nhà khoa học và họ thường cập nhật thông tin vì
vậy bộ từ này luôn xuất hiện trên các sách báo, bài
viết, Internet, v.v. Ngoài ra, bộ từ vựng nhà quản lý có
nhiều từ được sử dụng cũng được chính nhà nông
thường sử dụng và ít dùng tiếng nước ngoài nên dễ
dàng chuẩn hóa hơn so với từ khoa học.
IV.1. Đề xuất Ontology trong lĩnh vực phòng chống
dịch bệnh trên lúa
Ontology sau khi xây dựng xong, nó có khả năng
trả lời các câu hỏi như: Sâu A có tác hại như thế nào?
Triệu chứng B liên quan đến bệnh gì? Để trị bệnh C
cần thuốc gì? Tác nhân của bệnh D là gì?. Cấu trúc
phân lớp của các lớp trong Ontology lúa được thể hiện
như Hình 1.

Tập V-1, Số 6 (26), tháng 9/2011

IV.2. Đề xuất Ontology trong lĩnh vực phòng chống
dịch hại trên tôm
Ontology sau khi xây dựng xong, có khả năng trả
lời các câu hỏi như: Bệnh X có triệu chứng như thế
nào? Triệu chứng Y là của bệnh gì? Bệnh X có biện
pháp phòng trị bệnh như thế nào?. Cấu trúc phân lớp
của các lớp trong Ontology tôm được thể hiện như
Hình 2.
IV.3. Đề xuất Ontology trong lĩnh vực phòng chống
dịch bệnh trên cá
Ontology sau khi xây dựng xong, nó có khả năng
trả lời các câu hỏi như: Bệnh X có biểu hiện như thế
nào? Biểu hiện X là của bệnh gì? Bệnh X có phòng trị
bệnh ra sao? Cách phòng trị X là của bệnh gì?. Cấu
trúc phân lớp của các lớp trong Ontology cá được thể
hiện trong sơ đồ Hình 3.

Trong đó Dich_hai_lua: chứa các khái niệm về
dịch hại lúa.

Hình 1. Cấu trúc phân lớp của Ontology trong lĩnh vực phòng chống dịch bệnh trên lúa.

- 16 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Hình 2. Cấu trúc phân lớp của Ontology trong lĩnh vực phòng chống dịch hại trên tôm.

Hình 3. Cấu trúc phân lớp của Ontology trong lĩnh vực phòng chống dịch hại trên cá.

- 17 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

V. XÂY DỰNG DỊCH VỤ HỖ TRỢ NGỮ NGHĨA
CHO NÔNG DÂN
V.1. Sơ đồ tổng thể
Hệ thống gồm ba thành phần chính: bộ tạo ngữ
nghĩa, bộ xử lý và bộ giao tiếp với người dùng. Nó
được mô tả như Hình 4.

Hình 5. Mô hình tổng thể bộ xử lý của hệ thống.

Bộ phân tích từ vựng: thực hiện việc phân tích câu
tìm kiếm được nhập vào từ giao diện của người dùng.
Nó có nhiệm vụ phân tích ngữ cảnh câu tìm kiếm và
lấy các từ có nghĩa thuộc ngữ cảnh này, sau đó tra cứu
vào từ điển để trả về từ chuyên môn.

Hình 4. Sơ đồ tổng thể của hệ thống.

Bộ tạo ngữ nghĩa là một kho chứa tri thức được xây
dựng từ các bộ từ vựng của ba nhà dưới dạng một
Ontology cho phép truy vấn về ngữ nghĩa trên kho

chứa này.
Bộ xử lý thực hiện chức năng phân tích câu truy
vấn do người dùng nhập vào. Đối chiếu với từ điển là
các từ đồng nghĩa, đa nghĩa theo ngữ cảnh để được từ
chuyên môn truy vấn kho chứa tri thức. Kết quả truy
vấn là bộ từ theo ngữ nghĩa và tìm thông tin trên cơ sở
dữ liệu thông tin dịch hại cung cấp cho người dùng.
Bộ giao tiếp với người dùng cung cấp giao diện để
người dùng có thể tương tác với bộ xử lý của hệ thống.
Nó sẽ nhận yêu cầu từ người dùng và chuyển cho bộ
xử lý, sau đó sẽ hiển thị kết quả thực hiện từ bộ xử lý
đến người dùng.
V.2. Thiết kế tổng thể bộ xử lý của hệ thống
Mô hình xử lý của hệ thống gồm ba thành phần
chính: bộ phân tích từ vựng, bộ truy vấn ngữ nghĩa
trên Sesame và bộ xử lý tìm kiếm.
Mô hình xử lý được mô tả ở Hình 5.

Bộ truy vấn kho chứa tri thức: thực hiện việc truy
vấn bằng SPARQL với tham số đầu vào là các từ
chuyên môn có được từ bộ phân tích từ vựng. Kết quả
trả về là các từ gốc liên quan.
Bộ xử lý tìm kiếm: thực hiện việc tìm kiếm theo từ
khóa (là các từ gốc trả về từ bộ truy vấn kho chứa tri
thức) trong CSDL phòng chống dịch hại. Kết quả trả
về của nó là các tài liệu có liên quan được sắp xếp
theo độ tương thích của tài liệu (sorting by relevance).
VI. KẾT QUẢ THỬ NGHIỆM
Bằng công cụ hỗ trợ là Protégé, các Ontology đã đề
xuất được xây dựng theo định dạng chuẩn của ngôn

ngữ diễn tả OWL.
Dựa trên sơ đồ và mô hình đề xuất, chúng tôi đã
xây dựng hệ thống với các bộ xử lý là các Web service
và phần giao tiếp với người dùng là ứng dụng Web.
Như vậy, bộ xử lý hệ thống sẽ là dịch vụ đa hợp của
ba dịch vụ: dịch vụ phân tích từ vựng, dịch vụ truy vấn
kho chứa tri thức và dịch vụ xử lý tìm kiếm. Lựa chọn
này cho phép xây dựng và lưu trữ phần ngữ nghĩa ở
dạng tập trung hoặc phân tán. Đối với bộ giao tiếp sẽ
là một ứng dụng web tích hợp của các Web service
client. Hệ thống đã sử dụng những ngôn ngữ và công

- 18 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
cụ như: Java, JSP, OWL, ngôn ngữ truy vấn SPARQL,
kho chứa tri thức Sesame, Web server Apache
Tomcat.
Các trường hợp sử dụng của người dùng hệ thống
được mô tả tóm tắt như Hình 6.
Hệ thống đã được triển khai thành công trên cổng
thông tin phòng chống dịch hại nằm trong khuôn khổ
của đề tài cấp Nhà nước KC.01.15/06-10. Người sử
dụng có thể dùng trình duyệt web để truy cập vào hệ
thống tại địa chỉ www.phongchongdichhai.org.vn.
Trong mỗi lĩnh vực (lúa, tôm hay cá), người dùng
có thể tìm kiếm thông tin dịch hại thông qua ba tùy
chọn: Tìm theo từ khóa, Tìm với trợ giúp và Tìm theo
ngữ nghĩa. Với chức năng tìm theo từ khóa sẽ cho

phép người dùng tìm kiếm các tài liệu có liên quan
đến một từ khóa đã cung cấp (searching for

Tập V-1, Số 6 (26), tháng 9/2011

relevance). Chức năng tìm với trợ giúp, người dùng có
thể tìm kiếm tài liệu bằng cách sử dụng các từ khóa
gợi ý như bệnh, triệu chứng, tác hại hay cách phòng trị
được cung cấp bởi hệ thống. Chức năng tìm theo ngữ
nghĩa, người dùng tìm kiếm các tài liệu có liên quan
theo ngữ nghĩa của nhà nông, nhà khoa học và nhà
quản lý. Chức năng này sẽ thực hiện việc phân tích các
câu hay cụm từ ban đầu để sinh ra nhiều câu hay nhiều
cụm từ cùng mang ý nghĩa giống nhau nhưng một
phần các từ trong câu hay trong cụm từ thì khác nhau.
Sau đó xác định ngữ cảnh của câu truy vấn thuộc về
triệu chứng bệnh, cách điều trị hay tác hại, v.v, và gửi
các từ khóa đến chức năng tìm theo từ khóa để có kết
quả.
Ngoài ra, hệ thống cũng cung cấp tính năng theo
dõi tất cả các câu truy vấn của người dùng để tiện cho
việc cập nhật các từ đồng nghĩa hay mới của ba nhà.

Hình 6. Sơ đồ Use Case của hệ thống xử lý.

- 19 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
Chúng tôi minh họa cho hệ thống đã xây dựng

bằng ba kịch bản nhằm thể hiện một cách rõ ràng và
cụ thể những tiện ích mang lại từ dịch vụ hỗ trợ ngữ
nghĩa cho nông dân trong việc tìm kiếm thông tin dịch
hại. Kịch bản đầu tiên, khi nông dân nhập vào những
dạng câu hỏi như: “Tôi muốn biết về bệnh đốm đỏ?”,
“Tôi muốn biết về bệnh đỏ mỏ?”, “Tôi muốn biết về
bệnh đỏ kỳ?”, v.v, mặc dù câu truy vấn có vẻ khác
nhau nhưng chúng có cùng nghĩa nên hệ thống hỗ trợ
sẽ trả về cùng một tập tài liệu nói về “bệnh nhiễm
trùng máu”. Kịch bản thứ hai, khi nông dân muốn biết
thông tin về một dấu hiệu thấy được cụ thể từ ao nuôi
tôm, như dấu hiệu “nổi đầu”. Như vậy với câu hỏi
“tôm bị nổi đầu” kết quả hệ thống trả về là thông tin
tất cả bệnh liên quan đến dấu hiệu “nổi đầu”. Mặt
khác, kết quả các tài liệu trả về còn có các tài liệu liên
quan với từ tương đương của “nổi đầu” như “hoạt
động yếu”, “bơi lờ đờ”. Kịch bản thứ ba, khi nông dân
nhập vào những câu hỏi dạng “khô cổ bông là sao”,
“biểu hiện khô cổ bông”, v.v, hệ thống sẽ trả về tập tài
liệu nói về “triệu chứng của bệnh đạo ôn”. Trong khi
đó những câu hỏi dạng “khô cổ bông”, “kho co bong”,
“dao on”, v.v, hệ thống sẽ trả về tập tài liệu nói về
“triệu chứng, tác hại và điều trị bệnh đạo ôn”.
Việc đánh giá khảo sát các chức năng của hệ thống
đã được thực hiện bởi một nhóm tác giả độc lập. Dựa
trên báo cáo “Thử nghiệm và Đánh giá các hệ thống
thành phần” [8], chúng ta có được số liệu điều tra trên
đối tượng nông dân như sau: 100% hiểu được mục
đích của các chức năng tìm kiếm, 100% phân biệt
được sự khác biệt về thông tin tìm được bởi các chức

năng Trồng lúa, Nuôi cá, Nuôi tôm, hơn 71.4% phân
biệt được ba cấp độ tìm kiếm thông tin khác nhau,
100% có thể sử dụng được chức năng tìm kiếm thông
tin về dịch bệnh, 90% cho rằng giao diện của chương
trình dễ sử dụng và thỏa mãn nhu cầu. Thống kê này
có được từ quá trình kiểm thử bởi nhiều nông dân điển
hình và trong các hội nghị công bố cổng thông tin dịch
hại tại các tỉnh ĐBSCL.
Mặc dù hệ thống đã đạt được các mục tiêu đã đề ra

Tập V-1, Số 6 (26), tháng 9/2011

trong phần đặt vấn đề nhưng vẫn còn một số hạn chế
nhất định: bộ từ vựng chưa đủ lớn và chưa bao quát
hết các trường hợp trong lĩnh vực phòng chống dịch
hại mà nó cần được cập nhật theo thời gian; chưa có
điều kiện để triển khai sâu rộng đến nhiều hộ nông
dân.
VII. KẾT LUẬN
Việc xây dựng Web ngữ nghĩa cung cấp thông tin
về phòng chống dịch bệnh trên lúa, tôm và cá theo
nghĩa của nhà nông, nhà quản lý và nhà khoa học
mang lại tính thiết thực cao, phù hợp với tình hình
thực tế của cả nước nói chung và các tỉnh ĐBSCL nói
riêng. Với sự phát triển không ngừng của ngành công
nghệ thông tin và đặc biệt là Internet như hiện nay,
nhu cầu tìm kiếm thông tin trên mạng ngày càng
nhiều. Đối với các nhà khoa học và đặc biệt là nông
dân thì việc nắm bắt thông tin về khoa học kỹ thuật, về
phòng và trị dịch bệnh,... để giảm thiểu rủi ro và tăng

năng suất cây trồng vật nuôi được xem như là nhu cầu
rất cần thiết hiện nay. Những kết quả chính đã đạt
được:
Trước hết, xây dựng được ba bộ từ vựng và ba
Ontology về lĩnh vực phòng chống dịch hại trên lúa,
tôm và cá; đây là một vấn đề mới mà chúng tôi đã đạt
được. Bộ từ vựng này được xây dựng bởi việc tham
khảo tài liệu, giáo trình, bài viết của các đơn vị chuyên
ngành; sự đóng góp ý kiến của các chuyên gia ngành
nông nghiệp; phỏng vấn trực tiếp và phát bảng câu hỏi
với những nông dân trực tiếp nuôi trồng ở nhiều nơi
khác nhau.
Ngoài ra, xây dựng được hệ thống hỗ trợ cung cấp
thông tin về phòng chống dịch hại theo ngữ nghĩa. Nó
cho phép nhà nông, nhà quản lý hay nhà khoa học tìm
kiếm thông tin dễ dàng hơn nhờ chức năng xử lý ngữ
nghĩa. Đặc biệt, hệ thống đáp ứng đòi hỏi về việc xử
lý câu tìm kiếm của nông dân khi câu tìm kiếm họ
nhập vào không chuẩn, nghĩa là câu có từ viết sai
chính tả, câu có sử dụng từ địa phương, từ đồng nghĩa,
câu có từ thiếu dấu.

- 20 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Chúng tôi cũng đã xây dựng và phân tích nhiều

kịch bản tổng hợp với nhiều tình huống khác nhau.
Kết quả thử nghiệm đã chứng tỏ các Ontology và mô
hình mà chúng tôi đề xuất là một hướng tiếp cận khả
thi, có thể áp dụng, cải tiến các hạn chế đã trình bày
trong việc tìm kiếm thông tin để hỗ trợ cho nông dân
hiện nay.

[11] PHẠM, V-B., BÙI, C-T. VÀ NGUYỄN, M-C.: Cẩm
nang sâu bệnh hại cây trồng, NXB Nông nghiệp,
2003.

TÀI LIỆU THAM KHẢO

[13] SEGARAN, T., EVANS, C. AND TAYLOR, J.:
Programming the Semantic Web, O’Reilly Media
Published, 2009.

[1] BERNERS-LEE, T., HENDLER, J. AND LASSILA,
O.: The semantic web, Scientific American, Vol. 284,
No. 5, 2001, pp.34–43.
[2] BÙI, Q-T.: Bệnh học thủy sản, Viện nghiên cứu nuôi
trồng thủy sản 1, Bình Đảng – Từ Sơn – Bắc Ninh,
2006.
[3] CHANRATCHAKOOL, P., CORSIN, F. VÀ
BRIGGS, M.: Giảm thiểu rủi ro bùng phát dịch bệnh
động vật thủy sản, Hà Nội, 2005.
[4] ĐẶNG, T-H-O., PHẠM, T-N-T VÀ NGUYỄN, T-P.:
Đặc điểm mô bệnh học tôm sú có dấu hiện bệnh phân
trắng nuôi ở một số tỉnh ĐBSCL, Tạp chí khoa học
trường Đại học Cần Thơ, 2008(1), tr.181-186.

[5] FENSEL, D., HENDLER, J., LIEBERMAN, H. AND
WAHLSTER, W.: Spinning the Semantic Web, MIT
Press, 2003.
[6] GRUBER, T.R.: A translation approach to portable
ontology specifications, Knowledge Acquisition, 5,
1993, pp. 199–220.

[12] REANTASO, M.G.B., MCGLADDERY, S.E., EAST,
I. VÀ SUBASINGHE, R.P.: Hướng dẫn chẩn đoán
bệnh của động vật thủy sản Châu Á, NXB Nông
nghiệp Hà Nội, 2005.

[14] SICILIA, M-Á.: Metadata, semantics, and ontology:
providing meaning to information resources, Int. J.
Metadata, Semantics and Ontologies, Vol. 1, No. 1,
2006, pp.83–86.
[15] TRẦN, T-C.: Bệnh tôm cá, Bài giảng Khoa Thủy Sản
Trường Đại học Nông lâm, Tp Hồ Chí Minh, 2002.
[16] TỪ, M-P., và Trịnh, H-K.: Công cụ hỗ trợ tạo ngữ
nghĩa trang Web sử dụng kỹ thuật tách thông tin từ văn
bản, 2004.
[17] WANG, X. and YU, X.: A OWL-Based Semantic Web
Service Discovery Framework, Proceedings of the
Advanced
International
Conference
on
Telecommunications and International Conference on
Internet and Web Applications and Services
(AICT/ICIW), 2006.

[7] HERMAN, I.: Tutorial on the Semantic Web, W3C,
March 2009.
[8] NGÔ, B-H.: Báo cáo Thử nghiệm và Đánh giá các hệ
thống thành phần và Cổng thông tin phòng chống dịch
hại, Nội dung chuyên môn số 7 của đề tài
KC.01.15/06-10, 2010.
[9] NGUYỄN, D-V.: Hỏi đáp về phòng trừ dịch hại cây
trồng, NXB Tổng hợp Tp. HCM, 2008.
[10] NGUYỄN, N-Đ.: Giáo trình cây lúa, Đại học Quốc
gia Tp. HCM, 2009.

- 21 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

SƠ LƯỢC VỀ TÁC GIẢ

LÊ QUYẾT THẮNG
Sinh năm 1954.

PHAN THƯỢNG CANG
Sinh năm 1975.
Tốt nghiệp Đại học Cần Thơ
năm 1998 và nhận bằng Thạc sĩ
tại Viện Công Nghệ Châu Á
(AIT), Bangkok, Thái Lan năm

2006.
Hiện nay công tác tại Khoa Công nghệ Thông tin và
Truyền thông, Đại học Cần thơ.
Hướng nghiên cứu: Các dịch vụ Web ngữ nghĩa, Điện
toán lưới và Lập trình song song.

Tốt nghiệp Đại học Toán năm
1977 tại Trường đại học Tổng hợp
Tashkent, Uzbekistan, tốt nghiệp
Thạc sĩ Toán năm 1985 và bảo vệ
luận án Tiến sĩ Toán năm 1988 tại
Trường Đại học Tổng hợp Paris 11, CH Pháp.
Hiện nay là Trưởng Khoa Công nghệ Thông tin và
Truyền thông, Đại học Cần thơ.
Hướng nghiên cứu: Mô hình toán về Dự báo và Mô
phỏng.
Email:

Email:

- 22 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Nhận dạng tấn công mạng
với mô hình trực quan cây quyết định
Network Intrusion Detection with Intuitive Decision Trees

Đỗ Thanh Nghị, Lê Quyết Thắng
Abstract: Our investigation aims at detecting
network intrusions using decision tree algorithms. In
contrast to other complex models, decision tree
algorithms give high predictive performance for a
relatively small computational effort. The tree model
represents inductive rules (IF-THEN) that facilitate
human interpretation. However, large differences in
prior class probabilities of intrusion data have been
reported to hinder the performance of decision trees.
We propose to replace the Shannon entropy used in
tree induction algorithms with a Kolmogorov-Smirnov
splitting criterion which locates a Bayes optimal
cutpoint of attributes. The Kolmogorov-Smirnov
distance based on the cumulative distributions is not
degraded by class imbalance. Numerical test results
on the KDDCup99 dataset showed that our proposals
achieve best results compared with the bagged
boosting of trees of the KDDCup’99 winner and
classical decision tree algorithms using the Shannon
entropy.
Keywords: Decision trees, Kolmogorov-Smirnov,
Shannon entropy, Network intrusion detection.

I. GIỚI THIỆU
Sự phát triển mạnh mẽ của công nghệ thông tin và
truyền thông, đặc biệt là sự bùng nổ người dùng trên
mạng Internet cùng với những tiềm năng của nó đã
thay đổi nhiều mô hình kinh doanh và quản lý của các
tổ chức, công ty trên toàn thế giới. Tuy nhiên, bên

cạnh phần lớn những người sử dụng mạng máy tính

cho các mục đích lành mạnh, hiệu quả, thì cũng không
ít các người dùng sử dụng mạng như là một công cụ
để thực hiện các hành vi không tốt đặc biệt là tấn công
hệ thống. Thiệt hại do các cuộc thâm nhập mạng bất
hợp pháp gây ra to lớn.
Để hạn chế các thiệt hại do việc thâm nhập bất hợp
pháp và tấn công hệ thống, các mạng máy tính cần có
các chính sách hợp lý cho các người dùng thâm nhập
mạng. Tuy nhiên, việc thâm nhập mạng với mục đích
không tốt thường rất đa dạng và luôn cải tiến nên các
biện pháp phòng chống thường không hiệu quả sau
một thời gian được cài đặt. Để nâng cao hiệu quả của
việc phát hiện tấn công hệ thống, chúng tôi chọn
hướng tiếp cận từ phương pháp học tự động nhằm rút
trích các quy luật tấn công hệ thống từ dữ liệu là các
logfile (tập tin nhật ký) của hệ thống. Sau đó sử dụng
các luật quyết định để bổ sung vào tập luật nhận dạng
tấn công của chương trình phát hiện tấn công hệ thống
như SNORT [25] hay OSSEC [27]. Để đạt được mục
tiêu như yêu cầu, chúng tôi trước tiên nghiên cứu và
đánh giá một số giải thuật học của cây quyết định
(C4.5 [22] hay CART [5]), rừng ngẫu nhiên (Randoms
Forests của Breiman [7]), Bayes thơ ngây (Naïve
Bayes [14]) trong việc ứng dụng các giải thuật này vào
vấn đề phát hiện xâm nhập hệ thống. Qua kết quả
nghiên cứu [8], chúng tôi nhận thấy giải thuật học cây
quyết định phù hợp với việc phát triển ứng dụng phát
hiện xâm nhập mạng do thời gian học của giải thuật

nhanh, kết quả nhận dạng khá tốt so với các mô hình
học khác, đồng thời kết quả có thể chuyển thành các
luật quyết định dạng IF-THEN dễ hiểu và có thể sử

- 23 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
dụng để bổ sung vào tập luật. Để nâng cao hiệu quả
của giải thuật học cây quyết định, chúng tôi cũng đề
xuất cải tiến phương pháp phân hoạch dựa trên khoảng
cách Kolmogorov-Smirnov thay vì chỉ sử dụng hàm
entropy của Shannon [24]. Sự thay đổi này đã giúp
giải thuật cho kết quả nhận dạng còn tốt hơn so với
phương pháp tập hợp mô hình phức tạp của người
chiến thắng trong cuộc thi KDDCup 1999, Pfahringer
[21]. Các tiêu chí đánh giá thực hiện như đã đề nghị
trong cuộc thi năm 1999 mà Elkan đề xuất [9].
Phần còn lại của bài viết được tổ chức như sau:
phần II trình bày tóm tắt về các phương pháp máy học
cho nhận dạng tấn công mạng. Phần III giới thiệu về
cải tiến mô hình cây quyết định dựa trên khoảng cách
Kolmogorov-Smirnov cho nhận dạng tấn công mạng.
Phần IV trình bày kết quả thực nghiệm. Cuối cùng, kết
luận và hướng phát triển được trình bày trong phần V.
II. CÁC NGHIÊN CỨU LIÊN QUAN ĐẾN PHÁT
HIỆN TẤN CÔNG MẠNG
Một hệ thống phát hiện tấn công (Intrusion
Detection System – IDS) là một hệ thống an ninh được
cài đặt để giám sát các hệ thống máy tính, các phân

tích lưu thông trên mạng để xác định rằng kết nối truy
cập hệ thống đang được phân tích có phải là một tấn
công từ bên ngoài, kết nối bất thường hay kết nối bình
thường. Tổng quát, chúng ta có hai kiểu của hệ thống
phát hiện tấn công:
+ Phát hiện tấn công trên máy (host-based IDS):
được cài đặt trên các máy riêng biệt, phân tích nhật ký
hệ thống (logfile), phát hiện các kết nối bình thường
và các kiểu kết nối bất thường (bao gồm các loại tấn
công, dò tìm thông tin,…). Chúng tôi tập trung nghiên
cứu theo hướng tiếp cận này.
+ Phát hiện tấn công trên mạng (network-based
IDS – NIDS): được cài đặt bằng cách thiết lập các
giao diện thu thập thông tin tại các khu vực cần thiết,
phát hiện tấn công bằng cách quan sát các hoạt động
khác nhau trên mạng.

Tập V-1, Số 6 (26), tháng 9/2011

Hướng tiếp cận máy học trong phát hiện tấn công
mạng đã được biết đến như là tiếp cận hiệu quả và
được nhiều nhóm nghiên cứu thực hiện. Chúng tôi sẽ
trình bày các nghiên cứu liên quan đến vấn đề phát
hiện tấn công mạng đã được thực hiện trước đó.
Với tài trợ của DARPA (Under the sponsorship of
Defense Advanced Research Projects Agency) và
AFRL (Air Force Research Laboratory), MIT Lincoln
Laboratory đã thu thập và tiền xử lý để tạo ra cơ sở dữ
liệu DARPA [15] phục vụ cho học dự báo tấn công
mạng. Trong kỳ KDDCup năm 1999, ban tổ chức đã

sử dụng tập con dữ liệu của DARPA, được tiền xử lý
bởi Sal Stofo và Wenke Lee [16]. Tập bao gồm 41
thuộc tính tạo thành từ dữ liệu thu thập bởi tcpdump
trong năm 1998, được sử dụng làm tập dữ liệu để học
dự báo tấn công, chẳng hạn tấn công từ chối dịch vụ.
Khi tổng kết cuộc thi KDDCup năm 1999,
Pfahringer [21] thắng cuộc với phương pháp bagged
boosting cây quyết định [6,12] (rừng cây quyết định).
Hạng nhì thuộc về Levin [17] của LLSoft, Inc. sử
dụng các công cụ hàm nhân. Hạng ba được trao cho
Miheev et al. [19] với phương pháp cây quyết định tối
ưu. Khi tổng kết, Elkan [9] cho rằng chỉ có 9 trong tất
cả phương pháp dự thi là tốt hơn phương pháp 1 láng
giềng [11].
Sau cuộc thi, đã có rất nhiều nghiên cứu tiếp theo
như Ben-Amor et al. [2] đã nghiên cứu so sánh kết quả
giữa hai giải thuật được sử dụng trong hệ thống phát
hiện xâm nhập là Bayes thơ ngây và cây quyết định.
Stein et al. [26] đã đề nghị dùng giải thuật di
truyền, qua đó chọn một tập con các thuộc tính đầu
vào cho bộ phân loại dùng cây quyết định với mục
đích làm tăng hiệu quả phát hiện và giảm tỉ lệ cảnh
báo lỗi trong phát hiện xâm nhập mạng.
Zhang và Zulkernine [31] áp dụng giải thuật rừng
ngẫu nhiên của Breiman [7] xử lý tập dữ liệu
KDDCup 1999. Họ đã cố gắng tạo cân bằng cho tập
dữ liệu huấn luyện bằng cách làm giảm số mẫu của

- 24 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
lớp đa số (majority class) và tăng số mẫu của lớp thiểu
số (minority class).
Giacinto et al. [13] kết hợp nhiều mô hình 1-lớp
với giải thuật gom cụm KMeans của MacQueen [18],
mỗi mô hình 1-lớp được huấn luyện để phân biệt giữa
các mẫu tấn công của dạng tấn công đang xét với tất
cả các mẫu khác. Perdisci et al. [20] cũng giải quyết
vấn đề phát hiện tấn công bằng cách dùng tập hợp các
mô hình máy học véctơ hỗ trợ 1-lớp của Scholkopf et
al [23].
Bouzida và Cuppens [3,4] đã đề nghị sửa đổi giải
thuật cây quyết định C4.5 để khám phá các tấn công
đã biết và chưa biết. Trong tập dữ liệu KDDCup 1999,
có một số kiểu tấn công mới có trong tập kiểm tra
nhưng không có trong tập huấn luyện; điều này sẽ làm
cho việc dự báo các kiểu tấn công mới rất khó. Họ đã
giới thiệu một nguyên tắc: một lớp mặc định được ký
hiệu là lớp mới để gán cho bất kỳ một lớp mới mà nó
không tương ứng với một lớp nào trong tập huấn
luyện. Vì vậy, nếu bất kỳ một trường hợp mới nào
không phù hợp với các luật được phát ra bởi cây quyết
định thì trường hợp đó được phân loại là lớp mới thay
thì gán nó vào một lớp mặc định.
Xiao et al. [30] với mục đích xây dựng một tập hợp
các mô hình của các máy véctơ hỗ trợ của Vapnik [28]
để dự đoán xâm nhập mạng. Các kết quả thực nghiệm
đã cho thấy được khả năng ứng dụng của cách tiếp cận
được đề xuất.

Engen et al. [10] đề nghị một phát triển của mạng
nơ-ron, trong đó, nhiều hàm đánh giá được kiểm tra.
Mặc dù có nhiều nghiên cứu cho vấn đề này trong
những năm qua, hầu hết các cách tiếp cận không thể
đạt được kết quả tốt toàn diện so với kết quả của người
chiến thắng trong cuộc thi KDDCup 1999. Hơn nữa,
tiêu chí đánh giá hiệu quả của các phương pháp rất
khác nhau, trước hết là nói đến tập dữ liệu đánh giá,
nghi thức kiểm tra, độ chính xác, chi phí. Một điều
quan trọng mà hầu hết các ứng dụng trong thực tế của
bài toán phát hiện tấn công phải quan tâm đến là việc

Tập V-1, Số 6 (26), tháng 9/2011

tạo ra các luật dễ hiểu dạng « nếu (điều kiện) thì (dự
đoán tương ứng) ». Nếu chúng ta sử dụng những
phương pháp phức tạp, khó diễn dịch kết quả, thì việc
tạo ra các luật dự báo sẽ rất khó khăn, không có tính
ứng dụng cao trong thực tiễn. Vấn đề là làm sao
nghiên cứu các phương pháp máy học hiện có, so
sánh, phân tích, đánh giá hiệu quả và bất lợi của từng
phương pháp để chọn ra được một giải pháp tốt cho
vấn đề phát hiện tấn công mạng. Để đạt được mục tiêu
trên, chúng tôi đề xuất sử dụng giải thuật học cây
quyết định vì lý do thời gian học của giải thuật nhanh,
kết quả nhận dạng khá tốt so với các mô hình học
khác, đồng thời kết quả có thể chuyển thành các luật
quyết định dạng IF-THEN dễ hiểu và có thể sử dụng
để bổ sung vào tập luật. Để nâng cao hiệu quả của giải
thuật học cây quyết định, chúng tôi cũng đề xuất cải

tiến phương pháp phân hoạch dựa trên khoảng cách
Kolmogorov-Smirnov thay vì chỉ sử dụng hàm
entropy của Shannon [24]. Sự thay đổi này đã giúp
giải thuật cho kết quả nhận dạng tốt hơn các lớp thiểu
số. Việc thực nghiệm cũng được tiến hành theo các
yêu cầu như cuộc thi KDDCup 1999, kết quả của
nhóm nhận được cho là rất đáng ghi nhận: tỉ lệ phát
hiện đúng các nhóm thiểu số, chi phí (cost matrix) và
độ chính xác tổng thể (global accuracy) còn tốt hơn so
với phương pháp tập hợp mô hình phức tạp của người
chiến thắng trong cuộc thi KDDCup 1999, Pfahringer
[21].
III. CÂY QUYẾT ĐỊNH SỬ DỤNG HÀM PHÂN
HOẠCH KOLMOGOROV-SMIRNOV
Mô hình cây quyết định có cấu trúc dạng cây mà ở
đó:
- Nút lá được gán nhãn tương ứng với lớp của dữ
liệu,
- Nút trong được tích hợp với điều kiện kiểm tra để
rẽ nhánh.
Ví dụ mô hình cây quyết định trong Hình 1 được
xây dựng từ việc học trên tập dữ liệu weather [22] để
dự báo chơi hay không chơi golf (yes hay no) dựa trên

- 25 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
các thuộc tính outlook, temperature, humidity và
windy. Mô hình rất dễ hiểu bởi vì chúng ta có thể rút

trích luật quyết định tương ứng với nút lá có dạng IFTHEN được tạo ra từ việc thực hiện AND trên các
điều kiện theo đường dẫn từ nút gốc đến nút lá. Các
luật quyết định dễ hiểu với người sử dụng.
Giải thuật học cây quyết định gồm 2 bước lớn: xây
dựng cây (Top-down), cắt nhánh (Bottom-up) để tránh
học vẹt. Quá trình xây dựng cây được làm như sau:
- bắt đầu nút gốc, tất cả các dữ liệu học ở nút gốc,
- nếu dữ liệu tại 1 nút có cùng lớp thì nút được cho
là nút lá, nhãn của nút lá là nhãn của các phần tử trong
nút lá (hay luật bình chọn số đông nếu nút lá có chứa
các phần tử có lớp khác nhau),
- nếu dữ liệu ở nút quá hỗn loạn (các phần tử có lớp
rất khác nhau) thì nút được cho là nút trong, tiến hành
phân hoạch dữ liệu một cách đệ quy bằng việc chọn 1
thuộc tính để thực hiện phân hoạch tốt nhất có thể.
Quá trình xây dựng cây chủ yếu phụ thuộc vào việc
chọn thuộc tính tốt nhất để phân hoạch dữ liệu. Chọn
thuộc tính phân hoạch tốt theo nghĩa, cho ra kết quả là

Tập V-1, Số 6 (26), tháng 9/2011

cây nhỏ nhất. Việc lựa chọn này dựa vào các
heuristics: chọn thuộc tính sinh ra các nút thuần khiết
nhất.
Giải thuật học cây quyết định tiêu biểu C4.5 của
Quinlan [22] sử dụng entropy của Shannon để đánh
giá sự hỗn loạn thông tin. Theo như Hình 2, độ hỗn
loạn đạt cực đại khi phân phối xác suất của lớp bằng
nhau (bài toán 2 lớp, thì giá trị 0.5). Nhưng nếu tỉ lệ
dữ liệu đã biết là lệch nhau, chẳng hạn ta có 10% là

lớp dương (pos) và 90% là lớp âm (neg), thì tại một
nút khi phân hoạch, độ hỗn loạn nên đạt cực đại khi
biết xác suất của lớp dương là 0.1 chứ không phải là
0.5. Đây là yếu điểm của việc dùng hàm entropy khi
xử lý dữ liệu không cân bằng về lớp. Trong thực tế, dữ
liệu thường mất cân bằng, cụ thể là tập dữ liệu
KDDCup 1999, các nối kết bình thường và tấn công từ
chối dịch vụ chiếm đa số trong tập dữ liệu, các kiểu
tấn công khác thường rất ít, chính vì lý do đó mà giải
thuật cây quyết định C4.5 không xử lý tốt tập dữ liệu
phát hiện tấn công mạng bằng các phương pháp thắng
giải trong cuộc thi. Đây cũng là nguyên nhân gây hiệu
quả thấp của các phương pháp đề xuất trong phần lớn
các nghiên cứu liên quan trong những năm qua.

Hình 1. Cây quyết định cho tập dữ liệu weather.

- 26 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tập V-1, Số 6 (26), tháng 9/2011

Kolmogorov-Smirnov. Trong thực tế, không cần tính
chính xác hàm phân phối tích lũy mà thường làm việc
với hàm phân phối tích lũy thực nghiệm (gần đúng) thì
khá đơn giản.

Hình 2. Hàm entropy của Shannon.

Để khắc phục nhược điểm này, chúng tôi đề nghị
thay thế hàm phân hoạch cây quyết định bằng khoảng
cách Kolmogorov-Smirnov có thể xử lý tốt hơn cho
dữ liệu không cân bằng.
Hình 4. Khoảng cách Komogorov-Smirnov trên hàm phân
phối tích lũy.

Chú ý rằng do điểm phân hoạch dựa trên khoảng
cách của hai hàm phân phối tích lũy nên chất lượng
mô hình cây quyết định không bị ảnh hưởng trong
trường hợp xử lý dữ liệu không cân bằng.
IV. KẾT QUẢ THỰC NGHIỆM

Hình 3. Hàm mật độ xác suất.

Về cơ bản, khoảng cách Kolmogorov-Smirnov
dùng để đo sự tách biệt của 2 hàm phân phối xác suất.
Xét bài toán phân lớp nhị phân (lớp dương-pos, âmneg); với hàm mật độ xác suất tương ứng là fpos(X),
fneg(X) trên thuộc tính X như Hình 3.
Điểm phân hoạch ở X = 8 trong trường hợp này
nhằm cực tiểu rủi ro Bayes cho phân lớp sai của cả lớp
dương và lớp âm. Điểm phân hoạch tại X = 8 có thể
được xác định dễ dàng hơn dựa trên khoảng cách tối
đa giữa 2 hàm phân phối tích lũy, cdfpos(X), cdfneg(X)
(Hình 4). Vấn đề được biết đến như là khoảng cách

Để đánh giá hiệu quả của giải thuật học cải tiến cây
quyết định sử dụng hàm phân hoạch dựa trên khoảng
cách Kolmogorov-Smirnov, chúng tôi đã thay đổi mã

nguồn của C4.5 [22] (sẵn dùng tại địa chỉ
Sau
đó tiến hành thực nghiệm trên tập dữ liệu KDDCup
năm 1999. Tập bao gồm 41 thuộc tính tạo thành từ dữ
liệu thu thập bởi tcpdump trong năm 1998, được sử
dụng làm tập dữ liệu để học dự báo 4 nhóm tấn công
bao gồm : tấn công từ chối dịch vụ (DoS), tấn công
người dùng giả danh root (U2R), tấn công từ xa vào
cục bộ (R2L), tấn công thăm dò (Probe). Dữ liệu được
phân bố trong tập học và tập kiểm tra được cho như
Bảng 1.
Nhìn vào bảng phân bố dữ liệu tập học, chúng ta có
thể thấy được có 2 lớp đa số là nối kết bình thường

- 27 -

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về