Tải bản đầy đủ (.docx) (108 trang)

Hệ thống hỗ trợ lãnh đạo quản lý, điều hành tại sở thông tin và truyền thông tỉnh Đồng Nai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (850.85 KB, 108 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

HỒ HỮU HIẾU
HỆ THỐNG HỖ TRỢ LÃNH ĐẠO QUẢN LÝ, ĐIỀU
HÀNH TẠI SỞ THÔNG TIN VÀ TRUYỀN THÔNG
TỈNH ĐỒNG NAI
LUẬN VĂN THẠC SĨ
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS ĐỖ VĂN NHƠN
TP HỒ CHÍ MINH – NĂM 2014
LỜI CAM ĐOAN
Tôi xin cam đoan:
a. Những nội dung trong luận văn này là do tôi thực hiện dưới sự
hướng dẫn trực tiếp của thầy PGS.TS. Đỗ Văn Nhơn.
b. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và
trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố.
c. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá,
tôi xin chịu hoàn toàn trách nhiệm.
NGƯỜI CAM ĐOAN
Hồ Hữu Hiếu
LỜI CÁM ƠN

Bằng tất cả lòng chân thành và sự kính phục, tôi xin trân trọng cảm ơn Thầy
PGS.TS. Đỗ Văn Nhơn. Mặc dù rất bận rộn với công việc nghiên cứu, giảng dạy và
công việc gia đình, tuy nhiên trong suốt thời gian hướng dẫn đề tài, bất kể thời gian
nào dù thời gian ngoài giờ làm việc hay trong các ngày nghỉ, lễ, Thầy vẫn luôn sẵn
sàng nhiệt tình sắp xếp thời gian để định hướng, hướng dẫn, động viên và giúp đỡ
rất tận tình giúp tôi hoàn thành luận văn này.


Tôi xin gửi lời chân thành cảm ơn đến Ban Chủ nhiệm trường Đại học Công
nghệ thông tin TP HCM, Quý thầy và cô thuộc phòng Đào tạo sau đại học đã tạo
điều kiện tốt nhất để em hoàn thành chương trình cao học này. Cám ơn Ban Giám
đốc, lãnh đạo các phòng ban và cán bộ công chức, viên chức của Sở Thông tin và
Truyền thông tỉnh Đồng Nai đã tạo điều kiện cho tôi được tham gia học tập và
nghiên cứu.
Cảm ơn sâu sắc đến các bạn cùng khóa đã nhiệt tình đóng góp ý kiến, chia sẽ
cũng như động viên để tôi hoàn thiện hơn đề tài của mình.
Xin cảm ơn gia đình, người thân đã luôn khích lệ, động viên, giúp đỡ trong
suốt quá trình học tập, nghiên cứu, đã tạo nên sức mạnh to lớn để tôi hoàn thành kết
quả học tập này.
Mặc dù đã rất cố gắng nhưng Luận văn khó tránh khỏi những thiếu sót, tôi
kính mong Quý thầy, cô và bạn bè hướng dẫn, góp ý để nội dung nghiên cứu này
ngày càng hoàn thiện hơn và có ứng dụng thực tiễn.
Một lần nữa, em xin chân thành cảm ơn!
Tp. HCM, tháng 12 năm 2014
HỌC VIÊN
Hồ Hữu Hiếu
Mục lục
Số trang
Trang phụ bìa
Lời cam đoan
Mục lục 1
Danh mục các ký hiệu và chữ viết tắt 3
Danh mục các bảng 4
Danh mục các hình vẽ, đồ thị 5
MỞ ĐẦU 6
4
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
  

Viết tắt Mô tả
Annotation Chú thích
API Application Programming Interface - Giao diện chương
trình ứng dụng
ATTT An toàn thông tin
BCVT Bưu chính viễn thông
BCXB Báo chí xuất bản
Classes Các lớp khái niệm
CNTT Công nghệ thông tin
CSDL Cơ sở dữ liệu
DAML DARPA Agent Markup Language
DARPA Defense Advanced Research Projects Agency
DR Data Retrieval - Truy hồi dữ liệu
DTD Document Type Definition
FOAF Friend Of A Friend
HTML HyperText Markup Language
HTTP Hypertext Transfer Protocol
IE Information Extraction
Individuals Thể hiện
IR Information Retrieval - Truy hồi thông tin
IR Information Retrieval
JSP JavaServer Pages
KIM Knowledge and Information Management - Quản lý thông
tin và tri thức
LSI Latent Semantic Indexing - Chỉ mục ngữ nghĩa tìm ẩn
NLP Natural Language Processing
OIL Ontology Inference Layer
PCTN Phòng chống tham nhũng
Properties Thuộc tính
QA Question Answering

RDF Resource Description Framework - Khung mô tả tài nguyên
RDF Resource Description Framework
RDF Resource Description Framework
RDFS Resource Description Framework Schema
RDFS RDF schema
Reification Tuyên bố gián tiếp
Semantic
Web
Web ngữ nghĩa
SFS Semantic File System - Hệ thống tập tin ngữ nghĩa
5
SGML Standard Generalized Markup Language
SOAP Simple Object Access Protocol
SQL Structured Query Language
SW semantic web
TT&TT Thông tin và truyền thông
TTTT Thông tin và truyền thông
URI Uniform Resource Identifier
URI Uniform Resource Identifier
VN-KIM Viet Nam Knowledge and Information Management - Quản
lý thông tin và tri thức Việt Nam
W3C World Wide Web Consortium
WWW World Wide Web
XML Extensible Markup Language
XML Extensible Markup Language
XMLS Extensible Markup Language Schema
6
DANH MỤC CÁC BẢNG
  
7

DANH MỤC HÌNH VẼ, ĐỒ THỊ
  
8
Mở đầu
MỞ ĐẦU

Trong những năm qua, cùng với quá trình đẩy mạnh cải cách hành chính, nhất
là việc ứng dụng công nghệ thông tin vào quản lý, công tác văn thư và quản lý văn
bản (gọi tắt là hệ thống quản lý văn bản và điều hành), giấy tờ hành chính trong
hoạt động của cơ quan hành chính nhà nước ở các cấp, các ngành đã từng bước
được tin học hóa, có thêm nhiều công cụ và hình thức để giúp cho người lãnh đạo
chỉ đạo, điều hành, trao đổi thông tin với chất lượng, hiệu quả ngày càng được nâng
cao.
Trong mỗi cơ quan - tổ chức, người quản lý là người quyết định và dẫn dắt cơ
quan - tổ chức đi lên. Đồng thời, người lãnh đạo - quản lý là người đề ra những chủ
trương, đường lối, nguyên lý, sách lược, người tham mưu và thực hiện là người tác
động, trợ giúp đến quyết định của người lãnh đạo, quản lý. Quyết định đúng mang
lại hiệu quả công việc, quyết định sai là gây thiếu trách nhiệm, dễ quan liêu tham
nhũng, thiệt hại lớn đến tiền của nhà nước.
Phần lớn quyết định của lãnh đạo cơ quan được tham vấn trên các cơ sở dữ
liệu các văn bản quy phạm (hiến pháp, luật, nghị định, thông tư, hướng dẫn) hoặc
văn bản hành chính thông thường trên hệ thống quản lý văn bản, điều hành hiện tại,
giúp duy trì hoạt động và bảo đảm thực hiện những chương trình, mục tiêu và công
tác quản lý nhà nước của cơ quan, tổ chức.
Sở Thông tin và Truyền thông là cơ quan chuyên môn thuộc Ủy ban nhân dân
tỉnh Đồng Nai, có chức năng quản lý nhà nước về ngành thông tin và truyền thông
gồm 3 lĩnh vực chủ yếu: báo chí xuất bản, bưu chính viễn thông và công nghệ thông
tin. Tổ chức bộ máy của Sở Thông tin và Truyền thông tỉnh Đồng Nai gồm Ban
Giám đốc Sở, 06 phòng ban chuyên môn và 02 đơn vị sự nghiệp, cụ thể bao gồm:
Ban Giám đốc Sở, Văn phòng, Thanh tra Sở, Phòng Kế hoạch – Tài chính, Phòng

Công nghệ thông tin, Phòng Bưu chính, Viễn thông, Phòng Báo chí - Xuất bản, Nhà
xuất bản Tổng hợp Đồng Nai, Trung tâm CNTT và Truyền thông.
Sau nhiều năm ứng dụng công nghệ thông tin tại Sở Thông tin và Truyền
thông tỉnh Đồng Nai, cơ sở dữ liệu tài liệu văn bản hành chính liên quan đến công
9
Mở đầu
tác chỉ đạo điều hành, quản lý và cơ sở dữ liệu pháp luật liên quan đến lĩnh vực
thông tin truyền thông ngày càng nhiều. Theo thống kê sơ bộ từ năm 2008 đến nay,
cơ sở dữ liệu đã có trên 60.000 văn bản hành chính. Mặc dù Sở Thông tin và
Truyền thông tỉnh Đồng Nai có triển khai các hệ thống thông tin phục vụ quản lý
văn bản và điều hành, tuy nhiên các tính năng của hệ thống chưa đủ đáp ứng các
yêu cầu của cán bộ, công chức viên chức của cơ quan (gọi chung là người sử dụng),
đặc biệt là việc tổ chức và xử lý tìm kiếm khai thác dữ liệu, thông tin văn bản hành
chính.
Thực tế hiện nay, khi truy vấn, tìm kiếm văn bản hành chính, dữ liệu tìm kiếm
thông tin theo kiểu từ khóa hoặc tìm kiếm trực tiếp theo chỉ dẫn trên các cơ sở dữ
liệu riêng lẽ, cho ra các kết quả không tốt như mong muốn. Kết quả tìm kiếm chỉ
giúp người dùng tìm được những tài liệu có chứa từ khóa, nhưng kết quả tra cứu
thông tin cần thiết trở nên khó khăn hơn do người dùng phải tốn thời gian và công
sức vào từng tài liệu để tìm được đúng thông tin mình cần mà có khi không tìm thấy
hoặc tìm thấy thông tin sai lệch, chưa đủ khả năng diễn giải, lựa chọn những kết quả
phù hợp với mong muốn của mình để lưu chuyển, tổng hợp, đánh giá và phân phối
dễ dàng và nhanh chóng các thông tin có liên quan. Lãnh đạo cơ quan khó chọn lọc
các kết quả phù hợp với mong muốn phục vụ công tác ra quyết định, điều hành của
lãnh đạo cơ quan. Đây là một vấn đề được sự quan tâm không chỉ riêng của Sở
Thông tin và Truyền thông tỉnh Đồng Nai mà còn là vấn đề cần thiết của nhiều cơ
quan nhà nước có ứng dụng công nghệ thông tin hiện nay trong quản lý tài liệu văn
bản hành chính, đặc biệt Việt Nam ta đang hướng đến năm 2020 xây dựng được
chính phủ điện tử.
Vấn đề đặt ra là làm sao để xây dựng giải pháp tìm kiếm hỗ trợ chọn lọc,

thông tin tài liệu văn bản hành chính phù hợp theo hướng ngữ nghĩa trên kho tài liệu
văn bản hành chính ngày càng nhiều để giúp cho Lãnh đạo cơ quan có thể truy vấn
được thông tin cần thiết, nhanh chóng, toàn vẹn dữ liệu để phục vụ công tác điều
hành, quản lý ra quyết định được chính xác, hiệu quả.
Với mục đích cuối cùng của việc xây dựng công cụ này nhằm hỗ trợ lãnh đạo
trong việc khai thác tìm kiếm thông tin, khắc phục các hạn chế của hiện trạng đang
có. Vì vậy tôi quyết định thực hiện nghiên cứu việc này và đặt tên đề tài là: “Hệ
10
Mở đầu
thống hỗ trợ lãnh đạo quản lý, điều hành tại Sở Thông tin và Truyền thông tỉnh
Đồng Nai” nhằm bám sát yêu cầu thực tiễn của cơ quan.
11
Chương 1 - Giới thiệu tổng quan về đề tài
Chương 1 - GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI
Chương 1 giới thiệu tổng quan về đề tài bao gồm các nghiên cứu khảo sát tình
hình ứng dụng công nghệ thông tin trong cơ quan nhà nước hành chính nói chung và
tại Sở Thông tin và Truyền thông nói riêng; phân tích đánh giá thực trạng, hạn chế
và xác định các nhu cầu mà hệ thống ứng dụng chưa đáp ứng được, từ đó đề xuất
nghiên cứu phát triển giải pháp cải tiến ứng dụng hiện tại.
1.1. ĐẶT VẤN ĐỀ
1.1.1. Tìm hiểu về văn bản hành chính
Văn bản là phương tiện lưu giữ và truyền đạt thông tin bằng ngôn ngữ hay ký
hiệu nhất định. Văn bản quản lý nhà nước là những quyết định và thông tin quản lý
thành văn (được văn bản hóa) do các cơ quan quản lý Nhà nước ban hành theo thẩm
quyền, trình tự, thủ tục, hình thức nhất định và được Nhà nước đảm bảo thi hành
bằng những biện pháp khác nhau nhằm điều chỉnh các mối quan hệ quản lý nội bộ
nhà nước hoặc giữa các cơ quan nhà nước với các tổ chức và công dân(căn cứ Luật
ban hành văn bản [16] và Thông tư số 01/2011/TT-BNV của Bộ Nội vụ [21]).
Văn bản là công cụ quan trọng và là thước đo trình độ văn minh, văn hoá quản
lý trong các cơ quan quản lý Nhà nước. Khi nhắc đến văn bản quản lý nhà nước là

nói đến loại văn bản của tổ chức đặc biệt trong xã hội, đó là Nhà nước.
Tính đặc biệt của văn bản quản lý nhà nước thể hiện ở những đặc điểm sau:
Về chủ thể ban hành: văn bản quản lý nhà nước do các cơ quan Nhà nước, người có
thẩm quyền soạn thảo và ban hành. Chỉ có những văn bản do người đúng thẩm
quyền ban hành mới có ý nghĩa pháp lý.
- Về mục đích ban hành: văn bản quản lý nhà nước được ban hành nhằm mục đích
thực hiện các nhiệm vụ, chức năng của Nhà nước.
- Đối tượng áp dụng: Văn bản quản lý nhà nước mang tính công quyền, được ban
hành để tác động đến mọi mặt của đời sống xã hội, là cơ sở pháp lý quan trọng cho
các hoạt động cụ thể của các cơ quan, tổ chức, cá nhân.
- Về trình tự ban hành, hình thức văn bản: Văn bản quản lý nhà nước đòi hỏi phải
được xây dựng, ban hành theo thủ tục pháp luật quy định và được trình bày theo
12
Chương 1 - Giới thiệu tổng quan về đề tài
hình thức luật định. Mỗi loại văn bản thường được sử dụng trong những trường hợp
nhất định và có cách thức trình bày riêng. Sử dụng đúng hình thức văn bản sẽ góp
phần tạo ra sự thống nhất cả về nội dung và hình thức của hệ thống văn bản, tạo
điều kiện thuận lợi cho việc nghiên cứu, sử dụng thực hiện văn bản.
- Về bảo đảm thi hành: Văn bản nhà nước mang tính quyền lực Nhà nước, bắt buộc
các chủ thể khác phải thực hiện và được đảm bảo thực hiện bởi Nhà nước như hoạt
động tổ chức trực tiếp hoặc cưỡng chế.
- Về văn phong: Văn bản quản lý nhà nước nhằm mục đích truyền đạt thông tin,
mệnh lệnh từ chủ thể quản lý đến đối tượng quản lý một cách đầy đủ, chính xác
nhất. Nó không cần biểu cảm nên mang đặc trưng văn phong riêng, khác với văn
phong nghệ thuật. Văn bản quản lý nhà nước thường mang tính phổ quát, đại chúng
và không cần quá chi tiết như văn bản khoa học.
Để mô tả thông tin tóm tắt, đảm bảo tính chất đặc biệt nêu trên, thông thường
một văn bản gồm các thành phần chính: số, ký hiệu; ngày ký, người ký, cơ quan ban
hành, trích yếu. Trong việc lưu trữ trên cơ sở dữ liệu, các mô tả nêu trên được tổ
chức thành các thuộc tính trong bảng thuộc cơ sở dữ liệu.

1.1.2. Tìm hiểu hệ thống quản lý tài liệu văn bản hành chính
Căn cứ Nghị định 64/2007/NĐ-CP[17] , Quyết định số 1605/QĐ-TTg [18]và
Quyết định số 1755/QĐ-TTg[19], trong những năm qua, cùng với quá trình đẩy
mạnh cải cách hành chính, nhất là việc ứng dụng công nghệ thông tin vào quản lý,
công tác văn thư và quản lý văn bản (gọi tắt là hệ thống quản lý văn bản và điều
hành), giấy tờ hành chính trong hoạt động của cơ quan hành chính nhà nước ở các
cấp, các ngành đã từng bước được tin học hóa, có thêm nhiều công cụ và hình thức
để giúp cho người lãnh đạo chỉ đạo, điều hành, trao đổi thông tin với chất lượng,
hiệu quả ngày càng được nâng cao.
Phần lớn quyết định triển khai hoặc điều hành công việc của lãnh đạo cấp
trưởng, phó phòng và Ban Giám đốc Sở Thông tin và Truyền thông đều tham vấn
trên các văn bản hành chính bằng cách truy xuất trên hệ thống ứng dụng quản lý tài
liệu văn bản đã được lưu trữ trong cơ sở dữ liệu. Việc khai thác văn bản có thể dựa
trên hai phương pháp tìm kiếm chủ yếu:
13
Chương 1 - Giới thiệu tổng quan về đề tài
+ Tìm theo từ khóa: Người dùng cần đưa ra chủ đề cần tìm tài liệu và các từ
khóa phù hợp. Hệ thống tiến hành so khớp và trả về một danh mục các tài liệu có
chứa chính xác từ khóa đã được nhập vào trong tiêu đề và nội dung của tài liệu. Các
giải pháp tìm kiếm thông thường là so sánh từ khóa của người dùng với dữ liệu có
sẵn trong CSDL, nên người dùng phải sử dụng chính xác từ khóa để có thể nhận
được kết quả tìm kiếm mong muốn.
+ Tìm theo thuộc tính dữ liệu: Nếu nhớ chính xác vị trí văn bản (cơ quan nào
ban hành?, loại văn bản là gì?, số văn bản là bao nhiêu?), người dùng có thể tìm
kiếm theo nhiều tiêu chí khác nhau với theo giao diện được thể hiện dưới dạng một
form mẫu định sẵn tương ứng với các thuộc tính được quy định và tổ chức trong
trong cơ sở dữ liệu.
1.1.1 Một số vấn đề còn hạn chế
Hạn chế của kỹ thuật tìm kiếm so khớp dựa trên từ khóa đó là, nếu thông tin
được cung cấp bởi nhiều nguồn khác nhau, thì các thuật ngữ sẽ không được sử dụng

một cách thống nhất, cùng một thuật ngữ có thể được dùng với nhiều nghĩa khác
nhau và cũng có khi nhiều thuật ngữ khác nhau lại dùng để chỉ các khái niệm có
cùng nghĩa. Cho nên hệ thống đã bộc lộ nhiều hạn chế, trong các trường hợp tìm
kiếm tài liệu văn bản như sau:
- Không tìm thấy tài liệu văn bản nếu không có sự quy ước và thống nhất trong
viết tắt các cụm từ (còn gọi là keyphrase):
Trong lĩnh vực hành chính nhà nước, người dùng có thói quen sử dụng các
cụm từ (keyphrase) viết tắt hoặc có ngữ nghĩa tương đương để mô tả thông tin văn
bản khi lưu trữ trong hệ thống phần mềm.
Ví dụ: Hai văn bản sau được mô tả trong cơ sở dữ liệu hoàn toàn tương đương
nhau về mặt ngữ nghĩa:
+ Doc1: “Báo cáo số 17/BC-VHTT ngày 17/2/2001 của Phòng Văn hóa Thông tin về
tình hình ứng dụng CNTT trong cơ quan nhà nước”
+ Doc2: “Báo cáo số 17/BC-VHTT ngày 17/2/2001 của Phòng VHTT ứng dụng công
nghệ thông tin trong CQNN”.
14
Chương 1 - Giới thiệu tổng quan về đề tài
Nhận xét: Doc1 sử dụng keyphrase viết tắt “CNTT” tương đương keyphrase
“công nghệ thông tin” trong Doc2. Tương tự Doc2 sử dụng keyphrase viết tắt
“CQNN” tương đương keyphrase “cơ quan nhà nước” trong Doc1…
- Không tìm thấy tài liệu văn bản nếu không có sự quy ước và thống nhất dùng
các keyphrases khác nhau nhưng phản ánh ngữ nghĩa tương đương khi lưu trữ
chúng trong cơ sở dữ liệu:
Ví dụ 1: Hai văn bản được mô tả trong cơ sở dữ liệu như sau:
+ Doc1: “Văn bản số 17/UBND-NC ngày 17/3/2011 đề nghị thủ trưởng các đơn vị
thực hiện tuyên truyền biển đảo”
+ Doc2: “Văn bản số 17/BTTTT-BC ngày 17/3/2011 đề nghị lãnh đạo các cơ quan
triển khai tuyên truyền về biển đảo”
Nhận xét: Trong ví dụ này, có hai văn bản hành chính trên đang đề cập đến
việc chỉ đạo thủ trưởng các đơn vị thực hiện tuyên truyền về biển đảo. Nếu người

dùng tìm kiếm những văn bản “chỉ đạo thủ trưởng các đơn vị thực hiện tuyên truyền
về biển đảo”, phương pháp hiện tại của hệ thống sẽ không tìm thấy.
Ví dụ 2: Các văn bản liên quan đến nhóm công việc: “Triển khai quyết định
1605/QĐ-TTg” bao gồm:
+ Doc1: Kế hoạch số 3364/KH-UBND của UBND tỉnh Đồng Nai về việc ứng dụng
công nghệ thông tin trong cơ quan nhà nước giai đoạn 2011 – 2015;
+ Doc2: Kế hoạch 1089/KH-UBND của UBND tỉnh Đồng Nai triển khai đề án đưa
Việt Nam sớm trở thành nước mạnh về CNTT;
Ví dụ 3: Những văn bản sau có liên quan đến lĩnh vực Bưu chính viễn thông:
+ Doc1: Văn bản số 868/VNPT của Viễn thông Đồng Nai về việc xây dựng trạm thu
phát sóng thông tin di động tại KCN Long Đức.
+ Doc2: Báo cáo số 143/BC-VHTT của Phòng VHTT thị xã Long Khánh về Báo cáo
tình hình quản lý trên lĩnh vực bưu chính viễn thông, CNTT và báo chí xuất bản
tháng 11 năm 2013.
1.1.2 Đặt vấn đề
Theo chủ trương của nhà nước tại Quyết định số 1605/QĐ-TTg [18] và Quyết
định số 1755/QĐ-TTg [19], đến năm 2015, 60% các tài liệu văn bản chính thức trao
đổi giữa các cơ quan nhà nước được trao đổi hoàn toàn dưới dạng điện tử, theo đó
15
Chương 1 - Giới thiệu tổng quan về đề tài
tài liệu văn bản hành chính phải được số hóa, lưu trữ trên hệ thống quản lý điều
hành. Điều này dẫn đến, cơ sở dữ liệu lưu trữ tài liệu văn bản hành chính sẽ tăng
theo thời gian và theo sự phát triển của xã hội, đất nước tại các cơ quan nhà nước.
Tuy nhiên trước hạn chế của hệ thống đang ứng dụng tại Sở Thông tin và
Truyền thông tỉnh Đồng Nai (đây là hệ thống ứng dụng đang triển khai cho trên 40
cơ quan nhà nước trên địa bàn tỉnh), do đó cần có giải pháp kỹ thuật cải tiến xử lý
tìm kiếm được tốt hơn để đảm bảo việc tìm kiếm các tài liệu văn bản trên hệ thống
tương đối đầy đủ, chấp nhận dư thừa thông tin, nhưng hạn chế tình trạng thất thoát
tài liệu văn bản liên quan tồn tại trong hệ thống nhưng không tìm thấy, nhằm giúp
cho người lãnh đạo, người quản lý có thể tham vấn đầy đủ thông tin trước khi ra

quyết định thực thi nhiệm vụ nhà nước được chính xác. Quyết định thiếu chính xác
của người cán bộ khi tham vấn trên thông tin không đầy đủ, có thể gây hậu quả
nghiêm trọng cho người dân và xã hội.
Ví dụ: Lãnh đạo cơ quan đã cấp phép xây dựng một công trình trạm viễn
thông di động BTS tại địa địa điểm X trên địa bàn huyện Tân Phú theo văn bản A,
nếu một đơn vị khác tiếp tục xin cấp phép xây dựng một công trình trạm viễn thông
di động BTS cũng tại địa điểm trên. Nếu khi tìm kiếm không thấy văn bản A nêu
trên, người lãnh đạo sẽ tiếp tục cấp phép cho xây dựng. Điều này sai quy định và
gây hậu quả nghiêm trọng.
Tất cả các văn bản hành chính đã được số hóa và lưu trữ trên hệ cơ sở dữ liệu
có cấu trúc thuộc hệ thống phần mềm (sử dụng hệ quản trị SQL Server). Với những
hệ thống tìm kiếm truyền thống, độ chính xác của kết quả tìm kiếm không cao,
người sử dụng cần phải tự mình chọn lọc tìm ra thông tin chính xác cần tìm hoặc
phải qua rất nhiều bước tìm kiếm.
Các phương pháp tìm kiếm phổ biến đều cho phép người sử dụng có thể tạo
các câu truy vấn gồm các từ khóa tìm kiếm. Tuy nhiên, phương pháp này gặp phải
những vấn đề sau: mỗi từ khóa có thể có một hay nhiều nghĩa tùy theo từng ngữ
cảnh; bộ máy tìm kiếm không thể hiện mối quan hệ giữa các từ khóa với nhau;
thông tin có cùng ý nghĩa với từ khóa nhưng không nằm trong kết quả trả về.
Qua tìm hiểu các kỹ thuật hiện nay, phương pháp tìm kiếm ngữ nghĩa đang
được các nhà nghiên cứu quan tâm, đặc biệt là nghiên cứu ứng dụng Ontology. Tìm
16
Chương 1 - Giới thiệu tổng quan về đề tài
kiếm ngữ nghĩa (semantic search) là tìm kiếm thông tin không dựa trên sự hiện diện
của từ khóa hay cụm từ, mà dựa vào nghĩa của từ. Động cơ tìm kiếm ngữ nghĩa cố
gắng vượt qua lỗ hổng trên bằng cách sử dụng ngữ nghĩa học (semantics) và nhờ đó
cung cấp cho người dùng các kết quả chính xác, thích đáng. Nó còn cho phép trả về
các kết quả không liên quan một cách tường minh đến câu truy vấn nguyên mẫu,
phân tích, xác định ngữ nghĩa nội dung của từng văn bản.
Từ những diễn giải đã nêu ở trên, ta tập trung nghiên cứu nhằm giải quyết 02

vấn đề chính:
- Nghiên cứu phương pháp tổ chức biểu diễn tri thức lĩnh vực hành chính nhằm hỗ
trợ cho việc tìm kiếm theo nhiều cách khác nhau và đặc biệt là theo hướng có ngữ
nghĩa. Trong phạm vi Luận văn này, ta tập trung nghiên cứu trong ngành thông tin
và truyền thông.
- Xây dựng kỹ thuật xử lý tìm kiếm các văn bản hành chính trên hệ thống theo hướng
ngữ nghĩa, chọn lọc, thông tin phù hợp, khả năng giải quyết tìm kiếm thống kê theo
ngữ nghĩa để giúp cho Lãnh đạo cơ quan có thể truy vấn được thông tin cần thiết
và tương đối đầy đủ, hạn chế việc tìm kiếm thiếu thông tin, văn bản hành chính, góp
phần công tác điều hành, quản lý ra quyết định đúng đắn, kịp thời, chính xác.
1.1.3 Nhận xét và hướng giải quyết
Hiện có một số công trình nghiên cứu trên thế giới về tìm kiếm ngữ nghĩa như:
Công cụ Teachingwithdata.org trợ giúp học tập; Công cụ tìm kiếm ABS của Đại
học Stanford; Mô hình SSE của Madhan R Arumugam; Công cụ tìm kiếm Wolfram
Alpha Tuy nhiên những công trình nghiên cứu này hầu như chỉ hỗ trợ cho những
ngôn ngữ phổ biến như Tiếng Anh, Tiếng Pháp, chưa hỗ trợ Tiếng Việt.
Tại Việt Nam, có một số công trình, đề tài nghiên cứu về vấn đề này như: Mô
hình biểu diễn văn bản thành đồ thị đăng trên Tạp chí phát triển KH&CN của nhóm
tác giả Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi [1]; Mô
hình tổ chức và kỹ thuật tìm kiếm có ngữ nghĩa trên kho tài nguyên học tập lĩnh vực
CNTT của Huỳnh Thị Thanh Thương[8]; Ứng dụng xử lý ngôn ngữ tự nhiên trong
hệ tìm kiếm thông tin trên văn bản tiếng Việt của Đồng Thị Bích Thủy, Hồ Bảo
Quốc[9]; Hệ thống quản lý tri thức và thông tin cho các thực thể có tên ở Việt Nam
của Cao Hoàng Trụ [11]…
17
Chương 1 - Giới thiệu tổng quan về đề tài
Riêng lĩnh vực hành chính, một số đề tài nghiên cứu như: Giải pháp tìm kiếm
tài liệu dựa trên ngữ nghĩa, ứng dụng vào việc tìm kiếm văn bản nhà nước ngành
thông tin và truyền thông của Tăng Thị Ngọc Em [2]; Ứng dụng semantic web xây
dựng hệ thống tìm kiếm văn bản trong ngành giáo dục của Phạm Hoàng Linh [6].

Tuy nhiên, các nghiên cứu này chỉ dừng lại việc giới thiệu biểu diễn Ontology trong
tìm kiếm ngữ nghĩa nhưng chưa đề cập đến mô hình tổ chức thông tin cụ thể, chưa
thấy phân tích kỹ thuật ứng dụng Ontology để vận dụng tìm kiếm theo hướng ngữ
nghĩa. Qua tìm hiểu tại website , UBND thành phố Hồ
Chí Minh đang triển khai dự án xây dựng chính quyền điện tử trong đó nghiên cứu
ứng dụng quản lý, tìm kiếm văn bản hành chính theo ngữ nghĩa, nhưng dự kiến đến
năm 2016 mới hoàn thành.
Các công trình nghiên cứu nêu trên hứa hẹn mang đến một giải pháp toàn diện
cho bài toán biễu diễn tri thức và tìm kiếm theo ngữ nghĩa. Dựa trên biểu diễn
ontology hứa hẹn mang lại sự chính xác cao hơn rất nhiều so với cơ chế tìm kiếm
dựa trên từ khóa, bởi vì cả người dùng và máy tính đều hiểu được nội dung của truy
vấn. Hơn nữa, nhờ áp dụng các luật hay logic, không gian tìm kiếm sẽ được mở
rộng ra, không chỉ còn là các dữ liệu thô được lưu trữ.
Đặc biệt kết quả nghiên cứu của tác giả Huỳnh Thị Thanh Thương[8] về
CK_ONTO, rất phù hợp để vận dụng biểu diễn thông tin ngữ nghĩa trong lĩnh vực
hành chính nhà nước và giải quyết các vấn đề đặt ra trong phạm vi luận văn này.
1.2. MỤC ĐÍCH NGHIÊN CỨU
Xuất phát từ nhu cầu thực tiễn rất lớn về việc tìm kiếm văn bản hành chính
trên hệ thống ứng dụng quản lý và điều hành tại Sở Thông tin và Truyền thông và
khắc phục các hạn chế của hệ thống hiện tại, mục tiêu của đề tài là:
1.2.1. Xây dựng mô hình tổ chức biểu diễn thông tin ngữ nghĩa và giải pháp lưu trữ
theo hướng ngữ nghĩa các tài liệu văn bản hành chính trong ngành thông tin và
truyền thông (gồm: báo chí xuất bản, bưu chính viễn thông, công nghệ thông
tin).
1.2.2. Dựa trên mô hình tổ chức biểu diễn thông tin ngữ nghĩa nêu trên, xây dựng giải
pháp tìm kiếm theo ngữ nghĩa: người dùng sẽ đưa ra yêu cầu câu truy vấn, hệ
thống sẽ phân tích và so sánh sự tương đồng ngữ nghĩa câu truy vấn với các tài
18
Chương 1 - Giới thiệu tổng quan về đề tài
liệu văn bản trong cơ sở dữ liệu và trả về kết quả danh sách tài liệu văn bản khi

tìm thấy.
Ví dụ: Tìm được các văn bản hành chính chứa các thông tin liên quan đến
tình hình ứng dụng công nghệ thông tin trong cơ quan nhà nước, hệ thống có thể
trả về các văn bản như sau:
+ Doc1: “1/2307/SXD-VP của Sở Xây dựng về việc phiếu Điều tra thực trạng và
nguồn nhân lực để triển khai ứng dụng CNTT trong CQNN”.
+ Doc2: “1558/STP-VP của Sở Tư pháp về báo cáo tình hình ứng dụng công nghệ
thông tin năm 2013”.
1.3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1.3.1. Đối tượng nghiên cứu:
Các đối tượng nghiên cứu trong luận văn này là:
− Văn bản hành chính, văn bản quy phạm pháp luật trong ngành thông tin và truyền
thông.
− Các nguyên tắc tổ chức quản lý, lãnh đạo, điều hành của nhà nước nói chung và Sở
Thông tin và Truyền thông tỉnh Đồng Nai nói riêng.
− Các phương pháp kỹ thuật, tổ chức, biễu diễn và lưu trữ thông tin ngữ nghĩa trong
lĩnh vực nghiên cứu.
− Các phương pháp tìm kiếm ngữ nghĩa.
− Các công cụ hỗ trợ, ngôn ngữ lập trình liên quan đến việc cài đặt các mô hình và
thuật toán xử lý để tổ chức, biễu diễn và lưu trữ thông tin.
1.3.2. Phạm vi:
Phạm vi nghiên cứu tổ chức, biểu diễn thông tin ngữ nghĩa được giới hạn
trong phạm vi quản lý, điều hành thuộc ngành thông tin và truyền thông tại Sở
Thông tin và Truyền thông tỉnh Đồng Nai bao gồm 3 lĩnh vực: Báo chí xuất bản,
Bưu chính viễn thông và Công nghệ thông tin.
Phạm vi nghiên cứu của luận văn phục vụ trong đơn vị quản lý hành chính nhà
nước cấp tỉnh và trong lĩnh vực chuyên ngành quản lý cụ thể.
1.4. PHƯƠNG PHÁP NGHIÊN CỨU
19
Chương 1 - Giới thiệu tổng quan về đề tài

Phương pháp lý thuyết: tổ chức biểu diễn thông tin ngữ nghĩa; tìm hiểu về
ontology; tìm hiểu các kỹ thuật xử lý câu truy vấn; tìm hiểu các kỹ thuật tìm kiếm,
tìm kiếm ngữ nghĩa; tổ chức biểu diễn dữ liệu.
Phương pháp thực nghiệm: xây dựng ontology; xây dựng kỹ thuật tìm kiếm
ngữ nghĩa; triển khai thử nghiệm trên cơ sở dữ liệu thực tế đang ứng dụng tại Sở
Thông tin và Truyền thông.
Hướng tiếp cận giải quyết: Tìm hiểu hoạt động của hệ thống thông tin điều
hành có sẵn tại Sở Thông tin và Truyền thông tỉnh Đồng Nai; Nghiên cứu tổ chức
các cơ sở dữ liệu văn bản hành chính, văn bản quy phạm pháp luật liên quan ở các
cấp trung ương và địa phương; Thiết kế bổ sung cơ sở dữ liệu để tổ chức, lưu trữ tài
liệu văn bản mang tính ngữ nghĩa.
Các phương pháp và kỹ thuật áp dụng: Phương pháp biểu diễn và xử lý ngữ
nghĩa các tài liệu văn bản; Phương pháp và kỹ thuật lập chỉ mục tự động cho các tài
liệu, rút trích các khái niệm từ tài liệu, phân loại tài liệu và một số kỹ thuật xử lý
ngôn ngữ tự nhiên; Xây dựng hệ tìm kiếm thông tin ngữ nghĩa.
1.5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Về mặt khoa học, luận văn đóng góp một phương pháp vận dụng ontology để
biểu diễn tri thức trong lĩnh vực hành chính nhà nước cụ thể, dựa trên biểu diễn tri
thức để xây dựng kỹ thuật xử lý tìm kiếm ngữ nghĩa tài liệu văn bản.
Về mặt thực tiễn, luận văn nghiên cứu kỹ thuật tìm kiếm cải tiến để khắc phục
các hạn chế kỹ thuật tìm kiếm theo từ khóa của hệ thống đang ứng dụng tại Sở
Thông tin và Truyền thông tỉnh Đồng Nai. Kết quả nghiên cứu có thể mở rộng phát
triển để áp dụng cho các ngành khác mà có thể áp dụng cho nhiều cơ quan hành
chính nhà nước thuộc hệ thống Nhà nước Việt Nam.
Tính mới của luận văn này là phương pháp vận dụng ontology để biểu diễn tri
thức trong lĩnh vực hành chính và kỹ thuật xử lý tìm kiếm ngữ nghĩa dựa trên
ontology. Phương pháp này chưa được áp dụng cụ thể trong các ứng dụng CNTT
của cơ quan nhà nước trên địa bàn tỉnh Đồng Nai.
Xây dựng giải pháp ứng dụng công nghệ thông tin giúp cho Lãnh đạo Sở
Thông tin và Truyền thông có thể thu thập, xử lý nhanh các thông tin được nhanh

chóng, thuận lợi, chính xác, hạn chế không dư thừa thông tin, kịp thời xử lý điều
20
Chương 1 - Giới thiệu tổng quan về đề tài
hành hoạt động của cơ quan trên hệ thống quản lý văn bản và điều hành của cơ
quan.
21
Chương 2- Cơ sở lý thuyết
Chương 2 - CƠ SỞ LÝ THUYẾT
Chương 2 trình bày cơ sở lý thuyết của Luận văn liên quan đến vấn đề truy hồi
thông tin, lý thuyết về Ontology, CK_ONTO, các phương pháp và kỹ thuật tính
khoảng cách ngữ nghĩa giữa các khái niệm và giới thiệu một số kỹ thuật xử lý ngôn
ngữ tự nhiên để làm cơ sở vận dụng giải quyết các vấn đề mà Luận văn đang nghiên
cứu (các cơ sở lý thuyết được trình bày tham khảo các tài liệu của tác giả Tăng Thị
Ngọc Em [2], Huỳnh Tấn Đạt [3] và Huỳnh Thị Thanh Thương [8]).
2.1. VẤN ĐỀ TRUY TÌM THÔNG TIN
2.1.1. Cấu trúc của một hệ thống truy tìm thông tin
Hầu hết các hệ thống tìm kiếm thông tin (gọi tắt là hệ thống IR) là hệ thống
truy tìm tài liệu để truy tìm những tài liệu (trong số các tài liệu có trong cơ sở dữ
liệu lưu trữ) có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tin của
người dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệu liên
quan đó. Tài liệu là các mẫu văn bản, hình ảnh, âm thanh, video. Có hai khái niệm
quan trọng luôn đề cập đến đó là tài liệu và câu truy vấn.
Một hệ thống tìm kiếm thông tin có hai chức năng chính là lập chỉ mục
(indexing) và tra cứu (interrogation).
- Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉ
mục (term/index term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể dựa
vào một cấu trúc phân lớp có sẵn, các chỉ mục trong cách làm này tồn tại trước và
độc lập với tài liệu. Cách thứ hai, lập chỉ mục là rút trích các chỉ mục từ chính nội
dung của tài liệu (free text). Cuối giai đoạn lập chỉ mục nội dung của các tài liệu có
trong kho tài liệu (corpus) được biểu diễn bên trong bằng tập các chỉ mục.

- Trong giai đoạn tra cứu, nhu cầu thông tin của người sử dụng được đưa vào
hệ thống dưới dạng một câu hỏi (query) bằng ngôn ngữ tự nhiên hay một dạng thức
qui ước nào đó, cũng sẽ được phân tích và biểu diễn thành một dạng biểu diễn
trong. Hệ thống sẽ sử dụng một hàm so khớp (matching function) để so khớp biểu
diễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan
(relevance).
22
Chương 2- Cơ sở lý thuyết
Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ
(noun phrase), khái niệm (concept). Vấn đề xác định chỉ mục cho văn bản tiếng
Việt phức tạp hơn đối với ngôn ngữ châu Âu. Hơn nữa ngữ pháp tiếng Việt vẫn còn
nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn
trong việc tự động hóa việc phân tích tiếng Việt.
Có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thống IR bao gồm
phương pháp tiếp cận thống kê và phương pháp tiếp cận hướng ngữ nghĩa hay
khái niệm:
- Trong phương pháp tiếp cận thống kê, các tài liệu kết quả được truy tìm về
hoặc được xếp hạng cao là những tài liệu được xem là thích hợp với câu truy vấn
nhất theo một số tiêu chí đo lường thống kê.
- Trong phương pháp tiếp cận hướng ngữ nghĩa hay khái niệm thực hiện phân
tích cú pháp và ngữ nghĩa. Nội dung của một đối tượng thông tin được mô tả bởi
một tập các khái niệm hay một cấu trúc khái niệm, nói cách khác là cố gắng mô
phỏng lại các cấp độ hiểu của máy tính về các văn bản theo ngôn ngữ tự nhiên của
con người. Để rút trích khái niệm, hệ thống cần sử dụng đến nguồn tri thức về lĩnh
vực nhất định nào đó. Hướng tiếp cận chính cho việc nguyên cứu các hệ thống này
là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology.
Hình 2.1. Các phương pháp truy hồi thông tin
2.1.2. Truy hồi thông tin theo hướng thống kê
Có một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kê
thuần túy có thể kể đến là mô hình Boolean, Boolean mở rộng (extended Boolean),

Không gian vector (Vector Space), các mô hình xác xuất (Probabilistic models). Ý
23
Chương 2- Cơ sở lý thuyết
tưởng chính theo hướng tiếp cận này là dùng một danh sách các term xuất hiện trong
tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truy vấn đó.
Term - viết tắt của terminology, nghĩa là thuật ngữ, là một từ hay cụm từ
(keyphrase) biểu thị một khái niệm khoa học.
2.1.2.1 Mô hình Boolean
Định nghĩa mô hình truy hồi Boolean (Boolean retrieval model): là mô hình
cho việc truy hồi thông tin. Trong đó chúng ta có thể đặt ra bất kỳ truy vấn dưới
dạng một biểu thức Boolean của các term, các term kết hợp với các phép toán AND,
OR, và NOT. Mô hình này xem mỗi tài liệu như là một tập các từ (words). Yếu tố
chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được truy xuất.
Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một biểu thức
phức tạp. Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy.
Ví dụ: Để trả lời câu truy vấn Brutus AND Caesar AND NOT Calpurnia,
chúng ta đi theo vector cho Brutus, Caesar và Calpurnia từ đầu đến cuối và có kết
quả so bit như sau: 110100 AND 110111 AND 101111 = 100100. Kết quả này cho
biết cột 1 và cột 4 bật bit 1. Như thế tương ứng với kết quả trả về là quyển sách
Antony and Cleopatra và quyển Hamlet.
Yếu tố chủ yếu cho truy hồi Boolean là thứ tự trong danh sách posting được
truy xuất. Chúng ta cần đánh giá và lưu trữ tạm thời biểu thức trung gian trong một
biểu thức phức tạp. Tuy nhiên trong nhiều trường hợp chỉ là sự liên kết thuần túy.
2.1.2.2 Mô hình Boolean cải tiến (Advanced Boolean Model )
Thậm chí nếu bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là
đúng hoặc sai, “tất cả hoặc không có gì” (all – or – nothing) dẫn tới trường hợp là
tìm thấy một số lượng lớn tài liệu liên quan hoặc là không có tài liệu nào. Hơn nữa,
trong trường hợp câu truy vấn bao gồm nhiều term liên kết với nhau bởi toán tử OR,
một tài liệu có chứa tất cả (hay nhiều) term truy vấn cũng không được xem là tốt
hơn so với một tài liệu chỉ chứa một term. Tương tự, trong trường hợp với toán tử

AND, một tài liệu chứa được gần hết các term vẫn được xem là không phù hợp
giống như một tài liệu không chứa term nào. Từ những hạn chế nêu trên, nhiều mô
24
Chương 2- Cơ sở lý thuyết
hình Boolean mở rộng đã được nghiên cứu phát triển nhằm sắp hạng kết quả trả về.
Những mô hình này sử dụng nhiều toán tử Boolean mở rộng khác. Ví dụ, một toán
tử boolean mở rộng có thể trả về một giá trị cho đối số nằm trong khoảng từ 0 đến 1
(thay vì chỉ là 2 số hoặc 0 hoặc 1) tương ứng với mức độ phù hợp khi so khớp giữa
biểu thức logic và tài liệu đang xét (mô hình p – norm là một điển hình).
Ưu điểm của mô hình Boolean:
• Đơn giản, dễ hiểu, dễ cài đặt và sử dụng.
• Mô hình lý thuyết chặt chẽ, rõ ràng.
• Trả về những kết quả chứa chính xác các từ khóa tìm kiếm.
Nhược điểm:
• Đặc tính all – or – nothing, hệ thống chỉ xác định hai trạng thái là tài
liệu có liên quan hoặc không liên quan với câu truy vấn nên kết quả
trả về hoặc là quá nhiều hoặc không có gì cả. Do đó, hiệu quả truy
tìm không cao.
• Mối quan hệ giữa các term hay thứ tự giữa chúng không được xét
đến.
• Không xếp hạng, không xác định được mức độ liên quan giữa tài
liệu và câu truy vấn.
• Việc chuyển một câu truy vấn của người dùng sang dạng biểu thức
Boolean không đơn giản, người dùng sẽ gặp khó khăn trong việc
xây dựng các biểu thức truy vấn Boolean.
Nhằm khắc phục những hạn chế trong mô hình Boolean, một mô hình mới đã
được đề xuất với ý tưởng chính là xét đến độ tương đồng giữa tài liệu và câu truy
vấn thay thế cho việc so khớp chính xác theo cách tiếp cận Boolean.
2.1.2.3 Mô hình không gian Vector(Vector Space Model)
Trong mô hình không gian vector, văn bản được thể hiện là các vector của các

term. Term này tiêu biểu cho các từ (word) và các cụm từ (keyphrase). Khi một từ
được chọn làm term, thì khi đó mỗi từ trong bộ từ vựng trở thành một chiều độc lập
25

×