Tải bản đầy đủ (.pdf) (58 trang)

Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.22 MB, 58 trang )

TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

LỜI CAM ĐOAN
Họ và tên học viên: Đinh Văn Việt

SHHV: CB121363

Chuyên ngành: Công nghệ thông tin

Lớp: CH2012B

Ngƣời hƣớng dẫn: PGS.TS. Lê Thanh Hương
Đơn vị: Viện Công nghệ Thông tin - Truyền thông
Tên đề tài luận văn: Trích rút thông tin từ Hồ sơ nghiệp vụ Công an nhân
dân
Tôi – Đinh Văn Việt - Cam kết Luận văn là công trình nghiên cứu của bản
thân tôi dƣới sự hƣớng dẫn của PGS.TS. Lê Thanh Hương.
Các kết quả nêu trong luận văn là trung thực, không phải là sao chép toàn
văn của bất kỳ công trình nào khác.
Hà Nội, ngày 15 tháng 8 năm 2014
Tác giả Luận văn

Đinh Văn Việt

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

1


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN


LỜI CẢM ƠN
Lời đầu tiên, tôi xin được gửi lời cảm ơn chân thành tới các thầy cô giáo
thuộc Viện Công nghệ Thông tin và Truyền thông trường Đại học Bách Khoa Hà
Nội, những người đã tận tình chỉ dạy tất cả kiến thức chuyên ngành cho tôi trong
suốt quá trình học tập và nghiên cứu tại trường.
Trong quá trình thực hiện Luận văn tốt nghiệp tôi đã học hỏi được thêm
rất nhiều điều, đó cũng là cơ hội để cá nhân tôi tổng kết những kiến thức đã được
học, đồng thời rút ra những kinh nghiệm quý báu. Tôi xin chân thành cảm ơn
những hướng dẫn tận tình của cô giáo, PGS. TS. Lê Thanh Hương - Bộ môn Hệ
thống thông tin – Viện Công Nghệ Thông Tin và Truyền Thông - Trường Đại học
Bách Khoa Hà Nội. Luận văn được hoàn thành ở một mức độ nhất định. Bên
cạnh những kết quả đã đạt được, chắc chắn tôi sẽ không tránh khỏi những thiếu
sót và hạn chế. Sự phê bình, nhận xét của thầy cô là những bài học quý báu cho
công việc và nghiên cứu của tôi sau này.
Tôi cũng xin được gửi lời cảm ơn sâu sắc đến người thân trong gia đình,
bạn bè và các học viên cùng khóa Cao học 2012B đã luôn ở bên cạnh, ủng hộ,
động viên tinh thần cho tôi trong suốt quá trình học tập và thực hiện luận văn.
Một lần nữa xin kính chúc quý thầy cô mạnh khỏe, hạnh phúc, tiếp tục
đạt được nhiều thành công trong nghiên cứu khoa học cũng như trong sự nghiệp
trồng người.
Hà Nội, ngày 15 tháng 8 năm 2014
HỌC VIÊN THỰC HIỆN

Đinh Văn Việt

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

2



TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

TÓM TẮT NỘI DUNG LUẬN VĂN
Đối với công tác quản lý và lƣu trữ hồ sơ nghiệp vụ Công an nhân dân hiện nay việc
tìm kiếm chỉ dừng lại ở các đối tƣợng chính của các vụ án, tuy nhiên các đối tƣợng có
liên quan hoặc xuất hiện trong hồ sơ nghiệp vụ Công an nhân dân có thể là đầu mối hỗ
trợ cho công tác trinh sát, điều tra và khám phá vụ án. Nhận thức đƣợc tầm quan trọng
của vấn đề này, luận văn tập trung nghiên cứu và tìm hiểu các hƣớng tiếp cận nhằm
nhận dạng và trích xuất các thực thể và các thông tin có liên quan trong hồ sơ nghiệp vụ
Công an nhân dân.
Nhận dạng tên thực thể là một bài toán đã và đang nhận đƣợc sự quan tâm đặc biệt
của cộng đồng nghiên cứu về xử lý ngôn ngữ tự nhiên cũng nhƣ khai phá dữ liệu tiếng
Anh cũng nhƣ tiếng Việt. Mục tiêu chính của bài toán nhằm tìm kiếm và phân loại các
thực thể xuất hiện trong các văn bản.
Nội dung của luận văn trình bày bài toán cần đƣợc giải quyết, các thách thức và một
số hƣớng tiếp cận giải quyết bài toán.Thông qua phân tích và tìm hiểu các cách tiếp cận
đã có nhƣ: hƣớng tiếp cận dựa vào luật, từ điển, học máy và một vài công trình liên
quan, luận văn trình bày một mô hình kết hợp cả ba hƣớng tiếp cận, kết quả thực
nghiệm tiến hành trên tập dữ liệu đƣợc xây dựng thủ công từ các văn bản từ hồ sơ
nghiệp vụ Công an nhân dân đạt kết quả tại độ đo F1 = 87, 24%.

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

3


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

ABSTRACT OF THE THESIS
Extraction named entity is a problem of finding, classification of the entities be lied

in the documents. This problem has been receiving a special attention from the research
community be applied to the English and Vietnamese documents.
Currently, finding can only extract the main object information but the objects which
associate or appear the document in the cases can be the clues to support the later
works. For this reason, the thesis focuses on researching the approaches of recoginition
and extraction named entities andrelationship in the professional documents People's
Police.
The content of this thesis focuses on presenting some problems, analysising the
approaches such as: rules-based, dictionary-based, learning-machine method and some
research works. Finally, the thesis builds a model which associates three approaches.
The experimental results conducted by thesis on datasets from the professional
documents People's Police with F1-score = 87.24%.

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

4


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

Contents
LỜI CAM ĐOAN ......................................................................................................................... 1
LỜI CẢM ƠN ............................................................................................................................... 2
TÓM TẮT NỘI DUNG LUẬN VĂN ....................................................................................... 3
ABSTRACT OF THE THESIS .................................................................................................... 4
MỤC LỤC .................................................................................................................................. 5
DANH MỤC BẢNG VÀ HÌNH VẼ ............................................................................................ 7
THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT...................................................................................... 8
CHƢƠNG 1.


GIỚI THIỆU ĐỀ TÀI LUẬN VĂN .................................................................... 9

1.1.

Giới thiệu đề tài .......................................................................................................... 9

1.2.

Mục tiêu và giải pháp ................................................................................................. 9

1.2.1.

Mục tiêu ............................................................................................................... 9

1.2.2.

Nội dung và các vấn đề cần giải quyết ................................................................. 9

1.3.

Nội dung luận văn .................................................................................................... 10

1.4.

Kết luận .................................................................................................................... 11

CHƢƠNG 2.
NHÂN DÂN
2.1.


BÀI TOÁN NHẬN DẠNGTHỰC THỂ TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN
12

Giới thiệu về cấu trúc hồ sơ nghiệp vụ Công an nhân dân ....................................... 12

2.2.
Các vấn đề thuận lợi và khó khăn trong việc số hóa thông tin từ các văn bản hồ sơ
nghiệp vụ Công an nhân dân ............................................................................................................ 15
2.3.

Giới thiệu về trích rút thông tin trong văn bản ......................................................... 16

2.4.

Bài toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân ........................... 19

2.5.

Bài toán nhận dạng thực thể ..................................................................................... 22

2.6.

Các vấn đề của bài toán nhận dạng thực thể............................................................. 23

CHƢƠNG 3.
THỰC THỂ

MỘT SỐ HƢỚNG TIẾP CẬN
26


GIẢI QUYẾT BÀI TOÁN NHẬN DẠNG

3.1.

Hƣớng tiếp cận dựa trên luật (Rule-based) ............................................................... 26

3.2.

Hƣớng tiếp cận dựa trên từ điển (Dictionary-based) ................................................ 28

3.3.

Hƣớng tiếp cận dựa trên các phƣơng pháp học máy (Machine-learning) ................ 28

3.4.

Mô hình Markov ẩn (Hidden Markov Model - HMM) ............................................ 30

3.5.

Phƣơng pháp trƣờng điều kiện ngẫu nhiên (CRF).................................................... 33

3.6.

Các công trình liên quan nhận dạng thực thể tiếng Việt........................................... 34

CHƢƠNG 4.
NHÂN DÂN

MÔ HÌNH NHẬN DẠNG THỰC THỂ TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN

38

4.1.

Mô hình nhận dạng thực thể tiếng Việt .................................................................... 38

4.2.

Tiền xử lý dữ liệu ..................................................................................................... 39

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

5


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN
4.3.

Thành phần nhận dạng bằng luật .............................................................................. 40

4.4.

Thành phần nhận dạng bằng từ điển ......................................................................... 40

4.5.

Thành phần nhận dạng bằng học máy ...................................................................... 41

4.6.


Pha kết hợp kết quả .................................................................................................. 43

4.7.

Các phƣơng pháp đánh giá mô hình nhận dạng thực thể.......................................... 44

CHƢƠNG 5.
5.1.

THỰC NGHIỆM VÀ ĐÁNH GIÁ .................................................................... 45

Môi trƣờng và công cụ thực nghiệm ........................................................................ 45

5.1.1.

Môi trƣờng thực nghiệm .................................................................................... 45

5.1.2.

Công cụ thực nghiệm ......................................................................................... 45

5.2.

Dữ liệu thực nghiệm ................................................................................................. 45

5.2.1.

Dữ liệu huấn luyện ............................................................................................. 45

5.2.2.


Dữ liệu đánh giá ................................................................................................. 46

5.3.

Kết quả thực nghiệm và Công an nhân dân .............................................................. 47

5.3.1.

Kết quả thực nghiệm đánh giá trên từng thành phần nhận dạng ........................ 47

5.3.2.

Kết quả thực nghiệm sử dụng mô hình kết hợp ................................................. 49

5.3.3.

Kết quả thực nghiệm kiểm thử chéo với chính tập dữ liệu đánh giá .................. 49

5.3.4.

Giao diện chƣơng trình Công an nhân dân ........................................................ 51

KẾT LUẬN ................................................................................................................................ 53
TÀI LIỆU THAM KHẢO .......................................................................................................... 55

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

6



TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

DANH MỤC BẢNG VÀ HÌNH VẼ
ảng 2.1: Một số loại thực thể trong văn bản tiếng Việt..................................... 22
ảng 4.1: ảng mô tả một ví dụ tách câu. ........................................................... 39
ảng 4.2: ảng mô tả một ví dụ tách từ. ............................................................. 39
ảng 5.1: Môi trƣờng thực nghiệm. .................................................................... 45
ảng 5.2: Thống kê dữ liệu tập NCT .................................................................. 46
ảng 5.3: So sánh dữ liệu tập NCT và tập DG.................................................... 46
ảng 5.4: Kết quả đánh giá trên từng thành phần nhận dạng. ............................. 48
ảng 5.5: Kết quả đánh giá trên mô hình kết hợp ............................................... 49
ảng 5.6: Kết quả kiểm thử chéo đối với tập dữ liệu DG. .................................. 50
Hình 2.1. Hình minh họa một hệ thống trích rút thông tin. ................................. 18
Hình 3.1: Một ví dụ mô hình HMM gồm 3 trạng thái ......................................... 31
Hình 3.2: Đồ thị mô tả mô hình HMM. ............................................................... 32
Hình 3.3: Một ví dụ cụ thể áp dụng mô hình HMM vào bài toán NER. ............. 33
Hình 3.4: Một ví dụ cụ thể áp dụng mô hình CRF vào bài toán NER. ............... 34
Hình 4.1: Mô hình nhận dạng thực thể tiếng Việt. .............................................. 38
Hình 5.1: Kết quả thực nghiệm và đánh giá nhận dạng thực thể từ hồ sơ nghiệp
vụ Công an nhân dân. ................................................................................................... 47
Hình 5.2: Kết quả đầu ra của chƣơng trình.......................................................... 51

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

7


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN


THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
THUẬT NGỮ

Ý NGHĨA

HS

Hồ sơ

TLLT

Tài liệu lƣu trữ

QA

Question Answering

NER

Named Entity Recognition

HMM

Hidden Markov Model

SVM

Support Vector Machine

CRF


Conditional Random Fields

IE

Information Extraction

IR

Information Retrieval

TE

Terminology Extraction

RE

Relationship Extraction

DM

Data Mining

NLP

Natural language processing

TM

Text Mining


TBL

Transformation-based Learning

MUSE

Multi Source Entity Finder

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

8


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

CHƢƠNG 1.

GIỚI THIỆU ĐỀ TÀI LUẬN VĂN

1.1. Giới thiệu đề tài
Trong những năm gần đây, bài toán trích rút thông tin trong các tài liệu tiếng Việt
(Information Extraction for Vietnamese) nổi lên nhƣ là một vấn đề thách thức thuộc
lĩnh vực xử lý ngôn ngữ tự nhiên của con ngƣời khi có sự kết hợp giữa việc phân loại
văn bản theo cấu trúc của các nhà ngôn ngữ với kỹ thuật xử lý ngôn ngữ tự nhiên của
công nghệ thông tin.
Nhận dạng thực thể là một bài toán con, đồng thời là bài toán đơn giản nhất của bài
toán trích rút thông tin, nhằm hƣớng tới nhận dạng chính xác và đầy đủ tên các thực
thể xuất hiện trong các văn bản, hồ sơ tài liệu liên quan nhằm giúp quá trình tìm kiếm
các thông tin có giá trị ẩn giấu sau các hồ sơ tài liệu một cách nhanh chóng và đạt hiệu

quả cao.
Bởi tầm quan trọng của việc nhận dạng thực thể trong các tài liệu văn bản tiếng Việt
mà nó đã đƣợc nhiều nhà nghiên cứu khoa học tìm hiểu khá lâu và thực tế có khá
nhiều các công cụ sẵn có để hỗ trợ nhƣ các từ điển, các kho ngữ liệu, các thuật toán
hiệu quả. Trong phạm vi của đề tài luận văn “Trích rút thông tin từ hồ sơ nghiệp vụ
Công an nhân dân”, luận văn hƣớng tới sử dụng những công cụ sẵn có để hỗ trợ việc
giải quyết bài toán trên. Cụ thể, luận văn sử dụng phƣơng pháp học máy đang sử dụng
khá phổ biến và chứng minh đƣợc tính hiệu quả của nó cũng nhƣ sử dụng các tập từ
điển, các kho ngữ liệu hữu ích và lựa chọn các đặc trƣng có lợi cho giải quyết bài toán.

1.2. Mục tiêu và giải pháp
1.2.1. Mục tiêu
Nghiên cứu và nắm rõ các khái niệm cơ bản về thực thể, bài toán nhận dạng thực
thể trong các tài liệu văn bản tiếng Việt, các hƣớng tiếp cận, cũng nhƣ áp dụng các mô
hình, phƣơng pháp vào bài toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân
dân, đó là nhận dạng: ngƣời, thời gian, địa điểm và vụ việc.
1.2.2. Nội dung và các vấn đề cần giải quyết
-

Nghiên cứu, tìm hiểu các kiến thức liên quan về các loại thực thể, bài
toán nhận dạng, nhận dạng tên thực thể có sẵn.

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

9


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

-


Đọc, hiểu, nắm rõ các hƣớng tiếp cận truyền thống sử dụng luật, từ điển
và hƣớng tiếp cận sử dụng các phƣơng pháp học máy.

-

Áp dụng các hƣớng tiếp cận vào bài toán nhằm nhận dạng ra đƣợc nhiều
thực thể đáng quan tâm.

1.3. Nội dung luận văn
Các phƣơng pháp tiếp cận ban đầu chủ yếu dựa trên các phƣơng pháp tiếp cận kinh
nghiệm. Cho tới nay có rất nhiều phƣơng pháp tiếp cận khác nhau đã đƣợc đề xuất để
giải quyết bài toán chung là nhận dạng thực thể trong văn bản tiếng Việt lẫn các tài
liệu tiếng Anh. Luận văn này giới thiệu 3 (ba) hƣớng tiếp cận giải quyết điển hình:
dựa vào luật, dựa vào từ điển và dựa vào phƣơng pháp học máy. Những công trình
này mang tính ứng dụng cao, đang ngày càng đƣợc cải tiến cho hiệu quả tốt hơn.
Dựa trên những hƣớng tiếp cận này, luận văn đề xuất một mô hình nhằm giải quyết
bài toán nhận dạng các thông tin từ hồ sơ nghiệp vụ Công an nhân dân. Kết quả thực
nghiệm bƣớc đầu cho thấy mô hình phù hợp và cho kết quả khả quan: độ đo F1 đạt
khoảng 87,24%. Các kết quả này khá khả quan, thể hiện đƣợc ƣu điểm của mô hình đề
xuất.
Luận văn chia làm 5 chƣơng, nội dung gồm có:
 Chương I. Giới thiệu đề tài luận văn
Chƣơng này nhằm giới thiệu nội dung của luận văn, mục tiêu và giải pháp cho luận
văn.
 Chương II. Bài toán nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân
Giới thiệu các khái niệm cơ bản về bài toán nhận diện thực thể từ hồ sơ nghiệp vụ
Công an nhân dân, các khó khăn, thách thức trong quá trình số hóa thông tin từ các
văn bản, tài liệu có trong hồ sơ nghiệp vụ Công an nhân dân.
 Chương III. Một số hướng tiếp cận giải quyết bài toán nhận dạng thực thể

Đƣa ra bài toán tổng quan về việc nhận dạng thực thể trong các tài liệu tiếng Việt.
Trong phần này, luận văn cũng tập trung nghiên cứu và tìm hiểu các hƣớng tiếp cận
đang đƣợc cộng đồng xử lý ngôn ngữ tự nhiên quan tâm và tin dùng.
 Chương IV. Mô hình nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

10


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

Trên cơ sở những hƣớng tiếp cận trình bày ở Chƣơng 3 và thông qua khảo sát miền
dữ liệu là văn bản trong hồ sơ nghiệp vụ Công an nhân dân, luận văn đã lựa chọn
phƣơng pháp dựa vào luật, sử dụng bộ từ điển và phƣơng pháp học máy mô hình
Markov ẩn và mô hình học máy CRF để giải quyết bài toán.
Tiến hành thực nghiệm nhận dạng thực thể và nhận dạng các thông tin trong các
tập dữ liệu đầu vào đƣợc thu thập thủ công.
 Chương V. Thực nghiệm và đánh giá
Tóm lƣợc những kết quả đạt đƣợc của luận văn, đồng thời đƣa ra những hạn chế,
những điểm cần khắc phục và đƣa ra định hƣớng nghiên cứu trong thời gian sắp tới.

1.4. Kết luận
Chƣơng I đã đƣa ra đƣợc nội dung đề tài luận văn cũng nhƣ cái nhìn chung cho
hƣớng triển khai của luận văn, giúp ngƣời đọc dễ theo dõi và nắm bắt vấn đề. Các
chƣơng sau sẽ đi vào phân tích cụ thể về lý thuyết và cách triển khai để giải quyết bài
toán nhận dạng thực thể, đó là ngƣời, địa điểm, thời gian và vụ việc có trong tài liệu từ
Hồ sơ nghiệp vụ Công an nhân dân.

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2


11


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

CHƢƠNG 2. BÀI TOÁN NHẬN DẠNG THỰC THỂ
TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN
2.1. Giới thiệu về cấu trúc hồ sơ nghiệp vụ Công an nhân dân
Trải qua quá trình phát triển lâu dài của lịch sử, cùng với sự phát triển của xã hội
loài ngƣời. Tài liệu đƣợc hình thành và phát triển từ thô sơ nhƣ thể hiện trên vỏ cây,
mảnh xƣơng, da thú và phát triển đến văn bản viết trên giấy, chụp trên phim ảnh và
ngày nay đƣợc ghi trên các công cụ hiện đại nhƣ đĩa từ, đĩa quang... Với chức năng là
công cụ, phƣơng tiện bảo vệ quyền lợi của giai cấp thống trị, đấu tranh chống lại các
giai cấp khác trong xã hội. Vì vậy, tài liệu chỉ đƣợc hình thành từ khi xã hội xuất hiện
giai cấp và nhà nƣớc. Nhờ có tài liệu và các ngành khoa học xã hội nhƣ: Lƣu trữ học,
sử học, bảo tồn, bảo tàng... đã giúp cho chúng ta nghiên cứu, biết đƣợc lịch sử hình
thành và phát triển của loài ngƣời nhƣ ngày nay.

2.1.1. Định nghĩa và khái niệm
Khoa học lƣu trữ định nghĩa: “Hồ sơ là một tập công văn, tài liệu có mối liên hệ
với nhau về một sự việc, một vấn đề (hoặc một ngƣời) hình thành trong quá trình
giải quyết công việc và đƣợc tập trung bảo quản theo thứ tự, khoa học, đƣợc bảo
quản nghiên cứu, sử dụng (trong một bìa hay một cặp)”. Hiện nay, khái niệm hồ sơ
cũng đƣợc dùng để chỉ một tập văn bản kết hợp với nhau theo đặc điểm hình thành
nhƣ: Tập biên bản, tập chỉ thị... Một hồ sơ có thể dầy hay mỏng tuỳ theo số lƣợng công
văn giấy tờ hình thành trong quá trình giải quyết công việc nhiều hay ít. Hồ sơ dầy có
thể chia thành nhiều tập.
Tóm lại, hồ sơ là một tập hợp các tài liệu có mối liên hệ với nhau phản ánh về một
con ngƣời, một vấn đề, một sự việc...Tài liệu trong hồ sơ phải đƣợc sắp xếp theo

phƣơng pháp khoa học nhằm phục vụ cho yêu cầu nghiên cứu, sử dụng trong hoạt
động thực tiễn của cơ quan, tổ chức và phải đƣợc bảo quản trong một bìa hay một cặp.
Hồ sơ có thể dầy, mỏng khác nhau tuỳ theo số lƣợng tài liệu hình thành trong quá trình
giải quyết công việc, hồ sơ dầy có thể chia thành nhiều tập.
Luật Lƣu trữ năm 2013 đã nêu khái niệm: Hồ sơ là một tập tài liệu có liên quan với
nhau về một vấn đề, một sự việc, một đối tƣợng cụ thể hoặc có đặc điểm chung, hình
thành trong quá trình theo dõi, giải quyết công việc thuộc phạm vi chức năng, nhiệm
vụ của cơ quan, tổ chức, cá nhân. Lập hồ sơ là việc tập hợp, sắp xếp tài liệu hình thành

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

12


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

quá trình theo dõi, giải quyết công việc của cơ quan, tổ chức, cá nhân thành hồ sơ theo
những nguyên tắc và phƣơng pháp nhất định.
Trên cơ sở định nghĩa, khái niệm về hồ sơ của lƣu trữ học, Bộ Công an đƣa ra khái
niệm hồ sơ nghiệp vụ Công an nhân dân (CAND): “Hồ sơ nghiệp vụ CAND là một
tập hợp tài liệu liên quan với nhau về ngƣời, vụ việc, đối tƣợng, địa bàn, chuyên
đề nghiệp vụ hình thành trong công tác phòng, chống tội phạm và quản lý nhà
nƣớc về an ninh chính trị, bảo đảm trật tự an toàn xã hội, đƣợc tổ chức đăng ký,
quản lý theo quy định của pháp luật”.
Từ định nghĩa trên, ta thấy hồ sơ nghiệp vụ CAND có các đặc trƣng: (1) Hồ sơ
nghiệp vụ CAND là một tập hợp các tài liệu, văn kiện có mối liên hệ với nhau phản
ánh về một ngƣời, một vụ việc, một địa bàn hoặc một chuyên đề nghiệp vụ... hình
thành trong công tác phòng, chống tội phạm và quản lý nhà nƣớc về an ninh chính trị,
bảo đảm trật tự, an toàn xã hội. (2) Những tài liệu trên đƣợc sắp xếp theo một phƣơng
pháp khoa học, trình tự nhất định nhằm giúp ích cho lực lƣợng Công an nhân dân

trong các hoạt động điều tra nghiên cứu, xử lý tội phạm, các hành vi vi phạm pháp luật
khác và quản lý Nhà nƣớc về an ninh chính trị, trật tự an toàn xã hội.
2.1.2. Về mặt tính chất
Hồ sơ nghiệp vụ Công an nhân dân bao gồm 4 tính chất:
- Tính nghiệp vụ chiến đấu: Hồ sơ, tài liệu nghiệp vụ của lực lƣợng Công an
nhân dân là công cụ, phƣơng tiện ghi nhận, phản ánh khách quan, trung thực tình hình
hoạt động của tội phạm, kết quả công tác điều tra, nghiên cứu của lực lƣợng Công an
nhân dân. Hồ sơ, tài liệu nghiệp vụ của lực lƣợng Công an nhân dân là phƣơng tiện
chiến đấu, là vũ khí sắc bén của lực lƣợng Công an nhân dân trong đấu tranh phòng,
chống tội phạm, giữ gìn an ninh chính trị và đảm bảo trật tự an toàn xã hội.
- Tính pháp luật: Hoạt động của lực lƣợng Công an nhân dân là hoạt động thi
hành pháp luật, công tác hồ sơ là một bộ phận của hoạt động đó. Do đó công tác hồ sơ
nghiệp vụ Công an nhân dân mang tính pháp luật. Tính chất pháp luật của công tác hồ
sơ thể hiện trong hoạt động nghiệp vụ của lực lƣợng Công an nhân dân khi thu thập
tài liệu để lập hồ sơ phải bảo đảm đúng trình tự, thủ tục do pháp luật qui định, phục vụ
yêu cầu thi hành pháp luật.
- Tính khoa học: Việc tiến hành công tác hồ sơ phải tuân theo phƣơng pháp, qui
trình mang tính khoa học; mặt khác nghiệp vụ công tác hồ sơ là một bộ môn khoa học

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

13


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

có mục đích, đối tƣợng và có phƣơng pháp nghiên cứu riêng; hiện nay lực lƣợng Hồ sơ
nghiệp vụ Công an nhân dân đang ứng dụng thành tựu của nhiều ngành khoa học khác
nhƣ: Toán học, lý học, hóa học và đặc biệt là công nghệ thông tin để phát triển công
tác hồ sơ nghiệp vụ Công an nhân dân phục vụ công tác đấu tranh phòng, chống tội

phạm, giữ gìn an ninh chính trị và đảm bảo trật tự an toàn xã hội.
- Tính bí mật: Nội dung hồ sơ, tài liệu nghiệp vụ của lực lƣợng Công an nhân dân
chứa đựng nhiều bí mật của Đảng, Nhà nƣớc, của ngành Công an và bí mật của công
dân nếu để lộ sẽ gây hậu quả không thể khắc phục đƣợc; hiện nay kẻ địch và các phần
tử xấu đang tìm mọi cách để lấy cắp bí mật của hồ sơ, tài liệu. Tính chất bí mật của hồ
sơ, tài liệu nghiệp vụ Công an nhân dân thể hiện ở tất cả các qui định, qui trình công
tác hồ sơ từ khâu thu thập tài liệu, lập, đăng ký, quản lý và khai thác sử dụng thông tin,
tài liệu trong đấu tranh phòng, chống tội phạm của lực lƣợng Công an nhân dân, giữ
gìn an ninh chính trị và đảm bảo trật tự an toàn xã hội.
o Về nguyên tắc: Cơ quan hồ sơ nghiệp vụ Công an nhân dân thống nhất
quản lý, chỉ đạo công tác hồ sơ nghiệp vụ trong lực lƣợng An ninh nhân dân và Cảnh
sát nhân dân; thực hiện chức năng quản lý nhà nƣớc về công tác hồ sơ nghiệp vụ Công
an nhân dân. Hồ sơ nghiệp vụ Công an nhân dân phải đƣợc bảo vệ tuyệt đối an toàn, bí
mật từ khi thu thập đến khi tiêu hủy theo quy định của pháp luật và của Bộ Công an.
Thông tin, tài liệu trong hồ sơ nghiệp vụ Công an nhân dân chỉ khai thác phục vụ công
tác phòng, chống tội phạm và quản lý nhà nƣớc về an ninh trật tự, bảo vệ chính trị nội
bộ, yêu cầu của cơ quan, tổ chức, cá nhân theo quy định của pháp luật và của Bộ Công
an.
o Các hành vi bị nghiêm cấm: Tự ý lập, tẩy xoá, sửa chữa làm sai lệch nội
dung hồ sơ, tài liệu; chiếm đoạt, làm hỏng, làm mất tài liệu, mua bán, chuyển giao, tiêu
huỷ trái phép hồ sơ, tài liệu lƣu trữ; mang hồ sơ, tài liệu ra nƣớc ngoài trái phép; truy
cập, thay đổi, giả mạo, sao chép, tiết lộ, gửi, hủy trái phép tài liệu lƣu trữ điện tử; tạo
ra hoặc phát tán chƣơng trình phần mềm làm rối loạn, thay đổi, phá hoại hệ thống điều
hành hoặc có hành vi khác nhằm phá hoại phƣơng tiện quản lý tài liệu lƣu trữ điện tử;
sử dụng thông tin, tài liệu nghiệp vụ nhằm mục đích xâm phạm lợi ích của nhà nƣớc,
quyền và lợi ích hợp pháp của cơ quan, tổ chức, cá nhân.
Hồ sơ nghiệp vụ Công an nhân dân đƣợc hình thành trong công tác phòng, chống
tội phạm và quản lý nhà nƣớc về an ninh chính trị và trật tự an toàn xã hội, bao gồm tài
liệu văn bản và tài liệu điện tử. Tài liệu hồ sơ nghiệp vụ có 2 loại là tài liệu văn bản là


ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

14


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

tài liệu bằng giấy hoặc vật liệu khác; tài liệu điện tử là tài liệu đƣợc tạo lập ở dạng
thông điệp dữ liệu hoặc đƣợc số hóa từ tài liệu văn bản. Ngoài ra, các loại hồ sơ
nghiệp vụ đƣợc quy định theo lĩnh vực công tác, trong đó:
 Các loại hồ sơ về công tác nghiệp vụ cơ bản; công tác điều tra, xử lý tội phạm
và vi phạm pháp luật bao gồm: Hồ sơ điều tra cơ bản; hồ sơ cá nhân đối tƣợng
và hồ sơ chuyên đề; hồ sơ chuyên án. Hồ sơ chuyên án gồm 3 loại: Hồ sơ
chuyên án trinh sát; hồ sơ chuyên án truy xét mở rộng vụ án đã khởi tố; hồ sơ
chuyên án truy xét truy bắt đối tƣợng truy nã đặc biệt nguy hiểm.
 Hồ sơ điều tra, xử lý tội phạm.
 Hồ sơ công tác quản lý hành chính về trật tự, an toàn xã hội.
 Hồ sơ công tác thi hành án hình sự và hỗ trợ tƣ pháp.

2.2. Các vấn đề thuận lợi và khó khăn trong việc số hóa thông tin từ các
văn bản hồ sơ nghiệp vụ Công an nhân dân
Hiện đại hóa hệ thống hồ sơ, cơ sở dữ liệu tại cơ quan Hồ sơ nghiệp vụ CAND góp
phần hiện đại hoá công tác phòng ngừa và đấu tranh chống các loại tội phạm, giữ gìn
an ninh chính trị và đảm bảo trật tự an toàn xã hội nhằm khắc phục tình trạng manh
mún, chia cắt khép kín, vừa thừa, vừa thiếu thông tin. Góp phần cung cấp các luận cứ
khoa học cho việc hoạch định đƣờng lối, chính sách đấu tranh phòng chống tội phạm,
cho công tác nghiên cứu khoa học và tổng kết, sơ kết các chuyên đề có liên quan đến
công tác bảo đảm an ninh trật tự của lực lƣợng CAND và các cơ quan bảo vệ pháp luật
khác. Các hệ thống thông tin về vụ việc, đối tƣợng đƣợc nghiên cứu, xây dựng sẽ là
“kho thông tin” lớn về tình hình an ninh trật tự và kết quả hoạt động của lực lƣợng

CAND. Với lợi thế về tốc độ xử lý, khối lƣợng thông tin xử lý của máy tính, thông tin
về đối tƣợng, vụ việc... lƣu giữ trong các cơ sở dữ liệu (CSDL) sẽ cung cấp các số liệu
chính xác phục vụ tổng kết các quy luật hoạt động của từng loại tội phạm, đề ra các
biện pháp phòng ngừa, đấu tranh thích hợp; tổng kết các chuyên đề có liên quan đến
công tác bảo đảm an ninh, trật tự của lực lƣợng CAND và các cơ quan bảo vệ pháp
luật khác.
Tuy nhiên, việc số hóa thông tin từ các tài liệu, văn bản hồ sơ nghiệp vụ CAND
còn gặp khá nhiều khó khăn, thách thức. Cụ thể:
 Hồ sơ nghiệp vụ CAND hiện nay chiếm tỷ lệ hơn 90% là văn bản bằng giấy
(chủ yếu là các biểu mẫu in sẵn và trong quá trình hoàn thiện hồ sơ chính là
hoàn thiện các biểu mẫu) và nội dung của nó là các trƣờng thông tin khác nhau,
ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

15


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

nhƣ: Họ và tên, ngày, tháng, năm sinh, quê quán, nơi thƣờng trú, nghề nghiệp,
thái độ chính trị, diễn biến quá trình và tính chất vụ việc, nội dung vi phạm….
Tuy nhiên, trong hồ sơ các vụ án hình sự thuộc hồ sơ chuyên án truy xét hoặc
hồ sơ chuyên án truy xét mở rộng vụ án đã khởi tố thì nội dung phần Hỏi – đáp
giữa cán bộ Công an và ngƣời vi phạm hoặc ngƣời có liên quan chiếm đến 50 –
60% khối lƣợng của hồ sơ, việc đó diễn ra trong thời gian cụ thể, nhanh nên
việc hoàn thiện các bộ hồ sơ nghiệp vụ hiện nay chủ yếu là diễn ra sau khi đã có
kết quả các công việc cụ thể, khả năng ứng dụng CNTT trong quá trình hoàn
thiện hồ sơ không nhiều.
 Khối lƣợng hồ sơ nghiệp vụ CAND hiện nay chủ yếu đƣợc lập từ các đơn vị
công an cơ sở nhƣ phƣờng, xã, quận - huyện là chủ yếu, ở cấp tỉnh, thành phố
chỉ chiếm từ 20 – 30 % khối lƣợng hồ sơ nghiệp vụ; do đó công việc của cán bộ

làm công tác hồ sơ nghiệp vụ hiện nay chủ yếu là số hóa các hồ sơ, lƣu lại các
văn bản trong hồ sơ bằng dạng file sau khi Scan hoặc chụp lại và tóm tắt hồ sơ
các các biểu mẫu theo quy định từ đó mới ứng dụng CNTT để quản lý hồ sơ
nghiệp vụ qua các bảng, biểu mẫu, thẻ…
Khối lƣợng hồ sơ nghiệp vụ của CAND các cấp ngày càng lớn, số lƣợng ngày càng
nhiều, số ngƣời có liên quan đến các hồ sơ nghiệp vụ CAND ngày càng đông, do đó
đặt ra yêu cầu thực tế công việc thủ công của cán bộ làm công tác hồ sơ nghiệp vụ
không đáp ứng đƣợc yêu cầu của công tác khai thác sử dụng hồ sơ nghiệp vụ CAND
phục vụ cho công tác đấu tranh với các bọn tội phạm nhằm đảm bảo an ninh chính trị
và giữ gìn trật tự an toàn xã hội.
2.3. Giới thiệu về trích rút thông tin trong văn bản
Theo Line Eikvil [13] định nghĩa IE là lĩnh vực nghiên cứu hẹp của xử lý ngôn ngữ
tự nhiên và xuất phát từ việc xác định những thông tin cụ thể từ một tài liệu ngôn ngữ
tự nhiên. Mục đích của trích rút thông tin là chuyển văn bản về dạng có cấu trúc, tức là
thông tin đƣợc nhận dạng từ những nguồn tài liệu khác nhau và đƣợc biểu diễn dƣới
một hình thức thống nhất. Theo Jim Cowie và Yorick Wilks [14]: Information
Exaction - IE là tên đƣợc đặt cho quá trình cấu trúc và kết hợp một cách có chọn lọc
dữ liệu đƣợc tìm thấy, đƣợc phát biểu hay ám chỉ một cách rõ ràng, cụ thể trong một
hay nhiều tài liệu văn bản. Kết quả đầu ra của quá trình trích rút thông tin biến thiên;
tuy nhiên, trong nhiều trƣờng hợp, các kết quả đƣợc dịch chuyển để đƣa vào một loại
nào đó có trong cơ sở dữ liệu. Những hệ thống trích rút thông tin văn bản không nhằm

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

16


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

mục tiêu tìm hiểu văn bản đƣa vào, mà nhiệm vụ chính của nó là tìm kiếm các thông

tin đáng quan tâm. Theo những chuyên gia về trích xuất thông tin của GATE1 thì
những hệ thống trích rút thông tin sẽ tiến hành phân tích văn bản nhằm trích ra những
thông tin cần thiết theo các dạng đƣợc định nghĩa trƣớc, chẳng hạn nhƣ nhận dạng sự
kiện, nhận dạng thực thể và các mối quan hệ.
Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu nội dung của tài liệu văn
bản, nhƣng hệ thống phải có khả năng phân tích và tìm kiếm các thông tin mà hệ thống
thấy đáng đƣợc quan tâm trong tài liệu đƣa vào. Các kỹ thuật trích rút thông tin có thể
áp dụng cho bất kỳ tập tài liệu nào mà chúng ta cần trích ra những thông tin quan
trọng, cần thiết cũng nhƣ các sự kiện, các mối quan hệ liên quan. Các kho dữ liệu văn
bản về một lĩnh vực trên Internet là ví dụ điển hình, thông tin trên đó có thể tồn tại ở
nhiều nơi khác nhau, dƣới nhiều định dạng khác nhau, do vậy, có nhiều mức độ trích
rút thông tin từ văn bản nhƣ [14][15]:
 Trích rút thuật ngữ (Terminology Extraction - TE): tìm kiếm các thuật ngữ
chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các
tài liệu.
 Nhận dạng thực thể (Named Entity Recognition - NER): việc rút trích ra các
thực thể có tên tập trung vào các phƣơng pháp nhận dạng các đối tƣợng, thực
thể nhƣ: ngƣời, tên công ty, tên tổ chức, một địa danh, nơi chốn.
 Trích rút mối quan hệ (Relationship Extraction - RE): xác định mối quan hệ
giữa các thực thể đã đƣợc nhận dạng từ tài liệu. Cụ thể nhƣ việc xác định địa
danh cụ thể của một tổ chức hay phạm vi hoạt động của một nhóm tội phạm.

1 />
ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

17


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN


Ví dụ:

Hình 2.1. Hình minh họa một hệ thống trích rút thông tin.
Để có một hệ thống trích rút thông tin đầu tiên phải có một hệ thống nhận dạng
đƣợc đâu là thực thể nghĩa là tìm ra các thực thể ẩn giấu trong văn bản sau đó phân
loại quan hệ cho chúng nghĩa là xem chúng thuộc vào loại nào trong các loại đã đƣợc
định nghĩa.

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

18


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

Tóm lại, có thể hiểu trích rút thông tin (Information Extraction - IE) là một kỹ thuật,
lĩnh vực nghiên cứu có liên quan đến truy vấn thông tin (Information Retrieval - IR),
khai thác dữ liệu (Data Mining - DM), và xử lý ngôn ngữ tự nhiên (Natural Language
Processing - NLP). Cụ thể hơn, một hệ thống trích rút thông tin lấy ra những thông tin
đã đƣợc định nghĩa trƣớc về các thực thể và mối quan hệ giữa các thực thể từ một văn
bản dƣới dạng ngôn ngữ tự nhiên và điền những thông tin này vào một văn bản ghi dữ
liệu có cấu trúc hoặc một dạng mẫu đƣợc định nghĩa trƣớc đó. Ví dụ nhƣ việc nhận
dạng vị trí của một cuộc hẹn từ một bức thƣ điện tử; hay nhận dạng tên, hoạt động của
một tổ chức, nhóm tội phạm… Các kỹ thuật đƣợc sử dụng trong trích rút thông tin nói
chung và nhận diện thực thể nói riêng gồm có: hƣớng tiếp cận dựa trên luật, hƣớng
tiếp cận dựa trên từ điển, hƣớng tiếp cận dựa trên các phƣơng pháp học máy và kết
hợp 2 trong 3 hƣớng tiếp cận bên trên để đƣợc một hƣớng tiếp cận mới còn đƣợc gọi là
hƣớng tiếp cận lai. Ở mức độ trích rút thông tin ngữ nghĩa, một mẫu là thể hiện của
một sự kiện trong đó các thực thể tham gia đóng một số vai trò xác định trong sự kiện
đó. Đã có rất nhiều bài toán đƣợc đặt ra trong lĩnh vực trích rút thông tin trong tài liệu

tiếng Việt cũng nhƣ tiếng Anh sẽ đƣợc đƣa ra cụ thể trong những phần tiếp theo.

2.4. Bài toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân
Bài toán trích rút thông tin từ hồ sơ nghiệp vụ CAND là một nhiệm vụ cần thiết
nhằm xác định ra các thông tin quan trọng là các thực thể đƣợc gán nhãn, đó là: Tên
ngƣời, địa danh, thời gian và vụ việc. Đây là hình thức khai thác và sử dụng Hồ sơ,
tài liệu lƣu trữ (HS, TLLT) nhằm phần nào định hƣớng và tìm ra manh mối trong quá
trình tiến hành trinh sát, điều tra khám phá các vụ án, đƣợc thực hiện thƣờng xuyên và
đƣợc đánh giá là có hiệu quả nhất tại Cục Hồ sơ nghiệp vụ nói riêng và trong lực lƣợng
hồ sơ nghiệp vụ nói chung trong Công an nhân dân. Trong phạm vi của đề tài luận văn,
tôi sử dụng một kỹ thuật trong trích rút thông tin là nhận dạng thực thể đƣợc gán
nhãn để thực hiện việc nhận dạng các thông tin cần thiết liên quan đến vụ án. Bài toán
nhận dạng thực thể trong hồ sơ nghiệp vụ Công an nhân dân đƣợc phát biểu sau đây.
Mục đích bài toán: Nhận dạng thực thể các đối tƣợng (ngƣời: Nguyễn Văn A,…),
vụ việc tham gia (trộm cắp, đánh bạc, cá độ,…), địa danh (Cẩm khê, Phú Thọ; Gia
Lâm, Hà Nội…), thời gian (rạng sáng ngày 20/12/2013, ...) xuất hiện trong văn bản
mô tả vụ án tại hồ sơ nghiệp vụ Công an nhằm giúp ích cho việc tra cứu và sử dụng dữ
liệu. [Hình 2.1]

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

19


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

Đầu vào: Tập dữ liệu bao gồm các kết luận điều tra vụ án hình sự và các văn bản
mô tả vụ án từ hồ sơ nghiệp vụ Công an nhân dân.
Đầu ra: Tập dữ liệu chứa các mô tả vụ án, trong đó các thực thể đƣợc nhận dạng và
gắn thẻ (ngƣời –per, thời gian - time, địa danh - loc, vụ việc tham gia - crime) thích

hợp.
Ý nghĩa: Nhận dạng thực thể luôn là bƣớc đi đầu tiên của nhiều ứng dụng thực tế
và việc nhận dạng các thực thể ấn giấu trong hồ sơ cũng là một tác vụ quan trọng. Các
thực thể và các mối quan hệ của nó là các thành phần chủ chốt, các đầu mối hỗ trợ cho
công tác điều tra, khám phá các vụ án. Do đó, nhận dạng thực thể đƣợc sử dụng một
cách rộng rãi trong nhiều lĩnh vực khác nhau nhƣ xử lý ngôn ngữ tự nhiên, thu thập
thông tin, dịch tự động… Cụ thể, nhận dạng thực thể trong hồ sơ nghiệp vụ CAND
giúp việc tra cứu thông tin dễ dàng hơn. Tra cứu để thu thập tài liệu lập hồ sơ và tra
cứu để khai thác thông tin phục vụ các hoạt động điều tra trinh sát, truy bắt, xét xử…
- Giúp ích cho việc tra cứu (Tra cứu để thu thập tài liệu lập hồ sơ):
Theo Hƣớng dẫn chi tiết một số quy định về công tác hồ sơ nghiệp vụ CAND, thủ
tục lập hồ sơ bao gồm 3 bƣớc: (1) Thu thập tài liệu, chứng cứ lập hồ sơ; (2) Ra quyết
định lập hồ sơ; (3) Lập và quản lý thẻ, phiếu. Do đó, khi lập các loại HS cá nhân đối
tƣợng, HS chuyên án trinh sát, HS chuyên án truy xét, HS vụ án hình sự…, cán bộ lập
HS bắt buộc phải gửi yêu cầu tra cứu đến cơ quan hồ sơ nghiệp vụ để tra cứu, thu thập
thông tin. Nhƣ vậy, việc gửi yêu cầu tra cứu là một trong những yêu cầu bắt buộc về
thủ tục lập HS. Tuy nhiên, đó không phải là quy định mang tính hành chính đơn thuần
mà còn mang tính nghiệp vụ, pháp luật trong hoạt động điều tra, nghiên cứu. Cụ thể là
tra cứu thông tin hồ sơ để khai thác thông tin phục vụ các hoạt động điều tra, truy bắt,
xét xử.
+ Về mặt pháp luật: Theo quy định của Bộ luật Hình sự năm 1999 đƣợc sửa đổi
bổ sung năm 2009, quy định ngƣời chiếm đoạt tài sản có giá trị 2.000.000 đồng sẽ bị
truy cứu trách nhiệm hình sự. Nếu gây hậu quả ít nghiêm trọng, thì đặc điểm nhân thân
ngƣời phạm tội đƣợc coi là một trong những căn cứ để xem xét có ra quyết định khởi
tố hình sự hay không? Nếu ngƣời phạm tội lần đầu, đặc điểm nhân thân tốt thì chỉ áp
dụng biện pháp xử lý hành chính, ngƣợc lại nếu tái phạm hoặc ngƣời phạm tội đã bị xử
lý hành chính về hành vi chiếm đoạt tài sản thì phải khởi tố hình sự.
Mặt khác khi quyết định hình phạt, Điều 46 quy định các tình tiết giảm nhẹ trách
nhiệm hình sự và Điều 48 quy định các tình tiết tăng nặng trách nhiệm hình sự của Bộ


ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

20


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

luật Hình sự năm 1999 sửa đổi năm 2009, tiền án ở dạng tái phạm hoặc tái phạm nguy
hiểm là tình tiết tăng nặng trách nhiệm hình sự hoặc đối với một số tội phạm, tiền án ở
dạng tái phạm nguy hiểm là tình tiết định khung tăng nặng hình phạt.
+ Về mặt nghiệp vụ: Tra cứu, khai thác thông tin tại cơ quan Hồ sơ nghiệp vụ
giúp cơ quan Điều tra và điều tra viên nắm đƣợc thân nhân bị can còn giúp cho hoạt
động điều tra của cơ quan Điều tra và điều tra viên trong hoạt động điều tra, đặc biệt là
đối với việc áp dụng các biện pháp và chiến thuật điều tra trinh sát, chiến thuật đấu
tranh, xét hỏi bị can.
Theo quy định, các loại yêu cầu tra cứu và thủ tục tra cứu đối với yêu cầu cấp bản
trích lục hoặc thống kê tiền án tiền sự (TATS) thì sử dụng biểu mẫu kèm danh bản, chỉ
bản và thống kê TATS (nếu có); đối với yêu cầu tra cứu xác minh lai lịch, thông tin
TATS, đặc điểm nhân dạng, ảnh đối tƣợng (Đối tƣợng sƣu tra; hiềm nghi; chuyên án;
truy nã; xét duyệt đƣa ngƣời vào trƣờng giáo dƣỡng, cơ sở giáo dục bắt buộc; đối
tƣợng trong các vụ án hình sự, vụ việc vi phạm pháp luật hình sự chƣa đến mức khởi
tố, bị xử lý hành chính) sẽ sử dụng mẫu cụ thể (ghi rõ nội dung thông tin cần cung cấp;
nếu cần cung cấp ảnh phải ghi rõ số lƣợng ảnh, cỡ ảnh...).
Căn cứ vào nội dung, hình thức yêu cầu, tài liệu gửi kèm theo yêu cầu tra cứu, sau
khi tra cứu có kết quả, cơ quan Hồ sơ nghiệp vụ sẽ xác định hình thức trả lời thích
hợp, bao gồm các hình thức trả lời cụ thể:
-

Đối với yêu cầu tra cứu có danh chỉ bản: Yêu cầu của cơ quan Điều tra trả lời
bằng trích lục TATS; yêu cầu của cơ quan Hồ sơ nghiệp vụ trả lời bằng thống

kê TATS; yêu cầu của các đơn vị nghiệp vụ khác trả lời bằng công văn (không
dùng mẫu trích lục hoặc thống kê TATS).

-

Đối với yêu cầu tra cứu theo mẫu: Yêu cầu trong nội bộ cơ quan Hồ sơ nghiệp
vụ trả lời bằng thống kê TATS hoặc công văn; yêu cầu của các đơn vị nghiệp
vụ khác trả lời bằng công văn (không dùng mẫu trích lục hoặc thống kê TATS).

-

Đối với yêu cầu của cơ quan tổ chức, xã hội và cá nhân: Trả lời bằng công văn
hoặc theo mẫu quy định.

Dù trả lời bằng hình thức nào, thì trong văn bản đều phải khẳng định rõ: trƣờng hợp
không có tài liệu trong tàng thƣ hay có tài liệu. Nếu có tài liệu thì phải cung cấp đủ các
thông tin cần thiết theo yêu cầu nhƣ: Họ tên, lai lịch, TATS, ảnh, đặc điểm nhận
dạng…(tùy theo nội dung yêu cầu).

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

21


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

Mục tiêu của bài toán đặt ra trong luận văn này là trích xuất các thực thể liên quan
đến vụ án (ngƣời, địa danh, thời gian, vụ việc) nhằm phục vụ cho quá trình tra cứu
thông tin một cách thuận lợi và nhanh chóng nhất; để giải quyết vấn đề này luận văn
tập trung nghiên cứu bài toán nhận dạng thực thể trong lĩnh vực trích rút thông tin.

Trong phần tiếp theo luận văn, bản thân sẽ trình bày khái quát về bài toán nhận dạng
thực thể trong văn bản.

2.5. Bài toán nhận dạng thực thể
Nhận dạng thực thể (Named entity recognition - NER) còn gọi là nhận dạng thực
thể có tên hoặc nhận dạng thực thể là một bài toán con của trích rút thông tin
(Information Extraction - IE) và khai phá dữ liệu văn bản (Text Mining - TM) [15]. Cụ
thể là tìm kiếm và phân loại các cụm từ xuất hiện trong văn bản vào những loại xác
định trƣớc nhƣ là ngƣời, tổ chức, địa danh, thời gian, số lƣợng, giá trị tiền tệ, phần
trăm, ... Mục đích chính của bài toán nhận dạng các loại thực thể là xác định những đối
tƣợng này từ đó phần nào giúp cho chúng ta dễ dàng hơn trong việc hiểu văn bản và
thu thập dữ liệu đáng quan tâm. Bảng bên dƣới là một số thực thể chính trong các văn
bản tiếng Việt [1] .
ảng 2.1: Một số loại thực thể trong văn bản tiếng Việt.
CÁCLOẠI
THỰC THỂ

VÍ DỤ

Ngƣời (per)

Hiền Văn Trần, bác sỹ, nhân viên, ...

Địa danh (loc)

Hà Nội, Ngõ 1 Xuân Thủy, nhà kho, ...

Tổ chức (org)

HR, Blue club, ...

89, 20, 3...

Số (num)
Phần trăm (pct)

90%, 1%, ...
$56.6, 2 tỷ, ...

Tiền tệ (cur)
Thời gian (time)
Khác (misc)

8h sáng, 16/6/2006, ...
Máy may, đồ dùng học sinh, ...

NER xem nhƣ một bài toán gồm hai bƣớc: Đầu tiên, xác định cụm từ cần quan tâm,
sau đó phân loại chúng vào các loại đã đƣợc định nghĩa trƣớc [5][15]. Có bốn hƣớng
tiếp cận đã đƣợc đề cập, mỗi cách tiếp cận đều có ƣu và nhƣợc điểm riêng. Vì vậy, hai
hoặc nhiều hơn cách tiếp cận có thể đƣợc kết hợp để có hiệu năng tốt hơn, cụ thể:

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

22


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

Tiêu biểu cho hƣớng tiếp cận thủ công là hệ thống nhận dạng thực thể Proteus của
trƣờng Đại học New York tham gia MUC-6 [17]. Hệ thống đƣợc viết bằng Lisp và
đƣợc hỗ trợ bởi tập dữ liệu chứa một số lƣợng lớn các luật, hầu hết các luật đều chứa

các trƣờng hợp ngoại lệ và khó có thể giải quyết hết. Ví dụ bên dƣới là một minh họa
cho hệ thống sử dụng hƣớng tiếp cận dựa trên tập luật cùng với các trƣờng hợp ngoại
lệ của chúng [1]:
-

-

Luật: Title Capitalized_Word => Title Person Name
 Trƣờng hợp đúng : Mr. Johns, Gen. Schwarzkopf
 Trƣờng hợp ngoại lệ: Mrs. Field’s Cookies (một công ty).
Luật: Month_name number_less_than_32 => Date
 Trƣờng hợp đúng: February 28, July 15
 Trƣờng hợp ngoại lệ: Long March 3 (tên một tên lửa của Trung Quốc).

Nhƣợc điểm của các phƣơng pháp thủ công là tốn thời gian, công sức, tiền của
trong quá trình xây dựng tập luật bởi hầu hết các tập từ điển và các bộ luật đều đƣợc
xây dựng bằng tay bởi các chuyên gia, tuy nhiên kết quả đạt đƣợc lại không đƣợc nhƣ
mong muốn. Do vậy, để cải thiện cho vấn đề về các trƣờng hợp ngoại lệ của bộ luật,
các phƣơng pháp học máy hiện đang đƣợc tập trung nghiên cứu nhiều hơn.
Hầu hết các phƣơng pháp học máy đều có những ƣu thế riêng đồng thời vẫn còn tồn
tại một số hạn chế do đặc thù của mỗi mô hình. Tiêu biểu có thể kể đến các mô hình
Markov ẩn HMM và các mô hình cải tiến của nó (MEMM) khi đƣợc kết hợp với mô
hình học máy Maximum Entropy (ME) hay mô hình CRF; với các mô hình này ta có
thể xem tƣơng ứng mỗi trạng thái với một trong nhãn các nhãn thực thể và dữ liệu
quan sát là các từ trong câu đang xét. Máy vector hỗ trợ (SVM) cũng là một trong
những phƣơng pháp học máy cho kết quả rất khả quan.
Trong luận văn của mình, tôi kết hợp tìm hiểu cả ba hƣớng tiếp cận dựa trên học
máy, luật và từ điển nhằm giải quyết cho bài toán đƣợc đƣa ra.

2.6. Các vấn đề của bài toán nhận dạng thực thể

Trong cộng đồng xử lý ngôn ngữ tự nhiên, có khá nhiều các công trình, các nghiên
cứu đã lƣu ý về một số vấn đề khó khăn trong xử lý dữ liệu văn bản. Những khó khăn
thách thức điển hình nhất là sự nhập nhằng và đa dạng của các từ, cụm từ trong các ấn
phẩm có cấu trúc phức tạp, nguyên tắc hình thành đôi khi lại không giống nhƣ bình
thƣờng. Hiện nay, vẫn chƣa có quy ƣớc rõ ràng về tên các thực thể, vấn đề từ đồng
nghĩa – từ trái nghĩa – từ viết tắt và trong nhiều trƣờng hợp từ đƣợc sử dụng không

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

23


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

mang nghĩa thƣờng gặp của nó; nhiều từ cùng để chỉ một khái niệm và một từ có thể
có nhiều nghĩa[2], …
Đối với bài toán nhận dạng tên thực thể trong các tài liệu tiếng Việt, ngoài những
khó khăn chung của bài toán nhận dạng thực thể nói trên còn gặp một số trở ngại khác.
Các văn bản tiếng Việt không có dữ liệu huấn luyện và các nguồn tài nguyên có thể tra
cứu (nhƣ WordNet trong tiếng Anh), thiếu các thông tin ngữ pháp và các thông tin về
cụm từ nhƣ cụm danh từ, cụm động từ cho tiếng Việt, trong khi các thông tin này giữ
vai trò quan trọng trong việc nhận dạng thực thể; khoảng cách và biên giữa các từ/cụm
từ không rõ ràng, dễ gây nhập nhằng. Cụ thể nhƣ một ví dụ bên dƣới:
“Hà Nội và Hồ Chí Minh là hai thành phố lớn của Việt Nam“.
Kết quả của bài toán nhận dạng thực thể:
 “Hồ Chí Minh” phải đƣợc đánh dấu là một địa danh (một thành phố) thay
vì là tên một ngƣời.
 Chữ “Hà” viết đầu câu nên thông tin viết hoa không mang nhiều ý nghĩa.
Do vậy, khi nào “Hồ Chí Minh” đƣợc sử dụng nhƣ ngƣời, khi nào đƣợc sử dụng
nhƣ tên một địa danh?

Ngoài ra còn các vấn đề về viết tắt, vấn đề kiểu tên thực thể dài, đa dạng, vấn đề
đồng nghĩa cụ thể:
 Các từ/cụm từ không tuân theo luật nào về ký tự viết hoa.
 Cấu trúc các từ tạo thành một thực thể có thể rất phức tạp. Có nhiều từ mƣợn, từ
Hán Việt. Ví dụ: Sứ giả, tráng sỹ, giang sơn, mít tinh, In-tơ-nét, Ra-đi-ô, …
 Về mặt ngữ nghĩa, một từ hoặc cụm từ giống nhau có thể biểu diễn các nội
dung khác nhau tùy thuộc vào ngữ cảnh hay cùng một thực thể đôi khi có nhiều
cách viết không hoàn toàn giống nhau hay thậm chí khác hẳn nhau: đƣờng
“Thanh Niên” còn gọi là “con đường tình yêu”, “Chủ tịch Hồ Chí Minh” đôi khi
đƣợc biểu diễn bằng từ “Người”, …
 Tổng số tên các thực thể trong các văn bản quá nhiều, có nhiều tên mới đƣợc
đƣa ra. Do vậy, một hệ thống NER rất khó có thể xác định đƣợc tất cả.
 Có nhiều từ viết tắt: Hầu hết tên các địa danh/tổ chức đều đƣợc viết tắt, chúng
có thể tạo nên sự nhập nhằng (có nhiều cách định nghĩa khác nhau cho một từ
viết tắt nếu không định nghĩa rõ ràng trong ngữ cảnh). Ví dụ: HCM có thể là

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

24


TRÍCH RÚT THÔNG TIN TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

viết tắt của từ Hồ Chí Minh – tên của chủ tịch nƣớc hay Hồ Chí Minh – tên một
con đƣờng, tùy ngữ cảnh.
 Tên có nhiều từ và ký tự lạ: Đa phần tên địa danh, con đƣờng, số tiền thƣờng
dài, nhiều định dạng và chứa các ký tự lạ nhƣ: Dấu gạch ngang, dấu gạch chéo,
ký tự tiền, … gây khó khăn cho việc phân tách cũng nhƣ phát hiện biên của
thực thể.
 Tên lồng nhau: Một tên thực thể có thể xuất hiện trong một tên dài hơn hoặc có

thể xuất hiện độc lập.
Bài toán nhận dạng thực thể trong các văn bản tiếng Việt còn gặp nhiều khó khăn
hơn so với trong các băn bản tiếng Anh bởi một số nguyên nhân nhƣ sau:
 Thiếu dữ liệu huấn luyện và các nguồn tài nguyên có thể tra cứu nhƣ WordNet
trong tiếng Anh.
 Thiếu các thông tin từ loại (POS) và các thông tin về cụm từ nhƣ cụm danh từ,
cụm động từ... cho tiếng Việt trong khi các thông tin này giữ vai trò rất quan
trọng trong việc nhận dạng thực thể.
Ví dụ [1]: “Cao Xumin, Chủ tịch Phòng Thƣơng mại Xuất nhập khẩu thực phẩm
của Trung Quốc, cho rằng cách xem xét của DOC khi đem so sánh giá tôm của Trung
Quốc và giá tôm của Ấn Độ là vi phạm luật thƣơng mại”. Chúng ta muốn đoạn văn
bản trên đƣợc đánh dấu nhƣ sau: “[Cao Xumin]PER, Chủ tịch [Phòng Thƣơng mại Xuất
nhập khẩu thực phẩm]ORG của [Trung Quốc]LOC, cho rằng cách xem xét của
[DOC]ORGkhi đem so sánh giá tôm của [Trung Quốc]LOC và giá tôm của [Ấn Độ]LOC là
vi phạm luật thƣơng mại”.
Ví dụ trên đã cho thấy một số khó khăn mà một hệ thống nhận dạng thực thể tiếng
Việt gặp phải trong khi gán nhãn cho dữ liệu: Cụm từ “Phòng Thương mại Xuất nhập
khẩu thực phẩm” là tên một tổ chức nhƣng không phải từ nào cũng viết hoa. Các thông
tin nhƣ “Phòng Thương mại Xuất nhập khẩu thực phẩm” là một cụm danh từ và đóng
vai trò chủ ngữ trong câu rất hữu ích cho việc đoán nhận chính xác loại thực thể, tuy
vậy do tiếng Việt thiếu các hệ thống tự động đoán nhận chức năng ngữ pháp và phân
tách các cụm từ trong câu nên việc nhận dạng thực thể trở nên khó khăn hơn nhiều so
với tiếng Anh.

ĐINH VĂN VIỆT - CB121363 – 12BCNTT2

25



×