Xây dựng hệ thống phân loại tài liệu tại tỉnh đoàn Quảng Ngãi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.97 MB, 26 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN PHÚC HẬU

XÂY DỰNG HỆ THỐNG PHÂN LOẠI
TÀI LIỆU TẠI TỈNH ĐOÀN QUẢNG NGÃI

Chuyên ngành: Khoa học máy tính
Mã số: 8480101

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2018

Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: TS. PHẠM MINH TUẤN

Phản biện 1: TS. TRƯƠNG NGỌC CHÂU

Phản biện 2: TS. TRẦN THẾ VŨ

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ kỹ thuật họp tại Trường Đại học Bách khoa Đà
Nẵng vào ngày 05 tháng 01 năm 2019

Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu và Truyền thông Trường Đại học

Bách khoa,Đại học Đà Nẵng
- Thư viện Khoa Công nghệ thông tin, Trường Đại học
Bách khoa, Đại học Đà Nẵng

1
MỞ ĐẦU
1. Lý do chọn đề tài
- Việc phân loại các tài liệu có ký hiệu để lưu trữ,
khai thác các thông tin đó trên hệ thống máy tính là một bài
toán đang được đặt ra. Trên thực tế, cách duy nhất để sử
dụng thông tin ký hiệu và phân loại thì phải gõ lại văn bản
trên bàn phím để có thể thêm nó vào hệ thống máy tính hay
sử dụng làm đầu vào. Và với mong muốn tìm hiểu về lĩnh
vực nhận dạng kí tự quang học (Optical character
recognition – OCR) và đóng góp thêm vào kho ứng dụng về
nhận dạng một hệ thống nhận dạng thiết thực, hữu ích.
- Vì vậy trong luận văn sẽ tập trung tìm hiểu các kỹ
thuật, các công nghệ cần thiết để xây dựng hệ thống “Phân
loại văn bản tại Tỉnh đoàn Quảng Ngãi”
- Nội dung luận văn gồm phần mở đầu, 3 chương nội
dung, phần kết luận, tài liệu tham khảo.
Chương 1: Các phương pháp nhận dạng
Chương 2: Xây dựng ứng dụng phân loại văn bản tại
Tỉnh Đoàn Quảng Ngãi
Chương 3: Triển khai hệ thống và đánh giá kết quả
2. Mục đích nghiên cứu
- Nghiên cứu lý thuyết nhận dạng, xử lý ảnh.
- Hệ thống OCR
- Công nghệ mã nguồn mở Tesseract OCR

2
- Tạo ra một ứng dụng nhận dạng ký hiệu văn bản
dựa trên mã nguồn mở Tesseract OCR.
3. Ý nghĩa khoa học và thực tiễn của đề tài
3.1. Ý nghĩa khoa học
- Nghiên cứu lý thuyết nhận dạng và xử lý ảnh dựa
trên mã nguồn mở Tesseract OCR và hệ thống OCR.
3.2. Ý nghĩa thực tiễn
- Đề xuất giải pháp góp phần tăng hiệu quả việc quản
lý văn bản tại cơ quan Tỉnh đoàn Quảng Ngãi
4. Mục tiêu và nhiệm vụ
4.1. Mục tiêu
- Hỗ trợ cán bộ văn thư trong việc sao lưu văn bản,
quản lý văn bản phát hành và văn bản đến.
- Tự động hóa việc lưu trữ để giúp cán bộ văn thư dễ
dàng tìm kiếm văn bản khi cần.
4.2 Nhiệm vụ
- Tìm hiểu tổng quan về các phương pháp dạy máy
học
- Nghiên cứu
lý thuyết nhận dạng, xử lý ảnh.
- Tạo ra một ứng dụng nhận dạng ký hiệu văn bản rời
rạc dựa trên mạng noron và mã nguồn mở Tesseract OCR.
- Xây dựng chương trình, cài đặt, kiểm thử và đánh
giá.
5. Bố cục của luận văn
Cấu trúc của luận văn được trình bày bao gồm các
phần chính sau:

3
MỞ ĐẦU: Giới thiệu sơ bộ về lý do chọn đề tài, mục
đích nghiên cứu, đối tượng và phạm vi nghiên cứu, phương
pháp nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài.
CHƯƠNG 1: CÁC PHƯƠNG PHÁP NHẬN
DẠNG
Giới thiệu tổng quan các phương pháp nhận dạng văn
bản đã được áp dụng trong các hệ thống nhận dạng từ trước
đến nay.
CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN
LOẠI VĂN BẢN TẠI TỈNH ĐOÀN QUẢNG NGÃI
Trong chương này tác giả đề xuất phương pháp xây
dựng hệ thống phân loại văn bản tại Tỉnh Đoàn Quảng Ngãi
và trình bày các khối chức năng của phương pháp nhận
dạng văn bản theo từng loại tại cơ quan.
CHƯƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ
ĐÁNH GIÁ KẾT QUẢ
Trong chương này, tác giả xin được trình bày hệ
thống nhận dạng văn bản tại cơ quan Tỉnh Đoàn Quảng
Ngãi và xây dựng quá trình thực nghiệm và đánh giá kết
quả.

4
CHƯƠNG 1
CÁC PHƯƠNG PHÁP NHẬN DẠNG
1.1. Học máy
1.1.1. Khái niệm

Học máy là một lĩnh vực của trí tuệ nhân tạo liên
quan đến việc phát triển các kĩ thuật cho phép các máy tính
có thể "học". Cụ thể hơn, học máy là một phương pháp để
tạo ra các chương trình máy tính bằng việc phân tích các tập
dữ liệu.
Học máy có liên quan lớn đến thống kê, vì cả hai
lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác
với thống kê, học máy tập trung vào sự phức tạp của các
giải thuật trong việc thực thi tính toán. Nhiều bài toán suy
luận được xếp vào loại bài toán khó, vì thế một phần của
học máy là nghiên cứu sự phát triển các giải thuật suy luận
xấp xỉ mà có thể xử lý được.
Học máy có tính ứng dụng rất cao bao gồm máy
truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng
giả, phân tích thị trường chứng khoán, phân loại các chuỗi
DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi
trò chơi và cử động rô-bốt.
1.1.2. Các phương pháp học máy
1.1.2.1. Học không giám sát
1.1.2.2. Học có giám sát
1.1.2.3. Học bán giám sát

5
1.1.2.4. Học tăng cường
1.2. Các phương pháp nhận dạng
1.2.1. Máy véc-to hỗ trợ (SVM)
Máy vectơ hỗ trợ (SVM – viết tắt tên tiếng Anh
support vector machine) là một khái niệm trong thống kê và
khoa học máy tính cho một tập hợp các phương pháp học có

giám sát liên quan đến nhau để phân loại và phân tích hồi
quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng
vào hai lớp khác nhau. Do đó SVM là một thuật toán phân
loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể
loại cho trước, thuật toán luyện tập SVM xây dựng một mô
hình SVM để phân loại các ví dụ khác vào hai thể loại đó.
Một mô hình SVM là một cách biểu diễn các điểm trong
không gian và lựa chọn ranh giới giữa hai thể loại sao cho
khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất
có thể. Các ví dụ mới cũng được biểu diễn trong cùng một
không gian và được thuật toán dự đoán thuộc một trong hai

6
thể loại tùy vào ví dụ đó nằm ở phía nào của ranh giới.
Một máy vectơ hỗ trợ xây dựng một siêu phẳng
hoặc một tập hợp các siêu phẳng trong một không gian
nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho
phân loại, hồi quy, hoặc các nhiệm vụ khác. Một cách trực
giác, để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa
các điểm dữ liệu của tất cả các lớp (gọi là hàm lề) càng tốt,
vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật
toán phân loại càng bé.
Trong nhiều trường hợp, không thể phân chia các
lớp dữ liệu một cách tuyến tính trong một không gian ban
đầu được dùng để mô tả một vấn đề. Vì vậy, nhiều khi cần
phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào
một không gian mới nhiều chiều hơn, để việc phân tách
chúng trở nên dễ dàng hơn trong không gian mới. Để việc
tính toán được hiệu quả, ánh xạ sử dụng trong thuật toán

SVM chỉ đòi hỏi tích vô hướng của các vectơ dữ liệu trong
không gian mới có thể được tính dễ dàng từ các tọa độ
trong không gian cũ. Tích vô hướng này được xác định
bằng một hàm hạt nhân K(x,y) phù hợp. Một siêu phẳng
trong không gian mới được định nghĩa là tập hợp các điểm
có tích vô hướng với một vectơ cố định trong không gian đó
là một hằng số. Vectơ xác định một siêu phẳng sử dụng
trong SVM là một tổ hợp tuyến tính của các vectơ dữ liệu
luyện tập trong không gian mới với các hệ số αi. Với siêu
phẳng lựa chọn như trên, các điểm x trong không gian đặc

7
trưng được ánh xạ vào một siêu mặt phẳng là các điểm thỏa
mãn:
∑

(

)

Ghi chú rằng nếu K(x,y) nhận giá trị ngày càng nhỏ
khi y xa dần khỏi x thì mỗi số hạng của tổng trên được dùng
để đo độ tương tự giữa x với điểm xi tương ứng trong dữ
liệu luyện tập. Như vậy, tác dụng của tổng trên chính là so
sánh khoảng cách giữa điểm cần dự đoán với các điểm dữ
liệu đã biết. Lưu ý là tập hợp các điểm x được ánh xạ vào
một siêu phẳng có thể có độ phức tạp tùy ý trong không
gian ban đầu, nên có thể phân tách các tập hợp thậm chí
không lồi trong không gian ban đầu.

Ưu điểm của SVM
Nhược điểm của SVM
1.2.2. Phương pháp tiếp cận cấu trúc
Cách tiếp cận của phương pháp này dựa vào việc
mô tả đối tượng nhờ một số khái niệm biểu diễn đối tượng
cơ sở trong ngôn ngữ tự nhiên. Để mô tả đối tượng người ta
dùng một số dạng nguyên thủy như đoạn thẳng, cung,…
Mỗi đối tượng được mô tả như một sự kết hợp của các dạng
nguyên thủy.
Các quy tắc kết hợp các dạng nguyên thủy được xây
dựng giống như việc nghiên cứu văn phạm trong một ngôn
ngữ, do đó quá trình quyết định nhận dạng là quá trình phân
tích cú pháp. Phương pháp này đặt vấn đề để giải quyết bài

8
toán nhận dạng chữ tổng quát. Tuy vậy, cho đến nay còn
nhiều vấn đề liên quan đến hệ nhận dạng cú pháp chưa
được giải quyết độc lập và xây dụng được các thuật toán
phổ dụng. Hiện nay, nhận dạng theo cấu trúc phổ biến là
trích trọn các đặc trung của mẫu học, phân hoạch bảng ký
tự dựa trên các đặc trưng này, sau đó ảnh cần nhận dạng sẽ
được trích chọn đặc trưng, sau đó so sánh bảng phân hoạch
để tìm ra ký tự có các đặc trưng phù hợp.
Các phương pháp cấu trúc áp dụng cho các bài toán
nhận dạng chữ được phát triển theo hai hướng sau:
1.2.2.1. Phương pháp đồ thị (Graphical Methods)
1.2.2.2. Phương pháp ngữ pháp (Grammatical
Methods)
1.2.3. Mô hình Markov ẩn (HMM – Hidden

Markov Model)
Mô hình Markov ẩn (tiếng Anh là Hidden Markov
Model - HMM) là mô hình thống kê trong đó hệ thống
được mô hình hóa được cho là một quá trình Markov với
các tham số không biết trước và nhiệm vụ là xác định các
tham số ẩn từ các tham số quan sát được, dựa trên sự thừa
nhận này. Các tham số của mô hình được rút ra sau đó có
thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các
ứng dụng nhận dạng mẫu.
Trong một mô hình Markov điển hình, trạng thái
được quan sát trực tiếp bởi người quan sát, và vì vậy các
xác suất chuyển tiếp trạng thái là các tham số duy nhất. Mô

9
hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có
xác suất phân bổ trên các biểu hiện đầu ra có thể. Vì vậy,
nhìn vào dãy của các biểu hiện được sinh ra
bởi HMM không trực tiếp chỉ ra dãy các trạng thái.
Đây là một mô hình toán thống kê có ứng dụng rộng rãi
trong Tin sinh học.
Các chuyển tiếp trạng thái trong mô hình
Markov ẩn

𝑎12
X1

b1

y1

𝑎23

X3

X2

𝑎21
b2

y2

b3

y3

Hình 1.2: Mô hình Markov ẩn
- x — Các trạng thái trong mô hình Markov
- a — Các xác suất chuyển tiếp
- b — Các xác suất đầu ra
- y — Các dữ liệu quan sát

10
Sự tiến hóa của mô hình Markov
…

x(t-1)

y(t-1)

x(t)

y(t)

x(t+1)

y(t+1)

Hình 1.3: Biểu đồ chuyển tiếp trạng thái mô hình
Markov
Biểu đồ trên đây làm nổi bật các chuyển tiếp trạng
thái của mô hình Markov ẩn. Nó cũng có ích để biểu diễn rõ
ràng sự tiến hóa của mô hình theo thời gian, với các trạng
thái tại các thời điểm khác nhau t1 và t2 được biểu diễn
bằng các tham biến khác nhau, x(t1) và x(t2).
Trong biểu đồ này, nó được hiểu rằng thời gian chia
cắt ra (x(t), y(t)) mở rộng tới các thời gian trước và sau đó
như một sự cần thiết. Thông thường lát cắt sớm nhất là thời
gian t=0 hay t=1.
Sử dụng các mô hình Markov
Có ba vấn đề cơ bản để giải quyết bằng HMM:
Cung cấp cho mô hình các tham số, tính xác suất
của dãy đầu ra cụ thể. Giải bằng thuật toán tiến trước (thuật
toán tham lam).

…

11

Cung cấp cho mô hình các tham số, tìm dãy các
trạng thái (ẩn) có khả năng lớn nhất mà có thể sinh ra dãy
đầu ra đã cung cấp. Giải bằng thuật toán Viterbi.
Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất
của chuyển tiếp trạng thái và các xác suất đầu ra. Giải
bằng thuật toán Baum-Welch.
Các ứng dụng
Sự nhận biết lời nói hay sự nhận biết ký tự quang
học.
Quy trình ngôn ngữ tự nhiên.
Tin sinh học và hệ gen học:
Dự đoán các vùng mang mã (khung đọc mở) trên
một trình từ gene.
Xác định các họ gene hoặc họ protein liên quan.
Mô phỏng cấu trúc không gian của protein từ trình
tự amino acid.
và còn nhiều nữa...
1.2.4. Đối sánh mẫu
Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ
sở đối sánh các nguyên mẫu (prototype) với nhau để nhận
dạng ký tự hoặc từ. Nói chung, toán tử đối sánh xác định
mức độ giống nhau giữa hai véc tơ (nhóm các điểm, hình
dạng, độ cong...) trong một không gian đặc trưng. Các kỹ
thuật đối sánh có thể nghiên cứu theo ba hướng sau:
Đối sánh trực tiếp: Một ký tự đầu vào là ảnh đa cấp
xám hoặc ảnh nhị phân được so sánh trực tiếp với một tập

12
mẫu chuẩn đã được lưu trữ. Việc so sánh dựa theo một độ

đo về sự tương đồng nào đó (chẳng hạn như độ đo Euclide)
để nhận dạng. Các kỹ thuật đối sánh này có thể đơn giản
như việc so sánh một – một hoặc phức tạp hơn như cây
quyết định. Mặc dù phương pháp đối sánh trực tiếp đơn
giản và có một cơ sở toán học vững chắc nhưng kết quả
nhận dạng của nó cũng rất nhạy cảm với nhiễu.
1.2.5. Mạng nơ ron
Một mạng nơ ron được định nghĩa như một cấu trúc
tính toán bao gồm nhiều bộ xử lý “nơ ron” được kết nối
song song chằng chịt với nhau. Do bản chất song song của
các nơ ron nên nó có thể thực hiện các tính toán với tốc độ
cao hơn so với các kỹ thuật phân lớp khác. Một mạng nơ
ron chưa nhiều nút, đầu ra của một nút được sử dụng cho
một nút khác ở trong mạng và hàm quyết định cuối cùng
phụ thuộc vào sự tương tác phức tạp giữa các nút. Mặc dù
nguyên lý khác nhau, nhưng hầu hết các kiến trúc mạng nơ
ron đều tương đương với các phương pháp nhận dạng mẫu
thống kê.
Các kiến trúc mạng nơ ron có thể được phân tành
hai nhóm chính: mạng truyền thẳng và mạng lan truyền
ngược. Trong các hệ thống nhận dạng chữ, các mạng nơ ron
sử dụng phổ biến nhất là mạng perceptron đa lớp thuộc
nhóm mạng truyền thẳng và mạng SOM (Self Origanizing
Map) của Kohonen thuộc nhóm mạng lan truyền ngược.

13
Mạng perceptron đa lớp được đề xuất bởi
Rosenblatt được nhiều tác giả sử dụng trong hệ thống nhận
dạng. Hầu hết các nghiên cứu phát triển nhận dạng chữ viết

hiện nay đều tập trung vào mạng SOM. SOM kết hợp trích
chọn đặc trưng và nhận dạng trên một tập lớn các ký tự
huấn luyện. Mạng này chứng tỏ rằng nó tương đương với
thuật toán phân cụm k-means.
1.2.5.1. Đặc trưng của mạng nơ ron.
1.2.5.1.1. Tính phi tuyến
1.2.5.1.2. Tính chất tương ướng đầu vào đầu ra.
1.2.5.1.3. Tính chất thích nghi.
1.2.5.1.4. Tính chất đưa ra lời giải có bằng chứng.
1.2.5.1.5. Tính chất chấp nhận sai xót.
1.2.5.1.6. Khả năng cài đặt VLSI(Very-large-scaleintergrated).
1.2.5.1.7. Tính chất đồng dạng trong phân tích và
thiết kế.
1.2.6. Nhận dạng ký tự quang học – OCR
Nhận dạng ký tự quang học (tiếng anh: Optical
Character Recognition, viết tắt là OCR), là loại phần mềm
máy tính được tạo ra để chuyển các hình ảnh của chữ viết
tay hoặc chữ đánh máy (thường được quét bằng máy
scanner) thành các văn bản tài liệu. OCR được hình thành
từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân
tạo và machine vision. Mặc dù công việc nghiên cứu học
thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển

14
sang ứng dụng trong thực tế với các kỹ thuật đã được chứng
minh.
Nhận dạng ký tự quang học (dùng các kỹ thuật
quang học chẳng hạn như gương và ống kính) và nhận dạng
ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc

đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ có
rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực
sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học được mở
rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số.
Đầu tiên hệ thống nhận dạng yêu cầu phải được
huấn luyện với các mẫu của các ký tự cụ thể. Các hệ thống
"thông minh" với độ chính xác nhận dạng cao đối với hầu
hết các phông chữ hiện nay đã trở nên phổ biến. Một số hệ
thống còn có khả năng tái tạo lại các định dạng của tài liệu
gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng
biểu, các thành phần không phải là văn bản
1.3. Thách thức đối với hệ thống nhận dạng
1.4. Kết chương
Nội dung chương I được trình bày ở trên đã nêu ra
những vấn đề cơ bản các phương pháp nhận dạng đối tượng
đã được nghiên cứu trước đây và có thể áp dụng để thực
hiện nghiên cứu trong đề tài này. Phương pháp đề xuất này
sẽ được trình bày chi tiết ở chương 2.

15
CHƯƠNG 2
XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN
TẠI TỈNH ĐOÀN QUẢNG NGÃI
Việc phân loại các tài liệu có ký hiệu để lưu trữ, khai
thác các thông tin đó trên hệ thống máy tính là một bài toán
đang được đặt ra. Trên thực tế, cách duy nhất để sử dụng
thông tin ký hiệu và phân loại thì phải gõ lại văn bản trên bàn
phím để có thể thêm nó vào hệ thống máy tính hay sử dụng
làm đầu vào bằng cách scan và tự tay lưu vào thư mục từng

loại văn bản. Và với mong muốn tìm hiểu về lĩnh vực nhận
dạng kí tự quang học (Optical character recognition – OCR)
và đóng góp thêm vào kho ứng dụng về nhận dạng một hệ
thống nhận dạng thiết thực, hữu ích. Vì vậy trong luận văn tôi
đề xuất phương pháp xử lý để xây dựng hệ thống “Phân loại
văn bản tại Tỉnh đoàn Quảng Ngãi”
2.1. Xây dựng hệ thống
2.1.1. Giới thiệu bài toán
Trong luận văn này, xây dựng hệ thống dùng để phân
loại văn bản có sẵn tại cơ quan Tỉnh Đoàn Quảng Ngãi. Ở
mỗi lần nhận dạng, hệ thống sẽ được “bổ sung” thêm dữ liệu
để huấn luyện, điều này làm cho mô hình nhận dạng càng
ngày được nâng cao tỉ lệ nhận dạng. Đây là một kỹ thuật thể
hiện rõ nét phương pháp học tăng cường của học máy.
Với dữ liệu hình ảnh ban đầu, hệ thống nhận dạng
phân loại văn bản sẽ nhận dạng tất cả các file pdf có sẵn trong
hệ thống máy tính khi được người dùng chỉ định và phân loại

16
các loại văn bản khác nhau về theo từng loại với nhau để
người dùng tiện quản lý, lưu trữ và tìm kiếm.
2.1.2. Phương pháp đề xuất

Văn bản
Tiền xử lý
Tách chữ
Định
hướng
tập trung

Chọn vùng đặc
Huấn luyện và

Hậu xử lý
Văn bản được
Hình 2.1: Quy trình xử lý của một ứng dụng nhận dạng ký
tự quang học
2.2. Quy trình xử lý nhận dạng
2.2.1. Tiền xử lý

17
Giai đoạn này góp phần làm tăng độ chính xác phân
lớp của hệ thống nhận dạng, tuy nhiên nó làm cho tốc độ nhận
dạng của hệ thống chậm lại. Vì vậy, tuy thuộc vào chất lượng
quét ảnh vào của từng văn bản cụ thể để chọn một hoặc một
vài chức năng trong khối này. Nếu cần ưu tiên tốc độ xử lý và
chất lượng của máy quét tốt thì có thể bỏ qua giai đoạn này.
Khối tiền xử lý bao gồm một số chức năng: Nhị phân hóa ảnh,
lọc nhiễu, chuẩn hóa kích thước ảnh.
2.2.1.1. Nhị hóa ảnh
2.2.1.2. Lọc nhiễu
2.2.1.3. Chuẩn hóa kích thước ảnh
2.2.2. Khối tách chữ
Khối này có nhiệm vụ tách từng ký tự ra khỏi văn bản.
Chỉ khi nào văn bản được tách và cô lập đúng từng ký tự đơn
ra khỏi tổng thể văn bản bản thì hệ thống mới có thể nhận
dạng đúng ký tự đó. Sau đây là phương pháp tách chữ thông
dụng:

2.2.2.1. Tách chữ dùng lược đồ sáng
2.2.2.2. Tách chữ theo chiều nằm ngang và thẳng
đứng
2.2.3. Trích chọn đặc trưng
Trích chọn đặc trưng đóng vai trò cực kỳ quan trong
trong một hệ thống nhận dạng. Trong trường hợp đơn giản
nhất, ảnh đa cấp xám hoặc ảnh nhị phân được sử dụng cho
việc nhận dạng. Tuy nhiên, trong hầu hết các hệ nhận dạng,
để giảm độ phức tạp và tăng độ chính xác của các thuật toán
phân lớp thì đòi hỏi các đặc trưng được trích chọn phải rút

18
gọn lại càng nhỏ càng tốt nhưng phải đảm bảo được thông tin
của ký tự. Với mục tiêu này, luận án tập trung định hướng vị
trí của ảnh đưa vào từ đầu để nhận dạng từ ban đầu.
2.2.4. Huấn luyện và nhận dạng
Đây là giai đoạn quan trọng nhất, giai đoạn này quyết
định độ chính xác của hệ thống nhận dạng. Có nhiều phương
pháp phân lớp khác nhau được áp dụng cho các hệ thống nhận
dạng ký tự quang học.
2.2.5. Hậu xử lý
Đây là công đoạn cuối cùng của quá trình nhận dạng.
Có thể hiểu hậu xử lý là bước ghép nối các ký tự đã nhận
dạng thành các từ đã được dạy học trước đó nhằm tái hiện lại
thể loại văn bản đó là gì đồng thời phát hiện ra các lỗi nhận
dạng sau bằng cách kiểm tra dựa trên cấu trúc được huấn
luyện. Việc phát hiện ra các lỗi, các sai sót trong nhận dạng ở
bước này góp phần đáng kể vào việc nâng cao chất lượng
nhận dạng.

2.3. Bố cục văn bản thực tế tại Tỉnh Đoàn Quảng
Ngãi
Ví dụ về các vùng văn bản tại Tỉnh đoàn Quảng Ngãi
2.4. Tổng quan về hệ thống văn bản tại Tỉnh đoàn
Tỉnh đoàn Quảng Ngãi cũng giống như những sở ban
ngành khác tại tỉnh, hàng năm tại cơ quan Tỉnh đoàn phát
hành với số lượng gần 3.000 văn bản khác nhau với số lượng
lớn tại liệu như vậy thì công tác lưu trữ, phân loại và tìm kiếm
nhiều lúc khó khăn.
Tôi xin phân loại từng loại văn bản cụ thể như sau:

19
2.4.1. Thể loại Công văn
2.4.2. Thể loại Kế hoạch
2.4.3. Thể loại Báo cáo
2.4.4. Thể loại Chương trình
2.4.5. Thể loại Đề án
2.4.6. Thể loại Giấy mời
2.4.7. Thể loại Hướng dẫn
2.4.8. Thể loại Kết luận
2.4.9. Thể loại Quyết định
2.4.10. Thể loại Thông báo
2.4.11. Thể loại Thông tri

20
CHƯƠNG 3
TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ
Trong chương 3, tác giả xin được trình bày hệ thống

nhận dạng văn bản tại cơ quan Tỉnh Đoàn Quảng Ngãi. Ở
chương này, tác giả xây dựng quá trình thực nghiệm và
đánh giá kết quả.
3.1. Chức năng chương trình
Nhận văn

bản đầu vào

Tiền xử lý

Hiển thị và lưu
trữ

Nhận dạng

Hậu xử lý

Hình 3.1: Chức năng chính trong chương trình
3.1.1. Nhận văn bản đầu vào
3.1.2. Tiền xử lý
3.1.3. Nhận dạng
3.1.4. Hậu xử lý
3.1.5. Hiển thị và lưu trữ
3.2. Môi trường thực nghiệm
3.2.1. Dữ liệu sử dụng

21
3.2.2. Giao diện chương trình

Hình 3.4: Giao diện chương trình
Dựa trên kiến thức đã học, luận văn xây dựng một
ứng dụng máy tính hệ thống nhận dạng văn bản tại Tỉnh
Đoàn Quảng Ngãi bao gồm các chức năng sau đây:
Nhận dạng văn bản có sẵn trong máy tính với những
tệp lưu trữ từ trước với đuôi .PDF.
Scan trực tiếp từ văn bản mới được ban hành tại cơ
quan.
Cập nhật thông tin văn bản hiện có tại cơ quan Tỉnh
Đoàn.
Bổ sung nâng cao các văn bản mới giữa các Sở Ban
ngành ký kết với cơ quan Tỉnh Đoàn Quảng Ngãi.
Kiểm tra văn bản nhận dạng có chính xác hay
không.

22
Môi trường thử nghiệm:
Phần cứng: Máy tính Asus core i3, RAM 4GB
Phần mềm: Ngôn ngữ sử dụng: C# trong bộ Visual
Studio 2013
3.2.2.1. Chức năng cài đặt và nâng cao
3.2.2.2. Chức năng Testing
3.2.2.3. Chức năng Scanning
3.3. Đánh giá về kết quả
Kết quả chương trình Demo đang thực nghiệm bước
đầu đã cho ra kết quả tương đối chính xác với tập dữ liệu
mô phỏng, tức là nhận dạng văn bản và phân loại văn bản
theo từng loại phù hợp.
3.3.1. Về cài đặt

Sử dụng thành thạo ngôn ngữ lập trình C# và xây
dựng hệ thống sử dụng thuần code C#, đồng thời sử dụng
API Scan TWAIN của bên thứ 3 là Vinta Software mà đang
dùng free nên sẽ có xuất hiện hộp thoại “About” nên người
dùng bấm chọn “Evaluate” và dùng bình thường.
3.3.2. Về thực nghiệm
Hệ thống cho phép nhận dạng các dạng văn bản
khác nhau chính xác gần tuyệt đối, nhờ vào phương pháp
nhận dạng quang học - OCR, điều này có nghĩa là dữ liệu
của tập huấn luyện ngày càng được bổ sung, nên kết quả
nhận dạng được cải thiện càng rõ ràng hơn và càng chính
xác. Những kết quả đạt được trong đề tài này là một cơ sở
tốt để có thể xây dựng một phần mềm phân loại văn bản

23
hoàn chỉnh để giải quyết vấn đề lưu trữ và xử lý những vản
bản hành chính tại cơ quan Tỉnh đoàn Quảng Ngãi hoặc
một cơ quan ban ngành khác hoặc triển khai trên toàn hệ
thống của hệ thống Đoàn.
Dưới đây là kết quả thực nghiệm với tập dữ liệu
các văn bản tại cơ quan Tỉnh Đoàn Quảng Ngãi với hệ
thống phân loại văn bản.

KẾT LUẬN
1. Đã làm được
Bước đầu xây dựng được mô hình huấn luyện để
nhận dạng văn bản tại cơ quan Tỉnh Đoàn Quảng Ngãi,
bằng cách sử dụng phương pháp nhận dạng ký tự quang học
–OCR, đặc biệt sử dụng thư viện Tessarect.

Xây dựng được chương trình Demo Hệ thống nhận
dạng và phân loại văn bản tại cơ quan Tỉnh Đoàn và cho kết
quả chính xác. Kết quả của quá trình này phụ thuộc khá
nhiều vào quá trình thu thập dữ liệu và huấn luyện phát
hiện, nhận dạng.
Sau một thời gian nghiên cứu về xử lý ảnh, học máy
và tìm hiểu được một số cơ sở lý thuyết có thể áp dụng
được vào Hệ thống phân loại văn bản tại Tỉnh đoàn Quảng
Ngãi.

Xây dựng hệ thống phân loại tài liệu tại tỉnh đoàn Quảng Ngãi

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về