Nhận dạng ký tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư nhân dân TT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (594.21 KB, 24 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

-------------------------------

Nguyễn Đình Mậu
NHẬN DẠNG KÝ TỰ QUANG CHO VĂN BẢN CÓ
CẤU TRÚC, ỨNG DỤNG TRONG ĐỌC CHỨNG
MINH THƯ NHÂN DÂN

Chuyên nghành: Hệ thống thơng tin
Mã số: 8.48.01.04

TĨM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - NĂM 2021

Luận văn được hồn thành tại:
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

Người hướng dẫn khoa học: TS Nguyễn Trọng Khánh
Phản biện 1: …………………………………………………
Phản biện 2: …………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại
Học viện Cơng nghệ Bưu chính Viễn thơng
Vào lúc:.......giờ.........ngày........tháng …......năm 2021

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng.

1
MỞ ĐẦU
1. Lý do chọn đề tài:
Chúng ta sống trong thời đại khi bất kỳ tổ chức hoặc công ty
nào mở rộng quy mô và để phù hợp phải thay đổi cách họ nhìn vào
cơng nghệ và thích nghi với sự thay đổi nhanh chóng của cơng nghệ.
Chúng ta đã biết Google đã số hóa sách như thế nào hoặc cách Google
Earth sử dụng NLP để xác định địa chỉ. Hoặc làm thế nào có thể đọc
văn bản trong các tài liệu kỹ thuật số như hóa đơn, giấy tờ pháp lý,
vv.... Đó chính là bài tốn nhận dạng ký tự quang học (OCR) được
thực hiện trong luận văn này. Nhận dạng ký tự quang học là ứng dụng
công nghệ chuyên dùng để đọc text ở file ảnh. Được biết đến là một
công cụ scan kỹ thuật số chuyên nhận dạng các ký tự, chữ viết tay, hay
chữ đánh máy, công nghệ này chuyên dùng để truyền tải, nhập liệu dữ
liệu, nhận dạng ký tự quang học có khả năng số hóa nhiều tài liệu khác
nhau như: hóa đơn, hộ chiếu, danh thiết, tài liệu, ... Bằng cách áp dụng
nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm và chỉnh
sửa sẽ được thực hiện một cách tự động, tiết kiệm không gian lưu trữ
và thuận tiện trong việc tra cứu thông tin.
Xuất phát từ thực tế trên, tơi đã tìm hiểu đề tài “Nhận dạng ký
tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư
nhân dân” dưới sự hướng dẫn của TS. Nguyễn Trọng Khánh. Luận
văn tập trung nghiên cứu, giải quyết các vấn đề liên quan đến bài toán
phân tích cấu trúc, xác định và bóc tách các trường thông tin cần nhận
dạng trên CMND.
Tổng quan vấn đề nghiên cứu.
Trên cơ sở nghiên cứu bài tốn bóc tách thơng tin ký tự quang
cho văn bản có cấu trúc và các phương pháp học máy để xử lý bài toán
nhận dạng chứng minh thư nhân dân. Tác giả tiến hành nghiên cứu và

thực nghiệm trên tập dữ liệu chứng minh thu thập, sau đó đánh giá kết
quả thu được dựa trên phương pháp học máy nghiên cứu.
Mục đích nghiên cứu

2
- Nghiên cứu phương pháp phân tích cấu trúc ảnh, bóc tách xác
định từng vùng chữ, vùng nào là caption, vùng nào là content trong
các tài liệu có cấu trúc thu thập.
- Nghiên cứu phương pháp học máy phù hợp áp dụng cho bài
toán nhận dạng chứng minh thư nhân dân.
- Xây dựng chương trình bóc tách các trường thơng tin áp dụng
trên tập dữ liệu hình ảnh thu thập được, đánh giá các kết quả thực
nghiệm và đưa ra kết luận.
Đối tượng nghiên cứu
- Tập dữ liệu ảnh chứng minh thư nhân dân thu thập được.
- Phương pháp học máy sâu Deep Learning áp dụng cho bài toán
dọc ký tự quang ORC .
Phương pháp nghiên cứu
- Nghiên cứu lý thuyết
- Thu thập và xử lý dữ liệu
- Thực nghiệm và phân tích đánh giá kết quả thu được.
2. Bố cục luận văn
Luận văn chia làm 3 chương chính:
CHƯƠNG I : GIỚI THIỆU BÀI TOÁN
1.1. Tổng quan về nhận dạng ký tự quang
1.2. Các bước cơ bản bản nhận dạng ký tự quang học
1.3. Mơ tả bài tốn nhận dạng chứng minh nhân dân
CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN
TÍCH CHỨNG MINH THƯ

2.1. Các phương pháp sử dụng để thực hiện bài tốn nhận dạng
ký tự quang học
2.2. Mơ hình mạng học sâu SSD-V2
2.2.1. Đa hộp
2.2.2. Đa hộp giới hạn và IoU
2.2.3. Những cải tiến của mơ hình SSD-v2

3
2.3. Mơ hình CRAFT
2.4. Mạng bộ nhớ dài - ngắn
2.5. Cơ chế Attention
2.5.1.Ý tưởng chính
2.5.2. Nguyên lý hoạt động
2.6. Nhận diện ký tự với mơ hình transformer
2.6.1. Nhược điểm của mơ hình RNN
2.6.2. Phương pháp Transformer
2.7. Phương pháp đề xuất
2.7.1. Xác định 4 góc của chứng minh thư sử dụng mơ hình SSD
2.7.2. Xoay chứng minh thư
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QỦA
3.1. Tập dữ liệu
3.2. Thiết lập thực nghiệm
3.3. Phân tích kết quả:
KẾT LUẬN
Trong q trình thực hiện luận văn, mặc dù đã cố gắng thu thập
tài liệu, củng cố kiến thức... nhưng luận văn vẫn còn những hạn chế
nhất định. Học viên rất mong nhận được sự chỉ dạy, đóng góp tận tình
của các thầy, cơ để luận văn của học viên được hoàn thiện và có tính
ứng dụng cao hơn trong thực tiễn.

4
CHƯƠNG I : GIỚI THIỆU BÀI TOÁN
1.1. Tổng quan về nhận dạng ký tự quang
Chúng ta sống trong thời đại khi bất kỳ tổ chức hoặc công ty
nào mở rộng quy mô và để phù hợp phải thay đổi cách họ nhìn vào
cơng nghệ và thích nghi với sự thay đổi nhanh chóng của cơng nghệ.
Chúng ta đã biết Google đã số hóa sách như thế nào hoặc cách Google
Earth sử dụng NLP để xác định địa chỉ. Hoặc làm thế nào có thể đọc
văn bản trong các tài liệu kỹ thuật số như hóa đơn, giấy tờ pháp lý,
vv.... Đó chính là bài tốn nhận dạng ký tự quang học (OCR) được
thực hiện trong luận văn này. Nhận dạng ký tự quang học là ứng dụng
công nghệ chuyên dùng để đọc text ở file ảnh. Được biết đến là một
công cụ scan kỹ thuật số chuyên nhận dạng các ký tự, chữ viết tay, hay
chữ đánh máy, công nghệ này chuyên dùng để truyền tải, nhập liệu dữ
liệu, nhận dạng ký tự quang học có khả năng số hóa nhiều tài liệu khác
nhau như: hóa đơn, hộ chiếu, danh thiết, tài liệu, ... Bằng cách áp dụng
nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm và chỉnh
sửa sẽ được thực hiện một cách tự động, tiết kiệm không gian lưu trữ
và thuận tiện trong việc tra cứu thông tin.
Hiện nay đối với ảnh chụp văn bản cần nhận dạng, ta có thể chia
ra làm 2 loại :
- Văn bản có cấu trúc - Văn bản trong một tài liệu đánh máy
thường xuất hiện trong những nền tảng tiêu chuẩn, có hàng lối, phơng
chữ tiêu chuẩn. Các văn bản này thường gặp ở những giấy tờ tùy thân
như chứng minh thư nhân dân, giấy khai sinh, hộ chiếu hay có thể là
trang sách. Đối với loại dữ liệu này, việc trích xuất đặc trưng, xác định
vị trí ký tự và nhận dạng ký tự sẽ khơng khó nếu văn bản khơng bị mờ,
nhịe hoặc điều kiện ánh sáng quá thiếu.

Văn bản phi cấu trúc - Văn bản tại các vị trí ngẫu nhiên trong
một khung cảnh tự nhiên. Văn bản thưa thớt, khơng có cấu trúc hàng
thích hợp, nền phức tạp, tại vị trí ngẫu nhiên trong ảnh và khơng có
phơng chữ chuẩn. Những văn bản này có thể là biển hiệu quảng cáo,
hóa đơn, biển số xe hoặc chữ viết tay. Trong phạm vi đồ án, các kí tự

5
nằm trên sản phẩm có thể được gọi là văn bản phi cấu trúc vì chúng
có màu sắc, vị trí ngẫu nhiên trong ảnh.
1.2. Các bước cơ bản bản nhận dạng ký tự quang học
Trước khi có sự bùng nổ của công nghệ học sâu vào năm 2012,
nhận dạng ký tự quang học vẫn là một vấn đề thách thức đặc biệt là
khi hình ảnh văn bản được chụp trong mơi trường khơng bị giới hạn.
Khi hình ảnh chứa nền phức tạp, nhiễu, phơng chữ khác nhau và biến
dạng hình học trong hình ảnh. Điều đó được thể hiện rất rõ trong các
trường hợp hóa đơn khách hàng chụp gửi lại cho chúng ta có thể ở
trong những điều kiện rất xấu như lóa (do giấy in hóa đơn rất bóng),
bị nhàu nát, khơng đủ sáng, bị ướt,....Chính trong những tình huống
như vậy nhận dạng ký tự quang học kết hợp cùng học sâu là biện pháp
tốt nhất được sử dụng để nhận dạng văn bản.
Bất kỳ một hệ thống nhận dạng ký tự quang học nào đều tuân
theo 3 bước sau:
- Tiền xử lý ảnh: Trước khi xác định được vị trí các kí tự, ảnh
cần được tiền xử lý để đạt được một số yêu cầu nhất định. Ảnh có thể
được nâng cao chất lượng, phân cụm để giảm số lượng giá trị trong
ảnh, lọc nhiễu sử dụng các bộ lọc như Gaussian, Median hoặc có thể
đưa về hệ màu đen trắng đối với những bài tốn có nền đơn giản như
phân loại biển số xe để giảm chiều dữ liệu cũng như kích thước dữ
liệu. Đối với một số bài tốn sử dụng cơng nghệ học sâu, ảnh sẽ được

thay đổi kích thước nhất định để phù hợp với mơ hình. Q trình tiền
xử lý này cần thực hiện sao cho giảm nhiễu và các thông tin ngoại lai
nhiều nhất tuy nhiên vẫn phải giữ lại được những thơng tin cần thiết
cho q trình xác định và nhận diện sau này.
- Phát hiện ký tự: Sau khi ảnh được tiền xử lý, ta sẽ tiến hành xác
định vị trí của ký tự hoặc nhóm các kí tự có cấu trúc giống nhau. Mục
tiêu của nhận diện ký tự tương tự như các bài toán xác định vật thể với
vật thể đặc thù ở đây là vị trí của các ký tự. Hiện nay, với sự bùng nổ
của cơng nghệ học sâu, các mơ hình được sinh ra để giải quyết những
bài tốn với độ chính xác cao lên tới hơn 90% có thể được kể đến như
DB, Text Fusnet[13], CRAFT[14],.. Các mơ hình này cho kết quả nhận

6
diện tốt trên các bộ văn bản có cấu trúc lẫn những văn bản phi cấu trúc,
tiêu biểu như nhận diện biển báo (1 loại kĩ trên không chỉ thể hiện được
kết quả tốt trên các bộ văn bản có cấu trúc mà còn ở cả các loại văn bản
phi cấu trúc tiêu biểu nhất là biển báo (1 loại văn bản cảnh).
- Nhận diện ký tự: Sau khi đã xác định các các hộp giới hạn, từng
hộp sẽ được xử lý để nhận dạng được các kí tự có trong vùng ảnh đó đó
và ghép thành từ cụ thể. Hiện nay, một số công cụ thông dụng thường
được sử dụng Tesseract, Google API tuy nhiên khi gặp những trường
hợp ảnh bị mờ hoặc méo thường sẽ cho ra kết quả khơng được tốt. Các
mơ hình học sâu hiện nay thường dùng cho bài toán này như CRNN,
ASTER, MORAN, DAN có cấu trúc chung là biến đổi ảnh - trích xuất
đặc trưng – mơ hình tuần tự – dự đốn. Trong đó mơ hình tuần tự và dự
đốn là 2 phần đóng vai trị quan trọng nhất của một mơ hình nhận dạng
ký tự với các kiến trúc nổi tiếng là LSTM, CTC và Attention.
1.3. Mơ tả bài tốn nhận dạng chứng minh nhân dân
Với bài toán nhận diện ký tự quang học cho dữ liệu là ảnh chứng

minh thư, có rất nhiều quy trình được đề xuất, trong đó thường bao gồm
các bước sau:
- Xác định vùng quan tâm chưa chứng minh thư. Do ảnh chụp
chứng minh thư thường bị nghiêng, chéo, ta cần phải chuẩn hóa ảnh
trước khi cho vào mơ hình nhận diện. Các phương pháp thường được
sử dụng là: xác định biên của chứng minh thư, xác định góc của chứng
minh thư. Xác định biên của chứng minh minh thư có thể sử dụng các
kỹ thuật như tìm đường biên trong xử lý ảnh, phân vùng đối tượng, xác
định các góc của chứng minh thư. Từ kết quả thực nghiệm, phương pháp
tiếp cận bằng cách xác định bốn góc của chứng minh thư đạt kết quả ổn
định nhất nên trong luận văn này, phương pháp này sẽ được sử dụng.
Dựa vào vị trí bốn góc của chứng minh thư, ta xác định được vùng quan
tâm chứa chứng minh thư trong ảnh. Phần này, tác giả của luận văn đề
xuất sử dụng mơ hình học sâu SSD - v2[12] để xác định 4 góc: trên trái, trên - phải, dưới - trái, dưới - phải. Từ đó, tác giả có thể xác định
được tâm xoay và ma trận chuyển vị để từ đó thu được ảnh vùng quan
tâm ở vị trí tốt được sử dụng cho phần nhận diện ký tự ở bước 2.

7
- Xác định hộp giới hạn của từng dòng ký tự của ảnh. Các hộp
giới hạn ứng với từng dòng ký tự của ảnh. Phần xác định ký tự này có
thể sử dụng các mơ hình nhận diện vật thể phổ biến hoặc dùng các mơ
hình chun biệt cho các bài toán xác định văn bản cảnh như:
CTPN[15], EAST[16], Differentiable Binarization[17], CRAFT,...
- Nhận diện nội dung các ký tự trong các hình giới hạn ký tự.
Phần nhận dạng ký tự có thể sử dụng các framework như Tesseract
hoặc các mơ hình về nhận dạng ký tự văn bản cảnh: CRNN-CTC loss,
Attention-OCR,...
- Sử dụng mạng thần kinh đồ thị để xác định các trường thông
tin. Đầu tiên, ta cần nhận diện được chữ trong văn bản, các chữ này

được đưa qua mơ hình trích xuất đặc trưng. Những đặc trưng này biểu
diễn mối liên hệ giữa vị trí của các từ trong văn bản với nhau. Những
dữ liệu này được đưa qua một mơ hình đồ thị để phân loại đặc trưng
này thuộc những nốt nào. Các nút ở đây chính là các hộp giới hạn thu
được sau bước xác định ký tự. Dựa vào kết quả phân loại này, ta sẽ có
kết quả cuối cùng là các trường thơng tin của văn bản. Việc định nghĩa
các cạnh của graph thuộc phần mơ hình đồ thị sẽ được đề cập ở phần
sau của luận văn. Luận văn này áp dụng phương pháp được đề xuất
trong bài báo Invoice-GCN, với việc xây dựng và tổng hợp đặc trưng
từ nhiều kiểu / thuộc tính khác.
Sau cùng, ta "nối" tất cả các thuộc tính đó lại và thu được 1
vectơ đặc trưng 317 chiều (1 + 1 + 3 + 8 + 4 + 300) làm nốt đặc trưng
ban đầu ứng với từng nốt (từng hình hộp chứa ký tự) trong đồ đồ thị.
CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH
CHỨNG MINH THƯ
Phần lớn các mơ hình dùng cho nhận diện ký tự hiện nay đều
dựa trên công thức: Biến đổi ảnh - Trích xuất đặc trưng - Mơ hình hóa
tuần tự - Dự đốn. Với mơ hình SOTA trong những năm gần đây là
TPS- ResNet - BiLSTM - Attention, quyết định sử dụng mơ hình này
phục vụ cho bài tốn Text Recognition cho chứng minh thư.

8
2.1. Các phương pháp sử dụng để thực hiện bài toán nhận
dạng ký tự quang học
Phương pháp học sâu hiện nay đã đạt được nhiều thành tựu
trong ứng dụng nhận dạng, xử lý hình ảnh. Do đó, trong luận văn này,
tác giả không sử dụng phương pháp học máy cổ điển mà sử dụng
phương pháp học sâu để xử lý bài toán nhận dạng ký tự quang học cho
văn bản có cấu trúc ứng dụng trong đọc thơng tin trong chứng minh thư.

Bài toán nhận diện ký tự quang học được chia làm ba phần:
- Phát hiện vùng ROI của chứng minh thư: sử dụng mạng thần
kinh nhân tạo SSD-v2 để xác định góc của chứng minh thư. Từ đó,
xoay thẳng chứng minh thư để tăng chất lượng nhận diện ký tự.
- Xác định vùng vùng quan tâm dựa trên cấu trúc văn bản bản
sử dụng mơ hình CRAFT. Vùng quan tâm sẽ chứa từng ký tự của văn
bản, bốn góc của vùng quan tâm tạo thành hình chữ nhật. Vùng ảnh
này sẽ được sử dụng ở bước sau: nhận diện ký tự.
- Nhận diện ký tự: mơ hình transformer đã cải thiện khả năng
nhận diện ký tự trong văn bản có ngữ nghĩa so với mơ hình RNN và
mơ hình LSTM. Mơ hình này transformer được sử dụng trong bài tốn
này dựa trên mơ hình vietocr.
2.2. Mơ hình mạng học sâu SSD-V2
2.2.1. Đa hộp
Kỹ thuật hộp giới hạn được sử dụng trong mạng SSD được lấy
ý tưởng từ bài báo Scalable, High-Quality Object Detection[18] của
tác giả Szegedy, là một phương pháp sử dụng nhiều hộp giới hạn với
các kích thước khác nhau để phù hợp với mọi đối tượng có kích thước
lớn, nhỏ khác nhau. nhau. Dưới đây là kiến trúc của mạng thần kinh
dự đốn đa kích thước được sử dụng trong SSD.
2.2.2. Đa hộp giới hạn và IoU
Logic xoay quanh việc tạo ra hộp giới hạn khá phức tạp. Trong
đa hộp giới hạn, một khái niệm được sử dụng là điểm ban đầu (hay
thuật ngữ mỏ neo trong Faster-R-CNN), là những hộp giới hạn được
tính tốn trước với kích thước cố định tuân theo phân phối gần với

9
phân phối của hộp giới hạn mẫu. Trong thực tế, những điểm ban đầu
này được lựa chọn khi tỉ lệ Intersection/Union (IoU) lớn hơn ngưỡng

0.5. Như mơ tả trong hình dưới dây, giá trị IoU tại 0.5 vẫn chưa đủ tốt
nhưng nó sẽ là một điểm bắt đầu tương đối ổn cho thuật cho giải thuật
hồi quy hộp giới hạn(chính là việc học tham số của mạng) - điều này
thực sự sẽ tiết kiệm thời gian và đem lại kết quả tốt hơn rất nhiều so
với việc bắt đầu tại một vị trí ngẫu nhiên.
Do đó đa hộp giới hạn bắt đầu với những điểm ban đầu như một
dự đoán ban đầu được khởi tạo tạo với mục đích hồi quy gần hơn với
hộp giới hạn thực sự. Kiến trúc của đa hộp giới hạn bao gồm 11 điểm
ban đầu với mỗi tế bào bản đồ đặc trưng (8x8, 6x6, 4x4, 3x3, 2x2) và
cho 1 điểm ban đầu với 1x1 bản đồ đặc trưng dẫn đến tổng cộng có
1420 điểm ban đầu với mỗi hình ảnh, do đó cho phép bao phủ hoàn
toàn một bức ảnh đầu vào trên những tỉ lệ khác nhau, khiến việc nhận
diện những đối tượng ở các kích thước khác nhau trở nên dễ dàng.
2.2.3. Những cải tiến của mơ hình SSD-v2
Một vài cải tiến nhỏ được thêm vào mạng để cải thiện khả năng
nhận diện và phân loại đối tượng.
a. Điểm ban đầu cố định:
Không giống với đa hộp giới hạn, mỗi tế bào bản đồ đặc trưng sẽ
được gắn với một tập các hình hộp giới hạn mặc định với số chiều và tỉ
lệ khác nhau. Các điểm ban đầu này được lựa chọn bằng tay. Phương
pháp này cho phép SSD tạo được các hình hộp giới hạn cho bất kỳ kiểu
đầu vào nào mà không yêu cầu một bước huấn luyện đầu để tạo ra các
điểm ban đầu. Ví dụ, giả sử ta có 2 điểm là (x1, y1) và (x2, y2) với mỗi
tập hộp giới hạn mặc định cho mỗi tế bào bản đồ đặc trưng và c nhóm
cho việc phân loại. Với một ma trận đặc trưng có kích thước f = m x n,
SSD sẽ tính ra f x b x (4+c) giá trị cho ma trận đặc trưng này. Hình dưới
đây minh họa cho ý tưởng của điểm ban đầu cố định.
b. Phân loại:
Đa hộp giới hạn không thể phân loại được đối tượng,vì vậy, với
mỗi hình hộp giới hạn được đưa ra, SSD tính tốn ln sự dự đoán cho

việc phân loại của đối tượng và các lớp có thể trong tập dữ liệu.

10
2.3. Mơ hình CRAFT
CRAFT (Character-Region Awareness For Text detection) là
mạng thần kinh nhân tạo dùng để xác định vị trí của từng ký tự riêng
lẻ và liên kết các ký tự xác định được để tạo thành một chữ có nghĩa.
Mạng CRAFT sử dụng kiến trúc mạng thần kinh tích chập dựa
trên mạng VGG-16 làm cơ sở. Mạng VGG-16 được sử dụng để làm
kiến trúc trích xuất đặc trưng, được dùng để mã hóa dữ liệu đầu vào
của mạng để tạo thành một biểu diễn đặc trưng nhất định. Phần giải
mã của mạng CRAFT tương tự với mạng UNet. Nó sẽ bỏ qua những
kết nối tổng hợp các đặc trưng ở mức low-levels.
Mạng CRAFT dự đoán hai giá trị cho từng ký tự:
- Điểm vùng: chứa thông tin liên quan đến vùng của ký tự, được
dùng để định vị ký tự
- Điểm mối quan hệ: 'Mối quan hệ' là mức độ mà một chất có
xu hướng kết hợp với một chất khác. Vì vậy, điểm số mối quan hệ hợp
nhất các ký tự thành một trường hợp duy nhất (một từ). CRAFT tạo ra
hai bản đồ dưới dạng đầu ra: Bản đồ mức khu vực và Bản đồ sở thích.
Bản đồ mối quan hệ là một đại diện bằng hình ảnh cho nhân vật
có liên quan.
Cuối cùng, điểm số sở thích và khu vực được kết hợp để đưa ra
hộp giới hạn của mỗi từ. Các tọa độ theo thứ tự: (trái-trên), (phải-trên),
(phải-dưới), (trái-dưới), trong đó mỗi tọa độ là một cặp (x, y). CRAFT
là mơ hình đa ngơn ngữ, có nghĩa là nó có thể phát hiện văn bản được
viết bằng bất kỳ tập lệnh nào, không chỉ tiếng Latinh.
Sau khi sử dụng CRAFT, với kết quả hộp giới hạn được trích
xuất ra, ta sẽ được ảnh chứa ký tự đã được tách rời (như hình dưới).

Tuy nhiên, trong thực tế, chứng minh thư có thể bị nghiêng hoặc
cong. Chính vì vậy, phép biến đổi TPS[14] để chỉnh các ảnh bị cong
hoặc nghiêng về ảnh bình thường.
Mạng TPS sẽ có đầu vào là 2 tập điểm mốc tương ứng nhau,
mỗi tập gồm K điểm thuộc ảnh đầu vào và ảnh rectified. Do yêu cầu
của ảnh rectified là các chữ phải thẳng, vì thế K điểm mốc thuộc ảnh

11
đầu ra sẽ có vị trí cố định dọc theo phía trên và phía dưới ảnh (các
điểm màu tím). Khi đó, khi chúng ta lấy các điểm mốc ở ảnh đầu vào
dọc theo phía trên và phía dưới các kí tự (các điểm màu xanh), phép
đổi TPS sẽ cho ra ảnh rectified là chữ đã được chỉnh méo.
Vấn đề lớn nhất chính là việc làm thế nào để tìm được các tập
điểm mốc trên ảnh đầu vào. Để dự đoán được vị trí các điểm này, em
sử dụng thêm 1 mạng neural network nhỏ với đầu vào chính là ảnh
input. Giả sử ta có được các tập điểm mốc C’ và C của ảnh đầu vào I
và ảnh rectified Ir, trong đó C = [c1,....,cK] ϵ R2xK là ma trận tọa độ
của K điểm mốc thuộc ảnh rectified, ck=[xk,yk]T là tọa độ x,y điểm
thứ k. Tương tự với C’ = [c’1,....,c’K].
Giá trị của C và C’ sẽ được chuẩn hóa về (0,1), với (0,0) là góc
trên bên trái và (1,1) là góc dưới bên phải. Phép biến đổi 2D TPS là
một ma trận T chiều 2 x (K+3) :

(3.1)
Trong đó u,v ϵ R1xK . Với điểm p = [xp,yp]T ϵ Ir, phép biến
đổi TPS sẽ tìm điểm p’ tương ứng bằng cách:

(3.2)
Trong đó

. Các hệ số của T được tìm bằng
cách giải hệ phương trình K điểm mốc:

12

(3.3)
Kết hợp với 4 điều kiện biên:

,

,

,

Viết dưới dạng ma trận ta nhận được:

với

(3.4)

Từ đó ta tính được ma trận T :
Có thể thấy rằng, ma trận C là 1 ma trận đã biết do ta đã biết
được các tọa độ điểm mốc trên ảnh Ir. Do đó ma trận
là ma trận
hằng số và chỉ cần tính một lần. Sau khi đã có T, với mỗi điểm p nằm
trên ảnh Ir, ta có thể tính được tọa độ tương ứng p’ trên ảnh I theo sơ
đồ như hình 6, từ đó chúng ta lấy được ảnh Ir phục vụ cho quá trình
nhận dạng sau này.
2.4. Mạng bộ nhớ dài - ngắn

Mạng bộ nhớ dài-ngắn (Long Short Term Memory networks),
thường được gọi là LSTM - là một dạng đặc biệt của RNN, nó có khả
năng học được các phụ thuộc xa. LSTM được giới thiệu bởi
Hochereiter & Schmidhuber, và sau đó đã được cải tiến và phổ biến
bởi rất nhiều người trong ngành. Chúng hoạt động cực kì hiệu quả trên
nhiều bài toán khác nhau nên dần đã trở nên phổ biến như hiện nay.
LSTM được thiết kế để tránh được vấn đề phụ thuộc xa (long-term

13
dependency). Việc nhớ thông tin trong suốt thời gian dài là đặc tính
mặc định của chúng, chứ ta khơng cần phải huấn luyện nó để có thể
nhớ được, rong nội tại của nó đã có thể ghi nhớ được mà không cần
bất kỳ can thiệp nào. Mọi mạng hồi quy đều có dạng là một chuỗi các
mơ-đun lặp đi lặp lại của mạng nơ-ron. Với mạng RNN chuẩn, các
mô-đun này có cấu trúc rất đơn giản, thường là một tầng tanh.
LSTM cũng có kiến trúc dạng chuỗi như vậy, nhưng các mơđun trong nó có cấu trúc khác với mạng RNN chuẩn. Thay vì chỉ có
một tầng mạng nơ-ron, chúng có tới 4 tầng tương tác với nhau một
cách rất đặc biệt.
Chìa khóa của LSTM là trạng thái tế bào (cell state) - chính
đường chạy thơng ngang phía trên của sơ đồ hình vẽ. Trạng thái tế bào
là một dạng giống như băng truyền. Nó chạy xuyên suốt tất cả các mắt
xích (các nút mạng) và chỉ tương tác tuyến tính đơi chút. Vì vậy mà các
thơng tin có thể dễ dàng truyền đi thông suốt mà không sợ bị thay đổi.
LSTM có khả năng bỏ đi hoặc thêm vào các thông tin cần thiết cho trạng
thái tế bào, chúng được điều chỉnh cẩn thận bởi các nhóm được gọi là
cổng (gate). Các cổng là nơi sàng lọc thông tin đi qua nó, chúng được
kết hợp bởi một tầng mạng sigmoid và một phép nhân. Tầng sigmoid sẽ
cho đầu ra là một số trong khoản [0, 1], mơ tả có bao nhiêu thơng tin có
thể được thơng qua. Khi đầu ra là 0 thì có nghĩa là khơng cho thơng tin

nào qua cả, cịn khi là 1 thì có nghĩa là cho tất cả các thơng tin đi qua
nó. Một LSTM gồm có 3 cổng như vậy để duy trì và điều hành trạng
thái của tế bào. Bước đầu tiên của LSTM là quyết định xem thông tin
nào cần bỏ đi từ trạng thái tế bào. Quyết định này được đưa ra bởi tầng
sigmoid - gọi là “tầng cổng quên” (forget gate layer). Nó sẽ lấy đầu vào
là ht-1 và xt rồi đưa ra kết quả là một số trong khoảng [0, 1] cho mỗi số
trong trạng thái tế bào Ct-1. Đẩu ra là 1 thể hiện rằng nó giữ tồn bộ
thơng tin lại, cịn 0 chỉ rằng tồn bộ thơng tin sẽ bị bỏ đi. Quay trở lại
với ví dụ mơ hình ngơn ngữ dự đốn từ tiếp theo dựa trên tất cả các từ
trước đó, với những bài tốn như vậy, thì trạng thái tế bào có thể sẽ
mang thơng tin về giới tính của một nhân vật nào đó giúp ta sử dụng
được đại từ nhân xưng chuẩn xác. Tuy nhiên, khi đề cập tới một người

14
khác thì ta sẽ khơng muốn nhớ tới giới tính của nhân vật nữa, vì nó
khơng cịn tác dụng gì với chủ thế mới này.
Bước tiếp theo là quyết định xem thông tin mới nào ta sẽ lưu
vào trạng thái tế bào. Việc này gồm 2 phần. Đầu tiên là sử dụng một
tầng sigmoid được gọi là “tầng cổng vào” (input gate layer) để quyết
định giá trị nào ta sẽ cập nhật. Tiếp theo là một tầng tanh tạo ra một
vectơ cho giá trị mới nhằm thêm vào cho trạng thái. Trong bước tiếp
theo, ta sẽ kết hợp 2 giá trị đó lại để tạo ra một cập nhập cho trạng thái.
Chẳng hạn với ví dụ mơ hình ngơn ngữ của ta, ta sẽ muốn thêm giới
tính của nhân vật mới này vào trạng thái tế bào và thay thế giới tính
của nhân vật trước đó.
Giờ là lúc cập nhập trạng thái tế bào cũ Ct-1 thành trạng thái
mới Ct . Ở các bước trước đó đã quyết định những việc cần làm, nên
giờ ta chỉ cần thực hiện là xong. Ta sẽ nhân trạng thái cũ với ft để bỏ
đi những thông tin ta quyết định quên lúc trước. Trạng thái mới thu

được này phụ thuộc vào việc ta quyết định cập nhập mỗi giá trị trạng
thái ra sao. Với bài tốn mơ hình ngơn ngữ, chính là việc ta bỏ đi thơng
tin về giới tính của nhân vật cũ, và thêm thơng tin về giới tính của nhân
vật mới như ta đã quyết định ở các bước trước đó.
Cuối cùng, ta cần quyết định xem ta muốn đầu ra là gì. Giá trị
đầu ra sẽ dựa vào trạng thái tế bào, nhưng sẽ được tiếp tục sàng lọc. Đầu
tiên, ta chạy một tầng sigmoid để quyết định phần nào của trạng thái tế
bào ta muốn xuất ra. Sau đó, ta đưa nó trạng thái tế bảo qua một hàm
tanh để có giá trị nó về khoảng [-1,1], và nhân nó với đầu ra của cổng
sigmoid để được giá trị đầu ra ta mong muốn. Với ví dụ về mơ hình
ngơn ngữ, chỉ cần xem chủ thể mà ta có thể đưa ra thơng tin về một
trạng từ đi sau đó. Ví dụ, nếu đầu ra của chủ thể là số ít hoặc số nhiều
thì ta có thể biết được dạng của trạng từ đi theo sau nó phải như thế nào.
Áp dụng vào bài toán nhận dạng chữ viết, sau khi đi qua mạng
Resnet để trích xuất đặc trưng, ảnh Ir sẽ trở thành một tensor có kích
thước height*width. Tensor này được tách thành các vector nhỏ có
kích thước height*1, từ đó ta có được width vector. Ví dụ tensor sau
khi trích xuất đặc trưng sẽ có kích thước 10*5, khi đó ta sẽ tách tensor

15
này thành 5 vector, mỗi vector có kích thước 10*1. Lần lượt các vecto
này sẽ được đi qua mạng LSTM, từ đó đầu ra sẽ là phân bố xác suất
kí tự mà vector đó biểu diễn.
2.5. Cơ chế Attention
2.5.1.Ý tưởng chính
Sau khi thu được chuỗi xác suất các kí tự, ta cần phải xử lý để
tìm xem lấy vector nào tại mỗi vị trí để ghép được thành từ hồn chỉnh.
Ví dụ đầu ra của mạng LSTM là một tensor 36*5, trong đó 5 là số
bước mạng LSTM đã chạy, bằng với 5 vector mà chúng ta đã tách ra

ở trên. Lúc này, giả sử ảnh đầu vào chứa từ “Bye” chỉ có 3 kí tự. Lúc
này ta sẽ phải sử dụng cơ chế Attention để tìm ra trong 5 vector có
kích thước 36*1, vector nào có xác suất kí tự B,y,e cao nhất, để từ đó
có ghép lại thành từ Bye hồn chỉnh.
2.5.2. Ngun lý hoạt động
Attention chính là một mạng LSTM có chức năng decode các
thơng tin đã được mã hóa về mặt thời gian của mạng LSTM ở mục 3.4.
Giả sử đầu ra cả mạng LSTM là một tensor 36*5. Ta tách tensor này
thành 5 vector h1,h2,h3,h4,h5. Trong đó h1,h3,h5 là chứa thơng tin của
3 kí tự B,y,e cịn h2,h4 là chứa thơng tin về các khoảng trống giữa các
kí tự. Lúc này ta cần 1 vector context để mang thơng tin về vị trí hiện
tại cũng như kí tự trước đó để phục vụ cho q trình tính tốn output sau
này. Vector context sẽ được tính dự trên gt-1 là vector trạng thái của
mạng Attention ở step trước đó và các vector h dựa trên cơng thức sau:
C = softmax(tanh(Wh*[h1,h2,h3,h4,h5]+ Ws*gt-1)) (3.5)
Vector C này sẽ mang thơng tin về vị trí mà mỗi vector h sẽ
đóng góp và trong q trình dự đốn từ tiếp theo. Từ đó ta sẽ tính ra
được vector đầu vào cho mạng attention:
Input = ∑Ci.hi (3.6)
Ví dụ C = [0.1,0.2,0.5,0.2,0.0] khi đó vector Input = 0.1h1 +
0.2h2 + 0.5h3 +0.2h4 +0.0h5
Khi đó Input sẽ thể hiện đầy đủ đặc trưng của 5 vector h. Khi
đó qua mạng Attention, ta sẽ được kí tự cần phải tìm. Với ví dụ trên,
vector C có C3 = 0.5 là lớn nhất, ta có thể thấy vector input sẽ mang

16
nhiều thơng tin nhất ở vị trí 3, và output của mạng Attention sẽ có xác
suất cho ký tự “y” là cao nhất.
2.6. Nhận diện ký tự với mơ hình transformer

Mơ hình RNN và LSTM có nhược điểm là thời gian huấn luyện
quá lâu và đôi khi không hiệu quả đối với những cầu dài đòi hỏi phụ
thuộc (long-range dependencies). Mơ hình Transformer gần đây đạt
được nhiều đột phá giúp giải quyết các vấn đề tồn tại trong việc xử lý
ngôn ngữ tự nhiên và gần đây đã mở rộng sang thị giác máy tính. Trong
luận văn này, luận văn có sử dụng những mơ hình Transformer trong
nhận dạng tiếng Việt qua thư viện VietOCR của tác giả Phạm Quốc.
2.6.1. Nhược điểm của mơ hình RNN
Khi làm các bài tốn về NLP, chúng ta thường sử dụng RNN
hay LSTM, tuy nhiên hai mơ hình này có những nhược điểm như sau:
- Thời gian huấn luyện lâu: Khi xử lý một câu bằng mơ hình
RNN, mơ hình sẽ xử lý câu văn một cách tuần tự theo từng bước thời
gian (time step) do đó các trạng thái ẩn (hidden state) sau sẽ phụ thuộc
và các trạng thái ẩn trước đó phải thực hiện xong. Điều này khiến mơ
hình khơng thể tận dụng lợi thế tính tốn song song của các máy tính
có card đồ họa hỗ trợ tăng tốc huấn luyện.luyện.
- Khả năng ghi nhớ kém: Đây là vấn đề cố hữu với những mạng
có kiến trúc tuần tự như RNN. Giải thích đơn giản là mơ hình chỉ học
được các từ ở đầu câu, càng về sau thì những đặc trưng học được càng
ít do giá trị gradient bị biến mất (vanishing gradient). Các kiến trúc
như LSTM hay GRU được giới thiệu là có thể giải quyết được vấn đề
này nhưng việc học được nhưng cầu dài luôn là một thách thức lớn.
- Khả năng chú ý kém: Các lớp RNN học các đặc trưng theo
từng time step sau đó sẽ mã hóa (encode) chuỗi đầu vào thành một
vectơ context, tuy nhiên trong vectơ context đó, từ nào cũng giống từ
nào. Trong một câu, khi xét về mặt ngữ nghĩa, ln tồn tại những từ
có vai trị quan trọng và những từ ít quan trọng hơn. Do đó, việc coi
các đóng vai trị giống nhau sẽ làm giảm độ chính xác của mơ hình.
Trong mơ hình xử lý ngơn ngữ, có ba loại quan hệ cần chú ý:
○ Quan hệ giữa các token giữa đầu vào và đầu ra

17
○ Quan hệ giữa các token ở đầu vào
○ Quan hệ giữa các token ở đầu ra
- Cơ chế chú ý truyền thống đánh lại trọng số (reweight) của
vectơ context( cịn được gọi là trọng số chú ý) nhờ đó giúp phần giải
mã biết timestep nào cần được chú ý (attention), mơ hình hóa được
mối quan hệ ngữ nghĩa giữa đầu vào và đầu ra. Trọng số chú ý bản
chất chính là độ liên quan của các mã hóa trạng thái ẩn trong khi giải
mã trạng thái ẩn bị mã hóa. Mơ hình transformer được dùng để thực
hiện q trình tự chú ý đầu vào/đầu ra đến chính nó (self-attention)
2.6.2. Phương pháp Transformer
Transformer giải quyết được nhược điểm của mô hình tuần tự
truyền thống nhờ chủ yếu vào hai cấu trúc là chú ý đa hướng và mã
hóa vị trí.
Kiến trúc transformer cũng giống với các mơ hình sequence-tosequence bao gồm hai phần mã hóa ( trái ) và giải mã(phải ).
- Phần mã hóa, Gồm N khối, mỗi khối bao gồm hai lớp con: chú
ý đa chiều và mạng tiến. Tác giả dùng một kết nối dư mỗi lớp con này,
theo sau mỗi lớp con đó là một lớp chuẩn hóa có ý nghĩa tương tự như
lớp Batch Norm trong mạng tích chập truyền thống. Kết nối dư
(Residual connection) cũng góp phần giúp mơ hình có thể sâu hơn,
hơn nhờ giảm tác động của vanishing gradient.
- Phần giải mã cũng tương tự như mã hóa gồm N khối, mỗi khối
gồm 2 lớp con. Tuy nhiên, nó có một lớp mặt nạ chú ý đa hướng. Lớp
này chính là lớp chú ý đa hướng. Nó có chức năng chú ý đến toàn bộ
những giải mã trạng thái ẩn trước. Lý do mà nó lại được đặt tên như
vậy là khi huấn luyện Transformer, ta đưa toàn bộ câu vào cùng một
lúc nên nếu ta đưa toàn bộ câu mục tiêu (target sentence) cho giải mã
trước thì mơ hình sẽ khơng học được gì cả (do đã có thơng tin từ trước).

Vì vậy, ta cần sử dụng mặt nạ (mask) để che bớt một phần token ở
decoder hidden state sau trong quá trình decode.

18
2.7. Phương pháp đề xuất
2.7.1. Xác định 4 góc của chứng minh thư sử dụng mơ hình SSD
Do ảnh đầu vào là ảnh chụp từ điện thoại, có thể ảnh bị nghiêng,
bị xoay ngược do đó chúng ta cần bước xoay thẳng lại để có thể dễ
dàng xử lý. Vì lý do như vậy, nếu chúng ta dùng phương pháp bình
thường để xác định nguyên cả chứng minh thư thì chúng ta khó có thể
xoay lại được bằng xử lý ảnh hoặc phải dùng các phương pháp phức
tạp hơn. Luận văn đề xuất một phương pháp coi bốn góc của chứng
minh thư như là một đối tượng chúng ta cần xác định sau đó chúng ta
sẽ xoay thẳng bằng tọa độ của bốn góc này. Bốn đối tượng này là các
góc: trên - trái, trên - phải, dưới - trái, dưới - phải cần tìm. Kết quả sau
khi nhận diện là hình dưới đây.
Do ảnh đầu vào là ảnh chụp từ điện thoại, có thể ảnh bị nghiêng,
bị xoay ngược do đó chúng ta cần bước xoay thẳng lại để có thể dễ
dàng xử lý. Vì lý do như vậy, nếu chúng ta dùng phương pháp bình
thường detect nguyên cả chứng minh thư thì chúng ta khó có thể xoay
lại được bằng xử lý ảnh hoặc phải dùng các phương pháp phức tạp
hơn. Để đơn giản, ở bài này mình đề xuất một phương pháp đó là
chúng ta sẽ coi bốn góc của chứng minh thư như là một object chúng
ta cần detect sau đó chúng ta sẽ xoay thẳng bằng tọa độ của bốn góc
này. Nếu như các bạn đã làm quen với các bài toán detect face, bike,
car,... , trong đó bike hay car là object thì ở đây bốn góc : bottom left,
bottom right, top left, top right chính là 4 object chúng ta cần tìm.
2.7.2. Xoay chứng minh thư
Với trường hợp mơ hình chỉ xác định được 3 góc, t sử dụng

phép tốn nội suy tọa độ để suy ra tọa độ của góc cịn lại.
Sau khi có được tọa độ 4 góc của chứng minh thư, ta xoay thẳng
ảnh lại dựa vào kích thước thực tế có chiều dài 500, chiều rộng 300. Ở
đây, ta có thể sử dụng hàm PerspectiveTransform của OpenCV, kết
quả cuối cùng thu được ở hình dưới.

19

Sơ đồ giải thuật tìm 4 góc
2.7.3. Xác định từ trong chứng minh thư dùng mơ hình CRAFT
Để xác định vị trí của các ký tự trong chứng minh thư, ta sử
dụng mơ hình Thin Plate Spline để xác định ký tự và chuyển ký tự về
dạng thẳng. Từ đó, vùng ảnh nằm trong kình hộp bao được tách ra để
làm đầu vào cho bước xử lý nhận dạng ký tự
2.7.4. Nhận diện ký tự sử dụng mơ hình vietOCR[18]
Mơ hình vietOCR là mơ hình dạng attention OCR (Nhận diện
ký tự quang chú ý).
AttentionOCR là sự kết hợp giữa mô hình mạng thần kinh tích
chập và mơ hình chú ý Seq2Seq. Cách hoạt động của mơ hình này
tương tự như kiến trúc của mơ hình seq2seq trong bài tốn dịch máy.
Với bài toán dịch máy từ tiếng Việt sang Anh, chúng ta cần mã hóa
một chuỗi tiếng việt thành một vector đặc trưng, cịn trong mơ hình
AttentionOCR, thì dữ liệu đầu vào này là một ảnh.
Một ảnh qua mơ hình mạng thần kinh tích chập sẽ cho một ma
trận đặc trưng có kích thước kênh x chiều cao x chiều rộng. Ma trận
đặc trưng này sẽ trở thành đầu vào cho mơ hình LSTM, tuy nhiên, mơ

20

hình LSTM chỉ nhận chỉ nhận đầu vào có kích thước là
hiddenxtime_step. Một cách đơn giản và hợp lý là 2 chiều cuối cùng
heightxwidth của feature maps sẽ được duổi thẳng. Ma trận đặc trưng
lúc này sẽ có kích thước phù hợp với u cầu của mơ hình LSTM.
Ma trận đặc trưng của mơ hình mạng thần kinh tích chập sau
khi được làm phẳng thì được truyền vào làm đầu vào của mơ hình
LSTM, tại mỗi thời điểm, mơ hình LSTM cần dự đốn từ tiếp theo
trong ảnh là gì.
Một trong những ưu điểm của transformer là mơ hình này có khả
năng xử lý song song cho các từ. Bộ mã hóa của mơ hình transformer
là một dạng feedforward neural nets, bao gồm nhiều lớp mã hóa khác,
mỗi lớp này xử lý đồng thời các từ. Trong khi đó, với mơ hình LSTM,
thì các từ phải được xử lý tuần tự. Ngồi ra, mơ hình Transformer cịn
xử lý câu đầu vào theo 2 hướng mà không cần phải stack thêm một hình
LSTM nữa như trong kiến trúc Bidirectional LSTM.
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
3.1. Tập dữ liệu
Trong phần thực nghiệm, tác giả thực hiện thu thập dữ liệu chứng
minh thư trên các nhóm Facebook đăng tin tìm kiếm, trả lại giấy tờ.
Tổng số mẫu ảnh thu được là 580 ảnh.
Phần engine nhận diện ký tự, luận văn sử dụng bộ ký tự tự sinh
với số lượng mẫu là một triệu ảnh.
3.2. Thiết lập thực nghiệm
Môi trường thực nghiệm được chạy trên CPU Intel i7-10700F 8
nhân, 16 luồng, RAM 32GB, card GTX 2070 8GB. Thư viện được sử
dụng là Pytorch 1.8.
Thời gian huấn luyện mơ hình SSD-v2 xác định góc là 8 tiếng,
với bộ dữ liệu 580 ảnh để xác định góc được sử dụng, 300 ảnh được sử
dụng để huấn luyện, 280 ảnh được sử dụng để kiểm tra. Độ chính xác
đạt được: F1 score: 97.3%, accuracy: 94.8%.

21
3.3. Phân tích kết quả:
Trong luận văn, tác giả đã xây dựng được một cách tiếp cận
hồn chỉnh có thể giải quyết bài toán nhận diện ký tự quang học cho
chứng minh thư nhân dân.
Mơ hình nhận diện vùng chứng minh thư trong ảnh hoạt động
tốt với ảnh đầu vào bị biến dạng: méo, xoay, mất góc.
Mơ hình xác định ký tự hoạt động tốt với dữ liệu thực nghiệm,
với những ảnh mờ, lóa vẫn có thể xác định được ký tự trong ảnh.
Kết quả nhận diện hoạt động tốt trên dữ liệu kiểm tra, do mơ
hình nhận diện được huấn luyện với lượng dữ liệu lớn, bao gồm dữ
liệu tự sinh, dữ liệu thu thập từ nhiều nguồn văn bản khác nhau.
Do thời gian thực hiện có hạn, tác giả chưa thủ thập được bộ dữ liệu
đủ lớn. Trong tương lai, để cải thiện kết quả của phương pháp hiện tại, tác
giả đề xuất thu thập nhiều dữ liệu hơn. Từ đó, tập dữ liệu có độ phân bố
rộng hơn nhằm xác định những trường hợp giới hạn của giải thuật.
KẾT LUẬN
Nhận dạng mẫu là một ngành khoa học của học máy (hay trí tuệ
nhân tạo) nhằm phân loại dữ liệu (các mẫu) vào một số lớp. Mẫu có thể là
bất kỳ thực thể nào cần được nhận ra, ví dụ: chữ in, chữ viết tay, vân tay,
khn mặt, tiếng nói, hình dạng. Ngày nay, sự phát triển của khoa học kỹ
thuật, các ứng dụng của nhận dạng mẫu được mở rộng ở rất nhiều lĩnh vực,
việc tự động hóa, nhận diện khơng cịn là q xa lạ. Chiếc điện thoại thơng
minh tích hợp được cả nhận diện khn mặt và vân tay để mở khóa, các
thiết bị tự động khác như khóa cửa sử dụng vân tay, hệ thống bảo mật trang
bị khuôn mặt, võng mạc đang ngày càng khai thác tối đa, trở thành một
phần không thể thiếu của cuộc sống hiện đại.
Nhận dạng mẫu được ứng dụng phổ biến trong lĩnh vực phân tích

và nhận dạng ảnh tài liệu, có nguồn gốc từ hệ thống nhận dạng ký tự quang
học, nhằm số hoá các tài liệu, thơng tin cá nhân. Cho đến nay, bài tốn phân
tích và nhận dạng ảnh tài liệu đã được giải quyết gần như trọn vẹn và cũng
đã có những sản phẩm thương mại.

22
Luận văn tập trung nghiên cứu về nhận dạng văn bản cho ảnh có cấu
trúc, ứng dụng trong nhận dạng chứng minh thư nhân dân dựa trên tập dữ
liệu thu thập được. Kết quả của Luận văn gồm:
- Nghiên cứu thuật toán học máy cho bài toán đọc ký tự quang học.
- Nghiên cứu các phương pháp nâng cao độ chính xác và cải thiện
tốc độ xử lý đối với bài toán.
- Thử nghiệm xây dựng ứng dụng hỗ trợ người dùng.

Nhận dạng ký tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư nhân dân TT

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về