Tải bản đầy đủ (.docx) (60 trang)

(Luận văn thạc sĩ) nhận dạng ký tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư nhân dân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.5 MB, 60 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

NGUYỄN ĐÌNH MẬU

NHẬN DẠNG KÝ TỰ QUANG CHO VĂN BẢN CÓ CẤU TRÚC,
ỨNG DỤNG TRONG ĐỌC CHỨNG MINH THƯ NHÂN DÂN

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2022

download by :


2

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

NGUYỄN ĐÌNH MẬU

NHẬN DẠNG KÝ TỰ QUANG CHO VĂN BẢN CÓ
CẤU TRÚC, ỨNG DỤNG TRONG ĐỌC CHỨNG
MINH THƯ NHÂN DÂN
Chuyên ngành: Hệ thống thông tin
Mã số: 8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)



NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN TRỌNG KHÁNH

HÀ NỘI - 2022


download by :


3

BẢN CAM ĐOAN
Tôi cam đoan đã thực hiện kiểm tra mức độ tương đồng nội dung luận
văn qua phần mềm DoIT một cách trung thực và đạt kết quả mức độ tương
đồng là: 17% toàn bộ nội dung luận văn. Bản luận văn kiểm tra qua phần
mềm là bản cứng luận văn đã nộp để bảo vệ trước Hội đồng. Nếu sai tơi xin
chịu các hình thức kỷ luật theo quy định hiện hành của Học viện.
Hà Nội, ngày 09 tháng 02 năm 2022
HỌC VIÊN CAO HỌC
(ký và ghi rõ họ tên)

Nguyễn Đình Mậu

download by :


4

LỜI CẢM ƠN
Trước tiên, tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy, cô giáo trong

khoa sau Đại học nói riêng và các thầy cơ giáo của trường Học viện Cơng
nghệ Bưu chính viễn thơng nói chung lời cảm ơn chân thành nhất.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới TS. Nguyễn Trọng Khánh
người đã tận tình chỉ bảo, hướng dẫn tơi trong suốt q trình tìm hiểu, nghiên
cứu để hồn thành luận văn tốt nghiệp của mình. Nếu khơng có những hỗ trợ
về kiến thức chun mơn của thầy thì chắc chắn tơi khơng thể hồn thành
đúng thời hạn.
Đồng thời, tơi xin cảm ơn tới gia đình, những người thân u ln bên
cạnh, động viên, giúp đỡ tơi trong suốt q trình học tập. Bên cạnh đó tơi
cũng xin gửi lời cảm ơn đến các thành viên trong lớp M19CQIS01-B đã chia
sẻ những kinh nghiệm, kiến thức quý báu cho tôi trong quá trình nghiên cứu
thực hiện luận văn.
Thời gian thực hiện luận văn, kinh nghiệm về các lĩnh vực nghiên cứu
của bản thân cịn hạn chế, luận văn cũng cịn thiếu sót, rất mong nhận được
những ý kiến đóng góp của Quý thầy cơ và các bạn để tơi có thể hồn thiện
luận văn một cách tốt nhất./.
Hà Nội, ngày 09 tháng 02 năm 2022

download by :


5

Mục lục
CHƯƠNG I : GIỚI THIỆU BÀI TOÁN
1.1. Tổng quan về nhận dạng ký tự quang
1.2. Các bước cơ bản bản nhận dạng ký tự quang học
CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ
2.1. Mơ tả bài toán nhận dạng chứng minh nhân dân
2.2. Các phương pháp sử dụng để thực hiện bài toán nhận dạng ký tự quang học

2.3. Xử lý ảnh
2.3.1. Phép biến đổi TPS
2.3.2. Sử dụng biến đổi Hough
2.3.3. Mơ hình mạng học sâu SSD-V2
2.4. Xác định vùng quan tâm dựa trên cấu trúc văn bản
2.4.1 Mơ hình CRAFT
2.4.2. Mạng bộ nhớ dài - ngắn
2.4.3. Cơ chế Attention
2.5. Nhận diện ký tự
2.5.1. Nhược điểm của mơ hình RNN
2.5.2. Phương pháp Transformer
2.6. Phương pháp đề xuất
2.6.1. Xác định 4 góc của chứng minh thư sử dụng mơ hình SSD
2.6.2. Xác định từ trong chứng minh thư dùng mơ hình CRAFT
2.6.3. Nhận diện ký tự sử dụng mơ hình vietOCR[18]
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
3.1. Tập dữ liệu
3.2. Thiết lập thực nghiệm
3.3. Phân tích kết quả:
KẾT LUẬN
DANH SÁCH TÀI LIỆU THAM KHẢO

download by :


6

Danh sách hình ảnh
Hình 1: Văn bản có cấu trúc
Hình 2: Văn bản phi cấu trúc

Hình 3: Sơ đồ cơ bản của một hệ thống OCR
Hình 4: Kết quả nhận diện hộp giới hạn sử dụng mơ hình xác định ký tự
Hình 5: Chứng minh thư mẫu cũ
Hình 6: Hộp giới hạn của vùng chữ nhận diện được
Hình 7: Kết quả nhận diện text với từng trường thông tin trong chứng minh thư
Hình 8: Pipeline của hệ thống nhận diện ký tự quang học sử dụng mạng mạng thần
kinh đồ thị
Hình 9: Minh họa phép biến đổi TPS
Hình 10: Minh hoạ q trình tính tốn điểm p’
Hình 11: Sử dụng biến đổi Hough trong xử lý góc nghiêng.
Hình 12: Mơ hình mạng SSD với tầng cơ sở VGG-16
Hình 13: Kiến trúc trúc của mạng thần kinh dự đốn đa kích thước trong mơ hình SSD. 19

Hình 14: Đánh giá độ chính xác của kết quả dự đốn hộp giới hạn
Hình 15: Ma trận đặc trưng tương ứng với nhiều kích thước bản đồ đặc trưng
Hình 16: Mơ hình của mạng CRAFT
Hình 17: Ảnh đầu vào
Hình 18: Bản đồ vùng
Hình 19: Bản đồ tương quan
Hình 20: Hình giới hạn màu đỏ
Hình 21: Ảnh kết quả nhận diện bị nghiêng, méo
Hình 22: Sơ đồ cơ bản mạng RNN
Hình 23: Sơ đồ cơ bản mạng LSTM
Hình 24: Cổng “quên” trong mạng LSTM
Hình 25: Cổng “đầu vào” trong mạng LSTM
Hình 26: Cập nhật trạng thái mới cho tế bào LSTM

download by :



7

Hình 27: Cập nhật đầu ra cho tế bào LSTM
Hình 28: Mơ hình RNN và LSTM
Hình 29: Mơ hình Transformer điển hình
Hình 30: Logic của mơ hình transformer
Hình 31: Hình ảnh chứng minh thư đầu vào
Hình 32: Kết quả xác định 4 góc của chứng minh thư
Hình 33: Sơ đồ giải thuật tìm 4 góc
Hình 34: Chứng minh thư sau khi đã được cắt
Hình 35: Kết quả xác định ký tự của mơ hình CRAFT
Hình 36: Kết quả sau khi sử dụng mơ hình biến đổi TPS
Hình 37: Minh họa mơ hình attention OCR
Hình 38: Phép biển đổi làm phẳng để tạo ra ma trận đặc trưng mới
Hình 39: Kiến trúc mạng Transformer OCR
Hình 40: So sánh giữa mơ hình Transformer và LSTM.
Hình 41: Dữ liệu huấn luyện tự sinh.
Hình 42: Hình ảnh cần nhận diện.
Hình 43: Kết quả nhận diện và thời gian xử lý

download by :


8

Danh mục từ viết tắt
STT
1
2
3

4
5
6
7
8
9
10
11
12
13
14


download by :


9

CHƯƠNG I : GIỚI THIỆU BÀI
TOÁN 1.1. Tổng quan về nhận dạng ký tự quang
Chúng ta sống trong thời đại khi bất kỳ tổ chức hoặc công ty nào mở rộng
quy mô và để phù hợp phải thay đổi cách họ nhìn vào cơng nghệ và thích nghi với
sự thay đổi nhanh chóng của cơng nghệ. Chúng ta đã biết Google đã số hóa sách
như thế nào hoặc cách Google Earth sử dụng NLP để xác định địa chỉ hoặc làm thế
nào có thể đọc văn bản trong các tài liệu kỹ thuật số như hóa đơn, giấy tờ pháp lý...
Đó chính là bài tốn nhận dạng ký tự quang học (OCR) được thực hiện trong luận
văn này. Nhận dạng ký tự quang học là ứng dụng công nghệ chuyên dùng để đọc
text ở file ảnh. Được biết đến là một công cụ scan kỹ thuật số chuyên nhận dạng các
ký tự, chữ viết tay, hay chữ đánh máy, công nghệ này chuyên dùng để truyền tải,
nhập liệu dữ liệu, nhận dạng ký tự quang học có khả năng số hóa nhiều tài liệu khác

nhau như: hóa đơn, hộ chiếu, danh thiết, tài liệu ... Bằng cách áp dụng nhận dạng ký
tự quang học, quy trình số hóa tài liệu, tìm kiếm và chỉnh sửa sẽ được thực hiện một
cách tự động, tiết kiệm không gian lưu trữ và thuận tiện trong việc tra cứu thông tin.
Hiện nay đối với ảnh chụp văn bản cần nhận dạng, ta có thể chia ra làm 2 loại :
- Văn bản có cấu trúc: Văn bản trong một tài liệu đánh máy thường xuất hiện

trong những nền tảng tiêu chuẩn, có hàng lối, phông chữ tiêu chuẩn. Các văn bản
này thường gặp ở những giấy tờ tùy thân như chứng minh thư nhân dân, giấy khai
sinh, hộ chiếu hay có thể là trang sách. Đối với loại dữ liệu này, việc trích xuất đặc
trưng, xác định vị trí ký tự và nhận dạng ký tự sẽ khơng khó nếu văn bản khơng bị
mờ, nhòe hoặc điều kiện ánh sáng quá thiếu.
Văn bản phi cấu trúc: Văn bản tại các vị trí ngẫu nhiên trong một khung cảnh
tự nhiên. Văn bản thưa thớt, không có cấu trúc hàng thích hợp, nền phức tạp, tại vị
trí ngẫu nhiên trong ảnh và khơng có phơng chữ chuẩn. Những văn bản này có thể
là biển hiệu quảng cáo, hóa đơn, biển số xe hoặc chữ viết tay. Trong phạm vi luận
văn, các kí tự nằm trên sản phẩm có thể được gọi là văn bản phi cấu trúc vì chúng
có màu sắc, vị trí ngẫu nhiên trong ảnh.

download by :


10

Hình 1: Văn bản có cấu trúc

Hình 2: Văn bản phi cấu trúc
1.2. Các bước cơ bản bản nhận dạng ký tự quang học
Trước khi có sự bùng nổ của công nghệ học sâu vào năm 2012, nhận dạng ký tự
quang học vẫn là một vấn đề thách thức đặc biệt là khi hình ảnh văn bản được chụp
trong mơi trường khơng bị giới hạn. Khi hình ảnh chứa nền phức tạp, nhiễu, phơng chữ

khác nhau và biến dạng hình học trong hình ảnh. Điều đó được thể hiện rất rõ trong các
trường hợp hóa đơn khách hàng chụp gửi lại cho chúng ta có thể ở trong những điều
kiện rất xấu như lóa (do giấy in hóa đơn rất bóng), bị nhàu nát, khơng đủ sáng, bị ướt...
Chính trong những tình huống như vậy, nhận dạng ký tự quang học kết hợp cùng học
sâu là biện pháp tốt nhất được sử dụng để nhận dạng văn bản.

download by :


11

Hình 3: Sơ đồ cơ bản của một hệ thống nhận dạng ký tự quang học
Bất kỳ một hệ thống nhận dạng ký tự quang học nào đều tuân theo 3 bước sau:
- Tiền xử lý ảnh: Trước khi xác định được vị trí các kí tự, ảnh cần được tiền xử lý

để đạt được một số yêu cầu nhất định. Ảnh có thể được nâng cao chất lượng, phân cụm
để giảm số lượng giá trị trong ảnh, lọc nhiễu sử dụng các bộ lọc như Gaussian, Median
hoặc có thể đưa về hệ màu đen trắng đối với những bài tốn có nền đơn giản như phân
loại biển số xe để giảm chiều dữ liệu cũng như kích thước dữ liệu. Đối với một số bài
tốn sử dụng cơng nghệ học sâu, ảnh sẽ được thay đổi kích thước nhất định để phù hợp
với mơ hình. Q trình tiền xử lý này cần thực hiện sao cho giảm

nhiễu và các thông tin ngoại lai nhiều nhất tuy nhiên vẫn phải giữ lại được những
thơng tin cần thiết cho q trình xác định và nhận diện sau này.
- Phát hiện ký tự: Sau khi ảnh được tiền xử lý, ta sẽ tiến hành xác định vị trí của ký tự

hoặc nhóm các kí tự có cấu trúc giống nhau. Mục tiêu của nhận diện ký tự tương tự như
các bài toán xác định vật thể với vật thể đặc thù ở đây là vị trí của các ký tự. Hiện nay, với
sự bùng nổ của công nghệ học sâu, các mô hình được sinh ra để giải quyết những bài tốn
với độ chính xác cao lên tới hơn 90% có thể được kể đến như DB, Text Fusnet[13],

CRAFT[14],.. Các mơ hình này cho kết quả nhận diện tốt trên các bộ văn bản có cấu trúc
lẫn những văn bản phi cấu trúc, tiêu biểu như nhận diện biển báo (một loại kĩ thuật trên
không chỉ thể hiện được kết quả tốt trên các bộ văn bản có cấu trúc mà cịn ở cả các loại
văn bản phi cấu trúc tiêu biểu nhất là biển báo - loại văn bản cảnh).

Hình 4: Kết quả nhận diện hộp giới hạn sử dụng mô hình xác định ký tự

download by :


12

- Nhận diện ký tự: Sau khi đã xác định các các hộp giới hạn, từng hộp sẽ được

xử lý để nhận dạng được các kí tự có trong vùng ảnh đó đó và ghép thành từ cụ thể.
Hiện nay, một số công cụ thông dụng thường được sử dụng Tesseract, Google API
tuy nhiên khi gặp những trường hợp ảnh bị mờ hoặc méo thường sẽ cho ra kết quả
không được tốt. Các mơ hình học sâu hiện nay thường dùng cho bài tốn này như
CRNN, ASTER, MORAN, DAN có cấu trúc chung là biến đổi ảnh - trích xuất đặc
trưng - mơ hình tuần tự - dự đốn. Trong đó mơ hình tuần tự và dự đốn là 2 phần
đóng vai trị quan trọng nhất của một mơ hình nhận dạng ký tự với các kiến trúc nổi
tiếng là LSTM, CTC và Attention.

CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ

Phần lớn các mơ hình dùng cho nhận diện ký tự hiện nay đều dựa trên cơng thức:
Biến đổi ảnh - Trích xuất đặc trưng - Mơ hình hóa tuần tự - Dự đốn. Với mơ hình
SOTA trong những năm gần đây là TPS- ResNet - BiLSTM - Attention, quyết định sử
dụng mơ hình này phục vụ cho bài toán Text Recognition cho chứng minh thư.


2.1. Mơ tả bài tốn nhận dạng chứng minh nhân dân

Hình 5: Chứng minh thư mẫu cũ

download by :


13

Với bài toán nhận diện ký tự quang học cho dữ liệu là ảnh chứng minh thư, có
rất nhiều quy trình được đề xuất, trong đó thường bao gồm các bước sau:
- Xử lý ảnh, xác định vùng quan tâm chưa chứng minh thư. Do ảnh chụp chứng

minh thư thường bị nghiêng, chéo, ta cần phải chuẩn hóa ảnh trước khi cho vào mơ
hình nhận diện. Các phương pháp thường được sử dụng là: xác định biên của chứng

minh thư, xác định góc của chứng minh thư. Xác định biên của chứng minh minh
thư có thể sử dụng các kỹ thuật như tìm đường biên trong xử lý ảnh, phân vùng đối
tượng, xác định các góc của chứng minh thư. Từ đó, tác giả có thể xác định được
tâm xoay và ma trận chuyển vị để từ đó thu được ảnh vùng quan tâm ở vị trí tốt
được sử dụng cho phần nhận diện ký tự ở bước 2.
- Xác định hộp giới hạn của từng dòng ký tự của ảnh. Các hộp giới hạn ứng với

từng dòng ký tự của ảnh. Phần xác định ký tự này có thể sử dụng các mơ hình nhận
diện vật thể phổ biến hoặc dùng các mơ hình chun biệt cho các bài toán xác định văn
bản cảnh như: CTPN[15], EAST[16], Differentiable Binarization[17], CRAFT,...
- Nhận diện nội dung các ký tự trong các hình giới hạn ký tự. Phần nhận dạng ký tự

có thể sử dụng các framework như Tesseract hoặc các mô hình về nhận dạng ký tự
văn bản cảnh: CRNN-CTC loss, Attention-OCR,...

Ví dụ 1 ảnh sau khi thực hiện qua 2 bước xác định góc và xác định ký tự.

Hình 6: Hộp giới hạn của vùng chữ nhận diện được

download by :


14

Hình 7: Kết quả nhận diện text với từng trường thơng tin trong chứng minh thư
Pipeline của mơ hình được mơ tả như sau

Ảnh

Tách

đầu

chữ

vào

Hình 8: Pipeline của hệ thống nhận diện ký tự quang học sử dụng mạng mạng thần
kinh đồ thị.
- Sử dụng mạng thần kinh đồ thị để xác định các trường thông tin. Đầu tiên, ta

cần nhận diện được chữ trong văn bản, các chữ này được đưa qua mơ hình trích
xuất đặc trưng. Những đặc trưng này biểu diễn mối liên hệ giữa vị trí của các từ
trong văn bản với nhau. Những dữ liệu này được đưa qua một mơ hình đồ thị để
phân loại đặc trưng này thuộc những nốt nào. Các nút ở đây chính là các hộp giới

hạn thu được sau bước xác định ký tự. Dựa vào kết quả phân loại này, ta sẽ có kết
quả cuối cùng là các trường thông tin của văn bản.
2.2. Các phương pháp sử dụng để thực hiện bài toán nhận dạng ký tự quang học

Phương pháp học sâu hiện nay đã đạt được nhiều thành tựu trong ứng dụng nhận
dạng, xử lý hình ảnh. Do đó, trong luận văn này, tác giả khơng sử dụng phương pháp
học máy cổ điển mà sử dụng phương pháp học sâu để xử lý bài toán nhận dạng ký tự
quang học cho văn bản có cấu trúc ứng dụng trong đọc thông tin trong chứng minh thư.


download by :


15

Bài toán nhận diện ký tự quang học được chia làm ba phần:
- Xử lý ảnh, phát hiện vùng ROI của chứng minh thư: sử dụng phương pháp học

sâu để xác định góc của chứng minh thư. Từ đó, xoay thẳng chứng minh thư để tăng
chất lượng nhận diện ký tự.
- Xác định vùng vùng quan tâm dựa trên cấu trúc văn bản bản sử dụng mơ hình

CRAFT. Vùng quan tâm sẽ chứa từng ký tự của văn bản, bốn góc của vùng quan tâm
tạo thành hình chữ nhật. Vùng ảnh này sẽ được sử dụng ở bước sau: nhận diện ký tự.
- Nhận diện ký tự: mơ hình transformer đã cải thiện khả năng nhận diện ký tự

trong văn bản có ngữ nghĩa so với mơ hình RNN và mơ hình LSTM. Mơ hình này
transformer được sử dụng trong bài tốn này dựa trên mơ hình vietocr.
2.3. Xử lý ảnh
Trong thực tế, khi chụp chứng minh thư có thể bị nghiêng hoặc cong. Chính vì

vậy, để chỉnh các ảnh bị cong hoặc nghiêng về ảnh bình thường, có nhiều các
phương pháp sử dụng
2.3.1. Phép biến đổi TPS

Hình 9: Minh họa phép biến đổi TPS
Mạng TPS sẽ có đầu vào là 2 tập điểm mốc tương ứng nhau, mỗi tập gồm K
điểm thuộc ảnh đầu vào và ảnh rectified. Do yêu cầu của ảnh rectified là các chữ
phải thẳng, vì thế K điểm mốc thuộc ảnh đầu ra sẽ có vị trí cố định dọc theo phía
trên và phía dưới ảnh ( các điểm màu tím). Khi đó, khi chúng ta lấy các điểm mốc ở
ảnh đầu vào dọc theo phía trên và phía dưới các kí tự (các điểm màu xanh), phép
đổi TPS sẽ cho ra ảnh rectified là chữ đã được chỉnh méo.

download by :


16

Vấn đề lớn nhất chính là việc làm thế nào để tìm được các tập điểm mốc trên
ảnh đầu vào. Để dự đốn được vị trí các điểm này, sử dụng thêm 1 mạng neural
network nhỏ với đầu vào chính là ảnh input. Giả sử ta có được các tập điểm mốc C’
2xK

và C của ảnh đầu vào I và ảnh rectified Ir, trong đó C = [c1,....,cK] ϵ R

là ma trận

T

tọa độ của K điểm mốc thuộc ảnh rectified, c k=[xk,yk] là tọa độ x,y điểm thứ k.
Tương tự với C’ = [c’1,....,c’K].

Giá trị của C và C’ sẽ được chuẩn hóa về (0,1), với (0,0) là góc trên bên trái và
(1,1) là góc dưới bên phải. Phép biến đổi 2D TPS là một ma trận T chiều 2 x
(K+3) :

(3.1)
1xK

T

Trong đó u,v ϵ R
. Với điểm p = [xp,yp] ϵ Ir, phép biến đổi TPS sẽ tìm
điểm p’ tương ứng bằng cách:

(3.2)
Trong đó

. Các hệ số của T được tìm bằng cách giải hệ phương

trình K điểm mốc:

(3.3)
Kết hợp với 4 điều kiện biên:

,

,

,

download by :



17

Viết dưới dạng ma trận ta nhận được:

với
(3.4)
Từ đó ta tính được ma trận T :
Có thể thấy rằng, ma trận C là 1 ma trận đã biết do ta đã biết được các tọa độ
điểm mốc trên ảnh Ir. Do đó ma trận

là ma trận hằng số và chỉ cần tính một lần.

Sau khi đã có T, với mỗi điểm p nằm trên ảnh I r, ta có thể tính được tọa độ tương
ứng p’ trên ảnh I theo sơ đồ như hình 6, từ đó chúng ta lấy được ảnh I r phục vụ cho
quá trình nhận dạng sau này.

Hình 10: Minh hoạ q trình tính tốn điểm
p’ 2.3.2. Sử dụng biến đổi Hough
Ý tưởng của việc áp dụng biển đồi Hough trong phát hiện góc nghiêng ảnh là
dùng một mãng tích luỹ để đếm số điểm ảnh nằm trên một đường thẳng trong khơng
gian ảnh. Mảng tích lũy là một mảng hai chiều với chỉ số hàng của mảng cho biết góc
lệch φ cùa một đường thằng và chi số cột chính là giá trị r khoảng cách từ gốc toạ độ
tới đường thẳng đó. Sau đó tính tồng số điềm ảnh nằm trên những đường thắng song

download by :


18


song nhau theo các góc lệch thay đổi. Góc nghiêng ảnh tương ứng với góc có tổng
giá trị mảng tích luỹ cực đại.
Theo biển đổi Hough, mỗi một đường thằng trong mặt phẳng tương ứng được
biền diễn bởi một cặp (r, φ). Giả sử, ta có một điểm ảnh (x,y) trong mặt phẳng. Vì qua
điểm ảnh này có vơ số đường thẳng, mỗi đường thẳng lại cho một cặp (r, φ) nên với
mỗi điểm ảnh ta sẽ xác định được một số cặp (r, φ) thoả mãn phương trình Hough.

Hình vẽ dưới đây minh hoạ cách dùng biến đổi Hough để phát hiện góc
nghiêng ảnh. Giả sử, có một số điểm ảnh. Đây là những điểm giữa đáy các hình chữ
nhật ngoại tiếp các đối tượng đã được lựa chọn từ các bước trước, ở đây, ta thấy trên
mặt phẳng có hai đường thẳng song song nhau. Đường thẳng thứ nhất có ba điềm
ảnh nên giá trị màng tích luỹ bằng 3. Đường thằng thứ hai có giá trị mảng tích luỹ
bằng 4. Do đó, tổng giá trị mảng tích lũy cho cùng góc φ trường hợp này bằng 7.

Hình 11: Sử dụng biến đổi Hough trong xử lý góc nghiêng.
2.3.3. Mơ hình mạng học sâu SSD-V2

Hình 12: Mơ hình mạng SSD với tầng cơ sở VGG-16

download by :


19

Kiến trúc của mạng SSD được xây dựng trên mạng VGG-16 được loại bỏ tầng
kết nối toàn bộ. Lý do VGG-16 được sử dụng làm tầng cơ sở vì tính hiệu quả trong
việc thực hiện bài toán phân loại ảnh với các ảnh có độ phân giải cao. Thay vì sử
dụng tầng kết nối toàn bộ của VGG, các tầng tích chập phụ trợ được thêm vào, để
có thể trích xuất được các đặc trưng với nhiều tỷ lệ khác nhau và giảm dần kích

thước của đầu vào trong từng tầng.
Đa hộp: Kỹ thuật hộp giới hạn được sử dụng trong mạng SSD được lấy ý
tưởng từ bài báo Scalable, High-Quality Object Detection[18] của tác giả Szegedy,
là một phương pháp sử dụng nhiều hộp giới hạn với các kích thước khác nhau để
phù hợp với mọi đối tượng có kích thước lớn, nhỏ khác nhau. nhau. Dưới đây là
kiến trúc của mạng thần kinh dự đốn đa kích thước được sử dụng trong SSD.

Hình 13: Kiến trúc trúc của mạng thần kinh dự đốn đa kích thước trong mơ hình SSD.

Hàm lỗi của đa hộp giới hạn là sự kết hợp của 2 thành phần tương ứng với 2
chức năng của SSD:
- Mất mát tin cậy: thành phần này tính tốn tỉ lệ rơi vào nhóm mà hộp giới hạn

được tính tốn. Độ đo cross-entropy được sử dụng để đo thành phần này.
- Mất mát vị trí: Thành phần này ước lượng sự sai lệch thực tế của hộp giới

hạn so với tập dữ liệu mẫu. L2-Norm được sử dụng ở đây.

download by :


20

- Hàm mất mát được xây dựng với 2 thành phần trên có cơng thức như sau:

multibox_loss = confidence_loss + alpha * location_loss
Giá trị alpha giúp chúng ta cân bằng được sự ảnh hưởng của mất mát vị trí.
Cũng như nhiều mơ hình mạng học sâu, mục tiêu của chúng ta là tìm những giá trị
tham số có thể tối thiểu được hàm mất mát tốt nhất, theo đó đưa ra được những dự
đoán càng gần với dữ liệu mẫu.

Đa hộp giới hạn và IoU

Hình 14: Đánh giá độ chính xác của kết quả dự đoán hộp giới hạn
Logic xoay quanh việc tạo ra hộp giới hạn khá phức tạp. Trong đa hộp giới hạn,
một khái niệm được sử dụng là điểm ban đầu (hay thuật ngữ mỏ neo trong Faster-R-

download by :


21

CNN), là những hộp giới hạn được tính tốn trước với kích thước cố định tuân theo
phân phối gần với phân phối của hộp giới hạn mẫu. Trong thực tế, những điểm ban
đầu này được lựa chọn khi tỉ lệ Intersection/Union (IoU) lớn hơn ngưỡng 0.5. Như
mơ tả trong hình dưới dây, giá trị IoU tại 0.5 vẫn chưa đủ tốt nhưng nó sẽ là một
điểm bắt đầu tương đối ổn cho thuật cho giải thuật hồi quy hộp giới hạn(chính là
việc học tham số của mạng) - điều này thực sự sẽ tiết kiệm thời gian và đem lại kết
quả tốt hơn rất nhiều so với việc bắt đầu tại một vị trí ngẫu nhiên.
Do đó đa hộp giới hạn bắt đầu với những điểm ban đầu như một dự đốn ban
đầu được khởi tạo tạo với mục đích hồi quy gần hơn với hộp giới hạn thực sự. Kiến
trúc của đa hộp giới hạn bao gồm 11 điểm ban đầu với mỗi tế bào bản đồ đặc trưng
(8x8, 6x6, 4x4, 3x3, 2x2) và cho 1 điểm ban đầu với 1x1 bản đồ đặc trưng dẫn đến
tổng cộng có 1420 điểm ban đầu với mỗi hình ảnh, do đó cho phép bao phủ hoàn
toàn một bức ảnh đầu vào trên những tỉ lệ khác nhau, khiến việc nhận diện những
đối tượng ở các kích thước khác nhau trở nên dễ dàng.
Những cải tiến của mơ hình SSD-v2
Một vài cải tiến nhỏ được thêm vào mạng để cải thiện khả năng nhận diện và
phân loại đối tượng.
Điểm ban đầu cố định: Không giống với đa hộp giới hạn, mỗi tế bào bản đồ
đặc trưng sẽ được gắn với một tập các hình hộp giới hạn mặc định với số chiều và tỉ

lệ khác nhau. Các điểm ban đầu này được lựa chọn bằng tay. Phương pháp này cho
phép SSD tạo được các hình hộp giới hạn cho bất kỳ kiểu đầu vào nào mà không
yêu cầu một bước huấn luyện đầu để tạo ra các điểm ban đầu. Ví dụ, giả sử ta có 2
điểm là (x1, y1) và (x2, y2) với mỗi tập hộp giới hạn mặc định cho mỗi tế bào bản
đồ đặc trưng và c nhóm cho việc phân loại. Với một ma trận đặc trưng có kích
thước f = m x n, SSD sẽ tính ra f x b x (4+c) giá trị cho ma trận đặc trưng này. Hình
dưới đây minh họa cho ý tưởng của điểm ban đầu cố định.

download by :


22

Hình 15: Ma trận đặc trưng tương ứng với nhiều kích thước bản đồ đặc trưng
Phân loại: Đa hộp giới hạn khơng thể phân loại được đối tượng,vì vậy, với
mỗi hình hộp giới hạn được đưa ra, SSD tính tốn ln sự dự đốn cho việc phân
loại của đối tượng và các lớp có thể trong tập dữ liệu.
2.4. Xác định vùng quan tâm dựa trên cấu trúc văn bản
2.4.1 Mơ hình CRAFT
CRAFT (Character-Region Awareness For Text detection) là mạng thần kinh
nhân tạo dùng để xác định vị trí của từng ký tự riêng lẻ và liên kết các ký tự xác
định được để tạo thành một chữ có nghĩa.

download by :


×