Nhận dạng tự động ảnh tài liệu tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.96 MB, 75 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Hoàng Văn Đức

NHẬN DẠNG TỰ ĐỘNG ẢNH TÀI LIỆU TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2021

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Hoàng Văn Đức

NHẬN DẠNG TỰ ĐỘNG ẢNH TÀI LIỆU TIẾNG VIỆT

Chuyên ngành: Khoa học dữ liệu
Mã số: 8904468.01QTD

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Đỗ Thanh Hà

Hà Nội – 2021

LỜI CẢM ƠN

Đầu tiên, tôi xin bày tỏ lời cảm ơn chân thành và sâu sắc đến TS. Đỗ
Thanh Hà, người đã dành nhiều thời gian và tâm huyết hướng dẫn tơi trong
q trình lựa chọn hướng tiếp cận và thực hiện đề tài, điều đó đã hỗ trợ tơi
rất nhiều trong việc hồn thành bản luận văn này.
Tơi cũng gửi lời cảm ơn trân trọng tới các cán bộ Nhà trường, Khoa Toán
- Cơ - Tin học đã tạo mọi điều kiện thuận lợi nhất cho tôi trong suốt q trình
học tập và nghiên cứu. Đồng thời, tơi cũng muốn gửi lời cảm ơn chân thành
đến các cán bộ, giảng viên và anh chị học viên lớp Khoa học dữ liệu niên khóa
2018-2020 đã động viên, hỗ trợ, giúp đỡ tơi rất nhiều trong q trình học tập
cũng như trong thời gian thực hiện luận văn.
Với sự cố gắng của bản thân cùng sự giúp đỡ hiệu quả của giảng viên
hướng dẫn, các thầy, cô và anh chị học viên, luận văn của tơi đã được hồn
thành, đạt được mục tiêu về thời gian và kết quả mà tôi đã đề ra. Tuy nhiên,
do một số hạn chế về kiến thức chuyên môn cũng như kinh nghiệm thực tiễn
trong lĩnh vực khoa học dữ liệu chưa nhiều nên nội dung của luận văn khó
tránh được một số thiếu sót. Với sự cầu thị và mong muốn được học hỏi, tơi
rất mong nhận được các góp ý, phản biện của quý thầy, cô và các anh chị học
viên để tôi có thể tích lũy thêm kiến thức và áp dụng được nhiều hơn trong
công việc.
Tôi xin chân thành cảm ơn!
Học viên thực hiện

Hoàng Văn Đức
i

MỤC LỤC

MỤC LỤC

ii

DANH MỤC BẢNG BIỂU

iv

DANH MỤC HÌNH VẼ

v

Danh mục ký hiệu toán học

viii

Danh mục thuật ngữ và từ viết tắt

ix

Giới thiệu bài tốn

1

1 Mơ hình nhiễu và các phương pháp khử nhiễu ảnh

4

1.1 Các mơ hình nhiễu trên ảnh tài liệu
1.1.1 Mơ hình nhiễu Gaussian . . . . .
1.1.2 Mơ hình nhiễu Impulse . . . . .

1.1.3 Mơ hình nhiễu Kanungo . . . . .
1.1.4 Mơ hình nhiễu Noise Spread . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.

.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.

.
.

.
.
.
.
.

.
.
.
.
.

. 5
. 5
. 7
. 9
. 11

1.2 Các phương pháp khử nhiễu . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Cửa sổ trượt và tích chập . . . . . . . . . . . . . . . . . . . . . . 12
1.2.2 Phương pháp lọc truyền thống . . . . . . . . . . . . . . . . . . . 15
2 Phương pháp nhận dạng ảnh tài liệu
2.1 Cơ sở lý thuyết . . . . . . . . . . . . .
2.1.1 Phép tốn hình thái . . . . . . . . .
2.1.2 Các phép tốn hình thái phổ biến .
2.1.3 Tốn tử Sobel . . . . . . . . . . . .

25
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

25
25
27
30

2.2 Một số hệ thống nhận dạng . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Google Docs OCR . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Tesseract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
ii

2.2.3 ABBYY FineReader . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.4 VnDOCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.5 VietOCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 Phương pháp sử dụng trong luận văn
2.3.1 Khoanh vùng từ . . . . . . . . . .
2.3.2 Khoanh vùng ký tự . . . . . . . . .
2.3.3 Mạng neural tích chập . . . . . . .
2.3.4 Nhận dạng ảnh ký tự . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.

.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.

.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

3 Kết quả thực nghiệm

36
36
39
40
50
52

3.1 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2 Quá trình thực nghiệm . . . . . .
3.2.1 Mơi trường, cơng cụ lập trình
3.2.2 Tham số mơ hình . . . . . . .
3.2.3 Độ đo . . . . . . . . . . . . . .
3.2.4 Huấn luyện mơ hình . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.

.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.

.

.
.
.
.
.

.
.
.
.
.

55
55
56
57
58

3.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4 Kết luận và hướng phát triển . . . . . . . . . . . . . . . . . . . . . . 60
Tài liệu tham khảo

61

iii

DANH MỤC BẢNG BIỂU

1
3
4

Danh mục ký hiệu toán học . . . . . . . . . . . . . . . . . . . . . . viii
Danh mục thuật ngữ . . . . . . . . . . . . . . . . . . . . . . . . . . x
Danh mục từ viết tắt . . . . . . . . . . . . . . . . . . . . . . . . . . x

3.1 Mô tả bộ dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 53
3.2 Danh mục tham số mơ hình . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Kết quả thực nghiệm trên mơ hình và một số công cụ OCR khác . 59

iv

DANH MỤC HÌNH VẼ

1

Các bước nhận dạng ảnh văn bản . . . . . . . . . . . . . . . . . .

1.1
1.2

Ví dụ minh họa về ảnh bị nhiễu . . . . . . . . . . . . . . . . . .
Hàm phân bố và đồ thị biểu diễn mơ hình nhiễu Gaussian, trong
đó: (a) Hàm phân bố nhiễu Gaussian; (b) Đồ thị biểu diễn phân
bố nhiễu Gaussian . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Ví dụ minh họa về nhiễu Gaussian, trong đó: (a) Ảnh gốc, (b)

Ảnh nhiễu, (c) Histogram của ảnh gốc, (d) Histogram của ảnh
nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Hàm phân bố và đồ thị biểu diễn mơ hình nhiễu Impulse, trong
đó: (a) Hàm phân bố nhiễu Impulse; (b) Đồ thị biểu diễn phân
bố nhiễu Impulse . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Ví dụ minh họa về nhiễu Impulse, trong đó: (a) Ảnh gốc, (b)
Ảnh nhiễu, (c) Histogram của ảnh gốc, (d) Histogram của ảnh
nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Ví dụ minh họa về nhiễu Kanungo [35], trong đó: (a) Ảnh gốc,
(b) - (g) là 6 mức độ nhiễu Kanungo được sắp xếp theo chiều
tăng dần . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Minh họa về cửa sổ trượt . . . . . . . . . . . . . . . . . . . . . .
1.8 Ví dụ về tính tích chập . . . . . . . . . . . . . . . . . . . . . . . .
1.9 Ví dụ minh họa về ARM, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu,
(c) Ảnh kết quả, (d) Histogram của ảnh gốc, (e) Histogram của
ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . .
1.10 Ví dụ minh họa về GEM, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu,
(c) Ảnh kết quả (d) Histogram của ảnh gốc, (e) Histogram của
ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . .

v

2

.

4

.

6

.

7

.

8

.

9

. 10
. 13
. 14

. 17

. 18

1.11 Ví dụ minh họa về COM, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu,
(c) Ảnh kết quả, (d) Histogram của ảnh gốc, (e) Histogram của
ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . .
1.12 Minh họa bộ lọc thống kê thứ tự . . . . . . . . . . . . . . . . . .
1.13 Ví dụ minh họa về MEF, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu,
(c) Ảnh kết quả, (d) Histogram của ảnh gốc, (e) Histogram của
ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . .

1.14 Ví dụ minh họa về MAX, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu,
(c) Ảnh kết quả, (d) Histogram của ảnh gốc, (e) Histogram của
ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . .
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
2.20
2.21

. 20
. 21

. 22

. 24

Ví dụ minh họa về hình dạng của phần tử cấu trúc . . . . . . . .
Ví dụ minh họa về phép giãn nở . . . . . . . . . . . . . . . . . . .
Ví dụ minh họa về phép co . . . . . . . . . . . . . . . . . . . . . .
Ví dụ minh họa về phép mở . . . . . . . . . . . . . . . . . . . . .
Ví dụ minh họa về phép đóng . . . . . . . . . . . . . . . . . . . .
Ví dụ minh họa về tốn tử Sobel . . . . . . . . . . . . . . . . . . .
Minh họa về OCR . . . . . . . . . . . . . . . . . . . . . . . . . . .
Minh họa về quá trình xử lý ảnh tài liệu của Google Docs OCR .
Các bước OCR với Tesseract . . . . . . . . . . . . . . . . . . . . .
Giao diện công cụ ABBYY FineReader (phiên bản 12) . . . . . . .
Giao diện công cụ VietOCR . . . . . . . . . . . . . . . . . . . . . .
Kết quả thực nghiệm phép tốn Sobel trên ảnh tài liệu, trong
đó: (a) là ảnh gốc, (b) là ảnh kết quả . . . . . . . . . . . . . . . . .
Kết quả thực nghiệm phép đóng trên ảnh tài liệu, trong đó: (a)
là ảnh đã phát hiện biên, (b) là ảnh kết quả . . . . . . . . . . . . .
Kết quả biến đổi ký tự qua toán tử Sobel và phép đóng hình thái
Kết quả thực nghiệm khoanh vùng từ, trong đó: (a) là ảnh đã
thực hiện liên thơng nét chữ, (b) là ảnh kết quả . . . . . . . . . .
Kết quả thực nghiệm khoanh vùng ký tự, trong đó: (a) Ảnh gốc,
(b) Áp dụng phép đóng, (c) Khoanh vùng . . . . . . . . . . . . .
Kết quả thực nghiệm cắt ký tự . . . . . . . . . . . . . . . . . . . .
Kiến trúc mạng CNN[10] . . . . . . . . . . . . . . . . . . . . . . .
Minh họa về ma trận lọc phát hiện biên[10] . . . . . . . . . . . . .
Minh họa về bước nhảy[10] . . . . . . . . . . . . . . . . . . . . . .
Minh họa về đường viền[10] . . . . . . . . . . . . . . . . . . . . .

vi

26
27
28
29
30
31
32
33
33
34
35
37
38
38
39
40
40
42
44
44
45

2.22 Minh họa về các bước tính tại tầng tích chập[10] . . . . . . . . .
2.23 Một số hàm kích hoạt phổ biến, trong đó: (a) Sigmoid, (b) ReLU,
(c) Tanh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.24 Ví dụ minh họa về phép lấy mẫu cực đại[10] . . . . . . . . . . .
2.25 Ví dụ minh họa về lớp liên kết đầy đủ[10] . . . . . . . . . . . .
3.1
3.2

3.3
3.4
3.5

. 46
. 48
. 49
. 50

Danh sách phân lớp ký tự . . . . . . . . . . . . . . . . . . . . . . .
Một phần bộ dữ liệu học được luận văn xây dựng . . . . . . . . .
Một ảnh văn bản trong bộ dữ liệu kiểm định [24] . . . . . . . . .
Đồ thị biểu diễn q trình huấn luyện mơ hình nhận dạng ký tự
Đồ thị so sánh kết quả thực nghiệm giữa các phương pháp . . .

vii

54
54
55
58
59

DANH MỤC KÝ HIỆU TOÁN HỌC

Ký hiệu

Nghĩa tiếng Việt

(r, c)

Tọa độ vị trí điểm ảnh

I

Ảnh ban đầu

J

Ảnh đầu ra

η (r, c)

Hàm nhiễu

H

Cửa sổ/Ma trận trượt

z

Mức xám của ảnh

p(z)

Hàm mật độ xác suất của mức xám

T[ I ]

Phép biến đổi tuyến tính của ảnh I

I⊗ H

Phép tích chập giữa ảnh I và cửa sổ trượt H

I⊕ H

Phép giãn giữa ảnh I và phần tử cấu trúc H

I

Phép co giữa ảnh I và phần tử cấu trúc H

H

I◦H

Phép mở giữa ảnh I và phần tử cấu trúc H

I•H

Phép đóng giữa ảnh I và phần tử cấu trúc H

X

Ma trận thông tin

k

Số lượng ma trận lọc

Wi

Ma trận lọc thứ i

Si

Bước nhảy áp dụng với ma trận lọc thứ i

P

Kích thước đường viền thêm vào ảnh
Bảng 1: Danh mục ký hiệu toán học

viii

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT

Thuật ngữ

Nghĩa tiếng Việt

Activation function

Hàm kích hoạt

Adaptive thresholding

Kỹ thuật phân ngưỡng động

Artificial Intelligence

Trí tuệ nhân tạo

Convolution

Tích chập

Convolution Layer

Lớp tích chập

Convolutional Neural
Network

Mạng thần kinh tích chập

Computer vision

Thị giác máy tính

Closing

Phép đóng ảnh

Dilation

Phép giãn ảnh

Erosion

Phép co ảnh

Fully connected

Liên kết đầy đủ

Feature map

Ma trận đầu ra

Histogram

Biểu đồ phân phối tần suất

Kernel

Cửa sổ trượt (hay còn được gọi là ma trận lọc)

Mathematic morphology

Phép tốn hình thái học

Max pooling

phép lấy mẫu cực đại

Machine learning

Học máy

Neural

Tế bào thần kinh

Nonlinear Layer

Lớp phi tuyến

Loss function

Hàm tổn thất

Pooling Layer

Lớp tổng hợp

ix

Padding

Đường viền

Pattern recognition

Nhận dạng mẫu

Pixel

Điểm ảnh

Receptive field

Vùng tiếp nhận

Scan

Quét ảnh

Structuring element

Phần tử cấu trúc

Stride

Bước nhảy

Overfitting

Mơ hình q khớp dữ liệu

Opening

Phép mở ảnh

Bảng 3: Danh mục thuật ngữ

Từ viết tắt

Tên đầy đủ tiếng Anh

Nghĩa tiếng Việt

ARM

Arithmetic Mean Filter

Bộ lọc trung bình số học

CNN

Convolutional Neural Network

Mạng neural tích chập

COM

Contraharmonic Mean Filter

Bộ lọc trung bình tương phản

GEM

Geometric Mean Filter

Bộ lọc trung bình hình học

MAF

Max Filter

Bộ lọc trung vị lớn nhất

MEF

Median Filter

Bộ lọc trung vị

MIF

Min Filter

Bộ lọc trung vị nhỏ nhất

NS

Noise Spread

Nhiễu lan truyền

OCR

Optical Character Recognition

Nhận dạng ký tự quang học

PSF

Point Spread Function

Hàm lan truyền điểm

ReLU

Rectified Linear Units

Đơn vị tùy chỉnh tuyến tính

Bảng 4: Danh mục từ viết tắt

x

GIỚI THIỆU BÀI TOÁN

Đặt vấn đề
Theo truyền thống, việc truyền tải và lưu trữ thông tin được thực hiện
thông qua các tài liệu giấy. Tuy nhiên, ngày nay các tài liệu được soạn thảo,
xử lý bằng máy tính và các thiết bị điện tử ngày càng nhiều. Mặc dù vậy, các
tài liệu vẫn được in ra để đọc, công bố và lưu trữ. Trước đây, việc thực hiện
văn phịng khơng giấy tờ, tức là thay thế hoàn toàn các tài liệu giấy bằng các
tài liệu điện tử diễn ra khá phổ biến. Tuy nhiên, việc thay thế này thực sự khó
khả thi trong thực tế và một hướng tiếp cận khác đã được đề xuất là làm thế
nào có thể tích hợp xử lý song song giữa tài liệu dạng điện tử và tài liệu giấy
tờ một cách hiệu quả. Một giải pháp cho vấn đề này là xây dựng hệ thống máy
tính có thể xử lý các tài liệu giấy như các dạng tài liệu số hóa khác và khi đó

tài liệu giấy có thể đọc được bởi cả máy tính và con người [2].
Số hóa tài liệu là q trình chuyển đổi các thơng tin được lưu trữ thủ
công trên giấy sang định dạng kỹ thuật số mà máy tính có thể hiểu được.
Trong bối cảnh các hệ thống thông tin được áp dụng ngày càng nhiều trong
cuộc sống đòi hỏi các văn bản, tài liệu cần được số hóa để có thể xử lý, lưu
trữ, gửi nhận trên máy tính. Từ đó, các thơng tin đã được số hóa này có thể
được dùng làm đầu vào cho các hệ thống thơng tin hay các mơ hình học máy.
Trong các loại ảnh thì ảnh tài liệu địi hỏi cần xử lý ở phạm vi rất nhỏ,
đối tượng xử lý là từng ký tự, sau đó mới ghép lại thành từ, câu có nghĩa,
nhất là với tài liệu tiếng Việt vốn chứa thêm các dấu câu có thể bị mờ trong
quá trình thu thập. Tài liệu khi được lưu trữ dạng giấy tờ truyền thống trong
quá trình bảo quản sẽ bị phai màu, ố vàng theo thời gian. Mặt khác, trong
q trình qt ảnh (scan) có thể gây đổ bóng, nhịe, nhiễu trên ảnh đầu ra làm
giảm chất lượng của ảnh, gây khó khăn cho q trình xử lý ảnh sau này. Do
1

đó, trước tiên luận văn tập trung tìm hiểu một số thuật toán lọc ảnh để loại
nhiễu, tăng cường ảnh, làm rõ các ký tự, tăng hiệu quả nhận dạng. Tiếp theo
đó, các phương pháp khoanh vùng, phân đoạn ký tự trên ảnh cũng như nhận
dạng và ghép nối các ký tự lại thành từ, thành câu hoàn chỉnh sẽ lần lượt được
được luận văn trình bày.
Quá trình nhận dạng ảnh tài liệu chứa đầy đủ các giai đoạn của quá trình
xử lý ảnh điển hình như bước tiền xử lý (chuẩn hóa, lọc nhiễu, v.v); khoanh
vùng, phân đoạn ký tự và nhận dạng. Do đó, phạm vi cũng như nội dung của
luận văn "Nhận dạng ảnh tài liệu tiếng Việt" có đủ cả tính lý thuyết và tính
ứng dụng trong thực tiễn.

Mục tiêu
Mục tiêu của luận văn là sử dụng các phương pháp lọc nhiễu ảnh, khoanh

vùng cùng mô hình nhận dạng ký tự để chuyển các ảnh tài liệu sang văn bản
dạng số mà các máy tính có thể xử lý, lưu trữ được. Từ đó, tạo nguồn dữ liệu
đầu vào cho các hệ thống phân tích, khai thác dữ liệu như: dự báo, thống kê,
học máy, v.v. Để thực hiện được mục tiêu này, quy trình thực hiện đối với việc
nhận dạng ảnh tài liệu do luận văn đề xuất được thể hiện ở hình 1 sau đây.

Hình 1: Các bước nhận dạng ảnh văn bản

Trong phạm vi của luận văn, các phương pháp giúp lọc, trích xuất và
nhận dạng ký tự trong ảnh tài liệu lần lượt được đề xuất và tiến hành thực
nghiệm. Đầu tiên, một số vấn đề về cơ sở lý thuyết cần thiết để thực hiện luận
văn sẽ được giới thiệu. Đó là các mơ hình và phương pháp khử nhiễu, từ đó
việc kiểm sốt và mơ hình hóa nhiễu cũng như làm sao loại bỏ được nhiễu đó
trong ảnh cũng sẽ được làm rõ. Tiếp theo, lý thuyết về phép toán hình thái và
2

toán tử Sobel được giới thiệu như là một phương pháp hiệu quả để phát hiện
đường biên của nét chữ từ đó giúp khoanh vùng ký tự. Ở vấn đề cuối cùng
được luận văn đề cập, một số công cụ nhận dạng được giới thiệu và phương
pháp được sử dụng trong luận văn cũng được trình bày sau đó. Về kết quả
đánh giá thuật toán, bằng cách thực nghiệm trên cơ sở dữ liệu các ảnh tài liệu
tiếng Việt được thu thập gồm 200 ảnh tài liệu, bao gồm cả ảnh chứa nhiều loại
nhiễu khác nhau đã cho thấy rằng phương pháp được đề xuất giúp khoanh
vùng và nhận dạng ảnh tài liệu một cách hiệu quả.

3

CHƯƠNG 1: MƠ HÌNH NHIỄU VÀ CÁC PHƯƠNG PHÁP KHỬ

NHIỄU ẢNH

Nhiễu là tập các biến thể cường độ hình ảnh xuất hiện một cách ngẫu
nhiên và thể hiện dưới dạng các hạt có độ tương phản khác biệt phân bố
khơng đều [42]. Nhiễu có thể sinh ra tại thời điểm chụp hoặc trong q trình
truyền tải, v.v. Khi đó, các điểm ảnh nhiễu hiển thị giá trị cường độ bị sai khác
so với giá trị thực nhận từ đối tượng. Các nguyên nhân chính gây ra nhiễu
trên ảnh là: i) Cảm biến hình ảnh có thể bị ảnh hưởng bởi các điều kiện môi trường
như ánh sáng, nhiệt độ trong quá trình thu nhận hình ảnh; ii) Nhiễu kênh truyền; iii)
Các hạt bụi xuất hiện trên màn hình máy quét [42]. Hình 1.1 minh họa một ảnh
tài liệu bị nhiễu do quá trình quét từ tài liệu giấy gây ra.

Hình 1.1: Ví dụ minh họa về ảnh bị nhiễu

Khử nhiễu là quá trình giảm hoặc loại bỏ nhiễu khỏi ảnh. Các thuật toán
khử nhiễu thực hiện điều này bằng cách làm mịn hình ảnh. Tuy nhiên, điều
này có thể làm mất đi các chi tiết có độ tương phản thấp, kích thước nhỏ trong
ảnh [23]. Hiệu suất của nhiều kỹ thuật nhận dạng vốn phụ thuộc vào việc xác
định chính xác loại nhiễu có trong ảnh. Hầu hết các phương pháp lọc nhiễu
đều giả định trên ảnh chứa nhiễu Gaussian. Một ví dụ trong số đó là phương
4

pháp lọc trung bình [23], phương pháp này lọc khá tốt trong nhiều trường
hợp. Tuy nhiên, lọc trung bình phụ thuộc nhiều vào loại nhiễu và phương
pháp này cũng làm mờ các đường nét trong ảnh đi khá nhiều. Ngoài ra, các
bộ lọc này sẽ hiệu quả khi biết trước loại nhiễu chứa trong ảnh. Đây là điều
rất khó trong thực tế do các ảnh thường chứa nhiều loại nhiễu khác nhau từ
quá trình thu thập, truyền gửi đến lưu trữ thường được thực hiện trên nhiều
thiết bị khác nhau [23]. Để khắc phục nhược điểm này, một số phương pháp

khác đã được nghiên cứu, phát triển như phương pháp lọc trung vị có trọng
số [22], phương pháp trung vị linh động [31], v.v.
Ở chương này, một số cơ sở lý thuyết phục vụ cho quá trình tiền xử lý
ảnh tài liệu sẽ lần lượt được giới thiệu. Đầu tiên, luận văn sẽ trình bày một số
mơ hình tạo nhiễu thường gặp trên ảnh nói chung và ảnh tài liệu nói riêng.
Tiếp theo, các kỹ thuật khử nhiễu trên ảnh tài liệu sẽ được đề cập, đó là một số
phương pháp khử nhiễu sử dụng bộ lọc trên miền không gian như lọc trung
bình và lọc trung vị.

1.1. Các mơ hình nhiễu trên ảnh tài liệu
Một ảnh nhiễu J bao gồm ảnh gốc I và nhiễu η. Điều này được mơ tả
trong phương trình 1.1 với (r, c) là tọa độ vị trí điểm ảnh:
J(r, c) = I(r, c) + η (r, c)

(1.1)

Hiệu suất của hầu hết các kỹ thuật nhận dạng phụ thuộc nhiều vào lượng
nhiễu có trong ảnh. Do đó, khử nhiễu ảnh là bước cần thiết, giúp nâng cao
chất lượng hình ảnh trước khi áp dụng bất kỳ phương pháp xử lý nào tiếp
theo [35]. Bởi vậy, đã có nhiều nghiên cứu đã được thực hiện về vấn đề này
[23, 15, 35, 38]. Trong phạm vi nghiên cứu, luận văn sẽ giới thiệu về một số
mơ hình tạo nhiễu thường gặp trong thực tế, bao gồm các mơ mình Gaussian
[43], Impulse [15], Kanungo [19] và Noise Spread [38].

1.1.1. Mơ hình nhiễu Gaussian
Nhiễu Gaussian (được đặt theo tên của nhà khoa học người Đức Johann C. F.
Gauss [43]) là nhiễu có hàm mật độ xác suất của phân phối chuẩn hay còn gọi
là phân phối Gaussian. Đây là loại nhiễu xuất hiện khá nhiều trong thực tế.
Nhiễu Gaussian xảy ra do bản chất rời rạc của bức xạ (hệ thống ghi ảnh bằng
5

cách đếm số lượng tử ảnh sáng) [43]. Nhiễu này là nhiễu cộng, có tính độc lập
và được phân bố đều trên ảnh. Điều này có nghĩa là giá trị của một điểm ảnh
trên ảnh nhiễu là tổng của giá trị trên ảnh gốc tại cộng với giá trị nhiễu từ
phân phối Gaussian tại vị trí tương ứng.

¯ 2
1
− (z−z2)
2σ
p(z) = √ e
σ 2π

(b)

(a)

Hình 1.2: Hàm phân bố và đồ thị biểu diễn mơ hình nhiễu Gaussian, trong đó: (a) Hàm phân bố
nhiễu Gaussian; (b) Đồ thị biểu diễn phân bố nhiễu Gaussian

Hình 1.2a mơ tả phân bố nhiễu có xác suất theo phân phối Gaussian với
z là mức xám, z¯ là giá trị trung bình và σ là độ lệch chuẩn. Trong khi đó, đồ
thị ở hình 1.2b biểu diễn phân bố nhiễu Gauss với giá trị trung bình z¯ = 0,
phương sai σ = 0.1 và mức xám z có giá trị từ 0 đến 255.

6

(a)

(b)

(c)

(d)

Hình 1.3: Ví dụ minh họa về nhiễu Gaussian, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram
của ảnh gốc, (d) Histogram của ảnh nhiễu

Trên đây là một ví dụ minh họa về nhiễu Gaussian trên ảnh tài liệu đen
trắng với 1.3a là ảnh gốc và 1.3b là ảnh nhiễu. Trong khi ảnh gốc có histogram
(hình 1.3c) với phân bố chỉ trên hai mức xám 0 và 255 tương ứng với phần chữ
viết (có màu đen) và phần nền tài liệu (có màu trắng) thì ảnh nhiễu có histogram
phân bố trên nhiều thang màu lân cận mức xám 255 do có thêm các mức xám
của các điểm ảnh nhiễu (tại hình 1.3d).

1.1.2. Mơ hình nhiễu Impulse
Một loại nhiễu khác cũng khá phổ biến trong thực tế là nhiễu Impulse
(hay còn được gọi là nhiễu xung). Nhiễu xung làm xuất hiện các chấm đen, trắng
trên tồn bộ ảnh. Trong đó, các chấm trắng được gọi là nhiễu muối (nhiễu salt)
còn các chấm đen được gọi là nhiễu tiêu (nhiễu pepper). Nhiễu này có thể sinh
ra bởi nhiều lý do khác nhau, chẳng hạn như do lỗi truyền tín hiệu, lỗi bộ
nhớ.v.v. Nhiễu xung thường gây đột biến tại một số điểm ảnh, xuất hiện sự
khác biệt lớn về cường độ với các điểm ảnh lân cận. Các điểm ảnh nhiễu sẽ
7

luân phiên mang giá trị lớn nhất hoặc nhỏ nhất trên thang màu (trong trường
hợp của ảnh tài liệu sẽ là các điểm màu trắng và đen) [15].




pa ,



p(z) = pb ,




0

z=a
z=b

(b)

(a)

Hình 1.4: Hàm phân bố và đồ thị biểu diễn mơ hình nhiễu Impulse, trong đó: (a) Hàm phân bố
nhiễu Impulse; (b) Đồ thị biểu diễn phân bố nhiễu Impulse

Phương trình trong hình 1.4a, phân phối của nhiễu impulse được thể
hiện, với z là mức xám, a, b là các mức xám mà điểm ảnh bị nhiễu sẽ nhận.
Nếu b > a, mức xám b xuất hiện là nhiễu muối, a là nhiễu tiêu. Nếu a > b
thì ngược lại, a là nhiễu muối, b là nhiễu tiêu. Đồ thị ở hình 1.4b biểu diễn mơ
hình nhiễu trong trường hợp b > a trên đồ thị với phân phối xác suất rời rạc.

Minh họa về nhiễu tiêu trên ảnh tài liệu được thể hiện ở hình 1.5 (do ảnh
tài liệu thường có nền màu trắng nên ở các ví dụ ở các phần sau đây, luận văn sẽ tiến
hành thực nghiệm lọc trên nhiễu tiêu - có màu đen, để có thể hiển thị rõ ràng hơn).
Mức xám 255 (thể hiện của màu nền trắng trên ảnh tài liệu) đã giảm đáng kể (thể
hiện ở phần màu đỏ với hơn 100,000 điểm ảnh) ở histogram của ảnh nhiễu (hình
1.5d) so với histogram của ảnh gốc (hình 1.5c) do đã xuất hiện thêm các chấm
nhiễu tiêu (có mức xám 0) trong ảnh nhiễu (hình 1.5b).

8

(a)

(b)

(c)

(d)

Hình 1.5: Ví dụ minh họa về nhiễu Impulse, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram của
ảnh gốc, (d) Histogram của ảnh nhiễu

1.1.3. Mơ hình nhiễu Kanungo
Nhiễu trong ảnh tài liệu không chỉ sinh ra trong quá trình qt ảnh từ tài
liệu gốc mà có thể do lúc in và photocopy tài liệu sinh ra [17]. Nhiễu này xuất
hiện chủ yếu tập trung ở xung quanh viền các nét chữ (hình 1.6) và chúng có
9

thể mơ hình hóa được. Năm 1993, một mơ hình thống kê đầu tiên về nhiễu

trên ảnh tài liệu có tên là Kanungo được giới thiệu và được đặt tên theo tên
nhà khoa học phát hiện ra mơ hình [17]. Kanungo tính khoảng cách (tính bằng
pixel) đến các đường viền (các nét chữ) trong ảnh. Mơ hình này giúp cải thiện
đáng kể hiệu suất của các thuật tốn khơi phục hình ảnh.
2

2

f ( x, y) = α0 e−αdi ( x,y) 1{ f0 ( x,y)=1} + β 0 e− βdi ( x,y) 1{ f0 ( x,y)=0} + η

(1.2)

Mơ hình Kanungo trên một ảnh nhị phân f 0 được định nghĩa bởi phương
trình 1.2. Trong khi α, α0 là xác suất thay đổi từ pixel họa tiết chính sang pixel
họa tiết nền thì β, β 0 là xác suất thay đổi từ pixel họa tiết nền sang pixel họa
tiết chính. Một giá trị không đổi η là được thêm vào tại tất cả các pixel (bất
kể vị trí tương đối của chúng với đường viền chữ cái) và đây cũng là hệ số nhiễu
Gaussian được thêm vào mơ hình nhiễu. Ngồi ra, k là kích thước của cửa sổ
trong trong phép đóng hình thái.

(a)

(b)

(c)

(e)

(f)

(g)

(d)

Hình 1.6: Ví dụ minh họa về nhiễu Kanungo [35], trong đó: (a) Ảnh gốc, (b) - (g) là 6 mức độ nhiễu
Kanungo được sắp xếp theo chiều tăng dần

Hình 1.6 minh họa về nhiễu Kanungo được tạo trên bộ dữ liệu GREC
2005 [7] với 6 mức độ được sắp xếp tăng dần từ hình 1.6b đến 1.6g. Trong
khi nhiễu ở mức 1 (hình 1.6b) nhiễu xuất hiện dưới dạng các chấm nhỏ quanh
viền các nét trong ảnh thì ở mức 2 (hình 1.6c) chủ yếu là nhiễu Gaussian trắng
10

(AWG) [35] phân bố đều ở mọi vị trí. Ở các cấp độ tiếp theo (hình 1.6d - 1.6g),
nhiễu Kanungo làm giảm chất lượng của ảnh một cách rõ rệt, ở mức độ 6,
nhiễu gây giảm chất lượng của anh đi rất nhiều, các nét bị mờ gây khó khăn
rất lớn cho việc xử lý ảnh [35].

1.1.4. Mơ hình nhiễu Noise Spread
Nghiên cứu về quá trình sinh nhiễu do quét ảnh tài liệu đã chỉ ra rằng
độ nhiễu của các đường viền trong ảnh tài liệu phụ thuộc vào hệ thống quang
học, độ nhiễu cộng hưởng và giá trị ngưỡng. Noise Spread (NS) là mơ hình
có thể giúp định lượng được dạng nhiễu sinh ra bởi hiện tượng vật lý của q
trình thu nhận hình ảnh [35]. Mơ hình này giả định rằng các tài liệu có sự đồng
nhất về độ chiếu sáng và ánh sáng thu được tỷ lệ thuận với độ phản chiếu của
giấy. Quá trình tạo ra hình ảnh được mơ hình hóa bởi hàm lan truyền điểm
(Point Spread Function - PSF) và được liên kết với đáp ứng xung của hệ thống
quang học. Hay nói cách khác, PSF mô tả phản ứng của hệ thống thu nhận
hình ảnh đối với điểm ảnh đầu vào tương tự như phản ứng xung. Từ đó,

tài liệu sẽ thu được bằng phép tích chập của hàm PSF với ảnh gốc. Sau đó,
nhiễu phát ra từ cảm biến và các nguồn khác sẽ được thêm vào ảnh tài liệu
được quét tại thời điểm thu nhận hình ảnh. Mơ hình Noise Spread chỉ ra rằng
nhiễu trên ảnh tài liệu là các vết mờ do hệ thống quang học gây ra. Trong đó,
hàm PS được sử dụng để định lượng độ lan truyền của nhiễu và hàm này
cũng được sử dụng để khử nhiễu trên ảnh tài liệu [13].
Trên ảnh nhiễu, năng lượng nhiễu ( ) phụ thuộc vào độ lan truyền theo
phương trình sau đây:

= c × NS

(1.3)

Trong đó, c là một hằng số còn giá trị NS được định nghĩa bằng cơng
thức:
√
2π × σ × ζ
NS =
(1.4)
LSP( ESP− 1(Θ))
Với Θ là ngưỡng toàn cục, LSP nhận giá trị từ hàm lan truyền dòng (Line
Spread Function) hoặc hàm PSF một chiều còn ESP là biên tích lũy của dạng
hàm PSF. Hình dạng thường được chọn của PSF là hình trịn có bán kính ζ.
11

Trong trường hợp lọc ảnh với nhiễu Gaussian độc lập với phân bố có độ lệch
chuẩn σ được thêm vào, PSF được định nghĩa như sau:

g( x, y) =

+∞
−∞

+∞
−∞

h( x, y; ζ, η ) f (ζ, η )dζdη + n( x, y)

(1.5)

Từ cơng thức 1.5, ta có thể thấy ngồi độ lệch chuẩn σ, NS còn phụ thuộc
vào độ rộng ζ của PSF. Do đó, giá trị năng lượng nhiễu = c × NS được quyết
định dựa trên giá trị của các tham số được khởi tạo trong mơ hình NS.

1.2. Các phương pháp khử nhiễu
Khử nhiễu là bước không thể thiếu trong các bài toán xử lý ảnh, bước
này giúp loại bỏ nhiễu, tăng cường chất lượng cho ảnh. Đồng thời, hiệu quả
của các hệ thống nhận dạng cũng được tăng lên. Đã có nhiều phương pháp
khử nhiễu được giới thiệu [28], trong đó, một phương pháp thường chỉ cho
kết quả tốt với một hoặc một số ít mơ hình nhiễu cụ thể. Đối với các mơ hình
nhiễu đã được luận văn giới thiệu ở phần trước, các kỹ thuật sử dụng cửa sổ
trượt để tính tích chập hay sắp xếp và tìm ra điểm ảnh thay thế sẽ được áp
dụng để lọc ảnh. Các vấn đề đó sẽ được giới thiệu ở các mục 1.2.2 của phần
này.

1.2.1. Cửa sổ trượt và tích chập
Ở nội dung đầu tiên, kỹ thuật cửa sổ trượt cùng phép tích chập sẽ được
luận văn sẽ giới thiệu. Phần lý thuyết này sau đó được áp dụng trong các phép
lọc ảnh trên miền không gian như lọc trung bình, lọc thống kê thứ tự,.v.v. sẽ

được luận văn giới thiệu ở mục 1.2.2 của phần này.
a) Cửa sổ trượt
Cửa sổ trượt là kỹ thuật mà dùng một cửa sổ (còn được gọi là cửa sổ dịch
chuyển/ma trận/mặt nạ/kernel) có hình dáng bất kỳ (để đơn giản hóa trong việc
tính tốn, cửa sổ trượt hình chữ nhật thường được sử dụng) trượt lên mỗi điểm
ảnh. Tại mỗi điểm ảnh trong quá trình trượt, phép biến đổi giữa các điểm ảnh
trên cửa sổ trượt và các điểm ảnh hình chiếu tương ứng trên ảnh được áp
dụng. Như trong hình 1.7, cửa sổ trượt H có kích thước (3 × 3) được sử dụng
để biến đổi ảnh I thành ảnh J.
12

Hình 1.7: Minh họa về cửa sổ trượt

J(r, c) = T [I](r, c)

= f ({I(ρ, χ)|ρ ∈ {r − s, ..., r, ..., r + s}, χ ∈ {c − d, ..., c, ..., c + d}})
(1.6)
Trong phương trình 1.6, I và J lần lượt là các ảnh đầu vào và ảnh kết quả,
phương trình cũng bao gồm một phép biến đổi T [I]. Giá trị của ảnh J tại vị trí
điểm ảnh (r, c) là một hàm biến đổi giá trị của các vị trí trên ảnh I nằm trong
hình chữ nhật có kích thước ((2s + 1) × (2d + 1)) là hình chiếu của H. Giá trị
J(r, c) = T [I](r, c) là kết quả của hàm biến đổi các điểm ảnh nằm trong hình
chữ nhật tạo bởi H khi cửa sổ chập này quét qua vị trí (r, c).
Giá trị của phép biến đổi tại mỗi điểm ảnh phụ thuộc vào giá trị của các
điểm ảnh lân cận trong phạm vi cửa sổ quét. Đối với từng phương pháp lọc
ảnh sẽ có các phép biến đổi T khác nhau. Điều này sẽ được giới thiệu ở mục
1.2.2 của phần này.
b) Phép tích chập
Phép tích chập (convolution) là phép biến đổi tuyến tính giá trị của các

Nhận dạng tự động ảnh tài liệu tiếng việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về