Tải bản đầy đủ (.pdf) (59 trang)

Ứng dụng một số kỹ thuật xử lý ảnh trong phân tích chứng minh thư nhân dân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.1 MB, 59 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





LÊ ĐỨC HIẾU





ỨNG DỤNG MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH TRONG
PHÂN TÍCH CHỨNG MINH THƯ NHÂN DÂN





LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN






Hà Nội – 2012




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



LÊ ĐỨC HIẾU




ỨNG DỤNG MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH TRONG
PHÂN TÍCH CHỨNG MINH THƯ NHÂN DÂN

Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10


LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN




NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. NGÔ QUỐC TẠO




Hà Nội – 2012

-4-
Mục lục
Lời cam đoan 2
Lời cảm ơn 3
Mục lục 4
Danh mục hình vẽ 6
Danh mục bảng biểu 8
Danh mục thuật toán 9
Mở đầu 10
Chương 1: Tổng quan về phân tích ảnh tài liệu 12
1.1. Tổng quan về hệ thống nhận dạng ảnh tài liệu 12
1.2. Phân tích ảnh tài liệu 13
1.2.1. Bố cục tự nhiên và cấu trúc lôgic 14
1.2.2. Phân loại ảnh tài liệu 15
1.3. Phân tích bố cục 16
1.3.1. Hướng tiếp cận trên-xuống 17
1.3.2. Hướng tiếp cận dưới-lên 18
1.4. Phân tích cấu trúc 19
1.5. Kết luận chương 20
Chương 2: Một số thuật toán tiền xử lý ảnh 21
2.1. Nhị phân ảnh 21
2.1.1. Phân loại các phương pháp xác định ngưỡng T 23
2.1.2. Một số phương pháp xác định ngưỡng T 23
2.1.3. Nhận xét 26
2.2. Hiệu chỉnh độ nghiêng của trang văn bản 28
2.2.1. Phương pháp dựa trên biến đổi Hough 29
2.2.2. Phương pháp láng giềng gần nhất (nearest neighbours) 31
2.2.3. Phương pháp sử dụng chiếu nghiêng (project profile) 33
2.2.4. Nhận xét 34
2.3. Các toán tử hình thái (Morphological operations) 34

2.4. Kết luận chương 37
-5-
Chương 3: Phương pháp phân tích Giấy chứng minh nhân dân 38
3.1. Giới thiệu bài toán 38
3.2. Tách các trường thông tin ở mặt trước 39
3.2.1. Tiền xử lý ảnh 40
3.2.2. Tách trường Số CMND 43
3.2.3. Tách các trường thông tin còn lại 46
3.3. Tách các trường thông tin ở mặt sau 51
3.3.1. Tiền xử lý ảnh 51
3.3.2. Xác định cấu trúc bảng 52
3.3.3. Tách trường thông tin 53
3.4. Kết luận chương 54
Chương 4: Cài đặt thử nghiệm và đánh giá 55
4.1. Môi trường cài đặt 55
4.2. Dữ liệu kiểm thử 55
4.3. Kết quả thực nghiệm 55
4.4. Đánh giá 56
Kết luận 58
Tài liệu tham khảo 59



-6-
Danh mục hình vẽ
Hình 1. 1 Sơ đồ hệ thống nhận dạng 12
Hình 1. 2 Ví dụ ảnh tài liệu có bố cục phức tạp 14
Hình 1. 3 Sơ đồ hệ thống phân tích bố cục và cấu trúc ảnh tài liệu 15
Hình 1. 4 Các loại ảnh tài liệu 16
Hình 1. 5 Hình chiếu ngang và dọc của ảnh tài liệu 17

Hình 1. 6 Thuật toán whitespace 18
Hình 1. 7 Thuật toán Docstrum 19
Hình 1. 8 Thuật toán Voronoi 20
Hình 2. 1 Nhị phân ảnh 22
Hình 2. 2 So sánh các phương pháp nhị phân ảnh đối với có độ sáng thay đổi 27
Hình 2. 3 So sánh các phương pháp nhị phân ảnh đối với ảnh Chứng minh nhân dân 28
Hình 2. 4 Biến đổ Hough 30
Hình 2. 5 Phương pháp láng giếng gần nhất 32
Hình 2. 6 Phương pháp chiếu nghiêng 33
Hình 2. 7 Phần tử cấu trúc 3x3 34
Hình 2. 8 Phép giãn ảnh với phần tử cấu trúc 3x3 35
Hình 2. 9 Phép co ảnh với phần tử cấu trúc 3x3 36
Hình 2. 10 Phép toán opening 36
Hình 2. 11 Phép toán closing 37
Hinh 3. 1 Mẫu “Giấy Chứng minh nhân dân” 38
Hinh 3. 2 Vùng thông tin cần tách ở mặt trước CMND 39
Hinh 3. 3 Tiền xử lý ảnh mặt trước CMND 41
Hinh 3. 4 Xác định vùng Số CMND 44
Hinh 3. 5 Phân đoạn vùng Số CMND 45
Hinh 3. 6 Mặt nạ dòng mặt trước 47
Hinh 3. 7 Xoá phần tiêu đề 49
Hinh 3. 8 Kết quả lấy lại các ký tự bị mất 50
Hinh 3. 9 Các vùng thông tin cần tách ở mặt sau 51
Hinh 3. 10 Tiền xử lý mặt sau CMND 52
-7-
Hinh 3. 11 Xác định cấu trúc bảng 53
Hình 4. 1 So khớp khối đúng và khối tách được 56
Hình 4. 2 Trường hợp tách bị lỗi 57

-8-

Danh mục bảng biểu
Bảng 2. 1 So sánh phương pháp Niblack và Otsu 28
Bảng 3. 1 Đặc trưng các trường thông tin ở mặt trước CMND 40
Bảng 4. 1 Kết quả phân tích ảnh CMND 56

-9-
Danh mục thuật toán
Thuật toán 2.1. Nhị phân ảnh 21
Thuật toán 2.2. Phương pháp phân ngưỡng Niblack 23
Thuật toán 2.3. Phương pháp phân ngưỡng Otsu 25
Thuật toán 2.4. Hiệu chỉnh độ nghiêng của ảnh tài liệu 29
Thuật toán 2.5. Xoay ảnh 29
Thuật toán 2.6. Xác định góc nghiêng dựa vào biến đổi Hough 30
Thuật toán 2.7. Phương pháp láng giềng gần nhất 31
Thuật toán 2.8. Sử dụng chiếu nghiêng để xác định góc nghiêng 33
Thuật toán 3.1. Xác định các vùng có thể là Trường Số CMND 43
Thuật toán 3.2. Tìm và tách trường Số CMND 44
Thuật toán 3.3. Phân đoạn vùng Số CMND 45
Thuật toán 3.4. Ước lượng bề dày đường lượn sóng 46
Thuật toán 3.5. Tách các ký tự thuộc mỗi dòng 48
Thuật toán 3.6. Xoá phần tiêu đề 49
Thuật toán 3.7. Tìm các đường kẻ ngang trong ảnh 52

-10-
Mở đầu
Nhận dạng mẫu là một ngành khoa học của học máy (hay trí tuệ nhân tạo) nhằm phân
loại dữ liệu (các mẫu) vào một số lớp [4]. Mẫu có thể là bất kỳ thực thể nào cần được
nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khuôn mặt, tiếng nói, hình dạng,… Cùng
với sự phát triển của khoa học kỹ thuật, các ứng dụng của nhận dạng mẫu ngày càng
được mở rộng, từ việc tự động hoá một số quy trình trong sản xuất công nghiệp cho

đến dự báo thời tiết, dự báo cháy rừng hay là một phần quan trọng trong các hệ thống
máy tính thông minh…
Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là phân tích và nhận
dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), nhằm số hoá
các trang tài liệu giấy như sách, báo, tạp chí,… Cho đến nay, bài toán phân tích và
nhận dạng ảnh tài liệu đã được giải quyết gần như trọn vẹn và cũng đã có những sản
phẩm thương mại, như VnDOCR của Viện công nghệ thông tin hay FineReader của
hãng ABBYY,…
Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách tổng quát ở trên
còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực cụ thể, như: phân tích và
nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ chiếu,… Đối
với lớp bài toán này thì việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng,
bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần
thiết cho từng ứng dụng cụ thể.
Trên thế giới đã có nhiều sản phẩm phần mềm phân tích và nhận dạng ảnh thẻ chứa
thông tin cá nhân (như hộ chiếu, danh thiếp,…) và được ứng dụng trong nhiều lĩnh
vực, như: làm thủ tục hải quan, các giao dịch ở các cửa hàng, khách sạn,… Ở Việt
Nam loại thẻ chứa thông tin các nhân được sử dụng nhiểu nhất là Giấy chứng minh
nhân dân (CMND), nhưng hiện nay chưa có một giải pháp nào được đưa ra cho việc
phân tích và nhận dạng CMND. Do đó, trong luận văn này, tôi xin đề xuất một phương
pháp phân tích ảnh CMND dựa trên việc phân tích và nhận dạng biểu mẫu. Luận văn
gồm bốn chương với các nội dung như sau:
Chương 1: Tổng quan về phân tích ảnh tài liệu. Giới thiệu tổng quan về hệ thống
nhận dạng ảnh tài liệu nói chung và hệ thống phân tích ảnh tài liệu nói riêng. Giới
thiệu các hướng tiếp cận trong phân tích bố cục và cấu trúc của ảnh tài liệu.
Chương 2: Một số thuật toán tiền xử lý ảnh. Giới thiệu một số thuật toán tiền xử lý
ảnh thường được áp dụng trong các hệ thống phân tích và nhận dạng ảnh tài liệu, như:
nhị phân ảnh, căn chỉnh độ nghiêng, các toán tử hình thái.
-11-
Chương 3: Phương pháp phân tích Giấy chứng minh nhân dân. Giới thiệu bài toán

và các vấn đề cần giải quyết, từ đó áp dụng các kỹ thuật xử lý ảnh và phân tích ảnh tài
liệu ở trên để phân tích ảnh CMND.
Chương 4: Cài đặt thử nghiệm và đánh giá. Đánh giá hiệu quả của giải pháp đưa ra
trên tập ảnh CMND thu thập được.

-12-
Chương 1: Tổng quan về phân tích ảnh tài liệu
1.1. Tổng quan về hệ thống nhận dạng ảnh tài liệu
Một hệ thống nhận dạng ảnh tài liệu gồm các bước sau (Hình 1. 1):

Hình 1. 1 Sơ đồ hệ thống nhận dạng
 Thu nhận và lưu trữ ảnh: Các trang tài liệu được thu nhận thông qua các thiết
bị ghi nhận hình ảnh (máy quét, máy ảnh kỹ thuật số,…) và được lưu trữ dưới
dạng các file hình ảnh (*.bmp, *.jpg, *.tif,…). Tuỳ từng ứng dụng cụ thể mà
chọn định dạng file và kiểu ảnh (ảnh mầu, ảnh đa cấp xám, ảnh đen/trắng,…) cho
phù hợp.
Ảnh
Thu nhận và lưu trữ ảnh
Tiền xử lý ảnh
Phân tích ảnh
Nhận dạng
Hậu xử lý
Lưu văn bản
Văn bản
-13-
 Tiền xử lý ảnh: Do các tài liệu gốc thường có chất lượng khác nhau (có thể bị
mờ, ố,…) hoặc quá trình thu nhận ảnh chịu ảnh hưởng của môi trường nên ảnh
thu nhận được thường có chất lượng không đồng nhất. Để đảm bảo kết quả nhận
dạng được chính xác cần áp dụng các kỹ thuật xử lý ảnh để nâng cao chất lượng
của ảnh đầu vào. Các kỹ thuật thường được sử dụng là khử nền, xoá nhiễu, làm

trơn ảnh, căn chỉnh độ nghiêng của trang tài liệu…
 Phân tích ảnh: Là quá trình phân ly ảnh thành các vùng (văn bản, hình ảnh,
bảng biểu,…) và hiểu vai trò chức năng của mỗi vùng cũng như mối quan hệ của
nó với các vùng khác. Đây là một trong những công đoạn quan trọng nhất của
một hệ thống nhận dạng vì nó ảnh hưởng rất lớn đến kết quả nhận dạng.
 Nhận dạng: Đây là thao tác gán nhãn các đối tượng dựa trên các tri thức đã được
học, hay nói cách khác là việc tìm một lớp mẫu phù hợp nhất với đối tượng đầu
vào.
 Hậu xử lý: Bao gồm các công việc như: ghép các ký tự đã được nhận dạng thành
các từ, các câu, các đoạn nhằm khôi phục lại văn bản như ban đầu, đồng thời
phát hiện các lỗi nhận dạng bằng việc kiểm tra chính tả dựa trên cấu trúc và ngữ
nghĩa của câu, đoạn văn.
 Lưu văn bản: Sau khi đã tái tạo được nguyên bản của tài liệu, cần lưu chúng ở
các định dạng file được hệ thống hỗ trợ (như: *.doc, *.docx, *.rtf,…).
1.2. Phân tích ảnh tài liệu
Một ảnh tài liệu bao gồm nhiều thành phần khác nhau như các khối văn bản, hình ảnh,
bảng biểu, sơ đồ, công thức,… và chúng có thể được gán cho các nhãn lôgic hay chức
năng khác nhau như nhan đề, tiêu đề, tên và địa chỉ tác giả,… Quá trình phân tích ảnh
tài liệu là việc cố gắng phân ly tài liệu thành các vùng và hiểu vai trò chức năng cũng
như mối quan hệ giữa các vùng [5].
Các ảnh tài liệu thường được tạo ra từ các tài liệu thực bởi quá trình số hoá sử dụng
máy quét hoặc máy ảnh kỹ thuật số. Nhiều tài liệu như báo, tạp chí, quảng cáo có bố
cục rất phức tạp do sự sắp đặt của hình ảnh, nhan đề và đầu đề, nền phức tạp, định
dạng văn bản có tính nghệ thuật,… (Hình 1. 2) Một người đọc sử dụng một loạt các
thông tin bổ xung như ngữ cảnh, quy ước và thông tin ngôn ngữ/kịch bản, cùng với
quá trình lý luận phức tạp để giải mã nội dung của tài liệu. Tự động phân tích một tài
liệu tuỳ ý với bố cục phức tạp là một nhiệm vụ vô cùng khó khăn và vượt ngoài khả
năng của các hệ thống phân tích bố cục và cấu trúc tài liệu tiên tiến. Bởi vì các tài liệu
này được thiết kế để hiệu quả và rõ ràng đối với sự phân tích của con người hơn các
ảnh có trong tự nhiên.

-14-

Hình 1. 2 Ví dụ ảnh tài liệu có bố cục phức tạp
Như vậy, chúng ta cần phân biệt giữa bố cục tự nhiên và cấu trúc lôgic của tài liệu, và
cũng có thể chia quá trình phân tích ảnh tài liệu làm hai phần tương ứng. Hình 1. 3 mô
tả các bước của một hệ thống phân tích ảnh tài liệu.
1.2.1. Bố cục tự nhiên và cấu trúc lôgic
Bố cục tự nhiên của ảnh tài liệu là đề cập đến hình bao và vị trí tự nhiên của các vùng
khác nhau trong ảnh tài liệu. Phân tích bố cục tự nhiên là quá trình phân ly ảnh tài
liệu thành các dãy các vùng đồng nhất, như: hình ảnh, khối văn bản, dòng văn bản, từ,
ký tự,… Có hai hướng tiếp cận chính để phân tích bố cục:
 Hướng tiếp cận bottom-up (dưới-lên): bắt đầu từ các thành phần nhỏ nhất của tài
liệu (như điểm ảnh, thành phần liên thông), lặp đi lặp lại quá trình gom nhóm
chúng thành các khối đồng nhất lớn hơn.
 Ngược lại, hướng tiếp cận top-down (trên-xuống) lại bắt đầu từ cả trang ảnh tài
liệu, cố gắng chia nó thành các vùng nhỏ hơn.
Mỗi cách tiếp cận đều có ưu/nhược điểm riêng và làm việc tốt trong những trường hợp
nhất định, tuỳ thuộc vào từng bài toán cụ thể mà chọn phương pháp thích hợp. Ngoài
ra một số tác giả còn đề xuất các hướng tiếp cận lai, sử dụng cả hai cách tiếp cận ở
trên.
Ngoài bố cục tự nhiên, các tài liệu còn chứa các thông tin bổ xung về nội dung của nó
như: nhan đề, tiêu đề,… Mặt khác, mỗi tài liệu có các thứ tự đọc khác nhau (như: các
ngôn ngữ Ả Rập đọc từ trái qua phải, tiếng Trung Quốc lại đọc từ trên xuống dưới,…),
giúp cho việc hiểu tài liệu dễ dàng hơn. Một tập các thực thể lôgic hoặc chức năng
trong tài liệu, với các quan hệ bên trong của nó được hiểu là cấu trúc lôgic của tài liệu.
-15-
Phân tích cấu trúc lôgic là việc biểu diễn kết quả của phân tích cấu trúc bố cục. Tuy
nhiên trong nhiều tài liệu phức tạp, phân tích bố cục cũng cần một số thông tin lôgic
để việc phân đoạn được chính xác.


Hình 1. 3 Sơ đồ hệ thống phân tích bố cục và cấu trúc ảnh tài liệu
1.2.2. Phân loại ảnh tài liệu
Dựa trên mức độ phụ thuộc của tài liệu vào bố cục tự nhiên hay cấu trúc lôgic, người
ta chia làm 4 loại ảnh tài liệu (Hình 1. 4) [6]:
Loại 1: Quá phụ thuộc vào bố cục tự nhiên. Vị trí, độ dài của các trường dữ liệu là
được ấn định trước. Ví dụ như các biễu mẫu ứng dụng, ngân phiếu, danh sách câu
hỏi,…
Loại 2: Phụ thuộc vào cấu trúc lôgic hơn là bố cục tự nhiên. Cụ thể, vị trí của mỗi
trường có thể di chuyển lên/xuống hoặc sang trái/phải từ vị trí bình thường so với các
trường có liên quan hoặc các trường trước đó. Ví dụ như thẻ danh mục, thư từ, danh
thiếp.
Loại 3: Phụ thuộc vào bố cục tự nhiên như loại 1, nhưng cấu trúc phức tạp hơn (các
trường phân cấp hoặc lặp đi lặp lại) hoặc bố cục được hướng dẫn bởi các yếu tố khác
(ví dụ như các đoạn thẳng, các vùng trống,…). Vị trí, độ dài mỗi trường là gần như cố
định. Ví dụ như bảng biểu.
Loại 4: Vị trí và độ dài của các trường phụ thuộc vào mối quan hệ của các trường. Nói
chung, mặc dù cấu trúc chung của tài liệu là đã được định nghĩa trước bởi bố cục tự
Nhị phân
ảnh
Ảnh
tài liệu
Chỉnh
độ nghiêng
Xoá nhiễu
Phân tích
cấu trúc
Tài liệu
đã phân
đoạn
Phân tích

bố cục
Đánh giá
hiệu năng
Tập mẫu
Tiền xử lý ảnh
Phân tích ảnh
-16-
nhiên, nhưng cấu trúc thực tế lại phụ thuộc vào mối quan hệ giữa các trường. Cụ thể,
loại này liên quan đến bố cục tự nhiên của toàn bộ tài liệu, cũng như cấu trúc lôgic về
vị trí và hình dạng. Ví dụ như các trang báo, các bài báo.

Hình 1. 4 Các loại ảnh tài liệu
1.3. Phân tích bố cục
Mục đích chính của phân tích bố cục tự nhiên của ảnh tài liệu (sau đây gọi tắt là phân
tích bố cục) là xác định các vùng “tự nhiên” khác nhau trong tài liệu và các đặc trưng
của nó. Sự phân chia các vùng này là được dựa trên tính đồng nhất của chúng, một
vùng tối đa trong ảnh tài liệu là miền đồng nhất tối đa của ảnh tài liệu. Thuộc tính của
tính đồng nhất được dùng để phân loại các vùng, chẳng hạn như: khối văn bản, hình
ảnh, đồ họa, dòng văn bản, từ,… Các vùng này không loại trừ lẫn nhau và một vùng có
thể chứa nhiều vùng không cùng loại bên trong nó.
Các bước của phân tích bố cục bao gồm:
 Phân đoạn vùng: Là việc chia một hình ảnh tài liệu thành các vùng thành phần,
khi mà thuộc tính của tính đồng nhất không còn thoả mãn nữa. Tính đồng nhất
thường được định nghĩa dựa trên một vectơ tham số, , có vai trò quan trọng
trong sự thành công của thuật toán. Điều này cũng đúng cho phương pháp tiếp
cận từ dưới lên, khi chúng ta cố gắng để nhóm các thành phần nhỏ hơn vào các
vùng. Tính toán vectơ tham số, , hoạt động tốt cho tất cả các tài liệu thường là
điều không thể. Các phương pháp hiện nay cố gắng điều chỉnh các thông số dựa
trên thông tin phản hồi từ các bước xử lý phía sau như nhận dạng ký tự.
biểu mẫu ứng dụng,

ngân phiếu,
danh sách câu hỏi,…
[Loại 1]
bảng biểu,…
[Loại 3]
thẻ danh mục,
thư từ,
danh thiếp,…
[Loại 2]
trang báo,
bài báo, …
[Loại 4]
Bố cục
tự nhiên
Cấu trúc lôgic
-17-
 Phân loại vùng: Là việc quyết định xem các vùng đã phân đoạn được thuộc loại
nào. Bài toán điển hình là phân loại các vùng vào khối văn bản hay hình ảnh và
nhận ra đâu là các đối tượng đồ hoạ, đâu là các bảng biểu. Phân loại vùng là điều
kiện kiên quyết để xử lý nhiều loại vùng, vì mỗi loại vùng thì có các đặc trưng
khác nhau nên cần các thuật toán khác nhau để xử lý.
Có rất nhiều thuật toán đã được đề xuất để thực hiện phân tích bố cục của ảnh tài liệu.
Bây giờ chúng ta sẽ xem xét một số thuật toán phổ biến để minh họa cho các hướng
tiếp cận ở trên.
1.3.1. Hướng tiếp cận trên-xuống

Hình 1. 5 Hình chiếu ngang và dọc của ảnh tài liệu
Một kỹ thuật cơ bản của hướng tiếp cận trên-xuống là sử dụng hình chiếu theo phương
ngang và dọc để chia ảnh tài liệu đầu vào thành các vùng nhỏ hơn. Ví dụ điển hình của
kỹ thuật này là thuật toán X-Y Cut [7], bắt đầu chia ảnh tài liệu thành các phần dựa vào

các khe lõm của các hình chiếu (Hình 1. 5). Thuật toán lặp đi lặp lại với các phần của
tài liệu bằng cách chiếu lần lượt các vùng của phân đoạn hiện thời lên các trục ngang
và dọc. Quá trình phân tách dừng khi bề rộng của khe lõm nhỏ hơn một ngưỡng đã
được xác định từ trước. Các kỹ thuật dựa trên hình chiếu là cực kỳ nhạy với độ
nghiêng của ảnh. Chỉ cần ảnh bị nghiêng với một góc nhỏ là có thể thay đổi hoàn toàn
bản chất của hình chiếu, kết quả là khe lõm không còn được rõ ràng nữa. Do đó phải
đặc biệt chú ý đến khâu quét tài liệu hoặc sử dụng một thuật toán chỉnh nghiêng ảnh
đáng tin cậy trước khi tiến hành phân đoạn.
Một kỹ thuật khác của hướng tiếp cận này là dựa vào hình học để phân tích cấu trúc
nền của ảnh tài liệu. Ý tưởng chính của kỹ thuật này là cố gắng tìm một tập hợp các
-18-
hình chữ nhật lớn nhất có thể sao cho không chứa bất kỳ điểm ảnh nào của đối tượng
(chỉ chứa nền). Các hình chữ nhật này chia ảnh tài liệu thành các vùng có chứa văn
bản, hình ảnh hoặc đồ hoạ. Tiếp đó là sử dụng một thuật toán phân lớp để phân loại
các vùng này trước khi chuyển sang bước tiếp theo. Phương pháp này hiệu quả và
chính xác với các tài liệu có nền mầu trắng và các vùng được bố cục dưới dạng hình
chữ nhật (manthatan). Ví dụ như thuật toán bao phủ hình dạng định hướng của Baird
[8] và phân đoạn dựa trên dòng trắng của Pavlidis và Zhou [9]. Tuy nhiên các thuật
toán này cài đặt rất phức tạp do phải miêu tả các kết quả trung gian và các trường hợp
đặc biệt cần được xử lý. Thuật toán khoảng trắng bao phủ (whitespace) của Breuel
[10] là một biến thể hiệu quả của ý tưởng tương tự sử dụng nguyên lý hình học, khi đã
bỏ đi các trường hợp đặc biệt (Hình 1. 6).

Hình 1. 6 Thuật toán whitespace
1.3.2. Hướng tiếp cận dưới-lên
Hướng tiếp cận dưới-lên sử dụng các thành phần nguyên thuỷ để bắt đầu quá trình
gom nhóm. Thuật toán Docstrum của O’Gorman [11], coi một tập hợp các thành phân
liên thông trong ảnh tài liệu như là các thành phần nguyên thuỷ. Các nhiễu lớn hoặc
các thành phần không phải là văn bản được loại bỏ khỏi tập này. K láng giềng gần nhất
của mỗi thành phần được xác định và các dòng văn bản được tạo thành dựa trên một

ngưỡng của góc giữa tâm các thành phần. Biểu đồ khoảng cách giữa các thành phần là
được sử dụng để xác định khoảng cách giữa các ký tự trong từ và giữa các từ. Khoảng
các giữa các thành phần liên thông trong dòng và giữa các dòng được tính toán để tạo
thành các dòng và các khối văn bản. Thuật toán có một tập các tham số được thiết lập
bởi các thí nghiệm trên một các tài liệu. Thuật toán thực hiện tốt với nhiều bố cục của
-19-
các văn bản tiếng Anh. Hình 1. 7 cho chúng ta thấy thuật toán xử lý tốt các phông chữ
với kích cỡ và kiểu khác nhau, và có bố cục tương đối phức tạp.

Hình 1. 7 Thuật toán Docstrum
Thuật toán dựa trên biển đồ Voronoi của Kise [12] là một phương pháp hiệu quả khác
bằng cách gom nhóm các thành phân liên thông trong một trang. Bắt đầu với việc tính
toán một lưới tổ ong Voronoi của ảnh tài liệu. Đồ thị láng giềng của các thành phần
liên thông là được tính toán từ sơ đồ Voronoi. Sau đó, thuật toán sử dụng một ngưỡng
dựa trên diện tích và khoảng cách giữa các thành phần liền kề trong biểu đồ Voronoi
để quyết định đường bao của vùng. Dòng văn bản được xác định dựa trên một ngưỡng
được tính toán từ khoảng các giữa các thành phần bên trong đồ thị láng giềng của nó.
Các kết quả thu được có độ chính xác cao và rất đáng tin cậy trên các tài liệu có nền
trắng, khi mà các thành phần liên thông được xác định một cách đáng tin cậy. Cũng
giống như Docstrum, thuật toán dựa trên Voronoi có thể xử lý các bố cục phức tạp và
thực hiện tốt trên hầu hết các văn bản bằng tiếng Anh (Hình 1. 8).
1.4. Phân tích cấu trúc
Cấu trúc lôgic của ảnh tài liệu là một ánh xạ từ các vùng tự nhiên trong tài liệu đến các
nhãn lôgic của chúng. Phân tích cấu trúc lôgic của ảnh tài liệu (sau đây gọi tách là
phân tích cấu trúc) là quá trình gán các nhãn lôgic cho các vùng tự nhiên đã xác định ở
bước phân tích bố cục. Các nhãn lôgic bao gồm tiêu đề, đoạn tóm tắt, tiêu đề con, đoạn
văn, câu, từ, đầu trang, cuối trang, chú thích, số trang,…
Một trong các hướng tiếp cận phổ biến để xác định cấu trúc lôgic của tài lại là coi tập
các vùng trong tài liệu như là một chuỗi các ký hiệu. Một ngữ pháp định nghĩa thông
qua các ký hiệu này để miêu tả cấu trúc lôgic của một tài liệu bất kỳ được xem xét.

Sau đó, quá trình phân tích cấu trúc sẽ tìm một phân tích cú pháp có khả năng nhất
(một tập các quy tắc ngữ pháp) được tạo ra từ chuỗi các ký hiệu được quan sát. Vấn đề
phát sinh là khi có nhiều phân tích cú pháp tương ứng với một tài liệu xác định và
chúng ta phải quyết định chọn phân tích cú pháp nào. Các quy tắc ngữ pháp được tăng
-20-
cường thêm các thuộc tính của các vùng và các mối quan hệ của chúng để thích ứng
với tình trạng này. Phân tích cú pháp có khả năng nhất có thể được định nghĩa bằng
cách sử dụng một hàm chi phí được đưa vào các tính toán và các giá trị thuộc tính.
Hoặc cũng có thể sử dụng một ngữ pháp sác xuất ngẫu nhiên, mà có thể cung cấp một
giá trị có khả năng cho phân tích cú pháp, tuỳ thuộc vào các luật sử dụng và các thuộc
tính cuối cùng. Các luật của ngữ pháp xác suất ngẫu nhiên cũng có thể chứa xác suất
liên kết với nó, mà có thể được sử dụng để xác định phân tích cú pháp có khả năng
nhất, cùng với các thuộc tính của vùng.

Hình 1. 8 Thuật toán Voronoi
Hướng tiếp cận thứ hai là áp dụng sự hiểu biết về cấu trúc và bố cục dựa trên kết quả
nhận dạng ký tự quang học và nhận dạng các đối tượng đồ hoạ của tài liệu. Các tiếp
cận này giả định rằng đã xác định chính xác bố cục của các vùng văn bản, và sau đó
được nhận dạng bằng một thuật toán nhận dạng ký tự quang học. Các tiếp cận này là
rất mạnh mẽ, vì nó sử dụng chính nội dung của văn bản để quyết định chức năng của
nó, mà điều này không có trong phương pháp ở trên. Ví dụ, hướng tiếp cận dựa trên
nhận dạng ký tự quang học có thể sử dụng các từ trong dòng văn bản gần với một hình
ảnh để quyết định xem nó có phải là một chú thích hay không.
1.5. Kết luận chương
Trong chương này, luận văn đã trình bầy một cách tổng quan về hệ thống phân tích và
nhận dạng ảnh tài liệu, đặc biệt là bước phân tích ảnh tài liệu. Phân biệt sự khác nhau
giữa bố cục tự nhiên và cấu trúc lôgic, giới thiệu các hướng tiếp cận và một số thuật
toán trong phân tích bố cục và cấu trúc của ảnh tài liệu. Trong chương tiếp theo sẽ
trình bầy một số thuật toán tiền xử lý ảnh thường được sử dụng trong phân tích ảnh tài
liệu.

-21-
Chương 2: Một số thuật toán tiền xử lý ảnh
Đầu vào của các hệ thống xử lý ảnh thường là các tệp ảnh được thu nhận từ các thiết bị
như: máy quét, máy ảnh, thiết bị ghi hình hay các thiết bị thu nhận hình ảnh khác. Các
ảnh này thường có chất lượng thấp (bị lẫn các nhiễu, mất các chi tiết của đối tượng,
hay bị lệch so với ảnh gốc một góc bất kỳ,…). Nguyên nhân là do: thiết bị thu nhận
không đảm bảo, điều kiện thu nhận không tốt (độ sáng thay đổi, thu nhận trong khi di
chuyển,…) hay quá trình sao lưu bị mất mát thông tin.
Để các bước xử lý tiếp theo thu được kết quả tốt cần phải có quá trình tiền xử lý để
nâng cao chất lượng ảnh đầu vào. Quá trình này bao gồm các công đoạn khôi phục và
tăng cường ảnh:
 Khôi phục ảnh nhằm mục đích loại bỏ hay giảm thiểu các ảnh hưởng của môi
trường tác động lên ảnh. Bao gồm các bước: lọc ảnh, khử nhiễu, xoay ảnh,…
nhằm giảm bớt các biến dạng của ảnh và đưa ảnh về trạng thái gần như ban đầu.
 Tăng cường ảnh không phải làm tăng lượng thông tin trong ảnh mà là làm nổi
bật các đặc trưng của ảnh giúp cho công việc phía sau được hiệu quả hơn. Công
đoạn này bao gồm các việc như: lọc độ tương phản, làm trơn ảnh, nhị phân
ảnh,…
Trong đó các thao tác nhị phân ảnh, căn chỉnh độ nghiêng và xóa nhiễu là các thao tác
cơ bản nhất và thường được áp dụng. Trong các phần tiếp theo của chương này sẽ
trình bầy một số thuật toán trong các thao tác đó.
2.1. Nhị phân ảnh
Ảnh nhận được từ các thiết bị thu nhận hình ảnh như máy ảnh hay camera thường là
ảnh mầu hay ảnh đa cấp xám, các thành phần trong ảnh là rất phức tạp (mầu sắc, kết
cấu…). Do đó muốn làm nổi bật các đặc trưng trong ảnh thì phải chuyển về dạng ảnh
nhị phân, ảnh chỉ có hai mầu (đen và trắng) – tương ứng với nền và tiền cảnh (đối
tượng “quan tâm”). Nhị phân ảnh (hay còn gọi là phân ngưỡng) là thao tác chuyển từ
ảnh đa cấp xám (hoặc ảnh mầu) về ảnh nhị phân (Thuật toán 2.1).
Thuật toán 2.1. Nhị phân ảnh
INPUT: Ảnh mầu hoặc ảnh đa cấp xám

OUTPUT: Ảnh nhị phân
1. Xác định ngưỡng T
2. Chuyển ảnh về dạng nhị phân

-22-
Như vậy, cơ bản của thuật toán nhị phân ảnh là xác định một ngưỡng T để phân tách
giữa nền và đối tượng trong ảnh. Giả sử với ảnh đầu vào I(x, y), có giá trị tại điểm (x,
y) là g(x, y) (đối với ảnh đa cấp xám: g(x, y)  [0, 255]). Khi đó giá trị của điểm ảnh
(x, y) trong ảnh nhị phân I'(x, y) sẽ được xác định như sau:









Tyxguên
Tyxguên
yxg
),(1
),(0
),(

Việc xác định một ngưỡng T thích hợp luôn là một quá trình khó khăn và dễ gây ra lỗi
(Hình 2. 1). Điều này sẽ đặc biệt khó khăn khi độ tương phản giữa các đối tượng và
nền thấp hay khi ảnh có độ chiếu sáng không đồng đều khi thu nhận. Nếu ngưỡng T
quá thấp thì các đối tượng thu được có thể bị xóa mất các chi tiết của ảnh, ngược lại
nếu ngưỡng T quá cao thì có thể chứa các điểm ảnh nhiễu.


Hình 2. 1 Nhị phân ảnh
Có rất nhiều phương pháp để xác định ngưỡng phân tách T. Ngưỡng T có thể được xác
định cho toàn bộ ảnh (ngưỡng tổng quát) hay được xác định cho mỗi điểm ảnh cụ thể
-23-
(ngưỡng cục bộ). Trong phần tiếp theo sẽ phân loại và giới thiệu một số phương pháp
xác định ngưỡng T.
2.1.1. Phân loại các phương pháp xác định ngưỡng T
Căn cứ vào phương pháp được áp dụng, có thể chia ra làm 6 nhóm sau [13]:
1. Các phương pháp dựa vào hình dạng của histogram (Histogram Shape-
Based Thresholding Methods). Căn cứ vào hình dáng của histogram như: các
đỉnh, các khe và độ cong (peaks, valleys and curvatures) để xác định ngưỡng. Vị
trí lấy ngưỡng có thể là khe lõm nhất giữa hai đỉnh hay điểm cách xa đường
thẳng nối hai đỉnh.
2. Các phương pháp dựa vào việc chia nhóm (Clustering-Based Thresholding
Methods). Các phương pháp loại này cố gắng chia ảnh ra làm hai nhóm tương
ứng với nền và đối tượng dựa trên một số tiêu trí đánh giá “khoảng cách” giữa
hai nhóm hay giữa các phần tử trong mỗi nhóm.
3. Các phương pháp dựa vào entropy (Entropy-Based Thresholding Methods).
Trong kỹ thuật này người ta chọn ngưỡng dựa vào entropy dựa trên một số cơ sở
như: cực đại các entropy (nền và đối tượng), cực tiểu các entropy lai (giữa ảnh
gốc và ảnh nhị phân) hay độ đo entropy mờ.
4. Các phương pháp dựa vào thuộc tính giống nhau (Thresholding Based on
Attribute Similarity). Ngưỡng được xác định dựa độ đo các thuộc tính giống
nhau của ảnh gốc và ảnh nhị phân, chẳng hạn như căn cứ vào các cạnh thỏa mãn,
độ chặt của hình dáng, momen mức xám, khả năng liên kết, kết cấu,…
5. Các phương pháp căn cứ vào không gian (Spatial Thresholding Methods). Sử
dụng sự tương liên hoặc/và phân phối thông kê bậc cao giữa các pixel để chọn
ngưỡng.
6. Các phương pháp ngưỡng thích ứng cục bộ (Locally Adaptive Thresholding).

Kỹ thuật này sẽ xác định ngưỡng t(x, y) cho từng điểm ảnh (x, y) riêng biệt căn
cứ vào mối tương quan giữa điểm ảnh đó và các láng giềng của nó.
2.1.2. Một số phương pháp xác định ngưỡng T
Trong phần này sẽ trình bầy hai phương pháp thường được sử dụng để xác định
ngưỡng nhị phân T. Phương pháp Niblack xác định ngưỡng T cho mỗi điểm ảnh riêng
biệt, trong khi phương pháp Otsu ngưỡng T được xác định cho toàn bộ ảnh.
1/. Phương pháp Niblack
Đây là phương pháp xác định ngưỡng cục bộ dựa trên việc tính toán giá trị trung bình
và độ lệch chuẩn cục bộ. Thuật toán được mô tả như sau:
Thuật toán 2.2. Phương pháp phân ngưỡng Niblack
-24-
INPUT: Giá trị mức xám của các điểm ảnh g(x, y)
OUTPUT: Ngưỡng nhị phân cho mỗi điểm ảnh T(x, y)
Duyệt tất cả các điểm ảnh:
1. Xác định cửa sổ (w × w) bao quanh
2. Tính giá trị trung bình m(x, y)
3. Tính độ lệch chuẩn σ(x, y)
4. Xác định ngưỡng T(x, y)

Với mỗi điểm ảnh, xác định một cửa sổ kích thước (w × w) bao quanh nó. Giá trị
ngưỡng được tính toán dựa trên giá trị trung bình và độ lệch chuẩn trong cửa sổ đó.
Với điểm ảnh ở vị trí (x, y) giá trị ngưỡng được xác định như sau [14]:
),(.),(),( yxkyxmyxT



Trong đó: m(x, y) và σ(x, y) tương ứng là giá trị trung bình và độ lệch chuẩn cục bộ
trong cửa sổ (w × w) với tâm ở vị trí (x, y), và được xác định như sau:
 
 






2
2
2
2
2
,
1
),(
w
x
w
xi
w
y
w
yj
jig
w
yxm

     
 






2
2
2
2
22
2
2
,,
1
,
w
x
w
xi
w
y
w
yj
yxmjig
w
yx


k là tham số dùng để xác định đường biên của đối tượng chiếm bao nhiêu phần trong
đối tượng trả về. Kích thước của cửa sổ phải đủ nhỏ để giữ lại các chi tiết và cũng phải
đủ lớn để khử các điểm nhiễu. Theo [13] thì tham số k = -0.2, kích thước của sổ w =
15.
Cơ bản dựa trên phương pháp của Niblack, Sauvola đưa ra công thức xác định ngưỡng

như sau [15]:
   
 












 1
,
1,,
R
yx
kyxmyxT


Trong đó: R là giá trị lớn nhất của độ lệch chuẩn (với ảnh đa cấp xám: R = 128), k là
tham số nằm trong khoảng [0.2, 0.5], m(x, y) và σ(x, y) là giá trị đáp ứng các mức
ngưỡng khác nhau tùy theo các điểm lân cận. Với một vài vùng ảnh có độ tương phản
cao thì σ(x, y) ≈ R, khi đó T(x, y) ≈ m(x, y). Kết quả này giống như phương pháp
-25-
Niblack. Trong trường hợp T(x, y) nhỏ hơn giá trị trung bình thì sẽ xóa đi một vài vùng
tối của nền. Tham số k dùng để điểu chỉnh giá trị ngưỡng so với giá trị trung bình m(x,

y) (lớn hơn hay nhỏ hơn một tỷ lệ k).
Như vậy ngưỡng của mỗi điểm ảnh được xác định dựa trên việc đánh giá giá trị của
các điểm ảnh lân cận với nó, do đó rất thích hợp cho những ảnh có độ sáng thay đổi (ví
dụ như ảnh chụp từ camera). Nhưng thời gian tính toán là rất chậm, tùy thuộc vào kích
thước của cửa sổ.
2/. Phương pháp Otsu
Đây là phương pháp xác định ngưỡng cho toàn bộ ảnh. Phương pháp này sẽ tìm một
ngưỡng để phân chia các điểm ảnh vào hai lớp tiền cảnh (đối tượng) và nền. Giá trị
ngưỡng được xác định sao cho “khoảng cách” giữa các điểm ảnh trong mỗi lớp là nhỏ
nhất, điều này tương đương với khoảng giữa hai lớp là lớn nhất. Việc phân chia này
dựa trên các giá trị trong histogram của ảnh. Các bước để xác định ngưỡng
Otsu
t
của
ảnh được tiến hành như sau:
Thuật toán 2.3. Phương pháp phân ngưỡng Otsu
INPUT: Ảnh đa cấp xám
OUTPUT: Ngưỡng nhị phân cho toàn bộ ảnh:
Otsu
t

1. Tính histogram của ảnh: {p
i
}
2. Duyệt tất cả mức xám của ảnh: t
a. Tính lũy tích cho nền
t
B
P
và tiền cảnh

t
F
P

b. Tính trị số trung bình của nền
t
B

và tiền cảnh
t
F


c. Tính độ lệch chuẩn của nền
t
B

và tiền cảnh
t
F


d. Xác định hàm khảng cách:
t
classbetween
var
hoặc
t
classwithin
var


e. Ngưỡng
Otsu
t
là đối số để hàm
t
classbetween
var
lớn nhất
Hoặc hàm
t
classwithin
var
đạt giá trị nhỏ nhất

Với ảnh đầu vào là ảnh đa cấp xám, mỗi điểm ảnh có giá trị cường độ nằm trong
khoảng [0, L] (L= 255). Giả định rằng {p
i
} (i = [0, L-1]) là lược đồ mức xám của ảnh
– tỷ số giữa số lượng điểm ảnh có mức xám i so với toàn bộ ảnh và t là giá trị mức
xám của ngưỡng lựa chọn. Sử dụng F và B để ký hiệu cho lớp tiền cảnh và nền, khi đó
việc tính toán xác suất nền và tiền cảnh bởi ngưỡng t được xác định bởi các hàm sau
[16]:
Hàm lũy tích của tiền cảnh và nền:
-26-



t
i

i
t
B
pP
0





1
1
1
L
ti
i
t
B
t
F
pPP

Giá trị trung bình của tiền cảnh và nền:












t
i
i
t
B
t
B
pi
P
0
1














1

1
1
L
ti
i
t
F
t
F
pi
P


Độ lệch chuẩn của tiền cảnh và nền:
 












t
i
i

t
B
t
B
t
B
pi
P
0
2
1


 













1
1
2

1
L
ti
i
t
F
t
F
t
F
pi
P


Từ đó ta xác định được khoảng cách giữa hai lớp và khảng cách của lớp trong như sau:
   
 
2
22
var
t
F
t
B
t
F
t
B
t
F

t
F
t
B
t
B
t
classbetween
PP
PP






t
F
t
F
t
B
t
B
t
clas swithin
PP




var

Trong đó:




1
0
L
i
i
pi

là giá trị trung bình của toàn ảnh.
Khi đó ngưỡng
Otsu
t
được xác định là đối số để hàm
t
classbetween
var
đạt giá trị lớn nhất
hoặc hàm
t
classwithin
var
đạt giá trị nhỏ nhất:
  
  

t
classwithinLt
t
classbetweenLtOtsu
t




varminarg
varmaxarg
1
1

Đây là phương pháp được sử dụng phổ biến trong xử lý ảnh vì nó phân đoạn và làm
nổi bật ảnh khá tốt. Tuy nhiên phương pháp này sẽ thất bại khi số điểm ảnh tiền cảnh
nhỏ hơn 5%.
2.1.3. Nhận xét
Nhị phân ảnh là một thao tác cơ bản để phân tách giữa nền và đối tượng. Trong đó
việc xác định ngưỡng nhị phân là thao tác quan trọng và khó khăn nhất. Có thể xác
định ngưỡng cho toàn bộ ảnh (phương pháp Otsu) hay xác định ngưỡng cho từng điểm
ảnh riêng biệt (phương pháp Niblack) tùy vào yêu cầu của bài toán và tích chất ảnh
đầu vào.
Hình 2. 2 và Hình 2. 3 mô tả kết quả phân ngưỡng của hai phương pháp trên hai ảnh
có tính chất khác nhau. Hình 2. 2 ảnh có độ chiếu sáng thay đổi, ta thấy phương pháp
Niblack cho kết quả tốt hơn phương pháp Otsu. Trong khi Hình 2. 3 kết quả của

×