Số hóa bởi Trung tâm Học liệu
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐOÀN DUY THƢỜNG
NGHIÊN CỨU PHƢƠNG PHÁP PHÂN TÍCH CẤU TRÚC ẢNH MÀU,
ỨNG DỤNG TRONG NHẬN DẠNG CHỨNG MINH NHÂN DÂN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN- 2014
Số hóa bởi Trung tâm Học liệu
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐOÀN DUY THƢỜNG
NGHIÊN CỨU PHƢƠNG PHÁP PHÂN TÍCH CẤU TRÚC ẢNH MÀU,
ỨNG DỤNG TRONG NHẬN DẠNG CHỨNG MINH NHÂN DÂN
Chuyên ngành : Khoa học máy tính
Mã số: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Nguyễn Thị Thanh Tân
THÁI NGUYÊN - 2014
i
Số hóa bởi Trung tâm Học liệu
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và hoàn
thành dƣới sự hƣớng dẫn khoa học của TS. Nguyễn Thị Thanh Tân.
Nếu có gì vi phạm tôi xin hoàn toàn chịu trách nhiệm.
Học viên thực hiện luận văn
Đoàn Duy Thƣờng
ii
Số hóa bởi Trung tâm Học liệu
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành nhất tới TS. Nguyễn Thị Thanh Tân vì
đã có những chỉ dẫn, động viên quý báu trong suốt quá trình thực hiện luận
văn của tôi. Đồng thời tôi xin chân thành cảm ơn các thầy cô giáo trong Ban
giám hiệu, phòng Đào tạo, các thầy cô giáo của trƣờng Đại học Công nghệ
Thông tin và Truyền thông - Đại học Thái Nguyên cùng các thầy cô giáo
trong Viện Công nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam đã
quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy và hƣớng dẫn tôi trong
suốt quá trình học tập và hoàn thiện luận văn.
Cuối cùng tôi xin cảm ơn mọi sự giúp đỡ từ ngƣời thân, đồng nghiệp
những ngƣời đã luôn ủng hộ, hỗ trợ tôi trong suốt quá trình thực hiện luận văn
của mình.
Mặc dù đã có nhiều cố gắng, tuy nhiên luận văn của tôi không thể tránh
khỏi những thiếu sót, do đó tôi rất mong nhận đƣợc những ý kiến đánh giá, bổ
sung để tôi có thể hoàn thiện luận văn của mình./.
Thái Nguyên, ngày tháng năm 2014
Tác giả
Đoàn Duy Thƣờng
iii
Số hóa bởi Trung tâm Học liệu
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT vi
DANH MỤC BẢNG BIỂU ix
DANH MỤC THUẬT TOÁN x
PHẦN MỞ ĐẦU 1
1. Đặt vấn đề 1
2. Mục tiêu của luận văn 2
3. Tính cấp thiết của luận văn. 2
4. Bố cục của luận văn. 3
CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ BÀI TOÁN
PHÂN TÍCH CẤU TRÚC 4
1.1. Tổng quan về nhận dạng văn bản 5
1.2. Bài toán phân tích cấu trúc trang 7
1.2.1 Giới thiệu chung 7
1.2.2. Một số kỹ thuật tiền xử lý trong phân tích cấu trúc trang ảnh 10
1.2.2.1. Nhị phân ảnh 10
1.2.2.2. Căn chỉnh độ nghiêng trang ảnh 13
1.2.2.3. Lọc nhiễu 14
1.2.2.4. Tách nền 16
1.2.2.5. Các toán tử hình thái 16
iv
Số hóa bởi Trung tâm Học liệu
1.2.3. Một số hƣớng tiếp cận trong phân tích cấu trúc trang văn bản 19
1.3. Kết luận 20
CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG
TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƢỜNG THÔNG TIN TRÊN
ẢNH TÀI LIỆU 21
2.1. Kỹ thuật X-Y Cut 21
2.2. Kỹ thuật Smearing 23
2.3. Kỹ thuật Whitespace 26
2.4. Kỹ thuật Docstrum 27
2.5. Kỹ thuật dựa trên lƣợc đồ Voronoi 29
2.6. Kỹ thuật phát hiện các ràng buộc trên dòng văn bản 32
2.7. Kỹ thuật phân tích cấu trúc ảnh tài liệu 33
2.7.1. Đặc trƣng của ảnh tài liệu cần nhận dạng 33
2.7.2. Phát hiện trƣờng số trong ảnh 35
2.7.2.1. Xác định vùng có thể là trƣờng số của ảnh 36
2.7.2.2. Tìm và tách trƣờng số 37
2.7.2.3. Phân đoạn vùng số 38
2.7.3. Phân tích cấu trúc bảng 40
2.7.4. Tách các trƣờng thông tin còn lại 42
2.7.4.1. Tách các đối tƣợng thuộc mỗi dòng 44
2.7.4.2. Xóa tiêu đề 45
2.7.4.3. Lấy lại các ký tự bị mất 47
2.8. Kết luận 48
v
Số hóa bởi Trung tâm Học liệu
CHƢƠNG 3: CHƢƠNG TRÌNH ỨNG DỤNG 50
3.1. Mô tả bài toán 50
3.2. Phân tích, cài đặt chƣơng trình thử nghiệm 51
3.2.1. Tiền xử lý ảnh mặt trƣớc CMND 54
3.2.2. Tiền xử lý ảnh mặt sau CMND 62
3.2.3. Các độ đo đánh giá hiệu quả của phƣơng pháp 63
3.2.4. Dữ liệu thử nghiệm 64
3.3. Kết quả thực nghiệm 65
3.4. Kết luận 66
PHẦN KẾT LUẬN 68
DANH MỤC TÀI LIỆU THAM KHẢO 69
vi
Số hóa bởi Trung tâm Học liệu
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT
OCR
Optical Character Recognition
CMND
Chứng minh nhân dân
RLSA
The run-length smearing algorithm
vii
Số hóa bởi Trung tâm Học liệu
DANH MỤC HÌNH VẼ
Hình 1. 1. Thu nhận ảnh tài liệu 5
Hình 1. 2. Quy trình chung của một hệ thống OCR 6
Hình 1. 3. Một số tài liệu có cấu trúc phức tạp 7
Hình 1.4. Quy trình phân tích cấu trúc trang ảnh 8
Hình 1. 5. b- Cấu trúc vật lý; c,d - Cấu trúc logic của một tài liệu 10
Hình 1.6. Phần tử cấu trúc 3 3 17
Hình 1.7. Phép giãn ảnh với phần tử cấu trúc 3x3 18
Hình 1.8. Phép co ảnh với phần tử cấu trúc 3x3 18
Hình 2. 1. a) Ảnh gốc b) Kết quả thực hiện của thuật toán X-Y Cut 23
Hình 2. 2. Kết quả thực hiện của kỹ thuật Smearing 25
Hình 2. 3. Tài liệu ảnh trƣớc khi xử lý Tài liệu ảnh sau khi đƣợc xử lý 27
Hình 2. 4. Xác định các thành phần liên thông, trọng tâm của các dòng 28
Hình 2. 5. Sơ đồ Voronoi 30
Hình 2. 6. Kết quả thực hiện của kỹ thuật sử dụng lƣợc đồ Voronoi 30
Hình 2. 7. Mẫu “Giấy Chứng minh nhân dân” 34
Hình 2. 8. Xác định vùng Số CMND 37
Hình 2. 9. Phân đoạn vùng số Chứng minh Nhân dân 39
Hình 2. 10. Xác định cấu trúc bảng 42
Hình 2. 11. Mặt nạ dòng mặt trƣớc 44
Hình 3. 1. Quy trình nhận dạng thông tin trên CMND 50
Hình 3. 2. Quy trình thực hiện của chƣơng trình thử nghiệm 51
viii
Số hóa bởi Trung tâm Học liệu
Hình 3. 3. Tiền xử lý ảnh mặt trƣớc CMND 55
Hình 3. 4. Nhị phân ảnh CMND 60
Hình 3. 5. Phƣơng pháp tia quay 61
Hình 3. 6. Ảnh CMND 65
Hình 3. 7. Một số trƣờng hợp khó phát hiện 66
ix
Số hóa bởi Trung tâm Học liệu
DANH MỤC BẢNG BIỂU
Bảng 1. 1. Bảng mã 4 màu 11
Bảng 2. 1. Thông tin mặt trƣớc CMND 34
Bảng 3.1. Kết quả thực nghiệm 66
x
Số hóa bởi Trung tâm Học liệu
DANH MỤC THUẬT TOÁN
Thuật toán 1. 1. Thuật toán chỉnh độ nghiêng 13
Thuật toán 1. 2. Thuật toán xoay ảnh 13
Thuật toán 2. 1. Thuật toán X-Y Cut cải tiến 22
Thuật toán 2. 2: Thuật toán RLSA 24
Thuật toán 2. 3. Thuật toán Whitespace 26
Thuật toán 2. 4: Thuật toán Dostrum 27
Thuật toán 2. 5. Thuật toán phân tích cấu trúc dựa trên lƣợc đồ Voronoi 31
Thuật toán 2. 6. Xác định các vùng có thể là Trƣờng Số CMND 36
Thuật toán 2. 7. Tìm và tách trƣờng Số CMND 38
Thuật toán 2. 8. Phân đoạn vùng Số CMND 39
Thuật toán 2. 9. Ƣớc lƣợng bề dày đƣờng lƣợn sóng 40
Thuật toán 2. 10. Xác định các đƣờng kẻ ngang trong bảng 41
Thuật toán 2. 11. Tách các ký tự thuộc mỗi dòng 45
Thuật toán 2. 12. Xoá phần tiêu đề 47
Thuật toán 3. 1. Thuật toán nhị phân ảnh Otsu 56
Thuật toán 3. 2. Thuật toán nhị phân ảnh Niblack 58
Thuật toán 3. 3. Thuật toán Sử dụng tia quay để xác định góc nghiêng 61
1
Số hóa bởi Trung tâm Học liệu
PHẦN MỞ ĐẦU
1. Đặt vấn đề
Nhận dạng mẫu là một ngành khoa học của học máy (hay trí tuệ nhân
tạo) nhằm phân loại dữ liệu (các mẫu) vào một số lớp[13]. Mẫu có thể là bất
kỳ thực thể nào cần đƣợc nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khuôn
mặt, tiếng nói, hình dạng… Cùng với sự phát triển của khoa học kỹ thuật,
các ứng dụng của nhận dạng mẫu ngày càng đƣợc mở rộng, từ việc tự động
hoá một số quy trình trong sản xuất công nghiệp cho đến dự báo thời tiết, dự
báo cháy rừng hay là một phần quan trọng trong các hệ thống máy tính
thông minh…
Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là
phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký
tự quang học), nhằm số hoá các trang tài liệu giấy nhƣ sách, báo, tạp chí…
Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã đƣợc giải quyết
gần nhƣ trọn vẹn và cũng đã có những sản phẩm thƣơng mại, nhƣ VnDOCR
của Viện công nghệ thông tin hay FineReader của hãng ABBYY…
Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách
tổng quát ở trên còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực
cụ thể, nhƣ: phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền
thông tin, danh thiếp, hộ chiếu,… Đối với lớp bài toán này thì việc phân tích
cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến
việc tách và nhận dạng chính xác các trƣờng thông tin cần thiết cho từng ứng
dụng cụ thể.
Trên thế giới đã có nhiều sản phẩm phần mềm phân tích và nhận dạng
ảnh thẻ chứa thông tin cá nhân (nhƣ hộ chiếu, danh thiếp…) và đƣợc ứng
dụng trong nhiều lĩnh vực, nhƣ: làm thủ tục hải quan, các giao dịch ở các cửa
2
Số hóa bởi Trung tâm Học liệu
hàng, khách sạn… Ở Việt Nam loại thẻ chứa thông tin cá nhân đƣợc sử dụng
nhiều nhất là Giấy chứng minh nhân dân (CMND). Do thông tin trên các
CMND đƣợc in thủ công từ các phôi có sẵn nên đôi khi định dạng không
chuẩn, các dòng chữ và các ký tự trên đó có thể xiên, vẹo, thậm chí
dính/chồng vào nhau. Bên cạnh đó, các CMND có thể bị mờ, ố theo thời gian.
Đây là những yếu tố gây khó khăn và làm giảm chất lƣợng của một hệ thống
nhận dạng đồng thời cũng là một trong số những nguyên do chính mà cho đến
hiện nay các sản phẩm nhận dạng CMND chƣa đáp ứng đƣợc nhu cầu tự động
hóa công việc nhập liệu thông tin trên CMND trong các hoạt động giao dịch
hàng ngày. Quy trình giải quyết bài toán nhận dạng thông tin trên CMNDbao
gồm 2 công đoạn chính. Công đoạn thứ nhất tập trung vào việc phân tích cấu
trúc, xác định và bóc tách các trƣờng thông tin cần nhận dạng trên CMND.
Công đoạn thứ hai là nhận dạng các vùng thông tin đã đƣợc bóc tách. Luận
văn tập trung nghiên cứu, giải quyết các vấn đề liên quan đến công đoạn thứ
nhất trong bài toán nhận dạng thông tin trên CMND.
2. Mục tiêu của luận văn
Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng,
phân đoạn,…) nói chung vàảnh CMND nói riêng nhằm phát hiện và bóc tách
các trƣờng thông tin cần nhận dạng trên CMND. Cài đặt thử nghiệm, kiểm
chứng lại kết quả mà luận văn đã nghiên cứu và từ kết quả nghiên cứu có
một sự chuẩn bị kiến thức đầy đủ cho bƣớc nghiên cứu tiếp theo.
3. Tính cấp thiết của luận văn.
Giải quyết đƣợc vấn đề về học thuật: Đề tài sẽ mang ý nghĩa cung cấp về
mặt lý thuyết để làm rõ về các phƣơng pháp phân tích ảnh CMND.
3
Số hóa bởi Trung tâm Học liệu
Đáp ứng đƣợc yêu cầu của thực tiễn: từ các lý thuyết đã đƣợc nghiên
cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào việc
phân tích ảnh CMND trong thực tế.
4. Bố cục của luận văn.
Các nội dung trình bày trong luận văn đƣợc chia thành 3 chƣơng.
Chƣơng 1 giới thiệu các vấn đề tổng quan nhận dạng văn bản và bài toán
phân tích cấu trúc trang ảnh tài liệu. Chƣơng 2 tập trung vào các kỹ thuật
phân tích cấu trúc, ứng dụng trong phát hiện và bóc tách các trƣờng thông tin
cần nhận dạng trên ảnh tài liệu (ảnh CMND).Chƣơng 3 trình bày quá trình
phân tích, thiết kế và cài đặt chƣơng trình thử nghiệm nhằm đánh giá hiệu quả
của phƣơng pháp trên các tập dữ liệu ảnh CMND đầu vào đƣợc thu thập từ
thực tế.
4
Số hóa bởi Trung tâm Học liệu
CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ
BÀI TOÁN PHÂN TÍCH CẤU TRÚC
Ngày nay, việc sử dụng máy tính để lƣu trữ tài liệu không còn là vấn đề
mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên
việc sử dụng giấy để lƣu trữ tài liệu trong một số mục đích vẫn chƣa thể thay
thế đƣợc nhƣ sách báo, công văn Hơn nữa, lƣợng tài liệu đƣợc tạo ra từ
nhiều năm trƣớc vẫn còn rất nhiều mà không thể bỏ đi đƣợc vì tính quan
trọng của chúng.
Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất
chúng chỉ trong một thiết bị lƣu trữ với kích thƣớc bằng một cuốn sách nhỏ,
tìm kiếm các thông tin mà chỉ cần tốn vài giây với một lần gõ phím Enter.
Vậy giải pháp là gì?
Thông thƣờng ngƣời ta sẽ phải thuê ngƣời cùng với việc tốn hàng tháng,
hàng năm mới có thể nhập vào máy tính đƣợc hết lƣợng tài liệu đó. Hiện nay
chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính
ngày càng siêu việt với tốc độ tính toán vƣợt cả tốc độ ánh sáng, vậy tại sao
chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn
bản một cách tự động?
Bằng cách đó, tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi
chi phí lại rất nhỏ. Vấn đề là khi quét vào máy tính chúng ta không thu đƣợc
ngay các dòng văn bản từ các trang tài liệu đó để có thể soạn thảo, sửa chữa
và tìm kiếm nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ là các tấm ảnh
của các trang văn bản, máy tính lại đối xử công bằng với mọi điểm ảnh, máy
tính không có “mắt” nhƣ chúng ta để biết đâu là điểm ảnh của chữ, đâu là
điểm ảnh của đối tƣợng đồ họa.
5
Số hóa bởi Trung tâm Học liệu
Một giải pháp đƣợc đặt ra đó là xây dựng các hệ thống nhận dạng văn
bản trong tấm ảnh chứa cả chữ và đối tƣợng đồ họa cần tách và chuyển chúng
thành trang văn bản để từ đó có thể mở và soạn thảođƣợc trên các chƣơng
trình soạn thảo văn bản.
1.1. Tổng quan vềnhận dạng văn bản
Hiện nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không
ngừng đƣợc nâng lên. Cùng với nó là sự ra đời của các phần mềm thông
minh đã làm cho máy tính ngày một gần gũi với con ngƣời hơn. Một trong
những ứng dụng thành công của lĩnh vực nhận dạng mẫu là nhận dạng chữ
in (nhận dạng ký tự quang học OCR -Optical Character Recognition). Nhận
dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một hay nhiều trang
ảnh chứa các thông tin văn bản thành tệp văn bản thực sự có thể soạn thảo
đƣợc trên máy tính.OCR có rất nhiều ứng dụng hữu ích trong cuộc sống
nhƣ:Sắp xếp thƣ tíndựa vào việc nhận dạng mã bƣu chính (Zipcode) hay
địa chỉ gửi tới, tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các
hồ sơ lao động, tự động kiểm tra, xác nhận chữ ký trong ngân hàng, tự
động xử lý các hóa đơn hay các yêu cầu thanh toán, nhập liệu tự động,
kiểm tra thông tin trên passport…
Hình 1. 1. Thu nhận ảnh tài liệu
6
Số hóa bởi Trung tâm Học liệu
Trang ảnh tài liệu đƣợc đề cập ở đây là các file ảnh số hoá thu đƣợc bằng
cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một
máy fax, file ảnh này đƣợc lƣu trữ trong máy tính (Hình 1. 1). Ảnh tài liệu có
nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng nhƣ
TIF, BMP, PCX… và ảnh tài liệu đƣợc đƣa ra trong luận văn này là ảnh đa
cấp xám.
Quy trình chung của một hệ thống nhận dạng văn bản đƣợc thể hiện cụ
thể trên Hình 1. 2. Ảnh tài liệu cần nhận dạng trƣớc tiên sẽ đƣợc tiền xử lý
nhằm tăng cƣờng chất lƣợng, căn chỉnh độ nghiêng, nắnchỉnh hình ảnh. Sau
đó sẽ tiến hành phân tích nhằm xác định cấu trúc trang tài liệu đồng thời xác
định đƣợc các vùng thông tin cần nhận dạng trên ảnh đầu vào. Bƣớc tiếp theo
sẽ tiến hành nhận dạng các vùng thông tin văn bản đã đƣợc xác định. Bƣớc
hậu xử lý cuối cùng sẽ thực hiện các thao tác kiểm lỗi chính tả và địnhdạng lại
cấu trúc trang văn bản.
Hình 1. 2. Quy trình chung của một hệ thống OCR
7
Số hóa bởi Trung tâm Học liệu
Từ quy trình của hệ thống nhận dạng trênHình 1. 2 cho thấy bƣớc phân
tích cấu trúc trang tài liệu, bóc tách các vùng văn bản để nhận dạng có ảnh
hƣởng rất lớn tới chất lƣợng của một hệ thống nhận dạng.
1.2. Bài toán phân tích cấu trúc trang
1.2.1 Giới thiệu chung
Ảnh tài liệu chứa rất nhiều loại vùng thông tin khác nhau nhƣ các block,
lines, words, figures, tables và background. Ta có thể gọi các vùng này theo
chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic nhƣ sentences,
titles, captions, address (xem Hình 1. 3).
Hình 1. 3. Một số tài liệu có cấu trúc phức tạp
Quá trình phân tích cấu trúc ảnh thực chất là quá trình tách một tài liệu
thành các vùng theo một tiêu chuẩn hay mối quan hệ lẫn nhau nào đấy. Công
việc này đƣợc thực hiện qua nhiều bƣớc nhƣ tiền xử lý, tách vùng, lặp cấu
trúc tài liệu… Một số loại tài liệu nhƣ báo, tạp chí, sách quảng cáo, chúng có
cấu trúc và bố cục rất phức tạp và khôngcó một Form chung nào cả. Với con
ngƣời để có thể đọc hiểu đƣợc một trang tài liệu còn cần thêm nhiều kiến thức
bổ sung nhƣ ngôn ngữ, hoàn cảnh, các luật ngầm định, vì thế việc tự động
8
Số hóa bởi Trung tâm Học liệu
phân tích các trang tài liệu một cách tổng quát là một việc rất khó khăn thậm
chí là không khả thi ngay cả với các hệ thống phân tích tài liệu tiên tiến nhất.
Các bƣớc xử lý chính trong quy trình phân tích cấu trúc trang ảnh đƣợc
thể hiện cụ thể trênHình 1.4. Trong đó, từ trang ảnh đầu vào trƣớc tiên sẽ
đƣợc tiền xử lý nhằm loại bỏ nhiễu, căn chỉnh độ nghiêng, tách nềntrang
ảnh,v.v.Sau đó sẽ tiến hành phân tích bố cục và cấu trúc trang ảnh nhằm xác
định các vùng thông tin khác nhau trên trang ảnh đầu vào (các vùng văn bản,
tiêu đề, ảnh, bảng biểu,…). Các vùng văn bản sẽ tiếp tục đƣợc phân đoạn
thành các thành phần nhỏ hơn, chẳng hạn nhƣ dòng, từ hoặc ký tự để phục vụ
cho bƣớc nhận dạng sau này. Việc đánh giá hiệu quả của các thuật toán phân
tích trang đƣợc tiến hành dựa trên các file ground truth (chứa thông tin chi tiết
của các vùng thông tin cần xác định) cho trƣớc.
Hình 1.4. Quy trình phân tích cấu trúc trang ảnh
Cấu trúc tài liệu thu đƣợc từ việc liên tiếp chia nhỏ nội dung của tài liệu
thành các phần đơn vị nhỏ (tức là không thể phân chia đƣợc nữa) và chúng
đƣợc gọi là các đối tƣợng cơ sở (basic objects). Còn tất cả các đối tƣợng khác
đƣợc gọi là các đối tƣợng hỗn hợp.Hai loại cấu trúc của tài liệu đƣợc quan
tâm ở đây đó là cấu trúc vật lý (hay bố cục vật lý) và cấu trúc logic mô tả mối
quan hệ logic giữa các vùng đối tƣợng trong tài liệu.
9
Số hóa bởi Trung tâm Học liệu
Bố cục vật lý:
Bố cục vật lý của một tài liệu mô tả vị trí và các đƣờng danh giới giữa
các vùng có nội dung khác nhau trong một trang tài liệu. Quá trình phân tích
bố cục tài liệu là thực hiện việc tách từ một trang tài liệu ban đầu thành các
vùng có nội dung cơ sở nhƣ hình ảnh nền, vùng văn bản. Để mô tả bố cục vật
lý của tài liệu ngƣời ta sử dụng một cấu trúc hình học với mỗi đối tƣợng trong
cấu trúc là một phần tử chỉ chứa nội dung đồng nhất. Các kiểu đối tƣợng hình
học đƣợc định nghĩa nhƣ sau:
Block:Là đối tƣợng cơ sở tƣơng ứng với một vùng hình chữ nhật chứa
một phần nội dụng của tài liệu.
Frame:Một đối tƣợng hỗn hợp tƣơng ứng với một hình chữ nhật bao
gồm một hoặc nhiều Block hoặc bao gồm nhiều các Frame.
Page:Là đối tƣợng hình học hoặc hỗn hợp các thành phần cơ sở tƣơng
ứng với một vùng hình chữ nhật, nếu là đối tƣợng hỗn hợp nó chứa một
hoặc nhiều Block, một hoặc nhiều Frame.
Page set(tập trang):Là một tập của một hoặc nhiều page.
Điểm gốc của cấu trúc (hay nút gốc):Là một đối tƣợng ở mức cao nhất
trong sơ đồ phân cấp của cấu trúc hình học tài liệu.
Cấu trúc logic:
Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về
ngữ cảnhvà nội dung nhƣ các tiêu đề, đoạn văn, đề mục,…và mỗi vùng nội
dung này lại đƣợc gán các nhãn logic hay nhãn theo chức năng tƣơng ứng,
khác biệt hoàn toàn với các nhãn trong bố cục vật lý. Hầu hết các tài liệu đều
có một quy tắc đọc để có thể hiểu hết nội dung của tài liệu. Với một số ngôn
ngữ đặc biệt nhƣ tiếng Trung, tiếng Ả Rập lại có cách đọc khác biệt (nhƣ đọc
từ phải qua trái, từ trên xuống). Tập hợp tất cả các yếu tố logic và chức năng
trong một tài liệu và mối quan hệ giữa chúng đƣợc gọi là cấu trúc logic của tài
10
Số hóa bởi Trung tâm Học liệu
liệu. Thông thƣờng pha phân tích cấu trúc logic của tài liệu đƣợc thực hiện
trên kết quả của bƣớc phân tích bố cục vật lý. Tuy nhiên với một số loại tài
liệu phức tạp, thì pha phân tích bố cục vật lý lại cần thêm một số thông tin
logic liên quan để các vùng để có thể phân đoạn một các chính xác.
1.2.2. Một số kỹ thuật tiền xử lý trong phân tích cấu trúc trang ảnh
Trong một hệ thống nhận dạng nói chung và phân tích cấu trúc trang ảnh
nói riêng, các bƣớc tiền xử lý thƣờng đƣợc thực hiện trƣớc quá trình phân
tích, nhận dạng. Các kỹ thuật tiền xử lý thƣờng đƣợc sử dụng bao gồm: Nhị
phân hóa ảnh, căn chỉnh độ nghiêng, loại nhiễu, tách nền.
1.2.2.1. Nhị phân ảnh
Trong thực tế, ảnh văn bản mà chúng ta nhận vào ban đầu để xử lý là ảnh
màu. Vì vậy, để có thể thực hiện đƣợc quá trình phân tích và nhận dạng,
chúng ta cần phải chuyển chúng thành ảnh nhị phân trong đó mỗi điểm ảnh
(pixel) đƣợc biểu diễn bởi một trong 2 giá trị là 0 hoặc 255. Đầu tiên, ảnh
màu nhận vào sẽ đƣợc chuyển thành ảnh xám với các mức xám có giá trị từ 0
đến 255 dựa trên ba giá trị RED, GREEN, BLUE của ảnh đầu vào. Từ ảnh
xám này, chúng ta sẽ so sánh mức xám của từng điểm với một ngƣỡng cho
Hình 1. 5.b- Cấu trúc vật lý; c,d - Cấu trúc logic của một tài liệu
11
Số hóa bởi Trung tâm Học liệu
trƣớc để quyết định điểm đó sẽ là 0 hoặc 255, giá trị 0 biểu diễn cho màu đen
và 255 biểu diễn cho màu trắng.
Nhị phân ảnh (hay còn gọi là phân ngƣỡng) là thao tác chuyển từ ảnh
màu, ảnh đa cấp xám về ảnh nhị phân bằng cách tìm một ngƣỡng: tổng quát
hoặc cục bộ. Kỹ thuật này đặt ngƣỡng để hiển thị các tông màu liên tục. Các
điểm trong ảnh đƣợc so sánh với ngƣỡng định trƣớc. Giá trị của ngƣỡng sẽ
quyết định điểm có đƣợc hiển thị hay không. Do vậy ảnh kết quả sẽ mất đi
một số chi tiết. Có nhiều kỹ thuật chọn ngƣỡng áp dụng cho các đối tƣợng
khác nhau:
Hiển thị 2 màu: Chỉ dùng ảnh đen trắng có 256 mức xám. Bản chất của
phƣơng pháp này là chọn ngƣỡng dựa trên lƣợc đồ mức xám của ảnh. Để đơn
giản có thể lấy ngƣỡng với giá trị là 127. Nhƣ vậy:
Trong đó u(m, n) là mức xám tại tọa độ i(m, n).
Nhìn chung kĩ thuật này khó chấp nhận vì ảnh mất khá nhiều chi tiết.
Hiển thị 4 màu: Hiện 4 màu để khắc phục nhƣợc điểm của kỹ thuật hiển
thị 2 màu. Một ví dụ của bảng mã 4 màu đƣợc cho ở Bảng 1. 1.
Mã màu
Màn hình monochrome
(đơn sắc)
Màn hình màu
0
Đen
Đen
1
Xám đậm
Đỏ
2
Xám nhạt
Xanh
3
Trắng
Vàng
Bảng 1. 1. Bảng mã 4 màu
Căn cứ vào phƣơng pháp đƣợc áp dụng để xác định ngƣỡng, có thể chia
ra làm 6 nhóm sau[16]:
12
Số hóa bởi Trung tâm Học liệu
1. Các phƣơng pháp dựa vào hình dạng của histogram (Histogram Shape
Based Thresholding Methods). Căn cứ vào hình dáng của histogram nhƣ: các
đỉnh, các khe và độ cong (peaks, valleys and curvatures) để xác định ngƣỡng.
Vị trí lấy ngƣỡng có thể là khe lõm nhất giữa hai đỉnh hay điểm cách xa
đƣờng thẳng nối hai đỉnh.
2. Các phƣơng pháp dựa vào việc chia nhóm (Clustering-Based
Thresholding Methods). Các phƣơng pháp loại này cố gắng chia ảnh ra làm
hai nhóm tƣơng ứng với nền và đối tƣợng dựa trên một số tiêu trí đánh giá
“khoảng cách” giữa hai nhóm hay giữa các phần tử trong mỗi nhóm.
3. Các phƣơng pháp dựa vào entropy (Entropy-Based Thresholding
Methods). Trong kỹ thuật này ngƣời ta chọn ngƣỡng dựa vào entropy dựa trên
một số cơ sở nhƣ: cực đại các entropy (nền và đối tƣợng), cực tiểu các
entropy lai (giữa ảnh gốc và ảnh nhị phân) hay độ đo entropy mờ.
4. Các phƣơng pháp dựa vào thuộc tính giống nhau (Thresholding
Based on Attribute Similarity). Ngƣỡng đƣợc xác định dựa độ đo các thuộc
tính giống nhau của ảnh gốc và ảnh nhị phân, chẳng hạn nhƣ căn cứ vào
các cạnh thỏa mãn, độ chặt của hình dáng, momen mức xám, khả năng liên
kết, kết cấu…
5. Các phƣơng pháp căn cứ vào không gian (Spatial Thresholding
Methods). Sử dụng sự tƣơng liên hoặc/và phân phối thống kê bậc cao giữa
các pixel để chọn ngƣỡng.
6. Các phƣơng pháp ngƣỡng thích ứng cục bộ (Locally Adaptive
Thresholding). Kỹ thuật này sẽ xác định ngƣỡng t(x,y) cho từng điểm ảnh
(x,y) riêng biệt căn cứ vào mối tƣơng quan giữa điểm ảnh đó và các láng
giềng của nó.
13
Số hóa bởi Trung tâm Học liệu
1.2.2.2. Căn chỉnh độ nghiêng trang ảnh
Trong quá trình thu thập ảnh tài liệu, ảnh có thể bị nghiêng do đó cần
phải căn chỉnh độ nghiêng của ảnh bằng các xác định góc nghiêng và
xoay ảnh trở lại nhƣ ảnh gốc. Các bƣớc chỉnh độ nghiêng của ảnh đƣợc
mô tả nhƣ sau:
Thuật toán 1. 1. Thuật toán chỉnh độ nghiêng
Input: Ảnh (nhị phân) bị nghiêng
Output: Ảnh đã chỉnh độ nghiêng
1. Xác định góc nghiêng
2. Xoay ảnh với góc nghiêng
Trong đó, xác định góc nghiêng là thao tác quan trọng nhất và cũng là
thao tác khó khăn nhất. Có nhiều phƣơng pháp khác nhau để xác định góc
nghiêng: Có thể trực tiếp dựa vào các thống kê, đánh giá góc nghiêng của các
đối tƣợng trong ảnh hay phân tích, đánh giá trên ảnh đã đƣợc biến đổi. Trong
đó có 3 phƣơng pháp thƣờng đƣợc sử dụng:Phƣơng pháp biến đổi Hough,
phƣơng pháp láng giềng gần nhất và phƣơng pháp sử dụng tia quay.Các
phƣơng pháp này sẽ đƣợc trình bày cụ thể ở phần tiếp theo.
Sau khi đã xác định đƣợc góc nghiêng của ảnh sẽ thực hiện xoay ảnh với
góc nghiêng đã xác định đƣợc quanh một vị trí gốc (tâm xoay). Tâm xoay
thƣờng lấy là điểm chính giữa của ảnh (w/2, h/2). Các bƣớc đƣợc thực hiện
theo Thuật toán 1. 2.
Thuật toán 1. 2. Thuật toán xoay ảnh
Input:
1. Ảnh (nhị phân) bị nghiêng I
2. Góc nghiêng
3. Tâm xoay (x
0
,y
0
)