Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.92 MB, 89 trang )

...

TRƯỜNG ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG



PHẠM VĂN THỦY

ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ
ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN
WHITESPACE

LUẬN VĂN THẠC SĨ

Thái Nguyên, tháng 06 năm 2017

2

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn cao học “Đánh giá sự ảnh hưởng của
tham số đến kết quả phân tách của thuật tốn WhiteSpace” là cơng trình
nghiên cứu của riêng tơi và hồn thành dưới sự hướng dẫn khoa học của TS.
Nguyễn Đức Dũng.
Trong toàn bộ nội dung của luận văn, những phần được trình bày là
của cá nhân tôi hoặc được tổ hợp từ nhiều nguồn tài liệu khác nhau. Tất cả
các tài liệu, số liệu đều là trung thực có xuất xứ rõ ràng và được trích dẫn
đúng theo quy định.
Tơi hồn tồn chịu trách nhiệm với lời cam đoan của mình.
Học viên thực hiện luận văn

Phạm Văn Thủy

3

LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành tới TS. Nguyễn Đức Dũng vì đã có
những chỉ dẫn, động viên trong suốt quá trình thực hiện luận văn của tôi.
Đồng thời tôi xin chân thành cảm ơn các thầy cơ giáo trong Ban giám hiệu,
phịng Đào tạo, các thầy cô giáo của trường Đại học Công nghệ Thông tin và
Truyền thông - Đại học Thái Nguyên cùng các thầy cô giáo trong Viện Công
nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam đã quan tâm, tạo điều
kiện thuận lợi, giảng dạy và hướng dẫn tôi trong suốt q trình học tập và
hồn thiện luận văn.
Cuối cùng tôi xin cảm ơn mọi sự giúp đỡ từ người thân, đồng nghiệp
những người đã luôn ủng hộ, hỗ trợ tơi trong suốt q trình thực hiện luận văn
của mình.
Mặc dù đã có nhiều cố gắng, tuy nhiên luận văn của tơi khơng thể tránh
khỏi những thiếu sót, do đó tôi rất mong nhận đuợc những ý kiến đánh giá, bổ
sung để tơi có thể hồn thiện luận văn của mình./.
Quảng Ninh, ngày

tháng

năm 2017

4

MỤC LỤC
DANH MỤC HÌNH ẢNH ............................................................................... 7
PHẦN MỞ ĐẦU ............................................................................................ 10
1. Đặt vấn đề ............................................................................................ 10
2. Nội dung nghiên cứu chính ................................................................ 11
2.1. Mục tiêu chính của đề tài................................................................ 11
2.2. Ý nghĩa khoa học của đề tài ........................................................... 12
2.3. Nhiệm vụ nghiên cứu ...................................................................... 12
2.4. Phương pháp nghiên cứu ............................................................... 12
2.5. Phạm vi nghiên cứu ......................................................................... 13
3. Bố cục của luận văn ............................................................................... 13
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH ẢNH TÀI LIỆU ............. 14
1.1. Tổng quan về phân tích ảnh tài liệu.................................................. 14
1.1.1. Giới thiệu về ảnh tài liệu ............................................................... 14
1.1.2. Hệ phân tích ảnh tài liệu .............................................................. 15
1.1.3 Quá trình thu nhận ảnh tài liệu .................................................... 20
1.1.4. Vai trị của phân tích ảnh tài liệu. ................................................ 21
1.2. Cấu trúc của ảnh tài liệu .................................................................... 23
1.2.1. Cấu trúc vật lý................................................................................ 23
1.2.2. Cấu trúc logic ................................................................................ 24
1.3. Phân tích trang tài liệu ....................................................................... 24
1.3.1. Tiền xử lý (preprocessing): ........................................................... 26
1.3.2. Phân tích cấu trúc vật lý ............................................................... 27
1.3.3. Phân tích cấu trúc logic: ............................................................... 29
1.4 Kết luận................................................................................................. 30
CHƯƠNG 2: ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT
QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE ..................... 31

5

2.1. Các hướng tiếp cận và một số thuật toán phân tách trang tiêu biểu
..................................................................................................................... 31
2.1.1. Hướng tiếp cận Top-down ............................................................ 31
a) Tổng quan........................................................................................ 31
c) Ưu điểm: .......................................................................................... 35
d) Nhược điểm: .................................................................................... 35
2.1.2. Hướng tiếp cận Bottom-up ........................................................... 38
a) Tổng quan........................................................................................ 38
c) Ưu điểm............................................................................................ 42
d) Nhược điểm ..................................................................................... 42
2.1.3. Hướng tiếp cận theo phương pháp lai ghép (hybrid). ................. 43
a) Tổng quan........................................................................................ 43
b) Thuật tốn tách và Nối thích nghi (Adaptive Split - and - Merge)
............................................................................................................... 43
c) Ưu điểm............................................................................................ 45
d) Nhược điểm ..................................................................................... 45
2.1.4. Đánh giá và lựa chọn thuật tốn. ................................................. 46
2.2. Thuật tốn phân tích trang tài liệu Whitespace .............................. 47
2.2.1. Giới thiệu ....................................................................................... 47
2.2.2. Whitespace Cover .......................................................................... 48
2.2.2.1. Định nghĩa bài toán ............................................................... 48
2.2.2.2. Thuật toán .............................................................................. 49
2.3. Ảnh hưởng của tham số đến kết quả phân tách của thuật toán
Whitespace .................................................................................................. 54
2.3.1. Tham số về tỉ lệ chồng lấp (giao nhau) của các hình chữ nhật
trắng. ........................................................................................................ 54
2.3.2. Tham số về khoảng trắng tối đa trong trang văn bản ................. 56

6

2.4 Kết luận................................................................................................. 68
CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM
PHÂN TÍCH TRANG TÀI LIỆU ................................................................ 71
3.1. Yêu cầu hệ thống................................................................................. 71
3.2. Giới thiệu chương trình ..................................................................... 71
3.2.1. Giao diện chương trình ................................................................ 72
3.2.2. Chức năng ..................................................................................... 72
3.3. Thực nghiệm........................................................................................ 73
3.3.1. Dữ liệu ........................................................................................... 73
3.3.2. Giới thiệu độ đo PSET .................................................................. 73
3.3.3. Kết quả thực nghiệm và thảo luận ............................................... 76
TÀI LIỆU THAM KHẢO ............................................................................ 88

7

DANH MỤC HÌNH ẢNH
Hình 1.1: Sơ đồ tổng quan q trình tạo ảnh tài liệu ...................................... 14
Hình 1.2: Ví dụ ảnh tài liệu ............................................................................. 14
Hình 1.3: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo
cấp bậc trong mỗi vùng của ảnh...................................................................... 17
Hình 1.4: mơ phỏng một chuỗi các bước trong phân tích hình ảnh tài liệu phổ
biến. ................................................................................................................. 19
Hình 1.5. Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON và OFF
các điểm ảnh, ON điểm ảnh được hiển thị ở đây là "X"[15]. ......................... 21
Hình 1.6: Sơ đồ OCR cơ bản .......................................................................... 22
Hình 1.7: Cấu trúc vật lý: c, d-Cấu trúc logic của một tài liệu ....................... 23
Hình 1.8: Ví dụ loại tài liệu có bố cục phức tạp ............................................. 25

Hình 1.9: Sơ đồ nguyên lý hệ thống xử lý tài liệu[15] ................................... 25
Hình 1.10: a - Ảnh gốc b - Ảnh sau khi tách nền............................................ 27
Hình 1.11: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ ........................... 28
Hình 1.12: Ví dụ một cây mơ tả cấu trúc logic của một trang tài liệu[14] ..... 29
Hình 2.1: Kết quả chiếu nghiêng theo phương ngang và phương thẳng đứng
của một trang tài liệu 4 .................................................................................... 32
Hình 2.2: Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang ..... 33
Hình 2.3: Phép chiếu nghiêng theo phương ngang để phân đoạn ký tự hoặc từ
......................................................................................................................... 33
Hình 2.4: Kết quả thực hiện của thuật tốn X-Y Cut...................................... 35
Hình 2.5: Lược đồ chiếu ngang của một dòng chữ nghiêng ........................... 36
- rất khó phân đoạn ký tự ................................................................................ 36
Hình 2.6: Lược đồ chiếu đứng của trang tài liệu bị nghiêng .......................... 37
Hình 2.7: Lược đồ chiếu đứng của một bài báo .............................................. 37

8

Hình 2.8: Phương pháp Dostrum cho phân tích định dạng trang (a) Một phần
của nội dung văn bản gốc. (b) Các thành phần lân cận gần nhất được xác định.
(c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần nhất từ đó xác
định được dịng văn bản. ................................................................................. 39
Hình 2.9: Kết quả thực hiện của kỹ thuật Smearing ....................................... 41
Hình 2.10: Mơ tả thuật tốn Tách và Nối thích nghi ...................................... 44
Hình 2.11: Hình minh họa bước đệ quy của thuật toán Cover khoảng trắng
phân nhánh - giới hạn. Xem giải thích ở nội dung văn bản. ........................... 49
Hình 2.12: Áp dụng thuật tốn tìm kiếm dịng ràng buộc cho các biến thức mô
phỏng của một trang. ....................................................................................... 52
Hình 2.13: Fig. 1.Mơ tả thuật tốn WCover [16]. (a) hình bao và các hình chữ
nhật, (b) điểm chốt tìm được (c,d) các miền con trai/phải và trên/dưới ......... 54

Hình 2.14: Mơ hình dịng văn bản được sử dụng tìm kiếm dịng ràng buộc. . 58
Hình 2.15: Minh họa bài tốn tìm kiếm dịng ràng buộc với những trở ngại. 59
Hình 2.16: Ví dụ về kết quả đánh giá khoảng trắng để phát hiện các ranh giới
cột trong tài liệu có bố cục phức tạp (các tài liệu A00C, D050, và E002 từ cơ
sở dữ liệu UW-III). Lưu ý rằng ngay cả các bố cục phức tạp cũng được mô tả
bởi một tập nhỏ các dấu tách cột. .................................................................... 63
Hình 3.1: Giao diện chương trình ................................................................... 72
Hình 3.2: Giao diện chức năng chương trình .................................................. 72
Hình 3.3: Minh họa các kiểu lỗi trong phân tích trang ảnh tài liệu ................ 74
Hình 3.4: Ảnh số 0000085 trong tập ảnh UW-III .......................................... 76
Hình 3.5: Giao diện và kết quả thực nghiệm .................................................. 77
Hình 3.6: Kết quả phân tách hình 0000085 – UW-III .................................... 77
Hình 3.7: Bảng kết quả thực nghiệm .............................................................. 79
Hình 3.8: Ảnh hưởng của số lượng khoảng trắng tối đa đến kết quả của Wcuts
và ageblock. ..................................................................................................... 80

9

Hình 3.9: Ảnh hưởng của Max_results đến thời gian thực hiện chương trình 80
Hình 3.10: Độ chính xác của thuật toán với độ đo PSET sử dụng tham số
khoảng trắng là 300 ......................................................................................... 82
Hình 3.11: Vùng bị bỏ qua .............................................................................. 83
Hình 3.12: Vùng bị phân tách thành các phần quá nhỏ .................................. 83
Hình 3.13: Độ chính xác của thuật tốn với độ đo PSET sử dụng tham số tỉ lệ
giao nhau là 95% ............................................................................................. 84

10

PHẦN MỞ ĐẦU
1. Đặt vấn đề
Hiện nay, hầu hết tài liệu của con người đều đã được số hóa và được
lưu trữ trên máy tính, việc số hóa đảm bảo tính an tồn và thuận tiện hơn hẳn
so với sử dụng tài liệu giấy. Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu
trong một số mục đích là khơng thể thay thế hồn tồn được (như sách, báo,
tạp chí, cơng văn,…). Hơn nữa, lượng tài liệu được tạo ra từ nhiều năm trước
vẫn cịn rất nhiều mà khơng thể bỏ đi được vì tính quan trọng của chúng.
Việc chuyển đổi tài liệu điện tử sang tài liệu giấy có thể thực hiện được
dễ dàng bằng cách in hay fax, nhưng công việc ngược lại là chuyển từ tài liệu
giấy sang tài liệu điện tử lại là một vấn đề khơng hề đơn giản. Chúng ta mong
muốn có thể số hóa tất cả các tài liệu, sách, báo đó và lưu trữ chúng trên máy
tính, việc tổ chức và sử dụng chúng sẽ thuận tiện hơn rất nhiều. Vậy nhưng
giải pháp sẽ là gì?
Cơng nghệ đang phát triển một cách chóng mặt, các máy scan với tốc
độ hàng nghìn trang một giờ, các máy tính với cơng nghệ xử lí nhanh chóng
và chính xác một cách siêu việt. Vậy tại sao chúng ta không quét các trang tài
liệu vào và xử lý, chuyển chúng thành các văn bản một cách tự động? Nhưng
vấn đề là khi quét chúng ta chỉ thu được các trang tài liệu đó dưới dạng ảnh
nên khơng thể thao tác, sửa chữa, tìm kiếm như trên các bản Office được, khi
đó máy tính khơng phân biệt được đâu là điểm ảnh của chữ và đâu là điểm
ảnh của đối tượng đồ họa.
Một giải pháp được đưa ra đó là xây dựng các hệ thống nhận dạng chữ
trong các tấm ảnh chứa cả chữ và đối tượng đồ họa, sau đó chuyển thành dạng
trang văn bản và có thể mở, soạn thảo được trên các trình soạn thảo văn bản.
Trong thực tế quá trình nhận dạng thì có rất nhiều tham số ảnh hưởng
đến kết quả của các chương trình nhận dạng như nhiễu, Font chữ, kích thước

11

chữ, kiểu chữ nghiêng, đậm, gạch dưới… vì thế trước khi nhận dạng chữ, một
số thao tác tiền xử lý sẽ được tác động lên ảnh như, lọc nhiễu, chỉnh góc
nghiêng và đặc biệt quan trọng là phân tách trang tài liệu để xác định cấu trúc
của trang văn bản đồng thời tách biệt hai thành phần là chữ và các đối tượng
đồ họa.
Dù đã được nghiên cứu trong nhiều năm nhưng bài toán phân tách
trang ảnh tài liệu vẫn là một vấn đề quan trọng và thời sự do sự thay đổi đa
dang về cấu trúc và các đặc trưng văn bản. Các thuật toán phân tách trang
hiện nay đều phụ thuộc rất nhiều vào kết quả của quá trình lọc khoảng trắng,
chỉnh góc nghiêng, tức là các tham số điều kiện để quyết định các khoảng
trắng có được giữ lại hay khơng, góc nghiêng có phù hợp hay không. Các
tham số này hoặc cố định hoặc được xác định trên tồn trang ảnh do đó có
hoặc khơng phù hợp trên những trang ảnh có sự thay đổi nhiều về kích cỡ
hoặc kiểu font. Trong luận văn này, tập trung nghiên cứu và “Đánh giá sự
ảnh hưởng của tham số đến kết quả phân tách của thuật toán
WhiteSpace” với mục đích lựa chọn được tham số phù hợp nhằm phát huy
các điểm mạnh và khắc phục nhược điểm của thuật tốn.
2. Nội dung nghiên cứu chính
2.1. Mục tiêu chính của đề tài
- Tìm hiểu hướng tiếp cận để phân tách trang (Top-down hay bottomup, …) Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic).
- Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân
đoạn, topdown hay bottom-up, …)Trình bày kỹ thuật phân tích trang văn bản
White-space.
- Cài đặt thử nghiệm một giải pháp phân tích trang văn bản trên kỹ
thuật Top-down bằng thuật toán White-space.

12

- Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách trang của
thuật toán White-space.
- Từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đẩy đủ cho bước
nghiên cứu tiếp theo là nhận dạng ký tự quang.
2.2. Ý nghĩa khoa học của đề tài
- Giải quyết được vấn đề về học thuật: đề tài sẽ mang ý nghĩa cung cấp
về mặt lý thuyết và thực nghiệm để làm rõ về sự ảnh hưởng của tham số đến
kết quả phân tách của thuật toán Whitespace.
- Đáp ứng được yêu cầu của thực tiễn: từ các lý thuyết đã được nghiên
cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào các lĩnh vực
như: Số hóa tài liệu, lưu trữ thư viện, điện tử hóa văn phịng, nhận dạng và xử
lý ảnh...
2.3. Nhiệm vụ nghiên cứu
Mục đích của luận văn đề cập được đến hai phần:
- Phần lý thuyết: Nắm rõ và trình bày những cơ sở lý thuyết liên quan
đến cấu trúc trang tài liệu, một số kỹ thuật phân tích trang tài liệu, từ đó có để
có thể xác định tính quan trọng của bước này trong nhận dạng ký tự, đồng
thời hiểu các công việc kế tiếp cần làm trong bước nhận dạng ký tự.
- Phần phát triển ứng dụng: Áp dụng các thuật tốn đã trình bày ở phần
lý thuyết từ đó đánh giá sự ảnh hưởng của tham số và chọn một giải pháp tối
ưu khi lựa chọn tham số và cài đặt thử nghiệm chương trình phân tích trang
tài liệu.
2.4. Phương pháp nghiên cứu
- Tìm kiếm, tham khảo, tổng hợp tài liệu từ các nguồn khác nhau để
xây dựng phần lý thuyết cho luận văn.
- Sử dụng các kỹ thuật được áp dụng phân tích trang tài liệu để làm rõ
bản chất của các vấn đề được đưa ra trong phần lý thuyết.

13

- Xây dựng chương trình Demo, độ đo và thực nghiệm và thảo luận.
2.5. Phạm vi nghiên cứu
Bài toán phân tích trang tài liệu đã được phát triển với nhiều thành tựu
trong thực tế, có rất nhiều thuật tốn tối ưu đã được các nhà khoa học đề nghị.
Tuy nhiên có thể nói chưa có một chương trình nào có thể “đọc” một ảnh văn
bản như con người, vì thực tế có rất nhiều kiểu trang văn bản khác nhau, khác
nhau về cấu trúc trình bày, ngơn ngữ, kiểu font, chữ viết tay,… Đây thực sự là
một bài toán lớn, chính vì thế trong phạm vi của luận văn chỉ tìm hiểu một số
kỹ thuật phân tích trang văn bản tiêu biểu với mục đích để so sánh với một
thuật toán mới chưa được đưa ra ở các đề tài trước. Cuối cùng, dựa vào đó để
xây dựng Demo cho một ứng dụng. Các kết quả nghiên cứu dự kiến cần đạt
được:
- Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt được
bản chất vấn đề đặt ra.
- Báo cáo lý thuyết.
- Chương trình Demo.
- Kết quả thực kiệm.
- Đánh giá kết quả.
3. Bố cục của luận văn
Nội dung của luận văn được trình bày trong ba chương :
Chương 1: Tổng quan về phân tích trang tài liệu
Chương 2: Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của
thuật toán WhiteSpace
Chương 3: Cài đặt chương trình Demo và đánh giá kết quả.

14

CHƯƠNG 1

TỔNG QUAN VỀ PHÂN TÍCH ẢNH TÀI LIỆU
1.1. Tổng quan về phân tích ảnh tài liệu
1.1.1. Giới thiệu về ảnh tài liệu
Ảnhnh tài liệu được đề cập ở đây là các file ảnh số hoá thu được bằng
cách dùng máy scanner, hoặc chụp từ Các máy ảnh số, hay nhận từ một máy
fax. Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh đa cấp xám, ảnh đa cấp xám
với các phần mở rộng như TIF, BMP, PCX, …(Hình 1.2) và ảnh tài liệu được
đưa ra trong luận văn này là ảnh đa cấp xám.

Tài liệu

Thiết bị thu nhận ảnh

Ảnh số tài liệu

Hình 1.1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu

Hình 1.2: Ví dụ ảnh tài liệu

15

1.1.2. Hệ phân tích ảnh tài liệu
Ảnh tài liệu sau khi được qt và lưu trữ vào máy tính thì nó được cấu
thành từ những điểm ảnh, nhiệm vụ của chúng ta là phải trích chọn được
những thơng tin đặc trưng từ nó sao cho máy tính có thể “đọc” và “hiểu” được
các thành phần này. Để làm được điều này người ta phải áp dụng các thuật
toán kết hợp cùng với những kỹ thuật cả về phần cứng và phần mềm máy
tính, sự tích hợp này là yếu tố chính tạo thành một hệ phân tích ảnh tài liệu.
Sau khi tạo được hệ phân tích ảnh, người ta tiến hành quá trình xử lý ảnh gồm

việc thao tác lên ảnh đầu vào để cuối cùng cho ảnh đầu ra với kết quả đạt
được những mục tiêu đã định trước đó. Cụ thể là kết quả của ảnh đầu ra có thể
là một kết luận về sự nhận dạng hoặc là một ảnh đã được xử lý tốt hơn.
Một trong những công nghệ khá phổ biến hiện nay được áp dụng để
nhận dạng văn bản là công nghệ nhận dạng ký tự bằng quang học (Optical
Character Recognition-OCR). Cơ chế chủ yếu của nó là nhận dạng ký tự trên
nền định dạng ảnh tài liệu và chuyển sản phẩm nhận dạng được sang kiểu tập
tin văn bản. Từ đó OCR có thể giúp chúng ta thao tác trên văn bản như tạo,
sửa đổi, xóa bỏ, tìm kiếm, thay thế nội dung của tài liệu. Như vậy, mục tiêu
của hệ phân tích ảnh tài liệu là phát hiện ra được các đối tượng khác nhau
trong một ảnh tài liệu như chữ đánh máy, chữ viết bằng tay, hình ảnh, văn bản
chia thành hàng, cột, v.v. Đồng thời hệ phân tích này cịn phải trích xuất được
những thành phần trong ảnh tài liệu mà chúng ta mong muốn để phục vụ cho
những mục đích nghiên cứu và ứng dụng khác nhau. Và đặc biệt trong bài
luận này là trọng tâm nhấn mạnh đến việc phát hiện được bảng biểu (detect
table) trong ảnh tài liệu. Trên cơ sở đặc điểm chung của một ảnh tài liệu
thường có chứa hai loại đối tượng chính là văn bản và hình ảnh cũng như đa
số các cơng nghệ nhận dạng được áp dụng hiện nay, chúng ta có thể thấy rằng
một hệ phân tích ảnh tài liệu thực hiện hai nhiệm vụ chính (xem hình 1.3).

16

Nhiệm vụ thứ nhất là phải xử lý các đối tượng hình ảnh được cấu thành
từ hình vẽ, đường kẻ, dấu vân tay, khuôn mặt, những nốt đen lớn, biểu
đồ,…Và nhiệm vụ thứ hai là phải xử lý các đối tượng văn bản cấu thành từ
chữ viết như ký tự, từ, chuỗi ký tự, chữ viết tay. Việc phát hiện độ nghiêng
(tilt) của tài liệu (độ nghiêng của văn bản xuất hiện khi chúng ta quét ảnh 5 tài
liệu từ máy qt đã đặt khơng chuẩn xác các vị trí của nó), phát hiện các
phơng chữ, độ lớn chữ, từ, cụm từ, dòng văn bản, đoạn văn bản và các cột văn

bản là những công việc quan trọng và cần thiết để thực hiện việc phát hiện
văn bản được ứng dụng công nghệ OCR như đã đề cập. Sau khi thực hiện
thành cơng hai nhiệm vụ chính, hệ phân tích ảnh tài liệu sẽ trích chọn những
thơng tin cần thiết đã phát hiện được, đưa vào một tài liệu ở một định dạng
khác như tập tin văn bản (word) hoặc ngôn ngữ hiển thị siêu văn bản (Hyper
Text Markup Language-HTML). Việc đầu tư tài chính, cơng nghệ, con người
cùng các yếu tố liên quan để thiết kế và ứng dụng hệ phân tích ảnh tài liệu là
rất cần thiết và vơ cùng quan trọng. Nó giúp chúng ta giải quyết rất nhiều vấn
đề trong thực tế khi mà số lượng các dữ liệu lớn. Con người tiếp nhận và xử
lý thơng tin nhờ vào các giác quan, nhưng có thể nói trong đó có khoảng 80%
là thu nhận bằng mắt. Một vài ví dụ điển hình có thể minh chứng rằng thực sự
cần thiết để sở hữu một hệ thống phân tích ảnh tài liệu nào đó. Thứ nhất, ta là
người phải nhập điểm số cho hàng trăm nghìn sinh viên trong một trường đại
học được gửi về từ các giáo viên giảng dạy, theo cách làm truyền thống thì tại
phịng xử lý điểm phải có ít nhất một người ngồi đọc điểm cùng với một
người gõ vào máy tính. Việc này vừa tốn thời gian, tốn chi phí nhân cơng, ít
khách quan lại dễ xảy ra sai sót do yếu tố con người. Thay vào đó, nhà trường
có thể thiết kế phiếu điểm giao cho giảng viên trong đó đã có sẵn các giá trị từ
1 đến 10 cho mỗi sinh viên và chỉ việc chấm điểm theo cách tơ đen vào vị trí
điểm số mà sinh viên đạt được. Cuối cùng bảng điểm này được quét để máy

17

tính phát hiện điểm số một cách tự động nhờ vào chấm đen mà giảng viên đã
tô đậm thông qua một hệ nhận dạng ảnh tài liệu, theo đó sẽ khắc phục được
những nhược điểm của cách làm truyền thống.
Thứ hai là, tại một doanh nghiệp sản xuất kinh doanh với số nhân công
hàng chục ngàn người làm việc trong ngày, trong các cơng đoạn chấm cơng
có việc kiểm tra sự có mặt của nhân viên vào đầu giờ và cuối giờ làm. Với

phương pháp truyền thống doanh nghiệp phải cử ra rất nhiều người để theo
dõi các nhân viên cịn lại việc vào và ra khỏi cơng ty phải đúng giờ. Việc này
đã được khắc phục nhằm đem lại sự thuận lợi, chính xác và ít tốn kém bằng
cách sử dụng một máy chấm công bằng vân tay, trong đó tích hợp cơng nghệ
xử lý và so sánh dấu vân tay bảo đảm công tác thống kê số giờ làm mà không
cần sự theo dõi trực tiếp của con 6 người. Trong đó, máy chấm cơng bằng dấu
vân tay ứng dụng hệ phân tích ảnh tài liệu.

Hình 1.3: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia
theo cấp bậc trong mỗi vùng của ảnh.

18

Hệ phân tích ảnh tài liệu đã được sử dụng trong vài thập kỷ qua, đặc
biệt là trong ngành kinh doanh ngân hàng, bưu điện, thư viện,…ứng dụng để
máy tính đọc mã vạch hoặc lưu trữ tài liệu ở dạng điện tử, vào cuối những
năm 1980 và 1990 thì đã phát triển nhanh chóng. Lý do chủ yếu của việc phát
triển này là tốc độ ngày càng lớn và chi phí thấp hơn của phần cứng máy tính.
Kể từ khi máy fax trở nên phổ biến, chi phí của máy quét quang học
cho các tài liệu đầu vào giảm xuống đã giúp các doanh nghiệp nhỏ cũng như
mỗi cá nhân có cơ hội được sử dụng những cơng nghệ này. Mặc dù ảnh tài
liệu có chứa một lượng tương đối lớn dữ liệu, thì ngay cả máy tính cá nhân
hiện nay cũng đã có tốc độ đủ để xử lý chúng. Bộ nhớ máy tính bây giờ
khơng những đủ cho các hình ảnh tài liệu lớn, mà quan trọng hơn, bộ nhớ
quang học bây giờ cũng đủ để lưu trữ khối lượng lớn dữ liệu. Điều này dẫn
đến ngày càng phát triển công nghệ nhận dạng và xử lý ảnh tài liệu. Sự bổ
sung cần thiết cho những cải tiến phần cứng là những tiến bộ đang được thực
hiện trong việc phát triển các thuật toán và phần mềm phân tích ảnh tài liệu.
Trong đó cơng nghệ OCR có khả năng nhận dạng văn bản với độ chính xác

lên đến khoảng 90%, bên cạnh đó nhiều phương pháp nhận dạng ảnh tài liệu
khác cũng được cải tiến gần như xử lý ảnh tài liệu xử lý văn bản xử lý đối
tượng ảnh Nhận dạng ký tự quang học phân tích bố trí trang xử lý đường kẻ
xử lý biểu tượng và vùng văn bản phát hiện độ nghiêng, dòng, khối và đoạn
văn bản Đường thẳng, góc và các đường cong Lấp đầy các khu vực Hình 1.1:
Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc
trong mỗi vùng của ảnh[15]. Theo đó, các tài liệu viết tay hoặc tài liệu đã
được in ấn hay những hình ảnh có thể được chuyển thành tài liệu điện tử trên
máy tính để thuận tiện trong việc lưu trữ, quản lý, chỉnh sửa và biên soạn lại.
Tuy nhiên, tài liệu giấy cho đến nay vẫn đang phát huy vai trị truyền thống
của nó do tính chất trực quang, dễ thao tác, phổ biến được rộng rãi đối với

19

mọi đối tượng sử dụng. Vì vậy, chúng ta phải tìm cách giải quyết vấn đề là sử
dụng cơng nghệ và các thuật tốn để tích hợp dữ liệu dưới dạng ảnh tài liệu
vào trong bộ nhớ phần cứng để xử lý bằng máy tính. Sau khi đã tạo ra dữ liệu,
máy tính phải thực hiện các bước xử lý cơ bản như xử lý điểm ảnh, phân tích
các thành phần đặc trưng, phân tách từng thành phần phát hiện riêng biệt là
phát hiện hình ảnh và phát hiện văn bản.

Hình 1.4: mơ phỏng một chuỗi các bước
trong phân tích hình ảnh tài liệu phổ biến.
Các phần tiếp theo sẽ trình bày vắn tắt một số bước cơ bản này. Sau khi
thu thập dữ liệu, hình ảnh trải qua xử lý cấp độ điểm ảnh và phân tích tính
năng, sau đó mỗi loại đối tượng văn bản và hình ảnh được phát hiện và xử lý
riêng. Thu thập dữ liệu được thực hiện trên một tài liệu giấy thường bằng cách
quét quang học. Các dữ liệu sau đó được lưu trữ trong một tập tin hình ảnh,
gọi là điểm ảnh, được lấy mẫu trong một mơ hình mạng lưới xun suốt ảnh

tài liệu [15].

20

1.1.3 Quá trình thu nhận ảnh tài liệu
Ảnh tài liệu thường được thu thập bằng cách quét quang học thông qua
máy quét hoặc bằng cách sao chép hình ảnh và những đoạn phim kỹ thuật số
từ máy chụp hoặc máy quay phim (camera) rồi được lưu trữ vào máy tính
dưới dạng một tập tin ảnh gồm có các yếu tố hình ảnh, hoặc điểm ảnh, đó là
“ngun liệu” đầu vào để phân tích ảnh tài liệu sau này. Dữ liệu lúc này được
tập hợp là các điểm ảnh (pixels) và được mô phỏng thành tập hợp của một
lưới các điểm ảnh (a grid pattern) [15]. Các thiết bị thu nhận ảnh tài liệu có
hai loại chính tương ứng với hai loại ảnh thơng dụng Vector và Raster. Theo
đó, q trình thu nhận ảnh tài liệu thực hiện các công đoạn chính gồm việc
biến đổi năng lượng quang học thành năng lượng điện gọi là cảm biến và tổng
hợp năng lượng điện thành ảnh gọi là q trình lượng tử hóa (Đỗ Năng Tồn2008). Với ảnh nhị phân thì cường độ điểm ảnh có thể nhận một trong hai giá
trị OFF (0) hoặc ON (1) (Hình 1.5). Đối với ảnh đa cấp xám thì cường độ
điểm ảnh nhận giá trị từ 0 đến 255 và với ảnh màu thì giá trị điểm ảnh nhận 3
kênh là R, G, B từ 0 đến 255 giá trị màu sắc. Thí dụ, với một trang ảnh tài liệu
có kích thước 30x40 cm và có 140 điểm ảnh trong 1 centimet thì tạo được ảnh
với 4200x5600 điểm ảnh. Từ đó cho thấy rằng một ảnh tài liệu thông thường
là tập hợp của các giá trị điểm ảnh mà người ta đã dùng các bộ cảm biến hoặc
máy quét để biến tín hiệu quang thành tín hiệu điện liên tục, rồi thì khắc phục
hiện tượng chồng phổ, thực hiện lượng tử hóa cùng với các cơng đoạn kỹ
thuật khác và cuối cùng sẽ trích chọn được các thông tin phù hợp.

21

Hình 1.5. Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON và
OFF các điểm ảnh, ON điểm ảnh được hiển thị ở đây là "X"[15].
1.1.4. Vai trị của phân tích ảnh tài liệu.
Ngày nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không
ngừng được nâng lên. Cùng với nó là sự ra đời của các phần mềm thơng minh
đã khiến máy tính ngày một gần gũi với con người hơn. Một trong các khả
năng tuyệt vời của con người mà các nhà khoa học máy tính muốn đạt được
đó là khả năng nhận dạng và lĩnh vực nhận dạng thu được nhiều thành công
nhất là nhận dạng ký tự quang OCR–Optical Character Recognition. OCR có
thể được hiểu là q trình chuyển đổi tài liệu dưới dạng file ảnh số hố (là
dạng chỉ có người đọc được) thành tài liệu dưới dạng file văn bản (là tài liệu
mà cả người và máy đều có thể đọc được). OCR có rất nhiều ứng dụng hữu
ích trong cuộc sống như:
- Sắp xếp thư tín, dựa vào việc nhận dạng mã bưu chính (Zipcode) hay
địa chỉ gửi tới.
- Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ
lao động.
- Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký)
- Tự động xử lý các hóa đơn hay các yêu cầu thanh toán
- Hệ thống tự động đọc và kiểm tra passport
- Tự động phục hồi và copy tài liệu từ các ảnh quét.

22

- Máy đọc cho những người khiếm thính
- Các ứng dụng Datamining
-…
Sơ đồ một hệ thống OCR cơ bản ở Hình 1.6. Trong đó:
- Scanner: Thiết bị qt ảnh

- OCR hardware/software:
o Document analysis: Phân tích tài liệu
o Character recognition: Nhận dạng ký tự
o Contexttual processor: Xử lý văn cảnh
- Output interface: Đầu ra
Vai trị chính của khâu phân tích ảnh tài liệu là việc phân đoạn trang,
tách vùng văn bản ra khỏi nền và đồ họa tạo mẫu chuẩn cho khâu nhận dạng.
Rõ ràng là kết quả của khâu phân tích này ảnh hưởng rất lớn đến hiệu qủa của
khâu nhận dạng nếu sử dụng mẫu hay các chuỗi văn bản đầu ra của nó.

Hình 1.6: Sơ đồ OCR cơ bản

23

1.2. Cấu trúc của ảnh tài liệu
Có hai loại cấu trúc của tài liệu được quan tâm ở đây đó là cấu trúc vật
lý hay bố cục vật lý và cấu trúc logic mô tả mối quan hệ logic giữa các vùng
đối tượng trong tài liệu.
1.2.1. Cấu trúc vật lý
Bố cục vật lý của một tài liệu mô tả vị trí và các đường danh giới giữa
các vùng có nội dung khác nhau trong một trang tài liệu. Quá trình phân tích
bố cục tài liệu là thực hiện việc tách từ một trang tài liệu ban đầu thành các
vùng có nội dung cơ sở như hình ảnh nền, vùng văn bản,…
Các thuật tốn phân tích bố cục tài liệu có thể được chia làm ba loại
chính dựa theo phương pháp thực hiện của nó.
- Bottom-up: Ý tưởng chính của các thuật toán loại này là bắt đầu từ
những phần tử nhỏ nhất (như từ các pixel hay các phần tử liên thơng) sau đó
liên tục nhóm chúng lại thành các vùng lớn hơn.
- Top-down: Thuật toán này bắt đầu từ vùng lớn nhất chứa cả trang tài

liệu sau đó liên tục phân chia thành các vùng nhỏ hơn.
- Các thuật tốn khơng theo thứ bậc: như Fractal Signature, Adaptive
split-and-merge …

Hình 1.7: Cấu trúc vật lý: c, d-Cấu trúc logic của một tài liệu

24

1.2.2. Cấu trúc logic
Ngoài bố cục vật lý, các trang tài liệu cịn chứa đựng nhiều thơng tin về
ngữ cảnh và nội dung như các tiêu đề, đoạn văn, đề mục, … Thơng thường
phân tích cấu trúc logic của tài liệu được thực hiện trên kết quả của bước phân
tích bố cục vật lý. Tuy nhiên với một số loại tài liệu phức tạp, thì pha phân
tích bố cục vật lý lại cần thêm một số thông tin logic liên quan đến các vùng
để có thể phân đoạn một cách chính xác. Hình 4(c,d) mơ tả một ví dụ cấu trúc
logic của tài liệu.
1.3. Phân tích trang tài liệu
Ảnh tài liệu chứa rất nhiều loại vùng thông tin khác nhau như các
block, lines, words, figures, tables và background. Ta có thể gọi các vùng này
theo chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic như
sentences, titles, captions, address,… Q trình phân tích tài liệu là thực hiện
việc tách một tài liệu thành các vùng theo một tiêu chuẩn hay mối quan hệ lẫn
nhau nào đấy. Công việc này được thực hiện qua nhiều bước như tiền xử lý,
tách vùng, lặp cấu trúc tài liệu,… Một số loại tài liệu như báo, tạp chí, sách
quảng cáo, chúng có cấu trúc và bố cục rất phức tạp và khơng có một form
chung nào cả (Hình 5).
Với con người để có thể đọc hiểu được một trang tài liệu cịn cần thêm
nhiều kiến thức bổ sung như ngơn ngữ, hồn cảnh, các luật ngầm định, vì thế
việc tự động phân tích các trang tài liệu một cách tổng qt là một việc rất

khó khăn thậm chí là khơng khả thi ngay cả với các hệ thống phân tích tài liệu
tiên tiến nhất[15].

25

Hình 1.8: Ví dụ loại tài liệu có bố cục phức tạp
Sơ đồ nguyên lý của một hệ thống tự động phân tích tài liệu như sau:

Hình 1.9: Sơ đồ nguyên lý hệ thống xử lý tài liệu[15]

Đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về