Nhận dạng các biểu mẫu tài liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (495.19 KB, 27 trang )

1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN VĂN THUẬN

NHẬN DẠNG CÁC BIỂU MẪU TÀI LIỆU

Chuyên ngành: Công nghệ thông tin.
Mã số: 1.01.10

LUẬN VĂN THẠC SỸ.

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. NGÔ QUỐC TẠO

HÀ NỘI – 2007

2

LỜI CẢM ƠN!
Luận văn là kết quả đạt đƣợc sau hai năm học cao học (2004-2006) tại
trƣờng Đại học Công Nghệ - Đại học Quốc Gia Hà Nội và quá trình nghiên cứu,
công tác tại Trung tâm nghiên cứu và phát triển Công nghệ phần mềm, Đại học
Công nghệ, ĐHQGHN.
Trƣớc tiên tôi xin gửi lời biết ơn chân thành nhất tới PGS. TS Ngô Quốc Tạo
và Thạc sỹ Nguyễn Tiến Sỹ, ngƣời thầy đã truyền đạt cho tôi những kiến thức đầu
tiên về Xử lý ảnh và nhận dạng, ngƣời thầy đã dìu dắt, hƣớng dẫn tôi và cho tôi
những ý kiến quý báu, những lời khuyên bổ ích trong suốt quá trình tìm hiểu và
hoàn thành luận văn này.

Tôi xin bày tỏ lòng biết ơn đến các thầy cô trong Trƣờng Đại học Công nghệ
đã dạy dỗ tôi trong suốt hai năm học cao học vừa qua. Tôi xin gửi lời cảm ơn đến
Trung tâm nghiên cứu và phát triển Công nghệ Phần mềm, nơi đã tạo điều kiện cho
chúng tôi học tập trong suốt thời gian học cao học.
Tôi xin bày tỏ lòng cám ơn sâu sắc đến anh chị, bạn bè cùng lớp K11T2 đã
cho tôi những lời động viên, góp ý và giúp đỡ tôi trong quá trình học tập và thực
hiện luận văn. Tôi xin cảm ơn các thầy, anh chị và các bạn trong Trung tâm nghiên
cứu và phát triển Công nghệ phần mềm luôn cho tôi những lời động viên, khích lệ,
những góp ý sâu sắc và những định hƣớng để tôi sớm hoàn thành luận văn này. Xin
cảm ơn Khoa Công nghệ thông tin, Trƣờng Đại học Công nghệ, ĐHQGHN luôn tạo
điều kiện tốt cho tôi học tập và công tác trong suốt quá trình học tập và làm luận
văn.
Cuối cùng tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi luôn ủng hộ,
giúp đỡ và ở bên tôi trong mọi hoàn cảnh khó khăn.

Hà Nội, tháng 11/2007
Phan Văn Thuận

3

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá
nhân tôi, không sao chép lại của ngƣời khác. Luận văn là kết quả của quá trình học
tập, nghiên cứu và làm việc nghiêm túc trong suốt hơn hai năm cao học. Trong toàn
bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là kết quả nghiên cứu
của cá nhân hoặc là kết quả tổng hợp từ nhiều nguồn tài liệu khác. Những kết quả
nghiên cứu nào của cá nhân đều đƣợc chỉ ra rõ ràng trong luận văn. Các thông tin
tổng hợp hay các kết quả lấy từ nhiều nguồn tài liệu khác thì đƣợc trích dẫn một
cách đầy đủ và hợp lý. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc

trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.

Hà Nội, tháng 11/2007
Phan Văn Thuận

4

MỤC LỤC
MỞ ĐẦU

CHƢƠNG 1 - Tổng quan ......................................................................................... 8
1.1 Đặt vấn đề .............................................................................................................. 8
1.2 Nội dung và cấu trúc của luận văn ............................................................. 10

CHƢƠNG 2 - Khái quát một số phƣơng pháp phân vùng ảnh và khử
nghiêng ............................................................................ Error! Bookmark not defined.
2.1 Tổng quan về xử lý biểu mẫu. ...................... Error! Bookmark not defined.
2.1.1 Các đặc trƣng của biểu mẫu ....................... Error! Bookmark not defined.
2.1.2 Quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả biểu mẫu ..Error!
Bookmark not defined.

2.1.3 Quá trình xử lý biểu mẫu dựa trên đăng ký biểu mẫu (Form
registration)............................................................... Error! Bookmark not defined.
2.1.4 Hệ thống xử lý biểu mẫu ............................ Error! Bookmark not defined.

2.2 Các kỹ thuật thƣờng đƣợc sử dụng trong nhận dạng cấu trúc biểu
mẫu................................................................................. Error! Bookmark not defined.

2.2.1 Chỉnh độ nghiêng của văn bản biểu mẫu Error! Bookmark not defined.
2.2.1.1.
2.2.1.2.

Phân tích hình ảnh của phép chiếu ..... Error! Bookmark not defined.
Xác định góc nghiêng dựa vào biến đổi Hough .... Error! Bookmark

not defined.

2.2.1.3.
2.2.1.4.
2.2.1.5.

Phân cụm hàng xóm gần nhất ............. Error! Bookmark not defined.
Sự tƣơng quan của các đƣờng thẳng .. Error! Bookmark not defined.
Một số kỹ thuật tính góc nghiêng khác. ........... Error! Bookmark not

defined.

2.2.1.6.

Bảng tổng kết về các thuật toán xác định góc nghiêng. ...........Error!

Bookmark not defined.

2.2.2 Phân tích trang ............................................... Error! Bookmark not defined.
2.2.2.1.
2.2.2.2.

Các kỹ thuật phân vùng ký tự ............. Error! Bookmark not defined.

Các kỹ thuật phân vùng trang văn bản. ............ Error! Bookmark not

defined.

2.2.2.3.

Các kỹ thuật kết hợp phân vùng/phân lớp ....... Error! Bookmark not

defined.

2.2.2.4.
2.2.2.5.

Các kỹ thuật phân lớp khối ................. Error! Bookmark not defined.
Bảng tổng kết về các kỹ thuật phân tích trang. Error! Bookmark not

defined.

CHƢƠNG 3 - Đề xuất giải pháp sử dụng biểu mẫu động ..............Error!
Bookmark not defined.

3.1 Hệ thống xử lý biểu mẫu động. .................... Error! Bookmark not defined.
3.1.1 Giới thiệu về hệ thống xử lý biểu mẫu .... Error! Bookmark not defined.

5

3.1.2 So sánh với các phƣơng pháp truyền thống .......... Error! Bookmark not
defined.

3.1.3 Phƣơng pháp nhân dạng cơ bản ................ Error! Bookmark not defined.
3.1.4 Thiết kế hệ thống .......................................... Error! Bookmark not defined.
3.1.4.1.
3.1.4.2.
3.1.4.3.
3.1.4.4.

Kiến trúc hệ thống ................................ Error! Bookmark not defined.
Hệ thống chuẩn bị biểu mẫu ............... Error! Bookmark not defined.
Hệ thống xử lý biểu mẫu ..................... Error! Bookmark not defined.
Ứng dụng ............................................... Error! Bookmark not defined.

3.2 Các thuật toán xử lý ảnh áp dụng cho xử lý biểu mẫu động ......Error!
Bookmark not defined.

3.2.1 Khái niệm biểu mẫu động. ......................... Error! Bookmark not defined.
3.2.2 Lƣợc đồ xử lý biểu mẫu động. .................. Error! Bookmark not defined.
3.2.3 Các phƣơng pháp tách chữ viết tay ra khỏi khung điền...............Error!
Bookmark not defined.

3.2.3.1.
3.2.3.2.

Tìm hiểu các thuật toán tách cơ bản. . Error! Bookmark not defined.
Tách chữ viết tay ra khỏi khung điền. Error! Bookmark not defined.

3.2.4 Xác định vị trí các khung điền. ................. Error! Bookmark not defined.
3.2.4.1.
3.2.4.2.

Phƣơng pháp chiếu............................... Error! Bookmark not defined.
Phƣơng pháp bỏ qua các khoảng trắng............. Error! Bookmark not

defined.

3.2.5 Xác định thông tin ẩn chứa trong các khung điền. .... Error! Bookmark
not defined.

3.3 Các thuật toán khác áp dụng cho biểu mẫu động . Error! Bookmark not
defined.

3.3.1 Thuật toán bóc viền ...................................... Error! Bookmark not defined.
3.3.2 Thuật toán xác định góc nghiêng .............. Error! Bookmark not defined.
3.3.2.1.
3.3.2.2.

Thuật toán sử dụng phép chiếu ........... Error! Bookmark not defined.
Thuật toán sử dụng đƣờng thẳng dày. Error! Bookmark not defined.

3.4 Thực nghiệm ....................................................... Error! Bookmark not defined.
3.4.1 Môi trƣờng thực nghiệm ............................. Error! Bookmark not defined.
3.4.2 Thực nghiệm đối với các thuật toán cơ bản trên biểu mẫu động
..................................................................................... Error! Bookmark not defined.
3.4.2.1. Thực nghiệm tách chữ viết tay khỏi khung điền. .. Error! Bookmark
not defined.
3.4.2.2. Thực nghiệm xác định vị trí các khung điền thông tin .............Error!
Bookmark not defined.
3.4.2.3. Thực nghiệm xác định cấu trúc điểm nhỏ trong từng khung ...Error!
Bookmark not defined.
3.4.3 Thực nghiệm đối với các thuật toán khác.............. Error! Bookmark not

defined.
3.4.3.1. Xác định góc nghiêng của ảnh theo phƣơng pháp chiếu ..........Error!
Bookmark not defined.

6

3.4.3.2. Thực nghiệm nhận dạng đƣờng thẳng dày . Error! Bookmark not
defined.
Kết luận ........................................................................... Error! Bookmark not defined.
o TÀI LIỆU THAM KHẢO ........................................................................................... 12

7

DANH MỤC HÌNH ẢNH
Hình 2.1: Lược đồ quá trình xử lý biểu mẫu dựa trên Ngôn ngữ mô tả biểu mẫu
................................................................................... Error! Bookmark not defined.
Hình 2.2: Một hệ thống xử lý biểu mẫu văn bản....... Error! Bookmark not defined.
Hình 2.3: (a) Ảnh trước khi khử nghiêng; (b) Ảnh sau khi khử nghiêng .......... Error!
Bookmark not defined.
Hình 2.4: (a), (b), (c) : Các đối tượng trên ảnh ; (d), (e), (f) : Phân cụm các đối
tượng [17] ................................................................. Error! Bookmark not defined.
Hình 3.1. Phân tách chữ viết tay và các khung......... Error! Bookmark not defined.
Hình 3.2. Hệ thống biểu mẫu động. .......................... Error! Bookmark not defined.
Hình 3.3: Data set ..................................................... Error! Bookmark not defined.
Hình 3.4: Vùng mã hóa thông tin .............................. Error! Bookmark not defined.
Hình 3.5: Một minh họa về biểu mẫu động............... Error! Bookmark not defined.
Hình 3.6: Luồng xử lý ............................................... Error! Bookmark not defined.
Hình 3.7: Hình ảnh của chấm nhỏ ............................ Error! Bookmark not defined.

Hình 3.8: Một cấu trúc của khung ............................ Error! Bookmark not defined.
Hình 3.9: Một biểu mẫu động ................................... Error! Bookmark not defined.
Hình 3.10: Một số cấu trúc chấm nhỏ ...................... Error! Bookmark not defined.
Hình 3.11: Một lược đồ xử lý biểu mẫu động ........... Error! Bookmark not defined.
Hình 3.12 : Khung trước khi tách ............................. Error! Bookmark not defined.
Hình 3.13 : Khung sau khi đã tách chữ viết tay ........ Error! Bookmark not defined.
Hình 3.14 : Chữ viết tay sau khi đã tách khung ........ Error! Bookmark not defined.
Hình 3.15 : Phép chiếu theo chiều ngang ................. Error! Bookmark not defined.
Hình 3.16 : Phép chiếu khung theo chiều dọc .......... Error! Bookmark not defined.
Hình 3.17 : Phép chiếu theo chiều dọc các điểm ảnh ............. Error! Bookmark not
defined.
Hình 3.18: Ảnh scan có đường viền màu đen ........... Error! Bookmark not defined.
Hình 3.19: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng với một
cụm ............................................................................ Error! Bookmark not defined.
Hình 3.20: Mô tả điểm lân cận trực tiếp ................... Error! Bookmark not defined.
Hình 3.21: Mô tả điểm lân cận ................................. Error! Bookmark not defined.
Hình 3.22: Mô tả điểm nối ........................................ Error! Bookmark not defined.
Hình 3.23: Ảnh scan có đường viền màu đen và ảnh sau khi đã bóc viền đen. Error!
Bookmark not defined.
Hình 3.24: (a) Ảnh scan, các đường màu đỏ là các đường chiếu ở góc nghiêng θ.
(b) Ảnh được xấp xỉ bởi các hình bình hành ............. Error! Bookmark not defined.
Hình 3.25: (a) Ảnh scan. (b) (c) (d) Ảnh các đường chiếu đen và trắng ở các góc
nghiêng -2.50, -3.50, 20 .............................................. Error! Bookmark not defined.
Hình 3.26: (a) Ảnh scan. (b) Ảnh sau khi chính xác góc nghiêng . Error! Bookmark
not defined.
Hình 3.27. Ảnh trước và sau khi xoay đúng chiều .... Error! Bookmark not defined.
Hình 3.28. Phiếu trả lời được quét ngược chiều....... Error! Bookmark not defined.

8

MỞ ĐẦU
Nhập dữ liệu tự động đang là bài toán ngày càng thu hút nhiều sự chú ý và
đầu tƣ nghiên cứu bởi vì đây thật sự là một vấn đề quan trọng, cần thiết do khả năng
áp dụng rộng rãi vào thực tế cũng nhƣ hiệu quả mà nó mang lại. Trong bài toán này,
khử nhiễu, khử nghiêng và phân vùng ảnh là một phần có vai trò đặc biệt quan
trọng. Chức năng của nó là chính xác ảnh, tách ra các vùng đƣợc nhập thông tin,
tách chữ viết tay ra khỏi khung điền thông tin để làm đầu vào cho module nhận
dạng chữ. Trong luận văn này chúng tôi trình bày một phƣơng pháp sử dụng “cấu
trúc các chấm nhỏ” để tạo ra các khung điền thông tin. Cấu trúc các chấm nhỏ này
đƣợc tạo ra bởi rất nhiều các chấm nhỏ hoặc các đoạn thẳng nhỏ. Phƣơng pháp của
chúng tôi có những đặc điểm nổi bật sau:
 Không cần thiết kế biểu mẫu có màu sắc mà vẫn tách các ký tự chữ
viết tay ra khỏi khung điền.
 Dễ dàng tách phần chữ viết tay ra khỏi khung điền một cách nhanh
chóng và dễ dàng bằng các thuật toán xử lý ảnh đơn giản, đặc biệt
trong các trƣờng hợp chữ viết tay đè lên khung.
 Chi phí cho xử lý biểu mẫu là thấp
 Không cần biết trƣớc vị trí logic của các khung điền chữ và tìm cách
xử lý tự động các ký tự trong khung ..
Chúng tôi đã tiến hành thực nghiệm trên nhiều mẫu biểu mẫu động và thu
đƣợc những kết quả rất khả quan.

9

Từ khóa – Xử lý ảnh, Phân tích trang tài liệu, Nhận dạng, Biểu mẫu, Phép toán
hình thái, Active form.

10

CHƢƠNG 1 - Tổng quan
1.1 Đặt vấn đề
Trong thực tế, công việc nhập dữ liệu chiếm một chi phí khá lớn do khối
lƣợng dữ liệu phải nhập và công sức bỏ ra để đảm bảo việc nhập có độ chính xác
cao. Vì thế từ lâu vấn đề nhập liệu tự động đã đƣợc đầu tƣ nhiều. Nguồn dữ liệu phổ
biến nhất là các văn bản trên giấy, do đó giải pháp chủ yếu là phải lấy ảnh và nhận
dạng. Nhận dạng là bài toán đã xuất hiện khá lâu và đã đạt đƣợc nhiều thành tựu to
lớn. Tuy nhiên nhận dạng một văn bản bất kì bao gồm cả các văn bản có lẫn chữ
viết tay hay hình ảnh luôn là một bài toán khó và hiện nay vẫn chƣa thật sự có giải
pháp hoàn chỉnh.
Trên thế giới, hiện đã có nhiều ứng dụng liên quan đến vấn đề nhận dạng
văn bản hay nhập dữ liệu tự động. Có thể kể đến nhƣ : sản phẩm FineReader, Scan
To Office của hãng ABBYY, Smart scan Xpress của Pegasus Image, các ứng dụng
chấm thi tự động …Ở Việt Nam cũng đã có các ứng dụng nhận dạng văn bản nhƣ
VNDocR của Viện Công nghệ Thông tin hay ImageScan của CardPro. Đây là các
ứng dụng nhận dạng chữ in. Việc nhận dạng chữ viết tay đang còn là một thách
thức. Một số nghiên cứu về nhận dạng chữ viết tay đã đƣợc thực hiện tại Viện
CNTT và Bộ môn Công nghệ Phần mềm. Tuy nhiên các ứng dụng này hiện vẫn còn
rất nhiều hạn chế do khả năng nhận dạng chữ viết tay chƣa đạt đƣợc độ chính xác
cần thiết để có thể áp dụng rộng rãi trên thực tế.
Có hai đối tƣợng văn bản cần nhận dạng có đặt trƣng khác nhau đòi hỏi có
các phƣơng pháp xử lý khác nhau. Đó là nhận dạng văn bản phi cấu trúc và nhận
dạng văn bản kiểu biểu mẫu với các dữ liệu chữ đƣợc sắp xếp trong những vùng xác
định. Cùng với sự phát triển của công nghệ xử lý ảnh hiện nay, các thuật toán nhận
dạng ngày càng chính xác và đƣa ra đƣợc các kết quả đáng tin cậy. Ngay cả đối với
chữ viết tay cũng có thể đạt đƣợc độ chính xác cao với điều kiện là chỉ nhận dạng
từng chữ riêng biệt và chữ viết đẹp. Với các văn bản thông thƣờng, ta khó có thể đạt

11

đƣợc điều này. Tuy nhiên, các biểu mẫu nhập liệu là kiểu văn bản có cấu trúc và ta
có thể đƣa ra một số quy tắc ràng buộc để tăng độ chính xác cho việc nhận dạng chẳng hạn nhƣ: các chữ đƣợc viết riêng rẽ trên các ô riêng biệt của các vùng nhập
liệu. Mặt khác, việc nhận dạng chữ viết không cần thiết phải tiến hành trên toàn bộ
ảnh của tài liệu mà chỉ giới hạn ở những vùng nhập dữ liệu. Đặc điểm này cũng cho
phép ta tiếp cận bài toán một cách có hiệu quả hơn, chẳng hạn có thể sử dụng các
thông tin sẵn có từ thiết kế biểu mẫu làm tham số nhận dạng. Một khía cạnh khác
của nhận dạng biểu mẫu tài liệu là các dữ liệu nhận dạng đƣợc của mỗi vùng của
biểu mẫu sẽ phải đƣợc tự động gắn vào một trƣờng dữ liệu xác định của ứng dụng.
Luận văn này chỉ giới hạn tập trung trình bày về quá trình nhận dạng các
vùng dữ liệu, trích chọn ra chữ viết tay để đƣa vào module nhận dạng chữ tiếng
Việt. Cụ thể, chúng tôi đề xuất sử dụng “biểu mẫu động” và các thuật toán xử lý
trên biểu mẫu động, bao gồm xác định các khung điền thông tin, tách chữ viết tay ra
khỏi khung điền, mã hóa thông tin vào khung điền, giải mã các thông tin từ khung
điền dựa vào cấu trúc các điểm nhỏ. Thêm vào đó, chúng tôi cũng sẽ đề xuất một
số thuật toán hỗ trợ để nâng cao tỉ lệ nhận dạng đúng. Các giải pháp thực nghiệm
bao gồm các công việc cụ thể nhƣ sau:
 Các thuật toán xử lý biểu mẫu động :
- Thuật toán xác định các khung điền thông tin.
- Thuật toán tách chữ viết tay ra khỏi khung điền thông tin và ngƣợc lại.
- Thuật toán giải mã các thông tin.
 Các thuật toán nâng cao độ chính xác:
-

Thuật toán bóc biên.

-

Thuật toán chỉnh độ nghiêng dựa vào phép chiếu.

-

Thuật toán chỉnh độ nghiêng dựa vào đƣờng thẳng dày.

12

 Thực nghiệm
- Thử nghiệm độ chính xác của các thuật toán.
- Đánh giá kết quả, hiệu quả của thuật toán và nhận xét.

1.2 Nội dung và cấu trúc của luận văn
Bài toán con đƣợc thực hiện trong khoá luận này là bài toán phân vùng ảnh
và tách ra đƣợc các chữ viết tay để phục vụ cho module nhận dạng chữ viết tay.
Nắm bắt đƣợc khó khăn cũng nhƣ những đặc trƣng của bài toán này, chúng tôi đã
áp dụng một giải pháp mới, đó là sử dụng biểu mẫu động, có độ chính xác cao trong
việc tiền xử lý biểu mẫu, phân vùng và tách ra đƣợc các chữ viết tay để nhận dạng.
Với nội dung chính là trình bày những lý thuyết cơ bản về tiền xử lý ảnh,
phân vùng ảnh khóa luận đƣợc tổ chức nhƣ sau:
Chƣơng 1: Tổng quan
Phần đầu của chƣơng giới thiệu về bài toán nhập dữ liệu tự động nói chung:
tình hình Việt Nam và thế giới, các thành tựu đã đạt đƣợc trong lĩnh vực nhận dạng
chữ viết, những khó khăn cũng nhƣ các đặc trƣng của bài toán nhận dạng biểu mẫu
nhập dữ liệu so với các bài toán nhận dạng khác. Phần tiếp theo giới thiệu về hệ
thống chung mà chúng tôi đang tiến hành nghiên cứu và xây dựng: nghiên cứu và
xây dựng hệ thống nhập dữ liệu tự động bằng nhận dạng hình ảnh, phạm vi giới hạn
và quy trình giải quyết bài toán. Từ đó nêu lên nội dung mà chúng tôi nghiên cứu và
thực hiện trong bài toán chung.

Chƣơng 2: Tổng quan một số phƣơng pháp phân vùng ảnh và khử nghiêng
Chƣơng hai trình bày về các phƣơng pháp phân vùng ảnh, khử nghiêng, các
khái niệm và tầm quan trọng của khử nghiêng và phân vùng ảnh trong nhận dạng
biểu mẫu. Chƣơng này cũng xác định các ƣu nhƣợc điểm và phạm vi áp dụng của
mỗi phƣơng pháp để từ đó lựa chọn giải pháp thích hợp.
Chƣơng 3: Đề xuất giải pháp sử dụng biểu mẫu động

13

Chƣơng này trình bày về phần việc chính mà tôi đã thực hiện trong đề tài
chung: Giải pháp sử dụng hệ thống xử lý biểu mẫu động cho việc phân vùng ảnh và
tách chữ viết tay. Nội dung của chƣơng tập trung vào:
 Đƣa ra các khái niệm về biểu mẫu động và hệ thống xử lý biểu mẫu
động.
 Trình bày các thuật toán cơ bản ứng dụng cho việc nhận dạng biểu mẫu
động.
 Đánh giá ƣu và nhƣợc điểm của các thuật toán này.
 Mô tả chi tiết quá trình thực nghiệm các thuật toán đã đề xuất.
Chƣơng 4: Kết luận
Chƣơng bốn tổng kết lại những kết quả đạt đƣợc và những việc cần đƣợc
tiếp tục thực hiện trong tƣơng lai.

14

o TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
STT
[1]

Phan Văn Thuận & Ngô Quốc Tạo:“ Kết hợp một số kỹ thuật xử lý ảnh
nâng cao cho xử lý biểu mẫu động và ứng dụng”, Hội thảo khoa học quốc
gia lần thứ 3-Nghiên cứu cở bản và ứng dụng công nghệ thông tin, 10-2007

[2]

Phan Văn Thuận & Đào Thanh Khiết: “Xử lý tự động phiếu điều tra”, Khóa
luận tốt nghiệp, đại học Công nghệ, đại học Quốc gia Hà nội, 5-2004.

[3]

Trần Thanh Phúc & Đinh Văn Phƣơng: “ Nghiên cứu và xây dựng hệ thống
nhập tài liệu tự động bằng nhận dạng quang học”, Khóa luận tốt nghiệp , đại
học Công nghệ, đại học Quốc gia Hà nội, 5-2006.
Tài liệu tiếng Anh

STT
[4]

Yoji Maeda, Masaki Nakagawa: Design of paper based user interface for
editing document, Proc. SPIE, Vol.4307, pp184- 192 (2001)

[5]

/>
[6]

Koichi Kise, Yasuo Miki, Keinosuke Matsumoto: Backgrounds as
Information Carriers for Printed Documents, Proc.15th ICPR’2000, Vol.4,

pp380-384 (2000.9)

[7]

Bilan Zhu, Masaki Nakagawa: Informationd Encoding Into and Decoding
From Dot Texture for Active Form, Proc. ACM Symposium on Document
Engineering, pp105- 144 (2003.11)

[8]

Taro SHIMAMURA Bilan ZHU Atsushi MASUDA Motoki ONUMA
Takeshi SAKURADA Masaki NAKAGAWA: “A Prototype of An Active
Form System”, Seventh International Conference on Document Analysis
and Recognition (ICDAR), Edinburgh, Scotland, pp921-925 (2003.8).

15

[9]

Koichi Kise, Yasuo Miki, Keinosuke Matsumoto: Backgrounds as
Information Carriers for Printed Documents, Proc.15th ICPR’2000, Vol.4,
pp380-384 (2000.9)

[10]

Bilan Zhu, Taro Shimamura, Masaki Nakagawa:Document processing
methods for active form, Proc of the 3rd IASTED International Conference
Visualation, Image and Image processing, September 8-10 -2003, Spain

[11]

S.V. Rice, F.R Jenkins, and T.A. Nartker. The Fifth Annual Test of OCR
Accuracy. Technical Report TR-96-01, Information Science Research
Institute, University of Nevada, Las Vegas, April 1996

[12]

RM. Haralick. Document Image Understanding: Geometric and Logical
Layout. In IEEE Computer Society Con]. Computer Vision and Pattern
Recognition (CVPR), pages 385390, Seattle, Washington, 1994.

[13]

Y.Y. Tang, S.\\I. Lee, and C.Y. Suen. Automatic Document Processing: a
Survey. Pattern Recognition, 29(12):19311952, 1996.

[14]

A.K. Jain and B. Yu. Document Representation and Its Application to Page
Decomposition. Technical Report MSUCPS:TR96-63, Michigan State
University, East Lansing, MI, December 1996.

[15]

L. O'Gorman and R Kasturi. Dowment Image Analysis. IEEE Computer
Society Press, Los Alamitos, CA, 1995.

[16]

F. Fignoni, S. Messelodi, and C.M. Modena. Review of the State of the Art
in Optical Character Recognition. Part 1: Machine Printed Documents.
Technical Report #9607-03, IRST, Trento, Italy, June 1996.

[17]

J.M. White and G.D. Rohrer. Image Thresholding for Optical Character
Recognition and Other Apllications Requiring Character Image Extraction.
IBM Journal of Besercl; and Development, 27(4):400411, July 1983.

[18]

T. Taxt, P.J. Flynn, and A.K. Jain. Segmentation of Document Images. IEEE
Transaction on Pattern Analysis and Machine Intelligence, 1(12):13221329,
December 1989.

[19]

L. O'Gorman. Binarization and Multithresholding of Document Images

16

Using Connectivity. CVGIP: Graphical Models and Image Processing,
56(6):494506, 1994.
[20]

H.-S. Don. A Noise Attribute Thresholding Method for Document Image
Binarization. In Proc. of the 3th International Conference on Document
Analysis and Recognition, pages 231234, Montreal, Canada, August 1995.

[21]

Y. Liu and S.N. Srihari. Document Image Binarization Based on Texture
Features. IEEE Transactions on Pattern Analysis and lldachine Intelligence,
19(5):540544, May 1997.

[22]

J. Sauvola, T. Seppanen, S. Haapakoski, and M. Pietikainen. Adaptive
Document Binarization. In Proc. of the 4th International Conference on
Dowment Analysis and Recognition, pages 147152, Ulm, Germany, August
1997.

[23]

P.W. Palumbo, P. Swarninathan, and S.N. Srihari. Document image
binarization: Evaluation of algorithms. In Proc. of SPIE Symposium.
Applications of Digital Image Processing IX, volume 697, pages 278 285,
San Diego, California, August 1986.

[24]

O.D. Trier and T. Taxt. Evaluation of Binarization Methods for Document
Images. IEEE Transactions on Pattern Analysis and lldachine Intelligence,
17(3):312315, March 1995.

[25]

A.T. Abak, U. Baris, and B. Sankur. The Performance Evaluation of

Thresholding Algorithms for Optical Character Recognition. In Proc. of the
4th International Conference on Dowment Analysis and Recognition, pages
697700, Ulm, Germany, August 1997.

[26]

\"1. Post!. Detection of linear oblique structures and skew scan in digitized
documents. In Proc. of the 8th International Conference on Pattern
Recognition, pages 687689, Paris, France, 1986.

[27]

H.S. Baird. The skew angle of printed documents. In Proc. of the Conference Society of Photographic Scientists and Engineers, volume 40, pages
2124, Rochester, NY, May, 20-21 1987.

17

[28]

G. Ciardiello, G. Scafuro, M.T. Degrandi, M.R. Spada, and M.P. Roccotelli.
An experimental system for office document handling and text recognition.
In Proc. of the 9th International Conference on Pattern Recognition, volume
2, pages 739743, Roma, Italy, November, 14-17 1988.

[29]

Y. Ishitani. Document Skew Detection Based on Local Region Complexity.
In Proc. of the 2nd International Conference on Dowment Analysis and
Recognition, pages 4952, 'I'sukuba, Japan, October 1993. IEEE Computer

Society.

[30]

A. Bagdanov and J. Kanai. Projection Profile Based Skew Estimation
Algorithm for JBIG Compressed Images. In Proc. of the 4th International
Conference on Dowment Analysis and Recognition, pages 401405, Ulm,
Germany, August 1997.

[31]

S.N. Srihari and V. Govindaraju. Analysis of Textual Images Using the
Hough Transform. Machine Vision and Applications, 2(3):141 153, 1989.

[32]

S. Hinds, J. Fisher, and D. D'Amato. A document skew detection method
using run-length encoding and the Hough transform. In Proc. of the 10th
International Conference on Pattern Recognition, pages 464468, Atlantic
City, NJ, June, 17-21 1990.

[33]

A.L. Spitz. Skew Determination in CCITT Group 4 Compressed Document
Images. In Proc. of the Symposium on Document Analysis and Information
Retrieval, pages 1125, Las Vegas, 1992.

[34]

D.S. Le, G.R. Thoma, and H. Wechsler. Automated Page Orientation and

Skew Angle Detection for Binary Document Images. Pattern Recognition,
27(10):13251344, 1994.

[35]

Y. Min, S.-B. Cho, and Y. Lee. A Data Reduction Method for Efficient
Document Skew Estimation Based on Hough Transformation. In Proc. of
the 13th International Conference on Pattern Recognition, pages 732736,
Vienna, Austria, August 1996. IEEE Press.

[36]

U. Pal and B.B. Chaudhuri. An improved document skew angle estimation

18

technique. Pattern Recognition Letters, 17(8):899904, July 1996.
[37]

B. Yu and A.K. Jain. A Robust and Fast Skew Detection Algorithm for
Generic Documents. Pattern Recognition, 29(10):15991629, 1996.

[38]

A. Hashizume, P.S. Yeh, and A. Rosenfeld. A method of detecting the
orientation of aligned components. Pattern Recognition Letters, 4:125132,
1986.

[39]

L. O'Gorman. The Document Spectrum for Page Layout Analysis.
IEEE Transactions on Pattern Analysis and Machine Intelligence,
15(11):11621173, 1993.

[40]

R. Smith. A Simple and Efficient Skew Detection Algorithm via Text Row
Accumulation. In Proc. of the 3th International Conference on Dowment
Analysis and Recognition, pages 11451148, Montreal, Canada, August
1995.

[41]

T. Akiyama and N. Hagita. Automated Entry System for Printed
Documents. Pattern Recognition, 23(11):11411154, 1990.

[42]

H. Yan. Skew Correction of Document Images Using Interline CrossCorrelation. CVGIP: Graphical Models and Image Processing,
55(6):538543, November 1993.

[43]

B. Gatos, N. Paparnarkos, and C. Charnzas. Skew Detection and Text Line
Position Determination in Digitized Documents. Pattern Recognition,
30(9):15051519, 1997.

[44]

J. Sauvola and M. Pietikainen. Skew Angle Detection Using Texture
Direction Analysis. In Proc. of the 9th Scandinavian Conference on Image
Analysis, pages 10991106, Uppsala, Sweden, June 1995.

[45]

C. Sun and D. Si. Skew and Slant Correction for Document Images Using
Gradient Direction. In Proc. ofthe 4th International Conference on
Document Analysis and Recognition, pages 142146, Ulm, Germany, August
1997.

[46]

S. Chen and RM. Haralick. An Automatic Algorithm for Text Skew

19

Estimation in Document Images Using Recursive Morphological transforms.
In Proc. of the first IEEE International Conference on Image Processing,
pages 139143, Austin, Texas, 1994.
[47]

H. K. Aghajan, B. H. Khalaj, and T. Kailath. Estimation of skew angle in
text-image analysis by SLIDE: subspace-based line detection. Machine
Vision and Applications, 7:267276, 1994.

[48]

H.S. Baird. Anatomy of a Versatile Page Reader. Proc. of the IEEE,

80(7):10591065, 1992.

[49]

P.V.C. Hough. Methods and means for recognizing complex patterns. US
Patent #3,069,654, December 18, 1962.

[50]

E.R Davies. Machine Vision: Theory, Algorithms, Practicalities. Academic
Press, 1992.

[51]

S. Chen and RM. Haralick. Recursive Erosion, Dilation, Opening and
Closing Transforms. IEEE Transaction on Image Processing, 4(3):335345,
March 1995.

[52]

A.P. Dias. Minimum Spanning Trees for Text Segmentation. In Proc. of
Fifth Annual Symposium on Dowment Analysis and Information Retrieval,
Las Vegas, Nevada, 1996.

[53]

H.S. Baird. Global-tn-Local Layout Analysis. In Proc. of the IAPR
Workshop on Syntactic and Structnrol Pattern Recognition, pages 136 147,
Pont-a-Mousson, France, September 1988.

[54]

H.S. Baird, S.E. Jones, and S.J. Fortune. Image Segmentation using ShapeDirected Covers. In Proc. of the 10th International Conference on Pattern
Recognition, Atlantic City, NJ, June, 17-211990.

[55]

H.S. Baird. Background Structure in Document Images. In Advances in
Stmctural and Syntactic Pattern Recognition, pages 253269. World
Scientific, Singapore, 1992.

[56]

J. Ha, RM. Haralick, and LT. Phillips. Document Page Decomposition by
the Bounding-Box Projection Technique. In Proc. 0/ the 3th International

20

Conference on Dowment Analysis and Recognition, Montreal, Canada,
August 1995.
[57]

S. Chen, RM. Haralick, and LT. Phillips. Extraction of Text Layout
Structures on Document Images based on Statistical Characterization. In
ISe1T/SPIE Symposium on Electronic Imaging Science and Technology,
Dowment Recognition II, pages 128139, San Jose', USA, 1995.

[58]

E.G. Johnston. SHORT NOTE: Printed Text Discrimination. Computer
Graphics and Image Processing, 3:8389, 1974.

[59]

F. Heines and J. Lichter. Layout extraction of mixed mode documents.
Machine Vision and Applications, 7:237246, 1994.

[60]

O. Deforges and D. Barba. Segmentation of Complex Documents Multilevel
Images: a Robust and Fast Text Bodies-Headers Detection and Extraction
Scheme. In Proc. 0/ the 3th International Conference on Document Analysis
and Recognition, pages 770773, Montreal, Canada, August 1995.

[61]

P. Parodi and G. Piccioli. An Efficient Pre-Processing of MixedContent
Document Images for OCR Systems. In Proc. 0/ the 13th International
Conference on Pattern Recognition, pages 778782, Vienna, Austria, August
1996. IEEE Press.

[62]

M.B.H. Ali, F. Fein, F. Heines, T. Jager, and A. Weigel. Document Analysis
at DFKL Part 1: Image Anlysis and Text Recognition. Technical Report RR95-02, German Research Center for Artificial Intelligence (DKFI),
Kaiserslautern, Germany, March 1995.

[63]

K.J. Wong, RG. Casey, and F.M. Wahl. Document Analysis System. IBM
Journal 0/ Resercli and Development, 26(6):647656, 1982.

[64]

G. Nagy and S.C. Seth. Hierarchical Representation of Optically Scanned
Documents. In Proc. 0/ the 7th International Conference on Pattern
Recognition, pages 347349, Montreal, Canada, 1984.

[65]

D. Wang and S.N. Srihari. Classification of Newspaper Image Blocks Using
Texture Analysis. Computer Vision, Graphics and Image Processing,

21

47:327352, 1989.
[66]

G. Nagy, S. Seth, and M. Viswanathan. A Prototype Document Image
Analysis System for Technical Journals. Computer, 25(7):1022, 1992.

[67]

M. Krishnamoorthy, G. Nagy, S. Seth, and M. Viswanathan. Syntactic
Segmentation and Labeling of Digitized Pages from Technical Journals.
IEEE Transactions on Pattern Analysis and lldachine Intelligence,
15(7):737747, 1993.

[68]

D. Sylwester and S. Seth. A Trainable, Single-Pass Algorithm for Column
Segmentation. In Proc. of the 3th International Conference on Dowment
Analysis and Recognition, pages 615618, Montreal, Canada, August 1995.

[69]

T. Pavlidis and J. Zhou. Page Segmentation and Classification. CVGIP:
Graphical Models and Image Processing, 54(6):484496, 1992.

[70]

A.K. Jain and S. Bhattacharjee. Text Segmentation using Gabor filters for
automatic document processing. lldachine Vision and Applications,
5(3):169184, 1992.

[71]

Y.Y. Tang, H. Ma, X. Mao, D. Liu, and C.Y. Suen. A New Approach to
Document Analysis Based on Modified Fractal Signature. In Proc. of the 3th
International Conference on Dowment Analysis and Recognition, pages
567570, Montreal, Canada, August 1995.

[72]

N. Normand and C. Viani-Gaudin. A Background Based Adaptive Page
Segmentation Algorithm. In Proc. of the 3th International Conference on
Dowment Analysis and Recognition, pages 138141, Montreal, Canada,
August 1995.

[73]

K. Kise, O. Yanagida, and S. Takarnatsu. Page Segmentation Based on
Thinning of Background. In Proc. of the 13th International Conference on
Pattern Recognition, pages 788792, Vienna, Austria, August 1996. IEEE
Press.

[74]

O.T. Akindele and A. Belaid. Page Segmentation by Segment Tracing. In
Proc. of the 2nd International Conference on Dowment Analysis and

22

Recognition, pages 341344, 'Tsnkuba, Japan, October 1993. IEEE
Computer Society.
[75]

L.A. Fletcher and R. Kasturi. A Robust Algorithm for Text String
Separation from Mixed Text/Graphics Images. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 10(6):910918, 1988.

[76]

A.A. Zlatopolsky. Automated document segmentation. Pattern Recognition
Letters, 15(7):699704, July 1994.

[77]

S.-Y. Wang and T. Yagasaki. Block Selection: A Method for Segmenting
Page Image of Various Editing Styles. In Proc. of the 3th International
Conference on Dowment Analysis and Recognition, pages 128133,
Montreal, Canada, August 1995.

[78]

A. Simon, J.-C. Pret, and A.P. Johnson. A Fast Algorithm for BottomUp
Document Layout Analysis. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 19(3):273277, 1997.

[79]

T. Saitoh and T. Pavlidis. Page Segmentation without Rectangle Assumption. In Proc. of the 11th International Conference on Pattern
Recognition, pages 277280, The Hague, 1992.

[80]

Y. Hirayama. A Block Segmentation Method For Document Images with
Complicated Column Structures. In Proc. of the 2nd International
Conference on Dowment Analysis and Recognition, pages 91 94, T'sukuba,
Japan, October 1993. IEEE Computer Society.

[81]

S. Tsujimoto and H. Asada. Major components of a Complete Text Reading
System. Proceedings of the IEEE, 80(7):11331149, 1992.

[82]

F. Lebourgeois, Z. Bublinski, and H. Emptoz. A Fast and Efficient Method
For Extracting Text Paragraphs and Graphics from Unconstrained
Documents. In Proc. of the 11th International Conference on Pattern
Recognition, pages 272276, The Hague, 1992.

[83]

W. Scherl, F. Wahl, and H. Fuchsberger. Automatic Separation of Text,
Graphic and Picture Segments in Printed Material. In E.S. Gelsema and L.N.

23

Kanal, editors, "Pattern Recognition in Practice", pages 213221. NorthHolland, Amsterdam, 1980.
[84]

J. Sauvola and M. Pietikainen. Page Segmentation and Classification using
fast Feature Extraction and Connectivity Analysis. In Proc. of the 3th
International Conference on Dowment Analysis and Recognition, pages
11271131, Montreal, Canada, August 1995.

[85]

A.K. Jain and Y. Zhong. Page Layout Segmentation based on Texture
Analysis. Pattern Recognition, 29(5):743770, 1996.

[86]

K. Etemad, D.S. Doermann, and R Chellappa. Multiscale Segmentation of

Unstructured Document Pages Using Soft Decision Integration. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 19(1):9296,
January 1997.

[87]

F.Y. Shih and S.S. Chen. Adaptive Document Block Segmentation and
Classification. IEEE Transactions on Systems, Man, and Cybernetics,
26(5):797802, 1996.

[88]

R Sivararnaakrishnan, LT. Phillips, J. Ha, S. Subrarnanium, and RM.
Haralick. Zone Classification in a Document using the Method of Feature
Vector Generation. In Proc. of the 3th International Conference on
Document Analysis and Recognition, pages 541544, Montreal, Canada,
1995.

[89]

D.X. Le, G.R Thoma, and H. Wechsler. Classification of Binary Document
Images into Textual or Nontextual Data Blocks using Neural Network
Models. Machine Vision and Applications, 8:289304, 1995.

[90]

O. Deforges and D. Barba. A Fast Multiresolution Text-line and Non Textline Structure Extraction and Discrimination Scheme for Document Image
Analysis. In Proc. of the International Conference on Image Processing,
pages 134138, Austin, Texas, 1994.

[91]

D. Ittner. Automatic Inference of Textline Orientation. In Proc. of the
Second Annual Symposium on Document Analysis and Information

24

Retrieval, Las Vegas, Nevada, 1993.
[92]

J. Fisher, S. Hinds, and D. D'Amato. A Rule-Based System For Document
Image Segmentation. In Proc. of the 10th International Conference on
Pattern Recognition, pages 567572, Atlantic City, NJ, June, 17-21 1990.

[93]

N. Amamoto, S. Torigoe, and Y. Hirogaki. Block segmentation and Text
Area Extraction of Vertically/Horizontally Written Document. In Proc. of
the 2nd International Conference on Dowment Analysis and Recognition,
pages 341344, Tsukuba, October 1993. IEEE Computer Society.

[94]

G. Nagy, S.C. Seth, and S.D. Stoddard. Document analysis with an expert
system. In Proceedings Pattern Recognition in Practice II, Amsterdam, The
Neaderlands, June, 19-21 1985.

[95]

K.S. Fu. Applications of Pattern Recognition. CRC Press, Boca Raton, FL,
1982.

[96]

LT. Phillips, S. Chen, and R.M. Haralick. English Document Database
Standard. In Proc. of the 2nd International Conference on Dowment
Analysis and Recognition, pages 478483, Tsukuba, Japan, October 1993.
IEEE Computer Society.

[97]

G. Nagy. At the Frontiers of OCR. Proceedings of the IEEE,
80(7):10931100, 1992.

[98]

J. Kanai, S.V. Rice, and T.A. Nartker. A Preliminary Evaluation of
Automatic Zoning. Technical Report TR-93-02, Information Science
Research Institute, University of Nevada, Las Vegas, April 1993.

[99]

J. Kanai, T.A. Nartker, S.V. Rice, and G. Nagy. Performance Metrics for
Document Understanding Systems. In Proc. of the 2nd International
Conference on Dowment Analysis and Recognition, pages 424427,
'Tsnkuba, Japan, October 1993. IEEE Computer Society.

[100] J. Kanai, S.V. Rice, T. Nartker, and G. Nagy. Automated Evaluation of
OCR Zoning. IEEE Transactions on Pattern Analysis and Machine

Intelligence, 17(1):8690, January 1995.

25

[101] S. Randriamasy, L. Vincent, and B. Wittner. An Automatic Benchmarking
Scheme for Page Segmentation. In L. Vincent and T. Pavlidis, editors,
SPIE/SPSE Dowment Recognition, volume 2181, San Jose', CA, February
1994. SPIE.
[102] B.A. Yanikoglu and L. Vincent. Ground-truthing and Benchmarking
Document Page Segmentation. In Proc. of the 3th International Conference
on Dowment Analysis and Recognition, pages 601604, Montreal, Canada,
August 1995.
[103] B.A. Yanikoglu and L. Vincent. Pink Panther: A Complete Environment for
Ground-truthing and Benchmarking Document Page Segmentation.
Technical report, Xerox Desktop Document Systems, February 1996.
[104] J. Ha, LT. Phillips, and R.M. Haralick. Document Page Decomposition
Using Bounding Boxes of Connected Components of Black Pixels. In
ISf?1T/SPIE Symposium on Electronic Imaging Science and Technology,
Dowment Recognition II, pages 140151, San Jose', USA, 1995.
[105] J. Liang, R Rogers, RM. Haralick, and LT. Phillips. UW-ISL Document
Image Analysis Toolbox: An Experimental Environment. In Proc. of the 4th
International Conference on Dowment Analysis and Recognition, pages
984988, Ulm, Germany, August 1997.
[106] E. Ukkonen. Algorithms for approximate string matching. Information and
Control, 64:100118, 1985.
[107] S. Latifi. How can permutations be used in the evaluation of zoning algorithms? International Journal of Pattern Recognition and Artificial
Intelligence, 10(3):223237, 1996.
[108] Adobe Systems Inc. Post.Script Language Reference Manual, 2nd edition,
December 1990.

[109] J.M. Smith and RS. Stutely. SGML: The Users' Guide to ISO 8879.
Chichester/New York: Ellis Horwood/Halsted, 1988.
[110]

Horak. Office document architecture and office document interchange

Nhận dạng các biểu mẫu tài liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về