- 8 -
TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH
TRANG TÀI LIỆU
Sinh viên: Nguyễn văn Dũng Cán bộ hướng dẫn:
Mã SV: 0220056 PGS.TS: Ngô Quốc Tạo
Email:
1. Tổng quan
Hầu hết tất cả tài liệu hiện nay của
con người đều đã được số hóa và được lưu
trữ trong máy tính. Nhưng tài liệu giấy thì
vẫn và sẽ còn tồn tại vì nó vẫn không thể
thiếu được trong cuộc sống hằng ngày. Việc
chuyển đổi từ tài liệu điện tử sang tài liệu
giấy có thể đựợc thực hiện dễ dàng bằng máy
in, máy fax. Nhưng làm thế nào để chuyển từ
tài liệu giấy sang tài liệu điện tử để máy tính
có thể hiểu được? Câu hỏi đó đã khiến các
chuyên gia trong lĩnh vực công nghệ thông
tin phải đầu tư, nghiên cứu trong nhiều thập
kỷ qua, và rồi hệ thống nhận dạng quang học
(OCR - Optical Character Recognize system)
đã ra đời và đáp ứng được phần nào nhu cầu
của cuộc sống. Bên cạnh đó vẫn còn bao
thách thức lớn lao cho nghành xử lý ảnh, vì
xử lý ảnh chính là giai đoạn mấu chốt trong
hệ thống nhận dạng quang học (OCR).
Phân tích trang tài liệu (Document layout
analysis) là một ứng dụng của xử lý ảnh, nó
sẽ giải quyết bài toán của ta ở trên, tức là làm
thế nào để có thể chuyển đổi từ tài liệu giấy
thành tài liệ
u điện tử. Tài liệu giấy sau khi
được scan bằng máy scaner thành một file
ảnh, công việc của phân tích trang tài liệu sẽ
phân tích file ảnh đó để nhận biết nội dung
của tài liệu đó là gì. Tức là sau khi phân tích
thì chúng ta thực sự có được một tài liệu điện
tử mà cả con người và máy tính đều có thể
hiểu được.
2. Cấu trúc của trang tài liệu
Cấu trúc của một trang tài liệu bao gồm hai
phần:
+ Cấu trúc vật lý (hay cấu trúc hình học).
+ Cấu trúc logic.
2.1 Cấu trúc vật lý
Một trang tài liệu được hợp thành từ
nhiều khối, nhiều đoạn. Mỗi khối này là tập
hợp của các thành phần có các thuộc tính
giống nhau như: font chữ, kích thuớc,
màu,.v..v. Và mỗi khối đều mang một ý
nghĩa riêng. Cấu trúc vật lý là thể hiện được
thông tin của các khối và mối quan hệ giữa
chúng trong trang tài liệu. Hình dướ
i đây sẽ
minh họa cấu trúc vật lý của một trang tài
liệu:
(Hình 1:Hình minh họa cấu trúc vật lý của
trang tài liệu)
2.2 Cấu trúc logic
Cấu trúc logic nói lên ý nghĩa của các thành
phần đó trong trang tài liệu ấy, tức là mỗi
khối, mỗi thành phần trong trang tài liệu sẽ
nói lên điều gì. Một trang tài liệu có thể được
tạo bởi rất nhiều đoạn, nhiều thành phần khác
nhau, mỗi thành phần đó đều nói lên một ý
nghĩa nào đó cho người đọc. Thông thường
một trang tài liệu có thể có các phần sau:
phần đầu (header), phần cuối (footer), phần
tiêu đề trang (title), phần tóm tắt trang
(abstract), các đoạn trong thân trang
(paragraph), .v..v.
3. Các phương pháp phân tích
1H
2B
10H
11B
3B 4H
18H
5H
1
2
B
14B
1
6
B
15
6B
8B
7B
9B
1
3
B
17B
- 9 -
Dựa vào mô hình phân tích, người ta
chia các phương pháp phân tích trang tài liệu
thành ba loại:
+ Mô hình phân tích từ trên xuống (Top-
down).
Mô hình phân tích từ trên xuống (top-down)
là mô hình được tiến hành phân tích bắt đầu
từ toàn bộ trang tài liệu, sau đó sẽ phân tích
trang tài liệu đó thành các vùng nhỏ hơn, các
vùng nhỏ hơn này lại được phân tích thành
các vùng nhỏ hơn nữa, thủ tục tách cứ được
lặp đi, lặp lại nhiều lần cho đến khi thỏa mãn
các tiêu chuẩn đề ra của bài toán.
+ Mô hình phân tích từ dưới lên (Bottom-up).
Mô hình phân tích từ dưới lên là mô hình
được tiến hành phân tích từ một hay một
nhóm các pixel liền nhau, sau đó lại nhóm
các pixel nhỏ liền nhau đó thành một khối lớn
hơn (có thể là ký tự), rồi lại nhóm các khối
pixel này lại thành một khối lớn hơn nữa, và
cứ tiếp tục như vậy cho đến khi phân tích
được toàn bộ trang tài liệu.
+ Mô hình phân tích lai (Kết hợp hai phương
pháp Top-down và Bottom-up).
Mô hình phân tích lai (hybrid) là mô hình kết
hợp cả hai mô hình top-down và bottom-up,
nó tận dụng các ưu điểm và khắc phục các
khuyết điểm của cả hai mô hình trên. Nổi bật
là hai ưu điểm: không yêu cầu thông tin về
ảnh, và giảm được thời gian tính toán.
4. Các phương pháp và kỹ thuật tiền xử lý
Mục đích của việc tiền xử lý này là làm sạch
tài liệu, để việc phân tích được chính xác và
hiệu quả hơn. Có thể kể đến một số vi
ệc như:
lọc nhiễu (Noise Cleaning), dò và xử lý độ
nghiêng của trang tài liệu (Skew Detecting
and Processing).
4.1. Lọc nhiễu.
Nhiễu ảnh thường xuất hiện khi scan ảnh,
photo ảnh hay do ảnh lâu ngày bị nhạt đi.
Nhiễu thường gặp trong các ảnh nhị phân,
chúng có thể là các đốm đen, nhỏ, phân bố
ngẫu nhiên trên nền trắng hoặc những đốm
trắng phân bố ngẫu nhiên trên nền đen. Trước
khi tiến hành phân tích trang tài liệu thì ph
ải
tiến hành công việc loại bỏ nhiễu, đây là
bước hết sức quan trọng.
Có thể loại bỏ nhiễu bằng cách xử lý sau khi
ảnh đã được nhị phân hóa hoặc sử dụng một
số kỹ thuật như: kỹ thuật hình thái
(morphological methods)….
4.2 Xử lý độ nghiêng của trang tài liệu.
Một trang tài liệu chuẩn là trang tài liệu có
góc nghiêng bằng không, tức là các dòng văn
bản theo hướng ngang hay hướng dọc đều
song song với các cạnh của trang tài liệu, tuy
nhiên, trong quá trình scan hoặc copy mà độ
nghiêng của trang tài liệu khác không và dẫn
tới hiện tượng văn bản trong trang tài liệu bị
nghiêng so với lề của trang.
Dò và xử lý độ nghiêng của tài liệu là
tìm các dòng bị nghiêng và xử lý chúng sao
cho thẳng hàng. Có một số phương pháp dò
và xử lý độ nghiêng của văn bản,
+ Phương pháp dựa trên phép chiếu nghiêng
(Projection Profiles).
+ Phương pháp dựa vào phép biến đổi
Hough (Hough Transform).
+ Phương pháp láng giềng gần nhất (Nearest
-Neighbor Methods).
+ Phương pháp dựa vào sự tương quan chéo
(Cross Correlation).
+ Một số phương pháp khác thì dựa vào sự
phân tích gradient (Gradient Analysis), dựa
vào phân bố Fourier, .v..v.
5. Tài liệu tham khảo
[1]. R. Cattoni, T. Coianiz, S. Messelodi, C. M.
Modena. Geometric Layout Analysis Techniques for
Document Image Understanding. January 1998, tr.1-
68.
[2]. Roberto Bedola, Davide Bordo, Franc Vojtech.
Report of Document Analysis Group. 2001, tr 1-13.
[3]. Boulos Waked. Page Segmentation and
Identification for Document Image Analysis.
September 2001, tr. 28-37.
[4]. Zhixin Shi and Venu Govindaraju. Multi-scale
Techniques for Document Page Segmentation. Tr.1-5.
[5]. Miroslav Halas. Document classification. Tr.1-8.
…..