Tải bản đầy đủ (.pdf) (74 trang)

Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.08 MB, 74 trang )

ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
------------    ------------

Nguyễn Thị Hiếu

TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG
BÊN TRONG TÀI LIỆU ẢNH

Luận văn Thạc sỹ Công nghệ thông tin

Thái Nguyên, tháng 11 năm 2009

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
------------    ------------

Nguyễn Thị Hiếu

TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG
BÊN TRONG TÀI LIỆU ẢNH

Luận văn Thạc sỹ: Công nghệ thông tin
Chuyên ngành: Khoa học máy tính
Mã số: 604801


Ngƣời hƣớng dẫn Khoa học:
PGS.TS Ngô Quốc Tạo

Thái Nguyên, tháng 11 năm 2009

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




MỤC LỤC
Trang phụ bìa
Lời cảm ơn
MỤC LỤC -------------------------------------------------------------------------------i
THUẬT NGỮ TIẾNG ANH:---------------------------------------------------------iii
DANH MỤC CÁC HÌ NH VẼ --------------------------------------------------------iv
CHƢƠNG I: MỞ ĐẦU ----------------------------------------------------------------1
1.1. Cơ sở nghiên cứu và mục đích của luận văn ----------------------------3
1.2. Tổ chức của luận văn: --------------------------------------------------------4
CHƢƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH ---------5
2.1.
2.2.

Tài liệu ảnh ---------------------------------------------------------------------5
Hệ phân tích trang tài liệu --------------------------------------------------5

2.3.

Thu thập dữ liệu ảnh ---------------------------------------------------------6


2.4. Tiền xử lý điểm ảnh -----------------------------------------------------------9
2.4.1.
Xử lý nhị phân ----------------------------------------------------------10
2.4.2.
Giảm nhiễu---------------------------------------------------------------11
2.4.3.

Phân đoạn ảnh -----------------------------------------------------------12

2.4.4.
2.4.5.

Làm mảnh và xác định vùng -----------------------------------------12
Mã hóa CC và véctơ hóa ----------------------------------------------13

2.5.

Phân tí ch đặc trƣng của tài liệu ảnh -------------------------------------15

2.6. Phân tí ch đối tƣợng văn bản trong tài liệu -----------------------------15
2.6.1.
Xác định góc nghiêng của văn bản ----------------------------------16
2.6.2.
Phân tí ch bố cục của trang tà i liệu ảnh ------------------------------18
2.7. Nhận dạng ký tự quang học (OCR) ---------------------------------------19
2.7.1.
Thuật toán OCR -----------------------------------------------------20
2.7.1.1.
2.7.1.2.
2.7.2.

2.8.

Trích chọn đặc trƣng ---------------------------------------20
Phân loại------------------------------------------------------21

Nhận dạng ký tự dựa trên ngữ cảnh ------------------------------21

Phân tích các đối tƣợng ảnh trong tài liệu ------------------------------22

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




CHƢƠNG 3: THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI
LIỆU ẢNH ------------------------------------------------------------------------------24
3.1.
3.2.
3.3.

Tổng quan về phân tách văn bản – ảnh ---------------------------------24
Những đặc trƣng chung của một tệp tài liệu ảnh ---------------------27
Thuật toán phân tách văn bản - ảnh --------------------------------------30
3.3.1.
Xố bỏ các đối tƣợng tuyến tính ---------------------------------31
3.3.2.
Phân tích các thành phần liên thông của nét bút ---------------32
3.3.3.
3.3.4.


Kết hợp các nét ký tự tạo thành các chuỗi văn bản ------------34
Thực hiện các phép tốn hình thái -------------------------------35

3.3.5.
3.3.6.

Phân tích các thành phần liên thông mới -----------------------35
Biểu diễn cấu trúc thông tin của các chuỗi văn bản -----------36

CHƢƠNG IV: PHƢƠNG PHÁP PHÂN TÍCH BẢNG T-RECS TRONG
TRANG TÀI LIỆU ẢNH------------------------------------------------------------39
4.1.

Giới thiệu --------------------------------------------------------------------39

4.2. Thuật toán phân đoạn khởi tạo ----------------------------------------41
4.2.1.
Trƣờng hợp thuật toán nhận dạng sai cột -----------------------42
4.2.2.

Cải tiến các bƣớc của thuật toán phân đoạn khởi tạo T - Recs++ 44

4.2.3.

Những ƣu điểm của thuật toán -----------------------------------46

4.2.4.

Những mặt hạn chế của thuật toán khởi tạo --------------------47


4.3. Các bƣớc xử lý khối sau khi phân đoạn ------------------------------48
4.3.1.
Trộn các khối phân đoạn sai --------------------------------------48
4.3.2.

Phân tách các cột bị trộn vào một khối --------------------------49

4.3.3.

Nhóm các từ bị phân tách -----------------------------------------52

4.4.

Phân tích khối --------------------------------------------------------------53

4.5. Xác định cấu trúc các cột, hàng ----------------------------------------54
CHƢƠNG 5 CHƢƠNG TRÌ NH THƢ̉ NGHIỆM VÀ MINH HỌA TḤT
TỐN T-RECS++ ---------------------------------------------------------------------56
5.1. Mơ tả chƣơng trình -------------------------------------------------------56
5.2. Mợt sớ kết quả -------------------------------------------------------------58
KẾT ḶN VÀ ĐỀ XUẤT ----------------------------------------------------------61

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




THUẬT NGỮ TIẾNG ANH
3–D


3 Dimensions

CAD

Computer Aided Design

CAM

Computer Aided Manufacturing

CC

Chain Code

CCs

Connected Components

CPU

Control Processing Unit

DP

Dynamic Programming

HWRatio

Heigh Width Ratio


K – NNR

K – Nearest Neighbor Rule

LC

Linear Component

LSD

Local Stroke Density

NCCs

New Connected Components

NNR

Nearest Neighbour Rule

OCR

Optical Character Recognition

T-Recs

Table Recognition System

WBRatio


White Black Ratio

WDG

White-space Density Graphs

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




DANH MỤC CÁC HÌ NH VẼ
Hình 2.1
Hình 2.2
Hình 2.3
Hình 2.4
Hình 2.5
Hình 2.6

Sơ đồ quá trì nh xử lý tài liệu
Sơ đồ quá trì nh phân tí ch trang tài liệu
Phương pháp nhị phân ảnh. (a) Histogram của ảnh đa cấp xám nguyên
bản, (b) chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng
quá cao.
Ảnh nguyên bản(Vân tay) bên trái và ảnh sau khi làm mảnh bên phải.
Tài liệu ảnh trước và sau các bước tiền xử lý. Ảnh (a) gốc, ảnh (b) ảnh
sau khi chuyển về ảnh nhị phân, ảnh (c) ảnh sau khi chỉnh nghiêng, ảnh
(d) ảnh sau khi lọc nhiễu.

Hình 3.4


văn bản bị nghiêng sau khi được quét qua máy quét.
Ví dụ minh họa kết quả phân tích bố cục của trang tài liệu ảnh
Chữ viết tay có thể gây nhầm lẫn
Ví dụ về các đối tượng văn bản và đối tượng ảnh
Biểu diễn các điểm ảnh giao nhau
Một số trường hợp ngoại lệ
Sơ đồ thuật toán phân tách văn bản

Hình 3.5
Hình 4.1
Hình 4.2
Hình 4.3
Hình 4.4
Hình 4.5
Hình 4.7
Hình 4.8
Hình 4.9
Hinh 4.10
Hình 4.11
Hình 4.12
Hình 4.14
Hình 4.15
Hình 5.1
Hình 5.2
Hình 5.3

Hình 3.5 Nhận dạng đường kẻ nghiêng với phép toán kéo dãn
Ví dụ minh họa tư tưởng của thuật toán khởi tạo
thuật khởi tạo đối với một đoạn văn bản

Trường hợp thuật toán nhận dạng sai cột
Trường hợp giữa các dịng của một cột trong bảng có ơ trắng
Mơ phỏng việc thực hiện các bước đã cải tiến của thuật toán
Quá trình phân đoạn các cột của bảng
Trường hợp một ô của bảng chiếm nhiều dòng
Những mặt hạn chế của thuật toán
Trộn hai khối bị phân tách
Tách các cột bị trộn
Trộn lại các khối con bị tách
Tách các khối loại 1 thành các ô của bảng
Tách các khối loại 2 thành các hàng trong bảng
Giao diện chương trì nh T-Recs
Nhận dạng khối văn bản với T-Recc++
Nhận dạng tài liệu ảnh là bảng quy chế với T-Recs++

Hình 2.7
Hình 2.8
Hình 3.1
Hình 3.2
Hình 3.3

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lời cảm ơn
Trong qua tri nh lam luõn vn va qua

, dưới sự giúp đỡ và chỉ bảo


nhiệt tì nh của PGS . TS Ngô Quốc Tạo – Viện Công nghệ Thông tin – Viện
khoa học Việt Nam , luận văn của tôi đã được hoàn thành . Mặc dù đã cố gắng
không ngừng cùng với sự tận tâm của thầy hướng dẫn song do thời gian và
khả năng vẫn còn nhiều hạn chế nên luận vă n khó tránh khỏi những thiếu sót
trong quá trì nh làm luận văn .
Để hoàn thành được luận văn này. Em xin bày tỏ lòng biết ơn sâu sắc
tới PGS. TS Ngô Quốc Tạo - người thầy đã tận tì nh giúp đỡ em trong suốt
quá trình tìm hiểu , xây dựng và phát triển luận văn này .
Em xin chân thành cảm ơn các thầy , cô giáo trong Viện Công nghệ
Thông tin – Viện khoa học Việt N am đã giảng dạy và hướng dẫn em trong
suốt 2 năm học qua. Em cũng xin cảm ơn ban lãnh đạo khoa và toàn thể thầy
cô giáo trong khoa Công Nghệ thông tin – Đại Học Thái Nguyên đã tạo điều
kiện tốt nhấ t giúp em học tập và hoàn thành luận văn này

. Và cuối cùng tôi

cũng xin cảm ơn gia đình , các bạn trong nhóm luận văn và toàn thể các học
viên lớp Cao học K 6 đã động viên , quan tâm và giúp đỡ tôi trong thời gian
qua.
Cuối cù ng tôi rất mong nhận được sự chỉ dẫn , góp ý của các thầy cô
và các bạn để ḷn văn của tơi được hoàn thiện hơn .

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




1


CHƢƠNG 1: MỞ ĐẦU
Nhận dạng và xử lý ảnh là một lĩnh vực mang tính khoa học và cơng
nghệ. Ở Việt Nam Nhận dạng và xử lý ảnh là một ngành khoa học mới mẻ so
với nhiều ngành khoa học khác nhưng tớc độ phát triển của nó rất nhanh. Sự
ra đời của nó đã tạo ra các kỹ thuật quan trọng ảnh hưởng trực tiếp đến các
lĩnh vực như: Tivi, truyền thông, kỹ xảo đồ hoạ…
Cùng với sự phát triển đó có những nhu cầu thực tế đặt ra thách thức
các nhà khoa học máy tính càng nhiều

. Những công việc , những bài toán

được xử lý theo lối cổ truyền không theo kị p tốc độ phát triển của công nghệ
ngày nay . Một trong những bài toán đó chí nh là các tài liệu được lưu trữ trên
các chất liệu cổ truyền như giấy, gỗ, vải với khối lượng khổng lồ , chứa đựng
rất nhiều tri thức của nhân loại nhưng lại không có độ bền vĩ nh cửu , khó xử lý
và lưu trữ . Một bài toán khác là ngày nay công việc văn phòng liên quan
nhiều đến các tài liệu không đơn thuần là tài liệu chữ mà tài liệu có nhiều
thành phần như bảng biểu , ảnh. Tất cả các tài liệu đó nếu tiếp tục lưu trữ theo
phương pháp cổ truyền thì rất phức tạp và khó xử lý

. Vậy làm thế nào để

chuyển đổi những kho tàng tri thức trên vào máy tí nh để lưu trữ

, xử lý dễ

dàng, thuận tiên và nhanh gọn . Một lĩ nh vực của khoa học nhâ n dạng là Phân
tích tài liệu ảnh đã ra đời nhằm biểu diễn thông tin trong các tài liệu ảnh dưới
dạng có cấu trúc.
Hệ phân tích và nhận dạng tài liệu ảnh có mục đích là chuyển đổi tự

động những thông tin lưu trữ trong tài liệu giấy thành biểu diễn dưới dạng
những cấu trúc mà có thể truy xuất, thay đởi được bằng máy tính. Quy trình
xử lý của một hệ phân tích tài liệu bắt đầu bằng việc lấy dữ liệu, các tài liệu từ
giấy in sẽ được quét qua máy quét để lưu trữ trong máy tính dưới dạng các tệp
dữ liệu ảnh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




2

Một tài liệu ảnh là một cách biểu diễn trực quan của các trang tài liệu
được in như một bài tạp chí, một lá thư, một trang báo, một mẩu thư hay một
bản vẽ kỹ thuật, .v.v.. Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, các
hình vẽ, các bức ảnh, .v.v.. Bên cạnh việc chuyển toàn bộ nội dung của tài
liệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tài
liệu. Mục tiêu cơ bản của một hệ phân tích tài liệu ảnh hoàn chỉnh đó là
chuyển một tài liệu lưu trữ bằng giấy sang dạng biểu diễn có thứ tự cấu trúc
và nội dung của nó. Tài liệu được chuyển sang phải có khả năng thay đổi,
soạn thảo và lưu trữ bởi vì nội dung của tài liệu có thể truy cập bởi cấu trúc
của nó thay vì phải truy cập dưới dạng những mẫu ảnh. Có một số lượng lớn
ứng dụng của hệ phân tích tài liệu ảnh được ứng dụng trong các lĩnh vực như:
dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, ...v.v.
Mục đích của luận văn là nghiên cứu kỹ thuật nhận dạng bảng và trí ch
chọn ra đối tượng của tài liệu

ảnh. Kỹ thuật “Phân tích bảng – T-Recs” là


nghiên cứu chí nh .
Với tư tưởng chính của “Phương pháp phân tích bảng” đó là không
xem xét đến bất cứ một loại đường phân cách nào để xác định cấu trúc bảng.
Thay vào đó phương pháp sẽ tập trung vào việc nhận biết các từ trong cùng
một khối logic (chẳng hạn các từ trong cùng một cột dữ liệu sẽ được cho vào
trong cùng một khối). Phương pháp sẽ không đi tìm những đặc trưng để phân
biệt hai vùng dữ liệu (hai cột) khác nhau mà tìm những đặc trưng để tìm ra
các từ trong cùng một khối logic và từ đó xây dựng cấu trúc riêng theo
phương pháp tiếp cận bottom - up.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




3

1.1. Cơ sở nghiên cứu và mục đích của luận văn
Ảnh là một đối tượng khá phức tạp về đường nét, dung lượng điểm
ảnh, độ sáng tối, môi trường để thu nhận ảnh phong phú kéo theo nhiễu.
Trong nhiều khâu phân tích ảnh ngồi việc đơn giản hố các phương pháp
toán học đảm bảo tiện lợi cho xử lý, người ta mong ḿn bắt chước quy trình
tiếp nhận và xử ảnh theo cách của con người. Trong các bước xử lý đó nhiều
khâu hiện nay đã xử lý theo các phương pháp trí ṭ của con người. Những hệ
thớng nhận dạng cấu trúc không chỉ đơn giản là chuyển một tài liệu in thành
một tài liệu điện tử mà hơn thế nữa còn là xây dựng những quá trình xử lý kết
hợp chẳng hạn như: tự động chép nội dụng, đánh chỉ mục và phân loại. Do đó
việc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn ra
những cấu trúc đi kèm với từng nội dung đó.
Nhận dạng bảng là bài toán nhận dạng ra cấu trúc bảng có trong trang

tài liệu ảnh, bao gồm việc nhận dạng các cột, các dịng và các ơ có chứa dữ
liệu trong bảng. Nhận dạng đới tượng ảnh là bài tốn nhằm phân tách các đới
tượng ảnh trong những trang tài liệu ảnh có chứa hỗn hợp các đối tượng là
chuỗi ký tự và các đối tượng ảnh như: các sơ đồ, hình vẽ, bức ảnh …v.v.
Mặc dù đã có nhiều kỹ thuật trong hệ thống nhận dạng cấu trúc. Tuy
nhiên những nghiên cứu trên những vấn đề đó vẫn còn tiếp tục phát triển bởi
vì chất lượng, độ chính xác, tính hiệu quả của những phương pháp được công
bố trước đây vẫn còn chưa hoàn chỉnh và cần phải cải tiến chúng. Luận văn
này trình bày kỹ thuật nhận dạng cấu trúc bảng bên trong tài liệu ảnh T-Recs
và đề xuất một số phương pháp khắc phục hạn chế thuật toán T-Recs để hoàn
thiện hiện hơn phương pháp phân tích bảng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




4

1.2. Tổ chức của luận văn
Luận văn được trình bày thành 5 chương và 1 phụ lục.
Chương 1 Trình bày tóm tắt cơ sở nghiên cứu và mục đích cũng như
cách tổ chức của luận văn.
Chương 2 Tổng quan về hệ phân tí ch tài liệu ảnh và các thành phần
chính trong hệ phân tí ch tài liệu ảnh : Lấy dữ liệu , xử lý ảnh , trích chọn đặc
trưng, nhận dạng đối tượng ảnh và nhận dạng văn bản .
Chương 3 trình bày bài toán phân tách văn bản và ảnh một cách riêng
rẽ. Trong chương này một thuật toán phân tách văn bản và ảnh cũng sẽ được
trình bày dựa vào việc phân tích các thành phần liên thơng (CCs).
Chương 4 trình bày phương pháp phân tích bảng ( T-Recs) dựa trên

những hình chữ nhật bao quanh một từ và đầu ra là cấu trúc logic của khối
văn bản, cụ thể với những bảng nhận dạng được sẽ là cấu trúc các cột và các ô
của bảng dữ liệu. Phân tích những mặt hạn chế của thuật toán - trường hợp
nhận dạng chưa chính xác các cột dữ liệu trong bảng luận văn đưa ra thuật
toán khắc phục những mặt hạn chế đó.
Chương 5 Chương trình thử nghiệm và minh họa phân tích bảng trong
trang tài liệu ảnh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




5

CHƢƠNG 2: TỔNG QUAN VỀ HỆ PHÂN TÍ CH TÀI LIỆU ẢNH
2.1. Tài liệu ảnh
Hình ảnh của một đối tượng là sự sao chụp lại chính bản thân đối
tượng đó. Ảnh được hình thành qua một hệ thống ảnh.
Tài liệu ảnh là các file ảnh đã được số hóa thu được bằng cách: quét các
trang tài liệu, chụp ảnh, máy fax, hoặc từ vệ tinh, các file ảnh này được lưu trữ
trong máy tính. Ảnh tài liệu có nhiều loại: đen trắng, ảnh màu, ảnh đa cấp
xám,…v.v.
2.2. Hệ phân tí ch trang tài liệu
Hệ phân tí ch trang tài liệu : Là một hệ thống bao gồm những thuật
toán và các k ỹ thuật có thể áp dụng cho các tài liệu ảnh để lấy ra được các
thông tin mà máy tính có thể đọc được và hiểu được từ các điểm dữ liệu ảnh.
Một lĩnh vực thu được nhiều thành cơng nhất trong

phân tích tài liệu ảnh đó


là Nhận dạng Ký tự Quang học (OCR), phần mềm có khả năng nhận, chuyển
đổi các ký tự từ các loại tài liệu dưới dạng ảnh sang tài liệu dưới dạng text .
OCR giúp người dùng có khả năng soạn thảo và tìm kiếm nội dung của tài
liệu.
Thành phần chính có trong một hệ phân tích tài liệu: Mục đích của
một hệ phân tích tài liệu là có khả năng nhận dạng ra các đối tượng văn bản,
đối tượng ảnh trong tài liệu ảnh và có khả năng trích chọn ra được các thơng
tin mà người dùng mong ḿn. Chúng ta có thể chia một hệ phân tích tài liệu
thành hai phần. Phần thứ nhất là xử lý văn bản, liên quan đến việc xử lý các
đối tượng văn bản: ký tự, chuỗi ký tự, các từ. Xử lý văn bản bao gồm các
công việc sau: xác định độ nghiêng của tài liệu (độ nghiêng hay độ xiên của
tài liệu ảnh do tài liệu được đặt không đúng khi thực hiện quét vào từ máy
quét), tìm các cột, các đoạn văn bản, các dịng văn bản, các từ và ći cùng là

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




6

nhận dạng văn bản (có thể thêm các thuộc tính như loại phơng chữ, kích
thước của phơng chữ) bởi phương pháp nhận dạng ký tự quang học (OCR).
Phần thứ hai là xử lý các đối tượng ảnh là các đối tượng tạo ra từ các đường
kẻ trong sơ đồ, các đường kẻ phân tách giữa các đoạn văn bản, các hình vẽ,
các lơgơ của cơng ty… Sau khi áp dụng các kỹ tḥt phân tích ảnh và văn
bản, các đới tượng cần nhận dạng trong tài liệu ảnh được trích ra và được biểu
diễn dưới dạng một tài liệu định dạng khác, chẳng hạn như word, html…
Ta có thể tóm tắt quá trình xử lý của hệ phân tích tài liệu theo sơ đồ

Hình 2.1 [8]:
Xử lý tài liệu

Xử lý đới tượng
ảnh

Xử lý văn bản

Nhận dạng
ký tự quang
học

Văn bản

Phân tích
cấu trúc
trang

Xử lý
đường
kẻ

Xử lý vùng
và ký tự đặc
biêt

Xác định độ nghiêng, Đường thẳng,
Vùng được tơ
dịng văn bản, các khới đường cong,
văn bản, các đoạn văn

góc
bản
Hình 2.1 Sơ đờ quá trì nh xử lý tài liệu

Tại sao lại phải phân

tích tài liệu ? Những bài toán trong phần giới

thiệu đã đề cập , ta hã y xem xét kỹ hơn về bài toán điển hì nh để thấy được sự
cần thiết của việc phân tí ch tài liệu .
- Lượng tri thức vô giá của nhân loại với số lượng lớn được lưu trữ
trong các thư viện cổ điển dưới các chất liệu như giấy , vải, gỗ vẫn còn tồn tại
rất nhiều , việc các tài liệu bị mất các thông tin , thiếu thơng tin, sớ lượng bản
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




7

sao hạn chế hay thậm chí các tài liệu bị thoái hoá theo thời gian là những vấn
đề phổ biến. Vì vậy chúng cần phải được khôi phục và chỉnh sửa bằmg những
kỹ thuật phân tích tài liệu.
- Ngày nay các văn phòng hiện đại các công việc đều được giải quyết
dựa vào máy tí nh . Các tài liệu văn bản với nhiều đối tượng

(chữ, hình ảnh ,

các sơ đồ ) được tạo ra trên nhiều m áy tính khác nhau , phần mềm khác nhau
do đó có thể là các đị nh dạng của các tài liệu đó là không tương thí ch với

nhau, kích thước cũng khác nhau . Như vậy cần một hệ phân tí ch tài liệu giúp
nhận dạng các loại tài liệu, trích chọn ra được các phần chức năng và có thể
chuyển từ một định dạng máy tính này sang một định dạng khác.
-

Một bài toán khác được đề cập là các máy phân loại thư tự động

dùng để phân loại, sắp xếp thư và nhận dạng địa chỉ thư. Những máy này đã
có từ những thập kỷ trước, nhưng ngày nay yêu cầu cao hơn đó là xử lý nhiều
thư hơn, nhanh hơn và yêu cầu chính độ xác cao hơn.
Những bài toán trên đã tạo ra thách thức và động lực cho sự phát triển
những giải pháp trong tương lai của một hệ phân tích tài liệu.
Hình 2.2 mô tả các bước xử lý cho một hệ phân tí ch tài liệu

[8]. Sau

khi dữ liệu (tài liệu ảnh ) được đưa vào , tài liệu ảnh trải qua các bước xử lý
điểm ảnh và phân tích đặc trưng và sau đó phần nhận dạng văn bản và phần
nhận dạng ảnh được tách ra hai chức năng riêng rẽ.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




8

Trang tài liệu
Thu nhận dữ liệu
Xử lý điểm ảnh

Phân tí ch đặc trưng

Phân tích và nhận
dạng đới tượng văn
bản

Phân tích và nhận
dạng đối tượng ảnh

Mô tài liệu
Hình 2.2 Sơ đồ quá trì nh phân tí ch trang tài liệu

Các hệ phân tích tài liệu sẽ ngày càng phát triển và hiển nhiên là
chúng sẽ có trong các hệ xử lý tài liệu. Chẳng hạn như, hệ thống OCR sẽ
được sử dụng rộng rãi để lưu trữ, tìm kiếm và trích dẫn từ các tài liệu lưu trữ
trên giấy. Các kỹ tḥt phân tích cách bớ trí trong một trang tài liệu giúp nhận
dạng những biểu mẫu (form) riêng biệt, hay định dạng của một trang tài liệu
và cho phép sao lưu tài liệu đó. Các sơ đồ có thể được đưa vào từ các bức ảnh
hay vẽ bằng tay và có thể thay đởi, soạn thảo lại chúng. Sử dụng máy tính có
thể chủn các tài liệu viết bằng tay thành các tài liệu điện tử được lưu trữ
trong máy tính. Các tài liệu được lưu trữ trong các thư viện, các tài liệu kỹ
thuật trong các công ty sẽ được chuyển đổi sang thành tài liệu điện tử nhằm
nâng cao hiệu quả, thuận tiện trong việc lưu trữ và dễ dàng mang đến cơ quan
hay mang về nhà. Mặc dù tài liệu sẽ ngày càng được xử lý và lưu trữ nhiều
trong máy tính nhưng trên thực tế có rất nhiều các hệ thớng khác nhau mà tài
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





9

liệu giấy là phương tiện làm việc hiệu quả và chắc chắn rằng tài liệu giấy vẫn
sẽ là phương tiện làm việc với chúng ta trong một vài thập kỷ nữa. Vấn đề ở
đây là làm sao chúng ta tích hợp những tài liệu giấy vào trong máy tính xử lý.
Sau đây ta sẽ tìm hiểu ngắn gọn các bước xử lý của một hệ phân tích
tài liệu ảnh .
2.3. Thu nhận dƣ̃ liệu ảnh
Các dữ liệu trên các trang tài liệu giấy thường được quét qua máy quét
và đưa vào máy tính dưới dạng file ảnh , chúng bao gồm các điểm ảnh (pixels)
và được lưu trữ . Với ảnh nhị phân g iá trị điểm ảnh có thể là 0 hoặc 1 ,với ảnh
đa cấp xám và ảnh màu giá trị điểm ảnh nằm trong khoảng

0 đến 255 với 3

giá trị R, G, B từ 0 đến 255. Ở độ phân giải thông thường thì có 120 điểm ảnh
trên 1 centimet và với 1 trang có kích thước 20 x 30 cm thì tạo ra một ảnh với
2400 x 3600 điểm ảnh. Do đó có thể thấy rằng một tài liệu ảnh chỉ bao bồm
các dữ liệu thô (giá trị các điểm ảnh) và chúng sẽ được sử dụng những kỹ
thuật phân tích thích hợp để lấy ra được các thông tin cần thiết.
2.4.

Tiền xử lý điểm ảnh
Bước tiếp theo trong một hệ phân tích tài liệu là thực hiện một số thao

tác xử lý trên tài liệu ảnh thu được để chuẩn bị cho những bước phân tích tiếp
theo. Chẳng hạn như các thao tác: chọn ngưỡng để chuyển ảnh đa cấp xám,
ảnh màu về dạng ảnh nhị phân, giảm nhiễu để loại bỏ những dữ liệu không
liên quan, phân đoạn để phân tách các thành phần khác nhau trong ảnh và
cuối cùng là làm mảnh hay dò biên để dễ dàng xác định các vùng, các đặc

trưng thích hợp và các đối tượng cần quan tâm. Sau những bước xử lý ở trên,
dữ liệu thường được biểu diễn dưới dạng nén lại như dùng mã hoá CC và biểu
diễn dưới dạng véctơ.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




10

2.4.1. Xƣ̉ lý nhị phân
Với những ảnh đa cấp xám các thông tin đã sẵn ở dạng nhị phân chẳng
hạn như các chuỗi văn bản hay các đối tượng ảnh, thì phương pháp nhị phân
thơng thường sẽ được thực hiện trước. Mục đích của phương pháp này là sẽ tự
động chọn một ngưỡng cần thiết để tách ảnh ra làm hai phần: thông tin ảnh và
thông tin nền. Việc lựa chọn một ngưỡng tớt (ngưỡng mà có thể phân tách
ảnh thành hai phần: phần ảnh, phần nền một cách chính xác) ln là một q
trình khó và dễ gây ra lỗi (0).

Hình 2.3 Phương pháp nhị phân ảnh. (a) Histogram của ảnh đa cấp xám nguyên bản, (b)
chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng quá cao.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




11


Quá trình xử lý này

sẽ gặp khó khăn trong các trường hợp khi: độ

tương phản giữa giá trị các điểm ảnh văn bản và nền là thấp (chẳng hạn như
văn bản được soạn thảo trên một nền xám thuần nhất), nét của văn bản mỏng
hoặc dữ liệu không được chiếu sáng tốt khi thực hiện quét tài liệu giấy. Rất
nhiều phương pháp đã được phát triển để khắc phục những hạn chế trên,
chẳng hạn như phương pháp tách ngưỡng tự động tìm ra giá trị θ thích hợp để
chia ảnh thành hai phần.
2.4.2. Giảm nhiễu
Nhiễu trong tài liệu ảnh là do nhiều nguyên nhân bao gồm: sự thoái
hoá theo thời gian, quá trình sao ch ép, quá trình quét tài liệu. Một số kỹ thuật
xử lý ảnh sẽ được áp dụng để loại bỏ nhiễu. Sau khi được nhị phân hoá, tài
liệu ảnh sẽ được lọc để giảm nhiễu. Trên thực tế tồn tại nhiều loại nhiễu, tuy
nhiên người ta thường xem xét 3 loại nhiễu chính: nhiễu cộng, nhiễu nhân và
nhiễu xung. Chúng xuất hiện như những điểm ảnh khác biệt so với vùng xung
quanh, chẳng hạn các điểm ảnh nhiễu ON (điểm mang thông tin ảnh) trong
vùng nền OFF (điểm mang thông tin nền) hay ngược lại các điểm ảnh OFF
trong vùng nền ON và các cạnh gồ ghề của ký tự hay các đối tượng ảnh.
Bản chất của nhiễu là thường tương ứng với tần số cao và cơ sở lý
thuyết của các bộ lọc là chỉ cho những tín hiệu có tần sớ nào đó thơng qua, do
đó để lọc nhiễu người ta thường sử dụng bộ lọc thơng thấp hay lọc trung bình.
Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung bình;
với nhiễu xung ta dùng lọc trung vị, giả trung vị.
Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ
biên của ảnh khỏi bị mờ khi làm trơn ảnh. Các kiểu mặt nạ được sử dụng tùy
theo các trường hợp khác nhau. Các bộ lọc trên là bộ lọc tuyến tính theo nghĩa
là điểm ảnh ở tâm cửa số sẽ được thay bởi tổ hợp các điểm lân cận chập với mặt
nạ. Lọc thông thấp thường được sử dụng để làm trơn nhiễu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




12

Các bộ lọc phi tuyến cũng được dùng trong kỹ thuật tăng cường ảnh.
Trong kỹ thuật này người ta dùng bộ lọc trung vị, bộ lọc giả trung vị. Với bộ
lọc trung vị các điểm ảnh sẽ được thay thế bởi trung vị các điểm ảnh, bộ lọc
giả trung vị thì các điểm ảnh được thay thế bởi trung bình cộng của hai giá trị
“trung vị”.
2.4.3. Phân đoạn ảnh
Quá trình phân đoạn ảnh được thực hiện làm hai giai đoạn . Giai đoạn
thứ nhất, tách các lớp văn bản và ảnh riêng biệt nếu như trong tài liệu có chứa
cả văn bản và ảnh . Giai đoạn thứ hai là thực hiện phân tách trên hai lớp đối
tượng vừa tách ở trên, với văn bản xác định các cột, các đoạn văn bản, các từ
và các ký tự; với lớp đối tượng ảnh thực hiện phân tách các biểu tượng, các
hình vẽ, các đường kẻ và các hình ảnh. Chẳng hạn như một tài liệu ảnh có
chứa các đoạn văn bản và các hình minh hoạ giống như một trang tạp chí, đầu
tiên văn bản và ảnh sẽ được tách riêng. Sau đó văn bản sẽ được tách ra thành
các chuỗi ký tự. Ảnh thì được tách ra các thành phần như hình chữ nhật, hình
tròn, các đường kẻ, biểu tượng .v.v.. Sau bước trên tài liệu ảnh sẽ phân tách ra
thành những đối tượng nhỏ hơn như các ký tự và các thành phần cơ bản của
ảnh.
2.4.4. Làm mảnh và xác định vùng
Làm mảnh ảnh là một thao tác xử lý ảnh trong đó đối tượng ảnh được
biểu diễn như là những đường trục được gọi là đường tâm hay còn gọi là lấy
xương của ảnh. Một đối tượng ảnh khi đó chỉ được biểu diễn bởi đường
xương của nó bằng việc giảm bớt số lượng điểm ảnh có giá trị ON của đối

tượng và vẫn đảm bảo tính chất liên thông của đối tượng. Mục đích của việc
làm mảnh ảnh là giảm bớt các thành phần mà chỉ lưu trữ các thông tin thiết
yếu phục vụ cho việc phân tích và nhận dạng sau này thuận tiện hơn. Chẳng
hạn như một đường kẻ thẳng có thể vẽ bằng tay với độ đậm của nét bút là
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




13

khác nhau nhưng có thể biểu diễn chúng giống nhau. Trong Hình 2.4 đưa ra ví
dụ ảnh được phân tích bằng phương pháp làm mảnh.

Hình 2.4 Ảnh nguyên bản(Vân tay) bên trái và ảnh sau khi làm mảnh bên phải.

Lưu ý rằng nếu một hình tròn hay một hình vuông mà được tô kín bởi
các điểm đen thì kết quả làm mảnh những đối tượng trên sẽ là một điểm ảnh
nằm tại tâm của hình vẽ bất kể kích thước của đối tượng là như thế nào. Do
đó có thể thấy rõ ràng rằng việc xác định được vùng biên của đới tượng là rất
quan trọng.
Nói chung với các đới tượng có kích thước lớn, dò biên là phương
pháp lựa chọn thích hợp để biểu diễn đối tượng, còn đối với những đối tượng
được tạo thành bởi những nét kết nối dài thì làm mảnh là phương pháp thích
hợp hơn. Làm mảnh thường được sử dụng như là một quá trình tiền xử lý đối
với những ứng dụng phân tích tài liệu như xử lý sơ đồ hay bản đồ. Với những
đối tượng ảnh lớn mà vùng ảnh được tô đầy chẳng hạn như những lôgô thì
phương pháp dò biên đối tượng thích hợp hơn. Nhưng với những vùng nhỏ,
chẳng hạn từng ký tự riêng biệt thì cũng không phải phương pháp làm mảnh
cùng không phải phương pháp dò biên được thực hiện mà khi đó vùng ảnh sẽ

được biểu diễn dưới dạng mảng các giá trị của điểm ảnh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





×