Tải bản đầy đủ (.docx) (58 trang)

Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (803.38 KB, 58 trang )

Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
MỤC LỤC
1
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
DANH SÁCH CÁC HÌNH VẼ
2
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
DANH SÁCH CÁC BẢNG BIỂU
3
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
DANH SÁCH CÁC TỪ VIẾT TẮT
STT TỪ VIẾT TẮT TỪ HOÀN CHỈNH
1 ĐH Đại học
2 CĐ Cao đẳng
3 CNTT Công nghệ thông tin
4 XLA Xử lý ảnh
4
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI
1.1. Lý do chọn đề tài
Ngày nay, công nghệ thông tin đang trên đà phát triển, thế giới đang phát triển
mạnh mẽ với xu hướng toàn cầu hóa công nghệ thông tin, theo đó có rất nhiều ứng
dụng tin học hiện đại được ra đời trong rất nhiều lĩnh vực: giáo dục, giải trí, kinh tế, y
tế… Tin học được áp dụng rộng rãi trong đời sống. Với những người dùng máy tính
thường phải làm việc với hàng chồng tài liệu dưới dạng giấy hoặc file PDF, đôi khi
cần chuyển toàn bộ nội dung của một quyển sách trên giấy hoặc một bài báo trên giấy
in vào máy tính dưới dạng file word với đầy đủ nội dung và hình ảnh như trên giấy.
Cách làm thế nào? Thông thường thì mọi người phải gõ lại từng trang giấy đó và như
vậy đây quả là công việc rất mất thời gian. Nếu scan tất cả các trang sách vào máy
tính dưới dạng file hình ảnh thì cũng rất bất tiện và không thể chỉnh sửa thêm bớt,
copy được nội dung trong bài viết đó sang file word hoặc dạng soạn thảo khác. Xuất


phát từ nhu cầu thực tế đó, các nhà nghiên cứu đã tìm ra một giải pháp chực kỳ thuận
tiện là chụp lại hoặc scan tất cả những tài liệu đó rồi chuyển từ dạng ảnh sang văn bản
bằng quá trình nhận dạng chữ. Hiện nay trên thị trường công nghệ đã có một số sản
phẩm phầm mềm nhận dạng rất tốt như:
- VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác khá cao và
tương thích với nhiều định dạng ảnh khác nhau nhưng phải có điều kiện là văn
bản thuần
- FineReader hỗ trợ nhận dạng 179 ngôn ngữ (nhưng rất tiếc chưa có ngôn ngữ
tiếng Việt);
- Phần mềm ABBYY là phần mềm xuất hiện sau các sản phẩm trên thị trường
và dù mới chỉ là thế hệ sản phẩm đầu tiên hỗ trợ tiếng Việt đang được đánh giá
là giải pháp nhận dạng tiếng Việt chính xác và toàn diện tại Trung tâm Thông
tin - thư viện Đại học Quốc Gia Hà Nội.
5
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
Tuy nhiên để có được một chương trình nhận dạng thuần Việt và đạt được kết
quả tốt nhất cần phải trải qua nhiều quá trình nghiên cứu và cải thiện. Trong đó bước
đầu và quan trọng nhất là xử lý ảnh đầu vào.
Xuất phát từ những lý do trên tôi đã quyết định lựa chọn đề tài “Tìm hiểu kỹ
thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản” làm đồ án
tốt nghiệp của mình.
1.2. Mục tiêu của đề tài
Mục tiêu của đề tài là:
- Tổng quan về xử lý ảnh và các phương pháp tiền xử lý ảnh
- Tìm hiểu các phương pháp tách ảnh ký tự từ ảnh văn bản
- Tìm hiểu ngôn ngữ lập trình matlab
- Xây dựng chương trình tách ảnh ký tự từ ảnh văn bản
1.3. Giới hạn và phạm vi của đề tài
Đề tài nghiên cứu tổng quan về ảnh số, ảnh tài liệu, trong đó có ảnh văn bản; về
các phương pháp, kỹ thuật, quá trình xử lý ảnh văn bản.

Nghiên ứu tổng quan về công cụ lập trình matlab. Đây là công cụ được phát
triển từ C++ ứng dụng rộng rãi và thuận lợi cho việc xử lý ảnh, tự động hóa.
Đề tài xây dựng chương trình xử lý ảnh văn bản bằng công cụ lập trình matlab
nhằm phục vụ cho bài toán lớn là nhận dạng chữ.
1.4. Nội dung thực hiện của đề tài
Hiện tại trên thị trường có nhiều phần mềm nhận dạng chữ, tiêu biểu trong đó có
ABBYY, tuy nhiên các phần mềm đó vẫn còn tồn tại một số mặt hạn chế như: chưa
nhận dạng được chính xác một số văn bản có cấu trúc phức tạp, chưa khắc phục được
những ảnh văn bản có kèm theo nhiễu xuất hiện trong quá trình scan, chụp hoặc do
nhiều lý do khách quan khác. Nhận dạng là một bài toán lớn, khó mang tầm nghiên
cứu quốc tế, đòi hỏi rất nhiều thời gian và công sức, vì vậy tác giả đề xuất thực hiện
6
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
nghiên cứu lý thuyết và xây dựng bước đầu quan trọng của quá trình nhận dạng chữ:
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản.
Nội dung thực hiện/nghiên cứu cụ thể như sau:
- Nghiên cứu tổng quan về xử lý ảnh và bài toán xử lý ảnh văn bản.
- Nghiên cứu quá trình xử lý ảnh văn bản.
- Khảo sát một số hệ thống xử lý ảnh văn bản hiện có trên thị trường.
- Xây dựng chương trình tách ảnh ký tự từ ảnh văn bản bằng matlab.
- Thử nghiệm chương trình và đưa ra kết quả thử nghiệm.
- Kiểm thử chương trình.
1.5. Phương pháp tiếp cận
- Cách tiếp cận: Tìm hiểu các chương trình nhận dạng chữ hiện có trên thị
trường.
- Sử dụng phương pháp nghiên cứu:
o Phương pháp đọc tài liệu;
o Phương pháp phân tích mẫu;
o Phương pháp thực nghiệm.
7

Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về xử lý ảnh và bài toán xử lý ảnh văn bản
2.1.1. Khái niệm ảnh số
Ảnh số được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ -
được coi là những thành tố của bức ảnh và thường được biết đến dưới tên gọi pixels.
Máy tính hay máy in sử dụng những ô vuông nhỏ này để hiển thị hay in ra bức ảnh.
Để làm được điểu đó máy tính hay máy in chia màn hình, trang giấy thành một mạng
lưới chứa cấc ô vuông, sau đó sử dụng các giá trị chứa trong file ảnh để quyết định
màu sắc, độ sáng tối củ từng pixel trong mạng lưới đó - ảnh số được hình thành. Việc
kiểm soát, định ra địa chỉ theo mạng như trên được gọi là bit mapping và ảnh số được
gọi là bit – maps.
Hình 2- 1: Ví dụ về quá trình lấy mẫu
8
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
Một bức ảnh số hóa a[m, n] gồm m hàng và n cột, phần giao giữa một hàng và
một cột được gọi là điểm ảnh (Pixel). Giá trị mỗi điểm ảnh được gán cho một số
nguyên biễu diễn màu sắc tại điểm ảnh đó.
Như vậy, ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả
ảnh gần với ảnh thật.
2.1.2. Ảnh nhị phân
Ảnh nhị phân là ảnh số mà trong đó giá trị mỗi điểm ảnh có thể nhận một trong
hai giá trị 0 hoặc 1.
Quá trình phân đoạn ảnh yêu cầu đầu vào phải là ảnh nhị phân, trong khí đó ảnh
đầu vào của hệ thống là một ảnh đa mức xám, chính vì vậy mà cần phải thực hiện
chuyển ảnh đa mức xám sang ảnh nhị phân để thực hiện phân đoạn.
Vị dụ ảnh nhị phân hóa:
Hình 2- 2: Ảnh nhị phân
9
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản

2.1.3. Một số khái niệm cơ bản
a) Điểm ảnh – pixel
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng.
Để có thể xử lý ảnh bằng máy tính cần phải tiến hành số hóa ảnh. Trong quá
trình số hóa, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua
quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hóa thành phần giá trị
mà về nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau.
Trong quá trình này người ta sử dụng khái niệm Pixel – phần tử ảnh. Như vậy,
một ảnh là một tập hợp các pixel.
b) Mức xám – gray level
Mức xám của điểm ảnh là cường độ ánh sáng của nó được gán bằng giá trị
số tại điểm đó.
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (mức 256 là
phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám.
Mức xám dùng 1 byte để biểu diễn: 2
8
= 256 mức, tức là từ 0 đến 255).
c) Ảnh đen trắng
Là ảnh có hai màu đen, trắng (không chứa các màu khác) với mức xám ở
các điểm ảnh có thể là khác nhau.
d) Ảnh màu
Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới
màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu:
2
8*3
= 2
24
= 16,7 triệu màu.
10
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản

e) Biên
Biên là một đặc tính rất quan trọng của đối tượng trong ảnh, nhờ vào biên
mà ta phân biệt được đối tượng này với đối tượng kia. Một điểm ảnh có thể gọi
là điểm biên nếu ở đó có sự thay đổi đột ngột về mức xám. Tập hợp các điểm
biên tạo thành biên hay còn gọi là đường bao ảnh.
f) Láng giềng
Trong xử lý ảnh có một khái niệm quan trọng, đó là láng giềng. Có hai loại
láng giềng: 4-láng giềng và 8-láng giềng.
• 4-láng giềng của một điểm (x, y) là một tập hợp bao gồm láng giềng dọc
và láng giềng ngang của nó: N
4
(x, y) = {(x+1, y), (x-1, y), (x-1, y+1)}
(1.1)
• 8-láng giềng của (x, y) là một tập cha của 4-láng giềng và bao gồm láng
giềng ngang, dọc và chéo: N
8
(x, y) = N
4
(x, y) {(x+1, y+1), (x+1, y-
1), (x-1, y+1)}
g) Vùng liên thông
Một vùng R được gọi là liên thông nếu bất kỳ hai điển (x
A
, y
A
) và (x
B
, y
B
)

thuộc vào R có thể được nối bởi một đường (x
A
, y
A
) … (x
i-1
, y
i-1
) … (x
B
, y
B
), mà
các điểm (x
i
, y
i
) nào đều kề sát với điểm trước (x
i-1
, y
i-1
) và điểm tiếp theo (x
i+1
,
y
i+1
) trên đường đó. Một điểm ảnh (x
k
, y
k

) được gọi là kề với điểm (x
i
, y
i
) thuộc
vào láng giềng của (x
k
, y
k
)
h) Khái niệm điểm lân cận
Cho một điểm P với tạo độ (x, y), khi đó 4 điểm:
• N
1
(x+1, y); N
2
(x-1, y); N
3
(x, y+1); N
4
(x, y-1) được gọi là lan cận bốn
(hình 2-3) của điểm P, và các điểm:
• N
1
(x+1, y); N
2
(x-1, y); N
3
(x, y+1); N
4

(x, y-1); N
5
(x-1, y-1); N
6
(x-1,
y+1); N
7
(x+1, y-1); N
8
(x+1, y+1) được gọi là lân cận tám:
11
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
12
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
Hình 2- 3: Ví dụ về lận cận 4
Hình 2- 4: Ví dụ về lân cận 8
2.1.4. Tổng quan về ảnh văn bản
Trang ảnh văn bản được đề cập ở đây là các file ảnh số hóa thu được bằng cách
quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax, file
ảnh này được lưu giữ trong máy tính.
13
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
Ảnh văn bản có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các
phần mở rộng như TIF, BMP, PCX… và ảnh này được đưa ra ở đây là ảnh đa cấp
xám.
Hình 2- 5: Ví dụ về ảnh văn bản
a. Cấu trúc vật lý
Bố cục vật lý của một văn bản mô tả vị trí và các đường danh giới giữa các
vùng có nội dung là khác nhau trong một trang tài liệu. Quá trình phân tích bố
cục văn bản là thực hiện việc tách từ một trang văn bản ban đầu thành các vùng

có nội dung cơ sở như hình ảnh nền, vùng văn bản, …
Để mô tả bố cục vật lý của văn bản người ta sử dụng một cấu trúc hình
học. Với mỗi đối tượng trong cấu trúc là một phần tử chỉ chứa nội dung đồng
nhất. Các kiểu đối tượng hình học được định nghĩa như sau:
14
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
• Block là đối tượng cơ sở tương ứng với một vùng hình chữ nhật chứa một phần
nội dung của văn bản.
• Frame là một đối tượng hỗ hợp tương ứng với một hình chữ nhật bao gồm một
hoặc nhiều block hoặc bao gồm các frame.
• Page là đối tượng hình học hoặc hỗn hợp các thành phần cơ sở tương ứng với
một vùng chữ nhật, nếu là đối tượng hỗn hợp nó chứa một hoặc nhiều block,
một hoặc nhiều frame.
• Page set (tập trang) là một tập hợp của một hoặc nhiều page.
• Điểm gốc của cấu trúc (hay nút gốc) là một đối tượng ở mức cao nhất trong sơ
đồ phân cấp của cấu trúc hình học văn bản.
Các thuật toán phân tích bố cục trang văn bản có thể được chia làm bao
loại chính dựa theo phương pháp thực hiện của nó:
• Bottom – up: Ý tưởng chính của các thuật toán này là bắt đầu từ những phần tử
nhỏ nhất (như từ các pixel hay từ các phần liên thông) sau đó liên tục nhóm
chúng lại thành các vùng lớn hơn.
• Top – down: Thuật toán này bắt đầu từ vùng lớn nhất chứa cả trang văn bản sau
đó liên tục phân chia thành các vùng nhỏ hơn.
• Các thuật toán không theo thứ vậc: như Fractal Signature, Adaptive split – and –
merge …
b. Cấu trúc logic
Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về
ngữ cảnh và nội dụng như các tiêu đề, đoạn văn, đề mục, …và mỗi vùng nội
dung này lại được gán các nhân logic hay nhân theo chức năng tương ứng, khác
biệt hoàn toàn với các nhân trong bố cục vật lý. Hầu hết các tài liệu đều có một

quy tắc đọc để có thể hiểu hết nội dung của tài liệu. Với một số ngôn ngữ đặc
biệt như tiếng Trung, tiếng Ả-rập lại có các đọc khác biệt (như đọc từ phải qua
trái, từ trên xuống). Tập hợp tất cả các yếu tố logic và chức năng trong một tài
liệu và mối quan hệ giữa chúng được gọi là cấu trúc logic của tài liệu.
15
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
2.1.5. Tổng quan về bài toán xử lý ảnh văn bản
a. Giới thiệu về xử lý ảnh văn bản
Xử lý ảnh số thao tác trên các ảnh tự nhiên thông qua các phương pháp và
kỹ thuật mã hóa. Ảnh sau khi thu nhận bằng các thiết bị thu nhận ảnh sẽ được
biến đổi thành ảnh số theo các phương pháp dố hóa được nhúng trong các thiết
bị kỹ thuật khác nhau và được biểu diễn trong máy tính dưới dạng ma trận 2
chiều hoặc 3 chiều.
Các phương pháp nhận dạng ảnh được sử dụng khi xử lý tế báo, nhiễm sắc
thể, nhận dạng chữ … Thực chất của công việc nhận dạng chính là sự phân loại
đối tượng thành các lớp đối tượng đã biết hoặc thành những lớp đối tượng chưa
biết. Bài toán nhận dạng ảnh là một bài toán lớn, có rất nhiều ý nghĩa thực tiễn
và ta cũng có thể thấy rằng để công việc nhận dạng trở nên dễ dàng thì ảnh phải
được tách thành các đối tượng riêng biệt – đây là mục đích chính của bài toán
phân đoạn ảnh. Nếu phân đoạn ảnh không tốt sẽ dẫn đến sai lầm trong quá trình
nhận dạng ảnh, bởi vậy người ta xem công đoạn phân đoạn ảnh là vấn đề then
chốt quan trọng trong quá trình xử lý ảnh nói chung.
Mục đích của việc xử lý ảnh được chia làm 2 phần:
• Biến động ảnh làm tăng chất lượng ảnh
• Tự động nhận dạng, đoán ảnh, đánh giá nội dung của ảnh.
Phương pháp biến đổi ảnh được sử dụng trong việc xử lý các ảnh chụp từ
không trung (chương trình đo đạc từ máy bay, vệ tinh và các ảnh vũ trụ) hoặc xử
lý các ảnh trong y học (chụp ảnh cắt lát, ảnh siêu âm, …). Một ứng dụng khác
của việc biến đổi ảnh là mã hóa ảnh, trong đó các ảnh được xử lý để rồi lưu trữ
hoặc truyền đi.

16
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
Các phương pháp nhận dạng ảnh được sử dụng khi xử lý tế báo, nhiễm sắc
thể, nhận dạng chữ … Thực chất của công việc nhận dạng chính là sự phân loại
đối tượng thành các lớp đối tượng đã biết hoặc thành những lớp đối tượng chưa
biết. Bài toán nhận dạng ảnh là một bài toán lớn, có rất nhiều ý nghĩa thực tiễn
và ta cũng có thể thấy rằng để công việc nhận dạng trở nên dễ dàng thì ảnh phải
được tách thành các đối tượng riêng biệt – đây là mục đích chính của bài toán
phân đoạn ảnh. Nếu phân đoạn ảnh không tốt sẽ dẫn đến sai lầm trong quá trình
nhận dạng ảnh, bởi vậy người ta xem công đoạn phân đoạn ảnh là vấn đề then
chốt quan trọng trong quá trình xử lý ảnh nói chung.
b. Tổng quan quá trình xử lý ảnh văn bản
Sơ đồ nguyên lý của một hệ thống tự động phân tích văn bản (xử lý ảnh)
như sau:
Hình 2- 6: Sơ đồ nguyên lý hệ thống xử lý ảnh văn bản
Thu nhận ảnh (Image Acquisition):
• Ảnh được thu từ nhiều nguồn khác nhau:máy ảnh, máy quay phim, máy
quét, ảnh vệ tinh…
• Mục đích: biến đổi thông tin hình ảnh về các cấu trúc được lưu trữ trong
máy tính, có thể hiển thị ra các thiết bị ngoại vi như là máy in, màn hình…
• Gồm hai tiến trình:
17
Phân đoạn
ảnh
Nhận dạng
và nội suy
Biểu diễn
và mô tả
Tiền xử
lý ảnh

Thu nhận
ảnh
Cơ sở tri thức
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
- Biến đổi năng lượng quang học thành năng lượng điện.
- Tổng hợp năng lượng điện thành ảnh hoặc ma trận số.
Tiền xử lý (Image Processing):
Là quá trình sử dụng các kỹ thuật xử lý ảnh để làm ảnh tốt lên theo mục
đích sử dụng:
• Điều chỉnh độ chiếu sáng để khắc phục hậu quả của việc chiếu sáng
không đều.
• Giảm nhỏ thành phần nhiễu của ảnh tức là các đối tượng xuất hiện ngoài
ý muốn.
• Hiệu chỉnh giá trị độ sáng giữa nền và đối tượng.
• Chuẩn hoá độ lớn, màu, dạng của ảnh.
• Điều chỉnh bộ lọc để khuyếch đại và nén các tần số.
Phân đoạn (Segmentation):
• Là quá trình phân chia nội dung các đối tượng cần khảo sát ra khỏi ảnh.
• Phân chia các đối tượng tiếp giáp nhau.
• Phân tách các đối tượng riêng biệt thành các đối tượng con.
Biểu diễn ảnh (Image Representation):
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã
phân đoạn) cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số liệu
này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc
chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (Feature Selection)
gắn với việc tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc
làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh
nhận được.
Ví dụ 1: Trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các
đặc trưng của từng ký tự giúp phân biệt ký tự này với ký tự khác.

Nhận dạng và nội suy ảnh (Image Recognition and Interpretation):
18
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình này thường thu
được bằng cách so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước. Nội
suy là phán đoán theo ý nghĩa trên cơ sở nhận dạng.
Ví dụ 2: Một loạt chữ số và nét gạch ngang trên phong bì thư có thể được
nội suy thành mã điện thoại. Có nhiều cách phân loai ảnh khác nhau về ảnh.
Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh được phân theo hai
loại nhận dạng ảnh cơ bản:
• Nhận dạng theo tham số.
• Nhận dạng theo cấu trúc.
Cơ sở tri thức (Knowledge Base):
Như đã nói ở trên, ảnh là một đối tượng khá phức tạp về đường nét, độ
sáng tối, dung lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo
nhiễu. Trong nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các
phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt
chước quy trình tiếp nhận và xử lý ảnh theo cách của con người. Trong các
bước xử lý đó, nhiều khâu hiện nay đã xử lý theo các phương pháp trí tuệ con
người. Vì vậy, ở đây các cơ sở tri thức được phát huy.
Lọc nhiễu ảnh văn bả bằng Bộ lọc trung vị (Median filter)
Giới thiệu:
• Lọc trung vị là kỹ thuật lọc phi tuyến (non - linear), nó khá hiệu quả đối
với hai loại nhiễu: nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt –
pepper noise). Kỹ thuật này là một bước phổ biến trong xử lý ảnh.
• Bộ lọc trung vị là bộ lọc làm mượt phi tuyến trong miền không gian.
• Bộ lọc trung vị là một trong những bộ lọc theo thống kê thứ tự.
• Nó thay thế giá trị của điểm ảnh bằng trung vị của các mức xám của các
điểm lân cận
19

Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
• Bộ lọc trung vị được dùng phổ biến, bởi vì một số loại nhiễu nhất định,
nó có thể lọc nhiễu rất tốt với độ mờ thấp so với bộ lọc tuyến tính cùng
kích thước.
Ý tưởng: Ý tưởng chính của thuật toán lọc trung vị như sau: Sử dụng
một cửa dổ lọc (ma trận 3 x 3) quét qua lần lượt từng điểm ảnh của ảnh
đầu vào input. Tại vị trí mỗi điểm ảnh lấy giá trị của các điểm ảnh tương
ứng trong vùng 3 x 3 của ảnh gốc “lấp” vào ma trận lọc. Sau đó sắp xếp
điểm ảnh nằm chính giữa (trung vị) của dãy giá trị điểm ảnh đã được sắp
xếp ở trên cho giá trị điểm ảnh đang xét của ảnh đầu ra input.
Các bước thực hiện:
• Trung vị E của một tập hợp là giá trị mà một nữa các giá trị trong tập
hợp nhỏ hơn hoặc bằng E, một nửa các giá trị trong tập hợp lớn hơn
hoặc bằng E.
• Chức năng cơ bản của bộ lọc trung vị là thiết lập trị của các điểm với
các mức xám khác nhau thành giá trị có ve như gần giống với giá trị của
điểm lân cận.
• Khi áp dụng bộ lọc trung vị có kích thước mxn, các điểm ảnh à có số
lượng các điểm lân cận cùng mức xám với nó nhỏ hơn m*n/2 sẽ không
bị ảnh hưởng, điều này khắc phục được nhược điểm làm mờ ảnh khi áp
dụng bộ lọc trung bình.
VD:
Có ma trận 3x3 như sau:
50 65 52
63 255 58
61 60 57
Các giá trị sau khi sắp xếp
50 52 57 58 60 61 63 65 255
20
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản

Kết quả là giá trị 255 sẽ được thay thế bằng giá trị 60.
• Hạn chế của lọc trung vị là chậm do mỗi lần tính giá trị mói phải thực hiện sắp
xếp lại nxn lần.
• Tính chất của lọc trung vị:
- Có lợi cho việc loại bỏ các điểm ảnh hay các hàng mà vẫn đảm bảo
an toàn độ phân giải
- Hiệu quả giảm khi số điểm trong ma trận lớn hay bằng một nửa số
điểm trong ma trận. Điều này dễ giải thích vì trung vị là (N
w
+ 1)/2
giá trị lớn nhất nếu N
w
lẻ. Lọc trung vị trường hợp hai chiều coi như
lọc trung vị tách được theo từng chiều.
• Một số bộ lọc thường dùng:
(1, 1, 1) (1, 2, 1)
(1, 8, 1) (2, 4, 2)
(1, 1, 1) (1, 2, 1)
Kích thước của bộ lọc (2N – 1, 2M - 1), ví dụ 3x3, 5x5…
Đặt tâm của bộ lọc lên điểm ảnh cần xét, không xét những điểm nằm
trên biên vùng ảnh.
2.2. Quá trình xử lý ảnh văn bản
2.2.1. Nhị phân hóa ảnh văn bản
Trong thực tế, ảnh văn bản mà chúng ta nhận vào ban đầu để xử lý là ảnh màu.
Vì vậy để có thể thực hiện được quá trình phân tích và nhận dạng, chúng ta cần phải
chuyển chúng thành ảnh nhị phân trong đó mỗi điểm ảnh (pixel) được biểu diễn bởi
một trong 2 giá trị là 0 hoặc 255. Đầu tiên, ảnh màu nhận vào sẽ được chuyển thành
ảnh xám với các mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị RED, GREEN,
BLUE của ảnh đầu vào. Từ ảnh xám này, chúng ta sẽ so sánh mức xám của từng điểm
với một ngưỡng cho trước để quyết định điểm đó sẽ là 0 hoặc 255, giá trị 0 biểu diễn

cho màu đen và 255 biểu diễn cho màu trắng.
21
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
Giới thiệu phương pháp OTSU:
Otsu là tên một nhà nghiên cứu người Nhật đã nghĩ ra ý tưởng cho việc tính
ngưỡng T một cách tự động (adaptive) dựa vào giá trị điểm ảnh của ảnh đầu vào
nhằm thay thế cho việc sử dụng ngưỡng cố định (fixed hay const). Phương pháp này
cho kết quả là mỗi ảnh khác nhau có một ngưỡng tương ứng khác nhau bằng các bước
xử lý như sau:
Bước 1: Chọn một giá trị khởi tạo cho T (nên chọn giá trị mang tính công thức,
ví dụ T = (min + max) / 2, T = giá trị trung bình, tránh dùng các giá trị mang tính
định lượng thiết lập cứng).
Bước 2: Phân hoạch ảnh sử dụng T. kết quả của bước này sẽ tạo ra 2 nhóm điểm
ảnh: G1 chứa tất cả các điểm ảnh với giá trị (intensity) > T và G2 chứa các điểm ảnh
với giá trị (intensity) <= T.
Bước 3: Tính trung bình (Average hay Mean) m1 và m2 của các điểm ảnh
thuộc G1 và G2.
Bước 4: Tính lại T dựa vào m1 và m2: T = (m1 + m2) / 2
Bước 5: Lặp lại bước 2 đến 4 cho tới khi nào giá trị chênh lệch giữa T củ và T
mới là không đáng kể (nhỏ hơn một giá trị cho trước deltaT). Delta T thường được sử
dụng là sai số từ các phép tính toán trong quá trình xử lý. Trong trường hợp này T
được tính ở 4 sẽ có phép sai số là 1 / 2 * (giá trị đơn vị của điểm ảnh).
2.2.2. Tách khối văn bản
a) Đặt vấn đề
Phân tích bố cục văn bản là một bước tiền xử lý đặc biệt quan trọng các hệ
thống OCR. Đây là quá trình chia nhỏ ảnh văn bản thành ảnh các khối thuần
nhất, có nghĩa là, các khối này chỉ chứa một loại thông tin, hoặc là text, hoặc là
22
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
ảnh, hoặc là bảng…Trong nhiều trường hợp, độ chính xác của quá trình phân

tích bố cục văn bản làm ảnh hưởng rất nhiều đến độ chính xác của hệ thống
OCR. Trong phạm vi đề tài này, tôi ưu tiên cho việc tách khối trong văn bản
công văn tiếng Việt. Các khối này được phân chia theo một số chuẩn cơ bản của
một văn bản công văn thông thường được sử dụng trong các cơ quan hành chính
tại Việt Nam.
Trên thực tế đã có nhiều phương pháp được đề xuất để phân tích bố cục
của một ảnh văn bản bất kì. Tuy nhiên, trong phạm vi của đồ án này, tôi chỉ
quan tâm đến việc phân tích bố cục của văn bản công văn hành chính tại Việt
Nam. Vì vậy, sau đây tôi đề nghị việc sử dụng một phương pháp đơn giản dựa
trên phương pháp của G. Nagy, S. Seth, and M. Viswanathan đồng thời được cải
tiến để phù hợp hơn đối với các văn bản hành chính tại nước ta.
Sau đây là một bố cục thường gặp của một văn bản công văn hành chính
tại nước ta. Thông thường nó bao gồm 8 phần chính :
• Cơ quan gửi
• Quốc hiệu
• Ngày tháng năm lập công văn
• Tên công văn
• Kính gửi
• Nội dung công văn
• Cơ quan nhận
• Kí tên đóng dấu
b) Giới thiệu một số phương pháp tách khối hiện có
Hiện nay có hai hướng tiếp cận chính trong quá trình tách khối văn bản là:
thuật toán top-down , thuật toán này bắt đầu thực hiện từ toàn bộ văn bản sẽ tìm
ra các khối, sau đó dựa trên các khối để tìm ra dòng, từ rồi ký tự. Cách tiếp cận
thứ hai là bottom-up, ngược lại với cách tiếp cận đầu tiên, cách này đi từ các
23
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
thành phần liên thông nhỏ để tìm ra các ký tự, rồi tìm đến các từ sau đó là các
dòng, từ các dòng này sẽ tìm được các khối.

Mô tả phương pháp
Phương pháp tách khối được tóm tắt như sau: Bước thứ nhất tiến hành tách
khối theo phương ngang trong đó có sử dụng một số tham số đã được xác định
tại phần ước lượng góc nghiêng ảnh văn bản được trình bày ở trên. Bước thứ hai
chúng tôi tiến hành tách khối theo chiếu dọc bằng cách dựa vào các khối đã tách
theo chiếu ngang. Bước tiếp theo chúng tôi sẽ tiến hành chiếu ngang một lần
nữa trên các khối đã xác định được ở bước thứ hai. Sau khi đã tách được các
khối thì công đoạn lọc bỏ các khối có kích thước không phù hợp được tiến hành
và cho ra kết quả cuối cùng.
Tách theo chiều ngang:
Trên văn bản đã được lọc nhiễu, tiến hành duyệt theo chiều từ trên xuống
dưới từ trái qua phải, qua mỗi dòng pixel của văn bản ta sẽ cộng dồn số pixel
đen trên từng dòng. Số pixel đen trên từng dòng đó được biểu diễn thành một đồ
thị với trục nằm dọc là chiều cao của văn bản còn trục nằm ngang là số pixel
đen đếm được trên một dòng. Đồ thị vừa tìm được chính là biểu đồ biểu diễn sự
phân bố của các khối văn bản.
Tách theo chiều dọc
Trên mỗi khối ngang xác định ở bước trên ta sẽ duyệt chúng theo chiều
dọc. Ứng với mỗi cột ta sẽ đếm số pixel đen. Số lượng trên các cột sẽ được biểu
diễn thành một đồ thị, gọi là lược đồ chiếu dọc. Lược đồ này có trục Oy là số
lượng pixel đen trên mỗi cột và trục Ox là chiều rộng của ảnh văn bản.
Tách khối theo chiều ngang lần 2
24
Tìm hiểu kỹ thuật xử lý ảnh và xây dựng ứng dụng tách ảnh ký tự từ ảnh văn bản
Do cấu trúc văn bản không thuần tuý mỗi khối chỉ có một khối cùng nằm
trên một hàng ngang nên sẽ có trường hợp sau khi tách khối, hai hoặc nhiều
khối bị gộp thành một (như hình 2.7(a)). Để khắc phục tình trạng trên, thông
thường người ta sẽ tiến hành tách khối cho đến khi không tách được nữa thì thôi,
nhưng cấu trúc của một văn bản công văn là khá đơn giản nên trong đề tài này
chỉ tìm hiều việc tách khối theo chiều ngang thêm một lần nữa thì tình trạng này

sẽ được khắc phục.
Sau khi thực hiện việc tìm và tách các khối, ta được một tập hợp các khối
văn bản riêng biệt. Tuy nhiên trong văn bản luôn có những khối nhiễu đặc thù
(như các kim bấm, các vết mực lem…) nên chúng cần được loại bỏ.
Khi quan sát ảnh quét ta dễ nhận ra, mỗi văn bản sẽ được chia thành các
đoạn khác nhau. Mỗi đoạn này có những đặc trưng khá tương đồng về cỡ chữ,
font chữ. Chính sự tương đồng đó sẽ tạo ra điều kiện thuận lợi, giảm bớt sự
phức tạp trong giai đoạn xử lý phía sau.
25

×