Tải bản đầy đủ (.docx) (48 trang)

Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (718.11 KB, 48 trang )

Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

MỤC LỤC
Trang phụ bìa.....................................................................................................
Nhiệm vụ luận văn............................................................................................
Mục lục..............................................................................................................
Tóm tắt luận văn................................................................................................
Danh mục các ký hiệu.......................................................................................
Danh mục các bảng...........................................................................................
Danh mục các hình vẽ.......................................................................................

DANH MỤC CÁC BẢNG
Bảng 2.1: so sánh kết quả độ nghiêng văn bản quét của tài liệu khác nhau
tính toán góc ban đầu sử dụng phương pháp Base – point …………………………13
Bảng 2.2: so sánh kết quả độ nghiêng văn bản quét của tài liệu khác
nhau tính toán góc ban đầu sử dụng phương pháp Scanline. …………………………26

1


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Các giai đoạn chính trong xử lý ảnh
5
Hình 2.1: Hộp bao quanh và điểm cơ sở của một ký tự.
12
Hình 2.2: Quét tài liệu từ sách với phương pháp Base – poin.
14

2




Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

Hình 2.3: Ảnh quét từ bài thi với phương pháp Base – point.
15
Hình 2.4: Ảnh quét từ danh mục điện thoại với phương pháp Base – point.
16
Hình 2.5: Ảnh quét từ danh mục điện thoại với phương pháp Base – point
17
Hình 2.6: Quét tài liệu từ sách với phương pháp scanline
22
Hình 2.7: Ảnh quét từ bài thi với phương pháp scanline
23
Hình 2.8: Ảnh quét từ danh mục điện thoại với phương pháp scanline
24
Hình 2.9: Ảnh quét từ danh mục điện thoại với phương pháp scanline
25
Hình 2.10: Đại diện dòng bình thường
28
Hình 3.1: Đường thẳng Hough trong tọa độ cực
38
Hình 4.1: Biến đổi Hough phát hiện góc nghiêng
41
Hình 4.2: Giao diện chính chương trình
42

3



Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

MỞ ĐẦU
Ngày nay, do sự thịnh hành của máy tính cá nhân, phương tiện đã làm
cho kỹ thuật chế bản điện tử trở nên vô cùng phổ biến, số lượng những tài liệu
lưu trữ trên giấy đã tăng đến một số lượng đáng kể. Hàng tỷ tỷ những trang
giấy được tạo ra mỗi năm dưới nhiều hình thức khác nhau như sách, tạp chí,
bản tin, báo, thư từ, biểu mẫu, bảng ghi nhớ, … trên khắp thế giới. Mặc khác,
việc lưu trữ, phân phối, phục hồi những thông tin trên giấy là một công việc
đòi hỏi nhiều công sức, thậm chí không thể thực hiện được một cách thủ
công.
Trong khi quét văn bản, bị nghiêng là không tránh khỏi đối với các văn
bản in, viết tay, văn bản hình ảnh… Phát hiện độ nghiêng là một trong những
vấn đề đầu tiên được áp dụng để quét các văn bản khi chuyển đổi dữ liệu sang
dạng số. Một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán phát
hiện góc nghiêng như một bước đầu tiên và tất yếu của công đoạn tiền xử lý.
Chính vì vậy, cùng với sự phát triển của xử lý ảnh nói chung và xử lý, nhận
dạng văn bản nói riêng, bài toán phát hiện góc nghiêng văn bản cũng được
quan tâm ngày càng nhiều và dưới nhiều góc độ khác nhau. Có rất nhiều
hướng tiếp cận bài toán như: thuật toán dựa vào phân tích hình chiếu, phân
tích láng giềng, biến đổi Hough, phương pháp dùng các phép toán hình thái,
biến đổi Fourier… Sử dụng biến đổi Hough phát hiện góc nghiêng văn bản là
một kỹ thuật phân biệt tốt các ký tự chữ cái và những đối tượng không phải
4


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

chữ cái như nhiễu, đối tượng đồ hoạ, đường thẳng… do đó độ chính xác của
kỹ thuật này cũng được cải thiện hơn. Xuất phát từ những yêu cầu trên, chúng

em chọn đề tài nghiên cứu: “tìm hiểu các thuật toán phát hiện góc nghiêng
văn bản”.

Các thuật toán phát hiện độ nghiêng được thực hiện. Bước đầu tiên là
quét dòng cơ bản phát hiện độ nghiêng. Trong phương thức này, hình ảnh ước
lượng ở nhiều góc cạnh và phương sai về số lượng các điểm ảnh màu đen ước
lượng mỗi dòng được xác định. Các góc mà tại đó phương sai lớn nhất tìm
thấy là góc nghiêng.
Bước thứ 2 là dựa trên biến đổi Hough. Biến đổi Hough là thực hiện trên
ảnh văn bản đã quét và phương sai trong các giá trị là tính toán cho mỗi giá
trị của . Góc mà cho giá trị phương sai lớn nhất là góc nghiêng.
Bước thứ 3 là dựa trên phương thức base-point. Sau khi Base-point liên
tiếp trong từng dòng văn bản trong khoảng thời gian thích hợp như một vùng
đã được chọn làm mẫu cho khớp đường thẳng .Tỷ lệ trung bình của đường cơ
bản được tính toán, tương ứng với mức độ nghiêng của toàn bộ văn bản hình
ảnh.

5


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

Chương 1
ĐẶT VẤN ĐỀ
1.1. Bài toán xử lý văn bản và các ứng dụng trong thực tế
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng
vai trò quan trọng nhất. Con người sử dụng hệ thống thị giác để xem hoặc có
được thông tin mà thị giác thu được, cảm nhận... xử lý và hiểu nó sau đó suy
ra kết luận từ việc cảm nhận thông tin. Các lĩnh vực xử lý ảnh tập trung vào tự
động hoá quá trình thu tập và xử lý thông tin thị giác. Quá trình tiếp nhận và

phân tích thông tin thị giác của máy tính kỹ thuật số được gọi là xử lý ảnh kỹ
thuật số.
Một bức ảnh có thể được mô tả như là một hàm 2 chiểu I:
(1.1)
Trong đó: x và y là toạ độ không gian. Biên độ f tại bất kỳ cặp toạ độ
(x,y) được gọi là cường độ I hoặc giá trị màu xám của ảnh. Khi toạ độ không
gian và giá trị biên độ, số lượng là hữu hạn rời rạc. Ảnh gọi là ảnh số.
Xử lý ảnh số có thể được phân thành các nhánh con khác nhau dựa trên



định nghĩa.
Đầu vào và ra là ảnh
Đầu vào có thể là hình ảnh mà kết quả đầu ra được trích chọn từ những thuộc
tính hình ảnh.
Sau đây là danh sách các chức năng xử lý khác nhau dựa trên hình ảnh ở
trên hai lớp.

6


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản













Hình ảnh thu nhận được
Nâng cao hình ảnh
Hình ảnh phục hồi
Xử lý màu hình ảnh
Chế độ đa phân giải
Nén
Xử lý hình thái học
Phân đoạn
Đại diện và mô tả
Đối tượng nhận dạng
Đối với bảy chức năng đầu tiên của đầu vào và đầu ra là hình ảnh nơi mà
phần còn lại 3 đầu ra là các thuộc tính từ những ảnh đầu vào. Ngoại trừ hình
ảnh thu được và hiển thị hầu hết các chức năng xử lý hình ảnh là thực hiện
trong một phần mềm. Xử lý hình ảnh được đặc trưng bởi các giải pháp cụ thể,
do đó kỹ thuật hoạt động tốt trong một lĩnh vực có thể không đầy đủ trong
một. Các giải pháp thực tế của một vấn để cụ thể vẫn còn đòi hỏi một nghiên
cứu đáng kể và phát triển.
1.2. Vai trò của tiền xử lý trong nhận dạng văn bản.
Có rất nhiều yếu tố ảnh hưởng đến kết quả của phương pháp nhận dạng
văn bản như kích cỡ chữ, góc nghiêng, nhiễu, dấu, hay sự phức tạp của bố cục
văn bản, … Những yếu tố này có thể được giải quyết trong giai đoạn tiền xử
lý. Tuy nhiên, những kết quả trung gian trong giai đoạn tiền xử lý có ảnh
hưởng quan trọng đến độ chính xác của kết quả cuối cùng của những hệ thống
OCR. Một trong những bước tiền xử lý quan trọng là phân trang ảnh văn bản,
nghĩa là, xác định cấu trúc vật lý của một văn bản là bao gồm nhiều khối,
những khối này có thể là vùng văn bản (text), hình ảnh hay bảng biểu; ở đây

chúng tôi chỉ quan tâm đến những vùng text
Phương pháp được tạo ra và lưu trữ liên tục của văn bản đã tồn tại từ
Lưỡng Hà dạng viên đất sét, các tác phẩm Trung Quốc về tre và tơ lụa cũng
như Ai Cập viết trên giấy cói. Đối với việc tìm kiếm và phục hồi, phương

7


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

pháp để lưu trữ có hệ thống tài liệu hoàn chỉnh trọng một thư viên được phát
triển bởi các nhà sư, những người chuyên ghi chép sổ sách cho các vị vua,
hoàng đế trong nhiều nền văn hoá. Lưu truyền theo thời gian nó không còn
nguyên vẹn. Việc chỉnh sửa các văn bản gặp không ít vấn đề. Tuy nhiên, phần
mền xử lý văn bản sẽ chỉ đối phó với một số hữu hạn các định dạng văn bản
kỹ thuật số. Các chuyển đổi hình ảnh của một tài liệu giấy hiện có – mà
không mất nội dung hoặc bố cục – thành một định dạng số mà nó có thể được
xử lý nguyên vẹn là điều khó khăn và thường không thể. Người sử dụng của
chúng tôi cố gắng phá vỡ các vấn đề bằng cách sử dụng một số phần mền
đóng gói Nhận dạng ký tự quang học (optical character recognition - OCR).
Hiện nay phần mềm đóng gói OCR sẽ làm công việc hợp lý giúp người sử
dụng chuyển đổi hình ảnh sang một dạng tài liệu mà có thể được xử lý bởi hệ
thống xử lý văn bản thường xuyên cung cấp cho nó có những điều kiện tối ưu





với:
Chất lượng hình ảnh

Phân chia các văn bản từ hình nền của nó
Sự hiện diện của các font ký tự
Không có kịch bản viết tay được connected-cursive và bố cục trang đơn giản
Mô hình quá trình xử lý ảnh được mô tả như sau:
Thu nhận ảnh

Tiền xử lý

Phân đoạn

Tách các đặc tính

Nhận dạng và giải thích

Hình 1.1: Các giai đoạn chính trong xử lý ảnh

Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với
quá trình xử lý ảnh. Ảnh đầu vào sẽ được thu nhận qua các thiết bị như
camera, sensor, máy scanner,v.v… và sau đó các tín hiệu này sẽ được số hóa.
Việc lựa chọn các thiết bị thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối

8


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

tượng cần xử lý. Các thông số quan trọng ở bước này là độ phân giải, chất
lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị.
Tiền xử lý: Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử
nhiễu, khử bóng, khử độ lệch,v.v… với mục đích làm cho chất lượng ảnh trở

lên tốt hơn nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá
trình xử lý ảnh. Quá trình này thường được thực hiện bởi các bộ lọc.
Phân đoạn ảnh: phân đoạn ảnh là bước then chốt trong xử lý ảnh. Giai
đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa
theo biên hay các vùng liên thông. Tiêu chuẩn để xác định các vùng liên
thông có thể là cùng màu, cùng mức xám v.v… Mục đích của phân đoạn ảnh
là để có một miêu tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô.
Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng
ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm
lượng thông tin khổng lồ đó. Quá trình này bao gồm phân vùng ảnh và trích
chọn đặc tính chủ yếu.
Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho
dưới dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh,
hoặc tập hợp tất cả các điểm ảnh thuộc về chính vùng ảnh đó. Trong cả hai
trường hợp, sự chuyển đổi dữ liệu thô này thành một dạng thích hợp hơn cho
việc xử lý trong máy tính là rất cần thiết. Để chuyển đổi chúng, câu hỏi đầu
tiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dưới
dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó. Biểu diễn
dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu
đến các đặc trưng hình dạng bên ngoài của đối tượng, ví dụ như các góc cạnh
và điểm uốn trên biên chẳng hạn. Biểu diễn dạng vùng lại thích hợp cho
những ứng dụng khai thác các tính chất bên trong của đối tượng, ví dụ như

9


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

vân ảnh hoặc cấu trúc xương của nó. Sự chọn lựa cách biểu diễn thích hợp
cho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi dữ liệu ảnh thô

sang một dạng thích hợp hơn cho các xử lý về sau. Chúng ta còn phải đưa ra
một phương pháp mô tả dữ liệu đã được chuyển đổi đó sao cho những tính
chất cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lý
chúng.
Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình xử lý
ảnh. Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gán
nhãn cho các đối tượng trong ảnh. Ví dụ đối với nhận dạng chữ viết, các đối
tượng trong ảnh cần nhận dạng là các mẫu chữ, ta cần tách riêng các mẫu chữ
đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu
chữ thu được trong ảnh. Giải thích là công đoạn gán nghĩa cho một tập các
đối tượng đã được nhận biết.
Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý
ảnh nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví
dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý.
Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải
thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tự
động, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ như
các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…
Quả thực, trong mỗi trường hợp hạn chế nghiêm ngặt về nội dung, hình
dạng ký tự và bố cụ hiện tại, phương pháp hiện tại thậm chí là công việc khá
tốt trong việc chuyển đổi chính xác hình ảnh ký tự để các chuỗi tương ứng
của các ký tự số trong bảng mã ASCII hay Unicode. Ví dụ về các ứng dụng
như vậy là bưu điện đọc địa chỉ hoặc chữ số để xác nhận kiểm tra ngân hàng.

10


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

Mặt khác, nếu người dùng muốn xử lý kỹ thuật số quyển nhật ký viết tay

của ông bà hoặc một đoạn của tờ báo từ thế kỷ 18, cơ hội thành công vẫn còn
chưa rõ ràng. Thư viện và nhà nghiên cứu nhân văn trên toàn thế giới vẫn
thích loại văn bản cổ viết bằng tay vào máy tính của họ trong khi sao chép từ
giấy hơn là uỷ thác tài liệu của họ lưu hành các thuật nhận dạng văn bản.
Không chỉ là xử lý các hình ảnh văn bản tuỳ ý, nguồn gốc là một vấn đề đáng
kể. Ngay cả khi mục tiêu có thể được giảm đến chỉ là tìm kiếm và phục hồi
văn bản có liên quan từ một lượng lưu trữ số các văn bản hình ảnh có nhiều
vật chướng ngại. Hơn nữa, đáng ngạc nhiên, không chỉ các văn bản cổ xưa
đang đặt ra vấn đề.
Ngay cả việc xử lý văn bản kỹ thuật số hiện đại tạo ra, trong các định
dạng khác nhau như tổ hợp các trang web với nội dung văn bản của họ và mã
hoá dựa trên hình ảnh sẽ yêu cầu kỹ thuật trước khi đảo ngược một tài liệu
như kỹ thuật số có thể được nạp vào bộ xử lý từ. Trong những năm gần đây,
thêm một thách thức thú vị trong nghiên cứu nhận dạng. Đọc văn bản từ
nhừng hình ảnh tự nhiên ghi bằng máy ảnh, nhiều vấn đề được đặt ra, ta đang
fải đối phó với một số hạn chế ứng dụng như: việc nhận dạng tự động của các
chữ số trong bức ảnh chụp của tấm giấy phép ôtô trở thành một vấn để kỹ
thuật đơn thuần, cách đọc dựa trên camera của văn bản ví dụ, trong hệ thống
hỗ trợ cho người mù, chỉ bắt đầu hiển thị kết quả sơ bộ.
1.3. Bài toán phát hiện góc nghiêng văn bản.
Xử lý văn bản hình ảnh có nhiều nhiệm vụ khác nhau và có các phương
pháp để thực hiện các nhiệm vụ này. Trong khi quét văn bản, nghiêng là
không tránh khỏi khi văn bản hình ảnh được đưa vào. Góc nghiêng là sự sai
lệch bất kỳ của hình ảnh từ văn bản gốc, mà không song song với chiều ngang

11


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản


hoặc dọc. Góc nghiêng văn bản là một trong những nhiệm vụ quan trọng cần
được sửa chữa trong xử lý văn bản.
Góc nghiêng văn bản là một bài toán kinh điển trong xử lý ảnh văn bản.
Một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán phát hiện góc
nghiêng như một bước đầu tiên và tất yếu. Chính vì vậy, cùng với sự phát
triển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài toán góc
nghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc độ
khác nhau. Có rất nhiều hướng tiếp cận cho bài toán góc nghiêng văn bản từ
trước tới nay. Các thuật toán phát hiện góc nghiêng thường được xây dựng
cho các hệ thống phân tích ảnh văn bản khác nhau nên chỉ giải quyết cho
những loại ảnh văn bản cụ thể. Có thể chia ra một số hướng tiếp cận cơ bản
cho bài toán góc nghiêng văn bản như sau:
- Các thuật toán dựa vào phương pháp Base - point
- Các thuật toán dựa vào biến đổi Hough (Hough Transform)
- Các thuật toán dựa vào biến đổi Fourier (Fourier Transform)
- Các thuật toán phân tích láng giềng (Nearest Neighbour Clustering)
- Các thuật toán dựa vào phương pháp scanline…
Dựa vào tính chất mỗi đối tượng ảnh có duy nhất một chu tuyến ngoài và
quan niệm con người nhận ra độ nghiêng của văn bản dựa vào cỡ chữ chiếm
chủ đạo trong văn bản. Mục này đề cập đến việc tính toán kích thước chủ đạo
của các đối tượng ảnh trong văn bản thông qua kỹ thuật tính biểu đồ tần xuất
kích thước hình chữ nhật nhỏ nhất bao quanh đối tượng ảnh. Việc xác định
góc nghiêng văn bản sẽ được xác định nhờ phép biến đổi Hough cho những
điểm giữa đáy của hình chữ nhật nhỏ nhất bao quanh đối tượng ảnh cho các
đối tượng ảnh có kích thước chủ đạo.

12


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản


Kết luận
Nội dung chương 1 đã giới thiệu tổng quan các bước tiền xử lý văn bản,
vai trò của nó trong việc nhận dạng văn bản. Bước đầu tiếp cận với bài toán
phát hiện góc nghiêng văn bản.
Qua nghiên cứu có rất nhiều cách tiếp cận khác nhau đối với bài toán
phát hiện góc nghiêng văn bản. Một số thuật toán tiêu biểu sẽ được trình bày
chi tiết hơn trong chương 2.

Chương 2
CÁC THUẬT TOÁN PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN
Có nhiều phương pháp khác nhau để phát hiện góc nghiêng hình ảnh văn
bản quét. Trong chương này chúng tôi nghiêng cứu 3 thuật toán phát hiện góc
nghiêng văn bản tiêu biêu nhất là: Phát hiện góc nghiêng dựa vào phương
pháp Base-point, dựa vào biến đổi Fourier và phát hiện góc nghiêng dựa vào
phương pháp Scanline.
2.1. Phát hiện góc nghiêng dựa vào phương pháp Base-point.
Đầu tiên chúng ta sẽ thảo luận về các phương pháp pháp hiện góc
nghiêng bằng cách sử dụng thuật toán staight line phù hợp. Các bước liên
quan và cộng thêm tiêu chuẩn khác nhau mà nó tăng hiệu quả của các thuật
toán đã được thảo luận. Cuối cùng đưa ra các ví dụ thích hợp.
2.1.1. Lựa chọn của một phân vùng và đối tượng
2.1.1.1. Lựa chọn phân vùng

13


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

Dòng văn bản trong một tài liệu nói chung là song song với nhau theo

hướng ngang và khoảng cách giữa hai dòng văn bản liên tiếp là tương đối cố
định. Từ khi quét tất cả các điểm ảnh trong toàn bộ ảnh văn bản là tốn thời
gian, nó thích hợp để chọn phân vùng phù hợp để tính toán theo hướng dòng
văn bản mà tương ứng với góc nghiêng của ảnh.
Mặc dù các điểm ảnh trong một trang hình ảnh thể hiện các thông tin về
nhiều mặt, nó tốn thời gian để phân tích tất cả các điểm ảnh trong hình ảnh.
Thành phần kết nối, cái mà tập hợp có liên quan đến các điểm ảnh, cũng có
thể thể hiện thông tin trong nhiều mặt như bố cục trang.[5]
Trong một văn bản hình ảnh được quét, có một số cạnh đen mà không
chỉ ảnh hưởng đến tính chính xác của thuật toán mà còn tăng chi phí tính toán.
Mục đích để tránh những ảnh hưởng tiêu cực của các cạnh đen, các cạnh của
văn bản hình ảnh không cần phải lựa chọn bao gồm cả vùng. Hơn nữa, kích
thước của vùng cần phải chon cẩn thận để đạt được tốc độ cao hơn và độ
chính xác tốt hơn. Cách lựa chon vùng R cần phải thoả mãn điều kiện sau:
(2.1)
Ở đây là trung bình chiều rộng của các ký tự chữ và số, và là khoảng
ngưỡng giữa những dòng kế tiếp. Cho độ rộng của văn bản hình ảnh là W và
chiều cao là H, đường biên trái của vùng nên là , đường biên phải , biên trên ,
biên dưới . Theo thống kê, số lượng thành phần kết nối trong một dòng văn
bản n nên lớn hơn 10, và số lượng của các dòng văn bản trong vùng k nên lớn
hơn 3, mà có thể đảm bảo độ chính xác của thuật toán này.
Đồng thời mối quan hệ giữa các thành phần liên kết liền kề phân tích với
một số thuật toán như là phép chiếu, mà nó có thể chắc chắn được lựa chọn
vùng chỉ bao gồm một cột văn bản.
2.1.1.2. Lựa chọn đối tượng
14


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản


Hộp ranh giới của tất cả các thành phần liên kết được tạo ra trước tiên.
Và một ký tự đơn hoặc các ký tự chạm vào được chứa trong hộp ranh giới
được coi như là một đối tượng.
Theo thống kê, phần lớn đáy các đối tượng chữ số đều nằm trên một
đường cơ sở, như là: A, s, x, ect. Chỉ có rất ít đối tượng chữ số đi xuyên qua
một hộp ranh giới đường cơ sở, như là: p, q, g,… Kích thước của các đối
tượng đánh dấu chấm câu là rõ ràng nhỏ hơn so với những chữa số. Để loại bỏ
những tác động tiêu cực của đánh dấu chấm câu, các đối tượng chỉ có thể thoả
mãn các điều kiện sau đây có thể được lựa chọn là ứng cử viên cho thuật toán
phát hiện độ nghiêng.
(2.2)
Ở đây C là tập hợp các ứng viên cho các thuật toán phát hiện góc
nghiêng, và có chiều rộng và chiều cao của hộp ranh giới của đối tượng ,
tương ứng là ngưỡng của độ rộng, là ngưỡng của chiều cao của đối tượng
hộp ranh giới, và k là số đối tượng ứng cử viên.

Hình 2.1. Hộp bao quanh và điểm cơ sở của một ký tự
2.1.2. Tập các điểm cơ sở.
2.1.2.1. Định nghĩa

15


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

Định nghĩa 1: Base-point của một đối tượng là trung tâm ở phía dưới
trong hộp ranh giới của một đối tượng. (hình 2.1)
Định nghĩa 2: Base-group là một nhóm chứa tất cả các điểm cơ sở trong
cùng một dòng văn bản.
2.1.2.2. Tập hợp các điểm cơ sở.

Trong một vùng văn bản rõ ràng nơi mà những dòng văn bản là song
song, các điểm cơ sở trong dòng văn bản khác nhau có thể được chia thành
các nhóm cơ sở khác nhau theo ngưỡng không gian . Sau đây là thủ tục chi
tiết.
Bước 1: Khởi tạo mỗi điểm cơ sở để nó không có trong bất kỳ nhóm cơ
sở nào, và thiết lập k = 0.
Bước 2: Trong phân vùng đã chọn R, nếu điểm cơ sở phía trên trái
không tìm thấy trong bất kỳ nhóm cơ sơ nào, thiết lập k++ và đưa vào nhóm
mới .
Bước 3: Trong phạm vi hình chữ nhật , nếu điểm cơ sở trái nhất không
tìm thấy trong bất kỳ nhóm cơ sở nào, đưa vào và thiết lập . Lặp lại bước
này cho đến khi tất cả các điểm cơ sở nằm trong nhóm cơ sở nhất định trong
phạm vi hình chữ nhật này.
Bảng 2.1: so sánh kết quả độ nghiêng văn bản quét của tài liệu khác
nhau tính toán góc ban đầu sử dụng phương pháp Base – point.
Góc =>
Các hình văn bản
quét
Hình 2.3 (a)
Hình 2.3 (c)
Hình 2.4 (a)

16

Tính góc nghiêng

Góc nghiêng ban
đầu

-4

-2
-1

-8
6
-7


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

Hình 2.4 (c)
Hình 2.5 (a)
Hình 2.5 (c)

-1
-4
-3

15
16
-18

Bước 4: quay lại bước 2 cho đến khi tất cả các điểm cơ sở trong vùng R
đã được đưa vào trong các nhóm cơ sở khác nhau.
Áp dụng cho đường thẳng phù hợp, sử dụng phương pháp tối ưu, đối với
mỗi nhóm thu được ở cuối bước 4 để có được độ nghiêng của đường đó phù
hợp nhất cho mỗi nhóm. Lấy giá trung bình tất cả các giá trị độ nghiêng thu
được trong bước trước đó. Đây là góc nghiêng của chúng tôi.
2.1.3. Độ phức tạp
Cho số điểm ảnh trong vùng R là . Sau thuật toán các điểm cơ sở thì

cho độ phức tạp thời gian .

(a) Ảnh đầu tiên quét từ sách

17

(b) kết quả hiệu chỉnh từ (a)


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

(c) ảnh thứ 2 quét từ sách

(d) kết quả hiệu chỉnh (c)

Hình 2.2: Quét tài liệu từ sách với phương pháp Base - point

(a) ảnh đầu tiên quét từ bài thi

18

(b) kết quả hiệu chỉnh (a)


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

(c) Ảnh thứ 2 quét từ bài thi

(d) kết quả hiệu chỉnh (c)


Hình 2.3: Ảnh quét từ bài thi với phương pháp Base – point

(a) Ảnh quét từ danh mục điện thoại

19

(b) kết quả hiệu chỉnh từ (a)


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

(c) Ảnh thứ 2 quét từ danh mục điện thoại

(d) kết quả hiệu chỉnh từ (c)

Hình 2.4: Ảnh quét từ danh mục điện thoại với phương pháp Base – point

(a) Ảnh thứ 3 quét từ danh mục điện thoại

20

(b) kết quả hiệu chỉnh (b)


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

(c) Ảnh thứ 4 quét từ DM điện thoại

(d) kết quả hiệu chỉnh (c)


Hình 2.5: Ảnh quét từ danh mục điện thoại với phương pháp Base – point
2.2. Phát hiện góc nghiêng dựa vào biến đổi Fourier
Biến đổi Fourier là một công cụ quan trọng trong xử lý hình ảnh được
sử dụng để phân hủy một hình ảnh thành hình sin của nó và các thành phần
cosin. Kết quả của biến đổi đại diện cho hình ảnh trong fourier hoặc miền tần
số, trong khi hình ảnh đầu vào là các miền không gian tương đương. Trong
những hình ảnh miền Fourier, mỗi điểm đại diện cho một tần số đặc biệt chứa
trong hình ảnh miền không gian. Việc chuyển đổi Fourier được sử dụng trong
một loạt các ứng dụng như: phân tích hình ảnh, hình ảnh lọc tái tạo ảnh, nén
ảnh…
2.2.1. Phép biến đổi Fourier và các đặc trưng hình học
Biến đổi fourier rời rạc không chứa tất cả các tần số tạo thành một hình
ảnh, nhưng chỉ có một tập hợp các mẫu là đủ lớn để mô tả đầy đủ hình ảnh
miền không gian. Số lượng các tần số tương ứng với số lượng điểm ảnh trong

21


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

hình ảnh miền không gian, tức là hình ảnh trong và Fourier miền không gian
có cùng kích thước.
Để có một hình vông có kích thước NxN, các DFT hai chiều cho bởi:

Trong đó f (a, b) là hình ảnh trong lĩnh vực không gian và thời hạn theo
cấp số nhân là cơ sở chức năng tương ứng với mỗi điểm F (k, l) trong không
gian Fourier. Phương trình có thể được hiểu là: giá trị của mỗi điểm F (k, l)
thu được bằng cách nhân các hình ảnh không gian với các chức năng cơ bản
tương ứng và tổng hợp kết quả.
Theo cách tương tự thì hình ảnh Fourier có thể được tái chuyển vào miền

không gian. Biến đổi Fourier ngược cho bởi

Để có được kết quả cho các phương trình trên, giá trị gấp đôi đã được
tính cho mỗi điểm ảnh. Tuy nhiên, do chuyển đổi Fourier là tách được nó
được viết là:

Với

Sử dụng hai công thức, hình ảnh miền không gian là lần đầu tiên chuyển
đổi thành một hình ảnh trung gian bằng cách sử dụng N một chiều biến đổi
Fourier. Ngay cả khi tiết kiệm tính toán, một chiều thông thường có DFT N2
phức tạp. Điều này có thể giảm xuống Nlog2N nếu ta sử dụng biến đổi nhanh
Fourier (FFT) tính DFTs một chiều. Đây là một cải tiến đáng kể, đặc biệt cho
hình ảnh lớn. Có nhiều hình thức khác nhau của FFT và hầu hết trong số đó

22


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

hạn chế kích thước của hình ảnh ban đầu và có thể chuyển đổi thường xuyên
N=2n trong đó n là một số nguyên.
Trong xử lý hình ảnh, thường thì chỉ có độ lớn của biến đổi Fourier được
hiển thị, vì nó chứa hầu hết các thông tin về cấu trúc hình học của hình ảnh
miền không gian. Tuy nhiên, nếu chúng ta muốn tái biến đổi hình ảnh Fourier
vào miền trong không gian chính xác sau khi một số xử lý trong lĩnh vực tần
số.
Việc chuyển đổi Fourier được sử dụng nến chúng ta muốn truy cập các
đặc tính hình học của một hình ảnh miền không gian. Bởi vì hình ảnh trong
lĩnh vực Fourier bị phân hủy thành các thành phần hình sin của nó, nó rất dễ

dàng để kiểm tra hoặc quá trình tần số ổn định của hình ảnh, do đó ảnh hưởng
đến cấu trúc hình học trong lĩnh vực không gian.
2.2.2. Biến đổi Fourier trong định dạng văn bản
Xác định nghiêng văn bản là một công cụ quan trong trọng tài liệu phân
tích bởi vì nhiều tài liệu phân tích kỹ thuật yêu cầu hoàn toàn phù hợp với tài
liệu hình ảnh để làm việc cho tốt. Nếu nghiêng mà tài liệu chưa được sử lý thì
tính chính xác của các kỹ thuật khác có thể bị hạn chế. Với vấn đề này, kỹ
thuật được đề xuất dựa trên các sử dụng biến đổi Fourier cho góc nghiêng dự
toán chính xác.
Góc nghiêng có thể tìm thấy từ 2D phổ Fourier bằng cách tích hợp tỏa
tròn hoặc việc tìm kiếm các góc độ của đỉnh có giá trị cao nhất. Việc xác định
độ lệch sử dụng các dòng trong Fourier không gian để xác định góc nghiêng
theo thuật toán sau:


Hình ảnh được phân thành các khối có kích thước nxn.

23


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản



Phân tích Fourier là phổ Fourier tính toán cho mỗi khối (sử dụng FFT) và đại
diện với nguồn trung tâm. Một cửa sổ nhỏ có kích thước WxW, với tâm tại
gốc( thiết lập là không) và giá trị còn lại trong quang phổ được chuẩn hóa để




có được sự nhất quán các giá trị giữa các khối.
Đỉnh cặp phát hiện trong 5 cặp cao nhất và các góc tương ứng với trục dọc



của phổ quang phổ, đỉnh này xảy trong các cặp kể cả đầu vào là giá trị thực.
Histogram – Biểu đồ góc lệch xây dựng nơi mà các góc lệch có giá tri
nguyên. Mỗi góc độ tính toán các thùng tương ứng với giá trị nguyên của nó
được tăng lên bằng giá trị bình thường của các đỉnh trong Fourier phổ. Các



giá trị góc lệch thực tế được giữ lại.
Góc lệch tính có giá trị nguyên – Histogram sau đó được làm nhẵn và cao



điểm nhất chọn là giá trị nguyên của các góc nghiêng.
Giá trị góc thực tính – trong tất cả giá trị thực góc trong t0 ± của các số
nguyên có giá trị là góc lựa chọn và tính trung bình nó. Điều này, giá trị trung
bình đại diện cho góc nghiêng cuối cùng của văn bản
2.3. Phát hiện góc nghiêng dựa vào phương pháp Scanline.
Có nhiều phương pháp khác nhau để phát hiện góc nghiêng hình ảnh văn
bản quét. Nhưng ở đây chúng tôi tập trung dựa trên phương pháp Scanline tức
là phương pháp Scanline trên biến đổi Hough.
2.3.1. Thuật toán Scanline
Phương pháp này chiếu các hình ảnh ở nhiều góc cạnh và xác định mức
độ thay đổi số điểm ảnh màu đen chiếu mỗi dòng quét. Góc mà tại đó giá trị
lớn nhất xảy ra không phải là góc nghiêng.
Thuật toán:

1. Tính toán toạ độ trong mặt phẳng ảnh, cho mỗi dòng quét song song
nằm ở một góc nghiêng trong mặt phẳng ảnh. Toạ độ được tính toán sử dụng
thuật toán Bresenham’s Line Drawing.
24


Tìm hiểu các thuật toán phát hiện góc nghiêng văn bản

2. Đối với mỗi dòng quét, điếm số điểm ảnh không là nền nằm trên
dòng.
3. Tính v số lượng điểm ảnh màu đen nằm trên mỗi dòng quét với một
góc xác định
4. Góc nghiêng là cho bởi góc mà phương sai lớn nhất được tìm thấy.
Độ phức tạp:
Với N là số đỉêm ảnh trong văn bản ảnh được quét, độ phức tạp là: .

(a) Ảnh đầu tiên quét từ sách

25

(b) kết quả hiệu chỉnh từ (a)


×