Tải bản đầy đủ (.pdf) (69 trang)

Phát hiện góc nghiêng của phiếu điểm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.3 MB, 69 trang )

i
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN &TRUYỀN THÔNG

NGUYỄN VĂN QUANG

PHÁT HIỆN GÓC NGHIÊNG CỦA
PHIẾU ĐIỂM
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 0101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS ĐỖ NĂNG TOÀN

Thái Nguyên – năm 2015


ii

LỜI CẢM ƠN
Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến thầy hướng dẫn khoa học
PGS.TS Đỗ Năng Toàn về những chỉ dẫn khoa học, định hướng nghiên cứu
và tận tình hướng dẫn tôi trong suốt quá trình làm luận văn.
Tôi cũng xin cảm ơn các Thầy trong viện Công Nghệ Thông Tin, các
Thầy Cô trong trường Đại học Công Nghệ Thông Tin và Truyền Thông-Đại
học Thái Nguyên đã quan tâm chỉ bảo và trực tiếp giảng dạy, giúp đỡ trong
suốt quá trình học tập và nghiên cứu.
Tôi xin chân thành cảm ơn lãnh đạo các phòng, ban trong trường Đại học Sư
phạm Thái Nguyên đã tạo điều kiện cho tôi học tập và nghiên cứu đề tài này.
Cuối cùng, tôi xin cảm ơn gia đình và bạn bè, những người đã luôn ủng


hộ và động viên tôi để tôi yên tâm nghiên cứu luận văn này.
Học viên
Nguyễn Văn Quang


iii

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình của riêng tôi, dưới sự hướng dẫn
của PGS.TS Đỗ Năng Toàn. Các số liệu và kết quả nghiên cứu trong luận văn
này là trung thực và không trùng lặp với các đề tài khác.
Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả,
tên công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo hay gian trá tôi
xin hoàn toàn chịu trách nhiệm.
Học viên
Nguyễn Văn Quang


iv

MỤC LỤC

LỜI CAM ĐOAN ......................................................................................... iii
MỤC LỤC .................................................................................................... iv
DANH MỤC HÌNH ẢNH ............................................................................. vi
MỞ ĐẦU ....................................................................................................... 2
CHƯƠNG 1: KHÁI QUÁT NHẬP ĐIỂM TỰ ĐỘNG VÀ BÀI TOÁN PHÁT
HIỆN GÓC NGHIÊNG .................................................................................. 5
1.1. Khái quát về nhập điểm tự động. .......................................................... 5

1.1.1. Quản lý và nhập điểm tự động ........................................................... 5
1.1.2. Quy trình chung một hệ thống nhập điểm tự động. ........................... 6
1.2. Bài toán phát hiện góc nghiêng. ............................................................ 8
1.2.1. Giới thiệu bài toán. .............................................................................. 8
1.2.2. Một số cách tiếp cận. ........................................................................... 9
1.2.2.1. Phương pháp phân tích hình chiếu (Profile Projection) ............. 9
1.2.2.2. Phương pháp phân tích dựa vào trọng tâm (Center of Gravity) 11
1.2.2.3. Phương pháp phân tích láng giềng (Nearest Neighbour
Clustering)[10] ....................................................................................... 14
1.2.2.4. Phương pháp dùng phép toán hình thái (Morphology) ............ 16
1.2.2.5. Phương pháp biến đổi Hough (Hough Transform) .................. 17
CHƯƠNG 2: BIẾN ĐỔI HOUGH VÀ BÀI TOÁN PHÁT HIỆN GÓC
NGHIÊNG PHIẾU ĐIỂM ............................................................................ 20
2.1. Biên và kỹ thuật dò biên...................................................................... 20
2.1.1. Biên của đối tượng ảnh...................................................................... 20
2.1.1.1. Biên và các kiểu biên cơ bản trong ảnh ................................... 20
2.1.1.2. Vai trò của biên trong nhận dạng ............................................ 22
2.1.2. Kỹ thuật dò biên ................................................................................. 24
2.1.2.1. Phương pháp dò biên trực tiếp ................................................ 24


v

2.1.2.2. Phương pháp dò biên gián tiếp ................................................ 31
2.1.2.3. Thuật toán dò biên tổng quát ................................................... 34
2.2. Phát hiện góc nghiêng phiếu điểm từ biên của đối tượng..................... 37
2.2.1. Đường thẳng Hough trong toạ độ cực .............................................. 37
2.2.2. Thuật toán biến đổi Hough ................................................................ 40
2.2.3. Áp dụng biến đổi Hough trong phát hiện góc nghiêng phiếu điểm 41
2.2.4. Thuật toán phát hiện góc nghiêng phiếu điểm ................................. 43

2.3. Chỉnh sửa góc nghiêng phiếu điểm...................................................... 50
2.3.1. Phương pháp chiếu nghiêng .............................................................. 50
2.3.2. Chỉnh sửa góc nghiêng phiếu điểm .................................................. 52
CHƯƠNG 3: CHƯƠNG TRÌNH NHẬP ĐIỂM TỰ ĐỘNG ........................ 54
3.1. Bài toán ............................................................................................... 54
3.2. Phân tích và lựa chọn công cụ ............................................................. 54
3.3. Chương trình thử nghiệm .................................................................... 55
PHẦN KẾT LUẬN ...................................................................................... 59
KẾT LUẬN VÀ KIẾN NGHỊ ...................................................................... 61
TÀI LIỆU THAM KHẢO ............................................................................ 62


vi

DANH MỤC HÌNH ẢNH
Hình 1.1.Sơ đồ khối
Hình 1.2.Đa giác 6 đỉnh và trọng tâm được xác định
Hình 1.3. Hình chữ nhật ngoại tiếp ảnh văn bản thay cho đa giác
Hình 1.4. Ảnh đầu vào và kết quả sau khi áp dụng thuật toán
Hình 1.5. Tìm các điểm xanhất theo các hướng trên ảnh
Hình 1.6. Trọng tâm được xá định dựa vào các điểm xa
Hình 1.7. Đường cơ sở được nối từ trọng tâm đến gốc tọa độ
Hình 1.8. Xác định góc nghiêng ảnh văn bản
Hình 1.9.Phân tích láng giềng
Hình 1.10. Biểu diễn đường thẳng Hough đi qua 3 điểm
Hình 2.1. Đường biên lý tưởng
Hình 2.2.Đường biên dốc
Hình 2.3. Đường biên không trơn
Hình 2.4.Sơ đồ phân tích ảnh
Hình 2.5. Toán tử 4 lân cận

Hình 2.6. Ví dụ về các chu tuyến đối ngẫu
Hình 2.7. Chu tuyến trong và chu tuyến ngoài của một đối tượng
Hình 2.8. Đại diện dòng bình thường
Hình 2.9.Biến đổi Hough phát hiện góc nghiêng
Hình 2.10.Ví dụ về một ảnh nghiêng có ít ký tự
Hình 2.11. Ví dụ về văn bản nghiêng có các đối tượng bao nhau
Hình 2.11.Sơ đồ giải thuật tổng quát
Hình 2.13. Các hình chiếu theo chiều thẳng đứng và nằm ngang của văn bản
Hình 3.1.Giao diện chương trình thử nghiệm
Hình 3.2. Một phiếu điểm khi thu nhận bị xoay phải
Hình 3.2. Một phiếu điểm khi thu nhận bị xoay trái


vii

Hình 3.4: Hiển thị góc nghiêng của phiếu điểm
Hình 3.5. Kết quả sau khi hiệu chỉnh ảnh


2

MỞ ĐẦU
Trong số các thông tin con người thu nhận từ bên ngoài, có đến hơn 80%
được ghi nhận bằng mắt tức là ở dạng ảnh. Vì vậy xử lý ảnh là một ngành
khoa học đã, đang và sẽ phát triển mạnh có ứng dụng rộng rãi trong khoa học
và đời sống thực tiễn. Các hệ thống xử lý ảnh cho phép con người thu nhận,
lưu trữ, phân tích và nhận dạng ảnh. Một bộ phận quan trọng của xử lý ảnh đó
chính là xử lý văn bản.
Hiện nay, trong hầu hết các cơ sở giáo dục đào tạo của nước ta đều được trang
bị phần mềm quản lý đào tạo nhằm nâng cao chất lượng giảng dạy và quản lý

học sinh, sinh viên, giúp giảm bớt một phần lớn công việc của đội ngũ cán bộ
quản lý giáo dục. Tuy nhiên việc cập nhật điểm thi vào hệ thống phần mềm
quản lý giáo dục vẫn còn thủ công, không những làm tốn nhiều công sức của
đội ngũ giáo vụ mà còn có nhiều sai sót đặc biệt với những trường có số
lượng môn học và số sinh viên lớn.
Một trong những vấn đề đầu tiên trong xử lý ảnh là bài toán góc nghiêng văn
bản, đối tượng cụ thể mà tôi đề cập trong luận văn này là phiếu điểm.Nguyên
nhân dẫn đến phiếu điểm bị nghiêng một góc xuất phát từ quá trình quét ảnh
hoặc copy ảnh. Do đặt ảnh vào bệ máy quét và máy in là một công đoạn được
thực hiện bằng tay lên ảnh có thể bị lệch so với bệ máy một góc mà mắt
thường không nhận thấy được, dẫn đến ảnh bị lệch đi một góc tương ứng.
Phiếu điểm bị lệch có ảnh hưởng rất lớn đến các quá trình xử lý ảnh tiếp theo,
vì vậy việc phát hiện và chỉnh sửa góc nghiêng phiếu điểm là nhiệm vụ quan
trong đầu tiên trong xử lý ảnh phiếu điểm.
Từ những lý do trên, tôi đã chọn đề tài “PHÁT HIỆN GÓC NGHIÊNG CỦA
PHIẾU ĐIỂM” với mong muốn giải quyết được phần nào những khó khăn
đó.
*Đối tượng và phạm vi nghiên cứu


3

- Nghiên cứu quá trình quét, hậu xử lý phiếu điểm để phát hiện góc nghiêng
nhờ bài toán phát hiện góc nghiêng và các thuật toán hiệu chỉnh.
- Nhập điểm tự động tại trường Đại học Sư Phạm – Đại học Thái Nguyên
*Hướng nghiên cứu của đề tài
- Nắm chắc các kiến thức cơ bản về xử lý ảnh, biên.
- Tìm hiểu bài toán phát hiện góc nghiêng và tìm hiểu các thuật toán phát hiện
góc nghiêng.
- Tìm hiểu các phương pháp dò biên.

- Áp dụng phép biến đổi Hough trong việc phát hiện góc nghiêng của phiếu
điểm.
- Cài đặt thực nghiệm.
*Phương pháp nghiên cứu.
- Nghiên cứu các tài liệu và viết tổng quan.
- Phương pháp nghiên cứu bài toán phát hiện góc nghiêng, biên và phương
pháp dò biên.
- Phương pháp phân tích, đánh giá đối tượng (phiếu điểm).
- Nghiên cứu triển khai thử nghiệm chương trình.
*Ý nghĩa khoa học của đề tài
- Bản thân hiểu sâu hơn và áp dụng được các phương pháp xử lý ảnh,cụ thể là
phát hiện góc nghiêng của phiếu điểm vào thực tế.
- Nâng cao chất lượng công việc trong việc nhập điểm tự động trong cán bộ
quản lý giáo dục. Giảm thiểu sai sót trong quá trình nhập điểm.
* Cấu trúc luận văn bao gồm 3 chương như sau:
- Chương 1: Khái quát về nhập điểm tự động và bài toán phát hiện góc
nghiêngchương này trình bày một số những hiểu biết về quản lý và nhập tự
động, quy trình thực hiện của hệ thống nhập điểm tự động


4

- Chương 2: Biến đổi Hough và bài toán phát hiện góc nghiêng phiếu
điểm: tìm hiểu qua về biên và kỹ thuật dò biên, tìm hiểu về phép chiếu
nghiêng và thuật toán biến đổi Hough.Áp dụng biến đổi Hough vào xác định
góc nghiêng và tiến hành hiệu chỉnh góc nghiêng phiếu điểm.
- Chương 3: Chương trình nhập điểm tự động
- Kết luận.



5

CHƯƠNG 1: KHÁI QUÁT NHẬP ĐIỂM TỰ ĐỘNG VÀ BÀI TOÁN
PHÁT HIỆN GÓC NGHIÊNG
1.1.

Khái quát về nhập điểm tự động.

1.1.1. Quản lý và nhập điểm tự động
Có nhiều bài toán hiệu quả và độ tin cậy phụ thuộc rất nhiều vào khâu nhập số
liệu như các bài toán điều tra xã hội học, thi tuyển sinh qua trắc nghiệm, nhập
chứng từ ngân hàng, nhập các tờ khai thuế... Khó khăn ở chỗ khối lượng nhập
rất nhiều và việc kiểm soát nhập có chính xác không là một vấn đề nan giải.
Nhập dữ liệu theo kiểu thủ công truyền thống sử dụng giao tiếp trực tiếp qua
màn hình và bàn phím. Người ta đã tìm cách để tăng hiệu quả và chất lượng
tương tác với máy trong nhập liệu. Vấn đề nhập liệu tự động trở thành một
nội dung lớn nhất của khoa học tương tác người – máy (Human Computer
Interaction – HCI).
Để tăng tốc độ nhập dữ liệu, một số phương pháp được nghiên cứu là:
- Phân tải để có thể nhập từ nhiều nguồn, nhiều đầu mối
- Nhập qua các giá mang tin trung gian để tận dụng được nhiều phương pháp,
nhiều đầu mối, sau đó dùng các tool để chuyển về định dang cần thiết
- Nhập qua giao diện âm thanh hoặc hình ảnh, trong đó hình ảnh là phương
pháp được quan tâm nhiều hơn. Đã có nhiều thành công trong các hệ thống
nhận dạng chữ viết, nhận dạng các form tài liệu, nhận dạng các phiếu đánh
dấu.
Để tăng độ tin cậy, người ta thường phải áp dụng các biện pháp tìm sai sót
và chỉnh sửa như:
- Kiểm lỗi trực tiếp
- Nhập hai lần từ hai người khác nhau để phát hiện sai lệch

- Tăng cường độ tin cậy của các hệ nhập liệu tự động


6

- Phát hiện những ràng buộc toàn vẹn để đặt ra các cơ chế kiểm soát tự
động theo các ràng buộc và trong nhiều truờng hợp có thể tự sửa lỗi.
Trong hệ thống quản lý đào tạo hiện nay có một vài giải pháp nhập điểm đã
được đưa vào để thực hiện như nhập liệu thủ công trực tiếp, nhập điểm trực
tuyến, nhập điểm theo lô từ file, và nhập điểm bằng nhận dạng ảnh phiếu
điểm.
Việc nhập điểm bằng nhận dạng ảnh phiếu điểm: Một trong các giải pháp
nhập điểm khác được áp dụng là dùng các phiếu ghi điểm được viết theo
những định dạng đặc biệt. Thay vì ghi điểm là một số, người ta lập các cột có
sẵn những ô hình tròn đại diện cho các mức điểm.Điểm thí sinh được thể hiện
bảng cách tô kín ô tương ứng giống như tô các phiếu trắc nghiệm hiện
nay.Sau đó bảng điểm được quét vào thành một ảnh và dùng một phần mềm
nhận dạng để biết cột nào được đánh dấu để suy ra điểm và ghi vào
CSLD.Giải pháp này có ưu điểm là giảm tải cho phòng đào tạo, thay vì việc
phải nhập điểm chỉ cần quét ảnh, sau đó chạy phần mềm nhận dạng.Tuy nhiên
vẫn phải in bảng điểm và mời giáo viên lên ký.
1.1.2. Quy trình chung một hệ thống nhập điểm tự động.
Quy trình chung của một hệ thống nhập điểm tự động thường bao gồm:
 Quét ảnh: quét ảnh phiếu điều tra và lưu dưới dạng ảnh raster: Quét
trực tiếp các loại phiếu điều tra thông qua máy quét. Đọc và xử lý hơn
30 dạng tệp tin ảnh phổ dụng nhất như PCX, BMP, TIF, GIF, JPG, ...
Có thể nhận dạng trực tiếp phiếu điều tra thông qua máy quét, không
cần lưu trữ dưới dạng tệp ảnh trung gian. Các phiếu điều tra có thể
được quét và lưu trữ dưới dạng tệp tin cơ sở dữ liệu.
 Tiền xử lý: nối các đường đứt nét, quay ảnh, xoá nhiễu,... lấp lỗ hổng.

codãn, vuốt trơn đường, phát hiện góc nghiêng, độ dịch chuyển và hiệu
chỉnh 1 cách tự động...


7

 Lựa chọn vùng: Markread hiển thị phiếu mẫu sạch đẹp chưa điền thông
tin và chọn các vùng và điền thông tin liên quan đến chúng.
 Học form: vùng được lựa chọn có thể chứa nhiều ô hình chữ nhật trên
ảnh mẫu và tách ra các ô chữ nhật, elip và chúng được sử dụng cho
trường OMR
* Dữ liệu đầu vào sẽ là Phiếu điểm: là các ảnh đen trắng hoặc đa cấp xám từ
đĩa hoặc từ Scanner. Khi đó yêu cầu chung về dữ liệu là các tệp ảnh có thể có
nhiễu, nghiêng và dịch chuyển nhưng hạn chế, các bản in và photocopy tương
đối rõ ràng. Hầu hết các khuôn dạng thông thường như TIFF, GIF, PCX,
BMP, JPG,...Các ảnh này gồm các ô hình vuông, chữ nhật, tròn, e-lip có thể
đánh dấu, chữ và chữ số có hạn chế.
- Nhận dạng phiếu điểm: Tự động nhặt ra các đối tượng theo mẫu đã chỉ ra
trong các phiếu mẫu. Ở giai đoạn này đối với mỗi đối tượng cần nhận dạng sẽ
được tiến hành theo các bước cơ bản: Xử lý sơ bộ, trích chọn các đặc trưng
liên quan đến mẫu, đối sánh các đặc trưng của đối cần nhận dạng với mẫu.
- Hiệu chỉnh: Hiệu chỉnh bằng tay hoặc tự động các vị trí trong phiếu mẫu.
- Trích chọn đặc trưng mẫu: Tự động phân tích và tách các vùng này các đối
tượng riêng lẻ (cô lập đối tượng) và tính đặc trưng cho các hình này rồi lưu
vào tệp mẫu học.
* Dữ liệu ra:
- Tệp kết quả của nhận dạng được đưa ra theo các qui cách DBF, MDB, XLS.
- Mỗi phiếu là một bản ghi gồm các trường tương ứng với các đối tượng cần
nhận dạng (hình vuông, chữ nhật, hình tròn, e-lip) đã được điền.
- Tên các trường được sinh ra một cách tự động hoặc được người dùng đưa

vào. Tiếp cận phương pháp nhận dạng nhãn quang học hiện đại:
- Tự động xử lý các bản kiểm tra, phiếu thăm dò, câu hỏi và các phiếu mẫu.


8

1.2.

Bài toán phát hiện
hi góc nghiêng.

1.2.1. Giới thiệu
u bài toán.
Góc nghiêng văn bản
n là m
một bài toán kinh điển trong xử lý ảnh
nh văn bbản.Giải
quyếtt bài toán góc nghiêng là nhiệm
nhi
vụ tiên quyết và cũng
ũng không th
thể tránh
khỏi của bất kỳ một hệệ thống xử lý ảnh văn bản nào. Vì lẽ đó, cùng với
v sự
phát triển của xử lý ảnh
nh nói chung và x
xử lý ảnh văn bảnn nói riêng, bài toán
góc nghiêng văn bản cũng
ũng được
đ

quan tâm ngày càng nhiềuu và dư
dưới nhiều góc
độ khác nhau. Giảii quy
quyết được vấn để góc nghiêng văn bản sẽẽ làm cho hiệu
quả ở khâu nhận dạng
ng văn bản
b tăng lên đáng kể. Có rất nhiềuu hướng

tiếp cận
cho bài toán góc nghiêng văn bbản từ trước tới nay.Các thuậtt toán phát hiện
hi
góc nghiêng thường
ng đư
được xây dựng cho các hệ thống
ng phân tích ảnh văn bản
khác nhau nên chỉ giảii quy
quyết cho những loại ảnh văn bản cụ thể..
Chương trình xử lý góc nghiêng v
văn bản gồm các chứcc năng chính:

Hình 1.1.Sơ đồ khối


9

Sau đây là một số hướng tiếp cận phổ biến cho bài toán góc nghiêng văn bản:
1.2.2. Một số cách tiếp cận.
1.2.2.1. Phương pháp phân tích hình chiếu (Profile Projection)

Đây là một trong những phương pháp phổ biến nhất trong phát hiện

gócnghiêng văn bản.Ý tưởng chính của phương pháp này là tính Histogram
chotất cả các góc lệch.Histogram của một góc là số điểm ảnh đen trong ảnh
sao cho các điểm này nằm trên những đường thẳng có cùng một hướng tương
ứng với góc đó.Sau đó, dùng một hàm tính chi phí để áp dụng cho các giá
trịHistogram này.Góc nghiêng của văn bản tương ứng với góc có giá trị hàm
chiphí là lớn nhất.
Các thuật toán phát hiện góc nghiêng dựa vào hình chiếu thường
baogồm các bước chính sau:
+ Dùng một hàm rút gọn F để chuyển ảnh đầu vào thành một tập các
bộba (x,y,w) trong đó (x,y) là tọa độ của một điểm ảnh đại diện cho một đối
tượng và w là trọng số của điểm đó. Ở đây, điểm đại diện được hiểu
theonghĩa là điểm biểu diễn các ký tự trong các đối tượng của ảnh. Trọng số
wthường phụ thuộc vào từng thuật toán.
+ Một hàm P dùng chiếu các điểm tìm được ở trên vào một mảng
đếmA[] theo các góc chiếu khác nhau. Ứng với mỗi góc Φ có một mảng
AΦ[]dùng lưu số điểm đại diện. Mảng AΦ[] là mảng một chiều, phần tử
AΦ[r] sẽcho biết số điểm đại diện nằm trên đường thẳng tạo với trục OX góc
Φ vàkhoảng cách từ gốc tọa độ tới đường thẳng đó chính làr.
+ Sau khi tính được mảng AΦ[], áp dụng một hàm tối ưu hóa Ω cho
cácgiá trị của mảng này theo một tiêu chuẩn nào đó. Cuối cùng góc lệch của
vănbản là góc tương ứng có giá trị hàm tối ưu hóa cực đại.
Sự khác nhau chủ yếu của các thuật toán theo phương pháp này chính là việc
xây dựng các hàm rút gọn F và hàm tối ưu hóa Ω.


10

a. Thuật toán Postl
Postl [18] dùng các tần số lấy mẫu theo chiều ngang và chiều dọc đểlấy các
điểm đen trong ảnh làm các điểm cơ sở. Hàm rút gọn và hàm tối ưuhóa như

sau:
FP(I) ={ (x.Δξ,y.Δŋ,1)| 0 < x < w/Δξ, 0< y ΩP(AΦ)=Σ(AΦ[p+1] - AΦ [p])2
Với (x,y) là tọa độ của điểm ảnh đại diện, Δξvà Δŋlà các ngưỡng kíchthước, w
và h tương ứng là chiều rộng và chiều cao của ảnh.
b. Thuật toán Baird
Baird [5] dùng cách xác định hình chữ nhật chứa các đối tượng, điểmđại
diện chính là trọng tâm của hình chữ nhật đó và hàm tối ưu hóa bằng tổng
bình phương các giá trị mảng A.Công thức hai hàm này như sau:
FP(I)={( x,y,1)| (x,y) là tâm hình chữ nhật ngoại tiếp một đối tượng }
ΩP(AΦ) = Σ(AΦ[p])2
c. Thuật toán Nakano
Nakano cũng dùng tâm các hình chữ nhật ngoại tiếp đối tượng làmđiểm
cơ sở nhưng dùng luôn chiều rộng của các hình chữ nhật này làm trọngsố cho
các điểm cơ sở và hàm tối ưu hóa phụ thuộc vào số các giá trị bằng 0trong
mảng đếm. Công thức cho hai hàm này như sau:
FP(I)={( x,y,w) | (x,y) là tọa độ góc trái dưới của hình chữ nhật bao quanh
một đối tượng, w là chiều rộng của hình chữ nhật }
ΩP(AΦ[p])=Σ(1-U(AΦ[p]))
Với U(AΦ[p])=1 nếu AΦ[p]=0, ngược lại U(AΦ[p])=0.
Phát hiện góc lệch văn bản bằng cách chiếu các góc là một phương
pháp đơn giản và dễ hiểu. Tuy nhiên, những thuật toán dựa trên phương pháp
này còn hạn chế nhiều về độ chính xác với các góc lệch lớn. Baird cho rằng
để thuật toán cho kết quả có độ chính xác cao thì góc lệch văn bản phải giới


11

hạn trong khoảng ±150.Hơn nữa, nếu văn bản có nhiều nhiễu và các đối
tượng phi văn bản như bảng biểu, hình ảnh thì độ chính xác của thuật toán

còn giảm đi đáng kể.
d. Nhận xét
Gần đây, người ta đã kết hợp phương pháp hình chiếu và phương pháp các
đối tượng với mục tiêu giải quyết vấn đề về giới hạn góc lệch. Tuy
vậy,phương pháp này lại phụ thuộc nhiều vào khoảng cách giữa các dòng văn
bản và quan trọng là chỉ xử lý được với những ảnh có chứa nhiều dòng văn
bản và kích thước bé cỡ 512 * 512 pixels.
1.2.2.2. Phương pháp phân tích dựa vào trọng tâm (Center of Gravity)

Đây là hướng tiếp cận tương đối mới cho bài toán phát hiện gócnghiêng
văn bản.Ý tưởng chính của phương pháp này là đi xây dựng một đa giác từ
các điểm cực biên của văn bản.Một đường thẳng được xây dựng từtọa độ
trọng tâm của đa giác đến gốc tọa độ.Như vậy, góc lệch của đường thẳng này
so với trục hoành chính là góc nghiêng của văn bản.
Theo hướng tiếp cận này, việc xác định đường cơ sở nói chung là
bướcquan trọng nhất của toàn bộ quá trình. Một phương pháp mới được sử
dụngtrong thuật toán này lên tất cả các từ nội tiếp trong đa giác. Trọng tâm
của đa giác với góc tọa độ sẽ tạo thành một đường thẳng lệch một góc nào
đóvới trục ngang. Góc được xác định cũng chính là góc nghiêng của từ, đoạn
văn và cả ảnh văn bản.

Hình 1.2.Đa giác 6 đỉnh và trọng tâm được xác định


12

Hình trên , một đa giác có 6 đỉnh được tìm thấy và trọng tâm của đa
giác được xác định bằng công thức[4]:

1

n1

i 0 ( xi  xi 1 )( xi yi  xi 1 yi )
6A
1
n1
cx 

i 0 ( yi  yi 1 )( xi yi  xi 1 yi )
6A
cx 

Như vậy tùy theo đa giác tìm được qua bước xác định điểm xa nhấttheo
các hướng mà ta áp dụng thuật toán cho từng trường hợp cụ thể. Hìnhchữ nhật
được thay thế cho đa giác như trong hình 1.2 cũng được mô tả như làmột cách
để xây dựng đường cơ sở giúp xác định góc nghiêng văn bản.

Hình 1.3. Hình chữ nhật ngoại tiếp ảnh văn bản thay cho đa giác
a. Thuật toán gồm các bước:
+ Đầu vào: ảnh văn bản bị nghiêng giống như hình 1.6
+ Đầu ra: ảnh đã được hiệu chỉnh góc nghiêng.

Hình 1.4.Ảnh đầu vào và kết quả sau khi áp dụng thuật toán


13

+ Bước 1: Xác định những điểm xa nhất trong tất cả bốn hướng. Hình1.4 cho
thấy hình ảnh quét điểm xa nhất
+ Bước 2: Tìm trọng tâm bằng cách sử dụng bốn điểm vừa xác định

được ở bước 1, bốn điểm trước đại diện các góc đa giác và trung tâm đa
giác(COG) có thể được tính bằng cách sử dụng các phương trình trên.
+ Bước 3: Để có được đường cơ sở, tiến hành kẻ đường thẳng nối trọng
tâm đến gốc tọa độ. Hình 1.7 cho thấy đường cơ bản được tìm thấy.
+ Bước 4: Tìm góc của đường cơ sở so với trục ngang để phát hiện
gócnghiêng. Hình 1.8 cho thấy việc phát hiện góc nghiêng trên ảnh văn bản.
+ Bước 5: Xoay ảnh với góc nghiêng tìm được theo chiều ngược chiềukim
đồng hồ để được ảnh văn bản ngay ngắn, dễ nhìn.

Hình 1.5.Tìm các điểm xa nhấtHình 1.6. Trọng tâm được xác
nhấttheo các hướng trên ảnh

định dựa vào các điểm xa


14

Hình 1.7.Đường cơ sở được nốiHình 1.8. Xác định góc nghiêng ảnh văn bản từ
trọng tâm đến gốc tọa độ

b. Nhận xét:
Phương pháp này tỏ ra hiệu quả khi phát hiện và hiệu chỉnh gócnghiêng
của ảnh văn bản được scan vào từ tạp chí, sách giáo khoa, báo chí vàtài liệu
viết tay, với độ phân giải khác nhau, phông chữ khác nhau và tỷ lệchính xác
khá cao. Bên cạnh đó, phương pháp này khá đơn giản và độ phứctạp thấp dẫn
đến thời gian thực hiện quá trình xử lý nhanh.Nó không bị ảnhhưởng bởinhiễu
và đồng thời còn phù hợp để làm việc với văn bản có phôngchữ khác nhau và
cả các văn bản có độ phân giải khác nhau.
1.2.2.3. Phương


pháp phân tích láng giềng (Nearest Neighbour

Clustering)[10]
Theo hướng tiếp cận này, các
thuật toán trước hết dùng các kỹ thuậtxác
định biên cho các đối tượng riêng lẻ. Sau
đó, ứng với mỗi một đối tượng,tiến hành
xác định một số láng giềng gần nó nhất,
dùng một vector địnhhướng với
Hình 1.9.Phân tích láng giềng
Hai đầu là hai điểm được chọn từ hai trong số các đối tượng này đểxác
định góc nghiêng.


15

Hai đối tượng là các láng giềng thân cận của nhau nếukích thước của
chúng phải thuộc một khoảng nào đó và khoảng cách giữachúng cũng thỏa
mãn bé hơn một ngưỡng nào đó được định nghĩa trước.
Haiđiểm đại diện cho hai đối tượng có thể là các tọa độ giữa cạnh đáy
của chúnghoặc có thể là các tọa độ dưới trái nhưng cũng có thể là tâm của các
hình chữnhật ngoại tiếp các đối tượng đó tùy theo từng thuật toán cụ
thể.Vector của mỗi một nhóm láng giềng lân cận sẽ cho một góc lệchtương
ứng cho nhóm đó.
Thông thường, các thuật toán theo phương pháp này dùng một mảng
tích lũy để lưu Histogram cho các góc lệch này. Nghĩa là, giátrị của một phần
tử mảng tích lũy sẽ cho biết số nhóm láng giềng mà vectorđịnh hướng cho
góc bằng với chỉ số của phần tử mảng đó.Góc lệch của vănbản là góc tương
ứng với phần tử histogram lớn nhất.Việc gom các đối tượng thành các cặp
láng giềng gần nhất mục đích đểgom các cặp ký tự kề nhau trong các dòng

văn bản và vector giữa các đốitượng này cho biết góc của đường thẳng đi qua
đáy của nhóm ký tự đó.
Tuynhiên, trong trường hợp ảnh có nhiều nhiễu hoặc với ảnh có độ
phân giải thấp,các ký tự chữ cái được chia thành nhiều phần riêng biệt thì các
vector địnhhướng sẽ không phản ánh được đúng hướng lệch của văn bản nữa.
Phương pháp phân tích láng giềng tiêu biểu là thuật toán Yue Lu và
Chew Lim Tan: thuật toán phân tích thành phần liên thông để thu được các
đối tượng ảnh riêng biệt. Mỗi một đối tượng Cinội tiếp trong một hìnhchữ
nhật có các cặp tọa độ trên trái và dưới phải tương ứng là (xli,yti) và(xri,ybi),
trọng tâm của hình chữ nhật ký hiệu là (hci, wci), ký hiệu hcivà wcilà các
chiều cao và rộng của hình chữ nhật.
* Nhận xét: Điểm cải tiến lớn nhất của thuật toán này là việc quyết định hai
đối tượng có là láng giềng của nhau hay không dựa vào các tiêu chí về kích


16

thước của mỗi một đối tượng và khoảng cách giữa chúng. Chính các tiêu chí
này sẽ loại bỏ được những trường hợp ngoại lệ và đem lại kết quả chính xác
hơn cho thuật toán.
1.2.2.4. Phương pháp dùng phép toán hình thái (Morphology)

Ý tưởng chủ đạo của phương pháp này xuất phát từ một đặc điểm
củaphép đóng ảnh là có khả năng gắn các đối tượng cạnh nhau.Các thuật
toánnày thường dùng phép đóng nhiều lần với mục đích nối các dòng văn bản
vớinhau. Giai đoạn tiếp theo sẽ dùng các vector chỉ phương của các dòng
xácđịnh góc nghiêng cho văn bản tương tự như trong phương pháp phân tích
láng giềng.Thuật toán của L. Najman có thể được xem là thuật toán cải tiến
nhất.
Các phép toán hình thái có một số đặc điểm thú vị sau: Phép giãn

nởcho phép nối các nét đứt trong các đối tượng. Phép co có thể xóa nhiễu
trongảnh, với ảnh văn bản có thể dùng phép co để tách chữ.Đặc biệt, phép
đóng cókhả năng gắn các đối tượng cạnh nhau trong ảnh.Nếu ảnh là văn bản
gồm cácký tự thì dùng phép đóng sẽ trộn được các ký tự thành một từ và trộn
các từthành dòng văn bản trong trường hợp văn bản không bị lệch góc.
Dựa vào đặc điểm trên đây của phép đóng, ý tưởng chính của thuật toánnày là
sử dụng phép toán đóng gắn các dòng văn bản để phát hiện góc nghiêng cho
văn bản.Tuy nhiên công thức phép đóng trên đây chỉ có thể gắncác dòng
trong văn bản không nghiêng.
* Nhận xét: Do phải áp dụng các phép toán hình thái nhiều lần mới có thể đưa
ra kết luận về góc nghiêng, nên nhận xét đầu tiên về thuật toán là vấn đề chi
phí tính toán. Trong trường hợp ảnh có kích thước lớn, chỉ một lần duyệt hết
tất cả các điểm ảnh có thể mất rất nhiều thời gian chưa nói phải thực hiện
nhiều lần duyệt và đồng thời thực hiện phép đóng với các mẫu nghiêng.


17

1.2.2.5. Phương pháp biến đổi Hough (Hough Transform)

a. Đường thẳng Hough trên tọa độ cực
Những thuật toán dungbiến đổi Hough thường xác định một số điểm
đen và dùng biến đổi Hough[4,12] tácđộng lên các điểm đó.
Biến đổi Hough ánh xạ mộtđường thẳng trong mặt phẳng thànhcác cặp (r, )
trong không gianHough với r là khoảng cách từ gốctọa độ tới đường thẳng đó
và làgóc nghiêng của đường thẳng đó sovới trục ngang. Sử dụng các tham
sốnày thì phương trình đường thẳngcó thể được viết là: đường thẳng được xác
định trong không gian Hough sẽ có duy nhất một cặp (r, ). Như vậy với mỗi
điểm bất kỳ trên mặt phẳng ảnh với trục tọa độ (giả sử là (x0, y0)) thì các
đường đi qua nó có dạng:

r ( ) =x0*cos + y0*sin
r : là khoảng cách giữa các đường thẳng vào gốc tọa độđược xác định bởi .
Góc nghiêng của văn bản tương ứng là góc có tổng số điểm nằm trên những
đường thẳng cùng lệch góc là lớn nhất. Số các điểm đen được áp dụng biến
đổi Hough tùy thuộc vào từng thuật toán, có thể là tất cả các điểm đen hoặc có
thể chỉ những điểm thỏa mãn một số ràng buộc nào đó hoặc chỉ là đáy của các
đối tượng ảnh.
Liên quan đến hướng tiếp cận này là những thuật toán của các tác giả:
Hinds, Jiang, Dianel Le, Sugwara, Nakano, nhóm Srihari và Govindaraju,
nhómYu và Jain, nhóm Amin, Fischer, Parkison và Riscky.
Trong số đó, phương pháp của Srihari và Govindaraju là áp dụng biến
đổi Hough cho tất cả các điểm đen của ảnh. Tất nhiên, việc áp dụng không có
loại trừ một điểm nàodẫn đến chi phí tính toán rất lớn và ảnh hưởng đến độ
chính xác của thuật toán. Để giảm thời gian chạy và tăng một phần độ chính
xác, Hinds chỉ áp dụng biến đổi Hough cho một số ít điểm hơn bằng phân tích
chạy dài theo chiều dọc. Mục đích của nén chạy dàitheo chiều dọc trong thuật


18

toán này là để lấy ra các điểm đáy của các dòng văn bản, loại bỏ đi những
điểm đen khác kể cả chúng thuộc vào một ký tự vàdùng biến đổi Hough lên
điểm đen đó. Tuy nhiên, chi phí tính toán của thuật toán này vẫn còn lớn và
việc áp dụng biến đổi Hough cho tất cả các điểm đen ở đáy có thể dẫn đến
những kết quả sai trong trường hợp ảnh đầu vào cónhiều đối tượng phi ký tự
như nhiễu, bảng biểu hay picure.

Hình 1.10. Biểu diễn đường thẳng Hough đi qua 3 điểm
Về lý thuyết, có thể nói theo hướng tiếp cận này, thuật toán của Dianel
Le là một trong những thuật toán có nhiều cải tiến nhất cả về thời gian chạy

lẫn độ chính xác.Dianel Le dùng phương pháp phân tích các thành phần lien
thông và rút ra những điểm đáy của các đối tượng.Biến đổi Hough chỉ được
áp dụng cho những điểm đáy này nếu đối tượng có kích thước trong một
khoảng nào đó. Ở đây, Dianel Le dùng hai ngưỡng kích thước được định
nghĩa trước là chiều rộng và chiều cao để loại bớt đi những đối tượng quá lớn
như picture hoặc quá bé như nhiễu. Vì vậy, thuật toán này cho độ chính xác
cao hơn và giảm đáng kể chi phí tính toán.
b. Nhận xét
Thuật toán của Dianel Le sẽ gặp khó khăn nếu các đối tượng trong ảnh
chứa nhau.Chẳng hạn, các ký tự nằm hầu hết trong các đối tượng có kích
thước lớn mà đáy của chúng không phải là những đường thẳng.Khi đó, có thể


19

những ký tự không được xét đến, thay vào đó lại áp dụng biến đổi Hough cho
điểm đáy của các đối tượng phi ký tự dẫn đến kết quả đưa ra góc lệch sai cho
văn bản. Hơn nữa do các ngưỡng kích thước được cố định trước nên thuật
toán này phụ thuộc nhiều vào kích thước các con chữ và số lượng ký tự trong
văn bản.


×