Tải bản đầy đủ (.pdf) (71 trang)

Phát hiện góc nghiêng của phiếu điểm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.82 MB, 71 trang )

i
ĐẠI HỌC THÁI NGUYÊN
...

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN &TRUYỀN THƠNG

NGUYỄN VĂN QUANG

PHÁT HIỆN GĨC NGHIÊNG CỦA
PHIẾU ĐIỂM
Chun ngành: Khoa học máy tính
Mã số: 60 48 0101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: PGS.TS ĐỖ NĂNG TỒN

Thái Ngun – năm 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii
LỜI CẢM ƠN
Trƣớc hết, tôi xin gửi lời cảm ơn sâu sắc đến thầy hƣớng dẫn khoa học
PGS.TS Đỗ Năng Toàn về những chỉ dẫn khoa học, định hƣớng nghiên cứu
và tận tình hƣớng dẫn tơi trong suốt q trình làm luận văn.
Tôi cũng xin cảm ơn các Thầy trong viện Công Nghệ Thông Tin, các
Thầy Cô trong trƣờng Đại học Công Nghệ Thông Tin và Truyền Thông-Đại
học Thái Nguyên đã quan tâm chỉ bảo và trực tiếp giảng dạy, giúp đỡ trong
suốt q trình học tập và nghiên cứu.


Tơi xin chân thành cảm ơn lãnh đạo các phòng, ban trong trƣờng Đại học Sƣ
phạm Thái Nguyên đã tạo điều kiện cho tôi học tập và nghiên cứu đề tài này.
Cuối cùng, tơi xin cảm ơn gia đình và bạn bè, những ngƣời đã luôn ủng
hộ và động viên tôi để tôi yên tâm nghiên cứu luận văn này.
Học viên
Nguyễn Văn Quang

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình của riêng tôi, dƣới sự hƣớng dẫn
của PGS.TS Đỗ Năng Toàn. Các số liệu và kết quả nghiên cứu trong luận văn
này là trung thực và không trùng lặp với các đề tài khác.
Mọi tham khảo trong luận văn đều đƣợc trích dẫn rõ ràng tên tác giả,
tên cơng trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo hay gian trá tơi
xin hồn tồn chịu trách nhiệm.
Học viên
Nguyễn Văn Quang

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv

MỤC LỤC

LỜI CAM ĐOAN ............................................................................................ iii
MỤC LỤC ........................................................................................................ iv
DANH MỤC HÌNH ẢNH ............................................................................... vi
MỞ ĐẦU ........................................................................................................... 2
CHƢƠNG 1: KHÁI QUÁT NHẬP ĐIỂM TỰ ĐỘNG VÀ BÀI TỐN PHÁT
HIỆN GĨC NGHIÊNG..................................................................................... 5
1.1. Khái quát về nhập điểm tự động. ............................................................ 5
1.1.1. Quản lý và nhập điểm tự động ............................................................. 5
1.1.2. Quy trình chung một hệ thống nhập điểm tự động. ............................ 6
1.2. Bài tốn phát hiện góc nghiêng. .............................................................. 8
1.2.1. Giới thiệu bài toán. ................................................................................. 8
1.2.2. Một số cách tiếp cận. .............................................................................. 9
1.2.2.1. Phƣơng pháp phân tích hình chiếu (Profile Projection).............. 9
1.2.2.2. Phƣơng pháp phân tích dựa vào trọng tâm (Center of Gravity) 11
1.2.2.3. Phƣơng pháp phân tích láng giềng (Nearest Neighbour
Clustering)[10] .......................................................................................... 14
1.2.2.4. Phƣơng pháp dùng phép tốn hình thái (Morphology) ............. 16
1.2.2.5. Phƣơng pháp biến đổi Hough (Hough Transform) ................... 17
CHƢƠNG 2: BIẾN ĐỔI HOUGH VÀ BÀI TOÁN PHÁT HIỆN GĨC
NGHIÊNG PHIẾU ĐIỂM............................................................................... 20
2.1. Biên và kỹ thuật dị biên ........................................................................ 20
2.1.1. Biên của đối tƣợng ảnh......................................................................... 20
2.1.1.1. Biên và các kiểu biên cơ bản trong ảnh .................................... 20
2.1.1.2. Vai trò của biên trong nhận dạng .............................................. 22
2.1.2. Kỹ thuật dò biên .................................................................................... 24
2.1.2.1. Phƣơng pháp dò biên trực tiếp .................................................. 24
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


v
2.1.2.2. Phƣơng pháp dị biên gián tiếp.................................................. 31
2.1.2.3. Thuật tốn dị biên tổng qt .................................................... 34
2.2. Phát hiện góc nghiêng phiếu điểm từ biên của đối tƣợng ..................... 38
2.2.1. Đƣờng thẳng Hough trong toạ độ cực ................................................ 38
2.2.2. Thuật toán biến đổi Hough .................................................................. 40
2.2.3. Áp dụng biến đổi Hough trong phát hiện góc nghiêng phiếu điểm 42
2.2.4. Thuật tốn phát hiện góc nghiêng phiếu điểm................................... 44
2.3. Chỉnh sửa góc nghiêng phiếu điểm. ...................................................... 51
2.3.1. Phƣơng pháp chiếu nghiêng ................................................................ 51
2.3.2. Chỉnh sửa góc nghiêng phiếu điểm..................................................... 53
CHƢƠNG 3: CHƢƠNG TRÌNH NHẬP ĐIỂM TỰ ĐỘNG ......................... 55
3.1. Bài tốn .................................................................................................. 55
3.2. Phân tích và lựa chọn cơng cụ ............................................................... 55
3.3. Chƣơng trình thử nghiệm ...................................................................... 56
PHẦN KẾT LUẬN ......................................................................................... 61
KẾT LUẬN VÀ KIẾN NGHỊ......................................................................... 63
TÀI LIỆU THAM KHẢO ............................................................................... 64

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi
DANH MỤC HÌNH ẢNH
Hình 1.1.Sơ đồ khối
Hình 1.2.Đa giác 6 đỉnh và trọng tâm đƣợc xác định
Hình 1.3. Hình chữ nhật ngoại tiếp ảnh văn bản thay cho đa giác
Hình 1.4. Ảnh đầu vào và kết quả sau khi áp dụng thuật tốn
Hình 1.5. Tìm các điểm xanhất theo các hƣớng trên ảnh

Hình 1.6. Trọng tâm đƣợc xá định dựa vào các điểm xa
Hình 1.7. Đƣờng cơ sở đƣợc nối từ trọng tâm đến gốc tọa độ
Hình 1.8. Xác định góc nghiêng ảnh văn bản
Hình 1.9.Phân tích láng giềng
Hình 1.10. Biểu diễn đƣờng thẳng Hough đi qua 3 điểm
Hình 2.1. Đƣờng biên lý tƣởng
Hình 2.2.Đƣờng biên dốc
Hình 2.3. Đƣờng biên khơng trơn
Hình 2.4.Sơ đồ phân tích ảnh
Hình 2.5. Tốn tử 4 lân cận
Hình 2.6. Ví dụ về các chu tuyến đối ngẫu
Hình 2.7. Chu tuyến trong và chu tuyến ngồi của một đối tƣợng
Hình 2.8. Đại diện dịng bình thƣờng
Hình 2.9.Biến đổi Hough phát hiện góc nghiêng
Hình 2.10.Ví dụ về một ảnh nghiêng có ít ký tự
Hình 2.11. Ví dụ về văn bản nghiêng có các đối tƣợng bao nhau
Hình 2.11.Sơ đồ giải thuật tổng quát
Hình 2.13. Các hình chiếu theo chiều thẳng đứng và nằm ngang của văn bản
Hình 3.1.Giao diện chƣơng trình thử nghiệm
Hình 3.2. Một phiếu điểm khi thu nhận bị xoay phải
Hình 3.2. Một phiếu điểm khi thu nhận bị xoay trái
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii
Hình 3.4: Hiển thị góc nghiêng của phiếu điểm
Hình 3.5. Kết quả sau khi hiệu chỉnh ảnh

Số hóa bởi Trung tâm Học liệu - ĐHTN


/>

2
MỞ ĐẦU
Trong số các thông tin con ngƣời thu nhận từ bên ngồi, có đến hơn 80%
đƣợc ghi nhận bằng mắt tức là ở dạng ảnh. Vì vậy xử lý ảnh là một ngành
khoa học đã, đang và sẽ phát triển mạnh có ứng dụng rộng rãi trong khoa học
và đời sống thực tiễn. Các hệ thống xử lý ảnh cho phép con ngƣời thu nhận,
lƣu trữ, phân tích và nhận dạng ảnh. Một bộ phận quan trọng của xử lý ảnh đó
chính là xử lý văn bản.
Hiện nay, trong hầu hết các cơ sở giáo dục đào tạo của nƣớc ta đều đƣợc trang
bị phần mềm quản lý đào tạo nhằm nâng cao chất lƣợng giảng dạy và quản lý
học sinh, sinh viên, giúp giảm bớt một phần lớn công việc của đội ngũ cán bộ
quản lý giáo dục. Tuy nhiên việc cập nhật điểm thi vào hệ thống phần mềm
quản lý giáo dục vẫn cịn thủ cơng, khơng những làm tốn nhiều công sức của
đội ngũ giáo vụ mà cịn có nhiều sai sót đặc biệt với những trƣờng có số
lƣợng mơn học và số sinh viên lớn.
Một trong những vấn đề đầu tiên trong xử lý ảnh là bài tốn góc nghiêng văn
bản, đối tƣợng cụ thể mà tôi đề cập trong luận văn này là phiếu điểm.Nguyên
nhân dẫn đến phiếu điểm bị nghiêng một góc xuất phát từ quá trình quét ảnh
hoặc copy ảnh. Do đặt ảnh vào bệ máy quét và máy in là một cơng đoạn đƣợc
thực hiện bằng tay lên ảnh có thể bị lệch so với bệ máy một góc mà mắt
thƣờng không nhận thấy đƣợc, dẫn đến ảnh bị lệch đi một góc tƣơng ứng.
Phiếu điểm bị lệch có ảnh hƣởng rất lớn đến các quá trình xử lý ảnh tiếp theo,
vì vậy việc phát hiện và chỉnh sửa góc nghiêng phiếu điểm là nhiệm vụ quan
trong đầu tiên trong xử lý ảnh phiếu điểm.
Từ những lý do trên, tôi đã chọn đề tài “PHÁT HIỆN GÓC NGHIÊNG CỦA
PHIẾU ĐIỂM” với mong muốn giải quyết đƣợc phần nào những khó khăn
đó.

*Đối tƣợng và phạm vi nghiên cứu
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3
- Nghiên cứu quá trình quét, hậu xử lý phiếu điểm để phát hiện góc nghiêng
nhờ bài tốn phát hiện góc nghiêng và các thuật tốn hiệu chỉnh.
- Nhập điểm tự động tại trƣờng Đại học Sƣ Phạm – Đại học Thái Nguyên
*Hƣớng nghiên cứu của đề tài
- Nắm chắc các kiến thức cơ bản về xử lý ảnh, biên.
- Tìm hiểu bài tốn phát hiện góc nghiêng và tìm hiểu các thuật tốn phát hiện
góc nghiêng.
- Tìm hiểu các phƣơng pháp dò biên.
- Áp dụng phép biến đổi Hough trong việc phát hiện góc nghiêng của phiếu
điểm.
- Cài đặt thực nghiệm.
*Phƣơng pháp nghiên cứu.
- Nghiên cứu các tài liệu và viết tổng quan.
- Phƣơng pháp nghiên cứu bài toán phát hiện góc nghiêng, biên và phƣơng
pháp dị biên.
- Phƣơng pháp phân tích, đánh giá đối tƣợng (phiếu điểm).
- Nghiên cứu triển khai thử nghiệm chƣơng trình.
*Ý nghĩa khoa học của đề tài
- Bản thân hiểu sâu hơn và áp dụng đƣợc các phƣơng pháp xử lý ảnh,cụ thể là
phát hiện góc nghiêng của phiếu điểm vào thực tế.
- Nâng cao chất lƣợng công việc trong việc nhập điểm tự động trong cán bộ
quản lý giáo dục. Giảm thiểu sai sót trong q trình nhập điểm.
* Cấu trúc luận văn bao gồm 3 chƣơng nhƣ sau:
- Chƣơng 1: Khái quát về nhập điểm tự động và bài toán phát hiện góc

nghiêngchƣơng này trình bày một số những hiểu biết về quản lý và nhập tự
động, quy trình thực hiện của hệ thống nhập điểm tự động
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

4
- Chƣơng 2: Biến đổi Hough và bài toán phát hiện góc nghiêng phiếu
điểm: tìm hiểu qua về biên và kỹ thuật dị biên, tìm hiểu về phép chiếu
nghiêng và thuật toán biến đổi Hough.Áp dụng biến đổi Hough vào xác định
góc nghiêng và tiến hành hiệu chỉnh góc nghiêng phiếu điểm.
- Chƣơng 3: Chƣơng trình nhập điểm tự động
- Kết luận.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

5
CHƢƠNG 1: KHÁI QUÁT NHẬP ĐIỂM TỰ ĐỘNG VÀ BÀI TỐN
PHÁT HIỆN GĨC NGHIÊNG
1.1.

Khái qt về nhập điểm tự động.

1.1.1. Quản lý và nhập điểm tự động
Có nhiều bài tốn hiệu quả và độ tin cậy phụ thuộc rất nhiều vào khâu nhập số
liệu nhƣ các bài toán điều tra xã hội học, thi tuyển sinh qua trắc nghiệm, nhập
chứng từ ngân hàng, nhập các tờ khai thuế... Khó khăn ở chỗ khối lƣợng nhập
rất nhiều và việc kiểm soát nhập có chính xác khơng là một vấn đề nan giải.

Nhập dữ liệu theo kiểu thủ công truyền thống sử dụng giao tiếp trực tiếp qua
màn hình và bàn phím. Ngƣời ta đã tìm cách để tăng hiệu quả và chất lƣợng
tƣơng tác với máy trong nhập liệu. Vấn đề nhập liệu tự động trở thành một
nội dung lớn nhất của khoa học tƣơng tác ngƣời – máy (Human Computer
Interaction – HCI).
Để tăng tốc độ nhập dữ liệu, một số phƣơng pháp đƣợc nghiên cứu là:
- Phân tải để có thể nhập từ nhiều nguồn, nhiều đầu mối
- Nhập qua các giá mang tin trung gian để tận dụng đƣợc nhiều phƣơng pháp,
nhiều đầu mối, sau đó dùng các tool để chuyển về định dang cần thiết
- Nhập qua giao diện âm thanh hoặc hình ảnh, trong đó hình ảnh là phƣơng
pháp đƣợc quan tâm nhiều hơn. Đã có nhiều thành công trong các hệ thống
nhận dạng chữ viết, nhận dạng các form tài liệu, nhận dạng các phiếu đánh
dấu.
Để tăng độ tin cậy, ngƣời ta thƣờng phải áp dụng các biện pháp tìm sai sót
và chỉnh sửa nhƣ:
- Kiểm lỗi trực tiếp
- Nhập hai lần từ hai ngƣời khác nhau để phát hiện sai lệch
- Tăng cƣờng độ tin cậy của các hệ nhập liệu tự động
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6
- Phát hiện những ràng buộc toàn vẹn để đặt ra các cơ chế kiểm soát tự
động theo các ràng buộc và trong nhiều truờng hợp có thể tự sửa lỗi.
Trong hệ thống quản lý đào tạo hiện nay có một vài giải pháp nhập điểm đã
đƣợc đƣa vào để thực hiện nhƣ nhập liệu thủ công trực tiếp, nhập điểm trực
tuyến, nhập điểm theo lô từ file, và nhập điểm bằng nhận dạng ảnh phiếu
điểm.
Việc nhập điểm bằng nhận dạng ảnh phiếu điểm: Một trong các giải pháp

nhập điểm khác đƣợc áp dụng là dùng các phiếu ghi điểm đƣợc viết theo
những định dạng đặc biệt. Thay vì ghi điểm là một số, ngƣời ta lập các cột có
sẵn những ơ hình trịn đại diện cho các mức điểm.Điểm thí sinh đƣợc thể hiện
bảng cách tơ kín ơ tƣơng ứng giống nhƣ tơ các phiếu trắc nghiệm hiện
nay.Sau đó bảng điểm đƣợc quét vào thành một ảnh và dùng một phần mềm
nhận dạng để biết cột nào đƣợc đánh dấu để suy ra điểm và ghi vào
CSLD.Giải pháp này có ƣu điểm là giảm tải cho phịng đào tạo, thay vì việc
phải nhập điểm chỉ cần quét ảnh, sau đó chạy phần mềm nhận dạng.Tuy nhiên
vẫn phải in bảng điểm và mời giáo viên lên ký.
1.1.2. Quy trình chung một hệ thống nhập điểm tự động.
Quy trình chung của một hệ thống nhập điểm tự động thƣờng bao gồm:
 Quét ảnh: quét ảnh phiếu điều tra và lƣu dƣới dạng ảnh raster: Quét
trực tiếp các loại phiếu điều tra thông qua máy quét. Đọc và xử lý hơn
30 dạng tệp tin ảnh phổ dụng nhất nhƣ PCX, BMP, TIF, GIF, JPG, ...
Có thể nhận dạng trực tiếp phiếu điều tra thông qua máy quét, không
cần lƣu trữ dƣới dạng tệp ảnh trung gian. Các phiếu điều tra có thể
đƣợc quét và lƣu trữ dƣới dạng tệp tin cơ sở dữ liệu.
 Tiền xử lý: nối các đƣờng đứt nét, quay ảnh, xoá nhiễu,... lấp lỗ hổng.
codãn, vuốt trơn đƣờng, phát hiện góc nghiêng, độ dịch chuyển và hiệu
chỉnh 1 cách tự động...
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

7
 Lựa chọn vùng: Markread hiển thị phiếu mẫu sạch đẹp chƣa điền thông
tin và chọn các vùng và điền thông tin liên quan đến chúng.
 Học form: vùng đƣợc lựa chọn có thể chứa nhiều ơ hình chữ nhật trên
ảnh mẫu và tách ra các ô chữ nhật, elip và chúng đƣợc sử dụng cho
trƣờng OMR

* Dữ liệu đầu vào sẽ là Phiếu điểm: là các ảnh đen trắng hoặc đa cấp xám từ
đĩa hoặc từ Scanner. Khi đó yêu cầu chung về dữ liệu là các tệp ảnh có thể có
nhiễu, nghiêng và dịch chuyển nhƣng hạn chế, các bản in và photocopy tƣơng
đối rõ ràng. Hầu hết các khuôn dạng thông thƣờng nhƣ TIFF, GIF, PCX,
BMP, JPG,...Các ảnh này gồm các ơ hình vng, chữ nhật, trịn, e-lip có thể
đánh dấu, chữ và chữ số có hạn chế.
- Nhận dạng phiếu điểm: Tự động nhặt ra các đối tƣợng theo mẫu đã chỉ ra
trong các phiếu mẫu. Ở giai đoạn này đối với mỗi đối tƣợng cần nhận dạng sẽ
đƣợc tiến hành theo các bƣớc cơ bản: Xử lý sơ bộ, trích chọn các đặc trƣng
liên quan đến mẫu, đối sánh các đặc trƣng của đối cần nhận dạng với mẫu.
- Hiệu chỉnh: Hiệu chỉnh bằng tay hoặc tự động các vị trí trong phiếu mẫu.
- Trích chọn đặc trƣng mẫu: Tự động phân tích và tách các vùng này các đối
tƣợng riêng lẻ (cô lập đối tƣợng) và tính đặc trƣng cho các hình này rồi lƣu
vào tệp mẫu học.
* Dữ liệu ra:
- Tệp kết quả của nhận dạng đƣợc đƣa ra theo các qui cách DBF, MDB, XLS.
- Mỗi phiếu là một bản ghi gồm các trƣờng tƣơng ứng với các đối tƣợng cần
nhận dạng (hình vng, chữ nhật, hình trịn, e-lip) đã đƣợc điền.
- Tên các trƣờng đƣợc sinh ra một cách tự động hoặc đƣợc ngƣời dùng đƣa
vào. Tiếp cận phƣơng pháp nhận dạng nhãn quang học hiện đại:
- Tự động xử lý các bản kiểm tra, phiếu thăm dò, câu hỏi và các phiếu mẫu.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

1.2.

Bài tốn phát hiện góc nghiêng.


1.2.1. Giới thiệu bài tốn.
Góc nghiêng văn bản là một bài toán kinh điển trong xử lý ảnh văn bản.Giải
quyết bài tốn góc nghiêng là nhiệm vụ tiên quyết và cũng không thể tránh
khỏi của bất kỳ một hệ thống xử lý ảnh văn bản nào. Vì lẽ đó, cùng với sự
phát triển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài tốn
góc nghiêng văn bản cũng đƣợc quan tâm ngày càng nhiều và dƣới nhiều góc
độ khác nhau. Giải quyết đƣợc vấn để góc nghiêng văn bản sẽ làm cho hiệu
quả ở khâu nhận dạng văn bản tăng lên đáng kể. Có rất nhiều hƣớng tiếp cận
cho bài tốn góc nghiêng văn bản từ trƣớc tới nay.Các thuật tốn phát hiện
góc nghiêng thƣờng đƣợc xây dựng cho các hệ thống phân tích ảnh văn bản
khác nhau nên chỉ giải quyết cho những loại ảnh văn bản cụ thể.
Chƣơng trình xử lý góc nghiêng văn bản gồm các chức năng chính:

Hình 1.1.Sơ đồ khối
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9
Sau đây là một số hƣớng tiếp cận phổ biến cho bài tốn góc nghiêng văn bản:
1.2.2. Một số cách tiếp cận.
1.2.2.1. Phƣơng pháp phân tích hình chiếu (Profile Projection)

Đây là một trong những phƣơng pháp phổ biến nhất trong phát hiện
gócnghiêng văn bản.Ý tƣởng chính của phƣơng pháp này là tính Histogram
chotất cả các góc lệch.Histogram của một góc là số điểm ảnh đen trong ảnh
sao cho các điểm này nằm trên những đƣờng thẳng có cùng một hƣớng tƣơng
ứng với góc đó.Sau đó, dùng một hàm tính chi phí để áp dụng cho các giá
trịHistogram này.Góc nghiêng của văn bản tƣơng ứng với góc có giá trị hàm

chiphí là lớn nhất.
Các thuật tốn phát hiện góc nghiêng dựa vào hình chiếu thƣờng
baogồm các bƣớc chính sau:
+ Dùng một hàm rút gọn F để chuyển ảnh đầu vào thành một tập các
bộba (x,y,w) trong đó (x,y) là tọa độ của một điểm ảnh đại diện cho một đối
tƣợng và w là trọng số của điểm đó. Ở đây, điểm đại diện đƣợc hiểu
theonghĩa là điểm biểu diễn các ký tự trong các đối tƣợng của ảnh. Trọng số
wthƣờng phụ thuộc vào từng thuật toán.
+ Một hàm P dùng chiếu các điểm tìm đƣợc ở trên vào một mảng
đếmA[] theo các góc chiếu khác nhau. Ứng với mỗi góc Φ có một mảng
AΦ[]dùng lƣu số điểm đại diện. Mảng AΦ[] là mảng một chiều, phần tử
AΦ[r] sẽcho biết số điểm đại diện nằm trên đƣờng thẳng tạo với trục OX góc
Φ vàkhoảng cách từ gốc tọa độ tới đƣờng thẳng đó chính làr.
+ Sau khi tính đƣợc mảng AΦ[], áp dụng một hàm tối ƣu hóa Ω cho
cácgiá trị của mảng này theo một tiêu chuẩn nào đó. Cuối cùng góc lệch của
vănbản là góc tƣơng ứng có giá trị hàm tối ƣu hóa cực đại.
Sự khác nhau chủ yếu của các thuật tốn theo phƣơng pháp này chính là việc
xây dựng các hàm rút gọn F và hàm tối ƣu hóa Ω.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

a. Thuật toán Postl
Postl [18] dùng các tần số lấy mẫu theo chiều ngang và chiều dọc đểlấy các
điểm đen trong ảnh làm các điểm cơ sở. Hàm rút gọn và hàm tối ƣuhóa nhƣ
sau:
FP(I) ={ (x.Δξ,y.Δŋ,1)| 0 < x < w/Δξ, 0< y ΩP(AΦ)=Σ(AΦ[p+1] - AΦ [p])2

Với (x,y) là tọa độ của điểm ảnh đại diện, Δξvà Δŋlà các ngƣỡng kíchthƣớc, w
và h tƣơng ứng là chiều rộng và chiều cao của ảnh.
b. Thuật toán Baird
Baird [5] dùng cách xác định hình chữ nhật chứa các đối tƣợng, điểmđại
diện chính là trọng tâm của hình chữ nhật đó và hàm tối ƣu hóa bằng tổng
bình phƣơng các giá trị mảng A.Công thức hai hàm này nhƣ sau:
FP(I)={( x,y,1)| (x,y) là tâm hình chữ nhật ngoại tiếp một đối tượng }
ΩP(AΦ) = Σ(AΦ[p])2
c. Thuật toán Nakano
Nakano cũng dùng tâm các hình chữ nhật ngoại tiếp đối tƣợng làmđiểm
cơ sở nhƣng dùng ln chiều rộng của các hình chữ nhật này làm trọngsố cho
các điểm cơ sở và hàm tối ƣu hóa phụ thuộc vào số các giá trị bằng 0trong
mảng đếm. Công thức cho hai hàm này nhƣ sau:
FP(I)={( x,y,w) | (x,y) là tọa độ góc trái dƣới của hình chữ nhật bao quanh
một đối tƣợng, w là chiều rộng của hình chữ nhật }
ΩP(AΦ[p])=Σ(1-U(AΦ[p]))
Với U(AΦ[p])=1 nếu AΦ[p]=0, ngược lại U(AΦ[p])=0.
Phát hiện góc lệch văn bản bằng cách chiếu các góc là một phƣơng
pháp đơn giản và dễ hiểu. Tuy nhiên, những thuật tốn dựa trên phƣơng pháp
này cịn hạn chế nhiều về độ chính xác với các góc lệch lớn. Baird cho rằng
để thuật tốn cho kết quả có độ chính xác cao thì góc lệch văn bản phải giới
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

11
hạn trong khoảng ±150.Hơn nữa, nếu văn bản có nhiều nhiễu và các đối
tƣợng phi văn bản nhƣ bảng biểu, hình ảnh thì độ chính xác của thuật tốn
cịn giảm đi đáng kể.
d. Nhận xét

Gần đây, ngƣời ta đã kết hợp phƣơng pháp hình chiếu và phƣơng pháp các
đối tƣợng với mục tiêu giải quyết vấn đề về giới hạn góc lệch. Tuy
vậy,phƣơng pháp này lại phụ thuộc nhiều vào khoảng cách giữa các dòng văn
bản và quan trọng là chỉ xử lý đƣợc với những ảnh có chứa nhiều dịng văn
bản và kích thƣớc bé cỡ 512 * 512 pixels.
1.2.2.2. Phƣơng pháp phân tích dựa vào trọng tâm (Center of Gravity)

Đây là hƣớng tiếp cận tƣơng đối mới cho bài tốn phát hiện gócnghiêng
văn bản.Ý tƣởng chính của phƣơng pháp này là đi xây dựng một đa giác từ
các điểm cực biên của văn bản.Một đƣờng thẳng đƣợc xây dựng từtọa độ
trọng tâm của đa giác đến gốc tọa độ.Nhƣ vậy, góc lệch của đƣờng thẳng này
so với trục hồnh chính là góc nghiêng của văn bản.
Theo hƣớng tiếp cận này, việc xác định đƣờng cơ sở nói chung là
bƣớcquan trọng nhất của tồn bộ q trình. Một phƣơng pháp mới đƣợc sử
dụngtrong thuật toán này lên tất cả các từ nội tiếp trong đa giác. Trọng tâm
của đa giác với góc tọa độ sẽ tạo thành một đƣờng thẳng lệch một góc nào
đóvới trục ngang. Góc đƣợc xác định cũng chính là góc nghiêng của từ, đoạn
văn và cả ảnh văn bản.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12
Hình 1.2.Đa giác 6 đỉnh và trọng tâm được xác định
Hình trên , một đa giác có 6 đỉnh đƣợc tìm thấy và trọng tâm của đa
giác đƣợc xác định bằng công thức[4]:

cx
cx


1
6A
1
6A

n 1
i 0

( xi

xi 1 )( xi yi xi 1 yi )

n 1
i 0

( yi

yi 1 )( xi yi xi 1 yi )

Nhƣ vậy tùy theo đa giác tìm đƣợc qua bƣớc xác định điểm xa nhấttheo
các hƣớng mà ta áp dụng thuật toán cho từng trƣờng hợp cụ thể. Hìnhchữ nhật
đƣợc thay thế cho đa giác nhƣ trong hình 1.2 cũng đƣợc mơ tả nhƣ làmột cách
để xây dựng đƣờng cơ sở giúp xác định góc nghiêng văn bản.

Hình 1.3. Hình chữ nhật ngoại tiếp ảnh văn bản thay cho đa giác
a. Thuật toán gồm các bước:
+ Đầu vào: ảnh văn bản bị nghiêng giống nhƣ hình 1.6
+ Đầu ra: ảnh đã đƣợc hiệu chỉnh góc nghiêng.


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13
Hình 1.4.Ảnh đầu vào và kết quả sau khi áp dụng thuật toán
+ Bước 1: Xác định những điểm xa nhất trong tất cả bốn hƣớng. Hình1.4 cho
thấy hình ảnh quét điểm xa nhất
+ Bước 2: Tìm trọng tâm bằng cách sử dụng bốn điểm vừa xác định
đƣợc ở bƣớc 1, bốn điểm trƣớc đại diện các góc đa giác và trung tâm đa
giác(COG) có thể đƣợc tính bằng cách sử dụng các phƣơng trình trên.
+ Bước 3: Để có đƣợc đƣờng cơ sở, tiến hành kẻ đƣờng thẳng nối trọng
tâm đến gốc tọa độ. Hình 1.7 cho thấy đƣờng cơ bản đƣợc tìm thấy.
+ Bước 4: Tìm góc của đƣờng cơ sở so với trục ngang để phát hiện
gócnghiêng. Hình 1.8 cho thấy việc phát hiện góc nghiêng trên ảnh văn bản.
+ Bước 5: Xoay ảnh với góc nghiêng tìm đƣợc theo chiều ngƣợc chiềukim
đồng hồ để đƣợc ảnh văn bản ngay ngắn, dễ nhìn.

Hình 1.5.Tìm các điểm xa nhấtHình 1.6. Trọng tâm được xác
nhấttheo các hướng trên ảnh

Số hóa bởi Trung tâm Học liệu - ĐHTN

định dựa vào các điểm xa

/>

14

Hình 1.7.Đường cơ sở được nốiHình 1.8. Xác định góc nghiêng ảnh văn bản từ

trọng tâm đến gốc tọa độ

b. Nhận xét:
Phƣơng pháp này tỏ ra hiệu quả khi phát hiện và hiệu chỉnh gócnghiêng
của ảnh văn bản đƣợc scan vào từ tạp chí, sách giáo khoa, báo chí vàtài liệu
viết tay, với độ phân giải khác nhau, phông chữ khác nhau và tỷ lệchính xác
khá cao. Bên cạnh đó, phƣơng pháp này khá đơn giản và độ phứctạp thấp dẫn
đến thời gian thực hiện q trình xử lý nhanh.Nó khơng bị ảnhhƣởng bởinhiễu
và đồng thời cịn phù hợp để làm việc với văn bản có phơngchữ khác nhau và
cả các văn bản có độ phân giải khác nhau.
1.2.2.3. Phƣơng

pháp phân tích láng giềng (Nearest Neighbour

Clustering)[10]
Theo hƣớng tiếp cận này, các
thuật toán trƣớc hết dùng các kỹ thuậtxác
định biên cho các đối tƣợng riêng lẻ. Sau
đó, ứng với mỗi một đối tƣợng,tiến hành
xác định một số láng giềng gần nó nhất,
dùng một vector địnhhƣớng với
Hình 1.9.Phân tích láng giềng

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

15
Hai đầu là hai điểm đƣợc chọn từ hai trong số các đối tƣợng này đểxác
định góc nghiêng.

Hai đối tƣợng là các láng giềng thân cận của nhau nếukích thƣớc của
chúng phải thuộc một khoảng nào đó và khoảng cách giữachúng cũng thỏa
mãn bé hơn một ngƣỡng nào đó đƣợc định nghĩa trƣớc.
Haiđiểm đại diện cho hai đối tƣợng có thể là các tọa độ giữa cạnh đáy
của chúnghoặc có thể là các tọa độ dƣới trái nhƣng cũng có thể là tâm của các
hình chữnhật ngoại tiếp các đối tƣợng đó tùy theo từng thuật tốn cụ
thể.Vector của mỗi một nhóm láng giềng lân cận sẽ cho một góc lệchtƣơng
ứng cho nhóm đó.
Thơng thƣờng, các thuật tốn theo phƣơng pháp này dùng một mảng
tích lũy để lƣu Histogram cho các góc lệch này. Nghĩa là, giátrị của một phần
tử mảng tích lũy sẽ cho biết số nhóm láng giềng mà vectorđịnh hƣớng cho
góc bằng với chỉ số của phần tử mảng đó.Góc lệch của vănbản là góc tƣơng
ứng với phần tử histogram lớn nhất.Việc gom các đối tƣợng thành các cặp
láng giềng gần nhất mục đích đểgom các cặp ký tự kề nhau trong các dòng
văn bản và vector giữa các đốitƣợng này cho biết góc của đƣờng thẳng đi qua
đáy của nhóm ký tự đó.
Tuynhiên, trong trƣờng hợp ảnh có nhiều nhiễu hoặc với ảnh có độ
phân giải thấp,các ký tự chữ cái đƣợc chia thành nhiều phần riêng biệt thì các
vector địnhhƣớng sẽ khơng phản ánh đƣợc đúng hƣớng lệch của văn bản nữa.
Phƣơng pháp phân tích láng giềng tiêu biểu là thuật toán Yue Lu và
Chew Lim Tan: thuật tốn phân tích thành phần liên thơng để thu đƣợc các
đối tƣợng ảnh riêng biệt. Mỗi một đối tƣợng Cinội tiếp trong một hìnhchữ
nhật có các cặp tọa độ trên trái và dƣới phải tƣơng ứng là (xli,yti) và(xri,ybi),
trọng tâm của hình chữ nhật ký hiệu là (hci, wci), ký hiệu hcivà wcilà các
chiều cao và rộng của hình chữ nhật.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

16

* Nhận xét: Điểm cải tiến lớn nhất của thuật tốn này là việc quyết định hai
đối tƣợng có là láng giềng của nhau hay không dựa vào các tiêu chí về kích
thƣớc của mỗi một đối tƣợng và khoảng cách giữa chúng. Chính các tiêu chí
này sẽ loại bỏ đƣợc những trƣờng hợp ngoại lệ và đem lại kết quả chính xác
hơn cho thuật tốn.
1.2.2.4. Phƣơng pháp dùng phép tốn hình thái (Morphology)

Ý tƣởng chủ đạo của phƣơng pháp này xuất phát từ một đặc điểm
củaphép đóng ảnh là có khả năng gắn các đối tƣợng cạnh nhau.Các thuật
tốnnày thƣờng dùng phép đóng nhiều lần với mục đích nối các dòng văn bản
vớinhau. Giai đoạn tiếp theo sẽ dùng các vector chỉ phƣơng của các dịng
xácđịnh góc nghiêng cho văn bản tƣơng tự nhƣ trong phƣơng pháp phân tích
láng giềng.Thuật tốn của L. Najman có thể đƣợc xem là thuật tốn cải tiến
nhất.
Các phép tốn hình thái có một số đặc điểm thú vị sau: Phép giãn
nởcho phép nối các nét đứt trong các đối tƣợng. Phép co có thể xóa nhiễu
trongảnh, với ảnh văn bản có thể dùng phép co để tách chữ.Đặc biệt, phép
đóng cókhả năng gắn các đối tƣợng cạnh nhau trong ảnh.Nếu ảnh là văn bản
gồm cácký tự thì dùng phép đóng sẽ trộn đƣợc các ký tự thành một từ và trộn
các từthành dòng văn bản trong trƣờng hợp văn bản không bị lệch góc.
Dựa vào đặc điểm trên đây của phép đóng, ý tƣởng chính của thuật tốnnày là
sử dụng phép tốn đóng gắn các dịng văn bản để phát hiện góc nghiêng cho
văn bản.Tuy nhiên cơng thức phép đóng trên đây chỉ có thể gắncác dịng
trong văn bản khơng nghiêng.
* Nhận xét: Do phải áp dụng các phép tốn hình thái nhiều lần mới có thể đƣa
ra kết luận về góc nghiêng, nên nhận xét đầu tiên về thuật toán là vấn đề chi
phí tính tốn. Trong trƣờng hợp ảnh có kích thƣớc lớn, chỉ một lần duyệt hết
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


17
tất cả các điểm ảnh có thể mất rất nhiều thời gian chƣa nói phải thực hiện
nhiều lần duyệt và đồng thời thực hiện phép đóng với các mẫu nghiêng.
1.2.2.5. Phƣơng pháp biến đổi Hough (Hough Transform)

a. Đường thẳng Hough trên tọa độ cực
Những thuật toán dungbiến đổi Hough thƣờng xác định một số điểm
đen và dùng biến đổi Hough[4,12] tácđộng lên các điểm đó.
Biến đổi Hough ánh xạ mộtđƣờng thẳng trong mặt phẳng thànhcác cặp (r, )
trong không gianHough với r là khoảng cách từ gốctọa độ tới đƣờng thẳng đó
và làgóc nghiêng của đƣờng thẳng đó sovới trục ngang. Sử dụng các tham
sốnày thì phƣơng trình đƣờng thẳngcó thể đƣợc viết là: đƣờng thẳng đƣợc xác
định trong không gian Hough sẽ có duy nhất một cặp (r, ). Nhƣ vậy với mỗi
điểm bất kỳ trên mặt phẳng ảnh với trục tọa độ (giả sử là (x0, y0)) thì các
đƣờng đi qua nó có dạng:
r ( ) =x0*cos + y0*sin
r : là khoảng cách giữa các đƣờng thẳng vào gốc tọa độđƣợc xác định bởi .
Góc nghiêng của văn bản tƣơng ứng là góc có tổng số điểm nằm trên những
đƣờng thẳng cùng lệch góc là lớn nhất. Số các điểm đen đƣợc áp dụng biến
đổi Hough tùy thuộc vào từng thuật tốn, có thể là tất cả các điểm đen hoặc có
thể chỉ những điểm thỏa mãn một số ràng buộc nào đó hoặc chỉ là đáy của các
đối tƣợng ảnh.
Liên quan đến hƣớng tiếp cận này là những thuật toán của các tác giả:
Hinds, Jiang, Dianel Le, Sugwara, Nakano, nhóm Srihari và Govindaraju,
nhómYu và Jain, nhóm Amin, Fischer, Parkison và Riscky.
Trong số đó, phƣơng pháp của Srihari và Govindaraju là áp dụng biến
đổi Hough cho tất cả các điểm đen của ảnh. Tất nhiên, việc áp dụng khơng có
loại trừ một điểm nàodẫn đến chi phí tính tốn rất lớn và ảnh hƣởng đến độ
chính xác của thuật toán. Để giảm thời gian chạy và tăng một phần độ chính

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

18
xác, Hinds chỉ áp dụng biến đổi Hough cho một số ít điểm hơn bằng phân tích
chạy dài theo chiều dọc. Mục đích của nén chạy dàitheo chiều dọc trong thuật
toán này là để lấy ra các điểm đáy của các dòng văn bản, loại bỏ đi những
điểm đen khác kể cả chúng thuộc vào một ký tự vàdùng biến đổi Hough lên
điểm đen đó. Tuy nhiên, chi phí tính tốn của thuật tốn này vẫn cịn lớn và
việc áp dụng biến đổi Hough cho tất cả các điểm đen ở đáy có thể dẫn đến
những kết quả sai trong trƣờng hợp ảnh đầu vào cónhiều đối tƣợng phi ký tự
nhƣ nhiễu, bảng biểu hay picure.

Hình 1.10. Biểu diễn đường thẳng Hough đi qua 3 điểm
Về lý thuyết, có thể nói theo hƣớng tiếp cận này, thuật tốn của Dianel
Le là một trong những thuật tốn có nhiều cải tiến nhất cả về thời gian chạy
lẫn độ chính xác.Dianel Le dùng phƣơng pháp phân tích các thành phần lien
thơng và rút ra những điểm đáy của các đối tƣợng.Biến đổi Hough chỉ đƣợc
áp dụng cho những điểm đáy này nếu đối tƣợng có kích thƣớc trong một
khoảng nào đó. Ở đây, Dianel Le dùng hai ngƣỡng kích thƣớc đƣợc định
nghĩa trƣớc là chiều rộng và chiều cao để loại bớt đi những đối tƣợng quá lớn
nhƣ picture hoặc quá bé nhƣ nhiễu. Vì vậy, thuật tốn này cho độ chính xác
cao hơn và giảm đáng kể chi phí tính tốn.
b. Nhận xét
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

19

Thuật tốn của Dianel Le sẽ gặp khó khăn nếu các đối tƣợng trong ảnh
chứa nhau.Chẳng hạn, các ký tự nằm hầu hết trong các đối tƣợng có kích
thƣớc lớn mà đáy của chúng không phải là những đƣờng thẳng.Khi đó, có thể
những ký tự khơng đƣợc xét đến, thay vào đó lại áp dụng biến đổi Hough cho
điểm đáy của các đối tƣợng phi ký tự dẫn đến kết quả đƣa ra góc lệch sai cho
văn bản. Hơn nữa do các ngƣỡng kích thƣớc đƣợc cố định trƣớc nên thuật
tốn này phụ thuộc nhiều vào kích thƣớc các con chữ và số lƣợng ký tự trong
văn bản.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

×