Tải bản đầy đủ (.pdf) (79 trang)

NGHIÊN CỨU MỘT SỐ KỸ THUẬT HIỆU CHỈNH GÓC NGHIÊNG CỦA ẢNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4 MB, 79 trang )





TRƯỜNG ĐẠI HỌC LẠC HỒNG
TRUNG TÂM THÔNG TIN TƯ LIỆU



BÁO CÁO
NGHIÊN CỨU KHOA HỌC



ĐỀ TÀI:

NGHIÊN CỨU MỘT SỐ KỸ THUẬT
HIỆU CHỈNH GÓC NGHIÊNG CỦA ẢNH






NGUYỄN TRỌNG VINH





ĐỒNG NAI, THÁNG 06/2011






TRƯỜNG ĐẠI HỌC LẠC HỒNG
TRUNG TÂM THÔNG TIN TƯ LIỆU



BÁO CÁO
NGHIÊN CỨU KHOA HỌC



ĐỀ TÀI:

NGHIÊN CỨU MỘT SỐ KỸ THUẬT
HIỆU CHỈNH GÓC NGHIÊNG CỦA ẢNH





Thực hiện: NGUYỄN TRỌNG VINH
TRẦN ĐỨC TOÀN
Chủ nhiệm đề tài: Huỳnh Cao Tuấn





ĐỒNG NAI, THÁNG 06/2011




LỜI CẢM ƠN

Chúng tôi xin chân thành cảm ơn lãnh đạo và các Thầy Cô ở Trung tâm
Thông tin Tư liệu – Đại học Lạc Hồng, nơi tôi công tác, đã tạo mọi điều kiện
thuận lợi cho chúng tôi trong suốt thời gian hoàn thành báo cáo.
Bên cạnh đó, chúng tôi cũng gửi lời cảm ơn đến Ban Khảo thí – Đại
học Lạc Hồng đã tạo điều kiện thuận lợi cho chúng tôi trong quá trình thực
hiện luận văn cũng như ứng dụng sản phẩm nghiên cứu vào thực tế.
Cuối cùng, chúng tôi xin cảm ơn gia đình và bạn bè, những người đã
luôn ủng hộ và động viên để chúng tôi yên tâm nghiên cứu và hoàn thành báo
cáo nghiên cứu khoa học.

Nguyễn Trọng Vinh, Trần Đức Toàn




MỤC LỤC

Trang
LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC HÌNH ẢNH iii
MỞ ĐẦU 1
CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ ẢNH

VÀ BÀI TOÁN PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN. 4
1.1. Xử lý ảnh và một số vấn đề cơ bản trong xử lý ảnh. 4
1.1.1. Xử lý ảnh là gì? 4
1.1.2. Quá trình xử lý ảnh 4
1.1.2.1. Thu nhận ảnh 5
1.1.2.2. Tiền xử lý 6
1.1.2.3. Phân đoạn ảnh 6
1.1.2.4. Hệ quyết định 7
1.1.2.5. Trích chọn đặc điểm 7
1.1.2.6. Nhận dạng 8
1.1.3. Một số vấn đề cơ bản trong xử lý ảnh. 9
1.1.3.1. Ảnh 9
1.1.3.2. Điểm ảnh 9
1.1.3.3. Mức xám 9
1.1.3.4. Các điểm 4 láng giềng 9
1.1.3.5. Các điểm 8 láng giềng 9
1.1.3.6. Đối tượng ảnh 10
1.1.3.7. Kỹ thuật phóng to, thu nhỏ ảnh 10
1.1.4. Tổng quan về ảnh văn bản. 11
1.2. Tổng quan về bài toán phát hiện góc nghiêng văn bản 12
1.2.1. Góc nghiêng và vai trò việc phát hiện góc nghiêng văn bản 12
1.2.2. Phương pháp phân tích hình chiếu (Profile Projection) 12
1.2.2.1. Thuật toán Postl 14
1.2.2.2. Thuật toán Baird 14
1.2.2.3. Thuật toán Nakano 14
1.2.2.4. Nhận xét 15
1.2.3. Phương pháp phân tích dựa vào trọng tâm (Center of Gravity) 15
1.2.4. Phương pháp phân tích láng giềng (Nearest Neighbour Clustering) 19
1.2.4.1. Thuật toán Yue Lu và Chew Lim Tan 20





1.2.4.2. Nhận xét 21
1.2.5. Phương pháp dùng phép toán hình thái (Morphology) 22
1.2.5.1. Thuật toán L. Najman 22
1.2.5.2. Nhận xét 24
1.2.6. Phương pháp dùng biến đổi Hough (Hough Transform) 24
1.2.6.1. Đường thẳng Hough trên tọa độ cực 24
1.2.6.2. Nhận xét 27
CHƯƠNG 2. BIÊN VÀ CÁC PHƯƠNG PHÁP DÒ BIÊN 28
2.1. Biên của đối tượng ảnh 28
2.1.1. Biên và các kiểu biên cơ bản trong ảnh 28
2.1.1.1. Biên lý tưởng 28
2.1.1.2. Biên dốc 29
2.1.1.3. Biên không trơn 30
2.1.2.

Vai trò của biên trong nhận dạng
31
2.2. Các phương pháp dò biên trực tiếp 32
2.2.1. Phương pháp Gradient 32
2.2.2. Phương pháp Laplace 34
2.3. Phương pháp dò biên tổng quát 34
2.3.1. Khái niệm chu tuyến 34
2.3.2. Phương pháp dò biên tổng quát 36
2.4. Một số phương pháp dò biên nâng cao 38
2.4.1. Phương pháp Canny 38
2.4.2. Phương pháp Shen – Castan 39
CHƯƠNG 3. ỨNG DỤNG BIẾN ĐỔI HOUGH PHÁT HIỆN

GÓC NGHIÊNG VĂN BẢN. 40
3.1. Tiền xử lý và phát hiện góc nghiêng văn bản từ biên của đối tượng 40
3.2. Xác định đường thẳng Hough trên trang văn bản 41
3.3. Áp dụng biến đổi Hough phát hiện góc nghiêng văn bản 42
3.4. Thuật toán phát hiện góc nghiêng văn bản 44
3.5. Chỉnh sửa góc nghiêng văn bản 51
CHƯƠNG 4. XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM 53
4.1. Sơ đồ khối. 53
4.2. Thiết kế chương trình 54
4.2.1. Module giao diện chính 54
4.2.2. Module chuyển đổi ảnh gốc và biểu đồ mức xám 56
4.2.3. Module dò biên 58
4.2.4. Module biểu diễn biến đổi Hough 60
4.2.5. Module hiệu chỉnh góc nghiêng văn bản 61




4.3. Đánh giá kết quả 61
KẾT LUẬN 67
TÀI LIỆU THAM KHẢO 69











DANH MỤC HÌNH ẢNH


Hình 1.1. Sơ đồ quá trình xử lý ảnh 5
Hình 1.2 Ma trận 8 láng giềng 10
Hình 1.3 Tổng quan quá trình tạo ảnh tài liệu 12
Hình 1.4 Đa giác 6 đỉnh và trọng tâm được xác định 16
Hình 1.5 Hình chữ nhật ngoại tiếp ảnh văn bản thay cho đa giác 16
Hình 1.6 Ảnh đầu vào và kết quả sau khi áp dụng thuật toán 17
Hình 1.7 Tìm các điểm xa nhất theo các hướng trên ảnh 18
Hình 1.8 Trọng tâm được xác định dựa vào các điểm xa nhất 18
Hình 1.9 Đường cơ sở được nối từ trọng tâm đến gốc tọa độ 18
Hình 1.10 Xác định góc nghiêng ảnh văn bản 18
Hình 1.11 Phân tích láng giềng 19
Hình 1.12 Các K-NN và vector chỉ phương ứng với K=2,3,4 21
trong thuật toán
Yue Lu-Chew Lim Tan
21
Hình 1.13 Đường thẳng Hough và trục tọa độ 25
Hình 1.14 Biểu diễn đường thẳng Hough đi qua 3 điểm 26
Hình 2.1 Đường biên lý tưởng 29
Hình 2.2 Đường biên dốc 29
Hình 2.3 Đường biên không trơn 30
Hình 2.4 Sơ đồ phân tích ảnh 31
Hình 2.5 Các 4- láng giềng của điểm ảnh P 35
Hình 2.6 Các 8- láng giềng của điểm ảnh P 35
Hình 2.7 Ví dụ về các chu tuyến đối ngẫu 36
Hình 2.8 Chu tuyến trong và chu tuyến ngoài của một đối tượng 36
Hình 3.1 Xác định hình chữ nhật ngoại tiếp các đối tượng 40

Hình 3.2 Đường thẳng trong toạ độ cực 41
Hình 3.3 Đường thẳng Hough trên trục tọa độ 43
Hình 3.4 Ví dụ về một ảnh nghiêng có ít ký tự chữ cái 45
Hình 3.5 Ví dụ về văn bản nghiêng có các đối tượng bao nhau 46
Hình 3.6 Sơ đồ giải thuật tổng quát 50
Hình 3.7 Xoay một điểm ảnh quanh gốc tọa độ 51
Hình 4.1 Sơ đồ tổng quát 53
Hình 4.2 Giao diện chính của chương trình 54
Hình 4.3 Sơ đồ module xử lý cơ bản 55
Hình 4.4 Màn hình giao diện chương trình khi chọn chức năng Open 55
Hình 4.5 Sơ đồ thao tác xử lý trên ảnh 56




Hình 4.6 Sơ đồ convert ảnh sang nhị phân và đa cấp xám 56
Hình 4.7 Giao diện biểu diễn Histogram của ảnh 57
Hình 4.8 Giao diện convert ảnh sang nhị phân và ảnh đa cấp xám 57
Hình 4.9 Sơ đồ chức năng dò biên 58
Hình 4.10 Dò biên bằng phương pháp Sobel 58
Hình 4.11 Dò biên bằng phương pháp Canny 59
Hình 4.12 Dò biên bằng phương pháp Emboss Laplacian 59
Hình 4.13 Dò biên bằng phương pháp Gradient 60
Hình 4.14 Biểu diễn biến đổi Hough của ảnh 60
Hình 4.15 Phát hiện góc nghiêng và xoay ảnh 61
Hình 4.16 Một ảnh bị nghiêng góc có các đối tượng xen lẫn văn bản,
bảng biểu và ảnh kết quả sau khi hiệu chỉnh 1 góc 12.9
o
63
Hình 4.17 Một ảnh bị nghiêng góc tiếng Nhật có xen lẫn hình ảnh, ký tự

và ảnh kết quả sau khi hiệu chỉnh 1 góc 11.3
o
64
Hình 4.18 Một bảng điểm bị nghiêng góc không thể nhận dạng được của
hệ thống quản lý điểm và ảnh kết quả sau khi hiệu chỉnh 1 góc 7.61
o
64
Hình 4.19 Một mẫu phiếu đánh giá chất lượng giảng dạy bị nghiêng góc
không thể nhận dạng được và ảnh kết quả sau khi hiệu chỉnh 1 góc 9.72
o
65
Hình 4.20 Một ảnh màu tài liệu bị nghiêng
và ảnh kết quả sau khi hiệu chỉnh 1 góc 10.82
o
65
Hình 4.21 Một ảnh màu tài liệu bị nghiêng gồm nhiều biểu đồ
và ảnh kết quả sau khi hiệu chỉnh 1 góc 17.6
o
66

1



MỞ ĐẦU

Ngày nay việc sử dụng máy tính để lưu trữ tài liệu không còn là vấn đề
mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên
việc sử dụng giấy để lưu trữ tài liệu trong một số mục đích vẫn không thể thay
thế được (như báo, sách, công văn, hợp đồng, …). Hơn nữa, lượng tài liệu

được tạo ra từ nhiều năm trước vẫn còn rất nhiều mà không thể bỏ đi được vì
tính quan trọng của chúng.
Để có thể có được một “văn phòng không giấy” khi đó hàng tỉ trang tài
liệu sẽ được cất chỉ trong một ổ cứng kích thước bằng một cuốn sách nhỏ và
để tìm kiếm thông tin trong đó người ta chỉ cần tốn vài giây với một cái gõ
phím Enter thì chắc chắn phải chuyển toàn bộ dữ liệu từ các trang giấy vào
máy tính. Đây cũng là cách đáp ứng nhu cầu tra cứu tài liệu điện tử càng tăng
và trở thành nhu cầu cấp thiết của mọi người trong đời sống.
Thông thường người ta sẽ phải tốn rất nhiều thời gian và công sức mới
có thể nhập vào máy tính được hết lượng tài liệu đó. Hiện nay, chúng ta đã có
các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu
việt với tốc độ tính toán vượt cả tốc độ ánh sáng, vậy tại sao chúng ta không
quét toàn bộ các trang văn bản giấy vào máy tính và chuyển chúng thành tài
liệu số?
Bằng cách đó tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi
chi phí lại là cực tiểu. Vấn đề là khi quét vào máy tính chúng ta không thể thu
nhận được tài liệu như mong muốn được bởi nhiều lý do khách quan khiến
cho trang tài liệu bị nghiêng ngả, mờ nhoè,…. Tất cả những gì thu được chỉ là
các tấm ảnh của các trang văn bản. Máy tính không có “mắt” như chúng ta để
biết đâu là file ảnh ngay ngắn, đúng chuẩn và đâu là file ảnh có chất lượng
2



thấp, nghiêng cần được hiệu chỉnh cho nên chúng đối xử công bằng như nhau
với mọi điểm ảnh.
Một giải pháp được nghĩ đến ngay đó là xây dựng các hệ thống hiệu
chỉnh góc nghiêng văn bản đối với cả ảnh màu và ảnh trắng đen thuần tuý. Từ
đó có thể biên soạn thành những tài liệu số hoàn chỉnh và bỏ qua thao tác lưu
trữ hàng khối giấy tờ chiếm nhiều không gian và thời gian như trước đây.

Khi xem xét một văn bản, để kết luận văn bản có bị nghiêng hay không
cách làm của chúng ta là căn cứ vào một số đối tượng chủ đạo và góc nghiêng
văn bản được ước lượng dựa vào đường nối các trung điểm cạnh đáy của các
đối tượng này. Xuất phát từ nhận xét trên, tôi sẽ trình bày một phương pháp
phát hiện góc nghiêng văn bản từ kỹ thuật xác định chu tuyến một đối tượng
ảnh và biến đổi Hough nhưng có điểm khác là sẽ dựa trên những điểm đặc
trưng có kích thước chủ đạo trong ảnh. Từ đó áp dụng biến đổi Hough lên các
điểm ảnh đại diện cho chúng.
* Cấu trúc của luận văn gồm 4 chương như sau:
- Chương 1: Tổng quan về xử lý ảnh và bài toán góc nghiêng văn
bản: Chương này đề cập đến các khái niệm cơ bản về xử lý ảnh số, quá trình
xử lý ảnh. Bên cạnh đó là sự phân tích, đánh giá đối với một số phương pháp
phát hiện góc nghiêng văn bản.
- Chương 2: Biên và các phương pháp dò biên: Chương này gồm các
khái niệm cơ bản về biên của đối tượng ảnh và vai trò của việc dò biên trong
xác định góc nghiêng văn bản . Toàn bộ chương tập trung vào việc làm rõ các
khái niệm cơ bản cũng như đi sâu vào phân tích các phương pháp dò biên
như: phương pháp trực tiếp (Gradient, Laplace), phương pháp dò biên tổng
quát dựa vào chu tuyến, phương pháp dò biên nâng cao (Canny, Shen –
Castan).
3



- Chương 3: Ứng dụng biến đổi Hough phát hiện góc nghiêng văn
bản: Trên cơ sở các thuật toán đã tìm hiểu, toàn bộ chương này nêu rõ từng
bước thực hiện việc áp dụng biến đổi Hough vào xác định góc nghiêng và tiến
hành hiệu chỉnh góc nghiêng văn bản.
- Chương 4: Xây dựng chương trình thực nghiệm: Tiến hành xây
dựng chương trình thực nghiệm để phát hiện và hiệu chỉnh góc nghiêng văn

bản dựa trên cơ sở lý thuyết đã tìm hiểu được về việc áp dụng biến đổi
Hough.
- Kết luận.
4



CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ ẢNH
VÀ BÀI TOÁN PHÁT HIỆN GÓC NGHIÊNG VĂN BẢN.

1.1. Xử lý ảnh và một số vấn đề cơ bản trong xử lý ảnh.
1.1.1. Xử lý ảnh là gì?
Con người thu nhận thông tin qua các giác quan trong đó thị giác đóng
vai trò quan trọng nhất vì 80% thông tin được thu nhận bằng mắt tức là ở
dạng ảnh. Mặc khác với sự phát triển mạnh mẽ của phần cứng máy tính, xử lý
ảnh, đồ hoạ ngày càng có nhiều ứng dụng thực tiễn phục vụ cuộc sống. Như
vậy, xử lý ảnh đóng một vai trò rất quan trọng trong sự tương tác giữa người
và máy.
Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số là một lĩnh vực của
tin học ứng dụng. Xử lý dữ liệu bằng đồ hoạ đề cập đến những ảnh nhân tạo,
các ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo ra bởi các
chương trình. Xử lý ảnh số [20] bao gồm các phương pháp và kĩ thuật để biến
đổi, để truyền tải hoặc mã hoá các ảnh tự nhiên.
1.1.2. Quá trình xử lý ảnh
Quá trình xử lý ảnh là một quá trình thao tác nhằm biến đổi một ảnh
đầu vào để cho ra một ảnh kết quả như mong muốn. Kết quả đầu ra của một
quá trình xử lý ảnh có thể là một ảnh "tốt hơn" hoặc một kết luận.
Mục đích của xử lý ảnh gồm:
 Biến đổi ảnh, làm tăng chất lượng ảnh.
 Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội

dung của ảnh.
5



Camera
Sensor
Thu nhận
ảnh
Số hoá Phân tích
ảnh
Nhận
dạng
Hệ quyết
định
Lưu trữ
Lưu trữ
Hình 1.1. Sơ đồ quá trình xử lý ảnh
Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình
ảnh thành những phần có ý nghĩa, để phân biệt đối tượng này với đối tượng
khác. Dựa vào đó ta có thể mô tả cấu trúc của hình ảnh ban đầu. Có thể liệt kê
một số phương pháp nhận dạng cơ bản như nhận dạng cạnh của các đối tượng
trên ảnh, tách cạnh, phân đoạn hình ảnh v.v Kỹ thuật này được dùng nhiều
trong y học (xử lý tế bào, nhiễm sắc thể), nhận dạng chữ trong văn bản.

1.1.2.1. Thu nhận ảnh:
Đây là bước đầu tiên trong quá trình xử lý ảnh. Để thực hiện điều này,
ta cần có bộ thu ảnh và khả năng số hoá những tín hiệu liên tục được sinh ra
bởi bộ thu ảnh đó. Bộ thu ảnh ở đây có thể là máy chụp ảnh đơn sắc hay màu,
máy quét ảnh, Trong trường hợp bộ thu ảnh cung cấp chưa phải là dạng số

hoá ta còn phải chuyển đổi hay số hoá ảnh.
Quá trình chuyển đổi ADC [17] (Analog to Digital Converter) để thu
nhận dạng số hoá của ảnh. Các thông số quan trọng ở bước này là độ phân
giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết
bị. Mặc dù đây chỉ là công đoạn đầu tiên song kết quả của nó có ảnh hưởng
rất nhiều đến công đoạn kế tiếp.

6



1.1.2.2. Tiền xử lý:
Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử
bóng, khử độ lệch,v.v… với mục đích làm cho chất lượng ảnh trở lên tốt hơn
nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình xử lý
ảnh. Quá trình này thường được thực hiện bởi các bộ lọc.
+ Khử nhiễu: Nhiễu được chia thành hai loại: nhiễu hệ thống và nhiễu
ngẫu nhiên. Đặc trưng của nhiễu hệ thống là tính tuần hoàn. Do vậy, có thể
khử nhiễu này bằng việc sử dụng phép biến đổi Fourier và loại bỏ các đỉnh
điểm. Đối với nhiễu ngẫu nhiên, trường hợp đơn giản là các vết bẩn tương
ứng với các điểm sáng hay tối, có thể khử bằng phương pháp nội suy, lọc
trung vị và trung bình.
+ Chỉnh mức xám: Đây là kỹ thuật nhằm chỉnh sửa tính không đồng
đều của thiết bị thu nhận hoặc độ tương phản giữa các vùng ảnh.
+ Chỉnh tán xạ: Ảnh thu nhận được từ các thiết bị quang học hay điện
tử có thể bị mờ, nhoè. Phương pháp biến đổi Fourier dựa trên tích chập của
ảnh với hàm tán xạ cho phép giải quyết việc hiệu chỉnh này.
1.1.2.3. Phân đoạn ảnh:
Phân đoạn ảnh có nghĩa là chia một ảnh đầu vào thành nhiều phần khác
nhau hay còn gọi là các đối tượng để biểu diễn phân tích, nhận dạng ảnh. Ví

dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho mục đích phân
loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người thành các từ,
các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng.
Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi,
làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều
vào công đoạn này.
Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều
phần tử khác nhau cấu tạo lên ảnh thô. Vì lượng thông tin chứa trong ảnh rất
7



lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào
đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó. Quá
trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu.
1.1.2.4. Hệ quyết định:
Ảnh là một đối tượng khá phức tạp về đường nét, độ sáng tối, dung
lượng điểm ảnh, môi trường để thu ảnh phong phú kéo theo nhiễu.
Trong nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các
phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt
chước quy trình tiếp nhận và xử lý ảnh theo cách của con người. Trong các
bước xử lý đó, nhiều khâu hiện nay đã xử lý theo các phương pháp trí tuệ con
người. Vì vậy, ở đây các cơ sở tri thức được phát huy.
1.1.2.5. Trích chọn đặc điểm:
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới nảy sinh
trong cuộc sống không chỉ tạo ra những thách thức về giải thuật, mà còn đặt
ra những yêu cầu về tốc độ tính toán.
Đặc điểm chung của tất cả ứng dụng đó là những đặc điểm đặc trưng
cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được
trích chọn dựa trên các thủ tục phân tích dữ liệu.

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối
tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm
xuống.
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận
dạng trong quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh sau
đây:
- Đặc điểm không gian: phân bố mức xám, phân bố xác suất, biên độ,
điểm uốn v.v
8



- Đặc điểm biến đổi: các đặc điểm loại này được trích chọn bằng việc
thực hiện lọc vùng (zonal filtering). Các bộ vùng được gọi là “mặt nạ đặc
điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ
nhật, tam giác, cung tròn v.v )
- Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối
tượng và do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được
dùng khi nhận dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ
toán tử Gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero
crossing)
1.1.2.6. Nhận dạng:
Nhận dạng ảnh là quá trình xác định nội dung ảnh.
Quá trình này thường thu được bằng cách so sánh với mẫu chuẩn đã
được lọc (hoặc lưu) từ trước.
Đây là bước cuối cùng trong quá trình xử lý ảnh.
Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gán
nhãn cho các đối tượng trong ảnh. Ví dụ như khi nhận dạng chữ viết, các đối
tượng trong ảnh cần nhận dạng là các mẫu chữ, ta cần tách riêng các mẫu chữ
đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu

chữ thu được trong ảnh. Giải thích là công đoạn gán nghĩa cho một tập các
đối tượng đã được nhận biết.
Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý
ảnh nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví
dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý.
Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng
và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán
tự động, được dùng để rút trích ra những thông tin quan trọng từ ảnh, ví dụ
như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…
9



1.1.3. Một số vấn đề cơ bản trong xử lý ảnh.
1.1.3.1. Ảnh :
Ảnh là một mảng số thực hai chiều (I
i j
) có kích thước (m*n), trong đó
mỗi phần tử I
i j
(i=1 m, j=1 n) biểu thị mức xám của ảnh tại vị trí (i, j) tương
ứng.
1.1.3.2. Điểm ảnh:
Gốc của ảnh là ảnh liên tục về không gian và độ sáng. Để xử lý bằng
máy tính, ảnh cần phải được số hoá.
Số hoá ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểm
phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám). Khoảng
cách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt
được ranh giới giữa chúng.
Mỗi một điểm như vậy gọi là điểm ảnh (PEL: Picture Element [20])

hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa
độ (x,y).
Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám
hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được
chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức
xám (hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được
gọi là một phần tử ảnh.
1.1.3.3. Mức xám: là số các giá trị có thể nhận của các điểm ảnh.
1.1.3.4. Các điểm 4 láng giềng:
Giả sử (i,j) là một điểm ảnh, khi đó các điểm 4 - láng giềng là:
N4 = {(i-1, j); (i+1, j); (i, j-1); (i, j+1)}
1.1.3.5. Các điểm 8 láng giềng:
N8 = N4

{(i-1,j-1); (j-1, j+1); (i+1, j-1); (i+1, j+1)}
10











1.1.3.6. Đối tượng ảnh:
Ta chỉ xét tới ảnh nhị phân vì mọi ảnh đều có thể đưa về dạng nhị phân
bằng kỹ thuật phân ngưỡng. Ký hiệu F là tập các điểm vùng, F là tập các điểm

nền.
F: là điểm đen
F : là điểm trắng
Quan hệ K liên thông (K = 4, 8) là một quan hệ phản xạ, đối xứng, bắc
cầu, là quan hệ tương đương. Mỗi lớp tương đương của nó biểu diễn một
thành phần K liên thông của ảnh. Về sau ta gọi mỗi thành phần K liên thông
của ảnh là một đối tượng ảnh.
1.1.3.7. Kỹ thuật phóng to, thu nhỏ ảnh:
Khi ảnh quá lớn chúng ta muốn nhìn toàn bộ ảnh thì chúng ta phải thu
nhỏ ảnh lại và ngược khi ta muốn xem chi tiết một bộ phận nào đó của ảnh thì
ta phải phóng to nó lên.
+ Kỹ thuật phóng to ảnh:
Khi phóng to ảnh với một tỉ lệ k nào đó ta thu được ảnh mới to gấp k
lần ảnh cũ (k là độ phóng của ảnh) như thế ảnh mới sẽ có kích thước là :
Height=Height*k
Width=Widht*k
P
3
P
2
P
1

P
4
P P
0
P
5
P

6
P
7

Hình 1.2 Ma trận 8 láng giềng
11



Việc tính các điểm ảnh tương ứng của ảnh mới sẽ được tính theo công
thức:
xp=x/k
yp=y/k
+ Kỹ thuật thu nhỏ ảnh:
Tương tự như phóng to ảnh, khi thu nhỏ ảnh ta thu được ảnh mới giống
ảnh cũ nhưng có kích thước nhỏ hơn ảnh cũ. Kích thước của ảnh mới là :
Height=Height/k
Width=Width/k
Việc tính các điểm ảnh tương ứng của ảnh mới sẽ được tính theo công
thức:
xp=x*k
yp=y*k
1.1.4. Tổng quan về ảnh văn bản.
Trang ảnh văn bản hay ảnh tài liệu được đề cập ở đây là các file ảnh số
hoá thu được bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số,
hay nhận từ một máy fax, file ảnh này được lưu giữ trong máy tính. Ảnh tài
liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở
rộng như JPG, TIF, BMP, PCX, …

12





1.2. Tổng quan về bài toán phát hiện góc nghiêng văn bản
1.2.1. Góc nghiêng và vai trò việc phát hiện góc nghiêng văn bản
Góc nghiêng văn bản là một bài toán kinh điển trong xử ý ảnh văn bản.
Giải quyết bài toán góc nghiêng là nhiệm vụ tiên quyết và cũng không thể
tránh khỏi của bất kỳ một hệ thống xử lý ảnh văn bản nào. Vì lẽ đó, cùng với
sự phát triển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài toán
góc nghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc
độ khác nhau. Giải quyết được vấn để góc nghiêng văn bản sẽ làm cho hiệu
quả ở khâu nhận dạng văn bản tăng lên đáng kể. Có rất nhiều hướng tiếp cận
cho bài toán góc nghiêng văn bản từ trước tới nay. Các thuật toán phát hiện
góc nghiêng thường được xây dựng cho các hệ thống phân tích ảnh văn bản
khác nhau nên chỉ giải quyết cho những loại ảnh văn bản cụ thể.
Sau đây là một số hướng tiếp cận phổ biến cho bài toán góc nghiêng
văn bản.
1.2.2. Phương pháp phân tích hình chiếu (Profile Projection)
Đây là một trong những phương pháp phổ biến nhất trong phát hiện góc
nghiêng văn bản. Ý tưởng chính của phương pháp này là tính histogram cho
tất cả các góc lệch. Histogram của một góc là số điểm ảnh đen trong ảnh sao
cho các điểm này nằm trên những đường thẳng có cùng một hướng tương ứng

Tài liệu
Thiết bị thu nhận ảnh ảnh số
Hình 1.3 Tổng quan quá trình tạo ảnh tài liệu
13




với góc đó. Sau đó, dùng một hàm tính chi phí để áp dụng cho các giá trị
histogram này. Góc nghiêng của văn bản tương ứng với góc có giá trị hàm chi
phí là lớn nhất.
Theo hướng tiếp cận này, các thuật toán phát hiện góc nghiêng được đề
xuất bởi các tác giả: Akiyama và Hagita, Bard, Bloomberg, Nakano, Kanai và
Bagdanov, Komukai và Saiwai, Lam và Zandy, Messelodi và Modena, Shutao
Li, Qinghua Shen [13], Pavidis và Zhou, Postl, D X Le [12] và Spitz.
Các thuật toán phát hiện góc nghiêng dựa vào hình chiếu thường bao
gồm các bước chính sau:
+ Dùng một hàm rút gọn F để chuyển ảnh đầu vào thành một tập các bộ
ba (x,y,w) trong đó (x,y) là tọa độ của một điểm ảnh đại diện cho một đối
tượng và w là trọng số của điểm đó. Ở đây, điểm đại diện được hiểu theo
nghĩa là điểm biểu diễn các ký tự trong các đối tượng của ảnh. Trọng số w
thường phụ thuộc vào từng thuật toán.
+ Một hàm P dùng chiếu các điểm tìm được ở trên vào một mảng đếm
A[] theo các góc chiếu khác nhau. Ứng với mỗi góc Φ có một mảng A
Φ
[]
dùng lưu số điểm đại diện. Mảng A
Φ
[] là mảng một chiều, phần tử A
Φ
[r] sẽ
cho biết số điểm đại diện nằm trên đường thẳng tạo với trục OX góc Φ và
khoảng cách từ gốc tọa độ tới đường thẳng đó là r.
+ Sau khi tính được mảng A
Φ
[], áp dụng một hàm tối ưu hóa Ω cho các
giá trị của mảng này theo một tiêu chuẩn nào đó. Cuối cùng góc lệch của văn

bản là góc tương ứng có giá trị hàm tối ưu hóa cực đại.
Sự khác nhau chủ yếu của các thuật toán theo phương pháp này chính
là việc xây dựng các hàm rút gọn F và hàm tối ưu hóa Ω.
14




1.2.2.1 . Thuật toán Postl
Postl [18] dùng các tần số lấy mẫu theo chiều ngang và chiều dọc để
lấy các điểm đen trong ảnh làm các điểm cơ sở. Hàm rút gọn và hàm tối ưu
hóa như sau:
F
P
(I) ={ (x.∆ξ,y.∆ŋ,1)| 0 < x < w/∆ξ , 0< y <h/∆ŋ ,I(x.∆ξ, y.∆ŋ)=1 }
Ω
P
(A
Φ
)=Σ(A
Φ
[p+1] - A
Φ
[p])
2

Với (x,y) là tọa độ của điểm ảnh đại diện, ∆ξ và ∆ŋ là các ngưỡng kích
thước, w và h tương ứng là chiều rộng và chiều cao của ảnh.

1.2.2.2 . Thuật toán Baird

Baird [5] dùng cách xác định hình chữ nhật chứa các đối tượng, điểm
đại diện chính là trọng tâm của hình chữ nhật đó và hàm tối ưu hóa bằng tổng
bình phương các giá trị mảng A.
Công thức hai hàm này như sau:
F
P
(I)={( x,y,1)| (x,y) là tâm hình chữ nhật ngoại tiếp một đối tượng }
Ω
P
(A
Φ
) = Σ(A
Φ
[p])
2


1.2.2.3 . Thuật toán Nakano
Nakano cũng dùng tâm các hình chữ nhật ngoại tiếp đối tượng làm
điểm cơ sở nhưng dùng luôn chiều rộng của các hình chữ nhật này làm trọng
số cho các điểm cơ sở và hàm tối ưu hóa phụ thuộc vào số các giá trị bằng 0
trong mảng đếm. Công thức cho hai hàm này như sau:
(1)
(2)
15



F
P

(I)={( x,y,w) | (x,y) là tọa độ góc trái dưới của hình chữ nhật bao
quanh một đối tượng, w là chiều rộng của hình chữ nhật }
Ω
P
(A
Φ
[p])=Σ(1-U(A
Φ
[p]))
Với U(A
Φ
[p])=1 nếu A
Φ
[p]=0, ngược lại U(A
Φ
[p])=0.
Phát hiện góc lệch văn bản bằng cách chiếu các góc là một phương
pháp đơn giản và dễ hiểu. Tuy nhiên, những thuật toán dựa trên phương pháp
này còn hạn chế nhiều về độ chính xác với các góc lệch lớn. Baird cho rằng
để thuật toán cho kết quả có độ chính xác cao thì góc lệch văn bản phải giới
hạn trong khoảng ±15
0
. Hơn nữa, nếu văn bản có nhiều nhiễu và các đối
tượng phi văn bản như bảng biểu, hình ảnh thì độ chính xác của thuật toán
còn giảm đi đáng kể.
1.2.2.4 . Nhận xét
Gần đây, người ta đã kết hợp phương pháp hình chiếu và phương pháp
các đối tượng với mục tiêu giải quyết vấn đề về giới hạn góc lệch. Tuy vậy,
phương pháp này lại phụ thuộc nhiều vào khoảng cách giữa các dòng văn bản
và quan trọng là chỉ xử lý được với những ảnh có chứa nhiều dòng văn bản và

kích thước bé cỡ 512 * 512 pixels.
1.2.3. Phương pháp phân tích dựa vào trọng tâm (Center of Gravity)
Đây là hướng tiếp cận tương đối mới cho bài toán phát hiện góc
nghiêng văn bản. Ý tưởng chính của phương pháp này là đi xây dựng một đa
giác từ các điểm cực biên của văn bản. Một đường thẳng được xây dựng từ
tọa độ trọng tâm của đa giác đến gốc tọa độ. Như vậy, góc lệch của đường
thẳng này so với trục hoành chính là góc nghiêng của văn bản.
Theo hướng tiếp cận này, việc xác định đường cơ sở nói chung là bước
quan trọng nhất của toàn bộ quá trình. Một phương pháp mới được sử dụng
(3)
16



trong thuật toán này lên tất cả các từ nội tiếp trong đa giác. Trọng tâm của đa
giác với góc tọa độ sẽ tạo thành 1
đường thẳng lệch một góc nào đó
với trục ngang. Góc được xác định
cũng chính là góc nghiêng của từ,
đoạn văn và cả ảnh văn bản.
Hình 1.4, một đa giác có 6
đỉnh được tìm thấy và trọng tâm của
đa giác được xác định bằng công
thức [15]:
c
x
= (x
i
+ x
i+1

)(x
i
y
i+1
– x
i+1
y
i
)

c
y
= (y
i
+ y
i+1
)(x
i
y
i+1
– x
i+1
y
i
)


Như vậy tùy theo đa giác tìm được qua bước xác định điểm xa nhất
theo các hướng mà ta áp dụng thuật toán cho từng trường hợp cụ thể. Hình
chữ nhật được thay thế cho đa giác như trong hình 1.5 cũng được mô tả như là

một cách để xây dựng đường cơ sở giúp xác định góc nghiêng văn bản.









Hình 1.4 Đa giác 6 đỉnh và
trọng tâm được xác định
Hình 1.5 Hình ch
ữ nhật ngoại tiếp ảnh văn bản thay cho đa giác

(4)
17




* Thuật toán gồm các bước:
+ Đầu vào: ảnh văn bản bị nghiêng giống như hình 1.6
+ Đầu ra: ảnh đã được hiệu chỉnh góc nghiêng.

+ Bước 1: Xác định những điểm xa nhất trong tất cả bốn hướng. Hình
1.7 cho thấy hình ảnh quét điểm xa nhất
+ Bước 2: Tìm trọng tâm bằng cách sử dụng bốn điểm vừa xác định
được ở bước 1, bốn điểm trước đại diện các góc đa giác và trung tâm đa giác
(COG) có thể được tính bằng cách sử dụng các phương trình (4).

+ Bước 3: Để có được đường cơ sở, tiến hành kẻ đường thẳng nối trọng
tâm đến gốc tọa độ. Hình 1.9 cho thấy đường cơ bản được tìm thấy.
+ Bước 4: Tìm góc của đường cơ sở so với trục ngang để phát hiện góc
nghiêng. Hình 1.10 cho thấy việc phát hiện góc nghiêng trên ảnh văn bản.
+ Bước 5: Xoay ảnh với góc nghiêng tìm được theo chiều ngược chiều
kim đồng hồ để được ảnh văn bản ngay ngắn, dễ nhìn.
Hình 1.6 Ảnh đầu vào và kết quả sau khi áp dụng thuật toán

×