Tải bản đầy đủ (.doc) (61 trang)

Xác định góc nghiêng văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (847.86 KB, 61 trang )

Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 1
Mục lục
Mục lục 1
lời mở đầu 4
Lời cảm ơn 5
Chương 1 7
Tổng quan về xử lý ảnh và bài toán phát hiện góc 7
nghiêng 7
1.1.Xử lý ảnh và các vấn đề cơ bản trong xử lý ảnh 7
1.1.1.Xử lý ảnh là gì? 7
1.1.2Các vấn đề cơ bản trong xử lý ảnh 10
1.2.Bài toán phát hiện góc nghiêng 13
1.2.1Thuật toán dựa vào hình chiếu 14
1.2.2Các thuật toán dựa vào biến đổi Hough ( Hough Transform) 15
1.2.3Các thuật toán phân tích láng giềng 16
1.2.4Phương pháp dùng phép toán hình thái 18
Chương 2 19
Biên và các phương pháp dò biên 19
2.1.Biên của đối tượng ảnh 19
2.2.Các phương pháp dò biên trực tiếp 20
2.2.1.Phương pháp Gradient 20
2.2.1.1.Kỹ thuật Gradient 22
2.2.1.l.l.Toán tửRobert 22
2.2.1.1.2.Toán tử Prewitt 24
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 2
2.2.1.1.3.Toán tử Sobel 24
2.2.I.2.Kỹ thuật la bàn 25
2.2.2.Phương pháp Laplace 25
2.3.Phương pháp dò biên tổng quát 27


° • • • • • ° «00000» 29
2.3.2.Phương pháp dò biên tổng quát 30
Chương 3 31
Biến đổi hough và bài toán phát hiện góc nghiêng văn 31
bản 31
3.1.Phát hiện góc nghiêng văn bản từ biên của đối tượng 32
3.2.Biến đổi Hough và phát hiện góc nghiêng văn bản 34
3.2.1Đường thẳng Hough trong toạ độ cực 34
3.2.2áp dụng biến đổi Hough trong phát hiện góc nghiêng văn bản 35
3.3.Chỉnh sửa góc nghiêng văn bản 37
3.4Thuật toán phát hiện góc nghiêng văn bản 38
Chương 4 41
chương trình phát hiện góc nghiêng văn bản 41
4.1 Sơ đồ chức năng của chương trình 41
4.2.Thiết kê Menu 42
} 48
} 49
{ 49
{ 49
} 49
} 49
{ 49
{ 49
} 49
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 3
} 50
{ 50
{ 51
} 51

// 52
{ 53
} 53
{ 53
} 53
} 53
{ 53
{ 54
} 54
} 54
{ 55
} 55
{ 55
{ 56
{ 56
} 58
{ 58
Kết luận 59
Tài liệu tham khảo 60
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 4
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
lời mở đầu
Trong số các thông tin con người thu nhận từ thế bên ngoài, cố đến hơn 80%
được ghi nhận bằng mắt tức là ở dạng ảnh. VI vậy xử lý ảnh là một ngành khoa
học đã và đang và sẽ phát triển mạnh cò ứng dụng rộng rãi trong khoa học và đới
sống thực tiễn. Các hệ thống xử lý ảnh cho phép con người thu nhận lưu trữ, phân
tích và nhận dạng ảnh. Một bộ phận quan trọng của xử lý ảnh là xử lý văn bản.
Một trong những nhiên vụ và là đối tượng chính của xử lý ảnh văn bản là tự động
hoá công việc văn phòng.
Một trong những vấn đề đầu tiên và kinh điển trong xử lý ảnh văn bản là

bài toán góc nghiêng văn bản. Nguyên nhân đẫn đến văn bản bị nghiêng một góc
xuất phát từ quá trình quét ảnh hoặc copy ảnh. Do đặt ảnh vào bệ máy quét và
máy in là một công đoạn được thực hiện bằng tay lên ảnh có thể bị lệch so với bệ
máy một góc mà mắt thường không nhận thấy được, đẫn đến ảnh bị lệch đi một
góc tương ứng. Văn bản bị lệch có ảnh hưởng rất lớn đến các quá trình xử lý ảnh
tiếp theo, vì vậy việc phát hiện và chỉnh sửa góc nghiêng văn bản là nhiệm vụ
quan trong đấu tiên trong xử lý ảnh văn bản.
Từ hai thập kỷ gần đây, cùng với sự phát triển của xử lý ảnh văn bản, đã
có nhiều phương pháp và thuật toán cho bài toán góc nghiêng văn bản. Một trong
những cách tiếp cận phổ biến và dễ hiểu nhất là phương pháp hình chiếu. Phương
pháp này tính histogram cho các góc khác nhau và góc lệch văn bản tương ứng là
góc có histogram lớn nhất. Một thuật toàn khác phát hiện góc nghiêng văn bản là
dùng biến đổi Hough. Biến đôi Hough là dụng cho một số điểm ảnh đại diện của
các đối tượng và dùng một mảng tích luỹ để ước lượng góc nghiêng văn bản.
Trong khi đó một số thuật toán xác định góc nghiêng văn bản bằng cách gom các
nhóm đối tượng láng giềng trong ảnh vào sử dụng một vector chí phương cho mỗi
nhóm. Ngoài các phương pháp tiếp cận phổ biến trên bài toán góc nghiêng văn
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 5
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
bản còn được giải quyết theo một số phương pháp khác như phương pháp dùng
phép toán hình thái, phương pháp dùng logic mờ, phương pháp biến đổi Fourire
V.V
Đồ án tốt nghiệp này đề cập đến một phương pháp giải quyết bài toán góc
nghiêng văn bản. Con người thường căn cứ vào một số đối tượng chủ đạo trong
các văn bản để kết luận góc nghiêng và góc nghiêng nếu có là góc của đường
thẳng nối các điểm giữa đáy của một đối tượng chủ đạo đó. Thực tế này gợi ý cho
ta một phương pháp phát hiện góc nghiêng văn bản là chí dựa vào những đồi
tượng có kích thước chủ đạo trong ảnh để ước lượng góc nghiêng. Các đối tượng
ảnh có kích thước chủ đạo được xác định thông qua việc phân loại đối tượng dựa
trên các biểu đồ tần xuất kích thước của chúng.

Góc nghiêng văn bản được xác định bằng cách áp dụng biến đổi Hough
lên điểm giữa đáy của hình chữ nhật ngoại tiếp các đối tượng có kích thước chủ
đạo trong ảnh. Việc xác định các hình chữ nhật này dựa vào biên hay chu tuyến
ngoài của các đối tượng.
Thuật toán phát hiện góc nghiêng văn bản được trình bày ở đây là làm việc
với ảnh PCX (trắng đen).
Luận văn được chia thành bốn chương:
> Chương 1: Tổng quan về xử lý ảnh và bài toán phát hiện góc
nghiêng.
> Chương 2: Biên của và các phương pháp dò biên.
> Chương 3: Biến đổi Hough và bài toán phát hiện góc nghiêng văn
bản.
> Chương 4: Chương trình phát hiện góc nghiêng văn bản
Lời cảm ơn
Trong suốt quá trình làm khoá luận tốt nghiệp vừa qua, dưới sự giúp đỡ,
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 6
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
chỉ bảo nhiệt tình của thấy giáo hướng dẫn TS Đỗ Năng Toàn khoá luận tốt
nghiệp của em đã được hoàn thành. Mặc dù đã cố gắng hết sức cùng với sự tận
tâm của thầy giáo hướng dẫn song do trình độ còn hạn chế, nội dung đề tài còn
quá mới mẻ đối với em nên em khó tránh khỏi những thiếu sót trong quá trình
làm khoá luận.
Để hoàn thành được khoá luận này. Em xin bày tỏ lòng biết ơn sâu sắc tới
thầy giáo Đỗ Năng Toàn, người đã tận tình hướng dẫn em trong suốt quá trình tìm
hiểu, xây dựng và phát triển bài toán khoá luận tốt nghiệp này.
Và em cũng xin chân thành cảm ơn các thầy cô giáo trong khoa Công
Nghệ Thông Tin trường Đại Học Dân Lập Hải Phòng đã giúp đỡ, tạo điều kiện tốt
nhất để chúng em hoàn thành tốt khoá luận của mình. Em xin được gửi lời cảm ơn
của mình tới gia đình và bạn bè, những người đã động viên giúp đỡ em trong quá
trình làm khoá luận tốt nghiệp.

Cuối cùng em rất mong nhận được sự chỉ dẫn của các thầy cô và sự góp ý
của các bạn để chương trình của em được hoàn thiện hơn.
Hải Phòng ngày tháng năm2004
Sinh viên thực hiện
Cao Thi Thu Thuỷ
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 7
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
Chương 1
Tổng quan về xử lý ảnh và bài toán phát hiện góc
nghiêng
1.1. Xử lý ảnh và các vấn đề cơ bản trong xử lý ảnh
1.1.1. Xử lý ảnh là gì?
Xử lý ảnh là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá trình
biến đổi từ một cảnh ban đầu sang một ảnh mới với các đặc tính và tuân theo ý
muốn của người sử dụng. Xử lý ảnh có thể gồm quá trình phân tích, phân lóp các
đối tượng, làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng hay
quá trình biên dịch các thông tin hình ảnh của ảnh.
Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số là một lĩnh vực của tin
học ứng dụng. Xử lý dữ liệu bằng đồ hoạ đề cập đến những ảnh nhân tạo, các ảnh
này được xem xét như là một cấu trúc dữ liệu và được tạo ra bởi các chương
trình. Xử lý ảnh số bao gồm các phương pháp và kĩ thuật để biến đổi, để truyền
tải hoặc mã hoá các ảnh tự nhiên. Mục đích của xử lý ảnh gồm:
• Biến đổi ảnh, làm tăng chất lượng ảnh.
• Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của
ảnh.
Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh
thành những phần có ý nghĩa, để phân biệt đối tượng này với đối tượng khác. Dựa
vào đó ta có thể mô tả cấu trúc của hình ảnh ban đầu. Có thể liệt kê một số
phương pháp nhận dạng cơ bản như nhận dạng cạnh của các đối tượng trên ảnh,
tách cạnh, phân đoạn hình ảnh V.V kỹ thuật này được dùng

Camera
Sensor
Thu nhân Số hoá Phân tích
ảnh ảnh
Nhận
dạng
Hệ quyết
định
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 8
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
nhiều trong y học (xử lý tế bào, nhiễm sắc thể), nhận dạng chữ trong văn bản.
Hình 1: Các giai đoạn chính trong xử lý ảnh
❖ Sơ lược vê ảnh nhị phản:
Trong quá trình xử lý ảnh một ảnh thu nhập vào máy tính phải được mã hoá.
Hình ảnh khi lưu trữ dưới dạng tập tin phải được số hoá. Tiêu chuẩn đặt ra là ảnh
phải được lưu trữ thế nào sao cho các ứng dụng khác nhau có thể thao tác trên các
loại dữ liệu này. Một số dạng ảnh đã được chuẩn hoá như GIF, BMP, PCX
nhìn chung mỗi kiểu lưu trữ ảnh đều có điểm riêng.
Tuỳ theo vùng các giá trị xám của điểm ảnh, mà các ảnh được phân chia ra
thành ảnh màu, ảnh xám, ảnh nhị phân. Khi trên một ảnh chỉ có giá trị 0 hoặc 1
thì ta nói đó là ảnh nhị phân hoặc ảnh đen trắng và các điểm ảnh của nó gọi là
điểm ảnh nhị phân.
Việc xử lý ảnh nhị phân là một bước tiền xử lý của các ảnh để phân đoạn và
tách ra các đặc tính, đây là một phương pháp quan trọng của kĩ thuật xử lý ảnh số.
Nhờ vậy, ta có thể biết được mối quan hệ giữa các điểm ảnh cũng như thực hiện
các phép biến đổi ảnh không tuyến tính đạt hiệu quả;
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 9
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
trong quá trình xử lý ảnh các phép biến đổi này làm cho việc đánh giá ảnh trở lên
đơn giản. Việc đếm các điểm ảnh trên ảnh nhị phân đã qua biến đổi tạo điều kiện

thuận lợi cho việc tách ra các đặc tính. Bằng cách sử dụng các ảnh nhị phân đã
qua xử lý như là những mặt nạ đối với các ảnh xám, ta có thể tách ra các vùng
đáng quan tâm của một ảnh xám từ tập hợp các ảnh.
Để tạo ra một ảnh nhị phân, một ảnh đa cấp xám cần phải được biến đổi
thành một ảnh nhị phân nhờ một quá trình phân đoạn thích hợp. Muốn thế
phương pháp đơn giản nhất là phương pháp tách ngưỡng. Các giá trị nằm ở trên
ngưỡng được gán giá trị trị 1 còn ở bên dưới ngưỡng thì được gán giá trị 0.
Tác động xử lý ảnh nhị phân có thể được thực hiện một cách rất hiệu quả
bằng chương trình trên một máy tính. Nhiều hệ thống xử lý ảnh hiện đại, được
dùng cho việc xử lý ảnh nhị phân, trong đó thường là có trang bị các phần cứng
đặc biệt để đạt được tốc độ xử lý cao.
Đối với một ảnh thu được từ thực tế, không phải bao giờ cũng có được giá
trị đúng của các điểm ảnh. Có thể quá trình thu nhận ảnh từ thiết bị ngoại vi đã
xuất hiện nhiều lần và độ tương phản kém. Vì thế, thông thường để thực hiện một
phép xử lý, đó là loại bỏ nhiễu và làm trơn ảnh đảm bảo cho quá trình xử lý tiếp
theo được chính xác hơn.
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 10
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
§
1.1.2 Các vấn đề cơ bản trong xử lý ảnh
> ảnh và điểm ảnh
ảnh là một mảng số thực hai chiều (Ij j) có kích thước (m * n), trong đó
mỗi phần tử I j j (i=l_______m , j = 1 n) biểu đố mức xám của ảnh tại vi trí (i, j
)tương ứng.
ảnh được gọi là nhị phân nếu các giá trị chỉ nhận 0 hoặc 1
> Các điểm 4 và 8 láng giềng
Các điểm 4, 8-láng giềng: Giả sử (i,j) là một điểm ảnh, khi đó các điểm 4-
láng giềng là:
N
4

= (i+i,j); (i, j+i)}
Màn hình đồ
hoạ
Camera
Bộ xử lý tương
tự
Bộ nhớ ảnh
íCT
Bộ nhớ
ngoài
Máy chủ Bộ xử lý ảnh
số
Màn hình Bàn phím Máy in
Hình2 : Các thành phần chính của hệ thống xử lý ảnh
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 11
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
Các điểm 8-láng giềng là:
N
8
= N
4
u{(i-l,j-l); (j-l,j+l); (i+1, j-l); ( i+l ,j+l )Ị > Đôi
tượng ảnh
Ta chí xét tới ảnh nhị phân vì mọi ảnh đều có thể đưa về dạng nhị phân
bằng kỹ thuật phân ngưỡng, ký hiệu F là tập các điểm vùng F là tập các điểm nền
F: là điểm đen
F : là điểm trắng
Quan hệ K liên thông (K= 4,8 ) là một quan hệ phản xạ, đối xứng, bắt cầu,
là quan hệ tương đương . Mỗi lóp tương đương của nó biểu diễn một thành phần
K liên thông của ảnh. về sau ta gọi mõi thành phần K liên thông của ảnh là một

đối tượng ảnh. a.Phép xoay chuyến toạ độ
Như chúng ta đã biết trong các chương trình xử lý ảnh chúng ta có khả
năng xoay ảnh với một góc nào đó để được một ảnh khác thực chất ảnh đó được
xoay đi một góc nào đó.
♦> Phép dịch chuyển toạ độ
Để quay được ảnh ta chuyển hệ tạo độ vào tâm của ảnh
xp = X - X1 yp = y-y1
Với : (xp,yp): là toạ độ của ảnh trong hệ trục mới
(x,y): Là toạ độ của ảnh trong hệ trục cũ
xi: Là độ lệch của toạ độ cũ so với toạ độ mới mà ta tịnh tiến theo
trục X
x2: Là độ lệch của toạ độ cũ so với toạ độ mới mà ta tịnh tiến theo
trục y
❖ Phép xoay một điểm
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 12
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
Để có thể xoay được ảnh ta phải dùng cách là tính từng điểm ảnh của
ảnh mới là tưong ứng với vị trí nào của ảnh cũ để có thể lấy được màu của
chúng
Để xoay một điểm ảnh ta có hai cách quay là quay theo chiều dương ngược
kim đồng hồ và quay theo âm cùng chiều kim đồng hồ.
• Quay theo chiều dương có công thức là :
xp=x*cosA-y*sinA
yp=y*cosA+x*sinA
• Quay theo chiều âm có công thức là :
xp=x*cosA+y*sinA
yp=y*cosA-x*sinA
Trong đó : xp, yp là điểm ảnh trên ảnh mới.
(x,y) là điểm ảnh trên ảnh cũ tương ứng
A góc quay của ảnh cũ so với ảnh mới

❖ Chú ý
- Khi quay ta phải được một ảnh mới là ảnh cũ xoay đi một góc A. Nhưng
trong thực tế, thì ta phải tạo ra một ảnh mới có kích thước lớn hơn và kích
thước của ảnh mới sẽ là :
Width={ Width*cosA} + {Height*sinA}
Height= {Width*sinA} + {Height*cosA}
- Khi quay hình thì ta không thể ánh xạ từ ảnh cũ sang ảnh mới mà ta phải
làm phép toán ngược là tìm xem điểm ảnh của mới đó ứng với điểm ảnh nào của
ảnh cũ, nếu không trong trường hợp tính toán số nguyên sẽ có sai số và thực chất
là một điểm ảnh của ảnh mới sẽ bị mất dữ liệu vì không được tính đến. b. Kỹ
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 13
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
thuật phóng to, thu nhỏ ảnh
Khi ảnh quá lớn chúng ta muốn nhìn toàn bộ ảnh thì chúng ta phải thu nhỏ
ảnh lại và ngược khi ta muốn xem chi tiết một bộ phận nào đó của ảnh thì ta phải
phóng to nó lên.
❖ Kỹ thuật phóng to ảnh
Khi phóng to ảnh với một tỉ lệ k nào đó ta thu được ảnh mới to gấp k lần ảnh cũ
(k là độ phóng của ảnh) như thế ảnh mới sẽ có kích thước là :
Height=Height*k
Width=Widht*k
Việc tính các điểm ảnh tương ứng của ảnh mới sẽ được tính theo công thức:
xp=x/k yp=y/k
❖ Kỹ thuật thu nhỏ ảnh
Tương tự như phóng to ảnh, khi thu nhỏ ảnh ta thu được ảnh mới giống ảnh cũ
nhưng có kích thước nhỏ hơn ảnh cũ. Kích thước của ảnh mới là :
He i ght=Height/k
Width=Widht/k
Việc tính các điểm ảnh tương ứng của ảnh mới sẽ được tính theo công
thức:

xp=x*k
yp=y*k
1.2. Bài toán phát hiện góc nghiêng
Góc nghiêng văn bản là một bài toán kinh điển trong xử lý ảnh văn bản.
Một hệ thống xử lý ảnh văn bản thường phải giải quyết bài toán góc nghiêng như
một bước đầu tiên và cũng không thể tránh khỏi. Chính vì vậy, cùng với sự phát
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 14
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
triển của xử lý ảnh nói chung và xử lý ảnh văn bản nói riêng, bài toán góc
nghiêng văn bản cũng được quan tâm ngày càng nhiều và dưới nhiều góc độ khác
nhau. Các thuật toán phát hiện góc nghiêng văn bản thường được xây dựng cho
các hệ thống phân tích ảnh văn bản cụ thể vì vậy thường chỉ giải quyết cho một số
loại văn bản. sau đây. Sau đây là một số hướng tiếp cận phổ biến cho bài toán
phát hiện góc nghiêng văn bản.
1.2.1 Thuật toán dựa vào hình chiếu
Đây là một trong những phương pháp phổ biến nhất trong phát hiện góc
nghiêng văn bản. ý tưởng chính của phương pháp này là tính Histogram cho tất cả
các góc lệch. Histogram của một góc là số điểm đen trong ảnh sao cho các điểm
này nằm trên những đường thẳng có cùng một hướng tương ứng với góc đó. Sau
đó, dùng một hàm chi phí áp dụng cho các giá trị Histogram này. Góc nghiêng
văn bản tương ứng với góc có giá trị hàm chi phí cực đại.
Các thuật toán phát hiện góc nghiêng văn bản dựa vào hình chiếu thường
bao gồm các bước chính sau:
■ Dùng một hàm rút gọn F để chuyển ảnh đầu vào thành một tập các bộ
ba(x,y,w) trong đó (x,y) là toạ độ của một điểm ảnh đại diện cho một
đối tượng và w là trọng số của điểm đó. ở đây, điểm đại diện được hiểu
theo nghĩa là điểm biểu diễn các kí tự trong các đối tượng của ảnh.
Trọng số w sẽ được đề cập sau và thường phụ thuộc vào từng thuật
toán.
■ Một hàm p dùng chiếu các điểm tìm được ở trên vào một mảng đếm A

theo các góc chiếu khác nhau, ứng với mỗi góc (ị) có một mảng Acp
dùng lưu số điểm đại diện. Mảng A (p là mảng một chiều, phần tử Acp[
r ] sẽ cho biết số điểm đại diện nằm trên đường thẳng tạo với trục ox
góc (p và khoảng cách từ gốc toạ độ tới đường thẳng đó là r.
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 15
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
■ Sau khi tính được mảng Acp [r], áp dụng một hàm tối ưu hoá Q cho các
giá trị của mảng này theo một tiêu chuẩn nào đó. Cuối cùng góc lệch
của văn bản là góc tương ứng có giá trị hàm tối ưu hoá cực đại.
1.2.2 Các thuật toán dựa vào biến đổi Hough ( Hough Transform)
Sự khác nhau chủ yếu của các thuật toán theo phương pháp này chính là
việc xây dựng các hàm rút gọn F và tồi ưu hoá Q.
Một hướng tiếp cận phổ biến khác cho bài toán phát hiện góc nghiêng văn
bản là phương pháp dùng biến đổi Hough. Những thuật toán dùng biến
đổi Hough thường xác định một số điểm đen và dùng biến đổi Hough tác đọng
lên các điểm đó.
Biến đổi Hough ánh xạ một đường thẳng trong mặt phẳng thành các cặp (r,
cp) trong không gian Hough với r là khoảng cách từ gốc toạ độ tới đường thẳng
đó và cp là góc nghiêng của đường thẳng đó so với trục tung. Góc nghiêng văn
bản tương ứng là góc có tổng số điểm nằm trên những đường thẳng cùng lệch góc
lớn nhất. Thông thường để đếm số các điểm đen này các thuật toán dùng một
mảng tích luỹ Histogram, số các điểm đen được áp dụng biến đổi Hough tuỳ
thuộc vào từng thuật toán, có thể là tất cả các điểm đen hoặc có thể chỉ những
điểm tho ả mãn một số rằng buộc nào đó hoặc chỉ là đáy của các đối tượng ảnh.
Liên quan đến hướng tiếp cận này là những thuật toán được đề xuất bởi
các tác giả: Hinds, Jiang, Nakano, nhóm Srihari và Govidaraju
Trong số đó, phương pháp của Srihari và Govidaraju là áp dụng biến đổi
Hough cho tất cả các điểm đen của ảnh. Tất nhiên, việc áp dụng không có loại trừ
nào một điểm nào dẫn đến chi phí tính toán rất lớn và ảnh hưởng tới độ chính xác
của thuật toán. Để giảm thời gian chạy và tăng một phần độ chính xác của thuật

Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 16
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
toán, Hinds chỉ áp dụng biến đổi Hough cho một số ít điểm hơn bằng phân tích
chạy dài theo chiều dọc. Mục đích của nén chạy dài theo chiều dọc trong thuật
toán này là lấy ra các điểm đáy của các dòng văn bản, loại bỏ đi những điểm đen
khác kể cả chúng thuộc vào một ký tự dùng dùng biến đổi Hough lên các điểm
đen đó. Tuy nhiên, chi phí tính toán của thuật toán này vẫn còn lớn và việc áp
dụng biến đổi Hough cho tất cả các điểm đen ở đáy có thể dẫn đến những kết quả
sai trong trường hợp ảnh đầu vào cò nhiều đối tượng phi ký tự nhiễu, bảng biểu
hay ảnh.
1.2.3 Các thuật toán phân tích láng giềng
Một hướng tiếp cận khác của bài toàn phát hiện góc nghiêng văn bản là
phương pháp phân tích láng giềng thân cân cận hay láng giềng gần nhất. Các
thuật toán liên quan đến phương pháp này được dề xuất bởi các tác giả:
Hashirume, ơ Goman, Tiang, loibios, nhóm Yue Lu và Chew Lim Tan, nhóm pal
và Chaudhuri, nhóm Shivakumara, Kumar, Guru.
Theo hướng tiếp cận này, các thuật toán trước hết dùng các kỹ thuật xác
định biên cho các đối tượng riêng lẻ. Sau đó, với mỗi đối tượng xác định một số
láng giềng gần nó nhất, dùng mộ một vector . tơ định hướng với hai đầu là hai
điểm được chọn từ hai trong số các đối tượng này để xác định góc nghiêng. Hai
đối tượng là láng giềng thân cận của nhau nếu kích thước của chúng phải thuộc
một khoảng nào đó và khoảng cách giữa chúng cũng thoả mãn bé hơn một
ngưỡng nào đó được định nghĩa trước. Hai điểm đại diện cho hai đối tượng cò thể
là các toạ độ giữa đáy cảu chúng, có thể là toạ độ dưới trái nhưng cũng có thể là
tâm hình chữ nhật chứa các đối tượng đó tuỳ từng thuật toàn cụ thể.
Vector của mỗi một nhóm láng giềng thân cận sẽ cho một góc lệch tương
ứng cho nhóm đó. Thông thường, các thuật toán theo phương pháp này dùng một
mảnh tích luỹ để lưu Histogram cho các góc lệch này. Nghĩa là, giá trị của một
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 17
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp

phần tử mảng tích luỹ sẽ cho biết nhóm láng giềng và vector định hướng cho góc
bằng với chỉ số của phần tử mảng đó. Góc lệch của văn bản là góc tương ứng với
phàn tử Histogam lớn nhất.
Việc gom các đối tượng thành các cặp láng giềng gần nhất mục đích để
gom các cặp ký tự kề nhau trong các dòng văn bản và vector giữa các đối tượng
này cho biết góc của đường thẳng đi qua đáy của nhóm ký tự đó. Tuy nhiên, theo
đó, trong trường họp ảnh có nhiều nhiễu hoặc với ảnh có độ phân giải thấp, các
ký tự chữ cái được chia thành nhiều phần riêng biệt, thì các vector định hướng sẽ
không phản ánh dược đùng hướng lệch của văn bản nữa.
Hashizume lựa chọn số đối tượng trong nhóm láng giềng là hai. Trong khi
đó ơ goman đế xuất một phương pháp gom các láng giềng với số lượng lớn hơn,
K đối tượng trong một cụm láng giềng. Mục đích để gom các ký tự trong một từ
thành một cụm và vector định hường là vector đi qua nhiều nhất các điểm đại
diện của các đối tượng. Vì vậy vector định hướng sẽ phản ánh chính xác hơn góc
lệch của các dòng văn bản.
Tuy nhiên phương pháp của ơ Gorman vẫn gặp khó khăn vì các ký tự được
chia thành nhiều phần và đặc biệt với những góc nghiêng khá lớn. Khi khoảng
cách giữa các ký tự trong văn bản lớn thì rất có thể các láng giềng tìm được trong
thuật toán không phải là các ký tự nằm trên cùng một dòng văn bản, thay vào đó
là các ký tự năm trên các dòng văn bản khác. Vì vậy thuật toán sẽ đưa ra một góc
lệch sai cho văn bản.
Cũng theo hướng cải tiến của ơ gorman, Liobios đé xuất một phương pháp
gom các láng giềng theo số lượng nhiều nhất có thể. Phương pháp này tương tự
như giải quyết bài toán xác định các dòng cho một văn bản. Vì vậy, hạn chế chính
của ơ Gorman là sự phụ thuộc vào cả khoảng cách tứ cấc dòng văn bản lẫn phông
chữ tức là các đối tượng phải cố kích thước gần bằng nhau và chỉ nên áp dụng với
những văn bản có chứa nhiều ký tự chữ cái.
Cao Thị Thu Thuỷ -Khoa CNTT- Đại học dân lập Hải Phòng 18
Xác định góc nghiêng vàn bản Đồ án tốt nghiệp
Một thuật toán được xem là có nhiều cải tiến nhất cho hướng tiếp cận này

được đề xuất bởi hai tác giả Yue Lu và Chew Lim Tan thuộc khoa học máy tính
trường Đại Học Quốc Gia singapore. Thuật toán này cải tiến cách gom các đối
tượng thành các láng giềng gần nhất theo một số tiêu chí đồng thời cho phép thay
đổi số láng giềng trong quá trình xử lý. Đại diện cho lớp các thuật toán cũng liên
quan đến hướng tiếp cận láng giềng gần nhất.
1.2.4 Phương pháp dùng phép toán hình thái
Một số thuật toán xác định góc nghiêng sử dụng các phép toán hình thái. í
tưởng chủ đạo của phương pháp này xuất phát từ đặc điểm của phép đóng ảnh là
có phả năng gắn các đối tượng gần nhau. Các thuật toán này thường dùng phép
đòng nhiều lần với mục đích nối các dòng văn bản với nhau. Giai đoạn tiếp theo
là dùng các vector chỉ phương của các dòng xác định góc nghiêng cho văn bản
tương tự như trong phương pháp phân tích láng giềng.
Theo hướng tiếp cận này các thuật toán được đế xuất bởi các tác giả:
L.Naman, nhóm S.Chen và R.M.Haralick Thuật toán của L.Najman có thề xem
là cải tiến nhất trong số các thuật toán dùng phép toán hình thái xác định góc
nghiêng văn bản.
Phân loại
ảnh đầu vào cho quá
trình tiền xử lý
Trích chọn
đặc trưng
Phân đoạn
ảnh
Phân loại
Chương 2
Biên và các phương pháp dò biên
2.1. Biên của đối tượng ảnh
Một cách tổng quát có thể nói rằng bất kỳ một hệ thống xử lý ảnh nào cũng
tuân theo một giai đoạn sau :
Con người thường nhìn nhận sự vật theo hai cách hoặc là dựa vào biên

hoặc là dựa vào xương của chúng. Chẳng hạn, ta dựa vào biên khi quan sát các đối
tượng như ao, hồ hoặc một cái xe ôtô. Nhưng nếu để phân biệt một khúc sông với
những đối tượng khác trên bản đồ địa hình thì ta dựa vào xương của nó. Vì vậy,
cùng với xương thì biên có một tầm quan trọng đặc biệt trong phân tích ảnh.
Biên là một vấn đề chủ yếu trong phân tích ảnh vì các kĩ thuật phân đoạn
ảnh chủ yếu dựa vào biên. Có thể thấy tầm quan trọng của biên khi ta theo dõi một
hoạ sĩ làm việc. Giả sử, anh ta muốn vẽ một quả bóng, nét đầu tiên được phác hoạ
chính là đường biên của quả bóng sau đó mới đến các múi bên trong. Như vậy,
mới chỉ nhìn biên của sự vật ta cũng hình dung ít nhiều về nó và vì vậy có thể
phân biệt được với các sự vật khác.
Một điểm ảnh được xem là biên của một đối tượng nếu ở đó có sự thay đổi
đột ngột về mức xám. Tập hợp các điểm biên tạo thành biên hay một
đường bao của ảnh. Trong một ảnh nhị phân một điểm ảnh thuộc biên nếu
đó là một điểm đen và có ít nhất một điểm trắng lân cận.
Nhìn chung, về mặt toán học có thể xem điểm biên của ảnh là một điểm mà
ở đó có sự thây đổi đột ngột về độ sáng. Xuất phát từ co sở đó, người ta thường sử
dụng hai phương pháp phát hiện biên sau :
Phương pháp phát hiện biên trực tiếp là làm nổi biên dựa vào sự biến thiên
độ sáng của ảnh. Kĩ thuật chủ yếu được dùng là dụa vào đạo hàm. Nếu lấy đạo
hàm bậc nhất của ảnh ta có phương pháp Gradient, nếu lấy đạo hàm bậc hai ta có
phương pháp Laplace.
Phương pháp phát hiện biên gián tiếp. Nếu bằng một cách nào đó ta phân
biệt được ảnh bằng các vùng thì đường phân ranh giới giữa các vùng đó chính là
biên. Hai kỹ thuật dò biên và phân vùng các đối tượng là hai bài toán đối ngẫu.
Thật vậy, dò biên để phân lớp đối tượng ảnh , nếu phân lóp song thì có nghĩa là đã
phân vùng được các đối tượng ảnh và ngược lại, khi đã phân vùng được các đối
tượng ảnh thì cũng đã phân lớp được các đối tượng ảnh và ta có thể phát hiện
được biên.
Phương pháp phát hiện biên trực tiếp tỏ ra khá hiệu quả và ít chịu ảnh
hưởng của nhiễu, song nếu sự vật có sự biến đổi độ sáng không đột ngột, phương

phấp này tỏ ra khá hiệu quả.
Phương pháp phát hiện biên gián tiếp tuy khó cài đặt nhung lại áp dụng rất
tốt cho những ảnh có sự biến thiên độ sáng bé.
2.2. Các phương pháp dò biên trực tiếp
2.2.1. Phương pháp Gradient
Theo định nghĩa, gradient là một vector có các thành phần biểu thị
tốc độ, thay đổi giá trị của điểm ảnh theo hai hướng X và y
d/ ( x , y )

" f ( x +

A X , y ) - f ( x , y )
õ x
x
V X
d f ( x , y )


=
f ~ f (

x



’ y

+ A




y ) -
/iXill dy
Jy
V y
Với Àx, Ay là các khoảng cách giữa các điểm theo hướng X và hướng y
(tính theo số điểm). Trong thực tế người ta thường lấy Àx = Ay = 1.
Nếu theo toạ độ cực ta có:
f(x, y) = f(r. cos (p, r. sin ệ)
õf

õ f

õ x

|
õf

d_ỵ_
õ r d X d r õ y õ r
= - f
x
. cos (Ọ + sin ẹ
ÕJ_
=
ÕJ__õ^
+
dọ õ X ô ọ õ y ô (Ọ
- - f
x

.r.sin (Ọ + f
v
. r .cos ( Ọ
Hướng sảy ra khi:
ụ - 0
ô (Ọ
<=> — f
x
.r. sin (Ọ + /
v
.r.cos (p = 0
« 1 „ _ f,
í A
r-n
1
Chú ý rằng, do lạm dụng về ngôn từ, tuy ta nói lấy đạo hàm của ảnh, nhưng
thực ra chỉ là mô phỏng và xấp xỉ đạo hàm bằng kỹ thuật nhân chập (cuộn). Do
ảnh số là tín hiệu rời rạc, do vậy đạo hàm không tồn tại.
Trong phương pháp Gradient, người ta chia nhỏ thành hai kỹ thuật: kỹ
thuật gradient và kỹ thuật la bàn. Kỹ thuật gradient dùng toán tử gradient lấy
đạo hàm theo một hướng; còn kỹ thuật la bàn dùng toán tử la bàn lấy đạo
hàm theo tám hướng chính: Bắc, Nam, Đông, Tây, Đông Nam, Đông Tây,
Tây Nam, Tây Bắc.
2.2.1.1. Kỹ thuật Gradient
Kỹ thuật gradient sử dụng hai mặt nạ Hị và H
2
trực giao. Ta xét một số
toán tử sử dụng kỹ thuật gradient tiêu biểu: Robert, Sobel, Prewitt,
2.2.1.l.l. Toán tửRobert
Kỹ thuật này sử dụng hai mặt nạ:

H l = ( - l l) H 2 =
V
1
J
Khi đó ta áp dụng toán tử Robert với ảnh nguồn I ta có ảnh kết quả I
kq
như
sau:
I
kq
= I(g>Hl + I®H2
Ký hiệu <g> là phép nhân chập (cuộn), được định nghĩa như sau: Giả sử
ta có ảnh I, kích thước MxN ; ma trận T, có kích thước mxn. Khi đó ảnh I được
cuộn theo mẫu T bởi công thức:
m



] n —

1
/ ® T ( x , y ) = z T ( i , j ) . I ( x + i , y + j )
< = 0 j = 0
Hoặc
m



I n




I
ỉ ® T ( x , y ) = 2 T ( i , j ) . ỉ ( x -
i , y - j )
' = 0 ỹ = 0
2.2.1.1.2. Toán tử Prewitt
Sử dụng hai mặt nạ:
Giả sử ta có ảnh I, khi đó phương pháp gradient sử dụng toán tử Prewitt ta có
ảnh kết quả như sau:
I
kq
= I®H
x
+ I®H
y
2.2.1.1.3. Toán tử Sobel
Sử dụng hai mặt nạ:
Giả sử ta có ảnh I, khi đó phương pháp gradient sử dụng toán tử Sobel ta có
ảnh kết quả như sau:
I
kq
= I ® H
x
+ I ® Hy
1 0
n
ị - \
-1
-n

- 1
0 1
H
, = 0 0 0
1 0 h V
1
1
1
,
í ■
1
0
1
>
r - 1
- 2
- n
- 2
0 2
ĩ ỉ y
0 0 0
, -
1
0
1
, ,
1
2
1
>

2.2.I.2. Kỹ thuật la bàn
Có nhiều toán tử la bàn khác nhau. Ta xét chi tiết một toán tử đó là toán tử
Kirsh. Toán tử này sử dụng tám mặt nạ:
Giả sử ta có ảnh I, khi đó phương pháp gradient sử dụng toán tử Kirsh cho ta
ảnh kết quả là:
= È /® H ,
1
2.2.2. Phương pháp Laplace
Các phương pháp sử dụng đạo hàm bậc nhất làm việc khá tốt khi mà
độ sáng thay đổi rõ nét. Khi mức xám thay đổi chậm, miền chuyển tiếp trải
rộng, phương pháp tách cho hiệu quả hơn là phương pháp sử dụng đạo hàm
bậc hai mà trong phần trên gọi là phương pháp Laplace. Toán tử đạo hàm bậc
hai được định nghĩa như sau:
tt
1
=
3
- 3
— ' ị
s >
0
-
3'

w
3
=
3
3
— 3 0

- 3 ^
2
, 2 2 2 ,
V

3 3 ỉ ,
( _
3 — ' )
2
'
3
2

N
- N 3
0 2
u* =

">
0
5
V “3
— ' ì
2
,
V - 3
- *>
sJ
3 J
II

pa
2
- •}
2 2 0 - 3
tt
6
=
' 2
2
r
1 1 rv
o
c
_
3 - 3 - 3 , 3
1
cu
=
^3
3
- 3
0
- 3
^
- 3
u* =
"-3
3
-3
0

-3"
-3
,3 - 3 - 3, V 3 3
-
3y

×