Tải bản đầy đủ (.doc) (85 trang)

NGHIÊN CỨU HIDDEN MARKOV MODEL VÀ ỨNG DỤNG TRONG NHẬN DẠNG CHỮ VIẾT TAY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.87 MB, 85 trang )

MỤC LỤC
TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG 4
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)
DANH MỤC CÁC TỪ VIẾT TẮT
CSDL Cơ sở dữ liệu
Codeword Mã cung ứng với vectơ hướng
State Trạng thái
Observation Sự quan sát
HMM Hidden Markov Model
CCD Charge Coupled Device
MOS Metal - Oxid - Semiconductor
HSV Hue - Saturation - Value
CIE Commission Internationale d’Eclairage
ORC Optical character Recognizer
MLP MultiLayer Perception
MMI Multimedia Interface
BMW Bayerische Motoren Werke AG
IBM International Business Machines
LR Left-Right
LRB Left-Right Banded
RGB Red, Green, Blue
2D Two Dimension
3D Three Dimension
DANH MỤC CÁC HÌNH
Số hiệu
hình
Tên hình Trang
1.1. Các bước chính trong xử lý ảnh số. 5
1.2. Một tụ điện MOS. 6
1.3. Mặt nạ bộ lọc trung bình. 8
1.4. Các bước trong thuật toán lọc trung vị. 9


1.5. Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám. 12
1.6. Sử dụng thuật toán Otsu tách ngưỡng. 12
1.7. Một số phương pháp tìm biên. 14
1.8. Bước sóng quang phổ con người nhìn thấy được. 16
1.9. Không gian màu RGB. 17
1.10. Một số hình dáng của phần tử cấu trúc phẳng. 19
1.11. Phép giãn và co ảnh nhị phân sử dụng một phần tử cấu
trúc.
20
1.12. Quá trình thực hiện phép mở ảnh nhị phân. 21
1.13 Quá trình thực hiện phép đóng ảnh nhị phân. 22
2.1. Sơ đồ tổng quát của quá trình nhận dạng chữ viết tay. 24
2.2. Giai đoạn tiền xử lý. 25
2.3. Mẫu ảnh ký tự cho quá trình hậu xử lý. 31
2.4. Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự O ở hình
2.3.
31
2.5. Biểu đồ và đạo hàm dấu hiệu đặc trưng của ký tự Q ở hình
2.3.
31
2.6. Giao diện phiên bản mới nhất của phần mềm nhận diện
chữ ký viết tay HDUSigVeri.
34
3.1 Chuỗi Markov 5 trạng thái với lựa chọn chuyển đổi trạng
thái.
37
3.2 Mô hình Markov dự báo thời tiết. 39
3.3 Các mô hình Markov tung đồng xu. 43
3.4. Giải quyết các bài toán con 46
3.5. Sơ đồ đường dẫn quay lui của các trạng thái cho ra HTTH. 49

3.6. Mẫu chữ in hoa. 50
3.7. Chữ viết mất nét. 51
3.8. Chữ viết các nét không liền nhau. 51
3.9. Chữ viết lệch nét. 51
3.10. Vectơ định hướng. 57
3.11. Hai điểm gần nhau trên ký tự tạo thành đoạn thẳng lệch so
với phương ngang gốc
θ
.
57
3.12. Cấu trúc liên kết HMM với 3 trạng thái. 58
3.13. Mẫu ký tự với các phân đoạn. 59
3.14. Phân đoạn đường thẳng cho cấu trúc liên kết HMM. 60
3.15. Quá trình nhận dạng một ký tự. 61
3.16. Lưu đồ giải thuật trích lọc đặc trưng. 65
3.17. Lưu đồ giải thuật huấn luyện mẫu chữ viết tay. 66
3.18. Lưu đồ giải thuật nhận dạng. 67
3.19. Sơ đồ chương trình thực nghiệm. 68
3.20. Giao diện chương trình nhận dạng chữ viết tay. 68
3.21. Kết quả của quá trình trích rút đặc trưng. 70
3.22. Chức năng nhập dữ liệu. 71
3.23. CSDL của chương trình thực nghiệm 71
3.24. Mô hình Markov ẩn. 72
3.25 Chức năng nhận dạng chữ viết tay. 73
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác.
Tác giả
Nguyễn Thị Hà Phương

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Hiện nay, trong cuộc sống cũng như trong công việc việc sử dụng các
bảng biểu, bảng điểm, giấy tờ, công văn… viết bằng tay vẫn còn nhiều, hoặc
những bảng biểu đó được gõ bằng máy nhưng vẫn tồn tại chữ viết tay, ví dụ
như điểm trong bảng điểm, chữ ký, họ và tên, ngày tháng năm… Vì vậy việc
nhập liệu bằng tay tốn nhiều công sức và thời gian, do đó việc nhận dạng để
đọc dữ liệu tự động vào máy tính là rất cần thiết.
Vấn đề nhân dạng chữ được nhiều nhà khoa học nghiên cứu và ứng
dụng từ rất nhiều năm nay:
o Nhận dạng chữ in: phục vụ cho công việc tự động hóa nhập tài liệu,
tăng tốc độ và hiệu quả nhập thông tin.
o Nhận dạng chữ viết tay: mỗi người viết tay có những kiểu chữ, cách
viết khác nhau, và với mức độ ràng buộc khác nhau nhằm phục vụ ứng dụng
đọc chứng từ, hóa đơn, bản thảo viết tay…
Đến thời điểm này thì việc nhận dạng chữ in gần như được trọn vẹn
(phần mềm FindReader 9.0 của ABBYY có thể nhận dạng chữ in theo 20
ngôn ngữ khác nhau). Tuy nhiên nhận dạng chữ viết tay đang còn là vấn đề
đang được quan tâm đối với các nhà nghiên cứu, trong đó đã có một số
phương pháp nhận dạng chữ viết tay như nhận dạng đối sánh mẫu, phương
pháp nơron [2, 4], phương pháp tiếp cận cấu trúc [5], phương pháp Hidden
Markov Model (HMM, mô hình Markov ẩn) [8, 9, 10, 11, 13, 15]… Trong đó
nhận dạng theo phương pháp HMM được sử dụng nhiều nơi và đã có kết quả
khả quan.
Đó là lý do tôi chọn đề tài “Nghiên cứu Hidden Markov Model và ứng
dụng trong nhận dạng chữ viết tay”.
1
2. Mục tiêu nghiên cứu
Nghiên cứu Hidden Markov Model và ứng dụng trong nhận dạng chữ
viết tay.

3. Đối tượng và phạm vi nghiên cứu
o Đối tượng:
- Mô hình HMM.
- Chữ viết tay.
- Các kỹ thuật nhận dạng chữ viết tay.
o Phạm vi nghiên cứu:
- Nghiên cứu mô hình HMM.
- Ứng dụng mô hình HMM trong nhận dạng chữ viết tay trên một số
mẫu chữ.
4. Phương pháp nghiên cứu
o Nghiên cứu lý thuyết:
- Tham khảo tài liệu trên mạng về một số phương pháp xử lý chữ viết
tay (chủ yếu là HMM).
- Tìm hiểu lập trình bằng Matlab.
- Nghiên cứu bài toán nhận dạng chữ viết tay.
- Tìm hiểu các kỹ thuật nhận dạng chữ viết tay.
o Nghiên cứu thực nghiệm:
- Dựa trên cơ sở lý thuyết xử lý ảnh, mô hình HMM và sự hướng dẫn
của giáo viên để thực hiện việc phân tích và cài đặt thực nghiệm nhận dạng
chữ viết tay.
- So sánh và đánh giá kết quả đạt được.
5. Bố cục đề tài
- Tổng quan về xử lý ảnh số và nhận dạng.
2
- Các phương pháp xử lý nhận dạng chữ viết tay.
- Cài đặt thực nghiệm nhận dạng chữ viết tay bằng Hidden Markov
Model.
6. Tổng quan tài liệu nghiên cứu
Tìm hiểu:
- Tài liệu về mô hình Markov ẩn.

- Tài liệu liên quan đến xử lý ảnh.
- Các bài báo ứng dụng mô hình Markov ẩn.
- Tài liệu về chữ viết tay và nhận dạng chữ viết tay.
Ngoài những bài báo (tiếng Anh), tạp chí, giáo trình bài giảng, luận văn
còn sử dụng những tài liệu trên các trang web.
3
CHƯƠNG 1
TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ VÀ NHẬN DẠNG
1.1. GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH SỐ VÀ ỨNG DỤNG
Xử lý ảnh là một lĩnh vực quan trọng và mang tính khoa học. Nó được
áp dụng vào nhiều lĩnh vực khác nhau, vì vậy nó làm kích thích các trung tâm
nghiên cứu, ứng dụng, đặc biệt là áp dụng các công ty nghiên cứu về máy tính
chuyên dụng riêng cho nó. Một ảnh được xác định là một hàm không gian hai
chiều f(x,y), trong đó (x,y) là vị trí trong không gian gọi là điểm ảnh (pixel) và
độ lớn của f(x, y) nào được gọi là độ sáng (intensity) hoặc mức xám (gray
level) của ảnh tại điểm đó.
Xử lý ảnh là môn học liên quan đến nhiều lĩnh vực và cần rất nhiều kiến
thức tổng hợp khác. Thứ nhất phải nói đến xử lý tín hiệu số là một môn học
hết sức cơ bản cho xử lý tín hiệu chung, các khái niệm về tích chập, các biến
đổi Fourier, biến đổi Laplace, các bộ lọc hữu hạn… Thứ hai, các công cụ toán
như đại số tuyến tính, xác suất, thống kê… Một số kiến thức cần thiết như
môn trí tuệ nhân tạo, các mạng nơron nhân tạo cũng được đề cập trong quá
trình phân tích và nhận dạng ảnh.
Các phương pháp xử lý ảnh tập trung vào hai công việc chính: cải thiện
ảnh phục vụ cho con người và xử lý ảnh để lưu trữ, truyền và biểu diễn ảnh
phục vụ nhận thức cho các máy tự động.
Ứng dụng đầu tiên được biết đến trong lĩnh vực xử lý ảnh là nâng cao
chất lượng ảnh báo qua cáp từ London sang New York những năm 1920. Vấn
đề nâng cao chất lượng ảnh phát triển vào năm 1955, vì sau thế chiến thứ hai
máy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi.

Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt
trăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh.
4
Những năm 1970, xử lý ảnh bắt đầu được ứng dụng trong các lĩnh vực y
tế. Từ những năm 1980 tới nay, các phương tiện xử lý, nâng cao chất lượng,
nhận dạng ảnh phát triển không ngừng. Các phương pháp tri thức nhân tạo
như mạng nơron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công
cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả quan.
1.2. TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ
Các bước chính trong xử lý ảnh số được thể hiện ở hình 1.1.
Hình 1.1. Các bước chính trong xử lý ảnh số.
1.2.1. Thu nhận ảnh
Đây là giai đoạn đầu và quan trọng trong toàn bộ quá trình xử lý ảnh.
Ảnh nhận được tại đây chính là ảnh đầu vào để đưa vào xử lý tiếp tại các giai
đoạn sau, trường hợp ảnh đầu vào có chất lượng kém, hiệu quả của các bước
xử lý tiếp theo sẽ bị giảm. Ảnh có thể nhận qua camera màu hoặc đen trắng.
Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR
với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại
CCD – Change Coupled Device) là loại photodiot tạo cường độ sáng tại mỗi
điểm ảnh. Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai
5
Xử lý mức cao
Xử lý mức trung bình
Kết luận
(Result)
Miền vấn
đề
(Problem
domain)
Xử lý mức thấp

Thu nhận ảnh
(Image Acquisition)
Tiền xử lý ảnh
(Image
PreProcessing)
Phân đoạn ảnh
(Image
Segmentation)
Biểu diễn và mô tả
(Representation and
description)
Nhận dạng và
nội suy ảnh
(Recognition
and
interpretation)
Cơ sở dữ liệu
(Data based)
chiều. Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi
trường (ánh sáng, phong cảnh). Mặt khác, ảnh cũng có thể tiếp nhận từ vệ
tinh; có thể quét ảnh từ ảnh chụp hay văn bản bằng máy scan quét ảnh.
- Máy CCD (Charge-coupled Device)
Máy ảnh kỹ thuật số được sử dụng đầu tiên vào năm 1969, thay cho
phim ảnh là một linh kiện quang điện tử gọi là CCD (Charge Coupled
Device)[18]. Đây là một tấm phẳng to gần như tấm phim nhưng gồm có nhiều
ô li ti, mỗi ô là một cái tụ điện. Gọi là tụ điện, nhưng thực tế gồm ba lớp, một
lớp kim loại, một lớp oxyd và một lớp bán dẫn. Do đó, có tên là tụ điện MOS
(Metal - Oxide - Semiconductor nghĩa là kim loại - oxyd - bán dẫn) như hình
1.2. Khi có ánh sáng chiếu đến tức là có photon đập vào, do hiệu ứng quang
điện nên điện tử bị bứt ra chứa vào trong tụ điện. Mỗi một tụ điện của CCD

đóng vai trò là một điểm ảnh (pixel) có địa chỉ (x,y) rõ ràng. Các điện tích
chứa trong các tụ điện của CCD được lần lượt chuyển đến thanh đọc để đọc
và chuyển về bộ nhớ, ghi lại tụ điện ở vị trí nào, được tích điện nhiều hay ít.
Hình 1.2. Một tụ điện MOS.
1.2.2. Tiền xử lý ảnh
Ảnh sau khi được thu nhận từ các thiết bị quang học (CCD) hoặc thiết bị
điện tử có thể bị nhiễu và biến dạng. Do đó, ảnh cần được đưa vào bộ tiền xử
MOS
Depletion
region
Ảnh
sáng
Ground
6
lý để nâng cao chất lượng ảnh. Chức năng chính của bước tiền xử lý ảnh là
khử nhiễu, nâng cao độ tương phản, hiệu chỉnh mức xám để làm ảnh rõ hơn
và nét hơn cho các bước tiếp theo.
a. Khử nhiễu
Nhiễu của ảnh gồm 2 loại: nhiễu hệ thống và ngẫu nhiên. Hai loại nhiễu
này khác nhau về bản chất nên việc phát hiện và khử nhiễu cũng được tiến
hành theo các phương pháp và các kỹ thuật khác nhau.
o Khử nhiễu hệ thống
Đặc trưng của nhiễu hệ thống là có tính qui luật do ảnh hưởng của một
tín hiệu nào đó trong quá trình thu nhận ảnh. Có thể loại bỏ nhiễu này bằng
cách sử dụng các phép biến đổi Fourier. Tính chất chung của phép biến đổi
Fourier là nếu có nhiễu hệ thống trên ảnh thì sau khi khử nhiễu và áp dụng
phép biến đổi Fourier ngược chúng ta sẽ thu lại được ảnh ban đầu đã loại trừ
được nhiễu hệ thống.
o Khử nhiễu ngẫu nhiên
Nhiễu ngẫu nhiên được sinh ra một cách ngẫu nhiên ngoài ý muốn trong

quá trình tạo ảnh (do kỹ thuật in, mực in, giấy in ) hoặc trong quá trình số
hóa ảnh (do lỗi kỹ thuật quét hoặc chụp ảnh). Tác hại của nhiễu là làm sai
lệnh nội dung trong ảnh và gây khó khăn cho quá trình xử lý ảnh như tách
vùng, tách đối tượng và kể cả nhận dạng đối tượng trong ảnh.
Trong các trường hợp cụ thể, nhiễu thường là các điểm có màu (đối với
ảnh màu), hoặc có cường độ sáng (đối với ảnh mức xám) không phù hợp với
màu của các điểm xung quanh. Do đó, việc khử nhiễu trước tiên là phải xác
định được đâu là nhiễu, đâu là dữ liệu thật, sau đó loại nhiễu ra khỏi ảnh bằng
cách thay giá trị tại điểm ảnh nhiễu bằng một giá trị phù hợp.
Về mặt tổng quan, khử nhiễu ngẫu nhiên đều dựa vào tính phù hợp giữa
một điểm ảnh với các điểm lân cận nó. Giả sử điểm ảnh S có tọa độ (x, y). S
7
có 4 điểm lân cận gần nhất theo phương đứng và ngang (lân cận theo 4
hướng chính: Đông, Tây, Nam, Bắc), ký hiệu là N
4
(S).
N
4
(S) = {(x-1,y); (x,y-1); (x,y+1); (x+1,y)} (1.1)
Tập 8 điểm lân cận của S ký hiệu là N
8
(S) :
Dựa vào thuộc tính màu hoặc mức sáng của các điểm lân cận, có thể xác
định điểm đang xét có phải là nhiễu hay không và thay đổi giá trị điểm nhiễu
bằng một giá trị hợp lý. Phương pháp khử nhiễu ngẫu nhiên hiệu quả thường
được áp dụng trong thực tế là sử dụng các kỹ thuật lọc ảnh.
b. Bộ lọc trong miền không gian
o Lọc trung bình – Mean/Average filter
Lọc trung bình là kĩ thuật lọc tuyến tính, nó hoạt động như một bộ lọc
thông thấp. Với bộ lọc này mỗi điểm ảnh được thay thế bằng trung bình trọng

số của các điểm lân cận và được định nghĩa như sau:

∑ ∑

−−=
Hji
jviuIjiHvuI
),(
'
),(),((),(
(1.2)
Trong đó: I(u, v) là ảnh đầu vào, I

(u, v) là ảnh đầu ra và H(i, j) là cửa sổ
lọc/ mặt nạ bộ lọc.
8
1 1 1
1 (x,y
)
1
1 1 1
(x-1, y-1) (x, y-1) (x+1, y-1)
(x-1, y) (x, y) (x+1, y)
(x-1, y+1) (x, y+1) (x+1,y+1)
Hình 1.3. Mặt nạ bộ lọc trung bình.
Bộ lọc trung bình thường được dùng để hướng tới việc bảo vệ biên của
ảnh khỏi bị mờ khi làm trơn ảnh. Các kiểu mặt nạ được sử dụng tùy theo các
trường hợp khác nhau.
o Lọc trung vị - Median filter
Đây là một kỹ thuật lọc phi tuyến (non-linear), hiệu quả đối với hai loại

nhiễu: nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt-pepper noise). Các
điểm ảnh của ảnh đầu vào I(u, v) được thay thế bởi giá trị trung vị của các
điểm ảnh hàng xóm tương ứng với mặt nạ H(i, j) của nó.

H)jijviuI MedianI'(u, v) =
∈++
),(|),((
(1.3)
Thuật toán lọc trung vị như sau: sử dụng một mặt nạ hay cửa sổ lọc có
ma trận kích thước 3x3; 5x5 quét qua lần lượt từng điểm ảnh của ảnh đầu
vào.
Tại vị trí của mỗi điểm ảnh chúng ta lấy giá trị của các điểm ảnh tương
ứng trong vùng mặt nạ của ảnh đầu vào “lấp” vào ma trận của mặt nạ lọc. Sắp
xếp các điểm ảnh trong cửa sổ lọc theo thứ tự (tăng hoặc giảm dần).
Gán điểm ảnh nằm chính giữa của dãy các giá trị điểm ảnh đã được sắp
xếp ở trên cho giá trị điểm ảnh đang xét của ảnh đầu ra.
9
Hình 1.4. Các bước trong thuật toán lọc trung vị.
c. Bộ lọc trong miền tần số
o Lọc đồng hình (Homomorphie Filter)
Thực tế, ảnh quan sát được ban đầu bao gồm ảnh đầu vào và một hệ số
nhiễu. Gọi X’(m, n) là ảnh thu được, X(m, n) là ảnh đầu vào và T(m, n) là
nhiễu, như vậy ta có công thức thể hiện mối quan hệ giữa chúng:
X(m, n) = X’(m, n)*T(m, n) (1.4)
Lọc đồng hình thực hiện lấy logarit ảnh quan sát. Do đó ta có kết quả:
log(X(m, n)) = log(X’(m, n)) + log(T(m, n)) (1.5)
Dễ dàng nhận thấy nhiễu hệ thống có trong ảnh đầu vào sẽ bị giảm. Sau
quá trình lọc tuyến tính, chúng ta chuyển về ảnh cũ bằng phép biến đổi hàm
mũ e.
o Lọc thông thấp và lọc thông cao

Các đường biên và nhiễu trong ảnh tập trung nhiều vào phần tần số cao
của phép biến đổi Fourier của nó. Do đó, để làm trơn ảnh bằng phương pháp
miền tần số chúng ta có thể loại bỏ các thành phần tần số cao trong biến đổi
Fourier của ảnh.
3
7
2
1
0
0
9
5
8
Sắp xếp
3
7
2
1
0
0
9
5
8
Pk-1
Pk+1
Pk=median
P0
P2k
3 7 2
1 0 0

9 5 8
I(u,v)
10
Vì các thành phần tần số cao bị loại bỏ và thông tin trong vùng tần số
thấp được cho qua nên phương pháp này gọi là lọc thông thấp. Bộ lọc thông
thấp có thể kể đến như bộ lọc thông thấp Butterworth, Gaussian
Ảnh có thể bị nhòe do chúng ta làm suy giảm các thành phần tần số cao
trong biến đổi Fourier của nó. Vì các phần tử biên và những thay đổi đột ngột
khác trong mức xám tương ứng của các thành phần tần số cao, việc làm nét
ảnh có thể thực hiện trong miền tần số bằng phương pháp lọc thông cao: làm
suy giảm các thành phần tần số thấp nhưng không phá hủy thông tin tần số
cao trong biến đổi Fourier. Bộ lọc thông cao có thể kể đến như bộ lọc thông
cao Butterworth, Gaussian
Bộ lọc thông thấp thường dùng làm trơn nhiễu và nội suy ảnh. Bộ lọc
thông cao thường dùng trong việc trích chọn biên và làm trơn ảnh.
1.2.3. Xử lý mức trung
Giai đoạn này là quá trình xử lý phức tạp, thường được sử dụng để phân
đoạn ảnh, xác định và dự đoán biên ảnh, xác định vùng ảnh, nén ảnh để lưu
trữ hoặc truyền phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín
hiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ
hình ảnh đầu vào. Cụ thể chúng ta thực hiện phân đoạn ảnh.
Phân đoạn ảnh là bước tách hình ảnh đầu vào thành các vùng thành phần
hoặc các vật thể riêng để biểu diễn, phân tích, nhận dạng. Đây cũng là một
trong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực
hiện tách quá sâu các chi tiết trong ảnh thì bài toán nhận dạng các thành phần
được tách ra sẽ trở nên phức tạp, ngược lại nếu quá trình phân đoạn được thực
hiện quá thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng sẽ không
chính xác.
Thông thường, bước đầu tiên trong quá trình phân đoạn ảnh là việc khử
nền để kiểm soát được đối tượng. Đối với các ảnh đơn sắc, việc phân đoạn

11
ảnh được thực hiện thông qua việc kiểm tra biểu đồ mức xám. Các thuật toán
phân đoạn ảnh đều dựa trên tính không liên tục hoặc tính tương tự của các giá
trị mức xám của ảnh.
Tính không liên tục của các giá trị mức xám trong ảnh cho chúng ta thấy
có sự thay đổi đột ngột về cường độ sáng trong ảnh. Phân đoạn ảnh có thể
thực hiện bởi ba kỹ thuật cơ bản: phân đoạn ảnh dựa trên ngưỡng, dựa trên
biên và dựa trên vùng.
o Phân đoạn ảnh dựa trên ngưỡng
Các kỹ thuật phân đoạn ảnh dựa trên ngưỡng hầu hết đều dựa vào lược đồ
mức xám của ảnh để tính toán ngưỡng. Việc tính toán ngưỡng bao hàm việc xác
định một tập các giá trị ngưỡng (có thể là một hoặc nhiều giá trị ngưỡng), dựa
vào giá trị ngưỡng để phân tách ảnh ra thành những vùng có ý nghĩa.

(a)
(b)
Hình 1.5. Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám:
(a) Sử dụng một ngưỡng T, (b) Sử dụng hai ngưỡng T1 và T2.
Giả sử chúng ta có lược đồ mức xám của một ảnh như hình 1.5a, dựa vào
lược đồ mức xám này chúng ta có thể nhận thấy rằng ảnh này có hai nhóm
mức xám. Một nhóm thể hiện giá trị mức xám của đối tượng và nhóm còn lại
thể hiện giá trị mức xám của nền, ngưỡng T chính là giá trị để tách biệt đối
tượng ra khỏi nền. Do đó, bất kì giá trị của điểm ảnh f(x, y) nào của ảnh mà có
giá trị lớn hơn T thì được gọi là điểm thuộc đối tượng, ngược lại gọi là điểm
thuộc nền của đối tượng.
12
Thuật toán tách ngưỡng Otsu vào năm 1979 là một trong những thuật
toán lấy ngưỡng toàn cục T được đề xuất từ rất sớm và hiệu quả để tách đối
tượng ra khỏi nền.


(a)

(b)

(c)
Hình 1.6. Sử dụng thuật toán Otsu tách ngưỡng:
a) Ảnh gốc, b) Lược đồ của ảnh gốc, c) Ảnh sau khi biến thành nhị phân.
Tuy nhiên, nhiều trường hợp trong một ảnh không phải chỉ có hai nhóm
mức xám mà có thể có nhiều nhóm mức xám khác nhau, ví dụ như hình 1.6b
thì lúc này để tách các đối tượng ra khỏi nền hoặc phân tách biệt các đối
tượng trong ảnh chúng ta sử dụng nhiều ngưỡng khác nhau, trường hợp này
gọi là phân đoạn ảnh đa ngưỡng.
Khi đó, mọi điểm ảnh f(x, y) sẽ thuộc về đối tượng thứ nhất
nếu T
1
<f(x,y)≤T
2
, thuộc đối tượng khác nếu f(x, y) > T
2
, và thuộc nền nếu
f(x, y) ≤ T
1
.
o Phân đoạn ảnh dựa trên biên
Việc xác định biên ảnh là một vấn đề cơ bản và đặc điểm quan trọng
trong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên. Một
điểm ảnh được gọi là biên nếu ở đó có sự thay đổi đột ngột về mức xám. Tập
hợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh. Mỗi một
biên là một thuộc tính gắn liền với một điểm riêng biệt và được tính toán từ
những điểm lân cận của nó. Có hai phương pháp phát hiện biên tổng quát, đó

là phương pháp phát hiện biên dựa vào sự biến thiên về giá trị độ sáng của
điểm ảnh (phương pháp đạo hàm) và phương pháp phát hiện biên dựa vào sự
13
T
biến thiên nhỏ và đồng đều về độ sáng của các điểm ảnh thuộc đối tượng
(phương pháp xử lý kết cấu của đối tượng).
Phương pháp phát hiện biên sử dụng đạo hàm có thể kể tới là: phương
pháp đạo hàm bậc nhất (phương pháp Gradient) và phương pháp đạo hàm bậc
hai (phương pháp Laplace). Phương pháp Gradient (ví dụ: sử dụng toán tử
Prewitt, Sobel, Robert ) và kỹ thuật la bàn (ví dụ: sử dụng toán tử la bàn
Kirsh, toán tử la bàn Prewitt ).
14
Ảnh gốc Phương pháp
Laplace
Phương pháp
Gradient


Hình 1.7. Một số phương pháp tìm biên.
Ngoài ra còn có một số phương pháp phát hiện biên khác khắc phục
được những điểm yếu của hai phương pháp phát hiện biên ở trên và giải quyết
các ràng buộc trong việc phát hiện biên như: mức lỗi, định vị và hiệu suất của
phương pháp. Một trong những phương pháp hiệu quả đó là phương pháp
Canny do John Canny đề xuất vào năm 1986.
Phương pháp phát hiện biên xử lý kết cấu đối tượng hay còn gọi là
phương pháp phát hiện biên gián tiếp là phương pháp dựa vào phép xử lý kết
cấu của đối tượng, cụ thể là dựa vào sự biến thiên và đồng đều độ sáng của
các điểm ảnh thuộc một đối tượng. Nếu các vùng của ảnh được xác định thì
đường ranh giới giữa các vùng đó chính là biên cần tìm.
o Phân đoạn ảnh dựa trên vùng

Vùng (region) trong xử lý ảnh là một nhóm các điểm ảnh liên kết với
nhau có cùng các thuộc tính. Sự phân chia các vùng thường được thực hiện
bằng cách sử dụng giá trị xám của điểm ảnh.
Có hai phương pháp phân đoạn ảnh theo vùng là:
- Phân đoạn theo lan tỏa vùng (Region growing).
- Phân đoạn theo phương pháp phân chia và kết hợp vùng (Region
Splitting and Merging).
Phân đoạn ảnh dựa trên vùng thường được sử dụng cho mục đích phân
đoạn ảnh phức tạp với số lượng lớp trên vùng là lớn và chưa biết trước [6].
15
1.2.4. Xử lý mức cao
Nhận dạng đối tượng là quá trình xác định ảnh ký tự viết tay. Quá trình
này thường thu được bằng cách so sánh đối tượng đầu vào từ bước biểu diễn
và mô tả ảnh ký tự viết tay với mẫu đã được lọc từ trước (hoặc ở tập dữ liệu
mẫu).
Nội suy là phán đoán theo ý nghĩa trên cơ sở nhận dạng. Có nhiều cách
phân loại ảnh khác nhau. Theo lý thuyết về nhận dạng, các mô hình toán học
về ảnh được phân theo hai loại nhận dạng cơ bản: nhận dạng theo tham số và
nhận dạng theo cấu trúc.
1.2.5. Cơ sở tri thức
Ảnh là một đối tượng rất phức tạp về độ nét, độ sáng tối, số lượng điểm
ảnh, môi trường để thu nhận ảnh phong phú kéo theo nhiễu. Trong nhiều khâu
xử lý và phân tích ảnh ngoài việc đơn giản hóa các phương pháp toán học
đảm bảo tiện lợi cho xử lý, người ta còn mong muốn những kết quả sau khi
xử lý đó được lưu trữ lại để phục vụ mục đích nhất định để có nhiều lựa chọn
hơn cho việc ra quyết định trong hệ thống xử lý bắt chước quy trình tiếp nhận
và xử lý theo kinh nghiệm cùng với tri thức của con người. Nếu không có một
hệ cơ sở tri thức phù hợp thì hệ thống thị giác máy tính không thể “suy nghĩ”
và không thể đưa ra những quyết định thông minh giống như con người.
1.3. CÁC KHÔNG GIAN MÀU VÀ ẢNH MÀU

1.3.1. Màu trong xử lý ảnh số
Sử dụng màu trong xử lý được thúc đẩy bởi các yếu tố:
- Màu sắc giúp chúng ta nhận diện các đối tượng đơn giản hơn và
khai thác được nhiều thông tin từ ảnh màu.
- Hệ thống thị giác của con người có thể cảm nhận, phân biệt được
hàng nghìn màu và cường độ sáng khác nhau. Những yếu tố này là
16
những thuộc tính tự nhiên quan trọng để chúng ta có thể phân tích
ảnh.
Xử lý ảnh màu được chia làm 2 phạm vi chính: xử lý toàn màu (full
color) và xử lý giả màu (pseudo color).
Trong phạm vi thứ nhất, các ảnh thường được thu nhận bằng các bộ cảm
biến màu, như máy quét ảnh màu, TV, Camera màu.
Trong phạm vi thứ hai, một ảnh màu được tách thành các kênh màu có
cường độ sáng đơn hoặc khoảng cường độ sáng.
Hiện nay, các loại xử lý ảnh màu được thực hiện theo cách thứ hai, tức là
từ ảnh màu sẽ tiến hành chuyển đổi và tách ảnh màu sang một không gian
màu khác với các kênh màu có cường độ sáng đơn hoặc ảnh có cường độ sáng
nằm trong một khoảng nào đó ví dụ như ảnh xám (0 - 255), ảnh nhị phân (0
và 1), ảnh màu bao gồm các kênh màu (ví dụ như từng kênh màu của không
gian màu RGB: R, G, B) hoặc kết hợp 2 kênh màu.
Hình 1.8. Bước sóng trong quang phổ con người nhìn thấy được.
Các thuộc tính của màu sắc thường dùng để phân biệt bằng mắt thường
là: độ sáng (Brightness), độ bão hòa (Saturation) và sắc độ (Hue). Hầu hết các
nguồn sáng mà chúng ta nhìn thấy có chứa năng lượng trong một dải bước
sóng của ánh sáng. Hue là bước sóng (Wavelength) trong dải quang phổ mà
chúng ta có thể nhìn thấy ánh sáng, tại đó lượng năng lượng từ nguồn sáng
phát ra là lớn nhất. Độ bão hòa là một thể hiện cho dãi tần có thể nhìn thấy từ
17
nguồn sáng. Trong hình 1.8, độ bão hòa được đại diện bởi độ dốc của sườn

dốc của đường cong.
1.3.2. Không gian màu RGB
Không gian màu RGB mô tả màu sắc bằng ba màu kết hợp với nhau ở
các bước sóng chuẩn như màu: đỏ (red) = 700 nm, xanh lá (green) = 546,1
nm và xanh dương (blue) = 435,8 nm. Không gian màu này được minh họa
bằng một khối lập phương với các trục chính là R, G, B ở hình 1.9.
Hình 1.9. Không gian màu RGB.
Mỗi màu trong không gian màu RGB đều được biểu diễn như là một
vectơ thông qua ba vectơ cơ sở là đỏ, xanh lá cây và xanh dương. Do đó, mỗi
điểm ảnh trong ảnh I được xác định như sau:
I(x, y) = (R(x, y), G(x, y), B(x, y))
T
= (R,G,B)
T
(1.6)
Vì vậy, ứng với các tổ hợp khác nhau của ba màu này sẽ cho ta một màu
mới. Không gian màu RGB là chuẩn công nghiệp cho các thao tác đồ họa
máy tính. Các thao tác màu sắc có thể được tính toán trên các không gian màu
khác nhau nhưng cuối cùng cần phải chuyển về không gian màu RGB để hiển
thị lên màn hình máy tính vì thiết bị phần cứng dựa trên mô hình RGB.
Chúng ta có thể chuyển đổi qua lại giữa không gian màu RGB sang các
không gian màu khác như: HSV, CIE.
18
1.4. XỬ LÝ HÌNH THÁI HỌC
1.4.1. Khái niệm cơ bản
Xử lý ảnh hình thái học mô tả một dãy các kỹ thuật xử lý ảnh liên quan
đến hình dạng và các đặc trưng riêng trên ảnh. Tất cả các thao tác xử lý hình
thái học đều dựa trên hai ý tưởng cơ bản:
- Fit: tất cả các điểm ảnh nằm trên phần tử cấu trúc che phủ tất cả các
điểm ảnh trên ảnh.

- Hit: điểm ảnh bất kì trên phần tử cấu trúc cho phủ một điểm ảnh
trên ảnh.
Phần tử cấu trúc (Structuring element): đôi khi được gọi là một nhân
(Kernel). Trong không gian 2D hay không gian phẳng, phần tử cấu trúc bao
gồm một ma trận 0 và 1, thường có kích thước nhỏ hơn nhiều so với ảnh được
xử lý. Các điểm trung tâm của phần tử cấu trúc được gọi là điểm gốc, xác
định các điểm ảnh được xử lý, kiểu phần tử cấu trúc này còn được gọi là phần
tử cấu trúc phẳng. Các điểm ảnh trong phần tử cấu trúc có giá trị bằng 1 xác
định vùng lân cận của phần tử cấu trúc. Trong không gian 3D hay không gian
không phẳng (non-flat), các phần tử cấu trúc sử dụng các giá trị 0 và 1 để xác
định phạm vi của phần tử cấu trúc trong mặt phẳng x, mặt phẳng y và thêm
giá trị độ cao để xác định chiều thứ ba, kiểu phần tử cấu trúc này còn được
gọi là phần tử cấu trúc không phẳng. Các phần tử cấu trúc thường được quy
định theo một hình dáng và có kích thước khác nhau. Một số hình dáng của
phần tử cấu trúc thuộc về phần tử cấu trúc phẳng: chữ nhật, hình tròn, elip,
hình thoi Trong khi đó hình dáng: quả bóng (ball) và tùy ý thuộc về phần tử
cấu trúc không phẳng.
19
Hình 1.10. Một số hình dáng của phần tử cấu trúc phẳng.
Về cơ bản, xử lý hình thái học giống với lọc không gian ảnh. Phần tử cấu
trúc dịch qua mỗi điểm ảnh trên ảnh ban đầu và tạo ra điểm ảnh mới sau khi
xử lý. Giá trị của điểm ảnh mới phụ thuộc vào thao tác thực hiện. Phần lớn
các phép toán hình thái học được định nghĩa từ hai phép toán cơ bản là phép
toán co (Erosion) và giãn (Dilation) ảnh nhị phân.
1.4.2. Phép co và giãn ảnh nhị phân
a. Phép co ảnh (Erosion)
Xét tập hợp A và tập hợp B trong, thì phép co ảnh nhị phân của tập hợp
A bởi phần tử cấu trúc B được kí hiệu A B và viết dưới dạng công thức 1.7:
A B =
{ }

|
Z
z B A

(1.7)
Phép co ảnh nhị phân của tập hợp A bởi phần tử cấu trúc B là tập hợp các
điểm z (z nằm ở tâm điểm của phần tử cấu trúc B) sao cho B
z
là tập con của A.
Một ứng dụng quan trọng của phép co ảnh nhị phân là dùng để loại trừ
các chi tiết không cần thiết trên hình ảnh (ví dụ như nhiễu hay các thành phần
dư thừa) và nó thường làm mỏng đối tượng trong ảnh nhị phân.
b. Phép giãn ảnh (Dilation)
Gọi A là ảnh gốc, B là một phần tử cấu trúc. Phép giãn nhị phân của ảnh
A với phần tử cấu trúc B được kí hiệu
BA

và chúng ta có thể biểu diễn phép
toán co ảnh dưới dạng phép toán tổ hợp như sau:
20

×