Tải bản đầy đủ (.doc) (104 trang)

Kiểm tra lỗi in trên rearcase sử dụng mạng nơ ron nhân tạo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.66 MB, 104 trang )

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG
ĐẠI HỌC BÁCH KHOA

TRƯƠNG THANH TÙNG

KIỂM TRA LỖI IN TRÊN REARCASE
SỬ DỤNG MẠNG NƠRON NHÂN TẠO

LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

Đà Nẵng – Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRƯƠNG THANH TÙNG

KIỂM TRA LỖI IN TRÊN REARCASE
SỬ DỤNG MẠNG NƠRON NHÂN TẠO
Chuyên ngành: Kỹ thuật điều khiển và tự động hóa
Mã số: 60520216

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học:
TS.NGUYỄN VĂN MINH TRÍ

Đà Nẵng – Năm 2017



i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố
trong bất kỳ công trình nào khác.
Tác giả ký và ghi rõ họ tên

TRƯƠNG THANH TÙNG


ii

TÓM TẮT LUẬN VĂN
KIỂM TRA LỖI IN TRÊN REARCASE
SỬ DỤNG MẠNG NƠ RON NHÂN TẠO
Học viên: Trương Thanh Tùng
Mã số: 60520216

Chuyên ngành: Kỹ thuật điều khiển và tự động hóa

Khóa: K33.TĐH(PFIEV)

Trường Đại học Bách khoa – ĐHĐN

Tóm tắt: Đề tài nghiên cứu về những thuật toán trong xử lý ảnh sau đó áp dụng vào việc nhận
dạng ký tự in của rearcase sử dụng mạng nơ ron nhân tạo, ứng dụng vào thực tế sản xuất tự
động, đạt được kết quả khả quan. Tuy nhiên, với khoảng thời gian cho phép và kiến thức có
hạn, đề tài không thể tránh khỏi những vấn đề chưa giải quyết được và đó cũng là đề xuất cải

tiến trong tương lai, tiêu biểu nhất là việc tìm kiếm một tập mẫu có kích thước lớn và hoàn
chỉnh để đáp ứng được yêu cầu của đề tài , số lượng tâp tin mẫu có kích thước nhỏ dẫn đến có
sự sai lệch khi nhận dạng một số ký tự có hình dạng giống nhau (số 0 với chữ D hay số 8 với
chữ B, …). Tác giả đã tóm tắt các kết quả đã đạt được và đưa ra các hướng phát triển tiếp theo
Từ khóa: Chương trình kiểm tra lỗi, mạng nơ ron nhân tạo, máy in laser, nhận dạng ký tự,
chương trình mô phỏng.

USING NEURAL NETWORK
TO CHECK ERROR ON REARCASE OF LASER PRINTER
Abstract- Research on the algorithm in image processing then applied to the printed character
recognition on rearcase by neural networks, the application in practice of production
automation, achieved satisfactory results. However, with time allowed and limited
knowledge, the subject cannot be avoided these issues unresolved and it is also the proposed
improvements in the future, most is finding a set of sample size and complete to meet the
requirements of the subject the number of sample files are small in size has led to the false
identity of a number of characters have the same shape (the number 0 with the letter D or no.
8 with letter B, ...). The author has summarized the results achieved and launched the next
development direction.
Keywords- The error checking program , Neural Network, laser printer, character
recognition, program debug.


iii

MỤC LỤC
LỜI CAM ĐOAN .................................................................................. i
TÓM TẮT LUẬN VĂN ....................................................................... ii
MỤC LỤC............................................................................................ iii
DANH MỤC CHỮ VIẾT TẮT ............................................................ v
DANH MỤC CÁC BẢNG .................................................................. vi

DANH MỤC CÁC HÌNH VẼ ............................................................ vii
MỞ ĐẦU ............................................................................................... 1
CHƯƠNG I: TỔNG QUAN ĐỀ TÀI “KIỂM TRA LỖI IN TRÊN
REARCASE SỬ DỤNG MẠNG NORON NHÂN TẠO” .................. 3
1.1. Giới thiệu đề tài nghiên cứu: ............................................................. 3
1.2. Mục tiêu và nhiệm vụ của đề tài: ...................................................... 3

CHƯƠNG II: CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ ẢNH ...................... 5
2.1. Xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh .................................... 5
2.1.1. Xử lý ảnh là gì ? ................................................................................... 5
2.1.2. Các vấn đề cơ bản trong xử lý ảnh :..................................................... 6

2.1. Xử lý ảnh để nhận dạng ký tự: ......................................................... 10
2.2.1. Tổng quan xử lý ảnh để nhận dạng ký tự:.......................................... 11
2.2.2. Các phương pháp nhận dạng ký tự bằng xử lý ảnh:........................... 13

CHƯƠNG III: NHẬN DẠNG KÝ TỰ .............................................. 30
3.1. Mô tả bài toán: .................................................................................. 30
3.2. Quá trình thực hiện: .......................................................................... 31
3.2.1.Xử lý dữ liệu (Phân tích ảnh): ............................................................. 32
3.2.2. Tách ký tự:.......................................................................................... 32
3.2.3. Ánh xạ ký tự ảnh vào ma trận giá trị:................................................. 35


iv

3.2.4. Tìm biên, đường bao: ......................................................................... 36
3.2.5. Huấn luyện mạng: .............................................................................. 37

CHƯƠNG IV: CHƯƠNG TRÌNH MÔ PHỎNG VÀ KẾT QUẢ...... 44

4.1. Lưu đồ thuật toán của chương trình : ............................................... 44
4.2. Môi trường thực nghiệm: ................................................................. 44
4.3. Tạo cơ sở dữ liệu mẫu: ..................................................................... 45
4.4. Chương trình chính:.......................................................................... 46
4.4.1. Đăng nhập: ......................................................................................... 46
4.4.2. Chọn camera kết nối:.......................................................................... 46
4.4.3. Khoanh vùng: ..................................................................................... 47
4.4.4. Chạy chương trình:............................................................................. 48
4.4.5. Một số chức năng khác: ..................................................................... 49

4.5. Chương trình phụ: ............................................................................ 49
4.6. Hướng phát triển tiếp theo:............................................................... 50

KẾT LUẬN VÀ KIẾN NGHỊ ............................................................ 51
DANH MỤC TÀI LIỆU THAM KHẢO............................................ 52
PHỤ LỤC ............................................................................................ 53


v

DANH MỤC CHỮ VIẾT TẮT
STT

Ký hiệu

Ý nghĩa

1

OCR


Optical Character Recognition

2

VNdorc

Việt Nam Document Optical Character Recognition

3

BP

Back Propagation

4

Đ

Đúng

5

S

Sai

6

Ok


Đạt

7

NG

Not Good

8

H

hidden


vi

DANH MỤC CÁC BẢNG
Số hiệu bảng Tên bảng

Trang

2.1

So sánh khả năng làm việc của bộ não và máy tính

21

2.2


Các hàm truyền H(s) thường dùng

22

2.3

Một số hàm phi tuyến thường dùng trong mô hình nơron

23


vii

DANH MỤC CÁC HÌNH VẼ
Số hiệu
hình vẽ

Tên hình vẽ

Trang

1.1

Mô hình thực hiện

4

2.1


Quá trình xử lý ảnh

5

2.2

Các bước cơ bản trong một hệ thống xử lý ảnh

5

2.3

Ảnh thu nhận và ảnh mong muốn

6

2.4

Ảnh thu được khi qua bộ lọc Mean

8

2.5

Ảnh sau khi qua bộ lọc Median

8

2.6


Ảnh thu được sau khi xử lý qua bộ lọc Gauss

9

2.7

Mô hình cấu trúc của đối tượng nhà

12

2.8

Sơ đồ tổng quát hệ thống nhận dạng ảnh

13

2.9

Các từ vựng cơ bản của ngôn ngữ hình thức PLD

17

2.10

Các phép toán trong ngôn ngữ LCD

18

2.11


Cấu trúc nơron sinh học

19

2.12

Mô hình nơron nhân tạo

21

2.13

Phân loại mạng nơron nhân tạo

24

2.14

Cấu trúc mạng perceptron 1 lớp

26

3.1

Sơ đồ quá trình thực hiện

31

3.2


Xác định dòng

32

3.3

Xác định giới hạn

34

3.4

Ánh xạ lưới ký tự

36

3.5

Chuyển ma trận điểm sang ma trận giá trị

37


viii
3.6

Sơ đồ thuật toán huấn luyện mạng

38


3.7

Cấu trúc mạng Feed-forward 3 lớp 150 nơron đầu vào

40

3.8

Đồ thị sự biến thiên của Wij

43

3.9

Đồ thị sự biến thiên của Wjk

43

4.1

Lưu đồ thuật toán chương trình

44

4.2

Giao diện chương trình tạo cơ sở dữ liệu nhận dạng

45


4.3

Giao diện chương trình tạo file huấn luyện cho chương trình
chính

46

4.4

Chọn camera kết nối

47

4.5

Khoanh vùng

47

4.6

Kết quả với mã hàng WH-108

48

4.7

Kết quả với mã hàng WH-109

48


4.8

Một số cài đặt khác

49

4.9

Chương trình phụ

49


1

MỞ ĐẦU
LÝ DO CHỌN ĐỀ TÀI
Với sự vận động không ngừng của công nghệ thông tin toàn cầu, mọi tổ chức
kinh tế cũng như xã hội, đều mong muốn tận dụng tối đa khả năng cho phép của công
nghệ thông tin, để hiện đại hoá quá trình quản lý, sản xuất kinh doanh của mình nhằm
đạt hiệu quả kinh tế cao nhất. Nhận dạng là bài toán xuất hiện cách đây khá lâu và
vẫn luôn thu hút được nhiều sự quan tâm, nghiên cứu. Đặc biệt là trong vài thập niên
gần đây, do sự thúc đẩy của quá trình tin học hoá trong mọi lĩnh vực, bài toán nhận
dạng không còn dừng lại ở mức độ nghiên cứu nữa mà nó trở thành một lĩnh vực để
áp dụng vào thực tế. Các bài toán nhận dạng đang được ứng dụng trong thực tế hiện
nay tập trung vào nhận dạng mẫu, nhận dạng tiếng nói và nhận dạng chữ. Trong số
này, nhận dạng chữ là bài toán được quan tâm rất nhiều và cũng đã đạt được nhiều
thành tựu rực rỡ. Các ứng dụng có ý nghĩa thực tế lớn có thể kể đến như: nhận dạng
chữ in dùng trong quá trình công nghiệp in khắc mã hàng hóa, kiểm tra lỗi tự động,

sao lưu sách báo trong thư viện, nhận dạng chữ viết tay dùng trong việc phân loại thư
ở bưu điện, thanh toán tiền trong nhà băng và lập thư viện sách cho người mù (ứng
dụng này có nghĩa: scan sách bình thường, sau đó cho máy tính nhận dạng và trả về
dạng tài liệu mà người mù có thể đọc được). Xuất phát từ yêu cầu của công ty in và
sản xuất rearcase tự động, người công nhân phải kiểm tra thông tin in trên rearcase
bằng mắt nên xảy ra nhiều lỗi và độ rủi ro cao. Có rất nhiều chương trình ngoài thị
trường đang kinh doanh, nhưng giá thành rất cao và chức năng phức tạp, không phù
hợp với thực tế sản xuất. Công ty đang rất cần 1 hệ thống nhận dạng và kiểm tra lỗi
đơn giản, phù hợp và giá thành thấp. Chính vì vậy em đã chọn đề tài “kiểm tra lỗi in
trên rearcase sử dụng mạng Noron nhân tạo ” với mong muốn phần nào áp dụng bài
toán vào vấn đề sản xuất tự động rearcase.
MỤC TIÊU NGHIÊN CỨU
Đề tài tập trung nghiên cứu lí thuyết về công nghệ xử lý ảnh, nhận dạng ký tự
sử dụng mạng notron nhân tạo. Sau đó xây dựng ứng dụng chính xử lý ảnh bằng C#,
nhận dữ liệu từ camera, xử lý ảnh, nhận diện kí tự và so sánh với ảnh mẫu để kiểm
tra, phát hiện lỗi của khâu sản xuất. Sau đó lưu kết quả đúng sai vào cơ sở dữ liệu.
Bên cạnh đó, chương trình phụ nhận dạng mẫu khách hàng yêu cầu và so sánh với kết
quả thực tế khi in, liên kết với chương trình chính để đưa ra kết quả theo mong muốn
của nhà sản xuất. Chương trình phụ xây dựng úng dụng mạng noron sử dụng kỹ thuật
lan truyền ngược để học các mẫu yêu cầu.


2
PHƯƠNG PHÁP NGHIÊN CỨU
Đề tài được nghiên cứu theo phương pháp kết hợp giữa lý thuyết và nhu cầu
thực tế. Cụ thể như sau: - Nghiên cứu các tài liệu liên về công nghệ xử lý ảnh, các vấn
đề cơ bản trong xử lý ảnh - Nghiên cứu xử lý ảnh để nhận dạng kí tự - Nghiên cứu
nhận dạng kí tự sử dụng mạng nơron nhân tạo - Xây dựng ứng dụng bằng C# để đưa
vào kiểm thử so với yêu cầu thực tế.
Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI

Ý nghĩa khoa học: Triển khai việc ứng dụng công nghệ xử lý ảnh để nhận
dạng các ký tự, vật thể tự động, từ đó phân tích các ký tự, vật thể đó theo mục đích
của người sử dụng. Ý nghĩa thực tiễn: Tạo ra phần mềm để công việc sản xuất tự
động đạt hiệu quả và có năng suất cao.
CẤU TRÚC LUẬN VĂN
Mở đầu
Chương 1: Tổng quan đề tài “kiểm tra lỗi in trên rearcase sử dụng mạng noron
nhân tạo”
Giới thiệu về xử lí ảnh, nhận dạng ký tự. Mục tiêu và nhiệm vụ hoàn thành nhận
dạng ký tự in trên rearcase.
Chương 2: Cơ sở lý thuyết về xử lý ảnh
Xử lý ảnh và các vấn đề cơ bản trong xử lý ảnh. Xử lý ảnh để nhận dạng ký tự
Chương 3: Nhận dạng ký tự dùng mạng Nơron nhân tạo
Mô tả bài toán và quá trình thực hiện
Chương 4: Chương trình mô phỏng và kết quả
Xây dựng chương trình với môi trường thực nghiệm, tạo cơ sở dữ liệu mẫu,
chương trình chính. Hướng phát triển tiếp theo.
Kết luận


3

CHƯƠNG I:
TỔNG QUAN ĐỀ TÀI “KIỂM TRA LỖI IN TRÊN REARCASE
SỬ DỤNG MẠNG NORON NHÂN TẠO”
1.1. Giới thiệu đề tài nghiên cứu:
Đối với mỗi con người chúng ta, việc học và phân biệt được sự khác nhau giữa
từng ký tự thật dễ dàng nhưng để máy tính làm được điều tương tự thì không dễ dàng
chút nào, việc này cần đến những người có kiến thức tốt về xử lý ảnh mới có thể giúp
máy tính học và phân biệt được ký tự nhưng đôi khi, kết quả vẫn không như mong

muốn.
Nhận dạng là bài toán xuất hiện cách đây khá lâu và vẫn luôn thu hút được nhiều
sự quan tâm, nghiên cứu. Đặc biệt là trong vài thập niên gần đây, do sự thúc đẩy của
quá trình tin học hoá trong mọi lĩnh vực, bài toán nhận dạng không còn dừng lại ở
mức độ nghiên cứu nữa mà nó trở thành một lĩnh vực để áp dụng vào thực tế. Các
bài toán nhận dạng đang được ứng dụng trong thực tế hiện nay tập trung vào nhận
dạng mẫu, nhận dạng tiếng nói và nhận dạng chữ. Trong số này, nhận dạng chữ là
bài toán được quan tâm rất nhiều và cũng đã đạt được nhiều thành tựu rực rỡ. Các
ứng dụng có ý nghĩa thực tế lớn có thể kể đến như: nhận dạng chữ in dùng trong
quá trình công nghiệp in khắc mã hàng hóa, kiểm tra lỗi tự động, sao lưu sách báo
trong thư viện, nhận dạng chữ viết tay dùng trong việc phân loại thư ở bưu điện,
thanh toán tiền trong nhà băng và lập thư viện sách cho người mù (ứng dụng này có
nghĩa: scan sách bình thường, sau đó cho máy tính nhận dạng và trả về dạng tài liệu
mà người mù có thể đọc được).
Xuất phát từ yêu cầu của công ty in và sản xuất rearcase tự động, người công
nhân phải kiểm tra thông tin in trên rearcase bằng mắt nên xảy ra nhiều lỗi và độ rủi
ro cao. Có rất nhiều chương trình ngoài thị trường đang kinh doanh, nhưng giá thành
rất cao và chức năng phức tạp, không phù hợp với thực tế sản xuất. Công ty đang rất
cần 1 hệ thống nhận dạng và kiểm tra lỗi đơn giản, phù hợp và giá thành thấp. Chính
vì vậy em đã chọn đề tài “kiểm tra lỗi in trên rearcase sử dụng mạng Noron nhân tạo
” với mong muốn phần nào áp dụng bài toán vào vấn đề sản xuất tự động rearcase.
Một số chương trình đã có sẵn và các đề tài đã nghiên cứu như Optical Character
Recognition, viết tắt là OCR hay phần mềm nhận dạng chữ Việt in VnDOCR 4.0 khó
đáp ứng được ở môi trường sản xuất vì giá thành rất cao, các chương trình nhận
dạng đơn giản thì tính bảo mật không cao. Vì vậy, cần xây dựng chương trình mới
và ngôn ngữ phù hợp.

1.2. Mục tiêu và nhiệm vụ của đề tài:
Đề tài tập trung nghiên cứu lí thuyết về công nghệ xử lý ảnh, nhận dạng ký tự
sử dụng mạng notron nhân tạo. Sau đó xây dựng ứng dụng chính xử lý ảnh bằng C#,



4
nhận dữ liệu từ camera, xử lý ảnh, nhận diện kí tự và so sánh với ảnh mẫu để kiểm tra,
phát hiện lỗi của khâu sản xuất. Sau đó lưu kết quả đúng sai vào cơ sở dữ liệu.
Ứng dụng sẽ gồm 2 chương trình, 1 chương trình chính gồm các thanh công cụ
để điều khiển, hiển thị và giao tiếp với người sử dụng. Kết quả đưa ra sẽ được nhìn
thấy và xử lý dễ dàng. Bên cạnh đó, chương trình phụ nhận dạng mẫu khách hàng yêu
cầu và so sánh với kết quả thực tế khi in, liên kết với chương trình chính để đưa ra kết
quả theo mong muốn của nhà sản xuất. Chương trình phụ xây dựng úng dụng mạng
noron sử dụng kỹ thuật lan truyền ngược để học các mẫu yêu cầu.

Hình 1. 1 : Mô hình thực hiện


5

CHƯƠNG II:
CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ ẢNH
2.1. Xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh
2.1.1. Xử lý ảnh là gì ?
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò
quan trọng nhất. Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử
lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc
sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho
ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh
“tốt hơn” hoặc một kết luận.



6
Ảnh
“Tốt hơn”

XỬ LÝ ẢNH

Ảnh

Kết luận

Hình 2. 1 Quá trình xử lý ảnh.
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc
trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong
không gian và nó có thể xem như một hàm n biến P(c1, c2,..., cn). Do đó, ảnh trong xử
lý ảnh có thể xem như ảnh n chiều.
Theo [1], sơ đồ tổng quát của một hệ thống xử lý ảnh:

Hệ quyết định
Thu nhận ảnh
(Scanner,
Camera,Sensor)

Tiền xử lý

Trích chọn
đặc điểm

Đối sánh rút
ra kết luận


Hậu
xử lý

Lưu trữ

Hình 2. 2 Các bước cơ bản trong một hệ thống xử lý ảnh


2.1.2. Các vấn đề cơ bản trong xử lý ảnh :
a. Một số khái niệm cơ bản :
Ảnh và điểm ảnh:
Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong
không gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh.
Mức xám, màu :
Là số các giá trị có thể có của các điểm ảnh của ảnh
b. Nắn chỉnh biến dạng :
Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử.

f( )
P

Ảnh thu nhận

Ảnh mong muốn

Hình 2. 3 Ảnh thu nhận và ảnh mong muốn.
Theo [1], để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường
được xây dựng trên tập các điểm điều khiển.
Giả sử (Pi, Pi’) i = 1, n có n các tập điều khiển
Tìm hàm f: Pi  f (Pi) sao cho

n


 || f ( p )  p
i 1

i

||  min

' 2
i

(2.1)

Giả sử ảnh bị biến đổi chỉ bao gồm: Tịnh tiến, quay, tỷ lệ, biến dạng bậc nhất
tuyến tính. Khi đó hàm f có dạng:
f (x, y) = (a1x + b1y + c1, a2x + b2y + c2)
(2.2)
Ta có:



( f ( Pi)  Pi  



)
n
' 2

i 1

n
i 1



a1 xi  b1 yi  c1  xi  a x  b y  c  y
2 i
2 i



' 2



' 2
i

(2.3)


Để cho   min


 
0

 a1


n

n

i 1
n

 

a1 x i y i   b1


0



yi
 i 1
 b1
n

 
0

c
 1

n


n

i 1
n

n

i 1

i 1

'
 a x2 


b
x
c
x
x
1
i
1
i
1
i
i






i 1
i 1

yi
xi
2

  c1 y i   y i x'i

i 1

n
n
 n
'
 a1 x i   b1  nc1   x i
 i 1
i 1
yi
i 1

(2.4)
Giải hệ phương trình tuyến tính tìm được a1, b1, c1
Tương tự tìm được a2, b2, c2
 Xác định được hàm f
c. Khử nhiễu:
Theo [4], Trên thực tế tồn tại nhiều loại nhiễu; tuy nhiên người ta thường xem
xét 3 loại nhiễu chính: nhiễu cộng, nhiễu nhân và nhiễu xung:

• Nhiễu cộng: Nhiễu cộng thường phân bố khắp ảnh. Nếu gọi ảnh quan sát (ảnh
thu được) là Xqs, ảnh gốc là Xgốc, nhiễu là η, ảnh thu được có thể biểu diễn bởi:
Xqs = Xgốc + η
(2.5)
• Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh và ảnh thu được sẽ biểu
diễn với công thức:
Xqs = Xgốc * η
(2.6)
• Nhiễu xung: Nhiễu xung thường gây đột biến tại một số điểm ảnh
Một số phương pháp lọc nhiễu:
 Bộ lọc Mean
Mạch lọc là một mặt nạ có kích thước NxN, trong đó tất cả các hệ số đều
bằng 1. Đáp ứng là tổng các mức xám của NxN pixels chia cho NxN. Ví dụ
mặt nạ 3x3 thì đáp ứng là tổng mức xám của 9 pixels chia cho 9. Ví dụ mặt
nạ 1/9x

1
1
1

1
1
1

1
1
1


Nhân chập mặt nạ với tất cả các pixel của ảnh gốc chúng ta sẽ thu được ảnh kết

quả qua bộ lọc Mean theo công thức sau:


1

F  i, j  
,l)



k,l:N

S (k

(2.7)

s

Hình 2. 4 Ảnh thu được khi qua bộ lọc Mean
Với f[i,j] là giá trị pixel kết quả, s(k,l) là các giá trị pixel ảnh gốc được mặt nạ
chập lên và S là kích thước mặt nạ. Bộ lọc Mean có vai trò làm trơn ảnh có thể xem
như bộ lọc thông cao, nhưng lại làm mờ đường biên của các đối tượng bên trong ảnh,
làm mất tín hiệu cận nhiễu và không lọc được nhiễu xung.
 Bộ lọc Median:
Để thực hiện lọc Median trong lân cận của một pixel chúng ta sắp xếp các giá
trị của pixel và các lân cận, xác định trung vị Median và định giá trị pixel.Về nguyên
lý thì mạch median có thể tách được các điểm có cường độ sáng lớn như nhiễu xung và
lọc các điểm có cường độ sáng tức thì (xung) hay còn gọi là các nhiễu muối tiêu. Ví dụ
về ảnh sau khi lọc nhiễu


Hình 2. 5 Ảnh sau khi qua bộ lọc Median
 Bộ lọc Gauss:
Về bản chất bộ lọc Gauss có phương thức tiến hành tương đồng với bộ lọc
trung bình nhưng có thêm tác động của các trọng số. Các trọng số này được tính tỷ lệ
với hàm Gauss theo khoảng cách tới điểm tính toán. Công thức tính giá trị cho từng
pixel ảnh gốc theo lọc Gauss như sau:
g (i, j) 

1
m,n:K G(i  m, j  n)  f (m,
N 
n)

(2.8)

Trong đó g(i,j) là giá trị độ xám pixel kết quả, N là kích thước cửa sổ, f(m,n) là
giá trị độ xám của pixel đang tác động,G(i-m,j-n) là các trọng số. Các trọng số được
tính toán tỷ lệ theo hàm Gauss bằng khoảng cách tới điểm tính toán.


Thực hiện phép nhân chập giữa mặt nạ Gauss và ảnh gốc chúng ta thu được
ảnh kết quả được xử lý bằng mạch lọc Gauss. Vai trò của bộ lọc Gauss cũng làm trơn
ảnh như bộ lọc trung bình, tuy nhiên bộ lọc Gauss cho chất lượng ành kết quả cao hơn
vì có sự tập trung trong số vào pixel đang xét tại vị trí trung tâm.

Hình 2. 6 Ảnh thu được sau khi xử lý qua bộ lọc Gauss
d. Chỉnh mức xám:
Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông thường có 2 hướng
tiếp cận:
 Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau

thành một bó. Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh
đen trắng. Ứng dụng: In ảnh màu ra máy in đen trắng.
 Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ
thuật nội suy. Kỹ thuật này nhằm tăng cường độ mịn cho ảnh
e. Phân tích ảnh
Là khâu quan trọng trong quá trình xử lý ảnh để tiến tới hiểu ảnh. Trong phân
tích ảnh việc trích chọn đặc điểm là một bước quan trọng. Các đặc điểm của đối tượng
được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh.
f. Nhận dạng:
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ
yếu sau đây:
 Thu nhận dữ liệu và tiền xử lý.
 Biểu diễn dữ liệu.
 Nhận dạng, ra quyết định.
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
 Đối sánh mẫu dựa trên các đặc trưng được trích chọn.
 Phân loại thống kê.
 Đối sánh cấu trúc.
 Phân loại dựa trên mạng nơ-ron nhân tạo.
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ
để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp
cận khác nhau. Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận
dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai
(hybrid system) bao gồm nhiều mô hình kết hợp.


Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong
cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu
cầu về tốc độ tính toán. Đặc điểm chung của tất cả những ứng dụng đó là những đặc
điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải

được trích chọn dựa trên các thủ tục phân tích dữ liệu.

2.1. Xử lý ảnh để nhận dạng ký tự:
Nhận dạng ký tự là giai đoạn cuối của các hệ thống xử lý ảnh.Nhận dạng ký tự
dựa trên lý thuyết nhận dạng (Pattern Recognition) đã được đề cập nhiều. Trong lý
thuyết về nhận dạng nói chung và nhận dạng ký tự nói riêng có ba cách tiếp cận khác
nhau:
 Nhận dạng dựa vào phân hoạch không gian.
 Nhận dạng dựa vào cấu trúc.
 Nhận dạng dựa vào kỹ thuật mạng nơron.
Hai cách tiếp cận đầu là cách tiếp cận kinh điển. Các đối tượng ảnh quan sát và
thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi
các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng, cuối cùng mới là giai
đoạn nhận dạng. Cách tiếp cận thứ ba hoàn toàn khác. Nó dựa vào cơ chế đoán nhận,
lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người.
Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không cần qua giai đoạn
cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối sánh với các mẫu đã lưu trữ để
nhận dạng. Đây là cách tiếp cận đầy hứa hẹn được trình bày cụ thể trong các phần dưới
đây.
Khái niệm nhận dạng.
Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô hình
nào đó và gán chúng một tên (gán cho đối tượng một tên gọi, tức là một dạng) dựa
theo những quy luật và mẫu chuẩn. Quá trình nhận dạng dựa vào những mẫu học biết
trước gọi là nhận dạng có thầy hay học có thầy, trong những trường hợp ngược lại gọi
là học không có thầy. Chúng ta sẽ lần lượt giới thiệu các khái niệm này.


2.2.1. Tổng quan xử lý ảnh để nhận dạng ký tự:
a. Không gian biểu diễn đối tượng, không gian diễn dịch:
 Không gian biểu diễn đối tượng:

Các đối tượng khi quan sát hay thu thập được thường được biểu diễn bởi tập các
đặc trưng hay đặc tính. Giả sử đối tượng ảnh X (ảnh, chữ viết, dấu vân tay,…) được
biểu diễn bởi n thành phần (n đặc trưng): X={x1,x2…xn}; mỗi xi biểu diễn một đặc
tính. Không gian biểu diễn thường được gọi tắt là không gian đối tượng X được định
nghĩa:
X = { X1, X2,…Xm}
Trong đó mỗi Xi biểu diễn một đối tượng. Không gian này có thể là vô hạn. Để
tiện xem xét chúng ta chỉ xét tập X là hữu hạn.
 Không gian diễn dịch:
Không gian diễn dịch là tập các tên gọi của đối tượng. Kết thúc quá trình nhận
dạng ta xác định được tên gọi cho các đối tượng. Một cách hình thức gọi Ω là tập tên
đối tượng:
Ω={w1, w2,… wk} với wi, i=1,2…k là tên các đối tượng.
Quá trình nhận dạng đối tượng f là một ánh xạ f: X → Ω với f là tập các quy luật
để định một phần tử trong X ứng với một phần tử trong Ω. Nếu tập các quy luật và tập
tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z),
người ta gọi là nhận dạng có thầy. Trường hợp thứ hai là nhận dạng không có thầy.
b. Mô hình và bản chất của quá trình nhận dạng:
 Mô hình:
Trong nhận dạng người ta chia thành hai họ lớn:
- Họ mô tả theo tham số.
- Họ mô tả theo cấu trúc.
Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng. Như vậy, chúng ta
sẽ có hai loại mô hình: mô hình tham số và mô hình cấu trúc.
Mô hình tham số: sử dụng một vectơ để đặc tả đối tượng. Mỗi phần tử của vectơ
mô tả một đặc tính của đối tượng. Thí dụ như trong các đặc trưng chức năng, người ta
sử dụng các hàm cơ sở trực giao để biểu diễn.
Việc lựa chọn phương pháp biểu diễn sẽ làm đơn giản cách xây dựng. Tuy nhiên
việc lựa chọn đặc trưng nào là hoàn toàn phụ thuộc vào ứng dụng. Thí dụ, trong nhận
dạng chữ, các tham số là các dấu hiệu:

- Số điểm chạc ba, chạc tư.
- Số điểm chu trình.
- Số điểm ngoặt.
- Số điểm kết thúc.


×