Tải bản đầy đủ (.pdf) (52 trang)

Nghiên cứu nhận dạng chữ số viết tay dùng mạng noron

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.18 MB, 52 trang )

NGUYỄN PHÚ TĨ NGHIÊN CỨU NHẬN DẠNG CHỮ SỐ VIẾT TAY DÙNG MẠNG NƠRON KHÓA K23CNTT

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC VINH

NGUYỄN PHÚ TĨ

NGHIÊN CỨU NHẬN DẠNG CHỮ SỐ
VIẾT TAY DÙNG MẠNG NƠRON

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

LONG AN, 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC VINH

NGUYỄN PHÚ TĨ

NGHIÊN CỨU NHẬN DẠNG CHỮ SỐ
VIẾT TAY DÙNG MẠNG NƠRON

Chuyên ngành: Công nghệ thông tin
Mã số: 60.48.02.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS Lê Hồng Trang

LONG AN, 2017



LỜI CAM ĐOAN
Tôi xin cam đoan kết quả nghiên cứu luận văn của tơi có tham khảo
một số nội dung tài liệu và tạp chí đã liệt kê trong mục lục tài liệu. Tôi không
sao chép nội dung của người khác và là kết quả nghiên cứu riêng của tôi dưới
sự hướng dẫn của thầy TS. Lê Hồng Trang.

Tác giả luận văn

Nguyễn Phú Tĩ


1

LỜI CẢM ƠN
Việc trao đổi kinh nghiệm và học tập về chuyên môn, nghiệp vụ là
việc rất cần thiết cho mọi người góp phần nâng cao trình độ và nâng cao hiệu
quả làm việc nên bản thân luôn luôn phấn đấu và không ngừng học tập, rèn
luyện để làm sao lãnh hội được nhiều tri thức.
Tuy nhiên trong thời gian học tập và rèn luyện bản thân gặp khơng ích
khó khăn như vừa đi học vừa đi làm, nhất là thời gian làm luận văn vừa tích
cực nghiên cứu vừa tìm tịi thêm tài liệu, học thêm ở bạn và được sự giúp đỡ
tạo mọi điều kiện thuận lợi của Trường Đại học Vinh, Trường Đại học Kinh
tế-Công nghiệp Long An.
Trước những tình cảm rất q báo đó, cho phép bản thân tôi xin cảm
ơn Trường Đại học Vinh, Trường Đại học Kinh tế-Công nghiệp Long An,
Khoa Công nghệ thông tin Trường Đại học Vinh, quý thầy cô và thầy Tiến sĩ
Lê Hồng Trang, vì đã truyền đạt, góp ý, động viên hết sức sâu sắc và chân
tình, xin chân thành cảm ơn các bạn học viên khóa K23CNTT Long An đã
giúp đỡ và động viên để bản thân hoàn thành việc học, hoàn thành được nội

dung luận văn, cảm ơn gia đình vì đã quan tâm, động viên cho việc học, việc
làm luận văn.
Long An, ngày 02 tháng 3 năm 2017
Học viên

Nguyễn Phú Tĩ


2

MỤC LỤC
Trang
LỜI CẢM ƠN ................................................................................................... 1
MỤC LỤC ......................................................................................................... 2
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT ....................................... 4
DANH MỤC CÁC BẢNG, DANH MỤC CÁC HÌNH ................................... 5
MỞ ĐẦU ........................................................................................................... 6
1. Lý do chọn đề tài...................................................................................... 6
2. Lịch sử vấn đề .......................................................................................... 7
3. Đối tƣợng và phạm vi nghiên cứu .......................................................... 8
3.1. Đối tượng ............................................................................................ 8
3.1.1. Nghiên cứu lý thuyết .................................................................... 8
3.1.2. Nghiên cứu thực nghiệm .............................................................. 8
3.2. Phạm vi nghiên cứu ............................................................................ 8
4. Mục đích, nhiệm vụ nghiên cứu ............................................................. 8
4.1. Mục đích tổng quát ............................................................................. 8
4.2. Mục đích cụ thể .................................................................................. 9
4.3. Nhiệm vụ nghiên cứu.......................................................................... 9
5. Phƣơng pháp nghiên cứu ...................................................................... 10
5.1. Nghiên cứu offline ............................................................................ 11

5.2. Nghiên cứu online............................................................................. 11
5.3. Nghiên cứu thực nghiệm .................................................................. 11
6. Đóng góp của Luận văn ........................................................................ 11
7. Kết cấu của luận văn ............................................................................. 11
Chƣơng 1 TIỀN XỬ LÝ ẢNH VÀ TRÍCH CHỌN ĐẶC TRƢNG ............... 12
1.1. Tổng quan về tiền xử lý ảnh ............................................................. 12
1.2. Các công đoạn tiền xử lý .................................................................. 12
1.2.1. Chuyển xám ảnh ........................................................................ 13
1.2.2. Phân ngưỡng ảnh........................................................................ 14
1.2.3. Nhiễu ảnh ................................................................................... 15
1.2.3.1. Một số loại nhiễu ảnh thường gặp ....................................... 16
1.2.3.2. Một số phương pháp lọc nhiễu ............................................ 16
1.2.4. Làm trơn ảnh, tách biên đối tượng ............................................. 18
1.2.5. Trích chọn đặc trưng chuỗi Fourier ........................................... 21


3

Chƣơng 2 MẠNG NƠRON ............................................................................ 23
2.1. Tổng quan về mạng nơron ................................................................ 23
2.2. Mạng nơron nhân tạo ........................................................................ 25
2.3. Mạng Nơron truyền thẳng nhiều tầng (MLP Multilayer Perceptron)
.................................................................................................................. 29
2.3.1. Kiến trúc mạng MLP ................................................................. 29
2.3.2. Huấn luyện mạng MLP .............................................................. 30
2.3.3. Học có giám sát trong các mạng nơron ..................................... 31
2.3.4. Thuật toán lan truyền ngược (Backpropagation) ...................... 31
2.3.4.1. Ưu điểm ............................................................................... 33
2.3.4.2. Hạn chế ................................................................................ 34
2.4. Mạng nơron tích chập ....................................................................... 34

2.4.1. Định nghĩa mạng nơron tích chập .............................................. 34
2.4.2. Tích chập (Convolution) ............................................................ 34
2.4.3. Mơ hình mạng nơron tích chập .................................................. 36
2.5. Mạng nơron tích chập sâu (Deep convolutional networks) .............. 37
Chƣơng 3 NHẬN DẠNG CHỮ SỐ VIẾT TAY DÙNG MẠNG NƠRON ... 41
3.1. Xây dựng mơ hình ............................................................................ 41
3.2. Kiểm tra và thử nghiệm .................................................................... 44
3.3. Kết luận ............................................................................................. 48
3.4. Hướng phát triển ............................................................................... 48
TÀI LIỆU THAM KHẢO .............................................................................. 49


4

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
HMM - Hidden Markov Model
SVM - Support Vector Machines
SV - Support Vector
MLP - Multilayer Perceptron


5

DANH MỤC CÁC BẢNG, DANH MỤC CÁC HÌNH
Hình 1.1. Mơ hình nhận dạng mẫu tổng quát ................................................. 10
Hình 1.2. Chuyển ảnh màu thành ảnh xám ..................................................... 14
Hình 1.3. Phương pháp phân ngưỡng............................................................. 14
Hình 1.4. Ảnh sau khi lọc trung bình và lọc thơng thấp ................................. 18
Hình 1.5. Ảnh sau khi lọc Prewitt, Sobel ........................................................ 19
Hình 1.6. Ảnh sau khi trích chọn đặc trưng Fourier ...................................... 22

Hình 2.1. Cấu trúc bộ não con người ............................................................. 24
Hình 2.2. Cấu trúc Nơron nhân tạo ................................................................ 24
Hình 2.3 Nơron nhân tạo có nhiều đầu vào .................................................... 25
Hình 2.4. Cấu tạo của mạng nơron nhân tạo ................................................. 26
Hình 2.5. Mạng nơron tự kết hợp.................................................................... 27
Hình 2.6. Mạng nơron kết hợp khác kiểu........................................................ 27
Hình 2.7. Cấu trúc mạng nơron truyền thẳng và nhiều tầng .......................... 28
Hình 2.8. Mạng nơron phản hồi...................................................................... 29
Hình 2.9. Mạng nơron truyền thẳng nhiều tầng ............................................. 29
Hình 2.10. Minh họa tích chập ....................................................................... 35
Hình 2.11. Ảnh mờ sau khi chập ..................................................................... 36
Hình 2.12. Ảnh được phát hiện biên sau khi chập .......................................... 36
Hình 3.1. Mơ hình mạng nơron nhận dạng chữ số viết tay ............................ 41
Hình 3.2. Hình tập dữ liệu mẫu huấn luyện .................................................... 43
Hình 3.3. Ảnh kết quả nhận dạng số 6 và số 8................................................ 46
Hình 3.4 Ảnh minh họa các ký tự số nhận dạng bị sai ................................... 47


6

MỞ ĐẦU
1. Lý do chọn đề tài
Chữ viết tay đã gắn bó với lịch sử lồi người qua hàng vạn năm. Từ thuở
xa xưa, con người tập khắc những nét chữ tượng hình đầu tiên lên vách đá để
diễn tả ngơn ngữ của mình. Trải qua vài chục thế kỷ, chữ viết đã giúp con
người ghi chép lại được lịch sử. Mặc dù hiện nay với sự phát triển của cơng
nghệ có nhiều ứng dụng khơng cần viết chữ trên giấy do nó đang dần bị thay
thế bởi các thiết bị cơng nghệ hiện đại nhưng có thể khẳng định, chữ viết tay
vẫn giữ vai trò quan trọng trong đời sống xã hội.
Nhận dạng chữ in và chữ viết tay giúp cho quá trình đọc tài liệu và nhập

dữ liệu nhanh chóng nhằm chuyển văn bản tài liệu giấy sang tài liệu số để dễ
dàng chỉnh sửa, lưu trữ và truy xuất; nhất là việc nhận dạng chữ số viết tay
bằng số sẽ giúp đọc dữ liệu bằng số đối với chứng từ, hóa đơn, phiếu ghi
nhanh chóng, chính xác, kịp thời.
Do đó nghiên cứu nhận dạng chữ viết tay rất quan trọng, nhất là việc
nhận dạng chữ số viết tay từ 0 đến 9 sẽ giúp cho chúng ta số hóa các chữ số
trên chi phiếu ngân hàng, mã số trên bì thư của dịch vụ bưu chính, hay các
chữ số trên các biểu mẫu nói chung nhằm phục vụ cho công việc của người
ngày càng tốt hơn, tiết kiệm nhiều thời gian hơn từ đó nâng cao năng suất lao
động.
Với mong muốn giúp cho việc nhập dữ liệu từ phiếu ghi số được dễ
dàng nhằm nâng cao hiệu quả công việc. Và được sự đồng ý của thầy Tiến sĩ
Lê Hồng Trang nên tôi đã chọn đề tài nghiên cứu nhận dạng chữ số viết tay
dùng mạng nơron.


7

2. Lịch sử vấn đề
Nhận dạng là bài toán xuất hiện cách đây khá lâu và vẫn luôn thu hút
nhiều sự quan tâm, nó khơng dừng lại ở mức độ nghiên cứu nữa mà được ứng
dụng rộng rãi trong nhiều lĩnh vực. Các bài toán nhận dạng mẫu, nhận dạng
tiếng nói đang đuợc ứng dụng trong nhiều lĩnh vực. Trong đó bài tốn nhận
dạng chữ viết nói chung và nhận dạng chữ số viết tay luôn đuợc quan tâm rất
nhiều và những nghiên cứu bước đầu đã đạt đuợc những thành công.
Hiện nay, với phần mềm phẩm FineReader 12.0 của hãng ABBYY có
thể nhận dạng chữ in theo 20 ngơn ngữ khác nhau. Cùng với xu hướng phát
triển con người đang chú ý nghiên cứu pháp phương pháp nhận dạng chữ viết
tay trên các máy TABLET PC... Riêng ở Việt Nam với phần mềm VnDOCR
4.0 của Viện Công nghệ Thông tin Hà Nội có thể nhận dạng được các tài liệu

chứa hình ảnh, bảng và văn bản tiếng Việt với độ chính xác trên 98%.. Tuy
nhiên, đối với bài tốn nhận dạng chữ viết tay vẫn còn là vấn đề thách thức
lớn đối với các nhà nghiên cứu bởi vì nó phụ thuộc quá nhiều vào kiểu chữ
của người viết cùng với sự biến đổi quá đa dạng trong cách viết và trạng thái
tinh thần của từng người viết. Cho nên bài toán nhận dạng chữ viết tay và số
viết tay tiếp tục được nghiên cứu bởi nhóm nghiên cứu Huỳnh Hữu Lộc, Lưu
Quốc Hải, Đinh Đức Anh Vũ nhận dạng chữ viết tay dùng trích rút thơng tin
theo chiều và mạng nơron được cơng bố trên tạp chí Khoa Khoa học và Kỹ
thuật máy tính, Trường Đại học Bách khoa TP Hồ Chí Minh số K2-2011, kết
quả chính xác trên 84 phần trăm; nhóm Đỗ Thanh Nghị và Phạm Nguyên
Khang, nhận dạng ký tự số viết tay bằng giải thuật máy học rừng ngẫu nhiên
xiên phân, Tạp chí Khoa học của Trường Đại học Cần Thơ năm 2013, nhận
dạng chính xác 99.12 phần trăm và Thạc sĩ Trần Văn Nam, nhận dạng ký tự
bằng mạng neural lan truyền ngược, tạp chí khoa học Trường Đại học Trà
Vinh năm 2013, kết quả nhận dạng chính xác đến 98.89 phần trăm...


8

3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tƣợng
3.1.1. Nghiên cứu lý thuyết
Nghiên cứu nhận dạng quang học, cụ thể là nhận dạng chữ số viết tay.
Nghiên cứu về nhận dạng mẫu, nghiên cứu mạng nơron và mạng nơron
tích chập.
3.1.2. Nghiên cứu thực nghiệm
Nghiên cứu sử dụng công cụ lập trình Matlab để xây dựng và thực thi
ứng dụng minh họa nhận dạng chữ số viết tay dùng mạng nơron nhân tạo.
3.2. Phạm vi nghiên cứu
Luận văn tập trung nghiên cứu file ảnh cấu trúc có chứa chữ số viết tay.

Nghiên cứu nhận dạng chữ số tròn 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 khơng có lẻ
bằng mạng nơron nhân tạo.
4. Mục đích, nhiệm vụ nghiên cứu
4.1. Mục đích tổng qt
Xây dựng chương trình nhận dạng chữ viết tay trên bảng thống kê hoặc
biểu mẫu các file ảnh sau đó nhận dạng chữ số viết tay và hiển thị kết quả.
Trong luận văn tập trung nghiên cứu ba mục đích chính:
- Thứ nhất định dạng đúng vị trí chữ số cần nhận dạng trên bảng.
- Thứ hai là nhận dạng chính xác các số đã định dạng vị trí với mức độ
nhận dạng có chính xác cao.
- Thứ ba là hiển thị kết quả nhận dạng ra màn hình.


9

4.2. Mục đích cụ thể
Từ mục đích tổng quát của việc nghiên cứu, tiếp tục nghiên cứu những mục
đích cụ thể sau:
- Thu nhập tài liệu các bảng chữ số viết tay.
- Nghiên cứu xử lý ảnh và trích rút những đặc trưng chữ số viết tay trên
bảng mẫu sử dụng cơng cụ lập trình Matlab.
- Tập hợp các ơ ảnh đã được xử lý và trích rút những đặc trưng, sau đó
nghiên cứu xây dựng tập dữ liệu ảnh huấn luyện và nghiên cứu tập dữ liệu ảnh
mẫu để kiểm tra.
- Sử dụng cơng cụ lập trình Matlab để thiết kế mạng nơron nhân tạo áp
dụng vào nhận dạng chữ số viết tay.
- Tiến hành thử nghiệm, đánh giá chương trình và đưa ra kết luận
- Xây dựng và cài đặt hồn chỉnh chương trình nhận dạng chữ số viết tay.
4.3. Nhiệm vụ nghiên cứu
Nghiên cứu nhận dạng chữ số viết tay từ 0 đến 9 theo mơ hình nhận dạng

mẫu tổng quát hình được cho ở hình 1.1
- Nghiên cứu xử lý ảnh và trích rút những đặc trưng.
- Nghiên cứu các ô ảnh đã được xử lý (nhiễu, làm mịn ảnh…)
- Nghiên cứu mạng nơron nhân tạo và mạng nơron tích chập áp dụng vào
nhận dạng chữ số viết tay.


10

- Nghiên cứu xây dựng tập dữ liệu ảnh huấn luyện và nghiên cứu tập dữ
liệu ảnh mẫu để kiểm tra.
- Nghiên cứu cơng cụ lập trình Matlab và tiến hành thử nghiệm, đánh giá
thảo luận chương trình.
- Xây dựng và cài đặt hồn chỉnh chương trình nhận dạng chữ số viết tay.

Dữ liệu vào (Data)

Chọn mơ hình (Model selection)

Học-Thuật tốn (Learning)

Áp dụng hoặc kiểm tra (Application or
Testing)

Hình 1.1. Mơ hình nhận dạng mẫu tổng quát
5. Phương pháp nghiên cứu
Với những thách thức nêu trên nên có nhiều phương pháp nhận dạng
mẫu khác nhau được áp dụng trong nhận dạng chữ viết tay. Nội dung của luận
văn sử dụng phương pháp mạng nơron để nhận dạng chữ số viết tay bằng



11

phương pháp nghiên cứu sau:
5.1. Nghiên cứu offline
Nghiên cứu lý thuyết về mạng nơron và ứng dụng mạng nơron vào nhận
dạng chữ số viết tay qua tài liệu đã liệt kê trong mục lục tài liệu kham thảo.
Trao đổi nội dung đã nghiên cứu với bạn bè có chung nội dung về nhận
dạng bằng mạng nơron và thầy hướng dẫn.
5.2. Nghiên cứu online
Nghiên

cứu

cơng

cụ

lập

trình

Matlab

qua

web:

/>5.3. Nghiên cứu thực nghiệm
Đi sâu vào nghiên cứu ứng dụng của mạng nơron nhân tạo vào việc nhận

dạng chữ số viết tay, từ việc chuẩn bị dữ liệu, lọc dữ liệu, làm sạch dữ liệu,
tích chọn những đặc trưng cho đến việc nghiên cứu kiến trúc mạng, huấn
luyện và kiểm tra.
Lập trình code trên cơng cụ Matlab, chạy thực nghiệm trên hệ điều hành
Windows và nhận xét về kết quả thực nghiệm.
6. Đóng góp của Luận văn
Luận văn sẽ góp phần cho việc nhập dữ liệu từ các phiếu ghi có chữ số
viết tay được nhanh chóng và thuận lợi.
Luận văn sẽ góp phần cho việc nghiên cứu ứng dụng nhận dạng chữ số
viết tay cho một số ngôn ngữ khác.
7. Kết cấu của luận văn


12

Chƣơng 1 TIỀN XỬ LÝ ẢNH VÀ TRÍCH CHỌN ĐẶC TRƢNG
1.1. Tổng quan về tiền xử lý ảnh
Ảnh đầu vào của quá trình nhận dạng thường thu được qua máy quét ảnh
hoặc ảnh chụp từ thiết bị nên ảnh có chất lượng thấp bởi bị nhiễu, bị nghiêng,
bị đứt nét, do đó phải qua q trình xử lý ảnh để ảnh đạt chất lượng gần với
ảnh gốc ban đầu nhằm nâng cao chất lượng ảnh đầu vào trước khi đưa vào
nhận dạng.
Công đoạn khôi phục ảnh bao gồm các bước như lọc ảnh, khử nhiễu,
quay ảnh, nhằm đưa ảnh về trạng thái gần như ban đầu. Khôi phục ảnh nhằm
loại bỏ hoặc làm giảm tối thiểu các ảnh hưởng của mơi trường bên ngồi lên
ảnh.
Tăng cường ảnh là một cơng đoạn quan trọng, tạo tiền đề cho xử lý ảnh.
Tăng cường ảnh không phải làm tăng lượng thông tin trong ảnh mà là làm nổi
bật những đặc trưng của ảnh giúp cho công việc nhận dạng và xử lý được
hiệu quả hơn. Công đoạn này bao gồm các công việc như lọc độ tương phản,

làm trơn ảnh, nhị phân hóa.
1.2. Các công đoạn tiền xử lý
Giai đoạn tiền xử lý ảnh là giai đoạn quan trọng, có ảnh hưởng trực tiếp
đến độ chính xác của q trình nhận dạng, nhưng nó cũng làm tăng thời gian
chung của cả hệ thống. Do đó tùy theo chất lượng ảnh thu nhận được của từng
trường hợp cụ thể, mà chúng ta chọn sử dụng một hoặc một số thủ tục tiền xử
lý, trong trường hợp văn bản đầu vào có chất lượng tốt ta có thể bỏ qua giai
đoạn tiền xử lý này. Thông thường, chúng ta vẫn phải thực hiện một số thủ


13

tục quan trọng nhất bao gồm: Thủ tục chuyển xám; thủ tục phân ngưỡng; Thủ
tục lọc nhiễu; Căn chỉnh độ lệch trang; Làm trơn ảnh.
1.2.1. Chuyển xám ảnh
Đơn vị tế bào của ảnh số là pixel. Tùy theo mỗi định dạng là ảnh màu
hay ảnh xám mà từng pixel có thông số khác nhau. Đối với ảnh màu từng
pixel sẽ mang thông tin của ba màu cơ bản là Đỏ (R), Xanh lá (G) và Xanh
biển (B) và mỗi pixel có cường độ sáng khác nhau. Thơng thường, mỗi màu
cơ bản được biểu diễn bằng tám bit tương ứng 256 (28)mức độ màu khác
nhau. Đối với ảnh xám, thông thường mỗi pixel mang thông tin của 256 mức
xám (tương ứng với tám bit) như vậy ảnh xám hồn tồn có thể tái hiện đầy
đủ cấu trúc của một ảnh màu tương ứng với ảnh ban đầu.
Trong hầu hết quá trình xử lý ảnh, chúng ta chủ yếu chỉ quan tâm đến
cấu trúc của ảnh và bỏ qua ảnh hưởng của yếu tố màu sắc. Do đó bước
chuyển từ ảnh màu thành ảnh xám là một công đoạn phổ biến trong các q
trình xử lý ảnh vì nó làm tăng tốc độ xử lý là giảm mức độ phức tạp của các
thuật tốn trên ảnh.
Chúng ta có cơng thức chuyển các thông số giá trị màu của một pixel
thành mức xám tương ứng như sau:

G = CR + CG + CB
Trong đó các giá trị CR, CG và CB lần lượt là các mức độ màu Đỏ,
Xanh lá và Xanh biển của pixel màu.
Chuyển ảnh màu thành ảnh xám được cho bởi hình 1.2.


14

Hình 1.2. Chuyển ảnh màu thành ảnh xám
Hình (a). Ảnh gốc ban đầu
Hình (b). Ảnh được chuyển thành ảnh xám
1.2.2. Phân ngưỡng ảnh
Phân ngưỡng hay còn gọi là nhị phân hóa nhằm chuyển từ ảnh màu, ảnh
đa cấp xám sang ảnh nhị phân hai cấp xám. Ảnh nhị phân chỉ sử dụng duy
nhất một bit để biểu diễn một pixel. Do một bit chỉ được thiết lập hai giá trị 1
hoặc 0 tương ứng với hai màu đen và trắng.
Giá trị cụ thể của ngưỡng phụ thuộc vào từng ảnh, vùng ảnh đầu vào
đang xét và không thể lấy cố định. Kết quả của phân ngưỡng ảnh được mô tả
trong hình 1.3.

Hình 1.3. Phương pháp phân ngưỡng


15

Hình (a) là ảnh gốc ban đầu
Hình (b) là ảnh có ngưỡng thấp (80)
Hình (c) ngưỡng trung bình (128)
Hình (d) có ngưỡng cao (224)
Người ta đã đề xuất nhiều phương pháp để xác định giá trị ngưỡng, một

phương pháp là thiết lập ngưỡng sao cho số lượng các điểm đen đạt một
ngưỡng chấp nhận được theo phân phối xác suất mức xám. Do đó chúng ta
chọn ngưỡng nằm ở vị trí thấp nhất trên biểu đồ (histogram) giữa hai đỉnh của
nó. Tuy nhiên việc xác định vị trí này thường rất khó khăn do hình dạng của
biểu đồ thường khơng đều nhau. Một giải pháp để giải quyết vấn đề này là
xấp xỉ giá trị của biểu đồ giữa hai đỉnh với một hàm giải tích và sử dụng vi
phân để xác định điểm thấp nhất. Ví dụ, coi x và y lần lượt là hoành độ và
tung độ trên biểu đồ. Chúng ta có thể sử dụng hàm: y = ax 2 + bx + c. Với
a,b,c là các hằng số hàm xấp xỉ đơn giản cho biểu đồ ở vị trí giữa hai đỉnh của
nó. Vị trí thấp nhất sẽ có tọa độ x = -b/2a.
Phương pháp xấp xỉ các giá trị của biểu đồ và tìm vị trí thấp nhất cho giá
trị ngưỡng tốt hơn nhưng lại u cầu nhiều tài ngun về tính tốn để thực
hiện cũng như độ phức tạp trong việc cài đặt nên trong phạm vi luận văn này
tơi chọn giải pháp tìm ngưỡng theo phân phối xác suất. Phương pháp này đơn
giản hơn và kết quả của nó tương đối đáp ứng được các yêu cầu cho việc nhận
dạng.
1.2.3. Nhiễu ảnh
Trong xử lý ảnh các ảnh đầu vào thường được thu thập từ các nguồn ảnh
khác nhau, các ảnh thu thập được thường có nhiễu nên cần loại bỏ nhiễu hay
ảnh thu được không sắc nét, bị mờ cần làm rõ các chi tiết trước khi đưa vào


16

xử lý.
1.2.3.1. Một số loại nhiễu ảnh thường gặp
-Nhiễu cộng: Nhiễu cộng thường phân bố khắp ảnh. Nếu ta gọi ảnh quan
sát (ảnh thu được) là Xqs, ảnh gốc là Xgốc và nhiễu là  thì ảnh thu được có
thể biểu diễn bởi: Xqs = Xgốc +  .
-Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh. Nếu ta gọi ảnh quan

sát (ảnh thu được) là Xqs, ảnh gốc là Xgốc và nhiễu là  thì ảnh thu được có
thể biểu diễn bởi: Xqs = Xgốc *  .
-Nhiễu xung (nhiễu muối tiêu): Nhiễu xung thường gây đột biến ở một số
điểm của ảnh. Trong hầu hết các trường hợp thừa nhận nhiễu là tuần hoàn.
Các phương pháp lọc đề cập trong báo cáo xét với các trường hợp ảnh chỉ có
sự xuất hiện của nhiễu.
1.2.3.2. Một số phương pháp lọc nhiễu
Để làm giảm nhiễu của ảnh thì phải sử dụng những bộ lọc ảnh, có một số
bộ lọc sau
Bộ lọc trung bình (Mean filter hay Average filter)
Mạch lọc là một mặt nạ có kích thước NxN, trong đó tất cả các hệ số đều
bằng 1. Đáp ứng là tổng các mức xám của NxN pixels chia cho NxN.
1

1

1

1

1

1

1

1

1


1

1

1


17

Nhân chập mặt nạ với tất cả các pixel của ảnh gốc chúng ta sẽ thu
được ảnh kết quả qua bộ lọc Mean theo công thức sau:
f i, j  

1
 k , l : N s(k,l)
s

Với f[i,j] là giá trị pixel kết quả, s(k,l) là các giá trị pixel ảnh gốc được
mặt nạ chập lên và S là kích thước mặt nạ. Bộ lọc Mean có vai trị làm trơn
ảnh có thể xem như bộ lọc thơng cao, nhưng lại làm mờ đường biên của các
đối tượng bên trong ảnh, làm mất tín hiệu cận nhiễu và khơng lọc được nhiễu
xung.
Bộ lọc trung vị (Median filter)
Để thực hiện lọc Median trong lân cận của một pixel chúng ta sắp xếp
các giá trị của pixel và các lân cận, xác định trung vị và định giá trị pixel. Ví
dụ như một lân cận 3x3 có các giá trị: 10, 20, 20, 20, 15, 20, 20, 25, 100. Các
giá trị này được sắp xếp lại theo thứ tự từ thấp đến cao: 10, 15, 20, 20, 20, 20,
20, 25, 100. Giá trị median là 20. Do đó về ngun lý thì bộ lọc median có thể
tách được các điểm có cường độ sáng lớn như nhiễu xung hay còn gọi là các
nhiễu muối tiêu.

Bộ lọc Gauss
Về bản chất bộ lọc Gauss có phương thức tiến hành tương đồng với bộ
lọc trung bình nhưng có thêm tác động của các trọng số. Các trọng số này
được tính tỷ lệ với hàm Gauss theo khoảng cách tới điểm tính tốn. Cơng thức
tính giá trị cho từng pixel ảnh gốc theo lọc Gauss như sau:
g(i,j) =

1
N



m,n:K

G(i-m,j-n) x f(m,n)

Trong đó g(i,j) là giá trị độ xám pixel kết quả, N là kích thước cửa sổ,


18

f(m,n) là giá trị độ xám của pixel đang tác động, G(i-m,j-n) là các trọng số.
Các trọng số được tính toán tỷ lệ theo hàm Gauss bằng khoảng cách tới điểm
tính tốn.
Kết quả của lọc trung bình (average filter) có kích thước 3x3 và bộ lọc
thơng thấp Gaussian được cho bởi hình 1.4.

Hình 1.4. Ảnh sau khi lọc trung bình và lọc thơng thấp
Hình (a) ảnh gốc ban đầu;
Hình (b) ảnh được lọc bởi bộ lọc trung bình có kích thước 3x3;

Hình (c) Ảnh được lọc bởi bộ lọc thơng thấp Gaussian có kích thước là
3x3 và độ lệch là 0.5
1.2.4. Làm trơn ảnh, tách biên đối tượng
Sau quá trình lọc nhiễu, kí tự trên ảnh thu được thường bị đứt nét do ảnh
hưởng của bộ lọc nhiễu. Vì thế cần có một bước để nối lại các nét bị đứt này.
Phương pháp Canny là một phương pháp tách biên ảnh do Francis
Canny tìm ra và quá trình tiến hành thuật toán trải qua một số bước như sau:


19

-Làm trơn ảnh bằng bộ lọc Gauss nhằm giảm thiểu ảnh hưởng của nhiễu
và các chi tiết không mong muốn trong cấu trúc ảnh.
-Tính gradient tức là tính đạo hàm theo hướng và véc tơ gradient của ảnh
nhờ một trong các tốn tử: Roberts, Sobel hay Prewitt…
Hình 1.5 là kết quả của bộ lọc Prewitt và bộ lọc Sobel

Hình 1.5. Ảnh sau khi lọc Prewitt, Sobel
Hình (a) là ảnh gốc ban đầu;
Hình (b) là ảnh sau khi lọc Prewitt;
Hình (c) là nh sau khi lọc Sobel
Trích chọn đặc trưng là q trình tìm ra các thơng tin hữu ích và đặc
trưng nhất cho mẫu đầu vào để sử dụng cho q trình nhận dạng. Trích chọn
đặc trưng là bước quan trọng trong nhận dạng, nó có ảnh hưởng lớn đến tốc
độ và chất lượng nhận dạng. Trích chọn đặc trưng như thế nào để vẫn đảm
bảo không mất mát thông tin và thu gọn kích thước đầu vào là đều vẫn đang


20


được các nhà nghiên cứu quan tâm. Một số đặc trưng cơ bản của mẫu:
- Đặc trưng hình học và hình thái: Là các đặc trưng dựa trên các yếu tố
nguyên thủy (đoạn thẳng, cung) tạo ra các ký tự. Các ký tự có thể được phân
biệt bằng độ đo của các đại lượng hình học như tỉ số giữa chiều rộng và chiều
cao của khung chứa ký tự, quan hệ khoảng cách giữa hai điểm, độ dài một
nét, độ dài tương quan giữa hai nét…Vì thế các ký tự được tổ chức thành các
tập hợp của các yếu tố nguyên thủy, sau đó đưa các yếu tố nguyên thủy vào
các đồ thị liên quan.
- Đặc trưng hướng: Các ký tự được mô tả như các véctơ mà các phần tử
của nó là các giá trị thống kê về hướng. Việc chọn đặc trưng để nâng cao độ
chính xác của bài tốn nhận dạng là hết sức khó khăn, địi hỏi rất nhiều thời
gian và quyết định độ chính xác.
Một số phương pháp trích chọn đặc trưng
Một số phương pháp trích chọn đặc trưng đơn giản nhưng hiệu quả, có
thể áp dụng cho các tập chữ số viết tay rời rạc.
- Trọng số vùng: Ảnh ký tự sau khi tiền xử lý kích thước được chuẩn hố
về m x n điểm ảnh.
- Trích chọn chu tuyến (Contour profiles): Phần được trích chọn là
khoảng cách từ biên của khung chứa đến điểm đen đầu tiên của chữ số trên
cùng một dòng quét.
- Trích chọn đặc trưng Wavelet Haar
Từ ảnh nhị phân kích thước 2n x 2n, phương pháp trích chọn đặc trưng
này sẽ tạo ra một dãy số các đặc trưng giảm dần. Với cùng một chữ số thì các
giá trị lớn ở đầu dãy tương đối ổn định, và có thể đại diện cho hình dạng khái


21

quát của chữ. Còn các giá trị ở cuối dãy nhỏ dần và không ổn định, thể hiện
sự đa dạng trong từng chi tiết của chữ số.

1.2.5. Trích chọn đặc trưng chuỗi Fourier
Biên của ảnh là một trong những đặc trưng quan trọng nhất trong việc
mô tả ảnh. Trong luận văn này sẽ sử dụng phương pháp trích chọn đặc trưng
bằng cách dùng biến đổi Fourier của biên ảnh. Biến đổi Fourier trong không
gian một chiều và biến đổi Fourier trong không gian hai chiều bao gồm biến
đổi Fourier thuận và biến đổi Fourier ngược. Biến đổi thuận là sự biểu diễn từ
không gian thực sang không gian tần số và biến đối ngược là sự biểu diễn của
đối tượng từ không gian Fourier sang không gian thực.
Giả sử biến hình dạng được trích chọn trong q trình tiền xử lý là (x(t),
y(t)), t = 0,1,…,N-1. Nếu ta xem xét hình dạng trên một mặt phẳng phức, ta có
thể thu được hàm phức một chiều f(t) bằng các lần theo biên của nó, f(t) là
một số phức được tổng quát hóa từ hệ tọa độ đường bao.
f(t) = [x(t) - xc] + j[y(t)-yc]
Với (xc, yc) là trọng tâm của ảnh được bao bởi biên, được tính theo cơng
thức xc=

1
N

N 1

 x(t ) , yc=
t 0

1
N

N 1

 y(t ) .

t 0

Với f(t) miêu tả biên và là dấu hiệu bất biến đối với phép dịch chuyển,
biến Fourier đổi rời rạc DFT của f(t) được tính theo cơng thức
Fu=

1
N

N 1

 f(t )e

2 ut
N

t 0

Kết quả của trích chọn đặc trưng theo chuỗi Fourier được cho ở hình 1.6.


22

Hình 1.6. Ảnh sau khi trích chọn đặc trưng Fourier
Hình (a) là ảnh gốc ban đầu
Hình (b) là ảnh sau trích chọn đặc trưng Fourier


×