i
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
TRẦN NGỌC MINH
KỸ THUẬT NHẬN DẠNG CHỮ SỐ DỰA VÀO
MẠNG NƠRON TRONG NHẬP ĐIỂM
TỰ ĐỘNG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 0101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học: PGS.TS ĐỖ NĂNG TOÀN
Thái Nguyên – năm 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
ii
LỜI CẢM ƠN
Trƣớc hết tôi xin gửi lời cảm ơn sâu sắc đến thầy hƣớng dẫn khoa học
PGS.TS Đỗ Năng Toàn về những chỉ dẫn khoa học, định hƣớng nghiên cứu
và tận tình hƣớng dẫn tôi trong suốt quá trình làm luận văn.
Tôi cũng xin cảm ơn các Thầy trong viện Công Nghệ Thông Tin, các
Thầy Cô trong trƣờng Đại học Công Nghệ Thông Tin và Truyền Thông - Đại
học Thái Nguyên đã quan tâm chỉ bảo và trực tiếp giảng dạy, giúp đỡ trong
suốt quá trình học tập và nghiên cứu.
Tôi xin chân thành cảm ơn lãnh đạo các phòng, ban trong trƣờng Cao
đẳng Cộng đồng Bắc Kạn đã tạo điều kiện cho tôi học tập và nghiên cứu đề
tài này.
Cuối cùng, tôi xin cảm ơn gia đình và bạn bè, những ngƣời đã luôn ủng
hộ và động viên tôi để tôi yên tâm nghiên cứu luận văn này.
Trần Ngọc Minh
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
iii
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình của riêng tôi, dƣới sự hƣớng dẫn
của PGS.TS Đỗ Năng Toàn. Các số liệu và kết quả nghiên cứu trong luận văn
này là trung thực và không trùng lặp với các đề tài khác.
Mọi tham khảo trong luận văn đều đƣợc trích dẫn rõ ràng tên tác giả,
tên công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo hay gian trá tôi
xin hoàn toàn chịu trách nhiệm.
Trần Ngọc Minh
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
iv
MỤC LỤC
LỜI CẢM ƠN .................................................................................................... i
LỜI CAM ĐOAN ............................................................................................ iii
MỤC LỤC ........................................................................................................ iv
DANH MỤC HÌNH ẢNH ............................................................................... vi
MỞ ĐẦU ........................................................................................................... 1
CHƢƠNG 1. KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG ................. 3
PHIẾU ĐIỂM .................................................................................................... 3
1.1. Khái quát về xử lý ảnh [1].......................................................................... 3
1.1.1. Các giai đoạn của một quá trình xử lý ảnh. ......................................... 3
1.1.2. Mô tả ảnh ............................................................................................. 5
1.1.3. Một vấn đề trong xử lý ảnh .................................................................. 7
1.2. Nhận dạng phiếu điểm ............................................................................. 15
CHƢƠNG 2. MẠNG NƠRON VÀ NHẬN DẠNG PHIẾU ĐIỂM ............... 20
2.1. Mạng nơron nhân tạo[5]........................................................................... 20
2.1.1. Mô hình toán học ............................................................................... 21
2.1.2. Phân loại ............................................................................................. 22
2.1.3. Các đặc trƣng của mạng nơron nhân tạo ........................................... 24
2.1.4. Một số mô hình mạng nơron cơ bản[5][6]......................................... 27
2.2. Kỹ thuật nhận dạng phiếu điểm ............................................................... 31
2.2.1. Hiệu chỉnh độ dịch chuyển ................................................................ 31
2.2.2. Hiệu chỉnh góc lệch ........................................................................... 33
2.2.2.1. Phƣơng pháp chiếu nghiêng......................................................... 33
2.2.2.2. Phƣơng pháp biến đổi Hough ...................................................... 35
2.2.2.3. Phƣơng pháp láng giềng gần nhất................................................ 37
2.3. Nhận dạng phiếu điểm dựa vào mạng nơron ........................................... 38
2.3.1. Thiết kế mạng nơron .......................................................................... 38
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
v
2.3.2. Lƣợc đồ huấn luyện mạng ................................................................. 41
2.3.3. Thuật toán BackPropagation[9] ......................................................... 42
2.3.4. Nhận dạng và đƣa vào cơ sở dữ liệu .................................................. 44
CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM ......................................... 45
3.1. Huấn luyện ............................................................................................... 45
3.1.1. Lựa chọn mẫu..................................................................................... 45
3.1.2. Kết quả huấn luyện ............................................................................ 49
3.2. Nhận dạng chữ số ..................................................................................... 49
3.3. Phân tích và lựa chọn công cụ.................................................................. 50
3.3.1. Phân tích và chọn công cụ ................................................................ 50
3.3.2. Chƣơng trình thử nghiệm ................................................................... 51
PHẦN KẾT LUẬN ......................................................................................... 55
KẾT LUẬN VÀ KIẾN NGHỊ......................................................................... 56
TÀI LIỆU THAM KHẢO ............................................................................... 57
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
vi
DANH MỤC HÌNH ẢNH
Hình 1.1: Ảnh gốc
Hình 1.2: Ảnh đã giảm độ sáng
Hình 1.3. Ảnh đã được tăng cường độ sáng
Hình 1.4: Ảnh gốc
Hình 1.5: Ảnh đã giảm độ tương phản
Hình 1.6: Ảnh đã được tăng độ tương phản
Hình 1.7: Mô phỏng thuật toán lọc trung vị để loại bỏ nhiễu.
Hình 1.8: Mô tả phép quay ảnh
Hình 1.9: Mẫu bảng điểm thu nhận từ máy quét
Hình 1.10: Bức ảnh trước khi điều chỉnh kích thước
Hình 1.11: Bức ảnh sau khi điều chỉnh kích thước thành M*N
Hình 2.1: Mô hình toán học mạng nơron
Hình 2.2: Mô hình dữ liệu tổng quát
Hình 2.3: Mô hình thuật toán học có giám sát
Hình 2.4: Mô hình mạng Hopfield
Hình 2.5: Mô hình mạng ABAM
Hình 2.6: Mô hình tổng quát mạng Perceptron
Hình 2.7: Mô hình tổng quát mạng Back Propagation
Hình 2.8: Mô hình mạng nơron ngược hướng
Hình 2.9: (a) là ảnh mẫu (b) là ảnh cần nhận dạng
Hình 2.10: Mô hình biểu đồ tần suất của ảnh mẫu và ảnh cần nhận dạng, (a)
ảnh mẫu,(b) ảnh cần nhận dạng, (c) lược đồ tần suất của ảnh mẫu và ảnh cần
nhận dạng được vẽ chồng lên nhau
Hình 2.11: Các hình chiếu theo chiều thẳng đứng và nằm ngang của văn bản
Hình 2.12: Biểu đồ minh hoạ phương pháp người láng giềng gần nhất
Hình 2.13: Cấu trúc mạng nơron
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
vii
Hình 2.14: Lược đồ thuật toán huấn luyện mạng
Hình 2.15: Lược đồ thuật toán BackPropagation
Hình 2.16: Lược đồ thuật toán nhận dạng kí tự
Hình 3.1: Một mẫu dữ liệu huấn luyện mạng
Hình 3.4: Hoàn thành việc học mạng
Hình 3.3: Ấn nút học mạng, bắt đầu quá trình học
Hình 3.2: Trạng thái khởi đầu, khởi tạo quá trình học
Hình 3.5: Tiến hành nhận dạng, chọn ảnh thử nghiệm
Hình 3.6: Chương trình load ảnh thử nghiệm vào
Hình 3.7: Kết quả nhận dạng
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
1
MỞ ĐẦU
Cùng với sự phát triển nhanh chóng về phần cứng máy tính, các phần
mềm càng trở nên đa dạng, phong phú, hoàn thiện hơn và hỗ trợ hiệu quả hơn
cho con ngƣời. Các phần mềm hiện nay ngày càng mô phỏng khá nhiều
nghiệp vụ phức tạp, hỗ trợ cho ngƣời dùng sử dụng thuận tiện, thời gian xử lý
nhanh chóng và một số nghiệp vụ tự động hoá cao trong số đó Mạng nơ ron
nhân tạo là một mô phỏng xử lý thông tin, đƣợc nghiên cứu ra từ hệ thống
thần kinh của sinh vật, giống nhƣ bộ não để xử lý thông tin. Nó bao gồm số
lƣợng lớn các mối gắn kết cấp cao để xử lý các yếu tố làm việc trong mối liên
hệ giải quyết vấn đề rõ ràng. ANNs giống nhƣ con ngƣời, đƣợc học bởi kinh
nghiệm, lƣu những kinh nghiệm hiểu biết và sử dụng trong những tình huống
phù hợp.
Hiện nay, trong hầu hết các cơ sở giáo dục đào tạo cả nƣớc ta đều đƣợc
trang bị phần mềm quản lý điểm nhằm nâng cao chất lƣợng giảng dạy và quản
lý học sinh, sinh viên, giúp giảm bớt một phần lớn công việc của đội ngũ cán
bộ quản lý giáo dục. Tuy nhiên việc cập nhật điểm thi vào hệ thống phần
mềm quản lý giáo dục vẫn còn thủ công, không những làm tốn nhiều công sức
của đội ngũ giáo vụ mà còn có nhiều sai sót đặc biệt với những trƣờng có số
lƣợng môn học và số sinh viên lớn.
Từ những lý do trên, tôi đã chọn đề tài “KỸ THUẬT NHẬN DẠNG
CHỮ SỐ DỰA VÀO MẠNG NƠRON TRONG NHẬP ĐIỂM TỰ
ĐỘNG” với mong muốn phần nào giải quyết đƣợc phần nào những khó khăn
đó. Thay vì phải nhập điểm thủ công, giờ đây việc nhập điểm trở nên dễ dàng,
thuận tiện hơn với chƣơng trình tự động cập nhật điểm.
Việc cập nhật điểm tự động rõ ràng đã giải quyết đƣợc những khó khăn
và bất tiện của chƣơng trình quản lý điểm thông thƣờng để lại.
* Đối tƣợng và phạm vi nghiên cứu
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
2
- Nghiên cứu quá trình phiếu điểm viết tay của giảng viên qua máy quét thu
đƣợc hình ảnh và đƣa vào máy tính.
- Nhập điểm tự động tại trƣờng Cao Đẳng Cộng Đồng Bắc Kạn.
* Hƣớng nghiên cứu của đề tài
- Phiếu điểm viết tay của giảng viên qua máy quét thu đƣợc hình ảnh và đƣa
vào máy tính.
- Phân vùng ảnh thành 2 vùng ảnh cần thiết: Mã sinh viên (hoặc số báo danh)
và Điểm thi.
- Nhận dạng thông qua mạng nơron với các mẫu thu thập đƣợc.
- Cập nhật vào Cơ sở dữ liệu.
* Phƣơng pháp nghiên cứu
- Nghiên cứu các tài liệu và viết tổng quan.
- Phƣơng pháp nghiên cứu bài toán nhận dạng chữ số dựa vào mạng nơron
trong nhập điểm tự động.
- Phƣơng pháp phân tích, đánh giá đối tƣợng (phiếu điểm).
- Nghiên cứu triển khai thử nghiệm chƣơng trình.
* Ý nghĩa khoa học của đề tài
- Bản thân hiểu sâu hơn và áp dụng đƣợc các phƣơng pháp cụ thể là nhận
dạng chữ số dựa vào mạng nơron trong nhập điểm tự động.
- Nâng cao chất lƣợng công việc trong việc nhập điểm tự động trong cán bộ
quản lý giáo dục. Giảm thiểu sai sót trong quá trình nhập điểm.
* Cấu trúc của luận văn bao gồm 3 chƣơng sau:
- Chƣơng 1: Khái quát về xử lý ảnh và nhận dạng phiếu điểm
- Chƣơng 2: Mạng nơron và nhận dạng phiếu điểm
- Chƣơng 3: Chƣơng trình thử nghiệm kỹ thuật nhận dạng chữ số dựa vào
mạng nơron trong nhập điểm tự động
- Kết luận:
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
3
CHƢƠNG 1. KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ NHẬN DẠNG
PHIẾU ĐIỂM
1.1. Khái quát về xử lý ảnh [1]
Xử lý ảnh là một trong những mảng quan trọng nhất trong kỹ thuật thị giác
máy tính, là tiền đề cho nhiều nghiên cứu thuộc lĩnh vực này. Hai nhiệm vụ
cơ bản của quá trình xử lý ảnh là nâng cao chất lƣợng thông tin hình ảnh và
xử lý số liệu cung cấp cho các quá trình khác trong đó có việc ứng dụng thị
giác vào điều khiển.
Đã có rất nhiều công trình nghiên cứu tại nhiều quốc gia từ năm 1920
đến nay về xử lý ảnh đã góp phần thúc đẩy tiến bộ trong lĩnh vực này lớn
mạnh không ngừng.
Quá trình bắt đầu từ việc thu nhận ảnh nguồn (từ các thiết bị thu nhận
ảnh dạng số hoặc tƣơng tự) gửi đến máy tính. Dữ liệu ảnh đƣợc lƣu trữ ở định
dạng phù hợp với quá trình xử lý. Ngƣời lập trình sẽ tác động các thuật toán
tƣơng ứng lên dữ liệu ảnh nhằm thay đổi cấu trúc ảnh phù hợp với các mục đích
khác nhau.
1.1.1. Các giai đoạn của một quá trình xử lý ảnh.
Để có thể hình dung cấu hình một hệ thống xử lý ảnh chuyên dụng hay
một hệ thống xử lý ảnh trong nghiên cứu, đào tạo, trƣớc hết chúng ta hãy xem
xét các bƣớc cần thiết trong xử lý ảnh.
Thu nhận
ảnh
Xử lý trước
Phân đoạn
Tách các
đặc tính
Phân loại
a. Thu nhận ảnh
Ảnh có thể thu nhận qua camera, thông thƣờng ảnh thu nhận qua
camera là tín hiệu tƣơng tự, nhƣng cũng có thể là tín hiệu số hoá. Ảnh cũng
có thể thu nhận từ vệ tinh qua các bộ cảm ứng hay ảnh, tranh đƣợc quét trên
scanner. Sau đó đƣợc lƣu trữ trong máy tính. Gồm có 2 quá trình:
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
4
- Biến đổi năng lƣợng quang học sang năng lƣợng điện.
- Biến đổi năng lƣợng điện sang các ma trận.
b. Xử lí trƣớc
Quá trình xử lí trƣớc thực ra bao gồm nhiều công đoạn nhỏ. Trƣớc hết
là công việc tăng cƣờng ảnh để nâng cao chất lƣợng ảnh. Do những nguyên
nhân khác nhau: có thể do chất lƣợng thiết bị thu nhận ảnh, do nguồn sáng
hay do nhiễu ảnh có thể bị suy biến. Do vậy cần phải tăng cƣờng và khôi phục
lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần
giống nhất với trạng thái gốc (trạng thái trƣớc khi ảnh bị biến dạng). Nhằm
các mục đích phục vụ cho các bƣớc tiếp theo.
Những mục đích riêng biệt có thể đặt ra cho quá trình xử lý trƣớc là:
+ Thực hiện điều chỉnh độ chiếu sáng để khắc phục hậu quả của sự
chiếu sáng không đồng đều.
+ Giảm nhỏ thành phần nhiễu.
+ Cải thiện độ tƣơng phản của ảnh màu do khuôn màu không tốt.
+ Hiệu chỉnh độ méo giá trị xám.
+ Loại bỏ tính không đồng thể của ảnh gây nên từ tính không đồng bộ
của lớp nhạy quang của hệ thống thu nhận ảnh.
+ Chuẩn hóa độ lớn, dạng và màu.
+ Điều chỉnh bộ lọc để khuếch đại các tần số với những thông tin quan
trọng đƣợc khuếch đại và nén đi các tần số khác.
c. Phân đoạn
Là quá trình phân chia các đối tƣợng cần khảo sát ra khỏi phần nội
dung còn lại của ảnh, phân tách các đối tƣợng tiếp giáp nhau và phân tách
những đối tƣợng riêng biệt thành những đối tƣợng con. Một phƣơng pháp
phân đoạn ảnh là sử dụng một ngƣỡng giá trị xám để phân tách ảnh thành đối
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
5
tƣợng và nền (những điểm dƣới ngƣỡng xám thuộc về nền, ngƣợc lại thuộc về
đối tƣợng).
d. Tách ra các đặc tính
Dựa trên các thông tin thu nhận đƣợc qua quá trình phân đoạn, kết hợp
với các kỹ thuật xử lý để đƣa ra các đặc trƣng, đối tƣợng ảnh cũng nhƣ các
thông tin cần thiết trong quá trình xử lý. Nhờ các đặc tính có đƣợc từ ảnh ta
có thể phân loại các đối tƣợng khác nhau của ảnh.
e. Phân loại ảnh
Thực hiện công việc sắp xếp một đối tƣợng vào một lớp đối tƣợng cho
trƣớc. Để giải quyết bài toán này thì các đặc tính có ý nghĩa phải đƣợc lựa
chọn. Ta tìm thấy các đặc tính có ý nghĩa khi ta phân tích các mẫu đƣợc lựa
chọn từ những đối tƣợng khác nhau.
1.1.2. Mô tả ảnh
a. Phần tử ảnh (Pixel - Picture Element)
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng.
Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Trong
quá trình số hoá, ngƣời ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông
qua quá trình lấy mẫu (rời rạc hóa về không gian) và lƣợng hoá thành phần giá
trị mà thể về nguyên tắc bằng mắt thƣờng không phân biệt đƣợc hai điểm kề
nhau. Trong quá trình này, ngƣời ta sử dụng khái niệm Picture element mà ta
quen gọi hay viết là Pixel - phần tử ảnh. Mỗi Pixel bao gồm một cặp tọa độ chỉ
vị trí (x,y) và một mức xám nhất định. Mật độ Pixel trên một ảnh số cho ta xác
định đƣợc độ phân giải của ảnh. Ảnh có độ phân giải càng cao thì càng rõ nét
và ngƣợc lại. Ví dụ một ảnh số có độ phân giải là 800 x 600 Pixel nghĩa là có
800 điểm theo chiều ngang và 600 điểm theo chiều dọc.
b. Mức xám (Gray Level)
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
6
Mức xám của điểm ảnh là kết quả sự biến đổi tƣơng ứng một cƣờng độ
sáng của điểm ảnh đó với một giá trị số (kết quả của quá trình lƣợng hoá).
Cách mã hoá kinh điển thƣờng dùng 16, 32 hay 64 mức. Mã hoá 256 mức là
phổ dụng nhất do lý do kỹ thuật. Vì 28 = 256 (0, 1, ..., 255), nên với 256 mức
mỗi pixel sẽ đƣợc mã hoá bởi 8 bit.
c. Ảnh
Là tập hợp hữu hạn các điểm ảnh, thƣờng đƣợc biểu diễn bằng một
mảng hai chiều I(n,m) với n là số hàng, m là số cột. Ta ký hiệu P(x,y) là một
điểm ảnh tại vị trí (x, y). Số lƣợng điểm ảnh trên mỗi hàng hoặc các hàng xác
định độ phân giải của ảnh.
d. Phân loại ảnh
o Ảnh nhị phân
Giá trị xám của tất các các điểm ảnh chỉ nhận giá trị 1 hoặc 0. Nhƣ vậy
mỗi điểm ảnh trong ảnh nhị phân đƣợc biểu diễn bới 1 bit.
o Ảnh xám
Giá trị xám nằm trong khoảng 0..255. Nhƣ vậy mỗi điểm ảnh trong ảnh
nhị phân đƣợc biểu diễn bới 1 byte.
o Ảnh mầu
Ta quan tâm và xử lý ảnh với mô hình ba màu, ảnh theo mô hình thụ
cảm sẽ chuyển sang mô hình ba màu trƣớc khi xử lý.
- Hệ mầu RGB (RED- GREEN- BLUE): Thông tin con ngƣời thu nhận bằng
hình ảnh đều bắt nguồn từ thị giác. Mắt con ngƣời có khả năng phân biệt đƣợc
rõ nét 3 mầu: đỏ, lục, lam. Các ảnh mầu nói chung đều bao gồm 3 ảnh xám
đối với màu nền đỏ, lục và lam. Tất các màu sắc trong tự nhiên đều có thể
tổng hợp từ 3 thành phần mầu nói trên. Mô hình RGB còn gọi là mô hình
cộng tính, mỗi mức xám của ảnh sẽ đƣợc biểu diễn bởi 3 thành phần: R, G, B
(Mỗi thành phần đƣợc biểu diễn bởi 1 byte).
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
7
- Hệ mầu CMY(CYAN- MAGENTA- YELLOW): là phần bù của hệ mầu
RGB theo nguyên tắc: C + R = M + G = B + Y =(1, 1, 1). Hệ mầu này thƣờng
dùng để xuất thông tin mầu ra các thiết bị nhƣ máy in màu.
- Hệ mầu CMYK(CYAN- MAGENTA- YELLOW- BLACK): Xuất phát từ
hệ mầu CMY với K là độ đậm nhạt của mầu. K. Với C, M, K đƣợc xác định
từ CMY(C1, M1, Y1) nhƣ sau: K = min(C1, M1, Y1, K); C = C1-K; M=M1K; Y= Y1-K.
1.1.3. Một vấn đề trong xử lý ảnh
Ta nhận thấy một ảnh màu RGB bao gồm 3 ảnh xám: R, G và B. Nhƣ
vậy để xử lý ảnh mầu ta phải xử lý trên 3 ảnh xám R, G, B của nó và kết hợp
lại sẽ có kết quả nhƣ mong muốn.
a. Kỹ thuật tăng, giảm độ sáng
Tăng cƣờng độ sáng của một ảnh có thể đƣợc hiểu nhƣ sự phát sáng
toàn bộ ảnh. Hay nói một cách cụ thể đó là sự phát sáng toàn bộ của mọi Pixel
trong ảnh đó. Đây là một kỹ thuật khá đơn giản: để tăng thêm độ sáng, tất cả
các Pixel của ảnh cần đƣợc cộng thêm giá trị điều chỉnh vào mọi kênh màu
RGB. Tuy kỹ thuật này đơn giản nhƣng nó đem lại hiệu quả khá cao và rất
hay đƣợc sử dụng trong lĩnh vực xử lý ảnh. Nó giúp ích rất nhiều trong các
ngành nhƣ y học, địa lý, quân sự,... trong việc phân tích và nhận dạng.
Điều chỉnh độ sáng không chỉ đƣợc sử dụng để làm sáng lên những ảnh
tối mà còn đƣợc sử dụng để làm tối đi các ảnh sáng. Một ảnh sáng hoàn toàn
đơn giản là tất cả các Pixel đều màu trắng trong khi một ảnh tối hoàn toàn là
tất cả các Pixel đều màu tối. Sự khác nhau duy nhất trong làm tối một ảnh là
trừ đi giá trị điều chỉnh vào mỗi kênh màu RGB của ảnh.
Đối với mỗi kênh màu, chúng chỉ nhận các giá trị [0..255]. Chính vì thế
khi tăng cƣờng hay giảm độ sáng của một ảnh ta phải chú ý đến ngƣỡng của
các kênh. Điều đó có nghĩa là với mỗi kênh màu của một Pixel nếu nhỏ hơn 0
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
8
thì ta phải gán bằng 0 và nếu lớn hơn 255 thì ta phải gán bằng 255. Biểu thức
cho kỹ thuật Brightness có dạng:
g(x,y) = f(x,y) + b
Trong đó b là hằng số cộng thêm vào giá trị màu f(x,y). Độ sáng của
ảnh tăng nếu b > 0, và giảm bớt nếu b < 0.
Hình 1.1: Ảnh gốc
Hình 1.2: Ảnh đã giảm Hình 1.3. Ảnh đã được
độ sáng
tăng cường độ sáng
b. Kỹ thuật tăng, giảm độ tƣơng phản
Độ tƣơng phản (Contrast) thể hiện sự thay đổi cƣờng độ sáng của đối
tƣợng so với nền, hay nói cách khác, độ tƣơng phản là độ nổi của điểm ảnh
hay vùng ảnh so với nền.
Ảnh số là tập hợp các điểm, mà mỗi điểm có giá trị độ sáng khác nhau.
Ở đây, độ sáng để mắt ngƣời dễ cảm nhận ảnh song không phải là quyết định.
Thực tế chỉ ra rằng hai đối tƣợng có cùng độ sáng nhƣng đặt trên hai nền khác
nhau nhau sẽ cho cảm nhận khác nhau. Vì vậy ta có thể thay đổi độ tƣơng
phản của ảnh sao cho phù hợp.
Việc làm tăng độ tƣơng phản rất hữu ích khi tiến hành xử lý trƣớc theo
phƣơng pháp phân ngƣỡng. Bằng việc làm tăng độ tƣơng phản, sự khác nhau
của giá trị nền và đối tƣợng, độ dốc của cạnh đối tƣợng đƣợc tăng lên. Do đó
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
9
sau khi làm tăng độ tƣơng phản ta có thể tìm các giá trị màu thích hợp với
một vùng sáng hơn. Trong một ảnh có độ tƣơng phản cao, có thể xác định
đƣợc các viền rõ ràng và chi tiết khác nhau của ảnh đó đƣợc nổi bật. Còn
trong một ảnh có độ tƣơng phản thấp, tất cả các màu đều gần nhƣ nhau gây
khó khăn cho việc xác định các chi tiết của ảnh.
Hình 1.4: Ảnh gốc
Hình 1.5: Ảnh đã giảm độ Hình 1.6: Ảnh đã được
tương phản
tăng độ tương phản
Biểu thức cho kỹ thuật Contrast có dạng:
g(x,y) = af(x,y)
Trong đó a là hằng số nhân vào giá trị màu tại f(x,y). Độ sáng của ảnh
tăng nếu a > 1, và giảm bớt nếu a < 1.
c. Tách ngƣỡng
Ta chọn hai mức Thấp- Min, Cao-Max và giá trị ngƣỡng λ, khi đó giá
trị các pixel đƣợc định nghĩa lại nhƣ sau:
+ Inew(x, y) = Max nếu I(x, y) >= λ
+ Inew(x, y) = Min nếu I(x, y) < λ
d. Chuyển đổi sang ảnh nhị phân
Nhiệm vụ của việc chuyển đổi sang ảnh nhị phân là tách màu của “đối
tƣợng” ra khỏi nền. Biểu đồ hình cột của giá trị mức xám của tài liệu ảnh
thông thƣờng chứa 2 giá trị: giá trị mức cao tƣơng ứng với màu nền trắng và
giá trị nhỏ hơn tƣơng tứng với màu chữ. Vì thế, nhiệm vụ của việc xác định
ngƣỡng giá trị mức xám (giá trị mức xám lớn hơn giá trị ngƣỡng sẽ là màu
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
10
trắng, giá trị mức xám nhỏ hơn giá trị ngƣỡng sẽ là màu đen) là xác định một
giá trị thích hợp để việc chuyển đổi từ ảnh xám sang ảnh nhị phân sao cho
lƣợng thông tin mất mát là ít nhất.
Trong đề tài này tôi tính ngƣỡng để chuyển đổi từ ảnh xám sang ảnh
nhị phân theo phƣơng pháp của Otsu. Và việc chuyển đổi từ ảnh xám sang
ảnh nhị phân đƣợc thực hiện theo phƣơng pháp ngƣỡng tổng thể.
o Phƣơng pháp ngƣỡng toàn cục
Trong phƣơng pháp sử dụng ngƣỡng toàn cục, giá trị ngƣỡng đƣợc tính
toán từ toàn bộ ảnh. Các điểm ảnh có giá trị mức xám dƣới ngƣỡng sẽ đƣợc
coi nhƣ là “nét bút”; các điểm ảnh có mức xám lớn hơn ngƣỡng đƣợc coi là
“nền”. Quá trình này có thể đƣợc mô tả nhƣ sau:
1
b ( x, y )
0
if
f ( x, y ) T
otherwise
Trong phƣơng pháp ngƣỡng toàn cục, tôi sử dụng phƣơng pháp Otsu để
tính ngƣỡng của mỗi bức ảnh. Phƣơng pháp của Otsu dựa trên việc phân tích
biểu đồ hình cột mức xám của toàn bộ ảnh và sau đó chọn một giá trị làm giá
trị ngƣỡng phù hợp với việc chuyển đổi ảnh sang ảnh nhị phân.
o Phƣơng pháp Otsu
Trong lĩnh vực xử lý ảnh, phƣơng pháp Otsu đƣợc dùng để tự động
thực hiện việc tính ngƣỡng của một ảnh, và sau đó dùng giá trị ngƣỡng vừa
tính đƣợc để chuyển đổi ảnh xám sang ảnh nhị phân.
Thuật toán tính ngƣỡng có thể mô tả nhƣ sau: Các giá trị mức xám của
ảnh đƣợc chia ra làm 2 lớp sau đó tính giá trị ngƣỡng. Chúng ta sẽ tìm giá trị
ngƣỡng nhỏ nhất trong các lớp khác nhau, đƣợc định nghĩa nhƣ là một tổng
các giá trị khác nhau của các lớp;
w2 (t ) 1 (t ) 12 (t ) 2 (t ) 22 (t )
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
11
Trọng số wi là xác suất của 2 lớp đƣợc tác riêng biệt bởi ngƣơng t và
các i2 khác nhau của các lớp đó.
Phƣơng pháp Otsu chỉ ra rằng giá trị nhỏ nhất trong một lớp đồng thời
cũng đƣợc coi nhƣ là giá trị lớp nhất giữa 2 lớp.
b2 (t ) 2 w2 (t ) 1 (t )2 (t )1 (t ) 2 (t )2
Phƣơng pháp tính ngƣỡng theo Otsu dựa trên một ý tƣởng khá là đơn
giản: Tìm giá trị ngƣỡng mà có giá trị trọng số nhỏ nhất trong các lớp khác nhau.
Điều này cũng tƣơng đƣơng với việc tìm giá trị lớn nhất giữa 2 lớp khác nhau.
Trọng số trong một lớp đƣợc tính nhƣ sau:
w2 (t ) 1 (t ) 12 (t ) 1 (t ) 22 (t )
Trong đó các xác suất của lớp đƣợc tính nhƣ sau:
t
L
1 (t ) P(i )
2 (t ) P(i )
i 1
i t 1
Và các giá trị trung bình đƣợc cho bởi công thức:
t
iP (i )
i 1 1 (t )
1 (t )
2 (t )
L
iP (i )
i t 1
2 (t )
Cuối cùng, các lớp khác nhau đƣợc tính theo công thức sau:
2
t
12 (t ) i 1 (t )
i 1
L
2
22 (t ) i 2 (t )
i t 1
P(i )
1 (t )
P(i )
2 (t )
* Thuật toán:
- Tính biểu đồ hình cột và xác suất của mỗi cƣờng độ xám.
- Khởi tạo i (0) và i (0)
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
12
- Tính toán tất cả các trƣờng hợp có thể có giá trị ngƣỡng từ t=1 tới
cƣờng độ mức xám lớn nhất.
- Cập nhật i và i
- Tính b2 (t )
- Giá trị ngƣỡng mong muốn tƣơng đƣơng với giá trị b2 (t ) lớn nhất.
e. Loại bỏ nhiễu
Đối với một tệp tin ảnh thì nhiểu đƣợc định nghĩa là nhƣng thông tin
không có trong ảnh gốc, nhƣng trong quá trình sử dụng các thiết bị để đọc ảnh
vào trong máy tính xuất hiện thêm những thông tin không mong muốn. Việc
xử lý nhiễu tức là loại bỏ các thông tin này ra khỏi ảnh để thuận tiện cho việc
trích rút thông tin phục vụ cho việc xử lý ảnh dễ dàng hơn và chính xác hơn.
o Một số kiểu nhiễu:
Có một số kiểu nhiễu mà chúng ta hay gặp:
Loại nhiễu “salt” và “peper”, các điểm ảnh trong ảnh là những màu hay
cƣờng độ sáng khác nhau so với các điểm xung quanh nó. Đối với những
điểm ảnh là loại nhiễu này thì thông thƣờng giá trị mức xám của chúng không
liên quan tới các điểm ảnh xung quanh nó.
Trong đề tài này, dữ liệu ảnh chủ yếu đƣợc lấy bằng cách scan ảnh, do
đó loại nhiễu phổ biến và thƣờng gặp đó là „salt‟ và „peper‟.
o Các phƣơng pháp lọc nhiễu.
Sử dụng bộ lọc tuyến tính: Một trong những phƣơng pháp để loại bỏ
nhiễu là kết hợp ảnh gốc (ảnh cần lọc nhiễu) với một mặt nạ lọc thông thấp
hoặc là làm mƣợt ảnh. Ví dụ, mặt nạ Gaussian bao gồm các phần tử đƣợc xác
định bởi hàm Gaussion. Sự kết hợp này mang đến giá trị của mỗi điểm ảnh
cân đối với các điểm lân cận nó. Một cách tổng quát, một bộ lọc làm mƣợt
ảnh thiết lập giá trị của mỗi điểm ảnh là giá trị trung bình của chính nó và các
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
13
điểm ảnh lân cận. Các bộ lọc làm mƣợt ảnh đƣợc sử dụng để loại bỏ vết nhơ
trong ảnh.
Sử dụng bộ lọc không tuyến tính: Bộ lọc trung bình là một ví dụ về bộ
lọc không tuyến tính, bộ lọc này rất tốt đối với việc loại bỏ các loại nhiễu là
“salt” và “peper”.
* Thuật toán:
- Xét mỗi điểm ảnh cần lọc.
- Sắp xếp giá trị mức xám của các điểm ảnh lân cận theo hƣớng tăng
dần
- Thay thế giá trị mức xám gốc bằng giá trị mức xám ở chính giữa của
dãy vừa sắp xếp.
Hình 1.7: Mô phỏng thuật toán lọc trung vị để loại bỏ nhiễu.
f. Các phép biến đổi hình học
o Phép dịch ảnh
Là sự tịnh tiến gốc tọa độ, trong đó các trục của tọa độ sau phép biến
đổi sẽ di chuyển theo cùng hƣớng, việc phân chia thang trên tọa độ là không
đổi. Gốc tọa độ cũ (-tx, -ty) thì tọa độ (x‟, y‟) đƣợc tính nhƣ sau:
x‟ = x - tx y‟= y – ty
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
14
o Phóng to hoặc thu nhỏ ảnh
Còn đƣợc gọi là sự chia lại thang tọa độ. Khi chia thang tọa độ gốc và
hƣớng đƣợc giữ nguyên, chia thang tiến hành với hệ số chia thang Sx, Sy và
các tọa độ mới đƣợc tính toán theo
x‟ = x*Sx y‟ = y*Sy
o Phép quay ảnh
Thực ra đây là phƣơng pháp chuyển đổi các Pixel trong ảnh. Do không
làm thay đổi trị màu trong ảnh nên có thể thực hiện phƣơng pháp này trên ảnh
màu cũng nhƣ trên ảnh xám. Một ảnh đƣợc xem nhƣ là một mảng hai chiều,
chuyển đổi lại vị trí các Pixel là sắp xếp lại mảng này. Khi quay thì sự chia
thang giữ nguyên chỉ có hƣớng trục thay đổi. Còn trục mới xuất hiện bằng
cách quay trục cũ đi một góc θ ngƣợc chiều kim đồng hồ, khi đó tọa độ mới
đƣợc theo theo công thức:
x‟ = cosθ + y.sinθ
y‟ = -x.sinθ + y.cosθ
cos
Với T là ma trận quay: T sin
0
sin
cos
0
0
0
1
Nhƣ vậy, ảnh có kích thƣớc I[W*H]. Khi quay một góc θ thì kích thƣớc
mới sẽ đƣợc tính nhƣ sau:
W_moi= H_cu * |Sin(θ)| + W_cu *| Cos(θ)|;
H_moi = W_cu * |Sin(θ)| + H_cu * |Cos(θ)|;
Khi đó ảnh quay sẽ có kích thƣớc I(W_moi , H_moi). Tọa độ 4 góc của
ảnh cũ lần lƣợt là:
(x1,y1) = (0,0) ; (x2,y2) = (w,0) ; (x3,y3) = (w,h) ; (x4,y4) = (0,h) ;
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
15
X3
Ảnh quay
X2
X4
X1
W
x1(0,0)
x2(w,0)
X3
Ảnh gốc
X2
x4(0,h)
x3(w,h)
X4
Ảnh quay
sau khi tinh tiến
X1
Hình 1.8: Mô tả phép quay ảnh
1.2. Nhận dạng phiếu điểm
a. Phân tách vùng chứa dữ liệu.
Trong quá trình nhập điểm, thông tin quan trọng cần đƣợc lấy đó là vùng
ảnh chứa mã số sinh viên và vùng ảnh chứa điểm Z. Khi lấy đƣợc vùng ảnh
chứa mã số sinh viên và vùng ảnh chứa điểm Z, ta thực hiện việc tách ra
thành các dòng khác nhau. Mỗi một dòng sẽ là mã sinh viên của từng sinh
viên và căn cứ vào mã sinh viên này ta có thể cập nhật điểm mà đƣợc lấy ra từ
vùng ảnh chứa điểm Z vào trong cơ sở dữ liệu.
Việc tách một vùng ảnh ra thành các vùng nhỏ tƣơng ứng với các hàng
khác nhau đƣợc thực hiện khá đơn giản bằng giải thuật “Horizontal
Projection”. Tƣơng tự, việc tách các kí tự trên cùng một hàng sẽ đƣợc thực
hiện bằng giải thuật “Vertical Projection”
Dƣới đây là bức ảnh của bảng điểm mà chúng ta thu đƣợc bằng cách sử
dụng máy scan và lƣu lại dƣới dạng file ảnh.
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
16
Hình 1.9: Mẫu bảng điểm thu nhận từ máy quét
Nhìn vào chúng ta có thể thấy công việc của chúng ta cần làm là tách
bức ảnh trên ra thành 2 vùng nhỏ:
+ Vùng 1: Chứa mã số sinh viên.
+ Vùng 2: Chứa điểm của sinh viên.
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
17
b. Tách dòng và tách kí tự.
o Giải thuật Horizontal Projection
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
18
Giải thuật này đƣợc sử dụng để chia nhỏ vùng ảnh chứa mã số sinh viên ra
thành các vùng ảnh nhỏ hơn, mỗi vùng ảnh chứa một mã số của 1 sinh viên.
Giải thuật Horizontal Projection có thể đƣợc mô tả nhƣ sau
0
PH h B px, h
x 0
1
w1
if p( x, h) is white
if p( x, h) is black
Trong đó: - PH(h) là tổng số điểm ảnh màu đen trên dòng h
- W là chiều rộng của ảnh.
- p(x,h) nghĩa là điểm ảnh nằm trên tọa độ (x,h).
Khi chúng ta tính Horizontal Projection trên hàng h, nếu nhƣ hàng này
có PH(h) != 0 thì chúng ta có thể cắt từ hàng 0 tới h-1 thành một vùng ảnh nhỏ
và đƣợc coi là một hàng tƣơng ứng với một mã số sinh viên.
o Giải thuật Vertical Projection
Giải thuật này đƣợc sử dụng để chia vùng ảnh con tƣơng ứng với một
hàng thu đƣợc từ bƣớc trên để lấy đƣợc các kí tự riêng biệt.
Giải thuật Vertical Projection có thể đƣợc mô tả nhƣ sau:
H 1
0
PV c B px, c
x 0
1
if p( x, c) is white
if p( x, c) is black
Trong đó: - PV(c) là tổng số điểm ảnh màu đen trên dòng h
- H là chiều cao của ảnh
- p(x,c) nghĩa là điểm ảnh nằm trên tọa độ (x,c).
Khi chúng ta tính Vertical Projection trên cột c, nếu nhƣ hàng này có
PH(c) != 0 thì chúng ta có thể cắt từ cột 0 tới c-1 thành một vùng ảnh nhỏ và
đƣợc coi là một hàng tƣơng ứng với một chữ số trong mã sinh viên.
c. Trích rút đặc trƣng
Sau khi tách dòng và tách riêng từng kí tự thành công. Ta thực hiện tiếp
công đoạn tiếp theo đó là trích rút đặc trƣng của từng bức ảnh chứa các kí tự
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>