BÁO CÁO BÀI TẬP LỚN ANDROID, ĐỀ TÀI XÂY DƯNG CHƯƠNG TRÌNH NHẬN DẠNG BIỂN SỐ XE MÁY VÀ XE Ô TÔ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 31 trang )

BÁO CÁO BÀI TẬP LỚN ANDROID
ĐỀ TÀI: XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG BIỂN SÔ
XE MÁY VÀ XE Ô TÔ

Giảng viên hướng dẫn:Ts.Nguyễn Hồng Quang
Sinh viên thực hiện: Trần Văn Tâm
MSSV:20102124
Lớp: Điện tử 6-K55

TP.Hà Nội,tháng 12 năm 2014
1

MỞ ĐẦU
Vấn đề nhận dạng nói chung và nhận dạng biển số xe nói riêng là bài toán thu hút được sự quan
tâm nghiên cứu của nhiều nhà khoa học trên thế giới, đặc biệt là trong những năm gần đây khi
các thiết bị di động như điện thoại di động, máy tính bảng ra đời và phổ biến, công với nhu cầu
thiết thực hỗ trợ giải quyết vấn đề trong đời sống như tự động hóa trong các bãi giữ xe,trạm cân,
rửa xe hay kiểm soát lưu lượng, kiểm soát an ninh.
Nội dung báo cáo trình bày về nhận dạng biển số xe sử dụng mô hình mạng neural với ứng dụng
trên hệ điều hành Android. Hướng tiếp cận dựa trên diện mạo, dùng bộ phân loại mạnh AdaBoots
– là sự kết hợp của các bộ phân loại yếu dựa trên các đặc trưng Haar-like – để phát hiện vùng
chứa biển số, phương pháp hình thái học để tiến hành thực hiện phân tách kí tự và nhận dạng kí
tự bằng phương pháp được sử dụng phổ biến nhất là mạng neural (neural network). Hệ thống đã
được thử nghiệm trên thực tế, trong môi trường đủ sáng, thiếu sáng với mẫu nhận dạng đứng yên
bước đầu cho kết quả tốt.
Từ khóa: neural network, android, automatic number plate recognition, ANPR, Kohonen
network.

2

MỤC LỤC
I. Hệ thống nhận dạng biển số ………………………………………………………………….5
1. Phát hiện vùng chứa biển số xe………………………………………………………5
1.1 Đặc trưng Haar-like…………………………………………………………6
1.2 AdaBoost……………………………………………………………………8
1.3 Hệ thống xác định vùng chứa biển số xe……………………………………10
1.4 Huấn luyện bộ phân loại…………………………………………………….11
2.Tách kí tự………………………………………………………………………………14
2.1 Chuẩn hóa kích thước ảnh…………………………………………………...14
2.2 Chuyển đổi ảnh màu về ảnh xám…………………………………………….15
2.3 Tăng tính tương phản bằng thuật toán cân bằng hóa lược đồ xám…………..16
2.4 Xác định ngưỡng, nhị phân hóa ảnh…………………………………………17
2.5 Tìm biên, xác định các đường viền (contour) của ảnh nhị phân…………….18
2.6 Tách kí tự dựa trên đặc tính hình thái học…………………………………...19
3. Nhận dạng kí tự………………………………………………………………………..20
3.1 Mạng neural sinh học………………………………………………………...20
3.2 Mạng neural nhân tạo………………………………………………………...21
3.3 Mạng neural Kohonen……………………………………………………….22
3.4 Ánh xạ ma trận điểm ảnh vào ma trận giá trị………………………………...25
4. Tổng kết……………………………………………………………………………….26
II. Hiện thực hệ thống nhận dạng biển số xe trên android smartphone………………………….27
1. Tính năng của ứng dụng……………………………………………………………….27
3

2. Cấu trúc ứng dụng……………………………………………………………………28
2.1 Các lớp trong ứng dụng…………………………………………………….28
2.2 Chương trình huấn luyện mạng Kohonen………………………………….29
2.3 Hiệu chỉnh kết quả dựa trên cú pháp……………………………………....30

3. Tổng kết chương……………………………………………………………………..30
Tài liệu tham khảo

4

I.Hệ thống nhận dạng biển số
Yêu cầu của hệ thống:




Thu thập hình ảnh từ camera
Thực hiện ghi mẫu biển số xe
Nhận dạng biển số xe

Trong đó chức năng quan trọng nhất là nhận dạng biển số.Chức năng nhận dạng biển số thường
được hiện thực bằng cách giải quyết riêng rẽ ba bài toán nhỏ hơn đó là phát hiện vùng chứa biển
số, tách kí tự và nhận dạng kí tự.
1. Phát hiện vùng chứa biển số xe
Đây là bước đầu tiên và khó khăn nhất quyết định tới kết quả của toàn bộ hệ thống. Mục đích của
bước này là trích ra được vùng nhỏ nhất chứa biển số từ ảnh thu được từ camera của điện thoại.
Có nhiều phương pháp tiếp cận để thực hiện được nhiệm vụ này nhưng tất cả đều có thể qui về 3
phương pháp chính sau đây:


Phương pháp dùng chuyển đổi Hough: dựa vào đặc trưng cạnh biên, áp dụng các phương
pháp xác định đường thẳng như phép biến đổi Hough để phát hiện các cặp đường thẳng



gần song song ghép thành một ảnh biển số.
Phương pháp hình thái học: dựa vào đặc trưng hình thái của biển số xe như màu sắc, độ



sang, sự đối xứng. . . để xác định và trích ra ảnh biển số.
Phương pháp khớp mẫu: xem biển số là một đối tượng có khung nền riêng và sử dụng các
cửa sổ dò để trích từng đối tượng đưa qua mạng noron (neural network), trí tuệ nhân tạo
(artificial intelligence) để phân loại có phải là vùng biển số hay không.
Trong bài làm của mình em sử dụng hướng tiếp cận dựa trên diện mạo, dùng bộ phân loại

mạnh AdaBoost - là sự kết hợp của các bộ phân loại yếu dựa trên các đặc trưng Haar-like - để
phát hiện vùng chứa biển số. Phương pháp này được đánh giá là khá đơn giản, nhưng mang lại
kết quả phát hiện tương đối cao. Phương pháp được cài đặt dựa trên bộ thư viện mã nguồn mở
openCV.

5

1.1 Đặc trưng Haar-like
Do Viola và Jones công bố năm 2001 [16], gồm 4 đặc trưng cơ bản để xác định đối tượng. Mỗi
đặc trưng Haa-like là sự kết hợp của hai hay ba hình chữ nhật “trắng” hay “đen”. Để sử dụng các
đặc trưng này vào việc xác định những đối tượng tương đối phức tạp, 4 đặc trưng Haar-like cơ
bản được mở rộng thêm thành tập đặc trưng cơ bản sau:

Hình 1.1 Các dạng cơ bản của đặc trưng Haar-like
Dùng các đặc trưng trên, ta có thể tính được giá trị của đặc trưng Haar-like là sự chênh
lệch giữa tổng của các pixel của các vùng đen và các vùng trắng như trong công thức sau:
F(x) = (1.1)

Sử dụng giá trị này, so sánh với các giá trị của các giá trị pixel thô, các đặc trưng Haarlike có thể tăng/giảm sự thay đổi in-class/out-of-class (bên trong hay bên ngoài lớp khuôn mặt
người), do đó sẽ làm cho bộ phân loại dễ hơn.
Như vậy có thể thấy rằng, để tính các giá trị của đặc trưng Haar-like, ta phải tính tổng của các
vùng pixel trên ảnh. Nhưng để tính toán các giá trị của các đặc trưng Haar-like cho tất cả các vị
trí trên ảnh đòi hỏi chi phí tính toán khá lớn, không đáp ứng được cho các ứng dụng đòi hỏi tính
run-time. Do đó Viola và Jones đưa ra một khái niệm gọi là Integral Image, là một mảng 2 chiều
với kích thước bằng với kích của ảnh cần tính các đặc trưng Haar-like, với mỗi phần tử của mảng
này được tính bằng cách tính tổng của điểm ảnh phía trên (dòng-1) và bên trái (cột-1) của nó. Bắt
6

đầu từ vị trí trên, bên trái đến vị trí dưới, phải của ảnh, việc tính toán này đơn thuần chỉ đựa trên
phép cộng số nguyên đơn giản, do đó tốc độ thực hiện rất nhanh.
P(x,y) =

(1.2)

Hình 1.2 Cách tính Integral Image của ảnh
Sau khi đã tính được Integral Image, việc tính tổng các giá trị mức xám của một vùng bất kỳ nào
đó trên ảnh thực hiện rất đơn giản theo cách sau:
Giả sử ta cần tính tổng các giá trị mức xám của vùng D như trong hình 3.3, ta có thể tính
như sau:
D = A + B + C + D – (A + B) – (A + C ) + A

(1.3)

Với A + B + C + D chính là giá trị tại điểm P4 trên Integral Image, tương tự như vậy A +
B là giá trị tại điểm P2, A + C là giá trị tại điểm P3, và A là giá trị tại điểm P1. Vậy ta có thể viết
lại biểu thức tính D ở trên như sau:

D= ‒ ‒ +

(1.4)

Hình1.3Ví dụ cách tính nhanh các giá trị mức xám của vùng D trên ảnh
7

Tiếp theo, để chọn các đặc trưng Haar-like dùng cho việc thiết lập ngưỡng, Viola và
Jones sử dụng một phương pháp máy học được gọi là AdaBoost. AdaBoost sẽ kết hợp các bộ
phân loại yếu để tạo thành một bộ phân loại mạnh. Với bộ phân loại yếu chỉ cho ra câu trả lời
chính xác chỉ hơn việc đoán một cách ngẫn nhiên một chút, còn bộ phân loại mạnh có thể đưa ra
câu trả lời chính xác trên 60%.
1.2 AdaBoost
AdaBoost là một bộ phân loại mạnh phi tuyến phức dựa trên hướng tiếp cận boosting được
Freund và Schapire đưa ra vào năm 1995. Adaboost cũng hoạt động trên nguyên tắc kết hợp
tuyến tính các weak classifiers để hình thành một strong classifier.
Là một cải tiến của tiếp cận boosting, AdaBoost sử dụng thêm khái niệm trọng số (weight) để
đánh dấu các mẫu khó nhận dạng. Trong quá trình huấn luyện, cứ mỗi weak classifiers được xây
dựng, thuật toán sẽ tiến hành cập nhật lại trọng số để chuẩn bị cho việc xây dựng weak classifier
kế tiếp: tăng trọng số của các mẫu bị nhận dạng sai và giảm trọng số của các mẫu được nhận
dạng đúng bởi weak classifier vừa xây dựng. Bằng cách này weak classifer sau có thể tập trung
vào các mẫu mà các weak classifiers trước nó làm chưa tốt. Sau cùng, các weak classifers sẽ
được kết hợp tùy theo mức độ tốt của chúng để tạo nên strong classifier.
Viola và Jones dùng AdaBoost kết hợp các bộ phân loại yếu sử dụng các đặc trưng Haar-like
theo mô hình phân tầng (cascade) như sau:

8

Hình 1.4 Mô hình phân tầng kết hợp các bộ phân loại yếu để xác định biển số
Trong đó, hk là các bộ phân loại yếu, được biểu diễn như sau:
hk =

(3.5)

x: cửa sổ con cần xét
: ngưỡng (θ = theta)
fk: giá trị của đặc trưng Haar-like
pk: hệ số quyết định chiều của phương trình
AdaBoost sẽ kết hợp các bộ phân loại yếu thành bộ phân loại mạnh như sau:
H(x) = sign ( a1h1(x) + a2h2(x) +…+ anhn(x))

(a= alpha) (3.6)

với: a ≥ 0 là hệ số chuẩn hoá cho các bộ phân loại yếu.

Hình 1.5 Kết hợp các bộ phân loại yếu thành bộ phân loại mạnh

9

1.3 Hệ thống xác định vùng chứa biển số xe

Hình 1.6 Hệ thống xác định vùng chứa biển số xe

Như trong hình 1.6, từ ảnh gốc ban đầu, tính Integral Image, là mảng 2 chiều với phần tử (x; y)
sẽ được tính bằng tổng của các phần tử (x′; y′) với x′< x và y′< y, mục đích là để tính nhanh tổng
của các giá trị mức xám của một vùng hình chữ nhật bất kỳ trên ảnh gốc. Các vùng ảnh con này
sẽ được đưa qua các hàm Haar cơ bản để ước lượng đặc trưng, kết quả ước lượng sẽ được đưa

qua bộ điều chỉnh AdaBoost để loại bỏ nhanh các đặc trưng không có khả năng là đặc trưng của
biển số xe. Chỉ có một tập nhỏ các đặc trưng mà bộ điều chỉnh AdaBoost cho là có khả năng là
đặc trưng của biển số xe mới được chuyển sang cho bộ quyết định kết quả (là tập các bộ phân
loại yếu có cấu trúc như trong hình 1.4). Bộ quyết định sẽ tổng hợp kết quả là biển số xe nếu kết
quả của các bộ phân loại yếu trả về là biển số xe.
10

Mỗi bộ phân loại yếu sẽ quyết định kết quả cho một đặc trưng Haar-like, được xác định ngưỡng
đủ nhỏ sao cho có thể vượt được tất cả các bộ dữ liệu mẫu trong tập dữ liệu huấn luyện (số lượng
ảnh biển số xe trong tập huấn luyện là rất lớn). Trong quá trình xác định vùng chứa biển số xe,
mỗi vùng ảnh con sẽ được kiểm tra với các đặc trưng trong chuỗi các đặc trưng Haar-like, nếu có
một đặc trưng Haar-like nào cho ra kết quả là biển số xe thì các đặc trưng khác không cần xét
nữa. Thứ tự xét các đặc trưng trong chuỗi các đặc trưng Haar-like sẽ được dựa vào trọng số
(weight) của đặc trưng đó do AdaBoost quyết định dựa vào số lần và thứ tự xuất hiện của các đặc
trưng Haar-like.
1.4 Huấn luyện bộ phân loại
Để có thể nhận dạng biển số xe theo phương pháp tiếp cận dựa trên diện mạo đã trình bày tại
phần trên, trước hết cần thực hiện huấn luyện bộ phân loại dùng cho quá trình nhận dạng. Nhiệm
vụ huấn luyện bộ phân loại thực sự là một thử thách bởi như đã đề cập tại phần trước quá trình
này yêu cầu một tập dữ liệu mẫu rất lớn, nên tiêu tốn rất nhiều thời gian và công sức. Có thể chia
quá trình huấn luyện bộ phân loại làm 2 bước chính:



Chuẩn bị mẫu
Huấn luyện

Chuẩn bị mẫu
Quá trình huấn luyện yêu cầu hai tập dữ liệu mẫu (sample) đó là: positive và negative. Mẫu

negative là tập những bức ảnh không chứa đối tượng cần nhận dạng, ngược lại mẫu positive là
tập những bức ảnh chứa đối tượng cần nhận dạng. Mẫu negative được lấy từ những bức ảnh tùy
ý không chứa đối tượng cần nhận dạng. Tất cả những bức ảnh này được liệt kê trong một file
miêu tả dưới dạng plain-text, ứng với mỗi dòng trong file miêu tả này sẽ là một bức ảnh.
Em sử dụng 3000 file ảnh trích từ bộ phim Step Up Revolution làm tập mẫu Negative.
Mẫu positive là tập những bức ảnh chứa đối tượng cần nhận dạng, một bức ảnh có thể chứa một
hoặc nhiều đối tượng. File miêu tả của tập mẫu positive cũng là một file plain-text, mỗi dòng sẽ
chứa tương ứng với một file ảnh, tiếp sau đó là số lượng đối tượng cần nhận dạng có trong bức
ảnh, tiếp sau đó là tọa độ x, y tương ứng của mỗi đối tượng đó. Khóa luận sử dụng 2000 bức ảnh
chứa biển số làm tập mẫu positive. Những bức ảnh này được được thu thập (quay và chụp) trong
11

vòng 4 ngày tại nhiều địa điểm của thành phố Hồ Chí Minh, với những điều kiện, thời gian khác
nhau.Bước tiếp theo sau khi đã có được file miêu tả của tập mẫu negative và positive là phải tạo
bộ mẫu input cho quá trình huấn luyện. Để thực hiện điều này, ta sử dụng tiện ích
opencv_createsamples được cung cấp sẵn trong thư viện nguồn mở OpenCV.
Các tùy chọn của tiện ích opencv_createsamples:
./opencv_createsamples
-info <description_file_name>
-img <image_file_name>
-vec <vec_file_name>
-bg <background_file_name>
-num <number_of_samples = 1000>
-bgcolor <background_color = 0>
-inv -randinv -bgthresh <background_color_threshold = 80>
-maxidev <max_intensity_deviation = 40>
-maxxangle <max_x_rotation_angle = 1.100000>
-maxyangle <max_y_rotation_angle = 1.100000>
-maxzangle <max_z_rotation_angle = 0.500000>

-show <scale = 4.000000>
-w <sample_width = 24>
-h <sample_height = 24>
Sử dụng opencv_createsamples với cú pháp sau:
opencv_createsamples.exe -info positive/ positive.txt -vec data/vector.vec -num 2000 -w 55-h 40
12

-info positive/ positive.txt: đường dẫn file miêu tả của tập mẫu positive
-vec data/vector.vec: đường dẫn file output sẽ được tạo ra sau quá trình tạo mẫu
-num 2000: số lượng mẫu là 2000 như đã đề cập
-w 55 -h 40: kích thước của mỗi mẫu sẽ được tạo ra, theo đúng với tỷ lệ của biển số xe(140x190)
Sau khi tạo ra file mẫu dưới dạng vector, mọi thứ đã sẵn sàng để chuyển qua bước kế tiếp đó là
huấn luyện.
Huấn luyện
Đây là bước cuối cùng của quá trình huấn luyện nhưng cũng là bước yêu cầu nhiều thời gian
nhất. Mất 6 ngày chạy liên tục để hoàn thành bước này trên một máy tính tương đối mạnh. Trong
suốt quá trình thực thi, hiệu suất của CPU được tận dụng tối đa, luôn trong tình trạng 100% đang
sử dụng. Tiện ích opencv_traincascade được sử dụng trong bước này để hoàn tất quá trình huấn
luyện. Cú pháp sử dụng:
opencv_traincascade.exe -data data/cascade -vec data/vector.vec -bg negative/infofile.txt
numPos 2000 -numNeg 2999 -numStages 20 -mode ALL -w 55 -h 40
-data data/cascade: đường dẫn để lưu kết quả của quá trình huấn luyện
-vec data/vector.vec: đường dẫn file vector được tạo ra trong bước chuẩn bị mẫu từ tập mẫu
positive
-bg negative/infofile.txt: đường dẫn file miêu tả của tập mẫu negative
-numPos 2000: số lượng file ảnh của tập mẫu positive
-numNeg 2999: số lượng file ảnh của tập mẫu negative
-numStages 20: số stage mong muốn
-mode ALL: chế độ ALL sẽ sử dụng tất cả các dạng (kể cả mở rộng) của đặc trưng Haar-like

-w 55 -h 40: kích thước của tập mẫu

13

Sau khi hoàn tất quá trình huấn luyện này, ta sẽ thu được bộ phân loại dưới dạng một file xml
dành cho quá trình nhận dạng.
2.Tách kí tư
Sau khi đã phát hiện được vùng chứa biển số, bài toán tiếp theo cần phải giải quyết là phân tách
được từng kí tự trên vùng biển số đã thu được, điều này mang lại thuận lợi rất lớn cho bước cuối
cùng của hệ thống, nhận dạng kí tự.
Có rất nhiều phương pháp có thể áp dụng để thực hiện nhiệm vụ này. Có thể kể ra ở đây như tách
tĩnh, lượng tử hóa vector (vector quantization), lược đồ chiếu ngang và dọc (vertical and
horizontal projection), mạng noron (neural network), trí tuệ nhân tạo (AI), hình thái học
(morphology) . . . Khóa luận này đã lựa chọn phương pháp hình thái học để tiến hành thực hiện
phân tách kí tự.
Mỗi một kí tự trên biển số sẽ là một đối tượng có đặc điểm hình thái học cụ thể như là chiều cao,
chiều rộng, tỉ lệ 2 chiều biến đổi tương đối ít (nếu ảnh chứa vùng biển số đã được đưa về cùng
một kích cỡ) mà dựa vào đó ta có thể tách ra được cụ thể từng kí tự riêng rẽ. Từ đó ra có thuật
toán tách kí tự từ ảnh chứa vùng biển số đã thu được như sau:
1.
2.
3.
4.
5.
6.

Chuẩn hóa kích thước ảnh.
Chuyển đổi ảnh màu về ảnh xám
Tăng cao tính tương phản bằng thuật toán cân bằng lược đồ xám.

Xác định ngưỡng, nhị phân hóa ảnh.
Tìm biên, xác định các đường viền (contour) của ảnh nhị phân
Tách kí tự dựa trên đặc tính về hình thái học.

2.1Chuẩn hóa kích thước ảnh
Đây là khâu đầu tiên và cũng là đơn giản nhất của thuật toán, chuẩn hóa kích thước ảnh khiến độ
chênh lệch giữa kí tự trên các biển số khác nhau giảm xuống làm cho việc tách kí tự dựa trên đặc
tính hình thái học trở nên chính xác hơn. Và việc chuẩn hóa kích thước ảnh ở đâu thực tế chỉ đơn
giản là thực hiện thay đổi (resize), đưa ảnh về cùng một phân giải đã chọn trước,
chọn kích thước này là 680x492 (đây cũng chính là tỷ lệ của một biển số).
Có 5 phương thức chính để thực hiện việc thay đổi kích thước ảnh:
14







INTER_NEAREST nearest-neighbor interpolation
INTER_LINEAR bilinear interpolation
INTER_AREA area interpolation
INTER_CUBIC bicubic interpolation
INTER_LANCZOS4 Lanczos interpolation

Hình 1.7
Qua thực nghiệm, thấy rằng phương thức INTER_NEAREST là phương thức đơn giản và tốc độ
thực thi nhanh nhất, nhưng không đảm bảo chất lượng ảnh. Bốn phương thức còn lại mang lại
kết quả tương đối tốt và khá giống nhau nên khóa luận quyết định chọn phương thức

INTER_LINEAR do nó đảm bảo được chất lượng ảnh sau khi resize và tốc độ nhanh hơn các
phương thức còn lại (không kể INTER_NEAREST).
2.2 Chuyển đổi ảnh màu về ảnh xám
Do khâu xác định ngưỡng và nhị phân hóa ảnh chỉ thực hiện được đối với một bức ảnh đơn kênh
(single channel) nên ở bước này của thuật toán, khóa luận lại thực hiện một bước biến đổi đơn
giản nữa đó là chuyển đổi ảnh vùng chứa biển số (sau khi đã chuẩn hóa kích thước) từ ảnh màu
(3 channels) sang ảnh xám (grayscale - còn gọi là ảnh trắng đen, 1 channel).
Một bức ảnh màu thường được dựng bằng cách xếp chồng cách kênh màu lên nhau. Ví dụ một
bức ảnh RGB được hợp thành bởi 3 kênh màu riêng rẽ, kênh đỏ (red), kênh xanh lá cây (green),

15

và kênh xanh dương (blue); còn một bức ảnh CMYK sẽ gồm 4 kênh đó là màu lục lam (cyan),
đỏ tươi (magenta), màu vàng (yellow) và màu đen (black) . . .
Đối với hệ màu RGB hoặc RBG, việc chuyển đổi sang đen trắng được thực hiện một cách đơn
giản bằng cách độ sáng (luminance) trên từng pixel của ảnh qua công thức sau:
Y′= 0.2126R + 0.7152G + 0.0722B

Hình 1.8
2.3 Tăng tính tương phản bằng thuật toán cân bằng hóa lược đồ xám
Cân bằng lược đồ xám (histogram equalization) là một phương pháp chung dùng để điều chỉnh
mức độ tương phản của ảnh. Đôi khi những chủ thể chính cần quan tâm xử lý (các kí tự) và
phông nền (nền biển số) có độ tương phản không cao bởi nhiều yếu tố như chữ bị mờ, bóng nắng
gây khó khăn cho quá trình xử lý tiếp theo, nên khóa luận áp dụng phương pháp này để cải thiện
độ tương phản cho bức ảnh.

Hình 1.9
2.4 Xác định ngưỡng, nhị phân hóa ảnh

16

Nhị phân hóa là quá trình biến đổi một ảnh xám thành một ảnh nhị phân. Ảnh nhị phân chỉ chứa
hai giá trị 0 hoặc 1 (hoặc 0 và 255 tùy theo quy định của cấu trúc ảnh). Theo đó, giá trị 0 sẽ là giá
trị ứng với những điểm đen trên ảnh và giá trị 1 (hoặc 255) sẽ là giá trị ứng với những điểm
trắng.
Nhị phân hóa ảnh thường được thực hiện bằng phương thức phân ngưỡng (Thresholding). Công
thức phân ngưỡng là đặt tất cả các giá trị của ảnh xám về 0 nếu chúng bé hơn một ngưỡng T cho
trước và về 255 nếu chúng lớn hơn ngưỡng T đó. Vấn đề ở đây là với ngưỡng T như thế nào thì
cho ta được tấm ảnh nhị phân như ý muốn, nghĩa là ảnh làm nổi các vùng đối tượng và nền. Việc
xác định giá trị T là rất khó vì chúng phụ thuộc vào từng điều kiện chiếu sáng khác nhau của môi
trường. Với môi trường này T nhận một giá trị, môi trường khác lại một giá trị khác. Kiểm
nghiệm thực tế đã xác định được rằng không thể sử dụng một ngưỡng chung để nhị phân hóa các
bức hình chứa vùng biển số thu được.
Để giải quyết vấn đề này, khóa luận lựa chọn dùng phương pháp lấy ngưỡng động hay còn gọi là
ngưỡng thích nghi (adaptive thresholding). Phương pháp này giúp nhị phân hóa một ảnh xám với
những ngưỡng khác nhau trên từng vùng ảnh khác nhau của một tấm ảnh.

Hình 1.10
Phương pháp này sẽ lấy ngưỡng nhị phân trên một vùng cục bộ là một cửa sổ có kích
thước MxN. Ngưỡng cần xác định đối với tâm của cửa sổ đó sẽ là trung bình cộng các giá trị của
các lân cận của nó. Giả sử cần lấy ngưỡng động cho điểm A22 và kích thước cửa sổ là 3x3. Khi
đó giá trị T sẽ là:
T = 1/8(A11 + A12 + A13 + A21 + A23 + A31 + A32 + A33)

17

Nếu A22 > T , đặt A22 về 255, nếu A22 < T , đặt A22 về 0. Qua đây có thể thấy rằng để nhị phân

hóa được một bức ảnh theo cách trên sẽ tốn rất nhiều thời gian, đặc biệt là đối với những cửa sổ
có kích thước lớn. Để tránh hiện tượng này, phải dùng tới cách tính Integral Image đã được nhắc
tới trong phần trình bày về đặc trưng Haar-like.

Hình 1.11
2.5 Tìm biên, xác định các đường viền (contour) của ảnh nhị phân
Biên ảnh là những điểm mà tại đó hàm độ sáng của ảnh liên tục có bước nhảy hoặc biến thiên
nhanh. Cơ sở toán học của việc phát hiện và tách biên là phép toán đạo hàm, phương pháp này
còn được gọi là phương pháp phát hiện biên trực tiếp. Tập hợp các điểm biên tạo thành đường
biên (edge) hay đường bao (boundary) của ảnh. Ví dụ trong một ảnh nhị phân một điểm có thể
được gọi là biên nếu đó là điểm đen và có ít nhất một điểm trắng lân cận. Biên ảnh thường được
dùng để phân vùng ảnh, và trong khóa luận sẽ dựa vào biên ảnh để xác định các kí tự trên vùng
chứa biển số do trong biển số sau khi đã nhị phân hóa các kí tự là màu trắng nằm trên nền đen rất
rõ ràng.
Có rất nhiều phương pháp để thực hiện việc tìm biên này như sử dụng bộ tách biên Canny,
Laplacian . . . việc tìm biên nhờ hoàn toàn vào tính năng đã được hiện thực hóa trong thư viện
OpenCV.

18

Hình 1.12
2.6 Tách kí tư dưa trên đặc tính hình thái học
Dựa vào các đường viền liền mạch đã tìm được từ bước trước và đặc tính về hình thái học của
các kí tự trên biển số sau khi đã được chuẩn hóa kích thước, cụ thể:



1.5 ≤ Chiều cao / chiều rộng ≤ 3.0
Diện tích (Chiều cao*chiều rộng) ≥5000

Ta có thể dễ dàng tìm được vùng chứa các kí tự riêng rẽ trên biển số.

Hình 1.13
Từ các vùng kí tự đã xác được ở trên, việc tách kí tự ra khỏi biển số trở nên vô cùng đơn giản và
kết quả thu được như hình dưới:

19

Hình 1.14
3. Nhận dạng kí tư
Sau khi đã tách được các kí tự riêng rẽ tại phần trước, bài toán tiếp theo cần phải xử lý đó là nhận
dạng kí tự. Bài toán này cũng có thể được giải quyết bằng nhiều phương pháp khác nhau nhưng
phương pháp được sử dụng phổ biến nhất là sử dụng mạng neural (neural network). Tại phần
này, khóa luận trình bày sơ lược về mạng neural sinh học, nhân tạo và một loại mạng nhân tạo cụ
thể là Kohonen – là mạng sẽ được khóa luận sử dụng để giải quyết bài toán nhận dạng kí tự.
3.1 Mạng neural sinh học
Mạng neural sinh học được cấu thành bởi các neural – là các tế bào não hay các tế bào thần kinh.
Mỗi neural như vậy có ba thành phần chính: dendrite, soma và axon. Ba thành phần này là ba
yếu tố được mô phỏng lại trong mạng neural nhân tạo.Các dendrite là các đầu tiếp nhận các xung
điện đầu vào từ những neural khác. Các xung điện này sau đó được chuyển đến soma – phần
thân của tế bào – để xử lý. Axon là đầu ra của các neural, nó truyền xung điện đã được xử lý tại
soma đến các neural khác thông qua các điểm nối (synaptic gap). Một mạng neural sinh học bao
gồm nhiều neural như vậy nối với nhau thông qua các điểm nối, đầu ra (axon) của neural này sẽ
được nối với đầu vào (dendrite) của neural khác. Một neural có nhiều đầu vào và nhiều đầu ra.

20

Hình 1.15. Mạng neural sinh học
3.2 Mạng neural nhân tạo
Mạng neural nhân tạo là một bộ xử lý phân tán song song được cấu tạo bởi các đơn vị xử lý đơn
giản, có chức năng lưu trữ những tri thức kinh nghiệm và cho phép sử dụng những tri thức này.
Mạng neural mô phỏng bộ não người theo hai khía cạnh sau:


Tri thức được thu thập bởi mạng neural trong môi trường hoạt động thông qua một quá



trình học (hay còn gọi là huấn luyện).
Trọng số của liên kết giữa các đơn vị xử lý được dùng để lưu trữ những tri thức thu thập
được.

Quá trình học được thực hiện bởi một thuật toán học. Thuật toán này sẽ làm thay đổi trọng số
liên kết giữa các đơn vị xử lý để đạt được mục tiêu thiết kế. Mạng neural nhân tạo được xây
dựng dựa trên các mô hình toán học mô phỏng hoạt động của những yếu tố chính trong mạng
neural sinh học (dendrite, soma, axon). Hoạt động của mạng neural nhân tạo có những tính chất
sau:
- Quá trình xử lý thông tin xảy ra tại mỗi đơn vị của mạng, gọi là neural.
- Các neural được liên kết với nhau.
- Mỗi liên kết của các neural đều có một trọng số. Trọng số này đặc trưng cho bài toán
được biểu diễn bởi mạng. Khi nhận được thông tin đầu vào, các đầu vào sẽ được nhân với các
trọng số tương ứng, sau đó được cộng lại để cho một giá trị gọi là net.
- Mỗi neural đề có một hàm kích hoạt (activation function), hàm này có chức năng tính
toán đầu ra cho neural dựa vào giá trị net đã nêu ở trên.
Đặc trưng của một mạng neural nhân tạo bao gồm:
- Mô hình kết nối giữa các neural trong mạng với nhau hay còn gọi là kiến trúc của mạng.
- Cách thức xác định trọng số của các liên kết trong mạng.

- Hàm kích hoạt của các neural.

21

Mạng neural nhân tạo được ứng dụng để giải quyết nhiều lớp bài toán: lưu trữ và phục hồi trạng
thái của mẫu, phân lớp mẫu, tìm ánh xạ giữa đầu vào và đầu ra, gom nhóm các mẫu giống nhau
hoặc dùng để giải quyết các bài toán về tối ưu có ràng buộc.

Hình 1.16 Biểu diễn một neural nhân tạo.
3.3 Mạng neural Kohonen
Trong các kiểu khác nhau của mạng neural, mạng neural Kohonen giống với mạng neural sinh
học hơn cả về cấu tạo lẫn cơ chế học. Mạng neural Kohonen là mạng có khả năng sử dụng những
kinh nghiệm của quá khứ để thích ứng với những biến đổi của môi trường (không dự báo trước).
Loại mạng này thuộc nhóm hệ học, thích nghi không cần có tín hiệu chỉ đạo từ bên ngoài.
Cấu trúc của mạng neural Kohonen
Mạng neural Kohonen chỉ bao gồm một lớp dữ liệu đầu vào và một lớp dữ liệu đầu ra của các
neuron và nó không chứa lớp ẩn. Lớp dữ liệu đầu vào đối với mạng neural Kohonen là các
neuron đầu vào. Các neuron đầu vào này tạo thành mẫu dữ liệu đầu vào của mạng. Đối với mạng
neural Kohonen, ta nên chọn dữ liệu đầu vào chuẩn hóa trong khoảng giữa -1 và 1. Khi thực thi
mẫu dữ liệu đầu vào, mạng sẽ tạo ra các neuron đầu ra. Lớp đầu ra của mạng neural Kohonen rất
khác với lớp đầu ra của mạng neural truyền thẳng. Đối với mạng truyền thẳng, nếu chúng ta có
một mạng neural với 5 neuron đầu ra, chúng sẽ có thể cho kết quả bao gồm 5 giá trị. Còn trong
mạng neural Kohonen chỉ có một neuron đầu ra cho ra một giá trị. Giá trị duy nhất này có thể là
đúng hoặc sai. Dữ liệu đầu ra từ mạng neural Kohonen thường là các chỉ số của neuron (Ví dụ
neuron số 5,. . . ). Cấu trúc đặc trưng của mạng neural Kohonen được chỉ ra trong hình sau.
22

Hình 1.17. Một dạng mạng neural Kohonen.

Quá trình học của mạng Kohonen
Toàn bộ quá trình huấn luyện cho một mạng neural Kohonen cần phải lặp lại qua vài công đoạn.
Nếu sai số đã tính toán của mạng neural Kohonen ở mức thấp hơn mức có thể chấp nhận được
thì sẽ hoàn tất quá trình huấn luyện. Quá trình huấn luyện cho mạng neural Kohonen là huấn
luyện cạnh tranh nên mỗi tập huấn luyện sẽ có một neuron thắng. Neuron thắng này sẽ có trọng
số được điều chỉnh sao cho ngay lập tức nó sẽ tác động trở lại mạnh mẽ hơn trong dữ liệu đầu
vào ở lần tiếp theo. Sự khác nhau giữa các neuron thắng sẽ dẫn tới sự khác nhau giữa các mẫu
đầu vào tiếp theo.

23

Hình 1.18 Sơ đồ khối biểu diễn huấn luyện mạng neural Kohonen.

24

3.4 Ánh xạ ma trận điểm ảnh vào ma trận giá trị
Muốn sử dụng mạng Kohonen để nhận dạng kí tự, bước đầu tiên là ta phải ánh xạ ảnh của kí tự
vào một ma trận nhị phân hai chiều tương ứng. Một việc rất quan trọng ở đây là việc quyết định
kích cỡ của ma trận. Nếu các điểm ảnh của kí tự được ánh xạ vào ma trận quá nhỏ, sẽ không biểu
diễn được đặc trưng của các kí tự, còn nếu ma trận quá lớn, có thể dẫn đến việc xử lý ma trận
gặp khó khăn. Qua thực nghiệm, để cho cân bằng hợp lý, khóa luận chọn kích cỡ của ma trận là
20x50 với 1000 phần tử. Đây cũng chính là số neuron lớp input của mạng Kohonen sẽ được sử
dụng.
Thuật toán downsampling:
- Bước 1: Khởi tại ma trận kích thước 20x50.
- Bước 2 : Xác định tỉ lệ tương ứng chiều rộng, chiều dài giữa ma trận điểm ảnh của ảnh kí tự và
ma trận 20x50.
- Bước 3 : Ánh xạ tương ứng từng vùng ma trận điểm ảnh của kí tự vào ma trận 20x50 thông qua

tỉ lệ đã xác định được.

Hình 1.19 Chia lưới kí tự.

25

BÁO CÁO BÀI TẬP LỚN ANDROID, ĐỀ TÀI XÂY DƯNG CHƯƠNG TRÌNH NHẬN DẠNG BIỂN SỐ XE MÁY VÀ XE Ô TÔ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về