Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
1
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỤC LỤC
MỤC LỤC 1
MỞ ĐẦU 4
CHƢƠNG 1 6
TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ SO KHỚP ĐỐI TƢỢNG 6
1.1. TỔNG QUAN VỀ XỬ LÝ ẢNH 6
1.1.1. Xử lý ảnh 6
1.1.2. Quá trình thu nhận ảnh 7
1.1.3. Biểu diễn và thể hiện ảnh 7
1.1.4. Histogram của ảnh 10
1.1.5. Độ phân giải của ảnh 11
1.1.6. Biên của ảnh 12
1.1.6.1. Phương pháp phát hiện biên trực tiếp 13
1.1.6.2. Phương pháp phát hiện biên gián tiếp 16
1.1.7. Phân ngưỡng ảnh 19
1.1.8. Nhận dạng ảnh 20
1.1.9. Cấu trúc phân cấp của video 23
1.1.10. Một số thuộc tính đặc trưng của video 24
1.2. SO KHỚP ĐỐI TƢỢNG 26
1.2.1. Khái niệm so khớp. 26
1.2.2. Khớp ảnh sử dụng phép đối sánh pixel-pixel 26
1.2.3. Khớp ảnh sử dụng tương quan chéo 26
CHƢƠNG 2 29
MỘT SỐ KỸ THUẬT TRONG BẮT BÁM VÀ SO KHỚP ĐỐI TƢỢNG CHUYỂN ĐỘNG 29
2.1. GIỚI THIỆU 29
2.2. K THUT TRỪ ẢNH THEO KHUNG ẢNH 31
2.2.1. Trừ ảnh dựa vào điểm ảnh 33
2.2.2. Trừ ảnh phân khối 34
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
2
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2.2.3. Phương pháp biểu đồ 35
2.2.4. Biểu đồ toàn cục 36
2.2.5. Biểu đồ cục bộ 37
2.3. K THUT BT BN DA VO PHP TRỪ NỀN V TRCH CHN ĐƢỜNG
VIỀ N CỦ A ĐỐ I TƢỢ NG CHUYỂ N ĐỘ NG 38
2.3.1. Trừ nền 38
2.3.2. Trích chọn đường viền và gán nhãn 40
2.3.3. Bám đối tượng 40
2.4. ĐC TRƢNG BIÊN TRONG SO KHỚP ĐỐI TƢỢNG 44
2.4.1. Thuật toán phân vùng, phân cụm 44
2.4.2. Thể hiện đường biên 45
2.4.2.1. Thuật toán nhị phân ảnh đầu vào 46
2.4.2.2. Thuật toán tách cạnh, dò biên 47
2.4.3. Thể hiện đường biên bằng hàm bán kính - vectơ 49
2.4.4. Mô tả và trích chọn đặc trưng biên ảnh 51
CHƢƠNG 3 55
CHƢƠNG TRÌNH THỬ NGHIỆM 55
3.1. BÀI TOÁN 55
3.2. MÔ HÌNH HỆ THỐNG GIM ST GIAO THÔNG T ĐỘNG BẰNG CAMERA 56
3.3. PHÂN LUỒNG GIAO THÔNG DA TRÊN NGUYÊN LÝ BM ĐỐI TƢỢNG 57
3.3.1. Đặt vấn đề 57
3.3.2. Hoạt động của hệ thống phân luồng giao thông 59
3.3.3. Thuật toán bắt bám đối tượng 61
3.3.4. Thuật toán tính vận tốc chuyển động của đối tượng 62
3.3.5. Thuật toán phân loại phương tiện dựa trên kích thước 63
3.3.6. Thuật toán tính toán mật độ làn đường 64
3.3.7. Thuật toán phát hiện phương tiện theo làn đường 65
3.3.8. Thuật toán phát hiện chiều chuyển động của đối tượng 66
3.3.9. Nhận dạng biển số xe 68
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
3
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3.4. KẾT QUẢ CI ĐT 71
KẾT LUẬN 75
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỞ ĐẦU
Trong những năm qua, lĩnh vực xử lý ảnh luôn thu hút đƣợc sự quan tâm của
nhiều nhà khoa học bởi khả năng ứng dụng và lợi ích to lớn của nó trong nhiều
lĩnh vực của xã hội nhƣ quốc phòng, giải trí, y học, viễn thám và giao thông.
Nhƣ chúng ta biết, thông tin hình ảnh đóng vai trò rất quan trọng trong trao
đổi thông tin, bởi phần lớn thông tin mà con ngƣời thu đƣợc thông qua thị giác.
Do vậy, vấn đề nhận dạng trong xử lý ảnh, đặc biệt là so khớp, phân loại, nhận
dạng đối tƣợng ảnh chuyển động đang đƣợc quan tâm của nhiều nhà nghiên cứu
bởi tính khoa học và ứng dụng đa dạng.
Đồng thời, với sự phát triển không ngừng của khoa học và tốc độ xử lý của
máy tính thì ứng dụng lĩnh vực thị giác máy tính và xử lý ảnh đang ngày càng
đƣợc phát triển và nghiên cứu mạnh mẽ.
Bên cạnh đó, các loại phƣơng tiện giao thông đƣờng bộ ở Việt Nam đã và
đang phát triển mạnh mẽ cả về số lƣợng và chủng loại. Bởi vậy, việc quản lý
phân luồng, phân loại, xử lý vi phạm trong giao thông đƣờng bộ đang trở thành
một chủ đề thu hút đƣợc sự quan tâm của nhiều nhà quản lý và khoa học nhằm
xây dựng đƣợc các hệ thống giám sát giao thông đƣờng bộ tự động.
Trên thế giới, hệ thống giám sát phƣơng tiện giao thông tự động đã đƣợc phát
triển và ứng dụng ở nhiều nƣớc trên thế giới. Những hệ thống này giúp chúng ta
quản lý đƣợc vấn đề nhƣ phân luồng xe, đánh giá lƣu lƣợng xe, phát hiện đƣợc
xe vi phạm Luật Giao thông nhằm tăng cƣờng giám sát, phát hiện và xử lý kịp
thời các vi phạm, hạn chế tai nạn và nâng cao ý thức chấp hành Luật Giao thông.
Từ đó, nhà quản lý có thể đƣa ra những giải pháp quản lý giao thông đƣờng bộ
phù hợp.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
5
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Chính vì vậy, em chọn đề tài “Nghiên cứu một số kỹ thuật so khớp và nhận
dạng ứng dụng vào hệ thống giám sát giao thông tự động” nhằm mục đích
nghiên cứu kỹ thuật so khớp, kết hợp nhận dạng biên để phát hiện những
phƣơng tiện giao thông vi phạm luồng giao thông đƣờng bộ. Luận văn đƣợc bố
cục nhƣ sau:
Chƣơng 1: Tổng quan về xử lý ảnh và so khớp đối tƣợng
Chƣơng 2: Một số kỹ thuật trong bắt bám và so khớp đối tƣợng
Chƣơng 3: Chƣơng trình thử nghiệm
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
6
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
CHƢƠNG 1
TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ SO KHỚP ĐỐI TƢỢNG
1.1. TỔNG QUAN VỀ XỬ LÝ ẢNH
1.1.1. Xử lý ảnh
Xử lý ảnh(Image processing) là đối tƣợng nghiên cứu của lĩnh vực thị giác
máy, là quá trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính
mà tuân theo ý muốn cuả việc xử lý. Xử lý ảnh có thể là quá trình phân tích,
phân lớp các đối tƣợng, làm tăng chất lƣợng, phân đoạn và tìm biên, gán nhãn
cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh. Hình dƣới sẽ
minh họa các giai đoạn chính trong quá trình xử lý ảnh.
Hình 1.1. Các giai đoạn chính trong quá trình xử lý ảnh nhận dạng
Chúng ta có thể tóm lƣợc quá trình xử lý nhận dạng ảnh đƣợc xem nhƣ là quá
trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn. Kết quả đầu ra của
một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc đƣa ra đƣợc kết luận về
ảnh đó. Hình 1.2 mô tả vắn tắt quá trình này.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
7
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Ảnh Xử lý ảnh
Ảnh tốt hơn
Kết luận
Hình 1.2. Các giai đoạn chính trong quá trình xử lý ảnh nhận dạng
1.1.2. Quá trình thu nhận ảnh
Ảnh tồn tại trong thực tế là một ảnh liên tục cả về không gian cũng nhƣ về giá
trị độ sáng, và việc thu nhận ảnh có thể dùng Scanner, camera Muốn đƣa ảnh
liên tục trong thực tế vào máy tính để xử lý cần phải qua một khâu trung gian đó
là qúa trình số hoá. Số hoá là quá trình rời rạc hoá về không gian và lƣợng tử
hoá về giá trị.Quá trình rời rạc hoá về không gian là quá trình thu nhận những
điểm rời rạc từ một ảnh liên tục, nhƣng phải đảm bảo bằng mắt thƣờng không
phân biệt đƣợc hai điểm kề nhau. Quá trình này cũng chính là việc tìm cách biểu
diễn cả một ảnh lớn có vô số điểm, bởi một số hữu hạn điểm, sao cho không làm
mất đi hay thay đổi tính chất của ảnh, để việc lƣu trữ và xử lý ảnh đƣợc dễ dàng.
Còn quá trình lƣợng tử hoá về giá trị là quá trình rời rạc hoá về mặt giá trị để có
thể đơn giản hoá việc tính toán và đƣa vào máy để xử lý. Tuỳ theo từng loại ảnh,
độ chính xác yêu cầu và khả năng xử lý của máy tính mà ta có các mức lƣợng tử
thích hợp. Ví dụ với ảnh 256 cấp xám, ta phải dùng 256 mức lƣợng tử và biểu
diễn trong máy tính bằng 8 bits.
1.1.3. Biểu diễn và thể hiện ảnh
1.1.3.1. Ảnh chỉ số
Một ảnh chỉ số gồm 1 ma trận dữ liệu X và một ma trận bảng màu Map. Mỗi
hàng của Map xác định các thành phần đỏ, xanh lá cây, xanh da trời của một
màu đơn. Một ảnh chỉ số sử dụng “ánh xạ trực tiếp” các giá trị pixel lên các giá
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
8
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
trị bảng màu (colormap). Màu của mỗi pixel của ảnh đƣợc xác định bằng cách
sử dụng giá trị tƣơng ứng của X nhƣ là chỉ số vào trong Map. Giá trị 1 trỏ đến
hàng thứ nhất trong Map, giá trị 2 trỏ đến hàng thứ hai, v.v
Một bảng màu thông thƣờng đƣợc chứa trong cùng một ảnh chỉ số. Tuy
nhiên, ta có thể sử dụng bất cứ bảng màu nào. Hình vẽ dƣới đây minh hoạ cấu
trúc của một ảnh chỉ số. Các pixel trong ảnh đƣợc thể hiện bằng các số nguyên
mà chúng trỏ đến các giá trị đƣợc lƣu trong bảng màu
Hình 1.3. Minh họa ảnh chỉ số
1.1.3.2. Ảnh cƣờng độ
Một ảnh cƣờng độ là một ma trận dữ liệu I mà các giá trị của nó thể hiện các
cƣờng độ sáng trong phạm vi một vài khoảng nào đó. Các phần tử trong ma trận
cƣờng độ thể hiện các cƣờng độ sáng khác nhau hoặc là các cấp xám, trong đó
cƣờng độ 0 thông thƣờng thể hiện màu đen và cƣờng độ 1, 255, hoặc 65535 thể
hiện cƣờng độ lớn nhất có thể hoặc màu trắng.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
9
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Hình 1.4. Minh họa ảnh cƣờng độ
1.1.3.3. Ảnh nhị phân
Trong một ảnh nhị phân, mỗi pixel chỉ nhận một trong hai giá trị rời rạc. Về
bản chất, hai giá trị này tƣơng ứng với on và off. Một ảnh nhị phân đƣợc lƣu trữ
nhƣ là một ma trận 2 chiều gồm các số 0 (pixels off) và các số 1 (pixels on). Một
ảnh nhị phân có thể đƣợc xem nhƣ là một dạng đặc biệt của ảnh cƣờng độ chỉ
chứa màu đen và trắng. Tuy nhiên cũng có thể có những cách giải thích khác, ta
cũng có thể coi ảnh nhị phân nhƣ là một ảnh chỉ số chỉ có 2 màu. Hình sau là
một ví dụ của ảnh nhị phân:
Hình 1.5. Minh họa ảnh nhị phân
1.1.3.4. Ảnh RGB
Một ảnh RGB, đôi khi còn đƣợc gọi là ảnh “true-color”, là một mảng dữ liệu
m*n*3 xác định các thành phần màu red, green, và blue cho mỗi pixel riêng biệt.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
10
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Các ảnh RGB không sử dụng bảng màu. Màu của mỗi pixel đƣợc xác định bởi
tổ hợp các cƣờng độ red, green và blue lƣu trong một mặt phẳng màu tại vị trí
của pixel. Các khuôn dạng file đồ hoạ lƣu các ảnh RGB nhƣ là các ảnh 24-bit,
trong đó mỗi thành phần red, green, blue là 1byte. Điều này cho phép có đến 16
triệu màu. Độ chính xác tái tạo đƣợc với ảnh thực tế dẫn đến tên hiệu là “ Ảnh
true color”.
Hình 1.6. Minh họa ảnh RGB
Để xác định màu của pixel tại vị trí (2,3), ta sẽ nhìn vào bộ 3 RGB lƣu
trong (2,3,1:3). Giả sử (2,3,1) chứa giá trị 0.5176, (2,3,2) chứa 0.1608, và (2,3,3)
chứa 0.0627. Khi đó màu của pixel (2,3) là: 0.5176 0.1608 0.0627.
1.1.4. Histogram của ảnh
Nhƣ ta đã biết, mỗi điểm có một giá trị độ sáng nào đó. Histogram của ảnh là
đồ thị cho biết tần suất hiện các điểm ảnh với các mức biến thiên độ sáng. Lƣợc
đồ histogram đƣợc biểu diễn trong một hệ toạ độ 2 chiều, trục hoành biểu diễn
các mức xám từ 0 đến N, với N là số mức xám. Trục tung biểu diễn số điểm ảnh
cho một mức xám (tức là số điểm ảnh có cùng mức xám), hoặc biểu diễn tỉ lệ số
điểm ảnh có cùng mức xám trên tổng số điểm ảnh.
Lƣợc đồ xám cung cấp rất nhiều thông tin về phân bố mức xám của ảnh. Theo
thuật ngữ của xử lí ảnh gọi là tính động của ảnh. Tính động cho phép phân tích
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
11
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
đƣợc mật độ phân bố của phần lớn các mức xám. Nếu ảnh sáng thì lƣợc đồ xám
tập trung bên phải (mức xám cao), còn ảnh đậm thì lƣợc đồ xám tập trung bên
trái. Từ kết quả histogram của ảnh, chỉ cho ta nhìn nhận tổng quát quá trình phân
bố giải độ sáng trên ảnh, chứ không cho ta biết kết cấu chi tiết của ảnh. Ngoài ra,
căn cứ vào số đỉnh trên histogram của ảnh sẽ có sự nhìn nhận ban đầu về số
vùng của ảnh. Đó là cơ sở cho việc phân vùng ảnh và tìm biên sau này, đặc biệt
là phƣơng pháp tìm biên gián tiếp.
Thí dụ: Có một ảnh 100 điểm , độ sáng của ảnh đƣợc phân thành 5 mức
sáng: level1, level2, , level 5. Nhƣ vậy, số điểm ảnh của các mức tƣơng ứng là
20, 25, 10, 30, 15. Nhƣ vậy tần suất hiện của các điểm ảnh ở mức tƣơng ứng là
20% , 25%, 10%, 30%, 15%. với ảnh này ta có histogram của ảnh nhƣ hình 1.7.
Hình 1.7. Minh họa Histogram của ảnh
1.1.5. Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh đƣợc ấn định trên một
ảnh số đƣợc hiển thị. Trong đó, khoảng cách giữa các điểm ảnh phải đƣợc chọn
sao cho mắt ngƣời vẫn thấy đƣợc sự liên tục của ảnh. Việc lựa chọn khoảng
cách thích hợp tạo nên một mật độ phân bố, đó chính là độ phân giải và đƣợc
phân bố theo trục x và y trong không gian hai chiều.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
12
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một
lƣới điểm theo chiều ngang màn hình: 300 điểm chiều dọc * 200 điểm ảnh
(320*200). Rõ ràng, cùng màn hình CGA 12‟‟ ta nhận thấy mịn hơn màn hình
CGA 17‟‟ độ phân giải 320*200. Điều mày do cùng một mật độ (độ phân giải)
nhƣng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn.
1.1.6. Biên của ảnh
Biên (hay đƣờng biên) có thể hiểu đơn giản là các đƣờng bao của các đối
tƣợng trong ảnh. Đƣờng biên đƣợc tạo thành từ các điểm biên. Về mặt toán học
ngƣời ta gọi điểm biên của ảnh là điểm có sự biến đổi đột ngột về mức xám.
Trong ảnh nhị phân, một điểm có thể gọi là biên nếu nó là điểm đen và có ít nhất
một điểm trắng lân cận. Xuất phát từ đặc điểm sự biến thiên giữa các điểm ảnh
thƣờng là nhỏ trong khi sự biến thiên độ sáng của điểm biên (khi qua biên) lại
khá lớn. Hiện nay, để phát hiện biên ngƣời ta thƣờng sử dụng một trong hai
phƣơng pháp:
Phương pháp phát hiện biên trực tiếp: phƣơng pháp này làm nổi biên dựa
vào sự biên thiên về giá trị độ sáng của điểm ảnh. Kỹ thuật chủ yếu dùng
phát hiện biên ở đây là kỹ thuật đạo hàm. Các kỹ thuật đạo hàm đƣợc sử
dụng phổ biến bao gồm kỹ thuật Gradient (đạo hàm bậc nhất) và kỹ thuật
Laplace (đạo hàm bậc hai).
Phương pháp phát hiện biên gián tiếp: bằng cách phân ảnh thành các
vùng thì đƣờng phân ranh giữa các vùng đó đƣợc coi là biên. Việc phân
vùng này thƣờng dựa vào kết cấu bề mặt của ảnh.
Kỹ thuật dò biên và phân vùng ảnh là 2 bài toán đỗi ngẫu nhau. Dò biên là để
thực hiện phân lớp đối tƣợng, một khi đã phân lớp xong có nghĩa là đã phân
vùng đƣợc ảnh. Và ngƣợc lại, khi đã phân vùng, ảnh đƣợc phân lập thành các
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
13
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
đối tƣợng, ta có thể phát hiện đƣợc biên. Điều này nói lên tầm quan trọng của
việc tìm biên trong phân tích ảnh, vì để phân lớp các đối tƣợng thì hầu hết chúng
ta phải tìm biên hoặc phân vùng ảnh, tuy nhiên phân vùng ảnh lại cũng có thể
thực hiện đƣợc thông qua việc tìm biên.
1.1.6.1. Phƣơng pháp phát hiện biên trực tiếp
a) Kỹ thuật phát hiện biên Gradient
Theo định nghĩa, gradient là một véctơ có các thành phần biểu thị tốc độ
thay đổi giá trị của điểm ảnh, ta có:
(1.2)
Hay
dx
yxfydxxf
x
yxf
fx
),(),(),(
dy
yxfdyyxf
y
yxf
fy
),(),(),(
Trong đó, dx, dy là khoảng cách (tính bằng số điểm) theo hƣớng x và y.
Thực tế, ảnh số là tín hiệu rời rạc nên không có đạo hàm thực mà ngƣời ta chỉ
mô phỏng và xấp xỉ đạo hàm bằng các kỹ thuật nhân chập (phép cuộn). Trong
kỹ thuật Gradient ngƣời ta chia nhỏ thành hai kỹ thuật (do sử dụng các toán tử
nhân chập khác nhau) là kỹ thuật Gradient và kỹ thuật la bàn. Kỹ thuật Gradient
dùng toán tử Gradient lấy đạo hàm theo một hƣớng, còn kỹ thuật la bàn dùng
toán tử la bàn lấy đạo hàm theo 8 hƣớng của tất cả các điểm ảnh cạnh nó. Hình
1.8 minh họa mô hình 8 hƣớng. Có khá nhiều toán tử đạo hàm đã đƣợc áp dụng.
dy
yxfdyyxf
fy
y
yxf
dx
yxfydxxf
fx
x
yxf
),(),(),(
),(),(),(
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
14
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Các toán tử sử dụng kỹ thuật Gradient đáng kể nhất là toán tử Robert, Sobel và
Prewitt. còn toán tử la bàn hay đƣợc sử dụng là toán tử Krish.
Hình 1.8. Minh họa mô hình 8 hƣớng
b). Kỹ thuật phát hiện biên Laplace
Các phƣơng pháp đánh giá gradient ở trên làm việc khá tốt khi mà độ
sáng thay đổi rõ nét. Khi mức xám thay đổi chậm, miền chuyển tiếp trải rộng,
phƣơng pháp cho hiệu quả hơn đó là phƣơng pháp sử dụng đạo hàm bậc hai
Laplace. Toán tử Laplace đƣợc định nghĩa nhƣ sau:
(1.3)
Tƣơng tự
(1.4)
Vậy:
(1.5)
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
15
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Dẫn tới:
010
141
010
H
Trong thực tế, ngƣời ta thƣờng dùng nhiều kiểu mặt nạ khác nhau để
xấp xỉ rời rạc đạo hàm bậc hai Laplace. Dƣới đây là ba kiểu mặt nạ thƣờng
dùng:
c). Kỹ thuật Canny
Đây là một thuật toán tƣơng đối tốt, có khả năng đƣa ra đƣờng biên mảnh,
và phát hiện chính xác điểm biên với điểm nhiễu. Thuật toán đƣợc mô tả theo
những bƣớc sau:
Bước 1: Làm trơn ảnh
Tính I H, với:
24542
491294
51215125
491294
24542
115
1
H
Gọi G là kết quả lọc nhiễu: G = I H
Bước 2: Tính gradient của ảnh bằng mặt nạ PreWitt, kết quả đặt vào G
x
,G
y
.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
16
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
G
x
= G H
x
, G
y
= G H
y
Bước 3: Tính gradient hƣớng tại mỗi điểm (i,j) của ảnh. Hƣớng này sẽ đƣợc
nguyên hóa để nằm trong 8 hƣớng [0 7], tƣơng đƣơng với 8 lân cận của một
điểm ảnh.
Bước 4: Dùng ràng buộc “loại bỏ những điểm không phải là cực đại” để xóa
bỏ những điểm không là biên. Xét (i,j), là gradient hƣớng tại (i, j). I1, I2 là
hai điểm lân cận của (i,j) theo hƣớng . Theo định nghĩa điểm biên cục bộ
thì (i,j) là biên nếu I(i,j) cực đại địa phƣơng theo hƣớng gradient Nếu I(i,j)
> I1 và I(i,j) > I2 thì mới giữ lại I(i,j), ngƣợc lại xóa I(i,j) về điểm ảnh nền.
Bước 5: Phân ngƣỡng. với các điểm đƣợc giữ lại, thực hiện lấy ngƣỡng
gradient biên độ lần cuối để xác định các điểm biên thực sự.
1.1.6.2. Phƣơng pháp phát hiện biên gián tiếp
Biểu diễn đối tƣợng ảnh theo chu tuyến thƣờng dựa trên các kỹ thuật dò
biên. Có hai kỹ thuật dò biên cơ bản. Kỹ thuật thứ nhất xét ảnh biên thu đƣợc từ
ảnh vùng sau một lần duyệt nhƣ một đồ thị, sau đó áp dụng các thuật toán duyệt
cạnh đồ thị. Kỹ thuật thứ hai dựa trên ảnh vùng, kết hợp đồng thời quá trình dò
biên và tách biên. Ở đây ta quan tâm cách tiếp cận thứ hai.
Trƣớc hết, giả sử ảnh đƣợc xét chỉ bao gồm một vùng ảnh 8 – liên thông ,
đƣợc bao bọc bởi một vành đai các điểm nền. Dễ thấy là một vùng 4 – liên
thông chỉ là một trƣờng riêng của trƣờng hợp trên.
Về cơ bản, các thuật toán dò biên trên một vùng đều bao gồm các
bƣớc sau:
Xác định điểm biên xuất phát
Dự báo và xác định điểm biên tiếp theo
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
17
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Lặp bƣớc 2 cho đến khi gặp điểm xuất phát
Do xuất phát từ những tiêu chuẩn và định nghĩa khác nhau về điểm biên,
và quan hệ liên thông, các thuật toán dò biên cho ta các đƣờng biên mang các
sắc thái rất khác nhau.
Kết quả tác động của toán tử dò biên lên một điểm biên r
i
là điểm biên r
i+1
(8 - láng giềng của r
i
). Thông thƣờng các toán tử này đƣợc xây dựng nhƣ một
hàm đại số Boolean trên các 8 – láng giềng của r
i
. Mỗi cách xây dựng các toán
tử đều phụ thuộc vào định nghĩa quan hệ liên thông và điểm biên. Do đó sẽ gây
khó khăn cho việc khảo sát các tính chất của đƣờng biên. Ngoài ra, vì mỗi bƣớc
dò biên đều phải kiểm tra tất cả các 8 – láng giềng của mỗi điểm nên thuật toán
thƣờng kém hiệu quả. Để khắc phục các hạn chế trên, thay vì sử dụng một điểm
biên ta sử dụng cặp điểm biên (một thuộc , một thuộc
), các cặp điểm này
tạo nên tập nền vùng, kí hiệu là NV và phân tích toán tử dò biên thành 2 bƣớc:
Xác định cặp điểm nền vùng tiếp theo.
Lựa chọn điểm biên
Trong đó bƣớc thứ nhất thực hiện chức năng của một ánh xạ trên tập NV
lên NV và bƣớc thứ hai thực hiện chức năng chọn điểm biên. Các bƣớc thực
hiện thuật toán dò biên tổng quát nhƣ sau:
Bƣớc 1: Xác định cặp nền – vùng xuất phát
Bƣớc 2: Xác định cặp nền – vùng tiếp theo
Bƣớc 3: Lựa chọn điểm biên vùng
Bƣớc 4: Nếu gặp lại cặp xuất phát thì dừng, nếu không quay lại bƣớc 2.
Bước 1 : Xác định cặp nền - vùng xuất phát
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
18
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Việc xác định cặp nền - vùng xuất phát đƣợc thực hiện bằng cách duyệt ảnh
lần lƣợt từ trên xuống dƣới, từ trái sang phải rồi kiểm tra điều kiện lựa chọn cặp
ảnh nền vùng.
Bước 2 : Xác định cặp nền - vng tip theo
Ta xá c định cặ p nề n - vùng tiếp theo bằng toán tử dò biên . Toán tử dò biên
đƣợ c định nghĩa nhƣ sau :
T là một ánh xạ : T : NV NV
(b,r) (b‟,r‟)
Ta gọi T là toán tử dò biên cơ sở nếu nó thỏa mãn điều kiện b‟, r‟ là
các 8 - láng giềng của r.
Bước 3 : Lự a họn điểm biên :
Giả sử (b, r) NV ; gọi K(b, r) là hàm chọn điểm biên. Biên của một dạng
có thể định nghĩa thao một trong ba cách :
Tập những điểm thuộc có mặt trên NV, tức là K(b, r) = r
Tập những điểm thuộc phủ có trên NV, tức là K(b, r) = b
Tập những điểm ảo nằm giữa cặp nền-vùng, tức là K(b, r) là
những điểm nằm giữa hai điểm b và r.
Cách định nghĩa thứ ba tƣơng ứng với mỗi cặp nền-vùng với một điểm biên.
Còn với cách thứ nhất và thứ hai , một số cặp nền - vùng có thể có chung một
điểm biên. Bởi vậy, quá trình chọn điể m biên đƣợc thƣ̣ c hiện nhƣ sau :
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
19
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Điều kiện dừng: Cặp nền-vùng thứ n trùng với cặp nền vùng xuất phát
(b
n
,r
n
)= (b
0
,r
0
)
1.1.7. Phân ngƣỡng ảnh
Phân ngƣỡng là kỹ thuật phổ biến trong xử lý ảnh. Phân ngƣỡng là chọn
ngƣỡng có giá trị đặc biệt. Nó thƣờng đƣợc dùng để tìm ra đối tƣợng trong ảnh.
Có hai cách phân ngƣỡng chính là phân ngƣỡng đều (Uniform thresholding) và
phân ngƣỡng thích nghi (Adaptive thresholding).
Phân ngƣỡng đều là phân ngƣỡng cho những pixel có giá trị lớn hơn mức
quy định thì đƣợc đặt là trắng, ngƣợc lại thì đặt là đen.
(1.1)
Phân ngƣỡng thích nghi là kỹ thuật phân ngƣỡng tự động. Một trong
những kỹ thuật phân ngƣỡng tự động tốt nhất là kỹ thuật phân ngƣỡng
Otsu.
Hình 1.9 dƣới đây minh họa kết quả của của 2 phép toán phân ngƣỡng đều,
phân ngƣỡng thích nghi, kỹ thuật phân ngƣỡng Otsu.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
20
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
a) b)
c) d)
Hình 1.9. Minh họa kết quả phân ngƣỡng đều của phƣơng pháp. a) phân ngƣỡng
đều, b) phân ngƣỡng tự động, d) phân ngƣỡng Otsu
1.1.8. Nhận dạng ảnh
Hình 1.10. Sơ đồ khối của một hệ thống nhận dạng
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
21
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Nhƣ trên hình 1.10, hệ thống nhận dạng gồm các khối chính là: Tiền xử lý,
Trích chọn đặc trƣng, Nhận dạng. Dƣới đây, tác giả trình bày tóm tắt từng
khối này.
Tiền xử lý: Tiền xử lý là giai đoạn đầu tiên trong xử lý ảnh số. Tùy
thuộc vào quá trình xử lý tiếp theo trong giai đoạn này sẽ thực hiện các
công đoạn khác nhau nhƣ:
- Nắn chỉnh hình học: Những biến dạng hình học thƣờng là do các
thiết bị điện tử và quang học gây ra. Do đó, phƣơng pháp hiệu
chỉnh ảnh dựa vào mô hình đƣợc mô tả dƣới dạng biến đổi ảnh
dạng f(x, y) thành ảnh lý tƣởng f(x‟, y‟).
- Khử nhiễu: Nhiễu đƣợc chia làm hai loại: nhiễu hệ thống và
nhiễu ngẫu nhiên. Đặc trƣng của nhiễu hệ thống là tính tuần
hoàn. Do vậy, có thể tách đƣợc loại nhiễu này bằng việc sử dụng
biến đổi Fourier và loại bỏ các điểm đỉnh (peaks). Đối với nhiễu
ngẫu nhiên, trƣờng hợp đơn giản là các vết bẩn tƣơng ứng với
các điểm rất sáng hay rất tối, có thể khử bằng phƣơng pháp nội
suy, lọc trung bình và trung vị
- Chỉnh mức xám: Đây là kỹ thuật nhằm chỉnh sửa tính không
đồng đều của các thiết bị thu nhận hoặc tăng độ tƣơng phản giữa
các vùng ảnh.
- Chỉnh tán xạ: Ảnh nhận đƣợc từ các thiết bị điện tử hay quang
học có thể bị nhòe.Phƣơng pháp Fourier dựa trên tích chập của
ảnh với hàm tán xạ cho phép giải quyết đƣợc bài toán hiệu
chỉnh này.
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
22
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Trích chọn đặc trƣng: Các đặc điểm của đối tƣợng đƣợc trích chọn
tùy theo mục đích nhận dạng trong quá trình xử lý ảnh. Việc trích chọn
hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tƣợng ảnh chính
xác, với tốc độ tính toán cao và dung lƣợng nhớ lƣu trữ giảm xuống.
Tác giả có thể nêu ra một số đặc điểm của ảnh sau đây:
- Đặc điểm không gian: Phân bố mức xám, phân bố xác xuất, biên
độ, điểm uốn…
- Đặc điểm biên và vùng biên: Đặc trƣng đƣờng biên của đối
tƣợng, trích chọn các thuộc tính bất biến đƣợc dùng khi nhận
dạng đối tƣợng.
Nhận dạng: Nhận dạng tự động, mô tả đối tƣợng, phân loại và phân
nhóm mẫu là các vấn đề quan trọng trong thị giác máy tính, đƣợc ứng
dụng trong nhiều ngành khoa học khác nhau. Hệ thống nhận dạng tự
động bao gồm ba module tƣơng ứng với ba giai đoạn chủ yếu: Thu
nhận dữ liệu và tiền xử lý, biểu diễn dữ liệu, nhận dạng, ra quyết định.
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là: So khớp mẫu
dựa trên các đặc trƣng đƣợc trích chọn, Phân loại thống kê, Đối sánh
cấu trúc, cú pháp, Phân loại dựa trên mạng nơ-ron nhân tạo. Bảng 1.1
mô tả bốn phƣơng pháp này.
Trong các ứng dụng không thể chỉ dùng một cách tiếp cận đơn lẻ để phân
loại “tối ƣu”. Do vậy cần sử dụng một lúc nhiều phƣơng pháp và cách tiếp cận
khác nhau. Các phƣơng thức phân loại tổ hợp hay đƣợc đƣợc dùng khi nhận
dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai
(hybird system) bao gồm nhiều mô hình kết hợp.
Bảng 1.1. Mô tả các cách tiếp cận trong lý thuyết nhận dạng
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
23
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1.1.9. Cấu trúc phân cấp của video
Video là tập hợp các khung hình (frames), mỗi khung hình là một ảnh. Shot
(lia) là đơn vị cơ sở của video. Một lia là một đơn vị vật lý của dòng video,
gồm các chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một
thao tác camera đơn.
Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các lia liên
quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa
hoặc một tình tiết. Khi phim đƣợc chiếu, các khung hình lần lƣợt đƣợc hiển thị
ở tốc độ nhất định. Tốc độ thƣờng thấy ở các định dạng video khác nhau là 30
và 25 hình/s. Nhƣ vậy, một giờ video sẽ có số khung hình tƣơng ứng là 108000
hoặc là 90000. Cấu trúc phân cấp của video đƣợc minh họa trong hình 1.11
nhƣ sau:
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
24
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Hình 1.11. Cấu trúc phân cấp của video
1.1.10. Một số thuộc tính đặc trƣng của video
Video có 4 đặc trƣng chính là: Màu (color), Kết cấu (texture), Hình dáng
(shape), Chuyển động (motion). Dƣới đây chúng ta sẽ xem xét tới những đặc
trƣng này.
a) Màu
Màu là một thuộc tính quan trọng của ảnh. Biểu đồ màu, biểu diễn sự phân bố
màu, là một đặc trƣng màu phổ biến nhất hiện nay. Biểu đồ màu không phụ
thuộc vào sự quay, dịch chuyển ảnh cũng nhƣ chiều nhìn ảnh. Tính hiệu quả của
nó lại phụ thuộc vào hệ màu và phƣơng pháp định lƣợng đƣợc dùng. Có một vấn
đề với biểu đồ màu là nó không biểu diễn thông tin về không gian phân bố các
điểm ảnh, do đó hai ảnh có cùng biểu đồ màu có thể có nội dung rất khác nhau.
Hình 1.12 minh họa điều này
Hình 1.12. Các ảnh khác nhau nhƣng có cùng biểu đồ mầu
b) Kết cầu (Texture)
Đây là một đặc trƣng quan trọng của bề mặt, nơi xảy ra việc lặp lại mẫu cơ
bản. Có hai dạng biểu diễn texture phổ biến: biểu diễn dạng ma trận đồng thời
và biểu diễn Tamura. Ma trận đồng thời mô tả hƣớng và khoảng cách giữa các
điểm ảnh, nhờ đó các thống kê có nghĩa có thể đƣợc trích chọn. Ngƣợc lại,
ngƣời ta thấy rằng entropi và mô men chênh lệch nghịch đảo lại có khả năng
Nghiên cứu một số kỹ thuật so khớp và nhận dạng, ứng dụng vào hệ thống giám sát giao thông tự động
Nguyễn Văn An – ĐH CNTT & TT - 2011
25
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
phân biệt tốt nhất. Biểu diễn Tamura đƣợc thúc đẩy nhờ các nghiên cứu về tâm
lý trong việc thu nhận trực giác của con ngƣời và nó bao gồm các đại lƣợng đo
tính thô, độ tƣơng phản, hƣớng, tính trơn, tính cân đối và độ ráp. Các đặc trƣng
Tamura rất hấp dẫn trong việc hiểu nội dung ảnh vì nó biểu đạt trực quan. Ngoài
ra còn có một số các dạng biểu diễn khác nhƣ trƣờng ngẫu nhiên Markov, biến
đổi Gabor, biến đổi gợn sóng,…
c) Hình dáng
Các đặc trƣng hình dáng có thể đƣợc biểu diễn sử dụng phân tích hình dáng
truyền thống nhƣ bất biến mô men, mô tả Fourier, mô hình học tự động quay lui
và các thuộc tính hình học. Các đặc trƣng này có thể đƣợc phân chia thành đặc
trƣng toàn cục và đặc trƣng cục bộ. Đặc trƣng toàn cục là đặc trƣng thuộc tính
thu đƣợc từ toàn bộ hình dáng ảnh, chẳng hạn nhƣ chu vi, tính tròn, mô men
trung tâm, hƣớng trục chính Đặc trƣng cục bộ là đặc trƣng thu đƣợc từ việc
thao tác với một phần của ảnh, không phụ thuộc vào toàn bộ ảnh.
d) Chuyển động
Motion là thuộc tính quan trọng của video. Thông tin về chuyển động có thể
đƣợc sinh ra bằng các kỹ thuật ghép khối hoặc luồng ánh sáng. Các đặc trƣng
chuyển động nhƣ mô men của trƣờng chuyển động, biểu đồ chuyển động hoặc là
các tham số chuyển động toàn cục có thể đƣợc trích chọn từ vectơ chuyển động.
Các đặc trƣng mức cao phản ánh di chuyển camera nhƣ quét camera, nghiêng,
phóng to, thu nhỏ cũng có thể đƣợc trích chọn.