Tải bản đầy đủ (.pdf) (151 trang)

Nghiên cứu giải pháp nâng cao tốc độ xử lý tín hiệu trong hệ thống thị giác nổi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.16 MB, 151 trang )

i

BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

ĐOÀN VĂN TUẤN

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ
TÍN HIỆU TRONG HỆ THỐNG THỊ GIÁC NỔI

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI – 2019


ii

BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

ĐOÀN VĂN TUẤN

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ
TÍN HIỆU TRONG HỆ THỐNG THỊ GIÁC NỔI

Chuyên ngành: Kỹ thuật điện tử
Mã số:

9 52 02 03



LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƢỜI HƢỚNG DẪN KHOA HỌC:

1. TS. Hà Hữu Huy
2. PGS. TS. Bùi Trung Thành

HÀ NỘI – 2019


iii

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết
quả trình bày trong luận án là trung thực và chƣa từng đƣợc ai công bố trong
bất kỳ công trình nào khác. Các dữ liệu tham khảo đƣợc trích dẫn đầy đủ.
NGƢỜI CAM ĐOAN

Đoàn Văn Tuấn


iv

LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn chân thành tới thầy: TS. Hà Hữu Huy,
Viện Điện tử - Viện Khoa học và Công nghệ quân sự và thầy PGS. TS. Bùi
Trung Thành – Hiệu trƣởng, Trƣờng Đại học Sƣ phạm Kỹ thuật Hƣng Yên đã
trực tiếp hƣớng dẫn, tận tình chỉ bảo, tạo điều kiện tốt nhất để tôi hoàn thành

luận án này.
Tôi xin chân thành cảm ơn Ban Giám Đốc Viện Khoa học và Công
Nghệ Quân Sự Bộ Quốc phòng, Phòng Đào Tạo và Viện Điện Tử đã tạo điều
kiện thuận lợi giúp tôi hoàn thành nhiệm vụ và đạt kết quả mong muốn.
Xin chân thành cảm ơn Đảng Ủy, Ban Giám Hiệu và Ban Chủ Nhiệm
Khoa Điện – Điện Tử trƣờng Đại Học Sƣ Phạm Kỹ Thuật Hƣng Yên, nơi tôi
đang công tác, đã tạo điều kiện để tôi hoàn thành nhiệm vụ.
Xin cảm ơn các chuyên gia, các nhà khoa học, các bạn đồng nghiệp và
Ban Giám Đốc trung tâm Quang Điện Tử thuộc Viện Công Nghệ Ứng dụng
C6 Thanh Xuân Bắc- Hà Nội đã trực tiếp đóng góp nhiều ý kiến quý báu,
giúp tôi vƣợt qua khó khăn để hoàn thành luận án.
Cuối cùng xin gửi lời cảm ơn tới mọi thành viên trong gia đình, đặc
biệt là vợ và hai con, những ngƣời đã tạo mọi điều kiện về thời gian, vật chất
và hết lòng chăm sóc, động viên về tinh thần để tôi tập trung nghiên cứu hoàn
thành luận án.


v

MỤC LỤC

Trang

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT....................... ................... viii
DANH MỤC CÁC BẢNG............................................................................... xi
DANH MỤC CÁC HÌNH VẼ ........................................................................ xii
MỞ ĐẦU ........................................................................................................... 1
CHƢƠNG 1: TỔNG QUAN VỀ THỊ GIÁC NỔI VÀ XỬ LÝ TÍN HIỆU
TRONG HỆ THỐNG THỊ GIÁC NỔI ..................................................... 8
1.1. Tổng quan thị giác nổi................................................................................ 8

1.1.1. Một số khái niệm........................................................................... 11
1.1.2. Hệ thống thị giác nổi. .................................................................... 12
1.2. Mô hình camera........................................................................................ 18
1.3. Phƣơng pháp hiệu chuẩn camera ............................................................. 19
1.3.1. Phƣơng pháp hiệu chuẩn Hall ....................................................... 19
1.3.2. Phƣơng pháp hiệu chuẩn Salvi...................................................... 19
1.3.3. Phƣơng pháp hiệu chuẩn Tsai ....................................................... 19
1.3.4. Phƣơng pháp hiệu chuẩn Weng .................................................... 20
1.4. Phƣơng pháp hiệu chỉnh ảnh .................................................................... 20
1.5. Các thuật toán so khớp. ............................................................................ 22
1.5.1. Các thuật toán so khớp cục bộ ...................................................... 23
1.5.2. Các thuật toán so khớp toàn cục ................................................... 24
1.6. Nền tảng xử lý trong hệ thống thị giác nổi .............................................. 27
1.6.1. Nền tảng xử lý dùng CPU ............................................................. 28
1.6.2. Nền tảng xử lý dùng DSP ............................................................. 29
1.6.3. Nền tảng xử lý dùng GPU ............................................................. 29
1.6.4. Nền tảng xử lý dùng FPGA/ASIC ................................................ 30
1.7. Đánh giá hệ thống thị giác nổi ................................................................. 31


vi

1.8. Các hƣớng nghiên cứu nhằm nâng cao hiệu quả của hệ thống
thị giác nổi ............................................................................................... 33
1.8.1. Phƣơng pháp phân đoạn ảnh và tối ƣu hóa phân cấp ................... 34
1.8.2. Điều chỉnh vùng đồng nhất và không nhìn thấy ........................... 35
1.8.3. Phƣơng pháp cải thiện tối thiểu hàm chi phí cho sự so khớp
của điểm ảnh ........................................................................................... 35
1.8.4. Phƣơng pháp tối ƣu hóa liên kết ................................................... 35
1.8.5. Phƣơng pháp sắp xếp bộ nhớ hiệu quả ......................................... 36

1.8.6. Phƣơng pháp cải tiến thiết kế VLSI .............................................. 36
1.9. Kết luận chƣơng 1 .................................................................................... 37
CHƢƠNG 2: NGHIÊN CỨU CÁC THUẬT TOÁN LAN TRUYỀN

TIN CẬY BP VÀ XÂY DỰNG CÁC GIẢI PHÁP NÂNG CAO
TỐC ĐỘ XỬ LÝ TRONG HỆ THỐNG THỊ GIÁC NỔI ...................... 39
2.1. Trƣờng ngẫu nhiên Markov ..................................................................... 39
2.1.1. Định nghĩa trƣờng ngẫu nhiên Markov ........................................ 42
2.1.2 Mô hình trƣờng ngẫu nhiên Markov dạng lƣới ............................. 43
2.1.3.Mô hình trƣờng ngẫu nhiên Markov dạng lƣới ẩn......................... 45
2.1.4. Mô hình trƣờng ngẫu nhiên Markov dạng cây ............................. 46
2.1.5. Ứng dụng trƣờng ngẫu nhiên Markov cho thị giác nổi ................ 47
2.2. Thuật toán lan truyền tin cậy BP ứng dụng cho thị giác nổi ................... 47
2.2.1. Thuật toán lan truyền tin cậy BP dạng cây ................................... 47
2.2.2. Thuật toán lan truyền tin cậy BP dạng lƣới .................................. 48
2.3. Thuật toán cục bộ CT ............................................................................... 59
2.4. Các giải pháp cải tiến tốc độ xử lý của thuật toán BP ............................. 60
2.5. Đề xuất giải pháp tối thiểu hàm chi phí ................................................... 61
2.5.1. Thuật toán đề xuất 1 ...................................................................... 61
2.5.2 Thuật toán đề xuất 2 ....................................................................... 68


vii

2.6. Đề xuất giải pháp kết hợp ........................................................................ 73
2.6.1. Thuật toán đề xuất 3 ...................................................................... 74
2.6.2. Thuật toán đề xuất 4 ...................................................................... 79
2.7. Phƣơng pháp đánh giá thuật toán ............................................................. 84
2.8. Kết luận chƣơng 2 .................................................................................... 84
CHƢƠNG 3. THỰC NGHIỆM CÁC THUẬT TOÁN ĐỀ XUẤT VÀ

ĐÁNH GIÁ KẾT QUẢ........................................................................... 87
3.1. Công cụ và dữ liệu thực nghiệm .............................................................. 87
3.2. Chỉ số đánh giá độ tin cậy RMSE ............................................................ 88
3.3. Kết quả thực nghiệm ................................................................................ 89
3.3.1. Thuật toán BP tiêu chuẩn .............................................................. 90
3.3.2. Thuật toán đề xuất 1 ...................................................................... 92
3.3.3. Thuật toán đề xuất 2 ...................................................................... 94
3.3.4. Thuật toán đề xuất 3 ...................................................................... 96
3.3.5. Thuật toán đề xuất 4 ...................................................................... 99
3.4. Đánh giá thuật toán đề xuất.................................................................... 101
3.4.1. Đánh giá thuật toán đề xuất 1 và thuật toán BP .......................... 101
3.4.2. Đánh giá thuật toán đề xuất 2 và thuật toán BP .......................... 106
3.4.3. Đánh giá thuật toán đề xuất 3 và thuật toán BP .......................... 110
3.4.4. Đánh giá thuật toán đề xuất 4 và thuật toán BP .......................... 114
3.4.5. So sánh các thuật toán đề xuất .................................................... 118
3.5. Kết luận chƣơng 3 .................................................................................. 121
KẾT LUẬN ................................................................................................... 122
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ .............. 124
TÀI LIỆU THAM KHẢO ............................................................................. 125


viii

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
1. Ký hiệu

Ý nghĩa

b


Khoảng cách giữa hai camera của stereo camera.

b j ( x j ), b'j ( x j ), b''j ( x j ) Độ tin cậy của nút j của thuật toán BP và các thuật toán
b'''j ( x j ), b''''j ( x j )

đề xuất tƣơng ứng.

d, dCT

Độ chênh lệch vị trí của điểm tƣơng ứng của ảnh stereo
camera.

E

Tập các cạnh của mô hình đồ thị dạng lƣới.

E ( x), E ' ( x), E '' ( x) Năng lƣợng chi phí khi thực hiện bản đồ chênh lệch của
thuật toán BP và các thuật toán đề xuất tƣơng ứng.
E ''' ( x), E '''' ( x)

G

Mô hình đồ thị biểu diễn bản đồ chênh lệch.

i,j

Biểu diễn nút thứ i và nút lân cận j.

I L ( x, y ) , I R ( x, y )


Độ xám tại tọa độ (x,y) ảnh trái và ảnh phải của ảnh
stereo camera.

k , k ' , k '' , k ''' , k ''''

Độ chênh lệch của điểm tƣơng ứng trong ảnh stereo camera
của thuật toán BP và các thuật toán đề xuất tƣơng ứng.

k2' , k2''

Số lần thực hiện chia thô đến mịn CTF mức 1 của thuật
toán đề xuất 1 và thuật toán đề xuất 2.

k1' , k1''

Số vòng lặp thực hiện trong CTF của thuật toán đề xuất 1
và thuật toán đề xuất 2.

m

Độ phân giải hàng của ảnh stereo camera

M , M ' , M '' , M ''' , M '''' Dung lƣợng bộ nhớ yêu cầu của thuật toán BP và các
thuật toán đề xuất tƣơng ứng.

n

Độ phân giải cột của ảnh stereo camera.

N


Tổng số các nút trong ảnh stereo camera.

 ( xi , x j ), ' ( xi , x j ), '' ( xi , x j )
 ( xi , x j ), ( xi , x j )
'''

''''

Hàm chi phí cho nút i và nút lân cận j của thuật toán BP
và các thuật toán đề xuất tƣơng ứng.


ix

 ,  ' ,  '' ,  ''' ,  ''''

Hàm chi phí nhẵn cho hai nút cạnh nhau của thuật toán
BP và các thuật toán đề xuất tƣơng ứng.

p, p' , p'' , p''' , p''''

Hệ số tỉ lệ tăng của hàm chi phí nhẵn của thuật toán BP
và các thuật toán đề xuất tƣơng ứng.

q, q' , q'' , q''' , q''''

Ngƣỡng dừng tăng của hàm chi phí nhẵn của thuật toán
BP và các thuật toán đề xuất tƣơng ứng.


V

Tập các cạnh của mô hình dạng lƣới

xi

Giá trị nhãn đƣợc gán cho nút i

xCT

Dải quét của thuật toán CT

xj , x 'j , x ''j , x '''j  , x ''''j 

Giá trị nhãn đƣợc chọn gán cho nút j của thuật toán BP và
các thuật toán đề xuất tƣơng ứng.

2. Chữ viết tắt

Ý nghĩa

ASIC

Các mạch tích hợp ứng dụng riêng (Application Specific
Integrated circuits).

BP

Lan truyền tin cậy (Belief propagation).


CFBP

Lan truyền tin cậy dùng chia thô đến mịn (Coarse to fine
belief propagation).

CFCSBP

Lan truyền tin cậy có độ sâu thay đổi dùng chia thô đến
mịn (Coarse to fine change space belief propagation).

CPU

Khối xử lý trung tâm (Central processing unit).

CT

Biến đổi thống kê (Census tranform).

CTBP

Lan truyền tin cậy kết hợp biến đổi thống kê (Census
transform belief propagation).

CTCSBP

Lan truyền tin cậy có độ sâu thay đổi kết hợp biến đổi thống kê
(Census transform change space belief propagation).

CTF


Chia thô đến mịn ( Coarse to fine).

CUDA

Kiến trúc thiết bị tính toán hợp nhất (Compute unified
device architecture).


x

DP

Quy hoạch động (Dynamic programming).

DSP

Vi xử lý tín hiệu số (Digital signal processing).

EPT

Biến đổi điểm đƣờng bao ( Envelope point transform).

FPGA

Mảng cổng lập trình dạng trƣờng (Field programmable
gate array).

GC

Lát cắt đồ thị (Graph cut).


GPU

Khối xử lý đồ họa (Graphic processing unit).

HBP

Lan truyền tin cậy phân cấp (Hierarchical belief propagation)

ICM

Các chế độ lặp ( Iterated conditional modes).

MAP

Xác suất hậu nghiệm (Maximum a posteriori) .

MRF

Trƣờng ngẫu nhiên Markov (Markov random field).

NCC

Chuẩn hóa tƣơng quan chéo ( Normalized cross correlation).

SAD

Tổng chênh lệch tuyệt đối ( Sum of absolute different).

SGM


Bán toàn cục (Semi - Global matching).

SIFT

Biến đổi đặc trƣng bất biến tỉ lệ (Scale Invariant feature
transform).

SLAM

Đồng thời xây dựng bản đồ và định vị (Simultaneous
localization and mapping).

SSD

Tổng chênh lệch bình phƣơng (Sum of squared difference).

SURF

Đặc trƣng tăng tốc mạnh (Speed up robust feature).

Z '' , Z ''''

Hệ số độ sâu thay đổi độ sâu của thuật toán đề xuất 2 và
thuật toán đề xuất 4.


xi

DANH MỤC CÁC BẢNG


Trang

Bảng 3.1. Mô tả cấu hình PC Desktop ......................................................................87
Bảng 3.2. Tập dữ liệu kiểm thử .................................................................................88
Bảng 3.3. Tốc độ thực hiện của thuật toán BP .........................................................90
Bảng 3.4. Độ tin cậy của thuật toán BP theo RMSE ................................................91
Bảng 3.5. Dung lƣợng bộ nhớ yêu cầu của thuật toán BP .......................................91
Bảng 3.6. Tốc độ thực hiện của thuật toán đề xuất 1 ...............................................92
Bảng 3.7. Độ tin cậy của thuật toán đề xuất 1 theo RMSE.......................................93
Bảng 3.8. Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 1 .............................94
Bảng 3.9. Tốc độ thực hiện của thuật toán đề xuất 2 ...............................................94
Bảng 3.10. Độ tin cậy của thuật toán đề xuất 2 theo RMSE.....................................95
Bảng 3.11. Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 2 ...........................96
Bảng 3.12. Tốc độ thực hiện của thuật toán đề xuất 3 .............................................97
Bảng 3.13. Độ tin cậy của thuật toán đề xuất 3 theo RMSE.....................................97
Bảng 3.14. Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 3 ...........................99
Bảng 3.15. Tốc độ thực hiện của thuật toán đề xuất 4 .............................................99
Bảng 3.16. Độ tin cậy của thuật toán đề xuất 4 theo RMSE...................................100
Bảng 3.17. Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 4 .........................101
Bảng 3.18. So sánh tốc độ thực hiện của thuật toán 1 và BP .................................102
Bảng 3.19. So sánh độ tin cậy của thuật toán đề xuất 1 và BP theo RMSE ...........103
Bảng 3.20. So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán 1 và BP ...............105
Bảng 3.21. So sánh tốc độ thực hiện của thuật toán đề xuất 2 và BP ....................107
Bảng 3.22. So sánh độ tin cậy của thuật toán đề xuất 2 và BP theo RMSE ...........108
Bảng 3.23. So sánh dung lƣợng bộ nhớ yêu cầu thực hiện của thuật toán
đề xuất 2 và thuật toán BP ....................................................................109
Bảng 3.24. So sánh tốc độ thực hiện của thuật toán đề xuất 3 và BP ....................111
Bảng 3.25. So sánh độ tin cậy của thuật toán đề xuất 3 và BP theo RMSE ...........113
Bảng 3.26. So sánh tốc độ thực hiện của thuật toán đề xuất 4 và BP ....................115

Bảng 3.27. So sánh độ tin cậy của thuật toán đề xuất 4 và BP theo RMSE ...........116
Bảng 3.28. So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 4 và
thuật toán BP .........................................................................................117
Bảng 3.29. So sánh tốc độ thực hiện của các thuật toán đề xuất ...........................119


xii

DANH MỤC CÁC HÌNH VẼ

Trang

Hình 1.1. Sơ đồ khối hệ thống thị giác nổi .................................................................9
Hình 1.2. Stereo camera ............................................................................................12
Hình 1.3. Các mẫu hiệu chuẩn dùng kỹ thuật bàn cờ ...............................................13
Hình 1.4. Các bƣớc xoay ảnh stereo camera để hiệu chỉnh ......................................14
Hình 1.5. Cặp điểm tƣơng ứng của ảnh stereo camera .............................................15
Hình 1.6. Sự khác nhau giữa thuật toán so khớp ......................................................15
Hình 1.7 Sơ đồ điểm ảnh trên trục toạ độ 3 chiều.....................................................16
Hình 1.8. Sơ đồ tham chiếu điểm ảnh 2D từ 3D .......................................................16
Hình 1.9. Sơ đồ hình chiếu của điểm ảnh lên mặt quan sát ......................................18
Hình 2.1. Mô hình đồ thị trƣờng ngẫu nhiên Markov ...............................................41
Hình 2.2. Mô hình trƣờng ngẫu nhiên Markov dạng lƣới.........................................44
Hình 2.3. Mô hình Markov dạng lƣới ẩn ..................................................................45
Hình 2.4. Mô hình MRF dạng cây ............................................................................46
Hình 2.5. Sơ đồ mô hình MRF dạng lƣới .................................................................52
Hình 2.6. Sơ đồ hai nhánh của HBP .........................................................................53
Hình 2.7. Sơ đồ cập nhật của thông điệp ..................................................................54
Hình 2.8. Sơ đồ hiển thị nhãn....................................................................................55
Hình 2.9. Sơ đồ mô hình đồ thị BBP: .......................................................................55

Hình 2.10. Sơ đồ biến đổi lớp của HFBP..................................................................56
Hình 2.11. Sơ đồ mô hình .........................................................................................56
Hình 2.12. Sơ đồ đƣờng bao thông điệp của Tile_BP. .............................................57
Hình 2.13. Sơ đồ mô hình thuật toán CSBP .............................................................58
Hình 2.14. Sơ đồ thuật toán Improved BP ................................................................58
Hình 2.15. Sơ đồ biến đổi CT với cửa sổ 3x3 và khoảng cách Hamming ................59
Hình 2.16. Sơ đồ mô hình thuật toán đề xuất 1.........................................................62
Hình 2.17. Sơ đồ cấu trúc chia thô đến mịn mức 1 ...................................................62
Hình 2.18. Sơ đồ lan truyền thông điệp ....................................................................63
Hình 2.19. Lƣu đồ giải thuật cho thuật toán đề xuất 1 ..............................................67


xiii

Hình 2.20. Sơ đồ mô hình thuật toán đề xuất 2.........................................................68
Hình 2.21. Lƣu đồ giải thuật cho thuật toán đề xuất 2 ..............................................72
Hình 2.22. Sơ đồ mô hình thuật toán đề xuất 3.........................................................74
Hình 2.23. Lƣu đồ giải thuật cho thuật toán đề xuất 3 ..............................................78
Hình 2.24. Sơ đồ mô hình thuật toán đề xuất 4.........................................................79
Hình 2.25. Lƣu đồ giải thuật cho thuật toán đề xuất 4 ..............................................83

Hình 3.1. Hệ thống thực nghiệm.....................................................................87
Hình 3.2. Bản đồ chênh lệch dùng thuật toán BP .....................................................90
Hình 3.3. Bản đồ chênh lệch dùng thuật toán đề xuất 1. ..........................................92
Hình 3.4. Bản đồ chênh lệch dùng thuật toán đề xuất 2. ..........................................94
Hình 3.5. Bản đồ chênh lệch dùng thuật toán đề xuất 3. ..........................................97
Hình 3.6. Bản đồ chênh lệch dùng thuật toán đề xuất 4 ...........................................99

Biểu đồ 3.1. So sánh tốc độ của thuật toán đề xuất 1 và BP ........................103
Biểu đồ 3.2. So sánh độ tin cậy của thuật toán đề xuất 1 và BP theo RMSE .........104

Biểu đồ 3.3. So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 1 và
thuật toán BP ......................................................................................105
Biểu đồ 3.4. So sánh tốc độ của thuật toán đề xuất 2 và thuật toán BP .................107
Biểu đồ 3.5. So sánh độ tin cậy của thuật toán đề xuất 2 và BP theo RMSE .........108
Biểu đồ 3.6. So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 2 và
thuật toán BP ......................................................................................110
Biểu đồ 3.7. So sánh tốc độ của thuật toán đề xuất 3 và thuật toán BP .................112
Biểu đồ 3.8. So sánh độ tin cậy của thuật toán đề xuất 3 và BP theo RMSE .........113
Biểu đồ 3.9. So sánh tốc độ của thuật toán đề xuất 4 và thuật toán BP .................115
Biểu đồ 3.10. So sánh độ tin cậy của thuật toán đề xuất 4 và BP theo RMSE .......116
Biểu đồ 3.11. So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 4 và
thuật toán BP ....................................................................................118
Biểu đồ 3.12. So sánh tốc độ thực hiện của các thuật toán đề xuất .......................119
Biểu đồ 3.13. So sánh độ tin cậy của các thuật toán đề xuất theo RMSE ..............120
Biểu đồ 3.14. So sánh dung lƣợng bộ nhớ yêu cầu của các thuật toán đề xuất .....120


1

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Ngày nay, khoa học kỹ thuật phát triển mạnh mẽ điển hình là cuộc cách
mạng công nghiệp 4.0 đƣợc khởi xƣớng từ nƣớc Đức năm 2013. Một trong
các yếu tố làm nên cuộc cách mạng công nghiệp 4.0 là robot sẽ dần thay sức
lao động của con ngƣời và cùng con ngƣời làm việc trong các nhà máy, công
xƣởng. Do đó, robot phải xử lý thông tin trong môi trƣờng 3 chiều (3D) thông
qua hệ thống thị giác để định hƣớng, định vị, nhận dạng và xác định chính xác
vị trí các vật xung quanh đƣợc gọi là thị giác nổi (stereo vision) hay thị giác
robot 3D. Ngoài ra, thị giác nổi còn đƣợc ứng dụng trong nhận dạng, tái tạo,
định vị, phẫu thuật, xe tự hành, xây dựng bản đồ và trong nghệ thuật.

Con ngƣời mong muốn tạo ra đƣợc hệ thị giác Robot giống nhƣ thị giác
của con ngƣời, hệ thị giác đơn giản nhất là sử dụng stereo camera bao gồm
hai camera thay cho hai mắt của con ngƣời kết hợp với hệ thống nhúng xử lý
dữ liệu đóng vai trò nhƣ bộ não. Thông tin ảnh stereo camera đƣợc xử lý
thông qua các thuật toán trên nền tảng xử lý nhƣ khối xử lý trung tâm (CPU:
central processing unit), vi xử lý tín hiệu số (DSP: digital signal processing),
khối xử lý đồ họa (GPU: graphic processing unit), mảng cổng lập trình dạng
trƣờng (FPGA: field programmable gate array) và các mạch tích hợp ứng
dụng riêng (ASIC: application specific integrated circuits) kết hợp với các
ngôn ngữ thực hiện nhƣ Matlab, OpenCV (open computer vision), kiến trúc
thiết bị tính toán hợp nhất (CUDA: compute unified device architecture) ….
Một hệ thống nhƣ vậy đƣợc gọi là hệ thống thị giác nổi (stereo vision system).
Các thách thức lớn đối với hệ thống thị giác nổi dùng stereo camera là nguồn
dữ liệu từ ảnh stereo camera ngày càng tăng, tốc độ thực hiện đòi hỏi đáp ứng
thời gian thực, độ tin cậy cao và dung lƣợng bộ nhớ hữu hạn. Để giải quyết
bài toán này, một trong các giải pháp hiệu quả nhất là phát triển các thuật toán


2

xử lý, trong khi các nền tảng xử lý chƣa phát triển kịp theo nhu cầu của con
ngƣời.
Thuật toán xử lý trong hệ thống thị giác nổi dùng stereo camera bao
gồm các thuật toán hiệu chuẩn (calibration) camera, thuật toán hiệu chỉnh
(rectification) ảnh và thuật toán so khớp (correspondence). Thuật toán hiệu
chuẩn camera dùng để xác định các thông số bên trong và bên ngoài camera
nhƣ tiêu cự f. Thuật toán hiệu chỉnh ảnh dùng để sửa méo ống kính của ảnh.
Thuật toán so khớp đƣợc dùng để tìm điểm tƣơng ứng (Stereo correspondence)

của điểm ảnh trên ảnh trái và ảnh phải của ảnh stereo camera, từ đó xác định

đƣợc thông tin độ chênh lệch của điểm tƣơng ứng cũng nhƣ bản đồ độ chênh
lệch (disparity map) của ảnh stereo camera. Từ dữ liệu về độ chênh lệch sẽ
xác định đƣợc độ sâu, khoảng cách của đối tƣợng. Trong các thuật toán xử lý
thì thuật toán so khớp có ảnh hƣởng nhất đến chất lƣợng của hệ thống thị giác
nổi dùng stereo camera.
Ngoài thông tin lấy từ ảnh, thị giác robot 3D có thể lấy thông tin từ các
nguồn khác nhƣ cảm biến ánh sáng và laze. Bài toán xử lý thông tin từ ảnh là
bài toán rất khó và không xác định bởi vì ảnh có các vùng đồng nhất, vùng bị
che và đặc biệt bị ảnh hƣởng rất nhiều từ môi trƣờng xung quanh nhƣ ánh
sáng.
Thị giác robot 3D đƣợc phân loại thành hai hệ thống: một là hệ thống
thụ động bao gồm camera đơn, stereo camera, cảm biến ánh sáng và hai là hệ
thống chủ động nhƣ cảm biến laze. Mỗi hệ thống đều có ƣu điểm và nhƣợc
điểm. Tuy nhiên, để hệ thống vừa xác định đƣợc khoảng cách và tái tạo đƣợc
vật thể hệ thống thụ động dùng stereo camera có ƣu điểm nhất.
Stereo camera đƣợc dùng trong hệ thống thị giác nổi đƣợc phân loại
thành hai loại là stereo camera có độ phân giải cao, mật độ điểm tƣơng ứng
thƣa (sparse) và stereo camera có độ phân giải cao, mật độ điểm tƣơng ứng


3

dày (dense). Đối với mỗi loại stereo camera thì có các thuật toán so khớp
tƣơng ứng. Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao,
mật độ điểm tƣơng ứng thƣa có tốc độ tính toán nhanh và yêu cầu bộ nhớ thấp
tuy nhiên có hạn chế là độ tin cậy thấp, không thực hiện đƣợc ở ảnh các vùng
giống nhau và không quan sát đƣợc. Các thuật toán so khớp cho ảnh stereo
camera có độ phân giải cao, mật độ điểm tƣơng ứng dày có ƣu điểm là độ tin
cậy cao tuy nhiên độ phức tạp tính toán và dung lƣợng bộ nhớ yêu cầu lớn.
Các thuật toán so khớp thực hiện bản đồ độ chênh lệch của stereo

camera có độ phân giải cao, mật độ các điểm tƣơng ứng dầy bao gồm thuật
toán cục bộ (local) và thuật toán toàn cục (global). Thuật toán cục bộ có độ
phức tạp tính toán và yêu cầu bộ nhớ thấp nhƣng độ tin cậy cũng thấp so với
thuật toán toàn cục.
Ở trong nƣớc, đã có một số tác giả nghiên cứu ứng dụng thị giác 3D
cho robot nhƣ tác giả Bạch Ngọc Minh [4] trƣờng Đại học Quốc gia Hà Nội
đã nghiên cứu so sánh các thuật toán xử lý thông tin ảnh stereo camera cho hệ
thống thị giác nổi và tác giả Nguyễn Quang Hùng [3] trung tâm MICA thuộc
trƣờng Đại học Bách khoa Hà Nội đã ứng dụng thị giác nổi dùng camera hỗ
trợ cho ngƣời khiếm thị. Ngoài ra, tác giả Trƣơng Quốc Bảo [1] trƣờng Đại
học Cần thơ đã áp dụng thị giác nổi trong nông nghiệp nhƣ thu hoạch cà chua
và tác giả Trần Thuận Hoàng [2] trƣờng đại học Quốc gia đã nghiên cứu các
camera dẫn đƣờng cho robot đi động.
Ở ngoài nƣớc, vấn đề thị giác nổi đã và đang đƣợc nghiên cứu và phát
triển mạnh nhƣ [25], [64], [87], [100], [106]. Tác giả R. Szeliski và D.
Scharstein [29] đã so sánh đánh giá một số lƣợng lớn các thuật toán thị giác
nổi trên cùng một hệ thống xử lý và cùng sử dụng tập dữ liệu kiểm thử. Ngoài
ra, tác giả R. Szeliski còn xây dựng bộ ảnh stereo camera kiểm thử đƣợc rất
nhiều nhà nghiên cứu sử dụng để thử nghiệm khi nghiên cứu, cải tiến thuật


4

toán so khớp [30]. Một số thuật toán so khớp đƣợc dùng cho ảnh stereo
camera có độ phân giải cao, mật độ điểm tƣơng ứng thƣa nhƣ SIFT [10],
SURF [66] đã đƣợc nghiên cứu và phát triển. Các thuật toán này hoạt động
dựa trên các đặc trƣng của ảnh dẫn đến tốc độ thực hiện nhanh, dung lƣợng bộ
nhớ yêu cầu thấp nhƣ phải trả giá về độ tin cậy thấp nhƣ không thực hiện
đƣợc ở các vùng ảnh đồng nhất, các vùng ảnh không quan sát đƣợc. Để khắc
phục nhƣợc điểm này, các thuật toán so khớp dùng cho ảnh stereo camera có

độ phân giải cao, mật độ điểm tƣơng ứng dày đƣợc nghiên cứu và phát triển
nhƣ SAD [15], BP [104] và DP [110]...Các thuật toán này hoạt động với ảnh
có mật độ điểm tƣơng ứng dầy dẫn đến độ tin cậy cao, có thể thực hiện xử lý
trên các vùng ảnh đồng nhất, vùng ảnh không quan sát đƣợc tuy nhiên, nó
cũng phải trả giá bằng tốc độ thực hiện chậm cũng nhƣ dung lƣợng bộ nhớ
yêu cầu lớn.
Từ những phân tích trên, để góp phần giải quyết một số vấn đề nâng
cao chất lƣợng và tốc độ trong hệ thống thị giác nổi đáp ứng về yêu cầu bộ
nhớ, đảm bảo độ tin cậy, nghiên cứu sinh lựa chọn đề tài luận án là:
“Nghiên cứu giải pháp nâng cao tốc độ xử lý tín hiệu trong hệ thống
thị giác nổi”
Luận án sẽ đề xuất các giải pháp để giải quyết bài toán nâng cao tốc độ
xử lý tín hiệu và giảm dung lƣợng bộ nhớ yêu cầu trong hệ thống thị giác nổi
dùng stereo camera có độ phân dải cao, mật độ điểm tƣơng ứng dày.
2. Mục tiêu nghiên cứu
Nghiên cứu các giải pháp cụ thể để cải tiến thuật toán lan truyền tin cậy
BP (Belief Propagation) nhằm tăng tốc độ thực hiện và giảm dung lƣợng bộ
nhớ yêu cầu khi thực hiện bản đồ độ chênh lệch của ảnh stereo camera có độ
phân giải cao, mật độ điểm tƣơng ứng dày trong hệ thống thị giác nổi ứng
dụng cho thị giác robot 3D.


5

3. Đối tƣợng, phạm vi nghiên cứu
- Luận án tập trung nghiên cứu thị giác nổi dùng stereo camera và ứng
dụng thị giác nổi vào thị giác robot làm việc trong môi trƣờng 3 chiều.
- Luận án tập trung nghiên cứu giải pháp giảm năng lƣợng chi phí của
thuật toán toàn cục lan truyền tin cậy BP thực hiện bản đồ độ chênh lệch của
ảnh stereo camera có độ phân giải cao, mật độ điểm tƣơng ứng dầy.

- Ảnh stereo camera đƣợc lấy từ tập dữ liệu kiểm thử [30].
- Nghiên cứu, đề xuất giải pháp cải tiến thuật toán lan truyền tin cậy BP
nhằm nâng cao hiệu quả thực hiện bản đồ độ chênh lệch.
- Thực hiện các thuật toán đề xuất trên nền tảng xử lý GPU GTX 750Ti
[71] và ngôn ngữ CUDA [70].
4. Phƣơng pháp nghiên cứu
Luận án tập trung nghiên cứu giải pháp tối thiểu hàm chi phí của thuật
toán lan truyền tin cậy BP là thuật toán suy luận gần đúng dựa trên mô hình
trƣờng ngẫu nhiên Markov [5] (Mô hình bao gồm lý thuyết đồ thị và lý thuyết
xác suất thống kê) thực hiện bản đồ độ chênh lệch từ ảnh stereo camera có độ
phân giải cao, mật độ điểm tƣơng ứng dầy. Phân tích các thuật toán cải tiến
thuật toán BP từ đó đề xuất giải pháp nhằm tối thiểu hàm chi phí của thuật
toán BP và lựa chọn nền tảng xử lý phù hợp nhằm đạt đƣợc mục đích đề ra
của luận án. Từ phân tích toán học, biểu thức hóa các tham số, luận án dùng
các công cụ mô phỏng, lấy dữ liệu từ tập dữ liệu kiểm thử [30] để chứng minh
tính đúng đắn của các kết quả nghiên cứu.
5. Ý nghĩa khoa học và thực tiễn của luận án
Bản đồ chênh lệch (disparity map) của ảnh stereo camera có vai trò rất
quan trọng trong thị giác robot 3D. Từ bản đồ độ chênh lệch, kết hợp với phép
đạc tam giác sẽ cho bản đồ độ sâu và ƣớc lƣợng khoảng cách từ camera đến
vật đƣợc gọi là kĩ thuật thị giác nổi. Kĩ thuật này đƣợc áp dụng rộng rãi trong


6

công nghiệp, robot, phẫu thuật, xe tự hành, định vị, xây dựng bản đồ và nghệ
thuật.
Luận án đã đề xuất hai giải pháp tối thiểu hàm chi phí cho thuật toán
lan truyền tin cậy BP. Giải pháp thứ nhất thực hiện giảm số lƣợng các nút
trong mô hình trƣờng ngẫu nhiên Markov thông qua các vòng lặp dùng

phƣơng pháp chia thô đến mịn CTF (Coarse to fine) mức 1. Giải pháp thứ hai
thực hiện kết hợp giữa thuật toán cục bộ CT (Census transform) và thuật toán
toàn cục BP đã cải thiện giảm năng lƣợng chi phí của nút xuất phát ban đầu
khi thực hiện lan truyền thông điệp của thuật toán BP.
6. Bố cục luận án
Luận án đƣợc bố cục theo 3 chƣơng cùng với mở đầu và kết luận:
Mở đầu: Nêu đƣợc tính cấp thiết của luận án, mục đích, phạm vi,
phƣơng pháp nghiên cứu và ý nghĩa khoa học, thực tiễn của luận án.
Chƣơng 1: Trình bày tổng quan về hệ thống thị giác nổi và xử lý tín
hiệu trong hệ thống thị giác nổi gồm khối thông tin ảnh, khối xử lý thông tin
ảnh và khối phát triển ứng dụng. Phân tích các yếu tố ảnh hƣởng đến tốc độ
xử lý tín hiệu trong hệ thống thị giác nổi bao gồm phần cứng và phần mềm.
Tổng quan các thuật toán so khớp thực hiện bản đồ chênh lệch của ảnh stereo
camera có độ phân giải cao, mật độ điểm tƣơng ứng thƣa hoặc mật độ điểm
tƣơng ứng dày.
Chƣơng 2: Trình bày một số đặc trƣng của trƣờng ngẫu nhiên Markov
và ứng dụng chúng vào thuật toán lan truyền tin cậy BP. Nêu nguyên lý hoạt
động của lan truyền tin cậy BP và ứng dụng thuật toán BP để xác định bản đồ
chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tƣơng ứng
dầy. Phân tích, đánh giá các thuật toán lan truyền tin cậy BP cải tiến, trên cơ
sở thuật toán lan truyền tin cậy BP, luận án đề xuất hai giải pháp nâng cao tốc
độ xử lý cho thuật toán BP. Giải pháp thứ nhất thực hiện giảm số lƣợng các
nút trong mô hình trƣờng ngẫu nhiên Markov thông qua các vòng lặp dùng


7

phƣơng pháp chia thô đến mịn mức 1 với hai thuật toán đề xuất là thuật toán
lan truyền tin cậy dùng chia thô đến mịn CFBP (Coarse to fine belief
propagation) gọi là thuật toán đề xuất 1 và thuật toán lan truyền tin cậy có độ

sâu thay đổi dùng chia thô đến mịn CFCSBP (Coarse to fine change space
belief propagation) gọi là thuật toán đề xuất 2. Giải pháp thứ hai thực hiện kết
hợp giữa thuật toán cục bộ CT và thuật toán toàn cục BP đã cải thiện giảm
năng lƣợng chi phí của nút xuất phát ban đầu khi thực hiện lan truyền thông
điệp của thuật toán BP. Giải pháp này có hai thuật toán đề xuất là thuật toán
lan truyền tin cậy kết hợp biến đổi thống kê CTBP (Census transform belief
propagation) gọi là thuật toán đề xuất 3 và thuật toán lan truyền tin cậy có độ
sâu thay đổi kết hợp biến đổi thống kê CTCSBP (Census transform change
space belief propagation) gọi là thuật toán đề xuất 4. Xây dựng mô hình, lƣu
đồ thuật toán chƣơng trình cho các giải pháp đề xuất nhằm nâng cao tốc độ xử
lý tín hiệu trong hệ thống thị giác nổi.
Chƣơng 3: Thực nghiệm các thuật toán đề xuất và thuật toán lan
truyền tin cậy BP thực hiện bản đồ chênh lệch của ảnh stereo camera có độ
phân giải cao, mật độ điểm tƣơng ứng dầy trên hệ thống nhúng với trình biên
dịch và dữ liệu vào giống nhau. Hệ thống thực nghiệm là một hệ máy tính PC
Desktop với CPU core i7, card màn hình GPU GTX 750Ti với phần mềm
biên dịch QTCreator 5.8 kết hợp OpenCV 3.0, Visual Studio 2013 và CUDA.
Tập dữ liệu thử nghiệm là tập dữ liệu kiểm thử chuẩn của Middlebury [30]. So
sánh, đánh giá các thuật toán đề xuất với thuật toán BP dựa trên các yếu tố
nhƣ tốc độ thực hiện, dung lƣợng bộ nhớ yêu cầu và độ tin cậy.
Kết luận: Nêu các kết quả đạt đƣợc của luận án, ứng dụng kết quả luận
án vào thực tiễn và kiến nghị hƣớng các nghiên cứu tiếp theo.


8

CHƢƠNG 1: TỔNG QUAN VỀ THỊ GIÁC NỔI VÀ XỬ LÝ TÍN HIỆU
TRONG HỆ THỐNG THỊ GIÁC NỔI
Ngày nay, con ngƣời mong muốn sẽ tạo ra đƣợc hệ thị giác giống nhƣ
hệ thị giác của con ngƣời. Hình ảnh từ mắt ngƣời bình thƣờng là ảnh có độ

sâu và ngƣời ta thƣờng gọi đó là ảnh nổi, ảnh lập thể hay thị giác nổi (stereo
vision). Với ngƣời bình thƣờng thì hệ thị giác bao gồm hai con mắt kết hợp
với hệ cấu trúc thần kinh phức tạp và trung tâm xử lý của não, con ngƣời có
thể dễ dàng cảm nhận các đối tƣợng xung quanh nhƣ ƣớc lƣợng khoảng cách
và tƣởng tƣợng ra đối tƣợng. Từ mong muốn đó, con ngƣời chế tạo ra hệ thị
giác nổi nhƣ hệ thị giác robot 3D làm việc giống nhƣ hệ thị giác của con
ngƣời. Hệ thị giác robot 3D bao gồm stereo camera có độ phân giải cao kết
hợp với phần cứng là các hệ thống xử lý tín hiệu thông tin ảnh và các thuật
toán xử lý. Đối với hệ thị giác của con ngƣời thì đôi mắt là stereo camera, còn
thuật toán và hệ thống xử lý là cấu trúc hệ thần kinh và trung tâm xử lý não
của con ngƣời. Các thuật toán xử lý bao gồm các thuật toán hiệu chỉnh ảnh và
các thuật toán so khớp tìm điểm tƣơng ứng trên ảnh stereo camera và phép
đạc tam giác.
Trong chƣơng 1, luận án sẽ trình bày về tổng quan thị giác nổi, mô
hình stereo camera và các phƣơng pháp hiệu chuẩn, các phƣơng pháp hiệu
chỉnh, các phƣơng pháp tìm điểm so khớp và phép đạc tam giác. Ngoài ra,
trong chƣơng này luận án cũng giới thiệu, phân tích các nền tảng xử lý và
đánh giá các nền tảng xử lý dùng cho xử lý thông tin ảnh trong hệ thống thị
giác nổi.
1.1. Tổng quan thị giác nổi
Thị giác nổi là thành phần rất quan trọng trong thị giác máy và đƣợc
nhiều nhà khoa học nghiên cứu và phát triển trong hai thập kỉ gần đây. Hệ
thống thị giác nổi đƣợc áp dụng khá rộng rãi trong nhiều lĩnh vực nhƣ robot,


9

xe tự hành, y khoa, nghệ thuật, giải trí và đặc biệt trong cuộc cách mạng công
nghiệp 4.0. [59]. Con ngƣời muốn tạo ra một hệ thị giác robot làm việc đƣợc
trong môi trƣờng 3 chiều gần giống với thị giác con ngƣời, khi đó robot và

con ngƣời cùng nhau hoạt động sản xuất [55].
Khối thông tin ảnh

Khối xử lý
thông tin ảnh

Khối phát triển
ứng dụng

Hình 1.1. Sơ đồ khối hệ thống thị giác nổi
Hiện nay, theo [64], hệ thống thị giác nổi nhƣ Hình 1.1 đƣợc chia làm
hai loại là hệ thống thị giác nổi chủ động và hệ thống thị giác nổi thụ động.
Hệ thống chủ động là hệ thống sử dụng cảm biến laze và cảm biến ánh sáng
để tái tạo đối tƣợng [107]. Hệ thống thụ động là hệ thống sử dụng camera
quang nhƣ camera đơn [79], stereo camera [50] với độ phân giải cao, mật độ
điểm tƣơng ứng thƣa hoặc mật độ điểm tƣơng ứng dầy. Một số yêu cầu chính
của hệ thị giác nổi thụ động là đảm bảo tốc độ thực hiện, độ tin cậy và dung
lƣợng bộ nhớ yêu cầu. Tùy theo mức độ yêu cầu của hệ thống thị giác nổi mà
lựa chọn stereo camera, thuật toán xử lý và nền tảng xử lý cho phù hợp. Tuy
nhiên, một hệ thống đáp ứng tốt cả 3 yêu cầu này là rất khó thực hiện vì yêu
cầu về tốc độ thực hiện và dung lƣợng bộ nhớ yêu cầu thƣờng tỉ lệ nghịch với
yêu cầu về độ tin cậy. Chất lƣợng của hệ thống thị giác nổi phụ thuộc vào
chất lƣợng của thuật toán xử lý nhƣ chất lƣợng của các phƣơng pháp hiệu
chuẩn camera, phƣơng pháp hiệu chỉnh ảnh và phƣơng pháp tìm điểm tƣơng
ứng. Các phƣơng pháp hiệu chuẩn [22] xác định đƣợc thông số bên trong và
bên ngoài camera, các phƣơng pháp hiệu chỉnh [26], [45] sửa méo ống kính
và các phƣơng pháp so khớp [46] xác định bản đồ chênh lệch. Ngoài ra, chất
lƣợng hệ thống thị giác nổi còn phụ thuộc vào chất lƣợng của stereo camera
nhƣ độ phân giải và chất lƣợng của nền tảng xử lý tín hiệu nhƣ CPU, DSP,
GPU, FPGA và ASIC.



10

Thuật toán so khớp đƣợc phân làm hai loại là thuật toán so khớp cho
ảnh stereo camera có độ phân giải cao, mật độ điểm tƣơng ứng thƣa nhƣ
SURF [66] và SIFT [10] và thuật toán so khớp cho ảnh stereo camera có độ
phân giải cao, mật độ điểm tƣơng ứng dầy nhƣ SAD [15], BP [104] và DP
[110]. Thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ
điểm tƣơng ứng thƣa sử dụng các điểm đặc trƣng trên ảnh nhƣ góc, cạnh sẽ
cho kết quả tốc độ cao và dung lƣợng bộ nhớ yêu cầu thấp tuy nhiên nó có
nhƣợc điểm không xác định đƣợc các vùng đồng nhất và vùng không quan sát
đƣợc nghĩa là độ tin cậy thấp. Thuật toán so khớp cho ảnh stereo camera có
độ phân giải cao, mật độ điểm tƣơng ứng dầy nên có độ phức tạp tính toán
cao và dung lƣợng bộ nhớ yêu cầu lớn. Các thuật toán so khớp cho ảnh stereo
camera có độ phân giải cao, mật độ điểm tƣơng ứng dầy đƣợc phân làm ba
loại thuật toán đó là thuật toán cục bộ (local) [15], [101], thuật toán toàn cục
(global) [48], [78] và thuật toán lai [24], [90]. Thuật toán so khớp cục bộ dựa
trên cửa sổ, kích thƣớc cửa sổ phải đủ lớn để xác định đƣợc điểm khớp và đủ
nhỏ để xác định đƣợc các điểm trên biên của ảnh. Thuật toán so khớp cục bộ
cho tốc độ xử lý nhanh, dung lƣợng bộ nhớ yêu cầu thấp và độ tin cậy thấp so
với thuật toán so khớp toàn cục. Thuật toán so khớp toàn cục cho tốc độ
chậm, dung lƣợng bộ nhớ cao và độ tin cậy cao so với thuật toán cục bộ.
Thuật toán lai có tốc độ thực hiện, dung lƣợng bộ nhớ yêu cầu và độ tin cậy
nằm ở giữa thuật toán toàn cục và thuật toán cục bộ. Tùy theo các ứng dụng
cụ thể mà lựa chọn thuật toán so khớp cùng với nền tảng xử lý phù hợp sẽ cho
hệ thống thị giác nổi đạt đƣợc hiệu quả cao. Trong khi yêu cầu của con ngƣời
càng cao, stereo camera có độ phân giải càng lớn, tốc độ phát triển của các
nền tảng xử lý chƣa đáp ứng kịp thì việc nghiên cứu, phát triển các thuật toán
xử lý rất đƣợc các nhà nghiên cứu quan tâm. Đặc biệt là các thuật toán so

khớp luôn đƣợc các nhà nghiên cứu ƣu tiên phát triển và cải tiến.


11

1.1.1. Một số khái niệm
Thị giác robot làm việc trong môi trƣờng 3 chiều còn đƣợc gọi là thị
giác robot 3D hay thị giác nổi. Thị giác nổi là một phần quan trọng trong thị
giác máy, các phƣơng pháp ƣớc lƣợng khoảng cách từ camera đến vật, tái tạo
và lập bản đồ độ sâu của vật đƣợc gọi là kỹ thuật thị giác nổi.
Stereo camera: Hệ camera bao gồm hai hoặc nhiều camera đƣợc gán
trên một giá đỡ cùng chụp một cảnh với các góc nhìn khác nhau đƣợc gọi là
stereo camera.
Ảnh stereo camera: Hai hoặc nhiều ảnh cùng chụp một cảnh với góc
nhìn khác nhau đƣợc gọi là ảnh stereo camera.
Điểm tương ứng (Stereo correspondence): Hai hoặc nhiều điểm nằm
trên các ảnh của ảnh stereo camera cùng biểu diễn một điểm trên cảnh đƣợc
gọi là điểm tƣơng ứng.
So khớp (Stereo matching): Quá trình tìm điểm tƣơng ứng trên các ảnh
của ảnh stereo camera đƣợc gọi là kỹ thuật so khớp và đƣợc thực hiện thông
qua các thuật toán so khớp.
Độ chênh lệch: Sự khác nhau về vị trí của điểm tƣơng ứng trên ảnh
stereo camera đƣợc gọi là độ chênh lệch và thƣờng ký hiệu là d (disparity).
Với mỗi camera có góc nhìn đến điểm tƣơng ứng khác nhau dẫn đến vị trí hay
độ xám của điểm tƣơng ứng trên mỗi ảnh của ảnh stereo camera khác nhau.
Bản đồ chênh lệch (disparity map): Tập hợp các độ chênh lệch của
điểm tƣơng ứng trên ảnh stereo camera đƣợc gọi là bản đồ chênh lệch. Bản đồ
chênh lệch là nhân tố rất quan trọng để lập đƣợc bản đồ độ sâu của vật. Do
vậy khi nói về kỹ thuật thị giác nổi ngƣời ta tập trung nghiên cứu, phát triển
và cải tiến các thuật toán so khớp tìm bản đồ chênh lệch của ảnh stereo

camera từ stereo camera.


12

Quá trình xử lý thông tin ảnh từ ảnh stereo camera để xác định đƣợc
bản đồ độ sâu của vật trong hệ thống thị giác nổi đƣợc gọi là quá trình xử lý
tín hiệu trong hệ thống thị giác nổi. Để nâng cao tốc độ xử lý tín hiệu thì
ngoài việc tối thiểu hàm chi phí xác định điểm tƣơng ứng còn phải lựa chọn
thuật toán so khớp và nền tảng xử lý tín hiệu phù hợp.
1.1.2. Hệ thống thị giác nổi.
Để tạo ra đƣợc ảnh nổi đã có nhiều hệ thống thị giác nổi đƣợc đề xuất
[50], [107]. Tùy theo mức độ yêu cầu của nhiệm vụ, hệ thống thị giác nổi sẽ
đƣợc lựa chọn cho phù hợp nhằm mang lại hiệu quả tốt nhất. Hệ thống thị
giác nổi đƣợc lựa chọn để phân tích ở đây là hệ thống thụ động bao gồm khối
thông tin ảnh, khối xử lý thông tin ảnh và khối phát triển ứng dụng. Khối
thông tin ảnh là stereo camera với hai camera có độ phân giải cao. Khối xử lý
thông tin ảnh bao gồm thuật toán xử lý là thuật toán so khớp lan truyền tin cậy
BP và phần cứng là nền tảng xử lý GPU GTX 750Ti. Khối phát triến ứng
dụng là thị giác robot 3D.
1.1.2.1 Khối thông tin ảnh
Khối thông tin ảnh bao gồm hai khối là khối stereo camera và khối hiệu
chuẩn ảnh. Khối này có nhiệm vụ cung cấp ảnh stereo camera có độ phân giải
cao, mật độ điểm tƣơng ứng dày và
các thông số của ảnh nhƣ kích
thƣớc, độ sâu cũng nhƣ các thông số
bên trong và bên ngoài của stereo
camera.
Stereo camera đơn giản nhất
là hai camera đƣợc gắn trên giá đỡ

nhƣ Hình 1.2.

Hình 1.2. Stereo camera


×