Tải bản đầy đủ (.pdf) (28 trang)

Luận án tiến sĩ nghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác rô bốt trong nhà (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 28 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đặng Khánh Hòa

NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC THUẬT TOÁN ƯỚC LƯỢNG
MẶT PHẲNG VÀ DẪN ĐƯỜNG CHO HỆ THỐNG THỊ GIÁC RÔ-BỐT TRONG NHÀ

Ngành: Kỹ thuật điện tử
Mã số: 9520203

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

Hà Nội – 2019

1


Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. PGS.TS. Nguyễn Tiến Dũng
2. TS. Lê Dũng

Phản biện 1:
Phản biện 2:
Phản biện 3:

Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại
học Bách khoa Hà Nội


Vào hồi …….. giờ, ngày ….. tháng ….. năm ………

Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam

2


MỞ ĐẦU

1. Tính cấp thiết của luận án
Gần đây phương pháp hỗ trợ dẫn đường bằng máy ảnh thị giác nổi được tập trung nghiên cứu
với nhiều hy vọng giải quyết được tối đa các vấn đề trong bài toán cứu hộ, cứu nạn, hỗ trợ những
người khiếm thị và nhiều lĩnh vực khác. Dựa trên hình ảnh thu nhận trong môi trường cảm thụ không
biết trước cho phép xác định được chính xác đường đi, tránh vật cản và tới mục tiêu. Tình hình nghiên
cứu các thuật toán xử lý tín hiệu máy ảnh ứng dụng trong các lĩnh vực nêu trên chưa được sự quan
tâm xứng đáng với vai trò quan trọng của nó. Số lượng các bài báo, các công trình khoa học có liên
quan được công bố trên các tạp chí khoa học, báo khoa học ở trong nước còn hạn chế.
2. Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu
2.1. Mục tiêu nghiên cứu
Mục tiêu thứ nhất là tăng cường thuật toán tính toán bản đồ chênh lệch/độ sâu về mặt thời gian,
hỗ trợ cho hệ thống máy ảnh nổi cung cấp dữ liệu độ sâu theo thời gian thực cho các ứng dụng khai
thác dữ liệu sâu hơn. Mục tiêu thứ hai là nghiên cứu và đề xuất thuật toán các thuật toán trích xuất
mặt phẳng dựa trên dữ liệu độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực, hỗ trợ cho bài toán tái
tạo đối tượng 3D. Mục tiêu thứ ba là tập trung nghiên cứu và đề xuất thuật toán nhận dạng hiệu quả
mặt đất từ dữ liệu bản đồ độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực để hỗ trợ giải quyết bài
toán dẫn đường cho rô-bốt. Mục tiêu thứ tư là nghiên cứu phương pháp dẫn đường cho rô-bốt áp dụng
thuần túy thuật toán khai thác bản đồ độ sâu, trong môi trường trong nhà không biết trước, theo định
hướng giảm thiểu độ phức tạp; đáp ứng được yêu cầu dẫn đường chính xác.

2.2. Đối tượng nghiên cứu
Từ các mục tiêu nghiên cứu trên, luận án tập trung vào đối tượng nghiên cứu thứ nhất là các thuật
toán xử lý dữ liệu bản đồ độ sâu được cung cấp bới hệ thống máy ảnh nổi hoặc RGB-D, cung cấp dữ
liệu vào cho bài toán dẫn đường của rô-bốt trong nhà, với khả năng tự tránh các vật cản trên đường
di chuyển. Tiếp theo nghiên cứu phương pháp dẫn đường cho rô-bốt dùng hệ thống máy ảnh nổi hoặc
RGB-D trong nhà không biết trước. Cuối cùng là nghiên cứu, thiết kế và chế tạo mô hình rô-bốt tích
hợp hệ thống máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển nhằm thử nghiệm độ tin cậy.
2.3. Phương pháp nghiên cứu
Phương pháp nghiên cứu trong luận án đi từ nghiên cứu lý thuyết đến thực nghiệm, ứng dụng các
kỹ thuật xử lý ảnh thu nhận từ máy ảnh nổi vào giải quyết bài toán tìm đường trên robot di động. Đầu
tiên luận án nghiên cứu lý thuyết, xây dựng mô hình, sau đó mô phỏng thuật toán, thiết kế chế tạo mô
hình xe rô-bốt để thực nghiệm trên hiện trường nghiên cứu và đo lường, đánh giá.

2.4. Phạm vi nghiên cứu
Phát triển các thuật toán xử lý ảnh được cung cấp bởi hệ thống máy ảnh nổi hoặc RGB-D. Phát
triển thuật toán dẫn đường cho rô-bốt trong môi trường năng động chỉ sử dụng thuần túy dữ liệu thu
nhận bởi hệ thống máy ảnh nổi hoặc RGB-D. Xây dựng mô hình rô-bốt dẫn đường bằng hệ thống
máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển đối với môi trường hoạt động trong nhà
chưa biết trước.
3. Ý nghĩa khoa học và những đóng góp của luận án
3.1. Ý nghĩa khoa học: Việc nghiên cứu các thuật toán xử lý video bản đồ độ sâu cung cấp bởi hệ
thống máy ảnh nổi hoặc RGB-D của đề tài mang ý nghĩa khoa học bao gồm cả hai khía cạnh lý luận
và thực tiễn.
3.1.1. Về lý luận: Góp phần phát triển cơ sở khoa học các thuật toán xử lý tín hiệu video độ sâu
thông qua xây dựng các phương pháp tính toán nhanh, chính xác cao cho bài toán dẫn đường cho xe
rô-bốt khảo sát hiện trường - một định hướng nghiên cứu mang tính thời sự. Các kết quả nghiên cứu
của đề tài dự kiến sẽ đóng góp cho sự phát triển của nền tảng lý thuyết xử lý tín hiệu video độ sâu.
Thúc đấy giải quyết bài toán nhân dạng đối tượng mặt đất hỗ trợ dẫn đường sử dụng thị giác máy tính
cho rô-bốt di động hoạt động trong môi trường động trong nhà.
1



3.1.2. Về mặt thực tiễn: Thuật toán được nghiên cứu và đề xuất trong luận án có thể làm cơ sở cho

các nhà sản xuất thiết bị rô-bốt, hệ thống giám sát quan sát cảnh báo 3D thông minh. Do vậy, đề tài
có tính thực tiễn cao. Thuật toán đề xuất có thể được ứng dụng vào trong thiết kế và chế tạo các rôbốt khảo sát hiện trường, cứu hộ phù hợp với điều kiện môi trường tại Việt Nam.
3.2. Các đóng góp khoa học của luận án gồm:
1. Luận án đề xuất thuật toán xác định các mặt phẳng từ bản đồ độ sâu. Bước đầu, đề xuất tăng
cường thuật toán tính bản đồ chênh lệch SAD. Phương pháp thực hiện tính toán trên tập điểm biên
của ảnh thị giác nổi, giúp giảm sâu khối lượng dữ liệu cần xử lý. Tiếp theo, luận án đề xuất phương
pháp trích mặt phẳng từ bản đồ độ sâu sử dụng thuật toán Lọc và gom nhóm hàng xóm (NGaF) có
khả năng giảm độ phức tạp tính toán cũng như tăng tốc độ xử lý. Sau đó, luận án đề xuất phương
pháp nhận dạng mặt đất áp dụng thuật toán Bản đồ gradient độ sâu (GDM) khai thác bản đồ độ sâu,
cũng chính là giải quyết tránh vật cản trở đạt hiệu quả cao để phát triển ứng dụng dẫn đường dựa trên
hệ thống thị giác cho hệ rô-bốt di động trong nhà.
2. Luận án đề xuất phương pháp dẫn đường cho rô-bốt trong môi trường không biết trước dựa
trên việc xác định mặt phẳng đất gọi là Luôn di chuyển thẳng tới đích (AMSD). Luận án phát triển
việc khai thác mặt đất để tìm ra hướng đi ngắn nhất tới đích cho trước. Ban đầu là việc xây dựng mô
hình xe rô-bốt thích hợp với môi trường thử nghiệm chỉ được trang bị hệ cảm biến RGB-D. Thuật
toán tìm mặt đất tích hợp trong hệ rô-bốt đáp ứng được thời gian thực, giúp cho việc tìm phương
hướng một cách chắc chắn và nhanh chóng. .
4. Cấu trúc nội dung của luận án
Nội dung luận án bao gồm bốn chương. Đầu tiên, chương 1 tập trung giới thiệu hệ thống dẫn
đường dựa trên hình ảnh thị giác tích hợp cho rô-bốt di động. Phần cuối cùng của chương 1 trình bày
một số vấn đề còn tồn tại trong xử lý ảnh thị giác, trong lĩnh vực dẫn đường cho rô-bốt dựa trên hệ
thống máy ảnh RGB-D hoặc thị giác nổi. Chương 2 có hai nội dung chính. Thứ nhất là phương pháp
tăng tốc độ tính bản đồ chênh lệch/độ sâu dựa trên cải tiến cách thực hiện thuật giải SAD gốc. Thứ
hai là phương pháp trích xuất mặt phẳng dựa khai thác bản đồ độ sâu. Chương 3 phát triển thuật toán
để giải quyết bài toán nhận dạng mặt phẳng đất. Từ đó tác giả đề xuất phương pháp mới có cải thiện
hiệu năng so với các phương pháp này. Phương pháp đề xuất kiểm nghiệm trên hai loại tập dữ liệu

độ sâu chuẩn và tập dữ liệu thu thập thực tế. Kết quả thu được đã minh chứng cho tính mãnh mẽ, ổn
định của thuật toán thông qua cả hai phương pháp đánh giá trực quan và đánh giá khách quan.
Cuối cùng, chương 4 nghiên cứu đề xuất chiến thuật dẫn đường áp dụng cho rô-bốt di động
đi tới đích cho trước. Bài toán được giải quyết trong môi trường hoạt động trong nhà không biết trước
với ràng buộc chỉ sử dụng dữ liệu bản đồ độ sâu. Các phân tích cụ thể phương pháp tìm đường đi đề
xuất đã nêu rõ những ưu điểm nổi bật cũng như một số hạn chế của bài toán tìm đường trong nhà;
cho thấy tính khả thi của phương pháp dẫn đường đề xuất.

CHƯƠNG 1. TỔNG QUAN HỆ THỐNG DẪN ĐƯỜNG CHO RÔ-BỐT DỰA
TRÊN HÌNH ẢNH THỊ GIÁC MÁY TÍNH
1.1. Giới thiệu chương
Nội dung của chương này gồm hai phần. Phần đầu trình bày lý thuyết tổng quan về hệ thống
dẫn đường cho rô-bốt di chuyển trên mặt đất với các khái niệm, vai trò và phân loại một số loại hệ
thống dẫn đường hiện nay. Phần cuối cùng của chương này phân tích cụ thể các vấn đề liên quan tới
việc khai thác dữ liệu độ sâu hiện nay với các phân tích chi tiết các vấn đề tồn tại theo từng khía cạnh
của bài toán dẫn đường cho rô-bốt.
1.2. Hệ thống dẫn đường cho rô-bốt trong nhà
Hệ thống dẫn đường cho rô-bốt là một hệ thống kết hợp phần cứng và phần mềm nhằm tính
toán đường đi cho rô-bốt một cách hợp lý. Dựa theo nguyên tắc dẫn đường, chúng được phân biệt
như sau: Dẫn đường toàn cục, Dẫn đường cục bộ, Dẫn đường riêng. Ba hệ thống dẫn đường trên có
2


thể được ứng dụng một cách độc lập hoặc sử dụng kết hợp với nhau để bổ sung ưu điểm cho nhau
bởi với mỗi một hệ thống đều có những ưu nhược điểm nhất định.
Kiến trúc hệ thống dẫn đường rô-bốt sử dụng thị giác máy tính
Với phạm vi hoạt động là môi trường trong nhà chưa biết trước, kiến trúc của hệ thống dẫn
đường cho rô-bốt di động như Hình 2.1.
Máy ảnh RGB-D/
Máy ảnh nổi


Xử lý
hình ảnh

Cơ cấu
chấp hành

Hình 2.1. Hệ thống dẫn đường bằng thị giác cho rô-bốt
1.3. Một số vấn đề của hệ thống rô-bốt dẫn đường dựa trên thị giác nổi
1.3.1. Phương pháp tính toán bản đồ chênh lệch/độ sâu

Vấn đề tương đồng trong ảnh thị giác nổi là tìm các đối tượng tương ứng giữa hai hình ảnh
đầu vào [37], [38], được nghiên cứu trong nhiều năm gần đây. Đây là một trong những vấn đề cơ
bản trong lĩnh vực thị giác máy tính hỗ trợ cho nhiều ứng dụng nghiên cứu thị giác máy tính sâu hơn
như nhận dạng đối tượng, trích đặc trưng...
1.3.2. Phương pháp trích xuất đối tượng mặt phẳng dựa trên ảnh thị giác máy tính
1.3.2.1. Phát hiện mặt phẳng sử dụng chuyển đổi Hough

Sử dụng dạng biểu diễn bằng pháp tuyến của mặt phẳng như (1.3).
cos θ. cos φ. X + sin θ. cos φ. Y + sin φ. Z = ρ
(1.3)
trong đó θ, φ và ρ là các thông số của mặt phẳng pháp tuyến đi qua gốc. Vì vậy, θ, φ và ρ là
hằng số và không gian tham số là (O’θ φ ρ). Trong trường hợp này, một điểm ( X1 , Y1, Z1 ) trong
không gian 3D đại diện cho một bề mặt hình sin trong không gian tham số. Đây chính là nguyên lý
của biến đổi Hough 3D.
1.3.2.2. Phát hiện mặt phẳng sử dụng thuật toán RANSAC

Thuật toán RANSAC một phương pháp lặp để ước tính các tham số của mô hình toán học
bắt đầu từ một tập hợp dữ liệu chứa các ngoại lệ [46]. Việc áp dụng thuật toán RANSAC cho phép
phát hiện các mặt phẳng trong ảnh thị giác. Mặt phẳng kết quả bao gồm mặt phẳng có giá trị và các

điểm nhiễu thuộc về các mặt phẳng khác và có một số điểm bị mất. Các điểm nhiễu này cần được
loại bỏ khỏi mặt phẳng thật vừa được phát hiện và phải được gán lại cho đám mây điểm ban đầu.
Những điểm bị mất phải được thêm vào mặt phẳng được phát hiện để nâng cao tính đầy đủ của phép
trích xuất mặt phẳng. Đồng thời, các điểm này cũng được tách ra từ đám mây điểm ban đầu. Do đó
giải thuật RANSAC áp dụng để trích xuất mặt phẳng chưa chứng minh được tính mạnh mẽ trừ phi
cần thêm các giải pháp khắc phục. Ngoài ra kết quả trực quan trên chưa có chứng minh độ ổn định
của thuật toán mà cần có các số liệu đánh giá khách quan.
1.3.3. Phương pháp nhận dạng đối tượng mặt đất
1.3.3.1.

Phát hiện mặt phẳng đất dựa trên sự biến đổi ảnh thị giác

1) Phương pháp biến đổi ảnh thị giác

Sự biến đổi các điểm trên mặt phẳng đất giữa các hình ảnh tại thời điểm k-1 và k được cho bởi
một bản đồ phẳng như (1.6) [22] [50].
(1.6)
x = Hx
k

k −1

trong đó xk và xk −1 là tọa độ đồng nhất của các đặc trưng trong ảnh hiện tại và ảnh trước. Ma
trận biến đổi phẳng H bao gồm tám hệ số độc lập nên cần có ít nhất 8 phương trình (tức là bốn điểm
tương ứng) để giải hệ tuyến tính [50]. Sự biến đổi ảnh tức thời tính theo cách này có thể không mang
lại kết quả chính xác vì sự tương đối không chính xác hoặc sai. Điều này đặc biệt có hại khi vài điểm
được sử dụng trong tính toán của H, như trường hợp trong một môi trường phức tạp, do số lượng
điểm đặc trưng khan hiếm.
Phần lớn các phương pháp dựa trên sự biến đổi ảnh tính toán các thông số trong (1.6) để biểu
diễn, phân tích sự biến đổi ảnh trong suốt quá trình quan sát. Tuy nhiên, điều này liên quan đến việc

giải quyết hai vấn đề phức tạp gồm ước lượng tự chuyển động và phép trích chọn mặt đất 3D.
2)

Thực hiện nhận dạng mặt phẳng đất sử dụng phép biến đổi ảnh
3


Các khu mặt đất được trích xuất được xây dựng chồng lên hình ảnh đầu vào ở khu vực bên
dưới với phần màu xám. Các yếu tố nền và các vật thể di chuyển ra khỏi mặt đất có thể được kiểm
tra thêm. Các hình ảnh khác nhau của một chuỗi được phân tích để xác định những phần tử này
không thuộc về mặt đất và có thêm hình dạng hoặc mô hình chuyển động được mong đợi từ một vật
thể chuyển động.
3) Phân tích đánh giá phương pháp biến đổi ảnh ứng dụng nhận dạng mặt đất

Phương pháp phát hiện mặt đất sử dụng phép biến đổi ảnh không đòi hỏi phải tính toán rõ
ràng chuyển động của máy ảnh cũng như ước lượng tham số mặt đất 3D. Phương pháp này chỉ dựa
trên tính năng kết hợp trên các hình ảnh kế tiếp và một khuôn khổ tính toán phép biến đổi ảnh mới.
Hạn chế lớn của phương pháp này là giả định các mặt phẳng ổn định và chuyển động đều. Điều này
rất khó xảy ra trong thực tế di chuyển của rô-bốt. Mặt khác nếu phương pháp ước lượng dữ liệu
tuyến tính để tính toán phép biến đổi ảnh quá đơn giản, chưa thực sự bám sát thực tế. Chiến lược
phát hiện đối tượng chưa được xây dựng hoàn chỉnh để tăng cường độ tin cậy kết quả đáng kể ngay.
Trong các ứng dụng điều hướng rô-bốt trong nhà, cấu trúc của bề mặt sàn sẽ không thể có
giả định điểm đặc trưng mà các nghiên cứu thường giả định môi trường nhân tạo trong nhà thường
chứa các tập hợp các đường thẳng có cấu trúc có thể được sử dụng như thông tin điều hướng hữu
ích.
1.3.3.2.

Phát hiện mặt phẳng đất từ bản đồ chênh lệch/độ sâu

Các nghiên cứu [18] [88] [20] tập trung vào khai thác bản đồ chênh lệch để giảm khối lượng

dữ liệu đầu vào. Phương pháp [18] được đề xuất so sánh sự khác biệt độ chênh lệch trên mỗi dòng
trong bản đồ chênh lệch. Kết quả cho thấy tính mạnh mẽ của thuật toán không cao nếu nguồn ảnh bị
ảnh hưởng bởi bối cảnh. Trong bản đồ khác biệt thực tế, rõ ràng là luôn có nhiễu xuất hiện bởi hai
loại yếu tố bên ngoài và bên trong. Ngoài ra, có thêm một điểm hạn chế nữa là các kết quả chỉ được
hiển thị trong bối cảnh không có vật cản. Thuật toán V-Disparity cải tiến [88] dẫn đầu với tỷ lệ phát
hiện điểm đất cao hơn nhưng nó bị trả giá bởi độ phức tạp của quá trình xử lý khi thuật toán tích hợp
phép biến đổi Hough hoặc thuật toán RANSAC để lọc kết quả thô.
1.3.3.3.

Phát hiện mặt phẳng đất từ đám mây điểm 3D

1) Mô hình mặt phẳng đất

Trong toán học, mặt đất được mô tả như một mặt phẳng 3D nằm trong một đám mây điểm
3D. Về cơ bản, một mặt phẳng 3D có thể được biểu diễn bởi 4 thông số như (1.16).

ax + by + cz + d = 0

a 2 + b2 + c 2 = 1
(1.16)
với
[𝑎, 𝑏, 𝑐, 𝑑] là bộ tham số mặt đất. Như vậy có khá ít các tham số đủ khả năng mô tả mặt đất. Thêm
vào đó, giả định rô-bốt sử dụng các cảm biến cố định trong quá trình di chuyển.
2) Trích mặt phẳng đất từ đám mây điểm 3D

Định vị mặt đất là quá trình tìm những thông số mô tả một mặt phẳng được cho bởi hệ điểm 3D.
Cách biểu diễn các thông số được viết dưới dạng ma trận trong hệ 3D được biểu diễn như (1.17).
(1.17)
𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑁 }
Trong đó X G là tập hợp của những điểm có sẵn trên mặt đất và f là hàm số để tính toán sai số

của điểm cho trước và mặt phẳng. Tuy nhiên, vấn đề không đơn giản vì X G là chưa biết. Nếu như
tham số mặt đất đã biết qua sự tối ưu hóa, cách phân loại được giải quyết khá đơn giản. Phân loại mỗi
điểm được xác định trong (1.19).
1
𝑛ế𝑢 |𝑓(𝑥𝑖 ; 𝛩̂)| < 
(1.19)
𝑙(𝑥𝑖 ; 𝛩̂) = {
0
𝑡𝑟𝑜𝑛𝑔 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐
Trong đó  là ngưỡng giá trị để quyết định một điểm thuộc mặt phẳng hay không.  được
xác định thông qua bộ tham số mặt phẳng đất. Thuật toán kinh điển RANSAC được sử dụng để tìm
tham số mặt đất với các tham số nội tại và ngoại chưa biết. Quá trình tìm kiếm ngẫu nhiên lặp lại
với số lần lặp lại cần thiết dựa trên tỷ số của các tham số nội tại. Vì thế, RANSAC có thể được điều
chỉnh một cách thích nghi số lần lặp lại của nó dựa trên một điều kiện xác suất của sự tin cậy.
3) Phân tích đánh giá
4


Các thí nghiệm với bộ dữ liệu 3D LiDAR được thu thập bằng các cảm biến laze nên có ít
nhiễu hơn các loại máy ảnh thị giác nên số lần lấy mẫu sẽ có lợi thế hơn. Các tham số và số lần lặp
của trong thuật toán RANSAC thường bị ấn định chủ quan, thiếu cơ sở khoa học [14] [15]. Việc sử
dụng một mô hình mặt đất chưa mang lại tính chính xác cao nên vẫn cần sự cải tiến định hướng bổ
xung các cảm biến dữ liệu trực quan hoặc kết hợp các mô hình mặt đất hoặc các đặc trưng môi
trường cục bộ.
1.3.4. Phương pháp dẫn đường cho rô-bốt trong nhà môi trường chưa biết

Việc dẫn đường cho xe rô-bốt sử dụng cảm biến phi thị giác như cảm biến siêu âm đã có được
ứng dụng nhất định. Ngày nay hầu hết các hệ rô-bốt đều được tích hợp hệ máy ảnh để quan sát, thu
thập dữ liệu môi trường. Các nguồn dữ liệu đầu vào video màu, độ sâu, … là cực kỳ giàu có thông
tin. Nằm trong mục đích khai thác sâu nguồn dữ liệu hình ảnh của hệ thống thị giác gắn trên xe rôbốt thì bài toán dẫn đường bằng hệ thống thị giác sẽ góp phần khơi thêm tiềm năng của hệ thống này.

1.3.4.1.

Dẫn đường tự trị

Xe rô-bốt di động di chuyển tự trị trong một môi trường không rõ thì nó phải có khả năng
thực hiện xây dựng một số loại bản đồ và tự xác định vị trí và quy hoạch đường dẫn. Việc đồng thời
xác định vị trí và lập bản đồ, như [49] đòi hỏi có một bản đồ và lập bản đồ chính xác để ước tính
chính xác vị trí. Vấn đề này là trọng tâm của nhiều công trình nghiên cứu [53] [54] [55] [56] với nhiều
giải pháp kỹ thuật giải quyết được đề xuất.
Trong luận án này rô-bốt được xem xét xây dựng với một nhiệm vụ điều hướng trong một
môi trường chưa biết trong nhà khai thác dữ liệu bản đồ độ sâu.
1.3.4.2.

Lập kế hoạch đường đi

Vấn đề cơ bản của việc lập kế hoạch đường đi là tạo ra một con đường không bị va chạm từ
một điểm khởi đầu nhất định A, đến một điểm kết thúc mong muốn B. Một số phương pháp để điều
hướng trong một môi trường chưa biết đã được trình bày và tùy thuộc vào cách xác định khu vực hoạt
động, có nhiều cách khác nhau để giải quyết vấn đề lập kế hoạch đường dẫn. Với mục đích khai thác
hiệu quả dữ liệu độ sâu, tác giả của luận án này tập trung nghiên cứu ứng dụng bài toán dẫn đường
cho xe rô-bốt theo phương pháp lập kế hoạch đường đi cục bộ dựa trên thuần túy việc khai thác dữ
liệu độ sâu.
1.3.4.3.

Phát hiện và tránh chướng ngại vật dựa trên thị giác máy tính

Hướng nghiên cứu sử dụng phương pháp tính toán thị giác nổi mà tác giả có dự kiến lựa chọn
phương pháp để phát triển trong luận án này. Dựa vào chiều sâu của điểm, có thể đánh giá liệu điểm
đó có nằm trên mặt đất hay không [62] [67]. Hiện nay, một khó khăn của phát hiện vật cản dựa vào
ảnh thị giác nổi là vấn đề phức tạp tính toán. Gần đây, một số nhà nghiên cứu bắt đầu nghiên cứu về

phát hiện vật cản bởi cảm biến độ sâu. Công trình [68] trang bị một cảm biến độ sâu trên một rô-bốt
di động để phát hiện và tránh chướng ngại vật. Tuy nhiên phương pháp này chưa có thể phân biệt
giữa các chướng ngại vật tĩnh và chướng ngại vật di chuyển trong môi trường năng động để rô-bốt di
động có thể thực hiện nhiều chiến lược tránh chướng ngại vật khác nhau.
1.4. Tổng kết chương
Qua đánh giá cơ bản, tác giả thấy có các vấn đề cần nghiên cứu triệt để hơn như sau đây.
Vấn đề trích xuất mặt phẳng từ bản đồ chênh lệch/độ sâu: Bài toán cần được giải quyết kỹ
lưỡng từ khâu tốc độ tính toán bản đồ chênh lệch/độ sâu. Các phương pháp trích xuất mặt phẳng cần
cải thiện thời gian chạy. Do đó thuật toán cần thỏa mãn hai yếu tố gồm khối lượng dữ liệu tính toán
ít hơn và độ phức tạp thuật toán thấp. Hơn nữa, vấn đề nhận dạng mặt đất từ dữ liệu ảnh thị giác máy
tính cũng có thể giải quyết dựa trên dữ liệu bản đồ độ sâu. Thuật toán nhận dạng mặt đất cũng cần
đảm bảo tính mạnh mẽ, phổ quát và khối lượng tính toán thấp hoặc tương đương nhưng kết quả phải
tốt hơn các phương pháp gần đây.
Vấn đề dẫn đường cho xe rô-bốt trong nhà trong môi trường chưa biết. Các phương pháp
nghiên cứu về dẫn đường dựa trên thị giác máy tính được khảo sát cho thấy còn tồn tại hạn chế về
tính chính xác, tính tối ưu.

5


CHƯƠNG 2. PHƯƠNG PHÁP TĂNG TỐC TÍNH TOÁN BẢN ĐỒ CHÊNH
LỆCH VÀ PHÁT TRIỂN THUẬT TOÁN TRÍCH XUẤT MẶT PHẲNG
2.1. Giới thiệu chương
Chương này sẽ trình bày hai nội dung chính. Nội dung thứ nhất về phương pháp tăng tốc độ xây
dựng bản đồ chênh lệch/ độ sâu với đề xuất thuật toán SAD cải thiện. Giải thuật đề xuất được đánh giá
thời gian xử lý nhanh hơn trong khi các tiêu chí khác vẫn tương đương. Nội dung chính thứ hai là
phương pháp trích xuất đối tượng mặt phẳng được đề xuất có thể giữ lại những ưu điểm của phương
pháp tiếp cận [4] [5].
2.2. Hệ thống máy ảnh nổi
Một hệ thống máy ảnh nổi bao gồm hai hoặc nhiều ống kính với một bộ cảm biến hình ảnh

riêng biệt hoặc khung phim cho mỗi ống kính được đặt theo chiều ngang. Nguyên lý thị giác nổi
giống như tầm nhìn hai mắt của con người và nhận thức trực quan của chúng ta về độ sâu, nơi mà các
vật ở xa hơn trong cảnh thì vị trí của chúng ít thay đổi khi chúng ta nhắm mắt luân phiên. Sự khác
biệt vị trí thường của một đặc trưng trong hai ảnh thường là theo trục ngang. Chênh lệch được định
nghĩa là phép trừ, từ hình ảnh trái sang phải, của các tọa độ 2D của các điểm tương ứng trong không
gian hình ảnh.
2.3. Phương pháp tăng tốc tính toán bản đồ chênh lệch/độ sâu
2.3.1. Triển khai tính toán SAD thông thường

Hình 2.5 cho thấy một sơ đồ khối điển hình để tính toán bản đồ chênh lệch. Thứ nhất, các hình
ảnh trái và phải được hệ thống máy ảnh nổi thu được, và sau đó được chuyển thành hình ảnh tỷ lệ
xám và được sử dụng để tính toán bản đồ chênh lệch bằng phương pháp SAD.
Hình 2.5. Hệ thống tính bản
đồ độ sâu điển hình SAD

Ảnh trái
Từ máy
ảnh nổi
Ảnh phải

Chuyển ảnh
xám

Chuyển ảnh
xám

Tính toán
SAD

Bản đồ

chênh lệch

Độ chênh lệch thường được xem như sự dịch chuyển sang bên trái của một đặc điểm hình ảnh
khi nó được xem trong hình ảnh bên phải. Nó được xác định bằng giá trị nhỏ nhất của Tổng sự khác
biệt tuyệt đối (SAD), được áp dụng để tính chênh lệch cho mỗi điểm trong hình ảnh bên phải [38].
Thuật toán sử dụng một cửa sổ tham chiếu giống nhau có kích thước 2w + 1 2w + 1 tính theo điểm
ảnh và vùng tìm kiếm xung quanh cửa sổ tham chiếu giống nhau s  s điểm ảnh, áp dụng cho mọi
điểm trong khung cảnh. Sau khi thuật toán SAD tính cho tất cả các chênh lệch hợp lệ (2.3).
𝑤
𝑤
(2.3)
𝑆𝐴𝐷(𝑥, 𝑦, 𝑑) = ∑ ∑ |𝐼𝐿 (𝑥 + 𝜇, 𝑦 + 𝜈) − 𝐼𝑅 (𝑥 + 𝜇, 𝑦 + 𝜈 − 𝑑)|
𝜇=−𝑤 𝜈=−𝑤

Trong đó IL và IR biểu thị các giá trị màu xám của điểm ảnh trong ảnh bên trái và ảnh bên
phải, d là phạm vi của sự khác biệt, vì kích thước cửa sổ w và x, y là tọa độ của điểm ảnh trung tâm
của cửa sổ. Giá trị nhỏ nhất của SAD được biểu thị bằng D(x, y) có thể được biểu diễn bằng công
thức sau (2.4).
với d∈[d_min,d_max ]
𝐷(𝑥, 𝑦) = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝑆𝐴𝐷(𝑥, 𝑦, 𝑑)
(2.4)
2.3.2. Triển khai tính toán SAD đề xuất
2.3.2.1. Hệ thống tính toán SAD đề xuất

Trên thực tế, theo phương pháp SAD thông thường, không phải tất cả các điểm đều chứa thông tin
đặc trưng về đối tượng, thay vì thông tin biên. Vì vậy, trong phương pháp được đề xuất, khâu phát
hiện biên được thêm vào việc thực hiện SAD thông thường như được mô tả trong Hình 2.6.
2.3.2.2. Phát hiện biên trong hình ảnh xám
6



Do đó, thời gian xử lý và phạm vi tìm kiếm đạt được hiệu quả rất lớn. Biểu thị cửa sổ tham chiếu
và tìm kiếm là A và A’. SAD được xác định theo cách tương tự được mô tả ở trên nhưng chỉ áp dụng
cho những điểm tương ứng với các điểm ảnh được phát hiện biên. Để giảm các điểm ảnh biên sai, sự
khác biệt về cường độ giữa các điểm ảnh trung tâm của A và A’ được tính toán và so sánh với một
maxbias đã cho. Nếu chênh lệch này lớn hơn sai lệch, tìm kiếm sẽ bị bỏ qua và được chuyển sang bước
tiếp theo. Trong hệ thống đề xuất này, thuật toán dò biên Sobel [77] được sử dụng, bởi tính đơn giản
và hiệu quả của nó. Trong giai đoạn lọc, bản đồ chênh lệch được tinh chỉnh bằng cách sử dụng bộ lọc
hợp lý và kích thước lọc như trong [76], [78] để tránh các điểm chênh lệch được chỉ định không đúng
là những điểm mà thực tế không thể nhìn thấy trong hình ảnh trái hoặc phải do bị che khuất hoặc khu
vực phía sau của hình ảnh.
Ảnh trái
Từ máy
ảnh nổi

Ảnh phải

Chuyển ảnh
xám

Tách biên

Chuyển ảnh
xám

Tách biên

Tính toán
SAD


Tinh
chỉnh

Bản đồ
chênh lệch

Hình 2.6. Hệ thống tính bản đồ độ sâu SAD điều chỉnh đề xuất
2.3.2.3. Kết quả thực hiện và thảo luận

Phần này đề cập đến việc đánh giá hiệu suất về tính chính xác trong việc xây dựng lại bản đồ chênh
lệch cũng như thời gian thực hiện công việc này so với việc thực hiện SAD ban đầu. Thông số khác là
hiệu suất được sử dụng trong thử nghiệm, gọi là mức độ phù hợp để đưa ra tỷ lệ phần trăm của tổng
số điểm ảnh, mà giá trị chênh lệch đã được gán.
Hình 2.9 thể hiện cách đánh giá hiệu suất khác về thời gian, độ chính xác và độ bao phủ của việc
thực hiện SAD thông thường với các kích thước cửa sổ khác nhau. Nó cho thấy kích thước cửa sổ càng
lớn, thời gian tiêu tốn qua càng dài. Đối với kích thước cửa sổ sử dụng maxbias khác nhau, người ta
có thể thấy rằng thời gian tiêu tốn và được giảm đáng kể trong khi độ chính xác giữ gần như không
thay đổi với maxbias =10. Thời gian xử lý tiêu tốn cao nhất đã được ghi lại cho kích thước cửa sổ và
maxbias là 2.

Hình 2.9. Biểu đồ thời gian tiêu tốn, độ chính
Hình 2.10. Thời gian chạy, độ chính xác và độ
xác và độ che phủ được thực hiện bởi SAD bao phủ của thuật toán SAD được điều chỉnh cho
thông thường cho ảnh Cones.
hình ảnh Cones
Việc đánh giá hiệu năng tương tự được mô tả trong Hình 2.10 cho thuật toán SAD đề xuất. Thông
số đánh giá ấn tượng nhất là thời gian xử lý giảm đáng kể khoảng 5,7 lần, tương đương với khoảng
89% so với phương pháp xử lý toàn ảnh, tương ứng. Sự cải thiện này đạt được bằng cách giảm số
lượng điểm ảnh tham gia vào quá trình tính toán SAD nhờ phát hiện biên được chấp nhận.
Hình 2.11 cho phép đánh giá so sánh các thông số thời gian tiêu tốn áp dụng phương pháp SAD

điển hình và được đề xuất.

7


Việc thay đổi thuật toán SAD cho việc tạo bản đồ chênh lệch trong một hệ thống thị giác nổi được
đề xuất để đạt được sự cải thiện đáng kể về thời gian tính toán và độ chính xác. Điều này rất có ý nghĩa
vì bài toán xây dựng bản đồ chênh lệch rất quan
trọng trong việc triển khai nhiều ứng dụng thời
gian thực. Thời gian xử lý ít hơn cho phép hệ
thống thu thập nhanh dữ liệu, hữu ích cho các
tác vụ tiếp theo như ánh xạ độ sâu, xây dựng
mô hình 3D, phát hiện đối tượng, vv. Cách tiếp
cận này hứa hẹn sẽ thu được nhiều dữ liệu hữu
ích hơn. Đối với công việc trong tương lai,
thuật toán SAD được đề xuất sẽ được tối ưu
hóa và triển khai trong một khung phần cứng
cho hệ thống điều hướng rô-bốt trong nhà.
Hình 2.11. So sánh trong thời gian xử lý được thực hiện bởi các
phương pháp SAD thông thường và phương pháp tăng cường SAD đề xuất
2.4. Nguyên lý trích xuất đối tượng mặt phẳng
2.4.1. Độ sâu của điểm

Giá trị độ sâu z của p không những phụ thuộc vào độ chênh lệch d mà còn phụ thuộc vào tiêu cự
quang học của máy ảnh và khoảng cách giữa hai máy ảnh được tính theo công thức (2.6):

z=

f .T
xL − xR


(2.6)

Hình 2.13. Nguyên lý tính độ sâu của điểm ảnh
2.4.1. Khái niệm mặt phẳng trong thị giác máy tính

Trong toán học, một mặt phẳng là một bề mặt phẳng, hai chiều kéo dài vô cùng. Mặt phẳng được
xác định bởi bộ ba điểm không thẳng hàng hoặc bộ một đường thẳng và một điểm không thuộc đường
thẳng này trong không gian Eulide. Có thể định nghĩa một mặt phẳng là tập hợp các điểm có tọa độ
thỏa mãn phương trình (2.7). Véc tơ gradient được xác định trong phương trình (2.11).
Ax + By + Cz + D = 0

(2.7)

 z z   A B 
z =  ,  =  − ,− 
 x y   C C 

(2.11)

Từ (2.11), độ sâu của mặt phẳng xác định trước là không đổi cùng với cả trục x và trục y. Như vậy,
mặt phẳng bao gồm các điểm liền kề trong bản đồ độ sâu có cùng giá trị gradient độ sâu. Đây là một
đặc tính quan trọng cho đối tượng điểm trong ảnh để xem xét nó có thuộc một vùng phẳng nào đó
không.
2.4.2. Khái niệm điểm lân cận và hàng xóm

Mỗi điểm p trong một bản đồ độ sâu có tới bốn điểm lân cận theo chiều dọc và chiều ngang được
đặt tên là Top, Bottom, Left và Right tương ứng với mối quan hệ vị trí với điểm p. Mỗi điểm lân cận
điểm p sẽ được xem xét là hàng xóm của nó nếu điểm này đáp ứng các điều kiện sự khác nhau về độ
sâu với điểm trung tâm phải nhỏ hơn ngưỡng xác định trước θ. Một điểm lân cận được cho là điểm

hàng xóm của điểm p đã được gắn vào vùng mặt phẳng nếu nó đáp ứng đầy đủ các điều kiện sau:
• Điểm phải nằm cạnh khu vực phẳng được xem xét.
• Độ chênh lệch độ sâu của điểm bằng hoặc nhỏ hơn ngưỡng xác định .
Như vậy, khái niệm mặt phẳng bao gồm các điểm hàng xóm trong bản đồ độ sâu có các giá trị
gradient độ sâu không lệch quá một ngưỡng . Việc xác định ngưỡng phải đảm bảo không được bỏ
qua các điểm đất thật và không được để lọt các điểm giả đất. Đây là một công việc cần thực nghiệm
nhiều lần để đưa ra đề nghị ngưỡng xét  hợp lý trong từng hoàn cảnh cụ thể.
8


2.5. Triển khai phương pháp trích xuất đối tượng mặt phẳng
2.5.1. Kiến trúc hệ thống xử lý dữ liệu tin cậy chuẩn

Hệ thống áp dụng thuật toán Tạo nhóm hàng xóm kết hợp lọc (NGaF) được đề xuất bao gồm ba
giai đoạn liên tiếp như trong Hình 2.15.
Bản đồ
độ sâu

Tăng cường
chất lượng

Tạo nhóm hàng
xóm

Chọn lọc mặt
phẳng

Tập mặt
phẳng


Hình 2.15. Sơ đồ khối hệ thống phát hiện mặt phẳng
2.5.2. Thuật toán đề xuất Tạo nhóm hàng xóm kết hợp lọc
2.5.2.1.

Tăng cường chất lượng bản đồ độ sâu

Trong trường hợp thử nghiệm thứ hai, chương trình
thu thập dữ liệu sâu từ môi trường thực tế mà rô-bốt hoạt
động sử dụng máy ảnh RGB-D. Chất lượng bản đồ độ
sâu thường không lý tưởng nên không thể bỏ qua quá
trình giảm nhiễu cho đầu vào (Hình 2.18). Để giảm loại
nhiễu này, bằng cách quan sát thực tế, dễ dàng thấy rằng
nếu đánh giá trong phạm vi cửa sổ W đủ nhỏ, chúng phải
luôn nhận được các giá trị độ sâu đúng đắn và độ biến
thiên của giá trị độ sâu không quá mạnh. Song cũng cần
xét đến tình huống nếu tỷ lệ giữa các điểm giá trị sai và
kích thước cửa sổ W lớn hơn 50%, công việc sửa chữa
không hiệu quả do thông tin giá trị trung bình không còn
tin cậy.
2.5.2.2.

Tạo nhóm hàng xóm

Nhiệm vụ của khâu này là cung cấp một tập hợp các
ứng cử viên cho việc lựa chọn mặt phẳng một cách xứng
đáng (Hình 2.18). Mỗi điểm được đánh giá mối quan hệ
của nó chỉ một lần với vai trò là một điểm trung tâm hoặc
là một điểm lân cận. Vì vậy, sau khi một điểm là có liên
quan, nó chắc chắn sẽ được đánh dấu. Phạm vi của
ngưỡng θ phụ thuộc vào chất lượng đầu vào. Nếu chương

trình sử dụng bản đồ độ sâu gần như hoàn hảo, nó sẽ thực
thi với θ = 1 cố định. Các trường hợp khác, ngưỡng θ sẽ
cao hơn 2. Thuật toán dừng lại khi tập S trở thành tập rỗng.
Hình 2.18. Thuật toán Tạo vùng hàng xóm
2.5.2.3.

Lựa chọn các vùng phẳng

Nhiệm vụ của bước này là chọn các ứng cử viên đáp ứng một số điều kiện trong thực tế để tạo ra
một bộ mặt phẳng thực sự. Số điểm của ứng cử viên phải lớn hơn ngưỡng tối thiểu min được xác định
để đảm bảo rằng một số lượng lớn can nhiễu nhỏ bị loại bỏ thành công. Ngưỡng tối thiểu min chắc
chắn sẽ phụ thuộc vào trường hợp cảnh quan sát cụ thể.
2.5.3. Kết quả thực nghiệm và thảo luận

Trong phần này, các kết quả thử nghiệm bằng cách sử dụng phương pháp được đề xuất được trình
bày chi tiết. Thử nghiệm được thực hiện trên hai loại bản đồ chênh lệch khác nhau. Tập dữ liệu đầu
vào đầu tiên bao gồm năm bản đồ chênh lệch được thu thập từ cơ sở dữ liệu chung với liên kết
trong trường hợp có bản đồ chênh lệch hoàn hảo gồm hình
ảnh Sawtooth, Venus, Cones, Teddy, và hình ảnh Books
Để kiểm tra sự ổn định của thuật toán được đề xuất khi xử lý dữ liệu độ sâu môi trường hoạt động
của rô-bốt, chương trình được thực hiện với các bản đồ độ sâu không lý tưởng như trong Hình 2.21.
Các mặt phẳng được phát hiện như được minh họa trong cột cuối cùng được hiển thị mượt mà, trơn
tru với các cảnh thực trong nhiều cảnh thử nghiệm với số lượng đối tượng nằm trên nền tăng dần.
9


Ảnh màu

Bản đồ độ sâu


Bản đồ mặt phẳng

a)

b)

c)

Hình 2.21. Kết quả của các ảnh kiểm tra thu thập bởi máy ảnh RGB-D
Hình 2.22 cho thấy so sánh số lượng
mặt phẳng được phát hiện giữa phương
pháp áp dụng NGaF và phương pháp
FPDIDM [5]. Đối với hình ảnh Sawtooth
và Venus, kết quả số lượng mặt phẳng của
phương pháp FPDIDM tương ứng với kết
quả của phương pháp được đề xuất áp
dụng ngưỡng lọc min = 256. Đối với hình
ảnh Cones và Teddy, số lượng mặt phẳng
thu được của thuật toán FPDIDM tương
ứng với công việc được áp dụng với
ngưỡng lọc min = 64. Số lượng mặt phẳng
phát hiện của FPDIDM trong ảnh Books
tương ứng với phương pháp được áp dụng
bằng ngưỡng tối thiểu min = 128.
Hình 2.22. So sánh số lượng mặt phẳng được phát
hiện theo một số ngưỡng tối thiểu min khác nhau với phương pháp FPDIDM [5]
Hình 2.23 minh họa số lượng mặt phẳng được phát hiện với ngưỡng tối thiểu min từ 32 đến 256
kiểm tra với bản đồ độ sâu từ máy ảnh RGB-D. Rõ ràng, cũng như Hình 2.22, ngưỡng min lớn hơn thì
số lượng mặt phẳng phát hiện ít hơn vì một số mặt phẳng nhỏ hơn ngưỡng min được coi như nhiễu
nên bị loại bỏ. Tốc độ giảm của mặt phẳng số lượng là gần 50% trong khi min nhảy từ 32 đến 64 và

từ 64 đến 128 nhưng tốc độ giảm này chậm lại khi ngưỡng tối thiểu tăng từ 128 lên 256 trong tất cả

10


các trường hợp được thử nghiệm. Ngoài ra
số lượng các mặt phẳng phát hiện phụ thuộc
vào các đối tượng trong cảnh rất nhiều.
Hình 2.23.. Số lượng mặt phẳng được phát
hiện theo các ngưỡng tối thiểu min khác
nhau áp dụng với bản đồ độ sâu từ máy ảnh
RGB-D
Hình 2.24 minh họa so sánh giữa phương
pháp được đề xuất và ba phương pháp tiếp
cận khác bao gồm HSBSR, PPDFM,
FPDIDM về khía cạnh hình ảnh kết quả trực quan.

(a)
(b)
(c)
(d)
(e)
(f)
Hình 2.24. Kết quả của các phương pháp HSBSR [4], PPDFDM [49], FPDIDM [5] và thuật toán
đề xuất trên bản đồ chênh lệch St-Michel Jail của Toulouse
Hình 2.25 biểu diễn kết quả đánh giá so sánh dựa trên ba thông số chung bao gồm thời gian tính
toán, số lượng mặt phẳng phát hiện và tỷ lệ phần trăm của các điểm hợp lệ. Thời gian xử lý phương
pháp đề xuất thấp nhất. Ngay cả thời gian tính toán của phương pháp được đề xuất cũng giảm 33 lần
so với thuật toán RANSAC được cải thiện
HSBSR

PPDFDM
FPDIDM
Our method
(HSBSR). Trong khi đó, kết quả về số lượng
103
98
mặt phẳng tìm thấy lớn hơn và PPDFDM,
92 95
91 93
100
89 92
FPDIDM phương pháp khoảng 8%. Cuối
80
cùng, kết quả tỷ lệ phần trăm hợp lệ là tốt hơn
so với những cách tiếp cận được so sánh ít
60
50
nhất 2%.
40

Hình 2.25. So sánh ba thông số đánh giá
giữa các phương pháp HSBSR, PPDFDM,
FPDIDM và Phương pháp NGaF đề xuất
trên bản đồ chênh lệch St-Michel Jail của
Toulouse.

20

4 9


1.5

Computation time (s)

Number of planes

Valid point (%)

2.5.4. Kết luận

Phần này thực hiện giải quyết vấn đề phát hiện mặt phẳng dựa trên bản đồ độ sâu bằng cách sử
dụng một thuật toán phân nhóm hàng xóm mới và bộ lọc hợp lý (NGaF). Ưu điểm chính của phương
pháp đề xuất này là sự đơn giản trong khi vẫn đảm bảo độ tin cậy của các kết quả.
2.6. Tổng kết chương
Chương này đã trình bày đề xuất cách phương pháp tăng cường tính toán bản đồ chênh lệch dựa
trên thuật toán SAD. Phương pháp tính toán áp dụng cho dữ liệu biên ảnh, được trích xuất từ các cặp
ảnh nổi. Khối lượng dữ liệu cần xử lý được giảm rất nhiều so với khối dữ liệu toàn ảnh nên chương
trình yêu cầu ít tải tính toán hơn. Đồng nghĩa với việc thời gian chạy nhanh hơn trên cùng một nền
tảng phần cứng. Kết quả đánh giá thời gian chạy giảm trung bình 5,7 lần. Việc áp dụng maxbias là 2,
5 và 10 chứng minh cho hiệu quả hơn thực nghiệm không dùng maxbias trong việc giảm thời gian xử
lý. Đề xuất áp dụng SAD cải thiện với bộ thông số maxbias = 10 và cửa sổ làm việc 11 11 bởi độ
11


chính xác giữ gần như không thay đổi so với phương pháp SAD gốc. Trong các mục 2.4 và 2.5 của
chương này, tác giả đã đề xuất thuật toán Nhóm hàng xóm và Lọc (NGaF) để phát hiện bề mặt phẳng
từ chỉ một bản đồ độ sâu hoặc bản đồ chênh lệch. Kết quả thử nghiệm thể hiện phương pháp được đề
xuất mạnh mẽ bằng cách so sánh ba thông số chung giữa các phương pháp, thuật toán được áp dụng
minh họa một hiệu suất cao chắc chắn.


CHƯƠNG 3. PHÁT TRIỂN THUẬT TOÁN NHẬN DẠNG MẶT ĐẤT
3.1. Giới thiệu chương
Trong chương này, tác giả đề xuất cách tiếp cận nâng cao để nhận dạng mặt đất bằng cách sử
dụng các vùng phẳng gần đúng và nhóm phẳng được nhận dạng từ bản đồ độ sâu 2D.
3.2. Nguyên lý nhận dạng đối tượng mặt đất và vật cản
Giả sử rằng máy ảnh có tiêu cự f nằm ở O với chiều cao h so với mặt đất như thể hiện trong
Hình 3.1, trong đó PI và PG tương ứng là mặt phẳng hình ảnh và mặt phẳng đất. Cho O1 và O2 là kết
quả các phép chiếu của O trên PG và PI tương ứng; MI1 và MI2 là các điểm nằm trên PI và p khoảng
cách từ O2 đến MI1. Tiếp theo, độ sâu của MI1 có thể được ước tính như (3.1).Thực hiện vi phân hai
vế của (3.1), nhận được (3.2). Từ phương trình (3.2) có thể xác định độ chênh lệch độ sâu  z y từ sự
khác biệt chiều cao  p ở trục đứng y.
z = h 1+

f2
p2

1

dz = −hf 2

(3.1)

p

2

d

(3.2)


PI

f

Hình 3.1. Mô hình toán học xác định độ chênh lệch độ sâu
Mặt khác, cũng từ Hình 3.1, độ chênh lệch độ sâu z x có

p2 + f 2

d

O

O2
p

x

thể được xác định từ khoảng cách khác nhau M G của MG1 và
MG2 trên mặt đất trong trục ngang x như thể hiện trong phương
trình (3.3).

MI2
M I1

h

z
M G2


PG

O1

M G1

M G

d M1

y

z x = M G + z 2 − z
2

(3.3)
Hai phương trình (3.2) và (3.3) có thể được sử dụng để tính toán bản đồ gradient độ sâu theo
hướng y và x tương ứng. Giả sử

M I

là khoảng cách của một điểm, ta có đó M G = M I  z ,
OM I 1

trong đó tỷ lệ M I rất nhỏ. Do đó z  M I  z và z x được tính bằng phương trình (3.3) nên
OM I 1

OM I 1

rất nhỏ. Do đó để đơn giản trong các thuật toán đề xuất, z x luôn luôn được coi bằng 0 cho các điểm

ảnh thuộc về mặt phẳng đất. Từ phân tích đồ thị phương trình (3.2), có thể thấy rằng đối với z x = 0
,  z y thông thường có giá trị lớn hơn một ngưỡng nhất định T, có thể được xác định bằng đồ thị bằng
cách xấp xỉ hai trạng thái của đường cong được đưa ra bởi tỷ lệ

dz
dp trong phương trình (3.2). Giá trị

ngưỡng này thực sự là tọa độ y tại z y = 1 . Vì độ sâu của các điểm ảnh nền thường được lượng tử
hóa bởi 8 bit, do đó  z y thường khác với 0 đối với tất cả các y < T.
Trên cơ sở phân tích hình học liên quan đến các thuộc tính mặt đất, thuật toán đề xuất phân loại
một điểm được xem xét thuộc đất hoặc không đất như bảng 3.1.
12


Bảng 3.1. Phân loại điểm đất và điểm phi đất
Điều kiện
Ý nghĩa

STT
1

Z x  0

Không phải điểm mặt đất.

(3.4)

2

Z x = 0 & Z y  0


Điểm trên mặt đất.

(3.5)

Z x = 0 & Z y = 0
3

& điểm

Điểm mặt đất, vì sự biến thiên

thuộc một phần tư dưới của hình

Z y

ảnh đầu vào.

rất nhỏ trong khu vực này.

(3.6)

Như vậy trong phạm vi nghiên cứu luận án này, có thể định nghĩa mặt đất là tập hợp bao gồm
các điểm trong bản đồ độ sâu mà thỏa mãn điều kiện (3.5) hoặc (3.6). Các điểm phi đất là tập các
điểm trong bản đồ độ sâu mà thỏa mãn điều kiện (3.4). Các định nghĩa rõ ràng này sẽ giúp việc phân
loại điểm theo gradient độ sâu rất thuận lợi trong chương trình.
3.3. Phương pháp nhận đối tượng mặt đất từ ảnh độ sâu chuẩn
3.3.1. Kiến trúc hệ thống đề xuất xử lý dữ liệu chuẩn

Sơ đồ khối của phương pháp đề xuất được trình bày trong Hình 3.2.

Bản đồ
độ sâu

Xây dựng bản đồ
gradient độ sâu

Lọc và Gom
nhóm

Lựa chọn mặt
đất

Tập mặt
đất

Hình 3.2. Kiến trúc hệ thống nhận dạng mặt
đất đề xuất
3.3.2. Thuật toán đề xuất
3.3.2.1.

Xây dựng bản đồ gradient độ sâu

Là tạo một bản đồ gradient độ sâu từ đầu
vào bản đồ chiều sâu bằng cách tính gradient độ
sâu theo trục y và x bằng phương trình (3.2) và
(3.3) giữa hai điểm liên tiếp.
3.3.2.2.

Lọc và gom nhóm


Mục tiêu là nhóm các điểm có giá trị
gradient tương tự nhau trong bản đồ gradient độ
sâu thành một vùng đồng nhất được gọi là dải
(range), và sau đó loại bỏ các vùng không thích
hợp mà không thỏa mãn những đặc tính ràng
buộc sau của mặt phẳng đất:
• Số điểm của vùng phải lớn hơn một
ngưỡng xác định trước;
• gradient _ x = 0 và gradient _ y  0 ; hoặc
gradient _ x = 0 nếu gradient _ y = 0 và sau
đó vùng phải được đặt hoàn toàn trong
khu vực một phần tư dưới cùng của hình
ảnh đầu vào để cho độ chính xác cao hơn
trong quá trình phát hiện mặt phẳng đất.
Kết quả là, mặt đất từ hình ảnh thu được sẽ
được xác định gần đúng.
Hình 3.3. Thuật toán Lọc và gom nhóm
3.3.2.3.

Tinh chỉnh vùng mặt đất

Giai đoạn hiệu chỉnh này chia bản đồ
chênh lệch độ sâu ban đầu thành các khối vuông có kích thước B và sau đó ước tính tỷ lệ R của các
điểm mặt đất bên trong mỗi khối với kích thước khối. Nếu R lớn hơn một ngưỡng nhất định θ, thì
13


khối đó được coi là mặt đất và ngược lại. Để đánh giá giá
trị của θ, kích thước hình chữ nhật nhỏ nhất bao quanh các
vùng đất phát hiện được xác định. Ngưỡng θ là tỷ số giữa

tổng số điểm mặt đất Pground_of_ranges trong khu vực hình chữ
nhật bao ngoài các ranges với kích thước hình chữ nhật bao
ngoài các ranges Prec , được mô tả trong phương trình (3.7):

p
=

ground _ of _ ranges

Prec

(3.7)

Hình 3.4. Thuật
toán Tinh chỉnh
vùng mặt đất

3.3.3. Kết quả thực nghiệm và thảo luận

Để thử nghiệm thuật toán đề xuất, tác giả thực hiện
trên 02 bộ dữ liệu gồm.
1. Các bản đồ chênh lệch tham chiếu tin cậy Art, Bowling1
và Wood1 trong thư viện Midlebury trong bộ ảnh 2001,
2003 và 2005. Đây là thư viện ảnh thị giác được cộng
đồng nghiên cứu ảnh thị giác nổi dùng chung. Cơ sở dữ
liệu được sự hỗ trợ của trường Middlebury College,
Microsoft Research và quỹ National Science
Foundation. Chi tiết mô tả bộ dữ liệu tham khảo [79]
[80].
2. Bộ bản đồ độ sâu thực tế được nhiều nhà nghiên cứu

quan tâm như dữ liệu vào của các thử nghiệm phát triển thuật toán xử lý ảnh thị giác.
Để đánh giá thuật toán đề xuất, phương pháp đánh giá thực hiện trên hai khía cạnh là đánh giá
trực quan qua hình ảnh kết quả và đánh giá khách quan qua các thông số đo lường chung của các nhà
nghiên cứu.
1. Các bản đồ chênh lệch tham chiếu tin cậy
Thuật toán đề xuất được kiểm tra trên bản đồ độ sâu với chất lượng cao của thư viện Middlebury
như được mô tả trong Hình 3.5. Trong bước tinh chỉnh mặt phẳng, thuật toán sử dụng ba cửa sổ làm
mịn được biểu thị bằng B với các kích thước khác nhau để so sánh các kết quả với nhau như trong
Hình 3.6. Về đánh giá trực quan, cửa sổ làm mịn B càng lớn thì các điểm đất phát hiện lỗi bị tăng lên
cao hơn trong các vùng không phải mặt đất.

14


(a)

(b)

(c)

Hình 3.5. Các bản đồ gradient của hình ảnh trong thư viện Midlebury được thử nghiệm.
Chú thích: Từ trái sang phải, hàng đầu tiên là ảnh Art, cột thứ hai là hình ảnh Bowling1 và cột
cuối cùng là hình ảnh Wood1, tương ứng.

B=8x8

B=16x16

B=32x32


Hình 3.6. Kết quả nhận dạng mặt đất của hình ảnh thử nghiệm với các giá trị B.
Chú thích: Từ trên xuống dưới, hàng đầu tiên là hình ảnh Art, hàng thứ hai là hình ảnh Bowling1
và hàng cuối cùng là hình ảnh Wood1, tương ứng.
2. Bộ bản đồ độ sâu thực tế
Việc đánh giá hiệu suất của phương pháp được đề xuất được thực hiện với 5 hình ảnh khác nhau
được thu thập bởi một máy ảnh nổi trong các trường hợp có và không có các chướng ngại vật như
trong Hình 3.7. Các mặt đất được phát hiện như được minh họa trong cột cuối cùng được hiển thị để
phù hợp với cảnh thực. Để xác định kích thước cửa sổ w trong việc xây dựng bản đồ gradient độ sâu,
tỷ lệ phần trăm điểm mặt đất được phát hiện trong mỗi hình ảnh được so sánh với ba kích thước cửa
sổ w khác nhau. Kết quả trong Hình 3.10 chỉ ra rằng kích thước cửa sổ w=5*5 tạo ra tỷ lệ phát hiện
cao nhất trên 90% trong hầu hết các trường hợp. Tiếp theo các vật cản vẫn được nhận dạng thành
công trong trường hợp của ba hình ảnh cuối cùng.

15


(a)
(b)
(c)
(d)
(e)
Hình 3.7. Kết quả của các hình ảnh được thử nghiệm trong nhiều môi trường. Chú thích: Theo cột:
(a) ảnh Street [81], (b) ảnh Vaulted [82], (c) ảnh Kitchen [83], (d) ảnh Balls [84] và (e) ảnh
Canyon [85];

100

w =3x3
w =5x5
95.2

94.9
92.1
93.5
93.2
90.1
89
86.6
83.2

w =7x7
88.8

93.7

86.2

86.2

80

percentage of detected ground point

percentage of detected ground point

Hình 3.9, 3.10 và 3.11 minh họa sự so sánh tỷ lệ phần trăm của các điểm mặt đất được phát hiện
sau khi tinh chỉnh với kích thước khối B khác nhau cho mỗi hình ảnh. Từ những kết quả này, kích
thước cửa sổ w = 5  5 và kích thước khối B=8*8 vượt trội hơn với tốc độ nhận dạng mặt đất nhanh
nhất và ổn định. Các chướng ngại vật xuất hiện trong các hình ảnh được tách thành công. Sử dụng
các tham số này, thí nghiệm tiếp theo cho thấy đường cong biến đổi của tỷ lệ R được đánh giá cho tất
cả các khối nằm trên một hàng từ bản đồ gradient độ sâu sau khi phân chia khối và ngưỡng tương

ứng θ.

87.8

63.7

60
40
20

0

B=4x 4
100

88.5 87

Vaulted

Kitchen

Balls

Canyon

B = 16 x 16
95
88.292.1

88

87.6 83.7

balls

Canyon

60
40
20

Street

Hình 3.8. Tỷ lệ điểm mặt đất được phát hiện trước
khi quá trình hiệu chỉnh theo các cửa sổ w

95.9

96.3
94.8

94.1

B = 8 x 8 B = 16 x 16
98.2
97.1
97.7 97.4
97.4
97.1
95.4
91.1

89.1

90

86.1
85
80
75
Street

Vaulted

Kitchen

balls

Canyon

percentage of detected ground point

100

98.6

Vaulted

Kitchen

Hình 3.9. Tỷ lệ điểm mặt đất phát hiện sau hiệu
chỉnh theo các kích thước khối B với cửa sổ

w = 3 3

B=4x4
percentage of detected ground point

86.9

77

80

93.9
94.3

0
Street

95

B=8x 8

99.1
98 98.8

100

96.8 96.9 95.2

B=4x4
95.4 98.2 98


B = 8 x 8 B = 16 x 16
97.5 97.1
93.7

80
67.3

87.1 90 85.7
71 68.4

60

40
20

0
Street

Vaulted

Kitchen

balls

Canyon

Hình 3.10. Tỷ lệ điểm mặt đất phát hiện sau Hình 3.11 Tỷ lệ điểm mặt đất được phát hiện sau
quá trình hiệu chỉnh theo các kích thước khối B quá trình hiệu chỉnh theo các kích thước khối B
với cửa sổ w = 5 5

với cửa sổ w = 7  7
Từ Hình 3.12 có thể thấy rằng hầu hết các khối thuộc mặt đất có R lớn hơn ngưỡng xác định θ
như đã thảo luận trong mục 3.3.2.3 trong quá trình tinh lọc cho hình ảnh Canyon và Vaulted, tương
ứng. Trong trường hợp hình ảnh Canyon, tại hàng khối thứ 45 từ dưới ảnh lên, khối 12 đến khối 69
được phân loại thành mặt đất vì có phần trăm điểm mặt đất RCanyon vượt quá ngưỡng giới hạn
16


−Canyon

60% (Hình 3.10a, đường màu xanh biển). Và trong trường hợp hình ảnh Vaulted, tại

hàng khối thứ 40 tính từ dưới ảnh lên, số khối mặt đất nằm trong khoảng từ 12 đến 48 có số phần
trăm điểm mặt đất RVaulted lớn hơn ngưỡng giới hạn  −Vaulted 50% (Hình 3.12c, đường màu xanh
biển).

(a)

(b)

Hình 3.12. Đường cong biến đổi của R và đường ngưỡng tương ứng θ trong bản đồ gradient độ sâu
sau khi phân chia khối.
Chú thích: (a) Bản đồ sâu của Canyon và đường cong R tương ứng và θ được tính cho hàng khối
thứ 45 tính từ dưới ảnh lên trên (đường màu xanh biển). (b) Bản đồ độ sâu của Vaulted; (d) đường
cong R tương ứng và θ được tính cho hàng khối thứ 40 tính từ dưới ảnh lên trên (đường xanh biển).
3.3.4. Kết luận

Kết quả thực nghiệm cho thấy thuật toán đề xuất có thể phát hiện mặt phẳng mặt đất trong tất
cả các trường hợp từ đơn giản không có vật cản đến trường hợp mặt đất xuất hiện nhiều vật chắn.
Dựa trên thuật toán đơn giản hiệu quả, cách tiếp cận được đề xuất là phù hợp để thực hiện trong phần

cứng nhúng. Đối với nền tảng phẩn cứng của rô-bốt di động được trang bị máy ảnh thị giác nổi, thuật
toán đề xuất sẽ được triển khai để kiểm tra khả năng điều hướng rô-bốt.
3.4. Phương pháp nhận dạng đối tượng mặt phẳng đất từ dữ liệu độ sâu thực tế
3.4.1. Giới thiệu

Phương pháp nhận dạng mặt đất được trình bày trong mục này. Kết quả kinh nghiệm được so
sánh với các cách tiếp cận cổ điển và gần đây khác, chẳng hạn như thuật toán RANSAC và VDisparity nâng cao.
3.4.2. Kiến trúc hệ thống trích mặt đất từ dữ liệu độ sâu môi trường thực tế

Sơ đồ khối của hệ thống trích chọn mặt đất được mô tả trong Hình 3.13. Trong đó thuật toán GDM
đóng vai trò quan trọng để phát hiện các mặt phẳng trong ảnh được thu thập bởi máy ảnh RGB-D trong
khối đầu vào. Các mặt phẳng ứng cử cuối cùng sẽ được phát hiện sau quá trình tinh chỉnh để loại bỏ
các mặt phẳng không đáng tin cậy.
Máy ảnh
RGB-D

Nhận dạng mặt đất
dựa trên GDM

Hiệu chỉnh mặt
đất

tập mặt đất

Hình 3.13. Sơ đồ khối chức năng hệ thống trích mặt đất từ dữ liệu độ sâu từ máy ảnh RGB-D
3.4.2.1.

Kích thước điểm trong bản đồ độ sâu

17



Các thông số hình học của Kinect được thể hiện trong [89], khoảng cách từ máy ảnh đến một đối
tượng cho trước là 0,8m. Kích thước hình ảnh thu được bằng máy ảnh sau đó là khoảng 87 cm theo
chiều ngang và 63 cm theo chiều dọc, tương đương với độ phân giải 1,3 mm/điểm.
3.4.2.2.

Hiệu chỉnh kết quả mặt đất

Đây là một công đoạn bắt buộc nhằm mục đích làm cho kết quả nhận dạng mặt phẳng đất có độ tin
cậy cao hơn. Các giải pháp được đề xuất sẽ điền đầy đủ các lỗ đen gây ra bởi loại can nhiễu bằng cách
sử dụng các cửa sổ làm mịn B. Chương trình thử nghiệm với một số kích thước cửa sổ làm mịn với
mục đích tìm ra một giá trị kích thước cửa sổ phù hợp nhất.
3.4.3. Kết quả thực nghiệm và thảo luận

Bộ dữ liệu độ sâu của môi trường thực tế được tác giả và các cộng sự thu thập tại khu vực phòng
thí nghiệm, Viện Điện tử Viễn thông, trường Đại học Bách Khoa Hà Nội, theo kịch bản được xây
dựng trong các điều kiện khác nhau về ánh sáng, về tần suất xuất hiện đối tượng vật cản trên nền. Cụ
thể, kết quả được thực hiện trên bốn bản đồ độ sâu thu thập từ môi trường thực tế với các trường hợp
có hoặc không có chướng ngại vật, ít và nhiều trở ngại, nền đơn giản và phức tạp, tương ứng như
được biểu diễn trong Hình 3.15. Các ranh giới của mặt đất được nhận dạng đều đồng nhất trên toàn
bộ mặt đất thực tế của các cảnh đã cho. Trong kết quả minh họa, các khu vực mặt đất được phát hiện
mà không bị nhầm lẫn với các chướng ngại vật xung quanh ở các kích cỡ khác nhau. Bằng phương
pháp trực quan, các vùng đất được phát hiện hoàn toàn phù hợp với các khu vực mặt đất thực tế. Tuy
nhiên, một vài lỗ nhỏ đã xuất hiện tại nơi mà thuật toán coi là vùng không phải mặt đất.

18


(a)

(b)
(c)
(d)
Hình 3.15. Kết quả của các hình ảnh được thử nghiệm trong nghiên cứu điển hình.
Chú thích: Theo hàng từ trên xuống dưới, hàng đầu tiên là hình ảnh màu, hàng thứ hai là hình
ảnh sâu, hàng thứ ba là bản đồ x-gradient, hàng thứ tư là bản đồ y-gradient, hàng thứ năm được
nhận dạng mặt đất, hàng thứ sáu là mặt đất được phát hiện của thuật toán RANSAC và hàng cuối
cùng là mặt đất tham chiếu, tương ứng; Theo cột từ trái qua phải: cột (a): nền ảnh không có vật cản,
(b) nền ảnh có 2 vật cản, (c) nền ảnh có 3 vật cản và (d) nền ảnh có vật cản che phủ gần hết.
Để đánh giá hiệu quả của phương pháp được đề xuất, tỷ lệ phần trăm của các điểm đất được phát
hiện R1 và tỷ lệ phần trăm của các điểm mặt đất được phát hiện không chính xác R2 thường được xác
định trong một kích thước cửa sổ làm mịn đã cho B. Trong khuôn khổ nghiên cứu, ba cửa sổ làm mịn
B có kích thước 8 × 8, 16 × 16 và 32 × 32 tương ứng như trong Hình 3.16. Trong trường hợp bản đồ
độ sâu không chướng ngại vật, phương pháp được đề xuất tốt hơn với R1 lớn hơn 96% và giá trị của
R2 ít hơn 2% (xem Hình 3.17). Trong loạt bản đồ độ sâu có chứa các chướng ngại vật trên mặt đất,
tỷ lệ phần trăm các điểm ảnh mặt đất được phát hiện chính xác R1 là tốt nhất và ổn định ở kích thước
cửa sổ B = 16 × 16 (xem Hình 3.16). Khi độ phức tạp của quá trình phát hiện đất được tăng lên, giá
trị của R2 cũng tăng lên khoảng 5% (xem Hình 3.17).

Hình 3.16. Tỷ lệ điểm mặt đất được phát hiện
đúng R1 theo kích thước cửa sổ làm mịn B

Hình 3.17. Tỷ lệ điểm mặt đất lỗi theo các kích
thước cửa sổ làm mịn B.

Hơn nữa, R1 và R2 của công trình nghiên cứu được so sánh với kết quả của thuật toán 3D
RANSAC được sử dụng trong phương pháp [86] và V-Disparity được sử dụng trong [88] như minh
họa trong Hình 3.18 và Hình 3.19 tương ứng. Tỷ lệ R1 của phương pháp được đề xuất lớn hơn R1
của RANSAC 3D và phương pháp V-Disparity nâng cao. Những so sánh này được thực hiện với kích
thước tối ưu của cửa sổ B = 16 × 16. Trong khi đó, tỷ lệ R2 của phương pháp đề xuất luôn thấp nhất

trong số các phương pháp được thực hiện bằng 3D RANSAC và V-Disparity nâng cao.

19


Hình 3.18. So sánh tỷ lệ điểm mặt đất được phát Hình 3.19. So sánh tỷ lệ điểm mặt đất được phát
hiện đúng (R1) của các phương pháp quan tâm hiện sai (R2) của các phương pháp quan tâm
3.4.4. Kết luận

Trong mục 3.4, phương pháp nhận dạng mặt đất phẳng hiệu quả có tốc độ xử lý nhanh sử dụng
thuật toán GDM được đề xuất. Các kết quả chứng minh phương pháp tiếp cận bản đồ sâu cơ bản có
hiệu quả trong việc nhận dạng mặt đất với nhiều độ phức tạp khác nhau. Bằng cách so sánh với các
thuật toán RANSAC và V-Disparity nâng cao, mức trung bình của tỷ lệ nhận dạng mặt đất luôn luôn
cao hơn so với các phương pháp so sánh trong hầu hết các trường hợp. R1 của phương pháp tiếp cận
được đề xuất lớn hơn phương pháp so sánh 2%, trong khi R2 của phương pháp được đề xuất nhỏ hơn
một nửa so với R2 của phương pháp so sánh. Đề xuất này có thể được phát triển và ứng dụng trong xe
tự lái trong môi trường off-road trong nhà.
3.5. Tổng kết chương
Trình bày phương pháp tiếp cận mới để nhận dạng mặt phẳng đất từ bản đồ độ sâu được cung cấp
bởi máy ảnh RGB-D cụ thể là Kinect. Hệ thống đề xuất áp dụng một giải thuật mạnh mẽ tính toán
bản đồ gradient độ sâu (GDM) có độ chính xác cao. Sau đó bộ phân vùng chính xác được sử dụng để
cung cấp tập hợp các ứng cử viên cho khâu tiếp theo lựa chọn mặt đất. Cuối cùng, bộ lọc hiệu quả
được sử dụng để tìm ra các mặt phẳng đất thật.

CHƯƠNG 4. PHÁT TRIỂN PHƯƠNG PHÁP DẪN ĐƯỜNG CHO RÔ-BỐT
DỰA TRÊN THUẬT TOÁN NHẬN DẠNG MẶT ĐẤT
4.1. Giới thiệu chương
Chương này này tập trung phát triển một hệ thống điều khiển chuyển hướng cho một rô-bốt
tự động nhỏ hoạt động trong một môi trường văn phòng trong nhà điển hình. Hệ thống kiểm soát sẽ
bao gồm các phương pháp lập kế hoạch đường đi và ra quyết định. Phương pháp được đề xuất giữ lại

ưu điểm của phương pháp tiếp cận [32] [33] [34] bằng cách giới thiệu một phương pháp điều hướng
đơn giản mà không cần tích hợp trí tuệ nhân tạo trên rô-bốt di động.
4.2. Phương pháp dẫn đường sử dụng phương pháp nhận dạng mặt đất
4.2.1. Mô hình hoạt động của rô-bốt trong nhà

Rô-bốt bao gồm các thành phần như được mô tả trong Hình 4.1.

Hình 4.1. Mô hình rô-bốt sử dụng hệ thống dẫn
đường dựa trên thị giác máy tính

Hình 4.3. Mô hình toán học để tính toán
kích thước của điểm sâu
20


4.2.2. Xác định kích thước 2D của điểm sâu

Đặt máy ảnh ở vị trí O, trục Oz trùng với trục quang của máy ảnh, trục Oy được hướng từ dưới
lên trên, trục Ox được hướng từ phải sang trái, như được minh họa trong Hình 4.3. Để tính toán kích
thước điểm M dọc theo trục x với độ sâu được chỉ định, hãy sử dụng sự tương đồng của hai tam giác
OI’M’x và OIMx. Cuối cùng, ta có thể nhận được kích thước của M trong không gian 3D Oxyz bao
gồm (Mx, My, Mz).
4.2.3. Phương pháp dẫn đường AMSD đề xuất dựa trên khai thác dữ liệu độ sâu

Phương pháp bao gồm các giai đoạn liên tiếp như trong Hình 4.4.
Bản đồ
độ sâu

Tăng cường
chất lượng


Nhận dạng mặt
đất

Bộ điều khiển cơ
cấu chấp hành

Chiến lược định vị
và chọn đường

Hình 4.4. Sơ đồ khối phương pháp dẫn đường dựa trên bản đồ độ sâu
4.2.3.1.

Chiến thuật tránh vật cản

4) Chiến thuật tránh vật cản cơ bản

Khi chướng ngại vật xuất hiện, mặt đất nơi rô-bốt đang quan sát trở nên hẹp hơn với ba khả năng
xảy ra như sau: 1. Các chướng ngại vật ở phía trước; 2. Các chướng ngại vật ở bên trái;3. Các
chướng ngại vật ở bên phải.
5) Chiến thuật tránh vật cản cải thiện

Khi chướng ngại vật xuất hiện phía trước, rô-bốt quan sát thấy
hình dạng mặt đất thu hẹp lại. Có hai khả năng xảy ra như sau:
1. Rô-bốt bị cưỡng bức chuyển hướng: Cách xác định góc rẽ  và
khoảng cách ON dựa trên tính chất đồng dạng của hai hình tam
giác PMN và PQO như Hình 4.6a. Nó dẫn đến công thức (4.3)
và (4.4) với MQ = xM − xQ , xM = xA − xB , OQ – MN = 75cm .

z


A

M

Q

B

C

D

P
N

MN là khoảng cách từ rô-bốt đến vạch kiểm tra chướng ngại vật,
O
trong đó có các phân đoạn AB, CD như trong Hình 4.6a.
Hình 4.6(a). Mô hình toán học cải tiến lựa
chọn hướng di chuyển của rô-bốt



MQ

OQ

MN




 = arctan 

(4.3)

ON =

MQ2 + (OQ − MN)2

(4.4)

2. Rô-bốt tiếp tục di chuyển về phía trước: Điều này xảy
ra khi các chướng ngại vật xuất hiện ở bên trái hoặc bên phải
của xe.
4.2.3.2.

Triển khai chiến thuật định vị và chọn đường

Rô-bốt thử nghiệm được áp dụng chiến thuật dẫn
đường có tên “Luôn di chuyển thẳng tới đích” (AMSD). Đầu
tiên, hệ thống nhận dạng mặt đất từ bản đồ độ sâu được cung
cấp bởi máy ảnh RGB-D để tìm phương hướng cho rô-bốt
(Hình 4.7). Nếu không có trở ngại nào, nó luôn cố gắng di
chuyển thẳng đến đích. Nếu rô-bốt “nhìn thấy” chướng ngại
vật, nó sẽ chuyển sang chế độ tránh vật cản cải tiến để vượt
qua chúng. Nguyên tắc di chuyển luôn luôn phấn đấu hướng
thẳng tới mục tiêu để giảm thiểu quãng đường từ vị trí hiện
tại của rô-bốt đến vị trí của mục tiêu được xác định trước.
Tuy nhiên, chiến lược này có thể bị tạm dừng nếu rô-bốt bị

chặn bởi chướng ngại vật. Từ thời điểm này, chiến thuật
tránh chướng ngại vật có ưu tiên cao hơn chiến thuật di
chuyển thẳng đến mục tiêu.
Hình 4.7. Thuật toán điều hướng cải thiện dựa trên bản đồ độ sâu cho rô-bốt di động trong nhà
21


4.3. Kết quả thực nghiệm phương pháp dẫn đường AMSD dựa trên nhận dạng mặt
đất và thảo luận
4.3.1. Kết quả thực nghiệm của phương pháp tránh vật cản cơ bản

Rô-bốt hoạt động trong phạm vi 10mx8m. Khoảng cách giữa điểm xuất phát và mục tiêu là
khoảng 9m. Rô-bốt đạt đến đích với tỷ lệ thành công là 98%, tuy nhiên thời gian của mỗi lần thử
nghiệm không giống nhau. Toàn bộ nền tảng phần cứng điện tử này được gắn trên một chiếc xe có
02 động cơ để điều khiển hai bánh xe chủ động phía trước (Hình 4.8).
4.3.2. Kết quả thực nghiệm của phương pháp tránh vật cản cải thiện

Trong suốt thời gian thử nghiệm, chỉ có cảm biến RGB-D được gắn trên
xe rô-bốt để cung cấp thông tin hỗ trợ định vị tương đối, phát hiện và tránh
chướng ngại vật. Các thí nghiệm được tiến hành trong môi trường thực tế với
các thiết lập chướng ngại khác nhau để kiểm tra độ ổn định của phương pháp
đề xuất như được mô tả trong Hình 4.11. Rô-bốt có thể tránh được các vật cản
tĩnh trên đường di chuyển của nó từ điểm xuất phát đến đích xác định trước bởi
các quyết định điều hướng đầy đủ như di chuyển thẳng hoặc di chuyển sang
phải hoặc di chuyển sang trái. Ngoài ra, có sự xuất hiện của các vật thể chuyển
động như hiện tượng của một người vào tầm nhìn của xe rô-bốt. Cả video điều
hướng dựa trên độ sâu và video màu đều được lưu.
Hình 4.8. Hệ thống xe rô-bốt thử nghiệm
Khung ảnh màu


Điều hướng dựa
trên mặt phẳng đất
(màu đỏ)

(9) 10.39.34

(8) 10.39.30

(7) 10.39.03

Khung
hình

(10) 10.39.37

Điều hướng dựa
trên mặt phẳng đất
(màu đỏ)

(3) 10.38.02

Khung ảnh màu

(4) 10.38.28

(2) 10.37.57

(1) 10.37.52

Khung

hình

22


(11) 10.40.14

(5) 10.38.42
(6) 10.38.53

Ảnh RGB

Ảnh RGB

Bản đồ mặt đất
với hướng di
chuyển của rô-bốt

Bản đồ mặt đất với hướng
di chuyển của rô-bốt
Hình 4.11. Kết quả thuật toán điều hướng cải tiến

Hình 4.12b minh họa kết quả theo dõi vị trí của xe
rô-bốt với kịch bản có nhiều vật cản. Rô-bốt đạt được điểm
đến trong cả hai trường hợp với một vật cản và nhiều vật
cản với góc điều chỉnh hướng gần như vô cấp. Vì vậy,
phương pháp điều hướng AMSD đề xuất thể hiện tính linh
hoạt hơn và mượt mà hơn ba công trình khác gần đây như
so sánh được trình bày trong Bảng 4.1. Tỷ lệ định hướng
hoặc phân loại tình huống đúng của chiến thuật dẫn đường

đề xuất được so sánh với kết quả của các phương pháp khác
(Bảng 4.2).
Hình 4.12b. Theo dõi vị trí rô-bốt theo chiến thuật điều hướng cải tiến
Bảng 4.1. So sánh hiệu năng các phương pháp dẫn đường cho rô-bốt trong nhà
Phương pháp (Tác giả)
Bước lượng
Sai số
Phạm vi điều Số lượng hướng
0
0
tử ( )
lượng tử ( ) hướng (0)
điều hướng

Correa [32] (2012)

22.5

11.25

180

8

Zainuddin [69] (2014)
XIN Jing [70] (2016)
Phương pháp đề xuất
AMSD

90

22.5

45
11.25

180
360

4
16

1

0.5

180

180

Bảng 4.2. So sánh tỷ lệ điều hướng thành công

Phương pháp (Tác giả)
(Correa) [32]

Tỷ lệ định hướng/phân loại đúng (%)

(Biswas) [91]
Phương pháp đề xuất AMSD

100

100

92

4.3.3. Kết luận

Hệ thống rô-bốt trong nhà được trang bị với một máy ảnh RGB-D đã thực hiện tốt với phương
pháp điều hướng đề xuất, không bị ảnh hưởng bởi cường độ ánh sáng của môi trường hoạt động. Kết
quả thu hoạch chứng minh giải quyết vấn đề điều hướng rô-bốt trong một môi trường động chưa biết
với phương pháp AMSD được đề xuất. Kinect phù hợp cho ứng dụng dẫn đường cục bộ bởi khả năng
cung cấp dữ liệu mạnh mẽ và đáng tin cậy để tránh chướng ngại vật trong môi trường trong nhà.
23


×