Tải bản đầy đủ (.pdf) (76 trang)

Xây dựng các mô hình 3 chiều sử dụng camera cầm tay

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.65 MB, 76 trang )

Ma Thị Châu Luận văn thạc sỹ
MỤC LỤC

DANH MỤC HÌNH VẼ
DANH MỤC BẢNG BIỂU
MỞ ĐẦU 1
CHƯƠNG 1: GIỚI THIỆU 3
CHƯƠNG 2: TỔNG QUAN 8
2.1. Các vấn đề liên quan đến bài toán dựng mô hình 3 chiều 8
2.1.1. Thị giác máy 8
2.1.2. Thị giác lập thể 9
2.1.3. Hình học epipolar và một số ma trận biến đổi 10
2.1.4. Phân cấp các phép biến đổi 14
2.2. Các kĩ thuật trong bài toán dựng mô hình 3 chiều 16
2.2.1. Qui trình dựng mô hình 3 chiều 16
2.2.2. Trích chọn đặc trưng 19
2.2.3. Bài toán đối sánh 22
2.2.4. Tìm ma trận cơ bản F 28
2.2.5. Chỉnh sửa ảnh 30
2.2.6. Khôi phục độ sâu 32
CHƯƠNG 3: XÂY DỰNG BỘ CÔNG CỤ DỰNG MÔ HÌNH 3 CHIỀU TỪ CẶP ẢNH
CHỤP
34
3.1. Mô hình bộ công cụ dựng mô hình 3 chiều từ cặp ảnh 34
3.2. Điểm góc SUSAN 34
3.2.1. Một vài khái niệm 34
3.2.2. Thuật toán tìm điểm góc SUSAN 36
3.3. Đối sánh điểm góc SUSAN 39
3.3.1. Tìm tập ứng cử viên 39


3.3.2. Tìm tập các cặp đối sánh tương ứng 40
3.4. Thuật toán tính ma trận cơ bản sử dụng RANSAC 42
3.5. Chỉnh sửa ảnh bằng phương pháp chuyển đổi sang tọa độ cực 43
3.5.1. Các đường epipolar định hướng 44
3.5.2. Ma trận đồng hình tương thích H và ma trận cơ bản F 45
3.5.3. Xây dựng ảnh chỉnh sửa 45
Ma Thị Châu Luận văn thạc sỹ
3.6. Đối sánh miền dựa vào cửa sổ tương quan 48
3.7. Thuật toán tam giác tối ưu tính độ sâu cho một cặp điểm ảnh đối sánh 52
3.7.1. Tính ma trận camera từ ma trận cơ bản F 52
3.7.2. Tính độ sâu 53
CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM VÀ BÀN LUẬN 59
4.1. Tiền xử lý 59
4.2. Đối sánh ảnh và khôi phục thông tin 3 chiều 60
4.2.1. Chỉnh sửa ảnh 60
4.2.2. Đối sánh ảnh và lấy độ sâu 61
KẾT LUẬN 63
TÀI LIỆU THAM KHẢO 65
Tài liệu Tiếng Anh: 65
Mã nguồn và công cụ hỗ trợ: 67
PHỤ LỤC 68
1. Một số định nghĩa 68
2. Một số thuật toán 69
A. Thuật toán 8 điểm được chuẩn hoá tính F 69
B. RANSAC (RANdom Sample Consensus) 71
C. Không gian rỗng phải (Right Null-Space) 71
Ma Thị Châu Luận văn thạc sỹ
DANH MỤC HÌNH VẼ
Hình 2.1. Hệ thống thị giác của con người 9
Hình 2.2. Liên hệ của cặp điểm đối sánh x, x’ 11

Hình 2.3. Một số thuật ngữ 11
Hình 2.4. Qui trình dựng mô hình 3 chiều từ chuỗi các ảnh đầu vào 16
Hình 2.5. Độ chênh lệch và mối quan hệ với độ sâu 18
Hình 2.6. Dựng mô hình 3 chiều từ cặp ảnh 19
Hình 2.7. Các dạng đặc trưng khác nhau của ảnh 21
Hình 2.8. Đối sánh ảnh 22
Hình 2.9. So sánh một số thuật toán đối sánh dựa trên miền 25
Hình 2.10. Tìm điểm tương ứng x’ của x qua mặt phẳng
π
29
Hình 2.11. Ràng buộc epipolar 31
Hình 2.12. Chỉnh sửa ảnh 32
Hình 2.13. Mối liên hệ giữa độ chênh lệch và độ sâu 33
Hình 3.7. Đối sánh không đối xứng 41
Hình 3.12. Biểu diễn đối sánh giữa các cặp điểm của ảnh trái và phải 50
Hình 3.13. Khoảng cách tới đường epipolar nhỏ nhất 52
Hình 4.1. Cặp ảnh gốc 59
Hình 4.2. Các điểm góc SUSAN của ảnh bên phải 59
Hình 4.3. Cặp ảnh chỉnh sửa 61
Hình 4.4. Mô hình 3 chiều kết quả. 62
DANH MỤC BẢNG BIỂU
Bảng 2.1. Phân cấp các phép biến đổi 15
Bảng 2.2. Một số thuật toán đối sánh dựa trên miền 25
Bảng 3.1. Tóm tắt thuật toán tìm điểm góc SUSAN 38
Bảng 3.2. Thủ tục tìm ra cặp đối sánh tốt nhất 42
Bảng 3.3. Thuật toán sử dụng RANSAC 43
Bảng 3.4. Chiến lược tối ưu hoá 54
Bảng 3.5. Thuật toán tam giác tối ưu tìm điểm 3 chiều X 58
Thuật toán tính ma trận F 69



Ma Thị Châu Luận văn thạc sỹ
1
MỞ ĐẦU
Trong những năm gần đây, việc dựng mô hình 3 chiều từ các ảnh 2 chiều thu hút
ngày càng nhiều sự quan tâm của các nhà nghiên cứu. Điều đó một phần là do yêu
cầu của các kĩ thuật này trong các ứng dụng tăng lên như trong các lĩnh vực bảo tồn
cổ vật, phân tích hiện trường phạm tội, thiết kế kiến trúc, xử lý phim, trò chơi 3
chiều…Bên cạnh đó, phần cứng đồ h
ọa có giá thành hạ, năng lực tính toán nâng cao
cũng là yếu tố góp phần thúc đẩy sự phát triển các phương pháp cũng như kĩ thuật
mô hình hoá và dựng lại mô hình 3 chiều. Hơn nữa, camera cầm tay là thiết bị số
hóa tiện dụng, sẵn có và rẻ tiền cho nên việc cung cấp thông tin đầu vào dùng
camera là rất dễ dàng. Bài toán dựng mô hình 3 chiều từ chuỗi các ảnh đầu vào là
bài toán xây dựng thông tin 3 chiều từ thông tin của các ảnh 2 chiều. Một cách toán
học, cấu trúc 3 chiều được dựng lại từ các phép chiếu 2 chiều . Bên cạnh đó các ảnh
đầu vào lại là các ảnh texture tự nhiên nhất do vậy cấu trúc 3 chiều đạt được rất hiệu
quả. Rất nhiều nhà nghiên đã phát triển các phương pháp và kĩ thuật khác nhau để
giải quyết bài toán này.
Chúng tôi tập trung tìm hiểu qui trình dựng mô hình 3 chiều từ cặp ảnh đầu vào, các
phương pháp nghiên cứu, kĩ thuật triển khai t
ừng bước trong qui trình này. Từ đó,
chúng tôi xây dựng bộ công cụ dựng mô hình 3 chiều của cảnh hay đối tượng với
đầu vào là 2 ảnh màu chụp chung một cảnh hay một đối tượng đó.
Với nội dung nghiên cứu nêu ra ở trên, chúng tôi mong muốn sau khi hoàn thành đề
tài hiểu biết thêm về xu thế phát triển của các ứng dụng 3 chiều, các hướng nghiên
cứu và triển khai trong lĩnh vực này. Đặc biệt chúng tôi muốn đi sâu tìm hiểu về
qui
trình dựng mô hình 3 chiều từ chuỗi các ảnh đầu vào (số lượng ban đầu là 2) và kết
quả thu được là bộ công cụ triển khai thành công qui trình được nêu ra.




Mở đầu
Ma Thị Châu Luận văn thạc sỹ
Luận văn bao gồm bốn chương:
Chương một: Giới thiệu về bài toán dựng mô hình 3 chiều nói chung và bài toán
dựng mô hình 3 chiều từ chuỗi các ảnh nói riêng, các đặc trưng và các xu thế phát
triển. Đồng thời chúng tôi cũng nêu ra mục tiêu và hướng giải quyết của luận văn
đó là giải quyết bài toán dựng mô hình 3 chiều từ các ảnh 2 chiều được chụp bởi
camera cầm tay.
Chương hai: Nêu những vấn đề
, khái niệm và mô hình toán học liên quan đến bài
toán dựng mô hình 3 chiều từ ảnh 2 chiều. Đồng thời, nêu tổng quan, phân tích và
so sánh các kỹ thuật, phương pháp giải quyết bài toán này.
Chương ba: Xây dựng bộ công cụ dựng mô hình 3 chiều từ cặp ảnh chụp. Lựa chọn
những kỹ thuật, phương pháp, thuật toán phù hợp để triển khai bộ công cụ.
Chương bốn: Đưa ra một số kết quả thử nghiệ
m của các module cài đã được cài
đặt.
Ma Thị Châu Luận văn thạc sỹ
3
CHƯƠNG 1: GIỚI THIỆU
Đồ hoạ 3 chiều được nghiên cứu ở các trường đại học từ những năm 1970 và được
thương mại hoá khi Hollywood chú ý đến những nghiên cứu này vào những năm
1980 [10]. Hình ảnh chuyển động lúc sơ khai là nghành công nghiệp xa xỉ và chỉ
được sử dụng hạn chế đối với các công cụ tài chính. Cùng với sự phát triển của các
gói phần mềm chuẩn của mô hình hoá và chuyển động, 3 chiều dần xuất hiện trong
công nghệ truyền hình và các video chuyên nghiệp. Hay nói cách khác, nghệ thuật 3
chiều đã tìm được chỗ đứng trong các dịch vụ đa phương tiện.

Việc sử dụng mô hình 3 chiều cho mục đích hiển thị ngày càng trở nên quan trọng.
Những năm vừa qua, trong lĩnh vực thị giác máy, người ta chú trọng nhiều đến vấn
đề điều khiển và điều hướng robot, tuy nhiên gần đây, hướng quan tâm đã có sự
thay
đổi. Người ta chú trọng nhiều đến vấn đề tương tác và hiển thị. Các mô hình 3
chiều có tính chân thực cao là thành phần không thể thiếu khi mô phỏng và hiển thị
sự vật, sự kiện. Đồ họa 3 chiều trải rộng trên nhiều ứng dụng như trong trò chơi
điện tử, công nghiệp làm phim, trình chiếu đối tượng trong thực tại trộn phục vụ
cho y tế, quân sự, hàng không, giáo dục… Trong trò chơi đi
ện tử, đồ hoạ 3 chiều
thực sự bộc lộ đặc tính ưu việt của nó đáp ứng nhu cầu, thị hiếu khách hàng. Chất
lượng đồ hoạ cũng như khả năng đáp ứng thời gian thực của các ứng dụng 3 chiều
thay đổi nhanh chóng do sự thay đổi chóng mặt của các thiết bị phần cứng cũng như
công nghệ. Tiếp đó, là sự
bùng nổ của các ứng dụng 3 chiều trên Internet. Do vậy,
đồ hoạ 3 chiều đã ngày càng trở nên quen thuộc.
Hơn 3 thập kỉ qua, mô hình hoá và chuyển động 3 chiều được chuẩn hoá trong các
phần mềm thương mại. Maya, 3Dstudio Max, Softimage hay Lightwave [27] là
những gói ứng dụng điển hình được sử dụng trong giáo dục cũng như công nghệ 3
chiều. Tất cả những gói ứng dụng này đều tương tự hoặc liên quan đến các kĩ
năng
của nghệ thuật đồ họa truyền thống nhưng áp dụng trong môi trường kĩ thuật số: mô
hình hoá tương tự như nghệ thuật điêu khắc, texturing liên quan đến kĩ thuật vẽ
hoặc minh hoạ.
Giới thiệu
Ma Thị Châu Luận văn thạc sỹ
4
Một hạn chế lớn nhất của các kĩ thuật dựng mô hình 3 chiều truyền thống là giá
thành cao khi mà người ta vẫn phải thao tác thủ công và sử dụng các thiết bị chuyên
dụng. Các thiết bị dùng cho thiết kế và hiển thị đồ họa như máy quét laze, màn hình

hiển thị và các thiết bị số hoá khác là các thiết bị đắt tiền, yêu cầu sự cẩn trọng khi
sử dụng, sự phức tạp khi
điều khiển. Do vậy, người ta tiến hành “mềm hóa” trong
dựng mô hình 3 chiều. Các thuật toán được áp dụng nhiều hơn trong việc lấy thông
tin 3 chiều của đối tượng, các nguồn dữ liệu để lấy thông tin 3 chiều cũng phong
phú hơn.
Khôi phục lại thông tin 3 chiều sử dụng camera cầm tay trong khi thiếu thông tin về
môi trường chụp ảnh (camera, ánh sáng,…) là một thử thách lớn. Bởi vì, khi sử
dụng camera cầm tay, vị trí và hướ
ng quay của camera rất tự do. Do vậy, các khung
nhìn của các ảnh cũng tự do. Tuy nhiên, nếu dựng mô hình 3 chiều từ ảnh 2 chiều
thành công thì ý nghĩa của nó rất lớn, bởi vì, thiết bị phần cứng rẻ tiền và sẵn có.
Ban đầu người ta tiến hành đối sánh dựa trên sự quan sát. Các điểm đối sánh tương
ứng dưới dạng các điểm điều khiển được lựa chọn cần có sự
tương tác với con
người. Do vậy tiêu tốn thêm thời gian đồng thời số lượng các điểm đối sánh không
nhiều. Một hướng giải quyết khác là người ta điều khiển môi trường chụp ảnh: Ví
dụ, gắn camera ở một vị trí cố định rồi cho đối tượng cần chụp lên bàn xoay hay
gắn nhiều camera cố định xung quanh đối tượng cần chụp như vậy ảnh thu nh
ận
được có các góc độ khác nhau và xác định được các tâm chiếu, các thông số
trong/ngoài của camera nhằm phục vụ tốt hơn cho quá trình khôi phục điểm 3 chiều.
Tuy nhiên với cách này, ta lại phải tiêu tốn thời gian và thủ tục để hiểu chỉnh
camera.
Trong những năm gần đây, người ta quan tâm đến việc lấy thông tin 3 chiều từ các
khung nhìn không được hiệu chỉnh (uncalibrated view). Các kĩ thuật tự hiệu chỉnh
chiếm phầ
n lớn thời gian [9,18,12], các phương pháp này bắt nguồn từ hình học
epipolar và trifocal tensor [15,26] nhờ đó các điểm đối sánh tương ứng được tự
động tính toán dễ dàng hơn.

Giới thiệu
Ma Thị Châu Luận văn thạc sỹ
5
Thông tin 3 chiều được trích chọn từ ảnh yêu cầu rất ít sự tương tác với người dùng.
Dựng mô hình 3 chiều từ ảnh là phương pháp phát triển dưới sự kết hợp của đồ họa,
thị giác máy và nhiếp ảnh. Con người thu nhận thông tin 3 chiều nhờ sự quan sát
đối tượng bằng hai mắt hay nói cách khác hai khung nhìn khác nhau. Trong lĩnh vực
thị giác máy, các nhà nghiên cứu đã cố gắng rất nhiều trong việc cung cấp khả n
ăng
“quan sát” tương tự con người cho máy tính. Ban đầu, họ hướng tới ngành robot và
tự động hóa nhằm mục đích cho phép robot tự điều hướng khi đi qua môi trường
mới. Gần đây hướng nghiên cứu dịch chuyển sang hiển thị trực quan và giao tiếp
đồng thời có sự kết hợp nhiều hơn với lĩnh vực đồ họa. Một trong những mối quan
tâm lớn nhất của các nhà nghiên cứ
u là cung cấp các thuật toán để có thể tự động
lấy được thông tin từ chuỗi các ảnh. Mười năm trở lại đây, người ta thường nhấn
mạnh đến hình học đa ảnh, đa khung nhìn [15] và cho phép nhiều cách tiếp cận linh
hoạt trong việc lấy thông tin 3 chiều từ các ảnh khác nhau. Thực tế, hướng hiển thị
trực quan đã phát triển từ trước nhưng dưới một ngữ c
ảnh khác, dựa trên nghệ thuật
nhiếp ảnh. Nửa cuối thế kỉ 19, các ảnh chụp đã được sử dụng lấy thông tin 3 chiều
để tạo bản đồ, đo đạc các công trình.
Cách tiếp cận dựa trên ảnh được đưa ra có rất nhiều ưu điểm. Cảnh cần mô hình hóa
được chụp ở các khung nhìn khác nhau. Các thiết bị để thu nhận đầu ảnh đầu vào
lại sẵn có nh
ư các máy ảnh kĩ thuật số, các máy quay camera. Mối quan hệ giữa các
ảnh được tính toán tự động từ thông tin lấy được trực tiếp của ảnh thông qua các
thuật toán. Do vậy không cần đến các số đo khung cảnh, hay các thủ tục hiệu chỉnh
thiết bị bằng tay như các kĩ thuật truyền thống nữa. Xu thế hiện nay là cải tiến việc
tự động hoá trong nhận dạng và dựng mô hình 3 chiều của đối tượng từ các ảnh.

Bên cạnh đó cách tiếp cận dựa trên ảnh này lại rất linh hoạt ở chỗ rất dễ dàng mô
hình đối tượng có kích cỡ nhỏ cũng như mô hình một khung cảnh rộng lớn.
Lấy thông tin 3 chiều từ các ảnh 2 chiều thu hút ngày càng nhiều sự quan tâm của
các nhà nghiên cứu. Điều đó một phần là do yêu cầu của các kĩ thuật này trong các
ứng dụ
ng tăng lên như trong các lĩnh vực bảo tồn cổ vật, phân tích hiện trường
phạm tội, thiết kế kiến trúc, xử lý phim, trò chơi 3 chiều…Bên cạnh đó, phần cứng
Giới thiệu
Ma Thị Châu Luận văn thạc sỹ
6
đồ họa có giá thành hạ cũng là yếu tố góp phần thúc đẩy sự phát triển các phương
pháp cũng như kĩ thuật mô hình hoá và dựng lại mô hình 3 chiều. Bài toán dựng mô
hình 3 chiều từ chuỗi các ảnh đầu vào là bài toán xây dựng thông tin 3 chiều từ
thông tin của các ảnh 2 chiều. Một cách toán học, cấu trúc 3 chiều được dựng lại từ
các phép chiếu 2 chiều. Bên cạnh đó các ảnh đầu vào lại là các ảnh texture tự nhiên
nhất do v
ậy cấu trúc 3 chiều đạt được rất hiệu quả.
Mục đích của luận văn là tìm hiểu các kĩ thuật xử lý ảnh và xây dựng phương pháp
dựng mô hình 3 chiều tự động chỉ sử dụng đầu vào là các ảnh. Hai ảnh của cùng đối
tượng hay cùng cảnh được chụp bởi camera cầm tay qua một qui trình xử lý lấy ra
thông tin 3 chiều của đối tượng. Mục tiêu của đề tài này là tìm hiể
u một số đặc
trưng nổi bật của các phương pháp, kĩ thuật dựng mô hình 3 chiều nhằm mục đích
kết hợp các kĩ thuật thành một qui trình trọn vẹn tạo ra mô hình 3 chiều có ý nghĩa
và đáp ứng được một số các ứng dụng. Các kĩ thuật, phương pháp đề cập đến đều áp
dụng trên việc dựng lại mô hình của đối tượng, cảnh không được hi
ệu chỉnh. Khi
đó, tất cả các tham số bao gồm tham số trong/ ngoài của camera, cấu trúc 3 chiều
của cảnh đều được tính toán từ thông tin của các ảnh thông qua các thuật toán. Từ
đó, chúng tôi triển khai một số module giải quyết bài toán dựng mô hình 3 chiều

của cảnh hay đối tượng với đầu vào là 2 ảnh màu chụp chung một cảnh hay một đối
tượng đó.
Đề tài được phát triển với sự kết hợp c
ủa nhiều phương pháp nghiên cứu: thu thập,
phân tích, phân loại và đặc tả dữ liệu; nghiên cứu, phân tích và tổng hợp tài liệu;
phương pháp phân tích, thiết kế hệ thống thông tin và lập trình theo công nghệ
hướng đối tượng.
Chương 2 của luận văn giới thiệu một số vấn đề liên quan đến bài toán dựng mô
hình 3 chiều, tổng quan qui trình dựng mô hình 3 chiều, một số kĩ thuật đã và đang
được nghiên cứu và tri
ển khai trong dựng mô hình 3 chiều.
Trong chương 3, chúng tôi xây dựng bộ công cụ dựng mô hình 3 chiều từ cặp ảnh
đầu vào. Các kĩ thuật được dùng để triển khai bộ công cụ bao gồm thuật toán tìm
Giới thiệu
Ma Thị Châu Luận văn thạc sỹ
7
điểm góc SUSAN, thuật toán tính ma trận cơ bản sử dụng RANSAC, kĩ thuật chỉnh
sửa ảnh dựa trên chuyển đổi sang hệ trục tọa độ cực, kĩ thuật đối sánh toàn ảnh và
thuật toán tam giác tối ưu tìm độ sâu cho một cặp đối sánh.
Chương 4 của luận văn bao gồm một số kết quả thử nghiệm của các module tạo nên
bộ công cụ.
Chương 5 là ph
ần kết luận. Trong phần này, chúng tôi tổng kết những gì đã đạt
được, nêu lên hạn chế của luận văn và định hướng phát triển tiếp của đề tài.
Giới thiệu
Ma Thị Châu Luận văn thạc sỹ
8
CHƯƠNG 2: TỔNG QUAN
Các camera được chế tạo nhằm mô phỏng hệ thống thu nhận hình ảnh của con
người. Trong chương 2 này, chúng tôi giới thiệu về cách tiếp nhận hình ảnh của

camera và các biểu diễn toán học liên quan, qua đó hình dung được quá trình thu
nhận và tổng hợp hình ảnh đối tượng của camera cũng như của con người. Tiếp theo
chúng tôi giới thiệu tổng quan về các kĩ thuật, phương pháp liên quan đến tổng hợp
thông tin 3 chiều từ
ảnh chụp.
2.1. Các vấn đề liên quan đến bài toán dựng mô hình 3
chiều
2.1.1. Thị giác máy
Thị giác được định nghĩa là quá trình khám phá thế giới thông qua hình ảnh [19].
Thị giác mô tả cái gì sẽ được hiển thị và vị trí hiển thị. Quá trình này sử dụng đầu
vào là các ảnh và đầu ra là các thông tin 3 chiều mô tả thế giới xung quanh.
Thị giác máy là các thực thi quá trình thị giác trên máy tính nhằm mục đích xây
dựng các khung cảnh 3 chiều, phục hồi khoảng cách, độ sâu… từ các ảnh.
Các kĩ thuật sử dụng trong thị giác máy được chia làm hai loạ
i chính: Thị giác tích
cực (active vision) và thị giác thụ động (passive vision) [19]:
- Thị giác tích cực: Ánh sáng là yếu tố quan trọng trong quan sát và mô tả đối
tượng. Thị giác tích cực bao gồm các kĩ thuật liên quan đến xử lý ánh sáng, sử
dụng các nguồn sinh năng lượng như nguồn laze. Ánh sáng sinh ra từ các nguồn
sáng sẽ được phản xạ trên bề mặt đối tượng và được thu nhận bởi các bộ cảm
biến của camera. Thông tin v
ề ánh sáng thu nhận được là yếu tố quan trọng
trong việc trích chọn và phản ánh thông tin 3 chiều. Tuy nhiên, các kĩ thuật này
gặp một số khó khăn khi xử lý ánh sáng như: cần phải phân biệt giữa ánh sáng
xung quanh và ánh sáng điểm, màu của đối tượng có thể xung đột với màu
nguồn sáng, ví dụ khi quan sát đối tượng màu đỏ với ánh sáng màu đỏ.
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
9
- Thị giác thụ động: trong các kĩ thuật này, ánh sáng không trực tiếp được sử dụng

trong các thuật toán. Hầu hết các kĩ thuật loại này có tên gọi chung là thị giác lập
thể (stereo vision). Bài toán chính trong thị giác lập thể là đi tìm các điểm đối
sánh tương ứng giữa các ảnh từ đó khôi phục lại thông tin 3 chiều.
Nguyên lý cơ bản trong phục hồi thông tin 3 chiều là nguyên lý tam giác
(triangulation principle) [19]. Tức là, mối liên hệ giữ
a 3 yếu tố cơ bản, khi lấy
thông tin 3 chiều, 3 yếu tố này tạo thành 3 đỉnh của tam giác. Trong thị giác tích
cực, tam giác được hình thành bởi nguồn sáng, đối tượng và camera. Trong thị giác
thụ động, tam giác được tạo bởi đối tượng và 2 camera.
2.1.2. Thị giác lập thể
Thị giác lập thể dựng lại thông tin 3 chiều từ ít nhất 2 ảnh hai chiều khác nhau. Thị
giác lập thể là các kĩ thuật lấy thông tin 3 chiều mô phỏng lại cách tổng hợp hình
ảnh của hệ thông thị giác của con người. Hệ thống thị giác của con người dựa trên
hai mắt và hệ thống thần kinh (hình 2.1).







Hình 2.1. Hệ thống thị giác của con người
Mỗi mắt “quan sát” đối tượ
ng ở một khung nhìn và sinh ra một ảnh 2 chiều. Sự
khác biệt về vị trí của hai mắt tạo ra sự sai khác giữa 2 ảnh của đối tượng. Dựa vào
sự khác biệt này, bộ não sinh ra các thông tin 3 chiều như khoảng cách, góc, hình
dáng và kích cỡ của đối tượng. Ví dụ dưới đây minh hoạ rõ việc quan sát tại các vị
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
10

trí khác nhau sẽ tạo ra các hình ảnh khác nhau mặc dù cùng chung một đối tượng:
Giữ ngón tay trỏ cách sống mũi khoảng 10 cm, nhắm một mắt lại, sau đó mở mắt
này ra và nhắm mắt còn lại vào, ta nhận thấy ngón tay của chúng ta “di chuyển” từ
bên trái sang bên phải và ngược lại. Khi để ngón tay ra xa hơn, hiện tượng ngón tay
di chuyển vẫn diễn ra nhưng với bước di chuyển ngắn hơn. Sự khác biệt về đối
tượ
ng khi quan sát bằng các mắt khác nhau gọi là thị sai (parallax). Não thu nhận
thông tin về thị sai khi quan sát đối tượng và xác định khoảng cách tới mỗi đối
tượng trong cảnh khi hiển thị.
Thị giác lập thể trên một khía cạnh nào đó giống với hệ thống thu nhận hình ảnh của
con người. Đối tượng được chụp ảnh ở các khung nhìn khác nhau. Sự sai khác giữa
các ảnh của hai khung nhìn được tính toán và từ đó tính ra thông tin 3 chiều.
Các k
ĩ thuật thị giác lập thể có một số ưu điểm:
- Không cần nguồn sinh năng lượng vì ánh sáng không phải là thành phần trong
tính toán tam giác.
- Có thể dùng ở bất cứ nơi nào vì không phụ thuộc vào sự xung đột ánh sáng
như trong thị giác tích cực.
- Có thể dùng để mô hình hoá cho các loại đối tượng khác nhau về kích cỡ,
khoảng cách (thậm chí dùng cả các ảnh vệ tinh).
2.1.3. Hình học epipolar và một số ma trận biến đổi
A. Hình học epipolar
Hình học epipolar [28] là hình học chiếu liên quan đến hai ảnh. Hình học epipolar
độc lập với cấu trúc cảnh chỉ phụ thuộc vào các tham số trong của camera.
Giả sử có điểm 3 chiều X có ảnh x trên ảnh thứ nhất và x’ trên ảnh thứ hai, vậy mối
quan hệ giữa x và x’ là như thế nào?
Camera thứ nhất có tâm chiếu C, camera thứ 2 có tâm chiếu C’. Điểm 3 chiều X và
hai tâm chiếu C, C’ thuộc cùng một mặt phẳng và đượ
c đặt tên là epipolar
π

. Rõ
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
11
ràng tia chiếu từ tâm chiếu của từng camera đi qua điểm ảnh phải giao nhau tại
điểm 3 chiều X (hình 2.2).


Hình 2.2. Liên hệ của cặp điểm đối sánh x, x’
Một số thuật ngữ trong hình học epipolar (hình 2.3):
- Đường cơ bản (baseline) là đường thẳng nối hai tâm camera CC’.
- Epipole e, e’ là điểm giao của đường cơ bản với từng mặt phẳng ảnh.


Hình 2.3. Một số thu
ật ngữ
-
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
12
- Mặt phẳng epipolar là mặt phẳng chứa đường cơ bản. Như vậy đường cơ
bản là giao tuyến chung của chùm mặt phẳng epipolar.
- Đường epipolar là giao tuyến của mặt phẳng epipolar với mặt phẳng ảnh.
Tất cả các đường epipolar của cùng một ảnh đồng qui tại điểm epipole.
Giả sử ta chỉ biết điểm x trên ảnh thứ nhất vậy x’ đượ
c xác định như thế nào? Mặt
phẳng
π
xác định bởi tia chiếu xuất phát từ tâm C đi qua x và đường cơ bản. x’
thuộc

π
do đó x’ thuộc giao tuyến l’ của mặt phẳng
π
và mặt phẳng ảnh thứ 2. Như
vậy việc tìm điểm đối sánh tương ứng của x không cần tiến hành trên toàn bộ ảnh
thứ hai mà chỉ cần tìm trên đường epipolar l’. Ma trận cơ bản F thể hiện mối quan
hệ giữa điểm x và đường epipolar l’ tương ứng.
'lx α
Ràng buộc epipolar:

Điểm đối sánh của x nằm trên đường epipolar l’ của x trên ảnh thứ 2. Ma trận cơ
bản F thể hiện ràng buộc này và F là thành phần quan trọng nhất trong hình học
epipolar. F là ma trận cỡ 3x3 có hạng 2. Một điểm 3 chiều X có ảnh x trên ảnh thứ
nhất và x’ trên ảnh thứ 2 thì thoả mãn phương trình sau x’
T
Fx=0.
B. Ma trận camera
Ảnh được định nghĩa là phép chiếu từ không gian 3 chiều vào mặt phẳng ảnh. Điểm
3 chiều M=[X,Y,Z]
T
và điểm ảnh 2 chiều m=[u,v]
T
có quan hệ với nhau theo
phương trình:
'' PMsm = [PT 1.1]
m’=[u,v,1]
T
và M’=[X,Y,Z,1]
T
là toạ độ thuần nhất của m và M. P là ma trận chiếu

cỡ 3x4 còn gọi là ma trận camera. Ma trận P gồm có các thành phần sau:
[]
tRKP |=
trong đó
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
13
• K là ma trận hiệu chỉnh camera cỡ 3x3, ma trận này phụ thuộc vào các tham
số trong của camera:










=
100
0
0
0
v
us
K
v
u
α

α


fk
uu
=
α
và fk
vv
=
α
với là tiêu cự của camera, và là số
lượng điểm ảnh trên một đơn vị độ dài tính theo hướng u và v tương
ứng, hay nói cách khác
f
u
k
v
k
u
α

v
α
là nhân tố co dãn theo hướng u và v
của mặt phẳng ảnh.
 c=[u
0
, v
0

]
T
các toạ độ của điểm giao giữa trục quang và mặt phẳng
ảnh, c còn được gọi là điểm nguyên thuỷ (principal point).
 s là độ lệch.
0

s khi hướng u và v không vuông góc với nhau.
• Ma trận
[
]
tR | thể hiện vị trí và hướng hay tham số ngoài của camera. R là
ma trận quay, t là vectơ dịch chuyển.
C. Ma trận cơ bản
Điểm m’ trên ảnh I2 tương ứng với điểm m trên ảnh I1 được giới hạn trên đường
epipolar l’ tương ứng của m.
Fml ~
'

F được gọi là ma trận cơ bản. Hai điểm epopole e và e’ tương ứng là kết quả phép
chiếu của 2 tâm chiếu (vị trí hai camera) trên các ảnh của camera còn lại. Ma trận
cơ bản được tính toán từ hai ma trận camera P và P’ theo phương trình sau:
()
[]
×
+
= ePPF
TT'

()

+ là toán tử giả nghịch đảo (phụ lục A),
[
]
×
e là ma trận phản đối xứng của vectơ e
(phụ lục A)

Tổng quan
Ma Thị Châu Luận văn thạc sỹ
14
D. Ma trận đồng hình
Các ma trận đồng hình được dùng để biến đổi các điểm ảnh của các điểm 3 chiều
trên một mặt phẳng
π
nào đó thành các điểm ảnh trên ảnh còn lại
mHm
π
~
'

π
H được gọi là ma trận đồng hình của mặt phẳng
π
. Mối quan hệ giữa ma trận
đồng hình và ma trận cơ bản được biểu diễn như sau:
[
]
HeF
x
'

~ và
[
]
T
aeFeH
''
−=
×

2.1.4. Phân cấp các phép biến đổi
Các phép biến đổi trong không gian 3 chiều được thể hiện thông qua các ma trận.
Tính chất nào (mặt phẳng, đường thẳng song song, diện tích thiết diện, thể tích đối
tượng, góc, tỉ lệ góc…) của đối tượng được bảo toàn sau khi biến đổi phụ thuộc vào
dạng của các ma trận biến đổi hay nói cách khác tính chất của các phép biến đổi
khác nhau tùy theo các phép biên đổi. Mối quan hệ giữa các loại biến đổi [15- tr.58]
được biểu diễn nh
ư sau:
Phép chiếu
⊂ biến đổi affin biến đổi metric biến đổi Ơclit. ⊂ ⊂
Tóm tắt các phép biến đổi với minh hoạ đối tượng gốc là một khối lập phương được
mô tả ở bảng 2.1.







Tổng quan
Ma Thị Châu Luận văn thạc sỹ

15
Đối tượng gốc

Ma trận Hình kết quả Tính chất
Phép chiếu






vV
tA
T

Các điểm giao, các tiếp
diện được bảo toàn
Biến đổi Affin






10
T
tA

Các mặt song song, tỉ lệ
về thể tích, các trọng tâm

được bảo toàn
Biến đổi metric






10
T
tsR




Bảo toàn hình dáng đối
tượng
Biến đổi Ơclit






10
T
tR

Bảo toàn thể tích, hình
dáng đối tượng

Bảng 2.1. Phân cấp các phép biến đổi
A là ma trận khả nghịch 3x3, R là ma trận quay 3 chiều,
(
)
T
zyx
tttt ,,= là vectơ dịch
chuyển 3 chiều, V vectơ 3 chiều tổng quát, v là hệ số co dãn và
.
()
T
0,0,00 =
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
16
2.2. Các kĩ thuật trong bài toán dựng mô hình 3 chiều
2.2.1. Qui trình dựng mô hình 3 chiều
Một quá trình lấy ra thông tin 3 chiều bao gồm 3 giai đoạn chính: Tiền xử lý, đối
sánh, phục hồi độ sâu (hình 2.4).

Chuỗi ảnh
Thông tin
3 chiều
Tiền xử lý Đối sánh
Khôi phục thông
tin 3 chiều
Hình 2.4. Qui trình dựng mô hình 3 chiều từ chuỗi các ảnh đầu vào.
A. Tiền xử lý
Để có thể lấy được thông tin 3 chiều của đối tượng, trước hết, ta phải tìm được mối
liên hệ giữa 2 ảnh với nhau. Mối liên hệ được xác định thông qua các đặc trưng và

được biểu diễn toán học dưới dạng ma trận cơ bản F. Các đặc trưng được so sánh
với nhau để tìm ra mức độ tương tự giữa chúng. Mức độ tương tự này được dùng để
đánh giá xem chúng có cùng biể
u diễn 1 điểm hoặc 1 miền đối tượng hay không và
từ đó tính ra ma trận F.
Đầu tiên cần xác định xem đặc trưng của ảnh nên lựa chọn ở dạng điểm, đường
thẳng, biên, đường cong hay miền. Loại đặc trưng nào được lựa chọn phụ thuộc
nhiều yếu tố trong đó phụ thuộc vào việc lựa chọn kĩ thuật đối sánh ở bướ
c sau. Sau
khi biết đặc trưng cần dùng, chúng ta tiến hành xác định các đặc trưng đó. Các toán
tử dùng để trích chọn đặc trưng khác nhau cũng phụ thuộc vào các kĩ thuật đối sánh.
Đối với kĩ thuật đối sánh dựa trên miền, Moravec (1989) đề nghị các toán tử liên
quan đến cực đại địa phương của sự thay đổi hướng trong một cửa sổ xung quanh
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
17
một điểm. Đối với kĩ thuật đối sánh dựa trên đặc trưng, một số toán tử được quan
tâm là đạo hàm, phép nhân cuộn các toán tử về cường độ các mức xám.
B.
Đối sánh
Đối sánh là tìm sự tương ứng giữa các điểm của hai ảnh 2 chiều. Đây là giai đoạn
quan trọng và mang tính quyết định tới bước tiếp theo. Các thuật toán về đối sánh
được chia làm 2 loại sau [19]: đối sánh thành phần cơ bản (matching primitives)
hoặc hình học ảnh (imaging geometry).
a. Đối sánh thành phần cơ bản gồm 2 loại:
 Các thuật toán dựa trên miền (area-based): Các điểm hay các khối ảnh đượ
c
coi như thành phần gốc. Khi đối sánh các thành phần gốc người ta sử dụng
cường độ điểm ảnh.
 Các thuật toán dựa vào đặc trưng (feature- based): Các đặc trưng được sử

dụng như là các thành phần cơ bản. Việc so sánh được tiến hành trên các đặc
trưng này.
b. Hình học ảnh:
Hình học ảnh liên quan đến cách bố trí cụ thể của camera. Vị trí của camera được
xem là mộ
t thành phần quan trọng trong tính toán độ sâu của đối tượng.
 Trục song song: Các camera dùng để chụp các ảnh được bố trí sao cho trục
quang của camera song song với nhau.
 Trục không song song: Ngược lại với các thuật toán dạng trục song song, các
trục quang của các camera không song song với nhau.
 Số lượng các camera: 2 camera (biocular), 3 camera (trinocular), nhiều hơn
3 camera, (multicular).
C. Khôi phục độ sâu
Đối với hệ thống hiển thị của con người, mỗi mắt cung cấp một ảnh 2 chiều của đối
tượng quan sát. Hai mắt ở hai vị trí khác nhau do đó sinh ra hai ảnh khác nhau. Như
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
18
vậy cùng một điểm quan sát nhưng ảnh của nó lại ở hai vị trí khác nhau trong hai
ảnh. Sự khác biệt về vị trí này gọi là độ chênh lệch (disparity). Độ chênh lệch là
khái niệm quan trọng trong thị giác lập thể liên quan đến độ sâu của ảnh (hình 2.5).
Độ chênh lệch ít thì đối tượng quan sát nhỏ đồng nghĩa với việc đối tượng ở xa và
ngược lại. Do vậy, nếu thêm một số thông tin như tiêu c
ự camera f và khoảng cách
giữa 2 camera ta có thể khôi phục được độ sâu của ảnh. Tùy thuộc vào số lượng
thông tin đầu vào mà thông tin 3 chiều đầu ra có thể là kết quả của phép chiếu, biến
đổi affin, biến đổi metric hay biến đổi Ơclit.










Hình 2.5. Độ chênh lệch và mối quan hệ với độ sâu
D. Qui trình dựng mô hình 2 chiều từ cặp ảnh đầu vào
Với bài toán dựng mô hình 3 chiều từ hai ảnh đầu vào chi tiết của 3 bước nêu trên
được biểu diễn ở mô hình hình 2.6.




Tổng quan
Ma Thị Châu Luận văn thạc sỹ
19










Hình 2.6. Dựng mô hình 3 chiều từ cặp ảnh
Quá trình tiền xử lý bắt đầu bằng việc trích chọn đặc trưng, đối sánh đặc trưng
nhằm mục đích tìm mối liên hệ giữa hai ảnh thông qua ma trận cơ bản F.

Quá trình đối sánh toàn bộ ảnh được tiến hành trên ảnh chỉnh sửa do vậy giảm thời
gian và khối lượng tính toán.
Độ sâu được khôi phục dựa trên nguyên lý tam giác.
2.2.2. Trích chọn đặc trưng
A. Bài toán trích chọn đặc trưng
Trích chọn đặc trưng là vấn đề nghiên cứu cơ bản trong các lĩnh vực khác nhau của
thị giác máy như tính độ sâu, tìm cặp điểm đối sánh, nhận dạng đối tượng…Đối với
một ảnh, đặc trưng có thể ở dưới các dạng khác nhau như: điểm ảnh, đường thẳng,
đường cong, biên, tuỳ thuộc vào đặc điểm và độ phức tạp khi giải quyết bài toán
mà lựa chọn các đặc trưng cho phù hợp.
Tổng quan
Ma Thị Châu Luận văn thạc sỹ
20
Các đặc trưng là các vị trí trong ảnh mà tại đó các giác quan của con người tập trung
nhiều nhất (perceptually interesting). Trong xử lý ảnh và thị giác máy, trích chọn
đặc trưng là quá trình xử lý làm cho các mẫu ban đầu được biến đổi thành các mẫu
mới dễ dàng nhận dạng hơn. Các đặc trưng thường chứa các thông tin về mức xám,
kết cấu, đường nét hoặc nội dung của ảnh.
Trích chọn đặc trưng có từ rất s
ớm trong lĩnh vực nghiên cứu thị giác máy và có rất
nhiều ứng dụng, trong đó, 3 hướng ứng dụng quan trọng nhất đó là: Đăng kí ảnh
(image registration) [13], nhận dạng khuôn mặt và theo dấu chuyển động. Đăng kí
ảnh là bài toán liên quan đến việc tìm sự tương ứng giữa hai hay nhiều ảnh ở các
khung nhìn khác nhau hoặc ở các thời điểm khác nhau và là bước đầu tiên trong
nhiều kĩ thuật xử lý ảnh như
lập thể hình học, trộn ảnh và các ứng dụng liên quan
đến đối sánh mẫu. Các đặc trưng nổi bật của ảnh là yếu tố quan trọng để đăng kí
ảnh thành công. Các đặc trưng phải mang tính bất biến với các phép quay và các
biến dạng hình học của ảnh. Trong trường hợp nhận dạng khuôn mặt các đặc trưng
lại là các vị trí mô tả các vị trí nổi bật của đường nét khuôn mặt nh

ư mắt, mũi,
miệng,… Theo dấu ảnh là hướng ứng dụng thứ ba, hiện nay hướng ứng dụng này
thu hút được rất nhiều sự quan tâm của cộng đồng các nhà khoa học nghiên cứu
trong lĩnh vực chuyển động 3 chiều. Khi đối tượng chuyển động cần xác định xem
các thành phần của đối tượng tại vị trí mới như thế nào.
B. Phân loại
Các đặc trưng của ảnh được phân thành một số dạng sau: đường biên, các đường
thẳng, các viên tròn và các góc (hình 2.7).
Đường biên là chuỗi các vị trí mà tại đó có sự thay đổi mạnh về cường độ điểm ảnh.
Đường biên này không nhất thiết phải trùng với đường biên vật lý của đối tượng.
Các đường thẳng là dải hẹp dọc theo đối tượng và có cùng cường độ điểm ảnh, có
thể
coi đường thẳng này là hai đường biên song song và gần nhau.
Viên tròn là các đối tượng đặc có cường độ các điểm ảnh xấp xỉ nhau.
Tổng quan

×