Tải bản đầy đủ (.pdf) (80 trang)

Nghiên cứu thuật toán ước lượng khoảng cách từ camera đến vật thể và xác định kích thước thực vật thể

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.13 MB, 80 trang )

..

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

TÊN ĐỀ TÀI:

NGHIÊN CỨU THUẬT TOÁN ƯỚC LƯỢNG
KHOẢNG CÁCH TỪ HỆ CAMERA ĐẾN VẬT THỂ
VÀ XÁC ĐỊNH KÍCH THƯỚC THỰC VẬT THỂ

Chuyên ngành: Kỹ thuật viễn thông

LUẬN VĂN THẠC SĨ KỸ THUẬT

Học viên: Nguyễn Xuân Khôi
Người hướng dẫn: TS. Nguyễn Hữu Phát

HÀ NỘI - 2017


MỤC LỤC
MỞ ĐẦU .................................................................................................................... 1
Chương 1: NGUYÊN TẮC HOẠT ĐỘNG CHUNG CỦA CÁC MÁY QUÉT 3D.......3

1.1. Định nghĩa và phân loại ........................................................................ 3
1.1.1. Định nghĩa ......................................................................................... 3
1.1.2. Phân loại............................................................................................ 3
1.2. Ứng dụng của các máy quét 3D ............................................................ 9
1.3. Đặt vấn đề ........................................................................................... 10
1.4. Cấu trúc của hệ thống ......................................................................... 11
CHƯƠNG 2: CÁC VẤN ĐỀ VÀ KỸ THUẬT CƠ BẢN TRONG XỬ LÝ ẢNH... 12



2.1. Các vấn đề cơ bản trong xử lý ảnh...................................................... 12
2.2. Kĩ thuật mặt nạ cơ bản ........................................................................ 14
2.2.1. Khái niệm về mặt nạ ....................................................................... 14
2.2.2. Kỹ thuật nhân chập ......................................................................... 14
2.3. Các kỹ thuật lọc nhiễu......................................................................... 15
2.3.1. Khái quát về nhiễu ảnh ................................................................... 15
2.3.2. Các phương pháp lọc nhiễu cơ bản................................................. 17
2.4. Các kĩ thuật dò cạnh. ........................................................................... 18
2.4.1. Khái quát về dò cạnh....................................................................... 18
2.4.2. Các phương pháp dò cạnh ............................................................... 18
2.5. Các kĩ thuật dị góc ............................................................................. 23
2.5.1. Tổng quan về kĩ thuật dị góc.......................................................... 23
2.5.2. Các kĩ thuật dị góc thường được sử dụng. ..................................... 23
2.6. Kiến thức sử dụng trong luận văn……………………………......…..27
CHƯƠNG 3: HỆ STEREO CAMERA VÀ THUẬT TOÁN .............................. 28

3.1. Hệ camera thu nhận ảnh...................................................................... 28
3.2. Tổng quan về thuật toán đề xuất ......................................................... 28
3.4. Phân đoạn ảnh ..................................................................................... 30
3.4.1. Phương pháp phân tích màu sắc ..................................................... 30
3.4.2. Phương pháp phân đoạn ảnh dựa trên mặt phẳng kết tủa màu r-g . 32
i


3.5. Thuật tốn ước lượng vị trí tâm quả cà chua chín trên cây ................ 34
3.5.1. Gắn nhãn, lọc kích thước, xác định đường biên của các vùng
ứng viên............................................................................................34
3.5.2. Định vị vị trí quả cà chua chín sử dụng phương pháp biến đổi
Hough Circle ............................................................................................. 34

3.5.3. Định vị vị trí quả cà chua chín sử dụng phương pháp phân tích hình dáng... 35
3.6. Ước lượng khoảng cách từ hệ camera quan sát đến vị trí tâm quả cà
chua chín trên cây........................................................................................ 36
3.6.1. Hiệu chỉnh camera (camera calibration) ......................................... 36
3.6.2. Ước lượng khoảng cách từ hệ camera đến tâm quả cà chua chín
trên cây.............................................................................................38
CHƯƠNG 4: KẾT QUẢ VÀ THẢO LUẬN ......................................................... 42
4.1. Kết quả và thảo luận .............................................................................. 42
4.2. Hướng phát triển ................................................................................... 46
Tài liệu tham khảo .................................................................................................. 48
Phụ lục ...................................................................................................................... 49

ii


DANH SÁCH HÌNH ẢNH
Hình 1.1: Ngun tắc hoạt động của máy qt 3D sử dụng cơng nghệ Time-of-flight ..... 4
Hình 1.2: Nguyên lí của nguyên lí quét 3 điểm .......................................................... 5
Hình 1.3: Cấu trúc của hệ qt sử dụng cơng nghệ ánh sáng cấu trúc........................ 6
Hình 1.4: Mẫu ảnh khi chiếu lên vật thể 3D ............................................................... 7
Hình 1.5: Máy quét 3D sử dụng ánh sáng cấu trúc của hãng DAVID ........................ 7
Hình 1.6: Ngun lí hoạt động của máy qt sử dụng cơng nghệ stereoscopy .......... 8
Hình 1.7: Hình ảnh thực tế của hệ stereo vision ......................................................... 9
Hình 1.8: Ứng dụng của máy quét 3D ........................................................................ 9
Hình 2.1: Phương pháp dùng mặt nạ để tìm đường biên theo chiều dọc ................... 14
Hình 2.2: Nhiễu phụ thuộc vào dữ liệu ...................................................................... 15
Hình 2.3: Nhiễu Gaussian trước và sau khi xử lí ....................................................... 16
Hình 2.4: Nhiễu muối tiêu trước và sau khi xử lí....................................................... 16
Hình 2.5: Kết quả trích xuất cạnh sử dụng phương pháp dị cạnh Robert Cross ....... 19
Hình 2.6: Kết quả trích xuất cạnh sử dụng phương pháp dị cạnh Sobel ................... 20

Hình 2.7: Kết quả trích xuất cạnh sử dụng phương pháp dị cạnh Canny ................. 22
Hình 3.1: Sơ đồ q trình thực hiện thuật tốn đề xuất dựa trên [3].......................... 29
Hình 3.2: Sơ đồ quá trình thực hiện thuật tốn đề xuất dựa trên [3].......................... 30
Hình 3.3: Kết quả nhận diện quả cà chua ................................................................... 32
Hình 3.4: Sơ đồ nguyên lý được sử dụng để ước lượng khoảng cách từ hệ camera
đến vật thể ................................................................................................................... 37
Hình 3.5: Ảnh so sánh kế quả trước và sau khi hiệu chỉnh camera ........................... 38
Hình 4.1: Hình ảnh thực tế 2 quả cà chua thu được từ 2 camera ............................... 43
Hình 4.2: Ảnh chụp được chuyển sang miền ảnh xám .............................................. 43
Hình 4.3: Ảnh sau khi áp dụng lọc miền đỏ vàng ...................................................... 43
Hình 4.4: Tâm của quả cà chua và biên ..................................................................... 44

iii


DANH MỤC BẢNG
Bảng 1: Thống kê kết quả nhận dạng của ba phương pháp đối với từng tập dữ liệu ...... 41
Bảng 2. Ước lượng khoảng cách và xác định kích thước thực của vật cản (Kích
thước thực tế của vật cản 3.3cm .................................................................................. 42
Bảng 3. Ước lượng khoảng cách và xác định kích thước thực của vật cản (Kích
thước thực tế của vật cản 3.3cm)…………………………………………………..45
Bảng 4: So sánh kết quả thực nghiệm đo được trước và sau khi calibrate………..46

iv


LỜI NĨI ĐẦU
Hiện nay, cơng nghệ qt 3D đang nhận được nhiều sự quan tâm của các nhà
nghiên cứu và các cơng ty ứng dụng quy trình tạo mẫu ngược vào sản xuất. Các ứng
dụng của công nghệ quét 3D đang được ứng dụng trong nhiều lĩnh vực như quét

mẫu đúc, tạo hình cơ khí, phục hình nha khoa,v.v. Trong nơng nghiệp, tự động hóa
đang dần được áp dụng để thay thế vai trị của người nơng dân trong việc thu hoạch
nông sản. Phương pháp đo không tiếp xúc sử dụng cơng nghệ xử lí ảnh có thể xác
định được vị trí tương đối của nơng sản so với robot, giúp cho việc thu hoạch trở
nên dễ dàng hơn.
Trên cở sở đã được học trong mơn xử lí hình ảnh, tôi đã thiết kế một hệ
camera và xây dựng thuật tốn để xác định vị trí của vật thể đến hệ camera, đưa ra
được khoảng cách của vật đến hệ và kích thước vật thể, cụ thể là quả cà chua. Thiết
lập hệ đo lường 3D sử dụng 2 camera, hình ảnh thu về được xử lí bằng phần mềm
viết bằng ngôn ngữ C# để đưa ra kết quả. Thuật tốn địi hỏi sự chính xác và tính tin
cậy cao vì thế cần áp dụng nhuần nhuyễn những kiến thực đã được học về xử lí ảnh,
đồng thời tìm tịi sáng tạo để có những giải pháp tối ưu nhất.
Do kiến thức còn hạn hẹp và thời gian thực hiện khơng nhiều nên đề tài của
tơi cịn nhiều hạn chế. Mặc dù đã phần nào thiết kế và tính tốn chi tiết các mạch,
các thơng số nhưng đơi khi cịn mang tính lý thuyết, chưa thực tế. Tơi mong sự
đóng góp và sửa chữa để đề tài này mang tính khả thi hơn.
Tôi xin chân thành cảm ơn thầy Nguyễn Hữu Phát đã hướng dẫn chúng tơi
hồn thành luận văn này.

v


Lời cam đoan
Tôi xin cam đoan các kết quả nghiên cứu trong luận văn là của riêng tôi và chưa
được cơng bố trong bất kì cơng trình nghiên cứu nào.
Hà nội, ngày

tháng

năm


Học viên
(Ký ghi rõ họ tên)

vi


MỞ ĐẦU
1. Tính cấp thiết của đề tài
Xử lí ảnh là một ngành khoa học mới mẻ so với nhiều ngành khác nhưng tốc
độ phát triển của nó rất nhanh, khả năng ứng dụng vô cùng to lớn. Các ứng dụng nổi
bật của xử lí ảnh như nhận dạng vân tay, nhận dạng khuôn mặt, phục chế ảnh, dựng
ảnh 3D, giám sát thực thể đã đem lại nhiều lợi ích to lớn trong nhiều lĩnh vực khác
nhau từ giải trí, học tập, lao động, quân sự, v.v…
Trong một vài ứng dụng tự động hóa, việc sử dụng thước đo kích thước và
khoảng cách của vật thể là không khả thi do đặc điểm của mơi trường làm việc.
Thay vào đó, ta có thể ứng dụng cơng nghệ xử lí ảnh để phân tích và tính tốn đưa
ra giá trị khoảng cách và kích thước của vật thể. Thay vì phải dùng các phương
pháp đo đạc truyền thống, ta có thể ứng dụng cơng nghệ xử lí ảnh vào việc đo lường
khơng tiếp xúc.
Từ suy nghĩ đó, tơi quyết định nghiên cứu xây dựng một thuật tốn xử lí ảnh
mang tính thực tiễn cao. Thuật tốn này sử dụng hình ảnh thu được từ camera, phân
tích và tính tốn để có thể đưa ra giá trị khoảng cách và kích thước của vật thể có
thể được ứng dụng trong các mơi trường đặc biệt mà không thể áp dụng các phương
pháp đo lường có tiếp xúc truyền thống. Đó là lý do tôi chọn nghiên cứu và thực
hiện đề tài: “Nghiên cứu thuật toán ước lượng khoảng cách từ hệ camera đến vật
thể và xác định kích thước vật thể”, và đối tượng được sử dụng trong nghiên cứu để
xác định độ chính xác của thuật tốn là quả cà chua chín.
2. Mục tiêu nghiên cứu
Mục tiêu đề tài là nhằm đưa ra một thuật tốn để xác định vị trí tương đối và

kích thước của vật thể đến hệ camera. Thiết lập hệ đo lường 3D sử dụng 2 camera,
hình ảnh thu về được xử lí bằng phần mềm viết bằng ngơn ngữ C# để đưa ra kết
quả. Thuật tốn địi hỏi sự chính xác và tính tin cậy cao vì thế cần áp dụng nhuần
nhuyễn những kiến thực đã được học về xử lí ảnh, đồng thời tìm tịi sáng tạo để có
những giải pháp tối ưu nhất.
3. Đối tượng và phạm vi nghiên cứu
- Nghiên cứu lý thuyết về xử lí ảnh.
- Nghiên cứu kỹ thuật lập trình xử lí ảnh bằng thư viện EmguCV.

1


- Nghiên cứu kỹ thuật chuyển đổi giữa các hệ màu thông dụng.
- Nghiên cứu kỹ thuật lọc nhiễu và dị cạnh, dị góc.
- Đề tài thuộc hình thức nghiên cứu ứng dụng.
4. Phương pháp nghiên cứu
- Thu thập và phân tích các tài liệu và thơng tin liên quan đến đề tài
- Phân tích và lựa chọn hệ thống chương trình ứng dụng.
- Triển khai xây dựng chương trình ứng dụng.
- Kiểm tra, thử nghiệm và đánh giá kết quả.
5. Bố cục đề tài
Bố cục luận văn được kết cấu thành 4 chương:
Chương 1: Nguyên tắc hoạt động chung của các máy quét 3D
Chương 2: Các vấn đề và kỹ thuật cơ bản trong xử lí ảnh
Chương 3: Thiết kế hệ stereo vision và thuật toán
Chương 4: Kết quả thực nghiệm và thảo luận
Trong chương một, giới thiệu về nguyên tắc hoạt động chung của các thiết bị
đo 3D xử dụng cơng nghệ xử lí ảnh và đưa ra được cấu trúc của hệ thiết bị sẽ được
xử dụng. Trong chương hai, giới thiệu cơng nghệ xử lí ảnh trên máy tính và các kỹ
thuật cơ bản trong xử lí ảnh. Cịn trong chương 3, đây là chương trọng tâm nêu ra

giải pháp và quá trình xây dựng ứng dụng đo lường khoảng cách và kích thước của
vật thể sử dụng hệ camera dựa vào các lý thuyết đã nghiên cứu trong hai chương
đầu. Chương bốn sẽ đưa ra kết qua thực nghiệm thu được và kết luận.
6. Tổng quan tài liệu nghiên cứu
Tài liệu phục vụ cho việc nghiên cứu đề tài này bao gồm các tài liệu cơ bản
như “Xử lí ảnh” của Đại Học Bách Khoa Hà Nội cho đến tài liệu chuyên sâu hơn về
xử lý ảnh như “Xử lí ảnh số và video số” của tác giả Nguyễn Kim Sách hay cuốn
“Xử lý ảnh bằng máy tính” của tác giả Ngơ Diên Tập. Ngồi ra cịn có các tài liệu
tiếng Anh cung cấp rất nhiều kiến thức và ví dụ hữu ích cho quá trình thực hiện đề
tài của tơi nhứ “Fundamentals of computer vision” của tác giả Mubarak Shak hay
“Computer vision and image processing” của tác giả Umbaugh.

2


Chương 1
NGUYÊN TẮC HOẠT ĐỘNG CHUNG CỦA CÁC MÁY QUÉT 3D
Trong chương này, chúng ta sẽ giới thiệu và phân biệt các máy quét 3D dựa
trên các thành phần của hệ thống. Cùng với đó, chúng ta sẽ phân tích các ưu và
nhược điểm của từng hệ thống để tìm ra hệ đo lường phù hợp nhất với yêu cầu của
bài toán.
1.1. Định nghĩa và phân loại
1.1.1. Định nghĩa
Máy quét 3D là thiết bị dùng để phân tích vật thể hoặc mơi trường, có khả
năng thu thập dữ liệu về kích thước và màu sắc của mẫu vật. Dữ liệu thu được sẽ
được sử dụng để xây dựng mơ hình 3D. Hiện nay, công nghệ quét 3D được sử
dụng để tạo hình 3D của vật thể rất đa dạng, mỗi phương pháp có những ưu
nhược điểm riêng.
Dự liệu quét 3D thu được có rất nhiều ứng dụng thực tế. Những thiết bị này
được sử dụng rộng rãi trong các ngành sản xuất giải trí hoặc cơng nghiệp. Một vài

ứng dụng phổ biến của công nghệ này như: thiết kế công nghiệp, thiết kế ngược, sản
xuất mẫu, kiểm thử chi tiết công nghiệp và khảo cổ học.
1.1.2. Phân loại
Các công nghệ quét 3D được sử dụng tùy vào từng hình dáng của mẫu vật
cần quét, môi trường hoạt động chất lượng mẫu 3D. Ta có thể chia cơng nghệ qt
thành hai loại lớn là không tiếp xúc chủ động và không tiếp xúc bị động. Thiết bị đo
chủ động sẽ phát ra sóng siêu âm hoặc ánh sáng và xác định sự phản xạ hoặc khả
năng đi xuyên của sóng để có thể xác định vật thể trong mơi trường, trong khí đo,
thiết bị đo bị động phân tích tín hiệu phản xạ từ vật thể và cụ thể là ánh sáng.
Phương pháp đo bị động thường có giá thành rẻ vì khơng có u cầu phức tạp về
phần cứng.
- Máy quét 3D sử dụng công nghệ Time-of-flight sử dụng tia laze để xác
định vật thể. Thiết bị bao gồm một đầu dị laze sử dụng cơng nghệ time-of-flight.
Đầu dị này đo khoảng cách từ thiết bị đến điểm cần do dựa trên độ lệch pha của
ánh sáng. Dựa vào độ lệch pha của 2 tia phát ra và tia phản xạ, khoảng cách có thể

3


được xác định bằng một nửa tích thời gian phát-nhận tín hiệu và vận tốc ánh sáng.
Độ chính xác của máy quét laze phụ thuộc vào việc ta đo chính xác giá trị khoảng
thời gian từ lúc phát đến lúc thu lại được tia phản xạ.
Vùng đo được chỉ là một điểm do đó máy quét cần đổi hướng quét để có thể
thu được tồn bộ kích thước của vùng cần đo bằng cách quay đầu đo laze hoặc sử
dụng gương. Máy qt 3D sử dụng cơng nghệ laze có thể đo được khoảng
10000~100000 điểm trong 1 giây.

Hình 1.1: Nguyên tắc hoạt động của máy quét 3D
sử dụng công nghệ Time-of-flight [1]
Máy quét laze dựa trên nguyên lí tam giác sử dụng nguồn sáng laze để đo.

Dựa vào vị trí của điểm ảnh được chiếu sáng bởi nguồn sáng laze trên màn
ảnh của camera, ta có thể xác định được khoảng cách từ nguồn sáng laze đến
điểm cần đo. Kĩ thuật này được gọi là kĩ thuật tam giác bởi vì điểm được
chiếu sáng, tâm của camera và nguồn sáng laze tạo thành một tam giác. Tam
giác này biết chiều dài một cạnh được tạo bởi tâm của camera và nguồn sáng
laze, góc tới của tia laze đã biết, góc tới của tia phản xạ được xác định dựa

4


trên vị trí của điểm ảnh trên màn ảnh. Dựa vào 3 thơng số đó ta có thể xác
định hình dạng và kích thước của tam giác và xác định vị trí của điểm chiếu
sáng. Trên thực tế, một chùm laze sẽ được sử dụng thay thế cho một nguồn
sáng laze duy nhất để tăng tốc độ quét.

Hình 1.2: Nguyên lí của nguyên lí quét 3 điểm
Đo khoảng cách sử dụng cơng nghệ Time-of-flight có điểm mạnh và điểm
yếu riêng phù hợp với từng nhu cầu thực tế. Điểm mạnh của cơng nghệ Time-offlight là nó có thể đo được khoảng cách lớn, đến hàng kilomet. Những công nghệ
này phù hợp cho việc quét những cấu trúc lớn như tòa nhà, ngoại cảnh… Độ chính
xác khơng cao là điểm yếu của hai công nghệ này do tốc độ ánh sáng lớn, đo thời
gian giữa 2 thời điểm phát tia và nhận lại tia phản xạ khó. Độ chính xác của hai
phương pháp này ở cỡ milimet. Đo khoảng cách sử dụng công nghệ ba điểm chỉ đo
được khoảng cách cỡ vài mét nhưng độ chính xác cao, rơi vào khoảng một phần
mười micro mét.

5


Cơng nghệ time-of-flight có thể bị mất tín hiệu khi tia laze gặp cạnh của vật
thể bởi vì tia phản xa lại mang thơng tin của vị trí khác nhau. Khoảng cách từ vật

đến máy quét sẽ bằng trung bình cộng khoảng cách giữa 2 điểm. Nhiễu sinh ra có
thể được loại bỏ bằng phần mềm – chọn điểm đầu tiên và loại bỏ điểm thứ hai.
Khi lấy mẫu với tốc độ 10000 mẫu/giây thì thời gian xử lí khoảng 1 giây,
nhưng khi độ phức tạp cao hơn ở mức một triệu điểm, thời gian xử lí khoảng lên tới
vài phút.
Máy quét sử dụng ánh sáng cấu trúc chiếu sử dụng một ảnh cấu trúc chiếu lên vật
thể bằng một máy chiếu và dùng camera được đặt lệch so với nó để thu lại hình ảnh
và xác định sự biến dạng của hình ảnh thu được so với ảnh gốc, tính tốn khoảng
cách của từng điểm ảnh trong vùng thu được để đưa ra mơ hình 3D.

Hình 1.3: Cấu trúc của hệ quét sử dụng công nghệ ánh sáng cấu trúc [2]

6


Hình 1.4: Mẫu ảnh khi chiếu lên vật thể 3D [3]

Hình 1.5: Máy quét 3D sử dụng ánh sáng cấu trúc của hãng DAVID [4]
Ưu điểm của kĩ thuật quét sử dụng ánh sáng cấu trúc là tốc độ và độ chính
xác. Thay vì phải qt từng điểm ảnh trong một lần quét, máy quét sử dụng ánh
sáng cấu trúc quét đa điểm hoặc toàn bộ vật thể, điều này làm giảm nhiễu sinh ra từ
sự dịch chuyển vị trí của máy quét với vật thể. Một vài hệ thống có khả năng quét
vật thể chuyển động thời gian thực. VisionMaster là một ví dụ, nó sử dụng camera
5-megapixel có khả năng đưa ra 5 triệu điểm ảnh trong một lần quét.

7


Máy quét thời gian thực sử dụng công nghệ chiếu vân sáng kĩ thuật số hoặc
độ lệch pha (một phương pháp khác của phương pháp ánh sáng cấu trúc) đã được

phát triển, để chụp, tái xây dựng và đưa ra vật thể ở tốc độ 40 hình/giây. Gần đây,
một loại máy quét khác được phát triển dựa trên ứng dụng nhiều mẫu ảnh chiếu
khác nhau, tốc độ chụp và xử lí dữ liệu ở mức 120 hình/giây. Nó có thể sử dụng để
quét hai mặt phẳng khác nhau, chẳng hạn như 2 bàn tay đang chuyển động. Bằng
cách sử dụng kĩ thuật hội tụ ngược nhị phân, tốc độ xử lí có thể đạt đến hàng nghìn
hình/giây.
Giải pháp qt 3D dựa vào việc tia phản xạ của bức xạ từ vật. Hầu hết các
giải pháp loại này sử dụng ánh sáng nhìn thấy, tuy nhiên, ánh sáng hồng ngoại cũng
có thể được sử dụng. Cơng nghệ qt bị động có giá thành rẻ do không yêu cầu
phần cứng phức tạp, thành phần cơ bản cần có là một camera kĩ thuật số.
Stereoscopy là một trong những hệ đó.
Stereoscopy là có thể đo được độ sâu của anh dựa trên 2 ảnh 2D. Hệ
stereoscopy hoạt động tương tự như mắt người, mỗi camera đóng vai trị như một bên
mắt. Hình ảnh thu được từ mỗi camera là riêng biệt, khi hai hình ảnh này được xử lí có
khả năng đưa ra khoảng cách từ hệ stereo vision đến vật và kích thước của vật.

Hình 1.6: Ngun lí hoạt động của máy quét sử dụng công nghệ stereoscopy [5]

8


Hình 1.7: Hình ảnh thực tế của hệ stereo vision [5]

1.2. Ứng dụng của các máy quét 3D

Hình 1.8: Ứng dụng của máy quét 3D
Máy quét 3D đang trở nên phổ biến trong nhiều lĩnh vực từ dân sự đến quân
sự, công nghiệp, nông nghiệp, xây dựng… Trong xây dựng, máy qt 3D được
dùng để dựng mơ hình 3D của các kiến trúc trên máy tính. Tự động hóa cũng làm
cho nhu cầu của máy quét 3D trở nên phổ biến trong việc đo kích thước của sản


9


phẩm, xác định sai số trong q trình gia cơng. Máy quét 3D cũng được dùng trong
quân sự nhằm mục đích do thám…
Bên cạnh đó, sự phát triển của cơng nghệ tạo mẫu ngược cũng làm cho nhu cầu
sử dụng máy quét 3D tăng lên. Máy quét 3D được dùng để quét mẫu vật tiền xử lí, kết
quả thu được là đám mây điểm sẽ được xử lí trên phần mềm để đưa ra mơ hình 3D của
vật thể trên máy tính. Mơ hình này sẽ được dùng trong quy trình gia cơng vật thể.
Cùng với đó, trong lĩnh vực nông nghiệp công nghệ cao, máy quét 3D cũng
được dùng để xác định quả chín trong q trình thu hoạch tự động sử dụng cánh tay
robot. Máy quét 3D được sử dụng để xác định vùng chứa quả chín và vị trí tương
đối của quả chín trong hệ tọa độ chứa cánh tay robot dùng để thu hoạch.
1.3. Đặt vấn đề
Ngày nay, robot đang dần thay thế vai trò của con người trong các hoạt động
thường ngày. Việc tự động hóa qui trình sản xuất nhằm giải phóng sức lao động của
con người trong các môi trường nguy hiểm, độc hại, đặc biệt là trong lĩnh vực nông
nghiệp. Ở Việt Nam, lĩnh vực nông nghiệp vẫn chủ yếu sử dụng nguồn lao động giá
rẻ, trình độ thấp, chưa có sự tham gia của máy nông nghiệp công nghệ cao. Với
công việc thu hoạch quả chín, người lao động phải làm việc ở độ cao tương đối lớn,
việc này tiềm ẩn nhiều nguy hiểm. Để thay thế con người trong công việc này, ta có
thể ứng dụng cơng nghệ xử lí hình ảnh để định vị vị trí quả chín và sử dụng cánh tay
robot thay cho con người. Hệ xử lí hình ảnh bao gồm 2 camera được dùng để xác
định vị trí tương đối của quả so với cánh tay robot, đưa ra vị trí tương đối để robot
có thể thu hái quả chín.
Mục tiêu của luận văn này là nghiên cứu thuật toán xác định vùng chứa quả chín
trong ảnh thu được từ 2 camera, dùng kết quả thu được để đưa ra vị trí tương đối của quả
so với cánh tay robot. Do kích cỡ của quả chín là tương đối lớn, độ chính xác khơng cần
q cao, nên không cần thuật giải quá phức tạp, thiết bị q chính xác với giá thành cao.

Ta có thể sử dụng 2 webcam giá rẻ được bán phổ biến ngồi thị trường để thay thế cho
camera cơng nghiệp đắt tiền thường được sử dụng trong lĩnh vực công nghiệp.
Bên cạnh đó, mơi trường làm việc của hệ đo lường khá phức tạp, dễ xảy ra
va chạm giữa hệ camera và cành cây, 2 camera cần được đặt trong hộp cứng, cố
định vị trí nhằm tránh sự dịch chuyển tương đối của 2 camera.

10


1.4. Cấu trúc của hệ thống
Trong luận văn này, tôi sẽ sử dụng quả cà chua chín làm vật cần được sử
lí. Nhằm mục đích thu nhận hình ảnh quả cà chua chín, đưa về máy tính xử lí để
nhận dạng, định vị, ước lượng vị trí tâm cũng như khoảng cách từ tâm quả cà
chua chín được phát hiện trên cây đến hệ thống stereo vision, ta sẽ thiết kế hệ
thống theo hình 1.6.
Trong hệ thống này, chúng tơi thiết kế một giá đỡ cơ khí để hỗ trợ việc nâng
đỡ hệ camera và laptop, phần thứ nhất là một giá đỡ có khả năng tăng giảm độ cao
trong khoảng 50÷150cm và có thể xoay 0360o mơ phỏng giống như cách cánh tay
robot có thể chuyển đổi vị trí trong không gian với hai camera quan sát để xác định
vị tri quả cà chua cần hái trên cây. Phần thứ hai của hệ thống là hệ camera gồm hai
camera Logitech HD Pro C270 độ phân giải 5-Megapixel, mỗi camera có khả năng
xử lí và xác định hình ảnh với khoảng cách gần nhất từ hệ camera đến vật cần đo là
10cm. Cuối cùng là một laptop có cấu hình tương đối mạnh để xử lí hình ảnh một
cách nhanh chóng.

11


Chương 2
CÁC VẤN ĐỀ VÀ KỸ THUẬT CƠ BẢN TRONG XỬ LÝ ẢNH


Trong chương này, chúng ta sẽ đề cập đến các khái niệm cơ bản trong kĩ
thuật cơ bản trong xử lí ảnh và ứng dụng của nó trong thực tế.
2.1. Các vấn đề cơ bản trong xử lý ảnh
Trên máy tính đối với ảnh màu người ta sử dụng kỹ thuật pha trộn màu để
tạo nên hình ảnh hiển thị với nhiều màu sắc khác nhau.
Chúng ta có các hệ màu phổ biến sau:
- Hệ màu RGB: mô hình màu RGB sử dụng mơ hình bổ sung, trong đó ánh
sáng đỏ, xanh lá cây và xanh lam được tổ hợp với nhau theo nhiều phương thức
khác nhau để tạo thành các màu khác nhau. Viết tắt RGB trong tiếng Anh là: R (red
– màu đỏ), G (green – màu xanh lá cây), B (Blue – màu xanh lam).
Cũng lưu ý rằng mơ hình màu RGB tự bản thân nó khơng định nghĩa thế nào
là “đỏ”, “xanh lá cây” và “xanh lam” một cách chính xác, vì thế với cùng các giá trị
như nhau của RGB có thể mơ tả các màu tương đối khác nhau trên các thiết bị khác
nhau có cùng một mơ hình màu. Trong khi chúng cùng chia sẻ một mơ hình màu
chung, khơng gian màu thực sự của chúng dao động một cách đáng kể.
Một trong những ứng dụng phổ biến nhất của mô hình màu RGB là việc hiển
thị màu sắc trong các ống tia âm cực, màn hình tinh thể lỏng hay màn hình plasma,
chẳng hạn như màn hình máy tính hay ti vi. Mỗi điểm ảnh trên màn hình có thể
được thể hiện trong bộ nhớ máy tính như các giá trị độc lập của màu đỏ, xanh lá cây
và xanh làm. Các giá trị này được chuyển đổi thành các cường độ và gửi tới màn
hình. Bằng việc sử dụng các tổ hợp thích hợp của các cường độ ánh sáng đỏ, xanh
lá cây và xanh lam, màn hình có thể tái tạo phần lớn các màu trong khoảng đen và
trắng. Các phần cứng hiển thị điển hình được sử dụng cho các màn hình máy tính
trong năm 2003 sử dụng tổng cộng 24 bit thông tin cho mỗi điểm ảnh (trong tiếng
Anh thông thường được biết đến như bits per pixel hay bpp). Nó tương ứng với mỗi
8 bit cho màu đỏ, xanh là cây và xanh lam, tạo thành một tổ hợp 256 các giá trị có
thể, hay 256 mức cường độ cho mỗi màu. Với hệ thống như thế, khoảng 16,7 triệu
màu rời rạc có thể tái tạo.


12


Biểu thị màu RGB trên máy tính: trong phần dữ liệu của một ảnh thô được
biểu diễn như sau: R|G|B|R|G|B|R|G|B|R|G|B|…với:
R: 8 bit lưu giá trị của màu đỏ
G: 8 bit lưu giá trị của màu xanh lục
B: 8 bit lưu giá trị của màu xanh lam
Cứ mỗi nhóm giá trị R, G, B trong dữ liệu của hình ảnh sẽ được phần cứng
máy tính xử lý và đưa ra một pixel được biểu diễn trên màn hình.
Do đó, một hình ảnh theo chế độ màu RGB là một hình ảnh được tổ hợp bởi
3 hình ảnh Red, Green và Blue.
Hệ màu HSB: khơng gian màu HSB cịn gọi là khơng gian màu HSV, là một
không gian màu dựa trên ba thơng số:
H: (Hue) vùng màu
S: (Saturation) Độ bão hịa màu
B hay V: (Bright hay Value) Độ sáng
Như đã đề cập ở trên, từ 3 màu chính đỏ (red), xanh lá cây (green) và xanh
lam (blue), pha trộn lại ta sẽ có được các màu sắc khác nhau. Cịn trong hệ màu
HSV, sự trộn màu được biểu diễn khác trong RGB. Biểu diễn như sau:
Bố trí vị trí của 3 màu Red, Green, Blue trên một vòng tròn
Kết hợp 2 màu:
Đỏ và xanh lá cây ta được vàng
Xanh lá cây và xanh dương ta được màu lục làm. Xanh dương và đỏ
ta được màu hồng.
Tiếp tục: trộn hai màu đỏ và vàng ta được màu cam
Cứ tiếp tục trộn ta sẽ được một vòng tròn màu liên tục thay đổi theo 360
độ.
Đó chính là cách biểu diễn của một chiều của hệ màu HSB. Ta cũng nhận thấy
rằng màu sắc cũng thay đổi theo hai chiều khác nữa. Một trong đó là độ sáng – tối. Một

màu sáng hoặc tối như nào phụ thuộc vào độ sáng của màu, ký hiệu là B (hay đôi khi là
Value – ký hiệu là V). Phạm vi của độ sáng là từ 0 đến 100%. Khi giá trị là 0 thì vùng
màu sẽ đen hoàn toàn. Khi giá trị tăng độ sáng sẽ tăng, kết hợp với HUE và S sẽ đưa ra
các màu khác nhau. Khi tăng đến 100% thì màu sẽ trắng hoàn toàn.

13


Và chiều cuối cùng đó là độ bão hịa, biểu thị độ xám trong không gian màu.
Phạm vi của độ bão hịa là từ 0 đến 100%. Cạnh ngồi cùng của vòng màu HUE là các
màu gốc. Khi di chuyển vào trung tâm của vịng màu thì màu gốc sẽ bị mờ dần và đến
trung tâm của vịng màu thì màu HUE sẽ bị mất hoàn toàn, trở thành màu trắng.
Ngồi ra chúng ta cịn có mơ hình màu đơn giản nhất là Grayscale là cấp độ
xám biến thiên từ màu đen đến trắng. Độ xám lớn nhất là màu đen, hấp thu toàn bộ
ánh sáng. Độ xám nhỏ nhất là màu trắng, phản xạ hoàn toàn ánh sáng chiếu tới.
những khoảng màu ở giữa được biểu diễn bằng độ chói (brightness) của ba màu
chính (red, green, blue). Lợi điểm của loại mơ hình này là có thể sử dụng cả trong
công nghiệp in ấn lẫn dùng trong việc thể hiện ảnh lên các thiết bị xuất số.
2.2. Kĩ thuật mặt nạ cơ bản
2.2.1. Khái niệm về mặt nạ
Mặt nạ trong xử lí ảnh thường được gọi là mặt nạ Kernel hay Kernel. Một
Kernel thường là những ma trận nhỏ như 3x3, 2x3, 5x5, v.v… được dùng trong các
phép xử lí ảnh như: lọc nhiễu, dị cạnh.
Kích thước Kernel phải nhỏ hơn kích thước của ma trận ảnh. Các Kernel
được sử dụng bằng cách nhân chập các giá trị của nó với một vùng pixel (điểm ảnh)
tương ứng trên ảnh.
2.2.2. Kỹ thuật nhân chập
Dùng mặt nạ là ma trận 3x3 để tính tốn. Tổng các 9 điểm ảnh nhân với hệ
số tương ứng sẽ là giá trị của điểm ảnh trung tâm.


Hình 2.1: Phương pháp dùng mặt nạ để tìm đường biên theo chiều dọc [1]

14


2.3. Các kỹ thuật lọc nhiễu
2.3.1. Khái quát về nhiễu ảnh
Trên mỗi pixel trên cảm biến của máy quay (camera hay webcam) có chứa
một hay nhiều diode dị sáng để chuyển ánh sáng chiếu tới thành tín hiệu điện, rồi
xử lí thành những giá trị màu của những pixel tạo nên ảnh sau cùng. Nếu trên cùng
một pixel không được chiếu sáng cùng một lượng ánh sáng trong khoảng thời gian
thu ảnh thì giá trị màu trên pixel đó sẽ khơng được tương ứng với thực tế. theo
thống kế thì số lượng pixel như vậy là rất ít, và nó được gọi là nhiễu (noise).
Phân loại nhiễu :
- Nhiễu độc lập với dữ liệu ảnh (independent noise)
Là một loại nhiễu cộng : ảnh thu được là tổng của ảnh đúng (true image) và nhiễu.
Thơng tin ảnh có tần số thấp, còn nhiễu ảnh hưởng đến tần số cao và ảnh
hưởng này có thể được giảm đi khi sử dụng bộ lọc thông thấp
Lọc nhiễu bằng bộ lọc tần số hay bộ lọc không gian.
- Nhiễu phụ thuộc vào dữ liệu (data dependent noise) :
Nhiễu này xuất hiện khi có sự bức xạ đơn sắc nằm rải rác trên bề mặt ảnh, độ
lớn chởm trên bề mặt phụ thuộc vào bước sóng của ảnh.
Do có sự giao thoa giữa các sóng ảnh nên làm xuất hiện những vết lốm đốm
trên ảnh.

Hình 2.2: Nhiễu phụ thuộc vào dữ liệu [1]

15



- Nhiễu Gaussian :
Nhiễu này có được do bản chất rời rạc của bức xạ (hệ thống ghi rửa ảnh bằng
cách đếm các photon lượng tử ánh sáng).
Là nhiễu cộng và độc lập
Mỗi pixel trong ảnh nhiễu là tổng giá trị pixel thật và pixel ngẫu nhiên.

Hình 2.3: Nhiễu Gaussian trước và sau khi xử lí [1]
- Nhiễu muối – tiêu (salt and pepper noise):
Nhiễu này sinh ra do xảy ra sai số trong quá trình truyền dữ liệu.
Những pixel đơn được gán luân phiên mang giá trị 0 hay giá trị cao nhất
(maximum) tạo ra hình muối tiêu trên ảnh.

Hình 2.4: Nhiễu muối tiêu trước và sau khi xử lí [1]

16


2.3.2. Các phương pháp lọc nhiễu cơ bản
Cách thức chung là biến đổi các giá trị của mỗi pixel dựa vào tính tốn trên
các giá trị của các pixel lân cận.
Các pixel lân cận được xác định bởi một Kernel và giá trị được tính đặt ở
trung tâm của cửa sổ. Cách thức xử lí là dùng các cửa sổ Kernel nhân chập lần lượt
qua các pixel trong ảnh từ trái qua phải, từ trên xuống dưới.
- Phương pháp lọc nhiễu trung bình (mean filter):
Lọc Mean là phương pháp lọc nhiễu tuyến tính bằng cách thay thế giá trị trung
tâm trong Kernel bằng giá trị trung bình của tất cả các pixel nằm trong cửa sổ đó.
Ưu điểm:
Đơn giản trong tính tốn
Ảnh đạt độ trơn mịn
Khuyết điểm:

Khơng hồn tồn loại bỏ được nhiễu, các pixel đơn lẻ (nhiễu sẽ ảnh hướng
đến giá trị trung bình của các pixel lân cận.
Độ sắc nét của ảnh kém
Độ tương phản thấp
- Phương pháp lọc trung vị (median filter)
Lọc Median là phương pháp lọc khơng tuyến tính bằng cách thay thế giá trị
trung tâm trong cửa sổ bằng giá trị có cấp bậc ở giữa của tất cả các pixel nằm trong
cửa sổ đó.
- Phương pháp lọc Gaussian(Gaussian smoothing)
Lọc Gaussian được dùng để làm trơn hình ảnh, loại bỏ một số các chi tiết và
nhiễu. Nó được dùng tương tự như lọc Mean nhưng sử dụng Kernel khác với những
tính chất đặc biệt. Ý tưởng lọc Gaussian dùng phân bố 2 chiều này. Điều này được
thực hiện bởi sự nhân chập. Bởi vì hình ảnh được lưu trữ là tập hợp các pixel riêng
biệt, do đó cần tạo ra một sự xấp riêng biệt với hàm Gaussian trước khi có thể thực
hiện nhân chập. Theo lý thuyết, phân bố Gaussian khác 0 ở mọi điểm, điều này yêu
cầu một Kernel lớn vô hạn, nhưng trên thực tế việc thực hiện có hiệu quả với Kernel
độ lệch là 3 từ vị trí trung bình.

17


2.4. Các kĩ thuật dò cạnh.
2.4.1. Khái quát về dò cạnh
Các cạnh là những vùng ảnh mà có độ tương phản cao. Vì thế các cạnh
thường xuyên xuất hiện tại những vị trí được thấy như là những đường bao quanh
vật trên hình ảnh, xác định cạnh thường được dùng phổ biến trên những hình ảnh có
nhiều vật thể khác nhau khi ta muốn chia hình ảnh thành những vùng khác nhau có
chứa vật thể. Biểu diễn một hình ảnh bằng các cạnh thì có nhiều thuận lợi hơn là
làm giảm được dữ liệu ảnh trong khi vẫn đảm bảo giữ được những thông tin về vật
thể trên ảnh.

Các cạnh chủ yếu có tần số cao nên theo lý thuyết, dò cạnh sử dụng lọc
tần số cao bằng phương pháp Fourier hay bằng cách nhân chập hình ảnh với
những Kernel thích hợp trong miền khơng gian Fourier. Trên thực tế, dị cạnh
được thực hiện trong miền khơng gian vì thực hiện dễ dàng hơn và thường cho ra
kết quả tốt hơn.
Cách xác định cạnh: vì các cạnh tương ứng với sự chiếu sáng mạnh, chúng ta
có thể làm nổi bật lên bằng cách tính tốn đạo hàm của hình ảnh.
Chúng ta có thể thấy rằng vị trí của cạnh có thể được ước lượng với giá trị
lớn nhật của đạo hàm bậc nhất hay với điểm uốn của đạo hàm bậc 2. Vì thế chúng ta
muốn tìm một kĩ thuật để tính tốn đạo hàm của một hình ảnh 2 chiều.
Những Kernel dùng cho việc xác định cạnh được tính dựa theo cơng thức
trên cho phép chúng ta tính tians đạo hàm bậc một và bậc hai của một hình ảnh 2
chiều. Có 2 tiến trình chung tính đạo hàm bậc một trong một hình ảnh hai chiều, dị
cạnh Pretwitt compass và dò cạnh gradient.
2.4.2. Các phương pháp dò cạnh
a. Phương pháp Robert Cross
Theo Roberts, để xác định cạnh ta cần dựa vào các tính chất sau: cạnh được
tạo ra cần được xác định rõ, nền của ảnh có ít nhiễu và cường độ của cạnh được xác
định bằng mắt thường. Với những đặc tính đó, Roberts đưa ra phương trình sau:
𝑦𝑖,𝑗 = √𝑥𝑖,𝑗 (2.1)
2

2

𝑧𝑖,𝑗 = √(𝑦𝑖,𝑗 − 𝑦𝑖+1,𝑗+1 ) + (𝑦𝑖+1,𝑗 − 𝑦𝑖,𝑗+1 ) (2.2)

18



×