Tải bản đầy đủ (.pdf) (121 trang)

Nhận dạng sản phẩm 3d dùng xử lý ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.26 MB, 121 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

HUỲNH VĂN MINH

NHẬN DẠNG SẢN PHẨM 3D
DÙNG XỬ LÝ ẢNH

CHUYÊN NGÀNH: TỰ ĐỘNG HÓA
MÃ SỐ NGÀNH: 2.05.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH – 11/2008


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: TS. HỒNG MINH TRÍ

Cán bộ chấm nhận xét 1: PGS.TS. NGUYỄN VĂN NHỜ

Cán bộ chấm nhận xét 2: TS. TRƯƠNG ĐÌNH CHÂU

LUẬN VĂN THẠC SĨ ĐƯỢC BẢO VỆ TẠI
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HỒ CHÍ MINH
Ngày 26 tháng 12 năm 2008


-1-


TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

PHÒNG ĐÀO TẠO SAU ĐẠI HỌC

ĐỘC LẬP – TỰ DO – HẠNH PHÚC

TP. HCM, ngày 28 tháng 11 năm 2008

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: HUỲNH VĂN MINH

Phái: Nam

Ngày tháng năm sinh: 02-04-1976

Nơi sinh: TP. HCM

Chuyên ngành: TỰ ĐỘNG HÓA

MSHV: 01506360

I. TÊN ĐỀ TÀI:

NHẬN DẠNG SẢN PHẨM 3D
DÙNG XỬ LÝ ẢNH

II. NHIỆM VỤ VÀ NỘI DUNG:
™ Nhận dạng sản phẩm 3D qua ảnh
™ Thể hiện tọa độ 3D và hình ảnh chênh lệch độ sâu 3D của vật thể
™ Thực nghiệm hệ 2 camera chụp ảnh stereo, máy tính lập trình Matlab xử
lý ảnh để nhận dạng sản phẩm cơ khí 3D
III. NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương): 24-01-2008
IV. NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận văn): 26-12-2008
V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: TS. HỒNG MINH TRÍ
VI. HỌ VÀ TÊN CÁN BỘ NHẬN XÉT 1: PGS.TS. NGUYỄN VĂN NHỜ
VI. HỌ VÀ TÊN CÁN BỘ NHẬN XÉT 2: TS. TRƯƠNG ĐÌNH CHÂU
CÁN BỘ HƯỚNG DẪN

TS. HỒNG MINH TRÍ

CÁN BỘ NHẬN XÉT 1

CÁN BỘ NHẬN XÉT 2

PGS.TS. NGUYỄN VĂN NHỜ TS. TRƯƠNG ĐÌNH CHÂU

-2-


LỜI CẢM ƠN
Tác giả xin chân thành cảm ơn Thầy TS. Hồng Minh Trí đã hướng dẫn tác
giả tận tình trong việc định hướng tìm cách lựa chọn đề tài sao cho thích hợp với
khả năng mình và thực trạng của sự phát triển khoa học kỹ thuật. Thầy đã có những
định hướng và nhận xét thiết thực trong quá trình thực hiện luận văn.
Chân thành cảm ơn tất cả các Thầy, Cô ở Bộ môn Tự động, cũng như Bộ
mơn Điện tử đã nhiệt tình giảng dạy các mơn học trong ba học kỳ vừa qua, mà kết

quả ấy đã trang bị một nền tảng cơ sở lý thuyết về Điều khiển Tự động và Xử lý ảnh,
để hôm nay tác giả mạnh dạng, tự tin xin vận dụng những kiến thức đã học cộng với
việc nghiên cứu thêm tài liệu trên mạng để đưa ra đề tài nghiên cứu này.
Cũng xin thành thật cảm ơn bạn bè cùng lớp, anh chị ở các khóa trước, các
nhà khoa học trong và ngoài nước, thư viện trường Đại học Bách Khoa đã chia sẻ
những ý kiến và tài liệu tham khảo quí báu liên quan đến đề tài.
Cuối cùng là sự cảm ơn mà khơng có gì đền đáp nỗi là tình cảm gia đình đã
ni dưỡng, hun đúc và động viên tác giả trong thời gian thực hiện luận văn.
TP. HCM, tháng 11-2008
Tác giả

Huỳnh Văn Minh
E-mail:

-3-


TĨM TẮT
Nhận dạng ảnh 2D sẽ khơng nhận ra chiều sâu của vật thể, nhận dạng 3D sẽ giải
quyết được điều này, thơng qua nó chúng ta sẽ biết được tọa độ và cấu trúc 3D của
vật thể trong không gian Euclid.
Hệ thống thị giác nổi được xây dựng dựa vào hai CCD camera đặt song song tựa
như mắt người cùng quan sát các sản phẩm 3D rồi chụp ảnh tạo ra những cặp ảnh
nổi từ camera trái và camera phải để từ đó vận dụng các cơng cụ xừ lý ảnh để tính
tọa độ 3D của những điểm tương đồng, biểu diễn thành ảnh 3D làm nổi lên chiều
sâu của sản phẩm.
Một kỹ thuật làm phù hợp nổi [26] được vận dụng để tìm tất cả những điểm
tương đồng dựa vào phương pháp quét cửa sổ trên những đường epipolar song song
trên cả hai ảnh trái và ảnh phải, sau đó được đánh giá bởi chỉ tiêu SAD và GRAD
để tìm ra lượng pixel tương đồng lớn nhất. Sự phân đoạn ảnh nhằm tìm ra tập hợp

nhãn biểu thị cường độ sáng màu sắc [30]. Kết quả cuối cùng là một ảnh nổi thể
hiện sự chênh lệch độ sâu thơng qua độ sáng màu sắc được hình thành.
Luận văn mang tính thực tiễn cao, có thể được áp dụng để chế tạo ra máy đo kích
thước 3D và thiết bị giám sát sản phẩm phối hợp với tay máy để gấp sản phẩm ra
khỏi băng chuyền sản xuất.

Từ khóa: stereo vision, camera calibration, 3D measurement, Epipolar
constraints, stereo camera, 3D object recognition, 3D reconstruction, 3D geometry,
image processing, stereo matching

-4-


Abstract
2D recognition will not recognize the depth of object when observing, 3D
recognition will solve this problem, through that we will know 3D co-ordinate and
3D structure of object in Euclidean space.
Stereo vision system is configured by two CCD cameras putting parallel like
human vision, observing together 3D products and capture pictures as stereo images
from left and right camera, then applying toolbox image processing in order to
calculate 3D co-ordinate of correspondence points, constructing 3D map that
present the depth of products.
The stereo matching technique [26] is in use to find all correspondent points via
window-based method scanning on parallel epipolar lines on both left and right
image, after that will be evaluated by cost SAD and GRAD to find out best
correspondent pixel number. Segment image method is used to find out label set
presenting color intensity [30]. The result image will show disparity intensity map
that present the depth of object by color intensity.
This thesis is reality, can be manufactured 3D measurement machine and product
observing device controling robot arm to manipulate products out of the production

conveyer.
Key words: stereo vision, camera calibration, 3D measurement, Epipolar
constraints, stereo camera, 3D object recognition, 3D reconstruction, 3D geometry,
image processing, stereo matching

-5-


MỤC LỤC
NHIỆM VỤ LUẬN VĂN THẠC SĨ .....................................................................................2
LỜI CẢM ƠN........................................................................................................................3
TÓM TẮT..............................................................................................................................4
Abstract..................................................................................................................................5
MỤC LỤC .............................................................................................................................6
CHƯƠNG 1: GIỚI THIỆU..................................................................................................8
I. MỞ ĐẦU:.......................................................................................................................9
1) Động cơ nghiên cứu: .................................................................................................9
2) Đối tượng và phạm vi nghiên cứu: ............................................................................9
3) Ý nghĩa nghiên cứu: ................................................................................................10
II. TĨM TẮT CÁC CƠNG TRÌNH NGHIÊN CỨU THỊ GIÁC NỔI 3D:.....................11
III. SƠ LƯỢC NỘI DUNG LUẬN VĂN:....................................................................... 13
CHƯƠNG 2: XỬ LÝ ẢNH CƠ BẢN ...............................................................................14
I. ẢNH SỐ: ......................................................................................................................15
1) Định nghĩa ảnh số:...................................................................................................15
2) Ảnh xám: .................................................................................................................15
3) Ảnh nhị phân: ..........................................................................................................15
4) Ảnh màu: .................................................................................................................15
5) Thu nhận ảnh: ..........................................................................................................16
6) Nhiễu: ......................................................................................................................16
II. XỬ LÝ ẢNH:.............................................................................................................. 18

1) Lược đồ ảnh:............................................................................................................18
2) Cân bằng histogram ảnh: .........................................................................................19
3) Ảnh nhị phân: ..........................................................................................................19
4) Lọc khơng gian ảnh: ................................................................................................21
4.1) Lọc trung bình: .....................................................................................................21
4.2) Lọc Gauss: ............................................................................................................22
4.3) Lọc Gradient:........................................................................................................23
4.4) Lọc Laplace: .........................................................................................................24
4.5) Lọc thích nghi Wiener:.........................................................................................26
5) Lọc tần số - Lọc trung vị: ........................................................................................27
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT THỊ GIÁC NỔI .......................................................28
I. HÌNH HỌC CƠ BẢN CỦA CAMERA: ...................................................................... 29
1) Pinhole camera: .......................................................................................................29
2) Hình học phối cảnh:.................................................................................................30
3) Mơ hình thấu kính đơn giản: ...................................................................................31
4) Hiệu chỉnh camera:..................................................................................................32
II. HÌNH HỌC THỊ GIÁC NỔI 3D:................................................................................34
1) Tam giác ảnh nổi: ....................................................................................................34
2) Điểm tương đồng:....................................................................................................36
3) Luật epipolar:...........................................................................................................37
4) Khôi phục tọa độ 3D: ..............................................................................................40
5) Khôi phục cấu trúc 3D của vật thể: .........................................................................41
5.1) Tính ma trận thiết yếu: .........................................................................................42
5.2) Tính ma trận cơ sở :.............................................................................................. 45
III. CÁC VẤN ĐỀ TRONG THỊ GIÁC NỔI :................................................................48
-6-


IV. SỰ LÀM PHÙ HỢP ẢNH NỔI : ..............................................................................51
1) Kỹ thuật làm phù hợp ảnh nổi : ...............................................................................51

1.1) Kỹ thuật phù hợp ảnh nổi dựa vào cường độ: ......................................................51
1.2) Tiếp cận làm phù hợp ảnh nổi dựa vào đặc trưng : ..............................................55
2) Những luật làm phù hợp:.........................................................................................58
3) Vài thuật toán tính sự phù hợp: ...............................................................................61
4) Cấu hình hệ thống nổi: ............................................................................................ 63
5) Các thuật toán đánh giá độ tương đồng của sự phù hợp ảnh nổi:............................63
CHƯƠNG 4: THỰC NGHIỆM .........................................................................................65
I. CẤU HÌNH HỆ THỐNG NỔI : ...................................................................................66
1) Phần cứng: ...............................................................................................................66
2) Phần mềm: ...............................................................................................................67
3) Hiệu chỉnh hệ camera: .............................................................................................68
II. THỰC NGHIỆM :.......................................................................................................72
1) Tạo tập mẫu ảnh stereo:...........................................................................................72
2) Tính tốn tọa độ 3D:................................................................................................74
3) Giao diện của chương trình : ...................................................................................74
4) Kết quả xử lý tìm biên: ............................................................................................76
5) Kết quả vẽ cường độ xám:.......................................................................................80
6) Kết quả tìm tọa độ tương đồng 3D : ........................................................................83
7) Kết quả khôi phục ảnh stereo mặt phẳng chênh lệch độ sâu: ..................................87
KẾT LUẬN & HƯỚNG PHÁT TRIỂN.............................................................................91
1) KẾT LUẬN: ................................................................................................................92
2) HƯỚNG PHÁT TRIỂN : ............................................................................................92
TÀI LIỆU THAM KHẢO ...................................................................................................93
LÝ LỊCH KHOA HỌC........................................................................................................96
PHỤ LỤC – Code chương trình sử dụng trong luận văn.....................................................97

-7-


CHƯƠNG 1:


GIỚI THIỆU

-8-


I. MỞ ĐẦU:
1) Động cơ nghiên cứu:
Vấn đề nhận dạng, phân loại và bám theo đối tượng 2D như nhận dạng mặt người
[22], biển số xe, phương tiện giao thông [23], nhận dạng vân tay, nhận dạng hạt gạo
[24]... đã được nhiều tác giả trong và ngoài nước nghiên cứu nhằm kết hợp giữa kỹ
thuật xử lý ảnh và kỹ thuật điều kiển hiện đại để nhận dạng đối tượng, bám theo đối
tượng, sau đó sẽ có những hành vi tùy theo yêu cầu của người điều khiển như nhận
dạng mặt người để phát hiện ra kẻ xấu trong an ninh; nhận dạng biển số xe (đã được
áp dụng trong điều khiển giao thông ở nước ta) nhằm ước lượng chính xác ra biển
số xe vi phạm trật tự an tồn giao thơng khi có nhiễu của mơi trường tác động; hoặc
nhận diện phương tiện giao thông để đưa ra mức tính thu phí cầu đường tự động;
nhận dạng vân tay trong bảo mật thông tin khi bước vô cửa hay mở máy tính ...
Qua thảo luận với giáo viên hướng dẫn và tham khảo nhiều tài liệu trong và ngoài
nước, tác giả rút ra một điều rằng vẫn chưa đủ chi tiết khi một vật thể chỉ được xem
xét dưới góc độ 2 chiều (2D), hình ảnh 3 chiều (3D) sẽ phản ánh vật thể một cách
trung thực hơn nhờ quan sát được chiều sâu của vật thể đó [12].
Hơn nữa ta có thể nhận ra hình dạng 3 chiều (nhất là chiều sâu) và đo đạc chính
xác vật thể đó trong khơng gian [1]. Do vậy mà đề tài “nhận dạng sản phẩm 3D
dùng xử lý ảnh,, được tác giả bàn đến nhằm vào mục đích trên.

2) Đối tượng và phạm vi nghiên cứu:
Thơng qua việc tìm hiểu cơ sở lý thuyết, tác giả sẽ tiến hành kiểm chứng bằng
mơ hình thực nghiệm gồm cả phần cứng và phần mềm, trong đó phần cứng là hệ
gồm 2 CCD (Charge Coupled Device) camera–sản phẩm 3D–máy tính. Để minh

họa tính 3D của sản phẩm, tác giả đã chọn các sản phẩm cơ khí thật có hình lập thể
như các con tán trong ngành ơ tơ để luận văn mang tính thực tiễn hơn.

-9-


Do thời gian thực hiện đề tài có hạn nên tác giả xin giới hạn lại phạm vi nghiên
cứu của mình là chỉ dùng hệ 2 CCD camera chụp các sản phẩm để tạo ra tập mẫu
gồm có các cặp ảnh nổi stereo mà sẽ được xử lý tiếp theo để kiểm chứng cơ sở lý
thuyết 3D có đúng khơng. Các quá trình thực hiện từ các xử lý ảnh cơ bản như lọc
khơng gian, lọc tần số, tìm đường biên cho đến vấn đề xử lý chính là xử lý 3D như
thể hiện tọa độ tương đồng của cặp ảnh stereo rồi thể hiện thành hình ảnh 3D để biết
chiều sâu của các mặt phẳng của sản phẩm. Bước cuối cùng của xử lý 3D là khôi
phục lại ảnh 3D của sản phẩm dựa vào những mặt phẳng màu sắc chênh lệch để thể
hiện về độ sâu của sản phẩm trong không gian.
Do vấn đề về nhận dạng ảnh 3D còn rất rộng, chưa được khai thác hết nên tác giả
dừng lại không nghiên cứu phần phân loại sản phẩm dùng mạng Nơron và phần
điều khiển cánh tay Robot bám theo sản phẩm để gấp sản phẩm ra ngoài. Nhưng
phần của tác giả nghiên cứu là phần nền tảng cho vấn đề nghiên cứu tiếp theo, sau
khi đã nhận dạng ra được đối tượng 3D (vị trí tọa độ, kích thước) thì vấn đề điều
khiển cánh tay Robot bám theo và gấp sản phẩm sẽ trở nên thuận lợi hơn.

3) Ý nghĩa nghiên cứu:
Cũng như các đề tài nghiên cứu về nhận dạng ảnh 2D đã mang lại tính thiết thực
trong ứng dụng cuộc sống và sản xuất, đề tài nhận dạng sản phẩm 3D cũng giống
như 2D nhưng sẽ mở rộng thêm tính linh hoạt trong nhận dạng. Như đã nói, nhận
dạng 2D sẽ khơng quan sát được chiều sâu của sản phẩm nên sẽ giảm độ chính xác.
Nhưng nhận dạng ảnh 3D cũng có nhược điểm, thứ nhất là về mặt giá thành – 2D
chỉ sử dụng một camera quan sát, nhưng 3D sử dụng đến hai camera; thứ hai, thuật
toán nhận dạng 3D sẽ phức tạp hơn 2D nhất là về vấn đề đi tìm điểm tương đồng

trên cặp ảnh nổi stereo để khôi phục lại một ảnh cuối cùng mà thể hiện được chiều
sâu của sản phẩm, chiều sâu này mang tính định lượng có nghĩa là ta biết rõ là cách
xa chỗ quan sát là bao nhiêu. Luận văn mang tính thực tiễn cao, có thể vận dụng để
chế tạo máy đo 3D hay thiết bị giám sát sản phẩm phối hợp với cánh tay robot để
gấp sản phẩm ra khỏi dây chuyền.

-10-


II. TĨM TẮT CÁC CƠNG TRÌNH NGHIÊN CỨU THỊ GIÁC NỔI 3D:
Trong điều kiện mà tác giả đã đọc được các nghiên cứu về thị giác nổi, xin được
tóm tắt vài cơng trình trong thời gian gần đây để nắm bắt được tiến độ tiếp cận và
kết quả của công trình. Cũng như các chủ đề nghiên cứu khác, chủ đề về thị giác nổi
cũng được rất nhiều tác giả nghiên cứu, mỗi cơng trình nghiên cứu đến một khía
cạnh và cũng có trường hợp chỉ với một khía cạnh mà nhiều tác giả đã bỏ nhiều
công sức để nghiên cứu nó, đó là vấn đề tìm tương đồng trong vấn đề phù hợp ảnh
nổi.
Nội dung các cơng trình:
[3] (năm 2006) của Christian Teutsch, Dirk Berndt, Andreas Sobotta, Silvio
Sperling dùng 2 camera quan sát máy phun nhựa để ước lượng độ dày của khn
nhựa có đồng đều khơng. Tác giả dùng phương pháp phân tích một tập hợp hàm
tương quan, kích thước và hình dạng cửa sổ, dùng hệ số tương quan Pearson để đạt
được một sự phù hợp tốt nhất từ cặp ảnh stereo trái phải. Kết quả như sau:
Ảnh trái

Ảnh phải

Ảnh kết quả (màu biểu thị độ sâu)

[4] (năm 2006) của Josef Bigun tìm những điểm tương đồng ở ảnh trái và phải

để xây dựng nên ảnh 3D, vấn đề này sẽ được tác giả ứng dụng trong luận văn của
mình. Kết quả của Josef Bigun như sau:

-11-


Ảnh trái

Ảnh phải

Xác định điểm tương đồng

Ảnh 3D của khuôn mặt

[2] (khoảng ≥ năm 2001) của Atsushi Yamashita, Shinya Matsushita,
Takeshi Sonohara, Toru Kaneko, Kenjiro T. Miura and Suekichi Isogai dùng
phương pháp hiệu chỉnh trong thời gian thực nhờ quan hệ giữa các góc và đo lường
3D để gấp sản phẩm trên băng chuyền.

-12-


Mẫu sản phẩm trái và phải được làm tương đồng, cánh tay robot gấp sản phẩm

[26] (năm 2006) của Andreas Klaus, Mario Sormann, Konrad Karner dùng
thuật toán lan truyền tin cậy và tự thích nghi sai lệch để làm phù hợp ảnh nổi có tỉ lệ
tương đồng cao, tác giả đã kiểm chứng thuật toán này trong luận văn của mình.
Ảnh Tsu trái

Ảnh Tsu phải


Ảnh kết quả (độ sáng chỉ độ sâu)

III. SƠ LƯỢC NỘI DUNG LUẬN VĂN:
Luận văn được tác giả chia thành 4 chương, chương mở đầu đã được tác giả nói
ở trên. Chương 2 là các xử lý ảnh cơ bản cần phải thành thạo vì là nền tảng để xây
dựng những thuật toán phức tạp hơn. Chương 3 là chương chính vì là cơ sở lý
thuyết nền tảng để hiểu về thị giác nổi, các khái niệm như tam giác nổi, đường
epipolar sẽ được đề cập, tất cả các tài liệu nghiên cứu về thị giác nổi đều nói về nó.
Cịn chương cuối cùng là chương 4 là tất cả những thí nghiệm được thể hiện đầy đủ
trong luận văn mà tác giả tốn rất nhiều cơng sức mới thể hiện được, phần code của
chương trình được đính kèm trong phần phụ lục.

-13-


CHƯƠNG 2:

XỬ LÝ ẢNH CƠ BẢN

-14-


I. ẢNH SỐ:
1) Định nghĩa ảnh số:
Ảnh số (còn gọi là image) I được định nghĩa là một ma trận chữ nhật (hay là ma
trận ảnh), được biểu diễn bởi phương trình sau:
I = [S(x,y)]

(1)


Trong đó x là chỉ số hàng của ảnh (hay row), y chỉ số cột của ảnh (hay col).
2) Ảnh xám:
Giá trị số nguyên nhỏ nhất của hàng và cột gọi là pixel (là phần tử của ảnh), mỗi
một pixel được gán giá trị để biểu diễn độ sáng của nó. Thơng thường S(x,y) được
gán giá trị trong thang xám (còn gọi là gray-scale) của tập G = {0,1,…,255}, giá trị
gray-scale bằng không tương ứng với mức đen và 255 tương ứng với mức trắng.
Ảnh như vậy được gọi là ảnh xám 8 bit với S(x,y) Є G.
Kích thước ảnh tùy vào độ phân giải của camera, ví dụ như kích thước ảnh đang
thực nghiệm trong luận văn là 384x288 pixel, đây là độ phân giải của CCD camera
sử dụng để bắt ảnh.
3) Ảnh nhị phân:
Pixel ảnh được nhận các giá trị tùy ý trong thang xám G nhưng thỉnh thoảng
chúng được biểu diễn với giá trị nhỏ hơn trong thang xám. Ảnh trong trường hợp
này gọi là ảnh nhị phân (hay binary image) chỉ bao gồm 2 giá trị mức xám là 0 và 1
tương ứng với màu đen và trắng. Vì vậy chỉ cần 1 bit thông tin cho 1 pixel cũng đủ
mô tả ảnh.
4) Ảnh màu:
Với sự phát triển của khoa học kỹ thuật, một ảnh xám với 256 giá trị vẫn chưa đủ
để hiển thị tất cả thơng tin ảnh. Vì vậy ảnh màu được ra đời, phương trình ảnh màu
khơng thể biểu diễn như phương trình (1) được vì cịn một tham số khác được thêm
vào như chỉ số chỉ mặt phẳng màu, trong Matlab n=1, 2, 3 tương ứng với màu đỏ,
xanh lá, xanh dương của ảnh nên phương trình ảnh màu được mô tả như sau:
I=[S(x,y,n)]

-15-

(2)



5) Thu nhận ảnh:
Có thể nói đơn giản xử lý ảnh là vận dụng các thao tác xử lý trên ma trận pixel
ảnh để có một ảnh ngõ ra có chất lượng tốt hơn. Quá trình thu nhận ảnh được thực
hiện bởi các thiết bị quang học như camera, scanner, siêu âm, MRI…Sau đó ảnh
được truyền tới máy tính để lưu trữ rồi được tải lên các chương trình xử lý ảnh
chuyên dụng để xử lý.
Trong luận văn bàn đến xử lý ảnh nổi 3D nên phần thu nhận ảnh được thực hiện
bởi 2 CCD camera kết nối với máy tính thơng qua card PCI, sơ đồ mơ tả tổng quát
công đoạn xử lý như sau:
Tiền xử lý ảnh, cường độ xám

Tách biên tìm trọng tâm
Toạ độ tương đồng 3D
Ảnh nổi mặt phẳng chênh
lệch độ sâu
Hình.1: Sơ đồ xử lý ảnh 3D
6) Nhiễu:
Nhiễu: xét vấn đề nhiễu trong phạm vi luận văn, nhiễu thường xảy ra bắt nguồn
từ mãng tế bào quang học của CCD camera. Nhiễu được biểu diễn bởi tỉ số giữa tín
hiệu và nhiễu như sau:
SNR =

nsignal
nnoise

(3)

Trong đó: SNR được viết tắt từ Signal Noise Ratio là tỉ số giữa tín hiệu và nhiễu,
nsignal là số lượng điện tử va đập vào tế bào quang học của CCD để tạo ra tín hiệu


ảnh, nnoise là số lượng điện tử nhiễu. Nhiễu do CCD gây ra có thể phân làm 2 loại:

-16-


Nhiễu cố định: gây ra do sự không đồng dạng về cấu tạo vật lý của những tế bào
quang học CCD, nếu tất cả các tế bào đều đồng dạng thì nhiễu bằng khơng.
Nhiễu theo thống kê: gồm nhiễu CCD do điện tử gây ra ở tế bào CCD và nhiễu
khuếch đại do bộ phận khuếch đại của CCD camera gây ra.
Nhiễu do CCD camera gây ra thường là nhiễu xung, nếu xem trên hình nhiễu
xung làm thay đổi ngẫu nhiên những pixel, làm cho những giá trị của chúng thay
đổi khác xa với giá trị thực của chúng nên tạo ra những vết sáng hay tối bất thường.
Nhiễu xung cịn được gọi là nhiễu muối tiêu có thể được khử đi bằng bộ lọc median.
Ngồi ra cịn có nhiễu Gauss, là loại nhiễu mà mật độ của nó có dạng phân bố
Gauss với độ lệch chuẩn xác định và giá trị trung bình bằng zero. Nhiễu này xuất
hiện do bản chất rời rạc của bức xạ lượng tử ánh sáng khi tác dụng lên các hệ thống
thu nhận ảnh, có nhiều cách để khử loại nhiễu này, phần sau sẽ trình bày chi tiết.
Nhiệm vụ đầu tiên của xử lý ảnh là khử bớt nhiễu ra khỏi ảnh hay nói cách khác
là mang lại giá trị đúng cho pixel tại vị trí nhiễu nhằm làm chính xác thơng tin trong
ảnh. Có nhiều phương pháp để khử nhiễu như dùng bộ lọc trung bình hay Gauss hay
Wiener để khử nhiễu Gauss; lọc trung vị (còn gọi là lọc median) để khử nhiễu muối
tiêu. Giải thuật lọc cơ bản là dùng một cửa sổ (hay mặt nạ) có những trọng số được
thiết kế theo yêu cầu lọc rồi trượt lần lượt lên ma trận ảnh cần lọc, cơng thức tích
chập được sử dụng. Riêng bộ lọc median dùng giải thuật sắp xếp cường độ của các
pixel trong cửa sổ thành một dãy từ thấp đến cao để chọn ra pixel nằm ở vị trí ở
giữa của dãy.
(a)

(b)


(c)

Hình. 2: (a) Nhiễu Gauss , (b) nhiễu muối tiêu , (c) ảnh gốc

-17-


II. XỬ LÝ ẢNH:
1) Lược đồ ảnh:
Còn gọi là histogram, lược đồ xám cho biết lượng thông tin về sự phân bố số
lượng pixel dựa trên giá trị mức xám.
Nếu ảnh sáng thì lược đồ xám nằm bên phải (mức xám cao), cịn nếu ảnh tối thì
lược đồ xám nằm bên trái (mức xám thấp).
Ảnh xám trái của camera trái

Ảnh xám phải của camera phải

Lược đồ ảnh trái

Lược đồ ảnh phải

Hình. 3: Lược đồ xám của ảnh trái và phải
Ảnh trái và ảnh phải được chụp bởi hai CCD camera trái và phải đặt song song
giống như mắt người cùng chụp ảnh của những vật thể cơ khí 3D. Cho dù 2 CCD
camera có cấu tạo hồn tồn giống nhau nhưng độ sáng ở ảnh trái tối hơn ảnh phải,
nhìn vào lược đồ ảnh trái ta thấy đồ thị hơi dịch về phía trái một chút so với lược đồ
ảnh phải.

-18-



2) Cân bằng histogram ảnh:
Để tăng cường độ tương phản cho ảnh, cân bằng histogram được đặt ra bằng cách
biến đổi giá trị cường độ xám của ảnh.
Sau khi cân bằng histogram: Ảnh trái

Lược đồ sau khi cân bằng: Ảnh trái

Ảnh phải

Ảnh phải

Hình. 4: Ảnh trái, phải sau khi được cân bằng histogram: ảnh kết quả có độ tương
phản cao hơn, sự phân bố mật độ xám được rải đều

3) Ảnh nhị phân:
Việc phân tích ảnh đơi khi cần ảnh nhị phân vì vậy trước tiên một ảnh xám cần
được chuyển thành ảnh nhị phân dựa vào ngưỡng. Ảnh nhị phân chỉ có 2 giá trị, 1
tương ứng với màu trắng đối với pixel có độ chói lớn hơn ngưỡng và 0 tương ứng
với màu đen được gán cho những pixel còn lại.

-19-


Ảnh xám trái

Ảnh xám phải

Ảnh nhị phân (threshold = 0.5): Ảnh trái


Ảnh phải

Ảnh nhị phân (threshold = 0.6): Ảnh trái

Ảnh phải

Hình. 5: Chuyển ảnh xám sang ảnh nhị phân: với mức ngưỡng 0.6 sản phẩm được
tách biệt ra hơn so với nền, mà sau này dễ tìm biên sản phẩm hơn

-20-


4) Lọc không gian ảnh:
Nhằm nâng cao chất lượng ảnh như khử nhiễu, một cửa sổ có kích thước mxm
được chọn để trượt lên tồn bộ khơng gian ảnh, giá trị mới cho pixel được tính dựa
vào giá trị pixel gốc và các giá trị pixel lân cận pixel gốc ấy. Mục đích lọc khơng
gian nhằm làm trơn ảnh, loại bỏ nhiễu Gauss và phát hiện cạnh của đối tượng trong
ảnh. Các phương pháp lọc lần lượt được bàn đến như sau:
4.1) Lọc trung bình:
Bằng cách lấy trung bình trọng số của những pixel xung quanh, lọc trung bình
dùng để làm trơn ảnh. Ví dụ như lọc trung bình dùng cửa sổ 3x3 có các trọng số đều
bằng 1: [1 1 1; 1 1 1; 1 1 1] , thì ảnh ngõ ra được xác định bởi:
1 x +1 y +1
S out ( x , y ) =
∑ ∑ S in ( u, v )
9 u = x −1 v = y −1

(4)

Ảnh bị nhiễu Gauss: Ảnh trái


Ảnh phải

Ảnh được lọc trung bình: Ảnh trái

Ảnh phải

Hình. 6: Lọc trung bình ảnh trái và phải: ảnh kết quả bớt nhiễu nhưng bị nhòe hơn

-21-


4.2) Lọc Gauss:
Mặt nạ Gauss được mô phỏng dưới dạng đường cong Gauss, có hệ số pixel trọng
tâm của mặt nạ thường lớn hơn 1, còn những hệ số những pixel xung quanh nhỏ
hơn hệ số trung tâm. Mặt nạ Gauss thường có dạng [0 1 0; 1 2 1; 0 1 0]
Cả hai phương pháp lọc trung bình và lọc Gauss cịn gọi là lọc thơng thấp, chúng
hạn chế sự thay đổi đột ngột về cường độ mức xám nhất là những vùng pixel nằm ở
cạnh vật thể vì thế ảnh sau khi lọc có cạnh bị nhoè hơn do cường độ xám của pixel
nằm ở cạnh bị san bằng như những pixel lân cận.
Ảnh xám bị nhiễu Gauss: Ảnh trái

Ảnh phải

Ảnh sau khi lọc Gauss: Ảnh trái

Ảnh phải

Hình. 7: Lọc Gauss ảnh trái và phải: ảnh kết quả ít bị nhiễu Gauss hơn


-22-


4.3) Lọc Gradient:
Một lĩnh vực nghiên cứu quan trọng của xử lý ảnh là dị tìm cạnh của vật thể
trong ảnh. Chú ý rằng ở những vùng ảnh biểu diễn cạnh có sự thay đổi đáng kể độ
sáng của pixel ảnh.
Hai thuật tốn điển hình là lọc Prewitt và lọc Sobel. Lọc Prewitt bằng hai mặt nạ:
[ -1 -1 -1; 0 0 0; 1 1 1] , [-1 0 1; -1 0 1; -1 0 1] để phát hiện cạnh ngang và dọc.
Tương tự vậy, Sobel dùng 2 mặt nạ: [-1 -2 -1; 0 0 0; 1 2 1] , [-1 0 1; -2 0 2; -1 0 1]
Ảnh xám trái

Ảnh xám phải

Ảnh sau khi lọc Prewitt

Ảnh sau khi lọc Sobel

Hình. 8: Lọc ảnh bằng Prewitt và Sobel: kết quả tương tự nhau

-23-


4.4) Lọc Laplace:
Mặt nạ Laplace là loại đạo hàm bậc hai nên nó có hai tác dụng: (1) nếu tổng tất cả
các hệ số trong mặt nạ bằng khơng thì mặt nạ làm thay đổi đáng kể độ sáng trên
toàn bộ ảnh, nghĩa là nó hoạt động như tốn tử dị cạnh theo mọi hướng.
Ví dụ như khi dùng mặt nạ [0 -1 0; -1 4 -1; 0 -1 0] có tổng hệ số bằng khơng sẽ
cho kết quả lọc như sau:
Ảnh xám trái


Ảnh xám phải

Ảnh sau khi lọc Laplace

Hình. 9: Lọc Laplace với mặt nạ lọc có tổng hệ số bằng không

-24-


×