Tải bản đầy đủ (.pdf) (128 trang)

Ứng dụng mạng neuron vào nhận dạng vật thể trong không gian ba chiều

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.89 MB, 128 trang )

Đại Học Quốc Gia Tp. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-----------------------

ĐỖ NGỌC HÙNG

ỨNG DỤNG MẠNG NEURON VÀO NHẬN DẠNG VẬT
THỂ TRONG KHÔNG GIAN BA CHIỀU

CHUYÊN NGÀNH: KỸ THUẬT VÔ TUYẾN – ĐIỆÄN TỬ
MÃ SỐ NGÀNH

: 2.07.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 8 năm 2004


Trang 1

CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: TS DƯƠNG HOÀI NGHĨA

Cán bộ chấm nhận xét 1:PGS.TS LÊ TIẾN THƯỜNG

Cán bộ chấm nhận xét 2:TS NGUYỄN ĐỨC THÀNH


Luận văn thạc só được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ.

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng

Luận văn thạc só

năm 2004


Trang 2

Đại Học Quốc Gia Tp. Hồ Chí Minh CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc Lập – Tự Do – Hạnh Phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: ĐỖ NGỌC HÙNG

Phái: Nam

Ngày, tháng, năm sinh:28-7-1979

Nơi sinh: Gia Lai

Chuyên ngành: Kỹ thuật Vô tuyến – Điện tử
Mã số: 2.07.01
I - TÊN ĐỀ TÀI:
ỨNG DỤNG MẠNG NEURON VÀO NHẬN DẠNG VẬT THỂ TRONG
KHÔNG GIAN 3 CHIỀU
II - NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu các phương pháp nhận dạng vật thể trong không gian ba chiều.
- Xây dựng phương pháp nhận dạng dùng mạng neuron.
- So sánh các phương pháp dùng mô phỏng.
III - NGÀY GIAO NHIỆM VỤ:
IV - NGÀY HOÀN THÀNH NHIỆM VỤ:
V - HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: Tiến só DƯƠNG HOÀI NGHĨA
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ NGÀNH

Nội dung và đề cương luận văn thạc só đã được Hội Đồng Chuyên Ngành thông qua.

Ngày tháng năm 2004
KHOA QUẢN LÝ NGÀNH

PHÒNG ĐÀO TẠO SĐH

Luận văn thạc só


Trang 3

LỜI CẢM ƠN

Em xin chân thành cảm ơn Tiến só Dương Hoài Nghóa, người đã luôn
tận tình hướng dẫn em trong suốt quá trình thực hiện luận văn này.
Em cũng xin gởi lời cảm ơn đến các Thầy, Cô ở trường Đại Học Bách
Khoa Tp.Hồ Chí Minh đã truyền đạt cho chúng em những kiến thức quý báu
trong suốt những năm học Đại Học và Cao Học .
Và cuối cùng em xin cảm ơn gia đình và những người bạn trong lớp cao
học Vô Tuyến Điện Tử K13 đã luôn động viên, giúp đỡ em trong những lúc
khó khăn.


Tp.Hồ Chí Minh,tháng 8/2004
Học viên thực hiện

Đỗ Ngọc Hùng

Luận văn thạc só


Trang 4

TÓM TẮT
Luận văn nghiên cứu các phương pháp nhận dạng vật thể trong không gian
ba chiều, một lónh vực có nhiều ứng dụng (từ sản xuất công nghiệp cho đến giải
trí … ) và đã thu hút được sự chú ý của nhiều nhà nghiên cứu [1,2,3,4,5,8,11,12…].
Sau phần giới thiệu, luận văn trình bày các khái niệm cơ bản về biểu diễn
vật thể và phân tích ảnh. Một trong những phương pháp thông dụng là phân đoạn
ảnh. Chúng ta có thể tách các thông số chứa nhiều thông tin như đường, biên
bằng các công cụ khác nhau như toán tử Laplace, Gradient ... Để có thể xử lý tính
toán nhanh, lưu trữ thông tin một cách hiệu quả thì phải giảm số chiều của không
gian dữ liệu. Phương pháp giảm số chiều thực hiện việc tìm những hướng (vector)
thoả mãn một tính chất tuỳ thuộc vào phương pháp thực hiện. Phương pháp PCA
(Principle Component Analysis) tối ưu hoá việc tái tạo (optimal reconstruction),
phương pháp LDA (Linear Discriminant Analysis) tối ưu hoá sự phân tách
(optimal seperation), phương pháp CCA (Canonical Corelation Analysis) tối ưu
hoá tương quan (optimal corelation), phương pháp ICA ( Independent
Component Analysis) tính các nhân tố độc lập (Independent factors), phương
pháp NMF (Non-negative Matrix Factorization) dựa vào các nhân tố không âm
(non-negative factors). Các phương pháp giảm số chiều này được gọi chung là
phương pháp không gian con (Subspace method).

Tiếp theo, luận văn trình bày các phương pháp nhận dạng vật thể trong
không gian ba chiều. Trong phương pháp PCA, ứng với mỗi vật thể chúng ta tính
một không gian con tạo bởi các vector riêng của ma trận covariance. Việc nhận
dạng được thực hiện bằng cách tính các khoảng cách Euclide nhỏ nhất của ảnh
cần nhận dạng và các ảnh huấn luyện trong không gian con, vật thể có không
gian con có khoảng cách nhỏ nhất là vật thể được nhận dạng. Phương pháp SVM
(Support Vector Machine) tìm các mặt phân tách tối ưu giữa các lớp dữ liệu khác

Luận văn thạc só


Trang 5

nhau. Mặt phân tách có tính chất tổng khoảng cách đến mặt phân tách của hai
phần tử gần mặt phân tách nhất thuộc hai nhóm khác nhau là lớn nhất được gọi là
mặt phân tách tối ưu. Việc nhận dạng thực hiện bằng cách xét dấu phương trình
mặt phân tách.
Vài thập kỷ gần đây, mạng neuron đã khẳng định được vị trí của mình trong
nhiều ứng dụng khác nhau. Các lónh vực ứng dụng của mạng neuron như:giao
thông, không gian vũ trụ, công nghiệp, giải trí,…Trong luận văn này mạng neuron
được ứng dụng trong nhận dạng vật thể trong không gian ba chiều. Mỗi vật thể sẽ
được xây dựng một mạng neuron. Dữ liệu huấn luyện mạng được tiền xử lý trước
khi đưa vào mạng bằng cách sử dụng phương pháp PCA nhằm giảm số chiều của
không gian dữ liệu.

Luận văn thạc só


Trang 6


ABSTRACT
3D object recognition has been developed in recent years. Its applications
are very diversified from industry to entertainment. Firstly, this thesis presents
the basis concepts of object representation. One object can be described with
several images taken from different positions. A digital image contains some
information about object. The techniques for extracting information from an
image are called image analysis. It is a process of discovering and identifying
patterns that are relevant to the performance of image-based task. We can
extract components which contain a lot of information such as lines, edges by
using Laplace operator, Gradient operator,…However, in order to have efficient
storage and fast process, the number of data dimensions should be reduced. The
dimension reduction methods find the vectors corresponding certain properties.
PCA (Principle Component Analysis) has optimal reconstruction, LDA (Linear
Component Analysis) has optimal seperation, CCA (Canonical Corelation
Analysis) has optimal corelation, ICA ( Independent Component Analysis)
depends on independent factors, NMF (Non-negative Matrix Factorization)
depends on non-negative factors. These dimension reduction methods are called
subspace method.
The next part is 3D object recognition. The first method is PCA. In this
method, we compute an eigenspace for each object. Eigenspace is constructed by
the eigen vectors of the covariance matrix. The recognition was achived by
finding the minimum Euclide distance between the test image and the database
images. The second method is SVM (Support Vector Machine). This method
finds the OSH (Optimal Seperating Hyperplane), which maximizes the sum of
distances from two points (has minimum distance to hyperplane) belong to two

Luận văn thạc só


Trang 7


different classes. The recognition was achived by testing the signs of OSH
equations.
Neural network (NN) has a lot of applications in recent decades. The
application fields of NN are: traffic, industry, entertainment,etc. In this thesis,
neural network was used in 3D object recognition. We create a neural network
for each object. The training data was preprocessed by using PCA method in
order to reduce the data space.

Luận văn thạc só


Trang 8

MỤC LỤC
NHIỆM VỤ LUẬN VĂN THẠC SĨ .......................................................................2
MỤC LỤC ..............................................................................................................8
DANH MỤC TỪ VIẾT TẮT ................................................................................11
CHƯƠNG 1:GIỚI THIỆU ...................................................................................12
1.1 GIỚI THIỆU ...................................................................................................12
1.2 NHẬN DẠNG VẬT THỂ DỰA VÀO MÔ HÌNH (Model-based Object
Recognition) .........................................................................................................13
1.3 NHẬN DẠNG VẬT THỂ DỰA VÀO HÌNH DÁNG BỀ NGOÀI
(Appearance_based Object Recognition) ............................................................14
CHƯƠNG 2:BIỂU DIỄN VẬT THỂ ....................................................................17
2.1 KHÁI NIỆM VỀ ẢNH SỐ..............................................................................17
2.2 HISTOGRAM................................................................................................19
2.3 PHÂN ĐOẠN ẢNH.......................................................................................20
2.3.1 Tách dòng ................................................................................................20
2.3.2 Tách biên .................................................................................................22

2.3.2.1 Cơ sở của việc tách biên ...................................................................22
2.3.2.2 Toán tử Gradient...............................................................................23
2.3.2.3 Toán tử Laplace ................................................................................24
2.4 BIỂU DIỄN VẬT THỂ TRONG KHÔNG GIAN CON .................................25
2.4.1 LDA (Linear Discriminant Analysis) ......................................................26
2.4.2 CCA (Canonical Correlation Analysis) ...................................................28
2.4.3 NMF (Non-negative Matrix Factorization) .............................................30
CHƯƠNG 3:CÁC PHƯƠNG PHÁP NHẬN DẠNG VẬT THỂ TRONG KHÔNG
GIAN BA CHIỀU .................................................................................................31
3.1 PCA (Principle Component Analysis) ............................................................31
3.1.1 Khái niệm ................................................................................................31
3.1.2 Chuẩn hoá tập dữ liệu ảnh .......................................................................32
3.1.3 Tính toán không gian con ........................................................................32
3.1.4 Biểu diễn vật thể trong không gian con...................................................33
3.1.5 Khoảng cách và tương quan trong không gian con..................................34
3.1.6 Nhận dạng vật thể ....................................................................................35
3.1.7 Giải thuật PCA.........................................................................................36
3.2 SVM (Support Vector Machine) ...................................................................37
3.2.1 Khái niệm ................................................................................................37
3.2.2 Mặt phân tách tối ưu ................................................................................38
3.2.3 Các support vector ...................................................................................39

Luận văn thạc só


Trang 9

3.2.4 Trường hợp phi khả tách tuyến tính .........................................................40
3.2.5 SVM phi tuyến ........................................................................................42
3.2.6 Giải thuật directSVM...............................................................................44

3.3 ICA (Independent Component Analysis) .......................................................49
3.3.1 Định nghóa ICA........................................................................................49
3.3.2 Những nguyên tắc dự đoán ICA ..............................................................49
3.3.2.1 Định nghóa về độc lập .......................................................................49
3.3.2.2 Biến phân phối Gauss trong ICA ......................................................50
3.3.2.3 Negentropy .......................................................................................52
3.3.2.4 Xấp xỉ negentropy ............................................................................53
3.3.2.5 Tối thiểu hoá thông tin chung ...........................................................54
3.3.3 Tiền xử lý ICA .........................................................................................55
3.3.4 Giải thuật FastICA...................................................................................57
3.3.4.1 FastICA cho 1 đơn vị tính toán .........................................................57
3.3.4.2 FastICA cho vài đơn vị tính toán ......................................................57
3.3.5 Nhận dạng vật thể bằng phương pháp ICA..............................................58
CHƯƠNG 4:MẠNG NEURON NHÂN TẠO .......................................................60
4.1 KHÁI NIỆM CƠ BẢN....................................................................................60
4.1.1 Mạng neuron nhân tạo (artificial neural networks, ANN) ......................60
4.1.2 Phần tử xử lý ............................................................................................61
4.1.3 Phân loại mạng neuron ............................................................................63
4.1.3.1 Phân loại theo kiểu kết nối các neuron:...........................................63
4.1.3.2 Phân loại theo số lớp neuron: ..........................................................63
4.1.4 Huấn luyện mạng neuron (training, learning) .........................................65
4.1.4.1 Học có giám sát.................................................................................66
4.1.4.2 Học không giám sát ..........................................................................66
4.1.4.3 Học tăng cường .................................................................................70
4.1.4.4 Luật học các trọng số tổng quát ........................................................73
4.2 MẠNG PERCEPTRON MỘT LỚP (single-layer perceptron networks) .......73
4.2.1 Đơn vị ngưởng tuyến tính (Linear threshold unit, LTU).........................74
4.2.2 Đơn vị tuyến tính (linear unit) .................................................................75
4.2.3 Đơn vị phân loại tuyến tính (linear graded unit, LGU) ...........................76
4.3 MẠNG TRUYỀN THẲNG NHIỀU LỚP ......................................................77

4.3.1 Tổng quan ...............................................................................................77
4.3.2 Giải thuật lan truyền ngược (back propagation) .....................................78
4.3.3 Các thông số của luật học lan truyền ngược ...........................................81
4.4 MẠNG HOPFIELD ........................................................................................81
4.4.1 Mạng Hopfield rời rạc ............................................................................81

Luận văn thạc só


Trang 10

4.4.2 Mạng Hopfield liên tục ...........................................................................82
4.5 ỨNG DỤNG MẠNG NEURON VÀO NHẬN DẠNG VẬT THỂ TRONG
KHÔNG GIAN 3 CHIỀU .....................................................................................83
4.5.1 Khái niệm ...............................................................................................83
4.5.2 Quy trình thiết kế mạng neuron ứng dụng ..............................................84
4.5.3 Tiền xử lý dữ liệu....................................................................................85
4.5.4 Xây dựng mạng neuron...........................................................................85
CHƯƠNG 5:KẾT QUẢ THỰC NGHIỆM ............................................................86
5.1 TẬP ẢNH NHẬN DẠNG...............................................................................86
5.2 PHƯƠNG PHÁP PCA ....................................................................................91
5.2.1 Thay đổi số ảnh huấn luyện .....................................................................91
5.2.2 Thay đổi số vector riêng ..........................................................................92
5.2.3 Phục hồi ảnh huấn luyện..........................................................................94
5.2.4 Chuẩn của các vector ảnh trong không gian con ...................................106
5.3 PHƯƠNG PHÁP SVM .................................................................................112
5.4 PHƯƠNG PHÁP DÙNG MẠNG NEURON ...............................................113
5.5 NHẬN XÉT KẾT QUẢ ................................................................................117
CHƯƠNG 6 :KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .....................................120
6.1 KẾT LUẬN...................................................................................................120

6.2 HƯỚNG PHÁT TRIỂN ................................................................................123
TÀI LIỆU THAM KHẢO ...................................................................................124

Luận văn thạc só


Trang 11

DANH MỤC TỪ VIẾT TẮT
3D : Three Dimensions
PCA: Principle Component Analysis
LDA : Linear Discriminant Analysis
CCA : Canonical Corelation Analysis
ICA : Independent Component Analysis
NMF: Non-negative Matrix Factorization
SVM: Support Vector Machine
OSH : Optimal Seperating Hyperplane
NN: Neural network
CAD: Computer Aided Design
SSD: Sum of Squared Difference
Pdf : Probability Density Function
ANN : Artificial Neural Network
LTU : Linear Threshold Unit
LGU : Linear Graded Unit
PE: Processing Element
SOFM: Self-Organizing Feature Maps
GA: Genetic Algorithm
LMS : Least Mean Square
COIL : Columbia Object Image Library


Luận văn thạc só


Trang 12

CHƯƠNG 1

GIỚI THIỆU

1.1 GIỚI THIỆU
Ngày nay công nghệ điện tử và vật liệu ngày càng phát triển, việc chế tạo
các robot với các tính năng phức tạp trở nên ngày càng khả thi. Những robot di
động yêu cầu những khả năng đặc biệt về quan sát để cảm nhận và thích nghi với
môi trường. Nhiệm vụ nhận dạng vật thể trong không gian 3 chiều (3D) là một
phần quan trọng trong cảm nhận quan sát. Tuy nhiên việc nhận dạng vật thể 3D
là một nhiệm vụ khó khăn do số lượng vô hạn các vật thể có trong đời sống thực.
Vì vậy, hầu hết những hệ thống nhận dạng vật thể được sử dụng trong các ứng
dụng công nghiệp, nơi các vật thể cần nhận dạng nằm trong một tập hợp đã biết
trước.
Những hệ thống nhận dạng vật thể 3D cố gắng mô phỏng khả năng của con
người trong nhận dạng những vật thể trong thế giới thực dựa vào một kiến thức
biết trước của những vật thể khác nhau.

Luận văn thạc só


Trang 13

Cơ sở dữ liệu


Vật thể cần
nhận dạng

Lấy ra những
đặc điểm

Giải thuật
match

Kết luận

Hình 1.1: Mô hình một hệ thống nhận dạng vật thể
Một vật thể 3D được biểu diễn bằng nhiều đặc điểm. Nếu chỉ quan tâm đến
hình dạng vật thể thì các đặc điểm này gọi là đặc điểm hình học. Nếu kết hợp với
các tính chất về độ sáng, tư thế, độ phản xạ thì được gọi là bề ngoài vật thể.
Những phương pháp nhận dạng vật thể 3D thường được chia làm hai loại đó
là nhận dạng vật thể dựa vào mô hình và nhận dạng vật thể dựa vào hình dáng bề
ngoài.

1.2 NHẬN DẠNG VẬT THỂ DỰA VÀO MÔ HÌNH (Modelbased Object Recognition)
Nhận dạng vật thể dựa vào mô hình dựa vào những kỹ thuật nhận dạng vật
thể dựa vào mô hình mô tả hình dạng của vật thể 3D sử dụng những biểu diễn
logic hoặc toán học. Những đặc điểm hình dạng bao gồm : đường(lines), đường
cong biểu diễn (curves), đỉnh(vertices), biên (edge)…gọi là đặc điểm hình học.
Có rất nhiều phương pháp để thu được những mô hình của các vật thể,
những phương pháp phổ biến nhất là: Mô hình 3D đầy đủ từ CAD (Computer
Aided Design), nhiều góc nhìn liên tiếp từ những kỹ thuật cảm biến tích cực
(active sensing techniques), những góc nhìn rời rạc từ những kỹ thuật cảm biến
thụ động (passive sensing techniques), những góc nhìn dựa vào thang đo ánh
sáng (cường độ).


Luận văn thạc só


Trang 14

Phương pháp tốt nhất để nhận dạng là tạo mô hình 3D đầy đủ từ CAD [17].
Phương pháp này có ứng dụng nhiều nhất trong nhận dạng thành phần trong công
nghiệp, nơi các vật thể được định nghóa tốt và dễ dàng mô hình hoá bởi CAD.
Tuy nhiên phương pháp này không tổng quát và có độ phức tạp cao để tạo những
mô hình. Phương pháp này đặc biệt khó khăn khi tạo những mô hình của nhiều
lớp vật thể khác nhau và những mô hình tự nhiên.
Phương pháp sử dụng các ảnh để biểu diễn mô hình có tính tổng quát hơn
phương pháp dựa vào CAD. Tuy nhiên phương pháp này cũng cần quan tâm đến
một số vấn đề. Vấn đề đầu tiên là số lượng góc nhìn (view) cần thiết để biểu diễn
mô hình hay nói cách khác bao nhiêu ảnh thì đủ để biểu diễn toàn bộ thông tin
cần thiết về vật thể. Vấn đề thứ hai là vấn đề phân đoạn (segmentation). Những
mô hình thường được biểu diễn sử dụng những mô tả dựa vào khối (volumetric),
bề mặt. Thông thường khó có thể phân đoạn một cách đáng tin cậy nhiều ảnh
thành những bề mặt hay hình khối khác nhau.
Phương pháp sử dụng thang đo ánh sáng để tạo mô hình là phương pháp khó
thực hiện nhất. Phương pháp này cũng có vấn đề về lựa chọn số góc nhìn vật thể,
và thêm nữa là vấn đề mất thông tin khi chiếu dữ liệu 3D sang 2D. Đã có nhiều
phương pháp được đưa ra để giải quyết vấn đề này nhưng các phương pháp này
vẫn chưa hiệu quả cao trong các hệ thống nhận dạng thực sự.

1.3 NHẬN DẠNG VẬT THỂ DỰA VÀO HÌNH DÁNG BỀ
NGOÀI (Appearance_based Object Recognition)
Ngoài những đặc điểm hình học,những yếu tố như độ phản xạ
(reflectance),độ sáng (illumination),.. không ảnh hưởng đến bản chất hình dạng

của vật thể nhưng có vai trò quan trọng trong việc nhìn một vật. Do đó phương

Luận văn thạc só


Trang 15

pháp nhận dạng vật thể dựa vào bề ngoài là sự kết hợp của hình dạng, những
tính chất phản xạ, tư thế và đôï sáng.
Thông thường chúng ta lưu những góc nhìn của vật thể 3D vào cơ sở dữ liệu
và sử dụng những kỹ thuật tương quan để tìm ảnh tương tự nhất trong cơ sở dữ
liệu. Phương pháp này thường tốn nhiều thời gian và yêu cầu không gian lưu trữ
lớn. Có nhiều phương pháp khác nhau để giảm yêu cầu không gian. Một phương
pháp là nén các ảnh. Kỹ thuật nén ảnh thông dụng là biến đổi Karhunen-Lovéve
dựa vào phương pháp PCA (Principle Component Analysis). Những ảnh được nén
vào không gian sinh bởi các vector riêng được gọi là những ảnh riêng
(eigenimages). Những phương pháp này đã được phát triển bởi Murase & Nayar
[8].
Phương pháp dựa vaøo Histogram: Peng Chang,John Krumm [6], Staffan
Ekvall, Frank Hoffmann & Danica Kragic [18]: Phương pháp này có ưu điểm dễ
thực hiện và tính toán đơn giản. Một thuận lợi khi dùng dùng kỹ thuật này là
Histogram không thay đổi khi vật thể di chuyển dọc theo một trục và chỉ thay đổi
chậm khi xoay quanh những trục khác. Nhược điểm là nhạy với sự thay đổi độ
sáng (illumination).
Phương pháp SVMs (Support Vector Machines): Danny Roobaert, Marc
M.Van Hulle [3]. Phương pháp này xây dựng những mặt phân tách (Seperating
Hyperplane) để tách các lớp vật thể khác nhau. Mặt phân tách được xác định sao
cho tổng khoảng cách giữa hai điểm thuộc hai nhóm khác nhau đến mặt phân
tách là cực đại được gọi là mặt phân tách tối ưu.
Một phương pháp dùng để lấy các đặc điểm của vật thể là phương pháp

phân tích thành phần độc lập ICA (Independent Component Analysis). Phương
pháp này lấy các thành phần có tính chất độc lập thống kê từ những dữ liệu quan

Luận văn thạc só


Trang 16

sát (những ảnh mẫu). Phương pháp này được thực hiện bởi Harikat S.Shahambi
và K.Khorasani [1 ].
Ngoài ra còn có nhiều phương pháp khác để lấy các đặc điểm của vật thể để
so sánh như: sử dụng việc tách đường biên, phương pháp dùng toán tử
Gabor,…Các phương pháp này lưu các đặc điểm đã trích ra vào cơ sở dữ liệu, việc
nhận dạng vật thể được thực hiện bằng cách so sánh các đặc điểm của vật cần
nhận dạng và cơ sở dữ liệu.

Luận văn thạc só


Trang 17

CHƯƠNG 2

BIỂU DIỄN VẬT THỂ

2.1 KHÁI NIỆM VỀ ẢNH SỐ
Hình ảnh được coi là một hàm hai chiều về độ sáng: f(x,y). Trong đó giá trị
hoặc biên độ f tại hệ toạ độ không gian (x,y) là cường độ sáng của ảnh tại điểm
đó:
0 < f(x,y) < ∞


(2.1)

f(x,y) bao gồm hai thành phần:
1. số lượng ánh sáng nguồn rơi trên cảnh vật được nhìn thấy (illumination) i(x,y)
2. số lượng ánh sáng nguồn phản xạ từ vật thể (reflectance components) r(x,y).
f(x,y) = i(x,y) r(x,y)

(2.2)

0 < i(x,y) < ∞

(2.3)

0 < r(x,y) < 1

(2.4)

với :

Luận văn thạc só


Trang 18

(r(x,y) = 0 : hấp thụ hoàn toàn; r(x,y) = 1 :phản xạ hoàn toàn), i(x,y) được
quyết định bởi nguồn sáng chiếu sáng vật thể và r(x,y) được quyết định bởi các
đặc trưng của vật thể.
Ta gọi cường độ ánh sáng của một ảnh đen trắng f tại toạ độ (x,y) là mức
xám ( l ) của ảnh tại điểm đó. Ta có l nằm trong khoảng:

Lmin ≤ l ≤ Lmax

(2.5)

Với:
Lmin = imin rmin

(2.6)

Lmax = imax rmax
Khoảng [Lmin, Lmax] được gọi là thang xám. Hoàn toàn thực tế, có thể dịch
khoảng này đến [ 0, L], trong đó l = 0 là đen và l = L là trắng trong thang xám.
Giá trị tức thời là các dạng mức xám thay đổi liên tục từ đen đến trắng.
Để xử lý bằng máy tính, một hàm ảnh f(x,y) phải được số hoá trong không
gian và biên độ. Số hoá các toạ độ không gian (x,y) gọi là lấy mẫu ảnh và số hoá
theo biên độ là lượng tử hoá mức xám.
Giả thiết có một hình ảnh liên tục f(x,y) được xấp xỉ bằng các mẫu trong
không gian bằng nhau dưới dạng ma trận N x M, trong đó mỗi phần tử của ma
trận là các giá trị rời rạc:
⎡ f (0,0)
⎢ f (1,0)
f ( x, y ) = ⎢

.

⎣ f ( N − 1,0)

f (0,1)
f (1,1)


...
...

.
.
f ( N − 1,1) ...

f (0, M − 1) ⎤
f (1, M − 1) ⎥⎥

.

f ( N − 1, M − 1)⎦

(2.7)

Vế phải (2.7) biểu diễn một ảnh số. Mỗi phần tử của ma trận được gọi là
một pixel.
Quá trình số hoá đòi hỏi các giá trị N, M phải chính xác và số mức xám
không liên tục đối với mỗi pixel. Trong thực tế:

Luận văn thạc só


Trang 19

G = 2m, N = 2n, M = 2k

(2.8)


Trong đó G là số lượng các mức xám. Giả thiết các mức rời rạc có khoảng
cách bằng nhau, chiếm giữa 0 và L trên thang mức xám. Ta có số bit cần lưu một
ảnh số đen trắng là:

b=MxNxm

(2.9)

2.2 HISTOGRAM
Histogram của một ảnh số có các mức xám trong khoảng [0, L-1] là một
hàm rời rạc p(rk) = nk/n, trong đó rk là mức xám thứ k, nk là số pixel trong ảnh có
mức xám này, n là tổng số pixel trong ảnh,và k = 0,1,2,…,L-1.
P(rk) cho một xấp xỉ xác xuất xảy ra mức xám rk. Vẽ hàm này với tất cả các
giá trị k sẽ biểu diễn khái quát sự xuất hiện của một ảnh.
P(rk)

P(rk)

rk

rk

nh tối
P(rk)

nh sáng
P(rk)

rk
nh có độ tương phản thấp


rk
nh có độ tương phản cao

Hình 2.1: Histogram và đặc điểm của ảnh

Luận văn thạc só


Trang 20

2.3 PHÂN ĐOẠN ẢNH
Phân đoạn ảnh là là chia nhỏ một ảnh thành nhiều thành phần. Mức độ chia
nhỏ này phụ thuộc vào vấn đề cần giải quyết. Ta có thể tách điểm, dòng và biên
bằng phương pháp tách không liên tục. Phương pháp này sử dụng một mặt nạ và
dùng tổng của tích các hệ số với các mức xám chứa trong vùng mặt nạ đi qua.

W1

W2

W3

W4

W5

W6

W7


W8

W9

Hình 2.2: Mặt nạ 3x3
Đáp ứng của mặt nạ tại bất kỳ một điểm nào trong ảnh là:
9

R = w1 z1 + w2 z 2 + ... + w9 z 9 = ∑ wi z i

(2.10)

i =1

Trong đó zi là mức xám của pixel liên hiệp với hệ số mặt nạ wi. Thông
thường đáp ứng mặt nạ được định nghóa theo vị trí tâm của nó. Nếu mặt nạ có tâm
trên một pixel liên kết thì đáp ứng được tính bằng cách sử dụng lân cận riêng xấp
xỉ.

2.3.1 Tách dòng
Một dòng có những cột trong đồ thị cường độ thường xuất hiện cùng với các
biên.
Hình 2.3 thể hiện hai loại dòng thường xuất hiện trong ảnh:

Luận văn thạc só


Trang 21


Hình 2.3: Các loại dòng
Tiếp theo là tách các dòng trong ảnh. Mặt nạ các loại được cho trong hình
(2.4). Khi mặt nạ thứ nhất chuyển động xung quanh một ảnh, thì nó sẽ đáp ứng
mạnh đối với dòng chiều ngang. Với nền cố định, đáp ứng sẽ cực đại, nếu dòng đi
qua hàng giữa của mặt nạ. Nó dễ điều chỉnh bằng cách vẽ ra một dãy (array) đơn
giản 1 với một dòng có mức xám khác (ví dụ 5) chạy ngang qua dãy. Mặt nạ thứ
hai đáp ứng tốt nhất cho những dòng theo chiều 45 độ. Mặt nạ thứ ba cho những
dòng đứng. Mặt nạ thứ tư cho những dòng âm 45 độ. Các hướng này có thể xác
lập bằng cách hướng mong muốn của mỗi mặt nạ được nhân với trọng số có giá
trị lớn hơn (ví dụ 2) các hướng khác.
-1

-1

-1

-1

-1

2

2

2

2

-1


2

-1

-1

-1

-1

2

-1

-1

Hướng ngang

Hướng 45 độ

Luận văn thạc só


Trang 22

-1

2

-1


0

-1

0

-1

2

-1

-1

4

-1

-1

2

-1

0

-1

0


Hướng thẳng đứng

Hướng -45 độ

Hình 2.4: Mặt nạ dòng
Cho R1, R2, R3, R4 là các đáp ứng của các mặt nạ trên. Giả thiết tất cả các
mặt nạ chạy qua một ảnh. Nếu tại một điểm nhất định trong ảnh mà Ri > R j với
i#j thì điểm đó có liên hệ nhiều hơn với một dòng theo chiều của mặt nạ i. Ví dụ,
nếu một điểm trong một ảnh có Ri > R j với j = 2,3,4 thì điểm đó có liên hệ
nhiều hơn với dòng ngang.

2.3.2 Tách biên
2.3.2.1 Cơ sở của việc tách biên
Biên là liên kết giữa hai vùng có mức xám tương đối khác nhau. Một biên
hoàn hảo sẽ có sự thay đổi đột ngột về mức xám.

Hình 2.5: Biên hoàn hảo (sự thay đổi đột ngột về mức xám)
Ở hình 2.5, mỗi pixel được biểu diễn với các mức xám từ 0 đến 255.

Luận văn thạc só


Trang 23

Khi biên bị làm mờ,mức xám sẽ biến đổi như hình vẽ sau:

Hình 2.6: Biên mờ
Mặc dù biên ở hình 2.6 không rõ như hình 2.6 nhưng độ thay đổi cũng rất dễ
dàng nhận ra.

Từ những biên ở trên ta nhận thấy những giá trị thang xám thay đổi nhanh
chóng tại những vùng mà đường và biên tồn tại.
Tư tưởng cơ bản của kỹ thuật tách biên là tính vi phân cục bộ.Vi phân bậc
một tại bất kỳ một điểm trong ảnh được thực hiện bằng cách dùng biên độ
Gradient tại điểm đó.Vi phân bậc hai tương tự được thực hiện bằng Laplace.
2.3.2.2 Toán tử Gradient
Gradient của một ảnh f(x,y) tại vị trí (x,y) là vector:
⎡ ∂f ⎤
⎛ G x ⎞ ⎢ ∂x ⎥
∇f = ⎜⎜ ⎟⎟ = ⎢ ⎥
⎝ G y ⎠ ⎢ ∂f ⎥
⎢⎣ ∂y ⎥⎦

(2.11)

Trong taùch đường biên, quan trọng là biên độ vector, gọi là ∇f :

[

∇f = G x2 + G y2

]

1/ 2

(2.12)

Biên độ bằng tốc độ cực đại của f(x,y) tăng trên đơn vị khoảng cách theo
chiều ∇f. Thực tế, ta xấp xỉ ∇f bằng giá trị tuyệt đối:


Luận văn thạc só


Trang 24

(2.13)

∇f ≈ G x + G y

Hướng của vector Gradient là thông số quan trọng. Cho α(x,y) biểu diễn góc
hướng của vector ∇f tại (x,y). Sau đó từ phân tích vector, ta có:
⎛ Gy
⎝ Gx

α ( x, y ) = tan −1 ⎜⎜


⎟⎟


(2.14)

trong đó góc được đo theo trục x.
Có thể tính Gradient của một ảnh dựa trên cơ sở vi phân riêng

∂f
∂f

tại
∂y

∂x

mỗi vị trí pixel. Vi phân có thể thực hiện dưới dạng số bằng nhiều cách. Ví dụ
toán tử Sobel có ưu điểm là có cả hai hiệu ứng vi phân và làm bằng.
Z1

Z2

Z3

-1

-2

-1

-1

0

1

Z4

Z5

Z6

0


0

0

-2

0

2

Z7

Z8

Z9

1

2

1

-1

0

1

Hình 2.7: Vùng ảnh và mặt nạ toán tử Sobel
Vùng ảnh 3×3 có các giá trị mức xám là Z1->Z9.

Gx = (Z7+2Z8+Z9) - (Z1+2Z2+Z3)
Gx = (Z3+2Z6+Z9) - (Z1+2Z4+Z7)
Mặt nạ được chuyển đến vị trí tiếp theo. Sau khi thuật toán được dùng cho
tất cả các vị trí có thể, kết quả sẽ là một ảnh Gradient cũng có kích thước như ảnh
gốc.
2.3.2.3 Toán tử Laplace
Hàm Laplace hai chiều của f(x,y) là đạo hàm bậc hai của f như sau:
∇2 f =

∂2 f ∂2 f
+
∂2x ∂2 y

Luận văn thạc só

(2.13)


×