Tải bản đầy đủ (.docx) (67 trang)

Nhận dạng đối tượng trong video dùng phương pháp PCA và mạng NEURAL PERCEPTRON

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.06 MB, 67 trang )

BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ VIỄN THÔNG
---------------------

ĐỒ ÁN MÔN HỌC 1
NGÀNH: ĐIỆN TỬ VIỄN THÔNG

Đề tài:

NHẬN DẠNG ĐỐI TƯỢNG TRONG VIDEO
DÙNG PHƯƠNG PHÁP PCA VÀ MẠNG
NEURAL PERCEPTRON

GVHD : ThS. ĐẶNG PHƯỚC HẢI TRANG
SVTH : LƯƠNG NGỌC THẠC
NGUYỄN NGỌC ANH

TP. HỒ CHÍ MINH – 06/2013


LỜI CÁM ƠN

Trong những năm học tập tại trường Đại học Sư phạm Kỹ thuật Tp.Hồ
Chí Minh nhóm thực hiện đề tài đã nhận được sự chỉ dạy của các thầy cô giảng dạy
tại trường, đã học được nhiều kiến thức cũng như kinh nghiệm quý báo từ thầy cô.
Chúng em chân thành gửi lời cám ơn sâu sắc đên quý thầy cô, đặc biệt là thầy Th.S
Đặng Phước Hải Trang đã tận tình giúp đỡ chúng em vượt qua những khó khăn
hoàn thành khóa luận tốt nghiệp một cách suôn sẻ và thành công.
Chúng em cũng xin cám ơn gia đình và bạn bè đã tạo điều kiện và giúp đỡ


chúng em hoàn thành khóa luận tốt đẹp.
Xin chân thành cảm ơn tất cả!

Tp.HCM, ngày 05 tháng 01 năm 2015
Nhóm sinh viên thực hiện

Lương Ngọc Thạch

Nguyễn Nhật Anh

LIỆT KÊ HÌNH
Hình 2. 1: Mô hình màu R-G-B trên tọa độ Decase
Hình 2.2 : Hệ tọa độ trụ cho không gian màu HSV
Hình 2.3: Số hóa ảnh
Hình 2.4: Hình vuông a trên hình cùng 1 mức xám và xuất hiện trên các nền khác
nhau.
Hình 2.5: Phép chiếu lên các trục khác nhau của cùng một vật thể cho các kết quả
nhận định khác nhau
Hình 2.6: PCA tập trung vào hướng tập trung của dữ liệu, giảm chiều.
2


Hình 2.7: Dạng của vector tạo từ ảnh về khuôn mặt
Hình 2.8: Cấu trúc 1 nơ ron (Neural)
Hình 2.9: Cấu trúc mạng neural một lớp
Hình 2.10: Cấu trúc mạng neural nhiều lớp
Hình 2.11: Tiến trình học
Hình 2.12 : Sơ đồ khối mạng lan truyền ngược
Hình 2.13: Mô hình tính toán một neural
Hình 2.14: Đặc trưng Haar-like cơ sở

Hình 2.15: Đặc trưng Haar-like mở rộng cạnh
Hình 2.16: Đăc trưng Haar-like mở rộng đường
Hình 2.17: Đặc trưng Haar-like tâm
Hình 2.18: Integral Image tại vị trí (x,y).
Hình 2.19: Mô tả cách tính tổng pixel của D
Hình 2.20: Lưu đồ giải thuật tổng quát của việc dò tìm và tách khuôn mặt.
Hình 2.20 Mô hình không gian màu RGB.
Hình 3.1: Quy trình thực hiện
Hình 3.2 : Lưu đồ giải thuật dò tìm nhận dạng đối tượng.
Hình 3.3: Lưu đồ giải thuật nhận dạng đối tượng trong video
Hình 3.4 : Giao diện chương trình chính
Hình 3.5: Giao diện chương trình dò tìm khuôn mặt
Hình 3.6a : Kết quả dò tìm khuôn mặt
Hình 3.6b : Kết quả dò tìm khuôn mặt
Hình 3.7a: Kết quả tách khuôn mặt chính xác
Hình 3.7b: Kết quả tách khuôn mặt chính xác
Hình 3.8: Giao diện chương trình nhận dạng
3


Hình 3.9a: Kết quả nhận dạng ảnh tĩnh chính xác
Hình 3.9b: Kết quả nhận dạng ảnh tĩnh chính xác
Hình 3.10a: Nhận dạng sai
Hình 3.10b: Nhận dạng sai
Hình 3.11a: Không nhận dạng được
Hình 3.11b: Không nhận dạng được
Hình 3.12: Giao diện chương trình nhận dạng ảnh động
Hình 3.13a: Kết quả nhận dạng ảnh động chính xác
Hình 3.13b: Kết quả nhận dạng ảnh động chính xác
Hình 3.13c: Kết quả nhận dạng ảnh động chính xác

Hình 3.14: Không nhận dạng được hoặc không chính xác
Hình 3.15a: Nhận dạng sai
Hình 3.15b: Nhận dạng sai

LIỆT KÊ BẢNG
Bảng 3.1: Tỷ lệ nhận dạng mặt trên cơ sở dữ liệu thay đổi của PCA
Bảng 3.2: Bảng hiệu suất nhận dạng theo số neural của lớp ẩn

LIỆT KÊ TỪ VIẾT TẮT
PCA : Principle Component Analysis.
ANN: Artificial Neural Network.
MATLAB: MATrix LABoratory.
SVM: Support Vector Machine.
ISODATA: Interactive Self Organizing Data Analysis.
Pixcel: Picture element.
4


CGA: Color Graphic Adaptor.
bpp : bit per point

LỜI MỞ ĐẦU

Công nghệ sinh trắc học ứng dụng ngày nay đã trở nên rất phổ biến với nhiều
lĩnh vực khác nhau. Ứng dụng đa dạng và tiêu biểu của nó là kỹ thuật nhận dạng đối
tượng. Nhận dạng đối tượng không chỉ là một kỹ thuật mang tính khoa học máy
tính mà còn có cả ý nghĩa trong các lĩnh vực khác như kinh tế, an ninh bảo mật.
Những năm gần đây sự phát triển của nó kéo theo sự phát triển của kỹ thuật xử lý
ảnh trong nhận dạng đối tượng, tuy vẫn còn khá mới mẽ nhưng lĩnh vực này đã
được nghiên cứu phát triển với tốc độ nhanh chóng bởi các trung tâm nghiên cứu,

trường đại học… với nhiều ứng dụng trong các lĩnh vực khác nhau trong đời sống.
Chính vì sự phát triển này mà nhóm thực hiện đề tài đã lựa chọn hướng xử lý ảnh
nhận dạng đối tượng để nghiên cứu tìm hiểu sau thời gian học tập tại trường. Việc
xử lý ảnh nhận dạng đối tượng theo khuôn mặt rất đa dạng về phương pháp vì thuật
toán cũng như chương trình bổ trợ, ở đây nhóm thực hiện dựa theo phương pháp
phân tích thành phần chính, màu da và mạng Neural để thực hiện nhằm tăng tốc khả
năng xử lý phân tích đưa ra kết quả một cách tới ưu nhất có thể. Nhóm đã hoàn
thành đối với việc xử lý, nhận dạng trực tuyến thông qua Webcam của máy tính để
dò tìm đối tượng có trong cơ sở dữ liệu ban đầu, tuy nhiên kết quả cũng còn phụ
thuộc khá nhiều yếu tố của thiết bị, môi trường.

MỤC LỤC

5


Chương 1

TỔNG QUAN
1.1

Lý do chọn đề tài
Những năm gần đây, việc ứng dụng các kỹ thuật sinh trắc học vào giải
quyết những vấn đề thực tiễn đã trở nên ngày một nhiều và phát triển mạnh mẽ.
Một số kỹ thuật sinh trắc đã gần như đi đến mức tối ưu nhất, những kỹ thuật
sinh trắc mang tính phức tạp cao cũng đang dần được giới khoa học kỹ thuật
chinh phục, nắm bắt để đưa vào ứng dụng, như nhận dạng - bảo mật bằng võng
mạc người. Nhiều ứng dụng trong các lĩnh vực mà công nghệ sinh trắc học ứng
dụng vào thị giác máy tính phải kể đến như: nhận dạng đối tượng, bảo mật
thông tin, quản lý và an ninh trật tự…

Hiện đã có rất nhiều công trình nghiên cứu về vấn đề nhận dạng đối
tượng, đối tượng nhắc đến ở đây là một người, nghĩa là việc làm cho máy tính
có thể nhận dạng được một người nào đó là ai với những cơ sở dữ liệu về người
đó thông qua khuôn mặt. Các nghiên cứu này từ lúc kỹ thuật nhận dạng chứng
tỏ được vai trò của mình, đi từ việc đơn giản như tìm một khuôn mặt trong một
tấm ảnh xám, đến ảnh màu, ảnh có nhiều người, cho đến nay đã có các công
trình nghiên cứu cả việc nhận biết cảm xúc của một người thông qua hình ảnh
ghi nhận được về khuôn mặt của người đó.
Việc nhận dạng đối tượng cũng gặp nhiều vấn đề về điều kiện để có được
những bài toán nhận dạng chính xác, cùng với đó cũng đã có nhiều phương pháp
– thuật toán để nhận dạng với những ưu điểm khác nhau, và nhược điểm khác
nhau.
Chính bởi sự phát triển và đóng góp của công nghệ này mang lại, nhóm
thực hiện đã quyết định chọn đề tài: “Nhận Dạng Đối Tượng Trong Video
Dùng Phương Pháp PCA và Mạng Neural Perceptron ” thuộc một lĩnh vực
của công nghệ sinh trắc trong nhận dạng để tìm hiểu nghiên cứu. Tuy đây không
phải là vấn đề mới mẽ, nhưng nhận dạng một đối tượng người trong Video

6


mang một ý nghĩa với nhiều ứng dụng thực tiễn từ đơn giản đến có ý nghĩa kinh
tế - an ninh.

1.2 Mục tiêu cần đạt sau khi thực hiện đề tài:
-

Mô tả được tổng quát về hệ thống xử lý ảnh số.

-


Trình bày được các phương pháp xử lý ảnh số.

-

Trình bày được nguyên lý, các phương pháp nhận dạng, xác định mặt người.

-

Giải quyết được vấn đề nhận dạng khuôn mặt với các góc quay tương đối.

-

Mô phỏng thành công nhận dạng một đối tượng trên Video qua MatLab.

-

Rèn luyện các kỹ năng nghiên cứu, tìm hiểu tài liệu.

1.3 Giới hạn đề tài
Mặc dù đã cố gắng nhưng đề tài vẫn có mặt hạn chế cần giới hạn:
-

Hình ảnh, Video cần có chất lượng tốt, độ sắc nét cao.

Khuôn mặt đối tượng cần đúng với các tiêu chuẩn của một khuôn mặt bình thường,
không biểu thị cảm xúc quá như cười to, mếu mặt… hay bị che khuất bởi các yếu tố
không phải đặc trưng của khuôn mặt như mang khẩu trang, kính mát…góc nghiêng
khuôn mặt không quá 30o cho cả 4 hướng trái – phải – trên – dưới so với goc trực
diện.


-

Các ảnh cơ sở phải đủ lớn, đây cũng là giới hạn lớn nhất và chung nhất của vấn đề
nhận dạng đối tượng.

1.4 Phương pháp nghiên cứu
Đề tài ứng dụng các phương pháp nhận dạng sau và được viết trên nền MatLab:
-

Phương pháp rút trích đặc trưng PCA.

-

Phương pháp màu da.

-

Mạng neural nhân tạo ANN.

7


1.5 Kế hoạch thực hiện
Đề tài được thực hiện trong thời gian học tập tại trường Đại học Sư phạm
Kỹ thuật Tp.Hồ Chí Minh trong 10 tuần từ ngày 28/10/2014 đến ngày
06/01/2015.

1.6 Bố cục
Nội dung báo cáo của đề tài có 4 chương như sau:

-

Chương 1: Tổng quan. Giới thiệu tổng quát về vấn đề nhận dạng, những lý do để
lựa chọn đề tài vì tính ứng dụng của việc nhận dạng đối tượng.

-

Chương 2: Cơ sở lý thuyết. Trình bày về các lý thuyết cơ bản về ảnh số, xử lý ảnh
số. Lý thuyết về các phương pháp nhận dạng và thuật toán trong nhận dạng đối
tượng gồm: Phân tích thành phần chính PCA, màu da, thuật toán Adaboost và mạng
Neural nhân tạo

-

Chương 3: Quá trình thực hiện, kết quả mô phỏng. Trình bày về sơ đồ giải thuật các
phương pháp và kết quả mô phỏng khi chạy chương trình nhận dạng đối tượng trên
MatLab.
-

Chương 4: Kết luận và hướng phát triển.

Chương 2

CƠ SỞ LÝ THUYẾT
2.1

Lý thuyết cơ bản về ảnh số và xử lý ảnh số
2.1.1 Ảnh số
Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng. Để
xử lý ảnh ta cần số hóa nó cho phù hợp với thiết bị máy tính. Ta biến đổi nó từ liên

tục sang rời rạc về mặt không gian lẫn giá trị sao cho mắt thường vẫn không phân
biệt sự khác biệt, rời rạc của nó.

8


2.1.2 Điểm ảnh
Điểm ảnh được xem như là điểm màu hay cường độ sáng tại 1 tọa độ trong
không gian của ma trận ảnh đối tượng, là một ma trận 2 chiều. Điểm ảnh là phần tử
nhỏ nhất của ảnh và thường được gọi là pixel (picture element).
Mỗi điểm ảnh chỉ là một màu sắc tại một thời điểm. Tuy nhiên, do đặc điểm
mắt người và vì chúng quá nhỏ nên các điểm ảnh thường pha trộn với nhau để hình
thành các cảm nhận về màu sắc khác nhau. Số lượng màu sắc của điểm ảnh được
xác định bởi số lượng bit đại diện cho điểm ảnh trên hệ thống. Ví dụ, một điểm ảnh
được biểu diễn 8 bit thì có 28 hay 256 màu sắc được hiển thị. Hay với kỹ thuât hiện
nay, ảnh màu được lưu trữ tại mỗi Pixel là 3 Byte, nghĩa là ta sẽ có khoảng 16,7
triệu màu cho Pixel đó.
2.1.3

Biểu diễn ảnh số hóa
Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh
gần với ảnh thật. Số hóa ảnh, như đã nói ở trên là việc ta biểu diễn một ảnh thật hiển
thị trên thiết bị số. Ví dụ màn hình (Monitor), màn hình có nhiều loại với kích thước
và độ phân giải khác nhau như:
+ CGA: 640x320 , 16 màu.
+ EGA: 640x350, 16 màu.
+ VGA: 640x480, 16 màu.
+ SVGA: 1024x768, 256 màu.

2.1.4


Độ phân giải của ảnh
Độ phân giải ảnh (Resolution): là mật độ điểm ảnh được ấn định trên một
ảnh số được biểu thị.
Khoảng cách giữa các điểm ảnh được chọn sao cho mắt người vẫn thấy được
sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp đó tạo nên một mật độ
phân bố, đó chính là độ phân giải và được phân bố theo trục x và y trong một không
gian hai chiều của ảnh.

9


Các kỹ thuật ngày nay đã cho phép các thiết bị có thể thu nhận ảnh có độ
phân giải lên đến vài chục MegaPixel như các thiết bị di động của Nokia, nay thuộc
về Microsoft, nhưng để đạt đến độ phân giải chân thật như mắt người của chúng ta
thì phải lên đến vài trăm MegaPixel, vài năm gần đây có một công trình nghiên cứu
đã thành công tạo ra một siêu máy ảnh có độ phân giải len đến 50GigaPixel (theo
Tạp chí khoa học trực tuyến hàng đầu thế giới Nature). Tuy nhiên, một bức ảnh có
độ phân giải khoảng từ 5 đến 8 MP cũng đủ để ta cảm nhận độ nét của nó.
2.1.5

Mức xám của ảnh
Mức xám của điểm ảnh là cường độ sáng của điểm ảnh đó được gán bằng
giá trị số tại điểm biểu diễn đó.
Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là
mức phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức
xám: Mức xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255).

2.1.6


Độ sâu bit
Định nghĩa: Độ sâu bit (BitDepth ) được hiểu là số bit dùng để biểu diễn giá
trị số (mức xám) cho một điểm ảnh. Ví dụ: Trong MatLab, ảnh trắng đen ảnh xám
có thể là 8, 12 hoặc 16 và ảnh màu là 8 hoặc 12.

2.1.7

Dải động
Dải động của một ảnh là dãy các giá trị độ sáng, từ sáng nhất đến tối nhất.
Dải động càng rộng thì sự chuyển tiếp và độ chi tiết về màu sắc của ảnh càng rõ
ràng, nói một cách khác là dải động rộng sẽ tái hiện màu sắc sống động và chân
thực hơn.

2.1.8

Không gian màu
2.1.8.1 Màu sắc
Màu sắc là con đẻ của ánh sáng. Màu sắc mà chúng ta phân biệt từ ánh sáng
là những cảm giác. Sự phản chiếu của ánh sáng trên những vật thể màu sắc ánh
sáng. Màu của vật thể mà ta cảm nhận được là sự cộng hưởng của màu ánh sáng với

10


màu của bản thân vật thể đó, màu của các sự vật lân cận tác động vào, màu của bầu
khí quyển đang bao bọc chung quanh đó nữa.
Mắt người có thể cảm nhận được hàng ngàn màu nhưng chỉ có thể phân biệt
được vài chục màu. Ba thuộc tính của một màu đó là sắc (Ton), quang độ (Valuer),
độ sáng (Intensity):
-


Sắc: Độ đậm hoặc nhạt của một màu nào đó khi pha trắng hoặc pha đen.

-

Quang độ: Độ sáng hoặc tối của một màu, là tác dụng liên kết giữa các độ đậm nhạt
này với độ đậm nhạt kia. Ví dụ: trong vòng thuần sắc, vàng là màu có đỉnh quang
độ sáng nhất, tím là màu có đỉnh quang độ tối nhất.

-

Cường độ: Là mức độ mạnh hay yếu của một màu nào đó (thị giác cảm nhận được
độ tươi thắm) do Sự kích thích thị giác. Ví dụ: Vàng: Quang độ sáng hơn. Cam:
Cường độ mạnh hơn do độ tươi thắm của nó.
2.1.8.2 Không gian màu RGB (Red, Green, Bule)
Không gian màu RGB (Red - Đỏ, Green - lục, Bule – Lam) được sử dụng
phổ biến nhất. Những màu gốc này (RGB) được thêm vào những màu gốc khác
điều đó tạo nên sự đóng góp riêng của từng màu gốc để mang lại kết quả khác nhau.
Tập hợp các màu nhỏ thành phần sắp xếp theo khối lập phương đơn vị, đường chéo
chính của khối lập phương và sự cân bằng về số lượng từng màu gốc tương ứng với
mức độ xám là đen (0, 0, 0) và trắng (1, 1, 1).

11


Hình 2. 1: Mô hình màu R-G-B trên tọa độ Decase
2.1.8.3 Không gian màu HSV
Không gian màu HSV (H-Hue: độ sắc, S-Saturation: độ bão hòa, V-Value:
giá trị) là một hệ tọa độ trụ mô tả không gian màu RGB. So với không gian màu
RGB thì không gian màu này trực quan hơn.

Giá trị H được thể hiện thông qua góc vòng tròn. Đi theo hướng ngược chiều
kim đồng hồ, tại giá trị 0o là màu đỏ, sau đó biến thiên đến màu lục tại giá trị 120 o,
màu lam tại 240o và quay trở về màu đỏ 360o.

Hình 2.2 : Hệ tọa độ trụ cho không gian màu HSV
2.1.9 Thu nhận ảnh
2.1.8.1

Thiết bị thu nhận ảnh
- Máy quay (Camera) cộng với bộ chuyển đổi tương tự số với các máy quay
số.
- Máy quét (Scaners) chuyên dụng.
- Các bộ cảm biến ảnh (Sensors)- cảm biến ánh sáng.
Hệ thống thu nhận ảnh thực hiện 2 quá trình:
+ Cảm biến: biến đổi năng lượng quang học thành năng lượng điện.
+ Tổng hợp năng lượng điện thành ảnh điện.
12


Số hóa ảnh

2.1.8.2
-

Ảnh thu được từ các thiết bị thu nhận ảnh có thể là ảnh tương tự hoặc ảnh
số. Trong trường hợp ảnh tương tự, chúng ta phải tiến hành quá trình số hóa ảnh để
có thể xử lý được bằng máy tính.

-


Phương pháp chung để số hóa ảnh là lấy mẫu theo hàng và mã hóa từng hàng.
-

Nguyên tắc số hóa ảnh có thể được mô tả theo sơ đồ sau:

Hình 2.3: Số hóa ảnh
+ Ảnh đầu vào là ảnh tương tự.
+ Tiến trình lấy mẫu thực hiện các công việc sau: Quét ảnh theo hàng, và lấy
mẫu theo từng hàng. Đầu ra là rời rạc về mặt không gian, nhưng liên tục về
mặt biên độ.
+ Tiến trình lượng tử hóa: lượng tử hóa về mặt biên độ (độ sáng) cho dòng
ảnh vừa được rời rạc hóa.
2.1.8.3

Xử lý và nâng cao chất lượng ảnh
- Nâng cao chất lượng ảnh là một bước quan trọng tạo tiền đề cho xử lý ảnh.
- Mục đích: làm nổi bật một số đặc tính của ảnh như thay đổi độ tương phản,
lọc nhiễu, nổi biên, làm trơn biên, khuếch đại ảnh…
- Tăng cường ảnh: Nhằm hoàn thiện trạng thái quan sát của một ảnh. Bao
gồm điều khiển mức xám, thay đổi độ tương phản, giảm nhiễu, làm trơn, nội suy…
2.1.10 Tăng cường ảnh
2.1.10.1 Các kỹ thuật tăng cường ảnh sử dụng toán tử điểm

13


Xử lý điểm ảnh là 1 trong các phép xử lý cơ bản và đơn giản. Có 2 cách tiếp
cận trong cách xử lý này:
- Dùng 1 hàm thích hợp (hàm tuyến tính hay hàm phi tuyến) tùy theo mục
đích cải thiện ảnh để biến đổi giá trị của điểm ảnh (mức xám, độ sáng) sang một giá

trị khác (mức xám mới).
- Dựa vào kỹ thuật biến đổi lược đồ xám (Histogram). Lược đồ xám là biểu
đồ trực quan về tất cả các màu sắc và sắc độ (tones).

2.1.10.2

Tăng độ tương phản

Trước hết chúng ta sẽ làm rõ khái niệm độ tương phản. Ảnh số là tập hợp các
điểm mà mỗi điểm có giá trị sáng khác nhau, ở đây độ sáng để mắt người dễ cảm
nhận ảnh nhưng không phải yếu tố quyết định. Thực tế chỉ ra rằng hai đối tượng có
cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm nhận khác nhau với mắt
người.
Như vậy, độ tương phản biểu diễn sự thay đổi độ sáng của đối tượng so với
nền, một cách nôm na độ tương phản là độ nổi của điểm ảnh hay vùng ảnh so với
nền. Với khái niệm này, nếu ảnh của ta có độ tương phản kém, ta có thể thay đổi tuỳ
theo ý muốn.

Hình 2.4: Hình vuông a trên hình cùng 1 mức xám và xuất hiện trên các nền khác
nhau.
2.1.10.3 Trích chọn bit
-

Mục đích việc trích chọn bit (Bit Plane Slicing) là làm nổi bật các thành phần trên
toàn ảnh bởi việc sử dụng các bit đặc biệt trong việc xử lý ảnh.

-

Mỗi mức xám u của 1 điểm ảnh được mã hóa trên B bit, và được biểu diễn:
14



(2.1)

Trong đó:



,a là cận có thể chọn khi xem xét lược đồ ảnh xám
-

Trong các bit mã hóa, người ta chia làm 2 loại: bit bậc thấp và bit bậc cao. Với bit
bậc cao, độ bảo toàn thông tin cao hơn so với bit bậc thấp, do đó các bit bậc thấp
thường được chỉ dùng để biểu diễn nhiễu hoặc biểu diễn nền.

2.1.10.4

Tách biên ảnh
Điểm Biên: Một điểm ảnh được coi là điểm biên nếu có sự thay đổi nhanh
hay rất đột ngột về mức xám (hoặc màu) so với điểm lân cận của nó. Ví dụ: trong
ảnh nhị phân, điểm đen gọi là điểm biên nếu lân cận nó có ít nhất một điểm trắng.
Đường biên (đường bao - boundary): là một tập hợp các điểm biên liên tiếp
nhau tạo thành một đường biên ảnh hay còn gọi là đường bao ảnh.
Ý nghĩa của đường biên trong xử lý:

-

Thứ nhất: đường biên là một loại đặc trưng cục bộ tiêu biểu trong phân tích, xử lý,
nhận dạng ảnh.


-

Thứ hai: người ta sử dụng biên làm phân cách các vùng xám (màu) cách biệt.
Ngược lại, người ta cũng sử dụng các vùng ảnh để tìm đường phân cách.

15


2.1.11 Các bước tách biên
Bước 1: Khử nhiễu, vì ảnh thu được thường có nhiễu do môi trường hoặc do
thiết bị thu nhận không tốt. Có thể dùng các phương pháp lọc tuyến tính lẫn phi
tuyến.
Bước 2: Làm nổi biên, sử dụng các toán tử đạo hàm.
Bước 3: Định vị biên. Vì kỹ thuật nổi biên có hiệu ứng phụ là tăng nhiễu làm
một số biên giả cần phải loại bỏ biên giả.
Bước 4: Liên kết và trích chọn biên.
Bước 5: Làm mảnh biên. Làm cho nổi biên với độ rộng 1 pixel, kỹ thuật
Laplace cho ra biên với độ rộng pixel nhưng một số kỹ thuật khác thì không được
kết quả mong muốn như vậy.
Bước 6: Nhị phân hóa đường biên. Giai đoạn then chốt của quá trình trích
chọn vì nó xác định đường bao nào thực sự cần và đường bao nào có thể loại bỏ,
thường làm theo cách thức giảm nhiễu hoặc tránh kéo sợi trên ảnh. Cho kết quả tốt
khi ảnh có tương phản cao và ngược lại sẽ làm mất một phần đường bao hay bị mất
chân không khép kín.
Bước 7: Miêu tả đường biên. Tách mỗi biên và gán cho nó một mã, phân tích
và làm giảm lượng thông tin dùng để miêu tả đối tượng. Có nhiều phương án khác
nhau, mỗi phương án tùy thuộc vào loại ứng dụng, có thể thêm vào các điều kiện
nhằm loại bỏ các đường biên không khép kín từ bước nhị phân hóa đường biên hay
các chân rết bám theo đường biên.
2.1.12 Phân loại các kỹ thuật phát hiện biên

Từ định nghĩa toán học của biên người ta sử dụng hai phương pháp phát hiện
biên chính sau:
2.1.12.1 Phương pháp phát hiện biên trực tiếp

Phương pháp này chủ yếu dựa vào sự biến thiên giá trị độ sáng của điểm ảnh
để làm nổi biên bằng kỹ thuật đạo hàm. Nếu lấy đạo hàm bậc nhất của ảnh: ta có

16


phương pháp Gradient, nếu lấy đạo hàm bậc hai của ảnh: ta có phương pháp
Laplace.
Hai phương pháp này được gọi là phương pháp dò biên cục bộ. Ngoài ra, còn
có phương pháp “đi theo đường bao” dựa vào công cụ toán học là nguyên lý qui
hoạch động và được gọi là phương pháp dò biên tổng thể.
Loại phương pháp này hiệu quả vì ít bị ảnh hưởng nhiễu nhưng lại bị ảnh
hưởng nếu sự thay đổi mức xám không đột ngột như định nghĩa, nếu chỉ có sự thay
đổi nhẹ về mức xám thì phương pháp sẽ cho hiệu quả kém.
2.1.12.2

Phương pháp phát hiện biên gián tiếp
Nếu bằng cách nào đấy, chúng ta thu được các vùng ảnh khác nhau thì

đường phân cách giữa các vùng đó chính là các biên của ảnh. Nói cách khác, việc
xác định đường bao của ảnh được thực hiện từ ảnh đã được phân vùng.
Phương pháp dò biên gián tiếp khó cài đặt nhưng áp dụng tốt khi sự biến thiên độ
sáng nhỏ.

2.1.13


Các phương pháp phát hiện biên

2.1.13.1 Phương pháp phát hiện biên trực tiếp (phát hiện biên cục bộ)
2.1.13.1.1 Phương pháp phát hiện biên dựa trên Gradient của ảnh

- Gradient là một véctơ có các thành phần biểu thị tốc độ thay đổi giá trị của
điểm ảnh theo 2 hướng x và y.
- Phương pháp này là dựa vào cực đại của đạo hàm.
- Tính biên độ biến thiên tại mỗi điểm ảnh theo công thức Gradient:
(2.2)

Trong đó g(m,n) là biên độ gradient
gx là gradient theo hướng x của điểm ảnh.
gy là gradient theo hướng y của điểm ảnh.
17


-

So sánh biên độ biến thiên với 1 ngưỡng tùy chọn T:
Nếu g(m,n) >= T : đây là biên ảnh.
Nếu g(m,n) < T

-

: đây không là biên ảnh.

Kỹ thuật Gradient lại chia nhỏ thành 2 kỹ thuật nhỏ là kỹ thuật Gradient và kỹ thuật
la bàn, với việc sử dụng 2 toán tử khác nhau: gradient đạo hàm theo 2 hướng trong
khi la bàn theo 8 hướng khác nhau.


2.1.13.1.2 Kỹ thuật Gradient

Để đơn giản mà không mất tính chất của phương pháp Gradient, người ta sử
dụng kỹ thuật Gradient dùng cặp mặt nạ H1, H2 trực giao (theo 2 hướng vuông
góc). Một số toán tử Gradient tiêu biểu như:
-

Robert
H1 =

-

H2 =

Sobel
H1 =

-

H2

=

H2

=

Prewitt
H1 =


18


-

Đẳng hướng (Isometric)
H1 =

H2

=

2.1.13.2 Toán tử la bàn

Có nhiều toán tử la bàn khác nhau. Trong phạm vi tài liệu này, ta xem xét
toán tử la bàn Kirsh đặc trưng bởi tám mặt nạ với kích thước 3x3 như sau:
H1 =

H2

=

H3 =

H4

=

19



H5 =

H6

=

H7 =

H8

=

Các ma trận biểu diễn cho các hướng, hướng gốc 0o chọn là H1 thì theo thứ
tự các ma trận từ H2 đến H8 đại diện cho sự thay đổi với khoảng cách 45 o, 90o, 135o,
180o, 225o, 270o, 315o. Cuối cùng là trở về H1 cũng như hướng 360o.
Ký hiệu Ai; i= 1, 2, …, 8 là Gradient theo 8 hướng như 8 mặt nạ kể trên, khi đó biên
độ Gradient tại (x,y) được tính theo:

(2.3)

Trong trường hợp tổng quát, nếu ta chọn không gian la bàn có n hướng cách
đều tương ứng với các mặt nạ Wi, i= 1, 2,…, n đối với một ảnh I thì:
A(x,y) = Max(

, i=1, 2,…,n)

2.1.13.3 Kỹ thuật Laplace


20

(2.4)


Tuy phương pháp Gradient cho kết quả khá tốt nhưng chỉ khi mà độ sáng
thay đổi rõ nét, tức là mức xám thay đổi nhanh như định nghĩa ban đầu bề điểm
biên, vậy trong những ảnh có miền chuyển tiếp rộng, người ta nghĩ đến biện pháp
khắc phục cho kỹ thuật gradient, trong đó việc sử dụng đạo hàm riêng bậc nhất ban
đầu sẽ thay bằng sử dụng đạo hàm riêng bậc hai hay toán tử Laplace. Phương pháp
dò biên theo toán tử Laplace thực tế đã chứng minh nó có thể khắc phục những
nhược điểm đã nhắc ở trên của kỹ thuật gradient.
Toán tử Laplace được định nghĩa như sau:

(2.5)
Kỹ thuật theo toán tử Laplace cho chúng ta một đường biên mảnh có độ rộng
1 pixel. Tuy nhiên kỹ thuật này rất nhạy với nhiễu và còn tạo ra biên kép, do vậy
người ta còn đề xuất thêm ngoài dùng toán tử Laplace thì dùng kèm thêm xấp xỉ
Laplace – Gauss để tìm điểm không h(m,n), để khi tìm tích chập điểm này với cắt
điểm không cho trước của ảnh sẽ cho ta vị trí của biên ảnh.
2.1.13.4 Kỹ thuật đạo hàm tích chập - phương pháp canny

Bộ tách sườn ảnh do Canny khởi xướng tại phòng thí nghiệm MIT năm 1986
thực hiện dựa trên việc lấy đạo hàm của một ảnh chập với bộ lọc Gauss. Đây là
phương pháp tách đường biên khá được phổ biến được dùng theo toán tử đạo hàm.
Như đã nói, phương pháp đạo hàm chịu ảnh hưởng lớn của nhiễu. Phương pháp đạt
hiệu quả cao khi xấp xỉ đạo hàm bậc nhất của Gauss.

(2.6)
với fx , fy là các đạo hàm riêng theo x và y của f.

2.1.14

Dò biên theo quy hoạch động

21


Dò biên theo phương pháp Gradient là xác định cực trị cục bộ của Gradient
theo các hướng; phương pháp Laplace dựa vào cắt điểm không của đạo hàm bậc
hai. Còn phương pháp dò biên theo quy hoạch động là phương pháp tìm cực trị tổng
thể của các quá trình nhiều bước.
Dựa vào nguyên lý tối ưu của Bellman: “Con đường tối ưu giữa 2 điểm cho
trước cũng là tối ưu giữa 2 điểm bất kỳ nằm trên đường tối ưu đó”.
2.1.15

Phân vùng ảnh
2.1.15.1 Định nghĩa, phân loại

Vùng ảnh là một chi tiết trong toàn cảnh, tập hợp của các điểm có cùng hoặc
gần cùng một tính chất, thuộc tính nào đó như mức xám, mức màu…
Phân vùng ảnh là chia ảnh thành các vùng không trùng lắp. Mỗi vùng là một
nhóm pixel liên thông và đồng nhất theo một tiêu chí nào đó. Tiêu chí này phụ
thuộc vào mục tiêu của quá trình phân vùng. Ví dụ như đồng nhất về màu sắc, mức
xám, kết cấu, độ sâu của các lớp… kết quả sau khi phân vùng ảnh là mỗi pixel trong
toàn ảnh chỉ thuộc về một vùng duy nhất.
Do việc phân vùng ảnh là dựa vào những đặc tính vật lý của nhóm các pixel
nên có nhiều kỹ thuật phân vùng khác nhau:
+ Dựa theo các miền liên thông ta gọi là kỹ thuật phân loại theo miền đồng
nhất hay miền kề.
+ Dựa vào biên ta có kỹ thuật phân vùng biên.

+ Ngoài ra còn có phân vùng theo biên độ, phân vùng theo kết cấu.
2.1.15.2 Phân vùng ảnh theo ngưỡng biên độ

Biên độ của các tính chất vật lý ( độ sáng, độ tương phản, màu sắc…) là một
đặc tính đơn giản và dễ xử lý.
Như vậy, có thể dùng ngưỡng biên độ để phân vùng khi biên độ đủ lớn đặc
trưng cho ảnh. Thí dụ, biên độ trong bộ cảm biến ảnh hồng ngoại có thể phản ánh
vùng có nhiệt độ thấp hay vùng có nhiệt độ cao. Kỹ thuật phân ngưỡng theo biên độ
rất có lợi đối với ảnh nhị phân như văn bản in, đồ họa, ảnh màu hay ảnh X-quang.
22


Sau khi phân vùng, nếu kết quả cho ra ảnh chưa được rõ nét thì ta cần điều
chỉnh ngưỡng. Phương pháp thông dụng thường được dùng là ISODATA cho phép
ta điều chỉnh ngưỡng từng bước đến khi có một phân vùng rõ nét nhất.
2.1.15.3 Phân vùng ảnh theo miền đồng nhất

Dựa vào các tính chất quan trọng của miền ảnh là nền tảng của kỹ thuật phân
vùng ảnh theo miền đồng nhất, kỹ thuật này khi lựa chọn các tính chất sẽ đưa ra các
tiêu chuẩn phân vùng tùy thuộc vào tính chất được lựa chọn là gì. Do đó việc lựa
chọn, xác định rõ tính đồng nhất của các điểm ảnh là tính chất nào là việc quan
trọng.
Các phương pháp phân vùng ảnh theo miền đồng nhất thường áp dụng là :
+ Phương pháp tách cây tứ phân .
+ Phương pháp cục bộ.
+ Phương pháp tổng hợp.
Các tiêu chuẩn hay được sử dụng là sự thuần nhất về mức xám, màu sắc kết
cấu sợi và chuyển động.
2.1.15.4 Phân vùng ảnh theo kết cấu bề mặt


Phân vùng ảnh theo kết cấu bề mặt (TEXTURE), kết cấu thường được nhận
biết trên bề mặt của các đối tượng như gỗ, cát, vải vóc…Kết cấu là thuật ngữ phản
ánh sự lặp lại của các phần tử sợi (texel) cơ bản. Sự lặp lại này có thể ngẫu nhiên
hay có tính chu kì hoặc gần chu kì. Một texel chứa rất nhiều điểm ảnh. Trong phân
tích ảnh, kết cấu được chia làm hai loại chính là: loại thống kê và loại cấu trúc.
Loại thống kê phù hợp với những loại kết cấu tự nhiên mang tính ngẫu
nhiên, người ta có thể sử dụng các hàm tự tương quan, ma trận tương tranh, các
biến đổi mật độ, các kỹ thuật lọc tuyến tính…
2.2 Các phương pháp nhận dạng
2.2.1 Phương pháp phân tích thành phần chính
2.2.1.1 Phân tích thành phần chính

23


Phân tích thành phần chính (PCA) là một thuật toán được sử dụng để tạo ra
một ảnh mới từ ảnh ban đầu. Mục đích của phương pháp PCA là loại bỏ các hướng
thành phần trong không gian dữ liệu xây dựng từ tập huấn luyện, chỉ giữ lại những
thành phần đặc trưng nhất của nó.
PCA sẽ làm giảm số chiều của vector ảnh dữ liệu, giống như việc nó loại bỏ
một số hướng xây dựng một hệ không gian mới nhỏ hơn không gian ban đầu của dữ
liệu ít chiều hơn nhưng vẫn giữ được những đặc trưng tương đương với không gian
cũ biểu diễn, đảm bảo được độ biến thiên của dữ liệu trên mỗi chiều mới sau khi
PCA xây dựng.
Nói cách nôm na, với cùng một vật thể, với mỗi hệ trục khác nhau cho một
cách nhìn khác nhau, đối với dữ liệu của chúng ta cũng như vậy.

Hình 2.5: Phép chiếu lên các trục khác nhau của cùng một vật thể cho các
kết quả nhận định khác nhau


Hình 2.6: PCA tập trung vào hướng tập trung của dữ liệu, giảm số chiều.
2.2.1.2 Nội dung thuật toán
2.2.1.2.1 Không gian mới được tạo bởi PCA được cấu thành từ K vector có chiều là
N. Mỗi vector được gọi là một eigenface.
Gọi P là số ảnh của tập ảnh huấn luyện, mỗi ảnh được chuyển thành vector N
chiều (N là kích thước ảnh). Ta có tập hợp ảnh đầu vào X={x1,x2,…,xP}.
Tính vector ảnh trung bình:
24


m=

(2.7)

Sự khác biệt giữa những khuôn mặt với ảnh trung bình là những vector:

(2.8)
Ma trận tương quan của A là
T

(2.9)

Do A có kích thước NxP, nên C có kích thước là NxN. Kích thước của C là
quá lớn nên không thể tìm được những giá trị riêng và vector riêng trực tiếp được,
thay vào đó ta tìm những giá trị riêng và vector riêng của ma trận A TA có kích
thước PxP( các trị riêng của A.AT cũng là các trị riêng của ATA).
Gọi các giá trị riêng của C là λ1,λ2,…,λP sắp xếp theo thứ tự giảm dần, tương
ứng với P vector riêng u1,u2,…,uP. Các vector riêng này trực giao từng đôi một. Mỗi
vector riêng ui được gọi là một eigenface.
Tập hợp các vector ban đầu biểu diễn trong không gian tạo bởi N eigenface

được mô tả:
1

1

2

2

N

N

(2.10)

Thông thường chỉ lấy K vector riêng u i ứng với K trị riêng λi có giá trị lớn
nhất:

25


×