Tải bản đầy đủ (.doc) (88 trang)

Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng neural

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.01 MB, 88 trang )

ii

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN KHÁNH TÙNG

PHƯƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG MÔ HÌNH TÚI TỪ VÀ MẠNG
NEURAL

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa
học

TS. Nguyễn Toàn Thắng

Thái Nguyên, tháng 06 năm 2016


iii
iiii
LỜI CAM ĐOAN

Tên tôi là Nguyễn Khánh Tùng, học viên cao học lớp 13 C niên khóa
2014- 2016, chuyên nghành Khoa học máy tnh. Tôi xin cam đoan luận văn thạc sĩ:
Phương pháp nhận diện mẫu sử dụng mô hình túi từ và mạng Neural của tự bản
thân tôi tìm hiểu, nghiên cứu dưới sự hướng dẫn của TS. Nguyễn Toàn Thắng. Các chương
trình thực nghiệm do chính bản thân tôi lập trình, các kết quả là hoàn toàn trung thực.
Các tài liệu tham khảo được trích


dẫn và chú thích đầy đủ.
TÁC GIẢ LUẬN VĂN

Nguyễn Khánh Tùng


iv

LỜI CẢM ƠN
Để hoàn thành luận văn này tôi được rất nhiều sự động viên giúp đỡ của các cá
nhân tập thể.
Trước hết, cho tôi xin được bày tỏ lòng biết ơn sâu sắc nhất đến TS Nguyễn
Toàn Thắng đã hướng dẫn tôi thực hiện đề tài nghiên cứu của mình.
Xin cùng bày tỏ lòng biết ơn chân thành tới các thầy, cô giáo người đã đem lại cho
tôi những kiến thức vô cùng quý giá, có ích trong những năm học vừa qua.
Cảm ơn Trung tâm HN&GDTX Thị xã Đông Triều đã hết sức tạo điều kiện cho tôi
trong suốt quá trình học tập.
Cùng xin gửi lời cảm ơn chân thành tới Ban giám hiệu, Phòng Đào tạo, Khoa sau
đại học, Đại học Công nghệ thông tin và Truyền thông Thái Nguyên đã tạo điều kiện cho
tôi trong quá trình học tập và nghiên cứu.
Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp, tập thể lớp Khoa
học máy tnh K13 C Quảng Ninh, những người đã luôn bên tôi, động viên và khuyến khích
tôi trong quá trình thực hiện đề tài nghiên cứu của mình.
HỌC VIÊN

Nguyễn Khánh Tùng


v


MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................i LỜI CẢM
ƠN

............................................................................................................iv

MỤC

LỤC................................................................................................................... v DANH MỤC
CÁC BẢNG........................................................................................vii DANH MỤC CÁC HÌNH
.......................................................................................

viii

MỞ

ĐẦU

..................................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN ....................................................................................... 5
1.1. Khảo sát một số công trình đã được công bố về nhận diện bàn tay ................ 5
1.2.Trích chọn đặc trưng ....................................................................................... 10
1.2.1. Đặt vấn đề ............................................................................................... 10
1.2.2. Đặc trưng màu sắc .................................................................................. 11
1.2.3. Đặc trưng kết cấu.................................................................................... 12
1.2.4. Đặc trưng hình dạng ............................................................................... 13
1.2.5. Đặc trưng cục bộ bất biến ....................................................................... 14
1.3. Phân lớp dữ liệu và mạng neuron .................................................................. 18
1.3.1. Phân lớp dữ liệu ...................................................................................... 18
1.3.2. Các vấn đề liên quan đến phân lớp dữ liệu............................................. 21

1.3.3. Mạng neuron........................................................................................... 22
CHƯƠNG 2. TRÌNH BÀY SỬ DỤNG MÔ HÌNH TÚI TỪ ĐỂ XÂY DỰNG BỘ 29
MÔ TẢ CHO VẬT THỂ VÀ THUẬT TOÁN NHẬN DIỆN VẬT THỂ VỚI MẠNG NEURON
..................................................................................................... 29
2.1. Mô hình túi từ trong phân lớp văn bản .......................................................... 29
2.2. Ý tưởng và Thuật toán .................................................................................. 31
2.3. Diễn giải chi tiết thuật toán ........................................................................... 35
2.3.1. Trích chọn và mô tả đặc trưng với SURF .............................................. 35
2.3.2. Phân cụm đặc trưng SURF và sinh từ điển ............................................ 37
2.3.3.Tạo loại mô tả vật thể mới dựa trên SURF và từ điển để dùng cho mạng
neuron ........................................................................................................................ 40


vi

2.3.4. Huấn luyện và phân lớp với mạng neuron ............................................. 42
CHƯƠNG 3. XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM ............................. 44
3.1. Các lớp xây dựng chương trình ..................................................................... 44
3.2. Chương trình «Hand Recognitor» ................................................................. 49
CHƯƠNG 4. THỬ NGHIỆM THUẬT TOÁN VÀ PHÂN TÍCH KẾT QUẢ......... 60
4.1. Thử nghiệm với các bộ dữ liệu tự tạo ............................................................ 60
4.1.1. Giai đoạn sinh từ điển và huấn luyện ..................................................... 60
4.1.2. Test với bộ dữ liệu chứa các ảnh với nền đơn giản ở nhiều góc nghiêng và
khoảng cách khác nhau ................................................................................ 63
4.1.3. Test với bộ dữ liệu chứa các ảnh có nhiễu ............................................. 67
4.1.4. Test với bộ dữ liệu chứa ảnh bị nhiễu nặng ........................................... 69
4.1.5. Kết luận................................................................................................... 70
4.2. Thử nghiệm với một số bộ dữ liệu mở .......................................................... 71
4.2.1. Thử nghiệm với bộ dữ liệu của Sebastien Marcel .................................. 71
4.2.2. Test với bộ dữ liệu của Đại học Cambridge ........................................... 73

KẾT LUẬN ............................................................................................................... 76
TÀI LIỆU THAM KHẢO......................................................................................... 77


vii

DANH MỤC CÁC BẢNG

Số bảng

Tên bảng

Trang

Bảng 3.1 Mô tả các lớp để xây dựng mạng neuron ........................................ 45
Bảng 3.2 Mô tả các lớp của module SURF..................................................... 46
Bảng 3.3 Mô tả một số lớp thuộc module sinh từ điển ................................... 47
Bảng 4.1. Một số kết quả phân tích số lượng đặc trưng với các giá trị khác nhau của
ngưỡng Hessian. .............................................................................. 62
Bảng4.2. Kết quả test với các bộ dữ liệu hình có kích thước khác nhau ........ 65
Bảng 4.3. Kết quả test với bộ dữ liệu ảnh có nhiễu nhẹ ................................. 68
Bảng 4.4. Kết quả test với bộ dữ liệu có nhiễu ............................................... 70
Bảng 4.5. Kết quả test với bộ dữ liệu Sebastien Marcel ................................. 72
Bảng 4.6. Kết quả thử nghiệm của mô hình CGM.......................................... 73
Bảng. 4.7. Kết quả thử nghiệm với bộ dữ liệu của Đại học Cambridge ......... 75


viii
viiiv
DANH MỤC CÁC HÌNH


Số hình

Tên hình

Trang

Hình 1.1 Găng tay có gắn thiết bị trong HCI .................................................... 6
Hình 1.2. Mô hình bàn tay với 27 DOF do Tomasi xây dựng và nguyên tắc hoạt động
của các phương pháp dựa trên mô hình 3D ..................................... 7
Hình 1.3. Nhận diện bàn tay dựa trên đường biên ............................................ 8
Hình 1.4. Đặc trưng Haar và AdaBoost ............................................................ 9
Hình 1.5 Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kê mờ ... 16
Hình 1.6 Quá trình lựa chọn các điểm hấp dẫn............................................... 17
Hình 1.7 Biểu diễn vector đặc trưng ............................................................... 18
Hình 1.8.cấu trúc cơ bản của một neuron ....................................................... 23
Hình 1.9 Mô hình neuron của Mc. Culloch và Pitts ....................................... 24
Hình 1.10. Mạng truyền thẳng ba lớp ............................................................. 25
Hình 2.1. Mô tả ý tưởng của thuật toán nhận diện vật thể trình bày dựa trên mô hình
túi từ .................................................................................................. 32
Hình 2.2. Sơ đồ tổng quát của thuật toán nhận diện vật thể trình bày ............ 33
Hình 2.3. Đặc trưng được trích chọn bằng SURF........................................... 37
Hình 2.4.Mô tả trực quan quá trình phân cụm và sinh từ điển ....................... 39
Hình 2.5. Vật thể và mô tả BOW tương ứng .................................................. 41
Hình 2.6.Mạng neuron nhiều lớp .................................................................... 42
Hình 3.1 Các lớp để xây dựng mạng neuron .................................................. 45
Hình 3.2 Mô tả các lớp của module SURF ..................................................... 46
Hình 3.3 Các lớp thuộc module sinh từ điển .................................................. 48
Hình 3.4 Giao diện chính của chương trình Hand Recognitor ....................... 49
Hình 3.5. Giao diện module tạo dữ liệu và test thuật toán.............................. 50

Hình 3.6. Tab «Real-time» để tạo bộ dữ liệu .................................................. 51


ix

Hình 3.7. Ví dụ về các ảnh thu được thuộc 4 lớp «Fist», «OK», «Palm»,
«Point» ............................................................................................................ 52
Hình 3.8. Giao diện module tạo dữ liệu và test thuật toán.............................. 53
Hình 3.9. Ứng dụng «BOW params» để lựa chọn tham số ............................ 54
Hình 3.10 Kết quả phân tích bộ ảnh thuộc 4 lớp ............................................ 55
Hình 3.11 Giao diện để tạo và huấn luyện mạng neuron................................ 56
Hình 3.12 Tự động test độ chính xác của thuật toán ...................................... 58
Hình 3.13 Kiểm tra hoạt động của thuật toán ................................................. 59
Hình 3.14 Thử nghiệm nhận diện trong thời gian thực................................... 59
Hình 4.1. Các lớp vật thể trong các bộ dữ liệu ............................................... 60
Hình 4.2. Một phần bộ dữ liệu dùng để sinh từ điển ...................................... 61
Hình 4.3. Bộ dữ liệu huấn luyện. .................................................................... 63
Hình 4.4. Một số hình trong bộ dữ liệu test .................................................... 64
Hình 4.5. Một phần bộ dữ liệu test với nhiễu nhẹ .......................................... 68
Hình 4.6. Một phần bộ dữ liệu thử nghiệm..................................................... 69
Hình 4.7 Các lớp trong bộ dữ liêu Sebastien Marcel...................................... 71
Hình 4.8. Một số hình thuộc lớp A chia làm hai nhóm: nhóm “đơn giản” (hàng trên),
nhóm “phức tạp” (hàng dưới)...................................................... 72
Hình 4.9. Một phần dữ liệu của Đại học Cambridge ..................................... 74


1

MỞ ĐẦU
Ngày nay dưới sự phát triển rộng rãi của các ứng dụng công nghệ thông tin vào

trong cuộc sống, việc tương tác giữa con người và thiết bị ngày càng trở nên quan trọng.
Trước đây, bàn phím và chuột là các giao diện chính để giao tiếp giữa người và máy
tnh. Trong các lĩnh vực khác cần tới các thông tin 3D, chẳng hạn như trò chơi máy tnh,
robot và lĩnh vực thiết kế… các thiết bị cơ khí khác như bóng lăn, cần điều khiển hay các
găng tay dữ liệu đã được sử dụng. Tuy nhiên, con người giao tiếp chủ yếu bởi “nghe” và
“nhìn”, do đó một giao diện người – máy sẽ trực quan hơn nếu con người có thể điều
khiển máy tnh bằng giọng nói hay cử chỉ giống như khi tương tác giữa người với người
trong thế giới thực mà không cần thông qua các thiết bị điều khiển khác như chuột hay
bàn phím. Một ưu điểm khác là người dùng có thể giao tiếp từ xa mà không cần phải có
tiếp xúc vật lý với máy tnh. So với các hệ thống điều khiển bằng lệnh âm thanh, một hệ
thống thị giác sẽ thích hợp hơn trong môi trường ồn ào hoặc trong trường hợp âm thanh
bị nhiễu.
Nhận dạng các cử động của tay người là cách tự nhiên khi tương tác người – máy và
ngày nay nhiều nhà nghiên cứu trong các học viện và ngành công nghiệp đang quan tâm
đến hướng này. Nó cho phép con người tương tác với máy rất dễ dàng và thuận tiện mà
không cần phải mang thêm bất kỳ thiết bị ngoại vi nào. Với mục đích nghiên cứu kỹ thuật
nhận dạng cử chỉ bàn tay người, luận văn sẽ tập trung trình bày một số nội dung chính như
sau:
1. GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI
Tương tác người - máy (Human - Computer Interaction, HCI) là một lĩnh vực
thu hút nhiều nghiên cứu và đã đạt được nhiều kết quả ấn tượng trong thời gian gần
đây. Một trong những bài toán quan trọng của lĩnh vực này là cung cấp khả năng điều
khiển máy tính (hoặc thiết bị) từ xa thông qua camera kết nối với máy. Bài toán này
thường bao gồm các bước: phát hiện đối


2

tượng trong thị trường của camera (ví dụ, tay, mặt, cơ thể người điều khiển hoặc một
thiết bị đặc biệt nào đó dùng để điều khiển); theo dõi chuyển động của đối tượng; nhận

diện hình dạng và cách thức chuyển động của đối tượng. Kết quả nhận diện được sử dụng
để tạo ra các lệnh tương ứng cho máy tính.
Mục đích của đề tài là xây dựng một phương pháp nhận diện mẫu trong các frame
thu trực tiếp từ camera theo thời gian thực để giải quyết bước thứ ba trong bài toán
điều khiển máy tnh từ xa nêu trên. Phương pháp nhận diện này sử dụng mô hình túi từ
(bag-of-features, bag-of-words) kết hợp với phương pháp phân lớp bằng mạng neural.
Trong đó, mô hình túi từ được sử dụng để tạo ra các vector đặc trưng làm dữ liệu đầu
vào cho mạng neural. Phương pháp nhận diện này cần đảm bảo được tốc độ xử lý cao
(để có thể thực hiện trong thời gian thực với dữ liệu thu trực tiếp từ một camera), và có
tính bền vững với một số dạng biến đổi của đối tượng (xoay hình, thay đổi kích thước
và vị trí trong frame). Đối tượng nhận diện chính của đề tài là cử chỉ tay người và một số
đồ vật đơn giản.
2. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
a. Lý thuyết
- Nghiên cứu mô hình túi từ;
- Nghiên cứu một số phương pháp trích chọn đặc trưng trong ảnh số;
- Nghiên cứu một số phương pháp phân cụm dữ liệu đơn giản;
- Nghiên cứu mạng neural nhiều lớp.
b. Thực nghiệm
- Xây dựng chương trình thử nghiệm;
- Thực hiện huấn luyện và test trên một số loại lớp đối tượng (ví dụ, các dạng
của tay người, một số loại đồ vật đơn giản);
- Thực hiện huấn luyện và test trên một số kho dữ liệu cử chỉ (ví dụ, kho dữ
liệu của trường Đại học Cambridge);

Số hóa bởi Trung tâm Học liệu –
ĐHTN





3

- Phân tích, đánh giá kết quả thu được; so sánh kết quả thu được với kết quả của
một số phương pháp nhận diện đã được công bố.
3. HƯỚNG NGHIÊN CỨU CỦA ĐỀ TÀI
- Nghiên cứu một số phương pháp nhận diện mẫu đã được công bố ở trong và
ngoài nước (từ nguồn học liệu tại trung tâm học liệu Đại học Thái Nguyên, trường Đại học
CNTT&TT, các tạp chí online).
- Nghiên cứu mô hình túi từ và cách áp dụng phương pháp này trong xử lý ảnh để
tạo ra vector đặc trưng làm dữ liệu đầu vào cho mạng neural.
- Nghiên cứu và so sánh một số phương pháp trích chọn đặc trưng trong ảnh
số (SURF, SIFT) để lựa chọn phương pháp phù hợp với mô hình túi từ và đáp ứng được yêu
câu đặt ra của đề tài. (tốc độ xử lý, tính bền vững với một số dạng biến đổi của đối tượng
trong ảnh).
- Nghiên cứu cách sử dụng mạng neural nhân tạo trong phân lớp dữ liệu,
trong đó, dữ liệu đầu vào cho mạng neural được tạo ra bằng cách áp dụng mô hình
túi từ.
- Xây dựng dữ liệu để huấn luyện và test; phân tích và đánh giá kết quả thu được;
so sánh kết quả test trên các kho dữ liệu cử chỉ khác nhau; so sánh kết quả thu được bằng
phương pháp trình bày với các phương pháp khác đã được công bố.
4. NỘI DUNG NGHIÊN CỨU Chương
1. Tổng quan
Phần này trình bày các kiến thức cơ bản về nhận diện mẫu, các bài toán trong nhận
diện mẫu, một số phương pháp nhận diện mẫu đã được công bố.
Chương 2. Trình bày sử dụng mô hình túi từ để xây dựng bộ mô tả cho vật thể và
thuật toán nhận diện vật thể với mạng Neuron.

Số hóa bởi Trung tâm Học liệu –
ĐHTN





4

Phần này trình bày chi tiết về mô hình túi từ, cách ứng dụng mô hình này trong
bài toán nhận diện mẫu, lựa chọn thuật toán trích chọn đặc trưng và phân cụm dữ liệu
phù hợp, cách xây dựng vector đăc trưng với mô hình túi từ.
Chương 3. Xây dựng chương trình thử nghiệm
Chương 4. Thử nghiệm và đánh giá kết quả
Phần này trình bày chi tiết về chương trình thử nghiệm, áp dụng chương
trình cho các kho dữ liệu ảnh, phân tích – đánh giá – so sánh kết quả.
5. PHƯƠNG PHÁP NGHIÊN CỨU
- Phương pháp nghiên cứu lý thuyết: Tìm hiểu các tài liệu liên quan tới các phương
pháp nhận diện mẫu trong ảnh số, mô hình túi từ, các phương pháp trích chọn và
biểu diễn đặc trưng, một số thuật toán phân cụm dữ liệu đơn giản, mạng neural nhân
tạo.
- Phương pháp nghiên cứu thực nghiệm: Xây dựng một số kho dữ liệu ảnh; xây
dựng chương trình thử nghiệm; huấn luyện và test thuật toán trên các kho dữ liệu để lấy
dữ liệu đánh giá độ chính xác và tốc độ xử lý của thuật toán.
- Phương pháp trao đổi khoa học: Trao đổi hướng nghiên cứu với người
hướng dẫn và trình bày Seminar với các đồng nghiệp để trình bày và giải quyết các nội
dung luận văn đề ra.
6. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Ý nghĩa khoa học của đề tài là trình bày một thuật toán xây dựng vector đặc trưng
cho đối tượng trên ảnh số. Thuật toán đảm bảo tốc độ xử lý trong thời gian thực với
dữ liệu thu trực tiếp từ camera. Vector đặc trưng đảm bảo được tnh bền vững khi đối
tượng chịu một số biến đổi.


Số hóa bởi Trung tâm Học liệu –
ĐHTN




5

CHƯƠNG 1. TỔNG QUAN
1.1. Khảo sát một số công trình đã được công bố về nhận diện bàn tay
Cử chỉ tay là phương thức giao tiếp tự nhiên và trực quan trong tương tác người –
máy (Human – Computer Interaction). Để thực hiện loại tương tác này người ta cần phát
triển các phương pháp và công cụ gọi là giao diện người máy (Human – Computer
Interface – HCI), cho phép máy tnh nhận diện cử chỉ tay trong thời gian thực. Tuy
nhiên, việc theo dõi chuyển động của tay dựa vào thị giác máy và nhận diện cử chỉ là một
vấn đề khó giải quyết do các cử chỉ tay người rất phức tạp. Sự phức tạp này là do sự đa
dạng của cử chỉ tạo ra bởi một số lượng lớn các bậc tự do (Degree of Freedom – DoF,
thu được trong quá trình mô hình hóa bàn tay người).
Để thực hiện tốt vai trò của mình, các HCI dựa trên cử chỉ tay phải đáp ứng các
yêu cầu về hiệu suất trong thời gian thực, độ chính xác cao trong nhận diện, mức độ
ổn định trước các loại biến đổi khác nhau (ví dụ: thay đổi hướng và cường độ chiếu
sáng, thay đổi về góc nghiêng của đối tượng, v.v…), và khả năng hoạt động với các
phông nền (khung cảnh phía sau người thực hiện cử chỉ) đa dạng.
Để đáp ứng các yêu cầu này, nhiều hệ thống nhận dạng cử chỉ đã sử dụng
những thiết bị đánh dấu bằng màu sắc hoặc găng tay (găng tay gắn cảm biến) để đơn giản
hóa việc thu nhận và xử lý thông tin từ cử chỉ tay [5]. Tuy nhiên, việc sử dụng các thiết bị
đánh dấu hoặc găng tay gây phiền phức cho người sử dụng, đồng thời làm giảm tnh tự
nhiên trong tương tác với máy tnh.

Số hóa bởi Trung tâm Học liệu –

ĐHTN




6

Hình 1.1. Găng tay có gắn thiết bị trong HCI
Luận văn này chỉ tập trung vào việc nhận diện một phần cử chỉ tay, trước hết là
hình dạng của bàn tay, thu từ camera trong thời gian thực và không có sự hỗ trợ của
các thiết bị đánh dấu khác hoặc găng tay.
Có hai nhóm phương pháp chính đối với bài toán nhận dạng cử chỉ tay dựa trên
thị giác: các phương pháp dựa trên mô hình ba chiều của tay (3D hand model); các
phương pháp dựa vào hình dạng bên ngoài của tay [15].
Các phương pháp dựa trên mô hình 3D sử dụng mô hình động học ba chiều của
tay với một số lượng tương đối lướng các bậc tự do [9], [6]–[11]. Các phương pháp này
tnh ra các tham số của tay bằng cách so sánh hình ảnh bàn tay trên các frame với hình
chiếu của mô hình 3D trên mặt phẳng. Các phương pháp này phù hợp với tương tác
trong môi trường ảo, cho phép thu được nhiều tham số của cử chỉ tay, đồng thời cho
phép nhận diện một số lượng lớn các lớp cử chỉ tay. Tuy nhiên, do các mô hình 3-D của
bàn tay là những vật thể biến dạng có khớp nối với nhiều bậc tự do (mô hình 3D tiêu
chuẩn có 27 DOF), để mô tả hình dạng của tay dưới các góc nhìn khác nhau cần một cơ sở
dữ liệu rất lớn. Nhược điểm khác của các phương pháp này là sự khó khăn trong trích
trọn đặc trưng và không có khả năng xử lý những tình huống đặc biệt (phát sinh từ các góc
nhìn không rõ ràng).

Số hóa bởi Trung tâm Học liệu –
ĐHTN





7

Thu nhận hình
qua camera

Xử lý ảnh

Bàn tay
Phát hiện /
Nhận
diện

Điều chỉnh tham số

Chiếu
hình

hình
bàn
tay
Hình 1.2. Mô hình bàn tay với 27 DOF do Tomasi xây dựng và nguyên tắc hoạt động
của các phương pháp dựa trên mô hình 3D

Các phương pháp dựa trên hình dạng (appearance-based) thực hiện trích
trọn đặc trưng để mô hình hóa hình dạng bên ngoài của bàn tay. Khi nhận diện, các
đặc trưng trích ra sẽ được so sánh với các đặc trưng của các lớp đã biết. Các phương
pháp dựa trên hình dạng thường có tốc độ xử lý cao (hoạt động trong thời gian thực) do
việc xử lý hình 2D thường đơn giản hơn. Các phương pháp thuộc nhóm này thường xử

dụng các đặc trưng như màu sắc, đường biên, các điểm hoặc các vùng đặc biệt.
Số hóa bởi Trung tâm Học liệu –
ĐHTN




Trong [10] sử dụng một phương pháp nhận diện đơn giản bằng cách tm kiếm
những vùng màu da trong hình ảnh. Tuy nhiên, phương pháp này có một số yếu điểm: rất
nhạy cảm với điều kiện ánh sáng; không cho phép có các đối tượng giống màu da trong
hình ảnh. Trong [3] sử dụng các đặc trưng màu sắc theo thang đo (scale-space color
features) để nhận diện cử chỉ tay. Tuy nhiên, hệ thống này chỉ hoạt động được trong thời
gian thực khi trong hình không có đối tượng khác trùng màu da.
Các tác giả trong [1] sử dụng đường biên của tay để nhận diện bằng cách tính
toán độ cong tại mỗi điểm trên đường biên. Phương pháp tách biên này thường khó sử
dụng nếu có yếu tố gây nhiễu, khi điều kiện chiếu sáng thay đổi, hoặc khi sử dụng trên
phông nền phức tạp.

Hình 1.3. Nhận diện bàn tay dựa trên đường biên
Gần đây có một số nghiên cứu về các đặc trưng bất biến cục bộ (local invariant
features) [13]–[4]. Trong [13], thuật toán Adaboost và đặc trưng SIFT được sử dụng để
phát hiện bàn tay. Phương pháp này cho phép pháp hiện bàn tay kể cả trong trường
hợp bàn tay xoay trên một mặt phẳng. Phương pháp này cũng đưa ra khái niệm sharing
feature để tăng tốc độ hoạt động và độ chính xác (lên tới 97,8%). Để đạt được tốc độ
nhận diện trong thời gian thực, phương pháp này sử dụng thêm một số loại đặc trưng
khác (vd, contrast context histogram). Trong [2], [4], đặc trưng Haar được sử dụng dụng để
phát hiện bàn tay. Đặc trưng Haar tập trung vào các thông tin trong một vùng nhất định
của hình ảnh thay vì từng pixel riêng rẽ. Để nâng cao độ chính xác khi phân loại và có
được hiệu suất thời gian thực, phương pháp này sử dụng



Adaboost (ghép các classifier đơn giản theo mô hình thác nước để tạo thành một
classifier mạnh).
Nghiên cứu mà Viola và Jones đề xuất [12] cho bài toán phát hiện vật thể trong
thời gian thực cho phép phát hiện bàn tay trên bất kỳ phông nền nào với độ chính xác rất
cao [14]. Phương pháp này phát hiện vật thể nhanh và chính xác nhưng cần thời gian
huấn luyện rất dài và một số lượng hình mẫu rất lớn. Ngoài ra, phương pháp phát hiện
vật thể của Viola-Jones chỉ có thể
được thực hiện với bàn tay nghiêng từ 15 tới 30 độ [7].

Xử lý bổ sung

Cửa sổ con
Cấu trúc thác
nước
Classifier
№1

Classifie
r

2

Classifie
r

3

Cửa sổ con bị loại
bỏ

Hình 1.4. Đặc trưng Haar và AdaBoost

Classifie
r

n


1.2.Trích chọn đặc trưng
1.2.1. Đặt vấn đề
Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trưng thích hợp với
từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tưong ứng là thành
phần quan trọng và then chốt nhất. Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ
giúp tăng cả tốc độ và mức độ chính xác lựa chọn đặc trưng cho ảnh:
- Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng
cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh. Nếu số lượng các đặc trưng quá
nhiều sẽ làm "che khuất" các "tn hiệu" (giảm các "tn hiệu" đối với tỉ lệ nhiễu), mặt khác,
nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tm kiếm.
- Nó phải giảm bớt được độ phức tạp trong lúc tnh toán tổng thể bằng giảm đa
chiều của bài toán phân lớp.
- Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử
dụng các đặc trưng này phải hiệu quả. Vì số lượng các đặc trưng có thể là hàng ngàn, dó
đó thời gian xử lý của module phải tuyến tnh với số lượng đặc trưng.
- Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tnh với số lượng đặc
trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tnh dựa trên phân lớp.
Trong phần này, chúng tôi sẽ trình bày sơ bộ về các vấn đề về đặc trưng của
ảnh (màu sắc, kết cấu, hình dạng, đặc trưng cục bộ SIFT), một số độ đo tương đồng
tương ứng với các đặc trưng và phương pháp lựa chọn đặc trưng ảnh để tăng chất lượng
tập đặc trưng.



1.2.2. Đặc trưng màu sắc
a. Đặc trưng màu sắc
Tìm kiếm ảnh theo lược đồ màu là phương pháp phổ biến và được sử dụng nhiều
nhất trong các hệ thống tm kiếm ảnh theo nội dung. Đây là phương pháp đơn giản, tốc độ
tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác không cao. Đây có
thể xem là bước lọc đầu tiên cho những bước tm kiếm sau. Một số lược đồ màu được sử
dụng như: lược đồ màu RGB, lược đồ màu HSI, lược đồ HSI cải tiến.
Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất.
* Lược đồ màu RGB:
Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồ màu của ảnh
xám. Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết nối về
cường độ của ba kênh màu R, G, B. Luợc đồ màu này được định nghĩa như sau:
h R,G, r, g, b    rob R  x, G  g,  
b

(1.1)

Trong đó N là số lượng điểm có trong ảnh.
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau đó đếm
số điểm ảnh của mỗi màu. Khi mà số lượng màu là có hạng, để thuận tiện hơn, người ta
thường chuyển đổi ba kênh màu thành một biến giá trị duy nhất. Một cách khác để tính
lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt đồ riêng biệt hR[] , hG[] , hB[]. Khi đó,
mỗi lược đồ được tính bằng cách đếm kênh màu tương ứng trong mỗi điểm ảnh.
b. Độ đo tương đồng về màu sắc
Một số độ đo tương đồng được sử dụng như: Độ đo khoảng cách
Euclide, độ đo Jensen-Shannon divergence (JSD).
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M. Khi đó các loại
độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các loại độ đo tương ứng
như sau:



* Khoảng cách Euclide:
Đây là khoảng cách Euclide thông thường giữa các K bin:

Hoặc:


k
Inter sec ton  h    , h      h     h     


 j 1

(1.2)

k
Inter sec ton  h    , h       h     h
 

(1.3)

j 1

* Độ đo Jensen-Shannon divergence (JSD) :
Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tnh
toán độ tương đồng về màu sắc giữa 2 ảnh :


dJSD  ,    m log 2 m m log 2m

  
  
 
m1
m
m

(1.4)
m

m

Trong đó : H và H' là 2 biểu đồ màu được so sánh, Hm là bin thứ m của biểu đồ H.
1.2.3. Đặc trưng kết cấu
a. Đặc trưng kết cấu
Hiện tại, vẫn chưa có một định nghĩa chính thức cụ thể về kết cấu. Kết cấu là một
đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớp những
vùng đó.
Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cường
độ một ảnh. Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ
trong một khu vực láng giềng với nhau. Kết cấu gồm các kết cấu gốc hay nhiều kết cấu gộp
lại đôi khi gọi là texel.
Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như[18]:
* Kim tự tháp "có thể lái được" (the steerable pyramid)
* Biến đổi đường viền (the cotourlet transform)
* Biến đổi Gabor (The Gabor Wavelet transform)


* Biểu diễn ma trận đồng hiện (co-occurrence matrix)
* Hệ thống bộ lọc định hướng phức tạp (The complex directional

fillter bank)
b. Độ đo tương đồng cho kết cấu ảnh
Để đo độ tương đồng theo kết cấu giữa các ảnh, người ta thường sử dụng độ
đo Euclide. Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các vector
nhiều chiều và khoảng cách Euclide được dùng để đo độ tương đồng giữa các đặc trưng
của ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ liệu.
1.2.4. Đặc trưng hình dạng
a. Đặc trưng hình dạng
Màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục trong một ảnh.
Trong khi đó, hình dạng không phải là một thuộc tnh của ảnh. Nói tới hình dạng không
phải là nhắc đến hình dạng của một ảnh. Thay vì vậy, hình dạng có khuynh hướng chỉ
đến một khu vực đặc biệt trong ảnh, hay hình dạng chỉ là biên của một đối tượng nào đó
trong ảnh.
Trong tm kiếm ảnh theo nội dung, hình dạng là một cấp cao hơn so với màu sắc và
kết cấu. Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng.
Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn hình dạng
sau :
* Biểu diễn hình dạng theo đường biên (cotour-based descriptor) : Biểu diễn các
đường biên bao bên ngoài
* Biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng toàn vẹn
b. Độ đo tương đồng cho hình dạng
Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh. Chúng
trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của


việc nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những
hình dạng đặc biệt. Lược đồ hình dạng là một ví dụ của độ đo đơn giản. Kỹ thuật dùng
đường biên hiệu quả hơn phương pháp trước, chúng tm kiếm những hình dạng đối
tượng gần giống với đường biên nhất. Phương pháp vẽ phác họa là phương pháp có nhiều
đặc trưng rõ ràng hơn, không chỉ tm kiếm những đường biên đối tượng đơn, mà còn đối

với tập những đối tượng đã được phân đoạn trong một ảnh mà người dùng vẽ hay cung
cấp.
1.2.5. Đặc trưng cục bộ bất biến
Người ta thường chia đặc trưng cụ bộ thành 2 loại là những điểm trích xuất được từ
điểm "nhô ra" (salient points) của ảnh và đặc trưng SIFT được trích chọn từ các điểm
hấp dẫn Haris (interest points). Trong phần này, chúng tôi sẽ trình bày chi tiết về việc trích
chọn các đặc trưng cục bộ bất biến (Scale Invariant Feature Transform SIFT) của ảnh.
a. Đặc trưng cục bộ bất biến
Phần này trình bày phương pháp trích rút các đặc trưng cục bộ bất biến SIFT của
ảnh. Các đặc trưng này bất biến với việc thay đổi tỉ lệ ảnh, quay ảnh, đôi khi là thay
đổi điểm nhìn và thêm nhiễu ảnh hay thay đổi cường độ chiếu sáng của ảnh. Phương
pháp được lựa chọn có tên là Scale-Invariant Feature Transform (SIFT) và đặc trưng trích
rút đựợc gọi là đặc trưng SIFT (SIFT Feature). Các đặc trưng SIFT này được trích rút ra từ
các điểm hấp dẫn cục bộ (Local Interest Point) .
Điểm hấp dẫn (Interest Point (Keypoint)): Là vị trí (điểm ảnh) "hấp dẫn" trên
ảnh. "Hấp dẫn" ở đây có nghĩa là điểm đó có thể có các đặc trưng bất biến với việc
quay ảnh, co giãn ảnh hay thay đổi cường độ chiếu sáng của ảnh.
Phương pháp trích rút các đặc trưng bất biến SIFT được tiếp cận theo phương
pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các

Số hóa bởi Trung tâm Học liệu –
ĐHTN




bước sau:
* Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema detection):
Bước đầu tiên này tiến hành tm kiếm các điểm hấp dẫn trên tất cả các tỉ lệ và vị
trí của ảnh. Nó sử dụng hàm different-of-Gaussian để xác định tất cả các điểm hấp dẫn

tiềm năng mà bất biến với quy mô và hướng của ảnh.
* Định vị các điểm hấp dẫn (keypoint localization): Một hàm kiểm tra sẽ được đưa
ra để quyết định xem các điểm hấp dẫn tiềm năng có được lựa chọn hay không?
* Xác định hướng cho các điểm hấp dẫn (Orientation assignment):
Xác định hướng cho các điểm hấp dẫn được chọn
* Mô tả các điểm hấp dẫn (Keypoint descriptor): Các điểm hấp dẫn sau khi
được xác định hướng sẽ được mô tả dưới dạng các vector đặc trưng nhiều chiều.
b. Phát hiện điểm cực trị Scale-space
Các điểm hấp dẫn với đặc trưng SIFT tương thích với các cực trị địa phương của
bộ lọc difference -of-Gaussian (DoG) ở các tỉ lệ khác nhau. Định nghĩa không gian tỉ
lệ của một hình ảnh là hàm L(x,y,kσ ) được mô tả như sau:
L  x, y,   G  x, y, k     x,
y

(1.5)

Với G(x, y, kσ ) : biến tỉ lệ Gaussian (variable scale Gaussian)
I (x, y) : Ảnh đầu vào
* là phép nhân chập giữa x và y

 x 2
G  x, y,  
2 e  y2
2

1

2
2


Số hóa bởi Trung tâm Học liệu –
ĐHTN

(1.6)




Để phát hiện được các điểm hấp dẫn, ta đi tm các cực trị của hàm DoG
được định nghĩa:
D  x, y,    G  x, y, k    G  x, y,     
x, y 
D  x, y,   L  x, y, k   L  x, y, 

(1.7)
(1.8)

Giá trị hàm DoG được tnh xấp xỉ dựa vào giá trị scale-normalized
Laplacian of Gaussian (σ 2 2G) thông qua các phương trình
G
  2G

G x, y , kG x ,
y , 
2
 G 

k  

2 2

G  x, y, k   G  x, y,     k  1   G
G

(1.9)

Như vậy, bước đầu tiên của giải thuật SIFT phát hiện các điểm hấp dẫn với bộ lọc
Gaussian ở các tỉ lệ khác nhau và các ảnh GoG từ sự khác nhau của các ảnh kề mờ.

Hình 1.5. Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kê mờ
Các ảnh cuộn được nhóm thành các octave (mỗi octave tương ứng với giá trị gấp
đôi của σ). Giá trị của k được chọn sao cho số lượng ảnh mờ (blured images) cho


c. Định vị điểm hấp dẫn
Mỗi điểm hấp dẫn ứng viên sau khi được chọn sẽ được đánh giá xem có được
giữ lại hay không:
*Loại bỏ các điểm hấp dẫn có độ tương phản hấp
* Một số điểm hấp dẫn dọc theo các cạnh không giữ được tính ổn định khi ảnh bị
nhiễu cũng bị loại bỏ.
Các điểm hấp dẫn còn lại sẽ được xác định hướng.

Hình 1.6. Quá trình lựa chọn các điểm hấp dẫn
a. Ảnh gốc; b. Các điểm hấp dẫn được phát hiện; c. Ảnh sau khi loại bỏ các điểm
hấp dẫn có độ tương phản thấp; d. Ảnh sau loại bỏ các điểm hấp dẫn dọc theo cạnh
d. Xác định hướng cho điểm hấp dẫn
Để xác định hướng cho các điểm hấp dẫn, người ta tính toán biểu đồ hướng
Gradient trong vùng láng giềng của điểm hấp dẫn. Độ lớn và hướng của các điểm hấp dẫn
được xác định theo công thức:



×