Tải bản đầy đủ (.pdf) (75 trang)

TÁI NHẬN DẠNG NHÂN vật sử DỤNG đặc TRƯNG NGỮ NGHĨA loại tài liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.33 MB, 75 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH

NGUYỄN HỮU PHƯỚC

LUẬN VĂN THẠC SĨ

TÁI NHẬN DẠNG NHÂN VẬT
SỬ DỤNG ĐẶC TRƯNG NGỮ NGHĨA

NGÀNH KHOA HỌC MÁY TÍNH
GIẢNG VIÊN HƯỚNG DẪN:
TS. NGÔ ĐỨC THÀNH

TP. HỒ CHÍ MINH, 2016


LỜI CẢM ƠN
Em xin chân thành cảm ơn và sự tri ân sâu sắc đến quí Thầy, Cô trong
Trường Đại học Công nghệ Thông tin. Đặc biệt là Thầy TS. Ngô Đức Thành đã
dành nhiều thời gian hướng dẫn tận tình giúp đỡ em trong suốt thời gian thực hiện
đề tài này.
Em xin cảm ơn các anh chị và các bạn tham gia sinh hoạt tại phòng Thí
nghiệm Truyền thông Đa phương tiện, trường Đại học Công nghệ Thông tin đã hỗ
trợ em rất nhiều trong suốt thời gian em thực hiện đề tài.
Trong quá trình thực hiện đề tài khó tránh khỏi sai sót mong các Thầy, Cô bỏ
qua. Đồng thời do khả năng còn hạn chế nên trong quá trình viết báo cáo còn nhiều
thiếu sót, em rất mong nhận được sự góp ý của Thầy, Cô để hoàn thiện cuốn luận
văn này.


Em xin chân thành cảm ơn!

TP. Hồ Chí Minh, tháng 08 năm 2016


LỜI CAM ĐOAN
Em xin cam đoan đây là công trình nghiên cứu của riêng em dưới sự hướng
dẫn khoa học của Thầy TS. Ngô Đức Thành. Các nội dung nghiên cứu, kết quả
trong đề tài là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây.
Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá
được chính em thu thập từ các số liệu khác nhau có ghi rõ trong phần tài liệu tham
khảo.
Nếu phát hiện có bất kỳ sự gian lận nào em xin hoàn toàn chịu trách nhiệm
về nội dung luận văn của mình.
Tp. Hồ Chí Minh, ngày 25 tháng 08 năm 2016
Học viên thực hiện

Nguyễn Hữu Phước


MỤC LỤC
TÓM TẮT LUẬN VĂN .............................................................................................1
Chương 1

MỞ ĐẦU .............................................................................................3

1.1 Tên luận văn ......................................................................................................3
1.2 Giới thiệu chung ................................................................................................3
1.3 Khó khăn và thách thức cần giải quyết .............................................................4
1.3.1 Khó khăn và thách thức..............................................................................4

1.3.2 Vấn đề cần giải quyết .................................................................................5
1.4 Tính cấp thiết của đề tài ....................................................................................5
1.5 Mục tiêu, đối tượng và phạm vi nghiên cứu .....................................................6
1.5.1 Mục tiêu .....................................................................................................6
1.5.2 Đối tượng nghiên cứu ................................................................................6
1.5.3 Phạm vi nghiên cứu ....................................................................................6
1.6 Đóng góp của luận văn ......................................................................................7
1.7 Cấu trúc của luận văn ........................................................................................7
Chương 2

TỔNG QUAN .....................................................................................8

2.1 Mô tả bài toán ....................................................................................................8
2.2 Tình hình nghiên cứu trong và ngoài nước .....................................................11
2.2.1 Tình hình nghiên cứu ngoài nước ............................................................11
2.2.2 Tình hình nghiên cứu trong nước .............................................................20
2.3 Tái nhận dạng sử dụng đặc trưng ngữ nghĩa ...................................................21
2.3.1 Đặc trưng ngữ nghĩa.................................................................................21
2.3.2 Sử dụng đặc trưng ngữ nghĩa ...................................................................22
Chương 3

CẢI THIỆN BỘ PHÂN LỚP THUỘC TÍNH BỞI VIỆC ĐÁNH

TRỌNG SỐ TƯƠNG TÁC TỪ CÁC THUỘC TÍNH KHÁC .................................25
3.1 Mô hình tương tác ...........................................................................................26


3.2 Áp dụng bộ phân lớp nâng cao độ chính xác phát hiện thuộc tính vào tái nhận
dạng nhân vật ........................................................................................................29
Chương 4


THỰC NGHIỆM VÀ ĐÁNH GIÁ ...................................................32

4.1 Tiêu chuẩn đánh giá ........................................................................................32
4.2 Bộ dữ liệu ........................................................................................................33
4.3 Thực nghiệm ...................................................................................................35
4.3.1 Tài nguyên ................................................................................................35
4.3.2 Phát hiện thuộc tính..................................................................................35
4.3.4 Phân chia dữ liệu dành cho việc huấn luyện bộ phân lớp ........................40
4.4 Kết quả thí nghiệm ..........................................................................................40
4.4.1 Kết quả phát hiện thuộc tính ....................................................................40
4.4.2 Kết quả tái nhận dạng nhân vật ................................................................45
4.5 Chương trình demo .........................................................................................49
Chương 5

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................52

5.1 Kết luận ...........................................................................................................52
5.2 Hướng phát triển .............................................................................................52
TÀI LIỆU THAM KHẢO .........................................................................................54
PHỤ LỤC ..................................................................................................................57


DANH MỤC CÁC BẢNG
Bảng 1 Các thuộc tính được sử dụng trong 3 bộ dữ liệu VIPeR, PRID và GRID.
(Dấu “✔” biểu diễn cho các thuộc tính được sử dụng, dấu “✘” biểu diễn cho các
thuộc tính không được sử dụng). ..............................................................................36
Bảng 2 Độ chính xác phát hiện thuộc tính sử dụng bộ phân lớp độc lập và mô hình
tương tác trên bộ dữ liệu VIPeR. ..............................................................................40
Bảng 3 Độ chính xác phát hiện thuộc tính sử dụng bộ phân lớp độc lập và mô hình

tương tác trên bộ dữ liệu PRID. ................................................................................41
Bảng 4 Độ chính xác phát hiện thuộc tính sử dụng bộ phân lớp độc lập và mô hình
tương tác trên bộ dữ liệu GRID.................................................................................42
Bảng 5 Bảng so sánh kết quả tái nhận dạng nhân vật sử dụng bộ phân lớp độc lập và
mô hình tương tác phát hiện thuộc tính trên bộ dữ liệu VIPeR. ...............................45
Bảng 6 Bảng so sánh kết quả tái nhận dạng nhân vật sử dụng bộ phân lớp độc lập và
mô hình tương tác phát hiện thuộc tính trên bộ dữ liệu PRID. .................................46
Bảng 7 Bảng so sánh kết quả tái nhận dạng nhân vật sử dụng bộ phân lớp độc lập và
mô hình tương tác phát hiện thuộc tính trên bộ dữ liệu GRID. ................................46


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Màn hình kiểm soát của nhân viên quản lý camera. Các nhân viên được
phân công nhiều camera và phải thực hiện công việc kiểm soát một cách đồng thời.
.....................................................................................................................................4
Hình 1.2 Ảnh của đối tượng được ghi nhận có sự thay đổi về góc nhìn, ảnh nền,
điều kiện ánh sáng… khi di chuyển qua vùng quan sát của các camera khác nhau. ..4
Hình 1.3 Dễ bị nhầm lẫn do có nhiều ứng viên mặc đồ giống nhau. Đối tượng cần
tìm kiếm là ảnh có khung màu đỏ so với ảnh mẫu có khung màu vàng. ....................5
Hình 2.1 Một mạng lưới camera giám sát kiểm soát một không gian rộng lớn. Hình
ảnh người đàn ông được ghi nhận lần đầu ở camera lối vào chính, sau đó được ghi
nhận lần thứ hai ở camera phía trên bên phải. Hệ thống tái nhận dạng nhân vật là
việc so khớp hình ảnh được ghi nhận của các camera để nhận dạng hình ảnh giống
nhau. ............................................................................................................................8
Hình 2.2 Phát hiện và theo dõi đối tượng trong hệ thống camera có vùng quan sát
không trùng lấp. ..........................................................................................................9
Hình 2.3 Ví dụ minh họa về đầu vào, đầu ra của bài toán tái nhận dạng nhân vật.
Đầu ra của bài toán: ứng với mỗi ảnh trong camera 1 (probe images) ta thu được
danh sách ảnh của camera 2 (gallery images) đã được xếp hạng. ............................10
Hình 2.4 Kiến trúc hệ thống của bài toán tái nhận dạng nhân vật. ...........................11

Hình 2.5 Các bộ lọc được sử dụng trong mô hình do Gray đề xuất .........................13
Hình 2.6 Phác thảo bộ mô tả SDALF. (a) Cho một ảnh hoặc một tập ảnh. ..............14
Hình 2.7 Sơ đồ biểu diễn đặc trưng gBiCov. Những ảnh màu được chia vào 3 kênh
màu sắc (HSV). Những hình ảnh đầu vào được quấn lại với bộ lọc Gabor tại các tỉ
lệ (scale) khác nhau và các scale gần nhau được nhóm lại thành một band. BIF được
rút trích bằng cách thực hiện việc đối đa hoá những band giống nhau của bộ lọc
Gabor. BIF sau đó được chia thành những vùng nhỏ, và được biểu diễn bằng những
bộ mô tả Covariance. Ma tính toán sự khác nhau của các bộ mô tả Covariance giữa
các vùng tương ứng của các band khác nhau. Những khác biệt này được kết nối tới
một form biểu diễn đặc trưng của hình ảnh [8].........................................................15


Hình 2.8 Sơ đồ tổng quan về phương pháp. Các module Post-processing như học
tính khoảng cách hoặc miền thích ứng có thể được ứng dụng dựa trên mức độ giám
sát trong việc tăng hạng hoặc hiệu suất của toàn hệ thông khi cần thiết [11]...........17
Hình 2.9 Đầu ra của mô hình. Mỗi phần được biểu diễn bằng mã màu để biểu diễn
thuộc tính chi phối suy ra hai loại [12]. ....................................................................17
Hình 2.10 Tổng quan về phương pháp do Ying Zhang đề xuất. Đầu tiên học các bộ
phân lớp phù hợp cho mỗi cá nhân huấn luyện bằng những mẫu ví dụ cụ thể. Các
vector trọng số của bộ phân lớp được sử dụng để học một cặp từ điển và một ma
trận ánh xạ, bằng cách đó một vector trọng số của một ảnh kiểm thử (probe image)
có thể dễ dàng được suy ra từ biểu diễn đặc trưng. Tái nhận dạng sao đó được thực
hiện dựa trên những tiêu chí phù hợp với các vector trọng số học được [14]. .........19
Hình 2.11 Những ảnh của cùng một người trong bộ dữ liệu huấn luyện được chiếu
vào một điểm duy nhất trong việc học một không gian không hạch phân biệt [15]. 20
Hình 2.12 Biểu diễn đối tượng bằng đặc trưng ngữ nghĩa. Đối tượng được mô tả
bằng các thuộc tính như: đội nón, áo thun trắng, quần jean xanh, mang giày. .........22
Hình 2.13 Mô hình phát hiện thuộc tính của đối tượng. ...........................................23
Hình 3.1 Đối tượng được mô tả bởi danh sách những thuộc tính thị giác như: male,
female, long hair, skir... Trong thực tế, các thuộc tính có mối quan hệ với nhau. Một

người được biểu diễn bởi hai thuộc tính tóc dài (longhair) và mặc váy (skirt) thì
thường là nữ (female). ...............................................................................................26
Hình 3.2 Mô hình tương tác các thuộc tính, sử dụng λ để kiểm soát trọng số của các
hồi qui tương tác của các thuộc tính. ........................................................................27
Hình 3.3 Sơ đồ tổng quát của bước rút trích đặc trưng. ............................................29
Hình 4.1 Ví dụ minh họa hệ thống tái nhận dạng nhân vật. Vị trí đúng của đối tượng
trong danh sách xếp hạng là vị trí số hai. ..................................................................32
Hình 4.2 Ảnh minh họa được lấy từ bộ dữ liệu VIPeR. ...........................................33
Hình 4.3 Ảnh minh họa được lấy từ bộ dữ liệu PRID. .............................................34
Hình 4.4 Ảnh minh hoạ lấy từ bộ dữ liệu GRID. ......................................................35
Hình 4.5 Sơ đồ tổng quát phương pháp phát hiện thuộc tính. ..................................36
Hình 4.6 Rút trích đặc trưng sử dụng để huấn luyện bộ phân lớp cũng như để phát
hiện thuộc thuộc tính. ................................................................................................38


Hình 4.7 Vùng không gian chứa thuộc tính là vùng sáng. Tuỳ từng thuộc tính ta lựa
chọn vùng không gian phù hợp. Darkhair vùng không gian ở phần một, Redshirt
vùng không gian ở phần hai và phần ba. Darkbottoms vùng không gian ở phần bốn,
phần năm và phần sáu. ..............................................................................................38
Hình 4.8 Biểu đồ biểu diễn hệ số tuyệt đối về mối tương quan của thuộc tính
Redshirt đối với các thuộc tính khác. ........................................................................43
Hình 4.9 Biểu đồ biểu diễn hệ số tuyệt đối về mối tương quan của thuộc tính
Blueshirt đối với các thuộc tính khác. .......................................................................44
Hình 4.10 Biểu đồ biểu diễn hệ số tuyệt đối về mối tương quan của thuộc tính Jeans
đối với các thuộc tính khác. ......................................................................................44
Hình 4.11 Kết quả tái nhận dạng nhân vật trên bộ dữ liệu VIPeR với kích thước
gallery p = 316 của bộ phân lớp độc lập và mô hình tương tác. ...............................47
Hình 4.12 Kết quả tái nhận dạng nhân vật trên bộ dữ liệu PRID với kích thước
gallery p = 100 của bộ phân lớp độc lập và mô hình tương tác. ...............................48
Hình 4.13 Kết quả tái nhận dạng nhân vật trên bộ dữ liệu GRID với kích thước

gallery p = 125 của bộ phân lớp độc lập và mô hình tương tác. ...............................48
Hình 4.14 Giao diện chương trình khi khởi động .....................................................50
Hình 4.15 Kết quả thực hiện của chương trình demo. ..............................................50


TÓM TẮT LUẬN VĂN
Ngày nay, hệ thống camera giám sát được sử dụng rất rộng rãi, phổ biến
khắp mọi nơi như siêu thị, sân bay... nhằm đảm bảo an ninh, trật tự, chống trộm…
Công việc cơ bản cần phải thực hiện trước tiên trong hệ thống giám sát là so khớp
ảnh người di chuyển qua vùng quan sát của các camera. Công việc này được gọi là
tái nhận dạng và được thực hiện bởi nhân viên điều hành. Sự tăng vọt về số lượng
camera trong hệ thống giám sát và số lượng người di chuyển qua các camera dẫn
đến nhiều khó khăn trong việc tái nhận dạng (so khớp ảnh). Do đó cần có một hệ
thống tái nhận dạng nhân vật tự động để hỗ trợ nhân viên thực hiện công việc đạt
hiệu quả cao.
Trong một hệ thống tái nhận dạng tự động, biểu diễn đặc trưng là một trong
những vấn đề quan trọng cần được nghiên cứu. Hình ảnh của đối tượng được rút
trích và biểu diễn đặc trưng sao cho các đặc trưng này có khả năng phân biệt với
hình ảnh của các đối tượng khác. Các đặc trưng này được sử dụng để đo độ tương
tự của hình ảnh dùng để phân biệt hình ảnh của một đối tượng đối với một đối
tượng khác. Trong nhiều công trình nghiên cứu gần đây, đặc trưng ngữ nghĩa (hay
còn gọi là thuộc tính) được sử dụng rất phổ biến và đạt được nhiều hiệu quả. Luận
văn này chủ yếu nghiên cứu về biểu diễn đặc trưng, cụ thể hơn là đặc trưng ngữ
nghĩa. Đặc trưng ngữ nghĩa sử dụng các thuộc tính để biểu diễn ảnh của đối tượng
do đó độ chính xác của tái nhận dạng phụ thuộc rất lớn vào độ chính xác của việc
phát hiện thuộc tính. Vì vậy, nghiên cứu này sẽ hướng đến việc nâng cao độ chính
xác của bộ phân lớp phát hiện thuộc tính.
Gần đây, trong lĩnh vực tái nhận dạng nhân vật có nhiều công trình nghiên
cứu sử dụng đặc trưng ngữ nghĩa. Tuy nhiên, hầu hết những phương pháp sử dụng
đặc trưng ngữ nghĩa xây dựng bộ phân lớp phát hiện thuộc tính được huấn luyện

một cách độc lập trong khi trên thực tế các thuộc tính có mối quan hệ với nhau như
xuất hiện cùng nhau (xuất hiện đồng thời), không xuất hiện cùng nhau...Hạn chế
chính của các phương pháp này chính là bỏ qua mối quan hệ giữa các thuộc tính.
Do đó, luận văn này hướng tới nâng cao độ chính xác của bộ phân lớp phát hiện
1


thuộc tính. Cụ thể hơn, khai thác mối quan hệ giữa các thuộc tính để cải thiện độ
chính xác bộ phân lớp phát hiện thuộc tính, nâng cao kết quả tái nhận dạng.
Kết quả thí nghiệm trên ba bộ dữ liệu chuẩn VIPeR, PRID và GRID đã
chứng minh tính hiệu quả của phương pháp khai thác mối quan hệ giữa các thuộc
tính để cải thiện độ chính xác phát hiện thuộc tính, hiệu suất của tái nhận dạng lẫn
độ chính xác của phát hiện thuộc tính đã được nâng cao.
Từ khóa: Person re-identification – tái nhận dạng nhân vật, attribute –
thuộc tính, attribute relationship – quan hệ giữa các thuộc tính, re-score – đánh
lại điểm số.

2


Chương 1

MỞ ĐẦU

1.1 Tên luận văn
TÁI NHẬN DẠNG NHÂN VẬT SỬ DỤNG ĐẶC TRƯNG NGỮ NGHĨA

1.2 Giới thiệu chung
Kinh tế ngày một phát triển, các tòa nhà, trung tâm thương mại, công trình
công cộng được xây dựng ngày càng nhiều. Đi kèm theo đó, các hệ thống camera

giám sát được triển khai, lắp đặt rộng rãi khắp mọi nơi nhằm theo dõi, kiểm soát,
đánh giá tình hình trật tự, đảm bảo an ninh… Một trong những tác vụ quan trọng
trong một hệ thống camera giám sát là so khớp hình ảnh của một người di chuyển
qua các camera tại các địa điểm khác nhau, trong những khoảng thời gian khác
nhau. Nhiệm vụ này được xem như tái nhận dạng nhân vật.
Trong một hệ thống giám sát có quy mô lớn, việc tái nhận dạng được thực
hiện bởi yếu tố con người thường tốn nhiều chi phí và độ chính xác không cao. Các
nhân viên có thể được phân công nhiều camera và phải thực hiện việc kiểm soát các
camera một cách đồng thời (xem Hình 1.1). Thậm chí trong một camera, việc so
khớp thông thường dễ bị thiếu sót dẫn đến gián đoạn công việc. Hơn nữa, hiệu năng
công việc chỉ dựa vào kinh nghiệm cá nhân gây khó khăn trong việc trực tiếp
chuyển giao công việc và nâng cao hiệu quả công việc của từng nhân viên. Các
nhân viên thực hiện công việc tái nhận dạng nhân vật một cách thủ công, dùng mắt
để tái nhận dạng. Số lượng người di chuyển qua camera ngày càng nhiều, số lượng
camera ngày càng tăng dẫn đến khó khăn trong việc tái nhận dạng. Vì vậy, hệ thống
tái nhận dạng nhân vật tự động ra đời nhằm hỗ trợ phần nào công việc của nhân
viên giúp nâng cao độ chính xác cũng như cải thiện hiệu quả công việc.

3


Hình 1.1 Màn hình kiểm soát của nhân viên quản lý camera. Các nhân viên được
phân công nhiều camera và phải thực hiện công việc kiểm soát một cách đồng thời.

1.3 Khó khăn và thách thức cần giải quyết
1.3.1 Khó khăn và thách thức


Chất lượng hình ảnh thấp do camera quan sát phạm vi rộng, do các
thao tác nén ảnh nhằm giảm kích thước lưu trữ.


Hình 1.2 Ảnh của đối tượng được ghi nhận có sự thay đổi về góc nhìn, ảnh nền,
điều kiện ánh sáng… khi di chuyển qua vùng quan sát của các camera khác nhau.


Góc nhìn, cường độ ánh sáng của ảnh thay đổi do việc bố trí lắp đặt
camera (Xem Hin
̀ h 1.2 Ảnh của đối tượng được ghi nhận có sự thay
đổi về góc nhìn, ảnh nền, điều kiện ánh sáng… khi di chuyển qua
vùng quan sát của các camera khác nhau.).



Một số ảnh nhân vật bị che khuất.

4




Dễ bị nhầm lẫn do đối tượng mặc đồ giống nhau (Xem Hình 1.3 Dễ bị
nhầm lẫn do có nhiều ứng viên mặc đồ giống nhau. Đối tượng cần tìm
kiếm là ảnh có khung màu đỏ so với ảnh mẫu có khung màu vàng.).

Hình 1.3 Dễ bị nhầm lẫn do có nhiều ứng viên mặc đồ giống nhau. Đối tượng cần
tìm kiếm là ảnh có khung màu đỏ so với ảnh mẫu có khung màu vàng.
1.3.2 Vấn đề cần giải quyết
Thông thường, một hệ thống tái nhận dạng tự động được thực hiện thông qua
hai bước: rút trích đặc trưng và so khớp. Những công trình gần đây đã cho thấy
được sự hữu ích của đặc trưng ngữ nghĩa. Tuy nhiên, việc ước lượng thuộc tính của

ảnh chứa đối tượng với nhiều sự thay đổi lớn vẫn chứa đựng nhiều vấn đề cần giải
quyết. Nhiều hướng tiếp cận đã được đề xuất cho việc phân loại đặc trưng thị giác;
tuy nhiên, hầu hết các hướng tiếp cận đều khai thác thuộc tính bằng cách xây dựng
bộ phân lớp phát hiện thuộc tính được huấn luyện một cách độc lập. Trong thực tế,
để ước lượng một thuộc tính, ta cần phải xem xét mối quan hệ giữa các thuộc tính.

1.4 Tính cấp thiết của đề tài


Hệ thống camera ngày nay được lắp đặt rất phổ biến và rộng khắp. Để
vận hành đòi hỏi phải tốn rất nhiều chi phí và nhân lực có chuyên môn
cao nhưng vẫn còn nhiều sai sót. Do đó cần phải có một hệ thống tái
nhận dạng tự động.



Bài toán tái nhận dạng được ứng dụng rộng rãi trong nhiều lĩnh vực
khác nhau: tìm kiếm với mục tiêu pháp lý, truy vấn và giám sát đối
tượng...



Đặc trưng ngữ nghĩa đang là một hướng nghiên cứu mới và được áp
dụng vào nhiều bài toán khác nhau.
5




Hướng nghiên cứu của đề tài không chỉ áp dụng cho bài toán tái nhận

dạng nhân vật mà còn áp dụng trong nhiều bài toán nhận dạng thị giác
khác sử dụng thuộc tính.

1.5 Mục tiêu, đối tượng và phạm vi nghiên cứu
1.5.1 Mục tiêu


Nghiên cứu các kỹ thuật, phương pháp tiên tiến hiện nay về tái nhận
dạng nhân vật. Cụ thể, tập trung chủ yếu vào việc khai thác đặc trưng
ngữ nghĩa (thuộc tính), khai thác mối quan hệ giữa các thuộc tính,
hiệu chỉnh kết quả phát hiện thuộc tính để nâng cao độ chính xác tái
nhận dạng.



Xây dựng chương trình thử nghiệm.

1.5.2 Đối tượng nghiên cứu
Thí nghiệm được thực hiện trên các bộ dữ liệu ảnh chuẩn: bộ dữ liệu VIPeR
[1], bộ dữ liệu PRID [2], bộ dữ liệu GRID [3].
1.5.3 Phạm vi nghiên cứu
Phương pháp tái nhận dạng nhân vật được tiến hành thử nghiệm, đánh giá độ
chính xác trên các bộ dữ liệu chuẩn (dạng ảnh).
Khảo sát các công trình liên quan, giải quyết các vấn đề về tái nhận dạng
nhân vật bởi việc khai thác đặc trưng ngữ nghĩa.
Một số công trình liên quan:


R. Layne, T. Hospedales, and S. Gong, “Person Re-identification by
Attributes,” Procedings Br. Mach. Vis. Conf. 2012, p. 24.1-24.11,

2012.



J. Zhu, S. Liao, Z. Lei, and S. Z. Li, “Improve pedestrian attribute
classification by weighted interactions from other attributes,” Lect.
Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect.
Notes Bioinformatics), vol. 9010, pp. 545–557, 2015.

6




N.-B. Nguyen, V.-H. Nguyen, T. N. Duc, D.-D. Le, and D. A. Duong,
“AttRel: an approach to person re-identification by exploiting
attribute relationships,” in International Conference on Multimedia
Modeling, 2015, pp. 50–60.

1.6 Đóng góp của luận văn


Nghiên cứu, khảo sát các phương pháp tiên tiến hiện nay của bài toán
tái nhận dạng.



Cài đặt một phương pháp sử dụng đặc trưng ngữ nghĩa làm cơ sở,
tổng hợp và phân tích kết quả thí nghiệm.




Cài đặt một phương pháp khai thác mối quan hệ giữa các thuộc tính
vào tái nhận dạng nhân vật. Chứng minh rằng, việc áp dụng phương
pháp này trong biểu diễn đặc trưng của bài toán tái nhận dạng là hiệu
quả.



Một chương trình demo tái nhận dạng nhân vật.

1.7 Cấu trúc của luận văn
Luận văn được trình bày như sau:
Chương 1: Giới thiệu chung về tái nhận dạng nhân vật.
Chương 2: Trình bày tổng quan về bài toán tái nhận dạng nhân vật, các công trình
nghiên cứu liên quan, hướng tiếp cận bài toán.
Chương 3: Trình bày phương pháp khai thác mối quan hệ giữa các thuộc tính bằng
việc đánh trọng số tương tác từ các thuộc tính khác.
Chương 4: Trình bày các tiêu chuẩn đánh giá, bộ dữ liệu thử nghiệm và kết quả thử
nghiệm.
Chương 5: Trình bày các kết luận, hướng phát triển và kiến nghị.

7


Chương 2

TỔNG QUAN

2.1 Mô tả bài toán

Tái nhận dạng nhân vật là nhiệm vụ ghi nhận một cá nhân xuất hiện ở nhiều
nơi được thu từ những camera có vùng quan sát không trùng lắp tại những khoảng
thời gian khác nhau. Định nghĩa một cách đơn giản, tái nhận dạng nhân vật là bài
toán so khớp sự xuất hiện của mỗi người di chuyển qua nhiều camera trong hệ
thống giám sát ở những khoảng thời gian và địa điểm khác nhau.

Hình 2.1 Một mạng lưới camera giám sát kiểm soát một không gian rộng lớn. Hình
ảnh người đàn ông được ghi nhận lần đầu ở camera lối vào chính, sau đó được ghi
nhận lần thứ hai ở camera phía trên bên phải. Hệ thống tái nhận dạng nhân vật là
việc so khớp hình ảnh được ghi nhận của các camera để nhận dạng hình ảnh giống
nhau.
Một hệ thống bao gồm nhiều camera ghi nhận hình ảnh của các đối tượng tại
các vị trí khác nhau vào những thời điểm khác nhau (Xem Hiǹ h 2.1 Một mạng lưới
8


camera giám sát kiểm soát một không gian rộng lớn. Hình ảnh người đàn ông được
ghi nhận lần đầu ở camera lối vào chính, sau đó được ghi nhận lần thứ hai ở camera
phía trên bên phải. Hệ thống tái nhận dạng nhân vật là việc so khớp hình ảnh được
ghi nhận của các camera để nhận dạng hình ảnh giống nhau.). Hình ảnh của một đối
tượng được ghi nhận bởi 2 camera. Nhiệm vụ của tái nhận dạng nhân vật là so khớp
để tìm ra hình ảnh của cùng một đối tượng.

Hình 2.2 Phát hiện và theo dõi đối tượng trong hệ thống camera có vùng quan sát
không trùng lấp.
Nhân viên thực hiện nhiệm vụ theo dõi đối tượng thông qua màn hình kiểm
soát (Xem Hình 2.2 Phát hiện và theo dõi đối tượng trong hệ thống camera có vùng
quan sát không trùng lấp.). Tác vụ quan trọng cần phải thực hiện trước tiên khi tiến
hành nhiệm vụ đó là tái nhận dạng nhân vật. Xác định hình ảnh giống nhau của
cùng một đối tượng (ảnh của đối tượng được đóng khung màu đỏ). Bài toán có thể

được mô tả như sau:
Đầu vào: ảnh người (các hình ảnh của đối tượng) được ghi nhận từ các
camera.
Đầu ra: danh sách ảnh (camera 2) đã được xếp hạng so với ảnh mục tiêu (ảnh
trong camera 1) theo thứ tự giảm dần độ tương tự, ảnh càng ở đầu trong danh sách
xếp hạng thì ảnh có độ tương tự càng cao so với ảnh mục tiêu, ảnh ở vị trí số một có
độ tượng tự cao nhất.
Năm đối tượng đã được ghi nhận trước bởi camera 2. Sau đó, hai trong năm
đối tượng đã di chuyển qua vùng quan sát của camera 1 và được ghi nhận bởi
9


camera 1 (Xem Hình 2.3 Ví dụ minh họa về đầu vào, đầu ra của bài toán tái nhận
dạng nhân vật. Đầu ra của bài toán: ứng với mỗi ảnh trong camera 1 (probe images)
ta thu được danh sách ảnh của camera 2 (gallery images) đã được xếp hạng.).
Chúng ta sử dụng ảnh của hai đối tượng được ghi nhận của camera 1 làm ảnh
(input) đầu vào. Ứng với mỗi đối tượng, ta tiến hành so khớp từng ảnh được ghi
nhận bởi camera 2 với ảnh (input) đầu vào và đạt được độ tương tự của từng cặp
ảnh. Dựa vào độ tương tự của từng cặp ảnh được ghi nhận bởi camera 2 với ảnh
(input) đầu vào ta thu được danh sách ảnh của camera 2 đã được xếp hạng theo thứ
tự giảm dần độ tương tự.

Hình 2.3 Ví dụ minh họa về đầu vào, đầu ra của bài toán tái nhận dạng nhân vật.
Đầu ra của bài toán: ứng với mỗi ảnh trong camera 1 (probe images) ta thu được
danh sách ảnh của camera 2 (gallery images) đã được xếp hạng.
Thông thường, kiến trúc hệ thống của bài toán tái nhận dạng nhân vật gồm
hai bước chính: rút trích đặc trưng và so khớp. Chi tiết như sau:

10



Hình 2.4 Kiến trúc hệ thống của bài toán tái nhận dạng nhân vật.


Rút trích đặc trưng: các hình ảnh chứa đối tượng được biểu diễn lại
dưới dạng các vector đặc trưng. Các vector đặc trưng này có thể mang
các thông tin về màu sắc, cấu trúc, vân, đặc trưng ngữ nghĩa. Tóm lại,
sau khi rút trích đặc trưng kết quả là các vector đặc trưng dùng để mô
tả ảnh chứa đối tượng.



So khớp: hai hình ảnh của đối tượng được so khớp để đánh giá độ
tương tự. Độ tương tự càng cao thì khả năng hai hình ảnh là của cùng
một người càng cao. Một số phương pháp so khớp truyền thống như:
tính khoảng cách giữa hai vector với các độ đo phổ biến L1, L2…
Ngoài ra còn có một số phương pháp so khớp khác như: PRDC [4],
PCCA [5]…

2.2 Tình hình nghiên cứu trong và ngoài nước
2.2.1 Tình hình nghiên cứu ngoài nước
Trong năm năm trở lại đây, các vấn đề về bài toán tái nhận dạng nhân vật thu
hút sự chú ý khá đông đảo của cộng đồng nghiên cứu thị giác máy tính. Mặc dù
những nhà nghiên cứu khoa học đã cố gắng nỗ lực rất nhiều tuy nhiên vẫn còn tồn
động nhiều vấn đề không thể giải quyết. Vì hình ảnh ghi nhận của một đối tượng có
sự thay đổi liên tục. Nguyên nhân là do sự thay đổi về góc quay của camera, sự thay
đổi về tư thế, hình dáng, ánh sáng…hơn nữa, khi nhận dạng đối tượng dựa vào quần
áo để phân biệt rất dễ bị nhầm lẫn, do họ mặc đồ giống nhau.

11



Để giải quyết các vấn đề khó khăn của bài toán, các phương pháp tiếp cận
hiện nay tập trung chủ yếu vào hai hướng chính: (1) nghiên cứu, phát triển các
phương pháp rút trích và biểu diễn đặc trưng hoặc (2) các phương pháp so khớp và
tính khoảng cách.
Đối với phương pháp rút trích và biễu diễn đặc trưng, nhiều hướng tiếp cận
đã được đề xuất để thiết kế mô tả ảnh có khả năng chống lại sự thay đổi góc quay,
tư thế, điều kiện ánh sáng, ảnh nền…Nhiều loại đặc trưng đơn giản được sử dụng
trong việc biểu diễn sự xuất hiện của người. Phổ biến nhất là đặc trưng màu sắc, vân
và đặc trưng shape.
Nhận thấy được khó khăn trong việc so khớp hình ảnh của hai đối tượng mà
không biết góc quay, tư thế. Gray và cộng sự [6] đã đề xuất phương pháp ELF
(Ensemble of Localized Features) thực hiện việc rút trích đặc trưng mô tả đối tượng.
Các đặc trưng này được thiết kế một cách hiệu quả và thông minh. Thay vì thiết kế
một loại đặc trưng cụ thể bằng tay để giải quyết vấn đề, Gray đã định nghĩa một
không gian đặc trưng sử dụng một giải thuật máy học đề tìm ra biểu diễn đặc trưng
tốt nhất. Hướng tiếp cận này có thể cho phép nhiều loại đặc trưng đơn giản có thể
kết hợp thành một đặc trưng tương tự duy nhất. Cụ thể, Gray sử dụng 8 kênh màu
(RGB, HSV và YCbCr) và 21 bộ lọc cấu trúc (Gabor, Schmid). Các bộ lọc cấu trúc
(Gabor, Schmid) được Gray sử dụng được minh hoạ trong Hiǹ h 2.5 Các bộ lọc
được sử dụng trong mô hình do Gray đề xuất
để mô tả cấu trúc. (a) Các bộ lọc Schmid đối xứng luân phiên.
(b) Các bộ lọc Gabor ngang và dọc [6]..

12


Hình 2.5 Các bộ lọc được sử dụng trong mô hình do Gray đề xuất
để mô tả cấu trúc. (a) Các bộ lọc Schmid đối xứng luân phiên.

(b) Các bộ lọc Gabor ngang và dọc [6].
Farenzena và cộng sự [7] đề xuất một phương pháp rút trích đặc trưng biểu
diễn sự xuất hiện của một cá nhân bằng cách khai thác điểm nổi bật của hình ảnh cơ
thể. Phương pháp này dựa vào bộ mô tả mà cơ sở chính là sự xuất hiện dựa trên tính
đối xứng và một chính sách so khớp cho phép ghi nhận một cá nhân. Bộ mô tả mã
hoá ba đặc trưng thị giác của sự xuất hiện của người: lược đồ màu sắc, sắp xếp
không gian màu sắc thành những vùng ổn định MSCR (Maximally stable color
regions), biểu diễn lại các hoạ tiết cục bộ với entropy cao RHSP (recurrent highly
structured patches). Các đặc trưng được rút trích theo nguyên lý nhận thức về tính
đối xứng và bất đối xứng, các trục đối xứng và bất đối xứng cho phép tách riêng các
bộ phận của cơ thể người một cách có nghĩa và phương pháp này chỉ tập trung vào
cơ thể người, cắt tỉa, loại bỏ sự lộn xộn của ảnh nền. Bộ mô tả được gọi là
Symmetry-Driven Accumulation of Local Features (SDALF). Phác thảo bộ mô tả
SDALF được minh hoạ trong Hin
̀ h 2.6 Phác thảo bộ mô tả SDALF. (a) Cho một
ảnh hoặc một tập ảnh..

13


Hình 2.6 Phác thảo bộ mô tả SDALF. (a) Cho một ảnh hoặc một tập ảnh.
(b) SDALF xác định các thành phần của cơ thể bao gồm: phần đầu, phần trên cơ
thể, phần dưới cơ thể bởi trục đối xứng và bất đối xứng. Sau đó tiến hành rút trích
đặc trưng các thành phần của cơ thể người: (c) biểu đồ trọng số màu sắc,
(d) MSCR (Maximally stable color regions), (e) RHSP (recurrent highly structured
patches). Mục tiêu được so khớp đúng với chính đối tượng (cột 1 và cột 6) [7].
Để tránh sử dụng các bước tiền xử lý phức tạp trong việc chia nhỏ các bộ
phận của cơ thể và khuôn mặt người hoặc chuẩn hoá hình ảnh. Ma và cộng sự [8] đề
xuất một phương pháp tiên tiến biểu diễn đặc trưng của ảnh – được gọi là biểu diễn
đặc trưng gBiCov – biểu diễn đặc trưng này là sự kết hợp của đặc trưng sinh học

BIF (Biologically Inspired Features) và bộ mô tả Covariance. Chính xác hơn,
gBiCov được ghi nhận bằng cách tính toán và mã hoá sự khác biệt giữa những đặc
trưng BIF ở các tỉ lệ khác nhau. Khoảng cách giữa hai người có thể ước lượng một
cách hiệu quả bằng cách tính khoản cách Euclidean của các đặc trưng. Để tránh một
số hoạt động tính toán tốn nhiều thời gian trong ma trận Covariance, bộ mô tả
Covariance được sử dụng với không gian thông tin được thực hiện bởi một mạng
lưới cấu trúc dày đặc. gBiCov có khả năng chống lại sự thay đổi về ánh sáng, độ
14


phân giải, ảnh nền để so khớp tìm ra hình ảnh phù hợp của cùng một người cả trong
tái nhận dạng nhân vật và trong nhiệm vụ xác minh khuôn mặt. Sơ đồ biểu diễn đặc
trưng gBiCov được minh hoạ trong Hin
̀ h 2.7 Sơ đồ biểu diễn đặc trưng gBiCov.
Những ảnh màu được chia vào 3 kênh màu sắc (HSV). Những hình ảnh đầu vào
được quấn lại với bộ lọc Gabor tại các tỉ lệ (scale) khác nhau và các scale gần nhau
được nhóm lại thành một band. BIF được rút trích bằng cách thực hiện việc đối đa
hoá những band giống nhau của bộ lọc Gabor. BIF sau đó được chia thành những
vùng nhỏ, và được biểu diễn bằng những bộ mô tả Covariance. Ma tính toán sự
khác nhau của các bộ mô tả Covariance giữa các vùng tương ứng của các band khác
nhau. Những khác biệt này được kết nối tới một form biểu diễn đặc trưng của hình
ảnh [8]..

Hình 2.7 Sơ đồ biểu diễn đặc trưng gBiCov. Những ảnh màu được chia vào 3 kênh
màu sắc (HSV). Những hình ảnh đầu vào được quấn lại với bộ lọc Gabor tại các tỉ
lệ (scale) khác nhau và các scale gần nhau được nhóm lại thành một band. BIF
được rút trích bằng cách thực hiện việc đối đa hoá những band giống nhau của bộ
lọc Gabor. BIF sau đó được chia thành những vùng nhỏ, và được biểu diễn bằng
những bộ mô tả Covariance. Ma tính toán sự khác nhau của các bộ mô tả
15



Covariance giữa các vùng tương ứng của các band khác nhau. Những khác biệt này
được kết nối tới một form biểu diễn đặc trưng của hình ảnh [8].
Ngoài ra còn có một lượng lớn đặc trưng thị giác được khai thác cho bài toán
tái nhận dạng như đặc trưng Haar-like, HOG (Histogram of Oriented Gradients),
cạnh (edges)…
Trong các nghiên cứu gần đây thì đặc trưng ngữ nghĩa được sử dụng rộng rãi
và phổ biến, mang lại hiệu quả cao do ít chịu ảnh hưởng như các đặc trưng cấp thấp
khi có sự thay đổi về ảnh nền, điều kiện ánh sáng, sự thay đổi về kiểu dáng, góc
quay…Phương pháp này sử dụng các thuộc tính để diễn tả đối tượng. VD: Một cá
nhân, đối tượng được mô tả bởi sự xuất hiện của một số thuộc tính như quần xanh,
áo đen, tóc dài, tóc vàng…Một số nghiên cứu về tái nhận dạng dựa trên đặc trưng
ngữ nghĩa được thực hiện đạt được độ tin cậy và hiệu quả cao. Layne [9][10] đề
xuất học sự lựa chọn và đánh trọng số đặc trưng ngữ nghĩa để mô tả ảnh người.
Các nghiên cứu gần đây cho thấy được sự hiệu quả của việc học đặc trưng
ngữ nghĩa dùng để biểu diễn đối tượng, nó có khả năng phân biệt đối tượng cho bài
toán tái nhận dạng. Tuy nhiên, các phương pháp biểu diễn đặc trưng ngữ nghĩa
trước đó không khái quát trong toàn bộ các camera đã được triển khai (mỗi bộ dữ
liệu được gán nhãn một cách thủ công). Vì vậy, chiến lược hiện tại yêu cầu nỗ lực
trong việc gán nhãn một vector các thuộc tính người cho mỗi cá nhân trong một tập
dữ liệu lớn – đối với mỗi tập dữ liệu được triển khai. Layne [11] đã đề xuất ra một
hướng tiếp cận khác đó là tự động khám phá ra đặc trưng ngữ nghĩa bằng ontology,
và học một biểu diễn kết hợp hiệu quả bằng cách thu thập một lượng lớn dữ liệu từ
internet. Bằng cách huấn luyện trên một tập mẫu huấn luyện lớn và đa dạng hơn (dữ
liệu huấn luyện từ internet). Việc biểu diễn đặc trưng sẽ khái quát và tin cậy hơn so
với các thuộc tính được huấn luyện ở một tập dữ liệu video giám sát thông thường.
Các đặc trưng ngữ nghĩa này được xây dựng thông qua khai thác ý nghĩa các thẻ
văn bản và bình luận. Nhìn tổng thể, các thuộc tính được phát hiện tương đối tin cậy
do các chuyên gia thiết kế các thuộc tính dựa trên một lượng lớn dữ liệu hình ảnh có

sẵn trên internet để huấn luyện. Sơ đồ tổng quan về phương pháp xem Hình 2.8 Sơ
đồ tổng quan về phương pháp. Các module Post-processing như học tính khoảng
16


×