Tải bản đầy đủ (.pdf) (26 trang)

Phân tích dáng đi người sử dụng thông tin đường bao

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.47 MB, 26 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

TRẦN ANH TÚ

PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG
THÔNG TIN ĐƯỜNG BAO

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2017


Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: TS. Huỳnh Hữu Hưng

Phản biện 1: TS. Trần Thế Vũ
Phản biện 2: TS. Trần Thiên Thành

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn
tốt nghiệp thạc sĩ kĩ thuật họp tại Đại học Đà Nẵng vào
ngày 06 tháng 01 năm 2018

Có thể tìm hiểu luận văn tại:
- Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng
- Thư viện trường Đại học Bách Khoa, Đại học Đà Nẵng


Đà Nẵng – Năm 2017


1

MỞ ĐẦU
1. Lý do chọn đề tài
Nhận dạng dựa trên dáng đi là một công nghệ sinh trắc học sử dụng
để nhận dạng con người từ dáng đi và kích thước cơ thể. Ưu điểm của
phương pháo này là dáng đi khó có thể thay đổi, khó có thể bắt chước
trong một thời gian dài liên tục [4]. Không giống như các phương pháp
sinh trắc học khác như ngón tay, mống mắt mặc dù khó nhưng vẫn có
thể thay đổi được. Nhận dạng dáng đi có thể được sử dụng ở một
khoảng cách tương đối lớn mà không bị phát hiện bởi đối tượng.
Như vậy chúng ta có thể thấy được ưu điểm của nhận dạng dáng
đi so với các phương pháp sinh trắc học khác. Từ những lí do trên, tôi
đề xuất chọn đề tài luận văn cao học là: “Phân tích dáng đi người sử
dụng thông tin đường bao”.
2. Mục đích và nhiệm vụ nghiên cứu
2.1. Mục đích nghiên cứu
Mục tiêu chính của đề tài là sử dụng một hoặc nhiều camera để ghi
nhận quá trình chuyển động của đối tượng, sau đó trích thông tin đặc
trưng, từ đó phân tích dáng đi.
2.2. Nhiệm vụ nghiên cứu
Luận văn tập trung nghiên cứu những vấn đề sau: tìm hiểu các loại
camera và bộ SDK hỗ trợ ghi nhận dáng đi; Nghiên cứu các phương
pháp phân tích dáng đi; Nghiên cứu phương pháp mới hoặc cải tiến
phương pháp cũ sử dụng một hoặc nhiều camera và sử dụng dữ liệu
đường bao, sau đó phân tích và đánh giá; Triển khai thực nghiệm để
kiểm chứng kết quả.



2
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
Luận văn tập trung tìm hiểu những vấn đề sau: khung hình hoặc
đoạn video thu được từ camera hoặc từ các bộ dữ liệu có sẵn; Các
phương pháp huấn luyện học máy; Các phương pháp nhận dạng dựa
trên dáng đi.
3.2. Phạm vi nghiên cứu
Luận văn tập trung trong phạm vi: nghiên cứu phân tích dáng đi
với dữ liệu từ camera hoặc dữ liệu có sẵn, cụ thể là dáng đi bình thường
ở tư thế đứng.
4. Phương pháp nghiên cứu
4.1. Phương pháp lý thuyết
Luận văn tập trung nghiên cứu một số lý thuyết như sau: tìm hiểu
các tài liệu hiện có về nhận dạng sinh trắc học khác nhau; Tìm hiểu
các phương pháp trích chọn đặc trưng khác nhau; Tìm hiểu các tài liệu
hiện có về nhận dáng dáng đi khác nhau; Nghiên cứu bài báo liên quan.
4.2. Phương pháp thực nghiệm
Luận văn nghiên cứu một số vấn đề về thực nghiệm như sau: Ghi
nhận dữ liệu từ camera hoặc sử dụng dữ liệu có sẵn; Phân tích và đánh
giá dữ liệu ở trên để kiểm chứng và so sánh tính hiệu quả với các
phương pháp khác
5. Giải pháp đề xuất


3
Quá trình xử lý và các phương pháp dự kiến được nghiên cứu sử
dụng:


Hình 0.1 – Sơ đồ phương pháp dự kiến
6. Ý nghĩa khoa học và thực tiễn của đề tài
6.1. Ý nghĩa khoa học của đề tài
Về mặt khoa học, đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết
và phương pháp phân tích dáng đi, được áp dụng trong các hướng
nghiên cứu sâu hơn, cụ thể hơn.
6.2. Ý nghĩa thực tiễn của đề tài
Về mặt thực tiễn, kết quả đề tài có thể được ứng dụng trong các hệ
thống an ninh để nhận dạng các đối tượng cần thiết, và trong lĩnh vực
y tế để chuẩn đáng các căn bệnh liên quan tới khung xương thông qua
dáng đi.
7. Kết quả dự kiến


4
Luận văn dự kiến sẽ đạt được những kết quả sau: hiểu được các kĩ
thuật xử lý ảnh và học máy cơ bản; Đưa ra được giải pháp cho vấn đề
phân tích/nhận dạng dáng đi một cách hiệu quả; Xây dựng chương
trình thực nghiệm phân tích/nhận dạng dáng đi để kiểm chứng.
8. Cấu trúc luận văn
Nội dung của luận văn được trình bày với các phần chính như sau:
Mở đầu
Chương 1 - Nghiên cứu tổng quan: Chương này trình bày một
số vấn đề liên quan tới phân tích dáng đi như các lý thuyết về nhận
dạng dáng đi, các phương pháp xử lí ảnh, các ứng dụng dựa trên nhận
dạng dáng đi.
Chương 2 - Phát hiện và phân tích dáng đi dựa trên thông tin
đường bao: Trong chương này trình bày cách phát hiện phân đoạn
dáng đi thành chu kì, một số kỹ thuật trích chọn đặc trưng thường

được sử dụng để phục vụ cho bài toán nhận dạng. Đồng thời giới thiệu
một số kỹ thuật nhận dạng dáng đi phổ biến như: K-NN, SVM, ANN
và HMM.
Chương 3 - Triển khai và nhận xét: Chương này trình bày về
việc xây dựng hệ thống phân tích và nhận dạng dáng đi.
Kết luận và hướng phát triển.


5

CHƯƠNG 1 - NGHIÊN CỨU TỔNG QUAN
1.1. GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu
vào nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình
xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận.
1.2. TỔNG QUAN CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ
ẢNH
Ảnh và điểm ảnh: Điểm ảnh được xem như là dấu hiệu hay cường
độ sáng tại một toạ độ trong không gian của đối tượng và ảnh được
xem như là 1 tập hợp các điểm ảnh. Mức xám, màu: Là số các giá trị
có thể có của các điểm ảnh của ảnh.
1.2.1. Nắn chỉnh biến dạng
Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và
điện tử.

Hình 1.2 - Ảnh thu nhận và ảnh mong muốn [2]
1.2.2. Khử nhiễu
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh: nhiễu hệ
thống, nhiễu ngẫu nhiên.
1.2.3. Chỉnh mức xám



6
Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông
thường có 2 hướng tiếp cận: giảm số mức xám, tăng số mức xám
1.2.4. Trích chọn đặc trưng
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích
nhận dạng trong quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm
của ảnh sau đây: đặc điểm không gian (phân bố mức xám, phân bố xác
suất, biên độ, điểm uốn…); Đặc điểm biến đổi; Đặc điểm biên và
đường biên.
1.2.5. Nhận dạng
Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó có
thể: phân loại có mẫu (supervised classification), phân loại không có
mẫu (unsupervised classification hay clustering).
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba
giai đoạn chủ yếu sau đây: thu nhận dữ liệu và tiền xử lý; Biểu diễn
dữ liệu; Nhận dạng, ra quyết định.
1.2.6. Nén ảnh
1.3. CÁC GIAI ĐOẠN TRONG DÁNG ĐI Ở NGƯỜI
Dáng đi được định nghĩa là chuỗi liên tục thành nhịp các giai đoạn
đu đưa (swing) và tựa (support) của hai chân khi bàn chân hoặc ở trong
không (đu đưa) hoặc tiếp xúc với đất (tựa).
1.3.1. Giai đoạn tựa (chống)


7
Là khi bàn chân tiếp xúc với đất (từ điểm bàn chân chạm đất đến khi
bàn chân rời khỏi đất).


Hình 1.4 - Mô tả khung xương chân cho giai đoạn chống. [25]
1.3.1.1. Thì chạm đất
1.3.1.2. Thì chuyển trọng lượng
1.3.1.3. Giữa thì chống
1.3.1.4. Cuối thì chống
1.3.2. Giai đoạn đu đưa
Xảy ra từ lúc bàn chân rời đất đến khi bàn chân đó chạm đất lại.

Hình 1.5 - mô tả khung xương chân cho giai đoạn đu đưa. [25]
1.3.2.1. Tiền thì đu
1.3.2.2. Đầu thì đu


8
1.3.2.3. Giữa thì đu
1.3.2.4. Cuối thì đu
1.3. QUÁ TRÌNH XỬ LÝ VÀ NHẬN DẠNG DÁNG ĐI
1.3.1. Sơ đồ khối của hệ thống nhận dạng dáng đi
Tiến trình nhận dạng dáng đi cơ bản có dạng như sau:

DỮ LIỆU
ĐẦU VÀO

TIỀN XỬ


TRÍCH
CHỌN ĐẶC
TRƯNG


NHẬN
DẠNG

Hình 1.6 - Sơ đồ khối của hệ thống nhận dạng dáng đi
1.3.2. Dữ liệu vào
Dữ liệu vào có thể là một hình ảnh, hoặc một chuỗi các hình ảnh
(video), được chụp bởi một camera hướng về đối tượng cần nhận dạng.
1.3.3. Tiền xử lý
Dưới đây là một số kỹ thuật tiền xử lý thường được áp dụng trong
giai đoạn này: chuyển ảnh RGB sang ảnh nhị phân, lọc nhiễu, phân
đoạn ảnh.
1.3.4. Trích chọn đặc trưng
Trích chọn đặc trưng là chiết xuất thông tin từ dữ liệu thô mà nó
phù hợp nhất cho mục đích nhận dạng để giảm thiểu các biến thể trong
một lớp và tối đa hóa các biến thể giữa các lớp khác nhau.
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích
nhận dạng trong quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm
của ảnh sau đây: đặc điểm không gian, đặc điểm biến đổi, đặc điểm
biên và đường biên


9
1.3.5. Nhận dạng
Giai đoạn nhận dạng thực hiện việc phân tích từ dữ liệu đầu vào
của người dùng để kiểm tra trong dữ liệu đầu vào đó có chứa cử chỉ
đang xét hay không.
1.4. CÁC ỨNG DỤNG DỰA TRÊN PHÂN TÍCH DÁNG ĐI
1.4.1. Ứng dụng trong lĩnh vực an ninh
1.4.2. Ứng dụng trong lĩnh vực bảo mật
1.4.3. Ứng dụng trong lĩnh vực y tế

1.5. NHỮNG THÁCH THỨC TRONG NHẬN DẠNG DÁNG ĐI
1.5.1. Bài toán có quá nhiều chiều
1.5.2. Hiện tượng bị che khuất
1.5.3. Môi trường không kiểm soát
1.5.4. Nhận diện thời điểm bắt đầu và kết thúc ở một thì
1.5.5. Lựa chọn đặc trưng phù hợp
1.5.6. Tốc độ xử lý và tính chính xác trong nhận dạng
1.6. KẾT LUẬN CHƯƠNG 1
Phân tích dáng đi là một lĩnh vực không mới, tuy nhiên vẫn tồn tại
nhiều hạn chế trong các phương pháp hiện tại, đồng thời kết quả ghi
nhận mang tính tương đối với độ chính xác thấp. Ngoài ra các ứng
dụng của phân tích dáng đi được ứng dụng rộng khắp, nhưng lại chưa
được ứng dụng cho các người dùng phổ thông.
Vì thế, đề tài nghiên cứu về phân tích dáng đi hi vọng có thể cải
thiện được kết quả của quá trình phân tích, đồng thời đơn giản hoá và
nâng cao cơ hội ứng dụng phân tích dáng đi vào đời sống thường nhật.


10

CHƯƠNG 2 - PHÁT HIỆN VÀ PHÂN TÍCH DÁNG ĐI
DỰA TRÊN THÔNG TIN ĐƯỜNG BAO
2.1. TIỀN XỬ LÝ
2.1.1. Phát hiện chuyển động và truy dấu
Phát hiện đối tượng người và truy dấu là bước đầu tiên của phân
tích dáng đi. Thuật toán phát hiện và theo dõi sự thay đổi được sử dụng
dựa trên phép trừ mặt sau (background subtraction) và tương quan
đường bao (silhouette correlation).
2.1.2. Mô hình nền (Background Modeling)
Phép trừ mặt sau được sử dụng rộng rãi trong việc phát hiện mặt

trước (foreground detection), nơi một máy ảnh cố định thường được
sử dụng để quan sát các cảnh động. Trong luận văn này, phương pháp
LMedS (Least Median of Squares) [9] được sử dụng để xây dựng hình
nền từ một phần nhỏ của các chuỗi hình ảnh.
2.1.3. Sự khác biệt (Differencing)
Sự thay đổi độ sáng thường là hệ quả của sự thay đổi giữa ảnh nền
và ảnh hiện tại. Tuy nhiên việc lựa chọn một ngưỡng phù hợp cho việc
nhị phân hoá là rất khó, đặc biệt là trong các trường hợp hình tương
phản thấp vì hầu hết các đối tượng di chuyển có thể bị bỏ qua bởi vì
sự thay đổi độ sang quá thấp để phân biệt các vùng di chuyển khỏi các
đối tượng nhiễu.
2.1.4. Hậu xử lý và truy dấu
Cần lưu ý rằng quá trình trên được thực hiện độc lập cho mỗi thành
phần R, G, và B trong một hình ảnh. Đối với một pixel nhất định, nếu
một trong ba thành phần xác định nó là điểm thay đổi, thì nó sẽ được


11
đặt ở tiền cảnh (foreground). Quá trình này tạo ra một mặt nạ (mask)
của một khu vực được quan tâm để tiếp tục xử lý.
Để loại bỏ sự không chính xác do quá trình phân đoạn, mỗi vùng
tiền cảnh sẽ được theo dõi từ khung hình này tới khung hình kia bằng
một phương pháp tương ứng đơn giản dựa trên sự chồng chéo của các
biên của khung tương ứng trong hai khung hình bất kì liên tiếp. Nghĩa
là thực hiện một sự tương quan biên nhị phân (binary edge correlation)
giữa cấu trúc hình ảnh hiện tại và hình ảnh trước đó trên một tập các
thay đổi nhỏ.

Hình 2.2 - Sự thay đổi của các đường bao trong một mẫu dáng đi
2.2. Trích chọn đặc trưng

2.2.1. Biểu diễn đường bao (Silhouette)
Để làm cho phương pháp đề xuất không bị ảnh hưởng của sự thay
đổi màu sắc và kết cấu quần áo, chúng ta chỉ sử dụng đường bao nhị
phân. Quá trình minh hoạ được thể hiện ở Hình 2.3.


12
Sau đó chúng ra có thể tính toán vị trí của trọng tâm (xc, yc) thông
qua một số phương pháp như k-means. Hoặc thông qua công thức tính
trọng tâm của một hình.
Bằng cách chọn trọng tâm, chúng ta mở rộng đường biên theo
hướng ngược chiều kim đồng hồ để biến nó thành tín hiệu khoảng cách
S = {d1, d2 , …, di , …, dNb} là tập hợp của tất cả khoảng cách di
giữa mỗi cạnh điểm ảnh (xi,yi) và trọng tâm.

Hình 2.3 - Biểu diễn đường bao
Tín hiệu này gián tiếp đại diện cho hình dạng gốc của đường bao
2 chiều bên trong không gian 1 chiều.
Để loại bỏ ảnh hưởng của quy mô không gian và độ dài tín hiệu,
chúng ta chuẩn hoá các tín hiệu khoảng cách đối với độ lớn và kích
cỡ. Bằng cách chuyển đổi một chuỗi các hình ảnh dạng đường bao
thành một chuỗi các mẫu tín hiệu 1D liên quan, chúng ta sẽ loại bỏ
được những dữ liệu có khả năng nhiễu.
2.2.2. Huấn luyện và phép chiếu (Projection)
2.2.2.1. Phân tích thành phần chính (PCA Training)
Một số đặc tính của PCA như sau: giúp giảm số chiều của dữ liệu.
Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một


13

không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu
tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên
(variability) của dữ liệu trên mỗi chiều mới.
Nói một cách ngắn gọn, mục tiêu của PCA là tìm một không gian
mới (với số chiều nhỏ hơn không gian cũ). Các trục tọa độ trong không
gian mới được xây dựng sao cho trên mỗi trục, độ biến thiên của dữ
liệu trên đó là lớn nhất có thể.
2.2.2.2. Phép chiếu
Theo đó, một chuyển động tuần tự của dáng đi có thể được ánh xạ
thành một quỹ đạo đa hình trong một không gian đặc trưng có thể xác
định được tham số. Nó thường được biết tới với k nhỏ hơn nhiều so
với kích thước dữ liệu ban đầu N.
2.2.3. Đặc trưng HOG
HOG là viết tắt của Histogram of Orientation Gradient, phương
pháp HOG dựa trên việc đếm số lần xuất hiện của các hướng đạo hàm
trong các vùng cục bộ ảnh.
2.3. KỸ THUẬT NHẬN DẠNG
Nhận dạng dáng đi là một bài toán phân lớp kinh điển, có thể đươc
giải quyết bằng cách đo sự tương tự giữa các mẫu tham chiếu và các
mẫu thử nghiệm trong vùng không gian tham số riêng.
2.3.1. Đo lường sự tương tự (Similarity Measures)
2.3.1.1. Sự tương đồng không-thời gian (Spatial-Temporal
Correlation)
Dáng đi là một dạng của mô hình chuyển động theo không gian và
thời gian, vì thế chúng ta sử dụng STC (Spatial-Temporal Correlation,


14
một sự mở rộng của ảnh 2 chiều tương đồng với 3 chiều trong một
miền không gian và thời gian [14]) để để nắm bắt tốt hơn các đặc tính

chuyển tiếp về cấu trúc và thời gian.
2.3.1.2. Sự chuẩn hoá khoảng cách Euclidean
Cần lưu ý rằng chi phí tính toán sẽ tăng nhanh chóng nếu sự so
sánh được thực hiện trong miền không-thời gian, đặc biệt là khi thời
gian kéo dài và sự thay đổi được tính đến ở [12]. Vì thế chúng ta sử
dụng NED (Normalized Euclidean Distance) giữa các trọng tâm được
chiếu của hai dãy dáng đi cho các cách đo lường sự tương đồng để loại
bỏ các vấn đề về trùng khớp như thế.
2.3.2. Phân lớp
Quá trình phân lớp được thực hiện thông qua hai phương thức đơn
giản, thứ nhất là hàng xóm gần nhất K Nearest Neighbor (K-NN) và
thứ hai là hàng xóm gần nhất đối với các lớp mẫu Extended Nearest
Neighbor (ENN) xuất phát từ trọng tâm trung bình của các pha huấn
luyện cho một đối tượng cụ thể.
2.3.3. Kỹ thuật sử dụng mạng nơ-ron nhân tạo - ANN
2.3.3.1. Mô hình ANN
Mạng nơ-ron nhân tạo gọi tắt là mạng nơ-ron (ANN – viết tắt tên
tiếng Anh Artificial Neural Network), là một mô hình xử lý thông tin
phỏng theo cách thức xử lý thông tin của các hệ nơ-ron sinh học, được
nghiên cứu ra từ hệ thống thần kinh của sinh vật, giống như bộ não để
xử lý thông tin.


15
ANN được tạo nên từ một số lượng lớn các nút (mỗi nút là một
nơ-ron) kết nối với nhau thông qua các liên kết (có trọng số) làm việc
như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó. Đầu ra
của một nút được sử dụng cho một nút khác ở trong mạng và hàm
quyết định cuối cùng phụ thuộc vào sự tương tác phức tạp giữa các
nút.


Hình 2.9 - Mô hình cấu trúc một nơ-ron trong ANN
2.3.3.2. Tiến trình học ANN
Giải thuật học lan truyền ngược của ANN được mô tả [17]:

Hình 2.10 - Học sửa lỗi thông qua các điều chỉnh trọng số
Như vậy, về bản chất, học chính là quá trình hiệu chỉnh trọng số
liên kết giữa các nơ-ron sao cho giá trị hàm lỗi là nhỏ nhất.
2.3.4. Kỹ thuật sử dụng máy vector hỗ trợ - SVM


16
Máy vector hỗ trợ (Support vector machines) là một thuật toán học
máy nổi tiếng được sử dụng để giải quyết bài toán phân lớp, phương
pháp phân loại của nó xuất phát từ lý thuyết học thống kê và hàm hạt
nhân, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc, SVM sẽ cố gắng
tìm cách phân loại dữ liệu sao cho lỗi xảy ra trên tập kiểm tra là nhỏ
nhất [19].
2.3.5. Sử dụng mô hình Markov ẩn - HMM
Mô hình Markov ẩn (Hidden Markov Model) là mô hình toán học
về thống kê. Do đạt được độ chính xác cao và có khả năng thay đổi
cấu trúc dễ dàng nên mô hình này ngày càng được sử dụng rộng rãi
trong nhiều lĩnh vực, đặc biệt là trong lĩnh vực nhận dạng.
2.3. KẾT LUẬN CHƯƠNG 2
Như vậy, trong chương này luận văn đã giới thiệu một số kỹ thuật
trích chọn đặc trưng và nhận dạng dáng đi thường được sử dụng phổ
biến, mỗi phương pháp đều có các ưu điểm và hạn chế riêng, việc áp
dụng phương pháp nào tùy thuộc vào từng bài toán cụ thể. Trong một
số bài toán, người ta có thể sử dụng kết hợp một số phương pháp với
nhau như SVM/HMM, ANN/HVM…. để có được kết quả nhận dạng

được tốt hơn.


17

CHƯƠNG 3: THỰC NGHIỆM VÀ NHẬN XÉT
3.1. THU THẬP DỮ LIỆU
Trong đề tài này tác giả sẽ sử dụng tập dữ liệu có sẵn từ các nghiên
cứu của Viện Tự động hoá, Viện Hàn lâm Khoa học Trung Quốc
(CASIA) [26].
Quá trình ghi nhận dữ liệu được tiến hành bằng một camera được
cố định trên chân máy ảnh. Tất cả các đối tượng đi dọc theo đường
thẳng một cách tự do theo 3 hướng khác nhau đối với mặt phẳng máy
quay: ngang 0º, nghiêng 45º và vuông góc 90º.
3.2. TRIỂN KHAI CÀI ĐẶT
3.2.1. Tiền xử lý
Chúng ta tiến hành xử lý các ảnh đầu vào theo các bước phân đoạn
chuyển động, sau đó truy dấu để tách đối tượng người từ hình nền theo
các bước đã mô tả ở mục 2.2.1 (Phát hiện chuyển động và truy dấu).
Cần lưu ý rằng, trong luận văn sử dụng tập dữ liệu đã được xử lý tách
nền và phân đoạn.
Sau khi đã có được hình ảnh tách nền, chúng ta tiến hành tách
đường bao và khử nhiễu của bước đi cụ thể với ngôn ngữ lập trình
Python và thư viện thị giác máy tính OpenCV, Numpy.
3.2.2. Trích chọn đặc trưng
3.2.2.1. Biểu diễn đường bao
Những hình ảnh đường bao 2D thu được sau đó tiếp tục được biến
đổi thành một dãy tín hiệu khoảng cách tương đồng như ở mục 2.2.2
(Biểu diễn đường bao).



18
Những dãy tín hiệu khoảng cách thu được sẽ được phân tích PCA
để giảm số chiều xử lý ở bước tiếp theo.
3.2.2.2. Huấn luyện PCA và phép chiếu
Chọn một số lượng chuỗi tín hiệu khoảng cách bao gồm tất cả các
lớp để huấn luyện. Quá trình huấn luyện dựa trên PCA được thực hiện
theo cách đã mô tả ở phần 2.2.2 (Huấn luyện và phép chiếu). Hình 3.2
cho thấy ba hình dạng riêng của mỗi góc nhìn. Trong đề tài này tác giả
chỉ chọn những tín hiệu khoảng cách của đối tượng ở góc nhìn vuông
góc 90º (đối tượng chuyển động ngang so với máy quay). Chúng ta có
thể thấy rằng các vector riêng này gần đối xứng hoặc đối xứng, cho
thấy rằng dáng đi có đặc tính đối xứng.

Hình 3.2 - Ba vector đặc trưng đầu tiên cho mỗi góc nhìn được tạo
bởi quá trình huấn luyện PCA: (a) nhìn bên, (b) nhìn xiên, và (c)
3.2.3. Huấn luyện


19
Tập dữ liệu đầu vào trong luận văn có gán nhãn nên chúng ta sử
dụng các thuộc toán máy học có giám sát (supervised learning) để phân
lớp. Hiện nay thì deep learning cho kết quả cao trong các bài toán phân
lớp, vì thế tác giả sẽ chọn deep learning làm phương pháp huấn luyện
chính.
Mạng nơ-ron sâu (DNN-Deep Neural Network) là một mạng nơron nhân tạo (ANN) với nhiều đơn vị lớp ẩn giữa lớp đầu vào và đầu
ra. Các kiến trúc DNN, ví dụ như để phát hiện và phân tích đối tượng
tạo ra các mô hình hỗn hợp trong đó đối tượng này được thể hiện như
một thành phần được xếp lớp của các hình ảnh nguyên thủy. Các lớp
phụ cho phép các thành phần của các đặc điểm từ các lớp thấp hơn,

đem lại tiềm năng của mô hình hóa dữ liệu phức tạp với các đơn vị ít
hơn so với một mạng lưới nông thực hiện tương tự như vậy.
Trong giới hạn về kĩ thuật, tác giả chọn framework học máy
Tensorflow [28] làm công cụ triển khai huấn luyện trên nền Python3
và hệ điều hành MacOS, tensor là khái niệm cơ bản nhất trong
TensorFlow [28]
3.2.4. Triển khai nhận dạng trên nền tảng di động
Song song với việc nhận dạng trên máy tính xách tay, tác giả triển
khai thử nghiệm trên nền tảng di dộng iOS để so sánh hiệu năng và độ
chính xác trên các nền tảng khác nhau:
Ở mục 3.2.2, chúng ta sử dụng Tensorflow để huấn luyện và tạo
ra model trên nền tảng máy tính, tuy nhiên model này không sử dụng
được trên nền tảng di động, vì vậy chúng ta cần một công cụ khác để
xây trụng model sử dụng trên di động. Cụ thể tác giả chọn Keras, một
framework khá mạnh dựa trên nền backend là Tensorflow.


20
3.2.4.1. Huấn luyện sử dụng Deep Neural Networks
3.2.4.2. Huấn luyện sử dụng Convolutional Neural Networks
3.2.4.3. Chuyển đổi training mode của Keras qua CoreML
3.2.4.4. Thiết kế và xây dựng ứng dụng iOS
3.3. KẾT QUẢ THỬ NGHIỆM
3.3.1. Kết quả huấn luyện
Biểu đồ tương quan giữa số bước huấn luyện và độ chính xác, số
bước huấn luyện càng nhiều thì độ chính xác càng cao:

Hình 3.7 - Biểu đồ tương quan giữa độ chính xác và số bước huấn
luyện: (màu cam) độ chính xác huấn luyện, (màu xanh) độ chính xác
nhận dạng; (trục hoành) số bước huấn luyện, (trục tung) giá trị

chính xác


21
Biểu đồ tương quan giữa hàm sai số và số bước huấn luyện:

Hình 3.8 - Biểu đồ tương quan giữa cross-entropy và số bước huấn
luyện: (màu cam) cross-entropy huấn luyện, (màu xanh) crossentropy nhận dạng; (trục hoành) số bước huấn luyện, (trục tung) giá
trị chính xác
3.3.2. Kết quả nhận dạng
3.3.2.1. Nhận dạng trên máy tính
Độ chính xác chung của các phép thử giao động từ 50% đến 99%.
Bằng vào biểu đồ hình 35, chúng ta thấy được độ chính xác trung
bình của phương pháp là 87.1% với số bước huấn luyện là 4000.
Nếu chúng ta tăng số bước huấn luyện lên thì độ chính xác sẽ tăng lên
3.3.2.2. Nhận dạng trên điện thoại đi động iPhone
Tiến hành thu nhận ảnh và nhận dạng trên điện thoại iPhone, chúng
ta cũng được một kết quả tương đương với độ chính xác 87.1% với
DNN, và 70.4% với CNN.
3.3.3. So sánh với các phương pháp khác


22
Bảng 3.1 thể hiện sự so sánh kết quả của luận văn so với các
phương pháp đã được giới thiệu của các tác giả khác với cùng 1 tập dữ
liệu giống nhau:
Bảng 3.1 - So sánh độ chính xác với các phương pháp khác
Stt.

Phương pháp


Độ chính
xác
85.58%

1

Skeletal Data and Dynamic Time Warping [20]

2
3
4

Gait Analysis using Microsoft Kinect [21]
Using Kinect and CBIR [22]
Gait recognition using dynamic time warping [23]
Distance using HMM (0.0*Ds +0.8*Dk +0.2*Dm) [4]
(Number of states = 5)
(Gaussian Mixtures = 5)
Distance using sliding window with window size = 15
(0.5*Ds +0.5*Dk +0.0*Dm) [4]

52.56%
46.5%
43.72%

7

Phương thức trong luận văn sử dụng DNN (training step = 2000)


75.5%

8

Phương thức như triển khai DNN (training step = 4000)

87.1%

5
6

87.4%
86.51%

3.4. NHẬN XÉT KẾT QUẢ
Dựa trên kết quả đạt được, có thể thấy rằng phương pháp đề ra có
độ chính xác tương đối cao, có thể nói là chấp nhận được. Tuy nhiên
vẫn chưa đánh giá được vấn đề hiệu năng và tốc độ của quá trình huấn
luyện và nhận dạng.
Việc chỉ phân tích dáng đi theo chiều vuông góc với máy quay làm
giảm đáng kể độ chính xác của kết quả, vì thế cần phải mở rộng nghiên
cứu bằng cách phân tích dáng đi theo 3 hướng như đã nêu ở mục 2.
Ngoài ra, việc triển khai nhận dạng trên nền tảng di động đưa ra
một hướng đi mới trong việc triển khai và ứng dụng phân tích dáng đi
lên những phương tiện di động, mở ra nhiều ứng dụng thực tế hơn, dễ
dàng đưa công nghệ này tới người dung phổ thông hơn.


23


KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Với nhu cầu ngày càng tăng của các hệ thống giám sát trực quan,
nhận dạng các đối tượng người ở một khoảng cách nhất định được
quan tâm nhiều hơn trong thời gian gần đây. Phân tích dáng đi là một
phương pháp tiềm năng và nhiều nghiên cứu tương tự đã chứng minh
được nó là một phương pháp sinh trắc học khả thi và có tiềm năng lớn
trong việc ứng dụng vào nhiều lĩnh vực đời sống. Sự phát triển của các
kĩ thuật thị giác máy tĩnh cũng ảnh lớn theo chiều hướng tích cực tới
khả năng nâng cao độ chính xác của các phương pháp phân tích dáng
đi.
Luận văn đã mô tả được những kiến thức nền liên quan tới việc
phân tích dáng đi. Đồng thời cũng đã mô tả được một phương pháp
đơn giản nhưng hiệu quả để phân tích/nhận dạng đối tượng người từ
đường bao và dáng đi của cơ thể. Sự kết hợp của việc tách nền và phép
chiếu đối đối xứng được sử dụng để phân đoạn, truy dấu dựa trên
đường bao của người đi bộ.
Việc lựa chọn những đặc trưng đơn giản và tham số không giam
đặc trưng làm giảm đáng kể chi phí tính toán trong quá trình huấn
luyện và nhận dạng. Bằng các thực nghiệm cụ thể đựa trên tập cơ sở
dữ liệu có sẵn, luận văn đã chứng minh được tính khả thi của đề tài
trong một số điều kiện nhất định. Tuy nhiên, tỉ lệ nhận dạng chính xác
còn chưa cao, cần phải nghiên cứu nhiều hơn các phương pháp hiện
tại hoặc xây dựng một phương pháp mới để đề cao độ chính xác của
phương pháp.
Để triển khai dự án trên một môi trường rộng hơn, tác giả cần phải
làm nhiều hơn. Mặc dù kết quả là hợp lệ, nhưng lại không thể đưa ra
nhiều kết luận về một dáng đi cụ thể. Vì thế việc tiến hành thực nghiệm



×