Phát hiện người ngã sử dụng đặc trưng kết hợp từ nhiều nguồn cảm biến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 52 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

PHẠM ANH TUẤN

PHÁT HIỆN NGƯỜI NGÃ SỬ DỤNG ĐẶC TRƯNG KẾT HỢP TỪ
NHIỀU NGUỒN CẢM BIẾN

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2019

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

PHẠM ANH TUẤN

PHÁT HIỆN NGƯỜI NGÃ SỬ DỤNG ĐẶC TRƯNG KẾT HỢP TỪ
NHIỀU NGUỒN CẢM BIẾN

Chuyên ngành: Hệ thống Thông tin
Mã số: 8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. PHẠM VĂN CƯỜNG

HÀ NỘI - 2019

i

LỜI CAM ĐOAN

Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện. Mọi tham khảo dùng
trong luận văn đều được trích dẫn rõ ràng và trung thực về tên tác giả, tên công trình,
thời gian và địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.

Tác giả luận văn

Phạm Anh Tuấn

ii

LỜI CẢM ƠN

Em xin chân thành gửi lời cảm ơn sâu sắc đến thầy: PGS.TS. Phạm Văn Cường
Giảng viên khoa Công nghệ Thông tin 1 - Học viện Công nghệ Bưu chính Viễn thông.
Thầy đã định hướng nghiên cứu, chỉ bảo tận tình, đôn đốc đầy trách nhiệm, cho em
các ý kiến đóng góp rất giá trị trong suốt quá trình làm nghiên cứu khoa học, làm luận
văn, đồng thời tạo điều kiện thuận lợi để em hoàn thành luận văn này.
Em xin chân thành cảm ơn toàn thể các thầy cô Khoa Đào tạo Sau Đại học; Khoa
Công nghệ Thông tin 1 - Học viện Công nghệ Bưu chính Viễn thông đã truyền đạt
những kiến thức bổ ích và lý thú, giúp ích cho em trên con đường học tập và nghiên

cứu của mình.
Cuối cùng, tôi cũng xin cảm ơn tất cả những người bạn đã đóng góp ý kiến, động
viên, giúp đỡ tôi hoàn thành luận văn này.

Hà Nội, ngày 23 tháng 01 năm 2019
Tác giả luận văn

Phạm Anh Tuấn

iii

1

MỤC LỤC

LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC CÁC BẢNG..........................................................................................v
DANH MỤC HÌNH VẼ ............................................................................................ vi
DANH MỤC CÁC TỪ VIẾT TẮT ......................................................................... vii
MỞ ĐẦU .....................................................................................................................1
CHƯƠNG 1: TỔNG QUAN .......................................................................................4
1.1 Giới thiệu bài toán ............................................................................................4
1.2 Các nghiên cứu trước đây.................................................................................5
1.3 Phạm vi nghiên cứu ........................................................................................14
1.4 Kết luận chương .............................................................................................15
CHƯƠNG 2: PHÁT HIỆN NGÃ SỬ DỤNG NHIỀU CẢM BIẾN .........................16
2.1. Các cảm biến gia tốc (accelerometer) và cảm biến con quay hồi chuyển

(gyroscope) ............................................................................................................16
2.1.1 Cảm biến gia tốc (accelerometer) ............................................................16
2.1.2 Cảm biến con quay hồi chuyển (gyrosope) .............................................20
2.2. Phân tích và xử lý dữ liệu cảm biến ...............................................................22
2.3. Trích xuất và kết hợp các đặc trưng ...............................................................25
2.4. Thuật toán nhận dạng .....................................................................................29
2.5. Kết luận chương .............................................................................................30
CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ .......................................................32
3.1. Tập dữ liệu......................................................................................................32

iv
3.2. Phân tích và đánh giá kết quả .........................................................................33
3.2.1. Độ đo đánh giá .........................................................................................33
3.2.2. Kết quả trên cảm biến đơn .......................................................................34
3.2.3. Kết quả cho kết hợp đặc trưng cảm biến .................................................35
3.3. Kết luận chương .............................................................................................36
KẾT LUẬN ...............................................................................................................38
DANH MỤC TÀI LIỆU THAM KHẢO ..................................................................39

v

2

DANH MỤC CÁC BẢNG

Bảng 1. 1: Năm bộ dữ liệu về ngã [9] .......................................................................10
Bảng 1. 2: So sánh giữa một vài bộ dữ liệu phát hiện ngã khác nhau. .....................13
Bảng 3. 1: Các hoạt động ngã và không phải ngã .....................................................33

Bảng 3. 2: Kết quả đánh giá từ cảm biến đơn. ..........................................................34
Bảng 3. 3: Kết quả thu được khi thay đổi giá trị của α và β .....................................35
Bảng 3. 4: Chi tiết kết quả cho sự kết hợp các đặc trưng của cảm biến. ..................36

vi

3 DANH MỤC HÌNH VẼ
Hình 1. 1: Hình minh họa của môi trường và thiết bị cài đặt. ....................................6
Hình 1. 2: Hình minh họa dữ liệu thu thập từ nhiều cảm biến....................................7
Hình 1. 3: Mô hình đề xuất cho sự phát hiện ngã [3] .................................................8
Hình 1. 4: Ví dụ về ngã bị che khuất được ghi tại hai điểm quan sát .......................12
Hình 2. 1: Cảm biến gia tốc tuyến tính .....................................................................16
Hình 2. 2: Gia tốc kế 3 chiều trên smartphone..........................................................17
Hình 2. 3: Nguyên lý đo gia tốc theo trục y ..............................................................18
Hình 2. 4: Minh họa giá trị của x, y, z ......................................................................18
Hình 2. 5: Một số nghiên cứu liên quan sử dụng cảm biến gia tốc...........................19
Hình 2. 6: Con quay hồi chuyển................................................................................20
Hình 2. 7: Raspberry MPU 6050 [23] (trái) và cổng xPico 200 IoT [24] (phải) ......23
Hình 2. 8: Tín hiệu cảm biến của ngã từ từ; tín hiệu chuẩn hóa của gia tốc kế ........24
Hình 3. 1: Thiết bị đeo được gắn cho các đối tượng tham gia thử nghiệm...............33

vii

4 DANH MỤC CÁC TỪ VIẾT TẮT
KÝ HIỆU
AAE
ADL

TIẾNG ANH
Averaged Acceleration
Energy
Activities of Daily Living
Averaged Rotation Angles

ARATG

related to Gravity

TIẾNG VIỆT
Trung bình năng lượng gia tốc
Các hoạt động sống hàng ngày
Trung bình góc quay theo hướng
trọng lực

Direction
Averaged Rotation Energy

Trung bình năng lượng quay

Averaged Velocity along

Vận tốc trung bình theo hướng trọng

Gravity Direction

lực

Averaged Velocity along

Vận tốc trung bình theo hướng di

Heading Direction

chuyển

DCT

Discrete Cosine Transform

Biến đổi Cosin rời rạc

DF

Dominant Frequency

Tần số chính

DT

Decision Tree

Cây quyết định

ARE
AVG

AVH

EVA

Eigenvalues of Dominant
Directions

Trị riêng của các hướng chính

IoT

Internet of Things

Mạng lưới thiết bị kết nối Internet

KNN

K Nearest Neighbours

K láng giềng gần nhất

LLSF

Linear Least Square Fit

Tuyến tính bình phương nhỏ nhất

viii

KÝ HIỆU

TIẾNG ANH

TIẾNG VIỆT

MI

Movement Intensity

Cường độ chuyển động

NB

Naïve Bayes

Nnet

Neural Network

PCA

Principal Component
Analysis

Tính toán các xác suất chưa biết dựa
trên các xác suất có điều kiện khác
Mạng nơron
Phân tích thành phần chính

RBF

Radial Basis Function

Hạt nhân cơ sở hướng tâm

RF

Random Forest

Rừng ngẫu nhiên

SMA
SVM

Normalized Signal
Magnitude Area
Support Vector Machine

Diện tích độ lớn tín hiệu chuẩn hóa
Máy vector hỗ trợ

1

5 MỞ ĐẦU
Tuổi thọ của con người ngày càng gia tăng, trong khi có nhiều dự báo cho thấy
những người lớn tuổi sẽ phải sống độc lập trong ngôi nhà của họ. Một trong những
rủi ro lớn đối với người lớn tuổi khi sống một mình là thường hay bị ngã. Hơn nữa,
nguy cơ té ngã tăng rõ rệt theo độ tuổi do phản ứng chậm hơn, cân bằng và sức mạnh
cơ bắp giảm. Vì vậy, hàng năm cứ trong 3 người cao tuổi thì có một người bị ngã và
những cú ngã đột ngột này là nguyên nhân phổ biến gây thương tích và nhập viện

trong độ tuổi này. Theo số liệu thống kê thực tế cho thấy thì ở Việt Nam ước tính có
khoảng 1,6 đến 2 triệu người cao tuổi bị té ngã mỗi năm và ở Mỹ có khoảng 1/3 người
có độ tuổi trên 65 tuổi bị ngã mỗi năm. Những chấn thương do ngã gây ra có thể là
thiệt hại mô mềm, các liên kết xương và chấn thương vùng đầu hoặc có thể dẫn đến
gãy xương đe dọa nghiêm trọng đến sức khỏe và cuộc sống của người cao tuổi.
Theo nghiên cứu hàng năm cho thấy 80% người cao tuổi được trang bị nút cứu
trợ nhưng họ lại không thể sử dụng được khi bị ngã mạnh, chủ yếu là vì họ không
mang theo thiết bị vào thời điểm ngã hoặc ngã quá mạnh khiến họ không có khả năng
nhấn nút cứu trợ tại thời điểm bị ngã. Để tăng khả năng sống độc lập của người cao
niên, các nhà nghiên cứu đang hướng đến một số công nghệ thông minh tích hợp
trong ngôi nhà nhằm phát hiện ngã và trợ giúp kịp thời. Chính vì vậy học viên chọn
Đề tài: “Phát hiện người ngã sử dụng đặc trưng kết hợp từ nhiều nguồn cảm biến”
cho luận văn cao học của mình với mục tiêu khảo sát bài toán phát hiện người ngã,
và ứng dụng các thuật toán học máy để phân tích dữ liệu từ nhiều nguồn cảm biến
nhằm phân biệt được nhiều tư thế ngã khác nhau.
Mục đích nghiên cứu của học viên đó là khảo sát bài toán phát hiện người ngã, và
ứng dụng các thuật toán học máy để phân tích dữ liệu từ nhiều nguồn cảm biến nhằm
phân biệt được nhiều tư thế ngã khác nhau. Đối tượng nghiên cứu của học viên là
người cao tuổi và phương pháp kết hợp nhiều dữ liệu cảm biến cho bài toán phát hiện

2
ngã. Phạm vi học viên nghiên cứu là: Cảm biến gia tốc (accelerometer) và cảm biến
con quay hồi chuyển (gyroscope), thử nghiệm trên tập dữ liệu thu thập được.
Phương pháp mà học viên áp dụng trong việc xây dựng luận văn cụ thể gồm: nghiên
cứu lý thuyết và nghiên cứu thực nghiệm, trong đó nghiên cứu lý thuyết bao gồm:
Đọc tài liệu, phân tích các tư thế ngã và nghiên cứu các phương pháp phát hiện ngã
bằng cách kết hợp nhiều cảm biến. Nghiên cứu thực nghiệm học viên thu thập dữ liệu
từ nhiều nguồn cảm biến với các tư thế ngã khác nhau sau đó thử nghiệm và đánh giá
phương pháp phát hiện ngã từ nhiều nguồn cảm biến.

Phần nội dung của luận văn được chia thành các phần như sau: Phần mở đầu,
03 chương chính, phần kết luận, danh mục tài liệu tham khảo, các phần được bố trí
thứ tự như sau:
Phần mở đầu của luận văn nêu lên nguy cơ té ngã ở những người lớn tuổi và
những rủi ro họ gặp phải khi té ngã. Đã có rất nhiều nghiên cứu cho sự phát hiện ngã
của con người tuy nhiên những nghiên cứu đó hầu hết dựa vào dữ liệu từ một nguồn
cảm biến nên trong những trường hợp phức tạp thì phát hiện ngã và các hoạt động
gần giống ngã vẫn còn nhiều vấn đề cần giải quyết từ đó luận văn đưa ra các nội dung
chính về mục đích, đối tượng, phạm vi nghiên cứu cũng như phương pháp nghiên
cứu.
Nội dung chương 1 là: Tổng quan, chương này sẽ trình bầy về khảo sát bài
toán phát hiện ngã; tiếp theo là khảo sát các nghiên cứu liên quan đến bài toán phát
hiện ngã, bao gồm: cách tiếp cận, cảm biến được sử dụng, phương pháp học máy và
phương pháp thực nghiệm; Tiếp theo sẽ trình bầy phạm vi nghiên cứu của luận văn
này, và chương này sẽ kết thúc bằng nội dung đánh giá, nhận xét được rút ra trong
mục kết chương.
Chương 2 bắt đầu bằng việc trình bầy về các cảm biến được sử dụng trong luận văn;
tiếp theo là phương pháp phân tích và xử lý dữ liệu cảm biến; Phương pháp trích xuất

3
và kết hợp các đặc trưng từ nhiều nguồn cảm biến. Cuối cùng sẽ trình bầy về mô hình
học máy sẽ được sử dụng trong chương này và kết chương.
Chương 3 tập trung vào thử nghiệm để đánh giá phương pháp được trình bầy trong
chương 2; mô tả quá trình thu thập và gán nhãn dữ liệu hoặc sử dụng tập dữ liệu đã
công bố. Tiếp đến là trình bầy quá trình và phương pháp thử nghiệm cũng như phân
tích, đánh giá các kết quả thử nghiệm.

4

6 CHƯƠNG 1: TỔNG QUAN
Chương này sẽ trình bầy về bài toán phát hiện ngã; tiếp theo là khảo sát các
nghiên cứu liên quan đến bài toán phát hiện ngã, bao gồm: cách tiếp cận, cảm biến
được sử dụng, phương pháp học máy và phương pháp thực nghiệm; Tiếp theo sẽ trình
bầy phạm vi nghiên cứu của luận văn này, và chương này sẽ kết thúc bằng nội dung
đánh giá, nhận xét được rút ra trong mục kết chương.

1.1

Giới thiệu bài toán

Ngã thường xuyên xảy ra đối với những người bệnh và người cao tuổi, và là một
trong những nguyên nhân chính có thể dẫn đến tử vong ở người cao tuổi. Té ngã
không chỉ gây ra các chấn thương vật lý mà còn ảnh hưởng đến tâm lý của người cao
tuổi. Ngã cũng là nguyên nhân khiến cho người cao tuổi sợ việc vận động, qua đó tác
động một cách gián tiếp đến sức khỏe của họ. Ngoài ra, khi điều trị chấn thương
thường phải cách ly tạm thời ra khỏi cộng đồng, xã hội sẽ làm ảnh hưởng xấu đến
tâm lý của người ngã vì làm tăng cảm giác cô đơn và có thể dẫn đến trầm cảm. Chính
vì vậy, việc sử dụng hệ thống tự động phát hiện ngã sẽ là rất cần thiết để giúp cho
việc cấp cứu kịp thời để giảm thiểu rủi ro cho người ngã. Kết quả là, nhu cầu phát
triển hệ thống giám sát thông minh có khả năng phát hiện ngã đã tăng lên đáng kể
trong việc chăm sóc sức khỏe cộng đồng.
Bài toán phát hiện ngã thường được tiếp cận bằng một trong 2 phương pháp:
sử dụng cảm biến tích hợp vào môi trường (ambient sensors) hoặc cảm biến mang
trên người (wearable sensors). Các cảm biến có thể là cảm biến tốc độ, gia tốc, hình
ảnh, âm thanh, rung chấn v.v… các dữ liệu cảm biến này được thu thập và phân tích,
trích chọn các đặc trưng để huấn luyện mô hình học máy; sau đó mô hình học máy sẽ
được sử dụng để phát hiện ngã xảy ra trong thời gian thực. Trong đó, cảm biến hình
ảnh (camera) và cảm biến gia tốc được sử dụng khá phổ biến. Trong các nghiên cứu

ban đầu thì các hệ thống phát hiện ngã thường dựa vào các ngưỡng (threshold) được
xác định dựa trên kinh nghiệm của các nhà nghiên cứu, phát triển để đưa ra quyết
định ngã hoặc không phải là ngã. Sau đó, phần lớn các nghiên cứu về phát hiện ngã

5
hiện nay dựa trên học máy (machine learning). Nhiều mô hình học máy đã được đề
xuất như mô hình Markov ẩn (hidden Markov model), mô hình cây quyết định (C 4.5
Decision Tree), mô hình máy véc tơ hỗ trợ (support vector machine), mô hình rừng
ngẫu nhiên (random forests)…
Các mô hình này thường được huấn luyện từ một nguồn cảm biến (single
sensory source) và đã cho kết quả phát hiện ngã khá cao (thường trên 90%). Tuy
nhiên, nếu áp dụng trực tiếp các phương pháp này để phát hiện ngã trong những
trường hợp phức tạp (nhưng thường xuyên xảy ra trong thực tế) chẳng hạn như phân
biệt ngã với một số hoạt động gần giống ngã như cúi người xuống chơi với vật cưng,
uốn cong để lấy một vật từ sàn nhà, hoặc thậm chí chỉ nằm ngủ, hoặc phân biệt các
tư thế ngã khác nhau (ngã nghiêng), ngã bên trái, ngã từ giường xuống đất, v.v… thì
vẫn còn những thử thách cần phải giải quyết.

1.2

Các nghiên cứu trước đây

Một số nghiên cứu [2,3] đã kết hợp cảm biến gia tốc và hình ảnh từ video để phát
hiện ngã và các hoạt động hàng ngày. Chẳng hạn, công trình [2] thực hiện bởi T. H.
Tran và các cộng sự tại viện MICA, trường đại học Bách Khoa Hà Nội, đã kết hợp
dữ liệu cảm biến gia tốc không dây WAX3 gắn trên hông và cổ tay đối tượng thực
hiện thử nghiệm với hình ảnh RGB-D được chụp từ 7 Kinect cameras được cài đặt
trong một căn phòng lớn để phân biệt ngã và một số hoạt động gần giống như ngã
nhằm hỗ trợ người cao tuổi tại nhà của họ.

6

Hình 1. 1: Hình minh họa của môi trường và thiết bị cài đặt.

Hình trên cho thấy sự bố trí của hệ thống thu thập dữ liệu của chuyển động. Sáu
Kinect cameras được cài đặt ở độ cao 1.8m xung quanh một không gian 3.6mx6.8m
để mô phỏng giống như một căn phòng tại gia đình. Chiếc Kinect thứ 7 được gắn trên
trần có độ cao 3m để quan sát từ phía trên toàn cảnh. Hai cảm biến không dây được
gắn vào cổ tay trái và bên phía hông trái của đối tượng thử nghiệm. Với cách thiết lập
này, mọi vị trí trong không gian có thể được quan sát bởi tất cả các cảm biến Kinect.
Tổng cộng tập dữ liệu thu thập được chứa 1000 mẫu hoạt động (400 kiểu ngã và 600
hoạt động thường ngày) được thu từ 50 đối tượng. Sau đó các dữ liệu và các đặc trưng
từ RGB, chiều sâu (RGB-D), khung xương (skeleton), cảm biến gia tốc
(accelerometer) được trích xuất riêng rẽ. Trong đó dữ liệu RGB-D, và khung xương
được thu thập từ 7 góc nhìn khác nhau (xem vị trí đặt Kinect camera tại hình 1.1), và
dữ liệu của cảm biến gia tốc được thu thập từ 2 vị trí trên cơ thể của đối tượng thử
nghiệm. Tất cả các dữ liệu được thu thập liên tục, đồng bộ hóa và được chú thích cho
mục đích nghiên cứu. Trong thử nghiệm này, người tham gia thử nghiệm được yêu
cầu mô phỏng các cú ngã theo các hướng khác nhau (ngã về phía sau, ngã về phía
trước, ngã về bên trái, ngã về bên phải) và các kiểu ngã (ngã khi đang nằm trên
giường, ngã khi đang ngồi trên ghế hay ngã khi đang đi bộ).
Một số phương pháp phát hiện ngã đã được sử dụng trên thực tế [4], [5], [6].
Mỗi phương pháp có sức mạnh và hạn chế khác nhau, sau khi phân tích các phương

7
pháp khác nhau sẽ giúp chúng ta biết cách bổ sung các thuộc tính cho việc nhận dạng
hoạt động của con người được tốt hơn. Trong nghiên cứu này, đầu tiên họ lấy dữ liệu

từ 1 cảnh quan trong số 7 cảnh quan thu thập được, áp dụng kỹ thuật tiên tiến để phân
tích từng phương pháp. Cụ thể, mạng tích chập 3D được sử dụng trong dữ liệu RGB
[7]; bản đồ chuyển động chiều sâu (DMM) với bộ mô tả hạt nhân cải tiến (KDES)
được áp dụng trên dữ liệu chiều sâu [8]; Res– TCN cho dữ liệu khung xương và 2D
convent cho dữ liệu của cảm biến gia tốc [1]. Dữ liệu đa phương thức được đồng bộ
hóa trong cùng 1 thời điểm, kết quả tìm được của tất cả các phương pháp được so
sánh sau đó kết hợp các phương pháp khác nhau là báo cáo tốt nhất của nghiên cứu.

Hình 1. 2: Hình minh họa dữ liệu thu thập từ nhiều cảm biến.

Hình 1.2 cho thấy ảnh chụp nhanh của dữ liệu đa phương thức được đồng bộ hóa
từ 7 Kinect cameras và các cảm biến gia tốc, vận tốc góc và từ trường. Tổng cộng,
kích thước của tập dữ liệu khoảng 350 Giga bytes. Tất cả dữ liệu được đồng bộ hóa
theo thời gian. Sau đó dữ liệu được gán nhãn, thời gian bắt đầu và thời gian kết thúc
của mỗi hành động theo trình tự được ghi chú cho hoạt động của con người. Đây là
bộ dữ liệu tương đối lớn và thú vị với số lượng người tham gia thử nghiệm và các tư
thế hoạt động đa dạng, hơn thế nữa mỗi hoạt động được thu thập với nhiều góc nhìn
(multiview) và nhiều cảm biến (multimodal) khác nhau. Ngoài ra, một số hoạt động
dễ bị nhầm lẫn với ngã cũng tạo nên các thách thức đáng kể cho việc phát hiện ngã.
Cụ thể, nhiều hoạt động thường ngày giống ngã, ví dụ như: chống tay trái để đứng

8
dậy, chống tay phải để đứng dậy, đang ngồi trên ghế sau đó đứng dậy, đang ngồi trên
giường sau đó đứng dậy v.v...
Một nghiên cứu khác [3] đề xuất phương pháp tiếp cận phát hiện ngã bằng
cách kết hợp cảm biến gia tốc gắn bên hông và các hình ảnh độ sâu (depth images) từ
cameras. Trong phương pháp tiếp cận này, hình ảnh độ sâu được lưu trữ trong bộ nhớ
đệm để được sử dụng khi cần thiết. Sự kiện ngã được phát hiện dựa trên mô - đun xử
lý dữ liệu cảm biến gia tốc. Mô đun dữ liệu cảm biến gia tốc nhận đầu vào là luồng

tín hiệu cảm biến gia tốc sau đó được so sánh với một ngưỡng (threshold) để đưa ra
quyết định một khoảng thời gian có khả năng chứa sự kiện ngã hay không. Nếu có
tiềm năng là một sự kiện ngã thì các hình ảnh độ sâu sẽ được xử lý và phân tích để
khẳng định có cú ngã xảy ra hay không. Phương pháp này có sự khác biệt với những
phương pháp tiếp cận trước đây vì phương pháp này trích xuất những đặc trưng không
chỉ trên hình ảnh độ sâu mà còn xử lý các đám mây điểm để trích xuất bộ mô tả về té
ngã được phân biệt rất rõ ràng. Do con người thường làm những việc theo thói quen
cá nhân tại những thời điểm và vị trí cụ thể trong căn nhà của họ như những hoạt
động thường ngày nên phương pháp này sử dụng thuật toán k - nn (k –nearest
neighbors) phân loại các hoạt động để tìm ra tín hiệu phát hiện ngã.

Hình 1. 3: Mô hình đề xuất cho sự phát hiện ngã [3]

9
Tập dữ liệu được thu bao gồm các ảnh độ sâu với các hoạt động điển hình như:
Đi bộ, ngồi xuống, cúi xuống và giả vờ nằm xuống đã được phân tích để xây dựng
các phân lớp đáng tin cậy để kiểm tra xem vị trí, nơi mà một người đang nằm trên sàn
và để đánh giá hiệu quả của việc phát hiện ngã. Trong tổng số 2395 hình ảnh được
chọn từ bộ dữ liệu phát hiện ngã UR của các tác giả và các chuỗi hình ảnh được ghi
lại trong các căn phòng tượng trưng như: Văn phòng làm việc, lớp học, v.v… Bộ ảnh
được chọn ra bao gồm 1492 hình ảnh với các hoạt động thường ngày (ADLs), trong
số đó có 903 hình ảnh mô tả hình ảnh một người đang nằm trên sàn. Những hình ảnh
này được sử dụng để xác định tính năng độ sâu và đề xuất các nhận định về mô tả
ngã. Bộ dữ liệu phát hiện ngã UR bao gồm ba mươi chuỗi hình ảnh ngã, ba mươi
chuỗi hình ảnh hoạt động thường ngày điển hình như ngồi xuống, cúi xuống, nhấc
một vật từ sàn nhà, và mười chuỗi với các hoạt động giống với ngã như nằm nhanh
trên sàn nhà và nằm trên giường, đi văng. Số lượng hình ảnh trong chuỗi hoạt động
ngã với mức giảm còn 3000, trong khi số lượng hình ảnh từ các chuỗi hoạt động
thường ngày là bằng 10000. Hai loại ngã được thực hiện bởi năm người, cụ thể là từ

vị trí đứng và ngồi trên ghế. Dữ liệu được thu thập ở tốc độ lấy mẫu là 30 Hz. Tất cả
các hình ảnh RGB và hình ảnh độ sâu được đồng bộ hóa với dữ liệu chuyển động đều
được thu lại bởi thiết bị cảm biến x-IMU. Dữ liệu chuyển động chứa gia tốc theo thời
gian trong trục x−, y− và trục z − cùng với các giá trị được tính toán trước S Vtotal.
Kết quả thực nghiệm được đánh giá bởi sự phân loại ngã và các hoạt động
thường ngày (ADLs) giống ngã như: đang đứng rồi ngồi xuống, cúi xuống nhặt đồ
trên sàn nhà, nằm trên ghế sofa bằng thuật toán k láng giềng gần nhất (k-NN) và so
sánh nó với phân loại bằng thuật toán máy véc tơ hỗ trợ (SVM). Các bộ phân loại
được đánh giá qua 10 lần kiểm chứng chéo nhau đã cho kết quả là tỷ lệ phát hiện ngã
so với các hoạt động không phải là ngã sử dụng thuật toán k-nn cho độ chính xác
95.83% cao hơn so với sử dụng thuật toán SVM đạt 91.67%.
Trong một nghiên cứu khác [4], tác giả đã trình bày cách cải thiện khả năng
phát hiện ngã bằng cách bằng cách sử dụng dữ liệu của hình ảnh độ sâu và cảm biến
gia tốc. Mô hình đề xuất bao gồm một cảm biến gia tốc được sử dụng để phát hiện

10
đoạn dữ liệu có khả năng chứa sự kiện ngã (fall event segment) và một cảm biến
Kinect nhằm mục đích cung cấp các hình ảnh để xác nhận có sự kiện ngã đó. Nhóm
tác giả đã chứng minh được rằng, thông qua những tín hiệu ngưỡng của cảm biến gia
tốc, họ có thể lọc ra những trường hợp không phải là ngã. Đồng thời họ cũng chỉ ra
rằng một cảm biến hình ảnh độ sâu có thể chắc chắn phân biệt giữa những trường hợp
được lọc ra có cú ngã đã xảy ra hay không. Các tác giả cũng cho thấy rằng nhờ dữ
liệu chuyển động, họ có thể tính toán để giảm đáng kể chi phí cho xử lý dữ liệu hình
ảnh độ sâu. Trong đó, các bản đồ hình ảnh độ sâu không xử lý theo từng khung hình
kế tiếp nhau (frame by frame), mà thay vào đó một bộ nhớ đệm được sử dụng để lưu
trữ bản đồ hình ảnh độ sâu để xử lý chúng trong trường hợp có thể xảy ra ngã. Phương
pháp nghiên cứu này đã đóng góp một phấn đáng kể cho hiệu quả tốt hơn về việc
nghiên cứu phát hiện ngã trong tương lai.
Ngoài ra còn có nghiên cứu [9] của Zhong Zhang và các cộng sự tập trung vào

nghiên cứu dựa trên thị giác máy tính bằng camera chiều sâu. Cụ thể, các tác giả giới
thiệu năm bộ dữ liệu phát hiện té ngã hiện có, ba bộ trong số năm bộ dữ liệu này được
ghi lại bằng camera Kinect, một bộ được thu thập bởi camera RGB đơn và một bộ
còn lại được tạo bằng nhiều camera RGB đơn đã được hiệu chuẩn.
Bảng 1. 1: Năm bộ dữ liệu về ngã [9]

OCCU
two Kinects

Dataset introduced in
[10]
one RGB camera

Dataset introduced in
[11]
eight calibrated RGB
cameras

two
eight fall
fall type
falls
with direcdiﬀeren direc
t
- tions
tions
number of falls
200
320
activities of daily Yes

Yes
Life

two
occluded
falls

NaN
falls with diﬀerent
direc-

60
Yes

192
Yes

eight
forward,
backward
falls,
falls from sitting down
and
loss of balance
200
Yes

simulated scenar- 1
Ios

1

4 (home, coﬀee room,
of24
fice, lecture room)

camera type

SDUF
ALL
one Kinect

camera
viewpoints

one

EDF
two Kinects

1

tions

11
-

SDUFall [12]: một Kinect camera được thiết lập để ghi lại bộ dữ liệu. Ba kênh

được lựa chọn: RGB video (.avi), video độ sâu (.avi), và 20 vị trí nối các khớp xương.
Tất cả các video được ghi ở độ phân giải 320x240 pixel trên mỗi khung hình, tốc độ
30 khung hình mỗi giây ở định dạng AVI. Hai mươi đối tượng tham gia thử nghiệm.
Mỗi đối tượng thực hiện 6 hành động, mỗi hành động 10 lần gồm: ngã xuống, uốn
cong người, ngồi xổm, ngồi, nằm và đi bộ. Mỗi hành động này được ghi lại trong
điều kiện nhất định. Các điều kiện này bao gồm mang hoặc không mang vật lớn, bật
hoặc tắt điện, thay đổi hướng và vị trí tương đối so với camera.
-

EDF: Hai camera Kinect được thiết lập để ghi lại bộ dữ liệu EDF. Hai vị trí

quan sát được ghi lại vào cùng thời điểm, và do đó mọi hoạt động được ghi lại cùng
một thời điểm ở cả hai điểm quan sát. Có tám hướng ngã trong bộ dữ liệu EDF. 10
đối tượng thực hiện thực hiện hai hoạt động ngã theo mỗi hướng trong mỗi điểm quan
sát trong bộ dữ liệu EDF, Vậy nên sẽ có 160 hoạt động ngã trong mỗi điểm quan sát
và có 320 hoạt động ngã trong tổng số của cả hai điểm quan sát. Trong bộ dữ liệu
EDF, các đối tượng cũng thực hiện tổng cộng 100 hành động giống như ngã, cụ thể
là: 20 mẫu về hành động nhặt đồ lên từ sàn nhà, 20 mẫu hành động nằm xuống sàn
nhà, 20 kiểu ngồi trên sàn nhà, 20 mẫu buộc dây giầy và 20 mẫu hành động trượt như
lướt ván. Bộ dữ liệu được ghi ở độ phân giải 320x240 pixel cho mỗi khung hình và ở
tốc độ 25 khung hình mỗi giây.
-

OCCU [13]: Hai camera độ sâu Kinect được thiết lập tại hai góc của căn phòng

mô phỏng để thu thập ngã bị che khuất. Mỗi đối tượng trong 5 đối tượng thực hiện
sáu cú ngã bị che khuất tại mỗi vị trí quan sát trong tập dữ liệu OCCU. Trong bộ dữ
liệu OCCU bao gồm: 25,618 khung hình và tổng cộng 30 kiểu ngã bị che khuất trong
video thu được từ vị trí quan sát thứ nhất, và 23,703 khung hình và tổng cộng 30
video thu được từ vị trí quan sát thứ hai được thực hiện bởi cùng một chủ thể. Mỗi vị

trí quan sát được ghi tại các thời điểm riêng biệt nên sẽ không có các trường hợp các
hoạt động tương tự nhau được ghi lại đồng thời từ cả hai vị trí quan sát. Các đối tượng
tham gia thử nghiệm cũng thực hiện tổng cộng 80 hành động giống như ngã, cụ thể
là: 20 mẫu nhặt đồ vật lên từ sàn, 20 mẫu ngồi trên sàn nhà, 20 mẫu hành động thắt

12
dây giầy, và 20 mẫu hành động nằm xuống sàn nhà (tất cả các hành động đều không
bị che khuất). Hình 1.4 cho thấy một ví dụ về ngã bị che khuất thu được tại mỗi vị trí
quan sát.

Hình 1. 4: Ví dụ về ngã bị che khuất được ghi tại hai điểm quan sát
-

Bộ dữ liệu được giới thiệu trong nghiên cứu [9] được thu thập bằng một camera

đơn, tốc độ ghi 25 hình trên giây và độ phân giải 320x240 pixel. Các video được ghi
ở các điều kiện khó khăn về ánh sáng, địa hình. Mỗi đối tượng thực hiện các hoạt
động thường ngày và hoạt động ngã. Bộ dữ liệu chứa 250 video được liên kết lại, chú
thích, đánh dấu bắt đầu và kết thức của mỗi sự kiện ngã và cho biết vị trí cơ thể con
người trong mỗi khung hình. Để dánh giá tính chính xác của phương pháp cho sự
thay đổi vị trí giữa huấn luyện và kiểm tra, bộ dữ liệu đã được ghi tại các vị trí khác
nhau như: tại nhà, quán cà phê, phòng làm việc hay phòng học.
-

Tám camera IP góc rộng được thiết lập để thu được hình ảnh của toàn bộ căn

phòng đã được sử dụng trong bộ dữ liệu giới thiệu trong nghiên cứu [11]. Bộ dữ liệu
thu thập được toàn bộ các hoạt động thường ngày và ngã từ tất cả các camera được
thực hiện bởi cùng một chủ đề. Các hoạt động thường ngày bao gồm: đi bộ các hướng

khác nhau, lau nhà, các hoạt động có đặc điểm gần giống với ngã (ngồi xuống, đứng
lên, cúi xuống). Mô phỏng ngã bao gồm: ngã về phía trước, ngã về phía sau, ngã khi
ngồi xuống, khi bị mất cân bằng. Ngã được thực hiện với các hướng khác nhau từ vị
trí quan sát của camera.
Sau khi đưa ra các bộ dữ liệu trên, các tác giả tiếp tục đi sâu vào phân tích phát
hiện ngã dựa trên thị giác máy tính bằng cách sử dụng một camera RGB, nhiều camera

13
RGB và cách sử dụng nhiều camera độ sâu. Các tác giả đã nghiên cứu phát hiện các
sự kiện ngã dựa trên thị giác khác nhau. Một tính năng hấp dẫn của phương pháp dựa
trên camera RGB đơn là không cần camera hiệu chuẩn, hơn nữa thiết lập hệ thống dễ
dàng, chi phí thấp. Nhược điểm là phần lớn các phương pháp này đều thiếu sự mềm
dẻo. Phát hiện ngã sử dụng camera RGB đơn thường là những trường hợp phụ thuộc
vào vị trí quan sát cụ thể. Di chuyển camera sang vị trí quan sát khác (cụ thể là vị trí
cao hơn so với sàn) yêu cầu thu thập tập dữ liệu từ vị trí quan sát mới.
Các công trình nghiên cứu trên đều tập trung trình bày các tập dữ liệu về phát hiện
ngã, dữ liệu có thể được thu thập bằng các cảm biến đeo trên người (Cảm biến gia
tốc) hay cảm biến được gắn ở môi trường xung quanh (cảm biến camera) tuy nhiên
vẫn còn một số những hạn chế được trình bày tóm tắt như trong bảng 1.2:
Bảng 1. 2: So sánh giữa một vài bộ dữ liệu phát hiện ngã khác nhau.

Dataset

#Fall
s

#ADL #FallStyles #Subjects #Views

Modalities

Continuo
us

Year

UR [3]

22

24

na

1

8

RGB

No

2010

Le2i [14]

192

58

3

∼8

1

RGB

No

2012

SDUFall [12]

300

1500

na

10

1

RGB + D + Skeleton

No

2014

OCCU [13]

30

80

2

5

2

RGB + D + Skeleton

No

2014

Cogent Lab [15]

448

1520

6

42

na

Acc. + Gyroscope

Yes

2015

EDF

160

100

8

10

2

RGB + D + Skeleton

No

2017

UF[16]

na

229-na

2

6

1

RGB + D + Skeleton

No

2017

SisFall[17]

1798

2707

15

38

na

Acc. + Gyroscope

Yes

2017

CMDFALL

400

600

8

50

7

Yes

2017

RGB + D + Skeleton + 2
Acc.

14
-

Các phương pháp hạn chế: Hầu hết các bộ dữ liệu đều được thu thập bằng

phương pháp đơn cảm biến như [3], [14] thu thập dữ liệu bằng cảm biến đeo (gia tốc
kế) hoặc thu thập dữ liệu bằng cảm biến gắn ở môi trường xung quanh (RGB, D,
Skeleton) [12], [13], [16].
-

Giới hạn các kiểu ngã: Trong hầu hết các tập dữ liệu, các đối tượng thực hiện

hành động ngã bằng cách đứng ở một vị trí rồi ngã xuống sàn và ở giữa khung cảnh.
Không có ngã từ trên giường, mà chỉ có một tập dữ liệu ngã từ trên ghế [14].
-

Video được cắt xén: Tất cả các video thu thập được đã được cắt cho phù hợp

với việc phân loại ngã từ các hoạt động khác nhau. Do đó không cho phép các dữ liệu
đó đánh giá ngã một cách liên tục.
-

Vị trí quan sát bị giới hạn: Số lượng các vị trí quan sát bối cảnh thường bị giới

hạn bởi một đến hai vị trí quan sát (OCCU [13], EDF). Trong [3], số lượng vị trí quan
sát là tám, nhưng chỉ có dữ liệu RGB được thu thập nên các hình ảnh thu được có thể
bị trùng lặp hoặc chồng chéo nhau, khó cho việc áp dụng phương pháp tiếp cận nhiều
chế độ quan sát.
-

Số lượng đối tượng hạn chế: Hầu hết các tập dữ liệu sử dụng phương pháp đa

cảm biến thu thập được từ một số ít các đối tượng tham gia (khoảng từ 1 đến 10 đối
tượng). [12] có 300 mẫu ngã và 1500 mẫu không ngã, tuy nhiên tập dữ liệu đó có ít
các kiểu ngã được thu thập bởi các đối tượng khác nhau.
Chính vì vậy trong luận văn này học viên sẽ tiếp cận bài toán phát hiện ngã bằng
cách kết hợp dữ liệu từ nhiều nguồn cảm biến để phân tích và cố gắng giải quyết các
vấn đề về sự đa dạng của tư thế ngã, phân biệt ngã với các hoạt động gần giống với
ngã.

1.3

Phạm vi nghiên cứu

Trong luận văn này, học viên tập trung nghiên cứu lựa chọn các đặc trưng của hai
cảm biến đó là cảm biến gia tốc kế (accelerometer) và cảm biến con quay hồi chuyển
(gyroscope) và phương pháp kết hợp các đặc trưng này lựa chọn phương pháp học
máy sử dụng với các đặc trưng kết hợp; cuối cùng tiến hành thử nghiệm thực tế với

15
bài toán phát hiện ngã. Dữ liệu mô phỏng được thu thập từ 30 đối tượng tham gia thử
nghiệm tại môi trường trong nhà với điều kiện hoạt động tốt của các cảm biến.

1.4

Kết luận chương
Trong chương 1, học viên đã trình bày về khảo sát bài toán phát hiện ngã, khảo

sát các nghiên cứu liên quan đến bài toán phát hiện ngã, tìm hiểu về cách tiếp cận,
các cảm biến được sử dụng, phương pháp học máy và phương pháp thực nghiệm được
sử dụng trong bài toán. Trong đó tập trung vào các bài toán phát hiện ngã bằng cách
kết hợp sử dụng nhiều cảm biến (từ hai cảm biến trở lên) để phân tích, đánh giá các
ưu, nhược điểm của một số cách tiếp cận. Phương pháp phát hiện ngã bằng một nguồn
cảm biến đã cho kết quả cũng khá cao (thường là trên 90%) tuy nhiên khó phân biệt
được các hoạt động phức tạp gần giống với ngã (xảy ra hàng ngày) như uốn cong
người, cúi xuống sàn nhà nhặt đồ vật, hay nằm xuống ghế sofa, v.v… Khi đó việc thu
thập dữ liệu từ nhiều nguồn cảm biến sẽ cho kết quả chính xác hơn và phần lớn giải
quyết được các vấn đề này.

Phát hiện người ngã sử dụng đặc trưng kết hợp từ nhiều nguồn cảm biến

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về