Phát hiện người ngã sử dụng đặc trưng kết hợp từ nhiều nguồn cảm biến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (491.67 KB, 56 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

PHẠM ANH TUẤN

PHÁT HIỆN NGƯỜI NGÃ SỬ DỤNG ĐẶC TRƯNG KẾT HỢP TỪ
NHIỀU NGUỒN CẢM BIẾN

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2019

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

PHẠM ANH TUẤN

PHÁT HIỆN NGƯỜI NGÃ SỬ DỤNG ĐẶC TRƯNG KẾT HỢP TỪ
NHIỀU NGUỒN CẢM BIẾN

Chuyên ngành: Hệ thống Thông tin
Mã số: 8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. PHẠM VĂN CƯỜNG

HÀ NỘI - 2019

i

LỜI CAM ĐOAN

Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện. Mọi tham khảo dùng
trong luận văn đều được trích dẫn rõ ràng và trung thực về tên tác giả, tên công
trình, thời gian và địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.

Tác giả luận văn

Phạm Anh Tuấn

ii

LỜI CẢM ƠN

Em xin chân thành gửi lời cảm ơn sâu sắc đến thầy: PGS.TS. Phạm Văn Cường
Giảng viên khoa Công nghệ Thông tin 1 - Học viện Công nghệ Bưu chính Viễn
thông. Thầy đã định hướng nghiên cứu, chỉ bảo tận tình, đôn đốc đầy trách nhiệm,
cho em các ý kiến đóng góp rất giá trị trong suốt quá trình làm nghiên cứu khoa học,
làm luận văn, đồng thời tạo điều kiện thuận lợi để em hoàn thành luận văn này.
Em xin chân thành cảm ơn toàn thể các thầy cô Khoa Đào tạo Sau Đại học;
Khoa Công nghệ Thông tin 1 - Học viện Công nghệ Bưu chính Viễn thông đã truyền
đạt những kiến thức bổ ích và lý thú, giúp ích cho em trên con đường học tập và

nghiên cứu của mình.
Cuối cùng, tôi cũng xin cảm ơn tất cả những người bạn đã đóng góp ý kiến,
động viên, giúp đỡ tôi hoàn thành luận văn này.

Hà Nội, ngày 23 tháng 01 năm 2019
Tác giả luận văn

Phạm Anh Tuấn

iii

MỤC LỤC
LỜI CAM ĐOAN...................................................................................................... i
LỜI CẢM ƠN........................................................................................................... ii
MỤC LỤC...............................................................................................................iii
DANH MỤC CÁC BẢNG........................................................................................ v
DANH MỤC HÌNH VẼ........................................................................................... vi
DANH MỤC CÁC TỪ VIẾT TẮT......................................................................... vii
MỞ ĐẦU................................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN..................................................................................... 4
1.1 Giới thiệu bài toán........................................................................................... 4
1.2 Các nghiên cứu trước đây................................................................................ 5
1.3 Phạm vi nghiên cứu....................................................................................... 14
1.4 Kết luận chương............................................................................................ 15
CHƯƠNG 2: PHÁT HIỆN NGÃ SỬ DỤNG NHIỀU CẢM BIẾN........................16
2.1. Các cảm biến gia tốc (accelerometer) và cảm biến con quay hồi chuyển
(gyroscope).......................................................................................................... 16
2.1.1 Cảm biến gia tốc (accelerometer)........................................................... 16
2.1.2 Cảm biến con quay hồi chuyển (gyrosope)............................................. 20

2.2. Phân tích và xử lý dữ liệu cảm biến.............................................................. 22
2.3. Trích xuất và kết hợp các đặc trưng.............................................................. 25
2.4. Thuật toán nhận dạng................................................................................... 29
2.5. Kết luận chương........................................................................................... 30
CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ...................................................... 32
3.1. Tập dữ liệu................................................................................................... 32

iv
3.2. Phân tích và đánh giá kết quả....................................................................... 33
3.2.1. Độ đo đánh giá...................................................................................... 33
3.2.2. Kết quả trên cảm biến đơn..................................................................... 34
3.2.3. Kết quả cho kết hợp đặc trưng cảm biến................................................ 35
3.3. Kết luận chương........................................................................................... 36
KẾT LUẬN............................................................................................................. 38
DANH MỤC TÀI LIỆU THAM KHẢO................................................................. 39

v

DANH MỤC CÁC BẢNG
Bảng 1. 1: Năm bộ dữ liệu về ngã [9]..................................................................... 10
Bảng 1. 2: So sánh giữa một vài bộ dữ liệu phát hiện ngã khác nhau......................13
Bảng 3. 1: Các hoạt động ngã và không phải ngã.................................................... 33
Bảng 3. 2: Kết quả đánh giá từ cảm biến đơn.......................................................... 34
Bảng 3. 3: Kết quả thu được khi thay đổi giá trị của α và β.................................... 35
Bảng 3. 4: Chi tiết kết quả cho sự kết hợp các đặc trưng của cảm biến...................36

vi

DANH MỤC HÌNH VẼ
Hình 1. 1: Hình minh họa của môi trường và thiết bị cài đặt..................................... 6
Hình 1. 2: Hình minh họa dữ liệu thu thập từ nhiều cảm biến...................................7
Hình 1. 3: Mô hình đề xuất cho sự phát hiện ngã [3]................................................. 8
Hình 1. 4: Ví dụ về ngã bị che khuất được ghi tại hai điểm quan sát....................... 12
Hình 2. 1: Cảm biến gia tốc tuyến tính.................................................................... 16
Hình 2. 2: Gia tốc kế 3 chiều trên smartphone........................................................ 17
Hình 2. 3: Nguyên lý đo gia tốc theo trục y............................................................. 18
Hình 2. 4: Minh họa giá trị của x, y, z..................................................................... 18
Hình 2. 5: Một số nghiên cứu liên quan sử dụng cảm biến gia tốc..........................19
Hình 2. 6: Con quay hồi chuyển.............................................................................. 20
Hình 2. 7: Raspberry MPU 6050 [23] (trái) và cổng xPico 200 IoT [24] (phải)......23
Hình 2. 8: Tín hiệu cảm biến của ngã từ từ; tín hiệu chuẩn hóa của gia tốc kế........24
Hình 3. 1: Thiết bị đeo được gắn cho các đối tượng tham gia thử nghiệm..............33

KÝ HIỆU
AAE
ADL

ARATG

ARE
AVG

AVH
DCT
DF
DT

EVA
IoT
KNN
LLSF

KÝ HIỆU
MI
NB
Nnet
PCA
RBF
RF
SMA
SVM

1

MỞ ĐẦU
Tuổi thọ của con người ngày càng gia tăng, trong khi có nhiều dự báo cho thấy
những người lớn tuổi sẽ phải sống độc lập trong ngôi nhà của họ. Một trong những rủi
ro lớn đối với người lớn tuổi khi sống một mình là thường hay bị ngã. Hơn nữa, nguy
cơ té ngã tăng rõ rệt theo độ tuổi do phản ứng chậm hơn, cân bằng và sức mạnh cơ bắp
giảm. Vì vậy, hàng năm cứ trong 3 người cao tuổi thì có một người bị ngã và những cú
ngã đột ngột này là nguyên nhân phổ biến gây thương tích và nhập viện trong độ tuổi
này. Theo số liệu thống kê thực tế cho thấy thì ở Việt Nam ước tính có khoảng 1,6 đến
2 triệu người cao tuổi bị té ngã mỗi năm và ở Mỹ có khoảng 1/3 người có độ tuổi trên
65 tuổi bị ngã mỗi năm. Những chấn thương do ngã gây ra có thể là thiệt hại mô mềm,
các liên kết xương và chấn thương vùng đầu hoặc có thể dẫn đến gãy xương đe dọa

nghiêm trọng đến sức khỏe và cuộc sống của người cao tuổi.

Theo nghiên cứu hàng năm cho thấy 80% người cao tuổi được trang bị nút cứu
trợ nhưng họ lại không thể sử dụng được khi bị ngã mạnh, chủ yếu là vì họ không
mang theo thiết bị vào thời điểm ngã hoặc ngã quá mạnh khiến họ không có khả
năng nhấn nút cứu trợ tại thời điểm bị ngã. Để tăng khả năng sống độc lập của
người cao niên, các nhà nghiên cứu đang hướng đến một số công nghệ thông minh
tích hợp trong ngôi nhà nhằm phát hiện ngã và trợ giúp kịp thời. Chính vì vậy học
viên chọn Đề tài: “Phát hiện người ngã sử dụng đặc trưng kết hợp từ nhiều nguồn
cảm biến” cho luận văn cao học của mình với mục tiêu khảo sát bài toán phát hiện
người ngã, và ứng dụng các thuật toán học máy để phân tích dữ liệu từ nhiều nguồn
cảm biến nhằm phân biệt được nhiều tư thế ngã khác nhau.
Mục đích nghiên cứu của học viên đó là khảo sát bài toán phát hiện người ngã, và
ứng dụng các thuật toán học máy để phân tích dữ liệu từ nhiều nguồn cảm biến nhằm
phân biệt được nhiều tư thế ngã khác nhau. Đối tượng nghiên cứu của học viên là người
cao tuổi và phương pháp kết hợp nhiều dữ liệu cảm biến cho bài toán phát hiện

2
ngã. Phạm vi học viên nghiên cứu là: Cảm biến gia tốc (accelerometer) và cảm biến
con quay hồi chuyển (gyroscope), thử nghiệm trên tập dữ liệu thu thập được.
Phương pháp mà học viên áp dụng trong việc xây dựng luận văn cụ thể gồm: nghiên
cứu lý thuyết và nghiên cứu thực nghiệm, trong đó nghiên cứu lý thuyết bao gồm:
Đọc tài liệu, phân tích các tư thế ngã và nghiên cứu các phương pháp phát hiện ngã
bằng cách kết hợp nhiều cảm biến. Nghiên cứu thực nghiệm học viên thu thập dữ
liệu từ nhiều nguồn cảm biến với các tư thế ngã khác nhau sau đó thử nghiệm và
đánh giá phương pháp phát hiện ngã từ nhiều nguồn cảm biến.
Phần nội dung của luận văn được chia thành các phần như sau: Phần mở đầu,
3 chương chính, phần kết luận, danh mục tài liệu tham khảo, các phần được bố trí
thứ tự như sau:

Phần mở đầu của luận văn nêu lên nguy cơ té ngã ở những người lớn tuổi và
những rủi ro họ gặp phải khi té ngã. Đã có rất nhiều nghiên cứu cho sự phát hiện
ngã của con người tuy nhiên những nghiên cứu đó hầu hết dựa vào dữ liệu từ một
nguồn cảm biến nên trong những trường hợp phức tạp thì phát hiện ngã và các hoạt
động gần giống ngã vẫn còn nhiều vấn đề cần giải quyết từ đó luận văn đưa ra các
nội dung chính về mục đích, đối tượng, phạm vi nghiên cứu cũng như phương pháp
nghiên cứu.
Nội dung chương 1 là: Tổng quan, chương này sẽ trình bầy về khảo sát bài
toán phát hiện ngã; tiếp theo là khảo sát các nghiên cứu liên quan đến bài toán phát
hiện ngã, bao gồm: cách tiếp cận, cảm biến được sử dụng, phương pháp học máy và
phương pháp thực nghiệm; Tiếp theo sẽ trình bầy phạm vi nghiên cứu của luận văn
này, và chương này sẽ kết thúc bằng nội dung đánh giá, nhận xét được rút ra trong
mục kết chương.
Chương 2 bắt đầu bằng việc trình bầy về các cảm biến được sử dụng trong luận văn;
tiếp theo là phương pháp phân tích và xử lý dữ liệu cảm biến; Phương pháp trích xuất

3
và kết hợp các đặc trưng từ nhiều nguồn cảm biến. Cuối cùng sẽ trình bầy về mô
hình học máy sẽ được sử dụng trong chương này và kết chương.
Chương 3 tập trung vào thử nghiệm để đánh giá phương pháp được trình bầy trong
chương 2; mô tả quá trình thu thập và gán nhãn dữ liệu hoặc sử dụng tập dữ liệu đã
công bố. Tiếp đến là trình bầy quá trình và phương pháp thử nghiệm cũng như phân
tích, đánh giá các kết quả thử nghiệm.

4

CHƯƠNG 1: TỔNG QUAN
Chương này sẽ trình bầy về bài toán phát hiện ngã; tiếp theo là khảo sát các

nghiên cứu liên quan đến bài toán phát hiện ngã, bao gồm: cách tiếp cận, cảm biến
được sử dụng, phương pháp học máy và phương pháp thực nghiệm; Tiếp theo sẽ
trình bầy phạm vi nghiên cứu của luận văn này, và chương này sẽ kết thúc bằng nội
dung đánh giá, nhận xét được rút ra trong mục kết chương.

1.1

Giới thiệu bài toán

Ngã thường xuyên xảy ra đối với những người bệnh và người cao tuổi, và là một
trong những nguyên nhân chính có thể dẫn đến tử vong ở người cao tuổi. Té ngã
không chỉ gây ra các chấn thương vật lý mà còn ảnh hưởng đến tâm lý của người
cao tuổi. Ngã cũng là nguyên nhân khiến cho người cao tuổi sợ việc vận động, qua
đó tác động một cách gián tiếp đến sức khỏe của họ. Ngoài ra, khi điều trị chấn
thương thường phải cách ly tạm thời ra khỏi cộng đồng, xã hội sẽ làm ảnh hưởng
xấu đến tâm lý của người ngã vì làm tăng cảm giác cô đơn và có thể dẫn đến trầm
cảm. Chính vì vậy, việc sử dụng hệ thống tự động phát hiện ngã sẽ là rất cần thiết để
giúp cho việc cấp cứu kịp thời để giảm thiểu rủi ro cho người ngã. Kết quả là, nhu
cầu phát triển hệ thống giám sát thông minh có khả năng phát hiện ngã đã tăng lên
đáng kể trong việc chăm sóc sức khỏe cộng đồng.
Bài toán phát hiện ngã thường được tiếp cận bằng một trong 2 phương pháp: sử
dụng cảm biến tích hợp vào môi trường (ambient sensors) hoặc cảm biến mang trên
người (wearable sensors). Các cảm biến có thể là cảm biến tốc độ, gia tốc, hình ảnh, âm
thanh, rung chấn v.v… các dữ liệu cảm biến này được thu thập và phân tích, trích chọn
các đặc trưng để huấn luyện mô hình học máy; sau đó mô hình học máy sẽ được sử
dụng để phát hiện ngã xảy ra trong thời gian thực. Trong đó, cảm biến hình ảnh
(camera) và cảm biến gia tốc được sử dụng khá phổ biến. Trong các nghiên cứu ban
đầu thì các hệ thống phát hiện ngã thường dựa vào các ngưỡng (threshold) được xác
định dựa trên kinh nghiệm của các nhà nghiên cứu, phát triển để đưa ra quyết định ngã
hoặc không phải là ngã. Sau đó, phần lớn các nghiên cứu về phát hiện ngã

5
hiện nay dựa trên học máy (machine learning). Nhiều mô hình học máy đã được đề
xuất như mô hình Markov ẩn (hidden Markov model), mô hình cây quyết định (C
4.5 Decision Tree), mô hình máy véc tơ hỗ trợ (support vector machine), mô hình
rừng ngẫu nhiên (random forests)…
Các mô hình này thường được huấn luyện từ một nguồn cảm biến (single
sensory source) và đã cho kết quả phát hiện ngã khá cao (thường trên 90%). Tuy
nhiên, nếu áp dụng trực tiếp các phương pháp này để phát hiện ngã trong những
trường hợp phức tạp (nhưng thường xuyên xảy ra trong thực tế) chẳng hạn như phân
biệt ngã với một số hoạt động gần giống ngã như cúi người xuống chơi với vật
cưng, uốn cong để lấy một vật từ sàn nhà, hoặc thậm chí chỉ nằm ngủ, hoặc phân
biệt các tư thế ngã khác nhau (ngã nghiêng), ngã bên trái, ngã từ giường xuống đất,
v.v… thì vẫn còn những thử thách cần phải giải quyết.

1.2

Các nghiên cứu trước đây

Một số nghiên cứu [2,3] đã kết hợp cảm biến gia tốc và hình ảnh từ video để phát
hiện ngã và các hoạt động hàng ngày. Chẳng hạn, công trình [2] thực hiện bởi T. H.
Tran và các cộng sự tại viện MICA, trường đại học Bách Khoa Hà Nội, đã kết hợp
dữ liệu cảm biến gia tốc không dây WAX3 gắn trên hông và cổ tay đối tượng thực
hiện thử nghiệm với hình ảnh RGB-D được chụp từ 7 Kinect cameras được cài đặt
trong một căn phòng lớn để phân biệt ngã và một số hoạt động gần giống như ngã
nhằm hỗ trợ người cao tuổi tại nhà của họ.

6

Hình 1. 1: Hình minh họa của môi trường và thiết bị cài đặt.

Hình trên cho thấy sự bố trí của hệ thống thu thập dữ liệu của chuyển động. Sáu
Kinect cameras được cài đặt ở độ cao 1.8m xung quanh một không gian 3.6mx6.8m
để mô phỏng giống như một căn phòng tại gia đình. Chiếc Kinect thứ 7 được gắn
trên trần có độ cao 3m để quan sát từ phía trên toàn cảnh. Hai cảm biến không dây
được gắn vào cổ tay trái và bên phía hông trái của đối tượng thử nghiệm. Với cách
thiết lập này, mọi vị trí trong không gian có thể được quan sát bởi tất cả các cảm
biến Kinect. Tổng cộng tập dữ liệu thu thập được chứa 1000 mẫu hoạt động (400
kiểu ngã và 600 hoạt động thường ngày) được thu từ 50 đối tượng. Sau đó các dữ
liệu và các đặc trưng từ RGB, chiều sâu (RGB-D), khung xương (skeleton), cảm
biến gia tốc (accelerometer) được trích xuất riêng rẽ. Trong đó dữ liệu RGB-D, và
khung xương được thu thập từ 7 góc nhìn khác nhau (xem vị trí đặt Kinect camera
tại hình 1.1), và dữ liệu của cảm biến gia tốc được thu thập từ 2 vị trí trên cơ thể của
đối tượng thử nghiệm. Tất cả các dữ liệu được thu thập liên tục, đồng bộ hóa và
được chú thích cho mục đích nghiên cứu. Trong thử nghiệm này, người tham gia thử
nghiệm được yêu cầu mô phỏng các cú ngã theo các hướng khác nhau (ngã về phía
sau, ngã về phía trước, ngã về bên trái, ngã về bên phải) và các kiểu ngã (ngã khi
đang nằm trên giường, ngã khi đang ngồi trên ghế hay ngã khi đang đi bộ).
Một số phương pháp phát hiện ngã đã được sử dụng trên thực tế [4], [5], [6].
Mỗi phương pháp có sức mạnh và hạn chế khác nhau, sau khi phân tích các phương

7
pháp khác nhau sẽ giúp chúng ta biết cách bổ sung các thuộc tính cho việc nhận dạng
hoạt động của con người được tốt hơn. Trong nghiên cứu này, đầu tiên họ lấy dữ liệu từ
1 cảnh quan trong số 7 cảnh quan thu thập được, áp dụng kỹ thuật tiên tiến để phân tích
từng phương pháp. Cụ thể, mạng tích chập 3D được sử dụng trong dữ liệu RGB [7];
bản đồ chuyển động chiều sâu (DMM) với bộ mô tả hạt nhân cải tiến (KDES) được áp

dụng trên dữ liệu chiều sâu [8]; Res– TCN cho dữ liệu khung xương và 2D convent cho
dữ liệu của cảm biến gia tốc [1]. Dữ liệu đa phương thức được đồng bộ hóa trong cùng
1 thời điểm, kết quả tìm được của tất cả các phương pháp được so sánh sau đó kết hợp
các phương pháp khác nhau là báo cáo tốt nhất của nghiên cứu.

Hình 1. 2: Hình minh họa dữ liệu thu thập từ nhiều cảm biến.

Hình 1.2 cho thấy ảnh chụp nhanh của dữ liệu đa phương thức được đồng bộ hóa
từ 7 Kinect cameras và các cảm biến gia tốc, vận tốc góc và từ trường. Tổng cộng,
kích thước của tập dữ liệu khoảng 350 Giga bytes. Tất cả dữ liệu được đồng bộ hóa
theo thời gian. Sau đó dữ liệu được gán nhãn, thời gian bắt đầu và thời gian kết thúc
của mỗi hành động theo trình tự được ghi chú cho hoạt động của con người. Đây là
bộ dữ liệu tương đối lớn và thú vị với số lượng người tham gia thử nghiệm và các tư
thế hoạt động đa dạng, hơn thế nữa mỗi hoạt động được thu thập với nhiều góc nhìn
(multiview) và nhiều cảm biến (multimodal) khác nhau. Ngoài ra, một số hoạt động
dễ bị nhầm lẫn với ngã cũng tạo nên các thách thức đáng kể cho việc phát hiện ngã.
Cụ thể, nhiều hoạt động thường ngày giống ngã, ví dụ như: chống tay trái để đứng

8
dậy, chống tay phải để đứng dậy, đang ngồi trên ghế sau đó đứng dậy, đang ngồi
trên giường sau đó đứng dậy v.v...
Một nghiên cứu khác [3] đề xuất phương pháp tiếp cận phát hiện ngã bằng
cách kết hợp cảm biến gia tốc gắn bên hông và các hình ảnh độ sâu (depth images)
từ cameras. Trong phương pháp tiếp cận này, hình ảnh độ sâu được lưu trữ trong bộ
nhớ đệm để được sử dụng khi cần thiết. Sự kiện ngã được phát hiện dựa trên mô đun xử lý dữ liệu cảm biến gia tốc. Mô đun dữ liệu cảm biến gia tốc nhận đầu vào là
luồng tín hiệu cảm biến gia tốc sau đó được so sánh với một ngưỡng (threshold) để
đưa ra quyết định một khoảng thời gian có khả năng chứa sự kiện ngã hay không.
Nếu có tiềm năng là một sự kiện ngã thì các hình ảnh độ sâu sẽ được xử lý và phân
tích để khẳng định có cú ngã xảy ra hay không. Phương pháp này có sự khác biệt

với những phương pháp tiếp cận trước đây vì phương pháp này trích xuất những đặc
trưng không chỉ trên hình ảnh độ sâu mà còn xử lý các đám mây điểm để trích xuất
bộ mô tả về té ngã được phân biệt rất rõ ràng. Do con người thường làm những việc
theo thói quen cá nhân tại những thời điểm và vị trí cụ thể trong căn nhà của họ như
những hoạt động thường ngày nên phương pháp này sử dụng thuật toán k - nn (k –
nearest neighbors) phân loại các hoạt động để tìm ra tín hiệu phát hiện ngã.

Hình 1. 3: Mô hình đề xuất cho sự phát hiện ngã [3]

9
Tập dữ liệu được thu bao gồm các ảnh độ sâu với các hoạt động điển hình như:
Đi bộ, ngồi xuống, cúi xuống và giả vờ nằm xuống đã được phân tích để xây dựng các
phân lớp đáng tin cậy để kiểm tra xem vị trí, nơi mà một người đang nằm trên sàn và để
đánh giá hiệu quả của việc phát hiện ngã. Trong tổng số 2395 hình ảnh được chọn từ bộ
dữ liệu phát hiện ngã UR của các tác giả và các chuỗi hình ảnh được ghi lại trong các
căn phòng tượng trưng như: Văn phòng làm việc, lớp học, v.v… Bộ ảnh được chọn ra
bao gồm 1492 hình ảnh với các hoạt động thường ngày (ADLs), trong số đó có 903
hình ảnh mô tả hình ảnh một người đang nằm trên sàn. Những hình ảnh này được sử
dụng để xác định tính năng độ sâu và đề xuất các nhận định về mô tả ngã. Bộ dữ liệu
phát hiện ngã UR bao gồm ba mươi chuỗi hình ảnh ngã, ba mươi chuỗi hình ảnh hoạt
động thường ngày điển hình như ngồi xuống, cúi xuống, nhấc một vật từ sàn nhà, và
mười chuỗi với các hoạt động giống với ngã như nằm nhanh trên sàn nhà và nằm trên
giường, đi văng. Số lượng hình ảnh trong chuỗi hoạt động ngã với mức giảm còn 3000,
trong khi số lượng hình ảnh từ các chuỗi hoạt động thường ngày là bằng 10000. Hai
loại ngã được thực hiện bởi năm người, cụ thể là từ vị trí đứng và ngồi trên ghế. Dữ
liệu được thu thập ở tốc độ lấy mẫu là 30 Hz. Tất cả các hình ảnh RGB và hình ảnh độ
sâu được đồng bộ hóa với dữ liệu chuyển động đều được thu lại bởi thiết bị cảm biến xIMU. Dữ liệu chuyển động chứa gia tốc theo thời gian trong trục x−, y− và trục z −
cùng với các giá trị được tính toán trước S Vtotal.

Kết quả thực nghiệm được đánh giá bởi sự phân loại ngã và các hoạt động
thường ngày (ADLs) giống ngã như: đang đứng rồi ngồi xuống, cúi xuống nhặt đồ
trên sàn nhà, nằm trên ghế sofa bằng thuật toán k láng giềng gần nhất (k-NN) và so
sánh nó với phân loại bằng thuật toán máy véc tơ hỗ trợ (SVM). Các bộ phân loại
được đánh giá qua 10 lần kiểm chứng chéo nhau đã cho kết quả là tỷ lệ phát hiện
ngã so với các hoạt động không phải là ngã sử dụng thuật toán k-nn cho độ chính
xác 95.83% cao hơn so với sử dụng thuật toán SVM đạt 91.67%.
Trong một nghiên cứu khác [4], tác giả đã trình bày cách cải thiện khả năng
phát hiện ngã bằng cách bằng cách sử dụng dữ liệu của hình ảnh độ sâu và cảm biến
gia tốc. Mô hình đề xuất bao gồm một cảm biến gia tốc được sử dụng để phát hiện

10
đoạn dữ liệu có khả năng chứa sự kiện ngã (fall event segment) và một cảm biến
Kinect nhằm mục đích cung cấp các hình ảnh để xác nhận có sự kiện ngã đó. Nhóm
tác giả đã chứng minh được rằng, thông qua những tín hiệu ngưỡng của cảm biến
gia tốc, họ có thể lọc ra những trường hợp không phải là ngã. Đồng thời họ cũng chỉ
ra rằng một cảm biến hình ảnh độ sâu có thể chắc chắn phân biệt giữa những trường
hợp được lọc ra có cú ngã đã xảy ra hay không. Các tác giả cũng cho thấy rằng nhờ
dữ liệu chuyển động, họ có thể tính toán để giảm đáng kể chi phí cho xử lý dữ liệu
hình ảnh độ sâu. Trong đó, các bản đồ hình ảnh độ sâu không xử lý theo từng khung
hình kế tiếp nhau (frame by frame), mà thay vào đó một bộ nhớ đệm được sử dụng
để lưu trữ bản đồ hình ảnh độ sâu để xử lý chúng trong trường hợp có thể xảy ra
ngã. Phương pháp nghiên cứu này đã đóng góp một phấn đáng kể cho hiệu quả tốt
hơn về việc nghiên cứu phát hiện ngã trong tương lai.
Ngoài ra còn có nghiên cứu [9] của Zhong Zhang và các cộng sự tập trung vào
nghiên cứu dựa trên thị giác máy tính bằng camera chiều sâu. Cụ thể, các tác giả
giới thiệu năm bộ dữ liệu phát hiện té ngã hiện có, ba bộ trong số năm bộ dữ liệu
này được ghi lại bằng camera Kinect, một bộ được thu thập bởi camera RGB đơn và
một bộ còn lại được tạo bằng nhiều camera RGB đơn đã được hiệu chuẩn.

Bảng 1. 1: Năm bộ dữ liệu về ngã [9]

camera type
camera
viewpoints
fall type

number of falls
activities of daily
Life
simulated scenarIos

11
- SDUFall [12]: một Kinect camera được thiết lập để ghi lại bộ dữ liệu. Ba kênh

được lựa chọn: RGB video (.avi), video độ sâu (.avi), và 20 vị trí nối các khớp
xương. Tất cả các video được ghi ở độ phân giải 320x240 pixel trên mỗi khung
hình, tốc độ 30 khung hình mỗi giây ở định dạng AVI. Hai mươi đối tượng tham gia
thử nghiệm. Mỗi đối tượng thực hiện 6 hành động, mỗi hành động 10 lần gồm: ngã
xuống, uốn cong người, ngồi xổm, ngồi, nằm và đi bộ. Mỗi hành động này được ghi
lại trong điều kiện nhất định. Các điều kiện này bao gồm mang hoặc không mang
vật lớn, bật hoặc tắt điện, thay đổi hướng và vị trí tương đối so với camera.
- EDF: Hai camera Kinect được thiết lập để ghi lại bộ dữ liệu EDF. Hai vị trí
quan sát được ghi lại vào cùng thời điểm, và do đó mọi hoạt động được ghi lại cùng
một thời điểm ở cả hai điểm quan sát. Có tám hướng ngã trong bộ dữ liệu EDF. 10
đối tượng thực hiện thực hiện hai hoạt động ngã theo mỗi hướng trong mỗi điểm
quan sát trong bộ dữ liệu EDF, Vậy nên sẽ có 160 hoạt động ngã trong mỗi điểm
quan sát và có 320 hoạt động ngã trong tổng số của cả hai điểm quan sát. Trong bộ
dữ liệu EDF, các đối tượng cũng thực hiện tổng cộng 100 hành động giống như ngã,

cụ thể là: 20 mẫu về hành động nhặt đồ lên từ sàn nhà, 20 mẫu hành động nằm
xuống sàn nhà, 20 kiểu ngồi trên sàn nhà, 20 mẫu buộc dây giầy và 20 mẫu hành
động trượt như lướt ván. Bộ dữ liệu được ghi ở độ phân giải 320x240 pixel cho mỗi
khung hình và ở tốc độ 25 khung hình mỗi giây.
- OCCU [13]: Hai camera độ sâu Kinect được thiết lập tại hai góc của căn
phòng
mô phỏng để thu thập ngã bị che khuất. Mỗi đối tượng trong 5 đối tượng thực hiện sáu
cú ngã bị che khuất tại mỗi vị trí quan sát trong tập dữ liệu OCCU. Trong bộ dữ liệu
OCCU bao gồm: 25,618 khung hình và tổng cộng 30 kiểu ngã bị che khuất trong video
thu được từ vị trí quan sát thứ nhất, và 23,703 khung hình và tổng cộng 30 video thu
được từ vị trí quan sát thứ hai được thực hiện bởi cùng một chủ thể. Mỗi vị trí quan sát
được ghi tại các thời điểm riêng biệt nên sẽ không có các trường hợp các hoạt động
tương tự nhau được ghi lại đồng thời từ cả hai vị trí quan sát. Các đối tượng tham gia
thử nghiệm cũng thực hiện tổng cộng 80 hành động giống như ngã, cụ thể là: 20 mẫu
nhặt đồ vật lên từ sàn, 20 mẫu ngồi trên sàn nhà, 20 mẫu hành động thắt

12
dây giầy, và 20 mẫu hành động nằm xuống sàn nhà (tất cả các hành động đều không
bị che khuất). Hình 1.4 cho thấy một ví dụ về ngã bị che khuất thu được tại mỗi vị
trí quan sát.

Hình 1. 4: Ví dụ về ngã bị che khuất được ghi tại hai điểm quan sát
- Bộ dữ liệu được giới thiệu trong nghiên cứu [9] được thu thập bằng một
camera

đơn, tốc độ ghi 25 hình trên giây và độ phân giải 320x240 pixel. Các video được ghi
ở các điều kiện khó khăn về ánh sáng, địa hình. Mỗi đối tượng thực hiện các hoạt
động thường ngày và hoạt động ngã. Bộ dữ liệu chứa 250 video được liên kết lại,
chú thích, đánh dấu bắt đầu và kết thức của mỗi sự kiện ngã và cho biết vị trí cơ thể

con người trong mỗi khung hình. Để dánh giá tính chính xác của phương pháp cho
sự thay đổi vị trí giữa huấn luyện và kiểm tra, bộ dữ liệu đã được ghi tại các vị trí
khác nhau như: tại nhà, quán cà phê, phòng làm việc hay phòng học.
-

Tám camera IP góc rộng được thiết lập để thu được hình ảnh của toàn bộ căn

phòng đã được sử dụng trong bộ dữ liệu giới thiệu trong nghiên cứu [11]. Bộ dữ liệu
thu thập được toàn bộ các hoạt động thường ngày và ngã từ tất cả các camera được thực
hiện bởi cùng một chủ đề. Các hoạt động thường ngày bao gồm: đi bộ các hướng khác
nhau, lau nhà, các hoạt động có đặc điểm gần giống với ngã (ngồi xuống, đứng lên, cúi
xuống). Mô phỏng ngã bao gồm: ngã về phía trước, ngã về phía sau, ngã khi ngồi
xuống, khi bị mất cân bằng. Ngã được thực hiện với các hướng khác nhau từ vị

trí quan sát của camera.
Sau khi đưa ra các bộ dữ liệu trên, các tác giả tiếp tục đi sâu vào phân tích phát hiện
ngã dựa trên thị giác máy tính bằng cách sử dụng một camera RGB, nhiều camera

13
RGB và cách sử dụng nhiều camera độ sâu. Các tác giả đã nghiên cứu phát hiện các
sự kiện ngã dựa trên thị giác khác nhau. Một tính năng hấp dẫn của phương pháp
dựa trên camera RGB đơn là không cần camera hiệu chuẩn, hơn nữa thiết lập hệ
thống dễ dàng, chi phí thấp. Nhược điểm là phần lớn các phương pháp này đều thiếu
sự mềm dẻo. Phát hiện ngã sử dụng camera RGB đơn thường là những trường hợp
phụ thuộc vào vị trí quan sát cụ thể. Di chuyển camera sang vị trí quan sát khác (cụ
thể là vị trí cao hơn so với sàn) yêu cầu thu thập tập dữ liệu từ vị trí quan sát mới.
Các công trình nghiên cứu trên đều tập trung trình bày các tập dữ liệu về phát hiện
ngã, dữ liệu có thể được thu thập bằng các cảm biến đeo trên người (Cảm biến gia
tốc) hay cảm biến được gắn ở môi trường xung quanh (cảm biến camera) tuy nhiên

vẫn còn một số những hạn chế được trình bày tóm tắt như trong bảng 1.2:
Bảng 1. 2: So sánh giữa một vài bộ dữ liệu phát hiện ngã khác nhau.

Dataset

UR [3]
Le2i [14]
SDUFall [12]
OCCU [13]
Cogent Lab [15]
EDF
UF[16]
SisFall[17]

CMDFALL

14
- Các phương pháp hạn chế: Hầu hết các bộ dữ liệu đều được thu thập bằng
phương pháp đơn cảm biến như [3], [14] thu thập dữ liệu bằng cảm biến đeo (gia
tốc kế) hoặc thu thập dữ liệu bằng cảm biến gắn ở môi trường xung quanh (RGB, D,
Skeleton) [12], [13], [16].
- Giới hạn các kiểu ngã: Trong hầu hết các tập dữ liệu, các đối tượng thực
hiện
hành động ngã bằng cách đứng ở một vị trí rồi ngã xuống sàn và ở giữa khung cảnh.
Không có ngã từ trên giường, mà chỉ có một tập dữ liệu ngã từ trên ghế [14].
-

Video được cắt xén: Tất cả các video thu thập được đã được cắt cho phù hợp với

việc phân loại ngã từ các hoạt động khác nhau. Do đó không cho phép các dữ liệu

đó đánh giá ngã một cách liên tục.
-

Vị trí quan sát bị giới hạn: Số lượng các vị trí quan sát bối cảnh thường bị giới

hạn bởi một đến hai vị trí quan sát (OCCU [13], EDF). Trong [3], số lượng vị trí quan

sát là tám, nhưng chỉ có dữ liệu RGB được thu thập nên các hình ảnh thu được có
thể bị trùng lặp hoặc chồng chéo nhau, khó cho việc áp dụng phương pháp tiếp cận
nhiều chế độ quan sát.
- Số lượng đối tượng hạn chế: Hầu hết các tập dữ liệu sử dụng phương pháp
đa
cảm biến thu thập được từ một số ít các đối tượng tham gia (khoảng từ 1 đến 10 đối
tượng). [12] có 300 mẫu ngã và 1500 mẫu không ngã, tuy nhiên tập dữ liệu đó có ít
các kiểu ngã được thu thập bởi các đối tượng khác nhau.
Chính vì vậy trong luận văn này học viên sẽ tiếp cận bài toán phát hiện ngã bằng
cách kết hợp dữ liệu từ nhiều nguồn cảm biến để phân tích và cố gắng giải quyết các
vấn đề về sự đa dạng của tư thế ngã, phân biệt ngã với các hoạt động gần giống với
ngã.

1.3

Phạm vi nghiên cứu

Trong luận văn này, học viên tập trung nghiên cứu lựa chọn các đặc trưng của hai
cảm biến đó là cảm biến gia tốc kế (accelerometer) và cảm biến con quay hồi chuyển
(gyroscope) và phương pháp kết hợp các đặc trưng này lựa chọn phương pháp học máy
sử dụng với các đặc trưng kết hợp; cuối cùng tiến hành thử nghiệm thực tế với

15
bài toán phát hiện ngã. Dữ liệu mô phỏng được thu thập từ 30 đối tượng tham gia
thử nghiệm tại môi trường trong nhà với điều kiện hoạt động tốt của các cảm biến.

1.4

Kết luận chương
Trong chương 1, học viên đã trình bày về khảo sát bài toán phát hiện ngã, khảo

sát các nghiên cứu liên quan đến bài toán phát hiện ngã, tìm hiểu về cách tiếp cận,
các cảm biến được sử dụng, phương pháp học máy và phương pháp thực nghiệm
được sử dụng trong bài toán. Trong đó tập trung vào các bài toán phát hiện ngã bằng
cách kết hợp sử dụng nhiều cảm biến (từ hai cảm biến trở lên) để phân tích, đánh
giá các ưu, nhược điểm của một số cách tiếp cận. Phương pháp phát hiện ngã bằng
một nguồn cảm biến đã cho kết quả cũng khá cao (thường là trên 90%) tuy nhiên
khó phân biệt được các hoạt động phức tạp gần giống với ngã (xảy ra hàng ngày)
như uốn cong người, cúi xuống sàn nhà nhặt đồ vật, hay nằm xuống ghế sofa, v.v…
Khi đó việc thu thập dữ liệu từ nhiều nguồn cảm biến sẽ cho kết quả chính xác hơn
và phần lớn giải quyết được các vấn đề này.

Phát hiện người ngã sử dụng đặc trưng kết hợp từ nhiều nguồn cảm biến

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về