Tải bản đầy đủ (.docx) (61 trang)

Xây dựng mô hình Đánh giá tư thế thể dục sử dụng mediapipe

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 61 trang )

<span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

LỜI NÓI ĐẦU...1

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TỐN...4

1.1. Bài tốn ước tính tư thế con người...4

1.2. Bài toán đánh giá tư thế thể dục Squat...7

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MƠ HÌNH...9

2.1. Phương hướng tiếp cận bài toán...9

2.2. Các nghiên cứu giải quyết bài toán tiêu biểu...10

3.2. Các tham số và môi trường thử nghiệm...30

3.2.1. Môi trường Visual Studio Code:...30

3.2.2. Môi trường Colab:...33

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

4.1.1. Dữ liệu đầu vào...42

4.1.2. Tìm các điểm chính của cơ thể...43

4.1.3. Đánh giá các giai đoạn...44

4.1.4. Đưa ra lời khuyên và đếm số lần đúng sai...46

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>DANH MỤC TỪ VIẾT TẮT</b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH MỤC BẢNG BI</b>

Bảng 2. 1. Bảng thông số các lớp trong mạng phát hiện khn mặt [13]...19

Bảng 2. 2. Chú thích các điểm chính cơ thể...24

<small>Y</small>Bảng 3. 1. Các tham số sử dụng trong MediaPipe...36

Bảng 3. 2. Bảng so sánh giữa BlazePose và OpenPose [9]...40

<b>DANH MỤC HÌNH</b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Hình 1. 1. Khung xương người...5

Hình 1. 2. Tư thế Squat...8

<small>YHình 2. 1. dot-annotated và gaussian-smoothed heatmap...13</small>

Hình 2. 2. Phân phối chuẩn...15

Hình 2. 3. Intersection over Union...18

Hình 2. 4. Single BlazeBlock và Double Blazeblock...19

Hình 2. 5. Người Vitruvius...21

Hình 2. 6. Mạng phát hiện điểm cơ thể...22

Hình 2. 7. 33 điểm chính trong BlazePose...23

Hình 2. 8. Góc giữa hai vector...25

Hình 3. 6. Các điểm chính trong tư thế ngược người...39

Hình 3. 7. Các điểm chính trong tư thế ngồi...39

<b>LỜI NĨI ĐẦU</b>

Hiện nay, trí tuệ nhân tạo đang không ngừng phát triển và thúc đẩy sựtăng trưởng nhanh của cách mạng cơng nghiệp hóa, hiện đại hóa. Trí tuệ nhântạo giờ đây được áp dụng vào hầu hết tất cả các lĩnh vực quan trọng trongcuộc sống, chẳng hạn như sản xuất, y tế, thể thao, giải trí điện tử, … Với sảnxuất, trí tuệ nhân tạo góp phần tối ưu hóa quy trình sản xuất và giảm thiểu lỗinhân cơng. Hệ thống AI có thể phân tích dữ liệu từ cảm biến và thiết bị để dựđoán khi nào cần bảo dưỡng và sửa chữa thiết bị, giúp giảm thiểu thời giandừng máy và chi phí liên quan. Theo một nghiên cứu của PwC, khoảng 72%các doanh nghiệp sản xuất và công nghiệp đã sử dụng hoặc đang kế hoạchtriển khai cơng nghệ trí tuệ nhân tạo vào năm 2021. Trong y tế, các hệ thống

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

AI được huấn luyện để phát hiện các dấu hiệu của bệnh từ hình ảnh chụp từMRI, CT, và X-quang, giúp bác sĩ chẩn đoán sớm và chính xác hơn. AI cũngcó thể phân tích hàng tỷ hồ sơ bệnh lý để tìm ra mối liên hệ giữa các yếu tố vàphát triển các phương pháp điều trị mới. Theo Gartner, dự kiến đến năm2025, hơn 75% các tổ chức y tế sẽ có ít nhất một ứng dụng AI triển khai trongq trình chăm sóc sức khỏe. Đối với thể thao, các đội bóng đá và bóng rổhàng đầu thế giới đã bắt đầu áp dụng công nghệ AI trong hoạt động của họ,với khoảng 60-70% các đội bóng lớn đang sử dụng các hệ thống phân tích dữliệu AI cho việc phát triển chiến thuật và tăng cường hiệu suất. Như vậy, dựatrên những số liệu và thống kê về sự áp dụng rộng rãi của trí tuệ nhân tạotrong các lĩnh vực khác nhau, có thể thấy rằng AI khơng chỉ đang thúc đẩy sựtiến bộ và hiện đại hóa mà cịn mở ra những cơ hội mới và thách thức nghiêncứu trong việc áp dụng công nghệ này vào các vấn đề phức tạp hơn như nhậndiện và ước tính tự thế, áp dụng hỗ trợ trong việc theo dõi sức khỏe, huấnluyện thể thao, hoặc giám sát an ninh.

Vì vậy, em đã chọn đề tài “Xây dựng mơ hình đánh giá tư thế thể dục sửdụng MediaPipe”. Nghiên cứu này tập trung vào việc xây dựng một mơ hìnhđánh giá tư thế thể dục sử dụng công nghệ MediaPipe, với phạm vi giới hạntrong việc đánh giá và phân loại tư thế thể dục đối với động tác squat. Độngtác squat được chọn làm điểm tập trung vì tính phổ biến và tính quan trọngcủa nó trong các chương trình tập luyện và thể dục cá nhân.

Mục tiêu của nghiên cứu này là xây dựng một mơ hình máy học có khảnăng nhận diện, đánh giá và phân loại chính xác các tư thế thể dục liên quanđến động tác squat từ dữ liệu hình ảnh hoặc video. Qua đó, mơ hình sẽ đánhgiá chất lượng và hiệu suất của việc thực hiện động tác squat, bao gồm cácyếu tố như độ sâu, độ thẳng của lưng, vị trí của đầu gối và cân bằng của cơthể.

Mặc dù tiêu đề của đề tài rất rộng lớn, nhưng phạm vi nghiên cứu đượcgiới hạn trong một động tác cụ thể để tập trung vào việc phát triển một mô

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

hình chính xác và hiệu quả cho động tác squat. Điều này giúp tạo ra một nềntảng cơ sở cho việc nghiên cứu và phát triển các phương pháp đánh giá tư thếthể dục trong tương lai.

Để đạt được mục tiêu của bài toán, em sẽ đi tìm hiểu về mô hìnhBlazePose- là thuật tốn được sử dụng của MediaPipe trong phát hiện tư thếcon người. Sau đó, một thuật tốn xác định góc giữa các khớp nối quan trọngsẽ được tính tốn để so sánh với góc tiêu chuẩn được đặt ra cho việc một độngtác squat là đúng hay sai trong từng trường hợp. Các kiến thức quan trọng đicùng được áp dụng trong bài toán sẽ là các kĩ thuật xử lý ảnh với OpenCV,lập trình với ngôn ngữ Python, kết hợp khảo sát và nghiên cứu đề tài.

Bố cục đề tài bao gồm bốn chương chính:

<b>Chương 1. Tổng quan về bài toán</b>

Giới thiệu tổng quan về bài tốn, một số hướng tiếp cận chung, từ đóđịnh nghĩa các bài toán con khác cần phải giải quyết.

<b>Chương 2. Cơ sở lý thuyết và mơ hình</b>

Tổng hợp các nghiên cứu có liên quan về các phương pháp giải quyếttừng bài toán con trong đề tài và đưa ra phương pháp chính sẽ sử dụng trongbáo cáo, các phương pháp, thuật toán đặc trưng trong giải quyết bài toán.

<b>Chương 3. Thực nghiệm</b>

Đưa ra các thông tin về mặt thực nghiệm như bộ dữ liệu, chương trình vàcác kết quả đạt được trong việc giải quyết các bài toán. Đồng thời giới thiệucác công cụ thực nghiệm.

<b>Chương 4. Xây dựng và thiết kế mơ hình</b>

Trong chương này, ta sẽ đi xây dựng mơ hình và thiết kế một hệ thốngvới giao diện để ứng dụng mơ hình vào đánh giá tư thế thể dục Squat

<b>Phần kết luận</b>

Tổng kết, tổng hợp các kết quả đạt được, đồng thời nêu hướng phát triểnvà nghiên cứu trong tương lai

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Như vậy, qua đề tài này, em mong muốn có thể biết thêm nhiều kiếnthức hơn về việc xác định tư thế con người và những ứng dụng của nó vớiđánh giá tư thế thể dục. Từ đó, những kiến thức sẽ được áp dụng và phát huytrong thời gian sắp tới trong những dự án tiếp theo.

<b>CHƯƠNG 1: TỔNG QUAN VỀ BÀI TỐN</b>

<b>1.1. Bài tốn ước tính tư thế con người</b>

Tư thế con người là hình dáng của cơ thể con người khi thực hiện cáchoạt động như đi, nằm, ngồi, … Chính xác hơn khi nói đến tư thế, là người tanói tới sự sắp xếp của tất cả vị trí các khớp trên cơ thể vào một thời điểm. Đểđánh giá tư thế, người ta chọn ra một tư thế đứng thẳng lý tưởng làm tiêuchuẩn để so sánh và nhận diện các sai lệch về tư thế.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Nhận diện con người là bài toán xác định sự có mặt của con người trongmột tầm nhìn bất kỳ như ảnh, video hay sự kiện phát trực tiếp. Hiện nay, trênthế giới, việc giải quyết bài toán này đã đạt được những thành tựu rất lớn. Cácmơ hình hiện đại ngày nay đã và đang ngày càng hồn thiện hơn trong việcxác định chính xác với hiệu suất tốt con người trong những khung hình cụ thể.Nhận diện cũng có thể coi là bước đầu tiên trong việc ước tính và xác định tưthế của con người.

Bài tốn ước tính tư thế (HPE) là q trình ước tính hoặc dự đốn vị trívà cách đối tượng di chuyển hoặc đứng trong không gian. Trong trường hợpnhận diện tư thế, sau khi đã xác định các đối tượng (ví dụ: con người), mụctiêu là ước tính các thông số liên quan đến tư thế của họ. Các thơng số liênquan này có thể bao gồm vị trí thực tế, vị trí các điểm khớp chính xác trên cơthể, góc độ, hướng di chuyển và những thơng tin tương tự khác.

Tư thế con người đóng vai trị thiết yếu trong nhiều lĩnh vực, từ y học,thể thao đến cơng nghệ. Nó thể hiện hình dáng của cơ thể khi thực hiện cáchoạt động như đi, nằm, ngồi,... và được xác định bởi sự sắp xếp của tất cả vịtrí các khớp trên cơ thể tại một thời điểm. Việc đánh giá tư thế thường dựatrên so sánh với tư thế đứng thẳng lý tưởng, giúp nhận diện các sai lệch vàvấn đề tiềm ẩn.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<i><small>Hình 1. 1. Khung xương người </small></i>

<i><small>(Nguồn: diện con người là lĩnh vực đã đạt được những thành tựu to lớntrong những năm gần đây. Các mơ hình hiện đại có thể xác định chính xác vịtrí và phạm vi của con người trong hình ảnh hoặc video. Nhận diện đóng vaitrị như bước đầu tiên quan trọng trong việc ước tính và xác định tư thế. Nhậndiện con người là nền tảng cho việc ước tính tư thế. Các mơ hình nhận diệnxác định vị trí và phạm vi của con người trong hình ảnh, cung cấp thơng tinđầu vào cho các thuật tốn ước tính tư thế. Có hai phương pháp chính để ướctính tư thế con người:

 Phương pháp dựa trên mơ hình: sử dụng mơ hình thống kê hoặc họcmáy để dự đốn vị trí các khớp cơ thể dựa trên thơng tin hình ảnh. Phương pháp dựa trên điểm ảnh: sử dụng các thuật toán học máy để

trực tiếp dự đốn vị trí các điểm chính (keypoints) trên cơ thể conngười từ hình ảnh.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Nhận diện và ước tính tư thế con người là một lĩnh vực nghiên cứu đầytiềm năng với nhiều ứng dụng thực tế. Việc phát triển các công nghệ mớitrong lĩnh vực này sẽ góp phần nâng cao chất lượng cuộc sống và thúc đẩy sựphát triển của khoa học kỹ thuật.

Phương pháp nhận diện và ước tính tư thế con người đã đạt được hiệuquả lớn cả về mặt lý thuyết và ứng dụng thực tế. Tuy nhiên, vẫn cịn một sốthách thức dành cho bài tốn này. Thứ nhất, dữ liệu đầu vào chính là một ràocản lớn. Dữ liệu ảnh và video trong bài toán này vơ cùng đa dạng, với gócnhìn và khung hình khác nhau. Ảnh hoặc video có thể bị mờ, nhịe, ảnh hưởngđến độ chính xác dự đốn. Các yếu tố nhiễu như ánh sáng, trang phục, điềukiện môi trường cũng tác động đáng kể đến chất lượng ảnh, video và độ chínhxác của mơ hình. Thứ hai, bài tốn địi hỏi sự cân bằng giữa độ chính xác vàhiệu suất. Việc áp dụng bài toán vào thực tế cần đảm bảo cả hai yếu tố này.Mơ hình cần xử lý và tiền xử lý lượng hình ảnh khổng lồ trong thời gian ngắn,đồng thời vẫn giữ được độ chính xác cao trong việc xác định tư thế của từngđối tượng trong từng khung hình. Đây là một thách thức lớn đối với các nhànghiên cứu và kỹ sư.

Bên cạnh những khó khăn đó, bài tốn cịn gặp phải một số thách thứckhác như:

● Thiếu hụt tập dữ liệu chuẩn: Việc phát triển mơ hình hiệu quả cần cótập dữ liệu lớn và đa dạng, được gắn nhãn chính xác. Tuy nhiên, hiệnnay, các tập dữ liệu công khai cho bài tốn này cịn hạn chế.

● Tính tốn phức tạp: Việc xử lý và phân tích dữ liệu hình ảnh, video địihỏi lượng tính tốn lớn, ảnh hưởng đến hiệu suất và khả năng áp dụngthực tế của mơ hình.

● Yếu tố môi trường: Ánh sáng, điều kiện thời tiết, và các yếu tố mơitrường khác có thể ảnh hưởng đến chất lượng dữ liệu và độ chính xáccủa mơ hình.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

● Để giải quyết những khó khăn và thách thức này, các nhà nghiên cứuđang tập trung vào:

● Phát triển các mơ hình học máy mạnh mẽ hơn: Các mơ hình mới cần cókhả năng xử lý dữ liệu phức tạp, đa dạng và chống nhiễu tốt hơn.

● Tăng cường tập dữ liệu: Việc thu thập và xây dựng tập dữ liệu lớn, đadạng và được gắn nhãn chính xác là vơ cùng cần thiết.

● Tối ưu hóa thuật tốn: Nâng cao hiệu quả xử lý và giảm thiểu lượngtính tốn để áp dụng mơ hình vào thực tế.

Với sự nỗ lực của các nhà nghiên cứu, những khó khăn và thách thứctrong bài tốn nhận diện và ước tính tư thế con người sẽ dần được giải quyết.Bài toán này hứa hẹn sẽ mang đến nhiều ứng dụng thực tế hữu ích trong cáclĩnh vực như giáo dục, thể thao, an ninh, y học, và công nghệ.Bài tốn nhậndiện và ước tính tư thế con người được áp dụng vào rất nhiều lĩnh vực khácnhau, có thể ứng dụng trong giáo dục, thể thao, an ninh, (v.v). Trong giáo dục,nó có thể giúp xây dựng ứng dụng phát hiện gian lận thi cử. Đối với thể thao,đó là các ứng dụng hỗ trợ tập luyện. Và trong an ninh, đó là những ứng dụngkiểm sốt từng hành động của người.

<b>1.2. Bài toán đánh giá tư thế thể dục Squat</b>

Động tác Squat, một trong những động tác cơ bản nhất và phổ biến nhấttrong thế giới thể dục và thể hình, khơng chỉ là một phần quan trọng của cácchương trình tập luyện mà cịn được xem là một thước đo tiêu biểu cho sứcmạnh và linh hoạt của cơ thể. Bài toán đánh giá tư thế thể dục squat đặt ramột thách thức đối với cộng đồng nghiên cứu về thể dục và máy học, trongviệc phát triển các phương pháp và công cụ để tự động đánh giá và cải thiệnkỹ thuật thực hiện động tác này.

Mục tiêu chính của bài tốn này là phân loại và đánh giá chất lượng củatư thế squat từ dữ liệu hình ảnh hoặc video. Q trình này địi hỏi một mơhình máy học có khả năng nhận diện và phân loại các yếu tố chính liên quanđến việc thực hiện động tác, bao gồm độ sâu của squat, độ thẳng của lưng, vị

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

trí của đầu gối và cân bằng của cơ thể. Việc phân loại các tư thế thành các loạinhư "squat đúng cách", "squat không đúng cách", "squat quá thấp", hoặc"squat quá cao" sẽ giúp người tập luyện hoặc huấn luyện viên hiểu rõ hơn vềkỹ thuật của họ và cung cấp phản hồi để cải thiện hiệu suất.

<i><small>Hình 1. 2. Tư thế Squat </small></i>

<i><small>(Nguồn: fix-mistakes/)</small></i>

trong những thách thức lớn nhất của bài toán này là sự đa dạng vàbiến đổi của các tư thế squat. Các biến thể của squat có thể phụ thuộc vào yếutố như độ dài của bước chân, góc nghiêng của thân, hoặc cách đặt tay. Điềunày đặt ra một yêu cầu cao về khả năng của mơ hình phải nhận biết và phânloại các biến thể này một cách chính xác và đáng tin cậy.

Tuy nhiên, với sự phát triển nhanh chóng của cơng nghệ học máy và thịgiác máy tính, các phương pháp và công cụ mới đang được phát triển để giảiquyết bài tốn này. Cơng nghệ như MediaPipe cung cấp một cơ sở vững chắccho việc xây dựng các mơ hình đánh giá tư thế thể dục hiệu quả, bằng cáchcung cấp các giải pháp đáng tin cậy và linh hoạt cho việc xử lý hình ảnh vàphân loại tư thế.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Trong tương lai, việc tiếp tục nghiên cứu và phát triển các phương phápvà công nghệ mới trong lĩnh vực này sẽ đóng vai trị quan trọng trong việc cảithiện sức khỏe và hiệu suất thể chất của mọi người.

<b>CHƯƠNG 2: CƠ SỞ LÝ THUYẾT </b>

<b>2.1. Phương hướng tiếp cận bài tốn</b>

Xây dựng mơ hình đánh giá thể dục là một quá trình quan trọng trongviệc đánh giá và đo lường sự tương tác của con người với hoạt động thể chất.Mơ hình này khơng chỉ giúp chúng ta hiểu rõ hơn về những lợi ích về sứckhỏe mà việc tập thể dục mang lại mà còn giúp chúng ta phát triển các chiếnlược và chính sách để thúc đẩy hành vi vận động và thể dục trong cộng đồng.Trong đề tài này, mơ hình được em xây dựng để đánh giá thơng qua các bướcchính. Mơ hình cần được xác định mục tiêu và tiêu chí đánh giá.

Mơ hình trong bài tốn này nhắm đến mục tiêu hỗ trợ, chỉnh sửa độngtác Squat cho những người tập và sử dụng. Các chỉ tiêu đánh giá bao gồmhướng đứng của một người, góc giữa các bộ phận cơ thể của người đó theotừng giai đoạn. Phương pháp đo lường để đánh giá tính chính xác của mộtđộng tác được sử dụng là phương pháp đánh giá góc bộ phận. Cụ thể, trongtừng giai đoạn của động tác Squat, góc giữa các bộ phận quan trọng sẽ đượctính tốn và so sánh để đánh giá, dựa trên các video, các nguồn hướng dẫn đãđược xác định trước của các giáo viên, hay huấn luyện viên. Kết hợp với việctính góc, mơ hình sẽ u cầu người dùng trước khi bắt đầu phải hướng về gócso với vị trí đặt camera một góc 90 độ.

Quy trình xử lý của mơ hình sẽ được diễn ra theo các giai đoạn sau:● Xử lý dữ liệu đầu vào: góc quay hợp lý, tư thế hợp lý.

● Giám sát từng giai đoạn trong động tác squat: Động tác chia làm 3 giaiđoạn chính, mỗi giai đoạn được đánh giá một lần

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

● Kết thúc động tác, đưa ra lời khuyên và đánh giá đúng sai: đưa ra lờikhuyên cho lỗi của mỗi động tác và đánh giá động tác squat vừa thựchiện là đúng hay sai.

<b>2.2. Các nghiên cứu giải quyết bài toán tiêu biểu</b>

Trên thế giới, trí tuệ nhân tạo đã được ứng dụng ngày càng phổ biến vàohỗ trợ đánh giá rất nhiều các động tác thể dục. Việc đánh giá tư thế thể dục sửdụng trí tuệ nhân tạo khơng phải là một khái niệm mới. Các nghiên cứu đãđược tìm thấy ở những năm 2000. Tuy nhiên, sự phát triển vượt trội nhất đếntừ thập kỷ gần đây. Các nhà nghiên cứu đã xây dựng một ý tưởng vượt trộicho việc đánh giá tư thế bằng việc sử dụng khung xương người. Sự tiến bộviệc xử lý hình ảnh và các mơ hình học sâu từ những năm 2010 đến nay đãgiúp cải thiện đáng kể độ chính xác và hiệu suất của ứng dụng. Việc xử lý bàitoán này qua phương pháp xác định khung xương người được thực hiện bằngcách xác định các điểm chính của một người trên từng khung hình. Tuy nhiên,điều này chỉ hợp lý đối với từng ảnh đơn lẻ bởi vì đối với một video, một giâyđược chia làm rất nhiều khung hình. Việc nhận diện tất cả từng khung hình đómột các liên tục chỉ trong một giây là việc rất khó, và cịn làm giảm hiệu suấthệ thống. Để tránh được điều này xảy ra, các thuật toán theo dõi đã được ứngdụng thêm để theo dõi chính xác các điểm trên cơ thể ngay khi nó được nhậndiện.

Cốt lõi chính của phương pháp đánh giá tư thế dựa trên khung xươngnằm ở việc xác định khung xương của cơ thể người. Khung xương người làtập hợp các điểm chính trên cơ thể được nối với nhau để tạo ra một bộ khunghoàn chỉnh. Bài tốn nhận diện và ước tính khung xương người là HPE. Bằngviệc tận dụng thế mạnh của các mô hình học sâu cả truyền thống lẫn hiện tại,các nghiên cứu đã trích xuất được các đặc trưng chính để xác định các điểmvới độ chính xác cao. Mơ hình ước tính tư thế cũng được nghiên cứu ứngdụng thành công trong các lĩnh vực như y tế, thể thao, giáo dục, …

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Các cơng trình nghiên cứu được công bố bởi các chuyên gia đã thể hiệnnhững kết quả thực nghiệm tốt. Đó cũng là nguồn tài liệu đáng tin cậy để emcũng như các nhà nghiên cứu khác tham khảo để xây dựng nền tảng phươngpháp cho việc xử lý bài tốn của mình. Sau đây là một số cơng trình nghiêncứu giải quyết bài tốn ước tính tư thế tiêu biểu:

● Nghiên cứu OpenPose <small>[ CITATION se \l 1033 ]</small> là một nghiên cứu ứngdụng nhận diện và ước tính con người theo thời gian thực được công bốvào năm 2018 tại Hội nghị European Conference on Computer Vision(ECCV) với tiêu đề “OpenPose: Realtime Multi-Person 2D PoseEstimation using Part Affinity Fields” [ CITATION Cao \l 1033 ]. Mục đíchcủa nghiên cứu là tìm kiếm các keypoints hay parts, tức là các điểmkhớp trên cơ thể hay gọi là các phần cơ thể, trong một ảnh hay mộtvideo có chứa nhiều người. OpenPose là tiền đề và tiêu biểu nhất chophương pháp xác định tư thế con người theo hướng tiếp cận từ dướilên. Phương pháp tiếp cận này mang tính sáng tạo rất cao. Nó loại bỏ đisuy nghĩ thơng thường về cách giải quyết bài toán. Bài toán sẽ đượcgiải quyết bằng việc xác định tất cả các bộ phận cơ thể trước, sau đómới ghép cho con người, thay vì xác định con người đầu tiên như cácphương pháp khác đã làm. Thách thức trong nghiên cứu chính là việcquá nhiều người gần nhau trong một khung hình hay những trường hợpxảy ra sự chen lấn và bài toán phải giải quyết chúng.

● MediaPipe [ CITATION Kim \l 1033 ] là một framework do Google dựa trênBlazePose được công bố vào năm 2020 với tiêu đề “MediaPipe: AFramework for Building Perception Pipelines” <small>[ CITATION Lug \l 1033 ]</small>.MediaPipe được thiết kế cho các công việc như nghiên cứu, học tập vàphát triển phần mềm. MediaPipe được tích hợp nhiều mơ hình nhậndiện và trích xuất, trong đó có ước tính tư thế (MediaPipe Pose). Mụcđích của MediaPipe Pose cũng tương tự OpenPose, xác định các phầntrong cơ thể người, từ đó đưa ra dự đốn và ước tính tư thế. MediaPipe

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

là tiêu biểu cho phương pháp ước tính tư thế bằng phương pháp tiếpcận từ trên xuống, ngược lại với OpenPose. MediaPipe hướng đến xácđịnh chính xác phạm vi con người trước, sau đó mới dùng các thuậttoán để xác định các bộ phận và tư thế con người. Thách thức củaframework này là độ chính xác không phải lúc nào cũng cao, đặc biệt làtrong các điều kiện ánh sáng kém hoặc các góc quay phức tạp. Ngồira, cơ thể con người có sự đa dạng về kích thước, hình dáng và cửđộng, làm cho việc phát hiện và theo dõi cử động trở nên phức tạp hơn.Điều này đặc biệt đúng khi đối mặt với các điều kiện không lý tưởngnhư việc che mặt, mặc quần áo che khuất, cũng như sự che khuất bởicác vật thể hoặc đối tượng khác trong hình ảnh.

● Ngoài ra, cùng với sự phát triển của công nghệ, YOLOv8-Pose<small>[ CITATION Maj \l 1033 ] cũng đã nổi lên như một giải pháp tiên tiến trong</small>việc nhận diện và ước tính tư thế. YOLOv8-Pose kết hợp giữa mạngYOLO (You Only Look Once) và các thuật toán nhận diện tư thế, tạora một phương pháp mạnh mẽ để xác định tư thế con người trong thờigian thực. Cùng với việc giảm thiểu thời gian tính tốn, YOLOv8-Posecũng đạt được độ chính xác cao, thậm chí trong các tình huống khókhăn như đối mặt với ánh sáng yếu hoặc các góc quay phức tạp. Ngoàira, hiệu suất trong thời gian thực của YOLO cịn hạn chế. Tuy nhiên,mặc dù đã có sự tiến bộ đáng kể, việc phát triển các giải pháp nhận diệnvà ước tính tư thế vẫn đối mặt với những thách thức như đa dạng vềkích thước và hình dáng của cơ thể con người, cũng như việc giảmthiểu sai số trong môi trường ứng dụng thực tế.

<b>2.3. Cơ sở lý thuyết</b>

<b>2.3.1. Bản đồ nhiệt (Heatmap)</b>

Bản đồ nhiệt [ CITATION Bul1 \l 1033 ] là cách thể hiện dữ liệu bằng hìnhảnh trong đó các giá trị được mô tả bằng màu sắc, giúp bạn dễ dàng trực quan

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

hóa dữ liệu phức tạp và hiểu nó trong nháy mắt. Bản đồ nhiệt có thể được tạobằng tay, mặc dù bản đồ nhiệt hiện đại thường được tạo bằng phần mềm lậpbản đồ nhiệt chun dụng. Nó như một ma trận mơ tả các giá trị cho biếnquan tâm chính trên hai biến trục dưới dạng lưới các ô vuông màu. Các biếntrục được chia thành các phạm vi như biểu đồ thanh hoặc biểu đồ và màu củamỗi ô cho biết giá trị của biến chính trong phạm vi ơ tương ứng.

Ước tính vị trí con người trong khơng gian 2D nhằm mục đích xác địnhvị trí các khớp cơ thể của một hình ảnh RGB nhất định. Để giải quyết các bàitoán liên quan đến xác định và ước tính tư thế con người, hầu hết các mơ hìnhhiện đại đều sử dụng bản đồ nhiệt. Chúng coi tư thế con người 2D ước tínhnhư một vấn đề ước tính bản đồ nhiệt. Cụ thể, đối với mỗi khớp cơ thể, cácphương pháp này thường ước tính một bản đồ nhiệt dạng lưới, trên đó mỗi giátrị pixel biểu thị xác suất pixel này chứa khớp cơ thể.

<i><small>Hình 2. 1. dot-annotated và gaussian-smoothed heatmap(Nguồn: 2 loại bản đồ nhiệt [ CITATION QuH \l 1033 ] thường được sử dụng: annotated heatmap(a) và gaussian-smoothed heatmap(b). Dot-annotatedheatmap là heatmap được chú thích bằng “dot” - tức là dấu chấm. Nó được sửdụng để biểu diễn vị trí của mỗi một keypoint trên cơ thể bằng một dấu chấm.Mỗi dấu chấm đó có thể được coi như là một pixel trên hình ảnh, nơi mà cókeypoint cần xác định. Trong q trình huấn luyện các phương pháp về xácđịnh bản đồ nhiệt, việc quan trọng cần làm là tối ưu hóa bản đồ nhiệt. Việc tối

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

ưu hóa này được thực hiện thông qua bước xây dựng bản đồ nhiệt chú thíchbằng dấu chấm cho từng keypoint, và sau đó so sánh sự khác biệt giữa bản đồnhiệt được dự đoán và bản đồ nhiệt nhãn thật. Tuy vậy, bản đồ nhiệt được chúthích bằng dấu chấm lại có một nhược điểm là nó chỉ có một pixel mang giátrị là 1 - tức pixel đã được chú thích là điểm cơ thể, cịn lại sẽ mang giá trị là0. Điều này có thể dẫn tới việc mơ hình sẽ khơng học được đúng cấu trúc vàhình dạng của cơ thể, do ma trận biểu diễn bản đồ nhiệt ấy phần lớn là các giátrị 0. Về độ chính xác, mặc dù bản đồ nhiệt được chú thích dưới dạng dấuchấm có thể cung cấp chính xác vị trí của các khớp cơ thể, nhưng lại khơngthể đảm bảo các khớp được biểu diễn chính xác về mặt hình dạng và kíchthước. Ngồi ra, việc so sánh giữa các pixel với nhau của bản đồ nhiệt dựđoán và bản đồ nhiệt thực tế có thể khơng phản ánh được đầy đủ sự khác biệt,đặc biệt là khi có sự sai lệch trong kích thước và hình dạng của các khớptrong cơ thể.

Để khắc phục những điều trên, các nhà nghiên cứu đã đưa ra một cáchxác định bản đồ nhiệt khác là gaussian-smoothed heatmap - tức bản đồ nhiệtxác định bằng phân phối Gauss (hay còn gọi là phân phối chuẩn. Phân phốichuẩn là một loại phân phối liên tục, có hình chng đối xứng, được sử dụngrộng rãi trong việc mơ hình hóa các biến ngẫu nhiên. Trong bản đồ nhiệt này,các pixel gần điểm được chú thích là nhãn sẽ có giá trị lớn hơn các điểm xungquanh nó. Cụ thể, bản đồ nhiệt xây dựng bằng phân phối chuẩn thực hiệnthông qua việc làm mịn điểm chú thích của keypoint thơng qua một hàm phânphối chuẩn được minh họa như hình dưới, khác với việc chỉ đặt một giá trịcho điểm được chú thích.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<i><small>Hình 2. 2. Phân phối chuẩn </small></i>

<i><small>(Nguồn: xây dựng bản đồ nhiệt dựa trên phân phối chuẩn mang lại nhiều lợiích hơn so với chú thích bằng dấu chấm. Như hình vẽ 3 ta thấy được, MSEcủa bản đồ nhiệt phân phối chuẩn là 0,2, tức là độ lỗi trung bình được so sánhgiữa các pixel của nhãn và dự đoán là 0.2, thấp hơn rất nhiều so với bản đồnhiệt chú thích bằng dấu chấm là 0.44. Không những vậy, việc sử dụng bảnđồ nhiệt này đem lại tính mượt mà và thơng tin phong phú hơn. Các pixelphân bố một cách liền mạch xung quanh điểm chú thích tạo ra biểu đồ chi tiếthơn về phân bố không gian của các điểm, đối tượng, cung cấp nhiều thông tinphong phú hơn cho việc phân tích. Bằng việc sử dụng phân phối Gauss, mơhình cịn có thể học được các đặc điểm khơng gian của dữ liệu một cách hiệuquả hơn, mang lại hiệu suất tốt trong việc nhận diện các khớp cơ thể trongảnh. Đồng thời, sử dụng phân phối chuẩn cịn giúp mơ hình tổng qt hóa tốthơn đối với dữ liệu mới chưa từng gặp, học được các đặc điểm chung chứkhông phải chỉ xác định một điểm duy nhất.

Tuy nhiên, việc xây dựng bản đồ nhiệt bằng phân phối Gauss và giảmthiếu lỗi bằng MSE có thể gặp phải một số khó khăn trong q trình đào tạomơ hình. Đầu tiên, để xây dựng bản đồ nhiệt làm mịn bằng phân phối chuẩn,ta cần phải chọn độ lệch chuẩn thích hợp của phân phối Gauss. Tuy nhiên, độlệch chuẩn này thường khác nhau giữa các loại khớp cơ thể khác nhau. Do đó,

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

độ lệch chuẩn phải được lựa chọn một cách cẩn thận. Tiếp theo, trong quátrình tối ưu hóa bản đồ nhiệt được làm mịn bằng phân phối Gauss, hiệu suấtcủa mơ hình có thể khơng được cải thiện hồn tồn. Cụ thể, cơng thức so sánhgiữa các pixel - (MSE) được biểu diễn như sau [ CITATION Sch \l 1033 ]:

<i><small>MSE=</small></i><sup>1</sup><i><small>N</small></i>

(<i><small>I</small></i><sub>1</sub><i><small>(i )−I</small></i><sub>2</sub><i><small>(i )</small></i>)<sup>2</sup>

(2.1)trong đó

● <i><small>N</small></i> là số lượng pixel trong hình ảnh

● <i><small>I</small></i><sub>1</sub><small>(</small><i><small>i)</small></i> và <i><small>I</small></i><sub>2</sub><small>(</small><i><small>i)</small></i> là giá trị pixel tương ứng cần so sánh trong hai hình ảnhNhư thấy ở hình 3, mặc dù MSE của bản đồ nhiệt dự đoán thứ 1 đối với bảnđồ nhiệt làm nhãn, so sánh với bản đồ nhiệt dự đoán thứ hai là lớn hơn. Tuynhiên, bản đồ nhiệt thứ 2 lại dự đốn khơng chính xác điểm cơ thể, mà bản đồnhiệt thứ 1 lại dự đốn chính xác.

Như vậy, ta thấy được rằng hai loại bản đồ nhiệt trên là hai loại bản đồnhiệt thường được sử dụng trong các bài toán xác định tư thế con người. Cácloại bản đồ nhiệt đều có ưu điểm và nhược điểm riêng của chúng. Vì vậy, việclựa chọn, thử nghiệm và tối ưu hóa bản đồ nhiệt là điều vơ cùng quan trọngtrong q trình xây dựng mơ hình đánh giá tư thế con người.

<b>2.2.2. Thuật toán BlazePose (BlazePose algorithm)</b>

BlazePose [ CITATION Baz \l 1033 ] là thuật toán cốt lõi được sử dụng trongMediaPipe framework do Google triển khai và được công bố chính thức vàonăm 2020. MediaPipe bao gồm nhiều ứng dụng bên trong, trong đó có bàitốn xác định tư thế con người. BlazePose là thuật toán đặc trưng cho phươngpháp xác định các điểm chính trên cơ thể bằng phương pháp tiếp cận từ trênxuống (top-down pose estimation). Top-down pose estimation <small>[ CITATION Nin \l1033 ]</small> thực hiện một loạt các hành động theo trình tự từ trên xuống dưới.Thuật toán sẽ xác định đối tượng bằng cách khoanh vùng con người bằng cácbounding box. Tiếp theo, từ những bounding box đã được xác định đó, ta sẽ

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

tiến hành phân tích, dự đốn các điểm trên cơ thể người. Thuật tốn này có ưuđiểm khách quan về mặt nhìn nhận, đúng theo logic tự nhiên của chúng ta.Tuy nhiên, cũng có một số hạn chế nhất định trong thuật tốn. Đầu tiên, độchính xác sẽ phụ thuộc nhiều vào kết quả phát hiện con người, cơng cụ ướctính tư thế thường rất nhạy cảm với các hộp giới hạn con người được pháthiện trong ảnh. Thứ hai, thời gian chạy thuật toán tăng tỷ lệ thuận với sốlượng người được phát hiện trong ảnh khiến việc chạy thuật tốn có thể tốnnhiều thời gian. Bởi vì là một thuật tốn xây dựng dựa trên phương pháp top-down estimation, BlazePose cũng bao gồm hai thành phần chính là: PoseDetection [ CITATION Kim1 \l 1033 ] và Pose Tracker. Pose Detection là việc pháthiện là vùng chứa vật thể trên ảnh hay đoạn video. Nói cách khác, nhiệm vụcủa Pose Detection như một thuật toán khoanh vùng một vùng chứa vật thểnhư một bounding box. Sau đó, khi đã khoanh vùng được vật thể và xác địnhđược các keypoints, Pose Tracker sẽ tiến hành theo dõi đối tượng đó, cáckeypoints đã được xác định, trong các khung hình tiếp theo.

Pose Detection là thuật tốn được thực hiện trong khung hình (frame)đầu tiên của mơ hình. Phần lớn các giải pháp hiện đại đều dựa vào thuật tốnngăn chặn khơng tối đa (NMS) cho bước xử lý nhận dạng cuối cùng. Thuậttoán NMS là một phương pháp để loại bỏ các dự đoán trùng lặp hoặc gầnnhau của các vật thể. Nó thường được sử dụng sau khi mơ hình đã sinh ra dựđốn về vị trí và độ tin cậy của các vật thể trong ảnh. Đầu tiên, nó sắp xếp tấtcả các dự đốn dựa trên độ tin cậy của chúng. Sau đó, nó bắt đầu từ dự đốncó độ tin cậy cao nhất và loại bỏ các dự đốn khác mà có sự chồng chéo đángkể, sự chồng chéo này được đo bằng IoU. Nếu IoU vượt qua ngưỡng đặttrước, một trong hai dự đoán sẽ bị loại bỏ.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<i><small>Hình 2. 3. Intersection over Union </small></i>

<i><small>(Nguồn: object-detection/)</small></i>

nhiên, thuật tốn này có thể sẽ khơng chính xác đối với các tìnhhuống bao gồm các tư thế có tính khớp nối cao như của con người, chẳng hạnmột người vẫy tay hoặc hai người ơm nhau. Có thể có nhiều hộp không đúngnhưng lại thoả mãn ngưỡng IoU. Để khắc phục được điều này, BlazePose đãsử dụng khuôn mặt làm đối tượng để xác định con người. Sở dĩ tác giả chọnvậy là do, khn mặt là phần có độ tương phản cao và khơng có sự thay đổilớn như các bộ phận khác trên cơ thể như tay, chân, phần có thể di chuyểntheo những tư thế đặc biệt và khác nhau rất lớn. Do đó, thuật tốn đã sử dụngbộ xác định khn mặt, sau đó xác định ra điểm hơng, và cuối cùng mới xácđịnh tồn bộ con người.

Đầu tiên, về nhận diện khuôn mặt, thuật toán sử dụng một mạng CNNđơn giản hơn so với SSD [ CITATION Liu \l 1033 ] nhưng cho độ chính xác lớn vàtốc độ vượt trội. Đầu vào của mạng là một hình ảnh RGB với kích thước128x128 pixels và các lớp 2D-convolution (lớp tích chập) gồm 5 singleBlazeBlocks <small>[ CITATION Baz1 \l 1033 ]</small> và 6 double BlazeBlocks. Chiều sâutensor lớn nhất là 96, trong khi đó độ phân giải ảnh thấp nhất là 8x8. Giả sử,với một ảnh đầu vào kích thước (1, 224, 224, 3), nó trả ra kết quả là mộtbounding box kích thước là (1, 2224, 12) và độ tin cậy kích thước (1, 2224,

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

1). 12 phần tử của khung giới hạn có dạng (x,y,w,h,kp1x,kp1y,…,kp4x,kp4y),trong đó kp1x đến kp4y là các điểm chính bổ sung. Các tọa độ đó có thể xácđịnh được hộp giới hạn (bounding box) và góc xoay

<i><small>Hình 2. 4. Single BlazeBlock và Double Blazeblock (Nguồn: tích chập được xây dựng để phát hiện khuôn mặt trong BlazePoseđược xây dựng như sau [ CITATION Baz \l 1033 ] [ CITATION Baz1 \l 1033 ].

<i><small>Bảng 2. 1. Bảng thông số các lớp trong mạng phát hiện khuôn mặt [ CITATION Baz1 \l1033 ]</small></i>

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Double BlazeBlock 16×16×96 5×5×48×1 (stride 2)1×1×48×24

Tiếp theo, sau khi đã xác định được khuôn mặt, ta sẽ tiến hành nhận diệntoàn bộ cơ thể người. BlazePose xác định cơ thể người dựa trên hình vẽ“Người Vitruvius” [ CITATION Mur \l 1033 ] của hoạ sĩ Leonardo Da Vinci. Ýtưởng đó được ơng trình bày như sau: “Vị trí tự nhiên của rốn là ở trung tâmcủa cơ thể người. Nếu một người hướng thẳng mặt về phía trước và duỗichân, tay sao cho rốn vẫn là trung tâm, thì các đầu ngón tay và ngón chân sẽnằm trên một hình trịn có tâm là rốn... Nếu đo khoảng cách từ chân đến đỉnhđầu, ta sẽ thấy nó bằng khoảng cách của hai cánh tay duỗi thẳng, vì vậy cácđường thẳng này sẽ tạo thành một hình vng bao lấy cơ thể người.”. Cụ thể,việc này chính là đi xác định điểm giữa hông con người bởi vì nó chính ratrung tâm. Trong chú thích về hình ảnh của hoạ sĩ, có một đoạn như sau:

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

“Chiều dài của cánh tay duỗi ra bằng chiều cao của người. Từ đường tóc đếndưới cằm là một phần mười chiều cao của người. Từ dưới cằm đến đỉnh đầulà một phần tám chiều cao của người. Từ phía trên ngực đến đỉnh đầu là mộtphần sáu chiều cao của người. Từ phía trên ngực đến đường tóc là một phầnbảy chiều cao của người. Từ ngực đến đỉnh đầu là một phần tư chiều cao củangười. Chiều rộng tối đa của vai chứa một phần tư của người. Từ khuỷu tayđến đầu bàn tay là một phần năm chiều cao của người; khoảng cách từ khuỷutay đến nách là một phần tám chiều cao của người; độ dài của bàn tay là mộtphần mười của người. Bộ phận sinh dục nam ở giữa độ cao của người. Chiềudài của chân là một phần bảy của người. Từ dưới chân đến dưới đầu gối làmột phần tư của người. Từ dưới đầu gối đến gốc của bộ phận sinh dục là mộtphần tư của người. Khoảng cách từ cằm đến mũi và đường tóc và lơng màybằng nhau và bằng một phần ba của khuôn mặt.” Cũng theo bản gốc của hìnhảnh này, ta thấy phần điểm giữa hông là tâm của một tam giác đều được tạobởi hai điểm mũi bàn tay và bàn chân. Như vậy có thể tính được tọa độ điểmgiữa hơng khi biết được tọa độ bounding box của khuôn mặt. Đây là một bộnhận diện cơ thể người đơn giản và nhẹ, nhưng cũng có những hiệu quả nhấtđịnh.

<i><small>Hình 2. 5. Người Vitruvius</small></i>

<i><small> (Nguồn: class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Cuối cùng, từ các thông tin xác định được như toạ độ bounding box khnmặt, toạ độ điểm giữa hơng, kích thước của vịng trịn bao quanh tồn bộ cơthể người, góc nghiêng được xác định bởi đường thẳng nối giữa điểm hông vàđiểm vai với phương thẳng đứng, ta tiến hành xoay cơ thể người về phươngthẳng đứng. Như vậy, một bộ nhận diện cơ thể người nhẹ, hiệu quả được hoànthành.

Tiếp theo, ta cần đi xác định các điểm chính cơ thể người. Tư tưởngchính của thuật tốn sẽ là như sau: nếu như Pose Tracker có thể dự đốn đượcvị trí của người trong khung hình kế tiếp thì Pose Detector sẽ không cần phảichạy lại nữa và sẽ luôn ln sử dụng kết quả dự đốn của Pose Tracker và chỉnhận diện lại khi Pose Tracker dự đoán sai dưới một ngưỡng nhất định nàođó. Pose Tracker là một kỹ thuật dùng để giám sát, theo dõi đối tượng. Trongthuật toán BlazePose, Pose Tracker sẽ được chia ra làm hai phần chính:Keypoints Detection Part (phần nhận diện keypoints) và KeypointsRegression Part (phần hồi quy keypoints)

<i>Hình 2. 6. Mạng phát hiện điểm cơ thể</i>

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<i><small>Hình 2. 7. 33 điểm chính trong BlazePose (Nguồn: class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Mơ hình sẽ bắt đầu với Keypoints Detection Part, tức ta sẽ tiến hànhhuấn luyện phần mạng bên trái và ở giữa của mơ hình. Mạng noron ở giữagồm các lớp tích chập liên tiếp nhau với đầu vào là một hình ảnh RGB đã quatiền xử lý có kích thước 256x256x3. Sau khi đi qua các lớp tích chập, mạng ởgiữa sẽ đưa ra đầu ra là các đặc trưng sau khi đã tính tốn. Các đặc trưng nàysẽ được chia sẻ (share features) cho mạng ở chính giữa. Do vậy, đầu vào củamạng bên trái sẽ chính là lớp cuối cùng của mạng chính giữa, với kích thước8x8x32, nhận 32 đặc trưng được chia sẻ. Tiếp đó, sau khi kết thúc quá trìnhhuấn luyện cho mạng bên trái, đầu ra sẽ chính là heatmap và offset map.Heatmap, như đã nêu ở trên, là một bản đồ nhiệt mơ tả vị trí các điểm chínhtrên cơ thể, tức các keypoints của một người trong một khung hình cụ thể.Offset map, chính là ma trận độ lệch giữa kết quả dự đốn và nhãn đã gántrước đó. Cuối cùng là phần mạng bên phải, đây là phần tác giả sẽ sử dụng đểthử nghiệm. Nó sẽ nhận các đặc trưng được chia sẻ từ mạng bên trái. Điềuchú ý trong mơ hình phần mạng bên phải là nó sẽ chỉ nhận đặc trưng chứkhông nhận phần trọng số được dự đoán của phần mạng bên trái. Đồng thời,khi thử nghiệm, tác giả sẽ bỏ hoàn toàn phần nhận diện, phát hiện các điểmchính, mà chỉ sử dụng phần hồi quy để dự đốn vị trí chính xác của các điểm.Điều này sẽ giúp giảm bớt độ phức tạp của mơ hình và tăng tốc độ tính tốntrong q trình thử nghiệm. Đầu ra của mạng này sẽ bao gồm 33 keypoints và2 điểm sử dụng để căn chỉnh được mơ tả phía trên phần Pose Detection.

Như hình vẽ trên, ta thấy được rõ nét 33 điểm quan trọng của một tư thếcon người được thuật toán BlazePose đưa ra (có thể là 17 đối với một số thuậttốn khác). Những điểm này được chú thích chi tiết và rõ nét. Những điểmđược đánh số thứ tự là số lẻ tượng trưng cho phần bên trái của tư thế. Còn lạinhững điểm được đánh số thứ tự chẵn sẽ là phần bên phải của tư thế<small>[ CITATION Baz \l 1033 ].</small>

<i><small>Bảng 2. 2. Chú thích các điểm chính cơ thể</small></i>

</div>

×