Tải bản đầy đủ (.docx) (25 trang)

Báo Cáo Môn Học Sâu Nhận Diện Khẩu lệnh tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (954.93 KB, 25 trang )

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN
NHẬP MÔN HỌC SÂU
ĐỀ TÀI:
XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG KHẨU TIẾNG VIỆT
SỬ DỤNG DEEP LEARNING
Sinh viên thực hiện

: PHẠM THANH PHONG,
PHÙNG VĂN PHƯƠNG

Giảng viên hướng dẫn : NGƠ HOÀNG HUY
Ngành

: CƠNG NGHỆ THƠNG TIN

Chun ngành

: TRÍ TUỆ NHÂN TẠO & THỊ
GIÁC MÁY TÍNH

Lớp

: D14TTNT&TGMT

Khóa

: 2019-2024
Hà Nội, tháng 03 năm 2022




PHIẾU CHẤM ĐIỂM

STT

Họ và tên sinh viên Nội dung thực hiện

1

Phạm Thanh Phong

2

Phùng Văn Phương

Họ và tên giảng viên
Giảng viên chấm 1:

Giảng viên chấm 2:

Chữ ký

Điểm

Ghi chú

Chữ




MỤC LỤC


LỜI CẢM ƠN
Lời đầu tiên của báo cáo môn học “Nhập môn học máy”, chúng em muốn gửi
lời cám ơn chân thành nhất của mình tới tất cả những người đã hỗ trợ, giúp đỡ
chúng em về kiến thức và tinh thần trong quá trình thực hiện báo cáo. Em xin chân
thành gửi lời cảm ơn tới các thầy cô giáo trong Trường Đại học Điện Lực nói
chung và các thầy cơ giáo trong Khoa Cơng nghệ thơng tin nói riêng đã tận tình
giảng dạy, truyền đạt những kiến thức cũng như kinh nghiệm quý báu trong suốt
quá trình học tập. Đặc biệt, xin gửi lời cảm ơn đến thầy Ngơ Hồng Huy đã tận
tình theo sát giúp đỡ, trực tiếp chỉ bảo, hướng dẫn trong suốt quá trình nghiên cứu
và học tập của chúng em.
Do thời gian thực hiện có hạn kiến thức cịn nhiều hạn chế nên bài làm của
nhóm chắc chắn khơng tránh khỏi những thiếu sót nhất định. Nhóm rất mong nhận
được ý kiến đóng góp của thầy cơ giáo và các bạn để hồn thiện đồ án của mình.
Em xin chân thành cám ơn!

LỜI MỞ ĐẦU
Cơng nghệ thơng tin (CNTT) ngày càng có vai trị quan trọng trong cuộc sống
hằng ngày của chúng ta. Việc ứng dụng CNTT vào các lĩnh vực trong đời sống
giúp cơng việc được tiến hành nhanh chóng và hiệu quả hơn. Có rất nhiều cơng
việc mới phát triển song song với sự phát triển của CNTT, một trong những số đó
là phân tích chuẩn đốn dữ liệu – big data, hướng đi mang lại hiệu quả rất lớn.
Nhóm chúng em chọn đề tài “Xây dựng chương trình nhận dạng khẩu lệnh tiếng
nói sử dụng deep learning” nhằm tìm hiểu sâu hơn về dữ liệu cách khai thác và sử
dụng hiệu quả, từ đó viết một ứng dụng cụ thể thử nghiệm làm cơ sở củng cố kiến
thức và định hướng, kế hoạch xây dựng các ứng dụng trong tương lai.



CHƯƠNG 1. TỔNG QUAN VỀ HỌC MÁY VÀ TÌM HIỂU VỀ KỸ THUẬT
MẠNG RNN-LSTM
1.1. Giới thiệu về Học Sâu
1.1.1. Định Nghĩa :
Deep Learning là tập hợp con của Machine Learning và nó có tác dụng hỗ
trợ cho máy tính tự huấn luyện chính nó để có thể thực hiện mọi tác vụ tương tự
như con người. Điều này chính là giúp máy tính bắt chước con người cách học hỏi
và suy nghĩ.
Các hệ thống của Deep Learning có khả năng cải thiện được những hiệu
suất của chúng với quyền truy cập vào dữ liệu sẽ được nhiều hơn.
Thông thường, phiên bản máy sẽ có nhiều kinh nghiệm hơn; những máy
móc đã có đủ kinh nghiệm thì sẽ được mang đi phục vụ cho những công việc như:
lái xe, phát hiện cỏ dại,...

Deep Learning là gì?


Deep Learning có hỗ trợ cho việc dịch ngơn ngữ, phân loại các hình ảnh,
nhận dạng giọng nói. Chính vì thế, nó có thể được ứng dụng để giải quyết mọi nhu
cầu cần nhận dạng mẫu mà không cần đến sự can thiệp của con người.
Ngoài khái niệm Deep Learning là gì thì bạn nên tìm hiểu thêm về khái
niệm mạng lưới thần kinh như sau: Deep Learning hoạt động dựa vào mạng lưới
thần kinh nhân tạo và nó bao gồm nhiều lớp chứa các dữ liệu mô phỏng cách thức
vận hành của não người.
Bộ phận mạnh thần kinh nhân tạo này giống với não người bao gồm: Các
node (nó là đơn vị thần kinh trong mạng thần kinh nhân tạo) là những neuron thần
kinh. Hầu hết các node bản thân thường chỉ có khả năng trả lời cho những câu hỏi
đơn giản và cơ bản nhất; với những tác vụ khó thì chúng sẽ tiến hành liên kết với
nhau để trả lời.

Bạn có thể dạy hoặc có thể huấn luyện chúng bằng những thuật toán cụ
thể. Những node giải đáp các câu hỏi phức tạp thì sẽ được gọi là mạng lưới thần
kinh sâu (DNN), nó được định nghĩa như sau: Mạng lưới thần kinh sâu có khả
năng thực hiện các hoạt động phức tạp như biểu diễn, trừu tượng có mang các ý
nghĩa về âm thanh, văn bản và hình ảnh. Chúng được đánh giá là lĩnh vực phát
triển nhất trong Machine Learning.
1.1.2. Cách thức hoạt động của Deep Learning :
Deep Learning được xem là một phương pháp của học máy theo phương
pháp: lập trình AI sẽ được huấn luyện để dự đoán đầu ra dựa vào một tập đầu
vào.Ví dụ cụ thể: Dự đốn hành đầu của con mèo khi gặp chuột rồi tiến hành huấn
luyện nó bằng phương pháp học có giám sát.


Mạng lưới thần kinh trong Deep Learning
Khi bạn muốn dự đốn được hành động của nó vào các đầu vào sẽ được thực
hiện như sau:
• Lựa chọn con mồi phù hợp
• Lúc này: các bộ phận trên cơ thể của con mèo như mắt, móng vuốt, tai,.. của
con mèo sẽ trở nên rất nhanh nhạy.
• Con chuột sẽ xuất hiện ở đâu
Về cơ bản thì Deep Learning sẽ khơng khác với học máy thơng thường. Tuy
nhiên, với ví dụ trên thì thời gian cần dành khá nhiều mới có thể thiết kế được các
tính năng đại diện cho con mèo. Những gì cần làm là cung cấp cho hệ thống một số
lượng hình ảnh con mèo, video con mèo bắt chuột thì hệ thống có thể tự học được
những tính năng đại diện dành cho 1 con mèo.
Với những tác vụ như thị giác máy tính, nhận dạng giọng nói, robot hoặc
dịch máy thì hiệu suất của Deep Learning có thể vượt xa những hệ thống máy
khác. Tuy nhiên, việc xây dựng được hệ thống Deep Learning lại không mấy dễ
dàng so với hệ thống máy móc thơng thường.



1.1.3. Ưu Điểm của Deep Learning :

Deep Learning giúp giải quyết một số vấn đề mà không cần đến con người
Deep Learning có độ chính xác cao, có thể học sâu rộng và đạt được độ
chính xác ở mức cơng nhận vô cùng cao. Điều này sẽ đảm bảo cho thiết bị điện tử
tiêu dùng có thể đáp ứng được mọi nhu cầu cũng như mong đợi từ phía người
dùng. Deep Learning rất trọng về độ an toàn đối với những mơ hình xe khơng
người lái.
Các dữ liệu của Deep Learning sẽ được dán nhãn bởi: Việc phát triển của xe
khơng người lái địi hỏi hàng triệu hình ảnh cũng như hàng ngàn giờ để xem
video.
GPU có hiệu suất cao và có kiến thức song song nên rất hiệu quả cho Deep
Learning. Nếu như kết hợp với điện toán đám mây hoặc các cụm thì nó cho phép
nhóm phát triển có thể giảm xuống tối đa thời gian đào tạo đối với mạng lưới học
tập sau vài tuần hoặc vài giờ.
1.1.4. Ứng Dụng của Deep Learning :
 Ứng dụng trong công nghệ cao
Ứng dụng vượt bậc của Deep Learning không thể khơng kể đến đó chính là chế
tạo Robot. Hiện nay, các phiên bản Robot giống con người với khả năng cảm
nhận, phản ứng với môi trường đang dần được ra đời.


Hiện nay, Robot cịn có thể hợp tác với các hoạt động của con người và chúng
có thể thực hiện được các nhiệm vụ riêng biệt phù hợp với thế mạnh của chúng.
Robot đang góp phần thay thế con người trong việc thực hiện các cơng việc khó
khăn hơn. Đây chính là phát minh tuyệt vời nhờ ứng dụng Deep Learning.
 Ứng dụng trong nơng nghiệp

Hiện nay, nhờ có Deep Learning mà người nơng dân có thể triển khai những

thiết bị có khả năng phân biệt được cỏ dại với cây trồng. Từ đó, các loại máy móc
phun thuốc diệt cỏ có thể chọn lọc phun lên cỏ dại để đảm bảo cho cây trồng
khơng bị ảnh hưởng.
Ngồi vai trị loại bỏ cỏ dại bằng thuốc diệt cỏ thì nhờ Deep Learning mà
sản lượng nông nghiệp ngày càng được cải thiện. Bên cạnh đó, Deep Learning
đang được mở rộng hơn nữa sang các hoạt động như: thu hoạch, tưới tiêu, bón
phân, gieo trồng,...

Ứng dụng của Deep Learning trong lĩnh vực y tế


 Ứng dụng trong điện tử
Deep Learning được ứng dụng cho công việc nhận diện không mặt trong các
thiết bị điện tử như điện thoại, các phần mềm như facebook, messenger,... Thêm
vào đó, Deep Learning cịn được dùng trong nghe dịch và nói tự động mà trang
web google dịch đang sử dụng. Ngoài ra, một số thiết bị trợ giúp tại nhà cũng được
ứng dụng Deep Learning để đáp ứng giọng nói và hiểu được sở thích của bản (đây
chính là ứng dụng học sâu).
1.2. Mạng Hồi Quy RNN và Mạng LSTM
1.2.1. Giới thiệu Mạng Hồi Quy RNN
Khi xử lý video ta hay gặp khái niệm FPS (frame per second) tức là bao nhiêu
frame (ảnh) mỗi giây. Ví dụ 1 FPS với video 30s tức là lấy ra từ video 30 ảnh, mỗi
giây một ảnh để xử lý.
Ta dùng 1 FPS cho video input ở bài toán trên, tức là lấy ra 30 ảnh từ video, ảnh
1 ở giây 1, ảnh 2 ở giây 2,… ảnh 30 ở giây 30. Bây giờ input là 30 ảnh: ảnh 1, ảnh
2,… ảnh 30 và output là phân loại hành động. Nhận xét:
• Các ảnh có thứ tự ví dụ ảnh 1 xẩy ra trước ảnh 2, ảnh 2 xẩy ra trước ảnh 3,
… Nếu ta đảo lộn các ảnh thì có thể thay đổi nội dung của video. Ví dụ: nội
dung video là cảnh bắn nhau, thứ tự đúng là A bắn trúng người B và B chết,
nếu ta đảo thứ tự ảnh thành người B chết xong A mới bắn thì rõ ràng bây giờ

A không phải là kẻ giết người suy ra nội dung video bị thay đổi.
• Ta có thể dùng CNN để phân loại 1 ảnh trong 30 ảnh trên, nhưng rõ ràng là 1
ảnh không thể mô tả được nội dung của cả video. Ví dụ: Cảnh người cướp
điện thoại, nếu ta chỉ dùng 1 ảnh là người đấy cầm điện thoại lúc cướp xong
thì ta khơng thể biết được cả hành động cướp.
Cần một mơ hình mới có thể giải quyết được bài tốn với input là sequence
(chuỗi ảnh 1->30) suy ra RNN ra đời.
Dữ liệu dạng sequence
Dữ liệu có thứ tự như các ảnh tách từ video ở trên được gọi là sequence, timeseries data.


Trong bài toán dự đoán đột quỵ tim cho bệnh nhân bằng các dữ liệu tim mạch
khám trước đó. Input là dữ liệu của những lần khám trước đó, ví dụ i1 là lần khám
tháng 1, i2 là lần khám tháng 2,… i8 là lần khám tháng 8. (i1,i2,..i8) được gọi là
sequence data. RNN sẽ học từ input và dự đốn xem bệnh nhân có bị đột quy tim
hay khơng.
Ví dụ khác là trong bài toán dịch tự động với input là 1 câu, ví dụ “tơi u
Việt Nam” thì vị trí các từ và sự xắp xếp cực kì quan trọng đến nghĩa của câu và dữ
liệu input các từ [‘tôi’, ‘yêu’, ‘việt’, ‘nam’] được gọi là sequence data. Trong bài
tốn xử lý ngơn ngữ (NLP) thì khơng thể xử lý cả câu được và người ta tách ra
từng từ làm input, giống như trong video người ta tách ra các ảnh (frame) làm
input.
Phân loại bài toán RNN

Các
dạng bài toán RNN
One to one: mẫu bài toán cho Neural Network (NN) và Convolutional
Neural Network (CNN), 1 input và 1 output, ví dụ với CNN input là ảnh và output
là ảnh được segment.
One to many: bài tốn có 1 input nhưng nhiều output, ví dụ: bài tốn caption

cho ảnh, input là 1 ảnh nhưng output là nhiều chữ mô tả cho ảnh đấy, dưới dạng
một câu.
Many to one: bài tốn có nhiều input nhưng chỉ có 1 output, ví dụ bài toán
phân loại hành động trong video, input là nhiều ảnh (frame) tách ra từ video,
ouptut là hành động trong video


Many to many: bài tốn có nhiều input và nhiều output, ví dụ bài tốn dịch
từ tiếng anh sang tiếng việt, input là 1 câu gồm nhiều chữ: “I love Vietnam” và
output cũng là 1 câu gồm nhiều chữ “Tôi yêu Việt Nam”.
Ứng dụng bài toán RNN
Về cơ bản nếu bạn thấy sequence data hay time-series data và bạn muốn áp
dụng deep learning thì bạn nghĩ ngay đến RNN. Dưới đây là một số ứng dụng của
RNN:


Speech to text: Chuyển giọng nói sang text.



Sentiment classification: phân loại số sao cho các bình luận, ví dụ: input:
“ứng dụng tốt”, output: 4 sao.



Machine translation: Bài tốn dịch tự động giữa các ngơn ngữ.



Video recognition: Nhận diện hành động trong video.




Heart attack: Dự đốn đột quỵ tim.

Mơ Hình Bài Tốn
Bài tốn: Nhận diện hành động trong video 30s. Đây là dạng bài toán many to one
trong RNN, tức nhiều input và 1 output.
Input ta sẽ tách video thành 30 ảnh ở mỗi giây. Các ảnh sẽ được cho qua model
CNN để lấy ra các feature thành các vector có kích thước n*1. Vector tương ứng
với ảnh ở giây thứ i là xi.
Output là vector có kích thước d*1, softmax function được sử dụng như trong bài
phân loại ảnh.


Mơ hình RNN cho bài tốn.
Ta có:


Mơ hình có 30 input và 1 output, các input được cho vào model đúng với thứ
tự ảnh trong video x1,x2,...x30.



Mỗi hình trịn được gọi là 1 state, state t có input là xt và st−1 (output của
state trước); output là s_t = f(U*x_t + W*s_{t-1})st=f(U∗xt+W∗st−1). f là
activation function thường là tanh hoặc ReLU.




Có thể thấy s_tst mang cả thông tin từ state trước (st−1) và input của state
hiện tại =>st giống như memory nhớ các đặc điểm của các input từ x1 đến xt



s0 được thêm vào chỉ cho chuẩn cơng thức nên thường được gán bằng 0
hoặc giá trị ngẫu nhiên. Có thể hiểu là ban đầu chưa có dữ liệu gì để học thì
memory rỗng.



Do ta chỉ có 1 output, nên sẽ được đặt ở state cuối cùng, khi đó s30 học được
thông tin từ tất cả các input :y^=g(V∗s30). g là activation function, trong bài
này là bài toán phân loại nên sẽ dùng softmax.

Ta thấy là ở mỗi state các hệ số W, U là giống nhau nên model có thể được viết lại
thành:


Mơ hình RNN rút gọn
Tóm lại:


xi là vector có kích thước n*1, si là vector có kích thước m*1, yi là vector có
kích thước d*1. U là ma trận có kích thước m*n, W là ma trận có kích thước
m*m và V là ma trận có kích thước d*m.



s0=0,st=f(U∗xt+W∗st−1) với t >= 1




y^=g(V∗s30)

Loss function
Loss function của cả mơ hình bằng tổng loss của mỗi output, tuy nhiên ở mơ hình
trên chỉ có 1 output và là bài tốn phân loại nên categorical cross entropy loss sẽ
được sử dụng.


Loss function

1.2.2. Giới thiệu Mạng LSTM
Mạng LSTM là một dạng đặc biệt của RNN, nó có khả năng học được các phụ
thuộc xa. LSTM được thiết kế để tránh được vấn đề phụ thuộc xa (long-term
dependency). Việc nhớ thông tin trong suốt thời gian dài là đặc tính mặc định của
chúng, chứ ta khơng cần phải huấn luyện nó để có thể nhớ được. Tức là ngay nội tại
của nó đã có thể ghi nhớ được mà khơng cần bất kì can thiệp nào.
LSTM cũng có kiến trúc dạng chuỗi như vậy, nhưng các mơ-đun trong nó có
cấu trúc khác với mạng RNN chuẩn. Thay vì chỉ có một tầng mạng nơ-ron, chúng có
tới 4 tầng tương tác với nhau một cách rất đặc biệt.


CHƯƠNG 2. ỨNG DỤNG NHẬN DIỆN KHẨU LỆNH GIỌNG NÓI
2.1.

Ứng dụng trong nhận diện khẩu lệnh

Convolutional Neural Network là một trong những mơ hình Deep Learning

tiên tiến giúp chúng ta xây dựng được những hệ thơng minh với độ chính xác cao.
Mạng nơ-ron tích chập cho phép các máy tính có khả năng “nhìn” và phân
tích bằng cách đưa nó qua nhiều layer với một bộ lọc tích chập để sau cùng có
được điểm số nhận dạng một cách tốt nhất .


Chính vì những điều đó, CNN ngày nay càng được sử dụng rộng rãi trong
cái bài tốn nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên , và đặc biết hơn là nhận
dạng khẩu lệnh nói con người địi hỏi sự chính xác cao .
Ngày càng nhiều những chiếc điện thoại hay đồng hồ thông minh được ứng
dụng công nghệ nhận diện giọng nói giúp cho người dùng có thể xem thời tiết , đặt
một món hàng qua việc ra lệnh cho điện thoại của mình.
2.2.Phát biểu bài tốn
Bài nhận diện khẩu lệnh nói là bài tốn nhận dạng lệnh nói dựa trên các tập
file ghi âm có sẵn trên CommonVoice để phân tích ,huấn luyện để dự đốn ra
khẩu lệnh nói của con người .
2.3. Mơ hình ứng dụng:
Em có sử dụng mơ hình được đào tạo trước của DeepSpeech để Train tập dữ
liệu của mình
Mơ hình DeepSpeech
Ta có x và nhãn yđược lấy mẫu từ một tập huấn luyện :

Mỗi câu nói,x^(i)là một chuỗi thời gian có độ dài T^(i) trong đó mỗi lát thời
gian là một vectơ của các tính năng âm thanh, x^(i)t ở đâu t=1,…,T^(i). Chúng tơi
sử dụng các tính năng của MFCC; Vì thế x^(i)tp biểu thị p-Tính năng MFCC thứ
trong khung âm thanh tại thời điểmt. Mục tiêu của RNN của chúng tôi là chuyển
đổi một chuỗi đầu vàoxthành một chuỗi các xác suất ký tự cho quá trình phiên mã
y, với y^t = P(ct∣x), tiếng anh ở đâu ct∈{a,b,c,...,z,space,apostrophe,blank}. (Ý
nghĩa củablanksẽ được giải thích bên dưới.)
Mơ hình RNN của chúng tơi bao gồm 5 các lớp đơn vị ẩn. Đối với một đầu

vàoxx, các đơn vị ẩn ở lớp l được biểu thị h(l) với quy ước rằng h(0)là đầu vào. Ba
lớp đầu tiên không lặp lại. Đối với lớp đầu tiên, tại mỗi thời điểmtt, đầu ra phụ
thuộc vào khung MFCC xt cùng với bối cảnh củaCCkhung ở mỗi bên. (Chúng tôi
sử dụng C=9 cho các thử nghiệm của chúng tơi.) Các lớp khơng lặp lại cịn lại hoạt
động trên dữ liệu độc lập cho mỗi bước thời gian. Do đó, mỗi lần t, người đầu tiên
3 các lớp được tính tốn bởi:


ở đây g(z)= min{max{0,z},20}g(z)=min{max{0,z},20} là một chức năng kích
hoạt tuyến tính (ReLu) được điều chỉnh được cắt bớt vàW(l)W(l),b(l)b(l)là ma trận
trọng số và các tham số thiên vị cho lớpll. Lớp thứ tư là lớp lặp lại . Lớp này bao
gồm một tập hợp các đơn vị ẩn có lặp lại về phía trước, h(f)h(f):

Lưu ý rằng h(f)phải được tính toán tuần tự từ t=1 đến t=T(i) .
Lớp thứ năm (không định kỳ) lấy các đơn vị chuyển tiếp làm đầu vào

Lớp đầu ra là nhật ký tiêu chuẩn tương ứng với xác suất ký tự được dự đoán
cho mỗi lát thời gianttvà nhân vậtkktrong bảng chữ cái:

Đây b(6)k biểu thị k-th thiên vị và(W(6)h(5)t)k các k-phần tử thứ của sản
phẩm ma trận.
Khi chúng tơi đã tính tốn dự đốn choy^t,ky^t,k, chúng tơi tính tốn tổn
thất CTC L(y^,y) để đo lường sai số trong dự đốn. (Mất CTC địi hỏi blank ở trên
để cho biết sự chuyển tiếp giữa các ký tự.) Trong q trình đào tạo, chúng tơi có
thể đánh giá độ dốc ∇L(y^,y)∇L(y^,y)liên quan đến kết quả đầu ra mạng được
cung cấp chuỗi ký tự chân lý nềnyy. Từ thời điểm này, việc tính tốn gradient đối
với tất cả các tham số mơ hình có thể được thực hiện thơng qua lan truyền ngược
thơng qua phần cịn lại của mạng. Chúng tôi sử dụng phương pháp Adam để đào
tạo.



Mơ hình RNN hồn chỉnh được minh họa trong hình bên dưới.


2.4 Dữ Liệu
Bộ dữ liệu được tải từ CommonVoice với : 15,312 Files Mp3 và các file .tsv

Để có thể sử dụng bộ file mp3 để train cần chuyển đổi các file *.tsv thành
csv để model đọc được .

2.5.

Train Model DeepSpeech

• Nhận mã đào tạo mơ hình :

• Tạo mơi trường ảo :


• Cài đặt Mã đào tạo DeepSpeech và các phụ thuộc của nó


• Train model

2.6.

Kết Qủa Thực Nghiệm Mơ Hình

Train với dữ liệu 15 nghìn file kết quả vẫn khơng được tốt lắm với loss tập test là
263.467499


Kết quả của một file mới khác: “muốn sống tiếp phải nghe lời của ta ” dựa đốn
mơ hình



KẾT LUẬN

Bài báo cáo đã khái quát được một số vấn đề về bài toán phân lớp bao gồm
phương pháp phân lớp dữ liệu và các thuật toán học máy áp dụng vào bài toán
phân lớp.
Về phân lớp dữ liệu, đồ án đã đưa ra bài toán tổng quan, cho cái gì và cần cái
gì, đồng thời trình bày về phương pháp phân lớp dữ liệu tổng quát từ đó có thể
giúp người đọc hiểu sơ qua về bài tốn phân lớp.
Trình bày cơ bản về bài tốn phân lớp văn bản, cách biểu diễn một văn bản
trong bài toán phân lớp như thế nào, qua đó nêu lên các phương pháp phân lớp văn
bản cơ bản hiện nay.
Áp dụng kỹ thuật học sâu Deep Learing vào việc nhận dạng khẩu lệnh nói
Như đã trình bày ở trên, do cịn hạn chế về thời gian và kiến thức nên trong đồ
án chưa thể tìm hiểu sâu, về kỹ thuật học sâu DeepLearning.Vì thế trong thời gian
tới nhóm sẽ tìm hiểu kỹ hơn để có thể chủ động nẵm vững việc thực hiện phần
mềm, đặc biệt là các thuật toán học bán giám sát nền tảng lý thuyết của phần mềm


TÀI LIỆU THAM KHẢO
[1] /> /> />[2] Tài Liệu Học Học Sâu – Thầy Ngơ Hồng Huy


×