nhận dạng cảm xúc dựa trên tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (633.8 KB, 22 trang )

Viện công nghệ thông tin và truyền thông
Bộ môn Kỹ thuật máy tính

Báo cáo
Thực tập tốt nghiệp

Đề tài:
Nhận dạng cảm xúc dựa trên tiếng nói
Giảng viên hướng dẫn : Ths.Nguyễn Hồng Quang
Sinh viên : Đặng Đình Đức
Shsv : 20070829
Lớp : Kỹ thuật máy tính – K52
Hà nội – 2012

Mục Lục
A. Cơ sở lý thuyết
I. Khái niệm và mô hình hệ thống nhận dạng cảm xúc
1. Khái niệm nhận dạng cảm xúc và hệ thống nhận dạng cảm xúc
a. Nhận dạng cảm xúc là gì ?
Nhận dạng cảm xúc là từ một 1 tín hiệu tiếng nói đã biết, bằng các phương pháp chuyên môn, xử lý tín
hiệu, sau đó đưa ra kết luận về cảm xúc chứa đựng trong tín hiệu tiếng nói đó. Ví dụ như : vui, buồn, chán nản,
xúc động, hạnh phúc …
Nhận dạng cảm xúc tiếng nói có rất nhiều ứng dụng trong thực tế:
Trong tương tác người – máy, robot có thể được dạy để có thể tương tác được với con người và nhận diện
được cảm xúc của con người. một vật nuôi bằng robot có thể hiểu được không chỉ là những câu mệnh lệnh, mà
còn cả những thông tin khác, như trạng thái tình cảm hay tình trạng sức khỏe chứa đựng trong câu mệnh lệnh đó
để có những hành động tương ứng.
Trong các tổng đài thông minh, nhận dạng cảm xúc tiếng nói giúp phát hiện những vấn đề tiềm tàng xuất
hiện từ sự không hài lòng của khách hàng.
Trong các hệ thống hướng dẫn bằng lời nói thông minh, việc phát hiện và thu thập cảm xúc của các sinh
viên được xem là 1 chiến lược quan trọng để thu hẹp khoảng cách giữa những hướng dẫn của máy tính và con

người
Trong những nghiên cứu về mô hình tiếng nói, tiện ích của nó cho phép 1 hệ thống không chỉ nhận dạng
được nội dung đã mã hóa trong những phản hồi của người sử dụng, mà còn trích xuất thông tin về trạng thái
cảm xúc của người sử dụng bằng cách phân tích cách thức mà những phản hồi được phát âm.
b. Hệ thống nhận dạng cảm xúc là gì ?
Hệ thống nhận dạng cảm xúc là hệ thống chứa đựng các qui trình, các modun để xử lý và đưa ra kết luận về
cảm xúc chứa đựng trong tín hiệu tiếng nói.
Thực chất, 1 hệ thống nhận dạng cảm xúc là 1 hệ thống nhận dạng mẫu vòng tròn bao gồm tuần tự các
công đoạn: trích xuất đặc trưng, lựa chọn đặc trưng, chọn bộ phân lớp, và kiểm tra, so sánh với 1 tập cơ sở dữ
liệu mẫu đã biết.
Nếu không có kiến thức, và hiểu biết về vấn đề thì sẽ không có bộ chia tốt nhất nói chung. Trong việc nhận
dạng mẫu, có 1 lý thuyết tương ứng có tên là No free lunch theorem, cho mỗi tập dữ liệu chúng ta sẽ kiểm tra
trên 50 phân lớp, và sau đó chọn 1 tập có độ chính xác cao nhất thông qua chế độ kiểm tra chéo.
Không có kiến thức và hiểu biết về vấn đề thì sẽ không có được tập đặc trưng tốt nhất, 1 lý thuyết tương
ứng được biết đến với tên The ugly ducking theorem.
Một bộ phân lớp tốt có thể thực hiện 1 cách không tối ưu nhất trong việc lựa chọn các đặc trưng mà vẫn
đảm bảo được độ chính xác tốt. Ngược lại, 1 tập các đặc trưng tốt có thể tạo ra 1 tập dữ liệu đủ tốt để 1 bộ phân
lớp không tối ưu mà vẫn cho kết quả có độ chính xác đủ lớn.
Trong khi huấn luyện tránh trường hợp “đa hợp” – 1 tập dữ liệu có thể thuộc nhiều phân lớp khác nhau –
vấn đề này có thể được giải quyết bằng cách sử dụng chế độ xác minh chéo trong khi kiểm tra và trong cách
trường hợp ngoại lệ của chuỗi dữ liệu thì tìm kiếm những kết quả trung gian giữa độ chính xác và MDL.
2. Qui trình xây dựng hệ thống nhận dạng cảm xúc
a. Xây dựng khối xử lý tín hiệu
Mục đích của khối xử lý tín hiệu là phân tích, xử lý, tính toán dựa trên tín hiệu tiếng nói đã biết để trích rút
ra những đặc trưng của tín hiệu, để phục vụ cho việc lựa chọn những đặc trưng tiêu biểu của tín hiệu, để phân
lớp và so sánh.
Đặc trưng của tín hiệu bao gồm :
Những đặc trưng vecto tín hiệu, có thể là những tín hiệu ngắn hoặc dài, đặc trưng long-time được đánh giá
dựa vào độ dài của tín hiệu tiếng nói. Đặc trưng short-time được xác định trong cửa sổ thời gian nhỏ hơn
(thường từ 20 đến 100 ms). Những nghiên cứu hiện đại đã chỉ ra rằng, 1 đặc trưng long-time để xác định cảm

xúc thường tốt hơn 1 đặc trưng short-time. Tranh luận cho việc sử dụng các đặc trưng short-time là: câu hỏi
thường phát ra trong phạm vi rộng hơn câu khẳng định, vì vậy độ lệch tiêu chuẩn khi phát ra trong 1 cụm câu
hỏi thường lớn hơn. Nhưng vì độ lệch này chỉ là 1 sự phản xạ của cấu trúc câu và không có ảnh hưởng gì tới
dạng cảm xúc, nó gây ảnh hưởng tới bộ nhận dạng cảm xúc sử dụng các đặc trưng long-time.
Đặc trưng về âm điệu thường bao gồm trong đặc trưng vecto. Âm điệu thông thường gồm có phát âm,
cường độ và khoảng thời gian phát âm. Thi thoảng, nhưng không cần thiết, đặc trưng về chất lượng tiếng nói
cũng thường được sử dụng. Những đặc trưng quyết định đến chất lượng tiếng nói bao gồm : formant trung bình
và băng thông, các hài cho đến tỉ lệ tiếng nói, các hệ số MFCC và phổ tương ứng với mỗi đặc trưng (ví dụ, FFT,
điểm phổ (spectral roll-of-point) và thông lượng ). Chúng ta thường sử dụng kết hợp giữa các đặc trưng về âm
điệu và phân đoạn trong tập dữ liệu khởi tạo mà sau đó hướng tới tập các đặc trưng. Sự phân đoạn các đặc trưng
sẽ dẫn đến độ chính xác tốt hơn vì một vài cảm xúc cũng được phân đoạn.
b. Xây dựng khối trích chọn đặc trưng
Mục đích của việc xây dựng khối trích chọn đặc trưng là để lựa chọn những đặc trưng quyết định đến cảm
xúc của tiếng nói từ tập đặc trưng tiếng nói đã phân tích được từ khối xử lý, sau đó so sánh với tập đặc trưng
mẫu để đưa ra quyết định phân lớp đặc trưng.
Trích chọn đặc trưng, nếu được thực hiện đúng, sẽ thu được nhiều cải thiện đồng thời cho việc nhận dạng
cảm xúc : Loại bỏ những đặc trưng không cần thiết không ảnh hưởng tới việc nhận dạng, nó sẽ làm giảm khối
lượng đầu vào, giảm thời gian tính toán và nhiều lợi ích khác nữa.
Nhiều thí nghiệp nhận dạng thành công trước đây, không hề có 1 quá trình tự động nào trong các khâu trích
chọn đặc trưng, Đôi khi, người ta trích rút đặc trưng mà được lựa chọn trong các nghiên cứu khác hoặc bộ phân
lớp của họ rất hiệu quả với dữ liệu tiếng nói hoặc họ may mắn lựa chọn được 1 tập dữ liệu tốt.
Nhiều người sử dụng PCA cho việc trích chọn đặc trưng, tuy nhiên nó khá tốn kém.
Tác giả cuốn 12 xem xét 1 tập dữ liệu khởi tạo lớn với 381 đặc trưng, thực hiện trích chọn đặc trưng bằng
SVM-SFFS (Sequential forward floating search – tìm kiếm nổi bọt ) và cuối cùng chọn ra được 38 đặc trưng. Ý
tưởng của giải thuật plus l take away r được thực hiện như sau : cứ l lần thực hiện SFS sau mỗi r lần thực hiện
SBS, trong phương pháp SFFS, đối lập với giải thuật plus l take away r, số bước tiến và lùi được điều khiển tự
động thay vì xác định trước 1 giá trị cố định. SVM-SFFS cho kết quả tốt hơn và kinh tế hơn phương phấp PCA.
Tác giả cuốn 12 đã trích xuất 51 đặc trưng và đã xếp hạng chúng bằng cách tính toán lượng thông tin mong
đợi thu được mà biểu diễn thông tin về mỗi liên hệ giữa lớp Y và 1 thuộc tính X, và được tính toán bởi công
thức:

H (Y,X) = H(Y) – H(Y|X).
Tại điểm của 10 đặc trưng tốt nhất, 2 bộ phân lớp được sử dụng (mạng nơ-ron và SVM) đạt đến điểm bão
hòa
Các tác giả của 45 đã trích xuất 105 đặc trưng về âm thanh và 48 đặc trưng về hình ảnh, sử dụng phương
pháp stepwise họ đã thu được 1 tập 10 đặc trưng. Tiêu chí là khoảng cách Mahalanobis. Phương pháp stepwise
bắt đầu với 1 đặc trưng, sau đó, với mỗi bước, 1 đặc trưng mới được thêm vào hoặc loại bỏ khỏi tập con được
chọn để tối đa hóa khoảng cách Mahalanobis giữa các lớp, theo họ, PCA không hiệu quả bằng phương pháp
stepwise.
Chúng ta sử dụng gói phần mềm Weka mà nó cung cấp 1 tập các đánh giá đặc trưng khác nhau và các hàm
tìm kiếm. Sự kết hợp giữa CfSunsetEval và BestFirst hoạt động rất hiệu quả. Mặc dù có thể có trường hợp là 1
vài sự kết hợp giữa các bộ đánh giá đặc trưng và hàm tìm kiếm có thể cho ra kết quả chính xác hơn, nhưng
chúng ta vẫn hoàn toàn hài lòng với độ chính xác của quá trình nhận dạng.
CfSunsetEval đánh giá khả năng dự đoán của mỗi thuộc tính 1 cách độc lập và mức độ dư thừa của giữa
chúng. Đưa ra 1 tập các thuộc tính mà có độ tương quan cao nhất với lớp nhưng độ tự tương quan thấp. Nó lặp
lại việc thêm các thuộc tính có độ tương quan cao nhất với lớp, với điều kiện, tập thuộc tính đó không chứa
nhứng thuộc tính có độ tương quan cao hơn với thuộc tính trong câu hỏi. BestFirst thực hiện theo thuật toán
tham lam với quay lui.
Đặc trưng đại diện cho những thống kê toàn diện mà nghĩa là những giá trị được ước tính trên toàn bộ tiếng
nói. Sự chọn lựa này đã được thực hiện, do thực tế, những thống kê toàn diện về ngữ văn được cho là phù hợp
hơn với việc nhận dạng cảm xúc.
Trích xuất đặc trưng được thực hiện thông qua kịch bản Praat. Ngoài ra Matlab cũng được sử dụng khá phổ
biến. Praat có giao diện kiểu click – chọn, ở mức cao, không yêu cầu kiến thức sâu về xử lý tín hiệu. praat ít
được sử dụng cho những nhiệm vụ quan trọng, nhưng với nhận dạng cảm xúc, praat là 1 công cụ rất mạnh mẽ,
trung bình, mất khoảng 1.08 đến 12.7 giây để trích xuất 116 đặc trưng từ mẫu tín hiệu tiếng nói có độ dài 1.08
đến 12.7s. (với thời gian thực hiện phụ thuộc tuyến tính với tổng thời gian của tín hiệu tiếng nói.) trên 1 máy
tính 3Ghz, 512Mb. Nếu như cần đáp ứng yêu cầu về thời gian thực, thì thời gian thực thi sẽ ít hơn rất nhiều. do
trên thực tế thì việc trích xuất đặc trưng có thể hoàn thành trước việc xử lý thời gian thực, và các đặc trưng được
trích xuất chỉ là những cái được lựa chọn cho vecto đặc trưng.
Kịch bản Praat trích xuất 116 đặc trưng. Đặc trưng là các hàm thống kê từ các thông số của âm thanh, cac
thông số bao gồm : cao độ, cường độ, formant và các hài. Danh sách các đặc trưng được liệt kê trong phụ lục.

Trước khi lựa chọn đặc trưng, có 116 đặc trưng trong vecto đặc trưng, con số này được xem là đủ lớn, nếu
muốn, có thể dễ dàng thêm các đặc trưng mới vào kịch bản.
Chúng ta sử dụng gói phần mềm Weka để
c. Xây dựng khối phân lớp dựa trên đặc trưng
Với việc lựa chọn phân lớp thì không có 1 qui chuẩn câu trả lời cho câu hỏi mà bộ phân lớp cho ra kết quả
tốt nhất (lý thuyết no free lunch).
Các tiêu chí để lựa chọn bộ phân lớp có liên quan đến tác vụ, để xét đến qui tắc của vấn đề, hoặc của dạng
hình học của không gian đặc trưng đầu vào. 1 vài bộ phân lớp làm việc hiệu quả với dạng cụ thể của các phân
phối lớp, và 1 vài hoạt động tốt với nhiều đặc trưng không liên quan hay với 1 tập các đăc trưng có cấu trúc. 1
trong các cách để so sánh sự lựa chọn là kiểm tra bộ phân lớp trên cùng 1 cơ sở dữ liệu thay thế và rộng lớn. Rất
nhiều bộ phân lớp đã được thử nghiệm cho SER, và Weka đã xuất hiện như 1 bộ phân lớp đơn giản và dễ dàng
nhất. Thường được sử dụng thường xuyên nhất là Support Vector Machines và Mạng Nơ-ron. 1 khu vực phát
triển nhanh chóng trong những nghiên cứu về nhạn dạng mẫu là sự kết hợp những bộ phân lớp để tạo thành 1
cụm phân lớp. Do nhiều lí do khác nhau (từ thống kê đến tính toán và khía cánh đại diện ) Cụm phân lớp có xu
hướng tốt hơn là bộ phân lớp riêng lẻ. Trong lĩnh vực xử lý tiếng nói, Cụm phân lớp được chứng minh là đủ để
thực hiện việc nhận dạng cảm xúc.
Weka bao gồm hơn 50 phân lớp, với mỗi tập dữ liệu nhận được, phân lớp có thể được lựa chọn thử nghiệm,
nếu không có lý do nào khác (độ dài tối thiểu, tốc độ, …) được xét đến, thủ tục lựa chọn rất đơn giản : kiểm tra
trên tất cả các lớp, và chọn 1 lớp có độ chính xác cao nhất, trước khi so sánh độ chính xác, biên chính xác nên
được xem xét.
Để xác nhận chéo, chúng được tính toán với jack-knife. Nếu có nhiều lớp có cùng độ chính xác, với điều
kiện biên, lựa chọn lớp có MDL nhỏ nhất. Chúng ta sử dụng LMT (cây mô hình logic) cho việc nhận diện sự
tức giận của đa ngôn ngữ, trên cơ sở dữ liệu EMO-DB và DES. Cho mục đích so sánh, chúng ta sử dụng MLP
cho việc nhận dạng giữa các trạng thái của cơ sở dữ liệu French Interface DB.
d. Xây dựng hệ CSDL để Trainning và kiểm thử
Trong khi huấn luyện và kiểm thử nên tránh trường hợp đa hợp. liên quan đến vấn đề này, có 2 cách chọn
bộ phân lớp cho phù hợp : chỉ chọn bộ phân lớp hoạt động tốt nhất trong chế độ kiểm tra xác nhận chéo (thường
sử dụng 10 xác nhận chéo) hoặc chọn bộ phân lớp có MDL thấp nhất (nó được thể hiện về mặt lý thuyết là bộ
phân lớp được thiết kế theo nguyên tắc MDL được đảm bảo là luôn hội tụ về mô hình lý tưởng hoặc mô hình
đúng trong giới hạn ngày càng nhiều dữ liệu ). Có 1 vài cách để tính MDL (MDL tương đương với tổng các độ

phức tạp Kolmogorov của bộ phân loại và số bit cho việc biểu diễn dữ liệu và số bit cho việc mô tả các lỗi phân
lớp). MDL luôn luôn là 1 sự xấp xỉ. tuy nhiên, đôi khi nó cũng tạo ra 1 ý nghĩa để tính toán MDL, ví dụ, mặc dù
có 1 mô hình lý tưởng, dữ liệu là không đồng nhất, mà là 1 chuỗi, trực giác nói cho chúng ta biết rằng, trường
hợp của việc nhận dạng cảm xúc trên ngôn ngữ không lời.
Độ chính xác nhận dạng thu được với kiểm tra chéo 10 lần sử dụng các bộ phân lớp Multilayer perceptron,
Simple Logistic, SMO, LMT, Ramdon Forest, NB Tree.
Phát hiện sự giận dữ dựa vào cơ sở dữ liệu song ngữ Đan Mạch và Đức (EMO-DB và DES).
Động lực của việc phát hiện sự giận giữ này là dự án thương mại, hỗ trợ cho việc phát hiện sự tức giận, ko
hài lòng của khách hàng thông qua dữ liệu có sẵn của tổng đài.
Trong thí nghiệm này, sử dụng 1 phần cơ sở dữ liệu public của DES và EMO-DB : lời nói giận giữ và lời
nói trung lập. Trong EMO-DB, có 137 lời nói thể hiện sự giận giữ, 78 thể hiện sự trung lập của 10 người khác
nhau. Trong DES, có 49 lời nói thể hiện sự giận giữ và 49 thể hiện sự trung lập của 4 người nói khác nhau.
Trong quá trình tiền sử lý, các tín hiệu được giảm kích thước mẫu xuống còn 16Khz. Để chọn được phân lớp
phù hợp chúng ta sử dụng 51 bộ phân lớp từ gói phần mềm Weka. 7 lựa chọn tốt nhất đã được lọc ra :
Multilayer Perceptron (quay trở về mạng truyền dẫn nơ-ron), Simple Logistic (Mô hình hồi qui logic tuyến
tính với những thuộc tính đã lựa chọn sẵn), SMO (Thuật toán tối thiểu hóa chuối sử dụng hỗ trợ việc phân loại
vecto), LMT (Cây mô hình logic), NBTree (Cây quyết định với bộ phân lớp Naive Bayes ở mức lá) and
Random Forest (Rừng ngẫu nghiên). Độ chính xác nhận dạng được thể hiện ở hình trên.
Chúng ta thử nghiệm với xác nhận chéo 10 lần. Kết quả của việc nhận dạng được biểu diễn ở hình sau :
Ma trận nhận dạng lỗi với song ngữ
So sánh với hình trên, thì bộ phân lớp tối ưu được lựa chọn là LMT (cây mô hình logic).
Các bảng
Ma trận nhận dạng lỗi với cơ sở dữ liệu EMO-DB (Đan Mạch)
Ma trận nhận dạng lỗi với cơ sở dữ liệu DES (Đức)
Chúng ta thực hiện nhận dạng cảm xúc song ngữ với cơ sở dữ liệu DES và EMO-DB, tỉ lệ thu được là
92.01%, 96.71% và 91.86% cho trường hợp song ngữ (cả tiếng Đức và tiếng Đan Mạch), tiếng Đức và tiếng
Đan Mạch tương ứng.
Thử nghiệm trên cơ sở dữ liệu Interface
Chúng ta thực hiện việc kiểm thử trên cơ sở dữ liệu Slovenia, tiếng Anh và tiếng Pháp trong cơ sở dữ liệu
Interface. Ma trận sai số được thể hiện như sau :

Ma trận sai số với tiếng Anh
Ma trận sai số với tiếng Đức
Ma trận sai số với tiếng Slovenia
Độ chính xác chung trên các cảm xúc khác nhau cho 4 ngôn ngữ Anh, Slovenia, Tây Ban Nha và Pháp.
Chế độ thử nghiệm là xác nhận chéo 10 lần, chính xác là chúng ta không thử nghiệm trên toàn bộ tư liệu từ
dự án Interface chúng ta có. (chúng ta không thực hiện bất cứ thử nghiệm nào trên dữ liệu tiếng Tây Ban Nha ).
Việc lựa chọn đặc trưng được thực hiện riêng rẽ trên từng ngôn ngữ với sự kết hợp của 2 phương thức
CfsSubsetEval và BestFirst trong gói Weka. Với tiếng Pháp tập được lựa chọn là {10, 19, 32, 43, 62, 64, 74,
101, 108}. Với tiếng Solovenia là { 17, 21, 32, 43, 45, 49, 78, 101, 108}, và với tiếng Anh là {13, 17, 19, 34,
35, 41, 45, 48, 49, 61, 64, 71, 72, 78, 95, 96, 97, 98, 103, 105}.
Tác giả cuốn 13 cũng kiểm thử hệ thống nhận dạng của họ trên cùng 1 dữ liệu và công việc của họ cũng
cung cấp cho chúng ta 1 vài ý tưởng. So sánh với kết quả độ chính xác thu được thì của chúng ta cao hơn, khác
biệt lớn nhất giữa 2 phương pháp đó là cách xử lý với vecto đặc trưng. Chúng ta có 1 trạng thái mà ở đó việc
lựa chọn đặc trưng là tự động, đầu vào là 9 – 20 đặc trưng được lựa chọn ra từ 116 đặc trưng khác, trong khi đó,
trong phương pháp của cuốn 13, vecto luôn luôn là 26 – 14 đặc trưng được định sẵn là cần thiết cho việc nhận
dạng.
Cách thức lựa chọn vecto với sự kết hợp 2 phương thức CfSunsetEval và BestFirst :
Tập đặc trưng cho tiếng Pháp là : Fr = {10, 19, 32, 43, 62, 64, 74, 101, 108}
Tập đặc trưng cho tiếng Anh là : En = {13, 17, 19, 34, 35, 41, 45, 48, 49, 61, 64, 71, 72, 78, 95, 96, 97,
98, 103, 105}
Tập đặc trưng cho tiếng Slovenia là : Sl = {17, 21, 32, 43, 45, 49, 78, 101, 108}
Nếu, trong việc tìm kiếm những đặc trưng chung, chúng ta chỉ cần tìm giao của các tập, và chúng ta sẽ
không thu được 1 kết quả như ý. Fr∩En = {19, 64}. Fr∩Sl = {32, 43, 101, 108}. En∩Sl = {17, 78}.
Fr∩En∩Sl = rỗng. Những kết quả này không phản ánh điều gì cả. Giờ chúng ta hãy ánh xạ những đặc trưng
quan trọng và hàm praat.
Đặc trưng 1 - 5: A.
Đặc trưng 6 - 9 và 14 - 17: B.
Đặc trưng 30 - 33 và 34 - 37: C.
Đặc trưng 38 - 53: D.
Đặc trưng 10 - 13 và 70 - 76 và 77 - 83: E.

Đặc trưng 84 - 95: F.
Đặc trưng 96 - 103 và 104 - 112 : G.
Đặc trưng 19 - 23: H.
Đặc trưng 54 - 69: I.
Đặc trưng 112 - 117 và 24 - 29: J.
Bây giờ viết lại các tập Fr, Sl, En theo chữ cái mới thành lập ta được :
Fr = {E, H, C, D, I, I, E, G, G}.
Sl = {B, H, C, D, D, D, E, G, G}.
En = {B, B, H, C, C, D, D, D, D, I, I, E, E, E, F, G, G, G, G, G}.
Bây giờ lấy giao của các tập và nó sẽ cho chúng ta 1 kết quả khái quát hơn.
Fr∩Sl = {E,C, H, D, G}.
Fr\ Fr∩Sl = {I}.
Sl\Fr∩Sl = {B}.
FrEn = {H, C, D, I, E, G}.
Fr\Fr∩En = E.
En\Fr∩En ={B, F}.
En∩Sl = {H, C, D, E, G}.
Sl\En∩Sl = rỗng .
En\En∩Sl = {I, F}.
Dễ dàng nhận thấy rằng A, J không thuộc về bất kì tập nào ở trên, A là 1 tập đặc trưng không cần thiết, cho
nên nó không xuất hiện trong bất kì tập nào, J đại diện cho tham số làm việc với các formant, trong văn nói,
thông tin này hoàn toàn hữu ích nhưng chúng ta đã không trích xuất được nó. Vì chúng ta muốn nghiên cứu các
tham số của ngôn ngữ, nên chúng ta phải cải thiện 1 phần của kịch bản trích xuất đặc trưng.
e. Xây dựng khối tối ưu hóa độ chính xác kết quả
3. Qui trình thử nghiệm hệ thống nhận dạng cảm xúc
a. Thu thập dữ liệu tiếng nói
Trước hết chúng ta phải thu thập các dữ liệu tiếng nói, làm đầu vào cho hệ thống nhận dạng, dữ liệu ở đây
chính là tín hiệu tiếng nói, có thể là những đoạn giao tiếp thông thường, những lời phát biểu, những đoạn ghi
âm, thu âm … , dữ liệu có thể là các loại ngôn ngữ khác nhau như tiếng Việt, tiếng Anh, tiếng Pháp, v…v… , từ
những người khác nhau, từ nam giới hoặc nữ giới.

Tuy nhiên dữ liệu thu thập phải rõ ràng, không có quá nhiều tạp âm.
b. Xử lý thông qua các qui trình
Sau khi đã thu thập được dữ liệu tiếng nói, việc tiếp theo cần làm là xử lý tín hiệu tiếng nói thông qua các
qui trình của hệ thống nhận dạng.
Trước hết, tín hiệu sẽ được tiền xử lý, bằng cách lọc, giảm kích thước mẫu, …, sau đó được tính toán thông
qua bộ xử lý tín hiệu, để tính toán các đặc trưng của tín hiệu, như : đặc trưng về cường độ, độ lớn, formant, …
Sau đó những đặc trưng này sẽ là đầu vào của bộ trích chọn đặc trưng. Các đặc trưng sẽ được lựa chọn sao cho
đặc trưng ấy có ảnh hưởng quyết định tới kết luận về cảm xúc, thông qua các công cụ, cụ thể ở đây là công cụ
Praat. Các đặc trưng được lựa chọn sẽ dùng để phân lớp tín hiệu và các nhóm cảm xúc, công việc này được thực
hiện thông qua bộ phân lớp với các phương pháp khác nhau tùy vào hệ thống nhận dạng cảm xúc đó sử dụng.
Trong gói phần mềm Weka đã có sẵn rất nhiều các bộ phân lớp, ví dụ như : Cây nhị phân, mạng nơ-ron, Simple
Logistic, SMO, LMT, Ramdon Forest, NB Tree, …
Cuối cùng sau khi đã phân lớp sẽ thử nghiệm và đánh giá độ chính xác của phân lớp tín hiệu, lại trên cơ sở
dữ liệu và đưa ra quyết định về trạng thái cảm xúc của tiếng nói (lựa chọn phân lớp cảm xúc có độ chính xác
cao nhất).
c. Đánh giá kết quả
Công việc cuối cùng là đánh giá kết quả và độ chính xác của quá trình nhận dạng.
4. Cấu trúc hệ thống nhận dạng cảm xúc
Tín hiệu tiếng
nói
Trích rút đặc
trưng
Lựa chọn đặc
trưng
Phân lớp
Kết luận và
Đánh giá kết
quả
II. Cơ sở dữ liệu tiếng nói có cảm xúc
Hiện tại có 6 nguồn cơ sở dữ liệu có thể phục vụ cho việc nghiện cứu hiện tại. 2 trong số đó được public là

DES và EMO-DB còn lại 4 là nằm trong dự án Interface bao gồm tiếng Tây Ban Nha, tiếng Slovenia, tiếng Anh
và tiếng Pháp. Tất cả đều là cơ sở dữ liệu của tiếng nói có cảm xúc.
Với yêu cầu xác thực thường có 3 loại cơ sở dữ liệu được sử dụng cho việc nghiên cứu nhận dạng tiếng nói.
Loại thứ 1 là lời nói có cảm xúc chủ động với nhãn con người, loại thứ 2 là lời nói có cảm xúc thực tế với nhãn
con người, và loại thứ 3 là lời nói mang cảm xúc phát ra với tự báo cáo thay vì gán nhãn.
Với loại 1, cơ sở dữ liệu của cảm xúc mang hành động, thu được bằng cách yêu cầu 1 cộng tác viên nói ra
với 1 cảm xúc định trước, gần đây, việc sử dụng cảm xác chủ động được phản đối mạnh mẽ, sự khác nhau giữa
các mẫu chủ động và tự phát trong việc xem xét các đặc trưng và độ chính xác đã được chỉ ra, một số thí
nghiệm tập trung vào việc tạo ra và nhận thức về lời nói có cảm xúc chủ động và lời nói thực tế đã bổ xung
cho ý kiến rằng cảm xúc chủ động không cảm nhận được khi nói và được cảm nhận mạnh mẽ hơn là lời nói có
cảm xúc thực tế.
Dạng thứ 2 đến từ những hệ thống thời gian thực như tổng đài điện thoại.
Dạng thứ 3 là cảm xúc được gợi ra, nơi cảm xúc được kích động và tự phát ra được sử dụng việc gán nhãn
điều khiển. trong trường hợp này, không cần những nhãn hướng dẫn.
Mỗi dạng cơ sở dữ liệu phù hợp với những mục đích khác nhau, loại 1 chỉ sử dụng được trong 1 vài trường
hợp nghiên cứu về lý thuyết có mục đích hơn là xây dựng 1 ứng dụng thời gian thực cho công nghiệp. Việc sử
dụng dạng thứ 2 trở thành dạng chủ đạo, vì nó là dữ liệu thích hợp nhất cho bất kì hệ thống mang tính thực tế
nào. Dạng thứ 3 thích hợp hơn khi có đủ độ tin cậy vào việc ghi chú những cảm xúc khó mà đạt được, đặc biệt
là khi bộ ghi chú được yêu cầu đánh giá những cảm xúc thường xuyên như sự bối rối và sự ngạc nhiên, hơn là
những cảm xúc điển hình như sự tức giận và chán nản.
1. DES (Danish Emotional Speech Corpus)
Trong DES có 5 dạng cảm xúc : giận giữ, thích thú, buồn, ngạc nhiên và trung lập. 4 diễn viên người Đan
Mạch, 2 trong số họ là nữ, diễn tả các từ Yes, No, 9 câu và 2 đoạn văn bản ứng với mỗi dạng cảm xúc trên. Chia
nhỏ đoạn văn bản thu được 414 cụm từ tất cả. tập các bản ghi được ghi lại dạng 16 bit, 20kHz và mã hóa PCM
Tiền xử lý
Thiết lập các vấn đề
nổi trội
trong phòng thu. 20 người được kiểm tra, 10 trong số họ là nữ, phân loại lại các mẫu trong 1 bài kiểm tra nhận
thức, tỉ lệ nhận dạng trung bình của họ là 67.32%.
2. EMO-DB (The Berlin Emotional Database)

Cơ sở dữ liệu EMO-DB gồm 4 bộ cảm xúc từ các file MPEG-4 (tức giận, vui vẻ, chán ghét, sợ hãi, buồn,
ngạc nhiên và trung lập). Mười câu tiếng Đức có nội dung không xác định cảm xúc được diễn tả bởi những diễn
viên chuyên nghiệp, 5 trong số hộ là phụ nữ.
Trong suốt bài thử nghiệm nhận thức bởi 20 người nghe, 488 cụm từ đã được lựa chọn để phân loại thành hơn
60% là tự nhiên, và hơn 80% được gán 1 cách rõ ràng. Cơ sở dữ liệu được ghi lại dưới dạng 16 bit 16kHz trong
điều kiện am thanh của phòng thu.
3. Interface Database
Cơ sở dữ liệu Interface gồm các cảm xúc dưới dạng MPEG-4 (giận giữ, chán ghét, sợ hãi, thích thú, ngạc
nhiên, buồn và trung lập) và các dạng trung lập : trung lập bình thường cho tiếng Pháp và Tây Ban Nha, chậm-
nhẹ nhàng và nhanh-to với tiếng Pháp, Slovenia và tiếng Anh, và các dạng trung tính : chậm, to, nhẹ nhàng,
nhanh đối với riêng tiếng Tây Ban Nha.
Ngữ điệu tiếng anh bao gồm 186 câu, tiếng Slovenia gồm 190 câu, tiếng Tây Ban Nha gồm 184 câu, và
tiếng Pháp gồm 175 câu. Ngữ liệu gồm có : các câu gồn từ đơn, ngắn (5 đến 8 từ), các câu độ dài trung bình (13
từ) và các câu dài (14 đến 18 từ ) trong những ngữ cảnh độc lập. Các câu gồm cả 2 loại khẳng định và nghi vấn.
Cơ sở dữ liệu tiếng anh có 8928 câu, Slovenian có 6080 câu, French có 5600 câu, and Spanish có 5520 câu.
Các bản ghi được lấy trong môi trường phòng thu, tần số lấy mẫu là 48kHz và được lượng tử hóa dạng 16
bit.
III. Các phương pháp thực hiện hệ thống nhận dạng cảm xúc
1. Các phương pháp thực hiện hệ thống
Đa số hệ thống nhận dạng cảm xúc đều có qui trình giống nhau, chỉ khác nhau về cách thức phân lớp. vì
vậy nói đến 1 phương pháp thực hiện hệ thống là nói đến việc sử dụng phương pháp phân lớp tương ứng. Có
một số phương pháp thực hiện phổ biến là :
a. Naive Bayes
b. Hidden Markov Model (HMM)
Các đặc trưng mức thấp sử dụng trong mô hình HMM : Cao độ và năng lượng thời gian ngắn, đường bao
của cao độ và năng lượng, hình dạng phổ, các đại lượng liên quan đến thời gian và khoảng lặng của tín hiệu.
Đặc trưng Năng lượng
Để mô hình hóa các đại lượng tức thời của năng lượng mà không quan tâm đến các giá trị tuyệt đối của
năng lượng chúng ta sử dụng các dẫn xuất thứ 1 và thứ 2 của logirit hóa của năng lượng trung bình trong frame.
Ý nghĩa của các đại lượng vể mặt âm thanh liên quan đến hình dạng của mức năng lượng phản ánh cả 2 mặt là

tốc độ phát âm và dải ảnh hưởng. bên cạnh đó, ảnh hưởng của biến thiên tần số dao động nhỏ trong cường độ
âm thanh cũng đặc trưng bởi mức năng lượng tức thời.
Đường bao năng lượng được mô hình hóa bằng dẫn xuất thứ 1 và thứ 2 của logarit của năng lượng đã đi
qua bộ lọc thông thấp 8Hz trong frame. Trong trường hợp này, là biểu diễn của cường độ tương đối của âm
thanh liên tục.
Đặc trưng Cao độ
Xem xét các đặc điểm của đường bao cao độ và giá trị mức tức thời của nó, cái mà cung cấp thông tin hữu
ích về trạng thái cảm xúc.
Để đặc trưng cao độ tức thời, thực hiện 1 phân tích tự tương quan trên mỗi frame, giá trị lớn nhất của tự
tương quang long-term được xác định và sử dụng từ 5 tham số khác nhau : giá trị lớn nhất của tự tương quan,
dẫn xuất thứ 1 và 2 của nó, và giá trị dẫn xuất thứ 1 với thứ 2 của logarit độ giảm cao độ.
Giá trị tự tương quan lớn nhất là đại lượng hài của âm thanh, giá trị mức cao của hài lớn nhất này chỉ ra chu
kì cao trong dạng sóng của tiếng nói, giá trị mức thấp chỉ ra chu kì nhỏ hoặc không có. Đặc trưng này giúp ta
phân biệt được dạng cảm xúc khắc nghiệt – giận giữ và chán ghét với dạng cảm xúc mang tính vui tươi – thích
thú và ngạc nhiên. Dẫn xuất đầu tiên của logarit độ giảm cao độ biểu diễn sự biến thiên cao độ giữa các frame.
Để mô hình hóa độ giảm cao độ, sử dụng vị trí lớn nhất của tự tương quan long term mà không cần các xử lý
sâu hơn. Do đó, nó sẽ biểu diễn những lỗi rất đa dạng, cụ thể là bình phương và căn bậc 2 của độ giảm cao độ.
Chúng được mô hình hóa dạng +log2 và –log2.
Thử nghiệm
Cơ sở dữ liệu sử dụng cho việc thử nghiệm là Interface Database hay còn gọi là IESSDB.
Kết quả thử nghiệm cho thấy,
Ma trận nhầm lẫn của việc đánh giá cảm 1 cách chủ quan cảm xúc của cơ sở dữ liệu IESSDB.
Sử dụng RAMSES trong việc nhận dạng cảm xúc
Trong việc mô hình hóa các đặc trưng mức thấp thời gian ngắn với mô hình HMM bán liên tục, trong xấp
xỉ đầu tiên, chúng ta chỉ sử dụng HMM cho mỗi cảm xúc. Với mỗi tập các thông số, các lựa chọn khác nhau về
số lượng trạng thái của HMM được thử. 1 thử nghiệm được thực hiện với toàn bộ các đặc trưng mức thấp với
nhau và số lượng các trạng thái khác nhau. Trong thí nghiệm này, tất cả 11 tham số mức thấp được sử dụng để
tạo thành 4 lớp nghiên cứu được kết hợp với nhau với giả thiết việc cung cấp thông tin của mỗi một lớp là độc
lập với nhau.
11 đặc trưng mức thấp khác nhau ước tính khoảng 100 frame mỗi giây, mỗi đặc trưng mức thấp được định

lượng với 1 codebook Gaussian của 64 từ mã và được sử dụng để huấn luyện 7 HMM khác nhau, tương ứng với
mỗi cảm xúc. Trong pha nhận dạng, HMM có khả năng xảy ra lớn nhất được lựa chọn cho mỗi lời nói. Để so
sánh kết quả với nền tảng thống kê toàn diện, HMM đơn trạng thái được thử trước. HMM đơn trạng thái là 1
cách biểu diễn cho hàm phân bố xác xuất của mỗi đặc trưng bởi trung bình của 1 hỗn hợp phân bố Gaussian.
Độ chính xác nhận dạng đối với IESSDB. Kết quả thể hiện trên những bộ đặc trưng khác nhau với số trạng thái
của HMM khác nhau.
InstEner – năng lượng tức thời, SyllEner – Đường bao năng lượng
InstPtch – Cao độ tức thời, SyllPtch – đường bao cao độ
EnerPtch – tập chứa toàn bộ đặc trưng.
Ma trận nhầm lẫn trong nhận dạng cảm xúc sử dụng cả 4 đặc trưng mức thấp với nhau và HMM có 64 trạng
thái.
c. Binary Decision Tree
Phương pháp này sử dụng 1 bộ mô tả và bộ phân lớp cây nhị phân quyết định. Cảm xúc được chia thành 6
nhóm (thích thú, tức giận, chán nản, buồn, sợ hãi và trung lập).
Các đặc điểm tín hiệu tiếng nói có cảm xúc được phân vào làm 3 nhóm : Nhóm đầu tiên là các đặc điểm có
chứa đến tần số (cao độ, và những đại lượng liên quan đến cao độ ) mà liên quan tới cơ chế phát ra tiếng nói,
hay cấu trúc dây thanh. Nhóm thứ 2 bao gồm các đặc điểm về độ biến thiên năng lượng liên quan đến quá trình
phát ra âm thanh (trung bình, độ lệch chuẩn của năng lượng của lời nói). Nhóm thứ 3 bao gồm các đặc điểm
liên quan đến thời gian (thời gian phát ra âm thanh, dừng, nghỉ).
Phương pháp này xây dựng 1 đa thức với các thông số hồi qui để đặc trưng cho độ biên thiên các đại lượng
đặc trưng mang tính định lượng của tiếng nói. Và sử dụng cây nhị phân để phân lớp năng lượng của tiếng nói.
Thông số hồi qui
Mô hình của biến thiên năng lượng với hệ số hồi qui đầu tiên cho câu được phát ra với các tải khác nhau.
Nhóm đầu tiên của các thông số hồi qui là hồi qui tuyến tính và phi tuyến tính. Chúng ta giả sử rằng biểu
diễn tốt nhất cho sự biến thiên tải của lời nói có cảm xúc bằng hồi qui tuyến tính (hệ số {a, b}) hoặc hồi qui
khối (với hệ số {A, B, C, D}) của đặc điểm tiếng nói s(t).
{a,b} : E{(E(t) – (at+b))
2
}  min (1)
{A, B, C, D} : E{(E(t) – (At

3
+ Bt
2
+ Ct + D))
2
}  min (2)
Xấp xỉ tuyến tính của 1 vài đặc điểm của biến thiên cao độ
Mô tả năng lượng
Nhóm đặc điểm thứ 2 liên quan đến năng lượng được tính toán trong biên tần phổ xác định trước hoặc
trong biên tần phổ tương ứng với mức trung bình của cao độ.
Dải tần của tần số sử dụng cho việc tính toán năng lượng tín hiệu tiếng nói.
Cao độ liên quan đến tần số được sử dụng cho việc mô tả năng lượng.
Lựa chọn cây quyết định
Cây nhị phân quyết định được lựa chọn cho việc phân lớp cảm xúc. Mỗi nốt của cây là 1 cảm xúc xác định
để cho cây có phải có lá ở mỗi mức của nó. 1 quyết định được lựa chọn ở mỗi node là 1 vấn đề nhận dạng 2 lớp,
dựa trên giá trị của 3 bộ mô tả. Mục tiêu của nghiên cứu là tìm được cả 2 thứ : 3 bộ mô tả tối ưu và cây quyết
định tối ưu. Đối với cấu trúc cây, thì thủ tục tìm kiếm đầy đủ được áp dụng.
Mô hình nguyên lý của 1 đoạn cây quyết định
Thủ tục lựa chọn đặc trưng như sau :
Với mỗi bộ 3 ứng viên có dạng 3 nhóm đặc trưng : tần số, năng lượng và khoảng thời gian. Trước khi được
xem là 1 đầu vào để thực hiện thủ tục lựa chọn, mối tương quan chung được các bộ mô tả tính toán, nếu giá trị
đó vượt qua ngưỡng thì bộ 3 đó bị loại bỏ. 1 thủ tục lựa chọn đặc trưng được thực hiện cho toàn bộ kiến trúc
của 1 cây quyết đinh, và cho tất cả các hoán vị của cảm xúc trong bảng sau :
Các hoán vị cảm xúc được kiểm tra trong quá trình lựa chọn đặc trưng.
Thử nghiệm đánh giá phương pháp
Cơ sở dữ liệu được sử dụng để kiểm thử gồm 2 cơ sở dữ liệu. Cơ sở dữ liệu thứ 1 có 240 câu với 6 loại cảm
xúc khác nhau : giận giữ , sợ hãi, buồn, chán nản, thích thú và trung lập. Các câu trên được nói bằng tiếng Ba
Lan bởi 8 diễn viên, trong đó có 4 nữ. Cơ sở dữ liệu thứ 2 là Berlin DB gồm 535 câu được nói bằng tiếng Đức
bởi 10 diễn viên, trong đó có 5 nữ. Các câu thể hiện những loại cảm xúc : giận giữ, sợ hãi, buồn, chán nản, thích
thú, chán ghét và trung lập.

Kết quả của thử nghiệm như sau :
Cây quyết định tốt nhất cho việc nhận dạng cảm xúc với 2 cơ sở dữ liệu Ba Lan và Đức:
a. Ba Lan b. Đức
(MP- mean pitch, maxI_S- magnitude of signal extreme value,std_E-standard deviation of energy, ND-
normalized duration, M_min_local-mean value of local minima of pitch, a_P-regression coefficient for a
pitch evolution, %V- voiced speech, ME-mean energy,b_E-linear regression coefficient for a energy
evolution, M_E_ST_END- mean energy of all initial and final segments of voiced speech, MEV- mean
energy of voiced speech, med._P- median pitch, min_P- minimum pitch, min_E minimum energy,
E_1.3~1.5_P- energy in a frequency band- relative to a pitch (from1.3 to 1.5 of a mean pitch), min_sP-
minimum smoothed pitch, a_sPmin-linear regression coefficient for local minima of smoothed pitch
evolution, a_sPmax- linear regression coefficient for local mixima of smoothed pitch, a_sPmin-M- linear
regression coefficient computed for these local pitch minima,which are located below its mean).
d. Linear Regression
e. AdaBoostM1
2. Lựa chọn phương pháp cho hệ thống nhận dạng cảm xúc
B. Thực nghiệm
I. Cài đặt 1 số modun
II. Thực nghiệm
C. Chương trình Demo
D. Phụ lục
I. Đặc trưng tín hiệu tiếng nói
Features 1-5: various raw parameters: energy, power, intensity.
Feature 1: Energy
Feature 2: Power
Feature 3: Energy in air
Feature 4: Power in air
Feature 5: Intensity
Features 6-9 and 14-17: harmonicity Gne
Feature 6: Lowest X
Feature 7: Highest X

Feature 8: Lowest Y
Feature 9: Highest Y
Feature 14: numberOfRows
Feature 15: numberOfColumns
Feature 16: rawDistance
Feature 17: columnDistance
Feature 18: sum
Features 30-33: Harmonicity Cc && 34-37: HarmonicityAc
Feature 30: minimum
Feature 31: maximum
Feature 32:mean
Feature 33:std
Feature 34: For harmonicity AC:
Feature 35: minimum
Feature 36: mean
Feature 37: std
Features 38-53: statLtas:
Ltas là 1 dạng rút gọn của Phổ trung bình Long-Term. 1 đối tượng của lớp Ltas biểu diễn mật độ phổ
năng lượng như 1 hàm của tần số, thư nguyên là dB/Hz trong khoảng từ An object of class Ltas repre-
sents the power spectral density as a function of frequency, expressed in dB/Hz
Feature 38: Lowest frequency
Feature 39: highest frequency
Feature 40: numberOfBins
Feature 41: binWidth
Feature 42: binNumberFromFrequency
Feature 43: valueAtFrequency
Feature 44: valueInBin
Feature 45: minimum
Feature 46: frequencyOfMinimum
Feature 47: frequencyOfMaximum

Feature 48: maximum
Feature 49: mean
Feature 50: slope
Feature 51: localPeakHeight
Feature 52: localPeakHeight1
Feature 53: std
Features 10-13: global F0 statistics && Pitch (acc):
Features 70 - 76 && Features 77-83: Pitch (cc):
Các đặc trưng là các phép đo thống kê (trung bình, lớn nhất, nhỏ nhất, dải giá trị, độ lệch chuẩn )
Cao độ biểu diễn trong 1 chu kì là 1 hàm của thời gian. Nó được lấy mẫu thành 1 số lượng frame trung
tâm cách nhau 1 khoảng thời gian bằng nhau.
Feature 10: mean
Feature 11: minimum
Feature 12: maximum
Feature 13: stdev
Pitch Acc:
Feature 70: min
Feature 71: max
Feature 72: quantile
Feature 73: mean
Feature 74: std
Feature 75: meanAbsoluteSlope
Feature 76: slopeWithOctaveJumps
Pitch CC:
Feature 77: min
Feature 78: max
Feature 79: quantile
Feature 80: mean
Feature 81: std
Feature 82: meanAbsoluteSlope

Feature 83: slopeWithOctaveJumps
Features 84-95: Pitch Point Process:
1 PointProcess đại diện cho 1 điểm xử lý, là 1 chuỗi các điểm t
i
trong 1 khoảng thời gian, xác định trên
1 miền [t
min
, t
max
]. chỉ số i chạy từ 1 đến tổng số điểm. các điểm được sắp xếp theo thứ tự thời gian.
Feature 84: numberOfPoints
Feature 85: lowIndex
Feature 86: highIndex
Feature 87: nearestIndex
Feature 88: numberOfPeriods
Feature 89: meanPeriod
Feature 90: stdevPeriod
Feature 91: jitterLocal
Feature 92: jitterLocalAbsolute
Feature 93: jitterRap
Feature 94: jitterPpq5
Feature 95: jitterDpd
Features 96-103: Pitch SPINET && Features 104-112: Pitch Shs
Để thực hiện 1 phân tích cao độ dựa trên mô hình nén quang phổ. Khái niệm của mô hình này là mỗi
thành phần phổn không chỉ kích hoạt trên những thành phần của bộ xử lý cao độ trung tâm nơi nhạy
cảm nhất với các thành phần tần số. mà còn các thành phần có hài thấp hơn với thành phần này. Vì vậy,
khi 1 thành phần cụ thể của bộ xử lý cao độ trung tâm nhạy cảm nhất với tần số F0, nó nhận sự bổ
xung từ các thành phần phổ trong tín hiệu ở các bội số của F0.
Giải thuật sử dụng : Nén quang phổ gồm tổng tuần tự của các phổ được nén của các hài. Đường bao
phổ của được nén bởi 1 hệ số tích phân, dải của nén. Giá trị lớn nhất của tổng phổ chính là ước tính

của cao độ.
Feature 96: min
Feature 97: max
Feature 98: quantile
Feature 99: mean
Feature 100: std
Feature 101: meanAbsoluteslope
Feature 102: slopeWithoutOctaveJumps
Feature 103: linearFit
Feature 104: min
Feature 105: max
Feature 106: quantile
Feature 107: mean
Feature 108: std
Feature 109: meanabsoluteSlope
Feature 110: outerViewport
Feature 111: slopeWithoutOctaveJumps
Feature 112: lowestFrequency
Feature 113: highestFrequency
Feature 114: numberOfFrequencies
Feature 115: frequencyDistance
Feature 116:frequencyInHerz
Feature 117:frequencyInMel
Features 19-23: Intensity statistics
1 đối tượng cường độ đại diện cho đường bao cường độ tại các điểm thời gian tuyến tính :
t
i
= t
1
+ (i-1)dt

Feature 19: mean
Feature 20: minimum
Feature 21: maximum
Feature 22: range
Feature 23: stdev
Features 54-69: Ltas Pitch corrected
1 đối tượng thuộc lớp Ltas biểu diễn mật độ phổ năng lượng như 1 hàm của tần số. thể hiện dạng
dB/Hz so với 2. 10 – 5 Pa
Feature 54: lowestFrequency
Feature 55: highestFrquency
Feature 56: numberOfBins
Feature 57: binWidth
Feature 58: binNumberFromFrequency
Feature 59: valueAtfrequcncy
Feature 60: valueInBin
Feature 61: minimum
Feature 62: frequencyOfMinimum
Feature 63: frequencyOfMaximum
Feature 64: maximum
Feature 65: mean
Feature 66: slope
Feature 67: localPeakHeight
Feature 68: localHeight1
Feature 69: std
Features 112-117: Formants && Features 24-29: Formant LPC
1 đối tượng thuộc dạng FormantFilter biểu diễn 1 đại điện thời gian-tần số về mặt âm thanh của tiếng
nói : mật độ phổ năng lượng P(f,t), biểu diễn trong dạng dB. Nó được lấy mẫu vào 1 số điểm xung
quanh khoảng thời gian bằng nhau t
i
và tần số f

i
.
Feature 112: lowestFrequency
Feature 113: highestFrequency
Feature 114: numberOfFrequencies
Feature 115: frequencyDistance
Feature 116: frequencyInHerz
Feature 117: frequencyInMel
Feature 24: min
Feature 25: max
Feature 26: quantile
Feature 27: mean
Feature 28: std
Feature 29: numberOfLPCKoeﬃciencies

nhận dạng cảm xúc dựa trên tiếng nói

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về