Tải bản đầy đủ (.pdf) (26 trang)

Định danh người dùng qua giọng nói bằng thiết bị di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.7 MB, 26 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIÊN THONG

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>Luận văn được hoàn thành tại:</small>

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIÊN THƠNG

Người hướng dẫn khoa học: TS. PHẠM VĂN CƯỜNG

<small>Học viện Công nghệ Bưu chính Viễn Thơng</small>

<small>Phản biện Í:...Ặ. Q.22 22 nhe</small>

<small>Phản biện Í:...-- c2 22 2211111221111 1 1111 xxx</small>

<small>Luận văn sẽ được bảo vệ trước Hội đồng châm luận văn thạc sĩ tại Học viện Cơng</small>

<small>nghệ Bưu chính Viễn Thơng.</small>

<small>Có thê tìm hiệu luận van tại:</small>

<small>- Thu viện của Học viện Công nghệ Bưu chính Viễn Thơng</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

LỜI NĨI ĐẦU

<small>Định danh người dùng (user identification) có nhiều ứng dụng trong thực tế</small>

như bảo mật và xác thực người dùng, giám định pháp y, điều tra tội phạm v.v... Một

số cách tiếp cận định danh người dùng bao gồm: nhận dạng khuôn mặt, nhận dạng

vân tay, sinh trắc học, chữ ký, v.v...đã cho những thành tựu đáng ké. Các nghiên

cứu gần đây cho thấy định danh người dùng bằng giọng nói đã thu hút được sự quan

tâm của cộng đồng nghiên cứu. Cùng với sự tích hợp các loại cảm biến như âm thanh vào các thiết bị di động đang được sử dụng rộng rãi, việc định danh người dùng bằng giọng nói có thể thực hiện được mọi lúc mọi nơi.

Mặc dù các nghiên cứu về định danh người dùng qua giọng nói gần đây được quan tâm và tiễn hành. Nhưng hau hết các nghiên cứu này được thực hiện và triển khai ở nước ngoài. Các tập dữ liệu về giọng nói đã thu thập đều là những giọng nói

<small>người nước ngồi như Mỹ, Anh, Canada, Pháp v.v... Hiện chưa có khảo sát và</small>

nghiên cứu định danh người dùng qua giọng nói được tiến hành ở Việt Nam. Mà đặc trưng giọng nói có thé thay đồi theo từng quốc gia, thậm chí vùng, miền. Chính

<small>vì vậy nghiên cứu này sẽ tập trung vào nghiên cứu thuật tốn định danh người dùngqua giọng nói và đánh giá trên tập dữ liệu được thu thập từ giọng nói của người</small>

<small>Việt.</small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Chương 1 - TONG QUAN VE ĐỊNH DANH NGƯỜI DUNG

<small>Trong chương này chúng tôi sẽ trình bày vê mục đích của nhận diện giọng</small>

<small>nói, các nghiên cứu trước đây vê cách tiép cận giải quyét bài tốn nhận diện giọngnói, và phân ci chương là phạm vi nghiên cứu va một sô giả định.</small>

<small>1.1 Giới thiệu các phương pháp định danh người dùng.</small>

<small>Nhận dạng người nói tự động (Automatic Speaker Recognition — ASR) là</small>

tiến trình nhận dạng tự động một người dựa trên tiếng nói của người đó. Trên thực tế hai người khơng có âm thanh giống hệt nhau vì trạng thái vùng giọng nói, kích thước thanh quản, và các bộ phận khác của cơ quan sản xuất giọng nói của mỗi người là khác nhau. Ngồi ra cịn có sự khác biệt về cơ thé, mỗi người có đặc trưng khi nói bao gồm giọng nói riêng, nhịp điệu, kiểu ngữ điệu, mơ hình phát âm, sự lựa

chọn của các từ vựng, như vậy hệ thống nhận dạng giọng nói tiên tiễn nhất sử dụng

các đặc trưng này song song, có gắng dé che lấp những khía cạnh khác nhau và sử dụng chúng bồ sung để đạt được sự nhận dạng chính xác hơn.

<small>Một ứng dụng quan trọng của cơng nghệ nhận dạng người nói là giám định</small>

pháp y, đa số thơng tin đươc trao đổi từ 2 phía trong các cuộc trò chuyện điện thoại, bao gồm cả giữa bọn tội phạm do đó hỗ trợ cho cơng tác điều tra tội phạm,

<small>trong những năm gan đây thêm sự chú ý đến tích hợp nhận dạng người nói tự động</small>

dé bổ sung cho phương pháp phân tích thính giác và bán tự động.

“Bảo mật giọng nói” về thực chất khơng được dùng để chỉ công nghệ bảo

mật, sinh trắc học, sử dụng giọng nói vốn được sử dụng rộng rãi trên điện thoại di

động hay các thiết bị số khác. Thuật ngữ “Bảo mật giọng nói” được dùng để diễn giải cho thuật ngữ “Secure voice” (hay “secure speech” hoặc “ciphony”) trong tiếng Anh, một thuật ngữ trong ngành mật mã dé chỉ cơng việc mã hóa các cuộc điện

<small>thoại, điện đàm thơng qua các giao thức sóng radio, đường dây điện thoại hay IP</small>

(kết nối internet).

<small>Khái niệm “nhận diện người nói” (Speaker recognition), là khái niệm dùng</small>

để chỉ cơng nghệ cho phép máy móc nhận diện ra người thực sự có quyền được sử

dụng thiết bị (mở khóa, truy cập....). Bản thân khái niệm “nhận diện người nói” cịn

được phân chia tiếp thành hai khái niệm con, “xác định danh tính người nói”,

<small>(speaker indentification) và xác thực người nói (Speaker verification). Ngồi ra</small>

<small>cơng nghệ nhận diện người nói, trong nhóm cơng nghệ nhận diện giọng nói cịn có</small>

một khái niệm khác, đó là “nhận diện lời nói” — Speech recognition (hay được biết đến cái tên đơn giản hơn là “speech to text”). Công nghệ này cho phép thiết bị có chức năng nhận diện hiểu chính xác được từ ngữ mà người sử dụng phát âm, phiên

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

dịch và chuyển thành mệnh lệnh cho hệ thông máy thực hiện. Công nghệ này được áp dụng cho nhiều ứng dụng như tìm kiếm bằng giọng nói (voice search) hay điều khiển bằng giọng nói vv... vốn thịnh hành trên điện thoại thông minh ngày nay.

Một phần khác của sinh trắc học là công nghệ nhận diện giọng nói đã được

<small>chú trọng trong thời gian gần đây với ứng dụng Siri của Apple hay Google Voice</small>

Search trên Android. Siri sử dụng giao diện người dùng với ngôn ngữ tự nhiên để trả lời câu hỏi, kiến nghị và thực hiện hành động được ra lệnh như thao tác cuộc gọi điện, tìm kiếm hay chạy ứng dụng.

Bài tốn nhận dạng người nói bao gồm 2 loại là nhận dạng độc lập văn bản

<small>(text-independent ) và nhận dạng phụ thuộc văn bản (text-dependent).</small>

<small>Trong nhận dạng người nói phụ thuộc văn ban (text-dependent speaker</small>

recognition) hệ thống sẽ quy định trước một câu hay một cụm từ mà người nói cần

<small>phải phát âm. Ngược lại, nhận dạng người nói độc lập văn bản (text-independent</small>

speaker recognition) không cần quy ước trước câu hay cụm từ cần phát âm, người

nói có thé phát âm bat ky. Do đó chúng ta tập trung vào bài tốn định danh người

<small>nói độc lập văn bản trên (text-independent speaker identification).</small>

<small>1.2 Các nghiên cứu trước đây.</small>

<small>1.3 Pham vi nghiên cứu.</small>

Các nghiên cứu trước đây thì chủ yêu nhận dạng người nói ở các nước Châu

âu tuy nhiên giọng nói người Việt Nam có những đặc điểm riêng đó là tiếng việt là

ngơn ngữ đơn âm tiết, tức ngồi ra cịn là yếu tố đa thanh( nhiều thanh điệu, nhiều

dấu giọng) do đó trong trong luận văn này sẽ nghiên cứu và phát triển một hệ thống

<small>định danh người dùng qua giọng nói dành riêng cho người Việt Nam, sử dụng</small>

microphone được tích hợp san trong điện thoại di động hiện hay dé ghi 4m giong

<small>nói sau đó sử dung các thuật tốn xử lí âm thanh, trích chon đặc trưng và nhận dạng</small>

mẫu được đề xuất cho phép phân tích hiệu quả các mẫu âm thanh để định danh

<small>người dùng.</small>

Cơ sở dit liệu của hệ thống định danh người dùng qua giọng nói được thu thập từ 10 đối tượng khác nhau và 1 đối tượng nhiễu thông qua sử dụng microphone

<small>của điện thoại.</small>

<small>1.4 Các giả định.</small>

<small>Giả sử với mỗi người hệ thông sẽ ghi âm lại giọng nói băng cách cho người</small>

<small>nói đọc 2 đoạn văn sau:</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Doan 1: "Ban hãy cười và cả thế gian sẽ cười với bạn, cịn khóc bạn chỉ khóc

<small>trong cơ đơn."</small>

<small>Đoạn 2: “Bước ra khỏi phịng, đứng hít thở cái khơng khí trong lành của</small>

buổi sớm mai mát mẻ và tĩnh lặng, tôi như nghe được âm thanh của những ngọn gió sớm đang nơ giỡn sau những chậu cây, nghe được tiếng bước chân xô đây của

<small>những tia nắng mặt trời đang hối thúc xếp hàng để toả sáng, và như nghe được nhịp</small>

đập đều của trái tim minh trong budi bình minh”.

Chương 2 - PHƯƠNG PHÁP ĐỊNH DANH NGƯỜI DÙNG

DỰA TRÊN GIỌNG NĨI.

Chương này trình bày về nghiên cứu đề xuất sử dụng phương pháp học máy cho bài toán định danh người dùng dựa trên cảm biến âm thanh. Phương pháp đề

<small>Hình 2.1: Phương pháp định danh người dùng</small>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<small>Phương pháp đề xuất định danh người dùng sử dụng cảm biến âm thanh</small>

được trình bây. trên hình vẽ 2.1. Luéng dir liệu cảm biến 4 âm thanh (audio stream)

<small>sau khi được tiền xử lý sẽ được phân đoạn thành các cửa số trượt (sliding window)</small>

<small>với độ dài 2 giây. Các cửa số trượt này lại được chia nhỏ thành các cửa sơ hamming</small>

có kích thước là 25 mili giây (ms). Đề từ các cửa số hamming ta có thé trích chọn ra

14 đặc trưng bao gồm Mel-frequency Cepstral Coefficents (MFCC), Zero Crossing

<small>Rate (ZCR), va Entropy. Một vài đặc trưng MFCC được sử dụng để tìm và tríchxuất ra các dữ kiện giọng nói của người dùng (cough event) có trong cửa số trượt.Các véc tơ đặc trưng được tính từ các hamming window sẽ được sử dụng dé huấnluyện mơ hình học may có kha năng dự đốn (predictive model) là Gaussian</small>

<small>mixture model-Universal background model (GMM-UBM). Mơ hình GMM-UBM</small>

<small>sau khi được huấn luyện sẽ được sử dung dé phân loại dữ liệu quan sát trong thờigian thực dé xác nhận giọng nói người dùng. Các phần dưới đây sẽ trình bay chi tiếtquá trình này.</small>

2.1 Tiền xử lý dữ liệu (pre-processing)

Dé thuật tốn định danh người dùng có thé thực hiện tốt trong thời gian thực

và giảm gánh nặng tính tốn của thiết bị di động, trong khi cần đạt được độ chính xác định danh người dùng hợp lý, thì tại bước này chúng tôi tiến hành thao tác giảm số mẫu đữ liệu (down sampling) từ tần số thu thập dữ liệu 44.1 KHz xuống còn

8KHz. Với tần suất lây mẫu 8KB thì 8000 mẫu sẽ được thu nhận (captured) trong

một giây. Tần suất này cũng được sử dụng khá phổ biến trong các ứng dụng xử lý

<small>âm thanh và phát hiện giọng nói [12]. Sau đó, chúng tơi sử dụng thủ tục lọc dải</small>

<small>thông thấp (low-pass filtering) dé bước đầu loại trừ các nhiễu môi trường đến từ âm</small>

thanh có cường độ thấp. Thủ tục lọc dải thơng cao (high-pass filtering) với hàm

chuyển (transfer function) H(x)= I-ơx” với œ=0.95 dé tạo điểm nhấn (emphasizing)

<small>các biên độ cao cua các tín hiệu giọng nói của người dùng va loại trừ các tín hiệu</small>

<small>âm thanh yên lặng (silence) và các nhiễu khác.</small>

<small>1 T T T T</small>

<small>Hình 2.2a: Tín hiệu âm thanh đầu vào</small>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>0 0.5 1 1.5 2 25Hình 2.2b: Tín hiệu sau khi lọc thơng cao với ơ=0.95</small>

2.2 Phân đoạn dữ liệu cảm biến âm thanh (segmentation)

Do dòng dữ liệu cảm biến âm thanh (audio stream) là liên tục (continuous) nên dé định danh người dùng, một giọng nói của người dùng trong khoảng thời gian thực thì ta cần tiến hành phân đoạn dịng dữ liệu thành các cửa số trượt (sliding window). Trong nghiên cứu nay, chúng tơi sử dụng cửa số trượt có độ dài 2 giây với phần chồng lấn (overlap) là 50% giữa 2 cửa số trượt. Độ dài 2 giây được lựa chọn do chúng tôi tiễn hành một vài thực nghiệm nhỏ (pilot) trên tập con của tập dữ

liệu (subset) và giọng nói của người dùng kết quả hợp lý trong khi thời gian chờ

được giảm thiểu. Một cửa số trượt có thé chứa dữ kiện âm thanh yên lặng (silent), giọng nói của người dùng (voice speech) hoặc dữ kiện nhiễu khác chưa biết ngồi

<small>giọng nói (unknown events) như âm thanh nhiễu từ môi trường v.v.. Trên mỗi cửa</small>

sơ trượt chúng tơi trích chọn đặc trưng năng lượng E và ước lượng một ngưỡng đơn giản (threshold) để loại trừ các cửa số trượt chứa dữ kiện yên lặng. Ngưỡng này được ước lượng bằng một thủ tục kiểm thử chéo 4 phần (4-fold cross validation)

<small>trên một tập con (subset) của tập dữ liệu.</small>

Mỗi cửa số trượt sau đó lại được phân đoạn (segmented) thành các cửa sỐ hamming có kích thước 25 mili giây (ms). Do đó, một cửa số trượt sẽ bao gồm 80 cửa số hamming và mỗi cửa số hamming chứa 200 mẫu dữ liệu (sample). Lý do phân đoạn thành các cửa sô hamming với kích thước nhỏ là do với khoảng thời gian ngắn (25ms) thì tín hiệu cảm biến âm thanh được giả định là thay đồi ít (statistically

<small>stationary) và do đó việc trích chọn ra các đặc trưng từ các tín hiệu âm thanh trong</small>

khoảng này sẽ có tiềm năng phân loại tốt hơn.

<small>2.3 Trích chọn các đặc trưng và dữ kiện (Feature & Event Extraction)</small>

Đối với mỗi cửa số hamming, ba loại đặc trưng: Mel-frequency Cepstral

<small>Coefficents (MFCC), Zero Crossing Rate (ZCR), và Entropy sẽ được trích chọn.</small>

<small>2.3.1 Trích chọn các đặc trưng (feature extraction)</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<small>Đặc trưng Mel-frequency Cepstral Coefficents (MFCC): giá trị biên độ của</small>

phép biến đổi dé chuyên tín hiệu âm thanh đầu vào dạng biến đổi Fourier giọng nói của người dùng phổ về một thang đo tần số gọi là Mel. Thang đo Mel là một thang đo diễn tả tốt sự nhạy cảm của tai người đối với âm thanh. Kỹ thuật trích chọn đặc trưng MFCC gồm các bước biến đổi liên tiếp, trong đó đầu ra của bước biến đổi trước sẽ là đầu vào của bước biến đổi sau. Ban đầu là một đoạn tín hiệu âm thanh liên tục rồi được rời rac hóa khi đưa vao máy tính lên đoạn tín hiệu âm thanh bao

gồm các mẫu liên tiếp nhau. Trong đó mỗi mẫu là một giá trị thực, thé hiện giá tri

âm thanh tại 1 thời điểm. Đặc trưng MFCC đã được sử dụng trong các nghiên cứu về nhận dạng giọng nói (speech recognition). Đặc trưng MFCC biểu diễn khá chính

<small>xác hình dạng âm thanh từ người nói (accurate representation of the vocal tract</small>

shape). Do đó, MFCC chứa nhiều thơng tin mà ta (hy vọng) có thé sử dụng dé phân

<small>biệt hiệu quả giữa âm thanh giọng nói của người dùng và các loại âm thanh khác.</small>

Thuật tốn trích chọn MECC được tiến hành như sau:

Gia sử s¡(n) là tín hiệu miền theo thời gian (time domain signal) của cửa số

<small>hamming thứ i, n chỉ thứ tự của mẫu trong cửa số hamming i và 0 <n < 199 (do mỗi</small> cửa số hamming có 200 mẫu); gọi p;(n) là năng lượng phổ (power spectrum) của cửa số hamming thứ i. Phép biến đổi Fourier rời rac phức (complex Discrete Fourier

Transform) DFT của cửa số hammnng 1 được tính như sau:

DFTi(k)= 3 s0) *x,e 84 (1)

Với 0 < k< K-1; K là độ dai của DFT, x, là giá trị của mẫu thứ n trong cửa số hamming; năng lượng phổ của hamming window s;(n) được tinh bằng:

Pi(k) =—(s,(k))”<sub>200 @)</sub>

Từ (1) va (2) ta lay bình phương của giá trị tuyệt đối của các giá trị DFT;(K), ta sẽ thu được 512 hệ số FET (FFT coefficients); ta bỏ đi 256 hệ số nửa cuối, và giữ lại 256 hệ số đầu. Tiếp đến ta tính các năng lượng Mel-spaced filter bank [12]. Tắt

<small>cả các giá trị 0 được loại bỏ, các giá trị còn lại (non-filter bank) được nhân với nănglượng phô, và cộng với các hệ số FFT. Ta chỉ giữ lại 25 hệ số năng lượng. Sau đó</small>

<small>áp dụng cơng thức (1) dé tính DFT với lơ ga rit cơ số 2 của 25 hệ số này. Cuối cùngta giữ lại kết quả của 12 hệ số đầu tiên đó chính là đặc trưng MFCC dé sử dụnggiọng nói của người dùng, dự đốn giọng nói của người dùng.</small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Đặc trưng Zero Crossing Rate (ZCR): là tỉ lệ của các thay đổi dau (sign) từ dịng tín hiệu (signal), ZCR trên một cửa sơ hamming được tính như sau:

<small>1 199</small>

ZCR =— ) I{x, *x,, <0}

my 6)

Trong đó x; là giá trị của mẫu thứ i trong cửa sô hamming, và I{A} là hàm chỉ dau (indicator function):

<small>1 if Aistrue</small>

Đặc trưng Entropy: dùng dé đo lượng thông tin thu nhận (reception), đặc trưng này được sử dụng rộng rãi trong các nghiên cứu về nhận dạng giọng nói của người dùng hoạt động người bằng việc xử lý các tín hiệu cảm biến gia tốc [1, 3, 7] do đặc

trưng này giải quyết tốt sự đa dang (variation) về giọng nói của người dùng và sự đa dạng biến đổi của các tín hiệu cảm biến thu nhận được. Đặc trưng entropy trên một cửa sơ hamming được tính như sau:

Entropy (x)=- » P(x; )log(p(; )) (5)

<small>Với x; là gid trị mẫu, p(x;) là phân phối xác suất của x; trong cửa số hammingcó thé được ước lượng bang cách lây sơ các mẫu có giá trị băng x, chia giọng nói</small>

<small>của người dùng 200; với xác suât 0*log(0) được giả sử băng 0.</small>

Các đặc trưng được trích chọn ở trên bao gồm: 12 đặc trưng MFCC, ZCR va Entropy được kết hợp vào một véc tơ đặc trưng kích thước 14 chiều. Các đặc trưng

này được chuẩn hóa (normalized) dé bảo đảm tat cả các giá trị đặc trưng đều nam trong khoảng [0, 1]. Nếu sử dụng véc tơ đặc trưng nhiều chiều hơn cũng có thé cho kết quả nhận dạng tốt hơn nhưng sẽ cần nhiều tài ngun tính tốn cũng như thời

gian xử lý hơn va dẫn tới việc triển khai (implementation) trên thiết bị đi động không khả thi. Nên chúng tôi sử dụng véc tơ 14 chiều dé tránh điều đó, và thỏa mãn

<small>mục tiêu là có độ chính xác, định danh người dùng hợp lý trong khi thỏa mãn yêu</small>

cầu thuật toán có thể được cài đặt trên thiết bị di động.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<small>2.3.2 Trích chọn các dữ kiện (event extraction)</small>

Trong một nghiên cứu [4] đã chỉ ra rằng, nếu sử dụng phương pháp trích chọn dữ kiện hiệu quả thì sẽ giảm đáng kể tai ngun dùng dé tính tốn (computing resources). Chính vì vậy, nhóm nghiên cứu chúng tơi đã phát triển một thuật tốn

<small>trích chọn dữ kiện đơn giản (event extractor) dựa trên ngưỡng được ước lượng trước</small>

bằng kiêm thử chéo 4 lần trên tập con của tập dữ liệu. Trong quá trình kiểm thử để

<small>tìm ra ngưỡng (threshold), 3 trong số 14 đặc trưng được chon ra bang cách thử từng</small>

<small>đặc trưng rồi kết hợp chúng với nhau. 3 đặc trưng này đều là các đặc trưng MFCCđược trích chọn ở phần trên và giọng nói của người dùng kết quả nhận dạng dữ kiện</small>

tốt nhất (highest true positive) trong khi khả năng nhận dạng nhằm thấp nhất

<small>(lowest false positive).</small>

Thuật tốn trích chon dữ kiện tìm kiếm các dữ kiện chứa giọng nói tiềm năng

<small>(potential voice event candidates) và đông thời giúp loại trừ nhanh (pruning) các dữ</small>

<small>kiện nhiêu.</small>

<small>2.4 Xác nhận người dùng</small>

<small>Trên hình 2.1, ở bước thứ 4 thì hai mơ hình: mơ hình hỗn hợp Gaussian</small>

(Gaussian Mixture model - GMM) va mơ hình nền tổng quát (Universal Background model -UBM) được đề xuất xác nhận người dùng (verification). Trong

<small>nghiên cứu này, các dữ liệu cảm biến âm thanh giọng nói của người dùng được mơ</small>

<small>hình hóa bằng các mơ hình hỗn hợp GMM. Trong đó, với mỗi giọng nói của mỗingười i được mơ hình hóa bang một mơ hình GMM 3; trong khi đó UBM được sử</small>

dụng dé mơ hình hóa âm thanh nền (background sounds), bao gồm bat kỳ âm thanh

<small>gì mà khơng phải là giọng nói của người dùng như: âm thanh nhiễu từ môi trường</small>

xung quanh, tiếng hát, tiếng ồn, tiếng tivi v.v..

2.4.1 Mơ hình học máy hỗn hợp Gaussian (GMM)

Một cách ngắn gọn, một mơ hình hỗn hop Gaussian (GMM) A; là một bộ ba tham số: A={ /“t¡› C¡› W¿ :} được ước lượng từ việc huấn luyện các tham số trên tập

<small>dữ liệu thu thập. Mơ hình hỗn hợp Gauss được dựa trên kỹ thuật phân cụm, tồn bộ</small>

<small>dữ liệu thử nghiệm được mơ phỏng bằng một mơ hình hỗn hợp. Cũng giống như K-means ở chỗ mơ hình hỗn hợp Gauss có thể xây dựng ranh giới phân cụm mềm tức</small>

<small>là trong không gian, một điểm khơng chỉ thuộc một nhóm nhất định mà có thê thuộc</small>

<small>bat cứ nhóm nào với một xác xuất nhất định.</small>

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

ix (=) —@ 2 (=) PGMM

<small>XÃ 7 W2</small>

<small>Hình 2.3: Mơ hình GMM [6]</small>

Trong phân phối hỗn hợp Gauss, hàm mật độ là sự kết hợp tuyến tính của các

hàm mật độ Gauss. về mặt toán học, một mơ hình hỗn hợp Gauss là tổng trọng của

M phân phối Gauss bởi:

Như trình bay trong hình 2.3, cho trước M phân phối Gauss P\, P;,...Pụ, hàm mật độ xác suất của mơ hình hỗn hop Gauss (GMM) chính là tong trong cua M phân phối Gauss theo cơng thức:

P(x2)=ƯiÊ¡w: Pil tị, Da), (6)

<small>Trong đó:</small>

-x: vector đặc trưng D chiêu.

- w;: i=1,2...M, trọng số của phân phối Gauss thứ i thỏa mãn

O<wi<l, Dit, w;=l

<small>- H¡ là ma trận hiệp phương sai của phân phôi Gauss thứ 1.</small>

- P¡ là hàm mật độ xác suất của phân phối Gauss thứ I cho bởi công thức:

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Dé áp dụng mơ hình hỗn hợp Gaussian cho bài tồn này, ta giả sử tập dữ liệu gồmn người thì giọng nói của người thứ i được mơ hình hóa bằng mơ hình GMM 2; và như vậy với n người thi ta sẽ có n mơ hình GMM: Ay, Àz,...Àạ dé mơ hình hóa. Gia sử véc tơ đặc trưng / được tính từ một cửa số hamming của giọng nói người dùng i, thì xác suất khả năng (likelihood) đối vơi giọng nói của người dùng i sẽ được tính bằng cơng thức:

<small>M —> —</small>

P(wl4,)=3_w,NỢ I,,C,) (8)

Trong đó N là phân phối xác suất chuẩn (Normal probability distribution) đối với véc tơ trung bình ø„, và ma trận hiệp biến C:

Gt Gm)

TT 1

N(flu.C)= nhàn ? (9)

2.4.2 Xác nhận người dùng bằng mơ hình GMM-UBM

Q trình huấn luyện mơ hình GMM được trình bầy trong hình vẽ sau:

<small>Ị người người người</small>

<small>nội 1 nói 2 nói n</small>

<small>Á ...</small>

<small>Hình 2.4: Huắn luyện các mơ hình GMM</small>

</div>

×