Tải bản đầy đủ (.docx) (31 trang)

BÀI TẬP LỚN MÔN KỸ THUẬT HỆ THỐNG VIỄN THÔNG ĐỀ TÀI NHẬN DẠNG GIỌNG NÓI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.49 MB, 31 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA ĐIỆN – ĐIỆN TỬ

BÀI TẬP LỚN MÔN KỸ THUẬT HỆ THỐNG VIỄN THƠNGĐỀ TÀI: NHẬN DẠNG GIỌNG NĨI

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>2. Các phương pháp nhận dạng giọng nói...7</small>

<small>2.1. . Gaussian Mixture Model – GMM...7</small>

<small>2.1.1. Gaussian Mixture Model – GMM là gì...7</small>

<small>2.1.2. Áp dụng GMM vào nhận dạng giọng nói...9</small>

<small>2.1.3. Các ưu điểm và nhược điểm khi sử dụng GMM...11</small>

<small>2.2. Hidden Markov Models – HMM...11</small>

<small>2.2.1. HMM là gì...12</small>

<small>2.2.2. Các thuật tốn...13</small>

<small>2.2.3. Mơ hình Markov ẩn trong tổng hợp tiếng nói...14</small>

<small>2.2.4. Các ưu điểm và hạn chế khi áp dụng HMM...15</small>

<small>2.3. Support Vector Machine – SVM...16</small>

<small>2.3.1. SVM là gì...16</small>

<small>2.3.2. Áp dụng SVM vào nhận dạng giọng nói...18</small>

<small>2.3.3. Ưu điểm và nhược điểm của SVM...19</small>

<small>3. Ứng dụng...20</small>

<small>KẾT LUẬN...26</small>

<small>DANH MỤC TÀI LIỆU THAM KHẢO...27</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI MỞ ĐẦU</b>

Trong bối cảnh xã hội hiện nay, đất nước ta đang trong quá trình đẩy mạnh cơng nghiệp hóa, hiện đại hóa, khoa học – công nghệ và đổi mới sáng tạo luôn được coi là cơ sở cho sự phát triển nhanh và bền vững. Đặc biệt, trong cuộc Cách mạng công nghiệp lần thứ tư với cơng nghệ số hóa, trí tuệ nhân tạo, IoT và Big Data…Việt Nam đã có những thay đổi sâu sắc trong sản xuất, kinh tế và tạo điều kiện thuận lợi cho sự phát triển văn hóa.

Một trong những công nghệ mà vẫn luôn được nghiên cứu và phát triển qua từng thời kì là nhận diện giọng nói. Cơng nghệ này đã được bắt đầu nghiên cứu từ năm 1936 và lần đầu xuất hiện trên các thiết bị điện toán cá nhân từ 20 năm trước, khi Windows 98 được giới thiệu. Hệ thống nhận diện giọng nói ban đầu chỉ có thể hiểu chữ số vì các kỹ sư cho rằng ngơn ngữ con người quá phức tạp. Tuy nhiên, hiện nay, giọng nói của con người ngày càng trở nên “quyền lực” hơn khi mà ta gần như có thể điều khiển mọi thiết bị công nghệ hiện đại như điện thoại, máy tính, tivi,…Trên cơ sở lý thuyết của trí tuệ nhân tạo, rất nhiều các cơng trình nghiên cứu về lĩnh vực nhận diện giọng nói đã được ra đời và có một vài sản phẩm tiêu biểu như: IBM ViaVoice của IBM, Dragon NaturallySpeaking từ Nuance Communications, Siri của Apple, Google Assistant từ Google,…

Chính vì sự phát triển mạnh mẽ đó và những lợi ích, ý nghĩa nó mang lại, nhóm đã chọn đề tài “Nhận dạng giọng nói” để tìm hiểu.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>1. Giọng nói và nhận dạng giọng nói1.1. Giọng nói</b>

Giọng nói là một khía cạnh quan trọng của cuộc sống con người và một phương tiện chính để giao tiếp. Khi con người nói chuyện, họ sử dụng giọng nói để truyền đạt ý nghĩa, thể hiện cảm xúc, và thể hiện tính cách cá nhân. Trong bài luận này, chúng ta sẽ tìm hiểu khái niệm của giọng nói, tầm quan trọng của tần số trong giọng nói, và cách giọng nói được tạo ra thơng qua quy trình phức tạp của hệ thống họng và điều khiển thần kinh.

<i>Khái niệm của Giọng Nói:</i>

Giọng nói, cịn được gọi là tiếng nói, là một khả năng đặc trưng của con người và một số lồi động vật khác. Nó là khả năng tạo ra âm thanh từ dây thanh, họng và miệng để giao tiếp. Giọng nói là một phương tiện quan trọng để truyền đạt thông tin, giao tiếp với người khác và thể hiện cảm xúc. Nó cịn phản ánh văn hóa và ngôn ngữ của mỗi người, biểu thị qua ngữ điệu, phát âm và cách sử dụng từ ngôn ngữ.

<i>Cách Giọng Nói Được Phát Ra:</i>

Giọng nói được tạo ra thơng qua một quy trình phức tạp và tinh tế. Khi chúng ta nói chuyện, dây thanh trong họng của chúng ta dao động để tạo ra âm thanh cơ bản. Điều này thường liên quan đến sự điều khiển chính xác của cơ học họng, bàn lưỡi và miệng. Nhờ sự điều chỉnh tần số, tốc độ và độ căng của dây thanh, chúng ta có thể tạo ra các âm thanh khác nhau, từ các nguyên âm đến các phụ âm.

<i>Hình 1. Cách giọng nói được phát ra.</i>

Hệ thống thần kinh và bộ não của con người chịu trách nhiệm điều khiển giọng nói. Họ giúp chúng ta điều chỉnh giọng nói và diễn đạt ý nghĩa thơng qua việc phối hợp nhiều yếu

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

tố cơ học và tâm lý. Ngồi ra, giọng nói cũng phản ánh vùng miền và ngơn ngữ của người nói, cho phép thể hiện tính đa dạng văn hóa và ngơn ngữ.

Tóm lại, giọng nói là một khía cạnh đặc biệt và quan trọng trong cuộc sống con người. Tần số trong giọng nói thể hiện các yếu tố như ngữ điệu, cảm xúc và nguồn gốc của người nói. Cách giọng nói được phát ra bao gồm sự phối hợp của nhiều yếu tố về cơ học và điều khiển, và nó là một phần quan trọng của việc giao tiếp và truyền đạt thông tin trong xã hội.

<i>Phổ âm thanh của lời nói:</i>

Phổ của giọng nói bao phủ một phần khá rộng của toàn bộ phổ tần số âm thanh. Trong các ngôn ngữ không thanh điệu, người ta có thể nói rằng lời nói bao gồm các nguyên âm và phụ âm. Các nguyên âm được tạo ra bởi các dây thanh âm và được lọc bởi các khoang thanh âm. Một lời thì thầm là khơng có âm thanh phát âm.

Tuy nhiên, các khoang góp phần hình thành các nguyên âm khác nhau vẫn ảnh hưởng đến luồng khơng khí đi qua. Đây là lý do tại sao đặc điểm của nguyên âm cũng xuất hiện trong lời thì thầm. Nói chung, tần số cơ bản của giọng nói phức tạp – cịn được gọi là cao độ hoặc f<small>0</small> – nằm trong phạm vi 100-120 Hz đối với nam giới, nhưng có thể xảy ra các biến thể ngoài phạm vi này. F<small>0</small> dành cho phụ nữ cao hơn khoảng một quãng tám. Đối với trẻ em, f<small>0</small> là khoảng 300 Hz.

Các phụ âm được tạo ra bởi sự tắc nghẽn khơng khí và âm thanh ồn ào được hình thành khi khơng khí đi qua cổ họng và miệng, đặc biệt là lưỡi và môi. Về tần số, các phụ âm nằm trên 500 Hz.

<i>Hình 2.Phổ giọng nói (1/3 quãng tám) tùy thuộc vào trạng thái.</i>

Ở cường độ giọng hát bình thường, năng lượng của nguyên âm thường giảm nhanh trên khoảng 1 kHz. Tuy nhiên, hãy lưu ý rằng sự nhấn mạnh vào phổ giọng nói sẽ dịch chuyển từ một đến hai quãng tám về phía tần số cao hơn khi giọng nói lên cao. Ngồi ra, khơng thể tăng mức âm thanh của phụ âm ngang bằng với nguyên âm. Trong thực tế, điều này có nghĩa là độ dễ hiểu của lời nói khơng tăng lên khi hét lên so với việc áp dụng

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

nỗ lực phát âm thơng thường trong những tình huống mà tiếng ồn xung quanh khơng đáng kể.

<b>1.2. Nhận dạng giọng nói</b>

<i>Khái niệm về nhận dạng giọng nói:</i>

Nhận dạng giọng nói là khả năng máy tính hoặc chương trình nhận và giải thích chính tả hoặc hiểu và thực hiện các lệnh nói. Nhận dạng giọng nói đã trở nên rất nổi bật và được tích hợp vào sự phát triển của Trí Tuệ Nhân Tạo (AI) và trợ lý thông minh như Amazon's Alexa và Apple's Siri.

Hệ thống nhận dạng giọng nói cho phép người dùng tương tác với công nghệ bằng cách nói chuyện với nó, cho phép họ đưa ra yêu cầu, tạo lời nhắc và thực hiện các tác vụ đơn giản mà khơng cần sử dụng tay.

Q trình nhận dạng giọng nói có thể xác định và phân biệt giọng nói thơng qua sử dụng các chương trình phần mềm nhận dạng giọng nói tự động (ASR). Một số chương trình ASR yêu cầu người dùng trước tiên đào tạo hệ thống bằng cách ghi âm giọng nói của họ để chuyển đổi giọng nói thành văn bản chính xác hơn. Hệ thống nhận dạng giọng nói đánh giá tần số, dựng lời nói và phân tích dịng giọng nói.

Mặc dù nhận dạng tiếng nói và nhận dạng giọng nói có thể có sự trùng lắp, chúng khơng hồn toàn giống nhau và cần phải được phân biệt. Nhận dạng giọng nói xác định người nói, trong khi nhận dạng tiếng nói liên quan đến việc hiểu nội dung của lời nói.

<i>Cách hoạt động của nhận dạng giọng nói:</i>

Phần mềm nhận dạng giọng nói trên máy tính u cầu âm thanh analog phải được chuyển đổi thành tín hiệu số, gọi là q trình chuyển đổi tín hiệu analog sang số (A/D). Để máy tính có thể giải mã tín hiệu này, nó phải có cơ sở dữ liệu số về từ hoặc âm tiết cũng như một quá trình nhanh chóng để so sánh dữ liệu này với tín hiệu. Các mẫu lời nói được lưu trữ trên ổ cứng và được nạp vào bộ nhớ khi chương trình chạy. Một bộ so sánh kiểm tra những mẫu được lưu trữ này so với đầu ra của bộ chuyển đổi A/D - một hoạt động gọi là nhận dạng mẫu.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<i>Hình 1. Nhận dạng giọng nói chuyển đổi âm thanh analog thành tín hiệu số, sau đố đượchiểu thông qua nhận dạng mẫu và phần mềm nhận dạng giọng nói.</i>

Trong thực tế, kích thước từ vựng hiệu quả của chương trình nhận dạng giọng nói có mối liên quan trực tiếp đến dung lượng RAM của máy tính mà nó được cài đặt. Một chương trình nhận dạng giọng nói chạy nhiều lần nhanh hơn nếu tồn bộ từ vựng có thể được tải vào RAM so với việc tìm kiếm trên ổ cứng để tìm các kết quả tương tự. Tốc độ xử lý là quan trọng, vì nó ảnh hưởng đến khả năng máy tính tìm kiếm trong RAM để tìm các kết quả.

Âm thanh cũng phải được xử lý để làm sáng rõ, vì vậy một số thiết bị có thể loại bỏ tiếng ồn nền. Trong một số hệ thống nhận dạng giọng nói, các tần số cụ thể trong âm thanh được tơn trọng để thiết bị có thể nhận dạng giọng nói tốt hơn.

Các hệ thống nhận dạng giọng nói phân tích lời nói thơng qua một trong hai mơ hình: mơ hình Markov ẩn và mạng nơ-ron. Mơ hình Markov ẩn phân tích từng từ thành các âm vần của chúng, trong khi mạng nơ-ron tái sử dụng kết quả từ các bước trước để ảnh hưởng đến đầu vào của bước hiện tại.

Khi các ứng dụng của cơng nghệ nhận dạng giọng nói mở rộng và người dùng tương tác nhiều hơn với nó, các tổ chức triển khai phần mềm nhận dạng giọng nói sẽ có nhiều dữ liệu và thông tin hơn để cung cấp cho các mạng nơ-ron trong các hệ thống nhận dạng giọng nói. Điều này cải thiện khả năng và độ chính xác của các sản phẩm nhận dạng giọng nói.

Sự phổ biến của điện thoại thông minh đã mở cửa để tích hợp cơng nghệ nhận dạng giọng nói vào túi của người tiêu dùng, trong khi các thiết bị gia đình như Google Home và Amazon Echo đã đưa cơng nghệ nhận dạng giọng nói vào phịng khách và nhà bếp.

<i>Ưu điểm và nhược điểm của nhận diện giọng nói:</i>

Nhận dạng giọng nói mang lại nhiều lợi ích:

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

 Người tiêu dùng có thể thực hiện nhiều nhiệm vụ cùng một lúc bằng cách nói trực tiếp với trợ lý giọng nói hoặc cơng nghệ nhận dạng giọng nói khác.

 Người dùng gặp khó khăn về thị lực vẫn có thể tương tác với thiết bị của họ.  Trí tuệ nhân tạo và các thuật tốn tinh vi giúp cơng nghệ nhận dạng giọng nói

chuyển đổi từng từ nói thành văn bản nhanh chóng.

 Cơng nghệ này có thể ghi lại lời nói nhanh hơn so với việc gõ bàn phím của một số người dùng. Điều này làm cho việc ghi chú hoặc đặt lịch nhắc nhanh hơn và tiện lợi hơn.

Tuy nhiên, một số nhược điểm của công nghệ này bao gồm:  Tiếng ồn nền có thể tạo ra thơng tin đầu vào sai lệch.

 Mặc dù tỷ lệ chính xác đang được cải thiện, tất cả các hệ thống và chương trình nhận dạng giọng nói đều có thể gây ra lỗi.

 Có vấn đề về những từ có cùng âm nhưng có cách viết và ý nghĩa khác nhau - ví dụ, "hear" và "here." Vấn đề này có thể được giải quyết một phần thông qua việc lưu trữ thông tin ngữ cảnh. Tuy nhiên, điều này yêu cầu thêm RAM và bộ xử lý nhanh hơn

<i>Lịch sử của cơng nghệ nhận diện giọng nói:</i>

Cơng nghệ nhận dạng giọng nói đã phát triển mạnh mẽ trong vịng năm thập kỷ qua. Trong những năm 1976, máy tính chỉ có thể hiểu hơn 1.000 từ. Tổng số này đã tăng lên khoảng 20.000 vào những năm 1980 khi IBM tiếp tục phát triển cơng nghệ nhận dạng giọng nói.

Năm 1952, Bell Laboratories phát minh AUDREY Hệ thống Nhận Dạng Số Tự Động -chỉ có thể hiểu các số từ 0 đến 9. Vào đầu đến giữa những năm 1970, Bộ Quốc phịng Hoa Kỳ đã bắt đầu đóng góp cho việc phát triển hệ thống nhận dạng giọng nói, tài trợ cho Dự án Nghiên cứu Hiểu Lời Nói của Cơ quan Nghiên cứu Các Dự án Tiến bộ Của Quân đội. Harpy, do Đại học Carnegie Mellon phát triển, là một hệ thống nhận dạng giọng nói khác vào thời điểm đó và có thể nhận dạng tới 1.011 từ.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<i>Hình 2. AUDREY của Bell Labs là một trong những hệ thống đầu tiên có khả năng xử lýgiọng nói của con người và nhận dạng các giá trị số có 1 chữ số.</i>

Cơng ty Dragon đã ra mắt sản phẩm nhận dạng người nói đầu tiên dành cho người tiêu dùng vào năm 1990, mang tên Dragon Dictate. Sau đó, sản phẩm này đã được thay thế bởi Dragon NaturallySpeaking từ Nuance Communications. Vào năm 1997, IBM giới thiệu IBM ViaVoice, sản phẩm nhận dạng giọng nói đầu tiên có thể nhận dạng lời nói liên tục.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<i>Hình 3.Hình ảnh được cung cấp bởi IBM, máy đánh chữ biết nói.</i>

Apple giới thiệu Siri vào năm 2011 và nó vẫn là một trợ lý nhận dạng giọng nói nổi bật. Vào năm 2016, Google ra mắt Google Assistant cho điện thoại. Hệ thống nhận dạng giọng nói có thể được tìm thấy trong các thiết bị bao gồm điện thoại, loa thơng minh, laptop, máy tính để bàn và máy tính bảng cũng như trong phần mềm như Dragon Professional và Philips SpeechLive.

Trong thập kỷ qua, nhiều công ty công nghệ khác đã phát triển phần mềm nhận dạng giọng nói tinh vi hơn, như Amazon Alexa, ví dụ. Ra mắt vào năm 2014, Amazon Alexa cũng hoạt động như một trợ lý cá nhân đáp ứng các lệnh giọng nói. Hiện tại, phần mềm nhận dạng giọng nói có sẵn cho các thiết bị Windows, Mac, Android, iOS và Windows phone.

<b>2. Các phương pháp nhận dạng giọng nói.2.1. . Gaussian Mixture Model – GMM.2.1.1. Gaussian Mixture Model – GMM là gì.</b>

Gaussian Mixture Model (GMM) hay mơ hình Gaussian hỗn hợp là một loại mơ hình xác suất thống kê mà chúng ta sử dụng để mơ hình hóa phân phối xác suất của dữ liệu đa chiều. Đặc trưng của GMM là khả năng biểu diễn sự đa dạng và phức tạp của dữ liệu bằng cách sử dụng tổ hợp của nhiều phân phối Gaussian. Giả định rằng dữ liệu được tạo ra từ sự kết hợp của nhiều phân phối Gaussian, mỗi phân phối Gaussian trong GMM đại diện cho một thành phần của dữ liệu và tổng hợp của chúng tạo nên phân phối xác suất của toàn bộ dữ liệu.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Mỗi phân phối của GMM bao gồm ba tham số chính là trọng số (Weight – <i>π<sub>k</sub></i>), trung bình (Mean - <i>µ<sub>k</sub></i>) và ma trận hiệp phương sai (Converiance Matrix - <i>Σ<sub>k</sub></i>) đại diện cho đóng góp của từng phân phối vào tổng thể.

- Trọng số - Weight (<i>π<sub>k</sub></i>¿.

 <i>Mỗi phân phối Gaussian thứ k trong GMM có một trọng số tương ứng là π<sub>k</sub></i>. Trọng

<i>số này đo lường đóng góp của phân phối Gaussian k vào tổng thể. Nếu π<sub>k</sub></i> lớn,

<i>phân phối Gaussian k có đóng góp lớn hơn vào xác suất tổng thể.</i>

 Tổng của tất cả các trọng số trong GMM phải bằng một vì chúng đại diện cho xác suất tương ứng với từng phân phối. Toàn bộ phân phối xác suất dữ liệu của mơ hình bởi GMM là tổng của các phân phối Gaussian có trọng số.

 Trọng số <i>π<sub>k</sub></i> xác định độ quan trọng của nó trong mơ hình GMM, các trọng số này quyết định cách mỗi phân phối đóng góp vào việc mơ tả và mơ hình hóa dữ liệu. - Trung bình – Mean (<i>µ<sub>k</sub></i>).

 <i>Mỗi phân phối Gaussion thứ k có một vector trung bình µ<sub>k</sub></i>, <i>µ<sub>k</sub></i> có cùng số chiều với dữ liệu đầu vào và xác định vị trí trung tâm của phân phối Gaussian trong khơng gian đặc trưng.

 Nếu giá trị của <i>µ<sub>k</sub></i> là cao, điều này có thể cho thấy trung tâm của phân phối đó ở gần một khu vực cụ thể trong khơng gian đặc trưng.

 Trung bình <i>µ<sub>k</sub></i> có liên kết chặt chẽ với hình dạng của phân phối Gauss, nó xác định nơi tập trung chính của phân phối và cách nó được phân bố xung quanh vị trí đó. - Ma trận hiệp phương sai - Converiance Matrix - (<i>Σ</i>¿¿<i>k )</i>¿.

 Ma trận hiệp phương sai là một khái niệm quan trọng trong thống kê và học máy, đặc biệt là khi nói về mơ hình GMM và phân phối Gauss. Ma trận hiệp phương sai mô tả mối quan hệ giữa các thành phần khác nhau của một vector ngẫu nhiên hoặc biến đặc trưng.

 <i>Nếu có một biến ngẫu nhiên có n thành phần hoặc một vector đặc trưng X = [X<small>1</small>,X<small>2</small>,…, X<small>n</small>] thì ma trận hiệp phương sai được biểu diễn như sau:</i>

 Trong đó, <i>σ<sub>ij</sub> là phần tử tại dịng i, cột j của ma trận, thể hiện mức độ tương quangiữa X<small>i</small> và X<small>j</small></i>. Nếu <i>σ<sub>ij</sub>, có thể nói rằng X<small>i</small> và X<small>j</small> có mối quan hệ tương quan cao, σ<sub>ij</sub></i> =

<i>0 có nghĩa là X và X</i> là độc lập tuyến tính và khơng có mối quan hệ tương quan.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

 Nếu <i>Σ<sub>k</sub></i> là ma trận đường chéo, tức là tất cả phần tử nằm ngoài đường chéo đều bằng 0, thì các thành phần của vector ngẫu nhiên được coi là độc lập.

 Ma trận hiệp phương sai <i>Σ<sub>k</sub></i> xác định hình dạng và độ biến động của phân phối

<i>Gauss thứ k trong không gian đặc trưng.</i>

GMM mô tả hàm mật độ xác suất của dữ liệu X theo công thức sau:

- K là số lượng phân phối Gaussian.

- là trọng số của phân phối thứ k, với

- Để áp dụng GMM vào nhận dạng giọng nói, đầu tiên ta cần chuẩn bị dữ liệu bằng cách thu thập mẫu giọng nói từ nhiều người nói, mỗi giọng nói cần được biểu diễn dưới dạng đặc trưng. Dữ liệu được tổ chức thành dạng ma trận, với mỗi hàng là một vector đặc trưng của một mẫu giọng nói.

- Sau đó, dữ liệu được phân chia thành tập huấn luyện và tập kiển tra để đánh giá hiệu suất sau khi huấn luyện mơ hình. Các thơng tin quan trọng từ mẫu giọng nói sẽ được trích xuất bằng cách phương pháp trích xuất đặc trưng như MFCCs( Mel-Frequency Cepstral Coefficients) hay LPC (Linear Predictive Coding).

Huấn luyện GMM:

Thuật toán EM (Expectation – Maximization) được áp dụng để huấn luyện mơ hình GMM trên tập huấn luyện. Đây là một phương pháp tối ưu hóa hàm hợp lý (likelihood) của mơ hình thống kê khi có sự thiếu thơng tin hoặc biến ẩn.

- <i>Đầu tiên là khởi tạo tham số: chọn một số lượng phân phối Gauss (K) và khởi tạo</i>

các tham số ban đầu của mơ hình GMM bao gồm trọng số, trung bình và ma trận hiệp phương sai cho mỗi phân phối.

- Tiếp theo là lặp đến hội tụ (Expectation – Maximization Loop):

 Bước E (Expectation): Dựa vào tham số hiện tại, tính xác suất điều kiện của mỗi điểm dữ liệu thuộc về từng phân phối Gauss bằng cơng thức Bayes sau đó xác định xác suất nó thuộc về từng phân phối Gauss.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

 Bước M (Maximization): Dựa trên xác suất điều kiện tính được, cập nhật các tham số (<i>π<sub>k</sub></i>, <i>µ<sub>k</sub></i>, <i>Σ<sub>k</sub></i>) để tối ưu hóa hàm hợp lý của dữ liệu. Cơng thức cập nhật tham số có thể được tính dựa trên đạo hàm của hàm hợp lý.

 Điều kiện dừng: Lặp lại bước E và M cho đến khi hàm hợp lý không thay đổi đáng kể hoặc đến khi đạt được số lần lặp tối đa.

- Kết quả: Sau khi thuật toán hội tụ, các tham số của mơ hình GMM sẽ được cập nhật để mơ hình phân phối xác suất của dữ liệu. EM khơng đảm bảo tìm ra giải pháp tồn cục tối ưu nên cần thiết có nhiều lần chạy với các điểm khởi tạo khác nhau để thu được kết quả tối ưu nhất.

<i>Hình 6. Quá trình thực hiện EM</i>

Xử lý dữ liệu:

- Khi mơ hình GMM đã được huấn luyện, mỗi mẫu giọng nói sẽ được đưa vào mơ hình để tính tốn xác suất thuộc về từng phân phối Gauss và quyết định người nói dựa trên xác suất cao nhất hoặc kết hợp xác suất từ nhiều phân phối.

- Tập kiểm tra, thường bao gồm một tập hợp các mẫu dữ liệu mà mơ hình chưa thấy bao giờ trong quá trình huấn luyện, sẽ được sử dụng để đánh giá hiệu suất của mơ hình GMM, đây là một bước quan trọng để đảm bảo mô hình hoạt động hiệu quả trên dữ liệu mới. Các thước đo có thể được sử dụng để đánh giá hiệu suất của mơ hình GMM là độ chính xác (Accuracy) bằng cách xem xét tỉ lệ giữa số lượng mẫu

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

được phân loại đúng trên tổng số mẫu, ma trận Confusion hiển thị số lượng các dự đốn đúng và sai trong từng lớp (người nói) giúp định rõ lối phân loại cụ thể. - Sau khi sử dụng tập kiểm tra để đánh giá hiệu suất, các tham số của mơ hình

GMM có thể được tinh chỉnh nếu cần thiết để đạt được kết quả tốt hơn. Để cải thiện hiệu suất, có thể xử lý nhiễu trong dữ liệu giọng nói bao gồm việc sử dụng các kỹ thuật lọc và làm sạch dữ liệu như sử dụng các bộ lọc thông thấp, thông cao, thông dãi và nhiều loại lọc khác.

<b>2.1.3. Các ưu điểm và nhược điểm khi sử dụng GMM.</b>

Ưu điểm:

- Độ linh hoạt: GMM có khả năng mơ hình hóa một loạt các phân phối xác suất vì có thể xấp xỉ bất kỳ phân phối nào có thể được biểu diễn dưới dạng tổng trọng số của nhiều phân phối chuẩn.

- Tốc độ: GMM tương đối nhanh để phù hợp với tập dữ liệu, đặc biệt là khi sử dụng thuật tốn tối ưu hóa hiệu quả như EM.

- Xử lý dữ liệu bị thiếu: GMM có khả năng xử lý dữ liệu bị thiếu bằng cách loại bỏ các biến bị thiếu, có thể hữu ích trong các tình huống mà một số quan sát không đầy đủ.

- Khả năng diễn giải: các tham số của GMM (trọng số, trung bình, ma trận hiệp phương sai) có cách giải thích rõ ràng, có thể hữu ích để hiểu cấu trúc cơ bản của dữ liệu.

Nhược điểm:

- Độ nhạy khi khởi tạo: mơ hình GMM nhạy với các giá trị khởi tạo ban đầu của tham số, đặc biệt là khi có quá nhiều thành phần, điều này có thể dẫn đến sự hội tụ kém đến khả năng đưa ra giải pháp tối ưu.

- Giả định về tính chuẩn: GMM giả định rằng dữ liệu được tạo ra từ hỗn hợp các phân phối chuẩn, điều này có thể không phải lúc nào cũng đúng trong thực tế. Nếu dữ liệu sai lệch đáng kể so với mức bình thường thì GMM khơng phải mơ hình thích hợp nhất.

- Số lượng thành phần: chọn số lượng thành phần thích hợp trong mơ hình này có thể là một thách thức vì việc thêm q nhiều thành phần có thể làm quá tải dữ liệu, trong khi sử dụng quá ít thành phần có thể khơng phù hợp với dữ liệu, dẫn đến một nhiệm vụ đầy thách thức, trở nên khó xử lý.

- Khả năng biểu đạt hạn chế: GMM chỉ có thể biểu diễn các phân phối dưới dạng tổng trọng số của các phân phối chuẩn, điều này có nghĩa là mơ hình này khơng phù hợp để mơ hình hóa các phân phối phức tạp hơn.

<b>2.2. Hidden Markov Models – HMM</b>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>2.2.1. HMM là gì.</b>

Các mơ hình Markov ẩn được phát triển bởi nhà toán học L.E. Baum và các đồng nghiệp của mình trong năm 1960. Các ẩn Markov nỗ lực mơ hình để dự đốn tình trạng tương lai của một biến sử dụng xác suất dựa trên trạng thái hiện tại và q khứ.

Mơ hình Markov ẩn (HMM: Hidden Markov Model) là một mơ hình máy trạng thái, mơ hình này cho phép chúng ta xem xét đến hai thành phần là sự kiện quan sát được và các sự kiện ẩn. Ví dụ trong nhận dạng tiếng nói thì sự kiện quan sát được là các đặc trưng âm học của tiếng nói, cịn sự kiện ẩn là các từ.

<i>Hình 7. Mơ hình Markov ẩn 3 trạng thái</i>

Một mơ hình markov ẩn thường bao gồm có các thành phần chính sau:  <i>Q=</i>

[

<i>q</i><sub>1</sub><i>, q</i><sub>2</sub><i>, q<sub>3 ,</sub>… q<sub>N</sub></i>

]

: Q là tập của N trạng thái

 <i>A=</i>

[

<i>a<sub>ij</sub></i>

]

: A là ma trận chuyển trạng thái với aij là xác xuất chuyển từ trạng thái i sang trạng thái j.

 <i>O=</i>

[

<i>o</i><sub>1</sub><i>, o</i><sub>2</sub><i>, o</i><sub>3</sub><i>,… o<sub>T</sub></i>

]

: O là một chuỗi T các quan sát tại các thời điểm t khác nhau. Tương ứng với mỗi trạng thái sẽ có một tập <i>V ={o</i><sub>1</sub><i>, o</i><sub>2</sub><i>, o</i><sub>3</sub><i>, … o<sub>M</sub></i>} là tập hợp tất cả các quan sát có thể được quan sát thấy trong mỗi trạng thái.

 <i>B={bj(k )}: B là phân bố xác xuất quan sát được các quan sát o trong trạng thái Sj</i>

(hay qj).

 Trong nhiều trường hợp chúng ta sẽ xem xét đến hai thành phần <i>Π={πi}</i> phân bố xác suất khởi tạo, và <i>QA={qx , qy … }</i> QA (con của Q) là tập chấp nhận được.

 Tập <i>λ={S , A , B , π }</i> là các tham số của một HMM.

Với mỗi mơ hình Markov ẩn ta có ba vấn đề chính cần được xem xét:

- Vấn đề 1: Tính toán độ tương đồng (Computing likelihood): cho mơ hình λ(A,B,π) và chuỗi quan sát được O xác định độ tương đồng (likelihood) P(O|λ). Víλ). Ví dụ trong nhận dạng tiếng nói, ta có quan sát O là tín hiệu tiếng nói và λ là mơ hình, vậy bài tốn cần giải là tính độ tương đồng P để mơ hình λ quan sát được O.

</div>

×