Tải bản đầy đủ (.pdf) (77 trang)

tách nguồn âm thanh dựa trên tiếp cận học máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.33 MB, 77 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

TRƯỜNG ĐẠI HỌC BÁCH KHOA

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) TS. Nguyễn Đức Dũng

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)1. Chủ tịch: TS. Trần Tuấn Anh

2. Thư ký: TS. Nguyễn Tiến Thịnh3. Phản biện 1: TS. Lê Thành Sách

4. Phản biện 2: PGS. TS. Nguyễn Văn Sinh5. Uỷ viên: TS. Võ Đăng Khoa

Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>NHIỆM VỤ LUẬN VĂN THẠC SĨ</b>

Họ tên học viên: THẨM QUỐC DŨNGMSHV: 1970381Ngày, tháng, năm sinh:21/11/1997Nơi sinh: Phú YênChuyên ngành: Khoa Học Máy TínhMã số: 8480101

<b>I. TÊN ĐỀ TÀI: Tách nguồn âm thanh dựa trên tiếp cận học máy</b>

<b>(Audio source separation based on machine learning approach)II. NHIỆM VỤ VÀ NỘI DUNG:</b>

- Tìm hiểu các hướng tiếp cận phù hợp cho bài toán tách âm thanh- Phân tích giải pháp và đưa ra đề xuất mơ hình tách âm

- Hiện thực và huấn luyện mơ hình đề xuất

- Tiến hành thí nghiệm và đánh giá các kết quả đạt được

<b>III.NGÀY GIAO NHIỆM VỤ: 06/02/2023</b>

<b>IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 10/12/2023</b>

<b>V. CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS. TS. Huỳnh Tường</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Để thực hiện nghiên cứu cho đề tài luận văn này, ngoài sự nổ lực của bản thân, còn nhờsự định hướng, chỉ dẫn và theo dõi tận tình của thầy Nguyễn Đức Dũng. Chúng tôi xingửi lời cảm ơn chân thành đến thầy Dũng cùng với các thầy cô khoa Khoa học và Kĩthuật Máy tính, cũng như các thầy cơ, cán bộ, nhân viên của trường Đại học Bách Khoa- Đại học Quốc gia thành phố Hồ Chí Minh đã truyền đạt kiến thức, kinh nghiệm và cảmhứng cho chúng tôi trong suốt q trình học tập và rèn luyện ở trường. Đó sẽ mãi là nềntảng và hành trang quý giá theo chúng tôi trong suốt quãng thời gian sau này.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Tăng cường chất lượng âm thanh và Tách nguồn âm thanh là một trong những phươngpháp tiền xử lý được dùng cho nhiều bài toán khác nhau trong lĩnh vực Xử lý tín hiệuâm thanh như: Nhận diện giọng nói, ứng dụng đàm thoại, truy vấn các thơng tin về nhạchoặc thậm chí trong các lĩnh vực giải trí và sản xuất âm thanh. Mục tiêu của luận vănnày là nghiên cứu các phương pháp giải quyết bài toán nhận tách nguồn âm thanh, cụthể là bài toán tách nguồn nhạc.

Nội dung của luận văn được thể hiện thông qua 6 chương bao gồm Chương 1 - Giới thiệuvề đề tài, động lực nghiên cứu và nhiệm vụ của luận văn. Chương 2 - Kiến thức nền tảngvề xử lý tín hiệu âm thanh. Chương 3 - Khảo sát về bài toán và phương pháp tiếp cận.Chương 4 - Trình bày nội dung phương pháp eCMU. Chương 5 - Trình bày nội dungphương pháp xây dựng mơ hình đa mục tiêu. Chương 6 - Tổng kết về kết quả đạt được,những hạn chế và định hướng nghiên cứu trong tương lai.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Audio source separation is one of the crucial techniques for audio signal processing lems such as automatic speech recognition (ASR), voice over Internet protocol (VoIP)apps, music information retrieval (MIR), and music production. Our thesis aims to pro-pose methods for audio source separation, especially for music source separation.

prob-The outline of this document includes 6 chapters: Chapter 1 - Introduction to the topic,our motivations, and our tasks for this thesis; Chapter 2 - The background knowledgeabout the audio processing field; Chapter 3 - Our survey about previous works; Chapter4 - Our efficient phase-aware framework for music source separation; Chapter 5 - Multi-target music source separation; Chapter 6 - Conclusion.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Chúng tôi cam đoan rằng cơng trình nghiên cứu này là kết quả của riêng chúng tôi dướisự chỉ dẫn của Tiến sĩ Nguyễn Đức Dũng. Mọi thơng tin và kết quả trình bày đều đượcđảm bảo là chính xác và chưa hề được công bố trong bất kỳ hội nghị nào trước đây. Dữliệu dùng để phân tích và đánh giá được chúng tơi tự mình thu thập từ nhiều nguồn đadạng và sẽ được trình bày cụ thể trong phần tham khảo.

Ngồi ra, chúng tôi cũng đã tham khảo và sử dụng các ý kiến, phân tích và dữ liệu từcác tác giả, tổ chức khác, đều đã được dẫn nguồn một cách cẩn thận. Chúng tôi sẵn sàngnhận mọi trách nhiệm về tính chính xác và trung thực của luận văn này nếu có bất kỳphát hiện gian lận nào. Đại học Bách Khoa - Đại học Quốc gia TP. Hồ Chí Minh khơngchịu trách nhiệm về các vấn đề vi phạm tác quyền hay bản quyền mà cơng trình này cóthể gây ra.

Người cam đoan

THẨM QUỐC DŨNG

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

1 Mở đầu 1

1.1 Giới thiệu đề tài . . . . 1

1.2 Đối tượng và Phạm vi nghiên cứu . . . . 1

1.3 Ý nghĩa khoa học và thực tiễn . . . . 1

1.4 Cấu trúc văn bản . . . . 2

2 Kiến thức nền tảng 32.1 Xử lý tín hiệu âm thanh . . . . 3

2.1.1 Âm thanh và Sóng âm . . . . 3

2.1.2 Tần số và Cao độ . . . . 5

2.1.3 Cường độ âm - Công suất và Độ to . . . . 6

2.1.4 Âm sắc . . . . 6

2.1.5 Âm thanh kỹ thuật số . . . . 8

2.2 Đặc trưng âm thanh cho Học máy . . . . 10

2.2.1 Trích xuất đặc trưng âm thanh . . . . 11

2.2.2 Đặc trưng âm thanh trên miền thời gian . . . . 12

2.2.3 Phép biến đổi Fourier . . . . 12

2.2.4 Đặc trưng âm thanh trên miền tần số . . . . 15

2.2.5 Biểu diễn âm thanh trên miền thời gian - tần số . . . . 16

3 Tách nguồn âm thanh 213.1 Tổng quan . . . . 21

3.1.1 Tập dữ liệu . . . . 22

3.1.2 Chuẩn đo . . . . 23

3.1.3 Multi-channel Wiener Filter . . . . 25

3.2 Khảo sát các nghiên cứu liên quan . . . . 27

3.4 Định hướng phát triển cho luận văn . . . . 37

4 Phương pháp tách nguồn nhạc hiệu quả - eCMU 404.1 Tổng quan . . . . 40

4.2 Phương pháp . . . . 41

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

2.1 Bảng thống kế cường độ âm và mức cường độ âm của các nguồn âm thanh

điển hình . . . . 6

3.1 Định nghĩa các loại mask điển hình. . . . 28

3.2 Bảng thơng tin so sánh kết quả đánh giá của các phương pháp. . . 30

3.3 Bảng thống kê số lượng tham số và hiệu năng tương ứng của từng mơ hình. 374.1 Hiệu năng của các mơ hình trên tập dữ liệu MusDB18-HQ. . . . 46

4.2 Kết quả thí nghiệm với các kích thước khơng gian ẩn khác nhau. . . . 47

4.3 Kết quả thí nghiệm với các kiến trúc khối khác nhau. . . . 47

4.4 Kết quả thí nghiệm với các cặp giá trị T và P khác nhau. . . . 47

5.1 Bảng so sánh kết quả giữa các mơ hình. . . 57

5.2 Kết quả thí nghiệm với các cặp giá trị T và P khác nhau. . . . 57

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

2.1 Ví dụ minh hoạ về sự rung của âm thoa dẫn đến sự dao động qua lại của

các phân tử trong khơng khí . . . . 3

2.2 Ví dụ minh hoạ cho dạng sóng của âm thanh được biểu diễn dưới dạng đồthị áp suất - thời gian. . . . 4

2.3 Đồ thị sóng hình sin với tần số dao động 4 Hz. . . . 5

2.4 Các đường thể hiện độ to ngang nhau theo tần số và cường độ âm. . . 7

2.5 Waveform, amplitude envelope . . . . 7

2.6 Biểu đồ thể hiện quang phổ của nốt C<sub>4</sub> . . . . 8

2.7 Minh hoạ việc lấy mẫu và lượng tử hố tín hiệu liên tục thành rời rạc. . . 9

2.8 Minh hoạ hiện tượng alias khi giảm tần suất lấy mẫu. . . . 9

2.9 Toạ đồ cầu biểu diễn cho số phức . . . . 13

2.10 Minh hoạ tín hiệu trên miền thời gian và miền tần số . . . . 14

2.11 Tín hiêu trên miền thời gian và sau khi thực hiện phép biến đổi Fouriercủa sóng tổng hơp hình sin của 2 tần số 1 Hz và 5 Hz . . . . 16

2.12 Minh hoạ trực quan của quang phổ dưới dạng biểu đồ nhiệt . . . . 17

2.13 Đồ thị biểu diễn mối liên hệ giữa tần số và mel . . . . 18

2.14 Minh hoạ các bộ lọc dải mel (triangle filters) . . . . 18

2.15 Minh hoạ mel-spectrogram bằng biểu đồ nhiệt hai chiều . . . . 18

2.16 Minh hoạ quang phổ khi phát âm các nguyên âm. . . . 19

2.17 Ngun lý hình thành tín hiệu tiếng nói. . . . 19

2.18 Mối liên hệ giữa các thành phần tạo nên tiếng nói thơng qua quang phổ. . 19

2.19 Minh hoạ về cepstrum được biến đổi từ logarith của spectrum. . . . 20

2.20 Quy trình trích xuất đặc trưng MFCC. . . . 20

3.1 Đầu vào và đầu ra của bài toán Tách nguồn nhạc. . . . 21

3.2 Mơ hình speech chain hai q trình nghe và nói của con người. . . . 22

3.3 Kiến trúc mơ hình UMX . . . . 31

3.4 Kiến trúc U-net của phương pháp Spleeter . . . . 32

3.5 Kiến trúc tổng quát Demucs và biểu diễn chi tiết của các lớp encoder vàdecoder . . . . 33

3.6 Complex as Channel Framework. . . . 34

3.7 Kiến trúc tổng qt của mơ hình TFC-TDF. . . . 34

3.8 Các khối cơ bản được sử dụng trong mô hình TFC-TDF . . . . 35

3.9 Minh hoạ về việc bị rò rỉ quang phổ ở những đoạn im lặng. . . . 38

3.10 Minh hoạ về nhiễu ở tần số cao của mơ hình Demucs. . . . 38

3.11 Minh hoạ về việc mất âm thanh tần số cao của mơ hình OpenUnmix . . . 38

3.12 Minh hoạ về việc mất âm thanh của mơ hình OpenUnmix . . . . 39

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

4.1 Kiến trúc tổng quát của phương pháp eCMU . . . . 41

4.2 Kiến trúc tổng quát của một khối conformer và các mô-đun tương ứng. . . 43

4.3 So sánh quang phổ đầu ra của các phương pháp. . . . 48

5.1 Các mẫu đặc trưng khác nhau ở các dải tần số khác nhau. . . . 50

5.2 Kiến trúc mơ hình đa mục tiêu dựa trên ResUnet . . . . 52

5.3 Kiến trúc tổng quát của một khối two-stage conformer và D2-TDF. . . 54

5.4 Biểu diễn các phổ năng lượng được tái tạo bởi mơ hình. . . . 58

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Chương 1Mở đầu

1.1Giới thiệu đề tài

Tăng cường chất lượng âm thanh (audio enhancement) và Tách nguồn âm thanh (audioseparation) là hai bài toán cơ bản trong lĩnh vực xử lý tín hiệu số, chúng có liên quan vớinhau. Cụ thể, bài tốn tăng cường âm thanh có mục tiêu là tách tín hiệu mục tiêu ra khỏinhững tín hiệu âm thanh khơng mong muốn (nhiễu, tạp âm của mơi trường, artifacts,...)hoặc thậm chí khơi phục tín hiệu âm thanh bị biến dạng (distortion sound), nhằm tạo ranhững tín hiệu âm thanh sạch, có độ sắc nét cao như khi thực hiện thu âm trong phịngthu chun nghiệp,... Trong khi đó, tách nguồn âm thanh hướng tới việc trích xuất mộthoặc nhiều nguồn âm thanh mục tiêu từ một tín hiệu âm thanh tổng hợp. Hai loại tínhhiệu âm thanh thường được quan tâm nhất là tín hiệu giọng nói (speech) và tín hiệu âmnhạc (music).

1.2Đối tượng và Phạm vi nghiên cứu

Đề tài luận văn này nghiên cứu chung về Tách nguồn âm thanh, nhưng bài tốn chínhđược chọn để hiện thực liên quan đến việc Tách nguồn nhạc. Những năm gần đây, với sựphát triển của các giải thuật Học máy trong việc giải quyết các bài toán xử lý âm thanhvà cho những kết quả cải thiện hơn so với các phương pháp truyền thống. Vì thế, chúngtơi quyết định tiếp cận bài toán này theo hướng Học máy dựa trên các tập dữ liệu mở.Trong giai đoạn đề cương, chúng tôi tập trung vào việc nghiên cứu tổng quan, khảo sátcác phương pháp tiếp cận trước đây, tìm kiếm nguồn dữ liệu. Đồng thời, chúng tơi cịnthực hiện việc đánh giá, kiểm thử kết quả, hiệu năng của các mơ hình tiêu biểu, từ đó cónhững nhận định, tạo cơ sở cho việc lựa chọn hướng tiếp cận phù hợp dựa trên điều kiệntài nguyên sẵn có của nhóm và đề xuất các hướng phát triển cho bài toán ở giai tiếp luậnvăn.

1.3Ý nghĩa khoa học và thực tiễn

Tách nguồn giọng nói được xem như kỹ thuật tiền xử lý giúp cho các hệ thống nhận diệntiếng nói tự động (Automatic Speech Recognition - ASR) cải thiện kết quả nhận diện,nhất là trong tình huống có nhiều người phát biểu cùng lúc, hoặc ở những nơi đông người.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Ngoài ra, nhu cầu của những ứng dụng, nền tảng đàm thoại, hội nghị trực tuyến thôngqua internet khá phát triển (Voice over Internet Protocol - VoIP), để có thể ngăn chặnnhững âm thanh không mong muốn từ môi trường ngồi (tạp âm, tiếng nói của nhữngngười khác) khi sử dụng ứng dụng, nhất là ở những nơi đông người thì việc áp dụng cácgiải thuật tiền xử lý âm thanh này là cần thiết (noise canceling, voice canceling).

Đối với bài toán Tách nguồn nhạc, như chúng ta đã biết, một bản nhạc hoàn chỉnh thườnglà sự kết hợp, hoà tấu bởi nhiều loại nhạc cụ khác nhau trong một dàn nhạc (piano, trống,đàn guitar, giọng hát,...), mục tiêu của bài toán là phân tách âm thanh tổng hợp của mộtbản nhạc thành từng thành phần âm thanh riêng lẻ tương ứng cho từng loại nhạc cụ cụthể (hay còn gọi là stems). Việc này có nhiều ứng dụng trong các việc phát triển các giảithuật Truy xuất thông tin nhạc (Music Information Retrieval - MIR) như là: audio/lyricsalignment, lyrics transcription, music transcription, singer identification, vocal melodyextraction. Ngồi ra, cịn có những ứng dụng khác trong mảng giải trí như giúp làm nhạcnền của karaoke hay giúp các nhạc sĩ trong việc hồ âm, phối khí bài hát.

1.4Cấu trúc văn bản

Cấu trúc văn bản của đề cương luận văn này bao gồm 3 chương. Chương 1 - Giới thiệutổng quát về bài toán, động lực, mục tiêu nghiên cứu; Chương 2 - Trình bày những kiếnthức nền cơ bản liên quan đến Âm thanh và Xử lý tín hiệu âm thanh; Chương 3 - Trìnhbày tổng quan nghiên cứu, khảo sát các phương pháp tiếp cận, các tập dữ liệu, chuẩn đođánh giá kết quả của một vài phương pháp điển hình cũng như là những đề xuất hướngphát triển cho luận văn này; Chương 4 - Trình bày mục tiêu, đóng góp cải tiến, nội dungphương pháp và phân tích kết quả đạt được cho phương pháp đề xuất thứ nhất eCMU;Chương 5 - Trình bày động lực, những đóng góp cải tiến, nội dung phương pháp và phântích kết quả đạt được cho phương pháp mơ hình đa mục tiêu; Chương 6 - Tổng kết cáckết quả đạt được, những hạn chế cũng như định hương phát triển trong tương lai.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Chương 2

Kiến thức nền tảng

2.1Xử lý tín hiệu âm thanh

2.1.1Âm thanh và Sóng âm

Âm thanh chúng ta nghe được hằng ngày là kết quả từ quá trình dao động cơ học củacác vật thể, ví dụ như: dây đàn, bề mặt trống, dây thanh của con người,... Chính sự daođộng này làm cho các phân tử khơng khí xung quanh nó chuyển động, việc chuyển độngcủa các phân tử khơng khí làm cho áp suất khơng khí dao động tăng hoặc giảm theo mộtmơ hình nhất định, lan truyền dưới dạng sóng trong khơng khí đến tai người. Các bộphận trong tai người sẽ tiếp nhận, xử lý và chuyển đổi sóng thành các xung thần kinh,các xung thần kinh này tiếp tục truyền đến và được hiểu bởi bộ não.

Về mặt trực quan, sự thay đổi áp suất khơng khí tại một điểm nhất định có thể biểu diễn

Hình 2.1: Ví dụ minh hoạ về sự rung của âm thoa dẫn đến sự dao động qua lại của cácphân tử trong khơng khí, lan truyền dưới dạng sóng dọc. Biểu đồ hình sóng hiển thị độlệch của áp suất khơng khí so với áp suất khơng khí trung bình tại một vị trí cụ thể theothời gian.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

bằng biểu đồ áp suất-thời gian, hay cịn được gọi là dạng sóng của âm thanh (waveform).Dạng sóng thể hiện độ lệch của áp suất khơng khí so với áp suất khơng khí trung bình(hình 2.2).

Một sóng cơ học có thể được mơ tả như một dao động truyền trong không gian, nơi nănglượng được truyền từ điểm này sang điểm khác. Khi có sóng truyền qua mơi trường nàođó, chất của mơi trường này bị biến dạng tạm thời. Như đã mô tả ở trên, sóng âm thanhtruyền qua các phân tử khơng khí va chạm với các phân tử xung quanh của chúng. Saukhi các phân tử khơng khí va chạm, chúng bật ra khỏi nhau. Điều này ngăn các phân tửtiếp tục di chuyển theo hướng của sóng. Thay vào đó, chúng dao động xung quanh cácvị trí gần như cố định. Nếu các phân tử dao động vng góc với phương truyền nănglượng, ta gọi đó là sóng ngang. Còn trong trường hợp, các phân tử dao động song songvới phương truyền sóng, ta gọi đó là sóng dọc.

Về mặt tốn học, sóng là dao động điều hồ được biểu diễn bằng hàm sin:

• Pha dao động ban đầu (ϕ ∈ [−π, π]): độ lệch của sóng, cho chúng ta biết vị trí củasóng tại thời điểm t = 0

Hình 2.2: Ví dụ minh hoạ cho dạng sóng của âm thanh được biểu diễn dưới dạng đồ thịáp suất - thời gian.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Hình 2.3: Đồ thị sóng hình sin với tần số dao động 4 Hz.

2.1.2Tần số và Cao độ

Tần số của sóng hình sin càng cao thì âm thanh càng cao. Dải tần số có thể nghe đượcđối với con người là từ khoảng 20 Hz đến 20,000 Hz (20 kHz). Các loài động vật khácnhau có phạm vi thính giác khác nhau. Ví dụ: cận trên trong phạm vi thính giác của chólà khoảng 45 kHz, của mèo là 64 kHz, thậm chí dơi có thể phát hiện tần số vượt quá 100kHz. Đây là lý do tại sao người ta có thể sử dụng một chiếc cịi cho chó, phát ra âm thanhsiêu âm vượt quá khả năng nghe của con người, để huấn luyện và ra lệnh cho những convật không làm phiền những người xung quanh.

Độ cao (pitch) là một đặc trưng mang tính chất chủ quan của âm thanh, khái niệm dùngcho sự cảm nhận âm thanh. Tai người không cảm nhận âm thanh một cách tuyến tínhmà phi tuyến theo hàm số logarit. Hai tần số được cảm nhận tương tự nhau nếu chúngkhác nhau 2<sup>n</sup>. Ví dụ nốt A<small>3</small> (220 Hz) và A<small>4</small> (440 Hz) được cảm nhận là như nhau. Đặctính này của âm thanh được dùng để chia một quãng tám thành 12 quãng nửa cung bằngnhau. Mối quan hệ giữa tần số và độ cao được biểu diễn bằng hàm số:

trong đó - p ∈ [0, 127] chỉ số nốt MIDI (chỉ sổ nốt của C<sub>4</sub> là 60, A<sub>4</sub> là 69), F (p) là tầnsố trung tâm tương ứng với chỉ số nốt MIDI p. Ta có tính chất F (p + 12) = 2F (p) vàF (p + 1)/F (p) = 2<small>12</small> ≈ 1.0594. Như vậy, khi nhân tần số bất kì với hệ số trên đồng nghĩavới việc ta sẽ dịch độ cao tương ứng lên nửa cung.

Tổng quát hơn, người ta dùng khái niệm cent như một đơn vị nhỏ hơn để đo sự khácnhau về cảm nhận âm thanh giữa hai tần số bất kỳ. Cụ thể, mỗi một quãng tám đượcchia thành 1200 cents, đồng nghĩa mỗi một nửa cung = 100 cents. Khi đó, sự khác nhaugiữa hai tần số được tính bằng:

Khoảng cách giữa một cent là khá nhỏ để có thể nghe ra được. Việc này phụ thuộc vàokhả năng cảm âm của mỗi người và theo độ tuổi. Ngưỡng có thể cảm nhận được (justnoticeable difference) là từ 10 cents với những người đã trải qua việc luyện cảm âm hoặccó năng khiếu bẩm sinh, cịn người trưởng thành bình thường là 25 cents.

Âm thanh trong tự nhiên là sóng tổng hợp từ nhiều sóng với các tần số dao động khácnhau. Trong đó bao gồm sóng dao động với tần số cơ bản f<sub>0</sub> (tần số dao động thấpnhất) và các thành phần sóng hamornic với tần số bằng bội số nguyên của tần số cơ bản(f<sub>1</sub> = 2.f<sub>0</sub>, f<sub>2</sub> = 3.f<sub>0</sub>,...,f<sub>n</sub> = (n − 1).f<sub>0</sub>). Thơng thường, độ cao của sóng được quy địnhbởi tần số cơ bản. Ngoài ra, tập hợp các thành phần sóng ngoại trừ f<sub>0</sub> cịn được gọi làbội âm (overtone).

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Bảng 2.1: Bảng thống kế cường độ âm và mức cường độ âm của các nguồn âm thanh điểnhình

2.1.3Cường độ âm - Cơng suất và Độ to

Công suất là mức năng lượng được truyền đi, sử dụng hoặc chuyển hóa, đơn vị đo làWatt (W). Tương tự, công suất âm thanh cho biết mức năng lượng trên một đơn vị thờigian được phát ra bởi một nguồn âm thanh truyền theo mọi hướng trong khơng khí.Khi đó, khái niệm Cường độ âm được dùng để thể hiện cơng suất âm thanh trên mộtđơn vị diện tích (W/m<small>2</small>). Trong thực tế, tai người có thể cảm nhận được âm thanh vớigiá trị cường độ âm rất nhỏ hay còn gọi là ngưỡng nghe (threshold of hearing - TOH),I<small>T OH</small> = 10<sup>−12</sup>(W/m<sup>2</sup>). Tương tự, ngưỡng đau (threshold of pain - TOP) là giá trị cườngđộ âm có thể gây đau cho người, I<sub>T OP</sub> = 10(W/m<small>2</small>). Mức cường độ âm (đơn vị: decibel -dB) cho biết tỷ lệ giữa hai giá trị cường độ âm trong thang đo logarit. Bảng 2.1 thống kêgiá trị cường độ âm và mức cường độ âm tương ứng của các nguồn âm thanh khác nhau.

dB(I) = 10. log<sub>10</sub>( <sup>I</sup>

Độ to của âm thanh là cách cảm nhận chủ động về cường độ âm. Độ to không chỉ phụthuộc vào cường độ âm mà còn phụ thuộc vào khoảng thời gian và tần số âm thanh.Ngồi ra, cịn phụ thuộc vào độ tuổi. Đơn vị đo là phon. Hình 2.4 là kết quả thí nghiệmcho thấy sự phụ thuộc giữa độ to âm thanh với tần số và mức cường độ âm, trên hìnhthể hiện những đường viền mà mỗi điểm trên đường viền đó sẽ có độ to âm thanh nhưnhau. Đơn vị phon được chuẩn hoá tại mức tần số 1000 Hz, trong đó giá trị phon bằngvới giá trị mức cường độ âm.

2.1.4Âm sắc

Hay còn gọi là màu sắc âm thanh, là đặc tính của âm thanh giúp chúng ta có thể phânbiệt được âm thanh của các loại nhạc cụ khác nhau, hay tổng quát hơn là hai âm thanhcó cùng tần số, cùng cường độ và cùng khoảng thời gian. Âm sắc là một khái niệm đachiều khó để đo lường, các nhà nghiên cứu đã cố gắng tiếp cận âm sắc bằng cách xem xétcác mối tương quan với các đặc điểm âm thanh như quá trình phát triển của âm thanh,các thành phần âm thanh và sự phân bố năng lượng của chúng.

Quá trình phát triển của âm thanh (sound envelope) có thể mơ tả bởi mơ hình ADSR(A - Attack, D - Decay, S - Sustain, R - Release). Các loại nhạc cụ khác nhau thì có qtrình phát triển âm thanh cũng khác nhau. Quan sát hình 2.5a và 2.5b khi nốt C<small>4</small> vanglên bằng piano và violin tương ứng, ta có thể thấy đối với piano biên độ tăng mạnh khi

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Hình 2.4: Các đường thể hiện độ to ngang nhau theo tần số và cường độ âm.

Hình 2.5: Waveform, amplitude envelope

búa gõ vào dây đàn, sau đó biên độ sẽ giảm từ từ và duy trì ở một mức nhất định và tiêubiến khi phím đàn được thả. Cịn trong trường hợp âm thanh tạo ra bởi violin, vì giaiđiệu được phát nhẹ nhàng với âm lượng tăng dần nên giai đoạn (A) được dàn trải, khơngcó giai đoạn (D) và giai đoạn (S) dao động không ổn định. Giai đoạn (R) xảy ra khi nhạccông ngừng kéo dây đàn. Âm thanh sau đó nhỏ dần nhanh chóng.

Với ví dụ về âm thanh được tạo ra bởi đàn violin, ta có thể thấy các biến đổi tuần hồnvề biên độ hay còn gọi là tremelo, là kỹ thuật tạo âm thanh khi chơi các nhạc cụ bộ dâyhoặc bộ khí. Ngồi kĩ thuật tremelo, trong âm nhạc thường sử dụng kĩ thuật rung nhưngmột cách truyển tải cảm xúc, bản chất là tạo ra sự thay đổi về tần số một cách có chukỳ.

Hơn hết, một tính chất để mơ tả cho âm sắc âm chính là sự tổng hợp của nhiều thànhphần sóng (tần số cơ bản f<small>0</small> và các overtones). Hình 2.6 là quang phổ (spectrogram) mơtả các thành phần âm thanh và cường độ của chúng khi chơi nốt C4 (261.6 Hz) trên đànpiano. Ta có thể thấy, các thành phần sóng có tần số 261.6n (Hz), n ∈ {1, 2, 3, ...}. Hầuhết, năng lượng tập trung vào các thành phần tần số thấp và giảm dần ở các tần số caohơn.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Hình 2.6: Biểu đồ thể hiện quang phổ của nốt C<small>4</small>

2.1.5Âm thanh kỹ thuật số

Thuật ngữ audio được sử dụng để chỉ việc truyền, nhận và tái tạo âm thanh nằm tronggiới hạn khả năng nghe của con người. Tín hiệu audio là một cách biểu diễn của âm thanhmã hóa tất cả thơng tin cần thiết để tái tạo âm thanh.

Âm thanh trong tự nhiên là các tín hiệu analog (những giá trị liên tục của thời gian vàbiên độ, biểu diễn bằng một hàm số liên tục), để có thể xử lý được bởi các phần mềmmáy tính hoặc các thiết bị số (mixer, equalizer,...) thì trước tiên các tín hiệu analog phảiđược chuyển đổi thành các tín hiệu số (digital signal - là chuỗi các giá trị rời rạc, cácđiểm dữ liệu được lấy mẫu trên một tập các giá trị cố định). Việc chuyển đổi này đượcthực hiện bởi bộ chuyển đổi có tên là Analog-to-Digital Converter (ADC) bao gồm haiquá trình sampling và quantization.

Lấy mẫu là q trình đo biên độ áp suất khơng khí tại các thời điểm cách đều nhau vềthời gian, trong đó mỗi phép đo tạo thành một mẫu (hình 2.7a). Số lượng mẫu được lấytrong một giây (sample/s) được gọi là sampling rate (đơn vị: Hz). Việc chọn samplingrate phải đảm bảo cho việc tái tạo âm thanh của bộ Digital-to-Analog Converter (DAC)và tuân theo định lý Nyquist như sau: Với một sóng tổng hợp trong đó thành phần cótần số cao nhất là f thì khi đó sampling rate ít nhất là 2f (khi sampling rate đúng bằng2f ta gọi đó là Nyquist rate). Từ đó chúng ta có thể thấy rằng, với sampling rate bằngf thì thành phần âm thanh có tần số cao nhất mà được lấy mẫu một cách xác là f /2(Nyquist frequency).

Trong trường hợp nếu q trình lấy mẫu khơng tn theo định luật trên, thì việc tái tạolại âm thanh ban đầu sẽ khơng chính xác, ta gọi đó là hiện tượng alias (hình 2.8). Trongthực tế, alias khơng phải là một vấn đề lớn bởi vì sampling rate chuẩn trong mơi trườngthu âm kỹ thuật số đủ cao để thu được tất cả các tần số trong phạm vi nghe của conngười. Tần số âm thanh cao nhất là khoảng 20 kHz. Trên thực tế, hầu hết mọi ngườikhông nghe thấy tần số cao đến mức này, vì khả năng nghe tần số cao của chúng ta giảmdần theo tuổi tác. Sampling rate của đĩa CD là 44.1 kHz gấp hơn hai lần thành phần âmthanh cao nhất mà con người có thể nghe được. Ngoài ra, các bộ chuyển đổi ADC còn ápdụng thêm các bộ lọc tần số cao hơn Nyquist frequency để tránh hiện tượng alias.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

(a) sampling (b) quantization

Hình 2.7: Minh hoạ việc lấy mẫu và lượng tử hố tín hiệu liên tục thành rời rạc.

Hình 2.8: Minh hoạ hiện tượng alias khi giảm tần suất lấy mẫu. Đường nét liền là tínhiệu gốc, đường nét đứt là tín hiệu khơi phục, chấm đỏ là các điểm lấy mẫu. (a) 12 Hz,(b) 6 Hz, (c) 3 Hz.

Lượng tử hố là q trình rời rạc hố các giá trị biên độ vào các mức giá trị nguyên(biểu diễn dưới dạng nhị phân) được xác định trước (hình 2.7b). Tập hợp các mức giá trịnguyên này được xác định bằng bit depth (số lượng bits được sử dụng cho một sample).Ví dụ đĩa CD có bit depth là 16, đồng nghĩa với việc ta có 2<small>16</small> mức giá trị. Biên độ củamẫu sẽ được làm tròn giá trị của mức giá trị gần nhất, việc này là ngun nhân gây ralỗi trong q trình số hóa (Quantization error hay là distortion).

Một khái niệm khác là Dải động (Dynamic range) là một dải biên độ thể hiện mức độchênh lệch giữa tín hiệu lớn nhất và nhỏ nhất mà hệ thống thu nhận được. Một đoạn âm

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

thanh có dải động hẹp thì sự khác biệt giữa đoạn âm thanh to và đoạn yên tĩnh sẽ nhỏ. Gíatrị của bit depth càng lớn đồng nghĩa với việc dải động cũng sẽ lớn. Với bit_depth = n thìdynamic range của đoạn audio thu được là 20 log<sub>10</sub>(<sup>2</sup><sub>1/2</sub><sup>n−1</sup>) ≈ 6.04n (signal to quantizationnoise ratio - SQNR).

2.2Đặc trưng âm thanh cho Học máy

Trước khi huấn luyện một mô hình học máy bất kỳ, chúng ta cần tiến hành trích xuất cácđặc trưng cơ bản của âm thanh (audio features). Đặc trưng âm thanh (audio features)giúp mô tả âm thanh, các loại đặc trưng khác nhau sẽ mang một loại thông tin khác nhaucủa âm thanh. Các loại đặc trưng này có thể phân loại như sau:

• Mức độ trừu tượng (Level of Abstraction):

– Mức cao: bao gồm các đặc trưng tổng quát ta có thể hiểu được như:nhạc cụ, nốtnhạc, hợp âm, giai điệu, hòa âm, tiết tấu, thể loại, tâm trạng,...

– Mức trung: bao gồm các đặc trưng chúng ta có thể cảm nhận được: độ cao, cácmô tả liên quan đến nhịp, sự kiện bắt đầu của nốt nhạc (note onset), các mẫudao động, MFCCs,...

– Mức thấp: chủ yếu là các đặc trưng về thống kê trích xuất từ audio như: tude envelope, energy, spectral centroid, spectral flux, zero-crossing rate,.. nhữngđặc trưng này gần với máy hơn con người.

ampli-• Temporal Scope: áp dụng cho audio nói chung

– Instantaneous: đặc trưng này cung cấp cho chúng ta thơng tin tức thời về tínhiệu âm thanh và thường được xem xét trong các đoạn nhỏ (chunks of audio)tầm 50 ms. Độ phân giải tối thiểu mà con người có thể cảm nhận được rơi vàokhoảng 10 ms.

– Segment-level: các đặc trưng này được trích xuất từ các phân đoạn của tín hiệuâm thanh trong phạm vi vài giây.

– Global: Đây là những đặc trưng tổng hợp cung cấp thơng tin và mơ tả cho tồnbộ đoạn âm thanh.

• Musical Aspect: Đặc tính âm thanh bao gồm nhịp, tiết tấu, âm sắc, cao độ, hồthanh, giai điệu,...

• Miền tín hiệu (Signal Domain):

– Miền thời gian: bao gồm những đặc trưng trích xuất từ dạng sóng của tín hiệm thanh thô như: Zero crossing rate, amplitude envelope, RMS energy

– Miền tần số: tín hiệu có thể được chuyển đổi thành miền tần số bằng phép biếnđổi Fourier, các đặc trưng trên miền này bao gồm: Band energy ratio, spectralcentroid, spectral flux.

– Miền thời gian - tần số: các đặc trưng này kết hợp cả trên miền thời gian vàmiền tần số của âm thanh, được biến đổi bằng phép biến đổi STFT (Short-TimeFourier Transform). Các đặc trưng điển hình như Spectrogram, mel-spectrogram,constant-Q transform,...

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

• Hướng tiếp cận Học máy (ML Approach):

– Phương pháp truyền thống: Trích xuất thủ công các đặc trưng trên cả miền thờigian để dùng làm dữ liệu đầu vào cho các mơ hình Học máy.

– Phương pháp hiện đại: dùng các biểu diễn không cấu trúc của âm thanh như:spectrogram, mel-spectrograms, MFCC hoặc thậm chí là waveform để làm dữliệu đầu vào cho các mơ hình neuron và các mơ hình sẽ tự học việc trích xuấtcác mẫu đặc trưng (patterns).

2.2.1Trích xuất đặc trưng âm thanh

Là quá trình chia chuỗi các giá trị rời rạc của âm thanh thơ mà con người có thể cảmnhận được (perceivable audio chunks). Như chúng ta đã biết, một mẫu dữ liệu tương ứngvới một khoảng thời gian rất nhỏ để con người có thể cảm nhận được (ví dụ 1 mẫu trongđoạn âm thanh có sampling rate 44.1 kHz có thời lượng là 0.0227 ms << 10 ms). Số lượngframes thường là luỹ thừa cơ số 2, việc này sẽ giúp thuận tiện cho chuyển đổi tín hiệu vềmiền tần số bằng FFT.

Rị rỉ quang phổ

Thơng thường, tín hiệu trong các đoạn frame chúng ta xử lý không nguyên lần số chu kỳ,nhất là đoạn đầu và đoạn cuối của tín hiệu thường khơng liên tục, việc này sẽ làm xuấthiện những thành phần tần số cao khơng nằm trong tín hiệu gốc ban đầu khi chúng tathực hiện phép biến đổi Fourier (artifacts). Hình ... minh hoạ cho hiện tượng này.

Là kỹ thuật dùng để giải quyết vấn đề rò rỉ quang phổ ở trên. Áp một bộ lọc vào từngframe để loại bỏ các điểm đầu và cuối, đồng thời sinh ra đoạn tín hiệu có tín chu kỳ. Mộtsố bộ lọc phổ biến như:

• Hann window: w(k) = 0.5(1 − cos(<small>2πk</small>

<small>K−1</small>)), k = 1..K• Rectangle window:

w(k) =(

• Triangle window:

w(k) =(

1 − |k| if |k| ≤ M

Tuy nhiên, việc này dẫn đến một vấn đề lớn là việc mất dữ liệu ở các đoạn nối của nhữngframe. Để giải quyết vấn này ta chia đoạn âm thanh thành từng các frame chồng lên nhau(overlapping frames)

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

2.2.2Đặc trưng âm thanh trên miền thời gian

Chỉ sổ biểu thị độ to của âm thanh, ít nhạy cảm với outliers hơn AE. Ứng dụng: audiosegmentation, music genre classification

RM S<sub>t</sub>=vuu

Zero crossing rate

Là số lần tín hiệu cắt ngang với trục hoành, ứng dụng monophonic pitch estimation, voiceactivity detection,...

ZCR<small>t</small>= <sup>1</sup>2

|sign(s(k)) − sign(s(k + 1))|

2.2.3Phép biến đổi Fourier

Tín hiệu âm thanh thường là sự tổng hợp của nhiều thành phần âm thanh. Để giúp choviệc phân tích và hiểu hơn về tín hiệu âm thanh, chúng ta sẽ tìm cách phân rã tín hiệuphức tạp thành những thành phần đơn giản hơn. Phép biến đổi Fourier dùng để chuyểnđổi tín hiệu từ miền thời gian sang miền tần số.

Ý tưởng chính đằng sau phép biến đổi Fourier là tách tín hiệu phức tạp thành các thànhphần nhỏ. Mỗi sóng thành phần có tần số dao động f ∈ R, biến đổi Fourier cho ra hệ sốd<sub>f</sub> (và pha ban đầu ϕ<sub>f</sub>). d<sub>f</sub> cho chúng ta biết sóng thành phần f có tồn tại trong tín hiệuban đầu hay khơng và đóng góp nhiều hay ít. Bản chất sóng tổng hợp là tổ hợp tuyếntính của nhiều sóng thành phần.

Hình 2.10 là ví dụ minh hoạ khi chuyển đổi tín hiệu âm thanh của nốt C<sub>4</sub> sang miền tầnsố, ta có thể thấy giá trị cao nhất nằm ở tần số f = 262 Hz, đây là tần số cơ bản củanốt C<sub>4</sub>, người ra cịn có 2 thành phần sóng có giá trị cao tiếp theo khác là f = 523 Hz vàf = 786 Hz tương ứng với thành phần sóng thứ 2 và thứ 3 của nốt C<sub>4</sub>.

Với tín hiệu liên tục f : R → R, sóng thành phần g: R → R, g = cos<small>f,ϕ</small> =√

2 cos(2π(f t −ϕ)), với f ∈ R (Hz) là tần số, pha dao động ϕ ∈ [0, 1). Để đo tính tương đồng của haihàm số f và g, ta xét tích phân:

f (t).g(t)dt

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Hình 2.9: (a) Toạ độ cầu biểu diễn số phức c = a + bi;(b) Toạ độ cầu biểu diễn số phứcdưới dạng cơng thức Euler.

Khi đó, với tần số f cố định ta có:d<sub>ω</sub> = max

f (t).g(t)dt

ϕ<sub>ω</sub> = argmax<sub>ϕ∈[0,1)</sub>Z

f (t).g(t)dt

(2.2.2)Để đặt tả Fourier bằng công thức tinh gọn hơn, ta dùng số phức. Trước tiên, chúng tacùng tìm hiểu sơ lược về số phức.

Số phức

Số phức có dạng c = a + bi, trong đó i<small>2</small> = −1, a ∈ R được gọi là phần thực, b ∈ R làphần ảo của số phức. Tập hợp số phức được ký hiệu là C. Ta có thể biểu diễn số phức cbằng điểm (a, b) trên toạ độ Descartes, trong đó trục hoành thể hiện giá trị phần thực,trục tung thể hiện giá trị phần ảo. Ngồi ra, số phức cịn có thể biểu diễn trên toạ độcực (polar coordinate) hình 2.9. Khi đó, số phức c được biểu diễn bằng |c| ≥ 0 là khoảngcách từ tâm đến c và γ ∈ [0, 2π) (tính bằng radian) là góc tạo bởi c và phần dương củatrục hoành.

|c| =<sup>√</sup>a<small>2</small>+ b<small>2</small>

γ = arctan(<sup>b</sup>a<sup>)</sup>

ta có thể viết lại:

với e<sup>iγ</sup> = cos(γ) + i sin(γ) là công thức Euler biểu diễn cho số phức. Từ định nghĩa sốphức, ta có thể gom chung d<small>f</small> và ϕ<small>f</small> thành một hệ số phức c<small>f</small> duy nhất (hệ số Fourier):

c<sub>f</sub> = √<sup>d</sup><sup>f</sup>2<sup>e</sup>

(2.2.5)

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Hình 2.10: Minh hoạ tín hiệu trên miền thời gian và miền tần số

(a) Dạng sóng của nốt C4 (261,6 Hz) được chơi trên đàn piano. (b) Phóng to phần 10ms bắt đầu từ vị trí thời gian t = 1 giây. (c-e) So sánh dạng sóng với các hình sin có tần

số f khác nhau. (f) Hệ số cường độ d<small>f</small> của từng tần số f tương ứng.

Điều này dẫn đến việc định nghĩa phép biển đổi Fourier của hàm số thực g : R → R làhàm ˆg : R → C, ˆg(f ) = c<sub>f</sub>

ˆg(f ) =

g(t).e<sup>−i2πf t</sup>dt

g(t). cos(−2πf t)dt + iZ

d<sub>f</sub> =√

2|ˆg(f )|ϕ<sub>f</sub> = −<sup>γ</sup><sup>f</sup>

<small>f ∈R≥0</small>

c<sub>f</sub>e<sup>i2πf t</sup>df

Phép biến đổi Fourier trên miền rời rạc

Tín hiệu âm thanh được lưu trữ và xử lý dưới dạng tín hiệu rời rạc. Với hàm số liên tụcg : R → R, và T là một số nguyên dương, ta có định nghĩa hàm rời rạc x : Z → R,

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

x(n) = g(n.T ). Bởi vì x là tập hợp các điểm rời rạc nên được gọi là tín hiệu rời rạc, x(n)được gọi là mẫu (sample) tại thời điểm t = n.T trên tín hiệu f , T gọi là chu kỳ lấy mẫuvà F<sub>s</sub>= 1/T (Hz) là sampling rate (đã trình bày ở phần ...).

Phép biển đổi Fourier rời rạc được định nghĩa:ˆ

x(f ) =<sup>X</sup>

x(n).e<sup>−i2πf n</sup>

≈ <sup>1</sup>T<sup>.ˆ</sup><sup>g(</sup>

Để tính tốn được ta cần điều kiện số lượng mẫu của hàm x(n) là xác định bằng N ∈ N,tương tự số mẫu trên trục tần số là M ∈ N và f = k/M , k ∈ [0, M − 1]. Trong thực tế,người ta chọn M = N ngoài lý do để đảm bảo việc biến đổi ngược khả thi cịn để tănghiệu suất tính tốn. Đặt X(k) = ˆx(k/N ) khi đó 2.2.9 có thể viết lại thành:

X(k) = ˆx(<sup>k</sup>N<sup>) =</sup>

2.2.4Đặc trưng âm thanh trên miền tần số

Band Enery Ratio

So sánh mức năng lượng ở dải băng tần cao và thấp. Ứng dụng: music/speech nation, music classification.

<small>n=1</small>m<sub>t</sub>(n)

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Hình 2.11: Tín hiêu trên miền thời gian và sau khi thực hiện phép biến đổi Fourier củasóng tổng hơp hình sin của 2 tần số 1 Hz và 5 Hz; (a) Tín hiệu gốc; (b-d) Tín hiệu saukhi đã áp dụng window function có tâm tại lần lượt tại t = 3, 5, 7.

Band Width

Tính toán dựa trên tâm quang phổ, dùng để xác định vùng tần số xung quanh tâm haychính là phương sai. Có liên quan đến việc cảm nhận âm sắc. Băng thông tỷ lệ thuận vớimức độ phân bổ năng lượng trên các dải tần số. Ứng dụng: music genre classification.

<small>n=1</small>m<sub>t</sub>(n).|n − SC<sub>t</sub>|P<small>N</small>

2.2.5Biểu diễn âm thanh trên miền thời gian - tần số

Short-Time Fourier Transform

Kết quả của phép biến đổi Fourier cho chúng ta biết thông tin về tần số trên tồn bộmiền thời gian, đồng nghĩa với việc thơng tin về thời gian khi nào các tần số xảy ra đãbị mất. Để giải quyết vấn đề này, Dennis Gabor giới thiệu giải thuật Short-Time Fouriertransform (STFT) vào năm 1946. Theo đó, thay vì xem xét trên tồn bộ tín hiệu, ta chỉxem xét trên từng đoạn nhỏ (frame) bằng các áp một hàm cửa sổ (hình 2.11) trên tín hiệugốc để thu được windowed signal sau đó thực hiện phép biến đổi Fourier cho windowedsignal, tiếp tục dịch cửa sổ dọc theo trục thời gian và thực hiện lại các bước ở trên (hình2.11).

Cho tín hiệu x(n) có chiều dài N mẫu, STFT được định nghĩa như sau:

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Hình 2.12: Minh hoạ trực quan của quang phổ dưới dạng biểu đồ nhiệt, trục hoành biểudiễn thời gian, trục tung biểu diễn tần số, mỗi điểm (t, f ) trên đồ thị thể hiện mức độtồn tại của tần số f ở thời gian t trong tín hiệu gốc, màu càng sáng thể hiện sự đóng gópcàng nhiều.

trong đó - w(n) là hàm cửa sổ có độ dài W đúng bằng kích thước của frame, m ∈ Z,k ∈ [0, K]; K = N/2 là chỉ số tương ứng với tần số Nyquist; X (m, k) là hệ số Fourier thứk của frame thứ m; H (hop size) là bước nhảy khi thực hiện phép dịch hàm cửa sổ.Ở đây, gọi S ∈ R<small>B×M</small> là một ma trận hai chiều biểu diễn bình phương độ lớn của X , hayS còn được gọi là spectrogram (quang phổ). Cụ thể:

Mel-scale: là một thang đo logarit dựa trên nguyên tắc các khoảng cách bằng nhau trênthang đó này sẽ cho sự cảm nhận âm thanh bằng nhau (hình 2.13).

m = 2595. log(1 + <sup>f</sup>500<sup>)</sup>f = 700(10<sup>(m/2595)</sup>− 1)1000 Hz = 1000 Mel

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Hình 2.13: Đồ thị biểu diễn mối liên hệ giữa tần số và mel

Hình 2.14: Minh hoạ các bộ lọc dải mel (triangle filters)

Hình 2.15: Minh hoạ mel-spectrogram bằng biểu đồ nhiệt hai chiều

(a) Chọn số lượng (K) dải mel (mel bands)

(b) Tạo ra các bộ lọc dải mel A ∈ R<sup>K×B</sup> (mel filter bands), thường dùng ở đây làtriangle filters.

(c) Áp bộ lọc dải mel vào spectrogram ta thu được mel-spectrogram Z = A.Y ∈R<sup>K×F</sup>.

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

Hình 2.16: Minh hoạ quang phổ khi phát âm các nguyên âm.

Hình 2.17: Nguyên lý hình thành tín hiệu tiếng nói.

Hình 2.18: Mối liên hệ giữa các thành phần tạo nên tiếng nói thơng qua quang phổ.

Mel-Frequency Cepstral Coefficients - MFCC

Cepstrum là kết quả của việc áp phép biến đổi Fourier ngược lên logarith của spectrumcủa một tín hiệu x(t). Hay ta có:

Giọng nói của chúng ta có tần số f<small>0</small>hay cịn gọi là tần số cơ bản và các formant f<small>1</small>, f<sub>2</sub>, f<sub>3</sub>, ....Tần số cơ bản ở nam giới khoảng 125 Hz, ở nữ là 210 Hz, đặc trưng cho cao độ giọngnói ở từng người. Thơng tin về cao độ khơng giúp ích trong phân biệt hay âm thanh, màthông tin đặc trưng cho âm thanh chủ yếu tập trung ở các formant (hình 2.16)

Ngun lý hình thành tiếng nói (hình 2.17): Khơng khí đi từ phổi (Gottal pusles), quakhí quản, lên vịm miệng. Ở vịm miệng, các rung động trong khơng khí được tổng hợp

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Hình 2.19: Minh hoạ về cepstrum được biến đổi từ logarith của spectrum. Qua quan sát,ta có thể nhận thấy rằng thành phần f<sub>0</sub> nằm tách biệt với thành phần formant của tínhiệu.

Hình 2.20: Quy trình trích xuất đặc trưng MFCC.

theo hướng cộng hưởng hoặc triệt tiêu (Vocal tract) và tạo thành âm thanh thoát ra khỏimiệng (Speech signal).

Gottal pusle tương ứng với thành phần tần số f<sub>0</sub> chúng ta cần loại bỏ, thông tin cần giữlại là formant nằm trong spectral envelope (hình 2.18)

Qua quan sát cepstrum (hình 2.19), ta nhận thấy có hai phần thông tin nằm tách biệttương ứng f 0 (1st rhamonic) và formant của tín hiệu. Ta chỉ đơn giản lấy thông tin trongđoạn đầu của cepstrum (formant) và loại bỏ đi f 0. Để tính MFCC, ta chỉ cần lấy 12 giátrị đầu tiên.

Các bước để tính tốn MFCC được mơ tả như hình 2.20. Theo đó, mỗi frame ta tríchxuất được 12 Cepstral features làm 12 features đầu tiên cho MFCC, feature thứ 13 lànăng lượng của frame đó, tính theo cơng thức:

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Chương 3

Tách nguồn âm thanh

Trong chương này, chúng tơi sẽ trình bày chi tiết về bài toán, tập dữ liệu, độ đo (metric),các phương pháp tiếp cận, khảo sát các công trình nghiên cứu liên quan, cùng các nhậnxét đánh giá về các phương pháp.

3.1Tổng quan

Tiếng nói là một trong những cách chính mà con người dùng để giao tiếp và chia sẻ thôngtin, ra đời trước cả chữ viết. Mô hình speech chain (hình 3.2) mơ tả cách con người giaotiếp là bao gồm hai q trình: tạo tiếng nói (speech production) và nhận thức tiếng nói(speech perception ) [1]. Tạo tiếng nói là một tập hợp các hoạt động cho phép một ngườinói chuyển đổi một ý nghĩ được thể hiện thông qua cấu trúc ngôn ngữ thành âm thanhdưới dạng sóng âm. Trong khi đó, Nhận thức tiếng nói là q trình xảy ra chủ yếu tronghệ thống thính giác của người nghe, bao gồm giải mã ý nghĩa của sóng âm thanh đến từngười nói. Một số yếu tố bên ngoài, chẳng hạn như tiếng ồn xung quanh, có thể có tácđộng đến lời nói. Thơng thường, những người nghe có thính giác bình thường có thể tậptrung vào một loại âm thanh mục tiêu, trong trường hợp này là tiếng nói mục tiêu, đồngthời lọc ra các âm thanh khác. Vấn đề này được gọi biết đến là cocktail party effect[2] được Cherry lần đầu giới thiệu vào năm 1953, bởi vì nó giống với tình huống xảy ratrong một bữa tiệc cocktail.

Hình 3.1: Đầu vào và đầu ra của bài toán Tách nguồn nhạc.

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Hình 3.2: Mơ hình speech chain hai q trình nghe và nói của con người.

Nhìn chung, việc có tồn tại những âm thanh không mong muốn nhất là ở mức độ cao ítnhiều sẽ làm ảnh hưởng đến chất lượng giao tiếp giữa người nghe và người nói. Tương tự,bài tốn Nhận diện giọng nói (automatic speech recognition - ASR) điển hình cũng bị ảnhhưởng bởi nhiễu. Chính vì vậy, có nhiều kỹ thuật xử lý tín hiệu số hoặc Học máy đượcphát triển (ví dụ: hearing aids and ASR front-end units) nhằm khơi phục giọng nói sạchhay tách tín hiệu giọng nói khỏi nhiễu mơi trường (speech enhancement). Các hệ thốngnâng cao giọng nói thường được thiết kế để cải thiện hai khía cạnh tri giác: chất lượnggiọng nói (speech quality) - liên quan đến cách tín hiệu giọng nói phát ra và sự dễ hiểucủa giọng nói (speech intelligibility) - liên quan đến nội dung ngơn ngữ của tín hiệu giọngnói. Ngồi ra, cịn có nhiều hệ thống u cầu việc tách tín hiệu giọng nói từ nhiều người(nhiều người nói cùng lúc), đây được gọi là bài tốn tách giọng nói (speech separation)hay tổng qt hơn là tách nguồn âm thanh (audio source separation) [3].

Về mặt toán học, bài toán tách nguồn âm thanh được đặc tả như sau: với C nguồn tínhiệu đầu vào s<sub>j</sub> ∈ R<small>T</small>, j = 1..C, ta có âm thanh tổng hợp x = P<small>C</small>

<small>j=1</small>c<sub>j</sub>.s<sub>j</sub>. Nhiệm vụcủa bài toán là đi ước tính C tín hiệu đầu ra ˆs<sub>j</sub> ∈ R<small>T</small>, j = 1..C từ tín hiệu tổng hợp xsao cho tín hiệu gốc s<small>j</small> và tín hiệu ước tính ˆs<small>j</small> phải giống nhau (được đánh giá bằng cáctiêu chí sẽ được trình bày sau). Một cách tổng quát hơn, x =P<small>C</small>

<small>j=1</small>α<small>j</small>.s<small>j</small>∗ h<small>j</small> + n, với h<small>j</small>

là Acoustic Transfer Function (ATF) của nguồn j tới đầu thu âm (microphone) và n lànhiễu (non-stationary additive noise) [4]. Đối với hướng tiếp cận học có giám sát, ta sẽcó tập dữ liệu huấn luyện: S = {x<sub>i</sub>, (s<sub>i,1</sub>, ...s<sub>i,C</sub>)}<small>n</small>

<small>i=1</small>. Dữ liệu đầu ra C nguồn âm thanhˆ

s = (ˆs<sub>1</sub>, ..., ˆs<sub>C</sub>) được ước tính sao cho cực đại hố hàm mục tiêu.

3.1.1Tập dữ liệu

Là tập dữ liệu về âm nhạc, gồm 150 bài hát (100 bài cho tập train và 50 bài cho tập test)với nhiều thể loại, khoảng 10 tiếng, trong đó có 4 nguồn âm thanh (stems): drum, bass,vocals, others (hình 3.1). Tất cả các bài hát đều là âm thanh stereo (2 channels) và có tỷlệ lấy mẫu là 44.1 kHz. Có hai phiên bản MusDB18 và MusDB18-HQ. Với MusDB18-HQlà bản không nén (uncompressed WAV files) của MusDB18, nhằm mục đích cho việc mơhình các phương pháp dự đốn trên miền tần số cao (high bandwidth) lên tới 22 kHz [5].

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Là các tập dữ liệu dùng cho bài tốn tách nguồn của tiếng nói, chúng được xây dựng dựatrên tập dữ liệu gốc WSJ0 [6]. WSJ0 là tập các bài phát biểu văn bản tin tức trên tạpchí Wall Street Journal. [7] tạo ra WSJ0-2mix và WSJ0-3mix lần lượt cho 2 và 3 người.Sau đó, [8] giới thiệu WSJ0-4mix cho 4 người và WSJ0-5mix cho 5 người. Cả 4 tập dữliệu này đều sử dụng 30 giờ âm thanh trong tập huấn luyện si_tr_s cộng với mức độnhiễu ngẫu nhiên SNR từ 0 − 5 dB. Tập test được tạo từ si_et_s và si_dt_s với 16người không nằm trong tập huấn luyện.

WHAM! và WHAMR!

Là 2 tập dữ liệu cho bài tốn phân tách giọng nói trong mơi trường có tiếng ồn và tiếngvang. Trong đó, WSJ0 Hipster Ambient Mixtures (WHAM!) là tập dữ liệu phát triển từWSJ0-2mix có tiếng ồn mơi trường. WHAMR! là tập mở rộng của WHAM! có thêm phầnphần giả lập tiếng vang sinh ra bằng pyroomacoustics [9], [10].

3.1.2Chuẩn đo

Đo lường kết quả của phương pháp tách nguồn là một vấn đề đầy thách thức. Nhìn chung,có hai cách chính để đánh giá kết quả đầu ra của phương pháp tách nguồn: khách quan(objective) và chủ quan (subjective). Đo lường khách quan là việc so sánh các tín hiệuđầu ra với các tín hiệu groudtruth bằng một chuẩn đo đánh giá nhất định. Đo lường chủquan liên quan đến việc yêu cầu người đánh giá chấm điểm cho đầu ra của hệ thống phântách nguồn.

Việc đo lường khách quan và chủ quan đều ưu nhược điểm. Đo lường khách quan gặp khókhăn vì có nhiều khía cạnh trong liên quan nhận thức của con người cực kỳ khó nắm bắtchỉ hoặc biểu diễn bằng cơng thức tốn. Tuy nhiên, cách này có ưu điểm là nhanh và íttốn chi phí hơn. Mặt khác, việc đo lường chủ quan tốn kém hơn và phụ thuộc nhiều vàongười đánh, nhưng nếu được người tham gia đánh giá nghiêm túc chúng có thể đáng tincậy hơn.

Các chiến dịch đánh giá như MIREX, CHiME [11] hoặc ra đời giúp cho việc đánh giá,tổng hợp các mô hình hiện đại dựa trên các tập dữ liệu và các chuẩn đo được định nghĩatrước. Từ đó, có thể giúp các nhà nghiên cứu nắm bắt và tiếp cận các phương pháp haynhất. Đặc biệt, SiSEC 2018 [12] tập trung vào việc đánh giá các hệ thống phân tách nguồnnhạc, đồng thời cho phát hành tập dữ liệu cộng đồng MusDB18 [5], là tập dữ liệu chuẩnđược sử dụng bởi nhiều phương pháp hiện đại tính tới thời điểm này.

Đánh giá khách quan

Source-to-Distortion Ratio (SDR), Source-to-Interference Ratio (SIR), và Source-to-ArtifactRatio (SAR) là những chuẩn đo phổ biến cho việc đánh giá các hệ thống phân tách âmthanh. Giả sử tín hiệu ước tính ˆs<sub>i</sub> được tách ra thành 4 thành phần:

s<sub>i</sub> = s<sub>target</sub> + e<sub>interf</sub> + e<sub>noise</sub>+ e<sub>artif</sub> (3.1.1)trong đó - s<small>i</small> là groundtruth, s<small>target</small> = f (s<sub>i</sub>) là phiên bản của s<sub>i</sub> sau khi biến đổi bởi hàmdisortation f ; e<sub>interf</sub>, e<sub>noise</sub> và e<sub>artif</sub> lần lượt thành phần lỗi cho interference, additivenoise, algorithmic artifact. Bốn số hạng này biểu diễn mức độ nguồn mong muốn s<sub>i</sub> được

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

biểu diễn trong ˆs<small>j</small>, từ những nguồn không mong muốn s<small>j</small>, j ̸= i, từ nhiễu của sensor vàtừ những nguyên nhân khác (burbling artifacts).

[13] đề xuất phân tách số hạng ˆs<sub>i</sub> dựa vào phép chiếu trực giao. Gọi Π{y<sub>1</sub>, y<sub>2</sub>, y<sub>k</sub>} là phépchiếu trực giao lên không giao con sinh bởi {y<sub>1</sub>, y<sub>2</sub>, ..., y<sub>k</sub>}. Ma trận chiếu có kích thướcT × T , với T là chiều dài của vector y<sub>i</sub>. Xem xét 3 phép chiếu:

• s<small>target</small> là phép chiếu trực giao của vector ˆs<sub>i</sub> lên vector s<sub>i</sub>, nên s<sub>target</sub> = ⟨s<sub>i</sub>, ˆs<sub>i</sub>⟩ <small>si</small>

<small>∥s</small><sub>i</sub><small>∥2</small>.• Việc tính e<small>interf</small> sẽ phức tạp hơn, cụ thể: Nếu các nguồn trực giao với nhau thì

e<sub>interf</sub> =P

<small>j̸=i</small>⟨s<sub>j</sub>, ˆs<sub>i</sub>⟩ <sup>s</sup><small>j</small>

<small>∥s</small><sub>j</sub><small>∥2</small>. Ngược lại, nếu P<sub>s</sub>ˆs<sub>i</sub> =P<small>n</small>

<small>j=1</small>¯c<sub>j</sub>s<sub>j</sub> = c<small>H</small>s, trong đó (.)<small>H</small> làphép chuyển vị liên hợp (Hermitian transposition) hay (A<sup>H</sup>)<sub>ij</sub> = A<sub>ij</sub> (c là số phứcliên hợp của c), khi đó c = R<sup>−1</sup><sub>ss</sub>[⟨s<sub>1</sub>, ˆs<sub>i</sub>⟩, ⟨s<sub>2</sub>, ˆs<sub>i</sub>⟩, ..., ⟨s<sub>n</sub>, ˆs<sub>i</sub>⟩]<small>H</small>, R<sub>ss</sub> là ma trận Gram,trong đó (R<sub>ss</sub>)<sub>ij</sub> = ⟨s<sub>i</sub>, s<sub>j</sub>⟩

• Việc tính tốn P<small>s,n</small> cũng tương tự, với giả sử rằng nhiễu tín hiệu vuông trực giao lẫnnhau và trực giao với mỗi nguồn, khi đó: P<sub>s,n</sub> ≈ P<sub>s</sub>sˆ<sub>i</sub>+P<small>m</small>

<small>j=1</small>⟨ˆs<sub>i</sub>, n<sub>j</sub>⟩ <sup>n</sup><small>j</small>

Sử dụng 4 số hạng này, chúng ta có thể xác định các độ đo. Tất cả các phép đo đều tínhbằng đơn vị decibel (dB), với giá trị càng cao thì càng tốt. Để tính tốn, chúng ta cầngroundtruth của tín hiệu trên các nguồn tách biệt và việc tính tốn dựa các đoạn tín hiệungắn tầm vài giây, sau đó tính trung bình cho tồn bộ đoạn tín hiệu.

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

vào tỷ lệ biên độ của tín hiệu.

uSDR(s, ˆs) = 10 log<sub>10</sub>

<small>n</small>(s<sub>l</sub>(n))<sup>2</sup> +P

<small>n</small>(s<sub>l</sub>(n) − ˆs<sub>l</sub>(n))<small>2</small>+P

<small>n</small>(s<sub>r</sub>(n) − ˆs<sub>r</sub>(n))<small>2</small>)

(3.1.9)trong đó s<sub>l</sub>(n), s<sub>r</sub>(n) lần lượt là tín hiệu sóng chân trị của kênh trái và kênh phải; ˆs<sub>l</sub>(n),ˆ

s<sub>r</sub>(n) lần lượt là tín hiệu sóng ước tính của kênh trái và kênh phải.Đánh giá chủ quan

Trong điều kiện lý tưởng, chúng ta sẽ có một số kỹ sư âm thanh được đào tạo bài bản đểđánh giá đầu ra của thuật toán trong một căn phòng xử lý âm thanh. Hay đây còn gọilà bài kiểm thử MUSHRA<small>1</small>. Tuy nhiên, điều này hiếm khi xảy ra trong thực tế do chúngkhá tốn kém.

Thay vào đó, các nghiên cứu thường tính Mean Opinion Scores (MOS), bằng cáchcho người khảo sát nghe nhẫu nhiên các mẫu âm thanh xuất ra từ mơ hình hoặc làgroundtruth, sau đó đánh giá chất lương âm thanh dựa trên một thang điểm, thường làthang điểm 5 (1: chất lượng âm thanh tệ, bị biến dạng, không nghe được; 5: âm thanhtốt, khơng bị nhiễu, biến dạng), sau đó MOS được tính trung bình trên các điểm đánhgiá [15].

3.1.3Multi-channel Wiener Filter

MWF là một giải thuật phổ biến được áp dụng trong các bài toán liên quan đến táchnguồn âm thanh trên miền tần số. Bộ lọc này có thể được đặc tả bằng toán học như sau:Nhắc lại định nghĩa về bài tốn tách nguồn âm thanh, với tín hiệu âm thanh tổng hợpx(t):

<small>1 class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

Gọi x(f, n) ∈ C<sup>I×1</sup> và c<small>j</small>(f, n) ∈ C<sup>I×1</sup> lần lượt là hệ số của phép biến đổi STFT của x(t)và c<sub>j</sub>(t), với f, n là lượt là chỉ số bin của tần số và khung thời gian. Ngoài ra, F là sốlượng frequency bins và N là số lượng time frames.

Chúng ta có giả sử rằng c<sub>j</sub>(f, n) độc lập với nhau và tuân theo phân phối Gaussian đabiến giá trị phức có trung bình bằng 0 (multivariate complex-valued zero-mean Gaussiandistribution):

c<sub>j</sub>(f, n) ∼ N<sub>c</sub>(0, v<sub>j</sub>(f, n)R<sub>j</sub>(f )) (3.1.11)ở đây v<sub>j</sub>(f, n) ∈ R<sup>+</sup> là mật độ phổ công suất (Power Spectral Density - PSD) của nguồnj ứng với tần số f và khung thời gian n; R<sub>j</sub>(f ) ∈ C<small>I×I</small> là ma trận hiệp phương sai khônggian (Spatial Covariance Matrix - SCM) của nguồn j ứng với tần số f . Ma trận I × I biểudiễn thơng tin về khơng gian bằng cách mã hố vị trí và chiều rộng trong khơng gian củanguồn tương ứng. Bởi vì phổ tổng hợp x(f, n) là tổng của các phổ thành phần c<small>j</small>(f, n),nên nó được phân phối dưới dạng:

(3.1.14)Cuối cùng, tín hiệu ước tính trên miền thời gian ˆc<sub>j</sub>(t) được hồi phục từ ˆc<sub>j</sub>(f, n) bằngiSTFT.

Thông qua việc định nghĩa ở trên, bài tốn tách nguồn âm có thể xem như bài tốn ướctính PSD và SCM cho mỗi nguồn âm. tồn này có thể giải bằng giải thuật ExpectationMaximization (EM algorithm).

Về cơ bản, giải thuật EM có thể chia thành 2 bước: bước E và bước M. Các giá trị v<sub>j</sub>(f, n)được khởi tạo ở bước spectrogram initialization hay nói cách khác giá trị này là kết quảđầu ra của mơ hình mà chúng ta xây dựng. Trong khi đó, R<sub>j</sub>(f ) được khởi tạo bằng matrận đơn vị có kích thước I × I.

Ở bước E, ứng với các giá trị v<sub>j</sub>(f, n) và R<sub>j</sub>(f ) đã được khởi tạo, ˆc<sub>j</sub>(f, n) có thể tínhthơng qua phương trình 3.1.13 và second-order raw moments of the spatial source images

R<sub>c</sub><sub>j</sub>(f, n) được tính bằng cơng thức:ˆ

R<sub>c</sub><sub>j</sub>(f, n) = ˆc<sub>j</sub>(f, n)ˆc<sup>H</sup><sub>j</sub> (f, n) + (I − W<sub>j</sub>(f, n)v<sub>j</sub>(f, n)R<sub>j</sub>(f ) (3.1.15)trong đó I là ma trận đơn vị có kích thước I × I và .<small>H</small> phép chuyển vị Hermitian.Ở bước M, SCM R<sub>j</sub>(f ) được cập nhật như sau:

R<sub>j</sub>(f ) = <sup>1</sup>N

1v<sub>j</sub>(f, n)

ˆ

</div>

×