Tải bản đầy đủ (.pdf) (32 trang)

Mã hóa băng con ứng dụng trong xử lý tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.63 MB, 32 trang )

Mã hóa băng con
ứng dụng trong xử lý tiếng Việt

Trình bày: Lê Thị Huyền Trang
1


Nội dung
1.

Lý thuyết mã hóa băng con

2.

Kiến thức cơ bản về tiếng nói

3.

Ứng dụng mã hóa băng con trong xử lý tiếng Việt

4.

Kết luận

5.

Tài liệu tham khảo
2


Mở đầu


Các hệ thống phát thanh số hiện nay trên thế giới đều dùng kỹ
thuật mã hóa băng con để nén tín hiệu âm thanh, với tỷ lệ nén rất
cao. Mã hóa băng con là một trong những thuật toán mã hóa nén
dữ liệu có tổn hao, đã được ứng dụng trong mã hóa âm thanh.
Bên cạnh đó lĩnh vực xử lý tiếng nói đặc biệt là tiếng Việt,
trong đó có tiếng Việt chính thống và tiếng các dân tộc đang được
rất nhiều các nhà khoa học quan tâm, nhà nước ta đã chi rất
nhiều tiền cho các đề tài nghiên cứu tiếng Việt. Vì vậy, tôi đã chọn
đề tài “Mã hóa băng con ứng dụng trong xử lý tiếng Việt”.

3


1. Lý thuyết mã hóa băng con

Câu hỏi:
- Mã hóa băng con là gì?
- Tại sao phải mã hóa băng con?
- Kỹ thuật mã hóa băng con như thế nào?
- Mã hóa băng con của tín hiệu tiếng nói?

4


1. Lý thuyết mã hóa băng con
Mã hóa băng con là gì?

Mã hoá băng con là quá trình phân chia tín hiệu thành
nhiều dải tần số thông qua các bộ lọc thông thấp, thông dải
và thông cao. Các dải tần này gọi là các băng con.

Các băng con này sẽ được lượng tử và mã hoá độc lập
nhau, tuỳ thuộc vào tính chất thống kê và mật độ năng lượng
của từng dải mà số bit mã hoá khác nhau.

5


1. Lý thuyết mã hóa băng con
Tại sao phải mã hóa băng con?
- Tín hiệu tiếng nói: Thông thường năng lượng của phổ tín hiệu phân bố
không đều. Năng lượng phổ tiếng nói chủ yếu tập trung ở miền tần số thấp,
còn miền tần số cao năng lượng của phổ tiếng nói rất nhỏ.
- Tín hiệu hình ảnh: Phổ năng lượng của tín hiệu hình ảnh cũng phân bố
không đều nhau vì vậy mỗi dải phổ sẽ có năng lượng khác nhau. Dải nào có
năng lượng lớn sẽ được mã hoá với số bit lớn còn dải nào có năng lượng
nhỏ sẽ được mã hoá với số bit ít hơn.

=> Nói chung các tín hiệu trong thực tế có phân bố năng lượng
là không đều nhau, vì vậy mã hoá băng con là rất thuận lợi cho
việc nén tín hiệu.
6


1. Lý thuyết mã hóa băng con
Kỹ thuật mã hóa băng con như thế nào?
- Ứng dụng quan trọng của dàn lọc số nhiều nhịp là dùng để mã hóa băng
con.
- Hệ thống lọc số nhiều nhịp: Là một hệ thống xử lý tín hiệu mà có tần số
(hay nhịp) lấy mẫu được thay đổi trong quá trình xử lý => Tăng tốc độ tính
toán của các bộ lọc.

- Gồm có:
+ Bộ lọc phân chia
+ Bộ lọc nội suy
+ Bank lọc phân tích
+ Bank lọc tổng hợp
+ Bank lọc 2 kênh QMF
7


1. Lý thuyết mã hóa băng con
Kỹ thuật mã hóa băng con như thế nào?
a. Bộ lọc phân chia

b. Bộ lọc nội suy

8


1. Lý thuyết mã hóa băng con
Kỹ thuật mã hóa băng con như thế nào?
- Bank lọc số là một tập hợp các bộ lọc số với cùng chung một đầu vào và
nhiều đầu ra hoặc nhiều đầu vào và một đầu ra.
a. Bank lọc phân tích

b. Bank lọc tổng hợp

9


1. Lý thuyết mã hóa băng con

Kỹ thuật mã hóa băng con như thế nào?
- Bank lọc QMF (bank lọc số gương cầu phương): Là sự kết hợp của bank lọc
số phân tích và bank lọc số tổng hợp với các bộ phân chia và bộ nội suy để
tạo ra bank lọc số nhiều nhịp.

10


1. Lý thuyết mã hóa băng con
Mã hóa băng con của tín hiệu tiếng nói?
- Có 2 phương pháp:
+ Cấu trúc dạng cây đơn phân giải

a) Cấu trúc dạng cây đơn phân giải của
bank lọc phân tích

b) Cấu trúc dạng cây đơn phân giải của
bank lọc tổng hợp

11


1. Lý thuyết mã hóa băng con
Mã hóa băng con của tín hiệu tiếng nói?
- Có 2 phương pháp:
+ Cấu trúc dạng cây đa phân giải

a) Cấu trúc dạng cây đa phân giải của
bank lọc phân tích


b) Cấu trúc dạng cây đa phân giải của
bank lọc tổng hợp

12


1. Lý thuyết mã hóa băng con
Mã hóa băng con của tín hiệu tiếng nói?
- Tổng hợp bank lọc 4 kênh phân tích và tổng hợp:

a) Dạng cây đơn phân giải

b) Dạng cây đa phân giải

13


2. Kiến thức cơ bản về tiếng nói

- Tiếng nói là phương tiện trao đổi thông tin
của con người.
- Bản chất tiếng nói chính là sóng âm thanh
lan truyền trong không khí.
- Tai người cảm nhận được các sóng âm có
tần số trong khoảng từ 20Hz đến 20KHz.
- Thực tế, ta có thể hạn chế dải tần số của
tín hiệu tiếng nói trong khoảng từ 300Hz
đến 3500Hz.
Mô phỏng quá trình truyền tiếng nói trong không khí


14


2. Kiến thức cơ bản về tiếng nói
- Sóng âm thanh được phân biệt thành 2 loại đặc tính: Đặc tính vật lý và đặc
tính âm học.
a) Đặc tính vật lý:
- Độ cao (Pitch)
- Cường độ
- Trường độ
- Âm sắc

b) Đặc tính âm học:
- Nguyên âm
- Phụ âm
- Tỷ suất thời gian
- Hàm năng lượng thời gian ngắn
- Tần số vượt điểm không
- Phát hiện điểm cuối
- Tần số cơ bản
- Formant

15


2. Kiến thức cơ bản về tiếng nói
-Tín hiệu tiếng nói là tín hiệu
tương tự, việc biểu diễn và lưu
trữ sao cho không bị mất mát
thông tin là vấn đề quan trọng

trong các hệ thống thông tin số
sử dụng tiếng nói.
- Biểu diễn theo dạng số tuân
theo lý thuyết lấy mẫu.
- Quá trình rời rạc hóa tín hiệu
tiếng nói gồm 3 bước:
+ Lấy mẫu (tần số f0)
+ Lượng tử hóa (q)
+ Mã hóa và nén tín hiệu
16


2. Kiến thức cơ bản về tiếng nói
- Các phương pháp mã hóa tiếng nói:
+ Mã hóa dạng sóng: Miền thời gian (PCM, DPCM, ADPCM, DM..)
Miền tần số (SBC, ATC)
+ Mã hóa nguồn
+ Mã hóa lai

17


3. Ứng dụng SBC trong xử lý tiếng Việt
- Sơ đồ khối bộ mã hóa băng con M kênh tổng quát

18


3. Ứng dụng SBC trong xử lý tiếng Việt
- Nguyên lý mã hóa băng con:

+ SBC là thuật toán dùng mô hình tâm lý thính giác để lượng tử hóa

thích nghi những thành phần tín hiệu mà tai người nghe được.
+ Tín hiệu âm thanh miền thời gian được lấy trên những khoảng
ngắn liên tiếp đưa vào bank lọc số. Bank lọc phân chia tín hiệu thành các

băng con (độ rộng và phân bố của các băng con càng gần dải tới hạn của
tai người càng tốt).
+ Sau đó lượng tử hóa và mã hóa theo từng băng (tùy thuộc vào
năng lượng tín hiệu trong băng mà mã hóa với số bit khác nhau).
19


3. Ứng dụng SBC trong xử lý tiếng Việt
- Điều kiện để tăng hệ số nén tín hiệu tiếng Việt:
+ Tăng số kênh M (tăng độ phân giải tần số), dẫn đến cấp phát bit

càng phù hợp cho các băng con.
+ Cùng số kênh, cùng mức chất lượng tín hiệu: Chọn tổ hợp phân
chia phù hợp để tăng hệ số nén.

+ Dựa vào phân bố phổ năng lượng của tín hiệu tiếng nói.

20


3. Ứng dụng SBC trong xử lý tiếng Việt
- Tiếng dân tộc Tày:
+ Là một trong các ngôn ngữ của 54 dân tộc Việt Nam.


+ Cũng là một ngôn ngữ đơn âm tiết giống tiếng dân tộc Kinh, nên không
có hiện tượng nối âm, nuốt âm hay đồng hóa xảy ra giống như tiếng Anh.
+ Năng lượng phổ tín hiệu phân bố không đồng đều: 80% năng lượng tập

trung dưới 5kHz.
+ Đối với băng hẹp từ 300Hz đến 3400Hz chất lượng tiếng nói chiếm 56%
thông tin âm thanh.

21


3. Ứng dụng SBC trong xử lý tiếng Việt
- Tiếng dân tộc Tày: Qua phân tích ta thấy phổ của tín hiệu tiếng nói trải rộng
trong khoảng 12kHz, tần số lấy mẫu tối thiểu là 24kHz. Để tiện cho quá trình
phần tích sử dụng file âm thanh đuôi *.wav, mã hóa PCM 16 bit/mẫu, mono,
tốc độ 325kbps.

22


3. Ứng dụng SBC trong xử lý tiếng Việt
- Tiếng dân tộc Tày:
+ Ví dụ minh họa formant-dải tần số được tăng cường do hiện tượng cộng
hưởng (đặc trưng cho âm sắc của mỗi nguyên âm): f0 xấp xỉ 893Hz, f1 xấp
xỉ 1891Hz, f2 xấp xỉ 3401Hz…

Hình vẽ: Biểu diễn formant f0, f1, f2 (nữ)

23



3. Ứng dụng SBC trong xử lý tiếng Việt
- Ứng dụng SBC (88444) trong xử lý tiếng Việt: Từ các phân tích ngôn
ngữ trên luận văn chọn tổ hợp phân chia [88444] để phân chia tín hiệu

thành 5 băng con:
Băng 1: Dải tần từ 0Hz đến 1378Hz
Băng 2: Dải tần từ 1378Hz đến 2756Hz

Băng 3: Dải tần từ 2756Hz đến 5513Hz
Băng 4: Dải tần từ 5513Hz đến 8269Hz
Băng 5: Dải tần từ 8269Hz đến 11025Hz

24


3. Ứng dụng SBC trong xử lý tiếng Việt
- Sơ đồ mã hóa băng con 5 kênh:

25


×