ỨNG DỤNG CỦA LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN XỬ LÝ TIẾNG NÓI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (263.98 KB, 26 trang )

LỜI MỞ ĐẦU
Lý thuyết tập thô được Balan Zdzilaw Pawlak đề xuất ra vào đầu những năm 80
của thế kỷ 19. Nó cung cấp một công cụ để phân tích, suy diễn dữ liệu không chính
xác để phát hiện ra mối quan hệ giữa các đối tượng và những tiềm ẩn trong dữ liệu.
Một hướng tiếp cận mới về tính không chắc chắn và không chính xác của dữ liệu.
Ngay từ khi mới ra đời, lý thuyết tập thô đã thu hút được nhiều sự quan tâm và
ngày càng được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau của khoa học máy
tính. Lý thuyết tập thô là cơ sở quan trọng cho lĩnh vực trí tuệ nhân tạo và khoa
học nhận thức, đặc biệt có ý nghĩa trong các lĩnh vực như học máy, phát hiện tri
thức, phân tích quyết định, phương pháp suy diễn và nhận dạng mẫu. Tập thô cũng
có đóng góp quan trọng trong các lĩnh vực hệ chuyên gia, hệ hỗ trợ quyết định và
khai phá dữ liệu, Web ngữ nghĩa…
Dưới sự hướng dẫn của giảng viên: Ths: An Văn Minh nhóm 16 chúng em đã tìm
hiểu về đề tài “ỨNG DỤNG CỦA LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN
XỬ LÝ TIẾNG NÓI”.
Do thời gian, cũng như luợng kiến thức và tài liệu tìm kiếm hạn chế nên bài làm
của nhóm còn nhiều thiếu sót mong thầy và các bạn góp ý để bài làm của chúng em
đuợc hoàn chỉnh hơn.

1

MỤC LỤC

Chương I:Cơ sở lý thuyết
1.Giới thiệu
Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi Z. Pawlak và
nhanh chóng được xem như một công cụ xử lý các thông tin mơ hồ và không chắc
chắn. Phương pháp này đóng vai trò hết sức quan trọng trong lĩnh vực trí tuệ nhận
tạo và các ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy
học, thu nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở

dữ liệu, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và
nhận dạng.
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần
phải có thông tin về mọi đối tượng trong tập vũ trụ. Ví dụ, nếu các đối tượng là
những bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thành
thông tin về bệnh nhân. Như vậy tập thô có quan điểm hoàn toàn khác với quan
điểm truyền thống của tập hợp, trong đó mọi tập hợp đều được định nghĩa duy nhất
bởi các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử của
tập hợp. Rõ ràng, có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào
đó, và ta nói chúng có quan hệ bất khả phân biệt với nhau. Đây chính là quan hệ
mấu chốt và là điểm xuất phát của lý thuyết tập thô : biên giới của tập thô là không
rõ ràng, và để xác định nó chúng ta phải đi xấp xỉ nó bằng các tập hợp khác nhằm
mục đích cuối cùng là trả lời được (tất nhiên càng chính xác càng tốt) rằng một đối
2

tượng nào đó có thuộc tập hợp hay không. Lý thuyết tập thô với cách tiếp cận như
vậy đã được ứng dụng trong rất nhiều lĩnh vực của đời sống xã hội.

3

2.Các Khái Niệm Cơ Bản
2.1 Hệ Thông Tin
Một tập dữ liệu thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện cho một
trường hợp, một sự kiện, một bệnh nhân hay đơn giản là một đối tượng. Mỗi cột
của bảng thể hiện một thuộc tính (là một giá trị, một quan sát, một đặc điểm, …)
được “đo lường” cho từng đối tượng. Ngoài ra giá trị của thuộc tính cũng có thể
được cung cấp bởi chuyên gia hay bởi người sử dụng. Một bảng như vậy được gọi
là một hệ thông tin.

Một cách hình thức, hệ thông tin là một cặp A = (U, A) trong đó U là tập hữu
hạn không rỗng các đối tượng và được gọi là tập vũ trụ, A là tập hữu hạn không
rỗng các thuộc tính sao cho a : U → Va với mọi a ∈ A. Tập Va được gọi là tập giá
trị của thuộc tính a.
Ví dụ 1: Bảng dữ liệu trong Bảng 1dưới đây cho ta ví dụ về một hệ thông tin.

Ngà
y
D1
D2
D3
D4
D5
D6
D7
D8
D9

Thời Tiết

Nhiệt Độ

Độ Ẩm

Gió

Nắng
Mưa
Nắng
Nhiều Mây

Nắng
Mưa
Nhiều Mây
Nắng
Mưa

Nóng
Lạnh
Dễ Chịu
Dễ Chịu
Nóng
Lạnh
Dễ Chịu
Dễ Chịu
Lạnh

Cao
Trung Bình
Trung Bình
Thấp
Cao
Thấp
Cao
Trung Bình
Cao

Mạnh
Mạnh
Nhẹ
Nhẹ

Mạnh
Mạnh
Nhẹ
Mạnh
Mạnh

Bảng 1: hệ thông tin.

4

2.2 Hệ Quyết Định.
Tập vũ trụ được phân chia thành các tập đối tượng con bởi một tập các thuộc tính
phân biệt được gọi là tập thuộc tính quyết định. Nói cách khác tập vũ trụ đã được
phân lớp bởi thuộc tính quyết định. Hệ thông tin trong trường hợp này được gọi là
một hệ quyết định. Như vậy hệ quyết định là một hệ thông tin có dạng A = (U, C ∪
D) trong đó A = C ∪ D, C và D lần lượt được gọi là tập thuộc tính điều kiện và tập
thuộc tính quyết định của hệ thông tin.
Ví dụ 2 : Bảng 2 dưới đây thể hiện một hệ quyết định, trong đó tập thuộc tính
điều kiện giống như trong Bảng 1 và một thuộc tính quyết định {Mùa } được thêm
vào nhận hai giá trị kết xuất là “Xuân”, “Hạ”, “Thu”, “Đông”.
Ngà
y
D1
D2
D3
D4
D5
D6
D7

D8
D9

Thời Tiết

Nhiệt Độ

Độ Ẩm

Gió

Mùa

Nắng
Mưa
Nắng
Nhiều Mây
Nắng
Mưa
Nhiều Mây
Nắng
Mưa

Nóng
Lạnh
Dễ Chịu
Dễ Chịu
Nóng
Lạnh
Dễ Chịu

Dễ Chịu
Lạnh

Cao
Trung Bình
Trung Bình
Thấp
Cao
Thấp
Cao
Trung Bình
Cao

Mạnh
Mạnh
Nhẹ
Nhẹ
Mạnh
Mạnh
Nhẹ
Mạnh
Mạnh

Hạ
Đông
Thu
Xuân
Hạ
Đông
Xuân

Thu
Đông

Bảng 2: hệ quyết định.

5

2.3 Quan Hệ Bất Khả Phân Biệt
2.3.1 sự dư thừa thông tin
Một hệ quyết định (hay một bảng quyết định) thể hiện tri thức về các đối tượng
trong thế giới thực. Tuy nhiên trong nhiều trường hợp bảng này có thể được tinh
giảm do tồn tại ít nhất hai khả năng dư thừa thông tin sau đây :
Nhiều đối tượng giống nhau, hay không thể phân biệt với nhau lại được thể hiện lặp
lại nhiều lần.
Một số thuộc tính có thể là dư thừa, theo nghĩa khi bỏ đi các thuộc tính này thì
thông tin do bảng quyết định cung cấp mà chúng ta quan tâm sẽ không bị mất mát.
Ví dụ 3 : Trong bảng ở Bảng 1, nếu chúng ta chỉ quan tâm tới tập thuộc tính {Nhiệt
độ, Thời tiết, Độ ẩm} của các đối tượng thì ta sẽ có nhận xét : có thể bỏ đi thuộc
tính “Độ ẩm” mà thuộc tính “Nhiệt độ” , “Thời tiết” nhận hai giá trị “Nóng”,
“Nắng” thì có thể nói ngay rằng giá trị của nó tại thuộc tính “Độ ẩm” là “Cao”.
Ngà
y
D1
D2
D3
D4
D5
D6
D7

D8
D9

Thời Tiết

Nhiệt Độ

Độ Ẩm

Gió

Nắng
Mưa
Nắng
Nhiều Mây
Nắng
Mưa
Nhiều Mây
Nắng
Mưa

Nóng
Lạnh
Dễ Chịu
Dễ Chịu
Nóng
Lạnh
Dễ Chịu
Dễ Chịu
Lạnh

Cao
Trung Bình
Trung Bình
Thấp
Cao
Thấp
Cao
Trung Bình
Cao

Mạnh
Mạnh
Nhẹ
Nhẹ
Mạnh
Mạnh
Nhẹ
Mạnh
Mạnh

Bảng 1: hệ thông tin

6

2.3.2 Quan Hệ Tương Đương-Lớp Tương Đương
Chúng ta bắt đầu xem xét vấn đề dư thừa thông tin nói trên qua khái niệm quan hệ
tương đương. Một quan hệ hai ngôi R ⊆ XxX được gọi là quan hệ tương đương khi
và chỉ khi :

R là quan hệ phản xạ : xRx, ∀x ∈ X.
R là quan hệ đối xứng : xRy ⇒ yRx, ∀x, y ∈ X.
R là quan hệ bắc cầu : xRy và yRz ⇒ xRz, ∀x, y, z ∈ X.
Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp
tương đương, trong đó lớp tương đương của một đối tượng x là tập tất cả các đối
tượng có quan hệ R với x.
Tiếp theo, xét hệ thông tin A = (U, A). Khi đó mỗi tập thuộc tính B ⊆ A đều
tạo ra tương ứng một quan hệ tương đương IND A :
IND A (B) = {( x, x' ) ∈ U 2 | ∀a ∈ B, a( x) = a( x' )}
IND A (B) được gọi là quan hệ B -bất khả phân biệt. Nếu ( x, x' ) ∈ IND A
(B) thì các đối tượng x và x' là không thể phân biệt được với nhau qua tập thuộc
tính B. Với mọi đối tượng x ∈ U, lớp tương đương của x trong quan hệ IND A (B)
được kí hiệu bởi [ x]. Nếu không bị nhầm lẫn ta viết IND(B) thay cho IND A (B).
Cuối cùng, quan hệ B -bất khả phân biệt phân hoạch tập đối tượng U thành các lớp
tương đương mà ta kí hiệu là U | IND( B).
Ví dụ 4 : Tập thuộc tính {Thời tiết,Nhiệt dộ,,Độ ẩm} trong Bảng 1 phân tập đối
tượng {1,2,...,9} thành tập lớp tương đương sau : U | IND( B) = {{1,5}, {2 }, {3,8},
{4},{7},{6},{9} }

7

Ta thấy, chẳng hạn, do đối tượng 1 và đối tượng 5 thuộc cùng một lớp tương
đương nên chúng không phân biệt được với nhau qua tập thuộc tính {Thời tiết,
Nhiệt độ, Độ ẩm}.
2.3.3. Thuật toán xác định lớp tương đương
Vào:
Tập đối tượng B.
Tập thuộc tính O.
Ra:

Tập các lớp tương đương L.
Thuật toán :
Bước 1: L = ∅
Bước 2: Nếu O = ∅
Thì : Thực hiện bước 5.
Ngược lại : Thực hiện bước 3.
Hết nếu
Bước 3: Xét x ∈ O
P = {x}
O = O \ {x}
Với mọi phần tử y ∈ O :
Nếu x và y không thể phân biệt được qua tập thuộc tính B
Thì : P = P ∪ {y}
8

O = O \ {y}
Hết nếu
Hết với mọi
L = L ∪ {P}
Bước 4: Thực hiện bước 2.
Bước 5: Kết thúc.

2.4 Xấp xỉ tập hợp
Như trên đã nói, một quan hệ tương đương cho ta một sự phân hoạch các đối tượng
của tập vũ trụ. Các lớp tương đương này có thể được sử dụng để tạo nên các tập
con của tập vũ trụ. Các tập con này thường chứa các đối tượng có cùng giá trị tại
tập các thuộc tính quyết định. Trong trường hợp này ta nói rằng các khái niệm, hay
tập các giá trị tại tập các thuộc tính quyết định, có thể được mô tả một cách rõ ràng
thông qua tập các giá trị tại tập các thuộc tính điều kiện.

Để làm rõ ý tưởng quan trọng này ta xem ví dụ dưới đây.
Ví dụ 5 : Xét hệ quyết định điều tra vấn đề da cháy nắng sau đây:
STT
1
2
3
4

Trọng Lượng
Nhẹ
Nhẹ
Nặng
Trung Bình

Dùng Thuốc
Có
Có
Không
Không

Kết Quả
Không cháy nắng
Không cháy nắng
Cháy nắng
Không cháy nắng

Bảng 3: Một hệ quyết định điều tra vấn đề da cháy nắng

Trong hệ quyết định trên, thuộc tính Kết quả là thuộc tính quyết định và hai thuộc
tính giữa là thuộc tính điều kiện. Tập thuộc tính điều kiện C = {Trọng lượng, Dùng

thuốc} phân hoạch tập các đối tượng thành các lớp tương đương :
U|IND(C)={{1,2},{3},{4}}
9

Nhận xét rằng tất cả các đối tượng thuộc cùng một lớp tương đương đều có
cùng giá trị tại thuộc tính quyết định. Do đó ta có thể mô tả thuộc tính quyết định
như sau :
Kết quả sẽ là không cháy nắng nếu và chỉ nếu trọng lượng là nhẹ và có dùng
thuốc hoặc trọng lượng trung bình và không dùng thuốc.
Kết quả sẽ là cháy nắng nếu và chỉ nếu trọng lượng là nặng và không dùng thuốc.
Ta nói hai khái niệm Cháy nắng và Không cháy nắng trong thuộc tính Kết
quả có thể được định nghĩa rõ ràng qua 2 thuộc tính Trọng lượng và Dùng thuốc.
Tuy vậy không phải lúc nào cũng có thể định nghĩa một khái niệm nào đó một cách
rõ ràng như vậy.
Ta có những khái niệm sau:
Cho hệ thông tin A = (U, A), tập thuộc tính B ⊆ A, tập đối tượng X ⊆ U.
Chúng ta có thể xấp xỉ tập hợp X bằng cách chỉ sử dụng các thuộc tính trong B từ
việc xây dựng các tập hợp B -xấp xỉ dưới và B -xấp xỉ trên được định nghĩa như
sau :
B -xấp xỉ dưới của tập X : BX- ={x |[x]B ⊆ X}
B -xấp xỉ trên của tập X : BX+ = {x |[x]B ∩ X ≠∅}
Tập hợp BX- là tập các đối tượng trong U mà sử dụng các thuộc tính trong
B ta có thể biết chắc chắn được chúng là các phần tử của X.
Tập hợp BX+là tập các đối tượng trong U mà sử dụng các thuộc tính trong B
ta chỉ có thể nói rằng chúng có thể là các phần tử của X.
Tập hợp BNB (X) = BX+ \BX- được gọi là B -biên của tập X và chứa
những đối tượng mà sử dụng các thuộc tính của B ta không thể xác định được
chúng có thuộc tập X hay không.
10

Tập hợp U \ BX được gọi là B -ngoài của tập X , gồm những đối tượng mà
sử dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X.
Một tập hợp được gọi là thô nếu đường biên của nó là không rỗng, ngược lại
ta nói tập này là rõ. Lưu ý rằng do khái niệm biên của một tập đối tượng gắn liền
với một tập thuộc tính nào đó nên khái niệm thô hay rõ ở đây cũng gắn liền với tập
thuộc tính đó.
Trong đa số trường hợp, người ta luôn muốn hình thành các định nghĩa của
các lớp quyết định từ các thuộc tính điều kiện.

2.5 Sư phụ thuộc giữa các tập thộc tính
Một vấn đề quan trọng trong phân tích dữ liệu là khám phá sự phụ thuộc giữa các
thuộc tính. Một cách trực giác, một tập thuộc tính D được cho là phụ thuộc hoàn
toàn vào tập thuộc tính C, ký hiệu C ⇒ D, nếu tất cả các giá trị của các thuộc tính
trong D có thể được xác định duy nhất bởi các giá trị của các thuộc tính trong C.
Nói cách khác, D phụ thuộc hoàn toàn vào C nếu tồn tại một ánh xạ từ các giá trị
của tập C tới các giá trị của tập D. Khái niệm phụ thuộc thuộc tính được thể hiện
dưới dạng hình thức như sau:
Cho C và D là các tập con của tập thuộc tính A. Ta nói D phụ thuộc C với
độ
phụ thuộc k (0 ≤ k ≤1), kí hiệu C

⇒k D nếu :

k=ảnh long gõ
được gọi là C -vùng dương của D. Đây là tập các đối tượng của U mà bằng cách sử
dụng tập thuộc tính C ta có thể phân chúng một cách duy nhất vào các phân hoạch
của U theo tập thuộc tính D.
Dễ dàng thấy rằng :

11

Nếu k = 1 thì ta nói D phụ thuộc hoàn toàn vào C, ngược lại nếu k < 1 thì ta nói D
phụ thuộc một phần vào C với độ phụ thuộc k.
Có thể nhận thấy rằng nếu D phụ thuộc hoàn toàn vào C thì IND(C) ⊆
IND(D). Điều này có nghĩa là các phân hoạch tạo ra bởi tập thuộc tính C mịn hơn
các phân hoạch tạo ra bởi D.

2.6 Rút gọn thuộc tính.
Trong phần 2.3 chúng đã đề cập đến hai khả năng dư thừa trong một hệ thông tin,
đó là :
Các đối tượng giống nhau theo một tập thuộc tính đang quan tâm được lặp lại nhiều
lần.
Một số thuộc tính có thể được bỏ đi mà thông tin chúng ta đang quan tâm do bảng
quyết định cung cấp vẫn không bị mất mát.
Với trường hợp thứ nhất, khái niệm lớp tương đương hiển nhiên cho ta một
tiếp cận tự nhiên trong việc tinh giảm thông tin cần lưu trữ trong một hệ thông tin :
chỉ cần sử dụng một đối tượng để đại diện cho mỗi lớp tương đương. Trong phần
này chúng ta nghiên cứu tiếp cận cho loại dư thừa thông tin thứ hai, đó là chỉ giữ
lại những thuộc tính bảo toàn quan hệ bất khả phân biệt, và do đó bảo toàn khả
năng xấp xỉ tập hợp trong một hệ thông tin.
Xét hệ thông tin A = (U, A) và hai tập thuộc tính P, Q ⊆ A. Thuộc tính a ∈
P được gọi là có thể bỏ được (dispensible) trong P nếu IND(P) = IND(P −{a}),
ngược lại ta nói a là không thể bỏ được (indispensible) trong P. Rõ ràng thuộc tính
có thể bỏ được không làm tăng / giảm khả năng phân loại khi có / không có mặt
thuộc tính đó trong P. Tập tất cả các thuộc tính không thể bỏ được trong P được
gọi là lõi (core) của P, ký hiệu CORE(P). Lưu ý rằng lõi có thể là tập rỗng, và khi
đó mọi tập con của P với lực lượng bằng card (P) − 1 đều giữ nguyên khả năng
phân loại của P.

12

Khi loại ra khỏi P một số thuộc tính có thể bỏ được thì ta được một tập rút
gọn của P. Nói cách khác, rút gọn của một tập thuộc tính P là tập thuộc tính B ⊆ P
giữ nguyên khả năng phân loại của P, hay IND(B) = IND(P). Dễ dàng thấy rằng, vì
lõi của P là tập các thuộc tính không thể bỏ được của P nên tất cả các rút gọn của P
đều chứa tập thuộc tính lõi.
Một rút gọn B của tập thuộc tính P được gọi là rút gọn hoàn toàn nếu với
mọi tập
thuộc tính B'⊂ B, B ' không là rút gọn của P. Như vậy rút gọn hoàn toàn là tập
thuộc tính nhỏ nhất trong tất cả các rút gọn có thể có của P và được ký hiệu là
RED(P).
Tính chất : Tập thuộc tính lõi của P là giao của tất cả các rút gọn hoàn toàn
của P, tức là

CORE(P) = ∩ RED(P).

POS{P− a}(Q), ngược lại là Q - không thể bỏ được (Q-indispensible). Tập tất
cả các thuộc tính Q - không thể bỏ được trong P được gọi là Q - lõi tương đối (Q
- relative core) Thuộc tính a được gọi là Q - có thể bỏ được (Q - dispensible)
trong P nếu POSP(Q) = của P hay Q - lõi (Q - core) của P và được ký hiệu là
COREQ (P).
Tập thuộc tính B ⊆ P được gọi là Q - rút gọn (Q - reduct) của P khi và chỉ
khi POSB (Q) = POSP (Q). Một tập Q - rút gọn B của P là Q - rút gọn hoàn toàn
nếu với mọi tập thuộc tính B'⊂ B, B ' không là Q - rút gọn của P. Như vậy, Q rút gọn hoàn toàn của P là tập thuộc tính nhỏ nhất trong tất cả các Q - rút gọn của
P và được ký hiệu là REDQ (P).
Tính chất : Tập thuộc tính Q - lõi của P là giao của tất cả các tập thuộc tính
Q -rút gọn tương đối của P , tức là : COREQ(P) = ∩ REDQ(P).

13

2.7 Ma trận phân biệt.
Định nghĩa : Xét hệ thông tin Σ = (U, A) giả sử B ⊆ A . Ta định nghĩa ma trận B phân biệt được, kí hiệu M(B), là ma trận đối xứng cấp n× n mà mỗi phần tử của nó
được xác định như sau: cij = { } a ∈ B : a(xi ) ≠ a(x j ) , i, j = 1,n .
Mỗi phần tử của ma trận cij là tập hợp các thuộc tính để phân biệt hai đối
tượng xi và xj.

14

Chương II: Ứng dụng của lý thuyết tập thô trong bài toán xử lý
tiếng nói.
1.Tổng quan.
Âm thanh là dạng tín hiệu tương tự, nhưng để có thể lưu trữ trên máy tính
cũng như làm máy tính có thể hiểu được nó thì nó phải được số hóa. Dữ liệu âm
thanh co hai dạng chính là âm thanh nén và âm thanh không nén. Âm thanh dạng
nén cũng có hai loại là nén có sự mất mát và nén không có sự mất mát.
Để chuyển âm thanh từ dạng tương tự về dạng số, thì âm thanh cần được lấy
mẫu. Trong xử lý tín hiệu thì lấy mẫu là chuyển đổi một tín hiệu liên tục thành một
tín hiệu rời rạc. Có thể hiểu đơn giản là biến dổi một sóng âm thanh thành một
chuỗi các mẫu, mỗi mẫu chứa một giá trị hoặc một tập hợp giá trị trên trục thời
gian.

2. Vector đặc trưng trong xử lý tiếng nói
Tiếng nói thu được vốn có kích thước khán lớn, máy tính cá nhân gần như
không đủ bộ nhớ cho quá trình xậy dựng mô hình cũng như nhận dạng lượng dữ
liệu lớn đó.
Để giải quyết vấn đề trên người ta chỉ tríc rút ra những thông tin cần thiết

nhất từ dãy tín hiệu mà ta thu được. Các tín hiệu này được gọi là đặc trưng của tín
hiệu gốc hay tín hiệu âm thanh. Các đặc trưng nayfphair thỏa mãn các điều kiện
sau:
-

Nhỏ hơn nhiều lần so với tín hiệu gốc.
Có khả năng diễn đạt thông tin tiếng nói ban đầu.
Ít thay đổi theo môi trường, độ ồn của nền.

Có nhiều đặc chưng, nhưng ta có thể chia làm ba nhóm đặc chưng chính:
15

Đặc trưng trích ra nhờ sự mô phỏng bộ máy phát âm của con người. Các đặc
trưng của nhóm này sử dụng phương pháp dự báo tuyến tính để rút ra các đặc
trưng. Các đặc trưng của nhóm này như:
-

COR: được đưa ra bới Box và Jenkins năm 1976.
LPC: được đưa ra bởi Atal và Itakura những năm 1970.

Đặc trưng được trích ra nhờ kha năng cảm nhận thính giác của con người. Các
đặc trưng của nhóm này sử dụng phương pháp phân tích cepstral(phép biến đổi
fourier của phổ năng lượng tín hiệu). Các đặc trưng của nhóm này như:
-

LSP: đưa ra bởi Fumitada và Itakura những năm 1970.
MFCC: đưa ra bới Bridle và Brow những năm 1970.

Đặc trưng được dựa trên âm học về cao độ, ngữ điệu, dấu nhấn, thíc hợp cho

nhận dạng ngôn ngữ nói.
Các đặc trưng của nhóm 3 ít được sử dụng cho nhận dạng âm tiết mà đa phần là
hai nhóm đầu.

3. Lấy mẫu.
Hàm lấy mẫu là cầu nối giữa các hệ thống rời rạc và các hệ thống liên tục. Nó còn
được gọi là: hàm Dirac Delta, hàm sàng lọc,…
Đối với máy tính, lấy mẫu chỉ đơn giản là cứ theo một chu kỳ thời gian (đối
với tín hiệu âm thanh và các dạng tương tự), hay là chu kỳ không gian

(đối với tín

hiệu là ảnh và các dạng tương tự) ta đo tín hiệu một lần.
Quá trình trên sẽ tạo ra một chuỗi các số biểu diễn cho tín hiệu, và có thể xử lý
được bởi máy tính.

16

Hình 1: Ví dụ về lấy mẫu tín hiệu f(t) trên miền thời gian

4.lọc tín hiệu.
Bộ lọc số có vai trò rất quan trọng trong xử lý tiếng nói, chúng được dùng
với 2 mục đích chính:
Tách tín hiệu cần thiết: Các tín hiệu ban đầu thường chứa đựng các nhiễu
hoặc các tín hiệu không mong muốn khác, các nhiễu này làm giảm đáng kể chất
lượng của tín hiệu và cần phải tách riêng các tín hiệu cần thiết.
Ví dụ: Đối với âm thanh được thu, tín hiệu âm thường chứa thêm các tếng ồn
của môi trường, chẳng hạn như tếng ồ ồ của quạt trần thổi vào micro; còn đối với
ảnh chụp thì là các điểm lốm đốm trên những tấm ảnh cũ khi được quét vào….

Khôi phục các tín hiệu bị biến dạng: Có một số trường hợp vì một nguyên
nhân nào đó (thường là nguyên nhân liên quan đến thiết bị) sẽ tạo ra các tín hiệu
vào bị méo mó. Vì vậy cần phải chỉnh lại để tăng chất lượng của tín hiệu số.
Ví dụ: Các micro cũ sẽ cho ra các tín hiệu âm thanh không tốt; “con mắt”
(forcus len) của các máy quét bị mờ sẽ làm cho các ảnh được quét bị mờ theo.
Trong thực tế kỹ thuật, có hai bộ lọc tuyến tính dùng để lọc tín hiệu:

17

Bộ lọc đáp ứng xung hữu hạn (Finite Impulse Response – FIR): hệ có tín
hiệu ra chỉ phụ thuộc vào tín hiệu vào nên các hệ này còn được gọi là mạch không
truy hồi hay mạch không đệ qui (non-recursive).
Bộ lọc đáp ứng xung vô hạn (Infinite Impulse Response – IIR): hệ xử lý
có đáp ứng xung có độ dài vô hạn hay đáp ứng xung vô hạn. Tín hiệu ra không
những chỉ phụ thuộc vào tín hiệu vào mà còn phụ thuộc vào quá khứ của chính tín
hiệu ra, vì vậy chúng còn được gọi là các mạch có truy hồi hay đệ qui.

5. rút trích đặc trưng.
Đối với một hệ nhận dạng tiếng, việc rút trích vector đặc trưng của tiếng nói
là cần thiết. Điều này giúp giảm thiểu số lượng dữ liệu trong việc huấn luyện và
nhận dạng, dẫn đến số lượng công việc tính toán trong hệ giảm đáng kể. Bên cạnh
đó, việc rút trích đặc trưng còn làm rõ sự khác biệt của tiếng này so với tiếng khác,
làm mờ đi sự khác biệt của cùng hai lần phát âm khác nhau của cùng một tiếng.
Bước này thực hiện các phân tích phổ (spectral analysis) nhằm xác định các thông
tin quan trọng, đặc trưng, ổn định của tín hiệu tiếng nói, tối thiểu hóa ảnh hưởng
của nhiễu; xúc cảm, trạng thái, cách phát âm của người nói; giảm khối lượng dữ
liệu cần xử lý...

18

Sơ đồ rút trích đặc trưng tổng quát:

Hình 2: Sơ đồ rút trích vector đặc trưng tổng quát

Các bước rút trích đặc trưng:
Bước 1:làm rõ tín hiệu.
Bước 2:phân khung.
Bước 3:lấy cửa sổ.
Bước 4:phân tích đặc trưng.
Bước 5: đưa ra các vector đặc trưng.

19

Sơ đồ các bước rút trích đặc trưng:

Hình 3: Sơ đồ rút trích đặc trưng chi tiết.

6.trích trọn đặc trưng MFCC.
MFCC là phương pháp trích đặc trưng dựa trên đặc điểm cảm thụ tần số âm
của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số
trên 1kHz (theo thang tần số Mel, không phải theo Hz).

20

Đối với phương pháp MFCC, việc tính đặc trưng có sơ đồ như sau:

Hình 2.17. Các bước tính đặc trưng MFCC.

21

6.1. Tiền nhấn (Pre-emphasis):
Chúng ta biết rằng phổ tiếng nói hữu thanh có khuynh hướng suy giảm toàn bộ -6
dB/octave khi tần số tăng lên. Điều này là do khuynh hướng suy giảm -12
dB/octave của nguồn kích âm hữu thanh và tăng lên +6 dB/octave do phát âm
miệng. Do đó cần phải bù +6 dB/octave trên toàn bộ băng tần. Điều này được gọi là
pre-emphasis tín hiệu. Trong xử lý tín hiệu số, chúng ta dùng bộ lọc thông cao có
tần số cắt 3 dB ở tần số trong phạm vi từ 100 Hz đến 1k Hz. Phương trình sai phân:
y(n) = x(n) -a*x(n)
Trong đó y(n) là mẫu ra hiện tại của bộ lọc pre-emphasis, x(n) là mẫu vào hiện tại,
x(n-1) là mẫu vào trước đó và a là hằng số thường được chọn giữa 0.9 và 1. Lấy
biến z của phương trình trên:
Y(z)=X(z) -az-1X(z)=(1 -az-1)X(z)
Trong đó z-1 là toán tử trễ mẫu đơn vị. Suy ra hàm truyền H(z) của bộ lọc:
�(�)=�(�)�(�)=1−��−1

6.2. Cửa sổ hóa (Windowing):
Đầu tiên tín hiệu tiếng nói x(n) sẽ được chia thành từng frame (có thực hiện
chồng phủ một phần lên nhau -overlap) để được T frame x’t(n). Công việc cửa sổ
hoá này sẽ được thực hiện bằng cách nhân tín hiệu tiếng nói với một hàm cửa sổ.
Gọi phương trình cửa sổ hóa là w(n) (0≤ n ≤ N-1; N: số mẫu trong 1 frame tín
hiệu), khi đó tín hiệu sau khi được cửa sổ hóa là Xt(n):
Xt(n) =x’t(n).w(n)
Hàm cửa sổ thường được dựng là hàm cửa sổ Hamming:
�(�)=0.54−0.46cos(2��);�=0..�−1
22

6.3.Biến đổi Fourier nhanh (Fast Fourier Transform -FFT):
Phổ tín hiệu sau khi nhân với cửa sổ Hamming sẽ sử dụng phép biến đổi
Fourier nhanh Ta thu được biên độ phổ chứa các thông tin có ích của tín hiệu tiếng
nói. Biến đổi Fourier nhanh -FFT (Fast Fourier Transform) là thuật toán rất hiệu
quả để tính DFT của một chuỗi số. Ưu điểm là ở chỗ nhiều tính toán được lặp lại
do tính tuần hoàn của số hạng Fourier �−�2��. Dạng của DFT là:
�(�)=Σ�(�).�−�2��−1�

6.4. Lọc qua bộ lọc Mel-scale :
Các nghiên cứu về hệ thống thính giác của con người cho thấy, tai người có
cảm nhận đối với độ lớn các tần số không theo thang tuyến tính. Các đặc trưng phổ
tần số của tiếng nói được tai người tiếp nhận như ngõ ra của một dãy các bộ lọc.
Tần số trung tâm của các bộ lọc này không phân bố tuyến tính dọc theo trục tần số.
Thành phần phổ dưới 1 kHz thường được tập trung nhiều bộ lọc hơn vì nó chứa
nhiều thông tin về âm thanh hơn. Ở tần số thấp các bộ lọc băng hẹp được sử dụng
để tăng độ phân giải tần số để có được tần số cơ bản và họa tần vốn ổn định, còn ở
tần số cao các bộ lọc thông băng rộng được sử dụng để thu được các thành phần tần
số cao vốn biến động rất nhanh.
Với nỗ lực nhằm mô tả chính xác sự tiếp nhận tần số của tai người, một
thang tần số được xây dựng -thang tần số Mel dựa trên cơ sở thực nghiệm cảm
nhận nghe của người. Tần số 1 kHz được chọn là 1000 Mel. Mối quan hệ giữa
thang tần số thực (vật lý) và thang tần số Mel (sinh lý) được cho bởi công thức:
��=2595log10(1+��700)
với FMel là tần số sinh lý, đơn vị Mel; FHz là đơn vị tần số thực, đơn vị Hz.
Tần số trung tâm của bộ lọc thứ m được xác định bởi:
fm = fm-1 + Δfm
23

Trong đó:
-

fm là tần số trung tâm của bộ lọc thứ m
fm-1 là tần số trung tâm của bộ lọc thứ m -1
Δfm là băng thông của bộ lọc thứ m
Δfm được xác định: Với khoảng tần số dưới 1 kHz, thì fm được chọn sao cho
có khoảng 10 bộ lọc phân bố cách đều trong khoảng này. Với khoảng tần số
trên 1kHz, fm thường được tính bởi : fm = 1.2* fm -1.

Kết quả sau khi cho phổ tín hiệu Xt(k) qua bộ lọc ta thu được Yt(m).

6.5. Tính log năng lượng phổ:
Sau khi qua bộ lọc Mel, phổ tín hiệu Yt(m) sẽ được tính Log10 theo:
log{|Yt(m)|2}

6.6. Biến đổi Cosine rời rạc:
Bước cuối cùng để thu được các hệ số MFCC là lấy biến đổi Cosine rời rạc
của kết quả cho bởi (2.65):
��(�)(�)=Σlog{|��(�)|2}cos(�(�−12)��)��=1
Thông thường số điểm rời rạc k của biến đổi ngược này được chọn 1 ≤ k ≤
12. Các hệ số MFCC chính là số điểm rời rạc này, ta có thể có 1-12 hệ số MFCC.

24

TỔNG KẾT
Trên dây nhóm 16 chúng em đã tìm hiểu về ứng dụng của lý thuyết tập thô trong
bài toán xử lý tiếng nói qua việc trích rút vector đặc trưng bằng phương pháp

MFCC. Do thời gian có hạn cũng như việc tìm kiếm tài liệu về việc ứng dụng lý
thuyết tập thô vào bài toán nhận dạng còn gặp nhiều hạn chế nên bài tập lớn của
nhóm em còn nhiều thiếu sót, mong nhận được sự đóng góp từ thầy và các bạn
trong lớp để bài tập lớn của chúng em được hoàn thiện hơn.
Em xin chân thành cảm ơn!

25

ỨNG DỤNG CỦA LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN XỬ LÝ TIẾNG NÓI

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về