nhận dạng người nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 92 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Cung Văn Minh

NHẬN DẠNG NGƯỜI NÓI

Chuyên nghành: Kỹ thuật Máy tính và Truyền thông

LUẬN VĂN THẠC SĨ KHOA HỌC
Kỹ thuật Máy tính và Truyền thông

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. Đặng Văn Chuyết

Hà Nội- 2012

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác. Tôi cũng xin cam đoan rằng các thông
tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc.

Người cam đoan

Cung Văn Minh

Trang 2/92

LỜI CẢM ƠN
Để hoàn thành chương trình cao học và viết luận văn này.
Trước hết, tôi xin chân thành cảm ơn đến quí thầy cô
trường Đại học Bách Khoa Hà Nội, đặc biệt là những thầy cô
đã tận tình dạy bảo cho tôi suốt thời gian học tập tại trường.
Tôi xin gửi lời biết ơn sâu sắc đến Phó giáo sư – Tiến sĩ
Đặng Văn Chuyết, người đã dành rất nhiều thời gian và tâm
huyết hướng dẫn nghiên cứu và giúp tôi hoàn thành luận văn tốt
nghiệp.
Mặc dù tôi đã có nhiều cố gắng hoàn thiện luận văn bằng tất
cả sự nhiệt tình và năng lực của mình, tuy nhiên không thể tránh
khỏi những thiếu sót, rất mong nhận được những đóng góp quí
báu của quí thầy cô và các bạn.

Hà Nội, tháng 03 năm 2012
Học viên

Cung Văn Minh

Trang 3/92

MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................2
LỜI CẢM ƠN .............................................................................................................3
MỤC LỤC ...................................................................................................................4
THUẬT NGỮ VÀ TỪ VIẾT TẮT .............................................................................7
DANH MỤC HÌNH VẼ ..............................................................................................8
DANH MỤC BẢNG BIỂU ........................................................................................9

PHẦN MỞ ĐẦU .......................................................................................................10
0.1. Lý do chọn đề tài. ...........................................................................................10
0.2. Lịch sử nghiên cứu. ........................................................................................11
0.3. Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu. ............13
0.4. Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả. ...........14
0.5. Phương pháp nghiên cứu................................................................................15
CHƯƠNG 1 - GIỚI THIỆU LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI ............16
1.1. Nguồn gốc âm thanh ......................................................................................16
1.2. Các đại lượng đặc trưng cho âm thanh ..........................................................16
1.3. Bộ máy phát âm của con người......................................................................17
1.4. Cơ chế phát âm của con người .......................................................................19
1.5. Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người ................19
1.6. Tiếng nói và các đặc trưng .............................................................................21
1.6.1. Nguyên âm ..............................................................................................21
1.6.2. Các âm vị khác ........................................................................................21
1.6.3. Pitch - Tần số âm thanh...........................................................................22
1.6.4. Formants - Tần số Formants ...................................................................23
1.7. Tổng kết chương ............................................................................................25
CHƯƠNG 2 - LÝ THUYẾT NHẬN DẠNG TIẾNG NÓI ......................................26
2.1. Tổng quan lý thuyết nhận dạng lời nói ..........................................................26
2.1.1. Nhận dạng (Pattern Recognition) ............................................................26
2.1.2. Nhận dạng tiếng nói ................................................................................27
2.2. Các nguyên tắc cơ bản trong nhận dạng tiếng nói .........................................28
2.3. Quá trình nhận dạng tiếng nói ........................................................................29
2.3.1. Phân tích đặc tính (đặc trưng tiếng nói) ..................................................30
2.3.2. Phân lớp mẫu ...........................................................................................32
2.3.3. Xử lý ngôn ngữ .......................................................................................33
2.4. Các cách tiếp cận lý thuyết nhận dạng tiếng nói ............................................33
2.4.1. Tiếp cận âm thanh-ngữ âm ......................................................................34
2.4.2. Tiếp cận nhận dạng mẫu .........................................................................35

2.4.3. Tiếp cận trí tuệ nhân tạo ..........................................................................36
2.5. Các phương pháp nhận dạng tiếng nói ...........................................................38
2.5.1. Mô hình Fujisaki .....................................................................................38
2.5.2. Mô hình Markov ẩn.................................................................................42

Trang 4/92

2.5.3. Mô hình mạng nơron ...............................................................................42
2.6. Các khó khăn trong quá trình nhận dạng .......................................................45
2.6.1. Người nói độc lập và tiếng nói phụ thuộc vào ngữ cảnh ........................45
2.6.2. Tách âm tiết trong tiếng nói liên tục và sự phụ thuộc giữa các âm tiết
khác nhau trong tiếng nói liên tục .....................................................................46
2.6.3. Các nguyên âm đôi đặc trưng..................................................................47
2.6.4. Ảnh hưởng của thanh điệu tới người nói ................................................47
2.6.5. Tính không ổn định của bản thân người nói ...........................................47
2.6.6. Cải trang tiếng nói và giả giọng người khác ...........................................48
2.7. Ngữ âm tiếng việt trong nhận dạng lời nói ....................................................48
2.7.1. Đặc trưng ngữ âm của tiếng việt .............................................................48
2.7.2. Đặc trưng âm tiết tiếng việt trong nhận dạng tiếng nói ..........................50
2.8. Kết luận ..........................................................................................................52
CHƯƠNG 3 - NHẬN DẠNG NGƯỜI NÓI BẰNG MẠNG NƠ RON NHÂN TẠO
...................................................................................................................................53
3.1. Mở đầu ...........................................................................................................53
3.2. Tiền xử lý tín hiệu tiếng nói ...........................................................................53
3.3. Lý thuyết nhận dạng và mạng nơ ron.............................................................54
3.3.2. Mạng nơ ron nhân tạo .............................................................................54
3.4. Hướng tiếp cận của luận văn khi nhận dạng người nói bằng mạng nơ ron ...56
3.4.1. Giới thiệu.................................................................................................56
3.4.2. Các đặc trưng chính âm thanh của người nói được sử dụng trong chương

trình ...................................................................................................................57
3.4.3. So sánh các đặc trưng ..............................................................................57
3.4.3. Các bước tiến hành nhận dạng người nói................................................59
3.5. Nhận dạng người nói dùng mạng nơ-ron nhân tạo cùng phương pháp trích
chọn đặc trưng dùng mã dự báo tuyến tính kết hợp AMDF để huấn luyện..........60
3.4.1. Thu âm và tiền xử lý ...............................................................................60
3.4.2. Trích chọn đặc trưng dùng mã dự báo tuyến tính LPC ...........................63
3.4.3. Huấn luyện mạng nơ-ron ........................................................................64
3.4.4. Kiểm tra dữ liệu người nói ......................................................................66
3.4.3. Kết quả nhận dạng người nói ..................................................................66
3.5. Tổng kết chương ............................................................................................67
CHƯƠNG 4 - XÂY DỰNG MÔ HÌNH NHẬN DẠNG NGƯỜI NÓI BẰNG
MẠNG NƠ RON NHÂN TẠO ................................................................................68
4.1. Giới thiệu Hàm và Toolbox trong Matlab cần để xây dựng Hệ thống Nhận
dạng Người nói bằng mạng Neruon ......................................................................68
4.1.1. Các hàm xử lý âm thanh..........................................................................68
4.1.2. VoiceBox toolbox ...................................................................................69
4.1.3. NetLab toolbox........................................................................................70
4.2. Quá trình thực hiện chương trình ...................................................................71
4.2.1. Các bước chính........................................................................................71
4.2.2. Thu dữ liệu và gán nhãn dữ liệu..............................................................77

Trang 5/92

4.2.2.1. Thu dữ liệu ...........................................................................................77
4.2.2.2. Gán nhãn dữ liệu ..................................................................................77
4.2.2.3. Đánh giá dữ liệu ...................................................................................78
4.2.2.4. Rút trích đặc trưng dùng mã dự báo tuyến tính LPC ...........................78
4.2.3. Khởi tạo mô hình mạng Noron ...............................................................78

4.2.4. Huấn luyện mô hình mạng Noron ...........................................................78
4.2.5. Chương trình Nhận dạng .........................................................................79
4.3. Đánh giá kết quả và hướng phát triển ............................................................83
4.3.1. Kết quả nhận dạng ...................................................................................83
4.3.2. Nhận xét ..................................................................................................85
KẾT LUẬN VÀ KIẾN NGHỊ...................................................................................87
HƯỚNG PHÁT TRIỂN ............................................................................................89
TÀI LIỆU THAM KHẢO .........................................................................................90

Trang 6/92

THUẬT NGỮ VÀ TỪ VIẾT TẮT
Từ viết tắt
LPC
BNN
AMDF
MFCC
DTW
HMM
ANN
DFT

Giải nghĩa tiếng Anh
Linear Predictive Coding
Back-propagation Neural Network
Average magnitude difference
function
Mel-scale Frequency Cepstral
Coefficient

Dynamic Time Warping

Hiden Markov Models
Artificial Neuron Network
Discrete Fourier Transform

BNN

Back-propagation Neural Network

MLP

MultiLayer Perceptron

Trang 7/92

Giải nghĩa tiếng Việt
Mã hóa dự báo tuyến tính
Hàm hiệu biên độ trung bình

Phương pháp trích đặc trưng
So sánh thời gian động
Mô hình Markov ẩn
Mạng nơron nhân tạo
Biến đổi Fourier rời rạc
Mạng nơ ron lan truyền ngược
hướng
Mạng Perceptron nhiều lớp MLP

DANH MỤC HÌNH VẼ
Hình 1.1: Cấu tạo cơ quan phát âm của con người ...................................................18
Hình 1.2: Quá trình sản xuất tiếng nói ......................................................................20
Hình 1.3: Tần số âm thanh giữa hai giới tính ...........................................................23
Hình 2.1: Sơ đồ tổng quan của hệ thống nhận dạng .................................................27
Hình 2.2: Các phần tử cơ bản của hệ thống nhận dạng tiếng nói .............................27
Hình 2.3: Phân loại các thông tin đặc trưng người nói. ............................................29
Hình 2.4: Các quá trình nhận dạng tiếng nói. ...........................................................30
Hình 2.5: Các băng lọc tam giác theo thang tần số Mel ...........................................31
Hình 2.6: Sơ đồ khối nhận dạng tiếng nói theo âm học-ngữ âm ..............................34
Hình 2.7: Sơ đồ khối hệ nhận dạng tiếng nói theo cách tiếp cận trí tuệ nhân tạo.....37
Hình 2.8: Mô hình Fujisaki .......................................................................................38
Hình 2.9: Mô hình Fujisaki khi áp dụng cho ngôn ngữ có thanh điệu .....................40
Hình 2.10: Áp dụng mô hình Fujisaki cho phân tích một câu tiếng trung ................41
Hình 2.11: Mô hình mạng nơron nhân tạo ................................................................43
Hình 2.12: Mô hình phân bố âm vị ...........................................................................46
Hình 3.1: Mô hình mạng Neuron ..............................................................................55
Hình 3.2: Một ví dụ về tương quan giữa tín hiệu tiếng nói, tỉ lệ qua điểm zero và
hàm năng lượng thời gian ngắn .................................................................................61
Hình 3.3: Hàm cửa sổ Hamming...............................................................................62
Hình 3.4: Mô tả tiền xử lý âm thanh .........................................................................63
Hình 3.5: Ví dụ kết hợp LPC với AMDF trong nhận dạng bằng mạng nơ-ron nhân
tạo ..............................................................................................................................66
Hình 4.1: Sơ đồ khối hệ thống nhận dạng người nói với từ điển cho sẵn bằng mạng
nơron MLP trên môi trường Matlab..........................................................................73
Hình 4.2: Giải thuật cắt khoản lặng trong file wav ...................................................74
Hình 4.3: Giao diện chính của chương trình .............................................................80
Hình 4.4: Tạo mạng neural MLP 3 lớp .....................................................................81
Hình 4.5: Chương trình huấn luyện mạng MLP .......................................................82
Hình 4.6: Chương trình nhận dạng từ file .................................................................82

Hình 4.7: Chương trình nhận dạng trực tiếp từ micro ..............................................83

Trang 8/92

DANH MỤC BẢNG BIỂU
Bảng 1. Các hàm xử lý âm thanh sử dụng trong chương trình mô phỏng ................69
Bảng 2. Ma trận nhầm lẫn thu được khi huấn luyện với 2 người nam giới. .............83
Bảng 3. Ma trận nhầm lẫn thu được khi nhận dạng với 2 người nam giới. ..............83
Bảng 4. Ma trận nhầm lẫn thu được khi huấn luyện với 1 người nam và 1 người nữ.
...................................................................................................................................84
Bảng 5. Ma trận nhầm lẫn thu được khi nhận dạng với 1 người nam và 1 người nữ.
...................................................................................................................................84
Bảng 6. Ma trận nhầm lẫn thu được khi huấn luyện với 3 người. ............................84
Bảng 7. Ma trận nhầm lẫn thu được khi nhận dạng với 3 người. .............................84
Bảng 8. Ma trận nhầm lẫn thu được khi huấn luyện với 4 người. ............................85
Bảng 9. Ma trận nhầm lẫn thu được khi nhận dạng với 4 người. .............................85

Trang 9/92

PHẦN MỞ ĐẦU
0.1. Lý do chọn đề tài.
Tiếng nói là phương tiện trao đổi thông tin phổ biến nhất của con người. Nhận
dạng người từ giọng nói hay nhận dạng người nói (speaker recognition) cùng với
nhận dạng tiếng nói (speech recognition) là những lĩnh vực nhận dạng liên quan đến
xử lý tiếng nói đang được quan tâm nghiên cứu hiện nay. Tiếng nói, ngoài thông tin
ngữ nghĩa mà người nói muốn truyền đạt cho người nghe (những thông tin có thể
ghi lại dưới dạng chữ viết), còn chứa những thông tin khác như phương ngữ, trạng
thái tình cảm khi nói cũng như những thông tin riêng của giọng nói. Trong khi nhận

dạng tiếng nói dựa trên thông tin ngữ nghĩa thì nhận dạng người nói lại dựa vào các
thông tin riêng của giọng nói.
Các lĩnh vực ứng dụng nhận dạng người nói hiện nay như xác thực quyền truy
cập vào các hệ thống an ninh bằng mật khẩu nói, giám sát người qua giọng nói hay
tách tiếng nói của từng người từ môi trường nhiều người nói. Ứng dụng xác thực
người nói trong giao dịch sử dựng thẻ tín dụng hay trong giao tiếp điện tử bằng hộp
thư thoại có sử dụng kỹ thuật nhận dạng người nói để giúp nhận dạng tiếng nói có
được các tham số nhận dạng thích hợp. Ngoài ra, nhận dạng người nói còn có một
lĩnh vực ứng dụng khá quan trọng đó là giám định pháp lý nhận dạng người nói
(forensic speaker recognition).
Ở nước ta hiện nay, nhận dạng người nói mới bước đầu được ứng dụng trong
lĩnh vực giám định pháp lý nhận dạng người nói phục vụ cho công tác điều tra và
xét xử tội phạm. Lĩnh vực giám định này là quá trình xác thực người nói giữa mẫu
tiếng nói được ghi âm xong chưa biết ai nói (unknown speaker) và mẫu tiếng nói
của những người bị nghi vấn (suspect speakers). Đây là một lĩnh vực giám định
pháp lý mới với nhiều vấn đề liên quan tới kỹ thuật nhận dạng người nói cần giải
quyết khi xây dựng cũng như nâng cao độ tin cậy của kết luận giám định. Cho đến
trước năm 2004 chưa có công trình nghiên cứu nào về vấn đề này cho người nói
tiếng Việt được công bố. Trước tình hình đó, luận văn đã chọn vấn đề nhận dạng
người nói tiếng Việt để có thể ứng dụng vào thực tế hiện nay.

Trang 10/92

0.2. Lịch sử nghiên cứu.
0.2.1 Nghiên cứu nhận dạng người nói bằng phương pháp thủ công
Đầu những năm 60 của thế kỷ trước, Lawrence Kersta đã lần đầu tiên thực
hiện nhận dạng người từ tiếng nói bằng cách so sánh ảnh phổ ba chiều của tiếng nói
tại phòng thí nghiệm tiếng nói của hãng Bell Telephone. Về cơ bản, nguyên tắc
nhận dạng người nói bằng phương pháp thủ công này vẫn được giữ nguyên cho đến

nay. Báo cáo tổng quan về giám định pháp lý nhận dạng người nói tại hội nghị
Interpol năm 2004 tại Lion (Pháp) cũng nói rõ phương pháp giám định bằng so sánh
ảnh phổ tiếng nói vẫn là phương pháp giám định chủ đạo hiện nay tại nhiều phòng
giám định pháp lý tiếng nói trên thế giới [5].
Năm 1997, Hiệp hội giám định pháp lý tiếng nói của Mỹ đã công bố các tiêu
chuẩn đề so sánh phổ tiếng nói phục vụ công tác giám định pháp lý người nói tiếng
Anh. Với tiếng Trung, Viện Khoa học Hình sự Trung Quốc đã tiến hành khảo sát
phạm vi thay đổi trung bình trong mỗi người nói ở trạng thái bình thường của một
số tham số tiếng nói, tiếp đến là khảo sát các tham số này trong điều kiện người nói
cố tình cải trang hay giả giọng nói, kết quả nghiên cứu đã được Cuiling Zhang đề
cập tới trong các báo cáo khoa học tại hội thảo khoa học hình sự tổ chức tại
Hongkong năm 2005 [6],[7],[8].
Với tiếng Việt, cho đến trước năm 2004 chưa có một công trình nào liên quan
tới vấn đề này được công bố.
0.2.2 Nghiên cứu nhận dạng người nói bằng phương pháp tự động
Nghiên cứu tự động nhận dạng người nói đã được thực hiện trên nhiều ngôn
ngữ khác nhau. Từ những năm 80 của thế kỷ trước phòng nghiên cứu tiếng nói của
Anh đã xây dựng hệ nhận dạng người nói không phụ thuộc từ khóa dựa trên phân
tích thống kê tần số âm cơ bản và các tham số biểu diễn đường bao phổ tiếng nói
liên tục trong 20 giây, khảo sát trên tập 22 người (20 nam , 2 nữ), độ chính xác đạt
từ 75% - 89% phụ thuộc từng thuật toán cài đặt. Năm 1986, phòng thí nghiệm tiếng
nói của hãng Bell Telephone đã xây dựng một hệ nhận dạng người nói phụ thuộc từ
khóa bằng phương pháp VQ, dữ liệu khảo sát là tập 100 người (50 nam, 50 nữ) phát

Trang 11/92

âm rời rạc các con số tiếng Anh từ 0 đến 9, độ chính xác đạt 89%. Năm 1997, Đức
đã xây dựng hệ nhận dạng người nói theo mô hình HMM, đặc trưng trích chọn là
các hệ số ceptre, dữ liệu khảo sát là chuỗi các con số tiếng Đức được đọc qua điện

thoại, sai số nhận dạng đạt được từ 0,3% đến 1,45% tùy thuộc số lượng dữ liệu huấn
luyện [3], [4]. Nghiên cứu nhận dạng người nói còn được thực hiện trên rất nhiều
ngôn ngữ châu Âu khác nữa như tiếng Pháp, tiếng Tây Ban Nha, tiếng Italy…. Một
số ngôn ngữ bản địa Ấn Độ đã được Rajeswara Rao và các cộng sự thực hiện
nghiên cứu nhận dạng người nói, kết quả khảo sát độ chính xác nhận dạng đạt từ
90% đến 100% tùy từng ngôn ngữ [14]. Nhận dạng người nói cũng đã được nghiên
cứu thử nghiệm trên các ngôn ngữ đơn âm tiết như tiếng Trung, tiếng Thái [13]. Với
tiếng Trung, sử dụng mô hình HMM và các thuật toán nhận dạng người nói DTW,
NN (mạng nơron), khảo sát trên tập dữ liệu 10 người đều là nam giới, phát âm rời
rạc 10 âm tiết số tiếng Trung từ số 0 đến số 9, trong các lần thử, độ chính xác nhận
dạng trung bình đạt cao nhất với mô hình HMM là 95,4% , trong khi đó với DTW
con số đó là 87,1% và NN là 87,7%.
Hiện tại, các vấn đề về nhận dạng người nói chủ yếu tập trung vào việc nghiên
cứu nâng cao khả năng nhận dạng của các hệ nhận dạng người nói. Khai thác các
thông tin mức cao của tiếng nói cũng là một hướng nghiên cứu nhằm nâng cao khả
năng phân biệt người nói như sử dụng mô hình thông tin ngôn điệu [1] hay đề xuất
một mô hình nhân dạng người nói sử dụng các thông tin ngữ âm có sự kết hợp với
các thông tin mức thấp của tiếng nói. Một hướng nghiên cứu khác là áp dụng cải
tiến các kỹ thuật sẵn có như sử dụng kỹ thuật phân tích phân biệt tuyến tính (LDA),
hay đề xuất phương pháp xác định ngưỡng nhận dạng phụ thuộc người nói [11]….
Nghiên cứu các kỹ thuật nâng cao khả năng phân biệt người nói trong điều kiện
tiếng nói bị suy giảm (méo) do các tác nhân kỹ thuật gây ra cũng là một hướng
nghiên cứu của nhận dạng người nói. Ngoài các kỹ thuật thông dụng như lọc nhiễu
tín hiệu tiếng nói trước khi đưa vào trích chọn đặc trưng, nhiều kỹ thuật đã được
nghiên cứu áp dụng riêng cho nhận dạng người nói để khắc phục vấn đề này như kỹ
thuật gói tần số (Frequency Warping) hay kỹ thuật chia nhỏ dải tần (Subband). Do

Trang 12/92

tín hiệu tiếng nói khi huấn luyện và khi nhận dạng có thể được ghi trong những điều
kiện khác nhau nên điểm số đối sánh thường được chuẩn hoá trước khi đem so sánh.
Phương pháp chuẩn hóa điểm số đối sánh phổ biến nhất là biến đổi phân bố xác suất
các điểm số đối sánh trên từng kênh thông tin về dạng chuẩn hóa. Các phương pháp
tác động lên không gian vector đặc trưng như trừ trung bình phổ (CMS) hay lọc
RASTA [10] có thể được coi là các phương pháp điển hình hoạt động theo nguyên
tắc bộ lọc trong không gian vector đặc trưng. Ngoài ra, còn nhiều các phương pháp
khác như gói các đặc trưng [12], phân bố Gauss hóa thời gian ngắn (Short-time
Gaussianization) [2] hay chuẩn hóa trung bình phổ được biến đổi (Modified-Mean
Cepstralmean Normalization) [9], … tất cả đều nhằm làm giảm ảnh hưởng của kênh
truyền lên tín hiệu tiếng nói, từ đó nâng cao được khả năng phân biệt người nói.
Cho đến trước năm 2004, các công trình nghiên cứu nhận dạng người nói tiếng
Việt mới chỉ dừng ở mức đánh giá thử nghiệm trong phòng thí nghiệm.
0.3. Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu.
Mục đích nghiên cứu của luận văn là nghiên cứu các kỹ thuật nhận dạng người
nói có thể góp phần vào giải quyết các vấn đề liên quan tới nhận dạng người nói
tiếng Việt ứng dụng trong thực tế hiện nay. Các kỹ thuật nhận dạng người nói liên
quan tới tiếng Việt như nghiên cứu phạm vi ổn định của một số các tham số tiếng
nói đối với mỗi người nói, lựa chọn đơn vị ngữ âm thích hợp để tiến hành so sánh
nhận dạng người nói, hay đánh giá khả năng phân biệt người nói của các đơn vị ngữ
âm tiếng Việt… Tất cả hướng tới mục đích cuối cùng là xây dựng và hoàn thiện
một quy trình nhận dạng người nói tiếng Việt phục vụ ứng dụng trong thực tế hiện
nay như: điều khiển giọng nói, công tác điều tra và xét xử tội phạm, v.v tại nước ta
hiện nay.
Để tiến hành nghiên cứu nhận dạng người nói tiếng Việt, đối tượng được luận
văn chọn để nghiên cứu là tiếng Việt của những người nói giọng Bắc Bộ (những
người phát âm đủ 6 thanh điệu tiếng Việt). Xong các kết quả nghiên cứu được áp
dụng thử nghiệm cho cả những người nói giọng Nam bộ và Trung bộ để đánh giá.

Trang 13/92

Tất cả các nội dung nghiên cứu trong luận văn chỉ giới hạn trong phạm vi điều
kiện người nói trong trạng thái bình thường, các vấn đề người nói cố tình cải trang
hay giả giọng nói đều nằm ngoài phạm vi nghiên cứu của luận văn.
0.4. Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả.
Những luận điểm cơ bản và đóng góp mới của chúng tôi:
Một là, luận văn chỉ ra được có thể dùng cả hai đặc trưng Pitch và Formant thì
chương trình nhận dạng người nói mới đưa ra được kết quả tốt nhất. Bởi vì các đặc
trưng đó có tính độc lập với mỗi người.
Hai là, luận văn chỉ ra được quá trình nhận tiếng nói với các từ có trong từ điển
sẵn có. Từ đó dựa vào các thông tin cơ bản của âm thanh người nói là Pitch và
Formant để nhận dạng người nói dựa vào hệ thống từ điển các từ đã nhận dạng
được. Chương trình nhận dạng sẽ có kết quả cao.
Ba là, luận văn cũng chỉ ra để chương trình nhận dạng người nói có khả năng
nhận dạng người nói tốt thì cần phải có các đặc điểm mong muốn sau đây:
1. Khi chúng ta nói chuyện thì tiếng nói không được kiểm soát bởi người nói
(người này không được bắt chước giọng của người khác để sau đó cho vào nhận
dạng)
2. Người nói khi nhận dạng không bị ảnh hưởng bởi vấn đề sức khỏe, tâm lý
so với khi huấn luyện trước đó (người nói tại thời điểm khác nhau thu được chất
lượng như nhau).
3. Người nói tốt hơn hết là nên độc lập với môi trường nói (hạn chế được tạp
âm).
4. Phân biệt được tiếng nói với tiếng ồn gây ra bởi quá trình ghi âm (được tách
âm).

Trang 14/92

0.5. Phương pháp nghiên cứu.
Luận văn sử dụng phương pháp phân tích phổ âm thanh: phổ tần số âm thanh
pitch, phổ tần số formant từ đó rút ra các trích chọn đặc trưng âm thanh của người
nói rồi đưa vào hệ thống nhận dạng.
Luận văn còn sử dụng mã dự báo tuyến tính LPC để rút ra trích chọn đặc trưng
của người nói.
Trong quá trình nhận dạng người nói dùng mạng nơ-ron nhân tạo Luận văn
còn sử dụng phương pháp trích chọn đặc trưng dùng mã dự báo tuyến tính kết hợp
hàm hiệu biên độ trung bình để huấn luyện

Trang 15/92

CHƯƠNG 1 - GIỚI THIỆU LÝ THUYẾT ÂM THANH VÀ TIẾNG NÓI
Tiếng nói là một phương tiện trao đổi thông tin của con người. Tiếng nói được
tạo ra từ tư duy của con người: trung khu thần kinh điều khiển hệ thống phát âm
làm việc tạo ra âm thanh.
Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có
nguồn gốc từ cơ chế tạo tiếng nói.Về bản chất, tiếng nói là sự dao động của không
khí có mang theo thông tin. Các dao động này tạo thành những áp lực đến tai và
được tai phát hiện, phân tích và chuyển kết quả đến trung khu thần kinh. Lúc này tại
trung khu thần kinh, thông tin được tái tạo lại dưới dạng tư duy logic mà con người
có thể hiểu được.
Tín hiệu tiếng nói được tạo thành bởi các chuỗi các âm vị liên tiếp. Sự sắp xếp
của các âm vị được chi phối bởi các quy tắc của ngôn ngữ. Việc nghiên cứu một
cách chi tiết về những quy tắc này cũng như những khía cạnh khác bên trong tiếng
nói thuộc về chuyên ngành ngôn ngữ. Việc phân loại các âm vị của tiếng nói thuộc
về chuyên ngành ngữ âm học. Khi nghiên cứu các mô hình toán học của cơ chế tạo
tiếng nói, việc nghiên cứu về các âm vị là rất cần thiết.
1.1. Nguồn gốc âm thanh

Âm thanh là do vật thể dao động cơ học mà phát ra. Âm thanh phát ra dưới
dạng sóng âm. Sóng âm là sự biến đổi các tính chất của môi trường đàn hồi khi
năng lượng âm truyền qua. Âm thanh truyền được đến tai người là do môi trường
dẫn âm. Sóng âm có thể truyền được trong chất rắn, chất lỏng, không khí. Có chất
dẫn âm rất kém gọi là chất hút âm như: len, da, chất xốp… Sóng âm không thể
truyền trong môi trường chân không. Khi kích thích dao động âm trong môi trường
không khí thì những lớp khí sẽ bị nén và dãn.Trạng thái nén dãn lần lượt được lan
truyền từ nguồn âm dưới dạng sóng dọc tới nơi thu âm. Nếu cường độ nguồn âm
càng lớn thì âm thanh truyền đi càng xa.
1.2. Các đại lượng đặc trưng cho âm thanh
- Tần số của âm thanh: là số lần dao động của phần tử khí trong một giây. Đơn vị
là Hz, kí hiệu: f

Trang 16/92

- Chu kì của âm thanh: là thời gian mà âm thanh đó thực hiện một dao động hoàn
toàn. Đơn vị là thời gian, kí hiệu là T.
- Tốc độ truyền âm: là tốc độ truyền năng lượng âm từ nguồn tới nơi thu. Đơn vị
m/s. Tốc độ truyền âm trong không khí ở nhiệt độ từ 0- 200 C thường là 331 – 340
m/s.
- Cường độ âm thanh: là năng lượng được sóng âm truyền trong một đơn vị thời
gian qua một đơn vị diện tích đặt vuông góc với phương truyền âm.
- Thanh áp: là lực tác dụng vào tai người nghe hoặc tại một điểm nào đó của trường
âm thanh. Đơn vị : 1pa=1 N/m2 hoặc 1bar = 1dyn/cm2 .
- Âm sắc: Trong thành phần của âm thanh, ngoài tần số cơ bản còn có các sóng hài
,số lượng sóng hài biểu diễn sắc thài của âm. Âm sắc là một đặc tính của âm nhờ đó
mà ta phân biệt được tiếng trầm, bổng khác nhau, phân biệt được tiếng nhạc cụ,
tiếng nam nữ ,tiếng người này với người khác.
- Âm lượng: là mức độ to nhỏ của nguồn. Đơn vị là W.

- Các tần số âm thanh
F0 gọi là tần số cơ bản của âm thanh. Nam giới f0 = 150 Hz. Nữ giới : f0 = 250 Hz.
Giọng nam trầm 80 – 320 Hz
Giọng nam trung 100 – 400 Hz
Giọng nam cao 130 – 480 Hz
Giọng nữ thấp 160 – 600 Hz
Giọng nữ cao 260 – 1200 Hz
Công suất của tiếng nói , khi nói to nhỏ cũng khác nhau.Khi nói thầm công
suất 10-3 mW, nói bình thường 10 mW, nói to 103 mW.
1.3. Bộ máy phát âm của con người
Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh
quản, và các đường dẫn miệng, mũi. Trong đó:
* Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần
thiết để tạo ra âm thanh.

Trang 17/92

* Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc
thanh quản.
* Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng, có độ
dài cố định khoảng 12cm đối với người lớn.
* Vòm miệng là các nếp cơ chuyển động.

Hình 1.1: Cấu tạo cơ quan phát âm của con người
Từ góc độ cấu trúc vật lý ta thấy mỗi người có một cơ quan cấu âm với những
đặc điểm riêng về hình dạng, kích thước của đôi dây thanh cũng như các khoang
hốc cộng hưởng hay các cơ quan cấu âm khác. Những yếu tố sinh lý thuộc về bản
chất di truyền tự nhiên của mỗi người này sẽ làm cho âm phát ra khi nói của những
người khác nhau sẽ không thể giống nhau hoàn toàn được cho dù phát âm như nhau.

Bên cạnh đó, cách thức hoạt động cấu âm của các bộ phận cấu âm như lưỡi, răng,
môi.... lại mang đậm sắc thái tâm lý riêng của mỗi người, những yếu tố này được
hình thành dần dần trong quá trình nhận thức của mỗi người từ khi học nói tới tuổi
trưởng thành. Chính cách thức hoạt động cấu âm không giống nhau nên âm phát ra
của mỗi người có những đặc trưng riêng một cách rất vô thức mặc dù không chủ
định phát âm như vậy.
Do vậy, dù khi phát âm những âm giống nhau âm phát ra của mỗi người vẫn
có những sắc thái riêng biệt. Có thể nói tiếng nói của mỗi người có các đặc trưng

Trang 18/92

riêng khác nhau. Các đặc trưng này tuy không phải là bất biến từ lúc người biết nói
đến lúc chết già, những nó có tính khá ổn định trong những giai đoạn dài của cuộc
đời. Khi con người đã trưởng thành, những thói tật khi nói, những đặc điểm khu biệt
trong cấu âm sẽ hình thành và mang tính ổn định cao.
1.4. Cơ chế phát âm của con người
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang
mũi đóng lại, dòng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi, vòm miệng hạ
thấp và dòng khí sẽ chỉ đi qua khoang mũi.
Tuyến phát âm miệng bắt đầu từ thanh môn (khe hở hẹp giữa hai dây thanh)
tới môi. Tuyến phát âm mũi tính từ vòm họng ra tới lỗ mũi. Dưới tác dụng của các
lực căng cơ phổi, phổi bị nén lại, không khí từ phổi theo khí quản ra tới đôi dây
thanh. Dưới sự điều khiển của hệ thần kinh, dây thanh có thể trùng hay căng trùng
liên tục. Khi trùng, dây thanh không tham gia vào quá trình phát âm, luồng khí theo
khe hẹp giữa hai dây thanh thoát ra ngoài theo tuyến miệng hoặc tuyến mũi, sau khi
đã bị cuộn xoáy hỗn loạn, va chạm hay cọ xát vào các các khe hẹp và các hốc của
cơ quan cấu âm tạo ra các âm thanh khác nhau, đó là các âm vô thanh (unvoice).
Khi dây thanh căng trùng liên tục, luồng khí bị điều chế thành các xung khí (xung
thanh môn) có tần số được gọi là tần số cơ bản (fundamental frequency). Các xung

khí nay đi lên gặp các khoang rỗng như khoang yết hầu, khoang họng, khoang
miệng, khoang mũi ... sẽ cộng hưởng ở những tần số nhất định được gọi là các
formant. Tuỳ thuộc vào hoạt động và vị trí của các bộ phận cơ quan cấu âm mà hình
dạng, thể tích của các khoang cộng hưởng này thay đổi dẫn đến các âm phát ra khác
nhau, đó là các âm hữu thanh (voice). Nếu luồng khí thoát ra ngoài một cách tự do
không gặp bất cứ sự ngăn cản nào, ta nói đó là các nguyên âm (vowel). Ngược lại,
nếu luồng khí này khi thoát ra ngoài gặp sự cản trở nào đó chẳng hạn như sự tiếp
xúc của đầu lưỡi với răng hay sự kép chặt 2 môi... tạo nên tiếng cọ sát hay tiếng nổ
đó là các phụ âm hữu thanh (voiced consonant). Tiếng nói do con người phát ra
chính là sự tổ hợp và thay đổi liên tục của tất cả các loại âm phát ra này.
1.5. Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người

Trang 19/92

Sơ đồ biểu diễn quá trình thu nhận tiếng nói ở con người

Hình 1.2: Quá trình sản xuất tiếng nói
Quá trình sản xuất tiếng nói bắt đầu khi người nói muốn chuyển tải thông điệp
của mình cho người nghe thông qua tiếng nói.Tổ chức thần kinh sẽ chịu trách nhiệm
chuyển đổi thông điệp sang dạng mã ngôn ngữ.Khi một mã ngôn ngữ được chọn
lựa,các lệnh thần kinh vận động điều khiển đồng bộ các khâu vận động nhằm phát
ra chuỗi âm thanh.Vậy đầu ra cuối cùng của quá trình là một tín hiệu âm học. Đối
với quá trình thu nhận tiếng nói, người nghe xử lý tín hiệu âm thanh thông qua
màng tai trong; nó có khả năng cung cấp một phân tích phổ cho tín hiệu tới. Quá
trình thần kinh sẽ chuyển đổi tín hiệu phổ thành các tín hiệu hoạt động với thần kinh

Trang 20/92

thính giác ;có thể coi đây là quá trình lấy ra các đặc trưng.Cuối cùng các tín hiệu
được chuyển thành mã ngôn ngữ và hiểu được thông điệp.
1.6. Tiếng nói và các đặc trưng
1.6.1. Nguyên âm
Các nguyên âm có tầm rất quan trọng trong nhận dạng tiếng nói; hầu hết các
hệ thống nhận dạng dựa trên cơ sở nhận dạng nguyên âm đều có tính năng tốt. Các
nguyên âm nói chung là có thời gian tồn tại dài (so với các phụ âm) và dễ xác định
phổ.Chính vì thế dễ dàng cho việc nhận dạng tiếng nói, cả đối với con người và máy
móc.
Về mặt lý thuyết, các cực đại của biểu diễn phổ của tín hiệu nguyên âm chính
là các tần số cộng hưởng (formants) tạo nên nguyên âm. Giá trị của các formant đầu
tiên (2 hoặc 3 formant đầu tiên) là yếu tố quyết định cho phép chúng ta nhận dạng
được nguyên âm. Do nhiều yếu tố biến thiên như sự khác nhau về giới tính, về độ
tuổi, tình trạng tinh thần của người nói và nhiều yếu tố ngoại cảnh khác, đối với một
nguyên âm xác địnnh các giá trị formant cũng có sự biến thiên nhất định.Tuy nhiên
sự khác biệt về các giá trị các formant giữa các nguyên âm khác nhau lớn hơn
nhiều; và trong không gian formant chúng ta có thể xác định một cách tương đối các
vùng riêng biệt cho từng nguyên âm.
1.6.2. Các âm vị khác
Nguyên âm đôi thì có sự biến thiên một cách liên tục các formant của biểu
diễn phổ theo thời gian. Đối với âm vị loại này,cần phải đặc biệt chú ý đến việc
phân đoạn theo thời gian khi nhận dạng. Các bán nguyên âm như /l/, /r/ và /y/ là
tương đối khó trong việc biểu diễn đặc trưng. Các âm thanh này không được coi là
nguyên âm nhưng gọi là bán nguyên âm do bản chất tựa nguyên âm của chúng. Các
đặc trưng âm học của các âm thanh này chịu ảnh hưởng rất mạnh của ngữ cảnh mà
trong đó chúng xuất hiện. Đối với các âm mũi thì miệng đóng vai trò như một
khoảng cộng hưởng có tác dụng bẫy năng lượng âm tại một vài tần số tự nhiên. Các
tần số cộng hưởng này của khoang miệng xuất hiện như các phản cộng hưởng, hay

Trang 21/92

các điểm không của hàm truyền đạt. Ngoài ra, các phụ âm mũi còn được đặc trưng
bởi nhửng sự cộng hưởng mạnh hơn về phổ so với các nguyên âm.
Các phụ âm xác vô thanh như /s/, /sh/. Hệ thống tạo ra các phụ âm xác vô
thanh bao gồm một nguồn nhiễu tại một điểm thắt mà chia ống dẫn âm thành hai
khoang. Âm thanh được bức xạ tại khoang trước. Khoang sau có tác dụng bẫy năng
lượng như trong trường hợp phụ âm mũi, và như vậy là đưa các phản cộng hưởng
vào âm thanh đầu ra. Bản chất không tuần hoàn là đặc trưng cơ bản nhất của nguồn
kích thích xác vô thanh. Điểm khác biệt của các âm xác hữu thanh như /v/, /th/ so
với các phụ âm xác vô thanh là ở chỗ có hai nguồn kích thích liên quan tới việc tạo
ra chúng. Như vậy đặc trưng của phụ âm xác hữu thanh là bao gồm cả hai thành
phần kích thích tuần hoàn và nhiễu. Các âm dừng là các phụ âm /b/, /d/, /g/, /p/, /t/
và /k/ chúng có thời gian tồn tại rất ngắn.Các âm dừng có tính chất động vì thế các
thuộc tính của chúng chịu ảnh hưởng rất nhiều bởi nguyên âm đi sau nó.
1.6.3. Pitch - Tần số âm thanh
Pitch là sự khác biệt đặc biệt nhất giữa giọng nói của người nam và người nữ.
Mức độ cao thấp âm thanh của một người bắt nguồn từ các dây thanh quản (hay còn
gọi là nếp gấp), và tỷ lệ với các nếp gấp thanh quản rung động. Vì vậy, khi những
nếp gấp thanh gấp dao động ở mức 300 lần mỗi giây, thì sản xuất ra một âm thanh
có tần số âm thanh là 300Hz. Khi không khí đi qua những nếp gấp thanh quản rung
động ở tần số âm thanh, âm thanh cũng được tạo ra. Những âm thanh đã tạo ra bằng
bội số nguyên của tần số âm thanh cơ bản và giảm biên độ với tốc độ 12dB cho 1/8
chu kỳ đầu của âm thanh cơ bản.
Tần số âm thanh khác nhau giữa hai giới tính là do kích thước, khối lượng, và
sự căng của đường thanh quản, trong đó bao gồm những nếp gấp thanh quản và
thanh môn (không gian giữa và đằng sau những nếp gấp thanh quản). Chỉ cần trước
khi tuổi dậy thì, tần số âm thanh cơ bản (hoặc tần số âm thanh) của tiếng nói của
con người là khoảng 250Hz, và các âm phát ra có chiều dài khoảng 10,4 mm. Sau
tuổi dậy thì cơ thể con người phát triển đến kích thước trưởng thành đầy đủ, thay

đổi kích thước của thanh quản. Chiều dài âm phát ra ở nam giới tăng lên khoảng 15-

Trang 22/92

25 mm trong khi chiều dài âm của nữ tăng lên khoảng 13-15 mm. Sự gia tăng này
có kích thước tương quan với tần số giảm của những nếp gấp thanh. Ở nam giới, tần
số âm thanh trung bình nằm giữa 60 và 120Hz, và phạm vi tần số âm thanh của một
phụ nữ có thể được tìm thấy giữa 120 và 200Hz. Nữ giới có một phạm vi tần số cao
hơn nam giới bởi vì kích thước thanh quản của họ là nhỏ hơn. Tuy nhiên, đây không
phải là sự khác biệt duy nhất giữa giọng nói của nam và nữ.
Các kết quả được hiển thị đồ họa trong hình dưới, nơi vòng tròn màu đỏ tương
ứng với tần số âm thanh của nữ giới, chữ thập màu xanh tương ứng với tần số âm
thanh của nam giới. Rõ ràng, giọng nam giới và nữ giới gần như tuyến tính tách rời.
Nói chung, biệt tuyến tính là khoảng 168Hz [15]

Hình 1.3: Tần số âm thanh giữa hai giới tính
1.6.4. Formants - Tần số Formants
Khi âm thanh được phát ra từ miệng của con người, nó đi qua hai hệ thống
khác nhau. Các hệ thống đầu tiên là các máy phát tần số âm thanh, và hệ thống tiếp
theo điều chỉnh những giai điệu âm thanh được tạo ra bởi hệ thống đầu tiên. Các
nhà khoa học gọi là hệ thống đầu tiên ở đường thanh quản và hệ thống thứ hai là

Trang 23/92

đường khoang miệng bao gồm các cấu trúc như khoang miệng, khoang mũi, nắp
thanh quản, lưỡi, ...
Tuyến phát âm miệng bắt đầu từ thanh môn (khe hở hẹp giữa hai dây thanh)
tới môi. Tuyến phát âm mũi tính từ vòm họng ra tới lỗ mũi. Dưới tác dụng của các

lực căng cơ phổi, phổi bị nén lại, không khí từ phổi theo khí quản ra tới đôi dây
thanh. Dưới sự điều khiển của hệ thần kinh, dây thanh có thể trùng hay căng trùng
liên tục. Khi trùng, dây thanh không tham gia vào quá trình phát âm, luồng khí theo
khe hẹp giữa hai dây thanh thoát ra ngoài theo tuyến miệng hoặc tuyến mũi, sau khi
đã bị cuộn xoáy hỗn loạn, va chạm hay cọ xát vào các các khe hẹp và các hốc của
cơ quan cấu âm tạo ra các âm thanh khác nhau, đó là các âm vô thanh (unvoice).
Khi dây thanh căng trùng liên tục, luồng khí bị điều chế thành các xung khí (xung
thanh môn) có tần số được gọi là tần số cơ bản (fundamental frequency). Các xung
khí nay đi lên gặp các khoang rỗng như khoang yết hầu, khoang họng, khoang
miệng, khoang mũi ... sẽ cộng hưởng ở những tần số nhất định được gọi là các
formant (hay tần số formant). Trong khi nói, sự cộng hưởng được đó gọi là
formants. Vì vậy, những âm thanh có tần số gần nhất với các tần số formant của
đường thanh quản sẽ trở thành khuếch đại trong khi những âm thanh khác đang suy
yếu. Cũng vì lý do này mà, với tần số formant của người này thì khi ta phát âm ra
nó được khuếch đại lên, trong khi tần số này của người kia thì bị giảm xuống. Đây
là tiêu chí quan trọng nhất để nhận dạng người nói.
Mối quan hệ giữa con người và tiếng nói.
Trong tiếng nói của con người, formants thay đổi dựa trên vị trí của lưỡi, yết
hầu, hàm, và các cấu trúc khác trong đường thanh quản. Đây là cách nhận biết tiếng
nói của con người rõ nhất. Mối quan hệ giữa tất cả các formants có thể được làm để
lồng tiếng âm thanh. Có hai nguyên tắc lồng tiếng: (1) từng formant có một băng
thông tương ứng, và (2) từng formant rơi vào một khoảng quang phổ ứng với một
băng thông. Bởi vì cấu trúc của toàn bộ tuyến phát âm của mỗi con người là duy
nhất, nên formants cho mỗi nguyên âm sẽ là duy nhất. Tuy nhiên, như là nguyên tắc

Trang 24/92

(2) cho thấy, formants cho nguyên âm của tứng người sẽ được tương tự như trong
số tất cả mọi con người bởi vì họ cùng phát ra âm thanh như / a / hay / i / .

Mô hình bộ lọc biến tần số
Kể từ khi đường thanh quản của mỗi con người tạo ra formants khác nhau cho
mỗi nguyên âm, chúng ta có thể cảm nhận được đường giọng nói của mỗi người
như một bộ lọc biến. Các đầu vào bộ lọc là tần số âm thanh và giai điệu của nó đến
từ những nếp gấp thanh quản, trong khi đầu ra của bộ lọc (cảm nhận âm thanh từ
miệng) là sự đạt được của giai điệu âm thanh vào tần số formant. Mục tiêu của việc
giải nén các tần số formant từ các tín hiệu tiếng nói được đánh giá như sự thành
công của bộ lọc bởi vì chức năng bộ lọc của con người sẽ có khác biệt với những
người khác.
1.7. Tổng kết chương
Trong chương này chúng ta đã tìm hiểu một cách chung nhất về tiếng nói. Bộ
máy phát âm và cơ chế phát âm của con người.
Chương này cũng chỉ ra những đặc trưng cơ bản của tiếng nói: Nguyên âm,
các âm vị khác, Pitch – tần số âm thanh và tần số Formants. Từ những đặc trưng
này sẽ tạo cơ sở để nhận dạng người nói.

Trang 25/92

nhận dạng người nói

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về