nhận dạng giọng nói vào hệ thống điều khiển tự động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (58.15 KB, 5 trang )

TÍCH HỢP CÔNG CỤ NHẬN DẠNG TIẾNG NÓI VÀO
CÁC HỆ THỐNG ĐIỀU KHIỂN TỰ ĐỘNG
Danh sách nhóm:
Nguyễn Thị Ngọc
Nguyễn Thị Thu Cúc
Nguyễn Nhật Luân
Phan Hoàng Long
Phạm Xuân Lộc
I. NHẬN DẠNG GIỌNG NÓI:
1.Lịch sử nhận dạng giọng nói:
- Nhận diện giọng nói lần đầu xuất hiện trên các thiết bị điện toán cá nhân từ khoảng 20
năm trước, khi Windows 98 được giới thiệu. Tuy nhiên, có thể bạn sẽ ngạc nhiên khi biết
rằng công nghệ này đã bắt đầu được nghiên cứu từ năm 1936.
- Hệ thống nhận diện giọng nói ban đầu chỉ hiểu chữ số vì các kỹ sư cho rằng ngôn ngữ
con người quá phức tạp. Năm 1952, Bell Laboratories thiết kế ra "Audrey", hệ thống
nhận diện chữ số từ một giọng nói nhất định. 10 năm sau tại triển lãm World's Fair, IBM
trình diễn hệ thống "Shoebox" có thể nhận diện 16 từ tiếng Anh khác nhau
2.Nhận dạng giọng nói là gì?:
- Nhận dạng giọng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp
(classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là
các từ, hoặc các âm vị.
- Đây là một bộ máy hoặc hệ thống có khả năng nhận và dịch (hoặc hiểu và thực hiện)
các lệnh thu được từ giọng nói con người. Nhận dạng giọng nói gồm 2 thuật ngữ: Voice
recognition và Speech recognition.
+ Voice recognition liên quan đến việc xác định giọng nói chính xác của một cá nhân nào
đó, tương tự một phương pháp nhận diện sinh trắc học.
+ Speech recognition là việc xác định những từ ngữ trong câu nói rồi dịch chúng sang
ngôn ngữ máy tính.
3.Phần mềm nhận diện giọng nói hoạt động như thế nào?:
- Để chuyển giọng nói sang văn bản hoặc câu lệnh máy tính, hệ thống phải thực hiện một

quá trình gồm nhiều bước phức tạp.
- Khi nói, bạn sẽ tạo ra những rung động trong không khí. Bộ chuyển đổi tín hiệu tương
tự sang số (Analog-to-Digital Converter, ADC) chuyển các sóng tương tự (analog) này
thành dữ liệu mà máy tính có thể hiểu được.
- Để làm điều này, hệ thống thu thập các mẫu (hoặc số hóa) âm thanh bằng cách đo chính
xác sóng âm ở các khoảng thời gian gần nhau, sau đó lọc âm thanh đã được số hoá để loại
bỏ tiếng ồn, đôi khi tách chúng thành các dải tần số khác nhau. Nó cũng "bình thường
hóa" hoặc tinh chỉnh âm thanh đến một mức âm lượng không thay đổi hoặc sắp xếp theo
thời gian. Không phải lúc nào con người cũng nói với tốc độ như nhau nên âm thanh phải

được điều chỉnh cho phù hợp với tốc độ mà âm thanh mẫu được ghi nhận trong bộ nhớ
máy.
- Tiếp theo, tín hiệu được chia thành nhiều phần nhỏ (thời gian khoảng vài phần trăm
giây, thậm chí là phần ngàn giây trong trường hợp có phụ âm cuối khó phân biệt như "p"
hoặc "t"). Chương trình sau đó đặt những phần âm thanh này vào các âm vị có sẵn trong
ngôn ngữ thích hợp( Theo Wikipedia, âm vị là phân đoạn nhỏ nhất của âm thanh dùng để
cấu tạo nên sự phân biệt giữa các cách phát âm. Do đó, âm vị là một nhóm các âm thanh
với sự khác biệt tương đối nhỏ cùng đảm nhận một chức năng ý nghĩa tùy theo người nói
và phương ngữ.Trong tiếng Anh có khoảng 40 âm vị khác nhau. Ví dụ, mặc dù hầu hết
người bản ngữ không nhận ra, trong đa số các ngôn ngữ, âm k trong mỗi từ được phát âm
thực sự khác biệt nhau. Ví dụ k trong kit được ký âm [kʰ] và k trong skill được ký âm /k/.
Trong một số ngôn ngữ, một ký tự đại diện cho một âm vị, nhưng trong một số ngôn ngữ
khác như tiếng Anh, sự tương ứng này ít khi chính xác. Ví dụ trong tiếng Anh ký tự sh đại
diện cho /ʃ/, trong khi k và c đều đại diện cho âm /k/ (trong kit và cat). )
4.Nhận diện giọng nói được dùng để làm gì?
- Chuyển thành văn bản hoặc điều khiển máy là tác dụng phổ biến nhất của nhận diện
giọng nói, tuy nhiên công nghệ này còn mang đến nhiều hứa hẹn cho người khuyết tật.
( Một số ứng dụng như DriveSafe.ly có thể đọc tin nhắn đến và email cho những người
khiếm thị, một số ứng dụng khác còn cho phép tìm kiếm hoặc nhắn tin bằng giọng nói

(chuyển thành văn bản) dành cho người bị liệt. )
5.Ưu và nhược điểm của công nghệ nhận diện giọng nói hiện nay
5.1 Ưu điểm:
- Khả năng truy cập: Với những người khuyết tật không thể dùng chuột hay bàn phím, họ
có thể dùng giọng nói để hệ thống chuyển thành văn bản, giúp nhập liệu hay điều khiển
một cách dễ dàng.
- Kiểm tra chính tả: Bạn có thể truy cập vào các công cụ chỉnh sửa tương tự một giải
pháp xử lý văn bản chuẩn. Tất nhiên, mọi thứ không thể chính xác 100% nhưng phần
mềm có thể nhận diện và xử lý phần lớn lỗi chính tả, ngữ pháp.
- Tốc độ nhanh: Phần mềm có thể nắm bắt giọng nói của bạn với tốc độ nhanh hơn so với
khi nhập liệu bằng bàn phím, vì vậy tốc độ khi nhập liệu bằng giọng nói sẽ cải thiện đáng
kể.
5.2 Nhược điểm:
- Thiết lập và "dạy": Mặc dù chúng đều hứa hẹn có thể hoạt động sau vài phút thiết lập,
nhưng thực sự quá trình ghi nhận, làm quen với giọng nói, âm điệu và tốc độ nói của bạn
có đôi chút phức tạp và tốn thời gian. Một số phần mềm còn bắt bạn nói lại, thậm chí
không thể nhận diện được bạn đang nói gì.
- Chưa thực sự ổn định: Việc đang nói mà bị ngắt giữa chừng có thể khiến bạn "cụt
hứng", đặc biệt nó có thể bối rối khi bạn lên xuống giọng hay bỗng dưng nói nhỏ lại.
- Kho từ vựng hạn chế: Bạn phải sẵn sàng chấp nhận trường hợp phần mềm xử lý quá lâu
vì những từ vừa nói không nằm trong từ điển của nó. Đó là điều đang được cải tiến từng
ngày từng giờ.
II. HỆ THỐNG ĐIỀU KHIỂN TỰ ĐỘNG
1. Khái niệm:

Hệ thống điều khiển tự động (điều chỉnh tự động): Tập hợp tất cả các thiết bị kỹ
thuật, đảm bảo điều khiển hoặc điều chỉnh tự động một quá trình nào đó.
2. Ý nghĩa của điều khiển tự động:
- Đáp ứng của hệ thống không thõa mãn yêu cầu công nghệ

- Tăng độ chính xác
- Tăng năng suất
- Tăng hiệu quả kinh tế
3. Bài toán cơ bản trong lĩnh vực điều khiển tự động
- Phân tích hệ thống: Cho hệ thống tự động đã biết cấu trúc và thông số. Bài
toán đặt ra là tìm đáp ứng của hệ thống và đánh giá chất lượng của hệ.
- Thiết kế hệ thống: Biết cấu trúc và thông số của đối tượng điều khiển. Bài
toán đặt ra là thiết kế bộ điều khiển để được hệ thống thỏa mãn các yêu cầu về chất
lượng.
- Nhận dạng hệ thống: Chưa biết cấu trúc và thông số của hệ thống. Vấn đề dặt
ra là xác định cấu trúc và thông số của hệ thống.
4. Phân loại các hệ thống điều khiển tự động
4.1. Phân loại dựa trên mô tả toán học của hệ thống
- Hệ thống liên tục: Hệ thống liên tục được mô tả bằng phương trình vi phân.
- Hệ thống rời rạc: Hệ thống rời rạc được mô tả bằng phương trình sai phân.
- Hệ thống tuyến tính: hệ thống được mô tả bởi hệ phương trình vi phân/sai phân
tuyến tính.
-Hệ thống phi tuyến: Hệ thống mô tả bởi hệ phương trình vi phân/sai phân phi
tuyến.
-Hệ thống bất biến theo thời gian: hệ số của phương trình vi phân/ sai phân mô
tả hệ thống không đổi.
-Hệ thống biến đổi theo thời gian: hệ số của phương trình vi phân/ sai phân mô
tả hệ thống thay đổi theo thời gian.
4.2. Phân loại dựa trên số ngõ vào – ngõ ra hệ thống
- Hệ thống một ngõ vào – một ngõ ra (hệ SISO): (Single Input –Single Output).
- Hệ thống nhiều ngõ vào – nhiều ngõ ra (hệ MIMO): (Multi Input – Multi
Output).
4.3. Phân loại theo chiến lược điều khiển.
* Mục tiêu điều khiển thường gặp nhất là sai số giữa tín hiệu ra và tín hiệu vào
chuẩn càng nhỏ càng tốt. Tùy theo dạng tín hiệu vào mà ta có các loại điều khiển sau:

-Điều khiển ổn định hóa: Nếu tín hiệu chuẩn x(t) = const, ta gọi là điều khiển ổn
định hóa.
-Điều khiển theo chương trình: Tín hiệu vào x(t) là hàm thay đổi theo thời gian
nhưng đã biết trước.
-Điều khiển theo dõi: Tín hiệu vào x(t) là hàm không biết trước theo thời gian.
4.4. Quá trình thiết lập một hệ thống điều khiển
- Bước 1: Chuyển đổi các yêu cầu kỹ thuật thành một hệ thống vật lý.
- Bước 2: Vẽ sơ đồ khối chức năng. Chuyển đổi sự miêu tả đặc tính hệ thống
thành một sơ đồ khối chức năng. Đây là sự miêu tả về các phần chi tiết của hệ thống

và mối quan hệ giữa chúng.
- Bước 3: Thiết lập sơ đồ nguyên lí.
- Bước 4: Sử dụng sơ đồ nguyên lý thiết lập sơ đồ khối hoặc graph tín hiệu hoặc
biểu diễn không gian trạng thái.
- Bước 5: Rút gọn sơ đồ khối.
- Bước 6: Phân tích và thiết kế.
5.Ứng dụng nhận dạng giọng nói với công nghệ Machine learning
-Là một lĩnh vực con của công nghệ Trí tuệ nhân tạo (AI), Machine learning là phương
pháp phân tích dữ liệu từ đó tự động hóa việc xây dựng mô hình phân tích. Đây là công
nghệ hứa hẹn mang lại những hỗ trợ tối ưu nhất cho các doanh nghiệp với nhiều ứng
dụng trong thế giới thực, ví dụ như nhận dạng giọng nói và nhận diện hình ảnh.
- Ứng dụng công nghệ Machine learning, phòng nghiên cứu và phát triển của công ty
Baidu đã chế tạo một công cụ mang tên gọi Deep Voice – một mạng lưới nơ-ron sâu có
khả năng tạo ra giọng nói nhân tạo rất khó để phân biệt từ giọng nói thật của con người.
Mạng lưới này có thể “học” được những nét đặc trưng trong nhịp điệu, giọng nói, cách
phát âm và âm vực nhằm tạo ra giọng của người nói chính xác đến kì lạ. Ngoài ra,
Google cũng sử dụng Machine learning cho các sản phẩm khác liên quan đến giọng nói
và dịch thuật như Google Translate, Google Text To Speech, Google Assistant.
6.Ứng dụng nhận dạng tiếng nói vào điều khiển xe hơi:

- Không chỉ dừng ở việc điều khiển bằng cử chỉ, việc giao tiếp bằng giọng nói với xe hơi
cũng là công nghệ tuyệt vời để tích hợp.
- Hệ thống Blue Link của Hyundai được tích hợp Google Maps vào tháng 1/2013 và tiếp
theo là Siri thông qua công nghệ Eyes của Apple, cho phép tài xế có thể gọi điện, nhắn
tin, mở nhạc mà không cần phải mất tập trung khi lái xe, tất cả đều được thực hiện qua
giọng nói.
- Trước đây Nuance Dragon Drive đã mang công nghệ nhận diện giọng nói lên xe hơi,
ứng dụng này cho phép tài xế soạn tin nhắn, lấy thông tin giao thông và lộ trình thông
qua tương tác giọng nói. Kết nối smartphone với bộ nhận diện giọng nói trên xe hơi để
người lái xe tiện lợi sử dụng các tiện ích của Google như “nghe” các email, gửi tin nhắn,
…
7.Ứng dụng nhận dạng tiếng nói trên thiết bị di động
- Bạn cũng có thể thấy sự xuất hiện ngày càng phổ biến của công nghệ nhận dạng giọng
nói trong các ứng dụng chat/nhắn tin. Facebook Messenger đã có tính năng chia sẻ giọng
nói từ lâu, nhiều dịch vụ Over-The-Top như Zalo, Viber và WhatsApp của nước ngoài
cũng đã nhanh chóng đón đầu xu hướng để tích hợp tính năng chat giọng nói vào sản
phẩm của mình.
- Một khảo sát gần đây của Forrestor đã chỉ ra sự gia tăng của app điều khiển bằng giọng
nói. Một số lượng lớn người dùng xài công nghệ này để gửi tin nhắn, 46% dùng cho việc
tìm kiếm, 40% dùng giọng nói để tìm đường đi và 38% dùng để ghi chú. Đó là những con
số khá lớn tính năng 1168 người dùng tham gia cuộc nghiên cứu.

nhận dạng giọng nói vào hệ thống điều khiển tự động

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về