Tải bản đầy đủ (.doc) (78 trang)

nghiên cứu và xây dựng hệ thống voice server ứng dụng cho các dịch vụ cung cấp thông tin qua mạng điện thoại

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (998.84 KB, 78 trang )

LỜI CẢM ƠN
Chúng em xin chân thành cảm ơn khoa Công nghệ Thông tin trường Đại học
Khoa Học Tự Nhiên đã tạo điều kiện thuận lợi và giúp đỡ chúng em hoàn thành tốt
khóa luận tốt nghiệp này.
Chúng em xin chân thành cảm ơn thầy Vũ Hải Quân đã tận tình chỉ dạy, giúp
đỡ chúng em trong quá trình làm khóa luận.
Chúng em xin chân thành cảm ơn các Thầy, Cô khoa Công nghệ Thông tin đã
tận tình chỉ dạy, trang bị kiến thức nền tảng cho chúng em trong suốt những năm
học qua.
Chúng con xin chân thành cảm ơn ông bà, cha mẹ đã tạo điều kiện thuận lợi
cho chúng con hoàn thành khóa luận này.
Chúng em xin cảm ơn những Anh, Chị đi trước đã để lại những kiến thức rất
bổ ích để chúng em tiếp nối. Cám ơn các Anh, Chị và các bạn trong nhóm nghiên
cứu “tiếng nói Phương Nam” đã giúp đỡ chúng em rất nhiều trong quá trình làm
khóa luận.
Mặc dù chúng em đã cố gắng hoàn thành khóa luận với khả năng cho phép
nhưng chắc chắn sẽ không tránh khỏi những sai xót. Kính mong Thầy, Cô và các
bạn góp ý để khóa luận có thể được hoàn thiện hơn.
Nhóm thực hiện
Nguyễn Thị Mỹ Dung – Dương Chí Trưởng
03/2010
LỜI NÓI ĐẦU
Ngày nay, công nghệ kết hợp giữa máy tính và mạng điện thoại (CTI –
Computer Telephony Integration) đang được phát triển rộng rãi làm giảm
đáng kể chi phí nhân công cho các dịch vụ trả lời thông tin. Ví dụ việc sử
dụng điện thoại để truy cập các dịch vụ tự động như kiểm tra tài khoản ngân
hàng, lịch chuyến bay, tra cứu thông tin về điểm thi đại học, các thông tin về
thời tiết, giá vàng, giá chứng khoán… không còn là điều mới mẻ. Người
dùng có thể gửi tin nhắn hoặc gọi điện thoại trực tiếp tới hệ thống và hệ
thống sẽ tự động đáp lại người dùng những thông tin mà người dùng cần
biết. Quá trình xử lý thông tin là hoàn toàn tự động và người dùng có thể


thực hiện truy vấn thông tin mọi lúc, mọi nơi thông qua điện thoại hay thiết
bị cầm tay.
Với vai trò phục vụ khá thiết thực trong cuộc sống của hệ thống trả lời tự
động như vậy, chính là lý do để chúng em lựa chọn đề tài “Nghiên cứu và
xây dựng hệ thống Voice Server ứng dụng cho các dịch vụ cung cấp thông
tin qua mạng điện thoại” cho khóa luận tốt nghiệp của mình.
i
MỤC LỤC
Ngày nay, công nghệ kết hợp giữa máy tính và mạng điện thoại (CTI – Computer
Telephony Integration) đang được phát triển rộng rãi làm giảm đáng kể chi phí nhân
công cho các dịch vụ trả lời thông tin. Ví dụ việc sử dụng điện thoại để truy cập các
dịch vụ tự động như kiểm tra tài khoản ngân hàng, lịch chuyến bay, tra cứu thông tin
về điểm thi đại học, các thông tin về thời tiết, giá vàng, giá chứng khoán… không còn
là điều mới mẻ. Người dùng có thể gửi tin nhắn hoặc gọi điện thoại trực tiếp tới hệ
thống và hệ thống sẽ tự động đáp lại người dùng những thông tin mà người dùng cần
biết. Quá trình xử lý thông tin là hoàn toàn tự động và người dùng có thể thực hiện
truy vấn thông tin mọi lúc, mọi nơi thông qua điện thoại hay thiết bị cầm tay i
Với vai trò phục vụ khá thiết thực trong cuộc sống của hệ thống trả lời tự động như
vậy, chính là lý do để chúng em lựa chọn đề tài “Nghiên cứu và xây dựng hệ thống
Voice Server ứng dụng cho các dịch vụ cung cấp thông tin qua mạng điện thoại” cho
khóa luận tốt nghiệp của mình i
Chương 1. MỞ ĐẦU 10
1.1 Nhu cầu thực tế và lý do thực hiện đề tài: 10
1.2 Mục tiêu của đề tài: 10
1.3 Nội dung khoá luận: 11
Chương 2. Tổng quan: Giới thiệu chung về hệ thống Voice Server, hệ thống trả lời
tự động 11
Chương 3. Cơ sở lý thuyết: Trình bày về công nghệ TAPI, công nghệ TTS (Text-To-
Speech) 11
Trình bày khái niệm, lịch sử phát triển, kiến trúc TAPI. Trình bày điểm cải tiến của

TAPI 3.0 so với các phiên bản trước 11
Chương 4. Phân tích thiết kế và triển khai hệ thống qua ứng dụng minh họa 11
TỔNG QUAN 13
1.4 Giới thiệu sơ lược việc truy cập thông tin qua âm thanh 13
1.5 Thế nào là một ứng dụng âm thanh (Voice Application) 14
1.6 Khái niệm Voice Server 15
1.7 Cấu trúc Voice Server 16
1.7.1 Công cụ phát triển ứng dụng 16
1.7.2 Bộ nhận dạng tiếng nói tự động(Automatic Speech Recognition) 16
1.7.3 Bộ tổng hợp tiếng nói(Text-To-Speech) 17
1.7.4 Bộ kết nối giữa ứng dụng và hệ thống điện thoại 18
1.8 Hệ thống trả lời điện thoại tự động 19
1.8.1 Khái niệm 19
1.8.2 Các dịch vụ điển hình của IVR 21
1.8.3 Các ưu điểm của hệ thống IVR 21
Chương 2. CƠ SỞ LÝ THUYẾT 22
ii
1.9 Công nghệ TAPI 22
1.9.1 TAPI là gì? 22
1.9.2 Lịch sử phát triển của TAPI 24
1.9.3 TSP là gì? 25
1.9.4 Mối quan hệ giữa TSP và phần cứng TAPI 26
1.9.5 Khả năng tương thích ngược và tới của TAPI và TSP 26
1.9.6 Kiến trúc TAPI 27
1.9.7 Mô hình của TAPI 2.x 28
1.9.8 TAPI 3.0 và các cải tiến so với TAPI 2.x 30
1.9.8.1 Kiến trúc TAPI 3.0 30
1.9.8.2 Tính năng mới của TAPI 3.0 32
1.9.8.3 Điều khiển truyền thông 34
1.9.8.4 Giao diện COM cải tiến 35

1.9.8.5 Mô hình đối tượng của TAPI 3.0 36
1.10 Hệ thống tổng hợp tiếng nói TTS (Text-To-Speech) 37
1.10.1 Giới thiệu về hệ thống tổng hợp tiếng nói 37
1.10.1.1 Khái niệm 37
1.10.1.2 Các hướng tiếp cận trong tổng hợp tiếng nói 38
1.10.1.3 Các ứng dụng của tổng hợp tiếng nói 44
1.10.1.4 Cách tiếp cận của nhóm 44
1.10.2 Phân tích văn bản 45
1.10.2.1 Các vấn đề trong phân tích văn bản 45
1.10.2.2 Các phương pháp xử lý văn bản trong bài toán cụ thể 48
1.10.3 Tổng hợp bằng phương pháp ghép nối 49
1.10.3.1 Giới thiệu 49
1.10.3.2 Xây dựng kho dữ liệu 51
1.10.3.3 Chọn lựa cụm từ thích hợp nhất 52
Chương 3. PHÂN TÍCH THIẾT KẾ VÀ TRIỂN KHAI HỆ THỐNG QUA ỨNG
DỤNG MINH HỌA 60
1.11 Sơ đồ và nguyên lý hoạt động 60
1.11.1 Các thành phần của hệ thống 60
1.11.2 Nguyên lý hoạt động 62
1.12 Thiết kế và xây dựng chương trình 63
1.12.1 Xây dựng Mô đun IVR 63
1.12.1.1 Các yêu cầu chức năng và phi chức năng 63
Các yêu cầu chức năng: Trả lời thông tin tỷ giá và thị trường của chứng khoán
mà người sử dùng nhập từ điện thoại 63
Các yêu cầu phi chức năng: 63
Cơ sở dữ liệu SQL Express 2005 63
Công cụ lập trình .NET và môi trường phát triển 63
Công cụ phân tích, thiết kế: Rational Rose 2000 63
Môi trường cài đặt ứng dụng Windows XP SP2 63
Modem 63

1.12.1.2 Thiết kế cơ sở dữ liệu 63
1.12.1.3 Mô hình use case 63
Sơ đồ Use Case 63
Danh sách các người dùng 64
STT 64
Tên người dùng 64
Ý nghĩa / Ghi chú 64
1 64
iii
Khách hàng 64
Đại điện cho nhóm người sử dụng gọi điện trực tiếp đến hệ thống, có thể thực
hiện các chức năng sau: 64
Quay số đến hệ thống 64
Nhấn phím điện thoại 64
2 64
Nhân viên 64
Đại diện cho nhóm người sử dụng trực tiếp giao diện hệ thống, có thể thực hiện
các chức năng sau: 64
Xem thông tin nhật ký cuộc gọi 64
Xem thông tin dữ liệu 64
Xem thông tin thiết bị 64
Danh sách các Use Case 64
STT 64
Tên Use Case 64
Ý nghĩa / Ghi chú 64
1 65
Quay số đến hệ thống 65
Người sử dụng quay số đến hệ thống 65
2 65
Nhấn phím điện thoại 65

Nhấn phím gởi yêu cầu tra cứu thông tin theo hướng dẫn 65
3 65
Xem thông tin nhật ký cuộc gọi 65
Xem thông tin tất cả các cuộc gọi như thời gian bắt đầu, thời gian kết thúc, tổng
thời gian gọi 65
4 65
Xem thông tin dữ liệu 65
Xem thông tin đầy đủ của tất cả tỷ giá cổ phiếu và thông tin thị trường chứng
khoán 65
5 65
Xem thông tin thiết bị 65
Chọn thiết bị cần xem đang có trong hệ thống để xác định đó có phải là voice
modem 65
Đặc tả Use Case 65
1. Use Case “Quay số đến hệ thống” 65
Tóm tắt: Use Case này mô tả cách một người sử dụng thực hiện chức năng gọi
điện đến hệ thống. Nếu thành công thì người sử dụng đã kết nối thành công đến hệ
thống 65
Dòng sự kiện: 65
Dòng sự kiện chính: Use Case này bắt đầu khi người sử dụng gọi điện đến hệ
thống 65
1. Hệ thống nhận tín hiệu OnOffering 65
2. Hệ thống phát tín hiệu đã kết nối 65
Các dòng sự kiện khác: Nếu Use Case này thực hiện khi hệ thống đang bận thì
Use Case này sẽ kết thúc 65
Các yêu cầu đặc biệt: Không có 65
iv
Trạng thái hệ thống khi bắt đầu thực hiện Use Case: Hệ thống đang rãnh, nghĩa
là không có cuộc gọi nào trên đường truyền 65
Trạng thái hệ thống sau khi thực hiện Use Case: Nếu Use Case thành công thì

người sử dụng có thể nghe được lời chào và hướng dẫn sử dụng chương trình. Nếu
không thì trạng thái hệ thống đang bận 66
Điểm mở rộng: Use Case này vẫn có thể thực hiện khi hệ thống đang bận nếu ta
tăng số lượng đường truyền 66
2. Use Case “Nhấn phím điện thoại”: 66
Tóm tắt: Use-case này mô tả cách một người sử dụng tương tác với hệ thống bằng
việc nhấn phím điện thoại theo hướng dẫn. Nếu thành công thì người sử dụng có
thể nghe được những thông tin đã yêu cầu 66
Dòng sự kiện : 66
Dòng sự kiện chính: Use-case này bắt đầu khi một người sử dụng nhấn phím trên
điện thoại 66
Các dòng sự kiện khác: Hệ thống kiểm tra thời gian từ khi kết thúc một tập tin
âm thanh đến lúc bắt được sự kiện nhấn phím. Nếu không thấy sự kiện nhấn phím
xảy ra thì hệ thống sẽ tự động ngắt kết nối 66
Các yêu cầu đặc biệt: Không có 66
Trạng thái hệ thống trước khi thực hiện Use Case: Người dùng đã kết nối thành
công với hệ thống 66
Trạng thái hệ thống sau khi thực hiện Use Case: Nếu Use Case thành công thì
người sử dụng có thể nghe thông tin đã yêu cầu hoặc lời hướng dẫn và có thể tiếp
tục thực hiện các thao tác khác 66
Điểm mở rộng: Không có 67
1.12.1.4 Tổ chức kịch bản dịch vụ 67
1.12.1.5 Giao diện 68
1.12.2 Mô đun TTS 73
1.13 Cài đặt 73
Chương 4. TỔNG KẾT 77
1.14 Một số kết quả đạt được 77
1.15 Khả năng phát triển của hệ thống 77
Tổng đài dịch vụ điện thoại 77
Tổng đài chăm sóc khách hàng 77

Trung tâm chăm sóc, trợ giúp, tiếp nhận ý kiến, yêu cầu qua điện thoại 77
Hệ thống giao dịch tự động qua điện thoại cho các Công ty Chứng khoán 77
Hộp thư thoại 77
Hệ thống tra cứu tự động qua điện thoại như tra cứu tuyến xe buýt, giá vàng, tỷ
số bóng đá, điểm thi đại học… 77
1.16 Phạm vi và giới hạn 78
Do giới hạn về kinh phí và thời gian nên: 78
Hệ thống chưa thu được số điện thoại của cuộc gọi tới 78
Hệ thống hiện chỉ đáp ứng được một đường truyền trong một khoảng thời gian(vì
thiết bị sử dụng trong ứng dụng không phải là thiết bị chuyên dụng cho loại hệ
thống, nó chỉ là một Modem quay số 56K có hỗ trợ âm thanh). Để xây dựng ứng
dụng thực tế đòi hỏi mật độ truy cập cao phải sử dụng thiết bị chuyên dụng là card
CTI mà có thể hổ trợ tối thiểu ba mươi cuộc gọi vào hệ thống cùng một lúc 78
Hệ thống nhận tín hiệu từ điện thoại di động không tốt. Do đường truyền tín hiệu
v
không ổn định 78
Tài liệu tham khảo 79
DANH MỤC CÁC BẢNG
vi
Bảng 1. Danh sách các người dùng 64
Bảng 2. Danh sách các Use Case 65
Bảng 3 Giải thích các điều khiển trên màn hình chính 70
vii
DANG MỤC CÁC HÌNH
Hình 2.1. Mô tả Voice Server trong việc điều hành một yêu cầu của khách hàng 15
Hình 2.2. Các thành phần của Voice Server 16
Hình 2.3 Quá trình xử lý nhận dạng tiếng nói 17
Hình 2.4 Quá trình tổng hợp tiếng nói 18
Hình 2.5 Mô hình hệ thống IVR 19
Hình 3.6 Kiến trúc TAPI 27

Hình 3.7 Mô hình thiết kế TAPI 29
Hình 3.8 Kiến trúc TAPI 3.0 30
Hình 3.9 Các loại địa chỉ của TAPI 3.0 33
Hình 3.10 Phương thức truy vấn loại địa chỉ của TSP 33
Hình 3.11 Các giao thức của TAPI 3.0 33
Hình 3.12 Mô hình đối tượng chủ yếu của TAPI 3.0 36
Hình 3.13 Hệ thống Text-To-Speech đơn giản 38
Hình 3.14 Quy trình tổng hợp bằng phương pháp ghép nối-lựa chọn đơn vị 51
Hình 3.15 Minh họa quá trình chọn cụm từ thích hợp 53
Hình 3.16 Tính chi phí Unit 55
Hình 3.17 Tính trực tiếp Connection Cost 56
Hình 3.18 Tính gián tiếp Connection Cost 56
Hình 4.19 Sơ đồ hệ thống ứng dụng 60
Hình 4.20 Mô hình cơ sở dữ liệu 63
Hình 4.21 Sơ đồ tổ chức kịch bản ứng dụng 67
Hình 4.22 Màn hình giao diện chính 69
Hình 4.23 Màn hình ghi chú trên giao diện chính 70
Hình 4.24 Màn hình khi nhấn chuột vào icon của màn hình chính 70
viii
Hình 4.25 Màn hình khi có cuộc gọi đến 71
Hình 4.26 Màn hình xem thông tin thiết bị 71
Hình 4.27 Màn hình xem nhật ký cuộc gọi 72
Hình 4.28 Màn hình xem thông tin chứng khoán 72
Hình 4.29 Màn hình thông tin nhóm 73
Hình 4.30 Cài đặt bước 1 74
Hình 4.31 Cài đặt bước2 74
Hình 4.32 Cài đặt bước 3 75
Hình 4.33 Cài đặt bước 4 75
Hình 4.34 Cài đặt bước 5 76
ix

Chương 1. Mở đầu
Chương 1. MỞ ĐẦU
1.1 Nhu cầu thực tế và lý do thực hiện đề tài:
Chắc hẳn bạn đã từng bối rối trước những giọng nói dễ thương giống như
“Để có các thông tin về… hãy bấm phím…” khi bạn gọi đến những trung tâm
chăm sóc khách hàng của một công ty, tập đoàn hay một tổng đài điện thoại nào
đó. Trên thực tế, “cô gái” đó là một máy tính với các chương trình tự động thực
hiện giao tiếp với người gọi thay cho điện thoại viên. Còn bạn thì đang thực hiện
công việc truy vấn một hệ thống trả lời tự động với kịch bản đã được xây dựng
sẵn qua các đoạn âm thanh được ghi âm trước hay thông qua một mô đun để
chuyển các đoạn văn bản sang dạng âm thanh tương ứng gọi là bộ tổng hợp
tiếng nói TTS (Text-To-Speech).
Tới nay, việc sử dụng máy tính để trả lời các cuộc điện thoại đã không còn
xa lạ. Ở các nước phát triển như Nhật, Mỹ, Hàn Quốc đã có tới 85% yêu cầu của
người gọi được đáp ứng bởi các hệ thống Voice Server. Tại Việt Nam, việc sử
dụng hệ thống Voice Server cũng đã được sử dụng ở các công ty, tập đoàn viễn
thông lớn như Mobifone, Vinaphone, Viettel…
Hệ thống hoàn toàn có thể áp dụng vào mọi lĩnh vực của đời sống xã hội,
như trong bệnh viện, trường học, hành chính công, ngân hàng, dịch vụ giải trí,
du lịch, vận chuyển hành khách, cung cấp thông tin kinh tế - xã hội Khi các
ứng dụng của hệ thống ngày càng được xã hội hóa thì người dân cũng như các
doanh nghiệp sẽ càng được hưởng lợi ích nhiều hơn từ nó.

Với những lợi ích thiết thực như vậy, nhóm chúng em đã cố gắng thực hiện
đề tài: “Nghiên cứu và xây dựng hệ thống Voice Server ứng dụng cho các dịch
vụ cung cấp thông tin qua mạng điện thoại” cho khóa luận tốt nghiệp của mình.
1.2 Mục tiêu của đề tài:
Xây dựng ứng dụng cung cấp thông tin qua mạng điện thoại. Cụ thể là hệ
10
Chương 1. Mở đầu

thống sẽ cung cấp thông tin ở mức cơ bản về tỷ giá cổ phiếu và thông tin thị
trường chứng khoán. Áp dụng bộ tổng hợp tiếng nói Text-To-Speech vào hệ
thống, bộ Text-To-Speech này tự động chuyển nội dung văn bản thành âm thanh
tương ứng.
1.3 Nội dung khoá luận:
Nội dung khoá luận gồm 5 chương:
Chương 1. Mở đầu: Trình bày nhu cầu thực tế, lý do thực hiện đề tài và
các mục tiêu cần đạt được.
Chương 2. Tổng quan: Giới thiệu chung về hệ thống Voice Server, hệ
thống trả lời tự động.
Chương 3. Cơ sở lý thuyết: Trình bày về công nghệ TAPI, công nghệ TTS
(Text-To-Speech).
+ Trình bày khái niệm, lịch sử phát triển, kiến trúc TAPI. Trình bày
điểm cải tiến của TAPI 3.0 so với các phiên bản trước.
+ Trình bày khái niệm, quy trình và các phương pháp thực hiện tổng
hợp tiếng nói.
+ Giới thiệu quy trình xử lý văn bản thành dạng chuẩn để có thể tổng
hợp thành dạng âm thanh tương ứng.
+ Giới thiệu phương pháp tổng hợp ghép nối - tổng hợp lựa chọn đơn
vị (Unit selection)
Chương 4. Phân tích thiết kế và triển khai hệ thống qua ứng dụng
minh họa
+ Sơ đồ tổng quát và nguyên lý hoạt động của hệ thống cung cấp thông
tin chứng khoán tự động qua mạng điện thoại.
+ Các bước xây dựng hệ thống IVR(Interactive Voice Respone).
+ Hướng dẫn cài đặt, sử dụng.
Chương 5. Tổng kết: Tóm tắt lại kết quả đã đạt được, hướng phát triển của
đề tài.
11
Chương 1. Mở đầu

12
Chương 2. Tổng quan
TỔNG QUAN
1.4 Giới thiệu sơ lược việc truy cập thông tin qua âm thanh
Ngày nay với sự gia tăng khả năng thực hiện công việc không cần sự trợ giúp
của các thiết bị hỗ trợ như chuột hay bàn phím, kỹ thuật xử lý âm thanh đã thay
đổi cách con người tương tác với hệ thống. Hệ thống không còn bó buộc trong
cách thức tương tác truyền thống (ví dụ: bấm phím trên điện thoại) mà chuyển
sang tương tác trực tiếp bằng giọng nói.
Trong môi trường kinh tế cạnh tranh, các ứng dụng dần dần đã chuyển sang
tích hợp tính năng tương tác âm thanh. Việc ứng dụng và khách hàng có thể
tương tác với nhau thông qua âm thanh không có nghĩa là loại bỏ giao diện đồ
họa truyền thống mà nó cung cấp thêm một cách truy cập thông tin và dịch vụ
tiện lợi, tự nhiên hơn. Mặc dù, nội dung thông tin cung cấp qua điện thoại có
thay đổi so với các giao diện truyền thống (ví dụ: Một danh sách đầy đủ các tùy
chọn có thể xuất hiện trong các ứng dụng trực quan nhưng qua điện thoại thì các
tùy chọn này có thể giảm đi).
Một số ứng dụng thương mại đòi hỏi sự tương tác giữa khách hàng và hệ
thống với số lượng lớn, có thể tích hợp tính năng tương tác âm thanh (hệ thống
IVRs). Ví dụ, khách hàng có thể truy vấn thông tin từ cơ sở dữ liệu. Tra cứu số
dư tài khoản, thông tin dự báo thời tiết, tỷ giá cổ phiếu hay danh sách các bộ
phim sắp chiếu từ một hệ thống tương tác sử dụng tiếng nói (IVRs) của một
trung tâm liên lạc (contract center) là những ví dụ phổ biến của các ứng dụng hỗ
trợ âm thanh. Thông thường loại ứng dụng này hướng dẫn khách hàng thứ tự các
bước phải làm bằng cách phát ra các chỉ dẫn, lời nhắc thông qua các tập tin âm
thanh ghi âm trước hoặc qua bộ tổng hợp tiếng nói Text-To-Speech nếu nội
dung không cố định. Khách hàng dùng lời nói cung cấp thông tin cho hệ thống,
hệ thống xử lý thông tin, truy xuất cơ sở dữ liệu rồi gửi phản hồi thông tin dưới
dạng âm thanh tới khách hàng.
13

Chương 2. Tổng quan
Ngoài việc tra cứu thông tin, ứng dụng dạng này còn được sử dụng phổ biến
trong các giao dịch trực tuyến như mua bán cổ phiếu, chuyển tiền giữa các tài
khoản. Bước đầu tiên, ứng dụng chứng thực khách hàng thông qua bộ xử lý định
danh và sau đó sử dụng các tập tin âm thanh hướng dẫn khách hàng cung cấp
thông tin (ví dụ: tài khoản gửi và tài khoản nhận để thực hiện thao tác chuyển
tiền). Hệ thống phát ra những chỉ dẫn, lời nhắc và những tùy chọn được ghi âm
trước hay qua bộ phận Text-To-Speech và khách hàng cũng tương tác với hệ
thống cũng bằng giọng nói tự nhiên. Một khi dữ liệu đã được tập hợp và kiểm
tra hợp lệ, hệ thống thực hiện việc chuyển tiền và thông báo kết quả cho khách
hàng.
1.5 Thế nào là một ứng dụng âm thanh (Voice Application)
Là ứng dụng có thể thực hiện tương tác giữa máy tính và con người bằng âm
thanh nó cung cấp cho người dùng khả năng truy cập thông tin bằng âm thanh.
Nó có thể tạo nên những ứng dụng thương mại tương tác với khách hàng bằng
âm thanh thay cho tương tác truyền thống bằng phím và chuột.
Ứng dụng âm thanh có thể được cài đặt trên hệ thống cục bộ hoặc từ xa và
người dùng có thể tương tác với hệ thống bằng các thiết bị cầm tay như điện
thoại
Một ứng dụng âm thanh tiêu biểu sẽ gồm các tương tác sau:
 Khách hàng dùng điện thoại gọi vào hệ thống, hệ thống tự động trả lời
cuộc gọi đồng thời thực thi các ứng dụng tương ứng khác. Ứng dụng sẽ phát ra
câu chào và thông tin cần thiết để hướng dẫn cho khách hàng.
 Ứng dụng có thể chờ đáp ứng trong một khoảng thời gian. Người gọi
có thể tương tác với hệ thống bằng cách nói trực tiếp yêu cầu hoặc có thể thực
hiện thông qua các phím trên điện thoại.
14
Chương 2. Tổng quan
 Hệ thống sẽ xử lý các yêu cầu tương ứng và hồi đáp cho khách hàng.
Ví dụ, nó có thể cập nhật thông tin trong cơ sở dữ liệu hay truy xuất thông tin và

phát thông tin đó cho người gọi dưới dạng âm thanh.
 Khách hàng có thể kết thúc cuộc gọi bất cứ lúc nào bằng cách gác
điện thoại hoặc chỉ định tương tác đã kết thúc(bằng phím hay giọng nói).
1.6 Khái niệm Voice Server
Voice Server là một nền tảng xử lý âm thanh. Nó là nền tảng then chốt trong
nhiều ứng dụng âm thanh khác nhau như:
 Media Gateway
 Hệ thống trả lời tự động (IVR)
 Hộp thư / tin nhắn thoại (Voice mail/message)
 Hội nghị thoại (Audio Conference)
 Fax Messaging
Hình 2.1. Mô tả Voice Server trong việc điều hành một yêu cầu của khách hàng
Voice Server cung cấp những tính năng xử lý âm thanh một cách khái quát
và tổng quan như là chuyển mạch (switching), thu/phát (record/play), nhận tín
hiệu DTMF (Dual-tone multi-frequency), đàm thoại và gởi/nhận fax. Những
chức năng khái quát này cho phép ứng dụng phát triển mà không phụ thuộc vào
15
Chương 2. Tổng quan
môi trường truyền âm thanh, phần cứng và hệ điều hành. Nó cũng có thể chuyển
đổi môi trường ứng dụng từ mạng truyền thông này sang mạng truyền thông
khác một cách linh hoạt. Ví dụ, từ mạng TDM (Time-Division Multiplexing)
sang VoIP (Voice over IP).
1.7 Cấu trúc Voice Server
Hình 2.2. Các thành phần của Voice Server
1.7.1 Công cụ phát triển ứng dụng
Công cụ phát triển ứng dụng phụ thuộc vào thiết bị kết nối giữa ứng
dụng và hệ thống điện thoại. Mỗi thiết bị sẽ cung cấp một tập các lệnh đặc
trưng để giao tiếp với ứng dụng.
Cụ thể hơn, hệ thống mà chúng tôi sẽ xây dựng sử dụng thiết bị cơ
bản nhất là modem có hổ trợ âm thanh và công cụ dùng phát triển ứng dụng

là Telephony API.
Sử dụng các tập lệnh trong thư viện TAPI 3.0 được cung cấp bởi hệ
điều hành Windows để tương tác và điều khiển thiết bị, để trao đổi thông
tin(tín hiệu, âm thanh) giữa hệ thống và người gọi qua hệ thống điện thoại.
1.7.2 Bộ nhận dạng tiếng nói tự động(Automatic Speech Recognition)
Bộ nhận dạng tiếng nói thực chất là một bộ phần mềm tự động chuyển
tín hiệu tiếng nói thành dạng văn bản mà đơn vị cơ sở của nó là từ. Các từ
16
Chương 2. Tổng quan
nhận dạng được có thể là kết quả cuối cùng cho các ứng dụng như điều khiển
hệ thống bằng giọng nói, trả lời điện thoại tự động. Chúng cũng có thể là
những kết quả trung gian, đóng vai trò là đầu vào cho những chương trình xử
lí ngôn ngữ tiếp theo như dịch máy, tìm kiếm thông tin…

Hình 2.3 Quá trình xử lý nhận dạng tiếng nói
Như mô tả trong hình 2.3, con người sẽ quyết định chuỗi từ định nói. Sau
đó bộ phận phát âm sẽ sinh ra các tín hiệu giọng nói ở dạng sóng âm. Dạng
sóng âm này là đầu vào cho thành phần xử lí tín hiệu số của hệ thống nhận
dạng. Cuối cùng thành phần giải mã sẽ chuyển các tín hiệu ngữ âm này sang
dạng chuỗi từ sao cho gần giống với chuỗi từ mà ta nói ban đầu nhất.
1.7.3 Bộ tổng hợp tiếng nói(Text-To-Speech)
Bộ tổng hợp tiếng nói là bộ phần mềm chuyên dụng chuyển đổi chuỗi ký
tự thành âm thanh với nội dung tương ứng. Các ứng dụng của tổng hợp tiếng
nói đang áp dụng đã có hiệu quả trên một số lĩnh vực như: các ứng dụng hỗ
trợ người khiếm thị, hệ thống trả lời tự động…
17
Chương 2. Tổng quan
Hình 2.4 Quá trình tổng hợp tiếng nói

Bộ tổng hợp tiếng nói có 2 mức xử lý chính:

 Phân tích văn bản (tổng hợp mức cao): quá trình xử lý,
chuẩn hoá văn bản đầu vào thành một dạng chuẩn để có thể phát âm
được.
 Tổng hợp tiếng nói (tổng hợp mức thấp): tạo ra tiếng nói từ
kết quả của phần phân tích văn bản.
1.7.4 Bộ kết nối giữa ứng dụng và hệ thống điện thoại
Các thiết bị như modem, CTI, Switch, Dialogic Card được sử dụng trong
hệ thống Voice Server, với nhiệm vụ là kết nối giữa ứng dụng và hệ thống
điện thoại.
Cụ thể là để điều chế sóng tín hiệu tương tự nhau để mã hóa tín hiệu số,
và giải điều chế tín hiệu mang để giải mã tín hiệu số. Một thí dụ quen thuộc
nhất của modem băng tầng tiếng nói là chuyển tín hiệu số '1' và '0' của máy
tính thành âm thanh mà nó có thể truyền qua dây điện thoại của Plain Old
18
Chương 2. Tổng quan
Telephone Systems (POTS), và khi nhận được ở đầu kia, nó sẽ chuyển âm
thanh đó trở về tín hiệu '1' và '0'.
1.8 Hệ thống trả lời điện thoại tự động
Công nghệ CTI (Computer Telephony Integration) ra đời đã giảm đáng kể
chi phí nhân công cho các dịch vụ trả lời thông tin. Trên cơ sở phần cứng có khả
năng thao tác với cuộc gọi như nhấc máy, đặt máy, quay số, phát âm thanh, ghi
lại âm thanh, chuyển thoại, kết hợp với những công nghệ tiên tiến như tổng hợp
tiếng nói, phân tích và nhận dạng tiếng nói, hệ thống trả lời tự động có thể thay
thế rất nhiều nhân viên trực tổng đài để trả lời thông tin phổ biến qua các thao
tác bấm phím số hoặc ra lệnh bằng giọng nói.
1.8.1 Khái niệm
IVR (Interactive Voice Response) là một hệ thống mới trong ngành
điện thoại, được phát triển trên công nghệ CTI (công nghệ tích hợp máy tính
và điện thoại), dùng để cung cấp thông tin hoàn toàn tự động với số lượng
cuộc gọi lớn(tối thiểu là ba mươi cuộc gọi vào hệ thống cùng lúc).

Hình 2.5 Mô hình hệ thống IVR
19
Chương 2. Tổng quan
Hệ thống IVR cho phép khách hàng có thể truy cập thông tin của một tổ
chức thông qua việc sử dụng bàn phím điện thoại để “ nói chuyện” hoặc nói
trực tiếp bằng giọng nói, và IVR “nghe” các phím bấm hoặc nhận dạng giọng
nói đó rồi đọc lại cho khách hàng các thông tin được yêu cầu.
Nếu hệ thống cần cung cấp thông tin động, thông tin không cố định thì
phải sử dụng bộ tổng hợp tiếng nói(TTS) để tổng hợp thành các tập tin âm
thanh. Nếu hệ thống chỉ cung cấp các chỉ dẫn hay những thông tin cố định thì
chỉ cần ghi âm trước nội dung rồi đáp ứng người gọi. Ví dụ, dạng tổng đài
Vina 900 trong thực tế dùng để nạp tiền điện thoại trả trước cung cấp các chỉ
dẫn được ghi âm trước và nhận các con số được cung cấp từ điện thoại và
sau đó thao tác với cơ sở dữ liệu. Nhưng nếu là hệ thống cung cấp thông tin
tỷ giá cổ phiếu mà nhóm sẽ xây dựng với nội dung luôn được cập nhật thì
ngoài các câu hướng dẫn được ghi âm trước, hệ thống phải sử dụng thêm bộ
phận tổng hợp tiếng nói(TTS) để tổng hợp nội dung thay đổi cung cấp cho
khách hàng.
Lấy một ví dụ, một vài tổ chức sử dụng hệ thống IVR cho phép khách
hàng lấy thông tin về tài khoản được cập nhật ngay thời điểm hiện tại (24 giờ
trong ngày) mà không phải giao dịch trực tiếp với một nhân viên chăm sóc
khách hàng nào. Hệ thống thông tin tự động sẽ bao gồm những chức năng
như: là nơi những thông tin về tài khoản khách hàng có thể được đưa ra một
cách tự động theo từng lĩnh vực phù hợp với yêu cầu của khách hàng. Người
sử dụng chỉ việc chọn loại thông tin cần biết và nhận thông tin đó bằng giọng
nói được ghi âm sẵn hoặc qua bộ TTS (Text-To-Speech) trong hệ thống.
Công nghệ IVR cũng có thể được sử dụng vào mục đích thu thập thông tin,
ví dụ như những cuộc khảo sát qua điện thoại. Người sử dụng sẽ được hướng
dẫn để trả lời những câu hỏi bằng cách nhấn phím số trên điện thoại hoặc
thông qua giọng nói.

20
Chương 2. Tổng quan
1.8.2 Các dịch vụ điển hình của IVR
 Bưu điện: Hộp thư thông tin, hộp thư thoại, quà tặng âm nhạc, báo
thức, báo máy hỏng tự động, bình chọn, dự đoán…
 1900xxxx: Các dịch vụ giải trí truyền hình, trò chơi truyền hình (ví
dụ: Hugo), bình chọn ca sĩ, dự đoán kết quả bóng đá qua điện thoại
và tin nhắn SMS.
 Ngân hàng/Chứng khoán: Trạng thái tài khoản, thanh toán, chuyển
khoản, kích hoạt tài khoản, thẻ tín dụng, tỷ giá, lãi suất.
 Vận tải/Hành khách: Tra cứu chuyến, giá vé, số ghế, đặt chỗ.
 Quan hệ khách hàng: Nghiên cứu thị trường, điều tra nhu cầu tiêu
dùng.
 Giáo dục/Nghề nghiệp: Đăng ký tuyển dụng, tìm việc, đăng ký nhập
học, thời khóa biểu, lịch thi, điểm thi, điểm danh, thông báo, thông
tin trợ giúp.
 Bảo hiểm: Thông tin chính sách, danh mục đại lý, yêu cầu bảo hiểm,
thanh toán phí.
 Bán hàng: Đặt hàng, thanh toán bằng thẻ tín dụng, tra cứu thông tin
hàng, tra cứu trạng thái đặt hàng và chuyển hàng.
1.8.3 Các ưu điểm của hệ thống IVR
 Giúp tự động hóa cung cấp thông tin, hỏi đáp.
 Mở ra kênh giao tiếp khách hàng mới một cách hữu hiệu.
 Đem lại nhiều lợi ích và doanh thu cho đơn vị sử dụng.
 Đem lại các giá trị mới, sự thuận tiện và tiện ích cho khách hàng,
nâng cao hình ảnh thương hiệu.
 Đa dạng hóa các dịch vụ cung cấp thông tin và chăm sóc khách
hàng.
21
Chương 3. Cơ sở lý thuyết

Chương 2. CƠ SỞ LÝ THUYẾT
Để liên kết máy tính và mạng điện thoại ta cần phải có một thiết bị cho phép nối
ghép hai loại giao thức này với nhau. Chúng em đã sử dụng một Modem quay số có
hổ trợ lập trình tương tác âm thanh để kết nối trực tiếp máy tính và một đường dây
điện thoại cố định. Modem giao tiếp với máy tính dựa trên nền tảng TAPI
(Telephony Application Programming Interface) được Microsoft cung cấp cùng với
hệ điều hành Windows. TAPI dùng để chia sẻ các thiết bị điện thoại dùng cho các
ứng dụng chạy trên Windows.
Khi người dùng gọi điện đến hệ thống, người dùng có thể nhấn phím trên điện
thoại hoặc bằng giọng nói để nghe các thông tin được yêu cầu. Nếu người dùng sử
dụng cách nhấn phím thì hệ thống sẽ nhận tín hiệu phím nhấn, sau đó sẽ truy vấn cơ
sở dữ liệu và lấy về các thông tin cần thiết ở dạng chuỗi ký tự, sau đó chuỗi ký tự
này sẽ được Mô đun TTS(Text-To-Speech) chuyển thành âm thanh để trả lời cho
người dùng. Nếu người dùng sử dụng giọng nói thì hệ thống sẽ chuyển nội dung ghi
âm được tới Mô đun ASR(Automatic Speech Recognition), Mô đun ASR phân tích,
nhận dạng giọng nói rồi chuyển thành chuỗi ký tự. Sau đó, hệ thống sẽ truy vấn cơ
sở dữ liệu và lấy về thông tin cần thiết ở dạng chuỗi ký tự. Thông qua Mô đun Text-
To-Speech chuyển chuỗi ký tự này thành âm thanh để trả lời người dùng. Trong
chương này chúng em sẽ trình bày lý thuyết cơ sở về công nghệ TAPI, công nghệ
tổng hợp giọng nói.
1.9 Công nghệ TAPI
1.9.1 TAPI là gì?
TAPI (Telephony Application Programming Interface) là một giao diện
lập trình chuẩn có thể làm cho bạn và máy tính “nói chuyện” với nhau qua
điện thoại. Được phát triển bởi Microsoft và Intel, TAPI được tích hợp trong
hệ điều hành Windows 95/98 và Windows NT và các hệ điều hành đồ họa
22
Chương 3. Cơ sở lý thuyết
sau này. Sử dụng TAPI, các lập trình viên có thể tận dụng các hạ tầng hệ
thống điện thoại khác nhau bao gồm: PSTN (Public Switching Telephone

Network), ISDN (Integrated Services Digital Network) hay PBX (Private
Branch Exchange) mà không cần hiểu chi tiết về chúng. Mỗi nhà cung ứng
phần cứng cho hệ thống điện thoại (ví dụ: modem hay ISDN card) cung cấp
một driver phần mềm đặt trưng để tương tác với phần cứng.
TAPI mở ra khả năng cho các ứng dụng chạy trên Windows có thể chia
sẽ các thiết bị truyền thông với nhau và cung cấp khả năng đa phương tiện
trên một nền tảng rộng lớn của phần cứng.
Phần cứng được hỗ trợ bao gồm card âm thanh và đồ họa, modem,
đường dây ISDN, mạng ATM và máy quay phim. Với chúng, bạn có thể
truyền thông qua các kết nối trực tiếp đến máy tính cục bộ, đường dây điện
thoại, mạng LANs, mạng WANs và cả Internet.
Với việc thực hiện và nhận các cuộc gọi, chương trình có thể dùng
TAPI để cung cấp các tính năng truyền thông tiên tiến như định danh người
gọi, định tuyến cuộc gọi, thư thoại, và hội thảo video. Các chương trình
truyền thông có thể định danh người gọi, tự động gọi lại và hiển thị thông tin
của người gọi, và thậm chí có thể ưu tiên hay chuyển hướng cuộc gọi dựa
trên thông tin khách hàng.
Với TAPI, khả năng cung cấp các tiêu chuẩn để các chương trình
truyền thông có thể điều khiển các tính năng của dữ liệu, fax và các cuộc gọi
tương tác âm thanh:
o
TAPI cung cấp tính năng quản lý tất cả tín hiệu giữa máy tính và
mạng điện thoại, bao gồm những tính năng cơ bản như: quay số, trả
lời cuộc gọi và trì hoãn cuộc gọi.
23
Chương 3. Cơ sở lý thuyết
o
TAPI bao gồm những tính năng phụ trợ được tìm thấy trong tổng đài,
ISDN và các hệ thống điện thoại khác chẳng hạn như: giữ cuộc gọi,
chuyển hay đàm thoại…

o
TAPI cung cấp khả năng truy cập những tính năng đặc trưng của bất
kỳ nhà cung cấp dịch vụ nào, với khả năng mở rộng được xây dựng
sẵn để cung cấp cho mạng điện thoại cũng như các tính năng truyền
thống.
o
TAPI cho phép người dùng thực hiện các cuộc gọi âm thanh và hình
ảnh qua mạng truyền thông dựa trên giao thức IP(Internet Protocol) sử
dụng giao thức H.323 và đàm thoại rộng lớn.
o
TAPI bao gồm QoS(Quality of Service) hỗ trợ cải tiến chất lượng
đàm thoại và khả năng quả lý mạng.
Các khả năng trên giúp TAPI có thể đồng nhất truyền thông điện thoại
truyền thống và truyền thông IP, nó hỗ trợ các chương trình làm việc hiệu quả
trên Internet hay Intranet giống như trên mạng điện thoại truyền thống. Hơn
nữa, phiên bản của TAPI hiện tại còn cung cấp khả năng tương thích với
phiên bản trước để hỗ trợ các chương trình được xây dựng trước đây.
Ứng dụng “HyperTerminal” được cung cấp trong hệ điều hành
Windows và các kết nối mạng là các chương trình truyền thông sử dụng
TAPI và chúng được cung cấp cùng với họ Microsoft Window Server 2003.
Dịch vụ fax, một chương trình truyền thông khác sử dụng TAPI hỗ trợ hầu
hết các tùy chọn cơ bản.
1.9.2 Lịch sử phát triển của TAPI
Phiên bản TAPI đầu tiên 1.3 được cài đặt thêm trên Windows 3.1
nhưng hiện nay nó không còn được hỗ trợ nữa mặc dù ta vẫn có thể tìm thấy
nó trên các đĩa thư viện MSDN.
24

×