Ứng dụng hệ chuyên gia trong xây dựng chương trình đọc văn bản tiếng việt có ngữ điệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 64 trang )

MỤC LỤC
MỤC LỤC .........................................................................................3
MỞ ĐẦU............................................................................................4
Chương 1. TỔNG QUAN VỀ TEXT TO SPEECH ........................5
1.1 Lịch sử về tổng hợp tiếng nói.......................................................... 5
1.2 Cấu trúc âm thanh trong tiếng Việt............................................... 7
1.2.1 Các khái niệm....................................................................................7
1.2.2 Các đặc tính cơ bản của tiếng Việt...................................................7
1.2.3 Hệ thống ngữ âm tiếng Việt..............................................................8

1.3 Đặc trưng âm tố ............................................................................ 10
1.3.1 Ðặc trưng vật lí ...............................................................................10
1.3.2 Ðặc trưng sinh lí.............................................................................11
1.3.3 Ðặc trưng xã hội.............................................................................13

1.4 Các phương pháp tổng hợp tiếng nói........................................... 14
1.4.1 Phương pháp tổng hợp trực tiếp ....................................................15
1.4.2 Phương pháp tổng hợp Formant....................................................19
1.4.2 Các phương pháp tổng hợp khác ...................................................22

Chương 2. TỔNG QUAN VỀ HỆ CHUYÊN GIA ........................24
2.1 Các khái niệm về hệ chuyên gia ................................................... 24
2.2 Cấu trúc một hệ chuyên gia.......................................................... 25
2.2.1 Cơ sở tri thức ..................................................................................26
2.2.2 Bộ nhớ làm việc...............................................................................26
2.2.3 Mô tơ suy luận.................................................................................26
2.2.4 Phương tiện giải thích.....................................................................27
2.2.5 Giao diện .........................................................................................27

2.3 Xây dựng hệ chuyên gia................................................................ 28
2.4 Tri thức và cách thể hiện tri thức................................................. 30

2.4.1 Các dạng tri thức ............................................................................31
2.4.2 Kỹ thuật thể hiện tri thức ...............................................................32

2.5 Những ứng dụng của hệ chuyên gia ............................................. 43

Chương 3. PHÂN TÍCH VÀ THIẾT KẾ BÀI TOÁN...................44
3.1 Giới thiệu bài toán ........................................................................ 44
3.2 Kỹ thuật đề xuất............................................................................ 45
3.3 Thiết kế chương trình ................................................................... 46

Chương 4. XÂY DỰNG CHƯƠNG TRÌNH..................................51
KẾT LUẬN......................................................................................55
TÀI LIỆU THAM KHẢO...............................................................57
PHỤ LỤC.........................................................................................58
3

MỞ ĐẦU
Trong quá trình toàn cầu hoá thế giới hiện nay, mọi rào cản về khoảng cách
địa lý, khác biệt văn hoá.... dần bị xoá bỏ. Trong cuốn: “Thế giới phẳng” của
Thomas L. Friedman có đề cập tới nhân tố quan trọng, đó là sự phát triển bùng
nổ của ngành công nghệ thông tin. Tuy nhiên mọi sự tiến bộ của khoa học và
công nghệ đều nhằm vào mục đích phục vụ cho đời sống con người ngày một
thoải mái và tiện nghi hơn, ngành công nghệ thông tin cũng không nằm ngoài
mục tiêu này.
Và như chúng ta đã biết, hình ảnh và âm thanh luôn dễ nhớ và dễ hiểu hơn
chữ viết, và bất cứ hình thức thể hiện nào khác. Với ý tưởng như vậy, chương
trình tổng hợp tiếng nói được xây dựng để mọi người có thể tiếp nhận thông tin
một cách nhanh chóng và dễ dàng hơn. Công nghệ Ngôn ngữ (hay Xử lý ngôn
ngữ tự nhiên) là một trong những lĩnh vực mới của công nghệ thông tin (với lịch

sử phát triển chỉ khoảng 50 năm) được quan tâm nghiên cứu trên phạm vi toàn
thế giới. Một số nội dung chính của Công nghệ Ngôn ngữ: Dịch tự động ngôn
ngữ tự nhiên, Nhận dạng ký tự (chữ viết tay và chữ in), Nhận dạng và tổng hợp
tiếng nói (công nghệ tiếng nói), tìm kiếm văn bản toàn văn, Hiểu ngôn ngữ, khai
phá dữ liệu văn bản, tóm tắt nội dung văn bản...
Thời gian gần đây, có rất nhiều chương trình tổng hợp tiếng nói sử dụng
nhiều phương pháp khác nhau, với mục đích nghiên cứu, tìm hiểu nhằm nắm rõ
hơn về vấn đề này, tôi quyết định chọn đề tài: ”Ứng dụng hệ chuyên gia trong
xây dựng chương trình đọc văn bản tiếng Việt có ngữ điệu”. Đây là một đề tài
tương đối khó, bởi vì nó liên quan đến cả lĩnh vực Hệ chuyên gia và thu thập tri
thức.Tuy đã có cố gắng rất nhiều trong thời gian thực hiện, nhưng không sao
tránh khỏi sai sót, tôi rất mong có sự góp ý của của các thày cô và bạn bè.

4

Chương 1. TỔNG QUAN VỀ TEXT TO SPEECH

Tổng hợp giọng nói là việc tạo ra giọng nói của người từ đầu vào là văn bản
hay các mã hóa việc phát âm. Hệ thống thực hiện việc này còn gọi là máy tổng
hợp giọng nói, có thể là hệ thống phần mềm hoặc phần cứng. Hệ thống này còn
được gọi là văn bản-sang-tiếng nói (text-to-speech, TTS); tuy rằng không phải hệ
thống tổng hợp giọng nói nào cũng có đầu vào là văn bản (nhiều hệ thống thu
nhận mã hóa cách phát âm, ví dụ mã IPA, như đầu vào). Các hệ thống này có
nhiều ứng dụng. Ví dụ như hệ thống này có thể giúp người khiếm thị nghe được
máy đọc ra văn bản; đặc biệt là các văn bản có thể xử lý trên máy tính. Hệ thống
như vậy có thể lắp đặt trong phần mềm xử lý văn bản hay trình duyệt mạng.

1.1 Lịch sử về tổng hợp tiếng nói
Từ lâu trước khi kỹ thuật xử lý tín hiệu bằng thiết bị điện tử hiện đại ra đời,

các nhà nghiên cứu giọng nói đã cố gắng xây dựng các máy móc bắt chước giọng
nói của người. Các ví dụ đầu tiên của các máy này được chế tạo bởi Gerbert ở
Aurillac (1003), Albertus Magnus (1198–1280), và Roger Bacon (1214–1294).
Năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein, lúc đó
làm việc tại Viện Hàn lâm Khoa học Nga, xây dựng một mô hình có thể bắt
chước giọng nói người với năm nguyên âm ([a], [e], [I], [o] và [u]). Máy này sau
đó được cải tiến thành 'Máy Phát âm Cơ khí-Âm học' của Wolfgang von
Kempelen ở Wien, Áo, được mô tả trong bài báo năm 1791 mang tựa đề
Mechanismus der menschlichen Sprache nebst der Beschreibung seiner
sprechenden Maschine (“phương pháp tạo giọng nói và mô tả máy thực hiện việc
này”, J. B. Degen, Wien). Máy này tạo ra mô hình của lưỡi và môi, cho phép tạo
ra phụ âm thêm vào cho nguyên âm. Năm 1837 Charles Wheatstone tạo ra 'máy
nói' dựa trên thiết kế của von Kempelen, và đến năm 1857 M. Faber chế tạo máy
'Euphonia'. Máy của Wheatstone lại được cải tiến năm 1923 bởi Paget.
Những năm 1930, Phòng thí nghiệm Bell tạo ra máy VOCODER, một máy
phân tích và tổng hợp giọng nói điều khiển bằng bàn phím, được mô tả là phát

5

âm rõ ràng. Homer Dudley cải tiến cỗ máy này thành VODER, và trưng bày nó
tại Triển lãm Thế giới New York 1939.
Các máy tổng hợp giọng nói bằng kỹ thuật điện tử, trong giai đoạn này, có
giọng nói không tự nhiên và khó nghe. Tuy nhiên, chất lượng tổng hợp giọng nói
ngày càng được cải tiến, cho đến ngày nay giọng phát âm của nhiều hệ thống có
chất lượng tương đương giọng nói của người thật.
Các hệ thống tổng hợp giọng nói đầu tiên được tạo ra vào những năm 1950
và hệ thống hoàn chỉnh đầu tiên ra đời vào năm 1968.
Năm 1961, nhà vật lý học John Larry Kelly, Jr dùng máy tính IBM 704 để
tổng hợp giọng nói, đây là sự kiện đáng nhớ trong lịch sử của phòng thí nghiệm

Bell. Máy ghi âm và tổng hợp giọng nói của Kelly tạo ra bài hát Daisy Bell, với
âm nhạc phụ họa bởi Max Mathews. Vào lúc trình diễn, Arthur C. Clarke đang
thăm bạn và đồng nghiệp John Pierce ở khu thí nghiệm Bell ở Murray Hill.
Clarke đã bị ấn tượng mạnh bởi trình diễn của máy phát âm và đã dùng hình ảnh
này trong tiểu thuyết và kịch bản phim của ông 2001: A Space Odyssey, trong đó
máy tính HAL 9000 hát cùng bài hát khi nó sắp bị nhà du hành vũ trụ Dave
Bowman đặt vào trạng thái ngủ.
Công nghệ tổng hợp giọng nói đã tiến hóa nhanh kể từ đó. Hiện nay có
hàng trăm hệ thống tổng hợp giọng nói, thương mại cũng như tự do.
Tuy đã đạt được thành tựu trong tổng hợp giọng nói bằng kỹ thuật điện tử,
các nghiên cứu vẫn đang được tiến hành để tạo ra bộ tổng hợp giọng nói cơ học,
mô phỏng thanh quản của người, dùng trong robot dạng người. Các bộ tổng hợp
giọng nói điện tử bị giới hạn bởi chất lượng của loa, bộ phận cuối cùng tạo ra âm
thanh, dù tín hiệu điện tử có hoàn hảo. Có hy vọng rằng bộ thanh quản cơ khí có
thể tạo ra giọng nói chuẩn hơn loa thông thường.
Tại Việt Nam, công việc nghiên cứu xử lý tiếng nói tiếng Việt (hiện thời
trọng tâm là tổng hợp tiếng Việt) được bắt đầu tại Phòng Công nghệ Phần mềm
từ năm 1998 và đến nay đã xây dựng được hệ TTS tiếng Việt dựa trên tiếng nói
được tổng hợp bằng luật VNSPEECH. Thời kỳ đầu đã thử nghiệm phương pháp
Tổng hợp tiếng nói bằng ghép nối. Ý tưởng chính của phương pháp là ghi âm
chính tiếng nói con người và sau đó phát lại. Ưu điểm của phương pháp là ban
đầu dễ triển khai, tiếng nói tạo ra chính là tiếng người. Tuy nhiên, phương pháp

6

có hạn chế là dữ liệu lớn, chi phí tốn kém khi thêm giọng nói và các tham số đặc
trưng chỉ có thể điều khiển hạn chế. Từ năm 2000 bắt đầu chuyển sang phương
pháp Tổng hợp tiếng nói bằng luật dựa trên cơ sở tìm hiểu bản chất, các đặc
trưng của tiếng nói, và quy luật để tạo tiếng nói con người. Phương pháp tổng

hợp được gọi là tổng hợp formant, có ưu điểm là kích thước toàn hệ thống rất
nhỏ gọn vì không yêu cầu dữ liệu mà chỉ gồm các quy tắc, mọi tham số tiếng nói
có thể điều khiển dễ dàng, không giới hạn, thuận tiện khi cần tạo thêm giọng
mới. Tuy nhiên, “thử và sai” là quá trình lâu dài để hoàn thiện chất lượng tiếng
nói. Vnspeech là phần mềm đầu tiên tại Việt Nam có thể tổng hợp được tiếng
Việt bằng các luật từ các thành phần đặc trưng của ngữ âm tiếng Việt, tự động
đọc không hạn chế văn bản tiếng Việt.

1.2 Cấu trúc âm thanh trong tiếng Việt
Theo như chúng ta đã tìm hiểu ở những lần thực tập trước, sau đây tôi sẽ
chỉ nêu lại một số vấn đề cơ bản cần quan tâm nhất trong cấu trúc ngữ âm tiếng
Việt, có liên quan tới đề tài đang nghiên cứu...

1.2.1 Các khái niệm
Chuỗi lời nói con người được phân chia thành nhiều đoạn nhỏ như câu, cụm
từ, từ,… và cuối cùng là âm tiết. Âm tiết là đơn vị phát âm nhỏ nhất, không phân
chia được nữa dù nói chậm đến đâu (mà vẫn giữ đúng ý nghĩa âm tiết đó).
Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành và các yếu tố ngữ âm
hầu như phát âm cùng lúc để tạo nên đúng âm tiết đó. Bên cạnh đó, người ta còn
xem âm tiết bao gồm nhiều yếu tố đoạn tính – là các yếu tố có giới hạn phân
đoạn trong âm tiết như phụ âm, nguyên âm và âm đệm – và các yếu tố siêu đoạn
tính – là các yếu tố không có giới hạn trong âm tiết như ngữ điệu, thanh điệu.
Đặc điểm riêng của âm tiết tiếng Việt là đơn âm và mang thanh điệu.

1.2.2 Các đặc tính cơ bản của tiếng Việt
Âm tiết tiếng Việt tương đối cách biệt: trong tiếng Việt các âm của các từ
trong một câu phát âm hầu như tách biệt nhau, nghĩa là các từ đó được phát âm
hoàn toàn độc lập, không có hiện tượng đọc nối nhau như trong tiếng Anh.
Tiếng Việt tương đối nhất quán giữa cách phát âm và cách viết : nguyên tắc
chính của chữ viết tiếng Việt là ký âm, nghĩa là đọc sao viết vậy. Nhưng sau các

7

cuộc nghiên cứu trên tiếng Việt đã chỉ ra một số bất đồng trong hệ thống chữ
viết, mặc dù vậy, nhìn chung tiếng Việt vẫn nhất quán giữa đọc và viết.
Hiện tượng môi hóa : trong tiếng Việt có một số âm môi như ô, u. Các phụ
âm đứng trước các âm này sẽ bị hiện tượng biến đổi sóng âm, gọi là hiện tượng
môi hóa. Ví dụ : trong các từ bu, tô thì phụ âm b, t sẽ phát âm khác đi so với
đứng trong các từ khác.

1.2.3 Hệ thống ngữ âm tiếng Việt
Thanh Điệu
Phần vần

Âm Đầu

Âm đệm

Âm chính

Âm cuối

Hình 1- 1. Cấu trúc âm tiết tiếng Việt

Một âm tiết tiếng Việt gồm 3 phần :
+ Thanh điệu : là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt.
+ Âm đầu : yếu tố mở đầu âm tiết, thường độc lập với phần còn lại.
+ Phần vần : gồm 3 phần :
- Âm đệm : là một bán nguyên âm chiếm vị trí trung gian giữa phụ âm đầu

và phần vần. Có thể có hay không trong âm tiết. Tiếng Việt có hai âm đệm là [o]
và [u] được phát âm tương đối giống nhau.
- Âm chính : là một nguyên âm (đơn hay đôi), luôn có mặt trong âm tiết,
giữ vai trò là đỉnh của âm.
- Âm cuối : là phụ âm hay bán nguyên âm để kết thúc âm tiết. Tiếng Việt có
hai bán nguyên âm cuối là [i] và [u].
Thanh điệu:
Có 6 thanh điệu : ngang, huyền, sắc, hỏi, ngã, nặng. Trong âm tiết, hầu như
thanh điệu không ảnh hưởng đến phụ âm đầu. Thanh điệu thể hiện rõ nhất ở cuối
âm tiết. Trong các âm tiết không có âm cuối hoặc kết thúc bằng phụ âm cuối
vang hay bán nguyên âm thì các đặc trưng của âm điệu được thể hiện rõ ràng
(VD : la, là, l, lã, lá, lạ). Còn các âm tiết kết thúc bằng phụ âm cuối tắc, vô thanh
(p,t,c) các thanh điệu rất khó thể hiện (VD : cáp, cạp nhưng không có , càp, cp,
cãp).

8

Phụ âm :
+ Phụ âm đầu có thể không có trong âm tiết. Trong tiếng Việt có một số
phụ âm viết khác nhau như có cùng một cách đọc
Ví dụ: - c,k,q : cùng phát âm là /k/.
- g, gh : cùng phát âm là /g/.
- ng, ngh : cùng phát âm là /ng/.
+ Phụ âm "q" không xuất hiện riêng lẻ mà kèm với âm đệm "u" để tạo phụ
âm "qu" đọc là /kw/.
+ Các phụ âm "g" và "gh", "ng" và "ngh" ở thế đối lập bổ sung tức là
nguyên âm nào không kết hợp được với phụ âm này thì kết hợp được với phụ âm
kia.
+ Các phụ âm chỉ có một cách biểu diễn duy nhất, không thể tách rời ra

được.
Ví dụ: "gi", "gh", "ng", . không thể ghép lại bằng các âm của từng ký tự
riêng biệt mà phi phát âm một cách duy nhất.
+ Phụ âm làm phụ âm cuối phát âm hoàn toàn với lúc làm phụ âm đầu. Có 8
phụ âm vừa có thể làm phụ âm đầu vừa có thể làm phụ âm cuối là {c, ch, m, n,
ng, nh, p, t} và được chia ra làm 2 loại :
+ Loại vang (hữu thanh): m, n, nh, . khi các phụ âm này làm âm cuối thì
nguyên âm đứng trước nó phát âm bình thường, không bị nén hay ngắt lại
+ Loại tắc (vô thanh) : p, t, c. Khi các phụ âm này làm âm cuối thì nguyên
âm đứng trước nó phát âm bị nén hay ngắt lại.
b

c

ch

d

đ

g

gi

gh

h

k

kh

l

m

m

nh

ng

ngh

p

ph

q

qu

r

s

t

th

tr

x

v

Hình 1- 2. Bảng phụ âm tiếng Việt
Nguyên âm :

9

Là thành phần không thể thiếu trong tiếng Việt. Nó được dùng làm âm
chính. Khi làm âm chính, nó kết hợp với các âm đệm và âm cuối (có thể không
có) tạo nên phần vần và làm đỉnh của âm tiết. Có hai loại là nguyên âm đơn và
nguyên âm đôi.

Nguyên âm đơn

Nguyên âm đôi

a

i

ư

ia

ă

o

y

iê

â

ô

ươ

e

ơ

ưa

ê

u

uô

Hình 1-3. Bảng nguyên âm tiếng Việt

1.3 Đặc trưng âm tố
1.3.1 Ðặc trưng vật lí
Âm thanh, về bản chất là những sóng âm được tạo ra từ dao động của vật

thể và được truyền đi trong một môi trường truyền âm nhất định. Âm thanh của
lời nói, tương tự, là những sóng âm được tạo ra từ dao động của các bộ phận
trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường là
không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ,
tạo ra rung động để người nghe nhận biết được lời nói. Chúng có đặc trưng được
xác định bởi các yếu tố sau đây:
+ Ðộ cao (hauteur /pitch): do tần số dao động của dây thanh và/hoặc
của các bộ phận khác trong bộ máy phát âm quyết định. Tần số dao động (số chu
kì dao động trong một giây) càng lớn thì âm thanh càng cao và ngược lại. Ðơn vị
để đo độ cao của âm thanh là Hertz (viết tắt là Hz). Tai người có thể nghe được
âm thanh có tần số dao động từ 16 đến 20.000 Hz. Âm vực dùng trong lời nói
hẹp hơn thế nhiều. Trong lời nói của một người, độ cao của âm thanh là yếu tố cơ
bản tạo nên thanh điệu, ngữ điệu và cả trọng âm.
+ Ðộ mạnh (intensité/intensity): do biên độ dao động của vật thể quyết
định. Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một nửa chu

10

kì. Biên độ dao động càng lớn, âm thanh càng vang to và ngược lại. Ðơn vị đo độ
mạnh của âm thanh là décibel (viết tắt là dB). Trong lời nói của một người, độ
mạnh của âm thanh là yếu tố cơ bản tạo nên âm lượng của âm và trọng âm của
từ.
+ Ðộ dài (durée/length): do thời gian dao động của vật thể quyết định.
Ðộ dài của âm thanh tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu
tố tạo nên trọng âm, tạo nên các nguyên âm đối lập nhau về độ dài. Hai từ "tang"
và "tăng" trong tiếng Việt có sự đối lập âm a dài (trong "tang") và âm a ngắn
(trong "tăng").
+ Âm sắc (timbre): phụ thuộc vào độ cao, độ dài và độ mạnh tham gia
bổ sung vào các thành phần kết cấu của âm. Ðây là vẻ riêng biệt của một âm. Âm

sắc được quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp do
hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật thể dao động. Một
âm có cùng độ cao, độ mạnh, độ dài được phát ra từ dây tơ sẽ khác với từ một
dây đồng; từ một ống sáo to dài, sẽ khác với từ một ống sáo nhỏ, ngắn; từ việc
gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi. Âm sắc chính là cái sắc thái
riêng của từng âm. Âm sắc còn được quyết định bởi vật thể dao động theo chu kì
đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra âm vang
(sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động (non
- sonants hoặc bruyants)
Các đặc trưng vật lí nói trên làm nên bản chất âm học của âm tố, cũng được
gọi là đặc trưng âm học của âm thanh lời nói. Ngữ âm học âm học (phonétique
acoustique/Acoustic phonetics) chuyên nghiên cứu các đặc trưng âm học ấy.

1.3.2 Ðặc trưng sinh lí
Âm thanh lời nói được phát ra từ bộ máy phát âm. Tìm hiểu mặt sinh lí của
âm thanh lời nói, tất phải xem xét cấu tạo của bộ máy phát âm và cơ chế tạo âm
thanh lời nói của bộ máy ấy.
a. Bộ máy phát âm gồm:
+ Các cơ quan tạo năng lượng cho hoạt động phát âm là phổi, khí quản.
+ Các cơ quan tạo lập, khuếch đại và phát ra âm thanh là các bộ phận trong
thanh hầu, trong khoang hầu, khoang miệng và khoang mũi. Thanh hầu và các
khoang nói trên là các cộng minh trường (hộp cộng hưởng) chứa nhiều bộ phận

11

mà sự vận động của chúng có tác dụng tạo nên các âm thanh với các âm sắc khác
nhau.
b. Cơ chế tạo âm thanh:
Ðể phát âm, dưới sự điều khiển của hệ thần kinh, nói chung không khí từ

phổi được đẩy qua khí quản, vào thanh hầu rồi thoát qua các cộng minh trường
phía trên thanh hầu để thoát ra ngoài. Có thể thấy hai trường hợp. Trường hợp 1,
không khí thoát ra làm rung dây thanh với một tần số nào đó đểï tạo nên một âm
với một thanh điệu nhất định. Âm này nhỏ, được uốn nắn, được khuếch đại nhờ
các cộng minh trường (thanh hầu, khoang hầu, khoang miệng, khoang mũi) để
trở thành âm thanh lời nói. Trong trường hợp này, ta sẽ có các âm hữu thanh
(sons sonores/voiced sounds). Nếu dây thanh có chu kì rung đều đặn, ta sẽ có
âm chứa nhiều tiếng thanh. Ngôn ngữ học gọi các âm loại này là các âm vang.
Các nguyên âm và các phụ âm mũi, phụ âm bên, phụ âm rung là các âm vang.
Trường hợp nói thì thào, không khí từ phổi ra tuy mạnh nhưng dây thanh ở xa
nhau và chỉ rung động rất nhẹ; ngôn ngữ học gọi các âm thì thào là các âm giọng
thở (sons soufflés/breathed sounds).
Trường hợp hai, không khí thoát ra không làm rung dây thanh thì lượng khí
sẽ cọ xát, lách qua hoặc phá vỡ chỗ cản được tạo ra bởi các bộ phận hoạt động
được của bộ máy phát âm để tạo ra âm, rồi được khoang hầu, khoang miệng,
khoang mũi cộng hưởng, khuếch đại thành âm thanh lời nói. Ngoài cộng minh
trường là thanh hầu chứa dây thanh, các cộng minh trường còn lại có tác dụng
khống chế một số tần số này và tăng cường một số tần số khác tạo nên các hòa
âm. Việc không khí cọ xát hoặc bật phá chỗ cản sẽ tạo nên những dao động có
chu kì không đều đặn làm thành những tiếng động (tiếng ồn). Những âm có tiếng
động, không có sự tham gia của tiếng thanh được gọi là các âm vô thanh (sons
sourds/ voiceless sounds).
Tóm lại, để phát âm, bắt buộc phải có không khí được đẩy ra, tạo năng
lượng phát âm; phải có hoạt động cấu âm của các cơ quan trong bộ máy phát âm.
Khi phát âm, nói chung luồng hơi được đẩy ra từ phổi. Tuy nhiên, ở một số ít
ngôn ngữ, có những âm thanh được phát ra từ khoang hầu hoặc từ mạc. Khi
luồng hơi được phát ra từ khoang hầu, thanh hầu từ vị trí bình thường nhấc lên
cao hơn hoặc hạ xuống thấp hơn và có tác dụng tạo âm; luồng hơi cũng có thể

12

được phát ra từ mạc để tạo âm. Với người Việt, khi chặc lưỡi hay khi "pập pập"
gọi gà (không phải âm thanh lời nói tiếng Việt), đã thực sự phát ra một âm loại
này.
Những đặc trưng sinh lí nói trên thực chất là những đặc trưng cấu tạo âm
thanh của bộ máy phát âm. Chúng được gọi là các đặc trưng cấu âm của các âm.
Ngữ âm học sinh học (Phonétique physiologique/Physiologic phonetics)
chuyên nghiên cứu các đặc trưng cấu âm ấy. Người ta cũng dùng thuật ngữ đặc
trưng cấu âm - âm học để chỉ chung đặc trưng tự nhiên (vật lí, sinh lí) của âm
thanh lời nói.

1.3.3 Ðặc trưng xã hội
Xét âm tiết quãi, boàn, thưởn, khuỹa... và quai, bàn, thưởng, khuya... Chúng
chỉ khác nhau một âm tố mà các âm tiết loại trên được người Việt coi là không có
nghĩa; trái lại, những âm loại sau lại được coi là có nghĩa, có nội dung biểu đạt.
Nói cách khác âm thanh ngôn ngữ không phải là âm thanh đơn thuần mà là âm
thanh được một cộng đồng ngôn ngữ tổ chức và dùng để biểu đạt.
Âm vị là đơn vị ngữ âm nhỏ nhất được một cộng đồng ngôn ngữ sử dụng để
cấu tạo và phân biệt phần âm thanh của các đơn vị có nghĩa nhỏ nhất (hình vị,
từ). Chức năng của âm vị là khu biệt nghĩa và giúp cho người nghe nhận diện
được các hình vị và từ trong một ngôn ngữ nhất định.
Tùy theo đặc điểm riêng của mình, mỗi dân tộc lựa chọn trong số lượng vô
hạn các âm tố trong chuỗi âm thanh lời nói để xác lập một số lượng hữu hạn các
âm vị với những nét chung về mặt cấu âm - âm học và về mặt chức năng biểu
đạt. Vì thế mỗi ngôn ngữ có một hệ thống âm vị riêng , khác nhau cả về mặt số
lượng âm vị cũng như về giá trị của từng âm vị. Thí dụ, trong tiếng Anh, có âm
vị "i" đối lập với âm vị "i dài (sit [sit] ( seat [si:t]). Trong khi ở tiếng Pháp, tiếng
Việt, hai âm ấy chỉ là hai cách phát âm khác nhau của cùng một âm vị /i/. Tương
tự, trong tiếng Việt có âm vị "tờ" (/t/), âm vị đờ" (/d/), nhưng trong tiếng Hán,

"tờ" và "đờ" chỉ là hai cách phát âm khác nhau của cùng một âm vị. Dù có nói
"đại đoàn kết" hay "tại toàn kết" thì cũng chỉ có một nội dung biểu đạt.
Về đặc điểm cấu âm - âm học của từng âm vị, do mỗi dân tộc khi phát âm
tiếng nước mình, có thói quen sử dụng bộ máy phát âm riêng, thêm nữa, cấu tạo
sinh lí của bộ máy phát âm cũng có nét riêng, nên về nguyên tắc, rất hiếm khi

13

một âm vị của ngôn ngữ này có đặc trưng cấu âm - âm học giống hệt với một âm
vị nào đó của một ngôn ngữ khác.

1.4 Các phương pháp tổng hợp tiếng nói
Phần này tôi xin trình bày một cách vắn tắt về những phương pháp tổng
hợp tiếng nói, mà hiện nay đang phổ biến và dược nghiên cứu rộng rãi. Chi tiết
phương pháp tổng hợp mà tôi áp dụng trong đợt nghiên cứu này sẽ được trình
bày ở phần sau.
Ta có thể dây dựng được một mô hình đơn giản, của quá trình tổng hợp
tiếng nói như sau:

Văn bản, quá
trình xử lý
tiếng nói khác

Tạo tham
số

Bộ tổng
hợp

Tiếng nói
được tổng
hợp

Hình 1-4 Mô hình quá trình tổng hợp tiếng nói

Nếu số lượng từ vựng là hữu hạn, thì tiếng nói tự nhiên có thể chỉ là các
đơn vị của tiếng nói được lưu trữ tập trung. Hầu hết các “Hệ thống trả lời bằng
tiếng nói”, như là hệ thống trả lời thực đơn qua điện thoại, báo giờ điện thoại...,
được áp dụng theo phương pháp này vì nó đơn giản hơn nhiều so với một bộ tổng
hợp tiếng nói thực sự. Một hệ thống TTS (Text To Speech) không chấp nhận văn
bản đầu vào được chọn là ngôn ngữ có nhiều từ mới và các lỗi in ấn.
Hai tính chất quan trọng của chất lượng hệ thống tổng hợp giọng nói là mức
độ tự nhiên và mức độ dễ nghe. Mức độ tự nhiên của giọng nói tổng hợp chỉ đến
sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật. Mức độ
dễ nghe chỉ đến việc câu phát âm có thể hiểu được dễ dàng không. Một chương
trình tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ nghe, và mục tiêu xây
dựng hệ thống tổng hợp giọng nói là làm gia tăng đến mức tối đa hai tính chất
này. Một số hệ thống thiên về mức độ dễ nghe hơn, hoặc mức độ tự nhiên hơn;
tùy thuộc vào mục đích mà công nghệ được lựa chọn. Có hai công nghệ chính
được dùng là tổng hợp ghép nối (hay còn gọi là tổng hợp trực tiếp) và tổng hợp
cộng hưởng tần số; ngoài ra cũng có một số công nghệ khác.

14

1.4.1 Phương pháp tổng hợp trực tiếp
Đây là phương pháp hiện đang được sử dụng tại các tổng đài điện thoại, đài
phát thanh... Do tính chất dễ thực hiện, và tiếng nói được tổng hợp có mức độ dễ
nghe, mang tính tự nhiên rất cao. Tuy nhiên, phương pháp này chỉ áp dụng hạn

chế với các yêu cầu vừa và nhỏ, đồng thời việc tạo dữ liệu khá mất thời gian và
công sức, đòi hỏi kỹ thuật cao.
Sơ đồ khối các bước trong phương pháp tổng hợp tiếng nói trực tiếp được
mô tả như sau:

Từ điển

Các đơn vị tiếng
nói được lưu trữ
Chuỗi mã đơn
vị tiếng nói

Văn bản
Khối truy
nhập từ vựng

Tiếng nói
Khối ghép
nối

Hình 1-5. Các bước trong phương pháp tổng hợp trực tiếp

a. Ghép từng từ đơn
Tính chất tiếng Việt là âm của từ đầu không ảnh hưởng âm các từ sau. Do
đó ta có thể ghép các từ thành một câu. Phương pháp này đạt độ tự nhiên cao
nhất và cách hiện thực đơn giản nhất.
Tiếng Việt phổ thông có khoảng 6000 từ. Nếu ta thu với tần số lấy mẫu
8KHz, 8 bit/mẫu, mono, nén PCM. Mỗi từ thu trong 0.8 giây (tốc độ đọc chậm
nhất) thì khối lượng âm thanh cần lưu trữ là:
6000 * 8000 * 1 * (1/2) * 0.8 = 19,200,000 bytes.

Khối lượng dữ liệu của phương pháp này là khá lớn. Mặt khác ta không thể
thu âm hết đủ các từ đã có trong tiếng Việt vì tiếng Việt có rất nhiều từ vay mượn
từ các thứ tiếng khác.
Nhận xét:

15

+ Với phương pháp này, khối lượng lưu trữ âm dùng cho ứng dụng khá lớn
(khoảng 2000 từ) so với phương pháp ghép âm loại một. Nhưng với dung lượng
đĩa cứng ngày nay thì vấn đề lưu trữ không là vấn đề đáng lo ngại.
+ Mức độ ảnh hưởng của từ đi trước với từ đi sau là không đáng kể và có
thể chấp nhận được.

b. Ghép âm theo các âm tiết cơ bản nhất
Ví dụ: "bằng" được ghép từ [b]+[ằ]+[ng]
Phương pháp này có khối lượng lưu trữ nhỏ nhất vì chỉ có 28 phụ âm và 68
nguyên âm cùng các biến thể thanh. Khối lượng lưu trữ:
(16+68) * 8000 * 1 * (1/2) *0.8 = 268,800 bytes
Tuy nhiên, phương pháp này rất khó hiện thực vì:
Khi phụ âm có vai trò làm phụ âm cuối, chúng được phát âm khác với khi
chúng làm phụ âm đầu. Phụ âm đầu mở ra để kết hợp với nguyên âm, phụ âm
cuối khép lại không kết hợp với nguyên âm nữa.
Cần chú ý khi phát âm nguyên âm trong trường hợp âm cuối là loại tắc (vô
thanh) ví dụ như p, t, c.Khi này thanh điệu không thể hiện trên phụ âm cuối mà
thể hiện ở giai đoạn chuyển tiếp từ nguyên âm sang âm cuối.
Do đó chất lượng âm của phương pháp này cũng còn hạn chế.

c. Ghép âm từ hai âm loại 1
Ví dụ: "bằng" được ghép từ [b] + [ ằng].

Một từ được tách ra làm hai phần là phụ âm đầu và vần. điều này căn cứ
trên đặc điểm tiếng Việt là phụ âm đầu ít phụ thuộc vào phần vần và thanh điệu.
Trong phụ âm đầu được cắt rất ngắn chỉ còn lại âm bật (thông thường vào
khoảng 0.15 giây). Phần vần cũng được cắt bỏ ở phần đầu một lượng tưng ứng.
Phương pháp này cho chất lượng âm thanh tương đương so với phương
pháp ghép từ đơn. Theo phương pháp này ta tách được 28 phụ âm đầu và 650
phần vần. Với cách thu âm như trước thì khối lượng lưu trữ sẽ là:
650*8000*1* (1/2)* (0.8 - 0.15)+28*8000*1*(1/2)*0.15=1,706,800~1.7 Mbytes.

16

Hình 1-6. Mô tả cách ghép hai âm thành từ

17

Nhận xét:
Một từ tiếng việt bao gồm 2 phần: phần âm đầu và phần vần. Âm đầu chủ
yếu là các phụ âm trong tiếng việt. Qua nghiên cứu và tìm hiểu thêm, chúng em
thấy rằng:
+ Ứng với một loại âm đầu (ở đây chủ yếu là phụ âm ) phần vần ở phía sau
sẽ thay đổi theo một quy luật nào đó so với phần vần chuẩn khi chưa có âm đầu
tuỳ theo cách phát âm của phụ âm. Chẳng hạn :
/t/
/ch/

/am/ t
/am/ ch

+ Nếu đem /ch/ ráp với /am/ t thì tiếng phát ra sẽ không trung thực tức là khi
xây dựng mô hình âm thanh phần vần độc lập với so với âm đầu sẽ không tận
dụng được hết tính phân biệt giữa các từ do sự biến đổi phổ tín hiệu phần vần so
với tác động của các âm đầu khác nhau.
Để tìm ra quy luật biến đổi phổ tín hiệu này đòi hỏi ta phải có máy phân
tích phổ và đi vào lĩnh vực xử lý tiếng nói, ta mới có thể quan sát và phân tích
mẫu sóng âm tại từng thời điểm nhằm tìm ra quy luật. Tuy nhiên, với phạm vi
của đề tài, việc nghiên cứu này là chưa cần thiết.

d. Ghép âm từ hai âm loại 2
Ví dụ: "bằng" được ghép từ [bà]+[ằng]
Phương pháp này gần giống phương pháp trên nhưng phần phụ âm đầu
được cắt lấn sang phần vần. Theo đó, ta sẽ có 28*650 phần phụ âm đầu tương
ứng với 650 phần vần. Trong thực tế, ta có khoảng 1400 phần đầu. Như vậy khối
lượng lưu trữ tổng cộng sẽ là:
(1400+650)* 8000 *1 * (1/2) * 0.8 = 6,560,000 bytes
Phương pháp này mắc phải một số khuyết điểm:
+ Vị trí cắt lấn sang phần vần khó xác định vì đây là vùng trộn lẫn giữa hai
âm.
+ Tuy khối lượng lưu trữ là nhỏ so với ghép từ (3 lần) nhưng lớn hơn nhiều
so với ghép âm loại 1 (4 lần).
Khi dùng phương pháp ghép âm thì việc chuẩn bị các âm mất thời gian rất
lớn. Việc chuẩn bị âm được thực hiện thủ công do không thể xác định chính xác

18

vị trí cần cắt. Do đó nếu phương pháp này có số lượng âm lớn gấp 4 lần thì thời
gian và chi phí bỏ ra cũng lớn gấp 4 lần so với phương pháp ghép âm loại một.
Ngoài ra chất lượng âm của phương pháp này cũng chưa được kiểm nghiệm

để có thể đánh giá ưu điểm về chất lượng so với phương pháp loại một.

1.4.2 Phương pháp tổng hợp Formant
Đây là phương pháp tổng hợp được dùng rộng rãi nhất trong những năm
gần đây, nó dựa trên mô hình lọc số tiếng nói. Phương pháp này có hai cấu trúc
cơ bản, đó là cấu trúc song song và cấu trúc nối tiếp. Tuy vậy vì lý do thời gian
và sự phức tạp của phương pháp, nên chúng ta chỉ có thể tìm hiểu qua một vài
đặc điểm của phương pháp tổng hợp tiếng nói này. Mô hình tổng quát của
phương pháp này như sau:

Hình 1- 7. Mô hình tổng hợp âm tiết tiếng Việt

Phương pháp tổng hợp Formant có hai cấu trúc cơ bản, đó là cấu trúc song
song và nối tiếp. Đã có rất nhiều tranh cãi về chất lượng và điểm hợp lý của hai
cấu trúc này. Ta dễ thấy kết quả tốt chỉ với một phương pháp là khó đạt được, vì
thế người ta cố gắng cải thiện và tổ hợp các phương pháp cơ bản này. Năm 1984
Denis Klatt đã đề ra một bộ tổng hợp Formant phức tạp hơn, được kết hợp cả hai
bộ tổng hợp nối tiếp và song song, với việc thêm các bộ cộng hưởng và phản

19

cộng hưởng cho các âm mũi hoá, sau Formant cho nhiều tần số cao, một đường
rẽ để đưa ra hàm truyền đạt phẳng, và các đặc điểm phát âm. Hệ thống được
dùng có mô hình nguồn kích hoạt hoàn toàn phức tạp, điều khiển bởi 39 tham số
được cập nhật mỗi 5 mili giây. Chất lượng của bộ tổng hợp Formant của Klatt đã
được cải thiện nhiều và được áp dụng vào một số hệ thống TTS (Text To Speech)
hiện nay như MITalk, DECTalk, Prose-2000 và Klattalk.
Sau đây là hai mô hình của bộ tổng hợp Formant được nghiên cứu và áp
dụng nhiều trong thực tiễn nhất:

Khuyếch đại

F1

F2

F3

Nguồn kích

Tiếng nói
X

Formant1

Formant2

Formant3

Hình 1- 8. Cấu trúc cơ bản của bộ tổng hợp Formant nối tiếp

A1

F1

BW1
F3

X

A2

Formant1
F2

BW2

Nguồn kích

Tiếng nói
X
A3

X

Formant2
F3

+

BW3

Formant3

Hình 1- 9. Cấu trúc cơ bản của bộ tổng hợp Formant song song

20

Tổng hợp Formant dựa trên một tập các luật được dùng đổ xác định các

tham số cần thiết để tổng hợp theo ý muốn. Các tham số đầu vào được cho ở ví
dụ dưới đây:
+ Tham số cơ sở tiếng nói (F0)
+ Mức độ kích thích tiếng nói (V0)
+ Các tần số Formant và các biên độ (F1,...,Fn và A1,...,An)
+ Tần số của bộ cộng hưởng tần số thấp bổ sung (FN)
+ Mật độ của vùng tần số thấp và tần số cao (ALF,AHF)

21

1.4.2 Các phương pháp tổng hợp khác
Ngoài một số những phương pháp tổng hợp tiếng nói thông dụng và hiện
đang được áp dụng thực tiễn đã nói ở trên, ngoài ra còn một số phương pháp
khác ít phổ biến hơn.

a. Tổng hợp mô phỏng phát âm
Tổng hợp mô phỏng phát âm là các kỹ thuật tổng hợp giọng nói dựa trên
mô hình máy tính của cơ quan phát âm của người và quá trình phát âm xảy ra tại
đó. Hệ thống tổng hợp mô phỏng phát âm đầu tiên là ASY, thường được dùng
cho các thí nghiệm trong nghiên cứu, được phát triển ở phòng thí nghiệm
Haskins vào giữa những năm 1970 bởi Philip Rubin, Tom Baer, và Paul
Mermelstein. ASY dựa trên mô hình cơ quan phát âm đã được tạo ra bởi phòng
thí nghiệm Bell vào những năm 1960 và 1970 bởi Paul Mermelstein, Cecil
Coker, và các đồng nghiệp khác. Tổng hợp mô phỏng phát âm đã từng chỉ là hệ
thống dành cho nghiên cứu khoa học cho mãi đến những năm gần đây. Lý do là
rất ít mô hình tạo ra âm thanh chất lượng đủ cao hoặc có thể chạy hiệu quả trên
các ứng dụng thương mại. Một ngoại lệ là hệ thống dựa trên NeXT; vốn được
phát triển và thương mại hóa bởi Trillium Sound Research Inc, ở Calgary,
Alberta, Canada. Đây là một công ty tách ra từ Đại học Calgary nơi các nghiên

cứu ban đầu đã được thực hiện. Theo sau các vụ chuyển nhượng các từng phần
của NeXT (bắt đầu từ Steve Jobs vào cuối những năm 1980 và việc hợp nhất với
Apple năm 1997), phần mềm của Trillium được phân phát với giấy phéo tự do
GPL. Dự án gnuspeech, một dự án của GNU, tiếp tục phát triển phần mềm này.
Phần mềm gốc NeXT và các chuyển đổi sang cho Mac OS/X và GNUstep trong
GNU/Linux có thể tìm thấy tại trang GNU savannah; chúng đều kèm theo tài liệu
hướng dẫn trực tuyến và các bài viết liên quan đến lý thuyết nền tảng của công
trình. Hệ thống, vốn được thương mại hóa lần đầu vào năm 1994, tạo ra một máy
tổng hợp giọng nói dựa trên mô phỏng phát âm hoàn chỉnh, dựa trên mô hình ống
dẫn sóng tương đương với cơ quan phát âm của người. Nó được điều khiển bởi
Mô hình Phần Riêng biệt của Carré; bản thân mô hình này lại dựa trên công trình
của Gunnar Fant và các người khác ở Phòng thí nghiệm Công nghệ Giọng nói
Stockholm thuộc Viện Cộng nghệ Hoàng gia Thụy Điển về tổng hợp giọng nói

22

cộng hưởng tần số. Công trình này cho thấy các cộng hưởng tần số trong ống
cộng hưởng có thể được điều khiển bằng cách thay đổi tám tham số tương đồng
với các cách phát âm tự nhiên của cơ quan phát âm của người. Hệ thống bao gồm
một từ điển phát âm cùng với các quy tắc phát âm tùy thuộc ngữ cảnh để giúp
ghép nối âm điệu và tạo ra các tham số phát âm; mô phỏng theo nhịp điệu và ngữ
điệu thu được từ các kết quả nghiên cứu ngữ âm học.

b. Tổng hợp lai
Các hệ thống tổng hợp lai kết hợp các yếu tố của tổng hợp cộng hưởng tần
số với tổng hợp ghép nối để giảm thiểu các tiếng cọ xát khi ghép nối các đoạn âm
thanh.
Một ví dụ là RecSimCat, phát triển bởi Shakti Singh Parmar có thể tạo ra
giọng dễ nghe và tự nhiên.

c. Tổng hợp dựa trên HMM
Tổng hợp dựa trên HMM là một phương pháp dựa vào mô hình Markov ẩn
(HMM, viết tắt cho thuật ngữ tiếng Anh Hidden Markov model). Trong hệ thống
này, phổ tần số của giọng nói, tần số cơ bản, và thời lượng đều được mô phỏng
cùng lúc bởi HMM. Dạng sóng của giọng nói được tạo từ mô hình Markov ẩn
dựa trên tiêu chí khả thực cực đại.

23

Chương 2. TỔNG QUAN VỀ HỆ CHUYÊN GIA
2.1 Các khái niệm về hệ chuyên gia
Hệ chuyên gia, còn gọi là hệ thống dựa tri trức, là một chương trình máy
tính chứa một số tri thức đặc thù của một hoặc nhiều chuyên gia con người về
một chủ đề cụ thể nào đó. Các chương trình thuộc loại này đã được phát triển từ
các thập kỷ 1960 và 1970, và trở thành ứng dụng thương mại từ thập kỷ 1980.
Dạng phổ biến nhất của hệ chuyên gia là một chương trình gồm một tập luật
phân tích thông tin (thường được cung cấp bởi người sử dụng hệ thống) về một
lớp vấn đề cụ thể, cũng như đưa ra các phân tích về các vấn đề đó, và tùy theo
thiết kế chương trình mà đưa lời khuyên về trình tự các hành động cần thực hiện
để giải quyết vấn đề. Đây là một hệ thống sử dụng các khả năng lập luận để đạt
tới các kết luận.
Nhiều hệ chuyên gia đã được thiết kế và xây dựng để phục vụ các lĩnh vực
kế toán, y học, điều khiển tiến trình (process control), dịch vụ tư vấn tài chính
(finalcial service), tài nguyên con người (human resources), v.v..
Hai yếu tố quan trọng trong hệ chuyên gia là tri thức chuyên gia và lập luận
và hệ thống có 2 khối chính là CSTT và mô tơ suy luận (hay còn gọi là động cơ
suy diễn).
Các khác biệt giữa các hệ cơ sở tri thức (CSTT) và các chương trình truyền

thống nằm ở cấu trúc. Trong các chương trình truyền thống, cách thức xử lý hay
hành vi của chương trình đã được ấn định sẵn qua các dòng lệnh của chương
trình dựa trên một thuật giải đã định sẵn. Trong các hệ CSTT, có hai chức năng
tách biệt nhau, trường hợp đơn giản có hai khối: khối tri thức hay còn được gọi là
cơ sở tri thức, và khối điều khiển hay còn được gọi là mô tơ suy luận. Với các hệ
thống phức tạp, bản thân mô tơ suy luận cũng có thể là một hệ CSTT chứa các
siêu tri thức (tri thức về cách sử dụng tri thức khác).
Việc tách biệt giữa tri thức khỏi các cơ chế điều khiển giúp ta dễ dàng thêm
vào các tri thức mới trong tiến trình phát triển một chương trình. Đây là điểm
tương tự của mô tơ suy luận trong một hệ CSTT và não bộ con người (điều khiển

24

xử lý), là không đổi cho dù hành vi của cá nhân có thay đổi theo kinh nghiệm và
kiến thức mới nhận được.
Giả sử một chuyên gia dùng các chương trình truyền thống để hỗ trợ công
việc hàng ngày, sự thay đổi hành vi của chương trình yêu cầu họ phải biết cách
cài đặt chương trình. Nói cách khác, chuyên gia phải là một lập trình viên chuyên
nghiệp. Hạn chế này được giải quyết khi các chuyên gia tiếp cận sử dụng các hệ
CSTT. Trong các hệ CSTT, tri thức được biểu diễn tường minh chứ không nằm ở
dạng ẩn như trong các chương trình truyền thống. Do vậy có thể thay đổi các
CSTT, sau đó các mô tơ suy luận sẽ làm việc trên các tri thức mới được cập nhật
nhằm thực hiện yêu cầu mới của chuyên gia.

2.2 Cấu trúc một hệ chuyên gia
Trong lĩnh vực hệ chuyên gia, các chuyên gia chú trọng vào tri thức của vấn
đề. Loại tri thức này được gọi là tri thức lĩnh vực, được chuyên gia lưu trữ trong
bộ nhớ vĩnh cửu.
Lúc cho lời khuyên, chuyên gia cần thu thập các sự kiện về lĩnh vực, lưu nó

trong bộ nhớ tạm thời. Chuyên gia lập luận về vấn đề bằng cách kết hợp các sự
kiện trong bộ nhớ tạm thời với tri thức ở trong bộ nhớ vĩnh cửu. Dùng quá trình
này, chuyên gia suy luận thông tin mới về vấn đề và đi đến kết luận. Chúng ta có
thể hiểu cấu trúc của một hệ chuyên gia qua mô hình sau:
Phương tiện
giải thích
Người
sử dụng

Bộ nhớ
làm việc

Giao diện
người dùng
Mô tơ
suy luận

Cơ sở tri thức

Hình 2- 1. Cấu trúc đơn giản của một hệ chuyên gia

25

2.2.1 Cơ sở tri thức
Trong hệ chuyên gia, các tri thức chuyên gia được bảo quản trong CSTT.
Nó cũng là bộ nhớ vĩnh cửu trong mô hình giải vấn đề của con người. CSTT là
thành phần chính bên cạnh các thành phần giải vấn đề trong hệ thống dựa trên tri
thức. Trong khuôn khổ của hệ chuyên gia thì CSTT tri thức được định nghĩa là
một phần của hệ chuyên gia chứa tri thức về lĩnh vực.

2.2.2 Bộ nhớ làm việc
Bộ nhớ làm việc chứa các sự kiện liên quan đến vấn đề đang xét. Nó tương
ứng với bộ nhớ tạm thời trong mô hình giải vấn đề của con người. Nó là một
phần trong hệ chuyên gia chứa các sự kiện của vấn đề đang được xét.
Khi trao đổi với hệ chuyên gia, người dùng nhập thông tin về vấn đề hiện
tại vào bộ nhớ làm việc. Hệ thống khớp thông tin này với tri thức trong CSTT để
suy luận ra sự kiện mới. Hệ thống lại nhập sự kiện mới này vào bộ nhớ làm việc
và tiếp tục quá trình. Vậy bộ nhớ làm việc sẽ có các thông tin do người dùng đưa
vào và các thông tin do máy suy luận ra. Các thông tin này thường được gọi là
ngữ cảnh của phiên làm việc.
Nhiều ứng dụng hệ chuyên gia có thể lấy các thông tin từ bộ nhớ ngoài như
cơ sở dữ liệu, bảng tính…Chúng được tải vào bộ nhớ làm việc trước phiên làm
việc. Quá trình suy luận có thể chỉ dùng các thông tin này hoặc dùng các thông
tin này như thông tin bổ sung.

2.2.3 Mô tơ suy luận
Hệ chuyên gia mô hình hoá quá trình lập luận của con người trong khối mô
tơ suy luận. Mô tơ suy luận là quá trình trong hệ chuyên gia cho phép khớp các
sự kiện trong bộ nhớ làm việc với các tri thức về lĩnh vự trong CSTT để rút ra
các kết luận về vấn đề.
Mô tơ suy luận làm việc trên các sự kiện trong bộ nhớ làm việc và tri thức
lĩnh vực trong CSTT để rút ra thông tin mới. Vậy nó cần tìm ra các luật để khớp
phần giả thiết của luật với thông tin có trong bộ nhớ. Khi phát hiện thấy khớp, kết
luận của luật này là thông tin mới.

26

2.2.4 Phương tiện giải thích

Nói đến hệ chuyên gia người ta thường đề cập đến khả năng không thể tách
rời là khả năng giải thích các suy luận của nó. Trong mô hình giải vấn đề của hệ
chuyên gia người ta có thể bổ sung một khối gọi là phương tiện giải thích. Dùng
phương tiện giải thích này hệ chuyên gia giải thích cho người dùng tại sao nó yêu
cầu một câu hỏi và cách đi đến kết luận.
Phương tiện giải thích tạo thuận lợi cho cả người phát triển hệ thống lẫn
người dùng. Người phát triển có thể dùng nó để phát hiện chỗ sai trong tri thức
của hệ thống trong khi người dùng sẽ thuận lợi và dễ dàng thấu hiểu lập luận của
hệ thống.
Một hệ chuyên gia có thể giải thích tại sao nó đặt ra một câu hỏi. Khi tham
vấn chuyên gia, sự tương tác có nghĩa quan trọng ở chỗ nó giúp hệ chuyên gia
cởi mở, thân thiện, có tác dụng gợi mở tri thức chuyên gia. Người ta cũng có thể
hỏi chuyên gia tại sao về các xét đoán suy luận khi thấy tiện. Câu trả lời có tác
dụng làm người dùng thoải mái thêm và có thể biết được điều mà chuyên gia
đang cho là quan trọng.

2.2.5 Giao diện
Tương tác giữa hệ chuyên gia và người dùng thường được thiết kế theo kiểu
như ngôn ngữ tự nhiên. Yêu cầu đặt ra đối với người thiết kế là đảm bảo tương
tác này giống như tương tác giữa những con người. Yêu cầu cơ bản của thiết kế
là trả lời được các câu hỏi. Để đạt được độ tin cậy cao về các ý kiến chuyên gia,
cũng như đạt được tin tưởng cao từ phía người dùng, việc thiết kế câu hỏi cũng
cần được chú ý. Các loại giao diện như hướng đồ hoạ, thực đơn, biểu tượng hay
tự xác định là các loại dùng được
Một lưu ý khác là nên trang bị các khả năng cho phép người dùng thay đổi
thông tin hay thay đổi các phát biểu về bài toán. Việc này giúp người dùng chỉnh
lý kết luận thu được dựa trên các thông tin cũ.

27

Ứng dụng hệ chuyên gia trong xây dựng chương trình đọc văn bản tiếng việt có ngữ điệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về