Xây dựng bộ phân tích cú pháp tiếng Anh trong hệ dịch tự động Anh-Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (34.89 MB, 110 trang )

ĐẠI MỌC QUỐC (ỈIA HÀ NỘI
KHOA CÔNG NGHỆ
LÊ 0 N H C Ư Ở N G
XÂY DỰNG B ộ PHÂN TÍCH c ú PHÁP TIẾNG ANH
TRONG HỆ DỊCH T ự ĐỘNG ANH - VIỆT
LUẬN VĂN THẠC SỸ KHOA HỌC
CHUYÊN NGÀNH: TIN HỌC
MÃ SỐ; 010110
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. H ố s ỉ ĐÀM
HÀ NỘI - Năm 2001
Mục lục
Chương 1 : Giới thiệu thung
1.1 Thế nào là dịch máy, vai trò và vị trí
1.2 Lịch sử cùa tlịch máy
1.3 Các chiến lược dịch máy cơ bản
1.3.1 Dịch trực tiếp
1.3.2 Dịch chuyển đổi

1.3.3 Dịch liên ngữ
1.4 Một số liếp cận mới
1.4.1 Dịch máy dựa trên thông ké
1.4.2 Dịch máy dựa trẽn ví dụ
1.5 Phạm vi nghiên cứu của luận vãn
Chương 2: Phương pháp dịch chuyển dổi
2.1 Sư đổ của hệ dịch chuyển dổi
2.2 Phân tích hình thái
2.3 Phàn tích cú pháp
2.3.1 Biểu diễn cấu trúc
2.3.2 Thuật toán phân tích
2.3.3 Chuyển dổi cấu trúc
2.3.4 Nhập nhằng về cấu trúc

2.4 Phân tích ngữ nghĩa và Sinh câu
2.5 Tổng kết
Clurưng 3: Phán tích cú pháp tiếng Anh trong hệ thông dịch Anh-Việt
3.1 Tống quan về hệ thống dịch Anh-Việt
3.2 Kết hựp với tiếp cận iheo mâu dịch
3.3 Lựa chọn thuật toán Earley cho phân lích
3.4 Phân tích thành phần cho câu cổ cấu trúc xấu
3.5 Xử lý nhập nhằng về cấu trúc
3.6 Tổng kết
Chương 4: Phân loại từ vựng và xay tlựng bộ luật ngữ pháp
4.1 Một số dặc diểm trong phán loại Iigữ pháp

4.2 Các lớp ngữ pháp

4.2.1 Động lừ
4.2.2 Tính lừ
4.2.3 Phó lừ

.

.

.

.

.
6
.6
8

10
10
11
13
15
15
17
18
21
21
22
26
27
31
34
36
40
44
46
46
49
51
58
62
67
69
70
72
72
75

77
4.2.4 Đại lừ 79
4.2.5 Danh từ 81
4.2.6 Các loại khác 82
4.3 Xây dựng.bộ luật 82
4.3. i Phân mức luật 83
4.3.2 Qui tắc xa y dựng cụm

83
4.3.3 Bổ sung cấu trúc

85
4.3.4 Một sô' luật cú pháp tiếng Anh 86
4.4 Tổng kết

94
Chương 5: Chương trình và thực nghiệm 96
5.1 Các cấu trúc dữ liệu chính %
5.2 Thực nghiệm 99
5.3 Tổng kết 101
Kếi luận 103
Tài liệu tham khảo 105
Phụ lục 108
5
GIỚI THIỆU
Dịch máy là một Lĩnh vực dược nghiên cứu và ứng (.lụng Milieu nhất trong các
lình vực về xử lý ugỏn ngữ tự nhiên. Trên thế giới, dịch máy dã dược nghiên
cứu lừ lất lâu và phát triển lớn mạnh lù thập ký 80. Kết quá là rát nhiều hệ
thống ihương mại về dịch máy đã có mặt trên thị trường và hổ trợ con người rất
nhiều (rong một thế giới với lượng thông tin trao dổi ngày càng lớn, tốc độ càng

nhanh với nhiều ngôn ngữ khác nhau. Hơn nữa sự phát triển của Internet ngày
càng khắng định nhu cầu rất cần Ihiết của các hệ ilịch máy. Vì vạy Luận văn dặt
vắn dể nghiên cứu về dịch máy, trong dó đi sâu vào nghiên cứu inộl lĩnh vực
trong dịch máy liên quan tiến việc phát Iriển niộl hệ thống địch lự động lừ liếng
Anh sang tiếng Việt. Đây cũng là một hệ thống cần thiêì đầu liên trong các hệ
thống dịch máy lừ tiếng nước ngoài sang tiếng Việt (vì sự quan trọng của liếng
Anil í rên thế giới).
Trong sự phái triển của dịch máy, tiếp cận dịch trực tiếp dược coi nhu là một
dặc mrng cùa các hệ thống thuộc chê hệ iláu tiêu. Tiếp theo, các hệ ihôìig dựa
Hèn luật bao gồm phương pháp dịch chuyến đổi và liên ngữ thường được xem
nlur mang các đặc lính của thê' hệ (lịch máy thứ hai. Gần dây lum, các phương
pluíp dựa trẽn kho ciữ liệu văn bán (corpus) như dịch máy dựa trên thống kê,
(lịch máy dựa trên ví dụ cũng đã tỉui húl (lược rất nhiều sự quan tám và nghiên
cứu. Tuy nhiên các phương pháp mới này cũng còn nhiéu hạn chế do chỉ áp
liụng trong niộl phạm vi nhất định và không thể hiện đưực các qui tắc tổng quái
cua ngôn ngữ tụ nhiên, và do đó các hệ thống dịch thương mại hiện nay đa số
vàn ilieo liếp cận của phương pháp dịch chuyển dổi. Chính vì vậy phương pháp
(lịch chuyến đổi là cách tiếp cận ill ích hợp nhất hiện nay trong việc xây dựng
mội hệ ihống dịch lự tlộng Anh-Việi.
Trong liếp cận dịch chuyển đổi, việc giái quyết các vãn dề liên quan đến bộ
phim lích cú pháp của ngôn ngữ nguồn, ở dây là ngôn ngữ liếng Anh, là mội
còng việc rấ! quan trọng. Luận văn nghiên cứu về các ván (lé liên quan đến xử
lý cú pháp trong i)ệ lhống dịch Anh-Việl hao gổm xây liựng 1)6 lnậl ngữ pháp
lieng Anh, cùng VỚI nó là dưa ra nliìíiig 1)0 sung liong pli.in loại ngừ pháp cho
1
phù hợp với nhu cầu dịch máy. Trong phán lích cú pháp cho ngôn ngữ lự nhién
thì liai vấn dề rất quan Irọng và hay gặp phái là việc phân tích cáu có Ink xấu
mà bộ luật cú pháp không nhận dược và việc có nhiều cay phau lích đo sự nhập
nhằng vé cấu irúc cùa ngôn ngữ iự nhiên. Do đó mà bén cạnli việc xây (lựng bộ
luậi cú pháp, Luận vãn nghiên cứu và đưa ra các giái pháp cho các ván để về

phán tích câu có câu trúc xấu và xử lý nhập nhằng vể cấu núc. Sau đó, Luận
vãn kết hạp các két quả này để xây đựng hệ thống phán lích cú pháp liếng Anh
mà có thể được sự dụng như một cấu phẩn của một hệ dịch lự động từ tiếng
Anh sang liếng Việt. Như vậy vấn đề dạt ra trong Luận ván là nghiên cứu, xử
lý các vấn dê liên quan để xây dựng bộ phân lích cú pháp liếng Anil sử dụng
trong một hệ ihống dịch tự dộng Anh-Việt.
.ỉ
Chương 1: Giới thiệu chung
1.1 Thế nào là dịch máy, vai trò và vị trí
Trái qua mấy thập kỉ, vấn đề về dịch máy dược râì nhiều nhà khoa học quan
lâm, họ dã đưa ra nhiều khái niệm về dịch máy, tuy nhiên ý urởng chính của họ
vẫn là như nhau:
Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng máy
linh đ ể dịch tài liệu từ một thứ tiếng (trong ngôn ngữ lự nhiên) sang một hoặc
vài thử tiếng khác.
Ngôn ngữ của văn bản cần dịch được gọi là ngôn ngữ nguồn hay ngổn ngữ vào.
Ngôn ngữ văn bản đã dịch ra được gọi là ngôn ngữ đích hay nỵỏn ngữ ra.
Theo thống kê của Liên hợp quốc có gần 10.000 ngôn ngữ trên toàn thế giới.
Nhờ có những ngôn ngữ khác nhau loài người mới có được nền văn hoá đa
dạng, nhưng với lượng ngôn ngữ nhiều như vậy nó sẽ trỏ thành hàng rào ngăn
cản sự phái iriển của thương mại và giao lưu thông tin quốc tế. Để khắc phục sự
cản trở này, ioài người phải dùng một đội ngũ phiên dịch/ biên dịch viên rất lớn
dể dịch các văn bản tài liệu, lời nói lừ tiếng nước này sang liếng nước khác. Đó
là công việc Ihủ công, nặng nhọc nhưng năng suất Ihấp, giá ihành cao , trong
khi khối văn bản cần dịch lại ngày càng nliiổu.
Mặi khác, với sự phát triển cực kì nhanh chóng của Internet dẫn tới nguồn
Ihỏng tin được truy cập từ khắp mọi nơi trên thế giới với nhiều ngôn ngữ khác
nlnui. Diều này càng làm tâng nhu cáu dịch lừ ngôn ngữ này lới ngôn ngữ khác
với loe (lộ càng nhanh mà việc dịch ihủ cồng dã không còn (láp ứng dược nữa.
Do vậy, dịch máy là một nhu cầu tất yếu. Nó sẽ dóng mội vai Irò quan trọng

trong dời sống xã hội và có tính kinh tế cao. Dịch máy (lược bái đầu Hgiên cứu
ngay sail khi xuất hiện chiếc máy tính diện từ dầu liêu. Tuy nhiên, ilịch máy
không chí là một ứng dụng till học phi số thuần luý mà iió còn cần một liíựng
lớn tri líuxc dịch. Do đó mà việc giái Cjityéï li iộl đe ngón ngữ lự nhiên là dieu vó
cúng khó khăn và vì vậy đến nay vẫn còn rát nhiều vấn dé cán cỉirợc tiếp tục giải
(ịiiycì.
6
Cluing la có thè hình dung một hệ dịch máy qua sơ (lổ sau:
Con người
S r

'Ẩ yr-*
A t A
vãn soạn
văn
bán
- ►
tháo,
—►
Dich
- ->
lliệu
►
bán
vào kiểm tra
may dính
ra
chính tả
Cơ sứ u i Ihức
H1.1 Sơ đồ lổng quan một hệ dịch máy.

Dầu vào cùa một hệ dịch máy lliỏng thường là một văn bán (texl) viết trong
ngôi) ngữ nguồn (ngôn ngữ cần dịch). Văn bản này cổ thể lấy lừ một hệ soạn
tháo văn bán, một hệ nhận dạng clnì viết, lời nói vSuu dó vãn bán có the được
kiếm lia lại nhờ khối soạn thảo, kiểm lia chính tá, nước khi dưa ra máy dịch.
Trong quá trình dịch máy, hệ ihống thường phái sử dụng đến mội lượng lớn trí
liurc dịch. Trí Ihức dịch bao gồm các loại từ điển hình thái, lừ điển từ vựng, từ
điếu luật,
Ở dầu ra là vãn bản bằng ngôn ngữ (lích. Với văn hán này la phái hiệu chinh và
soạn (háo cho phù hợp với việc sử (lụng.
Ngoài các hệ dịch máy tụ dộng, còn có các hộ tlịclì máy trợ giúp - Machine-
Aiđcil Translation (MAT) dược chia làm các loại:
a) lliiDtiiti-assislcri machine translation (I lAMT)
Dịch máy với sự irợ giúp của người: máy (lịch là chính, toil người giiim sál vá
jỉiii|> m á y klti 1'iiii tiiiốl (c h ọn ilúnt* Hghĩit Ir o n y liirùiiịi luiị) lừ il.i Hgliiii)
7
b) Machine- assisted human translation (MAIil )
Người (.lịch với sự trự giúp của máy: Người (lịch là chính, máy giúp tiỡ khi có sự
yêu cầu của con người (ira nghía của từ, thành ngữ )
c) Teiminology-Daht banks
Ngàn hàng thuật ngữ: thực chất đáy không phải là hệ dịch máy, nlitrng nó cung
cáp mội lượng thuật ngữ rất lớn, cần thiết khi xây dựng, cập nhật cơ sở dữ liệu
chơ máy.
0 dây chúng ta chủ yếu quan lâm và đề cập tới các vấn (té Iron g các hệ dịch
máy lự dộng.
1.2 Lịch sứ cùa dịch máy
Dịch ngôn ngữ tự nhiên bằng máy, là ước mơ từ Ihế kỷ 17, nay dã irớ thành sự
thực ở cuối thế kỷ 20. Các chương trình dịch máy không hoàn háo theo ý như
con người mong mỏi trong các văn bản có tính vãn chương như tiểu thuyếi, thơ.
Tuy nhiên, ỉà chấp nhận dược trong các văn bán kĩ thuật, khoa học.
Sau những phác thảo những tính năng cư bán, lịch sử dịch máy đã có sự phát

h iến lừ những người tiên phong và các hệ Ihống ban dầu lừ những nãm của thập
ký 50 và 60 đến sự ảnh hưởng của báo cáo AIJ5AC trong giữa thập kỷ 60, lấy
thông till irong những năm 70, sự xuất hiện của các liệ Iliống lịuàn sự và líiưưng
mại trong nhữn năm 80, những nghiên cứu trong những năm 80, những phái
Iiien mới trong những năm 90, và việc lăng mức ci ộ sử dụng những hệ thống
này irong thập ký vừa qua.
Giai đoạn tiền máy tinh:
It nlúiì là từ thế ký 17, các nhà nghiên cứu và các nhà triết học dã dể nghị xây
dựng một biểu diễn chung cho tất cả các ngôn ngữ đề vượt qua l ào cản về ngôn
ngữ. Gán đây hơn, một cơ chế dịch thực hiện bằng máy dã dược cấp báng sáng
chế cho Pelr Smirnov-Troyaskii người Nga trong năm 1933.
( 'ác IIO lực đầu tiên:
Ban dầu người ta dể nghị việc sứ dụng kỹ thuật tinh loán sỏ Irong dịch máy,
VII/I' này kéo ilài íl nhãt (Jen 1947, khi mà máy lính llùtnli cóng Irong Iij:ành mặt
8
nul Irong thế chiến thứ hai. Đến khi một để nghị lừ Warren Veave về một kế
hoạch dặc biệt sử dụng máy tính để dịch ngôn ngữ tự nhiêu dã làm bắt đầu
những nghiên cứu về dịch máy lại Mỹ và cả các nơi khác nén thế giới. Bản
Irìiih diễn đầu liên là hệ thống dịch Nga-Anh trong năm 1954. Sự kiện này đã
link* đẩy nghiên cứu về dịch máy ở Liên Xô(cũ) và nhiều nơi khác trên thế giới.
Hán ihởng báo ALPACị Ỉ9Ố6):
Sự khởi đầu lạc quan trong dịch máy đã kết thúc ở Mỹ khi bán ihông báo của
các nhà lài trợ của chính phủ ALPAC cảnh báo lằng dịch máy không đạt đưực
hiệu quá như mong muốn. Kết quả là tiển tài (rợ từ dịch máy được chia ra cho
lĩnh vực Aỉ và CL. Mặc dù vậy một số nhóm chính về dịch máy vẫn tiếp tục
hoạt dộng bên ngoài nước Mỹ.
Thập kí 1970 rà các hoạt động trong dịch máy:
Đầu thập ký 1970 vẫn tiếp tục các nỗ lực trong dịch máy, xây dựng các hệ
thống dịch máy. Đẩu liẽn là hệ thống dịch Nga-Anh cho không quân Mỹ trong
năm 1970, trong khi đó hệ thống Méléo bắt đầu dịch các bản tin thời liết vào

năm 1976. Cũng trong năm 1976, cộng dồng Châu Âu đã cài dặt một hệ dịch
Anh-Pháp.
ì lói sinh trong thập kỷ 1980:
Cuối những năm 1970 và đầu những năm 1980 dịch máy lại được quan tâm lớn.
Do ảnh hưởng của những kết quả trong các dự án Grenoble và Saarbruken từ
Ihập kỉ 1970 và 1960, dự án Eurolran của cộng đồng Châu Âu đã được bắt đầu
lừ năm 1982, và hướng dịch máy dựa trên tri ihức (Knowledge-Based MT) cũng
dược bắt đầu nghiên cứu tại Mỹ từ năm 1983. Thời gian này cũng thấy xuất
hiện các hệ ihống dịch thương mại.
Cuối thập kỷ ỉ980 và dầu thập kỉ ỉ 990:
Mội .số lượng các công ly, dậc biệt là các công (y điện lử lớn ở Nhật bắt dầu
quáng cáo các sản phẩm phần mềm dịch máy cho các máy Irạm. Xuất hiện một
sô' sán phẩm cho máy tính cá nhân và lất nhiều công cụ trự giúp dịch bắt đầu
dưực .sứ dụng một cách thông dụng. Cũng trong giai đoạn này thấy nổi lên ĩinh
vực vé xử lý tiếng nói và hướng tiếp cận thống kè đối với dịch máy.
9
( 'nói thập kí 1990 và cúc hệ trợ ịỊÌÚỊ) dịch máy :
Cuối (hập kỉ 1990, các pliiíu mềm dịch chạy trên l’C và trẽn liilcmct (là khá phổ
biến và dưực dùng râì hiệu quả. Trong giai doạn này các nhà khoa học quan tâm
hơn đến tiếp cận dịch dựa trên ví dụ (example-Based MT).
1.3 Các chiến lược dịch máy cơ bản
Các hệ thống dịch máy thông thường dược phàn loại ihco các chiến lược cơ bản
sau đây:
1.3.1 Dịch Inrc tiếp
Các hệ llìống dịch Irục liếp liên quan đến việc dối sánh các mầu xâu một cách
rộng rãi với việc sấp xếp lại xâu đích cho tliích họp với ngôn ngữ dích. Râì
nhiều hệ thống trước dây cũng như một số phàn mềm dịch máy hiện nay cho
các máy cá nhân đã dùng chiến lược này. Các hệ thống theo tiếp cận này được
ihiét kế cho từng cập ngôn ngữ cụ thể, tiến trình dịch ià ưực liếp từ ngôn ngữ
nguồn sang ngón ngữ đích. Đặc điểm chính của dịch trực tiếp là phân lích ngôn

ngữ nguồn hướng tới sự đặc tả cho một ngôn ngữ đích cụ thể, hệ thống bao gồm
bao gồm một từ điển song ngữ lớn, mội số qui tắc từ vựng được sử dụng cho
phân lích từ điển và các thủ tục xử lý đặc trưng cho việc chuyển đổi giữa hai
ugòii ngừ. Sau dûy là lổng kết bốn giai doạn thường dược đùng cho các hệ
lilting dịch máy trực tiếp:
1. Phân lích hình thái câu nguồn: Công việc của giai đoạn này là phân câu
ihànlì các từ vằ phán tích hình thái cho lìhững từ này.
2. Chuyển đổi nội dung từ vựng lừ ngôn ngữ nguồn sang ngồn ngữ đích: chọn
nội dung dịch tương đương của các từ trong ngôn ngữ đích. Công việc này
sử đụng từ diếu song ngữ. Mộl số hệ lliống ngoài việc sir dụng lù điển song
ngữ nó CÒI1 sử dụng các ihủ tục chọn nghĩa của lừ dựa vào ngữ cảnh lân cận.
3. X ử lý dặc trưng: phần việc trong giai đoạn này phụ 1ỈU1ỘC vào sự khác nhau
giữa ngôn ngữ đích và ngổn ngữ nguồn mà tlạrc hiện các xử lý liên quan đến
các lừ ghép, cụm danh từ, cụm dộng lừ, giới lừ, hay liêii (|ìian đốn vị ni của
sv o (chù từ, động từ, lúc tìr>,
_
10
4. Sinh cáu đích: giai đoạn cuối cùng lluíờng là sinh hình thái cho ngôn ngữ
đích, mà thường là liên quan đến dộng lừ (các thì, ngói, số) và danh từ (số
nhiéu, số ít).
H1.2 Hệ thống (.lịch lrực liếp
Ưu điếm của phương pháp dịch Irực liếp việc xử lý ilưn gián, nhưng chính vì
vạy drill tiến chất lượng dịch không toi cho các cạp ngôn ngữ không có nhiều sự
lương (lồng vể từ vựng cũng như càu núc lìlur Anh-Việt, đặc biệi là trong các
cặp ngôn ngữ có nhiều khác nhau như Anh-Nhậi; chúng chí có lác dụng tưưng
(loi cho các cặp ngôn ngữ có nhiều sự lương dổng như Anlì-Pháp. Tuy nhiên
phương pháp này lì dược dùng độc lập mà ilurờng dược dùng két hợp với các hệ
Ihốiig dịch dựa trên luật dế xứ lý những cáu không nhận được bởi bộ phân tích.
1.3.2 Dịch chuyến đổi
Các hệ thống dịch chuyến đổi liên quan đến việc phân lích dầu vào (hành cấu

IMÍC chuyển đổi, nó trừu Uíựng hoá lừ
1
al nhiều chi tièì ngữ pháp của ngôn ngữ
nguồn. Ý tướng ở dây là làm <iễ dàng việc dịch bàng sự khái quát hoá liên các
sự xây dựng khác nhau. Sau khi phán lích, cấu trúc ngôn ngữ nguồn được
ilmyèn dổi tới một CÁU Irúc tương tltrưng Irnng Iigõii ngũ (lu ll, v;« kcì lịiia Iiày
(iưưc dùng dê sinh ra câu lại ngôn ngữ đích. Rrít nhiêu kiêu khác nhau cùa các
hệ lliỏng chuyển liối liưực định nghĩa, phụ thuộc vào mức lie) dược chuyến dối.
Nhìn chung nếu mức (iộ irừu tượng càng cao thì càng (lẻ (làng cho việc xây
dựng các mô lùiih chuyến đổi lương ứng, tuy nhiên độ nhập nhàng VI vậy cũng
sẽ láng lên theo.
Như vậy mội hệ Ihống dịch chuyển dổi dược ihiél kế để dịch cho một cập ngôn
ngữ nhái tiịnh, các hoạt động chính tủa hệ Ihống bao gồm: phím tích, chuyển
dổi và sinh càu. Thông ilurờng quá trìiih dịch sẽ xiíy ra Iilur Siin: càu vào sẽ ilượi
phân tích hình thái, sau đó sẽ được nhận dạng bởi bộ phân lích cú pháp mà kếi
quá llnrờng dược biểu diễn dưới dạng cày cú pháp; cây cú pháp này sẽ đưưc
c huyến dối sang dạng tương đương ờ ngôn ngữ đích và lừ dó sẽ sinh càu thuộc
ngôn ngữ đích.
12
H1.3 Hệ thống dịch chuyển dổi
Các hệ (hống dịch chuyển đổi có ưu điểm là chuyển tái được ngữ nghĩa của từ
vựng và cấu trúc tuy nhiên thường gặp khó khăn Hong các vấn đề nhập nhằng
về từ vựng và nhập nhằng về cấu trúc. Do vậy nó cũng thường được kết hợp với
các phương pháp khác như dịch trực liếp trong việc xử lý các Irường hợp câu có
cấu tiúc không (ốt (không nhận được bằng bộ duyệt cú pháp).
! .3.3 Dịch liên ngữ
Trong hệ thong liên ngữ, câu Irong ngôn ngữ nguồn (lược phán tích vào một
biểu điển chung. Từ biểu diễn này sinh ra ngôi) ngữ (lích. Dịc li liên ngữ do dó
bao gồm liai giai đoạn: từ ngôn ngữ nguồn lới ngôn ngữ chung, và lừ ngôn ngừ
chung lới ngôn ngừ đích. Như vậy các hệ thống dịch liên ngữ dùng một bộ kí

hiệu dữ liệu mô lả hạt nhân gọi là một liên ngữ. Liên ngữ được định nghĩa như
mội lập các khái niệm và các quan hệ giữa các khái niệm. Lien ngữ biểu thị ý
nghĩa của câu dưới dạng mạng ngữ nghĩa, trong dó mồi núi biểu diễn một khái
niệm và mỗi cung biểu thị một quan hệ. Vì thế, nổ có thể được xem là đặc tả về
cấu trúc khái niệm.
13
Các hệ thống dịch liên ngữ dược thiết kế theo các bước của hệ ihống chuyển dổi,
nhưng trước khi chuyển sang việc lạo cấu trúc ngữ pháp cho ngôn ngữ đích thì
cấu (rức ngữ pháp của ngôn ngữ nguồn được phân lích vào Irong cấu Irúc ngữ
nghĩa của một hệ cư sớ tri ihức còn gọi là liên ngữ
Tiếp theo hệ thống sử dụng tri ihức từ liên ngữ dể phân tích ngữ nghĩa và tạo
cấu trúc ngữ pháp cho ngôn ngũ díclì và sau dó bộ sinh cáu Irẽn cấu II úc này sẽ
được hoạt động.
ỈN.4 Lược đồ quan hệ giữa mỏ hình chuyển đổi và liên ngữ
Dịch liên ngữ có ưu điểm Irong trường hợp xây dựng mô hình da ngữ, nếu một
hệ thống dịch n ngôn ngữ thì chúng la chí cần n quá trình chuyển dổi .sang liên
ngữ và từ liên ngữ sang ngôn ngữ đích, liong khi với hệ (hối)g chuyển dổi ihì
thúng ta cẩn n(n-l) quá trình như Ilié cho từng cậ|) ngốn ngữ. Tuy nhiên xây
dựng dược tuộl liên ngữ dủ mạnh dể có iliế
1110
lá các lliỏiig liu tiu) cùng lúc
14
nhiều ngôn ngữ, cùng với các luật sinh cho lừng ngôn ngữ là mộl cõng việc rát
pliưt lạp, và đến bây giờ cũng chưa có [lệ ihống dịch nào tlìành công với cách
liòp cận này.
1.4 Một sô tiếp cận mới
Trong ihập kỷ 90 và đế» hiện nay có lất nliiểu nghiên cứu tìm hiếu về sử dụng
corpus (cơ sở dữ liệu văn bản lớn) trong dịch máy. Với việc sứ dụng corpus, các
kỹ thuật trong thong kê đã thể hiện được những ưu điểm của nó. Trong phần
này la giới ihiệu về liai liếp cận đặc trưng trong việc sử dụng corpus là dịch máy

dựa trên thống kê SBMT (Statistical-Based Machine Translation) và dịch máy
dựa trên ví dụ EBMT (Example-Based Machine Translation). Các plnrưng pháp
mới này đã thể hiện cách nhìn mới so với liếp cận Iruyền thông và mang lại một
so kếi quá, tuy nhiên cũng còn nhiều hạn chế.
1.4.1 Dịch máy dựa trên (hống kê
Tiếp cận dịch máy dựa trên Ihống kê được giới thiệu đầu tiên trong f!7Ị(Brow,
ll)90) và các mô hình toán học cho tiếp cận này dược liìnl) bày đầy đủ và chi
Ik
'1
nong [18](Brow, 1993). Tiếp cận dịch dựa trên llìống kê thực hiện dịch liên
lừng cạp ngôn ngữ cụ thè. Nó coi rằng mọi câu trong mội ngón ngữ đều là kết
quá lịuá dịch của một càu bất kỳ llniộc ngôn ngữ kia với một xác suáì nào dó.
!)(> vậy chúng ta kí hiệu mọi cặp câu (S,T) mội xác xuất P(T I S) hiểu clíổn cho
xái: suáì clurưng trình (lịch sẻ chọn câu '1' Iron g ngôn ngữ đích sẽ là kếl I|iiá dịcli
cứa câu S trong ngốn ngữ nguồn. Ta mong muốn clurơng trình dịch sẽ xác định
(lược giá trị P(TIS) là rất bé với cặp câu nhu (She is a teacher I Tôi thích một
quyển sách màu xanh) và có giá u ị cao tie thế hiện ilưực lỊuau hộ mật III ici Hong
cặp cáu như (I like a blue book I Tôi thích một quyển sách màu xanh). Như vậy
với xáu ihuộc ngôn ngữ nguồn s hệ thống dịch xác suàì phái tìm dược xâu đích t
sao cho cực đại giá trị P(ils). sử dụng công thức Bayes la có thế viết:
P(lls) = P(t)*P(slt)/P(s)
Vì !’(s) là giá trị không đối nên theo cóng llnrc liên, thay vì việc tìm giá trị cực
CÌỊŨ cho P(tls) chúng ta sẽ tìm giá trị cực dại của biểu Ihức P(t)*P(slt). Nhiệm vụ
«.lịch sẽ là nhiệm vụ tìm:
15
lA=argmax P(Il^sll>
t
KÕ làng llieo biổu thức trên, chúng la thây công việc của hệ dịch xác suâì hao
gổm:
(a) lính toán khá năng của một xâu sẽ Chuộc ngôn ngữ đích, hay nói cách khác

là lính toán khá nâng một xâu sẽ có dạng tốt trong ngôn ngữ đó.
(b) lính toán khá năng của xâu nguồn sẽ là xâu dịch của mội xãu ugôn ngữ đích,
huy tổng cịuát là khá năng một xâu là xâu dịch cúa mội xâu thuộc ngôn ngừ
khác.
(c) mội kỹ thuật tìm kiếm xâu ngôn ngữ đích làm cực dại biếu thức trên.
Nhưng có một câu hỏi là tại sao chúng ta không tính P(tls) trực tiếp mà lại phái
tính qua biểu thức F(t)*i)(slt) vì rõ ràng nếu chúng ta có thể lính toán được P(sll)
thì cũng có thể tính được P(lls). Lý do là khi chúng lu lính loán P(lls) chúng la
cấn lặp trung liên việc tìm dược một xâu t không những có xác suất là xâu dịch
cùa s mà còn phải đòi hỏi có khuôn dạng tốt Irong ngôn ngữ đích trong khi các
mò hình dịch xác suất không lập trung trên việc dám báo xâu l là có khuông
ilạng lốt trong ngôn ngữ T, nhưng nếu chúng ta lính P(slt) thì không yêu cáu
phái tập trung sao cho t có khuôn dạng tốt. Do vậy, thay vì việc tính P(tls),
chúng ta tính P(t)*P(slt) sẽ dung hoà được cả hai yếu tố là [ sẽ là xâu dịch của s
và l sẽ có khuôn dạng tốt trong ngôn ngữ đích.
Các nhiệm vụ của hệ tlìớng dịch xác suất liên quan dến mô hình đưn ngữ và mô
hình dịch. Mô hình dưn ngữ thường dưực dựa trên mò hình bigram hoặc
d iagram. Điếm dặc trưng cùa nó là xác định khá năng xuãì hiện của một lừ phụ
thuộc vào các từ đứng liền trước nó (2 từ đối với mô hìnli bigram, 3 lừ dối với
mô hình triagram). Từ phưưng pháp này để tính toán khá năng của một xâu là
có khuôn dạng tốt trong ngôn ngữ.
Mỏ hình dịch sử dụng lần suất cùng xuất hiện của các lừ trong ngôn ngữ nguồn
và Iigõn ngữ đích, chiổu dài của xâu chứa các từ dó, vị trí của các lừ trong xán,
so lượng các lừ thuộc xán (tích lifting ứng với lìrilmộr xâu iiịMiồn.
16
Tóm lại các hệ thông dịch máy dựa trẽn mô hình Ihống kê và xác suãì cứa quá
trình dịch được dào tạo liên một lưựng lớn các dữ liệu vãn bán song ngữ. Có
nhiều mô hình cho liếp cận này dược dưa ra bao gồm lất ít hoặc không liên
lỊiian đến các vấn để vể lìgỏn ngữ học, mà thay vào đó là (lựa hên các ilặc lính
phán phối các từ và các cụm đế sinh ra kết quá dịch thích hợp nhất. Ý iưởng

chung trong dịch máy dựa liên thống kê là chúng la lìm kiếm các tính chãi của
dữ liệu vãn bản song ngữ mà dễ dàng đo được và tìm cách sir dụng những đặc
lính này để tiên đoán kếi quả dịch. Các liiuộc tính có lliế (lo dược ơ dây bao
gổm lẩn suất xuất hiện của các từ trong văn bản nguồn và đích, các vị trí quan
hệ của các từ trong càu, chiều dài của câu, và một số thuộc tính khác. Điểm
mạnh ở đây là việc này cần rất ít thông tin ngôn ngữ. Tuy nhiên nó sẽ gặp khó
khăn trong trường hợp dữ liệu rời rạc và nó chỉ Iliể hiện kết quá tôi trong những
câu lest lương lự như dữ liệu được đào lạo.
1.4.2 Dịch máy dựa trên ví dụ
Ý tưởng cơ bản Irong EBMT rất đơn gián: dể dịch một câu thường là chúng ta
sử dụng kết quá dịch của các câu lương lự như câu đó, và rất nhiều kết quả dịch
chi là sửa đổi những kếl quả đã có. Khi có một càu cẩn dịch, chúng ta tìm trong
dữ liệu ví dụ các càu tương ứng với câu cần dịch sao cho các phẩn trong câu này
bị phú bởi các câu ví dụ được chọn. Từ các thành phần phủ này, chúng ta lấy ra
các thành phần dịch lương ứng lừ câu dịch của câu ví dụ và két hợp lại dể xây
dựng nên kết I]uẳ dịch. Ví dụ:
Cluing ta cẩn dịch câu: “John bought a book on economics.”
Giá sir Iron g kilo ví dụ có hai mẫu:
Ann read a book on economics (Ami dọc một CUỐ11 sách về kinh le) ( I )
Julie houijht il notebook (Julie đã mua một cuốn vớ) (2)
Hệ lliống sẽ nhận dạng dược cụm a book on economics Hong mầu (1) và cụm
Julie bought Hong mẫu (2) sẽ phủ càu cần dịch. l)o dó sẽ lấy hai cụm dịch
lương ứng là một cuốn sách về kinh tếvh Julie dã num để xây dựng nén kêì quá
dịch là John dã mua một cuốn sách vé kinh tế.
ị V - U r J 17
i
_ _ _
!

. . . . . . . .

.
. . . .
Theo ịl9|(Salo 1990), một hộ IhốHg ÍỈBMT dặc Innig thường có [ihữug thành
phần chính sau dây:
- Một cư sở dữ liệu bao gồm các ví dụ, mồi ví dụ là một cặp câu nguồn và câu
đích dã được dóng hàng. Thông Ihường iliì cấu uiíc câu phái được lưu dưới
dạng cấu trúc phụ thuộc.
Mội thuật toán tìm các ví dụ urưiig ứng với câu vào ilược hiếu là các ví dụ
này sẽ phủ lêu câu cầa dịch.
Một ihuật toán kết hợp dùng dể xây dựng lại câu vào bằng cách kết hựp các
thành phần con (các phần phủ) iưưng ứng với càu vào lừ các ví dụ.
Một thuật toán chuyển đổi và kêì hợp lừ các thành phần dịch trong các ví dụ
dế tạo ra câu đích.
Tiếp cận dịch dựa trên ví dụ có nhiều uu điếm và cũng dã Il)ử nghiệm có kếi
quá tốt, tuy nhiên chí trong phạm vi hạn chế. Điểm mạnh của nó là tránh được
xày dựng luật chuyển đổi một cách thù công, thứ hai tà có ihể dạt dược chấl
lưựng dịch cao nếu câu cần dịch gần gũi với các ví dụ. Tuy nhiên các hệ thống
theo liếp cận này vẫn đòi hỏi các thành phần phân tích và sinh để sản xuất ra
cấu trúc phụ (huộc cho dữ liệu ví dụ, và dùng để phân tích câu vào. Một vấn đề
nữa mà liếp cận này gặp phải là thời gian tính toán quá láu do câu vào phải
dược kiếm tra sánh với tất cả các mẫu Irong ví dụ.
1.5 Phạm vi nghiên cứu của luận văn
Hiện nay dịch máy có thể chia làm hai liếp cận chính là tiếp cận dựa trên luật
mà phương pháp, thể hiện lõ nhất là phương pháp dịch chuyển đổi. Tiếp cặn Ihứ
hai là liếp dựa trên corpus mà ứng dụng trực liếp của I
1
Ó là pliưưng pháp dịch
iheo ví dụ và dịch dựa theo thống kê. Mỗi phương pháp đều có những diểin
mạnh và những nhược điểm riêng của nó. Tiếp cận theo luật Ihể hiện dược tính
lổng quát hoá của các qui tắc trong ngôn ngữ, nhưng chính vì thê' mà gây ra

nlìiểu nhập nhằng và gặp khó khăn trong xử lý một số hiện tượng ngôn ngữ.
Trong khi liếp cận (lựa Irên corpus, do sử dụng được những kêì quá (lịch trên
một số lương lớn các ví dụ, nên sẽ cho kết quả lốl nếu gặp những câu có nhiều
lifting ilòng với lập ví dụ, giải quyốl ilược tilũéu Inrờng hợp LU Iliii' của ngôn ngũ.
18
Tuy nhiên thuộc tính này cũng sẽ không đúng nữa Irong trường hợp dữ liệu rời
Iạc. Mạt khác tiếp cận này còn nhiều bái cập khi chúng ta cần dịch những miền
dữ liệu mới, khi đó đòi hỏi phải tạo lập ví dụ mới và đào tạo lại hệ chống.
Với những đặc điểm đó mà các hệ Ìhống dịch thương mại hiện nay vần là các
hệ ihống dựa trên tiếp cận luật. Tuy nhiên xu hướng mới là kết họp các cách
liếp cặn. Các hệ thống vẫn có thành phần chính là các bộ luật vổ ngữ pháp, bộ
luật hình thái, đổng thời sẽ sử dụng corpus cho các trường họp xử lý nhập
nhằng về hình thái, hay ngữ nghĩa.
Trong xu hướng mới đó, tiếp cận dịch dựa trên luật vẫn đang đóng một vai trò
rất quan trọng. Chính vì vậy trong ý tưởng xáy dựng một lìệ (hống dịch tự động
Anh-Việt, chúng tôi vẫn lấy tiếp cận dựa trên luậl là tiếp cận chính. Luận vãn
nghiên cứu về các vấn đề liên quan đến xử lý cú pháp Irong hệ thống dịch Anh-
Việl. Trong đó việc nghiên cứu và hoàn thiện một cách nhìn về phân loại ngữ
pháp và xây dựng bộ luật ngữ pháp tiếng Anh là một nhiệm vụ rất quan trọng.
Ngoài việc xây dựng bộ luật ngữ pháp, luận văn còn đề cập đến và titra ra các
giái pháp cho các vấn đề về xử lý nhập nhằng cấu trúc và phàn tích các câu có
cấu li úc xấu. Đặc biệl dã dưa ra thuật toán cho phân tích cụm trong cAu có cấu
trúc xấu và dưa ra hàm lượng giá cho cây phân tích dể giải quyết nhập nhàng.
Vì vậy, luận văn được cấu trúc như sau:
- Chương 1 trình bày giới thiệu chung về dịch máy, lịch sử lóm tắl và các tiếp
cận Irong dịch máy. Từ đó đặt vấn đề về hướng nghiên cứu của luận vãn.
- Chương 2 cũng là một phần trong việc tìm hiểu các vấn dề về dịch máy. Vì
phương pháp dịch dựa trên luật dược thể hiện rõ nhất trong một hệ thống
dịch chuyển đổi nên chúng ta trình bày các vân dề nong hệ thống dịch
chuyển đổi để có một cái nhìn tổng quan về cả hệ lliống. Do vậy chương 2

ninh bày về các vấn đề trong phương pháp dịch chuyển đổi, trong đó tập
inmg di sâu vào xử iý cú pháp là vấn dề chính cần quan tâm. Chúng ta trình
bày lần lượt về lổng quan các thành phần của một hệ dịch chuyển đổi, phán
lích hình thái. Phẩn xử !ý cú pháp Hình bày biểu diễn cú pháp, phân tích cú
pháp, chuyển đổi cú pháp và các vấn dề về nhập nhằng trong cú pháp. Phẩn
còn lại giới thiệu vổ phân lích ngữ nghĩa và sinh cáu.
19
- Chương 3 là một trong những chương quan trọng trình bày các giái pháp đối
với các vấn dề trong hệ thống phân tích cú pháp của chúng ta. Ổ tlãy chúng
ta dã kết hợp phương pháp dựa trê» luật truyền thống với tiếp cận dựa trên
mẫu dịch dể xáy dựng mô hình luật hai mức. Điều này kếi hợp dưực lính
long quát hoá của các luật chung và giải quyết dược những hiện tượng cụ
thể trong ngôn ngữ tự nhiên dể nâng cao chất lượng dịch. Chương 3 cũng
hình bày giúi pháp về xử lý nhập nhằng trong cấu Ink: nhờ dưa ra hàm
lưựng giá. Đặc biệt (rên cơ sở Ihuật toán Barley, chúng la dã (.lưa ra thuật
toán duyệt dối với các câu có cấu trúc ngữ pháp xấu, và nêu ra plnrơng pháp
cho việc phân tích những câu thuộc dạng này.
- Clnrơng 4 ihể hiện công sức của chúng ta Hong việc xây dựng hộ luật ngữ
pháp tiếng Anh trong hệ thống. Đây là nhiệm vụ C]uan irọng nhất của hệ
thông, nó thể hiện việc xây (lựng tri thức chính trong bộ phân tích cú pháp.
Do các phân loại ngữ pháp thông thường gây ra quá nhiều nhập nhằng nong
việc xâv dựng luật, tỉo iló chúng la phái phùu loại các lớp ngữ phá|> chi tiốl
1
)
011
, đồng thời xây dựng một bộ luật khá đầy đủ dựa trên sự phân loại này
cho ngữ pháp tiếng Anh. Việc này thật sự khó khăn vì chúng ta phải xây
ciựng đi xây dựng lại bộ luật nhiều lần trên các dữ liệu test đa dạng để phát
hiện các CỊIIÌ tắc mới nhằm plùm loại lù vựng chi liết hơn, cũng như phải xây
đựng bộ luật cho lương ứng với việc chuyển đổi cú pháp giữa tiếng Anh

sang liếng Việt.
- Chương 5 nói về chưưng tri ình và kêì quả thực nghiệm. Chúng ta li ình mật
số cấu trúc đữ liệu cơ bản trong chương Irìnli. Phần lliực nghiệm dược chúng
la thực hiện bằng cách: xây dụng bộ câu test, thực hiện chương trình và
kiểm tra các kết quá. Với kêì quá này dã chứng lỏ dược hộ luậl dưực xây
dựng cũng như các giải pháp về nhập nhằng và phân tích cấu trúc xấu đưa ra
là khá tốt, có khả năng áp dụng thực tiễn (rong việc xây dựng một hệ thống
dịch lự dộng Anh-Việt .
- Cuối cùng là phần kết luận tổng kết các kết quả đã thục hiện được (rong
luận vãn. Nêu các vấn dề còn lại và các hướng nghicn cứu mới Iron g tương
lai.
20
Chương 2: Phương pháp dịch chuyển đổi
Để xem xél phân tích cú pháp trong một hệ thống hoàn chỉnh, chương này la
trình bày các vấn dề trong hệ thống dịch chuyển đối, và tập trung đi sâu vào
phần xử lý cú pháp là vấn dề chính cần quan lâm. Phần 2.1 uình bày tổng quan
về các thành phần của một hộ dịch chuyển đổi. Tiếp theo phần 2.2 trình bày về
phán tích hình thái. Phần xử lý cú pháp bao gồm biếu diễn cú pháp, phân tích
cú pháp, chuyến dổi cú pháp và các vấn (lề về nhập nhằng Hong cú pháp được
trình bày trong 2.3. Phẩn còn lại trong hệ (hống liên quan đến phân tích ngữ
nghĩa và sinh câu là một phạm vi lớn không thuộc phạm vi nghiên cứu sâu của
luận văn sẽ dưực trình bày Hong 2.4. Cuối cùng phán 2.5 (ổng kếl cúc vấn lié đã
nêu [rong chưưng.
2.1 Sơ dồ cúa hệ dịch chuyển dối
V
Phân lích:
lừ vựng
cú pháp
cây phân
lích

Chuyển đổi:
cá pháp

lừ vựng L'đy pliiii
lịch
Sinh câu:
hình Ihái
kết hựỊ)
ngũ nghĩa
H2.1 Sơ dồ hệ thống địch chuyển đổi.
Hệ ilìống gồm có ba hoạt động chính :
r i i í i n I i t 'l l :
21
Nhiệm vụ của phần này là phân lích hình thái cùa các từ vào, tìm kiếm Irong từ
(lien tie sinh ra tấl cá các hình thái của các từlrong câu. Tiép ilict) là sinh cây cit
pliáp và phân lícli ngữ nghĩa dựa trên danh sách hình thái và các lnậi cú pháp,
luật ngữ nghĩa. Kếi quả sẽ là cây phân lích của câu ngôn ngữ nguồn.
Chuyển dổi :
Phẫu chuyến dổi sử dụng các luật chuyển dổi dế chuyển dổi lừ cây phân tích
câu nguồn sang cây phân tích ngôn ngữ đích, đồng thời iruy cập từ điển song
ngữ để chuyển đổi ngữ nghĩa trong ngôn ngữ nguồn sang ngôn ngữ đích dối với
các nút lá trong cây. Xử lý nhập nhằng về ngữ nghĩa là công việc rất khó khăn
trong giai đoạn này khi cần chọn nghĩa tương ứng với lừ ở ngổn ngữ nguồn
Hong ngôn ngữ dích.
Sinh cáu :
Bộ sinh câu có đầu vào là cây phân tích, các ngữ nghĩa lương ứng trong ngôn
ngữ đích, và kếl hợp với các qui lắc hình thái, qui lắc lổ hợp ngữ nghĩa trong
ngôn ngữ đích để sinh ra câu dịch (câu ngôn ngữ (lích).
2.2 Phản tích hình thái
Phán tích và sinh khuôn dạng từ là một bước thiết yếu trong xử lý ngôn ngữ tự

nhiên. Không những trong dịch máy mà trong các ứng dụng khác như kiếm lỗi
chính tá, từ điển, các hệ thống thu ihông tin đều phải xác dịnh được các biến thể
cíia các từ. Trong xử lý ngôn ngữ lự nhiên và dịch máy, cluing ta cần phải xác
định được ngữ pháp của một từ cũng như các thuộc lính ngữ nghĩa của từ đó.
Do dó việc xây dựng một cơ sở dữ liệu từ vựng là rất cần thiết.
Có hai phương pháp chính trong xáy dựng cơ sỏ' (lữ liệu lừ vựng. Mộl là chúng
la lưu giữ tất cả các khuôn dạng biến đổi của từ, ví dụ chúng ta lưu lấl cả các
xâu play, played, playing, plays. Hai là lưu dạng gốc của một lừ, và các dạng
khác được suy ra từ các luật hình thái kết hợp với một tập các phụ tố cùng với
qui tăc của nó, ví dụ play là từ gốc và các dạng khác dược sinh ra qua việc kết
hợp với các hậu tố -ed, -ing , -s. Mỗi mộl liếp cận (lều có ưu và nhược điểm của
22
Ị'hương pháp lưu trữ dầy dủ tất cá các dạng của từ có ưu điểm là làm cho việc
Imy cập từ được nhanh hơn và ứng dụng dược các kỹ tluiặl lưu trữ file với tliời
giiin II uy cặp tuyến tính như kỹ lhuậ[ hàm băm. Hưu nữa liêu (limg kỹ thuậi lưu
VÓI chúng ta có Ihể làm giảm khống gian lưu trữ, tránh những trường hợp lưu
trữ trùng ihông tin. Ưu điếm nữa là làm giám công sức pliál [rien các dạc lá cho
xử lý hình thái. Bên cạnh dó thì nhược điếm lớn nhất của plunmg pluíp này là
klióng sứ (lụng (lươc tính biến dổi có qui tác của hình lliái lừ dấn lie'll lliôug till
về một lừ được lưu khõng (hống nhâ't, dung lượng lưu trữ lớn.
Dõi với ị)lnrơng pháp chí hm Irữ dạng gốc cứa lừ thì ưu điểm và nhược (.liếm của
nó doi nghịch với phương pháp vừa nêu trên: sử dụng dược tính có qui lác cùa
lùnli lluíi lừ, thông (in về mội tù được thống nhái vào một chồ và vì llìế được
quái) lý đé dàng hơn, và líu diểm HỮU và sẽ liên đoán Iiước (.lược các ilạng hình
Ihiíi của từ. Tuy nhiên vì những ưu điểm đó mà thời gian xử lý lâu Í
1
ƠI
1
, và cần
phái xây tiựng và quản lý các luậl hình thái. Thêm vào lỉó thì những dạng biến

dổi hình thái bâì qui tắc vẫn cần (lược lưu irữ riêng.
i lui plurơng pháp đểu có ưu và nhưực diểm riêng của cluíiìg, Iilurng Irong da sò'
các H ường hợp thì phương pháp Ihứ hai vẫn được lựa chọn bơi vì lằng trong
liêng Anh có hệ (hống hiến dổi hình (hái khá đơn giản và có Iliể quản lý bằng
cácli liội kê lất cả các hình thái lừ, nhưng việc liệt kê hết các kha nàng lừ vựng
là khổng khá (hi trong nhiều ngôn ngiì như Phần lan, Thổ nhĩ kỳ, những ngồn
ngữ có hàng trăm dạng biến thể của mỗi một danh lừ hay (lộng từ. Mặt khác kể
cá ilõi với liếng Anh thì vẫn ncn có bộ phân lích hình thái, bới vì mặc dù tiếng
Anh có giới hạn các biếu lliẻ hình (hái từ, nó vẫn nil phức lạp. Ví till, lìr gốc
roiỉiputc, nó dần xuất ra các dạng như Computer, computerize, computerization,
noiiiompitiei Ĩ2eil, . . . Và vì thê' liên không có khả năng liệi kẽ hêì mọi khía
cạnh của lừ vựng, nhiều hình thái lừ vựng mới có lhé' sinh ra trong ngữ cánh
mới.
Dề xây tiựng bộ phân tích hình lluíi thì mỏ hình tlưực bièì nhiêu nhất là mổ hình
hình thái hai mức . Sau đây là giới lliiệu lỏm tắt mỏ hình này
Mo hình hình thái hai mức:
23
Cluing la hãy xem xét một ví dụ biến đổi hình thái sau: lừ chasexl được xem như
dần xuâì từ chase bằng việc thêm hậu tố ecl. Tuy nhiên, nếu thêm ed vào chase
tlíi sẽ dẫn đến việc sẽ phải loại bớt đi một kí tự e. Do đổ chư se và chas dược
xem như là các dạng khác nhau của cùng một hình vị. Mòi lừ dược hiểu (liền
như một tương ứng nực tiếp giữa dạng lừ vựng của nó và chính lừ đó, hay còn
gọi là dạng bên dưới và dạng bể mặt. Đấy cũng chính là lý do vì sao mô hình
này dưựe gọi là mô hình hai mức, Ví dụ, lừ ciiused dược xem Iilur là biểu diễn
hai mức như sau:
dựìiiị bên dưới ; c h a s e + e d
tlụng bề mặt : c h a s 0 0 c d
iron g đó kí hiệu + là biên của hình vị, 0 là kí hiệu cho kí tự rỗng.
Một bộ phàn tích hình thái theo mỏ hình hai mức có hai thành phần dữ liệu
chính yếu là thành phần luật và thành phần từ vựng. Thành phần luật bao gồm

các luật hình thái hai mức, thành phần từ vựng bao gổm tấl cả các hình vị (từ
góc và phụ lố). Bộ phàn tích hình liiái có hai hoại động là sinh dạng lù
(( ìenerator) và nhận dạng (Recognizor). Hoạt động sinh dạng từ sẽ chấp nhận
đáu vào là mội khuôn dạng từ vựng, hay là dạng bên dưới và ná vổ dụng bề niậl
của nó, ví dụ nhận vào spy+s và lia về spies. Trong khi hoạt dộng nhận dạng có
dầu vào là dạng bề mặt và trả về dạng từ vựng bên dưới, ví dụ nhận vào spies và
Irá về spv+s. và kết quả này có ý nghĩa như Danh_từ+Số_nhiều.
Sơ dổ các Ihành phần của một bộ phân lích hình llúíi như sau:
R ules
Lcx ical
in pu 1 : spies
R ecognisei ► o u t p li I : Ü p y + s
ou pul ; spy+ s * Generator
il)pu 1: spyies
H2.2 Mô hình phân lích hình thái hai mức
24
Luật hình thái:
iìướe liêì ta xem xél khái niệm “cặp lương ứng”: mỗi cạp kí tự bề inậl và kí lự
lừ vựng iươug ứng được gọi là mội cập [ương ứng, hay nói tát lù mội cặp, dược
viết ỉà lexical-character: surface-character, ví tlụ c:c, h:h, a:a, s:s, +:e
Khuôn dạng chung cùa một iuật hình thái là :
c p o p [c— 1C
Trong đó cp là cặp tương ứng; le, rc là cá c cập với ỉc là cặp bên trái và 1C là cặp
bên phải cp và được gọi là thành phán ngữ cảnh trong luật; op là toán lử dể phân
biệt các loại luật khác; Chú ý toán tử op sẽ nhận ba giá trị phân biệt cho ba loại
luật hình thái:
Toán tử => có ý nghĩa cặp cp chí có thể xảy ra trong ngữ cảnh xác định, ví dụ
luật sau:
y: i => r:
1

— +: e s: s
luạl trẽn có ý nghĩa cặp y: i đòi hỏi r:
1
' bèn trái và cặp +: c tlioo sau bới s : s bên
phái
luật này thực hiện sự Ìhay đổi try+s = tries. Tuy nhiên luật này cũng cho phép
xáy ra trường hợp try+s = tryes, và diéư này là không dúng và do dó luật này
pliái được giới hạn lại.
Toán lừ <= có ý nghía rằng trong ngữ cảnh xác dull) kí hiệu lừ vựng phái ánh xạ
lới kí hiệu bề mạl xác định trên cp, ví dụ luật sau:
+ : e < = X : X — s : s
xác định kí hiệu + dược ánh xạ lới e khi có cặp X : X đứng lien Irước và cặp s:s
dứng liều sau; ví dụ luậl này xác ciịnh tox+s = foxes. Tuy nhiên nó cũng cho
phép xảy ra dog+s=doges, và do đó luật này cũng phái được giới hạn lại.
Toán lử <=> xác định kiểu luật hình (hái thứ ba; lác (lụng của nỏ là kết hợp
dược cá hai luật trên, và tránh dược các chuyển đổi không dược phép; cặp cp
phái xảy ra trong ngữ cảnh, và ngữ cánh sẽ bất buộc cặp dó xảy ra. Ví dụ luật
sau:
25

Xây dựng bộ phân tích cú pháp tiếng Anh trong hệ dịch tự động Anh-Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về