Tải bản đầy đủ (.pdf) (101 trang)

Hệ thống dịch và tóm tắt văn bản Anh - Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (41.86 MB, 101 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
HỆ THỐNG DỊCH VÀ TÓM TẮT
VĂN BẢN ANH-VIỆT
- - - - •
(Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp Đại học Quốc gia Hà Nội
do Khoa Công nghệ quản lý)
Mã số: QC.03.02
Chủ nhiệm đề tài: ThS. Lẽ Anh Cường
Đ A I HOC QUỐC GIA HÀ NÒI
TRUNG TẨM THÔ NG TIN THƯ VIÊN
DT/ Ồ U
Hà Nội - 2004
MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU 4
1.1 Đặt vấn đ ề 4
1.2 Nội dune của đề tà i 4
1.3 Cấu trúc của báo cáo 4
CHƯƠNG 2. TỔNG QUAN VẼ DỊCH MẢY VÀ TÓM TẮT VÃN BÀ N

6
2.1 Tồng quan vè dịch máy 6
2.1.1 Thế nào là dịch máy, vai trò và vị trí
6
2.1.2 Các chiến lược dịch máy cơ bản 7
2.1.3 Một sổ tiếp cận mới 10
2.1.4 Tiếp cận xây dựnơ hệ thòng dịch cùa chúng tỏi

13
2.2 Tòns quan về tóm tăt văn bàn 14
2.2.1 Tons quan về tóm tẳt văn bàn 14
2.2.2 rỏm Tnch lọc (extraction) 15


2.2.3 Tóm tát cò đọnii (abstraction) 16
2.3 Két luận chương 17
CHƯƠNG 3. HẸ THONG DỊCH CHUYỂN ĐỎI
18
3.1 Kiến trúc hệ thòng 18
3.2 rư điên sone n a ừ 19
3.3 Phàn tích hinh thai 19
3.4 Gán nhãn từ loại 21
3.5 Phàn tích cu phap 21
3.6 Xứ lý nhập nhủnơ rmừ nshĩa 23
3. 7 Sinh càu tiéns Việt 25
3.8 Xâv dựns dừ liệu dịch 27
3.9 Một số còn2 cụ 27
3.10 pcết qua thí nghiệm 28
3.12 Kèt luận chươns 28
CHƯƠNG 4. MỌT s ỏ PHƯƠNG PHAP TOM TÁT VĂN BAN M Ớ I
30
4.1 Mỏ ta hệ thống 30
4.2 Tóm lát vãn ban dựa trèn MEM 30
4.3 Tóm tãt vãn băn dựa trẽn Co-MEM 31
4.4 Rút iiọn cà u 32
4.5 Kèt quà thực níihiệm 37
4.6 Kết luận chương 42
CHƯƠNG 5. KẾT LUẬN 43
5.1 Kết luận và kiến nghị 43
TÀI LIỆU THAM KHẢO 44
PHỤ LỤ C t5
Danh sách những người tham gia thực hiện đề tài
ThS. Lẽ Anh Cường (chủ trì), Trường ĐH Công nghệ
PGS. TS. Hồ Sĩ Đàm, Trườne ĐH Công nghệ

PGS. TS. Đinh Mạnh Tường, Trường ĐH Cônơ nghệ
TS. Nguvễn Lè Minh, Viện Khoa học và Công nghệ Tiên tiến của Nhật Bàn
(JAIST)
ThS. Nguyễn Phương Thái, Trường ĐH Công nghệ
CN. Nguyễn Văn Vinh, Công ty Lạc Việt
Danh mục các bảng số liệu
Bans 1. Bans đánh 2Ìá két quà dịch m áy 28
Báns 2. Sự phàn bố của dừ liệu học đối với các kiêu lớp 37
Burm 3. So sánh Liiừa phương pháp của chuns tôi và phươrm pháp cùa Kniaht và
Marcu (2002) 41
Danh mục các hình
Hình 2.1 Sơ đồ tồng quan một hệ dịch m áy 7
Hình 272 Hệ thốns dịch trực tiếp 8
Hình 2.3 Hệ thống dịch chuyển đồi
9
Hình 2.4 Lược đồ quan hệ giừa mô hình chuyên đôi và liẻn n s ữ

10
Hình 3.1 Kiến trúc hệ thốns dịch chuyển đồi 18
Hình 3.2 Cônơ cụ biên soạn từ điển song n2ử 19
Hình 3.3 Sơ đồ các thành phần của một bộ phàn tích hình thái hai m ức

21
Hình 3.4 Một cây cú pháp 23
Hình 2.5 Mô hinh một hệ dịch Anh Việt 25
Hình 4.1 Mồ tả một quá trình chuyèn đôi một câu dài thành một câu ngấn hơn 34
Hình 4.2 Các ĩhuộc tính ngừ nghĩa 35
2
Hình 4.3 Mô tả hiệu nãng của Co-MEM sử dụng một phàn cùa dữ liệu học và
MEM sử dụng toàn bộ dừ liệu học 39

Hình 4.4 Mô tả hiệu năng của Co-MEM, MEM, và Lead với kích thước của tóm
tắt thay đổi 40
Hình 4.5 Một sò ví dụ về rút 5ọn càu ap dụns phươne phap MEM và phươnơ pháp
Decision-Tree 42
CHƯƠNG 1. GIỚI THIỆU
1.1 Đặt vấn đề
Hiện nay vấn đề xử lý ngôn ngừ tự nhièn ờ Việt Nam dans có tính thừi sự. thu hút
được nhiều quan tâm của các nhà khoa học. Tuy nhiên các kết quả đạt được vẫn
còn hạn chế và có thể coi như chúne ta đang băt đầu nhừne bước khởi độne trona
lĩnh vực này. Trone xử lý ngôn ngữ tự nhiên, lĩnh vực dịch máy đã và vẫn đang có
nhu cầu cấp thiết, nhất là trong việc phát triên các nghiên cứu và ứng dụns để xảy
dựng hệ dịch từ tiếng Anh sang tiếnơ Việt. Bẽn cạnh đó, một lĩnh vực cùng được
nehiẽn cứu nhiêu trẻn thế giới là tóm tắt văn bản nhưng còn ít được chú ý ở Việt
nam. Một sự kêt hợp siừa tóm tăt và dịch văn bản từ tiếng Anh sang tiếng Việt áẽ
có rất nhiều ứng dụng và mang lại lợi ích thiết thực khi trợ giúp neười sử dụng
nám được thông tin neày càns lớn, nhất là những tài liệu tiếng Anh đối với người
không thạo tiếng Anh.
1.2 Nội dung của đề tài
Tìm hiêu về dịch máy Anh-Việt và tóm tắt văn bản tiếne Anh
Bước dâu xày dims thừ nghiệm một hệ thòng tóm tất và dịch văn bàn từ
tiêng Anh sans tiẻng Việt trons một sò chủ đê hạn chẻ như Tin học, Kinh
tế.
Xàv dựng một sò côns cụ và dử liệu cuns câp cho việc nghiên cứu về xử lv
ngôn nơừ tự nhièn tại khoa.
1.3 Cấu trúc của báo cáo
Mục tiêu của đề tài là nshièn cửu và bước đẳu xảy dựna một hệ thống dịch và tóm
tất tự độns văn bản Anh-Việt. Do đó chúng tôi sẽ trình bày hai phằn: hệ thốnơ
dịch Anh-Việt và tóm tăt văn bán tiêng Anh. Hệ thông dịch Anh-Việt đã được
chúnơ tôi phát triẻn từ nhiều năm trước (Phạm Hồns Neuyèn và cộng sự, 2003).
Nhưng đê tiện theo dõi, chúnơ tôi vẫn trinh bày lại ờ đây kiến trúc hệ thốns và

siới thiệu ve từnơ thành phan của nó. Tronơ khi trình bày chúng tỏi sẻ nhấn mạnh
các côns việc mới mà chúnơ tôi đã thực hiện cùnơ với kết quả đạt được trona
khuôn kho dự án nghiên cứu này. Thèm vào đó chủns tôi cùn® đề cập đến tình
hình nghiên cứu dịch máy ờ nước ta hiện nay trong phần tảng quan các vấn đề
nghiẻn cưu. Vàn dê tóm tat ván ban tiếng Anh dược trình bay tương dối độc lập
4
với vấn đề dịch máy. Tiếp cận chính của chúng tỏi là sừ dụne học máy đê tóm tăt
văn bản.
Báo cáo gồm 5 chương:
- Chươns 1: Đặt vấn đề và các mục tiêu của đề tài
- Chương 2: Giới thiệu tông quan vè dịch máy và tóm tăt văn ban
- Chương 3: Trình bày về hệ thống dịch chuyển đổi, các thành phần của nó
và các kỹ thuật cơ bản.
- Chươne 4: Trình bày một số phưome pháp tóm tát văn bản mứi như tóm tắt
văn bản điều khiến bời cú pháp, tóm tát văn bản sử dụns SVM, hay tóm tắt
văn bản với cây quyết định.
Chươns 5: Kêt luận và kiên nghị
Phụ lục: Một sò báo cáo khoa học và khoá luận được thực hiện trons khuôn
khồ đề tài
5
CHƯƠNG 2. TỎNG ỌUAN VÈ DỊCH MÁY
VÀ TÓM TẮT VĂN BẢN
2.1 Tổng quan về dịch máy
2.1.1 Thế nào là dịch máy, vai trò và vị trí
Trải qua mấy thập kỉ, vắn đề dịch máv đà được rất nhiều nhà khoa học quan
tâm. họ đã đưa ra nhiều khái niệm về dịch máy, tuy nhiên ý tưởng chính của họ
vẫn là như nhau (Hutchins và Somers. 1992): Các hệ dịch máy (machine
translation system-MT) là các hệ thống sử dụng mảy tính đẽ dịch tài liệu từ một
thứ tiêng (trong ngôn ngữ tự nhiên) sang một hoặc vài thứ tiêng khác.
Neỏn ngừ của vãn bản cằn dịch được gọi là ngôn neừ nguồn hay ngôn nsử vào.

Ngôn ngừ văn bản đã dịch ra được gọi là ngòn ngừ đích hay nsôn neừ ra.
Theo thống kẻ của Liên hợp quốc hiện có gằn 10.000 ngôn ngừ trên toàn thế
giới. Nhờ có những ngôn ngừ khác nhau loài người mới có được nền văn hoá đa
dạng, nhưng lượns nsôn neữ nhiều như vậy cùng là rào càn sự phát triền của
thươns mại và
2Ĩao liru thỏnơ tin quôc tê. Đê khãc phục sự càn trờ nàv. loài người
phái dùne một đội nsũ phiẻn địch/bièn dịch viên ràt lớn dê dịch các văn bản tủi
liệu, lời nói từ tiêng nước này sang tiẻng nước khác. Đó là còna việc thủ còne.
nặns nhọc nhưns nãns suât thảp. siá thành cao, trone khi khối lượnơ văn bản cần
dịch lại neàv càng nhiêu. Mặt khác, với sự phát triên cực kì nhanh chỏng cùa
Internet dần tới nguồn thông tin được truy cập từ khấp mọi nơi trên thế ơiới với
nhiều ngôn ngừ khác nhau. Điêu này càng làm tăng nhu câu dịch từ ngôn ngữ nàv
sans ngôn nơừ khác với tôc độ nhanh mà-việc dịch thủ cỏnơ đã khôna còn đáp íme
được nữa.
Do vậy, dịch máy là một nhu câu tât vêu. Nó sẽ đóns một vai trò quan trọne
trons đời sống xã hội và có tính kinh tê cao. Dịch máy được bẳt đẩu nsièn cứu
ngay sau khi xuất hiện chiẻc máy tính điện tử đâu tiẻn. Tuv nhiên, dịch máv khône
chi là một ứng dụng tin học phi số thuần tuý mà nó còn cần một lượns lớn tri thức
dịch. Do đó mà việc giải quyẻt triệt đê nsôn ngừ tự nhiên là điều vò cùng khó
khăn và đến nay vẫn còn rât nhiều vàn đê càn được tiẻp tục nshiẻn cứu.
Chủnơ ta có thẻ hinh duns một hệ dịch máv qua sơ đồ sau:
6
Văn Tiền
bàn

+
xử lv
— ►
vào
Văn

Hâu xử
bản ra

Hình 2.1 Sơ đồ tỏng quan một hệ dịch máv
Đầu vào cùa một hệ dịch máv thông thườnơ là một văn bàn viết trong nsôn
n£ừ neuôn. Văn bủn này có thê được lâv từ một hệ soạn tháo văn bản. một hệ nhận
dạng chừ viết hay tiêng nói. Sau dó văn bủn có thẻ dược kiêm tra lại nhờ khỏi soạn
tháo, kiêm tra chính tả. trước khi đưa ra máy dịch. Trons quá trình dịch máy. hè
thống thường phái sử đụng đên một lượn" lớn trí thức dịch. Tri thức dịch bao 2ồm
các loại từ điển hình thái, từ diên từ vựns, từ điên luật. v.v. Đẩu ra ià văn bàn
thuộc nsôn nsữ đích. Với văn ban này ta phai hiộu chình và soạn thào cho phù hợp
với việc sử dụns.
2.1.2 Các chiến lirợc dịch máy cơ bán
Các hệ thốns dịch máy thông thường được phản loại theo các chiến lược cơ
ban sau đâv (Hutchins và Somers. 1992):
2.1.2.1 Dịch trực tiếp
Các hệ thons dịch trực tièp liên quan đẽn việc đối sánh các mẫu xâu và việc
sáp xếp lại xâu đích cho thích hợp với ngôn ngử đích. Rất nhiều hệ thốns trước
đây củns như một số phàn mèm dịch máy hiện nay cho các máy tính cá nhản đã
dùng chièn lược này. Các hệ thòng theo tièp cận này được thiẻt kè cho từng cặp
nsôn nsừ cụ thè. tiẻn trinh dịch là trực tiẻp từ ngòn n2ừ nouòn sans nsòn ngừ
đích. Hệ ihòns bao 2ÒĨĨ1 một từ điẻn song ngừ lớn. một sô qui tăc từ \ạrn2 được sư
dụns cho phàn tích tư đièn và các thu tục xư lý đặc trims cho việc chuyèn đỏi aiừa
7
hai ngôn ngừ. Sau đây là tồng kết bốn giai đoạn thường được dùng cho các hệ
thống dịch máy trực tiếp:
1. Phân tích hình thái câu nguồn: Công việc của giai đoạn này là phân câu thành
các từ và phân tích hình thái cho những từ nàv.
2. Chuyên đôi nội duns từ vựng từ nsôn nsừ n2uồn sans nsỏn n2ừ đích: chọn nội
dung dịch tương đương của các từ ưong ngòn ngữ đích. Công việc này sử dụng từ

điển song ngữ. Một số hệ thống ngoài việc sử dụng từ điển sons n2ử nó còn sử
dụng các thủ tục chọn nghĩa của từ dựa vào ngừ cảnh lân cận.
3. Xử lý đặc trưng: phần việc ưong giai đoạn nàv phụ thuộc vào sự khác nhau giừa
ngôn ngữ đích và nsôn nsừ nguồn mà thực hiện các xử lý liên quan đến các từ
ơhép, cụm danh từ, cụm độns từ, giới từ, hay liên quan đến vị trí của s v o (chù từ,
động từ, túc từ),
4. Sinh câu đích: giai đoạn cuối cùng thường là sinh hình thái cho nsòn n2ử đích,
mà thường là liên quan đến động từ (các thì, neôi, số) và danh từ (số nhiều, số ít).
Càu vào
thuòc
ngôn ngữ
nguồn
Phản tích hình
__
V
Tìm kiếm từ
__

__
.!
__
' Xử lý đăc trưng
thái - điẽn song ngữ ^
Cảu ra
thuòc
ngón ngữ
đích
Hình 2.2 Hệ [hóng dịch trực tiêp
ư u đièm của phương pháp dịch trực tiẻp là đơn siản nhưns nhược diêm là chẩt
lượng dịch khòns tòt cho các cặp ngòn nsừ không có nhiẻu sự tươns đồns về tử

vựng và cấu trúc như Anh-Việt. Nó chì đạt chất lượng tươne đối cho các cặp neòn
ngừ có nhiều sự tươns đồne như Anh-Pháp. Thực tế phương pháp này ít được
dùn£ độc lập mà thường được kết hợp với các phương pháp dịch dựa rrèn luật đề
xử lý những câu mà bộ phân tích không nhận được.
2.1.2.2 Dịch chuyển đổi
Một hệ thống dịch chuyển đổi được thiết kế để dịch một cặp rmỏn ngử nhảt
định, các hoạt động chính của hệ thống bao gồm: phản tích, chuyển đối và sinh
cảu. Thône thườne quá trình dịch diễn ra như sau: câu vào được phàn tích hinh
thái, sau đó được nhận dạna bơi bộ phàn tích cú phap ma kết qua thương được
biếu diễn dưới dạng cây cú pháp, tiếp đó câv cú pháp này sẽ được chuvén đôi sana
dạng tương đươnơ ờ ngòn nsừ đích và từ đó máy sẽ sinh cáu thuộc n
2Òn nsừ đích.
Hìnlĩ 2.3 Hệ í hỏng dịch chuyên đói
Các hệ thòrm dịch chuvèn đôi có im diêm là chuvẻn tai dược càu trúc cu phap
và I12Ừ nshĩa từ vựng tuy nhiên khỏ khăn là nhập nhăns từ vựng (một lừ co thè có
nhiều từ loại và nhiêu nghĩa) và nhập nhăns câu trúc (một càu co thê co nhiêu càv
cú pháp). Do vậv naười ta thưởng kêt hợp phương pháp này với các phươns pháp
khác như dịch trực tiếp troQơ việc xử lý các trường hợp càu có cấu trúc khòns tốt
(khònơ nhận dược băns bộ phân tích cú pháp).
2.1.2.3 Dịch liên ngử
Trorm hệ thông dịch liên ngữ. trước tièn càu nsuôn được phân tích thanh một biểu
diễn chuns, sau đó từ biẻu diễn nàv sinh ra càu đích. Dịch liên nsừ do đó bao 2Òm
hai íiai đoạn: từ ngòn neừ nsuòn tới neòn nsừ chung, và từ nsòn ngừ chuns tới
nsòn nsừ đích. Như vậv các hệ thỏns dịch liên nsừ dùnơ một bộ kí hiệu dừ liệu
mò tà hạt nhàn ìiọi là một liên nsữ. Liên n2ừ được định nghĩa như một tập các
khái niệm và các quan hệ iỉiừa các khái niệm. Liên rmừ biêu thị V níihĩa cua càu
9
dưới dạng mạng ngữ nghĩa, trong đó mỗi nút biểu diễn một khái niệm và mỗi cung
biểu thị một quan hệ. Vì thế, nó cỏ thể được xem là đặc tả về cấu trúc khái niệm.
Các hệ thống dịch liên ngữ được thiết kế theo các bước của hệ thống chuyển

đồi. Nhưng trước khi tạo cấu trúc ngữ pháp thuộc nsôn ngừ đích thi cấu trúc ngữ
pháp của ngôn ngữ nguồn được phán tích vào trong liên nsử. Tiép theo hệ thốnơ
dịch sử dụng tri thức từ liên ngữ để phân tích nsữ nghĩa và tạo cấu trúc ngừ pháp ở
ngôn ngữ đích. Sau đó là giai đoạn sinh câu bình thườne.
Hình 2.4 Lược đô quan hệ giữa mỏ hình chuvẻn đôi và liên ngữ
Dịch liên nsữ có ưu thế trong trường hợp xây dựng hệ thống dịch đa ngừ. Nếu
một hệ thốns dịch n ngôn ngừ thì chúng ta chì can n quá trình chuyén đồi sang liên
ngừ và n quá trình từ liên ngử sang ngôn ngừ đích, trong khi với hệ thống dịch
chuvén đồi thì chúng ta cần n(n-l) quá trình như thè cho tất cả các cặp nsòn ngừ.
Tuv nhiên xây dựng được một lièn ngừ đủ mạnh để có thề mỏ tả các thòng tin cho
cùne lúc nhiều nsôn neử, cùng với các luật sinh cho từng ngòn neữ là một công
việc rất phức tạp. và đến bây giờ cùng chưa có hệ thống dịch nào thành côns với
cách tiẻp cận này.
2.1.3 Một số tiếp cận mói
Tronơ thập kỷ 90 và đến hiện nay có rất nhiêu nehiên cứu tìm hiểu về sử dụne
corpus (cơ sở dừ liệu vãn bản lớn) trong dịch máy. Với việc sử duns corpus, các
10
kỹ thuật trong thống kê đã thể hiện được những ưu điểm của nó. Trong phẩn này
chúng tôi giới thiệu hai tiếp cận điển hình trong việc sử dụng corpus là dịch máy
dựa trên thống kê SBMT (Statistical-Based Machine Translation) và dịch máy dựa
trẽn ví dụ EBMT (Example-Based Machine Translation). Các phương pháp mới
nà\ thẻ hiện cách nhìn mới 50 với tiếp cận truvền thỏns và maníi lại một sỏ 'ivèt
quả, tuy nhiên cùng còn nhiều hạn chế.
2.1.3.1 Dịch máy dựa trên thống kê
Tiếp cận dịch máy dựa trẻn thốns kê được siới thiệu đầu tiên tronơ (Brovv, 1990)
và các mô hình toán học cho tiếp cận này được trình bày đầy đủ và chi tiết trons
(Brow, 1993). Tiêp cận dịch dựa trên thống kê thực hiện dịch trên từng cặp nsòn
nsữ cụ thể. Nó coi mọi câu trong một ngôn ngữ đều là kết quả dịch của một câu
bất kỳ thuộc n2Ôn n2ừ kia với một xác suât nào đó. Với mỗi cặp càu (s,t) ta ký
hiệu P(tịs) là xác suàt chương trình dịch sẽ chọn càu t trons ngôn nơữ đích là kết

quá dịch của câu s trong ngôn ngừ nguồn. Ta mong muôn chươnơ trinh dịch sỗ xác
định được giá trị P(tịs) là rất bé với cặp càu như (She is a teacher ; Tôi thích một
quvén sách màu xanh) và có giá trị cao trons cặp càu như (I like a blue book i Tỏi
thích một quyên sách màu xanh). Như vậy với xâu thuộc nsôn nsữ nsuồn s hệ
thống dịch xác suàt phai tìm được xảu đích t sao cho cực đại 2Ìá trị P(t!s). Sử dụnơ
Cỏn2 thức Bayes ta có thè viẻt:
P(tỊs) = P(t)*P(s t)/ P(s)
Vi P(s) ỉà £Ĩá trị khỏns đôi nẻn theo còna thưc trẻn. thav vì việc tìm siá trị cực đại
cho P(tỊs) chúnsỉ ta sẽ tìm 2Ìá trị cực dại cùa biẻu thức P(t)*P(sit). Nhiệm vụ dịch
sẽ la um:
tA=argmax P(t)*P(sit)
t
Theo bhki thức trèn. chủng ta thấy còna việc cua hệ dịch xác suất bao gồm:
(a) Tính toán khả nãns của một xâu sẽ thuộc n2Òn nsừ đích, hay nói cách khác là
tính toan khá nãna một xâu sẽ có dạna tòi trone nsòn n<zừ đó.
( b) Tính toán khá nãna cua xâu n2uỏn sẽ là xàu dịch của một xâu ngỏn nsừ đích,
hay tồng quát là kha năng một xâu là xâu dịch cua một xâu thuộc nơòn nsừ khác.
(c) Một kỹ thuật tim kiêm xâu nsôn n2ử đích làm cực đại biẻu thức trẻn.
Y nghĩa cùa bièu thức P(t)*P(sịt) là duns hoà hai yếu tò: t là xàu dịch cùa s và t
cỏ khuòn dạn« tòt trons nsòn ngừ đích.
Như vậy hệ thốns dịch xác suàt liên quan đên mô hình đơn n2ử và mô hinh
dịch. Vlô hình đơn nsừ thườniĩ dựa trên mò hình neram (thực tẻ là bi gram hoặc
trisram). Mô hinh này xác định kha năna xuãt hiện cua một từ phụ thuộc vào các
11
từ đứng liền trước nó (2 từ đối với mô hỉnh bigram, 3 từ đối với mô hình trigram).
Nhờ đó ta có thề tính khả năng một xâu có khuôn dạng tốt trong ngôn ngừ đích.
Mô hình dịch sử dụng tần suất cùng xuất hiện của các từ trong ngôn ngừ neuồn và
các từ trong ngôn ngữ đích, chiều dài của xâu chứa các từ đó, vị trí của các từ
trong xâu, số lượng các từ thuộc xàu đích tươnơ ứng với từ thuộc xâu n2uỏn.
Các hệ thống dịch máy thống kê được huấn luyện trên một lượng lớn dữ liệu

văn bản song ngữ. Nhiều mô hình bao gồm rất ít hoặc không liên quan đến các tri
thức ngôn neữ học, thay vào đó là dựa vào các đặc tính phàn phôi các từ và các
cụm để sinh ra kết quả dịch thích hợp nhất. Ý tường chung trong dịch máy dựa
trên thống kê là chúng ta tìm kiếm các tính chắt của dừ liệu văn bản sonơ nsừ mà
dễ dàng đo được và tìm cách sử dụns nhữnơ thuộc tính này đế tiên đoán kết quả
dịch. Các thuộc tính có thẻ đo được bao gồm tần suất xuất hiện của các từ trong
văn bản nguồn và đích, các vị trí quan hệ của các từ trong câu, chiều dài của càu,
và một số thuộc tính khác. Điếm mạnh là mỏ hình này cần rất ít thông tin ngôn
ngữ. Tuy nhiên nó chì thê hiện kêt quả tôt khi những câu test tươnơ tự như dừ liệu
huấn luvện.
2.1.3.2 Dịch máy dựa trên ví dụ
Y tườno cơ bản trons EBMT rất đơn siãn: dê dịch một càu thườnơ là chúns ta
sử dụng kêt quả dịch cua các càu tươne tự như càu đó, và rât nhiều kèt quả dịch
chì là sứa đôi những két qua dã có. Khi có một càu càn dịch, chúnơ ta tìm trong dữ
liệu ví dụ các câu tươnơ ímơ với càu cần dịch sao cho các phần tronơ câu này bị
phú bời các càu ví dụ được chọn. Từ các thành phản phủ này. chúng ta lấy ra các
thành phần dịch tương ímơ từ câu dịch của càu ví dụ và kết hợp lại đế xây dựng
nèn kết quả dịch. Ví dụ:
Chúng ta cần dịch câu: "John bought a book on economics/’
Giả sử trone kho ví dụ có hai mẫu:
Ann read a book on economics (Ann đọc một cuốn sách về kinh tế) (1)
Julie bought a notebook (Julie đã mua một cuốn vở) (2)
Hệ thống sẽ nhận dạng được cụm a book on economics trong mẫu (1) và cụm
Julie bought trong mẵu (2) sẽ phủ càu cần dịch. Do đó sẽ lấy hai cụm dịch tưng
ứng là một cuốn sách về kinh tế và Julie đã mua đê xây dựng nên kết quà dịch là
John dã mua một cuốn sách về kinh tế.
Theo (Sato 1990), một hệ thống EBMT đặc trưng thường có nhữnơ thành phần
chinh sau đây:
12
Một cơ sở dữ liệu bao gồm các ví dụ, mỗi ví dụ là một cặp câu nguồn và

câu đích đã được dóng hàng. Thông thường thì cấu trúc câu phi được lưu
dưới dạng cấu trúc phụ thuộc.
Một thuật toán tìm các ví dụ tương ứng với câu vào được hiểu là các ví dụ
này sẽ phủ lên càu cằn dịch.
- Một thuật toán kết hợp dùne để xây dựng lại cảu vào bang cách kết hợp các
thành phần con (các phằn phủ) tuơne ÚT12 với càu vào từ các ví dụ.
- Một thuật toán chuyển đồi và kết hợp từ các thành phần dịch trons các ví
dụ đế tạo ra câu đích.
Tiếp cận dịch dựa trèn ví dụ có nhiều ưu điềm và thực nehiệm cho thâv kết quà
khá tốt. tuy nhiên chi trons phạm vi hạn chế. Điểm mạnh của nó là tránh được xây
dựns luật chuvền đổi một cách thủ công, thứ hai là cỏ thể đạt được chất lượng dịch
cao nèu câu càn dịch 2ân sùi với các ví dụ. Tuy nhièn các hệ thònơ theo tiêp cận
này vẫn đòi hỏi các thành phàn phàn tích và sinh đê sản xuất ra cấu trúc phụ thuộc
cho dừ liệu ví dụ, và duns đê phàn tích càu vào. Một vân đê nữa mà tiẻp cận này
gặp phái là thời gian tính toán quá lâu do câu vào phải được đôi sánh với tàt cả các
mẫu tronơ ví dụ.
2.1.4 Tiep cận xây dựng hệ thông dịch của chúng tôi
rỏm lại. có hai ticp cận chính dê giãi quyêt bài roán dịch máv là liẻp cận dựa
irèn luật mà điên hinh nhàt là phươrm pháp dịch chuyên đòi và tiẻp dựa trèn
corpus mà tiêu biêu là hai phương pháp dịch dựa trẽn ví dụ và dịch thònơ kẻ. Mỗi
phươns pháp dẽu có nhữnư điỏm mạnh và nnửrm nhược điẻm riêng. Tiẻp cận dựa
trên luật thè hiện tính tòna quát hoá của các qui rác nsòn n2ừ. nhimơ làm này sinh
nhièu nhập nhẳns và khó khăn trone xử lý một sô hiện tượns nsỏn naử. Trong khi
tiẻp cận dựa trèn corpus, đo khai thác nhửrm két quà dịch trẻn một sò lượns lớn
các ví dụ nèn sẽ cho kết quà tòt néu gặp những càu có nhiẻu tiromơ đông với tập
huân luvện. và như vậv siài quvèt được nhièu trương hợp cụ thê cua ngòn ngừ.
Tuy nhièn đặc đièm này sẽ khòns còn ưons trươnơ hợp dữ liệu thưa. Mặt khác khi
chúng ta cẩn dịch nhừnơ mién dừ liệu mới. hệ thônơ dựa trẽn corpus phải được
huấn luyện lại trèn tạp dừ liệu mới.
Vì nhừns đặc điẻm đó mà da sô các hệ thònơ dịch thương mại hiện nav vần có

kiến trúc dựa trẻn luật. Tuv nhièn chúns thường khòns thuần tuý dựa ưẻn luật mà
chứa một sổ thành phẩn sử dụns kỹ thuật thòng kê đê xử lý nhập nhầng. Chính vì
vạy trons V tươne xây đựn« hệ thòno dịch tự dộn2 Anh-Việt. chúns tòi lấy tiếp
cận dựa trèn luật là tiẻp cận chinh và sử dụng các kỹ thuật thòns kẻ bô trợ.
13
2.2 Tổng quan về tóm tắt văn bản
Với sự bùng nổ thông tin tri thức bàng văn bản hiện nay, tóm tắt văn bản, trích lọc
thông tin, và tìm kiếm thông tin được xem như một trong nhừng vấn đề rất quan
trọng được sự quan tâm nghiên cưu cùa các nhà khoa học và các chính phù như
Mỹ, Nhật, v.v. Hiện tại ứng dụng của tóm tất văn bản rất phons phú, chúng ta có
thể kể một vài Cm2 dụns chính của tóm tắt văn bản như sau: Được sử dụng cùng
với một hệ thòng tìm kiếm thông tin để trợ 2Ìúp người sử dụng trong việc phải đối
mật với một lượng khổns lồ thòng tin hàng ngày. Thu gọn kích thước vãn bản cho
phép tích hợp vào các thiết bị cầm tay như điện thoại di dộnơ, máy Paml, PDA và
nhiều thiết bị cầm tay khác nữa. Trong đề tài này chúnơ tôi nghièn cứu các
phương pháp tóm tất văn bàn đê áp dụng tích hợp vào một hệ thống dịch máy có
sẵn. Điêu đó rất hừu ích bơi một sự kết hợp 2Ĩừa tóm tắt và dịch vãn bản từ tiếng
Anh sang tiếng Việt sẽ có rất nhiều ứng dụng và mang lại lợi ích thiết thực khi trợ
ơiúp người sử dụng nãm được thông tin ngày càng lớn, nhàt là nhừng tài liệu tiẽna
Anh đối với neười khônơ thạo tiêng Anh.
Với nhu cầu và lý do như vậy tronơ đê tài nàv, nghiên cứu về tóm rát vãn bản
được xem như một trona nhừns Cỏn2 việc chính trong dó chứne tòi xàv dựng một
hệ thone tóm tất văn bán ờ mức đon giản cho phép rút ơọn một vãn bản dài thành
vãn ban cò đọna hơn. Trước khi đi sâu vào chi tiết các phươne pháp tóm tất văn
bàn thực hiện ở trong đề tài này. chúng tỏi mô tả một cách tòng quan nhất về các
dạn" tóm tất văn bán cũng như các phươns pháp tiẻp cận đê 2Ìải quvểt bài toán
2.2.1 Tổng quan về tóm tát văn bản
Mục đích chinh cùa tóm tắt vãn bàn là trìnlĩ bày ý chính của một văn bản dưới
dạnơ cò đọng hơn. dễ thấy rang nêu tát cả các càu trons văn bản là quan trọns như
nhau, việc tóm tất vãn bản trơ nên ràt khó khăn và khòna có nhiẻu V nshĩa. Tuy

nhiên, thỏns tin quan trọng thường phàn bô không đồng đểu ở các càu, ví dụ nội
dung chính của một văn bản thường xuyèn được mô tà ở các câu đầu tiên. Trước
khi đi sâu vào chí tiết phằn nghiẻn cứu trong đê tài này, chủnơ tôi trinh bày một
cách tóm tắt nhất về các thè loại văn bản và các cách tiêp cận tóm tắt vân bản gần
đây (xem chi tiết trong (Mani và Maybury, 1999), (Neggemeyer, 1998)).
Tóm tãt biẻu lộ [indicative summaries) cuno càp một hướns nshiẻn cứu về sự
mỏ tả nội duns của văn bản mà khòng đòi hỏi sự chuyèn đôi vê các nsừ cảnh xác
14
định. Trong khi đó tóm tăt cung cap (informative summaries) một phiên bản ngăn
hơn của nội dung vãn ban. Cuối cùng, tóm tất dựa ưẻn cảu hỏi tập trung vào mục
đích của người đọc để xác định nội dune bản tóm tất.
Trích lọc íextraction) là một quá trinh xác định các yèu tô quan trọng càu
thành nèn một văn ban cho trước, abstraction là quá trinh biểu diễn vãn ban vơi
khuôn dạng cô đọng trong khi vẫn chuyền tải được nội dung chính của vãn bản.
Tóm tăt văn bàn là một vấn đề hết sửc khó khăn bời nó vêu cầu phải hiẻu cả nội
dung của vãn ban và những thong tin liên quan đến vẩn đề naừ nshĩa. tu từ học.
quan hệ giữa các câu trong một đoạn ván cho trước.
2.2.2 Tóm Trích lọc (extraction)
Tronơ các phươna pháp trích lọc văn ban. trích lọc càu được sư dụng đẻ xác định
các càu hay mệnh dẻ quan trọns nhàt tronơ một vãn ban hay một tập các văn ban.
Các phươnơ pháp nshien cứu trước đây vẻ tóm tăt vãn bán có thẻ được chia thành
các hướne chính sau đây:
a) Phương pháp heurisctic
Dựa trẻn vị trí: Phương pháp đơn 2Ìàn nhàt là dựa trên vị trí với quan niệm
rune các càu xuàt hiện ơ đâu vãn bàn thườna quan trọne hơn những càu
xuàt hiện ơ ỉiiừa hay ừ cuỏi cùng cua văn ban. Với phươníi phap nàv. cách
tóm íãt Jon iiãn nhàt dô tạo ra một ban tóm tãt là chunn ta chọn ra nhừns
càu đâu tièn irons vãn ban tùv theo kích ihươc và <JỘ dãi ìnona muòn cua
ban tóm tất. VIặc dâu hiệu nãne cua phươnư phap này thav đôi ràt nhiêu
theo kiểu cua vãn ban (văn ban khoa học, tin tưc. V.V.). tuv nhiên nó iuòn

luôn chứng to được vào khoảna 33% cảu quan trọnơ trons vãn bản thườn2
năm ừ các vị trí đâu tiên.
Dựa trén tiêu đề: Edmunson chi ra rărre; nhữns từ trono tiêu đê thườnơ liên
quan đèn những càu quan trọns irons văn bán hơn là nhừns càu không
quan tronsz. Do dỏ sứ đụng, tiêu dê dược xem như là một phươna pháp dẻ
xác định các càu quan trọns đỏi với một vãn ban cho trước.
Dựa trèn các cụm từ: Tronơ vãn bản chúng ta có thẻ sư dụno các cụm từ
hay dùne dẻ xác định xem câu có chửa từ đó là quan trọns hay khôns quan
trọng.
Dựa trên tuần suất của từ: Chủng ta có thè sư đụnơ tàn suảt xuảt hiện cua từ
đê tính độ quan trọnơ của một cdu bãng cách tòng hợp tất ca các từ trons
càu dó.
i5
b) Phương pháp dựa trên cơ sở tri thức
Phương pháp dựa trẽn cơ sở tri thức liên quan đến việc tóm tát các văn bàn
theo một chủ đề xác định. Phương pháp này sử dụng cơ sở tri thức phong phú về
chủ đề để quyết định thành phần nào trong ván bản sẽ được đưa vào nội dung tóm
tat. Phương pháp này mặc dù là phù hợp cho một chủ đề nhất định nhưng sẽ rât
khó áp dụng sang một chủ đề mới bời vì chúng ta phải chuvển đồi cơ sở trí thức
phù hợp với chủ đê mới. Công việc đó rất tốn công sức. Hơn nửa, các phương
pháp này đòi hỏi phải hiểu ngôn ngừ sảu nên khỏng phải là phương pháp có lợi về
mặt tôc độ tính toán.
c) Phương pháp dựa trên thống kê
Tièp cận thòng kẽ đà LhímR tò được tiềm nãne khi áp dụng vào nhiêu vàn đê
trone xử lý neôn ngữ tự nhiên, như dịch máy, tim kiếm vãn bản, và trích thông tin.
Khá nhiều phương pháp thông kê đã được áp dụng cho tóm tắt văn bản. Một trong
những ứng dụng thành công của phương pháp này là kết hợp nhiều phương pháp
khác nhau thòns qua việc xem xét bài toán tóm tất văn bản như bài toán phân lớp.
Cự thể hơn, một câu trong văn bản có thề được xem xét một trong 2 lớp, lớp quan
trọns và lớp khòns quan trọno. Phương pháp sử dụng học máy được áp dụng để

xảy dựns các luật cho việc phân lớp kè trẻn. Các phươns pháp học máy đà được
áp dune thành cõng cho việc tóm tãt vãn ban bao gòm mans Bayes, support vector
machines, maximum entropy models, v.v.
2.2.3 Tóm tắt cô đọng (abstraction)
Các nghiên cứu sần đây đã tập trung vào các van đề về sinh càu tronơ tóm tẳt
vãn bản. Kỹ thuật sinh càu được xem như là chìa khóa đẽ có thề thu được một hệ
tóm tắt văn bản đúnơ naử pháp và bô cục chặt chẽ. Trong khi xây dựng một bản
tóm tắt cô đọns là một còng việc hết sức khó khăn, các phương pháp sinh câu ở
mức đơn giản horn đã thu được những kẽt quả nhât định. Các phương pháp sinh
câu ở đây bao gòm:
a) Rút gọn cảu
Đe tích hợp các kv thuật sinh cảu vào vẩn đề tóm tất vãn bàn, nhiều phương
pháp đã được nơhiẻn cứu. Trước hết, Jing (Jing, 2002) mô tả một phương pháp
tóm tẩt vãn bản dựa trẻn các kỹ thuật cãt và dán, trong đó một vài phép toán cat
dán bao 2ồm rút gọn. kết hợp. và đồng nghĩa đã được sử dụng như là nhừng kỷ
thuật chinh cho việc nàng cao chât lượng của một hệ tóm tăt văn bản. Knight và
Marcu (Knisht và Marcu. 2002) cùng trình bày một phương pháp rút gọn câu khác
16
trong đó bài toán rút gọn câu được mô tả như một dãv các phép toán nhàm chuyến
đôi câu thành câu ngăn hơn.
Trong báo cáo này, việc rút gọn câu được xem như là một nhiệm vụ chính,
trong đó chúne tôi đề xuất một phươne pháp rút ơọn càu mới là một phươne pháp
mờ rộng của Knight và Marcu (2002), cho phép rút 2ọn càu với độ chinh \íc cao
2.3 Kết luận chương
Trong chươnơ này, ờ phần đầu (mục 2.1) chúnơ tòi đã giới thiệu tổn2 quan về
dịch máv. sau đó chúnơ tòi đã đề cập đến tiếp cận xàv dims hệ thốrm dịch của
mình, đó là một hệ thòng dịch chuyển đối giàu tri thức trong đó tims mòđun có thè
là (iựa trên luật hoặc học máy. Chương 3 sẽ mò tả kỹ hơn về hệ thốrm dịch này. ơ
phàn sau (mục 2.2) chủns tòi đã 2ĨỚĨ thiệu tònơ quan vẻ tòm tăt vãn ban tronơ đó
đáng chú V là hai kiêu tóm tăt văn bản: tóm tat trích lọc và tóm tất cô đọne.

Chươns 4 sẽ trình bày một sô nghiên cứu mới cùa chúng tôi vê tóm tãt văn bàn sử
dụng học máy.
Đ A I H Ọ C Q U Ố C G IA HA I'O I
TRUNG TÂM THÒNG TIN THƯ VIỀN
D T ~ / 3 ^ M
CHƯƠNG 3. HỆ THÓNG DỊCH CHUYẺN ĐỎI
3.1 Kiên trúc hê thông
• o
Sơ đồ hệ thốne dịch của chúng tôi như sau:


E n g lis h d o c u m e n t
M o rp n o io g ic a l
p ar s i n g
B lim g u al a iCíion a ry
p a rt or S o e e c n
!3 g Jin g
R u le K n o w ld g e
-** s y n ta c tic p a rsin g
V ie tn a m 0 se
a o c u m e n t
G e n e ration
s 8 Ơ1 a n ỈIC g ỉ ii m g
Hình. 3. ỉ Kiên [rúc hệ thông dịch chuvên đỏi
Theo sơ đồ trẻn. văn ban vào trước tiên được tiền xử lý (lấy text. loại bò nhiễu,
v.v.) sau đó sẽ được cãt câu, tách từ rỏi đây vào bộ p_hàn tích hình thái. Môđun nàv
cỏ nhiệm vụ xác định dạng gôc. từ loại và các thôna tin hình thái-cú pháp của từ.
Kè tiếp, các càu vào sẽ dược nán nhãn từ loại nhăm ăiàm bớt nhập nhãniĩ vè phàn
loại từ. Sau dó bộ phàn tích cú pháp sẻ xác định câu trúc cú pháp của các càu vào
và dưa ra các cây cú pháp. Sau khi đã có kẻt quả phàn tích cú pháp, bộ phàn tích

nsừ nehĩa sẽ xử lý nhập nhàns nsử nơhĩa băne cách lựa chọn nơhĩa đúng hay loại
bo các nghĩa khòns thích hợp cho các từ trong cảu. Cưòi cùng lả bước sinh càu
tiếng Việt. Cơ sở tri thức của hệ thốnơ này khá đa dạns với hai phần chính là từ
điển sons nsòr Anh-Việt và bộ luật củ pháp tièng Anh.
18
3.2 Từ điển song ngữ
Từ điển song ngừ là cơ sờ dừ liệu rất quan trọng cùa một hệ thống dịch chuyển
đồi. Từ điển này là từ điển dịch máy và khác với từ điển điện tử thône thườns
dùng cho con người. Nó bao gồm rất nhiều loại tri thức từ vựns; như hinh thái, cú
pháp và naừ nghĩa. Mỗi tư đẻníi Anh có một mục từ tươii2 ứna tron li lừ diên. Mục
từ chứa các thông tin vê hình thái, từ loại, luật củ pháp đi với từ. phản loại nsừ
nahĩa. nghĩa tiênơ Việt. Dưới đây là hình chụp Cỏn2 cụ soạn thảo từ điển của
chúng tôi:
FBEE
Pile 6úit '.V * Toots rtto
íri

«ou-
iWord 4 Rule ot Wofd
•felt ‘tjraora
Contertf ,r"** I Find I
Tyoe r> the keypad to
latie
Harted
i(«mg
Ị' jếc* m joe
'■9ÉQI oece
I f*ểo«*<3
1 'oểmeii
'lAÉOirNg

L ?in
Ị^TĨTT
Scdegxf]
j R?an
Scứ;níjnX|
SaJlit
Sccaqinfl
Scdgqxjf]
ScoatỊxịị
Sod MU I
ScJ ar, E fi
Scdaqxri
V jja q x ll
Scjhi
SoJCTinil
s^deijicr
Ị^iL —
a íE iToInfCliuse
nice ỉ i b ro S O b’
flTPĩ7gM— ——
1 á ’»ciaY »oif
•ạkr out is th
a k r off
•akc m ataae for iO b i
aicemetate
rucr t e v c n iíic tia íe t tor iO bi
urr ®e x a z*imc
a ìx ìG b i bo c r
•JLKE 3 sca t
ak c ì socrt TnraJc

OJCE Diacr
-UTX i kjOJC
aiot i àjoK ai iC o i
■ưx ỉtU l _uc
UKC ÌHH jne t3 í«n
•JJX oa iC b '
■c nkra Ui
JLTX i j f i XI
UET — iiiC.
tLKt rccto
1 « rcorosca-a
-'Ui'?
<Syntaxruie>
ĩoncọt =t3ké "íẮcrc.
</Synraxruie>
<Pnor>
</Pnor>
<Transferrule>
:5? ttiO dóc''
< u ran sterrulo
/RUớ->
Mcic.
'3awẾ' 1
a*mniz22T
' 1ÍY
'rời rõ ''
'<ửi itTÍQoáacũD '?
* ỉ i n */1 n r n n '
ỉia VS1 kn cnia cBo '4
‘a i u pr.\r. ió a ve sua''

'.lua ì'v e ooá"
' 3*0 1 xu íru
uụá m i -lo
Je n a
'ohxa
“Tim vào
■±1Ỉ niin 2
liy '."2TC.
d
Hình 3.2 Cônơ cụ biên soan lừ điên so nơ ngữ
3.3 Phân tích hình thái
Mô đun phân tích hình thái của chúns tôi ap dựng mỏ hình hai mức (Graeme.
1992). Mỗi từ vào sẽ được phàn tích và xác định tư gòc. các từ loại và thuộc tính
hình thái-cú pháp tươns íms. Thỏne thườns một từ tiéng Anh có nhièu hơn một từ
loại, và bộ phàn tích hình thái đưa ra tất ca các kha năng này. Việc xư lý nhập
19
nhăng từ loại được thực hiện ờ các 2Ìai đoạn tiẽp sau. Một ví dụ về kết quà trả về
của mô đun hình thái:
"a lot o f ’
<Grammar>= tính từ số lượns
<Mean>= nhiều
"book"
<Grammar>= danh từ số nhiều
<SemanticCategory>= [THINGS]
<Mean>= quyên sách
Mô hình hình thái hai mức được Kimmo Koskenniemi đưa ra vào năm 1983.
Chúns ta xem xét một ví dụ biến đồi hình thái sau: từ chased dược xem như là dần
xuất từ chase bang việc thèm hậu tô -ed . Tuv nhiên, néu thèm -ed vào chase thì sẽ
dần đến việc sẽ phải loại bớt đi một kí tự e. Do đó chase và chas được xem như là
các dạng khác nhau của cùng một hình vị. Một từ được biểu diễn như một tươno

ứng trực tièp giữa dạng từ vựnơ của nó và chính từ đó. hay còn 2ỌÌ là dạnư bên
dưới và dạne bề mật. Đây cùng chính là lý do vi sao mò hinh này dược gọi là mò
hình hai mức. Ví dụ. từ chased dược xem như !à biêu diễn hai mức sau:
Dạno bèn dươi: chas e ^ ed
Dạne bè mặt: chas 0 0 ed
Trorm đó kí hiệu - là biên của hình vị. 0 là kí hiệu cho kí tự tròng.
Một bộ phàn tích hình thái theo mỏ hình hai mức có hai thành phàn dừ liệu chinh
là thành phần luật và thành phàn từ diên. Thanh phàn luật bao 2ÒIĨ1 các luật hình
thái hai mức. thành phàn từ điẻn bao £ỏm tât cả các hình vị ( từ «ốc và phụ tố). Bộ
phàn tích có hai hoạt động là "sinh đạnơ” từ (Generator) và "nhận dans” cừ
(Recognizer). Hoạt độna sinh dạng từ sẽ chàp nhận đâu vào là một khuòn dạns tư
vựnơ, hay là dạns bèn dưới và tra vè dạnơ bẻ mặt của nó. ví dụ: nhận vào spv - s
và trả về spies. Trong khi hoạt độns nhận dạne có đâu vào là dạns bè mặt và trả về
dạng từ vun2 bèn đưỡi. ví dụ: nhận vào spies và trả vẻ spv - s. và kèt qua nàv có V
nghĩa như Danh từ - sỏ nhiều. Sơ đồ các thanh phàn của một bộ phân tích hình
thái hai mức như ở hinh 2.3. Chi tiẻt vé khuòn dạnơ luật hinh thái hai mức và các
kỹ thuật được sử dụng trong phàn tích hình thái hai mức xin xem trono I Graeme.
1992).
:o
Rules
Lexical
input : spies
Recogniser
oulpul: spv-s
ouput : spies
Generator
input: spv + s
Hinh 3.3 Sơ đô các thành phản cùa một bộ phàn tích hình thái hai mức
3.4 Gán nhàn từ loại
Giai đoạn này còn gọi là xử lý nhập nhẩng từ loại. Có nhiều cách để giải quyết

bài toán này (Mannine và Schutze, 1999). Chúng tôi xày dựng mòđun gán nhăn từ
loại sử dụng kết hợp mò hình HMM bậc hai (Manning và Schutze. 1999) và mò
hình văn phạm ràng buộc (Voutilainen, 1997). Mô hình HMM này có các trạng
thái àn là các từ loại càn được xác định, mỗi trạng thái phụ thuộc vào hai trạng thái
trước đó. các trạna thái phát ra các quan sát là các từ. Chúns tòi thưc hiện việc
huân luvện mô hình trẻn corpus Penn TreeBank II (Marcus. 1993). Mô hình văn
phạm ràng buộc sư dụne các luật IF THEN dê xư lý nhập nhảns. Câu vào trươc
tiên được đưa qua bộ sán nhãn từ loại HMM, nèu xác suất dày từ loại dược chọn
lớn hơn ngưỡng cho trước thi chàp nhận kèt qua này. trái lại càu vào được dưa qua
bộ gán nhãn từ loại dựa trèn luật. Vi bộ nhãn của Penn TreeBank ÍI khác với bộ
nhãn của hệ thône dịch này nẻn chứng tỏi cũng càn xâv dựng bans ánh xạ giữa
chúns. Việc chuyên đôi nhãn được thực hiện trước và sau khi sán nhãn từ loại. ■
3.5 Phản tích cú pháp
Trong các hệ thòng dịch chuyên đỏi, phàn tích cú pháp là Siiai đoạn ràt quan
trọng. Các tiẻp cận dê giải quvẻt bài toán này có thẻ được chia thành các hướn2
chính sau:
Thứ nhất là tiếp cận dựa trên luật (Jurafskv và Martin, 2000). Bất dâu bànơ các
nghiên cứu sử dụns văn phạm phi n2ừ cảnh (CFG) đê mô tả văn phạm nơỏn nsử
tự nhiên. Các thuật toán phản tích CFG dựa vào bảng thường được sừ dụng là
Earley. CYK và GLR. Vàn dê khó cùa phàn tích cú pháp ỉà nhập nhăns. bao 2Ôm
nhập nhănơ từ loại và nhập nhăn£ càu true. Nhập nhãne dàn đên một càu vào có
21
nhiều cây phàn tích. Để xử lý các nhập nhằne này, người ta nshién cứu các
heuristics mà điển hình là ưu tiên từ vựng, iru tiên các cặp từ cỏ quan hệ ngữ pháp
(như V -0, S-V, v.v.) hay ưu tiên liên kết phải nhất. Cùng theo tiếp cận dựa trẽn

luật, còn có nhiều vãn phạm khác như HPSG hay LTAG. So với văn phạm phi n2ử
cánh thi các văn phạm nàv có khả năna mò tá ròt hơn. tuy nhiên viéc xàv 'Jựnn bộ
luật công phu hơn vì chúne vẻu cầu được mò tả rất chặt chẽ. Nhược điẻm cua phàn
tích củ pháp dựa vào luật là việc xây dựng bộ luật vãn phạm rất tốn kém. độ chính

xác của phân tích cú pháp lại khòna cao.
Thứ hai là tiếp cận học máy hay còn 2ỌÌ là tiếp cận dựa trẽn corpus (Manning
và Schutze, 1999). Tiếp cận này khai thác các kỹ thuật trons lĩnh vực học máy hay
xác suẩt thống kẻ như cây quyết định, HMM. ME, v.v. Tiếp cận này chi yêu cầu
tài nsuvèn là corpus, có thẻ dã được gán nhãn hoặc chưa. Nhìn chunơ việc xảy
dựn
2 corpus ít tốn kém hơn xày dựns bộ luật cú pháp, hơn nữa nó có thẻ dược sử
dụne dê nshièn cứu nhièu mô hinh phàn tích khác nhau.
Tiẻp cận thứ ba có thẻ kê đên là incremental parsing. Lây ví dụ phưcms pháp
incremental deep parsing chia quá trình phàn tích cú pháp ra thánh nhiêu siai
doạn. bẳt đẩu là phản tích hình thái, ròi dẽn xử lý nhập nhăna từ loại, nhận dạng
thực thẻ tên. phàn tích cú pháp nònơ ròi cuòi cùns mới là phàn tích cú phap. Từnu
mỏ đun là dộc lập với nhau, có thè mô đun 2án nhãn từ loại là dựa tròn luật (CG
chảna hạn) nhưns IT1Ỏ đun nhận dạne thực thẻ tẻn lại lã HMM. v.v. Nhiêu bộ phàn
tích cu pháp rất mạnh dược xâv dựns theo tièp cận này.
Chúng tòi thực hiện tièp cận dựa trên luật. Thuật toán phàn tich cu phap dược
chung tôi sử duns là Earlev (Jurafskv và Martin. 2000), một thuật toan phàn tích
cú phap dựa vào bans hiệu quá. Hai vàn đc khó của phàn tích củ pháp là nhập
nhăns cú phap và thiếu luật. Nhập nhầns cú pháp dược xử lý bans cách sư dụng
một số heuristics như ưu tiẻn từ vựng, liên kẻt tòi thiêu, ưu tiên quan hẻ nsữ phap.
Trons đó dừ liệu về quan hệ nsữ pháp được rút ra từ các corpus lớn. Vàn đề thiêu
luật dược xử lý bans cách phàn tích sần đúnơ. muỏn vậy mọi thành phàn cú pháp
tronư càu đều được phàn tích sau đó chọn ra các thành phàn tòt nhài phu lèn Làu
vào. Dưới dây là hinh chụp một cày cú pháp:
Input sentence: He has a lot of books
Syntax tree:
-> $s
I—> SSI
I—> NULL
I—> SSubj

' —> SCoordinateSubj
' —> Sddt_cht ("he")
I—> $cdgt[inf]
>SVP
I—> Sdgtn_dt[pre, Sg3] ("has")
—> SObj
' —> Scdt
' —> SDetHead
I—> SDeterminer
I '—> SQuantifier
I ' —> $tt_sl ("a lot of")
' —> SHead
'—> Sdt_ch_sn ("books")
-> NULL
> NULL
Hĩnh 3.4 Một càv củ pháp
Bộ phàn tích cú pháp này đạt dộ chính xác 84% (F-score) trèn corpus Penn
TreeBank II theo phương pháp đánh giá ParseVal. Đây là một tỷ lệ khá cao bời vi
bộ phản tích cú pháp tiếng Anh tốt nhất hiện nav (Collins, 1999) chì cho độ chính
xác 91 % trèn corpus này.
3.6 Xử lý nhập nhằng ngữ nghĩa
Xử lý nhập nhàng ngừ nghĩa từ vựng (WSD - Word Sense Disambisuaion) còn rất
nhiều vấn đề cằn nghiẻn cứu và ỉà một lĩnh vực ràt khó trons xử lý nsòn neử tự
nhiên. Có hai loại nhập nhàng từ vựng đó là nhập nhăng về mặt từ loại và nhập
nhằng về naừ nghĩa. Ví dụ như trong tiêng Anh, tử bank có thê là danh từ hoặc
động từ. Trong chức năng danh từ. từ bank lại có thẻ mans V nehĩa là ngân hàng,
bờ, đóng. Thuật neừ WSD chúng ta đề cặp ở đây chi nói đên nhảp nhãno về mặt
ngữ nghĩa của từ vựng. Các phương pháp xử lý nhập nhăng nsừ nghĩa dựa trên
ngữ cảnh thường chì thực hiện trên ngòn ngừ mà nỏ định xử lý. Đièu này khi áp
dụng vào dịch Anh Việt vẫn còn một số vắn đề chưa giải quyết được:

- Thử nhất là khi đã được xử lý ngừ nghĩa, mỗi một từ vựnơ được xác định một
phản loại và một nghĩa duy nhàt ưong tiếng Anh thì nỏ vẫn còn cỏ thẻ có nhièu
khả năng tương ứng trong tiếng Việt. Ví dụ như danh từ bank với nghĩa là
"mound" thì tương ứng với nó ưong tiếng Việt vẫn bị nhập nhàns bởi bờ,
đỏng, bãi, . . .
- Thứ hai là khi muốn áp dụng các kết quả xử lý nsữ nshĩa trên tiếns Anh thì
chúnơ ta phái xây dựng một từ điến dịch Anh - Anh - Việt với mỗi một n2hĩa
(sense) trons tiẻnơ Anh phải được dịch tươns ứns với các trườns hợp trone
tiêng Việt. Trong khi các từ diên của chúns ta hiện nav không có sự đối sánh
tươns ứng này. Mặt khác sự đối sánh về mật nsừ nshĩa này nhièu khi khòng
tương ứng. ví dụ như một nsữ nehĩa xác định trong tiếna Anh lại có thẻ tươnơ
ime với nhiêu n«ừ nshĩa trons tiẻns Việt và ngược lại.
Chính hai lý do trèn và muôn khône phải bò quá nhiỏu côna sức đê xâv dựng lại
một từ diên tươns úm 2 n2ử niihĩa Anh - Việt như vậy mà chúns tòi nìihiên cứu xứ
lv nhập nhãns naừ nshĩa trons các hệ thôn2 dịch tự độns Anh - Việt theo hưcms
từ một từ \ựniì dà dược xác định phàn loại chún2 ta có thê xác định !uòn imử
nizhTa cua từ đỏ (mà chính xác hơn là từ dịch tươne ứns) trona tiẽna Việt dựa vào
nuử canh ma khonsz qua việc xác định n«ừ nơhĩa trons nsòn n
2ữ nuuỏn.
Nhấc lại rẩrm cỏ hai tiếp cận chính tron" dịch máy là tiẻp cận dựa trèn luật và tièp
cận thống kè. Tuy nhiên các hệ thông dịch máv hiện nav đêu khònsĩ được thièt kè
thuần túy theo một tiếp cận nào cả. Đe bỏ suns các điẻm mạnh của cà hai tiẻp cận.
các hệ thốns dịch máv hiện nay đều là các hệ thòns lai. phàn tích n2Òn ngừ nsuòn
dựa trẽn các luật hình thái, cú pháp, nsừ nghĩa và áp dụng phương pháp thòng kè
trons xử lý nhập nhẳnơ. Sau đâv chúng tôi trinh bày một sơ đô tỏna quát của một
hệ dịch máy. mà chi tiết hơn vào phần xử lý nhập nhăng ngừ nghĩa:

×