BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP ĐẠI HỌC ĐÀ NẴNG
XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ
PHỤC VỤ XỬ LÝ TIẾNG VIỆT
Mã số: Đ2012- -
Chủ nhiệm đề tài: PGS.TS. VÕ TRUNG HÙNG
Đà Nẵng, 11/2012
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP ĐẠI HỌC ĐÀ NẴNG
XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ
PHỤC VỤ XỬ LÝ TIẾNG VIỆT
Mã số: Đ2012- -
Xác nhận của cơ quan chủ trì đề tài
(ký, họ và tên, đóng dấu)
Chủ nhiệm đề tài
PGS.TS. Võ Trung Hùng
Đà Nẵng, 11/2011
DANH SÁCH THAM GIA
Các cá nhân tham gia:
-
PGS.TS. Võ Trung Hùng, Ban Khoa học, Công nghệ và Môi trường, ĐHĐN
-
ThS. Hoàng Như Quỳnh, Trường Đại học Ngoại ngữ, Đại học Đà Nẵng
-
Nguyễn Thị Hoa, Trường Cao đẳng Sư phạm tỉnh Quảng Trị
Các tổ chức phối hợp:
i
-
Trung tâm DATIC, Trường Đại học Bách khoa, Đại học Đà Nẵng
-
Trung tâm Phát triển phần mềm, Đại học Đà Nẵng
-
Trung tâm Nghiên cứu về xử lý ngôn ngữ tự nhiên GETALP (Cộng hòa
Pháp)
MỤC LỤC
DANH SÁCH THAM GIA..........................................................................i
MỤC LỤC....................................................................................................ii
DANH MỤC HÌNH ẢNH..........................................................................iv
THÔNG TIN KẾT QUẢ NGHIÊN CỨU.................................................vi
RESEARCH RESULT INFORMATION................................................vii
MỞ ĐẦU......................................................................................................1
CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN............................................3
1.1. Kho ngữ liệu song ngữ............................................................................3
1.1.1. Khái niệm.....................................................................................3
1.1.2. Ứng dụng của kho ngữ liệu song ngữ...........................................4
1.1.3. Nghiên cứu một số kho ngữ liệu song ngữ trên thế giới...............5
1.2. Một số nguồn có thể trích rút ngữ liệu....................................................7
1.2.1. Nguồn từ điển...............................................................................8
1.2.2. Ngữ liệu SUSANNE.....................................................................9
1.2.3. Nguồn Internet..............................................................................9
1.2.4. Nguồn sách...................................................................................9
1.3. Dịch tự động............................................................................................9
1.3.1. Lịch sử phát triển..........................................................................9
1.3.2. Khái niệm...................................................................................11
1.3.3. Cấu trúc của một chương trình dịch tự động..............................12
1.3.4. Một số hệ thống dịch tự động.....................................................16
1.4. Môi trường hợp tác...............................................................................20
1.4.1. Khái niệm...................................................................................20
1.4.2. Các công cụ dùng để giao tiếp và hợp tác..................................21
1.4.3. Các tính năng cơ bản của môi trường hợp tác............................22
1.4.4. Các công nghệ hỗ trợ môi trường hợp tác..................................23
1.4.5. Một số môi trường hợp tác trên mạng........................................24
CHƯƠNG 2. GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU...................28
2.1. Giới thiệu..............................................................................................28
2.2. Mô hình tổng thể...................................................................................28
2.3. Đề xuất giải pháp để xây dựng kho ngữ liệu song ngữ.........................30
2.3.1. Các tiêu chí chọn mẫu ngữ liệu..................................................30
2.3.2. Chọn nguồn dữ liệu và chuẩn hóa..............................................30
2.3.3. Xây dựng cấu trúc kho ngữ liệu song ngữ..................................32
2.4. Giải pháp trích rút ngữ liệu...................................................................34
2.4.1. Nguồn Từ điển Lạc Việt.............................................................34
2.4.2. Nguồn Báo điện tử VOV News..................................................35
2.4.3. Các kho ngữ liệu được xây dựng sẵn.........................................37
ii
CHƯƠNG 3. PHÁT TRIỂN ỨNG DỤNG..............................................39
3.1. Xây dựng kho ngữ liệu..........................................................................39
3.1.1. Trích từ Từ điển Lạc Việt...........................................................39
3.1.2. Trích từ VOV New.....................................................................45
3.1.3. Trích từ các kho ngữ liệu Anh, Pháp..........................................56
3.1.4. Một số nguồn dữ liệu khác.........................................................59
3.2. Hiệu chỉnh kho ngữ liệu........................................................................59
3.2.1. Xây dựng hệ thống.....................................................................59
3.2.2. Xây dựng giao diện hệ thống......................................................63
3.3. Thử nghiệm và đánh giá chương trình...................................................68
KẾT LUẬN................................................................................................69
TÀI LIỆU THAM KHẢO...........................................................................70
iii
DANH MỤC HÌNH ẢNH
Hình 1. Quá trình xử lý của một chương trình dịch tự động..................................14
Hình 2. Giao diện hệ thống dịch Babel Fish...........................................................17
Hình 3. Giao diện hệ thống dịch Systran................................................................18
Hình 4. Giao diện hệ thống dịch Reverso...............................................................19
Hình 5. Giao diện màn hình dịch với Google translate...........................................20
Hình 6. Giao diện trang WebOffice........................................................................24
Hình 7. Giao diện trang Wikipedia.........................................................................25
Hình 8. Giao diện trang Windows Live..................................................................27
Hình 9. Mô hình tổng quát để xây dựng kho ngữ liệu............................................29
Hình 10. Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau..........................31
Hình 11. Các giải pháp tổ chức CSDL....................................................................32
Hình 12. Giao diện của Từ điển Lạc Việt...............................................................34
Hình 13. Ví dụ về trang web có phiên bản ngôn ngữ khác.....................................36
Hình 14. Sơ đồ quá trình trích từ Từ điển Lạc Việt................................................40
Hình 15. Mục từ có các câu ví dụ Anh – Việt........................................................41
Hình 16. Tập tin tiếng Việt .Doc trích từ Từ điển Lạc Việt...................................42
Hình 17. Tập tin tiếng Anh .Doc trích từ Từ điển Lạc Việt...................................42
Hình 18. Hệ thống bóc tách nội dung của VietSpider.............................................46
Hình 19. Trích nội dung từ web..............................................................................47
Hình 20. Trang web tiếng Việt trước khi tách lấy nội dung...................................48
Hình 21. Trang web tiếng Anh trước khi tách lấy nội dung..................................49
Hình 22. Ví dụ tạo luồng trang VOV News tiếng Việt...........................................50
Hình 23. Trang web tiếng Việt khi thực hiện tách lấy nội dung.............................50
Hình 24. Trang web tiếng Anh khi thực hiện tách lấy nội dung............................51
Hình 25. Dữ liệu sau khi bóc tách..........................................................................52
Figure 26. Sơ đồ quá trình xử lý trích từ trang web sử dụng MorphAdorner.........53
Hình 27. Tách câu trực tuyến của MorphAdorner..................................................54
Hình 28. Kết quả tách câu tiếng Anh bằng công cụ trực tuyến MorphAdorner.....55
iv
Hình 29. Kết quả tách câu tiếng Việt bằng công cụ trực tuyến MorphAdorner......56
Hình 30. Sơ đồ quá trình xử lý nguồn dữ liệu có sẵn.............................................57
Hình 31. Giao diện Vdict........................................................................................58
Hình 32. Mô hình kiến trúc môi trường hiệu chỉnh kho ngữ liệu...........................61
Hình 33. Cấu trúc quy ước lưu dữ liệu...................................................................62
Hình 34. Ví dụ cách lưu kho ngữ liệu hiệu chỉnh tiếng Pháp.................................63
Hình 35. Giao diện chính của hệ thống...................................................................64
Hình 36. Giao diện tìm kiếm, dịch câu, xem bản sửa.............................................64
Hình 37. Giao diện hiệu chỉnh câu dịch..................................................................65
Hình 38. Giao diện câu đóng góp bị trùng..............................................................66
Hình 39. Giao diện thay đổi câu dịch dành cho chuyên gia....................................66
Hình 40. Giao diện Game điền khuyết...................................................................67
Hình 41. Giao diện Game sắp xếp thứ tự đúng của từ............................................67
Hình 42. Giao diện Game dịch Anh – Việt.............................................................68
v
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:
-
Tên đề tài: Xây dựng kho ngữ liệu đa ngữ phục vụ xử lý tiếng Việt.
-
Mã số: Đ2012- -
-
Chủ nhiệm: PGS.TS. Võ Trung Hùng
-
Thành viên tham gia: ThS. Hoàng Như Quỳnh, Nguyễn Thị Hoa
-
Cơ quan chủ trì: Đại học Đà Nẵng
-
Thời gian thực hiện: 2012
2. Mục tiêu:
Xây dựng được một kho ngữ liệu đa ngữ có chứa tiếng Việt lớn về số lượng và
chất lượng tốt nhằm phục vụ cho các nghiên cứu về xử lý tiếng Việt.
3. Tính mới và sáng tạo:
Ứng dụng các hệ thống dịch tự động và môi trường hợp tác để mở rộng các kho
ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên.
4. Tóm tắt kết quả nghiên cứu:
-
Hướng dẫn 1 học viên bảo vệ thành công 2 luận văn Thạc sĩ.
-
Xây dựng được kho ngữ liệu đa ngữ gồm tập các câu Anh, Pháp, Việt.
-
Công bố 1 bài báo trên Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng.
5. Tên sản phẩm: UD Corpus
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp
dụng: sử dụng tại Trung tâm DATIC (Đại học Đà Nẵng) và GETA (Cộng hòa Pháp)
7. Hình ảnh, sơ đồ minh họa chính
vi
RESEARCH RESULT INFORMATION
1. General information:
-
Project Title: Building a multilingual corpus for Vietnamese processing.
-
Code number: Đ2012- -
-
Coordinator: PGS.TS. Võ Trung Hùng
-
Members: ThS. Hoàng Như Quỳnh, Nguyễn Thị Hoa
-
Implementing Institution: The University of Danang
-
Duration: 01-12/2012
2. Objectives:
Building a multilingual corpus containing the multilingual sentences with huge
quantity and hight quality to cater to the research on Vietnamese processing.
3. Innovation:
Using of automatic translation systems and collaboration environment to develop
and extend linguistics corpus on natural language processing.
4. Results obtained:
-
One student successfully defended Master thesis.
-
Developing an multilingual corpus in English, French, and Vietnamese.
-
One article published in the Journal of Science and Technology, University
of Danang.
5. Product name: UD Corpus
6. Application: using at DATIC (the University of Danang) and GETA (France)
7. Figure and flowchart
vii
MỞ ĐẦU
Hiện nay, con người đang sử dụng hơn 7000 ngôn ngữ nói khác nhau, trong số đó
có 1500 ngôn ngữ có chữ viết [5]. Chính vì sự đa dạng về ngôn ngữ và quá trình toàn
cầu hóa đang diễn ra mạnh mẽ nên vấn đề cấp thiết đặt ra hiện nay là làm thế nào để
những người nói hoặc viết bằng những ngôn ngữ khác nhau có thể hiểu được nhau dễ
dàng hơn.
Để phục vụ cho mục đích đó, những nghiên cứu về xử lý ngôn ngữ tự nhiên đã
được các chính phủ, các trường đại học/viện nghiên cứu, các công ty phần mềm, các
nhà khoa học đầu tư nghiên cứu từ rất sớm. Những vấn đề liên quan đến xử lý ngôn
ngữ tự nhiên rất đa dạng từ lý thuyết ngôn ngữ, phân tích văn bản, nhận dạng, dịch tự
động, hỏi đáp tự động [4],… Đa số các phương pháp, kỹ thuật sử dụng trong xử lý
ngôn ngữ tự nhiên đều cần đến các dữ liệu song ngữ hoặc đa ngữ.
Hiện nay, đối với các ngôn ngữ lớn (ngôn ngữ có nhiều người sử dụng và/hoặc
được sử dụng bởi những quốc gia có tiềm lực mạnh về kinh tế, khoa học, kỹ thuật) đã
có nhiều kho ngữ liệu chất lượng được xây dựng. Chúng ta có thể dễ dàng tìm thấy
các kho ngữ liệu bằng tiếng Anh, tiếng Pháp, tiếng Hoa, tiếng Nhật… Đặc biệt, có rất
nhiều các kho ngữ liệu song ngữ Anh – Pháp, Anh – Hoa, Anh - Nhật,… Ngược lại,
đối với những ngôn ngữ như tiếng Việt thì những nghiên cứu về nó chưa nhiều, rời
rạc và đặc biệt là sự thiếu vắng các kho ngữ liệu lớn về khối lượng và đảm bảo về
chất lượng để phục vụ công tác nghiên cứu và phát triển các ứng dụng. Vì vậy, việc
nghiên cứu, xây dựng một kho ngữ liệu đa ngữ phục vụ cho xử lý tiếng Việt là một
vấn đề cần thiết, cấp bách đặt ra hiện nay.
Trong báo cáo này, chúng tôi trình bày lại các kết quả nghiên cứu và thực nghiệm
để xây dựng một kho ngữ liệu đa ngữ Anh – Pháp – Việt gồm tập hợp các câu song
song tương ứng trong 3 ngôn ngữ này.
Phương pháp chúng tôi sử dụng là dùng các hệ thống dịch tự động sẵn có như
Systran, Google, Reverso, … để dịch tự động một số kho ngữ liệu sẵn có sang ngôn
ngữ khác (chủ yếu là từ tiếng Anh sang tiếng Pháp hoặc sang tiếng Việt) và sau đó sử
dụng môi trường hợp tác để mọi người tham gia hiệu chỉnh. Chất lượng của kho ngữ
liệu này sẽ liên tục được cải thiện bởi sự tham gia đóng góp của người sử dụng (trong
trường hợp nghiên cứu này là sự tham gia của giảng viên, sinh viên ngoại ngữ) và
cuối cùng sẽ được kiểm tra và xác nhận bởi các nhà ngôn ngữ. Kết quả chúng tôi đạt
1
được gồm: một kho ngữ liệu gần 100 ngàn câu tương ứng trong 3 ngôn ngữ Anh,
Pháp và Việt Nam; các công cụ hỗ trợ thu thập, tiền xử lý các dữ liệu trên Internet, từ
các từ điển và một số kho ngữ liệu đơn ngữ hoặc song ngữ sẵn có; công cụ sử dụng
lại các hệ thống dịch tự động sẵn có để dịch các tập tin từ ngôn ngữ này sang ngôn
ngữ khác; một môi trường hợp tác để hiệu chỉnh kho ngữ liệu.
Đề tài này được thực hiện với sự phối hợp, hỗ trợ của Trung tâm Nghiên cứu về
dịch tự động và xử lý ngôn ngữ của Đại học Bách khoa Quốc gia Grenoble. Đặc biệt,
chúng tôi xin chân thành cảm ơn GS.TSKH. Christian BOITET đã hỗ trợ và đưa ra
một số ý tưởng bổ ích cho nhóm tác giả trong quá trình triển khai thực hiện đề tài này.
Báo cáo của đề tài được tổ chức thành 3 chương. Chương 1 dành để giới thiệu
các kết quả nghiên cứu tổng quan như khái niệm chung về kho ngữ liệu ngôn ngữ
(kho ngữ liệu), về các phương pháp, công cụ và nguồn dữ liệu sử dụng để xây dựng
kho ngữ liệu. Chương 2 dành để giới thiệu về một số giải pháp đề xuất và các công cụ
sử dụng. Chương 3 dành để giới thiệu các bước triển khai, thử nghiệm và đánh giá hệ
thống.
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN
Trong chương này, chúng tôi trình bày một số kết quả nghiên cứu tổng quan liên
quan đến đề tài gồm các khái niệm về kho ngữ liệu song ngữ, các vấn đề liên quan
đến xây dựng kho ngữ liệu đa ngữ, ứng dụng dịch tự động và môi trường hợp tác khi
xây dựng kho ngữ liệu đa ngữ.
1.
1.1.
Kho ngữ liệu song ngữ
Khái niệm
1. Ngữ liệu
Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứ thực tế
sử dụng ngôn ngữ. Những chứng cứ sử dụng ngôn ngữ này có thể là của ngôn ngữ nói
mà cũng có thể là ngôn ngữ viết. Trong đó ngữ liệu tồn tại dưới dạng ngôn ngữ viết
bao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử [16].
Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ và ngữ
liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ. Đề tài này tập trung nghiên cứu để
xây dựng kho ngữ liệu đa ngữ. Trong ngữ liệu đa ngữ, nếu ngữ liệu của ngôn ngữ này
là bản dịch của ngôn ngữ kia gọi là ngữ liệu song song. Ngữ liệu song song có thể
gồm hai ngôn ngữ hoặc nhiều hơn hai ngôn ngữ. Trong đề tài này thực hiện xây dựng
ngữ liệu song song của 3 ngôn ngữ gọi tắt là ngữ liệu đa ngữ cụ thể là ngữ liệu gồm
các bộ song ngữ Anh – Pháp - Việt [1].
2. Kho ngữ liệu
Kho ngữ liệu (linguistic corpus) là một tập hợp các mảnh ngôn ngữ được chọn
lựa và sắp xếp theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng như một
mẫu ngôn ngữ.
Hoặc có một định nghĩa khác “Kho ngữ liệu là một hệ thống tham chiếu dựa trên
một bộ sưu tập điện tử của văn bản bao trong một ngôn ngữ nhất định”.
3. Kho ngữ liệu song ngữ
Kho ngữ liệu song ngữ (Parallel corpus) là một kho các cặp văn bản song ngữ
được trình bày dưới dạng điện tử, trong đó có mỗi ngôn ngữ là bản dịch của ngôn ngữ
kia.
Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một ngữ liệu của ngôn
ngữ này là một bản dịch chính xác của ngôn ngữ kia. Một số kho ngữ liệu song song,
bao gồm ngữ liệu của nhiều ngôn ngữ. Một số kho ngữ liệu song song thì dữ liệu của
ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông qua một ngôn ngữ
trung gian. Ví dụ: kho ngữ liệu Anh – Việt, từ tiếng Anh có thể thông qua ngôn ngữ
trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từ tiếng Pháp sang
tiếng Việt.
1.2.
Ứng dụng của kho ngữ liệu song ngữ
Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn nhưng chủ
yếu là tiếng Anh được rất nhiều nhà khoa học trên thế giới khai thác và sử dụng.
Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật,... nhưng với quy mô nhỏ
hơn. Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều các kho ngữ
liệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển, dịch tự động,
tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, học ngoại ngữ,...
Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp ở
thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông,... Ở Việt
Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đến kho
ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứ tiếng,
truyện Harry Potter ( Chinese-Korean-Japenese-Vietnamese), các trang web song ngữ
Anh-Việt như ThanhNien, Vietnamnet, NhanDan,.... Riêng kho ngữ liệu song ngữ
(dịch 1-1) Anh - Việt có gán nhãn ngôn ngữ hiện nay có kho ngữ liệu song ngữ Anh Việt có tên là EVC [1].
Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụ cho
nhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngôn ngữ học
– so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoại ngữ,...
4. Ứng dụng trong ngôn ngữ học – thống kê
Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vào việc
thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học. Cùng với sự trợ giúp của
máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lên đáng kể [1].
5. Ứng dụng trong ngôn ngữ học so sánh
Ngôn ngữ học so sánh là so sánh các điểm tương đồng, khác biệt giữa các ngôn
ngữ. Để so sánh chúng ta cần có các cứ liệu của các ngôn ngữ mà chúng ta cần so
sánh vì vậy việc thu thập, tổng hợp cứ liệu từ các nguồn khác nhau là rất cần thiết. Vì
vậy, kho ngữ liệu song ngữ Anh – Việt là nguồn cứ liệu quan trọng để có thể khai thác
trong việc phục vụ cho ngôn ngữ học so sánh [1].
6. Ứng dụng trong giảng dạy ngoại ngữ
Kho ngữ liệu song ngữ đóng vai trò quan trọng trong việc làm nguồn ngữ liệu và
tài liệu sư phạm rất phong phú, gọn nhẹ trong việc dạy và học ngoại ngữ, đặc biệt là
kho ngữ liệu song ngữ Anh – Việt được khai thác và phục vụ cho mục đích dạy tiếng
Anh cho người Việt và dạy tiếng Việt cho người nước ngoài giúp cho người học tránh
được các lỗi thường gặp như cách đặt câu, sử dụng từ như trong tiếng mẹ đẻ,... Kho
ngữ liệu song ngữ Anh – Việt có thể được sử dụng trong giảng dạy tiếng Anh để lấp
khoảng trống giữa thực hành và lý thuyết. Đồng thời, các giáo viên khi sử dụng kho
song ngữ có thể làm giàu thêm kiến thức của họ, cung cấp thêm dữ liệu xác thực
trong bài giảng và cũng là công cụ hữu ích trong việc thiết kế giáo trình [17].
7. Ứng dụng trong việc nghiên cứu dịch thuật
Kho ngữ liệu song song có thể giúp phiên dịch để tìm ra sự tương đương giữa
ngôn ngữ nguồn và đích. Chúng cung cấp thông tin về tần số của từ, sử dụng cụ thể
từ vựng và cú pháp. Kho ngữ liệu song song có thể giúp phiên dịch để phát triển các
chiến lược dịch thuật có hệ thống các từ hay cụm từ hay câu không có tương đương
trực tiếp bằng ngôn ngữ đích. Trên cơ sở đó, tập hợp các bản dịch có thể được xác
định và các dịch giả có thể chọn một chiến lược dịch theo các chủ đề cụ thể và thể
loại [17].
1.3.
Nghiên cứu một số kho ngữ liệu song ngữ trên thế giới
8. British National Corpus (BNC)
Kho ngữ liệu 100.000.000 từ được lấy từ các mẫu văn bản từ nhiều nguồn. Ấn
bản mới nhất là BNC XML Edition, phát hành vào năm 2007. XML là một tiêu chuẩn
để lưu trữ dữ liệu có cấu trúc một cách linh hoạt [3].
Phần ngôn ngữ viết của BNC (90%) được lấy từ các tờ báo trong khu vực và
quốc gia, các ấn phẩm đặt biệt xuất bản định kỳ và các tạp chí dành cho mọi lứa tuổi,
sách học và tiểu thuyết nổi tiếng, các tiểu luận của trường học và nhiều loại văn bản
khác. Phần ngôn ngữ nói (10%) bao gồm phiên âm chữ viết của các cuộc hội thoại
không chính thức (ghi lại bởi các tình nguyện viên được lựa chọn từ các độ tuổi khác
nhau, khu vực và các lớp xã hội một cách cân bằng) và ngôn ngữ nói được thu thập
trong các ngữ cảnh khác nhau, từ kinh doanh chính thức hay các cuộc họp chính phủ
đài phát thanh và điện thoại.
Kho ngữ liệu bắt đầu xây dựng vào năm 1991, và được hoàn thành vào năm
1994. Sau đó không có văn bản mới thêm vào sau khi hoàn thành dự án nhưng các
ngữ liệu đã được sửa đổi một chút trước khi phát hành phiên bản thứ hai BNC World
(2001) và phiên bản thứ ba BNC XML Edition (2007). Kể từ khi hoàn thành dự án,
có hai kho phụ với dữ liệu từ BNC đã được phát hành riêng biệt: BNC Sampler (một
bộ sưu tập chung của một triệu từ chữ viết, một triệu từ đàm thoại) và BNC Baby (41
triệu từ thuộc bốn thể loại khác nhau: tiểu thuyết, báo chí, viết luận và đàm thoại. )
[14][15].
9. Canadian Hansard Corpus (Anh – Pháp)
Kho ngữ liệu với 90 triệu từ Anh – Pháp, là ngữ liệu song song nổi tiếng được
trích từ các văn bản của Quốc hội Canada, đã được xuất bản bằng ngôn ngữ chính
thức tại Canada là tiếng Anh và tiếng Pháp. Nội dung của nó được giới hạn trong luận
lập pháp, ngữ liệu bao trùm một phạm vi rộng các chủ đề và phong cách, ví dụ như
thảo luận tự phát, trao đổi thư bằng văn bản, cũng như các bài phát biểu được chuẩn
bị trước.
Có một vài phiên bản của ngữ liệu song song Hansard Canada. Các phiên bản
USC bao gồm 1.300.000 cặp khối văn bản liên kết (tức là câu hoặc đoạn nhỏ hơn) từ
các hồ sơ chính thức của Quốc hội lần thứ 36 của Canada (1997 - 2000) với
2.000.000 từ trong tiếng Anh và tiếng Pháp. Phiên bản này được tự do tải về tại trang
web USC. TransSearch cung cấp một dịch vụ trực tuyến cho phép người dùng đăng
ký để truy cập vào tất cả các văn bản Hansard từ năm 1986 đến tháng hai năm 2003
(khoảng 235.000.000 từ) [13].
10. JENAAD Japanese – English Parallel Corpus (Anh – Nhật)
Kho ngữ liệu Japanese - English News Article Alignment Data (JENAAD) chứa
150.000 cặp câu. Nguồn gốc của kho ngữ liệu được lấy từ Yomiuri Shimbun, một
trong những tạp chí quốc gia của Nhật Bản, và tờ báo tiếng Anh Daily Yomiuri. Các
ngữ liệu đã được cấp phép từ Viện Công nghệ Thông tin và Truyền thông Quốc gia
(National Institute of Information and Communications Technology - NICT) Nhật Bản
nhằm phục vụ cho mục đích nghiên cứu và giáo dục.
11. PKU 863 (Anh - Trung) của Đại học Bắc Kinh
Kho ngữ liệu song song Anh - Trung PKU trong Dự án 863 của Viện Ngôn ngữ
học Tính toán của Trường đại học Peking. Kho ngữ liệu gồm có hơn 200.000 liên kết
những cặp câu được lấy từ những văn bản song ngữ có chất lượng (3.066.435 từ tiếng
Anh và tiếng Trung Quốc), bao gồm nhiều thể loại và lĩnh vực, ví dụ những văn bản
của chính phủ, những tài liệu chính thức, những văn bản tin tức, những bài tiểu luận,
những kịch bản bài phát biểu, những văn bản văn học, văn xuôi hàn lâm, cũng như
văn học chính trị, luật, du lịch, công nghiệp thực phẩm, kinh tế và kinh doanh. Đa số
các văn bản được lấy từ các trang web song ngữ trong khi một số được số hoá bằng
cách quét vào rồi qua công đoạn nhận dạng chữ (OCR: Optical Character
Recognization).
2.
Một số nguồn có thể trích rút ngữ liệu
Với sự ra đời và phát triển mạnh mẽ của máy tính điện tử cũng như mạng Internet
đi cùng theo nó là kho dữ liệu khổng lồ tồn tại dưới dạng điện tử thì việc thu thập ngữ
liệu đã được tự động hóa rất nhiều. Các kho ngữ liệu song song hiện nay thường được
chọn lọc từ các nguồn tài liệu như: báo chí, sách giáo khoa, các website song ngữ
hoặc các ngữ liệu điện tử từ các sách, truyện nổi tiếng nhiều thứ tiếng. Tuy nhiên có
một số hạn chế trong việc thu thập dữ liệu đó là các ngữ liệu song ngữ có sẵn trên
mạng Internet đa số đều là các bản dịch thoát ý, hoặc dịch ý chính không dịch 1 -1.
Với định hướng như trên, nên nguồn ngữ liệu song ngữ Anh - Việt được chọn là
tập hợp các câu, văn bản song ngữ được rút ra từ các nguồn ngữ liệu phù hợp, như:
các tài liệu về KHKT (đặc biệt là Tin học), các câu ví dụ Anh - Việt trong các từ điển,
ngữ liệu SUSANNE,… Các nguồn này ở nhiều dạng khác nhau (sách, điện tử) và
được nhập hay quét vào rồi qua công đoạn nhận dạng chữ OCR. Sau đây là các
nguồn ngữ liệu song ngữ Anh - Việt thô có thể thu thập được:
2.1.
Nguồn từ điển
Trong mỗi từ điển, ở mỗi mục từ, thường chứa các ví dụ hướng dẫn sử dụng từ
đó, và các ví dụ bằng tiếng Anh này cũng được dịch chính xác (1-1) sang tiếng Việt.
Nếu xét về chuẩn ngôn ngữ thì ngữ liệu trong các từ điển là đạt yêu cầu nhất (nhất là
các từ điển nổi tiếng, nhiều người sử dụng, các từ điển được các cơ quan hay học giả
uy tín biên soạn, các câu tiếng Anh được các nhà làm từ điển trích từ từ điển Oxford,
Webster). Hầu hết các ví dụ này đều là các câu thông thường (đáp ứng tiêu chuẩn về
phong cách/lĩnh vực).
Hình 1.1. Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ
2.2.
Ngữ liệu SUSANNE
Đây là ngữ liệu điện tử tiếng Anh được xây dựng bởi một nhóm các nhà ngôn
ngữ học - máy tính (đứng đầu là Geoffrey Sampson) thuộc trường đại học Sussex,
Anh. SUSANNE (Surface and Underlying Structural ANalyses of Naturalistic
English) là một phần trong dự án phân tích và đánh dấu tiếng Anh theo hướng ngôn
ngữ học máy tính. SUSANNE gồm khoảng 128.000 từ được rút từ ngữ liệu Brown.
2.3.
Nguồn Internet
Đây là nguồn dữ liệu khổng lồ, nguồn ngữ liệu này có lợi thế là chúng đã tồn tại
sẵn dưới dạng điện tử (nên không phải nhập liệu lại bằng tay). Kho ngữ liệu trên
Internet thì vô cùng lớn với vô vàn các lĩnh vực/phong cách khác nhau, nhưng chỉ có
một số ít các trang Web song ngữ là đáp ứng được đúng tiêu chuẩn.
2.4.
Nguồn sách
Bao gồm các sách dạy tiếng Anh, các mẫu câu tiếng Anh, sách song ngữ tin học,
khoa học kỹ thuật,…
3.
3.1.
Dịch tự động
Lịch sử phát triển
Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết
học Leibniz và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối liên
hệ giữa nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết
mà không có một ứng dụng thực tế nào.
Sản phẩm đầu tiên cho một "chương trình dịch tự động" được thực hiện vào
khoảng giữa thập niên 1930. Vào thời điểm này Georges Artsruni đã tạo ra một bộ từ
điển song ngữ với chức năng tra từ tự động bằng các băng giấy, tiếp theo một người
Nga là Pyotr Troyanskii tiếp tục phát triển với nhiều chi tiết hơn. Nó không chỉ có
một bộ từ điển song ngữ mà còn bao gồm các quy tắc ngữ pháp cơ bản dựa trên quốc
tế ngữ (Esperanto).
Lịch sử của dịch tự động được chính thức ghi nhận từ thập niên 1950 mặc dù như
trên trình bày trước đó một số công việc ở dạng manh nha đã được thực hiện. Vào
năm 1954, thực nghiệm Georgetown - IBM (International Business Machines) đã
thực hiện thành công thí nghiệm dịch tự động hoàn toàn hơn 60 câu tiếng Nga sang
tiếng Anh. Thành công bước đầu này đã tạo điều kiện để lập ra những quỹ đầu tư có
giá trị cho các nghiên cứu. Các tác giả (tại thời điểm đó) tuyên bố rằng chỉ trong vòng
từ 3 đến 5 năm nữa vấn đề dịch máy sẽ được giải quyết .
Nhưng thực tế diễn ra chậm hơn nhiều, báo cáo ALPAC vào năm 1966 cho thấy
sau hơn 10 năm nghiên cứu lĩnh vực này vẫn không có những tiến bộ đáng kể và hệ
quả là số tiền chi cho nghiên cứu giảm mạnh. Vào cuối thập niên 1980, khi máy vi
tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầu quan tâm
hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà trước đó
không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế.
Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất nhiều
nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu. Hiện nay có một số công ty
xây dựng chương trình dựa trên thống kê như Language Weaver (chuyên cung cấp
các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google và Microsoft
cũng có các sản phẩm tương tự do chính họ giữ bản quyền. Một hướng tiếp cận mới
là kết hợp các phương pháp với nhau, như những nghiên cứu phối hợp giữa các
nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê.
Những năm thập niên 1960 vấn đề dịch tự động cho tiếng Việt đã bắt đầu được
nghiên cứu, hầu hết đều do các nguyên nhân chính trị và quân sự. Các tài liệu nước
ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E. Scott thành lập
công ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổ chức hệ thống
dịch tự động từ tiếng Anh ra tiếng Việt. Scott bắt đầu chuẩn bị cho việc tổ chức hệ
thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệ máy tính tại New
York, Mỹ. Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động có tên Logos I ra đời
với từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt, tác giả của hệ thống này
là Byrne, Charles E.; Scott, Bernard E.; Binh, Truong N [9-C1]. Nhưng hệ thống này
không tồn tại được lâu, việc nghiên cứu của Scott chấm dứt vào năm 1973. Cũng
trong khoảng thời gian này, một dự án khác về xây dựng hệ thống dịch tự động từ
tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên 1970 tại Tập đoàn viễn
thông Xyzyx, California. Hệ thống này đầu tiên được xây dựng để dịch văn bản Anh
- Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắc hoạt động tương tự như của
hệ thống Logos. Tuy nhiên, hệ dịch máy Anh-Việt được sử dụng rộng rãi tại Việt nam
đầu tiên là EVTRAN - 1997. Và sau đó EVTRAN 2.0, 1999 với hơn 200.000 từ và
cụm từ. Từ năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) biên dịch văn bản
hai chiều Anh-Việt và Việt-Anh (với hơn 500.000 mục từ vựng).
3.2.
Khái niệm
Dịch tự động hay còn gọi là dịch máy (MT: machine translation) là một nhánh
của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo. Nó là sự kết hợp giữa
ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự động thực hiện dịch
một văn bản từ ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều văn bản
của ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, có hoặc không có sự can
thiệp của con người trong quá trình dịch. Khó khăn của việc thiết kế chương trình
dịch tự động là làm sao khử nhập nhằng hiệu quả. Nói về tính nhập nhằng, đây là khái
niệm chỉ tính không rõ ràng của ngôn ngữ, chẳng hạn khi viết từ “đường kính” thì vẫn
chưa rõ là nó chỉ một loại "chất ngọt dùng để pha làm đồ uống" hay là "đoạn thẳng đi
qua tâm và nối hai điểm của đường tròn, của mặt cầu". Nhập nhằng như ví dụ vừa rồi
là do hiện tượng đồng âm (hoặc đồng tự) gây ra, một số kiểu nhập nhằng khác như
nhập nhằng từ loại, nhập nhằng từ đa nghĩa. Khi dịch tự động từ tiếng Việt sang tiếng
Anh, khó khăn đầu tiên lại là việc xác định ranh giới từ, không giống như tiếng Anh
(và nhiều ngôn ngữ khác) mỗi từ đã mang trọn vẹn một nghĩa và được xác định ranh
giới qua khoảng trắng, tiếng Việt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép,
nếu không xác định đúng sẽ xuất hiện kiểu dịch từng từ rồi ghép lại với nhau ví dụ
như từ "miễn bàn" có thể bị dịch thành free table. Với tiếng Anh do là ngôn ngữ biến
hình nên việc xác định từ loại dễ hơn, ngoài ra nó cũng ít từ đồng tự (hai từ có ký tự
hoàn toàn giống nhau nhưng mang nghĩa khác nhau), còn về từ đa nghĩa tiếng Anh
cũng như tiếng Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác
định nghĩa chính xác phải phải thực hiện phân tích văn cảnh.
Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạo
thành câu hoàn chỉnh. Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu công
việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếng Anh và
tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếng Trung thì
rất khó khăn. Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hết sức phức tạp, áp
dụng nhiều kiến thức toán học nhưng thực tế cho thấy hiệu quả của chúng vẫn không
được tốt.
Thuật ngữ dịch máy hay dịch tự động không chỉ bao gồm máy tính dựa vào các
bộ từ điển và các phương pháp tiếp cận vào cơ sở dữ liệu để có thể đọc được văn bản
hoặc tương tác với quá trình xử lý ngôn ngữ, chỉnh sửa văn bản để cho ra bản dịch
cuối cùng. Mà nó còn bao gồm các hệ thống, mà trong đó người dịch hoặc những
người sử dụng hỗ trợ máy tính trong quá trình dịch thuật như khâu chuẩn bị văn bản
hay những chỉnh sửa cần thiết trước khi cho ra một bản dịch hoàn chỉnh. Trên thực tế,
kết quả của hầu hết các hệ thống dịch bằng máy tính đều được sửa đổi bởi con người.
Như vậy trong trường hợp này bản dịch bằng máy tính không khác mấy so với bản
dịch do con người dịch. Lúc đó các loại lỗi sai được tạo ra bởi hệ thống dịch tự động
thì khác so với các lỗi sai của người dịch. Còn trong trường hợp bản dịch tự động
hoàn toàn do máy tính không có sự can thiệp của con người có thể được hiểu như một
“bản dịch nghĩa” - một bản dịch chưa hoàn chỉnh nhưng giúp chúng ta hiểu được văn
bản gốc.
Tóm lại, dịch tự động bằng máy tính chính nó không phải là lĩnh vực độc lập, mà
nó lấy từ ngôn ngữ, khoa học máy tính, trí tuệ nhân tạo, lý thuyết dịch, một vài ý
kiến, một số phương pháp và kỹ thuật để có thể phát triển hoàn thiện một hệ thống
dịch nào đó. Ranh giới giữa hệ thống dịch bằng máy tính do con người hỗ trợ và hệ
thống dịch bằng máy nhằm hỗ trợ cho con người rất gần nhau và đôi khi có thể hỗ trợ
cho cả hai. Nhưng cốt lõi trọng tâm của dịch tự động bằng máy tính là tự động hoá
một hoặc toàn bộ quá trình dịch để kết quả lý tưởng cuối cùng là nhanh chóng tạo ra
những bản dịch có chất lượng cao và chi phí thấp hơn nhiều so với dịch bằng con
người.
3.3.
Cấu trúc của một chương trình dịch tự động
Việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt ra
từ rất lâu, tuy nhiên thành công của các hệ dịch tự động mới chỉ hạn chế trong việc
dịch tự động các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ pháp cũng như
từ vựng, ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp, tiếng Anh sang
tiếng Nga,...; thậm chí, kết quả khả dĩ chỉ đạt được với các loại văn bản khoa học
hoặc pháp luật vốn được viết bới văn phạm rất rõ ràng, chính xác và đơn nghĩa. Với
những cặp ngôn ngữ có hệ thống ngữ pháp và ngữ nghĩa khác nhau khá xa, kết quả
của các chương trình dịch tự động là rất hạn chế. Với các bài toán dịch tự động nói
chung, chúng ta đều gặp phải 3 vấn đề lớn sau đây:
(1) Số lượng từ vựng của ngôn ngữ là rất nhiều và biến đổi phức tạp (chia ngôi,
giống, số, cách,...).
(2) Ngữ pháp của ngôn ngữ chưa được khảo sát kỹ, quá nhiều ngoại lệ khi sử
dụng (chẳng hạn văn nói - thường sử dụng nói tắt, thiếu các thành phần của câu), một
số ngôn ngữ chưa có các nghiên cứu đầy đủ về ngữ pháp (ví dụ như tiếng Việt).
(3) Ngữ nghĩa được sử dụng rất phong phú, phải sử dụng ngữ cảnh mới có thể
hiểu đúng ý nghĩa của từ.
Trong 3 vấn đề trên, vấn đề (1) dễ giải quyết hơn và đã được giải quyết khá trọn
vẹn với hầu hết các ngôn ngữ thông dụng trên thế giới; vấn đề (2) đã được giải quyết
một phần lớn trong nhiều ngôn ngữ thông dụng, đặc biệt là với các ngôn ngữ ở châu
Âu, nơi mà việc nghiên cứu về ngôn ngữ rất có hệ thống và có lịch sử đã vài trăm
năm. Vấn đề xử lý ngữ nghĩa (3) là vấn đề khó nhất trong dịch tự động, hiện đang
được nghiên cứu rộng rãi và cũng đã đạt được nhiều kết quả hữu ích. Trong báo cáo
này, chúng tôi sẽ đề cập đến một phương pháp xử lý ngữ nghĩa có nhiều triển vọng
trong dịch tự động, phương pháp xử lý ngữ nghĩa dựa trên cú pháp điều khiển và học
máy.
Có nhiều chương trình dịch tự động khác nhau và các chương trình dịch này cũng
có cấu trúc chi tiết khác nhau, tuy nhiên về mặt cấu trúc tổng thể, tất cả các chương
trình đều được chia làm 3 khối chính: khối xử lý hình thái, khối xử lý ngữ pháp và
khối xử lý ngữ nghĩa. Sự khác nhau giữa các chương trình nằm ở cách thức và mức
độ xử lý hình thái, ngữ pháp hay ngữ nghĩa khác nhau. Một vài chương trình có
modul xử lý hình thái đơn giản, việc xử lý tinh tế hơn được giao cho các modul phía
sau, trong một vài chương trình khác, phần xử lý hình thái có thể có một vài thao tác
ảnh hưởng cả đến modul xử lý ngữ nghĩa. Vấn đề cũng tương tự đối với các modul
khác như xử lý ngữ pháp và xử lý ngữ nghĩa, lý do có sự khác biệt giữa các cấu trúc
nằm ở quan điểm về nhiệm vụ của mỗi modul và ở các thuật toán xử lý ngôn ngữ. Dù
vậy, hầu hết các chương trình đều làm việc một cách đơn giản theo sơ đồ sau:
Hình 1. Quá trình xử lý của một chương trình dịch tự động
Khối xử lý hình thái
Khối xử lý hình thái là khối đầu tiên của chương trình dịch tự động, khối nhận dữ
liệu đầu vào là một câu của ngôn ngữ nguồn và phân tích hình thái của câu đó. Nói
chung, một khối phân tích hình thái thường làm các nhiệm vụ sau:
(1) Chia cắt một câu trong ngôn ngữ nguồn thành các từ độc lập.
(2) Tìm tất cả các hình thái và thông tin bổ sung của các từ trong câu để phục vụ
quá trình xử lý về sau.
Thông thường, nhất là đối với các ngôn ngữ ở châu Âu, nhiệm vụ (1) của khối xử
lý hình thái là không khó vì hầu hết tất cả các từ đều nằm nguyên thành một chữ,
không cần chia cắt – ngoại trừ một số trường hợp đặc biệt như viết tắt (có thể xử lý
ngoại lệ). Với một số ngôn ngữ (như với tiếng Việt, tiếng Nhật,…) vấn đề trở nên rất
khó nếu các từ trong ngôn ngữ được chia thành nhiều cụm có thể hiểu nhập nhằng, ví
dụ, xét câu sau: “Ông già đi nhanh quá”
Chúng ta có ít nhất 2 cách phân cách từ:
Cách 1: “Ông già” | “đi” | “nhanh” | “quá”
Cách 2: “Ông” | “già đi” | “nhanh” | “quá”
Trong trường hợp trên không có cách nào đánh giá cách phân cách từ nào tốt hơn,
chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần xử lý ngữ nghĩa sẽ
tiến hành đáng giá xem trường hợp nào là hợp lý hơn và chọn lựa.
Nhiệm vụ (2) của khối xử lý hình thái dễ dàng hơn, với đa số ngôn ngữ việc tìm
tất cả các hình thái và thông tin liên quan đến từ/cụm từ chỉ là vấn đề xử lý từ tố và
tra từ điển.
Theo ý kiến của nhiều tác giả [7], khối xử lý hình thái còn có một nhiệm vụ khác,
đó là nhiệm vụ cắt câu, hay nói cách khác là xác định xem nội dung của một câu trong
ngôn ngữ nguồn bắt đầu và kết thúc từ đâu. Trong thực tế không thể giải quyết trọn
vẹn bài toán ngắt câu cho ngôn ngữ tự nhiên, nhưng may mắn là các trường hợp
không ngắt câu được không ảnh hưởng nhiều đến kết quả cuối cùng [9]. Một vài bộ
dịch tự động thậm chí không quan tâm đến việc ngắt câu – xuất phát từ quan điểm chỉ
cần thông dịch tốt các cấu trúc ngôn ngữ nhỏ (ngữ danh từ, ngữ động từ, cụm từ, …)
Khối xử lý ngữ pháp
Khối xử lý ngữ pháp xây dựng cây phân tích ngữ pháp cho câu đầu vào dựa trên
văn phạm của ngôn ngữ nguồn. Khối này nhận danh sách các hình thái từ đã được
sinh ra bởi khối xử lý hình thái, tiếp đến, khối này sẽ tiến hành phân tích văn phạm
của câu dựa trên văn phạm của ngôn ngữ nguồn và thông tin bổ sung – thường là các
văn phạm bổ sung cho phép sinh cây phân tích chính xác hơn. Nói chung, có thể áp
dụng các phương pháp phân tích cú pháp của các ngôn ngữ nhân tạo cho ngôn ngữ tự
nhiên. Tuy nhiên, vấn đề không suôn sẻ như các ngôn ngữ nhân tạo, có những vấn đề
chính sau đây thường gặp phải khi chúng ta sử dụng các bộ phân tích văn phạm thông
thường:
(1) Văn phạm của các ngôn ngữ tự nhiên thường rất phức tạp.
(2) Trong ngôn ngữ nói, người sử dụng thường nói tắt, thậm chí nói sai ngữ pháp
– không thể phân tích ngữ pháp được.
(3) Xuất phát hiện tượng có nhiều cây phân tích ứng với một câu – dẫn đến nhiều
khả năng dịch khác nhau cho một câu
Vấn đề ngữ pháp dù rất phức tạp nhưng nhiều bộ phân tích cú pháp cho các ngôn
ngữ tự nhiên đã được xây dựng và chúng hoạt động rất tốt, như vậy đây không phải
là vấn đề không thể vượt qua khi xây dựng các bộ dịch tự động các ngôn ngữ tự
nhiên [6].
Khối xử lý ngữ nghĩa
Xử lý ngữ nghĩa là khối cuối cùng trong dịch tự động. Khối nhận đầu vào là cây
phân tích từ khối xử lý ngữ pháp và thực hiện sinh câu ở ngôn ngữ đích. Việc thực
hiện để sinh câu được thực hiện dựa trên 4 nguồn thông tin chính: Cây phân tích ngữ
pháp (lấy từ khối xử lý ngữ pháp), nghĩa của các từ tố trong câu văn nguồn (lấy từ
dãy hình thái từ tố của khối xử lý hình thái), cú pháp điều khiển (là thông tin bổ sung
của văn phạm, được sinh bởi khối xử lý hình thái) và thông tin ngữ cảnh (được tổng
hợp từ việc xử lý ngữ nghĩa các câu trước và nhận vào từ người sử dụng chương
trình). Nhiệm vụ chính của khối xử lý ngữ nghĩa là:
(1) Thực hiện việc đánh giá các cây phân tích cú pháp (nếu khối xử lý ngữ pháp
phân tích được nhiều cây phân tích) và lựa chọn cây tốt nhất.
(2) Thực hiện việc chọn nghĩa thích hợp nhất cho các từ tố của ngôn ngữ nguồn
trong ngôn ngữ đích.
(3) Sinh câu trong ngôn ngữ đích đúng với văn phạm của ngôn ngữ đó (vấn đề xử
lý thứ tự các từ).
Đôi khi nhiệm vụ (1) được xem là của khối xử lý ngữ pháp, nhưng trong phương
pháp xử lý ngữ nghĩa bằng cú pháp điều khiển ta xem nhiệm vụ (1) là của khối xử lý
ngữ nghĩa vì việc này được thực hiện bằng cú pháp điều khiển [6][12].
3.4.
Một số hệ thống dịch tự động
12.
Babel Fish
Một trong các tiện ích dịch tự động đầu tiên trên ứng dụng Web, được công cụ
tìm kiếm Alta Vista phát triển và đưa lên mạng vào năm 1997, sau đó Yahoo một công
cụ tìm kiếm khác mua lại vào năm 2004. Hỗ trợ 38 cặp ngôn ngữ, trong đó tiếng Anh,