Tải bản đầy đủ (.pdf) (49 trang)

Chuyển ngữ tự động tên riêng tư tiếng Việt sang tiếng Nhật (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (948.27 KB, 49 trang )

ĐẠI HỌC QUỐC GIA HÀ HỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TUẤN ANH

CHUYỂN NGỮ TỰ ĐỘNG
TỪ TIẾNG VIỆT SANG TIẾNG NHẬT

LUẬN VĂN THẠC SỸ

Hà Nội - 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN TUẤN ANH

CHUYỂN NGỮ TỰ ĐỘNG
TỪ TIẾNG VIỆT SANG TIẾNG NHẬT

Ngành

: Công nghệ thông tin

Chuyên ngành : Kỹ thuật phần mềm
Mã số

: 60480103

LUẬN VĂN THẠC SỸ



NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI

Hà Nội - 2017


LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm đƣợc trình bày trong
luận văn này do tôi thực hiện dƣới sự hƣớng dẫn của Phó giáo sƣ, Tiến sĩ Nguyễn
Phƣơng Thái.
Tất cả những tham khảo từ các nghiên cứu liên quan đều đƣợc nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không
có việc sao chép tài liệu, công trình nghiên cứu của ngƣời khác mà không chỉ rõ về tài
liệu tham khảo.
TÁC GIẢ LUẬN VĂN

Nguyễn Tuấn Anh


LỜI CẢM ƠN
Trƣớc tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo, Phó giáo sƣ, Tiến
sĩ Nguyễn Phƣơng thái đã tận tình hƣớng dẫn tôi trong suốt quá trình thực hiện luận
văn tốt nghiệp.
Tôi xin bày tỏ lời cảm ơn chân thành tới trƣờng Đại học Công Nghệ - ĐHQG
Hà Nội và những thầy cô giáo tôi đã giảng dạy, truyền thụ kiến thức trong thời gian
qua.
Cuối cùng, tôi xin cảm ơn tất cả gia đình, bạn bè đã luôn động viên giúp đỡ tôi
trong thời gian nghiên cứu đề tài. Tuy đã có những cố gắng nhất định nhƣng do thời
gian và trình độ có hạn nên luận văn còn nhiều thiếu sót và hạn chế. Kính mong nhận
đƣợc sự góp ý của thầy cô và các bạn.

TÁC GIẢ LUẬN VĂN

Nguyễn Tuấn Anh


MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................3
LỜI CẢM ƠN ..................................................................................................................4
Danh mục hình vẽ ............................................................................................................7
Danh mục bảng ................................................................................................................1
CHƢƠNG I. GIỚI THIỆU .............................................................................................. 1
1.1. Đặc điểm ngôn ngữ tiếng Việt và tiếng Nhật ...........................................................1
1.1.1. Đặc điểm ngôn ngữ tiếng Việt[16] ..........................................................................1
1.1.2. Đặc điểm ngôn ngữ tiếng Nhật ..............................................................................2
1.2 Bài toán dịch máy và tiếp cận dịch dựa trên cụm từ phân cấp ..................................3
1.2.1 Khái niệm về hệ dịch máy ......................................................................................3
1.2.2 Mô hình dịch máy thống kê ....................................................................................4
1.2.3. Tiếp cận dịch máy dựa trên cụm từ phân cấp ........................................................7
1.2.4 Mô hình ngôn ngữ ................................................................................................ 11
1.2.5. Giới thiệu dịch máy mạng nơ-ron .......................................................................12
1.3 Vấn đề tên riêng và từ mƣợn trong dịch máy ..........................................................12
1.3.1 Vấn đề tên riêng ....................................................................................................12
1.3.2 Từ mƣợn ...............................................................................................................13
1.4. Bài toán luận văn giải quyết ...................................................................................14
1.5. Kết cấu luận văn .....................................................................................................14
CHƢƠNG 2. DỊCH MÁY THỐNG KÊ DỰA TRÊN CỤM TỪ PHÂN CẤP ..................15
2.1. Ngữ pháp ................................................................................................................15
2.1.1. Văn phạm phi ngữ cảnh đồng bộ .........................................................................15
2.1.2. Quy tắc trích xuất ................................................................................................ 16
2.1.3. Các quy tắc khác ..................................................................................................17

2.2. Mô hình...................................................................................................................18
2.2.1. Định nghĩa ...........................................................................................................18
2.2.2. Các đặc trƣng .......................................................................................................19
2.2.3. Huấn luyện ...........................................................................................................19


6
2.3. Giải mã ...................................................................................................................20
CHƢƠNG 3. DỊCH TÊN RIÊNG VÀ CHUYỂN NGỮ...............................................23
3.1. Dịch tên riêng .........................................................................................................23
3.1.1. Giới thiệu .............................................................................................................23
3.1.2. Một số nguyên tắc cần lƣu ý khi chuyển tên tiếng Việt sang Katakana[17] .........23
3.1.3. Phƣơng pháp của Kevin Night (1997) .................................................................24
3.1.4. Các mô hình xác suất ...........................................................................................24
3.2. Mô hình chuyển ngữ không giám sát .....................................................................28
3.2.1. Giới thiệu .............................................................................................................28
3.2.2. Khai phá chuyển ngữ ...........................................................................................28
3.2.3. Mô hình chuyển ngữ ............................................................................................ 29
3.2.4. Tích hợp với dịch máy .........................................................................................30
3.2.5. Đánh giá chất lƣợng dịch .....................................................................................31
CHƢƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ .........................................................32
4.1. Chuẩn bị dữ liệu đầu vào cho hệ dịch ....................................................................32
4.2. Công cụ tiền xử lý ..................................................................................................32
4.2.1. Môi trƣờng triển khai phần cứng:........................................................................32
4.2.2. Bộ công cụ mã nguồn mở Moses ........................................................................32
4.2.3. GIZA ++ ..............................................................................................................32
4.2.4 Mert ......................................................................................................................32
4.3. Tiến hành thực nghiệm ...........................................................................................33
4.3.1. Dữ liệu đầu vào....................................................................................................33
Dữ liệu đầu vào thu thập từ Ted và Wiki: .....................................................................33

4.3.2. Quá trình chuẩn bị dữ liệu và huấn luyện............................................................ 33
4.4. Đánh giá và phân tích kết quả theo cỡ dữ liệu huấn luyện.....................................34
4.4.1. Kết quả khi chƣa áp dụng mô hình chuyển ngữ ..................................................34
4.4.2. Kết quả sau khi áp dụng mô hình chuyển ngữ không giám sát ...........................36
CHƢƠNG 5. KẾT LUẬN ............................................................................................. 39
TÀI LIỆU THAM KHẢO ............................................................................................. 40


Danh mục hình vẽ
Hình 1.1: Sơ đồ tổng quan hệ dịch máy
Hình 1.2: Mô hình chung hệ dịch máy thống kê Việt – Nhật
Hình 1.3: Ví dụ về gióng hàng từ
Hình 1.4: Trích xuất các quy tắc dịch cụm từ truyền thống
Hình 1.5: Trích xuất quy tắc dịch cụm từ phân cấp
Hình 1.6: Ví dụ chuyển ngữ tên riêng tiếng Nga - Anh
Hình 2.1: Ví dụ trích xuất của văn phạm phi ngữ cảnh đồng bộ
Hình 2.2: Ví dụ trích xuất ngữ pháp: Chuỗi cụm từ ban đầu
Hình 2.3: Các quy tắc suy luận cho bộ phân tích cú pháp LM
Hình 2.4: Phƣơng pháp tìm kiếm cho bộ phân tích cú pháp LM
Hình 3.1: Ví dụ về gióng hàng kí tự
Hình 3.2: Sơ đồ hệ dịch
Hình 4.1: Kết quả đánh giá chất lƣợng dịch khi chƣa tích hợp mô hình chuyển ngữ
Hình 4.2: Kết quả đánh giá chất lƣợng dịch tích hợp mô hình chuyển ngữ không giám
sát


Danh mục bảng
Bảng 1.1: Bảng chữ cái Katakana và cách phát âm tiếng Nhật
Bảng 3.1: Nguyên tắc chuyển ngữ nguyên âm tiếng Việt sang tiếng Nhật
Bảng 3.2: Ví dụ chuyển ngữ phụ âm tiếng Việt sang tiếng Nhật

Bảng 3.3: Ánh xạ một số âm tiếng Việt (Viết hoa) với âm tiếng Nhật (viết thƣờng) sử
dụng thật toán EM
Bảng 4.1: Một số kết quả dịch từ tiếng Việt sang tiếng Nhật khi chƣa tích hợp mô hình
chuyển ngữ
Bảng 4.2: Một số kết quả dịch từ tiếng Việt sang tiếng Nhật tích mô hình chuyển ngữ
không giám sát
Bảng 4.3: Một số kết quả chuyển ngữ đúng tiếng Việt sang tiếng Nhật tích hợp mô
hình chuyển ngữ không giám sát
Bảng 4.4: Một số kết quả chuyển ngữ sai từ tiếng Việt sang tiếng Nhật tích hợp mô
hình chuyển ngữ không giám sát


1
CHƢƠNG I. GIỚI THIỆU
Hiện nay có hàng nghìn ngôn ngữ trên toàn thế giới, mỗi ngôn ngữ đều có
những đặc trƣng riêng về bảng chữ cái và cách phát âm. Ngày càng có nhiều những hệ
thống tự động dịch miễn phí trên mạng nhƣ: systran, google translate, vietgle …
Những hệ thống này cho phép dịch tự động các văn bản với một cặp ngôn ngữ chọn
trƣớc (ví dụ dịch từ tiếng Anh sang tiếng Việt). Điều ấy cho thấy sự phát triển của dịch
máy càng ngày càng đi vào đời sống con ngƣời, đƣợc ứng dụng rộng rãi. Vấn đề đặt ra
đối với cả dịch giả và máy dịch trong việc dịch giữa các cặp ngôn ngữ có hệ thống
bảng chữ cái và cách phát âm khác nhau là dịch chính xác tên riêng và các thuật ngữ
kỹ thuật (các từ không xác định). Những đối tƣợng này đƣợc phiên âm, thay thế bởi
những âm xấp xỉ tƣơng đƣơng. Việc dịch phiên âm giữa các cặp ngôn ngữ đó đƣợc gọi
là Chuyển ngữ.
Việc dịch các từ không xác định là một vấn đề khó do các ngôn ngữ thƣờng
khác nhau về bảng chữ cái và cách phát âm. Các từ này thƣờng đƣợc chuyển ngữ, tức
là, thay thế bằng khoảng ngữ âm gần đúng. Ví dụ: "Nguyễn Thu Trang" trong tiếng
Việt xuất hiện dƣới dạng " グエン テゥー チャン" (Guen tuu chan) trong tiếng Nhật.
1.1. Đặc điểm ngôn ngữ tiếng Việt và tiếng Nhật

[16]

1.1.1. Đặc điểm ngôn ngữ tiếng Việt
Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một âm tiết đƣợc phát âm tách
rời nhau và đƣợc thể hiện bằng một chữ viết. Đặc điểm này thể hiện r rệt ở tất cả các
mặt ngữ âm, từ vựng, ngữ pháp.
Đặc điểm ngữ m
Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng". Về mặt ngữ âm, mỗi
tiếng là một âm tiết và cách viết tƣơng đồng với phát âm. Hệ thống âm vị tiếng Việt
phong phú và có tính cân đối.
Đặc điểm từ vựng
Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống
các đơn vị có nghĩa của tiếng Việt. Từ tiếng, ngƣời ta tạo ra các đơn vị từ vựng khác
để định danh sự vật, hiện tƣợng..., chủ yếu nhờ phƣơng thức ghép và phƣơng thức láy.
Việc tạo ra các đơn vị từ vựng ở phƣơng thức ghép luôn chịu sự chi phối của
quy luật kết hợp ngữ nghĩa, ví dụ: đất nƣớc, máy bay, nhà lầu xe hơi, nhà tan cửa nát...
Hiện nay, đây là phƣơng thức chủ yếu để sản sinh ra các đơn vị từ vựng. Theo phƣơng
thức này, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mƣợn từ
các ngôn ngữ khác để tạo ra các từ, ngữ mới, ví dụ: tiếp thị, karaoke , xa lộ thông tin,
siêu liên kết văn bản, truy cập ngẫu nhiên, …
Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết,
một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã
tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lƣợng, vừa đa


2
dạng trong hoạt động. C ng một sự vật, hiện tƣợng, một hoạt động hay một đặc trƣng,
có thể có nhiều từ ngữ khác nhau biểu thị.
1.1.2. Đặc điểm ngôn ngữ tiếng Nhật
Hệ thống chữ viết

Ngƣời Nhật có một bảng chữ cái đặc biệt về ngữ âm đƣợc gọi là Katakana,
đƣợc sử dụng chủ yếu để viết tên nƣớc ngoài và từ mƣợn. Các ký hiệu katakana đƣợc
thể hiện trong Bảng 1.1, với cách phát âm tiếng Nhật của chúng. Hai ký hiệu đƣợc
hiển thị ở góc dƣới bên phải đƣợc sử dụng để kéo dài nguyên âm hoặc phụ âm tiếng
Nhật.

Bảng 1.1: Bảng chữ cái Katakana và cách phát âm tiếng Nhật [3]
Ngữ m[17]
Âm tiết trong tiếng Nhật giữ một vị trí rất quan trọng, nó vừa là đơn vị ngữ âm
nhỏ nhất và vừa là đơn vị phát âm cơ bản. Mỗi âm tiết đƣợc thể hiện bằng một chữ
Kana (Hiragana và Katakana). Tiếng Nhật có số lƣợng âm tiết không lớn, có tất cả 112
dạng âm tiết. Trong số này, có 21 dạng âm tiết chỉ xuất hiện trong các từ đƣợc vay
mƣợn từ nƣớc ngoài.
Nếu nhƣ trong tiếng Việt, có rất nhiều từ đƣợc cấu tạo bởi một âm tiết, và mỗi
âm tiết đều mang ý nghĩa nhất định, VD: bàn, trà, bạn, đèn..., thì đối với tiếng Nhật,
phần lớn các từ đƣợc cấu tạo từ hai âm tiết trở lên và mỗi một âm tiết thƣờng không
mang ý nghĩa nào cả. VD: từ “hay” - “omoshiroi” có 5 âm tiết /o/mo/shi/ro/i, khó có
thể tìm thấy ý nghĩa của mỗi âm tiết này. Cũng có những từ đƣợc cấu tạo bởi 1 âm tiết
và trong trƣờng hợp này, âm tiết mang ý nghĩa của từ đó, VD: “ki” có nghĩa là cái cây,
“e” có nghĩa là bức tranh, “te” có nghĩa là cái tay... nhƣng những từ nhƣ vậy chiếm số
lƣợng rất nhỏ trong vốn từ vựng tiếng Nhật.[15]


Luận văn đầy đủ ở file: Luận văn full

















×