Tải bản đầy đủ (.pdf) (7 trang)

RÚT TRÍCH KHO NGỮ LIỆU SONG NGỮ HOA VIỆT TRÊN NHIỀU DOMAIN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.39 MB, 7 trang )

Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
VII-O-12

RÚT TRÍCH KHO NGỮ LIỆU SONG NGỮ HOA-VIỆT TRÊN NHIỀU DOMAIN
Trần Thanh Phƣớc1, Trịnh Thanh Duy2, Đinh Điền3, Trần Thị Bích Vân1
1

Khoa Công nghệ Thông tin, Trường Đại học Công Nghiệp Thực Phẩm TPHCM
2
Trung tâm ngữ liệu đa ngữ Kim Từ Điển
3
Khoa Công nghệ Thông tin, Trường Đại học Khoa Học Tự Nhiên, ĐHQG-HCM
TÓM TẮT
Một kho ngữ liệu song ngữ lớn và chất lượng là điều kiện thiết yếu cho rất nhiều bài toán xử lý
ngôn ngữ tự nhiên, đặc biệt là trong dịch máy thống kê.Trong bài báo này, chúng tôi trình bày một
phương pháp rút trích ngữ liệu song ngữ Hoa-Việt trên nhiều domain khác nhau.Mục đích của bài báo
là bước đầu tìm hiểu, khai phá nguồn tài nguyên song ngữ Hoa-Việt mới vốn không có nhiều trên các
web song ngữ hiện nay.Phương pháp của chúng tôi được tiến hành qua hai bước: đầu tiên là nhận
diện các trang web tiếng Việt có khả năng có xuất xứ từ tiếng Hoa, kế đến là xác định trang tiếng Hoa
nguồn của nó. Chúng tôi đã tiến hành thử nghiệm trên một số trang mạng Việt Nam, bước đầu cho
thấy phương pháp của chúng tôi đã nhận diện khá chính xác các trang tiếng Việt có nguồn gốc tiếng
Hoa; tuy nhiên, các trang tiếng Hoa nguồn tương ứng thì chưa thực sự tương đồng với trang tiếng
Việt.
Từ khóa: Ngữ liệu song ngữ, rút trích ngữ liệu, Hoa-Việt, nhiều domain.
GIỚI THIỆU
Kho ngữ liệu song ngữ là nguồn tài nguyên rất quan trọng trong các hệ thống rút trích từ, phân loại văn
bản, dịch máy, … Riêng đối với dịch máy thống kê (statistical machine translation: SMT), kho ngữ liệu song
ngữ của hệ dịch càng lớn và càng chất lượng thì hệ dịch sẽ cho kết quả càng cao. Để có được kho ngữ liệu cho
hệ dịch, các nhà nghiên cứu thường sử dụng một trong hai phương pháp, đó làthu thập thủ công hoặc rút trích tự
động song ngữ từ web. Phương pháp thu thập thủ công đòi hỏi phải có một đội ngũ am hiểu cặp song ngữ cần
thu thập, nhập liệu và chỉnh sửa thủ công cho cặp song ngữ. Phương pháp này cho ra kết quả với chất lượng song


ngữ rất cao nhưng lại tốn nhiều thời gian và chi phí. Với sự phát triển vượt bậc của hệ thống các trang web đa
ngữ hiện nay, phương pháp thu thập ngữ liệu tự động từ web ngày càng khả thi và hiệu quả. Đặc biệt, đối với các
cặp ngôn ngữ phổ biến như tiếng Anh, Pháp, Hoa, … thì số lượng các trang web song ngữ của các ngôn ngữ này
vô cùng lớn. Riêng đối với tiếng Việt thì số lượng trang web đa ngữ hạn chế hơn, đặc biệt các trang web song
ngữ Hoa-Việt, Việt-Hoa thì càng ít hơn nữa.
Hiện tại, đã có một số công trình nghiên cứu và cài đặt thử nghiệm việc rút trích ngữ liệu song ngữ từ
web.Tuy nhiên, phần lớn các công trình đều tập trung vào việc rút trích các trang web song ngữ trong cùng một
domain và các tác giả chỉ tìm kiếm các trang web là bản dịch của nhau trong cùng domain này.Đối với cặp song
ngữ Hoa-Việt, số lượng các trang web cho cặp song ngữ này là hạn chế. Hiện tại, ở Việt Nam đã có một số
website song ngữ Hoa-Việt như: dongnai.gov.vn, chinhphu.vn, vietnamtourism.com, baobinhduong.org.vn,
vietnamplus.vn. Điểm hạn chế của các trang này là các bản dịch Hoa-Việt thường không thật sự song song, các
bản dịch của nhau thường là dịch thoát ‎ý.
Qua khảo sát các trang web đơn ngữ tiếng Việt hiện nay, chúng tôi nhận thấy có rất nhiều trang web có
xuất xứ từ tiếng nước ngoài, trong đó có khá nhiều bài viết xuất xứ từ tiếng Hoa, điển hình như các trang vov.vn,
giaoduc.net.vn, … Phần đầu hoặc cuối của các bài viết này thường xuất hiện từ khóa cho biết xuất xứ của trang
web từ Trung Quốc như: ―Theo Tân Hoa Xã‖, ―Theo Xinhua‖, ―Theo Nhân dân nhật báo‖, … Điều này chứng
minh rằng bài viết này là bản dịch hoặc bản chỉnh sửa của một bài viết tiếng Hoa nào đó ở các trang từ khóa.Đây
là điểm vô cùng quan trọng cho hướng tiếp cận của chúng tôi trong nghiên cứu rút trích song ngữ từ web song
ngữ Hoa-Việt, một cặp song ngữ hạn chế tài nguyên.
Trong bài báo này, chúng tôi sẽ rút trích ngữ liệu song ngữ Hoa-Việt từ nhiều domain khác nhau.Đầu tiên,
chúng tôi sẽ rút trích các văn bản tiếngViệt; kế tiếp, dựa vào một số đặc trưng trong bản dịch tiếng Việt chúng tôi
sẽ tìm bản dịch tiếng Hoa tương ứng của nó ở một domain khác. Bài bài báo này bao gồm một số nội dung sau:
phần 2 sẽ trình bàymột số các công trình liên quan đến việc rút trích tự động song ngữ. Một số lý thuyết nền tảng
sẽ được trình bày ở phần 3.Trong khi đó, ở phần 4 chúng tôi sẽ trình bày mô hình rút trích ngữ liệu song ngữ
Hoa-Việt của hệ thống chúng tôi.Phần 5 sẽ trình bày các thử nghiệm và một số thảo luận.Phần kết luận và hướng
phát triển sẽ được trình bày ở phần 6.
CÔNG TRÌNH LIÊN QUAN
Đã có một số công trình nghiên cứu, thực nghiệm để tạo ra kho ngữ liệu song ngữ, đa ngữ cho các cặp
ngôn ngữ như: Anh-Pháp, Anh-Hoa, Anh-Nhật, Anh-Ả rập, Pháp-Việt, Anh-Việt, … Trong đó, tất cả các hệ
ISBN: 978-604-82-1375-6


74


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
thống đều có ba bước chính: (1) lấy dữ liệu từ Web (web crawling); (2) gióng hàng văn bản (text alignment); (3)
gióng hàng câu (sentence alignment). Các công trình này khai thác dữ liệu từ Web để tạo kho ngữ liệu song ngữ,
đa ngữ, và đều giống nhau ở bước 1 (Web Crawling) nhưng bước 2 -gióng hàng văn bản lại rất khác nhau. Qua
khảo sát dựa vào cách gióng hàng văn bản, ta có thể tạm chia các hệ thống này thành hai nhóm chính như sau:
Nhóm thứ nhất dựa trên sự tương đồng về địa chỉ trang Web (url), tên tập tin (filename), cấu trúc html: hệ
thống STRAND [1] tìm kiếm tự động ngữ liệu song song Anh-Pháp từ Web; hệ thống PTMiner [2] tìm kiếm và
gióng hàng các văn bản Anh-Hoa song song từ Web; hệ thống BITS [3] tìm kiếm tự động các văn bản song song
Đức-Anh trên Web.
Nhóm thứ hai dựa trên độ tương đồng nội dung và các đặc trưng trong văn bản chứ không dựa trên tên tập
tin, cấu trúc html như nhóm thứ nhất. Các công trình nổi bật như: hệ thống xây dựng kho ngữ liệu đa ngữ AnhHoa, Anh-Ả rập của hai tác giả Munteanu và Marcu 2005 [4], xây dựng kho ngữ liệu song song đa ngữ cho dịch
máy thống kê của tác giả Philipp Koehn 2005 [5]; hay hệ thống khai thác ngữ liệu không thật sự song song từ tập
hợp các bản tin (news) Anh-Hoa của nhóm tác giả Degen.
Huang cùng cộng sự [6] hay công trình của hai tác giả Utiyama and Isahara 2003 [7] khai thác các cặp câu
song song Anh-Nhật từ các bài báo tin tức. Bên cạnh đó là các công trình xây dựng kho ngữ liệu song song cho
cặp ngôn ngữ Anh-Việt: hệ thống tạo kho ngữ liệu song ngữ Anh-Việt của hai tác giả Đặng Bác Văn, Hồ Bảo
Quốc [8]; hệ thống xây dựng kho ngữ liệu song ngữ Anh-Việt từ các website song ngữ của tác giả Phạm Đào
Minh Vũ [9], hệ thống tìm kiếm tự động văn bản Anh-Việt từ Internet của tác giả Ngô Quốc Hưng [10]. Đối với
cặp ngôn ngữ Pháp-Việt, có công trình khai thác kho ngữ liệu không thật sự song song cho hệ thống dịch máy
thống kê Pháp-Việt của nhóm tác giả Thi-Ngoc-Diep Do cùng cộng sự [11].
Đến thời điểm hiện tại vẫn chưa có công bố nào chính thức cho nghiên cứu rút trích song ngữ Hoa-Việt từ
các web song ngữ trên cùng hoặc khác domain.
CƠ SỞ LÝ THUYẾT
Độ tƣơng đồng văn bản
Độ tương đồng về tập tin, cấu trúc HTML
Cặp văn bản được xem là tương đồng về tập tin, cấu trúc khi chúng thuộc một trong các trường hợp sau:

Có cùng địa chỉ URL (ví dụ google.com và google.de)
Có cùng kích thước (size)
Có cùng cấu trúc HTML
Tập ký tự của mỗi trang.
Độ tương đồng về nội dung văn bản
Cho văn bản A trong ngôn ngữ L1 và văn bản B trong ngôn ngữ L2, tách các văn bản A và văn bản B
thành các token. Độ tương đồng giữa văn bản A và văn bản B theo công thức sau:
𝑠𝑖𝑚 𝐴, 𝐵 =

𝑠ố 𝑐ặ𝑝 𝑡𝑜𝑘𝑒𝑛 đượ𝑐 𝑑ị𝑐𝑕 𝑙ẫ𝑛 𝑛𝑕𝑎𝑢
𝑡ổ𝑛𝑔 𝑠ố 𝑡𝑜𝑘𝑒𝑛 𝑡𝑟𝑜𝑛𝑔 𝑡𝑟𝑜𝑛𝑔 𝑣ă𝑛 𝑏ả𝑛 𝐴

Nếu Sim (A, B) lớn hơn ngưỡng cho trước thì xem như A, B là cặp dịch của nhau.
Để tìm các cặp token dịch thật sự giữa các ứng viên, các nhà nghiên cứu thường sử dụng độ đo khoảng
cách, nếu vị trí của token trong văn bản A quá xa so với vị trí của token trong văn bản B thì đó không phải là cặp
token dịch lẫn nhau.
Và để nâng cao hiệu quả của giải thuật tìm kiếm, các nhà nghiên cứu thường sử dụng thêm các bô lọc như
kích thước tập tin, thực thể có tên của hai văn bản, số đoạn trong văn bản để lọc ra các cặp không chính xác.
Đặc điểm ngôn ngữ Hoa-Việt
Về mặt loại hình ngôn ngữ (language typology), tiếng Hoa và tiếng Việt cùng thuộc loại hình đơn lập, nên
có những điểm tương đồng như:
Trong hoạt động ngôn ngữ, từ không biến hình
Phương thức ngữ pháp chủ yếu là trật tự từ và từ hư
Ranh giới từ không được xác định bằng khoảng trắng
Có từ chỉ loại trước danh từ
Dùng hư từ để thể hiện thể phủ định, nghi vấn
Dùng phụ tố để thể hiện chủ thể ở số nhiều
Tuy nhiên, trong một số cấu trúc, giữa tiếng Hoa và tiếng Việt có một số khác biệt như:

ISBN: 978-604-82-1375-6


75


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Tiếng Hoa không phân biệt chữ hoa chữ thường như tiếng Việt. Ví dụ: Tiếng Việt là ―Hà Nội‖ hay ―hà
nội‖ thì tiếng Hoa chỉ có một từ tương ứng duy nhất là ―河内‖.
Trong tiếng Hoa, tính từ (hình dung từ) đứng trước danh từ.
Trật tự các giới từ: cú pháp tiếng Hoa có dạng: <giới từ> + <cụm danh từ> + <cụm động từ>. Khi dịch
sang tiếng Việt, trật tự thay đổi như sau: <cụm động từ> + <giới từ> + <cụm danh từ>.
Trạng ngữ chỉ thời gian.
Các cấu trúc dị biệt.
Sự lặp lại của từ
KHAI THÁC NGỮ LIỆU SONG NGỮ HOA-VIỆT TRÊN NHIỀU DOMAIN
Chúng tôi sử dụng độ tương đồng về nội dung văn bản để rút trích các cặp tài liệu song ngữ Hoa-Việt
tương đồng. Chúng tôi không sử dụng độ tương đồng về tập tin hay cấu trúc HTML. Ngữ liệu song ngữ HoaViệt hiện nay chưa thật sự song song, bản dịch tiếng Việt hoặc Hoa thường là bản dịch thoát ý, trong đó một số
đoạn văn không quan trọng đã được lược bỏ. Do đó, nếu dựa vào độ tương đồng của tập tin hoặc cấu trúc HTML
chúng ta có thể sẽ bị mất các cặp tài liệu tương đồng hữu ích.
Mô hình khai thác của chúng tôi như sau (hình 1):
Từ một domain chứa tiếng Việt không chứa tiếng Hoa, hệ thống thực hiện download các tài liệu tiếng Việt.
Tiếp đến, dựa vào ―các tiêu chí nhận dạng web có nguồn gốc tiếng Hoa‖, hệ thống sẽ lọc ra các trang web tiếng
Việt được cho là có nguồn gốc từ web tiếng Hoa. Trong bài báo này, tiêu chí được sử dụng đó là ở đầu hoặc cuối
trang web có trích dẫn nguồn gốc trang web tiếng Hoa như ―Theo Tân Hoa Xã‖, ―Theo xinhua‖, …
Tập hợp các trang web tiếng Việt sẽ được loại bỏ các thẻ HTML cũng như các nội dung rác. Tiêu đề của tài
liệu cũng được đánh dấu trong bước này.
Dựa vào ―trích dẫn nguồn gốc‖ của tài liệu tiếng Việt hệ thống sẽ tìm domain chứa trang web tiếng Hoa.
Dựa vào tiêu đề của tài liệu tiếng Việt, hệ thống sẽ dịch tiêu đề tiếng Việt thành tiếng Hoa. Chúng tôi sử dụng
Google Search để tìm kiếm tiêu đề tiếng Hoa trên domain vừa tìm được.
Để hạn chế số lượng kết quả các trang web trả về từ Google Seacrh, chúng tôi chỉ lấy 3 kết quả đầu tiên.
Các kết quả này cũng được rút trích nội dung, loại bỏ các thẻ HTML và các nội dung rác.


Hình 1. Mô hình khai thác song ngữ Hoa-Việt không cùng domain
THỬ NGHIỆM
Chúng tôi chọn trang web của đài tiếng nói Việt Nam với chuyên mục có nhiều tin được coi là có nguồn
gốc từ tiếng Hoa ( đầu thử nghiệm, chúng tôi
chỉ chọn tiêu chí sự giống nhau của ―tiêu đề của hai tài liệu‖ để làm cơ sở cho việc tìm cặp trang web Hoa-Việt
tương đồng.Cụ thể như sau:
Download các trang web tiếng Việt có nguồn gốc tiếng Hoa từ trang />Loại bỏ các thẻ HTML, trích lọc tiêu đề và nội dung trang web tiếng Việt.
Sử dụng Google Translator để dịch tiêu đề tiếng Việt thành tiếng Hoa.
Sử dụng Google Search để tìm kiếm trang web tiếng Hoa dựa vào tiêu đề tiếng Hoa vừa dịch.

ISBN: 978-604-82-1375-6

76


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Chúng tôi lấy 3 trang web tiếng Hoa kết quả đầu tiên từ Google Search, rút trích nội dung văn bản. Chúng
tôi xem 3 kết quả này là bản dịch tiếng Hoa tương ứng với văn bản tiếng Việt (độ ưu tiên giảm dần).
Qua thử ngiệm, chúng tôi thu được các kết quả tiếng Hoa không như mong muốn. Hai kết quả phổ biến
nhất, đó là: nội dung hai văn bản Hoa-Việt bị sai do Google Translator đã dịch sai tiêu đề tiếng Việt sang tiếng
Hoa; trường hợp thứ hai khả quan hơn, tiêu đề tiếng Việt đã được dịch đúng nhưng nội dung văn bản tiếng Hoa
không tương đồng với văn bản tiếng Việt.
Ví dụ sau sẽ minh họa kết quả phổ biến trong quá trình thử nghiệm.

Hình 2. Trang web tiếng Việt có nguồn gốc tiếng Hoa

Hình 3. Download trang HTML của web tiếng Việt

ISBN: 978-604-82-1375-6


77


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM

Hình 4. Rút trích tiêu đề và nội dung trang web tiếng Việt.

Hình 5. Dịch tiêu đề tiếng Việt sang tiếng Hoa bằng Google Translator

Hình 6. Kết quả 3 trang web tiếng Hoa đầu tiên của Google Search

Hình 7. Trang web tiếng Hoa của địa chỉ />
ISBN: 978-604-82-1375-6

78


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM

Hình 8. Trang web tiếng Hoa của địa chỉ />
Hình 9. Trang web tiếng Hoa của địa chỉ
/>Trong 3 trang web tiếng Hoa trên, trang web đầu tiên (hình 7) cùng diễn tả nội dung có liên quan đến vấn
đề kỷ luật quan chức tham nhũng (副市长刘仲虎因严重违纪被开除党籍, tạm dịch: ―Phó thị trưởng Lưu Trọng
Hổ bị khai trừ khỏi Đảng vì vi phạm kỷ luật nghiêm trọng‖). Tuy nhiên, kết quả này không đúng so với bản tiếng
Việt ban đầu.
Trong khi đó, trang web tiếng Hoa thứ 2 (hình 8) không liên quan gì đến trang tiếng Việt.Trang thứ 3 (hình
9) thì hiện tại không còn tồn tại.
KẾT LUẬN
Trong bài báo này, chúng tôi đã thực hiện việc rút trích song ngữ Hoa-Việt trên nhiều domain khác

nhau.Kết quả bước đầu cho thấy phương pháp của chúng tôi đã nhận dạng và rút trích được tương đối chính xác
các trang web tiếng Việt có nguồn gốc tiếng Hoa.Hiện tại, chúng tôi chỉ mới áp dụng tiêu chí ―tiêu đề tài liệu‖ để
truy tìm các trang web tiếng Hoa nguồn nên kết quả tìm được vẫn còn hạn chế. Hơn nữa, việc dịch tiêu đề từ
tiếng Việt sang tiếng Hoa, rồi đến kết quả tìm kiếm 3 trang đầu tiên của hệ thống cũng phụ thuộc vào chất lượng
dịch và tìm kiếm của Google. Tất nhiên sẽ có một số trường hợp Google sẽ dịch và tìm kiếm bị sai, đặc biệt là
trường hợp dịch; điều này đã ảnh hưởng đáng kể đến hệ thống của chúng tôi.
Trong tương lai, chúng tôi sẽ bổ sung thêm các đặc trưng khác như tên riêng, biểu thức số, độ tương đồng
về kích thước 2 văn bản, ... để nâng cao chất lượng nhận dạng và rút trích các trang tiếng Hoa nguồn.

ISBN: 978-604-82-1375-6

79


Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
EXTRACTING CHINESE-VIETNAMESE BILINGUAL CORPUS IN MULTI-DOMAINS
ABSTRACT
A large quality bilingual corpus is essential for many problems of natural language processing,
especially in statistical machine translation. In this paper, we present a method for extracting ChineseVietnamese bilingual corpus in multi-domains. The purpose of the paper is to learn and explore the
new Chinese-Vietnamesebilingual resources which do not have much in the bilingual websites today.
Our method is carried out in two steps: the first is to identify Vietnamesewebsites whichare capable of
having Chinese origin;next is to identify their Chinese source websites. We conducted our experiments
on a number of Vietnamese websites, the initial result showed that our system identified quite
accuaratelyVietnamese websites having Chinese origin; however, the corresponding Chinese source
websites are not similar to the Vietnamese ones.
Keywords: bilingual corpus, corpus extracting, Chinese-Vietnamese, multi-domains.
TÀI LIỆU THAM KHẢO
[1] P. Resnik and N. A. Smith. The Web as a Parallel Corpus, Computational Linguistics, 2003,
29(3):349–380.
[2] Jisong CHEN, Rowena CHAU, Chung-Hsing YEH, 2003. Discovering Parallel Text from the

World Wide Web. The Australasian Workshop on Data Mining and Web Intelligence (DMWI-2004),
Dunedin, New Zealand.
[3] Ma Xiaoyi, Mark Liberman. BITS: A method for bilingual text search over the web, Machine
Translation Summit VII, September, 1999.
[4] Dragos S. Munteanu and Daniel Marcu. 2005. Improving Machine Translation Performance by
Exploiting Non-Parallel Corpora. CL, 31(4):477–504.
[5] Philipp Koehn, 2005. Europarl: A Parallel Corpus for Statistical Machine Translation, MT Summit,
2005.
[6] Degen Huang, Lian Zhao, Lishuang Li, Haitao Yu, 2010. Mining Large-scale Comparable Corpora
from Chinese-English News Collections. Coling 2010: Poster Volume, pages 472–480, Beijing, August
2010.
[7] Utiyama, Masao and Hitoshi Isahara. 2003. Reliable measures for aligning Japanese-English news
articles and sentences. In Proceedings of the 41st Annual Meeting of the Association for Computational
Linguistics, pages 72–79, Sapporo, Japan.
[8] Dang Bac Van, Ho Bao Quoc, 2007. Automatic Construction of EnglishVietnamese Parallel Corpus
through Web Mining, RIVF07.
[9] Phạm Đào Minh Vũ, 2007. Xây dựng kho ngữ liệu song ngữ từ dữ liệu khai thác được từ Internet, Luận
văn Thạc sĩ Công nghệ thông tin, ĐH KHTN.
[10] Ngô Quốc Hưng, 2009. Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet. Luận văn thạc sĩ
Công nghệ thông tin ĐH KHTN.
[11] Thi-Ngoc-Diep Do,Viet-Bac Le, Brigitte Bigi, Laurent Besacier, Eric Castelli, 2009. Mining a
comparable text corpus for a Vietnamese - French statistical machine translation system. Proceedings of
the Fourth Workshop on Statistical Machine Translation , pages 165–172, Athens, Greece, 30 March –
31 March 2009.

ISBN: 978-604-82-1375-6

80




×