BÁO CÁO THỰC HIỆN ĐỀ TÀI 1 TÊN ĐỀ TÀI NHÁNH: SP7 4 2 THỜI GIAN THỰC HIỆ N: 52007-102007 3 NGƯỜI PHỤ TRÁCH: HỒ BẢO QUỐ C ĐIỂM CAO

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (386.34 KB, 31 trang )

BÁO CÁO THỰC HIỆN ĐỀ TÀI

1. Tên đề tài nhánh: SP7.4
2. Thời gian thực hiện: 5/2007-10/2007
3. Người phụ trách: Hồ Bảo Quốc
4. Kế hoạch của đề tài

Kế hoạch thực hiện theo như phụ lục 3-2007 của hợp đồng nhánh như sau

PHỤ LỤC 3 Đơn vị:
NỘI DUNG VÀ SẢN PHẨM CẦN ĐẠT CỦA NĂM 2007
Tiến độ
triệu đồng hoàn thành

TT Sản phẩm phải đạt Yêu cầu chất lượng đối với sản 4
phẩm
T12/2007
1 2 3 T12/2007
T12/2007
SP7.4: Hai kho ngữ liệu cõu Anh- Việt cú & khụng cú chỳ 1 báo cáo T12/2007
giải

- Nghiên cứu nội dung các kho ngữ liệu song ngữ.

- Nghiên cứu tham khảo cấu trúc các kho ngữ liệu song ngữ. 1 báo cáo

- Thiết kế nội dung kho ngữ liệu câu Anh- Việt. 1 báo cáo

- Thiết kế cấu trúc cho kho ngữ liệu câu Anh- Việt. 1 báo cáo

- Thiết kế xây dựng khuôn dạng dữ liệu cho hai kho ngữ liệu 1 báo cáo T12/2007

câu Anh- Việt. 1 báo cáo T12/2007
T12/2007
- Nghiên cứu tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt.
T12/2007
- Công cụ hỗ trợ lọc các cặp câu dịch tốt từ các văn bản song Thiết kế và phân tích Modul chương
ngữ. SP phần mềm. Đầu vào: Văn bản song ngữ. Đầu ra: trình
Tập câu song ngữ chất lượng tốt. Giao diện hỗ trợ duyệt và
lựa chọn các cặp câu song ngữ chất lượng dịch tốt. Kho ngữ liệu 20.000 cặp câu, trong đó
1 phần chuyên về CNTT
- Thu thập ngữ liệu song ngữ Anh-Việt từ các nguồn khác
nhau theo tiêu chí đó định. SP: Kho ngữ liệu 20.000 cặp
câu trong lĩnh vực CNTT.

5. Nội dung đã thực hiện
1. Nghiên cứu hiên trạng về nội dung, cấu trúc và phương pháp xây dựng kho ngữ liệu song ngữ Anh –Việt
(Xin xem báo cáo kỹ thuật đính kèm)
2. Thử nghiệm việc khai thác các site song ngữ
5.2.1 Xây dựng công cụ mining tự động các kho ngữ liệu song ngữ từ Internet
5.2.2 Gióng hàng các tài liệu song ngữ đến mức câu
3. Các công cụ và tài nguyên đã xây dựng được
5.3.1 Công cụ
- Công cụ phân đoạn từ ( Vietnamese Word Segmentation)

- Công cụ khai thác dữ liệu song ngữ từ Internet
- Cơng cụ gióng hàng tài liệu song ngữ đến mức câu
5.3.2 Tài nguyên
- Kho ngữ liệu song ngữ Anh – Việt thô (chưa được Manual Revise) gồm khoảng: 50.000 cặp câu
6. Người thực hiện đề tài
1. Hồ Bảo Quốc
2. Đặng Bác Văn

3. Phạm Đào Minh Vũ
4. Lương Vỹ Minh
5. Nguyễn Trường Sơn
7. Đánh giá kết quả
Các kết quả đạt được chỉ ở mức khởi đầu và mang tính thử nghiệm các khả năng. Trong thời gian tới cần phải được nghiên cứu sâu
thêm về lý thuyết, ra các quyết định chọn lựa các tiêu chí cho kho ngữ liệu sẽ xây dựng, chọn và tập hợp các tài nguyên, thử
nghiệm và hoàn thiện các chương trình để tạo cơng cụ cho việc đánh giá và thao tác (thêm, xóa sửa) kho ngữ liệu thủ công (do các
người giỏi hai ngôn ngữ đảm trách)

Kho ngữ liệu song song
(Parallel Corpus)

Mục lục

0. Dẫn nhập ...................................................................................................................................... 6
I. Các định nghĩa cơ sở .............................................................................................................. 6
II. Một số kho ngữ liệu song ngữ : ............................................................................................... 8
III. Các tiêu chí xây dựng kho ngữ liệu song ngữ ................................................................. 9
IV. Định dạng kho ngữ liệu song ngữ.....................................................................................10
V. Các phương pháp xây dựng kho ngữ liệu song ngữ .......................................................11
VI. Đánh giá kho ngữ liệu song ngữ song song...................................................................12
VII. Tài liệu tham khảo ...............................................................................................................13
Phụ Lục A : CES DTD ......................................................................................................................14

0. Dẫn nhập

Trong tính tốn ngơn ngữ học (linguistic computing) một tài nguyên rất cần thiết đó là các kho ngữ liệu song ngữ
song song (parallel corpus). Các kho ngữ liệu song ngữ song song này có thể được sữ dụng cho nhiều mục tiêu
khác nhau như : nghiên cứu ngơn ngữ học so sánh, tìm kiếm thơng tin xuyên ngữ, dịch máy .v.v. Kết quả của các
bài toán trên phụ thuộc rất nhiều vào độ lớn và chất lượng của kho ngữ liệu song song được sử dụng. Trên thế

giới đã có rất nhiều kho ngữ liệu song ngữ song song được xây dựng để phục vụ cho các mục tiêu như trên (xin
xem chi tiết ở phần II). Hiện nay chưa có một kho ngữ liệu song song Anh - Việt được công bố chính thức và cho
phép cộng đồng nghiên cứu liên quan đến có thể chia sẽ sử dụng cho các mục tiêu nghiên cứu. Do đó mục tiêu
của đề tài nhánh này nhằm nghiên cứu các cách tiếp cận xây dựng kho ngữ liệu song ngữ song song, cấu trúc và
định dạng lưu trữ của các kho ngữ liệu song ngữ song song và các tiêu chí và phương pháp đánh giá một kho ngữ
liệu song ngữ song song Anh – Việt. Trong khuôn khổ cho phép của kinh phí đề tài, mục tiêu của đề tài nhánh là
xây dựng được một kho ngữ liệu song ngữ Anh – Việt song song gióng hàng đến mức câu (Sentence Aligment)
gồm 100.000 cặp câu song song Anh – Việt trong đó 80.000 cặp câu cho các lĩnh vực kinh tế - xã hội và 20.000
cặp câu cho lĩnh vực tin học.
Trong các phần dưới đây chúng tôi xin được lần lượt trình bày : các định nghĩa cơ sở ở phần I, khảo sát một số
kho ngữ liệu song ngữ song song trên thế giới ở phần II, phần III sẽ nêu các tiêu chí trong việc xây dựng một kho
ngữ liệu song ngữ song song, Phần IV là các định dạng được sử dụng để tổ chức lưu trữ các kho ngữ liệu song
ngữ song song và cuối cùng trong phần V là phương pháp đánh giá chất lượng của một kho ngữ liệu song song.

I. Các định nghĩa cơ sở

Định nghĩa 1 : Kho ngữ liệu (corpus)

Theo EAGLES (Expert Advisory Group on Language Engineering Standards) kho ngữ liệu là một tập hợp các
mảnh ngôn ngữ (pieces of language) được chọn lựa và sắp xếp theo một số tiêu chí ngơn ngữ học rõ
ràng để được sử dụng như một mẫu của ngôn ngữ

Kho ngữ liệu số hóa (computer corpus) : là kho ngữ liệu được mã hóa theo một chuẩn nhất định và đồng nhất
để có thể khai thác cho các ứng dụng khác nhau

Định nghĩa 2 : Một tập các văn bản (tài liệu) được viết bằng nhiều ngơn ngữ thì gọi là kho ngữ liệu đa ngữ
(multilingual corpora).

Định nghĩa 3 : Một tập các văn bản (tài liệu) trong các ngơn ngữ khác nhau mà có cùng chủ đề chính thì được
gọi là kho ngữ liệu (có thể) so sánh (comparable corpus).

Định nghĩa 4 : Kho ngữ liệu song song (Parallel Corpus) là một tập các văn bản (tài liệu) trong nhiều ngơn
ngữ khác nhau, trong đó có một ngơn ngữ nguồn và một (hoặc nhiều) ngơn ngữ đích (được dịch từ ngơn ngữ
nguồn).

Định nghĩa 5 : Sự gióng hàng (Alignment) của các tài liệu song ngữ trong kho ngữ liệu song ngữ có thể ở
các múc như sau

- Mức tài liệu (Document Alignment) : Các tài liệu trong kho ngữ liệu được gióng hàng đơi một, tài
liệu này là bản dịch của tài liệu kia

- Mức đoạn (Paragraph Alignment) : Các đoạn trong 2 tài liệu của 2 ngơn ngữ sẽ được gióng hàng,
đoạn này sẽ là bản dịch của đoạn kia

- Mức câu (Sentence Alignment) : Các tài liệu song ngữ được gióng hàng ở mức câu : câu này là
bản dịch của câu kia

- Mức ngữ (Phrase Alignment) : Các ngữ trong cặp câu sẽ được gióng hàng từng đơi một : ngữ này
lả bản dịch của ngữ kia

- Mức Từ (Word Alignment) : các từ trong câu sẽ được gióng hàng từng cặp : từ này là từ dịch của
từ kia

Mục tiêu của đề tài là xây dựng một kho ngữ liệu song ngữ song song gióng hàng ở mức câu

II. Một số kho ngữ liệu song ngữ :

Trên thế giới hiện có rất nhiều kho ngữ liệu song ngữ song song được chia sẽ miễn phí cho cộng đồng nghiện cứu.
Dưới đây chúng ttoi xin phép được liệt kê sơ lược một vài kho ngữ liệu song ngữ song song tiêu biểu (theo đánh giá
chủ quan của chúng tôi)

1. Kho ngữ liệu song ngữ song song được xây dựng từ sự hỗ trợ của dự án EuroMatrix (tham khảo tại địa chỉ
Kho ngữ liệu này gồm các cặp ngôn ngữ khác nhau được lấy nguồn từ các kỷ yếu
(proceeding) của Quốc hội Châu Âu (European Parliament) từ năm 1996 – 2006 [10]. Kho ngữ liệu song ngữ song
song này gồm 9 cặp ngôn ngữ như được liệt kê dưới đây (số liệu theo [10]). Kho ngữ liệu song ngữ song song này
được chia sẽ miễn phí cho mục tiêu nghiên cứu tahi đại chỉ />
Parallel Corpus (L1-L2) Sentences L1 Words L2 Words

Danish-English 1,304,947 34,169,707 36,225,880

German-English 1,313,096 34,700,362 36,663,083

Greek-English 662,090 18,834,758 18,827,241

Spanish-English 1,304,116 37,870,751 36,429,274

Finnish-English 1,257,720 24,895,790 34,802,617

French-English 1,334,080 41,573,117 37,436,222

Italian-English 1,251,315 36,411,166 36,510,033

Dutch-English 1,326,412 36,784,168 36,690,392

Portuguese-English 1,287,757 37,342,426 36,355,907

Swedish-English 1,164,536 28,882,142 32,053,628

2. Kho ngữ liệu song ngữ song song Anh-Pháp, Canadian Hansard Corpus, của hiệp hội dữ liệu ngôn ngữ
học (Linguistic Data Consortium- LDC) kho ngữ liệu này gồm 2.8 triệu cặp câu (theo

Dữ liệu văn bản thuần chủ
yếu được lấy từ trang web của Quốc hội Canada .

3. JENAAD Japanese – English Parallel Corpus do Masao Utiyama và Hitoshi Isahara xây dựng, bao gồm
45.000 cặp câu, trong đó có 15.000 câu được canh theo tỉ lệ 1:1 và 30.000 câu theo tỉ lệ 1:n. (2003).

4. Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 của đại học Bắc kinh gồm hơn 200.000 cặp câu thuộc
nhiều lĩnh vực kinh tế xă hội khác nhau (tham khảo )

III.Các tiêu chí xây dựng kho ngữ liệu song ngữ

Kho ngữ liệu song ngữ song song có thể được xây dựng theo các tiêu chí sau :
1. Lĩnh vực của kho ngữ liệu : tin tức, pháp luật, máy tính …
2. Biểu diễn được mơ hình thực của ngơn ngữ (các câu trong văn bản thực tế sử dụng của ngôn ngữ)
3. Thời gian của tài liệu (tài liệu cũ, mới, trong khoảng thời gian nào)
4. Mức độ gióng hàng (theo các mức được định nghĩa trong phần I)
5. Các mức độ chú giải ngôn ngữ học (linguistic annotation) : không chú giải, chú giải phân đoạn đoạn, ngữ,

câu, từ, chú giải từ loại của từ
6. Máy tính đọc được (Bộ mã Encodage)

Các tiêu chí xây dựng kho ngữ liệu nói chung và kho ngữ liệu song ngữ song song nói riêng có thể tham khảo
tại />
IV. Định dạng kho ngữ liệu song ngữ

Có rất nhiều định dạng được dùng để mã hóa kho ngữ liệu song ngữ song song sử dụng SGML, TEI hoặc
XML. Dưới đây chúng tôi liệt kê 2 định dạng thường được sử dụng

1. CES (Corpus Encoding Standard) : là một chuẩn dựa trên SGML, nhằm đưa ra các hướng dẫn (guidelines)
cho việc mă hóa các kho ngữ liệu. Một tài liệu dưới dạng CES gồm 3 phần :

a. Phần dữ liệu nguyên thủy (primary data) :
i. Thông tin về văn bản : id, title, authors … : được gọi là phần đầu Header
ii. Thông tin về cấu trúc và nội dung: các phần (section), đoạn (paragraph), câu (sentence)… :
được gọi phần Text

Phần này được mô tả chi tiết trong cesDOC DTD được đính kèm trong phần I của phụ lục A

b. Phần chú giải ngôn ngữ học (linguistic annotation) trong phần II của phụ lục A
i. Ranh giới đoạn, câu, từ
ii. Từ loại của từ (POS)
iii. Gốc từ (lemma)

Phần này được mơ tả chi tiết trong cesAna DTD được đính kèm

c. Thơng tin về gióng hàng (alignment)
Phần này được mơ tả chi tiết trong cesAlign được đính kèm trong phần III của phụ lục A

Thơng tin chi tiết có thể tham khảo thêm tại /> CES hiện nay cũng đã có phiên bản XML, tham khảo tại /> 2. Định dạng theo kho ngữ liệu song ngữ Anh – Nauy
Kho ngữ liệu song ngữ song song này được lưu trữ theo chuẩn TEI (Text Encoding Initiative). Cấu trúc
cũng tương tự như chuẩn CES (được mô tả ở phần I).
Thông tin chi tiết có thể tham khảo tại
/>
V. Các phương pháp xây dựng kho ngữ liệu song ngữ

Do mục tiêu của đề tài nhánh là xây dựng kho ngữ liệu song ngữ song song Anh – Việt gióng hàng ở mức câu và
khơng có chú giải, nên chúng tơi chỉ tập trung vào các phương pháp để xây dựng kho ngữ liệu song ngữ thỏa tiêu
chí trên.

Xây dựng kho dữ liệu song ngữ song song gồm có 2 bước chính
1. Xây dựng nguồn tài liệu song song

2. Gióng hàng các tài liệu song song

1. Xây dựng nguồn tài liệu
a. Chọn nguồn tài liệu
Chọn nguồn tài liệu phù hợp với lĩnh vực xác định trước hoặc bao phủ nhiều lĩnh vực khác nhau.

b. Thủ công :
i. Nhập vào máy tính từ các tài liệu trên giấy
ii. Mua các kho ngữ liệu song song điện tử như : sách song ngữ, báo chí song ngữ …

c. Bán tự động

i. Khai thác dữ liệu song ngữ từ Internet
ii. Tiến hành gióng hàng ở mức tài liệu

2. Gióng hàng
i. Phương pháp thống kê : sử dụng phương pháp thống kê để tính độ “tương đồng” của 2 câu trong hai
ngôn ngữ thông qua các đơn vị (token) trong câu. Các đơn vị ở đây có thể là các uni-gram, bi-gram hoặc
là từ, cụm từ …Phương pháp này khơng cần phải có một từ điển song ngữ [5].

ii. Phương pháp sử dụng từ điển song ngữ
Trong phương pháp này sử dụng một từ điển song ngữ để xác định các điểm neo (anchor) là các từ được
biết là từ dịch của nhau nhờ vào từ điển từ đó chỉ một độ đo tương tự giữa hai câu.[

iii. Các phương pháp máy học
Học từ một kho ngữ liệu song ngữ song song gióng hàng ở mức câu cho trước từ đó sử dụng các tương
ứng về từ có được sau giai đoạn học để gióng hàng cho một kho ngữ liệu song ngữ mới.

VI. Đánh giá kho ngữ liệu song ngữ song song

a. Đánh giá thủ công : nhờ chuyên gia ngôn ngữ đánh giá trên các mẩu được chọn ngẫu nhiên từ kho ngữ
liệu

b. Đánh giá tự động : sử dụng kho ngữ liệu song ngữ song song cho dịch tự động bằng phương pháp
thông kê (SMT) và đánh giá độ đo bleu của chất lượng dịch.

VII. Tài liệu tham khảo

[1] Johann Gamper, Encoding a Parallel Corpus for Automatic Terminology extraction, Proceedings of EACL

'99
[2] Nancy Ide, Greg Priest-Domain and Jean Veronic (1996), Corpus Encoding Standard,

/> [3] CHANG Baobao, Chinese-English Parallel Corpus Construction and its Application, PACLIC 18, December

8th-10th, 2004, Waseda University, Tokyo
[4] M. Gavrilidou, P. Labropoulou, E. Desipri, V. Giouli, V. Antonopoulos, S. Piperidis, Building parallel corpora

for eContent professionals, MLR2004: PostCOLING Workshop on Multilingual Linguistic Resources, 28
August 2004, Geneva, Switzerland
[5] William A.Gale, Kenneth W.Church (1991), A program for aligning sentences in bilingual corpora. In
Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics.

[6] P. Resnik, Noah A. Smithy (2003), The web as parallel corpus.
[7] J.Y. Nie, J. Chen (2002), Exploiting the Web as Parallel Corpora for Cross Languague

Information Retrieval, WI02.
[8] C.C. Yang, K.W. Li (2002), Mining English/Chinese Parallel Documents from the World Wide

Web. Proceedings of the International World Wide Web Conference, Honolulu, Hawaii, May 7-11, 2002

[9] J. Chen, R. Chau, C.H. Yeh (2004), Discovering Parallel Text from the World Wide Web. In Proc.

Australasian Workshop on Data Mining and Web Intelligence (DMWI2004), Dunedin, New Zealand. CRPIT,
32. Purvis, M., Ed. ACS. 157-161

[10] Phillip Koehn, Europarl: A Parallel Corpus for Statistical Machine Translation

Phụ Lục A : CES DTD

I. CesDOC DTD

id CDATA
n IDREF #IMPLIED
lang
#IMPLIED' >

rend CDATA
wsd #IMPLIED' >

<!ELEMENT cesCorpus - - (cesHeader,(cesDoc+ | cesCorpus+)) >
type %a.global;
version
TEIform CDATA #IMPLIED

CDATA #REQUIRED

CDATA 'teiCorpus.2' >

<!ELEMENT cesDoc - - (cesHeader, text) >

type CDATA
version CDATA #REQUIRED
TEIform CDATA
'TEI.2' >

<!ENTITY % ces.header PUBLIC "-//CES//ENTITIES Header//EN" >

%ces.header;



<!ELEMENT text - - (body | group) >
(y |n ) y
complete IDREFS

decls #IMPLIED >

<!ELEMENT body - - (%par.seq;, div*) >
%a.text;
decls
IDREFS #IMPLIED >

<!ELEMENT group - - (%par.seq;, body+) >
%a.text;
decls
IDREFS #IMPLIED >

complete
type | div+), (closer | byline)* ) >
decls
%a.text;

(y | n) y

CDATA #REQUIRED

IDREFS #IMPLIED >

%phrase.seq;)* >

<!ATTLIST opener %a.text; >

<!ELEMENT head - - %phrase.seq; >
CDATA #IMPLIED >
type



<!ELEMENT keywords - - (term+ | list) >

scheme IDREF #IMPLIED >

<!ELEMENT byline - - (%phrase.seq; | docAuthor)* >
%a.text; >
<!ATTLIST docAuthor - - (%base.seq;) >

<!ELEMENT dateline %a.text; >

<!ELEMENT address %base.seq;)* >

%a.text; >

- - (dateline | keywords |

%phrase.seq;)* >

%a.text; >





<!ELEMENT p - - (%phrase.seq;) >
%a.text; >



<!ELEMENT quote - - ((p | poem)+ | (%phrase.seq;)) >
next %a.text;
prev
type IDREF #IMPLIED

broken
IDREF #IMPLIED

CDATA #IMPLIED

(yes | no) no >



<!ELEMENT list - - (head?, (item+ | (label, item)+)) >
%a.text; >
<!ATTLIST item - - (p+ | (%phrase.seq;)) >

<!ELEMENT label %a.text; >
- - %phrase.seq; >

%a.text; >



<!ELEMENT note - - (p+ | (%phrase.seq;)) >
%a.text;
place
(side | foot | end | unspec)

unspec >

<!ELEMENT bibl - - (%phrase.seq; | author)* >
%a.text;

%a.declarable; >

<!ELEMENT author - - (%base.seq;) >
%a.text; >

<!ATTLIST poem - - (head?, (lg | l )+ ) >

<!ELEMENT lg %a.text; >
- - (l | lg)+ >
type %a.text;
part CDATA #IMPLIED
(y | n | u)
<!ELEMENT l u >
- - %phrase.seq; >
part
%a.text;

cols
- - (head?, row+) >
%a.text;
NUMBER #IMPLIED
NUMBER
#IMPLIED >

<!ELEMENT row - - (cell | table)+ >
%a.text;
role
CDATA data >

<!ELEMENT cell - - (%phrase.seq) >
role %a.text;
rows
cols CDATA data

NUMBER 1

NUMBER 1 >



<!ELEMENT caption - - %phrase.seq; >
%a.text;
type
( byline | display |

attached | unspec ) unspec >



<!ELEMENT sp - - (speaker*,p+) +(stage) >
NAME #IMPLIED >
who

<!ELEMENT speaker - - (%base.seq;) >

<!ATTLIST speaker %a.text; >

<!ELEMENT stage - - (%base.seq;) >

CDATA #IMPLIED >
type

BÁO CÁO THỰC HIỆN ĐỀ TÀI 1 TÊN ĐỀ TÀI NHÁNH: SP7 4 2 THỜI GIAN THỰC HIỆ N: 52007-102007 3 NGƯỜI PHỤ TRÁCH: HỒ BẢO QUỐ C ĐIỂM CAO

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về