Viện công nghệ thông tin
Báo cáo tổng kết khoa học và công nghệ
đề tài nhánh
dóng hàng văn bản song ngữ
pháp-việt
thuộc đề tài cấp nhà nớc
nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp
và xử lý ngôn ngữ tiếng việt
Mã số: KC 01.03
Chủ nhiệm đề tài: gs.tskh . bạch hng khang
6455-5
07/8/2007
Hà Nội- 2004
BÁO CÁO KẾT QUẢ THỰC HIỆN
CỦA
NHÁNH ĐỀ TÀI
DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT
thuộc đề tài cấp nhà nước "Nghiên cứu phát triển công nghệ nhận dạng,
tổng hợp và xử lí ngôn ngữ tiếng Việt"
KC01-03
Hà Nội, 2004
MỤC LỤC
MỤC LỤC 2
DANH MỤC BẢNG 5
DANH MỤC HÌNH VẼ 6
GIỚI THIỆU 7
Chương 1 TÀI LIỆU KĨ THUẬT DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT 8
1.1 Giới thiệu 8
1.2 Dóng hàng ở mức câu 9
1.2.1 Phương pháp luận 9
1.2.2 Kết quả 11
1.3 Dóng hàng ở mức từ/ngữ 11
1.3.1 Phương pháp luận 11
1.3.2 Kết quả 12
1.4 Hướng dẫn sử dụng phần mềm 13
1.4.1 Phần mềm dóng hàng ở mức câu 13
1.4.2 Phần mềm dóng hàng ở mức đơn vị từ vựng 15
1.4.3 Phần mềm hiển thị/soạn thảo kết quả dóng hàng 15
1.5 Tài liệu tham khảo 17
Chương 2 CÔNG CỤ VÀ TÀI NGUYÊN NGÔN NGỮ CHO PHÂN TÍCH VĂN BẢN 19
Chương 3 SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG CHO VĂN BẢN TIẾNG VIỆT A
case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts 20
3.1 Giới thiệu 20
3.2 Bài toán gán nhãn từ loại 21
3.3 Xây dựng từ điển từ vựng, xác định bộ chú thích từ loại tiếng việt 22
3.3.1 Từ điển từ vựng 22
3.3.2 Xây dựng bộ chú thích từ loại 23
3.4 Phân tách từ trong văn bản tiếng Việt 23
3.4.1 Đặt bài toán 23
3.4.2 Các bước giải quyết 24
3.4.3 Đánh giá kết quả 26
3.5 Thử nghiệm bộ gắn nhãn QTAG cho tiếng Việt 27
3.5.1 Phương pháp gán nhãn xác suất 27
3.5.2 Bộ gán nhãn QTAG 28
3.5.3 Sử dụng QTAG cho tiếng Việt 29
3.6 Kết luận 31
3.7 Tài liệu tham khảo 31
Chương 4 Xây dựng kho từ vựng ngữ pháp tiếng Việt 33
4.1 Giới thiệu chung 33
4.1.1 Đặc điểm từ tiếng Việt 33
4.1.2 Vấn đề phân loại từ 34
4.1.3 Chuẩn hoá sơ đồ mô tả đặc điểm từ loại 34
4.2 Lớp trung tâm: phân chia từ loại mức 1 35
4.2.1 Danh từ (Nouns): 36
4.2.2 Động từ (Verbs): 36
4.2.3 Tính từ (Adjectives): 36
4.2.4 Đại từ (Pronouns): 37
4.2.5 Định từ (Determiners/Articles): 37
4.2.6 Phụ từ (còn gọi: phó từ) (Adverbs): 37
4.2.7 Giới từ (Adpositions): 37
4.2.8 Liên từ (Conjunctions): 37
4.2.9 Số từ (Numerals): 37
4.2.10 Thán từ (cảm từ) (Interjection): 37
4.2.11 Tình thái từ (Modal particle): 37
4.2.12 Tổ hợp cố định: 38
4.2.13 Từ đơn lẻ (Unique): 38
4.2.14 Từ viết tắt (Abbreviation): 38
4.2.15 Các từ ngữ còn lại : 38
4.3 Lớp ngoài: các mô tả từ loại chi tiết 38
4.3.1 Danh từ (Nouns - N) 38
4.3.2 Động từ (Verbs - V) 40
4.3.3 Tính từ (Adjectives - A) 41
4.3.4 Đại từ (Pronouns - P) 41
4.3.5 Định từ (Determiners/Articles - D) 42
4.3.6 Số từ (Numerals - M) 42
4.3.7 Phụ từ (Adverbs - R) 42
4.3.8 Giới từ (Adpositions - S) 44
4.3.9 Liên từ (Conjunctions - C) 44
4.3.10 Thán từ (Interjections - I) 44
4.3.11 Trợ từ - tiểu từ - từ tình thái (Particles -T) 45
4.3.12 Tổ hợp từ cố định 45
4.3.13 Từ đơn lẻ (Unique - U) 45
4.3.14 Từ viết tắt (Abbreviations - Y) 45
4.3.15 Các từ còn lại không phân loại được (Residual - X) 45
4.4 Biểu diễn dữ liệu từ vựng 46
Chương 5 TỔ CHỨC CƠ SỞ NGỮ LIỆU 49
5.1 Giới thiệu 49
5.2 Xác địng đơn vị ngữ pháp tiếng Việt 50
5.2.1 Từ pháp học 50
1.1.1 Từ và từ vựng 50
1.1.2 Từ loại 52
5.2.2 Cú pháp học 53
1.1.3 Khái lược về ngữ 53
1.1.4 Khái lược về câu 57
1.1.5 Các thành phần chính của câu 57
1.1.6 Các thành phần phụ của câu 58
1.1.7 Phân loại câu 59
5.3 Phân tích – miêu tả – mô hình hóa đơn vị câu và ngữ trong tiếng Việt 61
5.3.1 Tổ chức ngữ liệu mẫu 61
5.3.2 Phân tích – Miêu tả đơn vị câu và ngữ 64
5.3.3 Mô hình hóa đơn vị câu và ngữ 66
5.4 Kết luận 68
5.5 Tài liệu tham khảo 68
Chương 6 VĂN PHẠM PHI NGỮ CẢNH VÀ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT 70
6.1 Văn phạm phi ngữ cảnh 70
6.1.1 Văn phạm và ngôn ngữ sinh bởi văn phạm 70
6.1.2 Văn phạm phi ngữ cảnh 70
6.1.3 Biểu diễn cấu trúc câu 71
6.1.4 Đánh giá hai phương pháp phân tích trên 74
6.1.5 Phương pháp phân tích tổng hợp 74
6.2 Giới thiệu chương trình vnParser 75
6.2.1 Module tách từ vựng 75
6.2.2 Module phân tích cú pháp 76
6.2.3 Cài đặt chương trình 76
6.2.4 Chương trình nguồn 77
6.3 Tài liệu tham khảo 77
Chương 7 VẤN ĐỀ PHÂN TÍCH CÚ PHÁP VÀ LTAG 79
7.1 Phân tích cú pháp 79
7.2 Văn phạm kết nối cây từ vựng hoá (Lexicalized Tree Adjoining Grammar - LTAG) 80
7.2.1 Định nghĩa hình thức của văn phạm TAG 80
7.3 TAGML - định dạng XML cho các tài nguyên dùng cho LTAG 83
7.3.1 Mô tả các mục từ vựng 83
7.3.2 Mô tả cây cơ sở từ vựng hoá 84
7.4 Các công cụ đã triển khai ở LORIA 85
7.5 Mô hình TAG và ngữ pháp tiếng Việt 86
7.6 Kết quả và hướng nghiên cứu 93
7.7 Tài liệu tham khảo 94
DANH MỤC BẢNG
Bảng 1-1. Các phép dịch cơ bản 9
Bảng 3-1. Kết quả gán nhãn từ loại mức 1 31
Bảng 5-1. Danh sách từ loại 61
Bảng 6-1. Một văn phạm phi ngữ cảnh đơn giản 74
DANH MỤC HÌNH VẼ
Hình 1-1. Cấu trúc logic dạng cây của một văn bản biểu diễn dưới dạng XML 10
Hình 1-2. Giao diện xem liên kết dóng hàng 16
Hình 1-3. Giao diện soạn thảo liên kết dóng hàng 17
Hình 3-1. Xây dựng ôtômát âm tiết 24
Hình 3-2. Xây dựng ôtômát từ vựng 25
Hình 3-3. Một tình huống nhập nhằng 26
Hình 4-1. Sơ đồ tổ chức kho dữ liệu từ vựng theo TC 37 / SC 4 46
Hình 4-2. Sơ đồ tổng quát về bộ từ vựng hình thái cú pháp 47
Hình 6-1. Phân loại văn phạm của Chomsky 71
Hình 6-2. Cây biểu diễn câu John ate the cat 73
Hình 6-3. Đặc tả các lớp module phân tích từ vựng 75
Hình 6-4. Đặc tả các lớp module phân tích cú pháp 76
Hình 7-1. Cây cú pháp 79
Hình7-2. Cây cơ sở 81
Hình 7-3. Sơ đồ phép nối cây 81
Hình 7-4. Sơ đồ phép thế 81
Hình 7-5. Sơ đồ phép thế với cấu trúc đặc trưng 82
Hình 7-6. Sơ đồ phép nối cây với cấu trúc đặc trưng 83
Hình 7-7. Cấu trúc danh ngữ 86
Hình 7-8. Quan hệ phụ thuộc giữa các thành phần định ngữ 87
GIỚI THIỆU
Tên sản phẩm chính: Phần mềm dóng hàng văn bản song ngữ Pháp - Việt
Toàn bộ sản phẩm:
- Dóng hàng:
o Công cụ phần mềm: hệ thống có khả năng xác định các tương đương dịch ở mức
từ/ngữ đoạn trong các văn bản song ngữ Pháp - Việt, nhằm hỗ trợ cho việc dịch tự
động hay dịch tay, cũng như phục vụ cho các nghiên cứu ngôn ngữ về từ vựng,
thuật ngữ trong một hay nhiều ngôn ngữ hoặc có thể hỗ trợ cho việc học tiếng.
o Kho ngữ liệu: kho văn bản song ngữ Pháp - Việt và Anh - Việt được thu thập và
mã hoá theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn quốc tế về biểu
diễn và quản lí tài nguyên ngôn ngữ quốc tế.
- Sản phẩm kèm theo:
o Công cụ phần mềm: Bộ công cụ xử lí tự động văn bản tiếng Việt như phần mềm
tách từ (tokenizer), phần mềm gán nhãn từ loại tự động (POS tagger), phần mềm
đối chiếu từ loại (concordancer), phần mềm phân tích cú pháp câu tiếng Việt
(parser).
o Kho ngữ liệu: Cơ sở ngữ liệu tiếng Việt gồm bộ từ vựng có mô tả các thông tin
ngữ pháp, từ vựng; kho văn bản tiếng Việt có gán nhãn từ loại, tập quy tắc ngữ
pháp. Cũng như kho ngữ liệu song ngữ ở trên, kho ngữ liệu tiếng Việt này cũng
được mã hoá theo sơ đồ biểu diễn đang được xem xét đưa vào chuẩn quốc tể về
biểu diễn và quản lí tài nguyên ngôn ngữ.
Những người tham gia đề tài:
- Chịu trách nhiệm trực tiếp: Nguyễn Thị Minh Huyền, Trường Đại học Khoa học Tự
nhiên, Đại học Quốc gia Hà Nội
- Cộng tác viên chuyên ngành Tin học:
o Lê Hồng Phương, học viên cao học thuộc Viện Tin học khối Pháp ngữ (IFI) Hà
Nội, cán bộ Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội
o Nguyễn Thành Bôn, học viên cao học thuộc Viện Tin học khối Pháp ngữ (IFI) Hà
Nội.
- Cộng tác viên chuyên ngành Ngôn ngữ học:
o
Vũ Xuân Lương, biên tập viên, Trung tâm Từ điển
o Các chuyên viên ngôn ngữ khác thuộc Trung tâm Từ điển.
Chương 1
TÀI LIỆU KĨ THUẬT
DÓNG HÀNG VĂN BẢN SONG NGỮ PHÁP - VIỆT
Biên soạn:
Nguyễn Thành Bôn, Viện Tin học Pháp ngữ (IFI), Hà Nội
Nguyễn Thị Minh Huyền, Trường Đại học Khoa học Tự nhiên, Hà Nội
1.1 Giới thiệu
Do xu hướng toàn cầu hoá đi kèm với địa phương hoá, nhu cầu dịch trong tất cả các lĩnh
vực không ngừng tăng lên. Trong khi đó, lĩnh vực dịch tự động tuy đã ra đời từ hơn 50 năm
trước, nhưng cho đến nay kết quả vẫn còn hết sức hạn chế. Một xu hướng mới đã ra đời trong
những năm gần đây nhằm tận dụng khai thác kho tàng khổng lồ các văn bản dịch trong nhiều thứ
tiếng, thuộc đủ thể loại như văn học, báo chí, hàn lâm hay luật học. Việc sử dụng kho tài nguyên
gồm các bản dịch đa phần có chất lượng rất tốt này để xây dựng các bộ nhớ dịch hay các bộ từ
vựng đa ngữ trong các hệ thống dịch máy có vẻ là một giải pháp hợp lí. Cách khai thác kho văn
bản dịch đa ngữ hay còn gọi là văn bản song song (parallel texts) này là thực hiện việc dóng hàng
(alignment).
Những hệ thống dóng hàng bắt nguồn từ các công trình khoa học trong lĩnh vực nghiên
cứu ngôn ngữ học dựa vào kho văn bản. Dóng hàng văn bản song song (Alignment of parallel
texts) là công việc tìm kiếm tự động các tương ứng dịch trong các văn bản vốn được dịch ra từ
cùng một văn bản gốc nào đó. Các tương ứng dịch này có thể ở các mức độ chi tiết khác nhau: có
khi chỉ đòi hỏi ít chi tiết là mức đoạn, phổ biến nhất là ở mức câu, và chi tiết, lí tưởng hơn là mức
ngữ đoạn hoặc từ.
Cho đến nay các hệ thống dóng hàng ở mức câu đã được kết quả khá tốt, với độ chính xác
xấp xỉ 95% mà chỉ sử dụng các thông tin thống kê khá độc lập với ngôn ngữ, tr
ừ trường hợp các
văn bản dịch không thật sự "song song" (chẳng hạn như dịch lược bớt nhiều). Trong khi đó các
hệ thống dóng hàng ở mức từ, ngữ đoạn thì kết quả kém chính xác hơn và hiển nhiên phụ thuộc
vào từng cặp ngôn ngữ cụ thể.
Trong khuôn khổ của dự án này, chúng tôi tập trung nghiên cứu dóng hàng ở mức câu và
mức từ/ngữ cho các văn bản song ngữ Pháp - Việt. Sự lựa chọn cặp ngôn ngữ này đơn giản xuất
phát từ hợp tác nghiên cứu của nhóm chúng tôi với nhóm nghiên cứu thuộc trung tâm nghiên cứu
Tin học và Tự động hoá vùng Lorraine của Pháp (LORIA
1
).
Đối với việc dóng hàng ở mức câu, chúng tôi áp dụng phương pháp đã được nhóm triển
khai ở giai đoạn trước cho các cặp ngôn ngữ Ấn - Âu cho cặp tiếng Pháp - Việt và đánh giá kết
quả nhằm điều chỉnh các tham số của hệ thống một cách phù hợp nhất.
Đối với việc dóng hàng ở mức từ ngữ, nghiên cứu tập trung vào việc cải tiến kĩ thuật dóng
hàng ở mức từ sử dụng phương pháp vectơ khoảng cách DVec bằng cách kết hợp với kĩ thuật
1
http:// www.loria.fr
dóng hàng có cấu trúc. Việc dóng hàng văn bản song ngữ ở mức từ đòi hỏi bước tiền xử lí là phân
tích từ ngữ trong các văn bản được xét. Điều này đòi hỏi các công cụ phân tích văn bản trong
từng ngôn ngữ, ở đây là tiếng Pháp và tiếng Việt. Trong khi các công cụ và tài nguyên ngôn ngữ
cho phân tích các ngôn ngữ Ấn Âu nói chung và tiếng Pháp nói riêng được phát triển đa dạng từ
nhiều năm nay thì công cụ và đặc biệt là tài nguyên ngôn ngữ cho việc phân tích tiếng Việt có thể
nói là không có gì. Các nghiên cứu trong khuôn khổ đề tài này đã tập trung đa phần thời gian và
nhân lực để xây dựng và phát triển tài nguyên ngôn ngữ và công cụ chuẩn mực cho việc phân tích
văn bản tiếng Việt (xem chương 2). Phần triển khai hệ thống dóng hàng ở mức từ ngữ đã được
thực hiện ở bước đầu, do thời gian có hạn nên cơ sở ngữ liệu xây dựng được chưa đủ lớn để có
khả năng đưa ra được mô hình dịch Pháp - Việt đầy đủ.
Trong chương này chúng tôi sẽ trình bày 2 phần chính. Phần thứ nhất tập trung vào kĩ
thuật dóng hàng ở mức câu và kết quả thu được trên kho ngữ liệu Pháp - Việt. Phần thứ hai tập
trung vào kĩ thuật dóng hàng ở mức từ ngữ. Các nghiên cứu cơ bản về phân tích văn bản tiếng
Việt được trình bày trong các chương sau.
1.2 Dóng hàng ở mức câu
1.2.1 Phương pháp luận
1.2.1.1 Dóng hàng động
Tư tưởng cơ bản của kĩ thuật dóng hàng động ở mức câu là dựa trên một mô hình thống
kê theo độ dài văn bản (số kí tự).
Một phép dóng một câu trong văn bản nguồn tới một câu trong văn bản đích phụ thuộc rất
nhiều vào cách dịch. Người ta đã thống kê là phần lớn các phép dịch câu thuộc một trong 8 kiểu
sau đây :
Bảng 1-1. Các phép dịch cơ bản
Số câu trong
văn bản nguồn
Số câu trong
văn bản đích
Phép dịch
1 1 Thay thế
2 1 Rút gọn
1 2 Phát triển
2 2 Hỗn hợp
1 0 Lược bỏ yếu
0 1 Chèn yếu
Nhiều hơn một câu 0 Lược bỏ mạnh
0 Nhiều hơn một câu Chèn mạnh
Kĩ thuật dóng hàng động dựa trên giả thiết là văn bản song ngữ chỉ chứa các kiểu dịch
như trên một cách "tuyến tính", tức là không xét đến các trường hợp dịch chéo nhiều hơn 2 câu
trong văn bản.
Để tiến hành dóng hàng ở mức câu, ta thực hiện các bước sau :
o Chúng ta giả định rằng các phân đoạn (paragraph) đã được dóng hàng chính xác.
o Xét tất cả các cặp câu xây dựng dựa trên các phép dịch có thể (xem bảng trên).
o Dựa trên tỉ lệ độ dài, gán cho mỗi cặp câu một điểm số xác suất phản ánh mức độ tương
đương (phù hợp) giữa hai câu trong văn bản nguồn và văn bản đích.
o Dựa trên các giá trị xác suất và sử dụng một thuật toán quy hoạch động để xác định
chuỗi các cặp câu sao cho phù hợp nhất để tạo ra một kết quả dóng hàng hợp lệ.
1.2.1.2 Dóng hàng có cấu trúc
Kỹ thuật này nhằm dóng hàng các văn bản được mã hoá phản ánh cấu trúc logic dạng cây
của văn bản.
Hình 1-1. Cấu trúc logic dạng cây của một văn bản biểu diễn dưới dạng XML
Gọi S, T là lần lượt là văn bản nguồn và đích mà ta muốn dóng hàng. Với
S = [s
1
, s
2
, , s
n
], T = [t
1
, t
2
, , t
m
]
trong đó, s
i
, t
j
(i=1,…,n; j=1,…,m) là đoạn văn bản.
Kết quả của phép dóng hàng Align(S, T) có thể mô tả như một chuỗi các cặp tương quan
(σ
j
, τ
j
) – đọc là σ
j
trong văn bản S được dóng với τ
j
trong văn bản T :
[
]
),(), ,,(),(
11 rr
TSAlign
τ
σ
τ
σ
=
trong đó, σ
j
là những chuỗi con phân biệt của S, τ
j
là những chuỗi con phân biệt của T và
TS
r
j
r
j
jj
==
==
UU
11
,
τσ
Một chuỗi con có thể rỗng, trong trường hợp này ta có một kết quả dóng hàng cho phép
dịch kiểu 0-n (chèn), hoặc m-0 (lược bỏ).
Thủ tục dóng hàng được thực hiện đệ quy. Ở bước xuất phát, ta dóng gốc của hai văn bản
với kiểu 1-1. Một khi cấp thứ i đã được dóng hàng, thì việc dóng hàng ở cấp thứ i+1 chính là sự
làm mịn bằng cách dóng hàng cho các phần tử con của các cặp tương quan trong kết quả ở bước
i. Cứ như thế, quá trình dóng hàng được thực hiện ở mọi cấp của v
ăn bản cho đến mức câu.
1.2.2 Kết quả
Chương trình dóng hàng ở mức câu theo phương pháp trình bày trong phần trên đã được
triển khai tại LORIA và cập nhật, thoả mãn yêu cầu xử lí văn bản đa ngữ sử dụng mã Unicode.
Việc áp dụng chương trình cho cặp tiếng Pháp - Việt và Anh - Việt cho kết quả tương
đương với các cặp ngôn ngữ Ấn - Âu khác. Với các văn bản song ngữ chất lượng tốt, kết quả
dóng hàng đạt độ chính xác quanh khoảng 96% (theo hội đồ
ng đánh giá ARCADE
2
).
Mục 4.1 và 4.3 sẽ trình bày cụ thể chương trình dóng hàng cũng như chương trình hiển thị
và sửa đổi kết quả dóng hàng ở mức câu.
1.3 Dóng hàng ở mức từ/ngữ
1.3.1 Phương pháp luận
Trong khuôn khổ đề tài, chúng tôi nghiên cứu việc dóng hàng dựa trên thuật toán DK-Vec
(Fung & McKeown, 1997). Quá trình dóng hàng hai văn bản song song ở mức từ được thực hiện
qua hai bước sau:
Tiền xử lí: Chia văn bản thô thành các đơn vị từ (tokenization). Với các ngôn ngữ biến
hình hay chắp dính, bước tiền xử lí có thể bao gồm cả việc đưa các đơn vị từ này về dạng nguyên
thể (lemmatization).
Thực hiện dóng hàng bằng thuật toán DK-Vec kết hợp với vi
ệc xử lí văn bản có cấu trúc.
1.3.1.1 Thuật toán DK-vec
Với mỗi từ w trong một văn bản, xác định một vectơ khoảng cách biểu diễn khoảng cách
tương đối giữa các lần xuất hiện của từ w: D
w
= <d
1
w
, , d
n
w
>, trong đó n là số lần xuất hiện của
w trong văn bản, d
i
w
là khoảng cách (tính theo số đơn vị từ vựng) giữa lần xuất hiện thứ i và lần
xuất hiện thứ i-1 của w trong văn bản.
Các vectơ khoảng cách này phản ánh tính tương tự về mặt phân bố của 1 cặp từ bất kì
trong 2 văn bản. Thuật toán DK-Vec giả thiết rằng các văn bản được xét có độ dài xấp xỉ (về số
đơn vị
từ vựng). Tuy nhiên trong thực tế, độ dài này có thể khác nhau theo từng ngôn ngữ. Vì
vậy, trước khi áp dụng thuật toán, người ta cần tính toán hệ số tỉ lệ ngôn ngữ (Language
Proportion Coefficient - LPC). Hệ số này tính được bằng thống kê độ dài các văn bản trong một
kho văn bản đa ngữ đủ lớn (đã phân chia theo đơn vị từ)
3
. Các vectơ khoảng cách của mỗi từ sau
đó được chuẩn hoá theo tỉ số LPC.
2
3
trong ứng dụng của chúng tôi, LPC được tính đơn giản bằng tỉ lệ số đơn vị từ của 2 ngôn ngữ trong kho văn bản
song ngữ
Để xác định một từ bất kì trong văn bản nguồn và một từ bất kì trong văn bản đích có khả
năng là tương ứng dịch của nhau không, ta sử dụng thuật toán quy hoạch động để xác định độ
tương tự giữa 2 vectơ khoảng cách tương ứng với 2 từ đó. Tuy nhiên, để tránh việc tính toán trên
tất cả các cặp từ trong hai văn bản để tìm các cặp từ có nhi
ều khả năng là tương đương dịch, ta có
thể thực hiện một bước xử lí thô để loại các cặp từ có vectơ khoảng cách rất khác nhau. Các tiêu
chuẩn lọc có thể sử dụng khi xét cặp từ s trong văn bản nguồn và t trong văn bản đích là:
Tần số xuất hiện của s và t phải lớn hơn 2 (nếu nhỏ hơn hoặc bằng 2 thì s
ố lượt từ xuất
hiện quá ít để cho kết quả tin cậy) và tỉ lệ giữa hai tần số này không được vượt quá một ngưỡng
cho trước, được chọn bằng 2 (Y Choueka et al., 2000).
Chỉ số đo độ tương tự giữa 2 vectơ không vượt qua ngưỡng 200 (Fung & McKeown,
1997):
22
)()(),(
tsts
DDDD
mmts
σσε
−+−=
trong đó m và σ tương ứng là giá trị trung bình và độ lệch chuẩn của mỗi vectơ.
Sau bước lọc bằng các tiêu chuẩn trên, áp dụng thuật toán quy hoạch động xác định các
cặp vectơ khoảng cách có độ tương tự lớn nhất, sử dụng hàm chi phí đối sánh được tính theo
công thức:
⎪
⎩
⎪
⎨
⎧
−
−
−−
+−=
===
)1,()(
),1()(
)1,1()(
min||),(
0,0,0)0,0(
00
jiCiii
jiCii
jiCi
ddjiC
ddC
t
j
s
i
ts
(i + j > 0)
1.3.1.2 Áp dụng thuật toán DK-vec trên văn bản có cấu trúc
Việc dóng hàng ở mức từ vựng theo thuật toán DK-vec được kết hợp với kết quả dóng
hàng động (đến mức phân đoạn - paragraph) đối với các văn bản được mã hoá cấu trúc như đã
trình bày trong phần 2.
1.3.2 Kết quả
Chúng tôi đã xây dựng công cụ dóng hàng ở mức đơn vị từ vựng - với các tập dữ liệu đầu
vào là các văn bản đã được đánh dấu bằng thẻ XML đến mức đơn vị từ, có kèm theo thuộc tính từ
loại.
Các đơn vị từ tiếng Việt được xác định và gán nhãn bằng các phần mềm tách từ và gán
nhãn triển khai trong khuôn khổ dự án này (xem các báo cáo kèm theo).
Các đơn vị từ tiế
ng Pháp được đưa về dạng nguyên thể bằng phần mềm FLEMM cung
cấp cùng với bộ gán nhãn Winbrill ().
Các đơn vị từ tiếng Anh được đưa về dạng nguyên thể bằng phiên bản đánh giá của phần
mềm Lemmatiser (
Do kho dữ liệu song ngữ Pháp-Việt và Anh-Việt trong đó các văn bản đã được cung cấp
thông tin ngôn ngữ chưa đủ lớn, hiện nay chúng tôi đang tiếp tục mở rộng kho d
ữ liệu để có thể
đánh giá hiệu năng của công cụ. Công cụ cũng đang được đưa vào đánh giá trong khuôn khổ dự
án ARCADE II (2003-2005), tiếp nối dự án đánh giá các công cụ dóng hàng ở mức câu đã đề cập
ở 2.2.
1.4 Hướng dẫn sử dụng phần mềm
Tất cả các phần mềm dóng hàng, hiển thị dóng hàng đều được xây dựng bằng ngôn ngữ
Java. Chúng có thể chạy được trên tất cả các hệ điều hành có hỗ trợ máy ảo Java. Do vậy, để
phần mềm có thể hoạt động được, người sử dụng phải đảm bảo được rằng trên máy đã cài đặt
máy ảo java (Java Runtime Environment). Nếu chưa, có thể tải về từ địa chỉ
.
1.4.1 Phần mềm dóng hàng ở mức câu
1.4.1.1 Tên phần mềm
Phần mềm dóng hàng ở mức câu có tên là Xalign.
1.4.1.2 Tập tin mô tả ý nghĩa của thẻ [*.properties]
Do yêu cầu dóng hàng các văn bản đa ngữ có nguồn gốc không định trước nên Xalign
phải có khả năng đọc và hiểu tất cả các thẻ đánh dấu mà các văn bản đã sử dụng. Để phục vụ khả
năng này, mỗi một file văn bản phải được đi kèm với một file mô tả ý nghĩa các thẻ theo quy ước.
Có 6 kiểu như sau :
PHRASE
Phần tử ở mức câu. Mỗi phần tử không được chứa một câu khác, một phân đoạn
(paragraph), hay phần (division).
PARAG
Phần tử cấp phân đoạn. Một phân đoạn chỉ được phép chứa các phần tử ở mức câu.
DIV
Phần tử ở mức phần. Mỗi phần tử có thể chứa các phần tử thuộc kiểu phân đoạn hoặc
phần.
IGNORE
Bỏ qua phần tử này và tất cả các phần tử con của nó khi dóng hàng.
TRANSP
Coi như phần tử không có. Và các phần tử con của nó được coi như con của phần tử
cha.("transparent").
SEQ
Không được xử lí(cách xử lí mặc nhiên).
Tất cả các thẻ chưa được định nghiă để mang một trong 6 nhóm ý nghĩa trên thì
sẽ được xử lý như là TRANSP.
Sau đây là trích đoạn nội dung của một file mô tả như thế :
….
date=IGNORE
author=IGNORE
language=IGNORE
title=IGNORE
lg=PARAG
div=DIV
p=PARAG
q=SEQ
body=BODY
l=PHRASE
seg=PHRASE
s=PHRASE
….
Các từ khóa viết in như
IGNORE, PARAG, PHRASE… là những từ quy ước của
Xalign dùng để miêu tả cách mà Xalign sẽ xử lý khi gặp một thẻ trong văn bản. Ví dụ, trong tập
tin mô tả trên nói rằng, các thể <l>, <seg>, <s> khi được gặp trong văn bản thì đều có thể hiểu là
PHRASE.
1.4.1.3 Tập tin văn bản
Các tập tin văn bản có thể chứa một số bất kì các phần tử kiểu DIV lồng nhau. Tất cả các
phần tử kiểu PHRASE phải được đặt trong các phần tử kiểu PARAG, và các phần tử kiểu
PARAG phải nằm trong các DIV.
Khi chương trình Xalign tiến hành dóng hàng, nó sử dụng tất cả các phần tử kiểu
PHRASE, PARAG, DIV để tính toán các thông số dóng hàng. Mỗi kiểu phần tử của một kiểu có
một chỉ
số duy nhất. Chỉ số này sẽ được sử dụng trong tập tin kết quả dóng hàng để làm tham
chiếu. Chỉ số không được chứa khoảng trắng.
1.4.1.4 Tập tin kết quả dóng hàng
Dây là tập tin có phần mở rộng *.align, chứa tất cả các thông tin về kết quả dóng hàng.
Phần tử <linkgrp> chứa thông tin chung như : đường dẫn đến văn bản nguồn, văn bản đích. Phần
tử <linkPhrase>, <linkParag>, <linkDiv> lần lượt chứa thông tin dóng hàng ở mức câu, phân
đoạn và phần.
1.4.1.5 Cú pháp Xalign
Để thực hiện dóng hàng hai văn bản, ta sử dụng chương trình Xalign với cú pháp như sau:
align [-d] sfile tfile src-properties tar-properties [slang tlang] lnkgrpfile
Trong đó,
-d : hiển thị các thông tin trung gian
sfile : tập tin văn bản nguồn
tfile : tập tin văn bản đích
src-properties : tập tin mô tả cho file văn bản nguồn
tar-properties : tập tin mô tả cho file văn bản đích
lnkgrpfile : tập tin lưu kết quả dóng hàng
Ví dụ, muốn thực hiện dóng hàng file
MuốiCủaRừng.vn.xml và file
MuốiCủaRừng.fr.xml, các tập tin văn bản trên sử dụng chung một file mô tả là
multialign.properties, kết quả dóng hàng xuất ra tập tin mcr.align thì ta thực hiện câu lệnh sau
đây :
align MuốiCủaRừng.vn.xml MuốiCủaRừng.fr.xml multialign.properties
multialign.properties mcr.align
1.4.2 Phần mềm dóng hàng ở mức đơn vị từ vựng
Để sử dụng được phần mềm này 2 văn bản cần dóng hàng phải được phân tách thành đơn
vị từ vựng và đưa về dạng nguyên thể nếu văn bản viết bằng một ngôn ngữ biến hình hoặc chắp
dính.
Tương tự như đối với công cụ dóng hàng ở mức câu, phần mềm dóng hàng ở mức đơn vị
từ vựng cũng sử dụng mộ
t tập tin Properties để xác lập tương ứng giữa tên thẻ trong cấu trúc
XML và thành phần thực trong cấu trúc logic của văn bản. Một thành phần được bổ sung ở đây là
LEXUNIT (lexical unit), dành cho các thẻ XML tương ứng với đơn vị từ vựng muốn dóng hàng.
Các thẻ có giá trị LEXUNIT trong tập tin văn bản là các thẻ tương ứng với các đơn vị từ vựng, do
đó chúng được đặt theo thứ tự tuyến tính không giao nhau và lồ
ng trong các thẻ PHRASE.
Kết quả dóng hàng chứa thông tin về cặp từ được coi là tương đương kèm theo từ loại
(POS) của mỗi từ (nếu có thông tin này trong tệp cần dóng hàng).
Cú pháp tương tự như đối với công cụ dóng hàng ở mức câu.
dvecalign sfile tfile src-properties tar-properties [slang tlang] resfile
1.4.3 Phần mềm hiển thị/soạn thảo kết quả dóng hàng
1.4.3.1 Tên phần mềm
Phần mềm hiển thị/soạn thảo kết quả dóng hàng (ở mức câu trở lên) có tên là
Concordancier.
1.4.3.2 Hiển thị kết quả dóng hàng
Để hiển thị kết quả dóng hàng, khởi động chương trình Concordancier bằng cách chạy
tập tin VMC.BAT có trong thư mục chứa chương trình.
Vào mục menu/File/Open, hộp thoại chọn file sẽ hiện ra, hãy chọn tên tập tin chứa kết
quả dóng hàng mà bạn muốn xem;
Hình 1-2. Giao diện xem liên kết dóng hàng
Kết quả dóng hàng sẽ hiện ra như trong hình trên. Phần văn bản bên trái là nguồn, bên
phải là văn bản đích. Bạn có thể nhấn vào từng các cặp tương quan để xem nội dung hoặc đánh
dấu chọn nhiều cặp một lần.
Muốn chọn xem kết quả dóng hàng ở mức nào thì bạn nhấn chọn mức đó trong danh sách
các cấp dóng hàng nằm ở dưới bên trái nhất.
1.4.3.3 Soạn thảo kết quả dóng hàng
Để soạn thảo lại kết quả dóng hàng, bạn tiến hành mở tập tin chứa kết quả như để hiển thị.
Rồi sau đó, chọn cặp tương quan nào mà bạn muốn hủy bỏ liên kết dóng hàng rồi chọn
Menu/Edit/Unlink để thực hiện.
Hình 1-3. Giao diện soạn thảo liên kết dóng hàng
Để tiến hành liên kết hai phần tử ở hai văn bản với nhau, bạn đánh dấu chọn những phần
tử tương ứng của hai văn bản sẽ tham gia vào phép dóng hàng muốn tạo và chọn Menu/Edit/Link
(Xem trên hình).
Nếu muốn lưu lại những thay đổi thì chọn Menu/File/Save.
1.5 Tài liệu tham khảo
Choueka Y., Conley E.S., Dagan I., "A comprehensive bilingual word alignment system.
Application to disparate languages: Hebrew and English", in Véronis J. (ed.), Parallel
Text Processing, Dordrecht, Kluwer, 2000, p. 69-96.
Bonhomme
P., "Codage et normalisation de ressources textuelles", in Pierrel J-M. (ed.),
Ingénierie des langues, Hermes Science Europe, 2000, p.173-191.
Brown
P.F., Lai J.C., Mercer R.L., "Aligning sentences in parallel corpora", Proceedings of the
29th Annual Meeting of the Association for Computational Linguistics, Berkeley,
1991, p. 169-176.
Fung, P. & McKeown, K. R., "A technical word and term translation aid using noisy parallel
corpora across language groups". Machine translation, 12 (1/2), 1997, 53-87
Fung P., "A statistical view on bilingual lexicon extraction", in Véronis J. (ed.), Parallel Text
Processing, Dordrecht, Kluwer, 2000, p. 219-236.
Gale W.A., Church K.W., "A program for aligning sentences in bilingual corpora",
Computational Linguistics, 19(3), 1993, p. 75-102.
Isabelle P., Dymetman M., Foster G., Justras J-M., Macklovitch E., Perrault F., Ren X., Simard
M., "Translation analysis and translation automation", Proceedings of the Fifth
International Conference on Theoretical and Methodological Issues in Machine
Translation (TMI'93), Kyoto, Japan, 1993.
Kay M., Röscheisen M., "Text-translation alignment", Computational Linguistics, 19(1), 1993,
p.121-142.
Romary
L., Bonhomme P., "Parallel alignment of structured documents", in Véronis J. (ed.),
Parallel Text Processing, Dordrecht, Kluwer, 2000, p. 201-217.
Véronis
J., Langlais Ph., "Evaluation of parallel text alignement systems: ARCADE", in Véronis
J. (ed.), Parallel Text Processing, Dordrecht, Kluwer, 2000, p. 369-388.
Véronis J., "Alignement de corpus multilingues", in Pierrel J-M. (ed.), Ingénierie des langues,
Hermes Science Europe, 2000, p.151-171.
Chương 2
CÔNG CỤ VÀ TÀI NGUYÊN NGÔN NGỮ CHO PHÂN TÍCH
VĂN BẢN
Biên soạn:
Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, ĐHQG HN)
Phân tích và kiểm tra tính chính xác của văn bản là một vấn đề lớn và phức tạp. Quá trình
này thường được chia thành 4 giai đoạn chính: phân tích từ vựng, phân tích cú pháp, phân tích
ngữ nghĩa và phân tích thực chứng.
Phân tích từ vựng. Là quá trình phân tích hình thái các từ vựng tạo nên văn bản, từ đó
kiểm tra được tính đúng đắn của âm tiết và từ.
Phân tích cú pháp. Là quá trình đưa ra mô tả quan hệ về vai trò ngữ pháp của các từ, các
cụm từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu.
Phân tích ngữ nghĩa. Mục đích của phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu có
mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về nghĩa giữa các cụm từ
trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác định được một phần ý nghĩa
của câu trong ngữ cảnh của cả đoạn.
Phân tích thực chứng. Là quá trình phân tích nhằm xác định ý nghĩa của câu dựa trên
mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc rất nhiều vào ngữ cảnh diễn
ra lời nói. Do vậy, quá trình phân tích này rất khó thực hiện được bằng máy tính. Thường thì việc
phân tích câu chỉ dừng ở phân tích ngữ nghĩa, còn việc phân tích thực chứng do người dùng tự
quyết định.
Trong khuôn khổ dự án này, chúng tôi tập trung vào hai vấn đề
cơ bản là phân tích từ
vựng và phân tích cú pháp tiếng Việt. Do các công cụ và dữ liệu ngôn ngữ liên quan đến hai vấn
đề này đều thiếu vắng, trong khi việc xây dựng ngữ liệu lại tốn rất nhiều công sức. Nhiệm vụ đặt
ra của nhóm là xây dựng một bộ công cụ và một kho ngữ liệu tiếng Việt có thể được truy cập tự
do (trong phạm vi nghiên cứu), làm cơ sở cho các nghiên cứu trong lĩnh vự
c xử lí ngôn ngữ tiếng
Việt tiếp sau.
Việc phân tích từ vựng gồm có 2 bước: phân đoạn văn bản thành các đơn vị từ và xác
định từ loại cho mỗi từ (chương số 3, 4).
Phân tích cú pháp tiếng Việt đòi hỏi mô hình hoá ngữ pháp tiếng Việt theo một hệ hình
thức văn phạm (chương số 5, 6, 7).
Chương 3
SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG
CHO VĂN BẢN TIẾNG VIỆT
A case study of the probabilistic tagger QTAG
for Tagging Vietnamese Texts
Biên soạn : Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương
Tóm tắt
Trong bài báo này chúng tôi trình bày chi tiết các thử nghiệm về gán nhãn từ loại cho các văn bản tiếng
Việt bằng cách áp dụng bộ gán nhãn QTAG, một bộ gán nhãn xác suất độc lập với ngôn ngữ. Chúng tôi
sử dụng hai bộ nhãn từ loại với độ mịn khác nhau. Việc gán nhãn tự động dựa trên một bộ từ vựng có
thông tin từ loại cho mỗi từ và một tập văn bản đã được gán nhãn bằng tay. Chúng tôi cũng trình bày
khâu ti
ền xử lí cho việc gán nhãn: phân tách các đơn vị từ trong văn bản.
Từ khoá: từ loại, từ vựng, kho văn bản, phân tách từ, gán nhãn xác suất, QTAG
Abstract
In this paper we describe in detail our experiments on tagging Vietnamese texts using QTAG, a language
independent probabilistic tagger with two part-of-speech (POS) sets at two different levels of finesse,
based on a lexicon with information about possible POS tags for each word and a manually labeled
corpus. We also describe the pre-processing for POS tagging, saying text tokenization.
Keywords: POS, lexicon, corpus, tokenization, probabilistic tagging,QTAG
3.1 Giới thiệu
Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các
lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ. Mỗi từ loại tương ứng với một hình thái và
một vai trò ngữ pháp nhất định. Các bộ chú thích từ loại có thể thay đổi tuỳ theo quan niệm về
đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể [19]. Mỗi t
ừ trong
một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và việc giải thích đúng nghĩa một từ phụ
thuộc vào việc nó được xác định đúng từ loại hay không. Công việc gán nhãn từ loại cho một văn
bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Khi hệ thống văn bản đã được gán
nhãn, hay nói cách khác là đã được chú thích từ loạ
i thì nó sẽ được ứng dụng rộng rãi trong các
hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng
nói cũng như trong các hệ thống dịch máy.
Đối với các văn bản Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là bản
thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chư
a có một
chuẩn mực thống nhất [3], [5], [8], [13], [18]. Nghiên cứu của nhóm chúng tôi phục vụ đồng thời
hai mục đích: một mặt thực hiện nỗ lực nhằm xây dựng các công cụ cho việc xử lí văn bản tiếng
Việt trên máy tính phục vụ cho các ứng dụng công nghệ, mặt khác các công cụ này cũng hỗ trợ
tích cực cho các nhà ngôn ngữ nghiên cứu tiếng Việt.
Trong báo cáo này chúng tôi sẽ trình bày phương pháp tiếp cận và kết quả thu được của
nhóm nghiên cứu trong bước thử nghiệm đầu tiên với một công cụ gán nhãn tự động thuần tuý
xác suất.
3.2 Bài toán gán nhãn từ loại
Trong phần này chúng tôi giới thiệu tổng quan về các kĩ thuật gán nhãn từ loại và các
bước giải quyết bài toán gán nhãn từ loại cho văn bản tiếng Việt.
Quá trình gán nhãn từ loại có thể chia làm 3 bước [15].
Phân tách xâu kí tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ
theo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp,
việc phân tách từ
phần lớn là dựa vào các kí hiệu trắng. Tuy nhiên vẫn có những từ ghép hay
những cụm từ công cụ gây tranh cãi về cách xử lí. Trong khi đó với tiếng Việt thì dấu trắng càng
không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất
cao.
Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có.
Tập nhãn này có thể
thu được từ cơ sở dữ liệu từ điển hoặc kho văn bản đã gán nhãn bằng tay.
Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc
gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình
thái từ để đoán nhận lớp từ loại tương
ứng của từ đang xét.
Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi
từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm. Có nhiều phương pháp để
thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ
pháp mà đại diện nổi bật là phươ
ng pháp Brill ([2]) và các phương pháp xác suất ([4]). Ngoài ra
còn có các hệ thống sử dụng mạng nơ-ron ([16]), các hệ thống lai sử dụng kết hợp tính toán xác
suất và ràng buộc ngữ pháp [6], gán nhãn nhiều tầng [17].
Về mặt ngữ liệu, các phương pháp phân tích từ loại thông dụng hiện nay dùng một trong
các loại tài nguyên ngôn ngữ sau:
Từ điển và các văn phạm loại bỏ nhập nhằng [14].
Kho văn bản đã gán nhãn [4], có thể kèm theo các quy tắc ngữ pháp xây d
ựng bằng tay
[2].
Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại và các
thông tin mô tả quan hệ giữa từ loại và hậu tố [10].
Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán
thống kê [11]. Trong trường hợp này khó có thể dự đoán trước về tập từ loại.
Các bộ gán nhãn từ loại dùng từ điển và vă
n phạm gần giống với một bộ phân tích cú
pháp. Các hệ thống học sử dụng kho văn bản để học cách đoán nhận từ loại cho mỗi từ [1]. Từ
giữa những năm 1980 các hệ thống này được triển khai rộng rãi vì việc xây dựng kho văn bản
mẫu ít tốn kém hơn nhiều so với việc xây dựng một từ điển chất lượ
ng cao và một bộ quy tắc ngữ
pháp đầy đủ. Một số hệ thống sử dụng đồng thời từ điển để liệt kê các từ loại có thể cho một từ,
và một kho văn bản mẫu để loại bỏ nhập nhằng. Bộ gán nhãn của chúng tôi nằm trong số các hệ
thống này.
Các bộ gán nhãn thường được đánh giá bằng độ chính xác của kết quả: [số từ được gán
nhãn đúng] / [tổng số từ trong văn bản]. Các bộ gán nhãn tốt nhất hiện nay có độ chính xác đạt
tới 98% [15].
Nghiên cứu áp dụng cho vấn đề tự động gán nhãn từ loạ
i tiếng Việt, nhóm chúng tôi đã
thực hiện các bước cụ thể sau:
Xây dựng từ điển từ vựng, lựa chọn tiêu chí xác định từ loại trong quá trình phân tích từ
vựng. Hầu hết các mục từ trong từ điển đều có thông tin từ loại đi kèm.
Xây dựng công cụ phân tách các đơn vị từ vựng trong văn bản.
Xây dựng kho văn bản đã loại bỏ nhập nhằ
ng từ loại bằng tay, sau khi tự động gán tất cả
các nhãn có thể cho mỗi từ.
Xây dựng bộ gán nhãn từ loại tự động, dựa trên các thông tin từ loại trong từ điển từ vựng
và các quy tắc kết hợp từ loại học được từ kho văn bản đã gán nhãn mẫu.
Trong phần tiếp theo của báo cáo, chúng tôi sẽ lần lượt trình bày các bước 1, 2 và 4.
3.3 Xây dựng từ điển từ vựng, xác định bộ chú thích từ loại tiếng việt
Trong khuôn khổ đề tài cấp Nhà nước KC01 "Nghiên cứu phát triển công nghệ nhận
dạng, tổng hợp và xử lí ngôn ngữ tiếng Việt", nhóm nghiên cứu đã triển khai các công việc xây
dựng kho ngữ liệu tiếng Việt bao gồm từ điển từ vựng và kho văn bản có kèm theo mô tả từ loại
của các đơn vị từ vựng với chất lượng cao, tuân theo các chuẩn quốc tế về biểu diễ
n dữ liệu
4
, cho
phép cập nhật và mở rộng dễ dàng.
3.3.1 Từ điển từ vựng
Trong tiếng Việt, bên cạnh những đơn vị rõ ràng là từ, là ngữ cố định như thành ngữ (sơn
cùng thuỷ tận, tay xách nách mang ), quán ngữ (lên lớp, lên mặt, ra vẻ), còn tồn tại những đơn
vị có người cho là từ, có người cho là ngữ cố định (như xe lăn đường, máy quay đĩa, làm ruộng,
lạnh ngắt, suy cho cùng, ). Ranh giới của từ trong tiếng Việt là một vấn đề ph
ức tạp, trong
nhiều trường hợp còn có những ý kiến khác nhau [8].
Chúng tôi lựa chọn quan niệm đơn vị từ vựng theo cuốn Từ điển tiếng Việt [7] (do Viện
Ngôn Ngữ Học biên soạn) để xây dựng cơ sở ngữ liệu. Trong toàn bộ cuốn từ điển này, quan
điểm về việc thu thập từ vựng, về chuẩn hoá chính tả, về chú thích từ loại là rõ ràng và th
ống
nhất.
Ngoài ra, chúng tôi có đưa thêm các đơn vị từ vựng ít dùng, gặp trong kho văn bản nhưng
không được thu thập trong từ điển vào Từ điển từ vựng. Mặt khác, chúng tôi cũng đưa thêm các
đơn vị từ vựng mới xuất hiện (mà từ điển chưa thu thập) vào Từ điển từ vựng cùng với những
đơn vị là tên người, tên địa danh, tên t
ổ chức thường gặp để tiện cho chương trình xử lí.
4
cf. ISO TC37/SC4
Chính tả trong [7] theo đúng các Quy định về chính tả tiếng Việt và về thuật ngữ tiếng
Việt trong các sách giáo khoa, được ban hành theo Quyết định số 240/QĐ ngày 5-3-1984 của Bộ
trưởng Bộ Giáo dục” (chẳng hạn vấn đề viết nguyên âm "-i", viết "-uy", cách ghi dấu thanh, cách
viết thuật ngữ khoa học, sử dụng con chữ f, j, w, z cho các từ mượn tiếng nước ngoài, v.v.).
Trên thực tế, trong các văn bản tiếng Việt vẫn không có s
ự thống nhất trong cách ghi dấu
thanh ở những âm tiết có âm đệm, vì vậy mà trước khi áp dụng cho chương trình tách từ và gán
nhãn từ loại, văn bản đã được chúng tôi xử lí lại cho nhất quán với từ điển.
3.3.2 Xây dựng bộ chú thích từ loại
Từ loại phản ánh vị trí khác nhau của các từ trong hệ thống ngữ pháp. Để phản ánh được
chính xác tất cả các quan hệ ngữ pháp thì cần có một bộ từ loại rất lớn. Nhưng càng nhiều chú
thích từ loại thì công việc gán nhãn càng khó khăn. Bởi vậy cần phải có một sự thoả hiệp để đạt
được một bộ chú thích từ loại không quá lớn và có chất lượng.
Chúng tôi chọn làm việ
c với hai bộ từ loại. Trước hết là sử dụng bộ chú thích 8 từ loại
(danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) được cộng đồng ngôn ngữ học
thoả hiệp tương đối, trình bày trong cuốn Ngữ pháp tiếng Việt [18] và được chú thích cụ thể cho
từng mục từ trong [7].
Bộ từ loại thứ hai
được xây dựng bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ
loại. Ban đầu chúng tôi dùng ngay cách chia thành tiểu loại trong [18].
Những chú thích từ loại được chọn như trên sau đó được phản ánh đầy đủ trong Từ điển
từ vựng, làm cơ sở dữ liệu cho chương trình tự động xác định ý nghĩa danh từ, động từ , động từ
nội động hay động từ ngoạ
i động của mỗi từ khi phân xuất trực tiếp trong văn bản. Cùng với từ
điển này là kho văn bản đã được chúng tôi gán nhãn bằng tay sau khi đã chạy chương trình tách
từ và xác định tất cả các nhãn có thể tìm được trong từ điển cho mỗi từ.
Trong quá trình xác định nhãn cho từng từ trong văn bản cụ thể, chúng tôi nhận thấy sự
cần thiết phải bổ sung thêm một số nhãn từ
loại để tránh trường hợp một từ mang cùng một lúc
nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội động chỉ cảm
nghĩ). Như vậy quá trình xây dựng tập mẫu cũng đồng thời là quá trình điều chỉnh việc phân chia
từ loại hợp lí hơn. Hiện tại chúng tôi làm việc với bộ nhãn từ loạ
i ở mức mịn hơn gồm 47 từ loại
và bổ sung một nhãn cho các từ chưa xác định được từ loại.
3.4 Phân tách từ trong văn bản tiếng Việt
3.4.1 Đặt bài toán.
Cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ vựng (từ), hoặc chỉ ra
những âm tiết nào không có trong từ điển (phát hiện đơn vị từ vựng mới).
Để giải quyết bài toán đặt ra, chúng tôi sử dụng tập dữ liệu gồm bảng âm tiết tiếng Việt
(khoảng 6700 âm tiết) và từ điển từ vựng tiếng Việt (khoảng 30.000 từ). Các từ điển được lưu
dưới dạng các tệp văn bản có định dạng mã TCVN hoặc Unicode dựng sẵn (UTF-8). Chương
trình xây dựng bằng Java, mã nguồn mở (liên hệ nhóm tác giả).
3.4.2 Các bước giải quyết
Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt
Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt.
Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích và sử
dụng thuật toán tìm kiếm trên đồ thị để liệt kê các cách phân tích có thể.
Bảng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cung chuyển được ghi
trên đó một ký tự. Ví dụ, với ba âm tiết phương, pháp, trình ta sẽ có ôtômát đoán nhận âm tiết
như Hình 3-1.
Hình 3-1. Xây dựng ôtômát âm tiết
3.4.2.1 Thuật toán xây dựng ôtômát âm tiết
Input: Từ điển âm tiết
Output: Ôtômát âm tiết.
Thuật toán:
1.
Lập trạng thái khởi đầu
0
q ;
2.
Vòng lặp đọc cho tới khi hết tệp dữ liệu, lấy ra từng âm tiết. Gọi các ký tự của âm tiết đó
là
01 1
, , , .
n
cc c
−
a.
0
:;:0;pqi==
b.
Vòng lặp trong khi ( 1in
≤
− )
i.
Lấy ra ký tự
i
c ;
ii.
Tìm trong các cung chuyển từ trạng thái
p
cung trên đó ghi ký tự
i
c .
Nếu có cung
(,)
p
q như thế:
1.
:1;ii=+
2.
:;
p
q=
iii.
Nếu không có cung
(,)
p
q
nào như thế thì thoát khỏi vòng lặp b.
c.
Với
j
từ i đến 1n−
i.
Tạo mới trạng thái
q
, ghi nhận
q
là trạng thái không kết;
ii.
Thêm cung chuyển (,)
p
q trên đó ghi ký tự
j
c ;
iii.
:;
p
q=
d.
Ghi nhận q là trạng thái kết;
Ôtômát từ vựng được xây dựng tương tự, với điểm khác như sau: thay vì ghi trên mỗi
cung chuyển một âm tiết, ta ghi số hiệu của trạng thái (kết) của ôtômát âm tiết tại đó đoán nhận