i
LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản
thân. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu rõ
nguồn gốc một cách rõ ràng trong danh mục tài liệu tham khảo được đề cập ở
phần sau của luận án. Những đóng góp trong luận án là kết quả nghiên cứu của
tác giả đã được công bố trong các bài báo của tác giả ở phần sau của luận án và
chưa được công bố trong bất kỳ công trình khoa học nào khác.
Tác giả luận án
Phan Thị Hà
ii
Lời cảm ơn
Trước tiên, tôi muốn gửi lời cảm ơn đến Thầy Cô giáo hướng dẫn của tôi,
PGS.TS Trần Hồng Quân, TS Nguyễn Thị Minh Huyền. Thầy, Cô đã tận tình
chỉ bảo tôi từ những việc tưởng chừng đơn giản như cách thức thu thập tài liệu
tham khảo cho đến phương pháp nghiên cứu hoa học. Sự tận tình hướng dẫn,
cộng với sự động viên, khích lệ thường xuyên của Th
ầy Cô đã giúp tôi tự tin,
say mê hơn trong con đường nghiên cứu khoa học. Tôi cảm thấy thực sự trưởng
thành sau những năm được học tập và nghiên cứu dưới sự hướng dẫn của Thầy
cô, một lần nữa em xin được cảm ơn Thầy Cô và kính chúc Thầy Cô luôn mạnh
khỏe, hạnh phúc, thành công trên mọi lĩnh vực, đặc biệt là trên con đường khoa
học. Mong rằng sẽ có nhiều lớp nghiên cứu sinh lại ti
ếp tục được Thầy Cô
hướng dẫn trong những năm tiếp theo.
Tôi xin chân thành cảm ơn Tập đoàn Bưu Chính Viễn Thông, Ban lãnh đạo
Học viện Công nghệ Bưu Chính Viễn Thông đã động viên và tạo điều kiện
thuận lợi cho tôi trong suốt quá trình thực hiện luận án.
Tôi cũng muốn bày tỏ lòng biết ơn đối với tập thể các Thầy Cô khoa Công
nghệ Thông tin và các Thầy Cô Khoa Đào tạo Sau Đạ
i học, Học Viện Công
nghệ Bưu Chính Viễn Thông, nơi tôi làm việc và học tập trong những năm qua.
Các Thầy Cô luôn tạo điều kiện để tôi hoàn thành tốt công việc của mình, và sự
dạy dỗ của Quí thầy cô đã giúp tôi trưởng thành.
Xin bày tỏ lời cảm ơn của tôi đến các chuyên gia về xử lý ngôn ngữ tự nhiên,
dự án KC01.01/06-10, trung tâm từ điển VietLex đã hỗ trợ việc thu thập tài liệ
u
và các góp ý hữu ích về ý tưởng và kỹ thuật phục vụ cho nghiên cứu của tôi.
Cuối cùng, chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên,
hỗ trợ về mặt tinh thần để tôi vượt qua khó khăn và hoàn thành tốt luận án.
iii
MỤC LỤC
MỤC LỤC iii
DANH MỤC HÌNH VẼ vi
DANH MỤC BẢNG vii
DANH MỤC CỤM TỪ VIẾT TẮT viii
MỞ ĐẦU x
Đặt vấn đề x
Mục tiêu và phạm vi nghiên cứu của luận án xiii
Kết quả đạt được xiv
Bố cục của luận án xv
CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU 1
1.1 Kho ngữ liệu văn bản 1
1.2 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu 5
1.2.1 Thu thập kho ngữ liệu văn bản 5
1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa 7
1.2.3 Khai thác kho ngữ liệu 9
1.3 Kho ngữ liệu tiếng Việt 13
1.3.1 Hiện trạng 13
1.3.2 Các vấn đề được nghiên cứu trong luận án 13
1.4 Kết chương 17
CHƯƠNG 2. XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET 18
2.1 Giới thiệu 18
2.2 Xây dựng kho ngữ liệu thô tiếng Việt 18
2.2.1 Lựa chọn danh sách từ hạt giống 19
2.2.2 Thu thập địa chỉ URL 21
2.2.3 Lọc nội dung chính của các trang web (URLs) 23
2.2.4 Phát hiện sự trùng lặp gần nhau 28
2.2.5 Xây dựng công cụ và kết quả thu thập kho ngữ liệu 32
2.3 Kết chương 32
iv
CHƯƠNG 3. CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT 34
3.1 Giới thiệu 34
3.2 Mô hình MAF của ISO/TC 37/SC 4 34
3.3 Mô hình SynAF của ISO/TC 37/SC 4 36
3.4 Chuẩn hóa theo mô hình MAF cho tiếng Việt 38
3.4.1 Xác định đơn vị cơ sở (segment) 41
3.4.2 Hình thái từ (Wordform) 41
3.4.3 Nội dung hình thái cú pháp 42
3.5 Chuẩn hóa theo mô hình SynAF cho tiếng Việt 42
3.6 Kết chương 50
CHƯƠNG 4. KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ
VỰNG TIẾNG VIỆT
51
4.1 Giới thiệu 51
4.1.1 Nghiên cứu từ vựng 51
4.1.2 Sketch Engine 52
4.1.3 Ngữ liệu trong Sketch Engine 53
4.2 Xây dựng ngữ liệu tiếng Việt cho Sketch Engine 56
4.2.1 Tách từ và gán nhãn từ loại 56
4.2.2 Xây dựng bộ quan hệ ngữ pháp tiếng Việt 57
4.2.3 Triển khai hệ thống Sketch Engine cho tiếng Việt 64
4.2.4 Đánh giá bộ quan hệ ngữ pháp tiếng Việt 67
4.3 Kết chương 67
CHƯƠNG 5. KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN
TÍCH CÚ PHÁP TIẾNG VIỆT
69
5.1 Giới thiệu 69
5.2 Văn phạm hình thức 70
5.2.1 Khái niệm chung về văn phạm 70
5.2.2 Văn phạm phi ngữ cảnh (Context Free Grammar - CFG) 72
5.2.3 Văn phạm kết nối cây (Tree Adjoining Grammar – TAG) 74
5.3 Trích rút tự động văn phạm CFG cho tiếng Việt 77
v
5.3.1 Thuật toán trích rút từ VietTreebank 77
5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG 86
5.3.3 Thử nghiệm và đánh giá 89
5.3.4 Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp 90
5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt 90
5.4.1 Thuật toán trích rút từ VietTreebank 90
5.4.2 Xây dựng thuật toán trích rút từ từ điển tiếng Việt 100
5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank và từ điển 105
5.5 Kết chương 107
KẾT LUẬN 109
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN
QUAN ĐẾN LUẬN ÁN 112
TÀI LIỆU THAM KHẢO 113
PHỤ LỤC 125
vi
DANH MỤC HÌNH VẼ
Hình 3. 1 Mô hình tổng quan của MAF [59] 35
Hình 3. 2. Mô hình SynAF [60] 38
Hình 4. 1 Danh sách tần suất và tính trội của các từ lân cận với tính từ “đẹp” 65
Hình 4. 2. Phác thảo thông tin của 2 từ ”đẹp”, ”xinh” 66
Hình 4. 3. Một số danh sách các từ có quan hệ ngữ pháp với tính từ “đẹp” 67
Hình 5. 1 Biểu diễn văn phạm G dưới dạng cây 73
Hình 5. 2. Phép thay thế 75
Hình 5. 3. Phép kết nối 75
Hình 5. 4.Ví dụ về dẫn xuất với phép kết nối và phép thế trong văn phạm TAG 76
Hình 5. 5. Xử lý các cụm từ bằng thuật toán 5.5 94
Hình 5. 6. Ví dụ minh họa việc xây dựng cây phân tích 94
Hình 5. 7. Cây phân tích cú pháp 95
Hình 5. 8. Cây phân tích của cây cú pháp trong hình 5.7 sau khi chèn thêm nút 95
Hình 5. 9.Các mẫu cây cơ sở spine (ứng với quan hệ đối–vị từ) và phụ trợ (ứng với quan hệ
phụ trợ hoặc đẳng lập) 96
Hình 5. 10. Các cây cơ bản 97
Hình 5. 11. Ghép các nút liên kết, đường đi trung tâm được đánh dấu bởi nét đôi 98
Hình 5. 12. Số mẫu cây tăng dần theo kích thước của Treebank: 100
Hình 5. 13. Sơ đồ so sánh tập cây cơ bản 105
Hình 5. 14. Một cây cơ bản không hợp lệ 106
vii
DANH MỤC BẢNG
Bảng 1. 1. Thống kê các kho ngữ liệu đơn ngữ tiếng Việt 13
Bảng 2. 1. Thống kê số URL thu được của thuật toán 2.1 21
Bảng 2. 2. Tỷ lệ văn bản và thẻ xuất hiện trong phần nội dung chính của một số trang web
tin tức Việt Nam 25
Bảng 2. 3. So sánh tỷ lệ “nội dung chính văn bản cần lấy/ toàn bộ nội dung văn bản trích
rút được” 27
Bảng 2. 4. Kết quả thống kê thu thập tự động kho ngữ liệu từ web 32
Bảng 3. 1.Tập từ loại được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 40
Bảng 3. 2. Tập nhãn cú pháp thành phần, nhãn phân loại câu được đối sánh với danh mục
phân loại dữ liệu chuẩn ISO 12620 44
Bảng 3. 3.Tập nhãn chức năng cú pháp đối sánh với danh mục phân loại dữ liệu chuẩn ISO
12620 45
Bảng 5. 1. Quá trình trích rút luật theo thuật toán 5.1 81
Bảng 5. 2 Số các luật thu được 89
Bảng 5. 3.Bảng thành phần trung tâm cho treebank tiếng Việt 92
Bảng 5. 4 Danh sách các đối 93
Bảng 5. 5. .Ghép một số nhãn cú pháp của VietTreebank thành một 98
Bảng 5. 6. Hai văn phạm G1, G2 được trích rút từ VietTreebank 100
Bảng 5. 7. Thống kê bộ cây cơ bản Spin từ từ điển so sánh với cây cơ bản của
VietTreebank
105
viii
DANH MỤC CỤM TỪ VIẾT TẮT
Cụm từ
viết tắt
Cụm từ đầy đủ tiếng Anh Dich tiếng Việt
ANC The American National Corpus Kho ngữ liệu Quốc gia Mỹ
API Application Programming
Interface
Giao diện lập trình ứng dụng
BNC The British National Corpus Kho ngữ liệu Anh ngữ
BTE Body Text Extraction Trích văn bản phần thân
CES Copus Encoding Standard Tiêu chuẩn mã hóa kho ngữ liệu
COCA The Copus of Contemporary
American English
Kho ngữ liệu Anh Mỹ hiện đại
CRF Conditional Random Field Trường ngẫu nhiên có điều kiện
HMM Hidden Markov Model Mô hình Markov ẩn
HTML HyperText Markup Language Ngôn ngữ đánh dấu siêu văn bản
I/O Input/Output Đầu vào/ đầu ra
ISO International Organization for
Standardization
Tổ chức tiêu chuẩn hóa Quốc tế
LAF Linguistic Annotation
Framework
Khung chú giải ngôn ngữ học
LDC Linguistic Data Consortium Tổ chức dữ liệu ngôn ngữ học
MAF Morphosyntactic Annotation
Framewor
Khung chú giải hình thái cú pháp
MD5 Message Digest 5 Tóm tắt thông điệp
MDFA Minimal deterministic finite state
automata
Otomat hữu hạn trạng thái tối
thiểu
MEM Maximum Entropy Model Mô hình Entropy cực đại
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
ix
POS Part-Of-Speech Từ loại
SGML Standard Generalized Markup
Language
Ngôn ngữ đánh dấu tổng quát hóa
chuẩn
SynAF Syntactic Annotation Framework Mô hình chú giải cú pháp
URL Uniform Resource Locator Định vị tài nguyên đồng nhất
WFST Weighted Finit State Transducer Máy chuyển hữu hạn trạng thái có
trọng số
WWW Worl Wide Web Mạng toàn cầu
XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng
CFG Context Free Grammar Văn phạm phi ngữ cảnh
PCFG Probability Context Free
Grammar
Văn phạm phi ngữ cảnh kết hợp
xác suất
TAG Tree Adjoining Grammar Văn phạm kết nối cây
LTAG Lexicalized Tree Adjoining
Grammar
Văn phạm kết nội cây từ vựng hóa
CYK Cocke – Younger – Kasami
algorithm
Thuật toán CYK
SSL Semi-supervised learning Học bán giám sát
x
MỞ ĐẦU
Đặt vấn đề
Những năm gần đây, xử lý ngôn ngữ tự nhiên (XLNNTN) đã trở thành một
lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên
quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá
văn bản, Web ngữ nghĩa, tóm tắt văn bản v.v.
Các nghiên cứu và ứng dụng về xử lý ngôn ngữ trên thế giới đã có một lịch
sử lâu dài và được chia thành các giai đoạ
n chính như sau [41]: Thời kỳ đầu tiên,
bắt đầu từ những năm 1940-1950 mô hình ôtomat và các mô hình xác suất có ảnh
hưởng sâu sắc đến xử lý ngôn ngữ. Giai đoạn tiếp theo (1957-1970) xử lý ngôn ngữ
được chia thành hai nhánh tách biệt, nhánh hình thức tập trung vào các vấn đề
thuộc lĩnh vực lý thuyết ngôn ngữ hình thức và trí tuệ nhân tạo; kiểu ngẫu nhiên sử
dụng trong nhận dạng như các phương pháp Bayes. Giai đoạn 1970-1983 xuất hiện
bố
n trường phái xử lý ngôn ngữ chính, đó là sử dụng phương pháp ngẫu nhiên; dựa
vào logic; hiểu ngôn ngữ tự nhiên; mô hình hóa diễn ngôn. Giai đoạn 1983-1993
việc huấn luyện các mô hình trạng thái hữu hạn, các mô hình xác suất dựa vào dữ
liệu đã xuất hiện hầu hết trong các nhiệm vụ của xử lý ngôn ngữ.
Từ những năm 1990 trở lại đây, mô hình thống kê dựa vào dữ liệu đã chứng
tỏ
tính vượt trội của mình trong các công việc của xử lý ngôn ngữ [98, 99]. Công
nghệ xử lý văn bản và xử lý tiếng nói không còn cách biệt, công nghệ xử lý tiếng
nói không chỉ dựa vào các kỹ thuật xử lý tín hiệu mà còn dựa vào cả việc hiểu ngôn
ngữ. Tham số của mô hình thống kê hoặc mô hình trạng thái có thể huấn luyện từ
các kho ngữ liệu lớn, nhiều mô hình gần đây được chứng tỏ có hiệu quả
cao như
Maximum Entropy Markov Model (MEMM), Conditional Random Fields (CRF)
[70, 71] v.v.
Vấn đề phân tích và hiểu tự động văn bản là một vấn đề lớn và phức tạp
trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lý
văn bản tự động. Quá trình này thường được chia thành các mức cơ bản [41]: Mức
xi
ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa và mức ngữ dụng.
Mức ngữ âm (phonetics and phonology). Nghiên cứu về cách phát âm, bản
chất thanh điệu, ngôn điệu, ngữ điệu, trường độ âm tiết, độ nhấn, biến thanh… của
các từ;
Mức hình thái từ
(morphology). Nhằm phân tích hình thái các từ vựng tạo
nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ;
Mức cú pháp (syntax). Mô tả quan hệ vai trò ngữ pháp của các từ, các cụm
từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu;
Mức ngữ nghĩa
(semantics). Mục đích của mức này là kiểm tra ý nghĩa của
câu có mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về
nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ
xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn;
Mức ngữ dụng (pragmatics). Mục đích là phân tích
để xác định ý nghĩa của
câu dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc
rất nhiều vào ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích này rất khó thực
hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ
nghĩa, còn việc phân tích ngữ dụng do người dùng tự quyết định;
Mức diễn ngôn (discourse). Phân tích về mặ
t diễn đạt và ngữ cảnh tình
huống trong một đoạn phát ngôn.
Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn (corpora) đã được ra
đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ. Tuy nhiên, mỗi mức
xử lý cần các kho ngữ liệu với những yêu cầu đặc trưng riêng, ví dụ, với mức hình
thái từ thì cần có kho ngữ liệu huấn luyện (đ
ã được chú giải hình thái) càng lớn
càng tốt, kho ngữ liệu lớn sẽ cải thiện được độ chính xác mô tả thông tin ngôn ngữ,
với mức cú pháp, đòi hỏi phải xây dựng được kho ngữ liệu đã được chú giải từ loại
hoặc cú pháp.
Hiện nay trên thế giới đã tồn tại nhiều kho ngữ liệu chuẩn. Nhiều kho ngữ
liệu được xây dựng cho tiếng Anh tiêu biểu là BNC [37], ANC [58], Penn Treebank
xii
[79], WordNet [53] v.v. Các thứ tiếng Ấn-Âu khác cũng được nghiên cứu từ nhiều
thập kỉ và nhiều kho ngữ liệu lớn đã được xây dựng làm cơ sở dữ liệu huấn luyện
cho các mô hình học máy. Nhiều quốc gia ở châu Á hay trong khu vực đã đầu tư
lớn cho nghiên cứu xử lý tiếng nói và ngôn ngữ của họ như là dự án từ điển điện tử
của Nhật B
ản EDR (1982-1992) [55]. Dự án dịch Anh-Hoa, Nhật-Hoa, vv. của
Trung Quốc, dự án xây dựng Chinese Treebank [18], Wordnet đã hoàn thành cho
tiếng Hoa với các chú giải ngữ pháp đầy đủ. Với tiếng Thái cũng có nhiều kho ngữ
liệu mở đã được xây dựng [90]. Đây là những ngôn ngữ có những tương đồng với
tiếng Việt và ta có thể học được nhiều từ thành bại của các kỹ thuật xử lý tiếng nói
và ngôn ngữ cho hai thứ tiếng này
để phục vụ cho việc xây dựng và khai thác kho
ngữ liệu tiếng Việt.
Đối với tiếng Việt, nhóm tác giả Hồ Tú Bảo & Lương Chi Mai [3] cho thấy
vấn đề xử lý ngôn ngữ tự nhiên còn hạn chế, chủ yếu tập trung vào các sản phẩm
cuối, ít nghiên cứu về cơ sở hạ tầng cho xử lý ngôn ngữ cũng như các công cụ và tài
nguyên như từ điển máy tính, kho ngữ liệu…, nhữ
ng thứ mà cộng đồng quốc tế cho
là không thể thiếu được cho xử lý ngôn ngữ. Đây chính là mục tiêu của đề tài nhà
nước KC01/06-10 [100] về xử lý ngôn ngữ và tiếng nói Việt giai đoạn 2007-2009.
Đề tài tập trung vào nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý
tiếng nói và văn bản tiếng Việt. Trong đó, nhánh đề tài xử lý văn bản tập trung vào
mức hình thái và mức cú pháp xây dựng m
ột số sản phẩm thiết yếu cho xử lý văn
bản tiếng Việt, như: Từ điển tiếng Việt dùng cho máy tính, kho ngữ liệu tiếng Việt,
kho ngữ liệu câu tiếng Anh-Việt phổ quát-chuyên ngành, hệ phân đoạn từ tiếng
Việt, hệ phân cụm từ tiếng Việt, hệ phân tích câu tiếng Việt. Phương pháp xây dựng
kho ngữ liệu mà đề tài hướng tới là thủ công hoặ
c bán thủ công, kho ngữ liệu đã
được chú giải ở mức từ loại và cú pháp, có kích thước hạn chế, chủ yếu là sử dụng
làm dữ liệu huấn luyện cho các mô hình học máy có giám sát trong các công cụ xử
lý ngôn ngữ. Để có thể sử dụng làm dữ liệu huấn luyện trong các mô hình bán giám
sát và nghiên cứu ngôn ngữ Việt đòi hỏi phải xây dựng được các kho ngữ liệu tiếng
Việt có kích thước lớn hơn r
ất nhiều, công việc này không thể thực hiện bằng
xiii
phương pháp thủ công vì như thế tốn rất nhiều thời gian và công sức, các kho ngữ
liệu như thế cho tiếng Anh các thứ tiếng khác đã được xây dựng tự động từ Internet,
chúng ta có thể học tập để xây dựng cho tiếng Việt. Hơn nữa, để dễ dàng sử dụng,
mở rộng và đối sánh ngôn ngữ thì các kho ngữ liệu tiếng Việt cũng phải hướng tới
vấn
đề chuẩn hóa quốc tế. Song song với nỗ lực của đề tài này, luận án đã tập trung
vào chủ đề xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử
lý tiếng Việt.
Mục tiêu và phạm vi nghiên cứu của luận án
Như đã trình bày sơ bộ ở trên, việc hiểu tự động văn bản là một việc khó và
phức tạp, chỉ có thể làm theo nhiều bước tuần tự, bước sau chỉ thực hiện được sau
khi bước trước đã có kết quả. Chẳng hạn như các chương trình dịch tự động trên thế
giới đã được theo đuổi hàng hơn chục năm và chặng đườ
ng đến đích cuối vẫn còn
rất xa, nếu chúng ta muốn làm dịch tự động Anh-Việt, bắt buộc chúng ta đi qua các
tầng của xử lý ngôn ngữ đã đề cập ở trên.
Mục tiêu mà luận án nhắm đến là xây dựng và khai thác kho ngữ liệu tiếng
Việt, cụ thể là:
- Xây dựng kho ngữ liệu thô có kích thước lớn
- Xây dựng chuẩn hóa mô hình chú giải tiếng Việt.
- Khai thác kho ngữ
liệu thô cho nghiên cứu từ vựng.
- Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán phân tích
cú pháp tiếng Việt.
Để đạt được mục tiêu trên, phạm vi nghiên cứu của luận án tập trung vào
các công việc thuộc mức hình thái từ và mức cú pháp trong phân tích và hiểu tự
động văn bản, cụ thể là:
- Nghiên cứu xây dựng kho ngữ liệu có kích thước lớn (kho ngữ liệu thô
hoặc đã chú giải ngôn ngữ) từ Intermet thông qua các trang web.
xiv
- Nghiên cứu xây dựng và triển khai chuẩn hóa mô hình chú giải được
phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 [114] cho tiếng Việt
phục vụ việc phân phối và trao đổi ngữ liệu.
- Triển khai một hệ thống truy vấn kho ngữ liệu tiếng Việt để nghiên cứu
ngữ cảnh và hành vi của mỗi từ phục vụ cho nghiên cứu từ vựng. Bên
cạnh kho ngữ liệu có kích thước lớn, đã được chú giải (từ loại), công
việc này còn đòi hỏi xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt
được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệ
u.
- Nghiên cứu và phát triển thuật toán trích rút tự động các luật văn phạm
từ kho ngữ liệu đã chú giải cú pháp hoặc cung cấp thông tin cú pháp
phục vụ cho phân tích cú pháp sử dụng hệ hình thức văn phạm phi ngữ
cảnh kết hợp xác suất (PCFG) và văn phạm kết nối cây (TAG).
Kết quả đạt được
Luận án đã đạt được các kết quả sau.
1. Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho
ngữ liệu. Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có
tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ
Internet (100 triệu từ), công cụ này được công bố tại địa chỉ
2. Xây dựng, triển khai các mô hình chuẩn hóa qu
ốc tế về quản lý tài
nguyên ngôn ngữ được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4
cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp
(MAF- Morphosyntactic Annotation Framework) và mô hình chú giải
mức cú pháp (SynAF-Syntactic Annotation Framework) cho tiếng Việt.
3. Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ
pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng
từ Internet (kho ngữ liệu thô được gán nhãn từ lo
ại bằng cách sử dụng
công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng
xv
Việt vào hệ thống nghiên cứu từ vựng Sketch Engine. Bảng đánh giá chi
tiết của mỗi truy vấn tương đương với mỗi mẫu cú pháp cơ bản được liệt
kê trong phụ lục 1;
4. Xây dựng thuật toán, hệ thống trích rút tự động các luật văn phạm phi
ngữ cảnh kết hợp xác suất (PCFG) từ kho văn bản đã gán nhãn cú pháp
VietTreebank. Đồng thời xây dựng hệ thống phân tích cú pháp các câu
ti
ếng Việt theo phương pháp thống kê trên văn phạm PCFG, trong đó
thuật toán phân tích cú pháp đã được cải tiến từ thuật toán PCYK của
Martin. Hệ thống này được công bố tại địa chỉ
Tham gia triển khai
thuật toán trích rút cây cơ bản của văn phạm kết nối cây (TAG) từ
VietTreebank. Xây dựng và triển khai thuật toán trích rút cây cơ bản cho
văn phạm TAG từ từ điển tiếng Việt. So sánh tập cây cơ bản trích rút từ
VietTreebank và từ điển tiếng Việt để lọc ra các cây cơ bản không hợp
lệ với cấu trúc ngữ pháp tiếng Việt và đánh giá độ tốt của VietTreebank
c
ũng như từ điển.
Bố cục của luận án
Ngoài mở đầu và kết luận, luận án được chia thành năm chương.
Chương 1. Tổng quan về kho ngữ liệu: Trình bày khái niệm về kho ngữ
liệu; Giới thiệu một số kho ngữ liệu đã chú giải từ loại và cú pháp trên thế
giới, phương pháp chung cho việc xây dựng các kho ngữ liệu này. Trình bày
một số chuẩn hóa mô hình chú giải được phát triển bởi tiểu ban kỹ thuật
ISO/TC 37/SC 4 [114]. Trên cơ sở
đó xác định mục tiêu cho việc xây dựng
và khai thác kho ngữ liệu từ Internet cho tiếng Việt.
Chương 2. Xây dựng kho ngữ liệu thô từ Internet:Trong chương này
trình bày cụ thể việc xây dựng kho ngữ liệu thô tiếng Việt từ Internet thông
qua các trang Web.
xvi
Chương 3. Chuẩn hóa mô hình chú giải tiếng Việt: Nghiên cúu mô hình
chú giải MAF và SynAF được phát triển bởi ISO/ TC 37/ SC 4, từ đó xây
dựng và triển khai chuẩn hóa mô hình chú giải hình thái cú pháp (MAF) và
chuẩn hóa mô hình chú giải cú pháp (VnSynAF) cho tiếng Việt.
Chương 4. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng
Việt: Nghiên cứu hệ thống truy vấn kho ngữ liệu có tên là Sketch Engine
phục vụ cho nghiên cứu từ vựng, xây dựng ngữ liệu tiếng Việt cho h
ệ thống
Sketch Engine.
Chương 5. Khai thác kho ngữ liệu có chú giải cho phân tích cú pháp
tiếng Việt: Trong chương này trình bày kiến thức cơ bản về văn phạm
PCFG, LTAG. Trích rút tự động các luật văn phạm CFG cho tiếng Việt, trích
rút tự động văn phạm LTAG cho tiếng Việt.
Cuối cùng là phần kết luận và định hướng của luận án.
Các chương luận án là tổng hợp nội dung các bài báo công bố các kết quả
nghiên c
ứu được thực hiện trong luận án (chương 2 với bài báo (4, 6), chương 3 với
bài báo (1), chương 4 với bài báo
(4), chương 5 với bài báo (2, 3, 5)).
1
CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU
1.1 Kho ngữ liệu văn bản
Kho ngữ liệu văn bản bao gồm một tập hợp lớn các văn bản, có thể được phân
tích và xử lý phục vụ nhiều công việc của ngôn ngữ học tính toán. Thông tin ngôn
ngữ trong đó là cơ sở tri thức ngôn ngữ học, được sử dụng trong việc phân tích
thống kê và kiểm tra các giả thiết ngôn ngữ, kiểm tra sự xuất hiện hoặc xác nhận
các quy tắc ngữ pháp trong mỗi ngôn ngữ.
Kho ngữ
liệu có thể chứa các văn bản của một ngôn ngữ (kho ngữ liệu đơn ngữ)
hoặc chứa các văn bản của nhiều ngôn ngữ (kho ngữ liệu đa ngữ).
Nội dung của các kho ngữ liệu được lấy từ nhiều lĩnh vực như kinh tế, xã hội,
văn hóa, kỹ thuật v.v. Đa số, kho ngữ liệu có nguồn gốc từ tạp chí, báo, sách giáo
khoa, báo đi
ện tử, web….Những năm gần đây đã chứng tỏ Web là nguồn tài nguyên
ngôn ngữ khổng lồ, việc thu thập dữ liệu Web lại có ưu điểm là cho phép cập nhật
ngữ liệu thường xuyên, phát hiện những hiện tượng ngôn ngữ đa dạng và phong phú
một cách khách quan hơn so với thu thập dữ liệu truyền thống. Phương pháp thu
thập kho ngữ liệu t
ừ web cho tiếng Anh và một số ngôn ngữ phổ biến khác đã được
giới thiệu trong một số nghiên cứu [20, 24, 25, 88].
Mỗi kho ngữ liệu được xây dựng, định dạng theo tiêu chí riêng nhưng vẫn phải
tuân thủ theo một số tiêu chuẩn chung. Chẳng hạn, xây dựng kho ngữ liệu cho việc
nghiên cứu từ vựng và xây dựng từ điển thì kho ngữ liệu phải có kích thước càng
lớn càng tốt. Để có th
ể sử dụng hữu ích trong lĩnh vực thống kê, các kho ngữ liệu
văn bản phải được tách từ và chú giải ngôn ngữ ở các mức: mức từ loại (POS) mức
cú pháp nông hoặc đầy đủ. Các kho ngữ liệu chú giải ở mức cú pháp còn được gọi
là ngân hàng cây cú pháp (treebank).
Treebank - kho văn bản mà trong đó mỗi câu được chú giải cấu trúc cú pháp,
thông thường dưới dạng cấu trúc cây phân cấp, là nguồn tài nguyên rất h
ữu ích
trong lĩnh vực xử lý ngôn ngữ tự nhiên. Treebank có nhiều ứng dụng quan trọng
như đánh giá, kiểm định các công cụ xử lý ngôn ngữ tự động, các phần mềm dịch
2
máy, tóm tắt văn bản, các hệ thống hỏi đáp… Các hệ thống treebank [18] cho các
thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Hoa… đã được xây dựng từ lâu.
Các treebank có thể được chú giải 2 dạng cấu trúc cú pháp, đó là cấu trúc phụ thuộc
và cấu trúc thành phần.
Các cây cú pháp thường được mã hóa theo hai cách. Cách thứ nhất đơn giản sử
dụng cấu trúc dấu ngoặc, theo cách này mỗi thành phần cú pháp sẽ có một cặp dấu
ngo
ặc bao quanh. Cách thứ hai là sử dụng lược đồ mã hóa XML (eXtended Markup
Language). Cách này đã được nghiên cứu kỹ lưỡng và được áp dụng vào một số dự
án về xử lý ngôn ngữ của Châu Âu [102].
Hiện nay trên thế giới có rất nhiều kho ngữ liệu được chia sẻ miễn phí cho cộng
đồng nghiên cứu. Dưới đây sẽ liệt kê một số kho ngữ liệu tiêu biểu.
Kho ngữ liệu Anh Mỹ (Brown Copus)
Kho ng
ữ liệu Brown cho tiếng Anh Mỹ (Brown Corpus) [97] là kho ngữ liệu
văn bản đã được Henry Kucera và W. Nelson Francis biên soạn vào những năm
1960. Kho văn bản này chứa 500 văn bản tiếng Anh, biên soạn từ các tác phẩm xuất
bản tại Hoa Kỳ năm 1961, tổng cộng 1.014.312 từ, được chú giải ở mức từ loại.
Kho ngữ liệu tiếng Anh (BNC - The British National Corpus)
Kho ngữ liệu này [103] có khoảng 100 triệu từ củ
a ngôn ngữ nói và viết được
lấy từ nhiều nguồn dữ liệu khác nhau, trong đó kho ngữ liệu viết chiếm 90 % đã
được gán nhãn từ loại được trích rút từ báo chí nội địa và Quốc gia, tạp chí dành
cho mọi lứa tuổi, sách giáo khoa….Kho ngữ liệu này bắt đầu được xây dựng từ năm
1991 và hoàn thành năm 1994, sau đó thì không có văn bản nào được thêm vào kho
ngữ liệu trong dự án này này nhưng kho ngữ liệu này đã được ch
ỉnh sửa thành một
phiên bản thứ hai là BNC Wold (2001) và phiên bản thứ ba BNC XML Edition
(2007).
Kho ngữ liệu quốc gia Mỹ (ANC - The American National Corpus)
Kho ngữ liệu này [104] hiện có 22 triệu từ thuộc ngôn ngữ viết và nói, được chú
giải ở mức từ loại, cú pháp nông, và các chú giải tên thực thể… khung chú giải
3
ngôn ngữ của kho ngữ liệu được cung cấp theo các tiêu chuẩn thiết lập bởi tiểu ban
kỹ thuật ISO/TC 37/SC4, sử dụng định dạng XML phù hợp với tiêu chuẩn mã hoá
kho ngữ liệu XML (XML Corpus Encoding Standard -XCES) [105], hiện nay có
khoảng 15 triệu từ đã được định dạng GrAF (Graph Annotation Fortmat)
Hiện tại dự án xây dựng ANC đang tiếp tục được mở rộng thêm, mục đích là tạo
ra một bộ sư
u tập điện tử khổng lồ toàn diện nhất của tiếng Anh Mỹ, sẽ là nguồn tài
nguyên hữu ích phục vụ cho giáo dục, cho nghiên cứu ngôn ngữ và phát triển công
nghệ. Kho ngữ liệu bao gồm văn bản của tất cả các thể loại và bảng dịch của dữ liệu
nói được sản xuất từ năm 1990 trở đi.
Kho ngữ liệu Anh Mỹ hiện đại
(COCA - The Copus of Contemporary
American English)
Kho ngữ liệu hiện đại COCA [106] là kho ngữ liệu lớn nhất cho tiếng Anh Mỹ,
có khoảng hơn 425 triệu từ và dữ liệu được lấy đều từ các nguồn tiểu thuyết, nói,
các tạp chí nổi tiếng, báo chí, và các văn bản học thuật, được xây dựng từ năm
1990-2011, kho ngữ liệu được cập nhật một đến hai lần trong một năm (các văn bản
g
ần đây nhất là từ tháng 3 năm 2012), mỗi năm lấy khoảng 20 triệu từ. Do cách cập
nhật, thiết lập dữ liệu, đây có lẽ là kho ngữ liệu tiếng Anh phù hợp để nhìn vào hiện
tại, thay đổi đang diễn ra trong ngôn ngữ.
Ngân hàng cây cú pháp PE
NN
Kho ngữ liệu này [18] được xây dựng trong 8 năm (1989-1996), có khoảng 7
triệu từ đã được gán nhãn từ loại, 3 triệu từ đã được phân tích cú pháp cơ bản, trên 2
triệu từ của văn bản đã phân tích cú pháp cho cấu trúc đối vị từ, 1.6 triệu từ là dữ
liệu tiếng nói (phiên âm). Dữ liệu văn bản định dạng dưới dạng đặt ngoặc, mỗi câu
trong kho ngữ liệu sẽ được
đặt ngoặc - mỗi thành phần cú pháp sẽ có một cặp dấu
ngoặc bao quanh, ngay sau dấu ngoặc đầu tiên là ký hiệu ngữ pháp và các thuộc
tính (nếu có), tiếp theo là danh sách các thành phần cú pháp con.
Kho văn bản này được lấy từ các nguồn sách máy tính của IBM, tạp chí tài
chính phố Wall, các cuộc đàm thoại .v.v.
4
Ngân hàng cây cú pháp TIGER tiếng Đức
Kho ngữ liệu Tiger (Tiger Treebank, phiên bản 2.1) [101] có khoảng 900,000 từ
(50,000 câu) được lấy từ báo Frankfurter Rundschau của tiếng Đức. Kho ngữ liệu
này đã được gán nhãn từ loại và chú giải cú pháp cho các câu, việc chú giải được
thực hiện bán tự động. Ngoài các nhãn từ loại và nhãn cấu trúc cú pháp, kho ngữ
liệu còn chứa các các thông tin về hình thái, từ nguyên thể cho các nút từ vựng.
Ngân hàng cây cú pháp tiếng Trung (Chinese Treebank)
Kho ngữ liệu tiếng Trung (Chinese Treebank 7.0) [107] đượ
c công bố qua Tổ
chức dữ liệu ngôn ngữ (LDC- Linguistic Data Consortium ) bao gồm khoảng 1 triệu
từ đã được chú giải cú pháp. Chinese Treebank được bắt đầu tại Đại học
Pennsylvania vào năm 1998, sau đó tiếp tục ở Đại học Colorado và là hiện đang
được phát triển tại Đại học Brandeis. Mục tiêu của dự án là cung cấp một kho ngữ
liệu lớn được chú giải từ loại và đặt ngoặ
c toàn bộ.
Một số kho ngữ liệu song ngữ
Kho ngữ liệu song ngữ song song do dự án EuroMatrix (tham khảo tại địa chỉ
xây dựng gồm các cặp ngôn ngữ khác nhau được lấy
nguồn từ các kỷ yếu của Quốc hội Châu Âu từ năm 1996–2006. Kho ngữ liệu này
gồm 9 cặp ngôn ngữ khác nhau;
Kho ngữ liệu song ngữ song song Anh - Pháp (Canadian Hansard) của hiệp hội
dữ liệu ngôn ngữ học (LDC), kho ngữ li
ệu này gồm 2.8 triệu cặp câu [109]. Dữ liệu
văn bản thuần chủ yếu được lấy từ trang web của Quốc hội Canada [110];
Kho ngữ liệu WaCky (Web as Corpus kool ynitiative)
Đây là kho ngữ liệu lớn [129], trong đó có 3 kho ngữ liệu của tiếng Anh
(ukWaC), tiếng Đức (deWaC) và tiếng Ý (itWaC). Các kho ngữ liệu này được phát
triển từ năm 2005 cho đến năm 2007, mỗi kho ngữ liệu có khoảng hơn 1 tỷ từ đã
được chú giả
i từ loại và được thu thập từ Internet thông qua các trang web.
Tóm lại, trên thế giới đã tồn tại rất nhiều kho ngữ liệu cho các thứ tiếng khác
nhau, đây chính là nguồn dữ liệu không thể thiếu được trong việc nghiên cứu và
5
XLNNTN. Công việc xây dựng, mở rộng kho ngữ liệu là vấn đề cần thiết đối với
mọi ngôn ngữ, công việc này càng ngày càng được quan tâm và phát triển bởi các
nhà nghiên cứu và xử lý ngôn ngữ.
1.2 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu
Việc xây dựng kho văn bản chú giải cú pháp [18] đã bắt đầu khoảng 50 năm
trước cho tiếng Anh, với phương pháp thủ công. Mục đích là để cung cấp một lược
đồ chú giải hoàn chỉnh nhất có thể (theo kinh nghiệm), và kiểm chứng lược đồ này
trên một kho văn nhỏ. Ngoài ra, cùng với sự phát triển hoàn thiện hơn của các mô
hình ngôn ngữ, mục đích của một số kho ngữ liệu chú giả
i cú pháp là áp dụng cho
một lý thuyết ngôn ngữ cho trước. Nhưng mục đích phổ biến nhất là để cung cấp
một nguồn tài nguyên mới, không phụ thuộc trực tiếp vào lý thuyết ngôn ngữ cụ
thể, mà có thể thay đổi đối với các mô hình ngôn ngữ khác nhau. Gần đây, các kho
ngữ liệu văn bản có chú giải được xây dựng tự động từ Internet cho tiếng Anh và
các thứ tiếng khác [129], và đã được sử dụ
ng trong việc nghiên cứu ngôn ngữ và
các mô hình học máy để nâng cao hiệu suất của các ứng dụng trong xử xử lý ngôn
ngữ [31, 67, 68], các kho ngữ liệu này thường có kích thước rất lớn. Để cộng đồng
thế giới dễ dàng sử dụng, chia sẻ, trao đổi và đối sánh ngôn ngữ thì đòi hỏi các nhà
nghiên cứu phải xây dựng các kho ngữ liệu theo những nguyên tắc, chuẩn mực nhất
định, kéo theo nhu cầu xây dựng các chuẩn quốc t
ế.
1.2.1 Thu thập kho ngữ liệu văn bản
Các kho ngữ liệu chính là nguồn cung cấp tri thức ngôn ngữ cho các ứng dụng
của xử lý ngôn ngữ tự nhiên như là hiểu tự động văn bản, tóm tắt văn bản, làm dữ
liệu huấn luyện cho các mô hình học máy… Qua việc nghiên cứu một số kho ngữ
liệu văn bản (kho ngữ liệu) lớn trên thế giới cho thấy nội dung c
ủa các kho ngữ liệu
chủ yếu là chứa văn bản đã được phân tích để gán thêm các nhãn ngôn ngữ như từ
loại, cụm từ, các thông tin về văn bản và các thẻ định dạng mã hoá dữ liệu v.v.
Các kho ngữ liệu truyền thống như BNC, ANC, PENN,… chủ yếu được thu thập
từ nhiều nguồn tạp chí, sách báo, báo điện tử, sách giáo khoa v.v., dung lượng của
6
các kho ngữ liệu chú giải cú pháp nói chung còn hạn chế. Tuy có một số kho ngữ
liệu có dung lượng lớn hơn (hàng trăm triệu từ) như kho ngữ liệu COCA, dữ liệu
trong đó là được bổ sung vào hàng năm. Nhưng nói chung công việc thu thập kho
ngữ liệu tốn rất nhiều thời gian và kinh phí bởi các kho ngữ liệu này chủ yếu được
xây dựng thủ công hoặc bán tự động (Sử dụng các bộ chú giải t
ự động, hoặc hỗ trợ
gán nhãn, sau đó có sự kiểm tra lại của các nhà ngôn ngữ). Công việc xây dựng kho
ngữ liệu chú giải truyền thống [18] về cơ bản được thực hiện thủ công hoặc bán thủ
công thông qua 2 bước, đó là lựa chọn văn bản thô và chú giải ngôn ngữ. Trong đó
việc chú giải ngôn ngữ có thể được chú giải tự động nhờ vào các công cụ sẵn có, rồi
đượ
c kiểm tra lại bởi các nhà ngôn ngữ.
Những năm gần đây cho thấy việc xây dựng kho ngữ liệu lớn được thu thập dễ
dàng từ Internet như các kho ngữ liệu của WaCky [129]. Cách làm này lần đầu tiên
đã được thực hiện vào cuối những năm 1990 [83], Grefenstette và Nioch [52] đã chỉ
ra lượng dữ liệu rất lớn có trên Internet, kể cả với các ngôn ngữ ít phổ biến
. Keller
và Lapata [48] đã chứng tỏ tính hợp lệ của việc sử dụng các kho ngữ liệu Web cho
nghiên cứu ngôn ngữ học bằng cách so sánh tự động cũng như thủ công các mô
hình ngôn ngữ thu được từ kho ngữ liệu Web với các mô hình thu được từ kho ngữ
liệu truyền thống. Việc thu thập dữ liệu Web lại có ưu điểm là cho phép cập nhật
ngữ liệu thường xuyên, phát hiện những hiệ
n tượng ngôn ngữ đa dạng và phong phú
một cách khách quan hơn so với thu thập dữ liệu truyền thống.
Phương pháp thu thập kho ngữ liệu từ web cho tiếng Anh và một số ngôn ngữ
phổ biến khác đã được giới thiệu trong một số nghiên cứu của [20, 25, 88, 129]
. Về
cơ bản, công việc thu thập kho ngữ liệu từ web được thực hiện qua các bước chính
như sau:
Bước 1: Lựa chọn một danh sách các từ hạt giống có tần suất xuất hiện trung
bình.
Bước 2: Thu thập dữ liệu từ Web bằng cách sử dụng các từ hạt giống để tạo ra
truy vấn thông qua các cổng tìm kiếm như Yahoo và Google và tải các trang
kết quả về.
7
Bước 3: Làm sạch văn bản, loại bỏ các thông tin quảng cáo và các thông tin
nhiễu khác.
Bước 4: Loại bỏ các văn bản trùng lặp.
Bước 5: Chú giải ngôn ngữ và chuẩn hóa.
Các kho ngữ liệu có kích thước lớn có thể sử dụng trong một số ứng dụng
nghiên cứu ngôn ngữ [25, 26, 69] hoặc nâng cao hiệu suất của các mô hình học máy
[31, 67, 68]. Trong các ứng dụng trên kho ngữ liệu truyền thống chưa đủ lớn để đáp
ứng được, đòi hỏi phải xây dựng được các kho ngữ liệu có kích thước càng lớn càng
tốt (có thể thô hoặc chú giải ngôn ngữ), công việc này được thực hiện dễ dàng hơn
thông qua Internet.
1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa
1.2.2.1. Chú giải ngôn ngữ
Quá trình phân tích và chú giải một câu trong kho ngữ liệu gồm ba bước: Tách
từ, gán nhãn từ loại và phân tích cú pháp. Quy trình thực hiện phân tích và chú giải
cho mỗi ngôn ngữ là tương tự nhau, tuy nhiên
ở mỗi bước (tầng) mỗi ngôn ngữ yêu
cầu những kiến thức và có những đặc trưng riêng. Chẳng hạn ranh giới giữa các từ
trong mỗi ngôn ngữ là khác nhau, hoặc tập nhãn từ loại, nhãn chức năng cũng khác
nhau trong mỗi ngôn ngữ, tuy nhiên chúng có thể ánh xạ sang nhau. Bài toán tách từ
và gán nhãn từ loại trên thế giới hiện nay đã có quá trình nghiên cứu lâu dài, chẳng
hạn như với nghiên cứu của Foo & Lin [51] cho thấy quá trình phát triển của bài
toán tách từ tiếng Trung, đặc biệt đối với tiếng Việt cũng được thể hiện qua nghiên
cứu của nhóm tác giả Nguyễn Thị Minh Huyền [57], Phan Xuân Hiếu [9], Lê Hồng
Phương [81]. Trong việc gán nhãn từ loại hiện nay trên Internet đã có sẵn một số hệ
mã nguồn mở [111, 112, 113], ta có thể tùy biến phát triển nó để dùng cho ngôn
ngữ mới. Tùy vào điều kiện cụ thể mà ta lựa chọn công cụ gán nhãn tự động thích
hợp. Chẳng hạn với việc gán nhãn từ loại, nếu đã có sẵn chương trình gán nhãn từ
loại thì ta sử dụng nó làm công cụ luôn. Hoặc ta chấp nhận việc phải gán nhãn từ
đầu (bằng tay hoàn toàn) cho một phần ngữ liệu thô, sau đó huấn luyện hệ gán nhãn
8
từ loại dựa trên phần này rồi dùng nó làm công cụ xử lý phần còn lại của kho ngữ
liệu thô. Việc này có thể được lặp lại trong quá trình làm việc. Việc gán nhãn bằng
tay có thể sử dụng công cụ hỗ trợ những người gán nhãn, có hai nội dung chính là
hỗ trợ soạn thảo cây cú pháp (giao diện) và gán nhãn trước, sau đó người gán nhãn
sẽ sửa lại[12].
1.2.2.2. Chuẩn hoá mô hình chú giải ngữ liệu
Nghiên cứu về XLNNTN
đòi hỏi các nhà nghiên cứu phải xây dựng được một
tài nguyên ngôn ngữ khổng lồ, tốn nhiều công sức. Lợi ích của việc chia sẻ những
tài nguyên này là rõ ràng, không cần bàn cãi. Tuy nhiên, việc làm này cũng không
phải là dễ dàng, tuỳ tiện, mà nó đòi hỏi phải theo những nguyên tắc, chuẩn mực
nhất định. Chẳng hạn, nếu chúng ta có nhiều kho văn bản, mỗi kho lại do một nhóm
nghiên cứu lựa chọn bộ nhãn riêng (cho phù hợp v
ới ứng dụng của mình), thì rốt
cục cũng không thể chia sẻ được cho cộng đồng cùng thụ hưởng. Sự tương đồng và
khả năng tương tác giữa các kho ngữ liệu là rất cần thiết cho việc chia sẻ, trao đổi
và so sánh các nguồn ngôn ngữ với nhau. Các dự án xây dựng kho ngữ liệu trên thế
giới hiện nay đều đặt tiêu chí chuẩn hoá lên đầu [18, 58, 59, 60, 90, 91].
Để cung cấp một cơ sở hạ
tầng cho việc phát triển và sử dụng nguồn ngôn ngữ,
tổ chức quốc tế về chuẩn hóa đã thành lập tiểu ban SC 4 thuộc Ủy ban kỹ thuật 37
(TC 37) dành cho việc quản lý tài nguyên ngôn ngữ. Mục tiêu mà ISO/TC 37/SC 4
nhắm tới là chuẩn bị các tiêu chuẩn và các tài liệu hướng dẫn quản lý hiệu quả
nguồn tài nguyên ngôn ngữ trong các ứng dụng của xã hội thông tin đa ngôn ngữ.
Nhằm đạt được mục tiêu này, ủ
y ban kỹ thuật đã phát triển các nguyên tắc và
phương pháp để thiết lập, mã hóa, xử lý và quản lý nguồn tài nguyên ngôn ngữ như
là kho ngữ liệu văn bản, kho ngữ liệu từ vựng, từ điển, Trong đó, vấn đề chuẩn hoá
mô hình chú giải là vấn đề quan trọng, nhằm mở rộng đến mức tối đa phạm vi sử
dụng và khai thác tài nguyên đặc biệt là trên máy tính, đây chính là vấn đề
đang
được quan tâm bởi tiểu ban kĩ thuật TC 37/SC 4 [114]. Một số mô hình chú giải
được phát triển bởi tiểu ban ISO/TC 37/SC 4 như mô hình chú giải hình thái cú
pháp (MAF - Morphosyntactic Annotation Framework), mô hình chú giải cú pháp
9
(SynAF - Syntactic Annotation Framework), mô hình chú giải ngôn ngữ (LAF -
Linguistic Annotation Framework), mô hình chú giải ngữ nghĩa (SemAF – Semantic
Annotation Framework).
1.2.3 Khai thác kho ngữ liệu
Kho ngữ liệu là nguồn tài nguyên quan trọng trong việc nghiên cứu và xử lý
ngôn ngữ tự nhiên. Với kho ngữ liệu văn bản, đã được tách từ hoặc là kho ngữ liệu
đã được chú giải ở các mức cú pháp, có thể khai thác làm dữ liệu huấn luyện và dữ
liệu đánh giá cho cho các mô hình và công cụ
học máy phục vụ cho xử lý ngôn ngữ,
khai thác cho các văn phạm phục vụ cho việc phân tích cú pháp và có thể khai thác
cho việc xây dựng từ điển (đơn ngữ, đa ngữ), dịch tự động v.v.
1.2.3.1. Nghiên cứu từ vựng
Sử dụng kho ngữ liệu văn bản để xây dựng từ điển là một phương pháp đã được
áp dụng từ lâu. Khi chưa có máy tính, các nhà từ điể
n học sử dụng các tấm thẻ chỉ
mục để lưu trữ thông tin sử dụng từ. Vào những năm 1980, cùng với dự án
COBUILD (Collins Birmingham University International Language Database)
nhằm xây dựng và phân tích kho văn bản tiếng Anh phục vụ việc xây dựng từ điển,
Sinclair [66] đã nhìn thấy khả năng lưu trữ, sắp xếp, tìm kiếm một cách khách quan
hơn của máy tính so với con người. Kể từ dự
án này, các nhà xây dựng từ điển đã sử
dụng công cụ truy vấn kho ngữ liệu, cho phép tra cứu từ khó trong ngữ cảnh để
nghiên cứu hành vi của một từ. Do vậy, các hệ thống truy vấn kho ngữ liệu (Corpus
Query Systems - CQSs) đóng vai trò quan trọng trong lý thuyết và thực hành biên
soạn từ điển. Có thể kể đến một số hệ thống truy vấn kho ngữ liệu như WordSmith,
MonoConc, Stuttgart workbench hay Manatee, WordSketch…Các nhà nghiên cứ
u
từ điển sử dụng hệ thống truy vấn kho ngữ liệu để tìm kiếm các cụm từ, thứ tự ưu
tiên của các từ xung quanh một từ, các mẫu ngữ pháp, để sắp xếp các từ đi cùng
theo nhiều tiêu chí khác nhau, để xác định các kho ngữ liệu con cho việc tìm kiếm.
Tuy nhiên, khi kích thước kho văn bản ngày càng khổng lồ, số ngữ cảnh xuất
hiện một từ trở
nên quá lớn, thì công cụ tìm kiếm ngữ cảnh đơn giản trở nên không
đủ. Church. K. W. và Hanks. P [69] đã khởi xướng lĩnh vực thống kê từ vựng. Họ