Tải bản đầy đủ (.pdf) (84 trang)

Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.46 MB, 84 trang )



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ


VŨ THỊ XUÂN HƢƠNG



ỨNG DỤNG NGÔN NGỮ TRUY VẤN PML-TQ
TRONG TRUY VẤN TREEBANK TIẾNG VIỆT




LUẬN VĂN THẠC SĨ




Hà Nội – 2013


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ


VŨ THỊ XUÂN HƢƠNG



ỨNG DỤNG NGÔN NGỮ TRUY VẤN PML-TQ
TRONG TRUY VẤNTREEBANK TIẾNG VIỆT

Ngành: Công Nghê
̣
Thông Tin
Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ

HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN PHƢƠNG THÁI



Hà Nội – 2013
3

MC LC


MỤC LỤC 3
DANH MU
̣
C CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 4
DANH MU
̣
C HI
̀
NH VE

̃
5
DANH MU
̣
C CÁC BẢNG BIỂU 6
MỞ ĐẦU 7
CHƢƠNG 1 TỔNG QUAN 8
1.1 Các bài toán về xử lý ngôn ngữ tự nhiên 8
1.2 Kho ngữ liệu, treebank và ứng dụng 12
CHƢƠNG 2 XÂY DỰNG TREEBANK VÀ VẤN ĐỀ TRUY VẤN THÔNG
TIN 15
2.1 Xây dựng treebank 15
2.2 Các định dạng treebank của một số ngôn ngữ khác 22
2.3 Ngôn ngữ truy vấn PML-TQ 29
CHƢƠNG 3 TRUY VẤN DỮ LIỆU VIETTREEBANK VỚI PML-TQ 32
3.1 Giới thiệu về công cụ TrEd 32
3.2 Chuyển đổi VietTreebank sang định dạng PML 33
3.3 Truy vấn dữ liệu với PML-TQ 35
CHƢƠNG 4 KẾT QUẢ THỰC NGHIỆM 58
4.1 Môi trƣờng thực nghiệm 58
4.2 Một số đánh giá 59
KẾT LUẬN 62
TÀI LIỆU THAM KHẢO 63
PHỤ LỤC I 65
PHỤ LỤC II 79


4

DANH MU

̣
C CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
 Treebank: Kho ngữ liệu
 TrEd: Phần mềm Tree Editor
 PML (Prague Markup Language): Lƣợc đồ mã hóa treebank dựa trên
định dạng XML.
 PML-TQ (Prague Markup Language - Tree Query): Ngôn ngữ truy
vấn cho kho ngữ liệu đƣợc mã hóa dƣới dạng PML
 POS (Part of speech): Từ loại (Ví dụ nhƣ: danh từ, tính từ, động
từ…)
 VLSP: Đề tài "Nghiên cứu phát triển một số sản phẩm thiết yếu về
xử lý tiếng nói và văn bản tiếng Việt" – Mã số: KC01.01/06-10

5

DANH MU
̣
C HI
̀
NH VE
̃

Hnh 1. Ứng dụng treebank trong bài toán dịch tự động 14
Hnh 2. Ví dụ minh họa định dạng Penn Treebank 24
Hnh 3. Ví dụ minh họa định dạng VietTreebank 24
Hnh 4. Ví dụ về phần đầu của định dạng mã hóa Tiger-XML 25
Hnh 5. Ví dụ về phần thân của định dạng mã hóa Tiger-XML 26
Hnh 6. Ví dụ định dạng CoNLL ST 27
Hnh 7. Ví dụ minh họa định dạng Penn Arabic Treebank 29
Hnh 8. Dữ liệu đƣợc thể hiện dƣới dạng đồ họa hình cây 31

Hnh 9. Giao diện làm việc của công cụ TrEd 32
Hnh 10. Lƣu đồ giải thuật chuyển đổi sang PML 34
Hnh 11. Cụm danh từ đầy đủ là chủ ngữ 39
Hnh 12. Cụm danh từ có bốn phần tử trung tâm 40
Hnh 13. Cụm từ chỉ số lƣợng có cả phụ từ và số từ 42
Hnh 14. Câu trần thuật là một tít báo 44
Hnh 15. Câu hỏi có – không 48
Hnh 16. Câu có tân ngữ trực tiếp và tân ngữ gián tiếp bổ nghĩa cho
động từ. 50
Hnh 17. Câu ghép song song 52
Hnh 18. Cấu trúc câu đơn có trạng ngữ chỉ nguyên nhân 53
6

DANH MU
̣
C CÁC BẢNG BIỂU
Bảng 1. Tổng hợp các bƣớc xây dựng một treebank 15
Bảng 2. Tập nhãn từ loại trong VietTreebank 17
Bảng 3. Tập nhãn cụm từ 18
Bảng 4. Tập nhãn mệnh đề 18
Bảng 5. Tập nhãn chức năng cú pháp 19
Bảng 6. Các công cụ hỗ trợ xây dựng treebank tiếng Việt 21
Bảng 7. Bảng nhãn từ loại trong Penn Treebank 22
Bảng 8. Bảng nhãn cú pháp trong Penn Treebank 23
Bảng 9. Ví dụ câu ở dạng VietTreebank 31
Bảng 10. Ví dụ dữ liệu đƣợc chuyển sang định dạng PML 31
Bảng 11. Bảng so sánh cấu trúc Penn với PML tƣơng ứng. 33
Bảng 12. Tổng hợp các cấu trúc câu trần thuật 44
Bảng 13. Tổng hợp các nhãn chức năng đi kèm với nhãn SBAR 46
Bảng 14. Tổng hợp các nhãn chức năng có SBAR làm bổ ngữ 47

Bảng 15. Mẫu Câu có tân ngữ trực tiếp, gián tiếp bổ nghĩa cho động từ
50
Bảng 16. Danh sách nhãn chức năng cú pháp và số lần đƣợc gán 55
Bảng 17. Danh sách nhãn phân loại và số lần đƣợc gán 56
Bảng 18. Danh sách nhãn từ loại và số lần đƣợc gán 56
Bảng 19. Các từ và số lần xuất hiện 57
Bảng 20. Các mã lệnh truy vấn độ lớn của cây 59
Bảng 21. So sánh treebank tiếng Việt với các ngôn ngữ khác 61


7

MỞ ĐẦU
Kho ngữ liệu với các chú giải cú pháp (treebank) là một thành phần đóng
vai trò quan trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trong lĩnh vực xử lý ngôn
ngữ tự nhiên có rất nhiều bài toán cần đến kho ngữ liệu nhƣ: dịch tự động, phân
tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin,
Để xây dựng đƣợc kho ngữ liệu, các nhà khoa học thực hiện qua hai pha.
Pha 1 xây dựng một bộ dữ liệu tự động. Tại pha 1 này các nhà khoa học thƣờng
sử dụng các ứng dụng, chƣơng trnh máy tính để thực hiện tự động các tác vụ
nhƣ: tách câu, tách từ, gán nhãn cú pháp. Pha 2: Tinh chỉnh dữ liệu. Tuy nhiên
để có đƣợc một kho ngữ liệu hữu dụng thì các nhà khoa học cần phải đầu tƣ rất
nhiều thời gian, công sức để tinh chỉnh lại dữ liệu đã đƣợc tạo ở pha 1. Một
trong những khó khăn hiện nay trong việc tinh chỉnh kho ngữ liệu là phƣơng
pháp tìm kiếm thông tin hiệu quả trên kho ngữ liệu và các công cụ hỗ trợ để tìm
kiếm.
Luận văn này là một nỗ lực trong việc đề xuất giải pháp tìm kiếm trên kho
ngữ liệu bằng việc chuyển đổi và sử dụng định dạng PML và sử dụng ngôn ngữ
truy vấn PML-TQ cùng công cụ hỗ trợ việc tìm kiếm TrEd. Ƣu điểm của giải
pháp này là có thể tìm kiếm trên nhiều định dạng Treebank khác nhau theo một

cách thống nhất.
Đồng thời luận văn cũng đƣa racác đặc điểm ngữ pháp tiếng Việt, các đặc
trƣng về mặt ngữ pháp cùng với các câu hỏi truy vấn liên quan đƣợc phát biểu
dƣới dạng không hình thức bằng ngôn ngữ tự nhiên. Sau đó câu hỏi này đƣợc
chuyển đổi thành các câu lệnh truy vấn hình thức bằng ngôn ngữ PML-TQ để
thực hiện tìm kiếm thông tin với công cụ TrEd.
8



CHƢƠNG 1 TỔNG QUAN
1.1 Các bài toán về xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên là một lĩnh vựcliên ngành bao gồm khoa học máy
tính, trí tuệ nhân tạo, ngôn ngữ học để giải quyết vấn đề tƣơng tác, trao đổi
thông tin giữa con ngƣời với các hệ thống máy tính thông qua ngôn ngữ tự
nhiên. Do đó xử lý ngôn ngữ tự nhiên cũng liên quan tới lĩnh vực tƣơng tác
ngƣời-máy. Xử lý ngôn ngữ tự nhiên hiện nay còn rất nhiều khó khăn,thách thức
cần giải quyết đó chính là các vấn đề liên quan tới việc hiểu ngôn ngữ tự nhiên –
có nghĩa là cho phép máy tính có thể hiểu đƣợc ý nghĩa mà con ngƣời cần truyền
đạt trong các văn bản hoặc các đầu vào khác là ngôn ngữ tự nhiên.
Lịch sử của xử lý ngôn ngữ tự nhiên bắt đầu vào thập niên 1950. Vào năm
1950, Alan Turing đã xuất bản một bài báo với tựa đề “Máy tính và tính thông
minh” theo đó ông đã đề xuất một thủ tục gọi là Bộ kiểm tra Turing để phục vụ
việc phân loại, đánh giá mức độ thông minh của máy tính. Kể từ đó đến nay đã
có rất nhiều phƣơng pháp, giải thuật đã đƣợc nghiên cứu, đề xuất để giải quyết
các bài toán liên quan đến vấn đề xử lý ngôn ngữ tự nhiên. Một trong những
phƣơng pháp điển hnh đó là phƣơng pháp máy học. Dƣới đây là một số bài toán
điển hình trong lĩnh vực xử lý ngôn ngữ tự nhiên:
 Tóm tắt tự động: Sinh ra các bản tóm tắt nội dung có nghĩatừ một chuỗi
các văn bản. Bài toán này thƣờng đƣợc áp dụng để sinh ra các bản tóm tắt

từ một văn bản với khuôn dạng định sẵn nhƣ: các bài viết trong mục tài
chính của một tờ báo.
 Dịch tự động: Tự động dịch một văn bản từ một ngôn ngữ này sang một
ngôn ngữ khác. Đây là một trong những bài toán khó, và nó thuộc vào
phân lớp “trí tuệ nhân tạo toàn diện” (AI-complete) bởi v để thực hiện
đƣợc nó cần rất nhiều các kiến thức có liên quan tới việc nhận thức của
một con ngƣời nhƣ: ngữ pháp, ngữ nghĩa, các sự thực hiển nhiên trong thế
giới thực…
9



 Nhận dạng chữ (OCR): Đây là bài toán giúp biến đổi từ một văn bản dạng
hình ảnh thành dạng văn bản chữ thông thƣờng.
 Nhận dạng giọng nói: Cho một đoạn âm thanh của một ngƣời nói, xác
định câu văn của lời nói đó. Bài toán này ngƣợc với bài toán chuyển đổi
văn bản thành lời nói và nó thuộc một trong những bài toán cực khó của
lớp bài toán “Trí tuệ nhân tạo toàn diện”. Đối với lời nói tự nhiên thì hầu
nhƣ không có điểm dừng trong khi nói, do vậy phân tách lời nói là một
bài toán nằm trong bài toán nhận dạng giọng nói. Thêm vào đó khi nói các
từ có thể bị trộn vào nhau do có sự luyến âm do việc biến đổi từ các tín
hiệu tƣơng tự thành các từ đơn lẻ là một công việc rất khó.
 Trả lời câu hỏi tự động: Cho một câu hỏi dƣới dạng ngôn ngữ tự nhiên và
đƣa ra câu trả cho câu hỏi đó. Các câu hỏi thông thƣờng thƣờng có câu trả
lời xác định nhƣ “Thủ đô của Việt Nam tên là gì?” tuy nhiên cũng cần
phải xử lý cả những câu hỏi mở nhƣ “Ý nghĩa của cuộc đời là gì?”
 Phân tích mối liên hệ: bài toán này liên quan đến một loạt các bài toán
nhỏ hơn. Một trong những bài toán đó là việc xác định cấu trúc của các
đoạn văn bản đƣợc nối với nhau. Ví dụ nhƣ mối liên hệ giữa các câu
nhƣ:câu bổ nghĩa,câu giải thích, câu đối lập. Một bài toán khác nữa đó là

nhận diện và phân loại câu trong chuỗi văn bản nhƣ: câu hỏi có-không,
câu hỏi về nội dung, câu trần thuật, câu khẳng định…
 Phân tíchhình thái từ (morphological segmentation): Chia tách các từ
thành các đơn vị từ nguyên tử (morpheme) và xác định phân loại cho các
đơn vị từ đó. Mức độ khó của vấn đề này phụ thuộc nhiều vào độ phức tạp
hình thái từcủa một ngôn ngữ cụ thể (cấu trúc của từ là một ví dụ).Đối với
tiếng Anhthì hình thái từ tƣơng đối đơn giản. Ví dụ từ “open” có thể có
các hình thái từ nhƣ “open, opens, opened, openning”. Do đó bài toán xử
lý này đối với tiếng Anh tƣơng đối đơn giản vì chúng ta có thể mô hình
hóa hình vị từ thành các từ riêng lẻ. Tuy nhiên đối với các ngôn ngữ khác,
ví dụ ngôn ngữ Thổ Nhĩ Kỳ, thì cách tiếp cận này là không thể do mỗi
một từ có thể có có hàng ngàn hình dạng từ khác nhau.
10



 Nhận dạng tên riêng: Giả sử có một chuỗi văn bản, cần xác định xem
những thành phần nào trong văn bản đó tƣơng ứng với các tên riêng, ví dụ
nhƣ tên ngƣời hay tên địa điểm, đồng thời xác định phân loại cho thành
phần đó, ví dụ nhƣ ngƣời, địa điểm, tổ chức. Trong tiếng Anh việc sử
dụng thông tin các tên riêng thƣờng đƣợc bắt đầu bằng chữ cái viết hoa để
nhận dạng thành phần tên riêng tuy nhiên thông tin này không thể dùng để
xác định phân loại cho tên riêng đó. Trong khi đó đối với một số ngôn
ngữ khác nhƣtiếng Trung Quốc, tiếng Ả-rập thì không có chữ cái viết hoa.
Thêm nữa có những ngôn ngữ nhƣ tiếng Đức th cũng không thể dùng
thông tin chữ cái viết hoa để làm thông tin nhận dạng thành phần tên riêng
vì trong tiếng Đức thì tất cả các danh từ đều bắt đầu bằng chữ hoa, mà
không quan tâm danh từ đó có liên quan đến tên riêng hay không.
 Gán nhãn từ loại: Cho một câu, xác định từ loại của từng từ trong câu.
Tuy nhiên trong thực tế tùy vào ngôn ngữthì một từ có thể là từ loại này

hoặc từ loại khác tùy vào ngữ cảnh. Ví dụ trong tiếng Việt thì từ “đá” có
thể mang nghĩa của một động từ hoặc là danh từ. Do đó bài toán này có
nhiều khó khăn khi phải xử lý vấn đề nhập nhằng trong ngôn ngữ.
 Phân tích cú pháp: Xây dựng cây cú pháp của một câu cho trƣớc. Do ngữ
pháp của ngôn ngữ tự nhiên thƣờng chứa đựng yếu tố nhập nhằng và một
câu văn thƣờng có thể có nhiều hơn một ý nghĩa. V vậy trong thực tế,
một câu có thể có hàng ngàn cách phân tích cú pháp.
 Phân tích tính cảm xúc: Trích xuất các thông tin quan trọng từ một tập các
văn bản để xác định “tính phân cực” (chiều hƣớng cảm xúc, ý nghĩ) của
các đối tƣợng cụ thể. Điều này đặc biệt hữu ích trong việc xác định xu
hƣớng của các ý kiến đƣợc công khai trên các mạng xã hội và nó cũng
giúp ích cho các hoạt động tiếp thị.
 Phân tách và nhận dạng chủ đề: Cho một chuỗi văn bản, tách nó thành các
văn bản theo chủ đề và xác định chủ đề của các văn bản đó.
 Phân tách từ: Phân tách một chuỗi văn bản liên tục thành các từ riêng lẻ.
Đối với ngôn ngữ nhƣ tiếng Anh, th đây là việc đơn giản, do các từ
11



thƣờng đƣợc phân tách bởi khoảng trống. Tuy nhiên đối với một số ngôn
nhƣ: Trung Quốc, Nhật Bản, Thái Lan thì các từ không đƣợc phân tách
theo cách trên. Do đó công việc phân tách từ đối với các ngôn ngữ này là
một công việc đòi hỏi việc kết hợp các kiến thức liên quan tới từ vựng,
hình thái của từ trong ngôn ngữ cụ thể.
 Giải quyết vấn đề nhập nhằng nghĩa của từ: Đối với từ có nhiều hơn một
nghĩa, chúng ta thƣờng chọn nghĩa phù hợp nhất tùy thuộc vào ngữ cảnh.
Đối với bài toán này, chúng ta thƣờng cho ra một danh sách các từ và các
nghĩa tƣơng ứng.
 Hiểu ngôn ngữ tự nhiên: Chuyển đổi một tập các văn bản thành một dạng

thông tin hình thức, ví dụ nhƣ cấu trúc logic bậc 1 mà các chƣơng trnh
máy tính có thể sử dụng đƣợc. Bài toán hiểu ngôn ngữ tự nhiên liên quan
đến việc xác định đƣợc ý nghĩa cần truyền tải là gì trong số các ngữ nghĩa
có thể có của một văn bản. Giải pháp xây dựng một metamodel (mô hình
siêu đặc tả) cho ngôn ngữ và ontology (bộ dữ liệu mô tả nhận thức của
con ngƣời về thế giới tự nhiên và xã hội) có thể là hiệu quả tuy nhiên đây
chỉ là những giải pháp mang tính kinh nghiệm. Phƣơng pháp đặc tả hình
thức hóa một cách rõ ràng của các ngữ nghĩa ngôn ngữ tự nhiên mà không
quan tâm đến các dụng ý là một hƣớng tiếp cận đƣợc mong đợi cho vấn
đề xây dựng một nền tảng mô hình hình thức hóa đặc tả ngữ nghĩa.
 Sinh ngôn ngữ tự nhiên: Chuyển đổi thông tin từ dữ liệu máy tính thành
ngôn ngữ con ngƣời có thể đọc đƣợc.
Trên đây là một sô bài toán điển hnh trong lĩnh vực xử lý ngôn ngữ tự
nhiên, một lĩnh vực mà còn nhiều thách thức đối với các nhà khoa học. Trong
các bài toán đã nêu ở trên, ở các mức độ khác nhau, rất nhiều các bài toán cần
tới kho ngữ liệu treebank cho quá trình xử lý, tính toán nhƣ: dịch tự động, sinh
ngôn ngữ tự nhiên, tóm tắt…Do đó việc xây dựng một kho ngữ liệu treebank
đầy đủ, hữu dụng là một công việc rất quan trọng đối với vấn đề giải quyết các
bài toán về xử lý ngôn ngữ nói riêng và nghiên cứu khoa họcnói chung.
12



1.2 Kho ngữ liệu, treebank và ứng dụng
Một treebank là một kho dữ liệu văn bản đã đƣợc phân tích cú pháp từ một
kho dữ liệu văn bản thô, theo đó mỗi câu trong văn bản đều đƣợc phân tích các
yếu tố cú pháp ví dụ nhƣ gán chú giải cấu trúc cú pháp cho câu. Cấu trúc cú
pháp thƣờng đƣợc biểu diễn dƣới dạng hình cây do vậy chúng ta sử dụng thuật
ngữ là treebank. Thông thƣờng thuật ngữ kho ngữ liệu cú pháp và thuật ngữ
treebank thƣờng có thể thay thế tƣơng ứng cho nhau trong quá trình sử dụng.

Một treebank đƣợc xây dựng dựa trên một tập văn bản đã đƣợc phân tích
và gán nhãn từ loại. Sau đó, các treebank có thể đƣợc tinh chỉnh thêm với các
thông tin về ngữ nghĩa và các thông tin ngôn ngữ họckhác.
Các treebank có thể đƣợc các nhà ngôn ngữ học xây dựng hoàn toàn thủ
công hoặc theo cách bán tự động. Theo cách bán tự động thì các công cụ phân
tích cú pháp sẽ tự động gán thông tin và đƣa ra một cấu trúc cú pháp, sau đó các
nhà ngôn ngữ học sẽ kiểm tra và chỉnh sửa lại nếu cần. Trong thực tế thì việc
kiểm tra, hoàn thiện toàn bộ quá trình phân tích cú pháp của một kho ngôn ngữ
tự nhiên là một công việc tốn rất nhiều công sức và thời gian. Việc tinh chỉnh và
gán nhãn có thể mất tới hàng năm. Các yếu tố nhƣ mức độ chi tiết của các thông
tin chú thích cú pháp, sự đóng góp của các nhà ngôn ngữ học sẽ quyết định độ
khó và thời gian hoàn thành của việc xây dựng một treebank.
Sau khi treebank đƣợc xây dựng và hoàn thiện, nó có thể ứng dụng vào rất
nhiều bài toán khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên cũng nhƣ phục
vụ cho công tác nghiên cứu ngôn ngữ nói chung của các nhà ngôn ngữ học.
1.2.1 Ứng dụng trong lĩnh vực nghiên cứu ngôn ngữ
Trong thực tế, treebank là một nguồn thông tin vô cùng hữu ích cho nhiều
hình thức nghiên cứu ngôn ngữ dựa trên các tập ngữ liệu. Các nghiên cứu này
không chỉ bó hẹp trong các vấn đề về quy tắc cú pháp mà còn mở rộng đến việc
nghiên cứu các hiện tƣợng ngôn ngữ dựa trên các đặc điểm quy tắc cú pháp đó.
Một trong những ƣu điểm của việc dùng treebank so với các kho ngữ liệu thô đó
là nó cho phép chúng ta có thể đặt các câu hỏi một cách chính xác, do đó chúng
ta nhận đƣợc tập câu trả lời chính xác hơn nhờ việcloại bớt đi các dữ liệu không
13



mong muốn.Lấy một ví dụ cụ thể, từ “đi” trong tiếng Việt vừa là động từ, vừa là
phụ từ, vừa là trợ từ.
 Ví dụ từ “đi” đóng vai trò là động từ (V): Cô gái đi nhanh nhƣ chạy

 Ví dụ từ “đi” đóng vai trò là phụ từ (R): Mỗi lần gặp tôi, hắn kể đi
kể lại một chuyện
 Ví dụ từ “đi” đóng vai trò là trợ từ (T): Mọi ngƣời hãy góp gió đi
Nhƣ vậy nếu sử dụng treebank chúng ta có thể đƣa ra đƣợc tất cả các câu
cú pháp có từ “đi” với vai trò là trợ từ một cách chính xác để nghiên cứu mà
không bị lẫn các câu có từ đi với vai trò là động từ hay phụ từ.Tuy nhiên để có
thể sử dụng hiệu quả treebank cho việc nghiên cứu thì cần có các công cụ phù
hợp hỗ trợ việc đặt câu hỏi truy vấn, duyệt dữ liệu.
Ngoài việc sử dụng treebank cho việc nghiên cứu các hiện tƣợng cú pháp,
treebank cũng còn đƣợc ứng dụng để nghiên cứu các vấn đề về định tính, định
lƣợng của ngôn ngữ. Bằng việc sử dụng các công cụ truy vấn thông tin, chúng ta
có thể trích xuất rất nhiều thông tin nhƣ:
- Tần suất xuất hiện của một từ cụ thể trong kho ngữ liệu
- Tần suất sử dụng của các loại từ loại: từ loại nào thƣờng đƣợc sử dụng
nhất, từ loại nào ít đƣợc sử dụng nhất
- Liệt kê các từ chƣa đƣợc phân loại
1.2.2 Ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên
Treebank đƣợc ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên theo hai
hƣớng:
Hƣớng thứ nhất: Treebank đƣợc dùng nhƣ là bộ dữ liệu đểkiểm chứng độ
chính xác hay đánh giá tốc độ xử lý của các hệ thống xử lý ngôn ngữ tự nhiên.
Ví dụ sau khi một bộ tách từ tự động đƣợc xây dựng xong, chúng ta cần đánh
giá độ chính xác của việc tách từ tự động. Để đánh giá chúng ta cần nạp vào một
kho ngữ liệu thô để chƣơng trnh thực hiện. Kết quả là chƣơng trnh sẽ cho ra
một kho ngữ liệu đã đƣợc phân tách từ. Nhƣ vậy để đánh giá độ chính xác ta cần
14



so sánh kết quả tách từ từ chƣơng trnh tự động này với kho ngữ liệu đã đƣợc

phân tách gán nhãn chuẩn.
Hƣớng thứ hai: Treebank đƣợc dùng nhƣ là dữ liệu đầu vào cho quá trình
phân tích, xử lý của các hệ thống nhƣ: dịch tự động, chuyển đổi dạng văn bản
sang tiếng nói, nhận dạng văn bản từ ảnh,…Trong các bài toán này, treebank
thƣờng đƣợc sử dụng nhằm nâng cao độ chính xác của kết quả đầu ra.

Hnh 1. Ứng dụng treebank trong bài toán dịch tự động

Ngôn ngữ
nguồn
Bộ xử lý
ngôn ngữ
Treebank
Ngôn ngữ
đích
15



CHƢƠNG 2 XÂY DỰNG TREEBANK VÀ VẤN ĐỀ TRUY VẤN THÔNG
TIN
2.1 Xây dựng treebank
2.1.1 Tổng quan các bƣớc xây dựng treebank
Xây dựng treebank là một quá trnh đòi hỏi tốn nhiều công sức và thời
gian. Mỗi nhóm nghiên cứu xây dựng treebank có thể có sự khác nhau về một số
chi tiết, tuy nhiên, các bƣớc xây dựng một treebank có thể đƣợc tóm lƣợc nhƣ
trình bày trong bảng 1
Bƣớc
Các công việc


- Tìm hiểu các vấn đề về ngôn ngữ: phân
biệt câu, phân biệt từ, từ loại…
- Thiết kế các nhãn từ loại
- Thiết kế định dạng mã hóa treebank
- Lập tài liệu hƣớng dẫn gán nhãn

- Lựa chọn nguồn văn bản và số lƣợng
- Xây dựng bộ dữ liệu thô từ nguồn văn bản
đã lựa chọn với số lƣợng đƣợc ấn định

- Tách câu văn bản thành các từ đơn lẻ
- Gán nhãn từ loại, nhãn cú pháp,nhãn phân
loại cho các đơn vị từ

- Thực hiện các bƣớc xem xét, đánh giá để
đảm bảo các đơn vị từ đƣợc gán nhãn đúng
đắn
- Thực hiện lại bƣớc gán nhãn nếu cần thiết

- Lƣu các thông tin đã đƣợc phân tích và gán
nhãn vào cơ sở dữ liệu với định dạng đã
đƣợc thiết kế ở bƣớc đầu tiên
Bảng 1. Tổng hợp các bƣớc xây dựng một treebank
Tìm hiểu và thiết kế
Xây dựng bộ ngữ liệu thô
Gán nhãn dữ liệu
Duyệt và tinh chỉnh
Lƣu thông tin
16




Trong các bƣớc nêu trên th bƣớc gán nhãn dữ liệu có thể thực hiện một
cách thủ công hoàn toàn hoặc bán thủ công bằng cách sử dụng các công cụ phần
mềm nhƣ: bộ tách câu, bộ tách từ, bộ gán nhãn cú pháp…Đối với mỗi một ngôn
ngữ sẽ có các bộ công cụ phần mềm tƣơng ứng. Các công cụ hỗ trợ cho việc xây
dựng treebank tiếng Việt sẽ đƣợc trình bày chi tiết trong mục 2.1.3
2.1.2 Xây dựng treebank tiếng Việt
Với tiếng Việt, treebank đƣợc nghiên cứu xây dựng trong khuôn khổđề tài
VLSP [3] và có tên làVietTreebank. Mục tiêu củaVietTreebank là xây dựngđƣợc
một kho ngữ liệu chú giải cú pháp với độ lớn là 10.000 câu.
Tập nhãn của VietTreebank đƣợc thiết kế[2] gồm có:
 Tập nhãn từ loại. Về nguyên tắc,các thông tin về từ có thể đƣợc chứa
trong nhãn từ loại bao gồm: từ loại cơ sở (danh từ, động từ, ), thông tin
hình thái (số ít, số nhiều, thì, ngôi,…), thông tin về phân loại con (ví dụ
động từ đi với danh từ, động từ đi với mệnh đề, ), thông tin ngữ nghĩa, hay
một số thông tin cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ
loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin
nhƣ hnh thái, phân loại con,
Các nhãn từ loại:
STT
Tên
Chú thích
1
N
Danh từ
2
Np
Danh từ riêng
3

Nc
Danh từ chỉ loại
4
Nu
Danh từ đơn vị
5
V
Động từ
6
A
Tính từ
7
P
Đại từ
17



8
L
Định từ
9
M
Số từ
10
R
Phụ từ
11
E
Giới từ

12
C
Liên từ
13
I
Thán từ
14
T
Trợ từ
15
U
Từ đơn lẻ
16
Y
Từ viết tắt
17
X
Các từ không phân loại đƣợc
Bảng 2. Tập nhãn từloại trong VietTreebank
 Tập nhãn các thành phần cú pháp. Tập nhãn này chứa các nhãn mô tả
các thành phần cú pháp cơbản là cụm từ và mệnh đề. Nhãn thành phần cú pháp
là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xƣơng sống của cây cú
pháp. Tập nhãn cú pháp của các ngôn ngữ khác nhau là khác nhau (ở một tỉlệ
nhất định) vì hai nguyên nhân. Nguyên nhân cơ bản nhất là do sự khác biệt về
ngôn ngữ. Chẳng hạn nhƣ trong tiếng Trung, từ chỉ loại có chức năng làm bổ
nghĩa trƣớc cho danh từ. Từ chỉ loại lại có thể đƣợc kết hợp với sốtừ trong
phần phụ trƣớc của cụm danh từ. Vì vậy nhóm thiết kế Chinese Treebank
(CTB) đã đặt ra nhãn cụm từ chỉ loại. Đây là một điểm khác biệt với treebank
tiếng Anh (PTB). Nguyên nhân thứ hai là do kỹ thuật thiết kế tập nhãn. Chẳng
hạn nhƣ với các cụm từ nghi vấn, PTB có bốn loại nhãn là WHNP, WHPP,

WHADJP,WHADVP. Trong khi CTB lại chỉ đặt ra một nhãn chức năng là
WH. Nhãn này sẽ đƣợc dùng kèm với nhãn cụm từ khi trong cụm từ đó có từ
dùng để hỏi. Nhƣ vậy vẫn đủ để mô tả các cụm từ nghi vấn (NP-WH, PP-WH,
ADJP-WH, ADVP-WH).
Các nhãn cụm từ:
18



STT
Tên
Chú thích

NP
Cụm danh từ

VP
Cụm động từ

AP
Cụm tính từ

RP
Cụm phụ từ

PP
Cụm giới từ

QP
Cụm từ chỉ số lƣợng


MDP
Cụm từ tình thái

WHNP
Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v.)

WHAP
Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, v.v.)

WHRP
Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn, v.v.

WHPP
Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v.)
Bảng 3. Tập nhãn cụm từ
Các nhãn mệnh đề:
STT
Tên
Chú thích

S
Câu trần thuật (khẳng định hoặc phủ định)

SQ
Câu hỏi

SE
Câu cảm thán


SC
Câu mệnh lệnh

SBAR
Mệnh đề phụ (bổ nghĩa cho danh từ, động
từ, và tính từ)



Bảng 4. Tập nhãn mệnh đề
 Tập nhãnchức năng ngữ pháp: Nhãn chức năng của một thành phần cú
pháp cho biết vai trò của nó trong thành phần cú pháp mức cao hơn. Nhãn
chức năng cú pháp đƣợc gán cho các thành phần chính trong câu nhƣ chủ
19



ngữ, vị ngữ, tân ngữ. Nhờ thông tin do nhãn chức năng cung cấp ta có thể
xác định các loại quan hệ ngữ pháp cơ bản sau đây:
o Chủ-vị
o Đề-thuyết
o Phần chêm
o Bổ ngữ
o Phụ ngữ
o Sự kết hợp
Các nhãn chức năng cú pháp
STT
Tên
Chú thích


SBJ
Nhãn chức năng chủ ngữ

OBJ
Nhãn chức năng tân ngữ trực tiếp

IO
Nhãn chức năng tân ngữ gián tiếp

TPC
Nhãn chức năng chủ đề

PRD
Nhãn chức năng vị ngữ không phải cụm động từ



Bảng 5. Tập nhãn chức năng cú pháp
Việc thực hiện gán nhãnđƣợc thực hiện qua ba bƣớc: tách từ, gán nhãn từ
loại và gán nhãn cú pháp. Quá trình gán nhãn thực hiện tài liệu hƣớng dẫn gán
nhãn[2].
Một số ví dụ gán nhãn cú pháp:
- Gán nhãn cho cụm danh từ: NP
Cấu trúc cơ bản của một cụm danh từ:
<phần phụ trước><danh từ trung tâm><phần phụ sau>
Với cụm danh từ: “quả bóng màu xanh”, ta có:

20




(NP(Nu quả)
(N bóng)
(N màu xanh)
)
- Gán nhãn cho cụm động từ: VP
Giống nhƣ cụm danh từ, cấu tạo một cụm động từ về cơ bản nhƣ sau:
<phần phụ trước><động từ trung tâm><phần phụ sau>
Với cụm động từ: “đang ăn cơm”, ta có:
(VP (R đang)
(V ăn)
(NP cơm))
- Gán nhãn cho câu trần thuật: S
Theo quan điểm coi cấu trúc chủ-vị là cấu trúc chủ đạo của câu tiếng
Việt, một câu trần thuật gồm hai phần là chủ ngữ và vị ngữ:
<chủ ngữ><vị ngữ>
Trong đó chủ ngữ thƣờng là cụm danh từ, còn vị ngữ thƣờng là cụm
động từ hoặc cụm tính từ. Với một số ngôn ngữ nhƣ tiếng Anh, vị ngữ luôn là
cụm động từ.
Với câu: “Anh yêu em”, ta có:
(S (NP-SBJ Anh)
(VP (V yêu)
(NP-OBJ em))
(. .))
Toàn bộ quy trình, quy tắc gán nhãn đƣợc trình bày chi tiết và đầy đủ trong
tài liệu hƣớng dẫn gán nhãn của nhóm thực hiện đề tài xây dựng treebank tiếng
Việt[2].
2.1.3 Các công cụ hỗ trợ xây dựng treebank tiếng Việt
21




Trong quá trình xây dựng các treebank, việc ứng dụng các công cụ phần
mềm hỗ trợ là cần thiết. Các công cụ này sẽ tự động hóa mọi công việc nhƣ:
tách từ, gán nhãn với độ chính xác có thể chấp nhận đƣợc do đó sẽ giúp chúng ta
giảm thiểu đƣợc rất nhiều thời gian và công sức trong quá trình xây dựng
treebank.
Đối với tiếng Việt, hiện nay có một số công cụ hỗ trợ quá trình làm
treebank nhƣ:
Công đoạn
xử lý
Tên sản phẩm
Tác giả
Thông tin sản phẩm
Tách câu
vnSentDetector
Lê Hồng Phƣơng
Hồ Tƣờng Vinh
- Đƣợc xây dựng dựa
trên mô hình xác suất với
Maximum Entropy
- Độ chính xác đạt đƣợc
95%
Tách từ
vnTokenizer
Nguyễn Thị Minh
Huyền
Vũ Xuân Lƣơng
Lê Hồng Phƣơng
- Đƣợc phát triển dựa

trên phƣơng pháp so khớp tối
đa (Maximum Matching)
- Độ chính xác trung
bnh đạt đƣợc là khoảng 94%.
Gán nhãn
vnQtag
Nguyễn Thị Minh
Huyền,
Vũ Xuân Lƣơng
Lê Hồng Phƣơng
- Phƣơng pháp gán nhãn
theo xác suất

vnTagger
Lê Hồng Phƣơng


JvnTagger
Phan Xuân Hiếu

Phân tích
cú pháp
vnParser
Lê Hồng Phƣơng

Bảng 6. Các công cụ hỗ trợ xây dựng treebank tiếng Việt
22




2.2 Các định dạng treebankcủa một số ngôn ngữ khác
2.2.1 Định dạng Pen Treebank
Penn treebank do đại học Pennsylvania phát triển, chứa khoảng 4.5 triệu
câu Anh–Mỹ. Trong ba năm từ1989 đến 1992, ngƣời ta thực hiện việc gán nhãn
từ loại cho các câu. Ngữ liệu này có thể đƣợc tìm thấytrên website:
Dƣới đây là cácnhãn từloại, nhãn cú pháp trong
Penn Treebank.
a) Bảng nhãn từ loại
Theo tài liệu của nhóm xây dựng Penn Treebank[5], nhãn từloại trong Penn
Treebank đƣợc biểu diễn bởi hình 3. Nó chứa tất cả36 nhãn từloại và 12 loại
nhãn khác (dành cho tiền tệvà dấu câu).

Bảng 7. Bảngnhãn từloại trong Penn Treebank
b) Tập nhãn cú pháp.
23



Nhãn cú pháp là tập nhãn liên quan đến ngữpháp, ví dụnhƣ ADJP là nhãn
để đánh dấu cụm tính từ. Trong tập nhãn này có một sốthành phần miêu tảcho
các thành phần rỗng. Hnh 3.3 đƣợc lấy ra từtài liệu của nhóm xây dựng Penn
Treebank miêu tả các nhãn cú pháp:

Bảng 8. Bảng nhãn cú pháp trong Penn Treebank
Theo dự án Penn Treebank, quá trình gán nhãn từ loại bao gồm hai giai
đoạn thực hiện việc gán nhãn tự động và chỉnh sửa thủ công. Chi tiết xem trong
từ tài liệu của nhóm xây dựng Penn Treebank[5].
c) Ví dụ
Dƣới đây là câu “CathrynRicecouldhardlybelievehereyes” đƣợc biểu diễn
dƣới dạng Penn Treebank. Sau quá trình gán nhãn từ loại và gán nhãn cú pháp

tađƣợc cây cú pháp hoàn chỉnh:
(( S
(NP-SBJ (NNP Cathryn)(NNP Rice) )
(VP (MD could)
(ADVP (RB hardly) )
(VP (VB believe)
24



(NP (PRP$ her) (NNS eyes)
)))
(. .)))
Hnh 2. Ví dụ minh họa định dạng Penn Treebank
2.2.2 Định dạngVietTreebank
Cũng giống nhƣ Penn Treebank, VietTreebank là kho ngữ liệu dành cho
Tiếng Việt, bao gồm các câu đƣợc biểu diễn dƣới dạng cấu trúc cú pháp (cây cú
pháp). VietTreebank đƣợc xây dựng nhằm đáp ứng những yêu cầu về dữ liệu
đối với những nghiên cứu trong xử lý ngôn ngữ tự nhiên. Theo tài liệu của nhóm
xây dựng của VietTreebank[2], phƣơng hƣớng tiếp cận để xây dựng cây cú pháp
tƣơng tự với phƣơng pháp của nhóm xây dựng Penn Treebank (chia làm hai quá
trình gán nhãn tự động và chỉnh sửa thủ công).
Ví dụ
(S (NP-SUB (P Tôi))
(VP (V đá)
(NP-DOB (N bóng)))
(. .))
Hnh 3. Ví dụ minh họa định dạng VietTreebank
2.2.3 Định dạng Tiger XML
Tiger Treebank[6]là một định dạng mã hóa Treebank của tiếng Đức. Tiger

Treebank giới thiệu một định dạng XML cho treebank cấu trúc cụm từ.Một file
Tiger XML sẽ đƣợc chia làm 2 phần: phần đầu và phần thân.
Phần đầu sẽ bao gồm các thông tin mô tả về kho ngữ liệu và các thông tin mô tả
khác. Trong khi đó phần thân sẽ bao gồm các mô tả vềcấu trúc ngữ liệu và các
chú giải.
<corpus id="TESTCORPUS">

<head>

25



<meta>
<name>Test corpus</name>
<author>Wolfgang Lezius</author>
<date>April 2003</date>
<description>illustrates the TIGER-XML format</description>
<format>NeGra format, version 3</format>
<history>first version</history>
</meta>

</head>

</corpus>
Hnh 4. Ví dụ về phần đầu của định dạng mã hóa Tiger-XML
Trong phần thân, cấu trúc của kho ngữ liệu đƣợc biểu diễn dƣới dạng các
đồ thị bao gồm một tập hợp các nút kết thúc (nút lá) và một tập các nút không
kết thúc (nút cha). Trong đó các nút cha lại bao gồm một tập các cung kết nối
với các nút con (có thể là nút kết thúc hoặc không kết thúc). Các nút lá, nút cha,

các cung đƣợc biểu diễn tƣơng ứng bằng các thẻ <terminal>, <nonterminal> và
<edge>. Có một điểm khác biệt giữa Tiger – XML so với Penn Treebank đó là
các nút <terminal>, <nonterminal> và thậm chí là cả các cung <edge> đều có
thể chứa một số lƣợng tùy ý không giới hạn các thuộc tính.
<body>

<s id="s5">
<graph root="s5_504">
<terminals>
<t id="s5_1" word="Die" pos="ART" morph="Def.Fem.Nom.Sg"/>
<t id="s5_2" word="Tagung" pos="NN" morph="Fem.Nom.Sg.*"/>
<t id="s5_3" word="hat" pos="VVFIN" morph="3.Sg.Pres.Ind"/>
<t id="s5_4" word="mehr" pos="PIAT" morph=" "/>
<t id="s5_5" word="Teilnehmer" pos="NN"
morph="Masc.Akk.Pl.*"/>
<t id="s5_6" word="als" pos="KOKOM" morph=" "/>
<t id="s5_7" word="je" pos="ADV" morph=" "/>
<t id="s5_8" word="zuvor" pos="ADV" morph=" "/>
</terminals>
<nonterminals>

×