Tải bản đầy đủ (.pdf) (71 trang)

Luận văn thạc sĩ HUS xây dựng hệ thống phân tích cú pháp – ngữ nghĩa tiếng việt với công cụ tulipa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (626.33 KB, 71 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
——————————

Nguyễn Thị Huyên

XÂY DỰNG HỆ THỐNG PHÂN TÍCH
CÚ PHÁP - NGỮ NGHĨA TIẾNG VIỆT
VỚI CÔNG CỤ TULIPA

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2016

LUAN VAN CHAT LUONG download : add


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
——————————

Nguyễn Thị Huyên

XÂY DỰNG HỆ THỐNG PHÂN TÍCH
CÚ PHÁP - NGỮ NGHĨA TIẾNG VIỆT
VỚI CÔNG CỤ TULIPA

Chuyên ngành: Cơ sở toán cho tin học
Mã số: 60460110

LUẬN VĂN THẠC SĨ KHOA HỌC


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Thị Minh Huyền

Hà Nội - 2016

LUAN VAN CHAT LUONG download : add


Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Thị Minh Huyền,
người đã tận tình chỉ bảo và hướng dẫn em trong quá trình thực hiện luận văn
này cũng như trong suốt những năm học vừa qua.
Em xin chân thành cảm ơn các thầy giáo, cơ giáo, cán bộ khoa Tốn - Cơ Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội đã trực
tiếp giảng dạy, giúp đỡ em trong suốt thời gian học cao học và làm việc tại Bộ
môn Tin học.
Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã ln động
viên, khuyến khích, tạo điều kiện cho em trong quá trình học tập và thực hiện
luận văn.
Mặc dù đã cố gắng để hoàn thành luận văn, nhưng do hạn chế về kinh nghiệm
và thời gian, nên luận văn khơng thể tránh khỏi những thiếu sót. Em rất mong
nhận được sự cảm thơng và những ý kiến đóng góp của các thầy cô và các bạn.
Hà Nội, ngày 25 tháng 11 năm 2016
Học viên

Nguyễn Thị Huyên

i

LUAN VAN CHAT LUONG download : add



Mục lục
Danh sách bảng

iv

Danh sách hình vẽ

v

Lời mở đầu

1

1 Tổng quan về phân tích cú pháp - ngữ nghĩa

3

1.1

1.2

Bài tốn phân tích cú pháp - ngữ nghĩa . . . . . . . . . . . . . .

3

1.1.1

Bài tốn phân tích cú pháp . . . . . . . . . . . . . . . .

3


1.1.2

Bài tốn phân tích ngữ nghĩa . . . . . . . . . . . . . . .

5

Dữ liệu cho phân tích cú pháp - ngữ nghĩa . . . . . . . . . . . .

5

1.2.1

Từ điển . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.2.2

Các kho văn bản . . . . . . . . . . . . . . . . . . . . . .

10

2 Các hệ hình thức văn phạm
2.1

2.2

17


Hệ hình thức văn phạm . . . . . . . . . . . . . . . . . . . . . . .

17

2.1.1

Văn phạm TAG

. . . . . . . . . . . . . . . . . . . . . .

18

2.1.2

Siêu văn phạm và XMG . . . . . . . . . . . . . . . . . .

22

2.1.3

Văn phạm RCG . . . . . . . . . . . . . . . . . . . . . . .

23

Biểu diễn và tính tốn ngữ nghĩa bằng logic . . . . . . . . . . .

27

2.2.1


Logic bậc một . . . . . . . . . . . . . . . . . . . . . . . .

28

2.2.2

Tính tốn ngữ nghĩa bậc một dựa trên tính tốn lambda

29

2.2.3

Tính tốn ngữ nghĩa bậc một dựa trên hợp nhất . . . . .

32

3 Công cụ phân tích cú pháp - ngữ nghĩa TuLiPA

36

ii

LUAN VAN CHAT LUONG download : add


3.1
3.2

Một số cơng cụ phân tích cú pháp - ngữ nghĩa phổ biến cho văn
phạm TAG . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


36

Công cụ TuLiPA . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.2.1

Chuyển đổi văn phạm TAG sang RCG . . . . . . . . . .

38

3.2.2

Phân tích cú pháp RCG . . . . . . . . . . . . . . . . . .

39

3.2.3

Chuyển đổi kết quả phân tích cú pháp RCG sang TAG .

42

4 Xây dựng dữ liệu cho phân tích cú pháp - ngữ nghĩa tiếng Việt 47
4.1

Bổ sung thông tin cho cấu trúc danh ngữ, động ngữ, tính ngữ
tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


47

4.1.1

Cấu trúc danh ngữ tiếng Việt . . . . . . . . . . . . . . .

47

4.1.2

Cấu trúc động ngữ tiếng Việt . . . . . . . . . . . . . . .

49

4.1.3

Cấu trúc tính ngữ tiếng Việt . . . . . . . . . . . . . . . .

51

4.2

Xây dựng từ điển mở rộng dựa trên VCL cho hệ hình thức F-LTAG 52

4.3

Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54


Kết luận

57

Các cơng trình công bố liên quan đến luận văn

59

Tài liệu tham khảo

60

iii

LUAN VAN CHAT LUONG download : add


Danh sách bảng
1.1

Tập nhãn từ loại . . . . . . . . . . . . . . . . . . . . . . . . . .

11

1.2

Tập nhãn mệnh đề . . . . . . . . . . . . . . . . . . . . . . . . .

12


1.3

Tập nhãn cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . .

12

1.4

Nhãn chức năng cú pháp . . . . . . . . . . . . . . . . . . . . . .

13

1.5

Tập nhãn vai nghĩa trong Propbank . . . . . . . . . . . . . . . .

13

iv

LUAN VAN CHAT LUONG download : add


Danh sách hình vẽ
1.1

Đồ thị phụ thuộc biểu diễn câu “Nó trả tơi tiền” . . . . . . . . .

4


1.2

Cây cú pháp thành phần biểu diễn câu “Nó trả tơi tiền” . . . .

4

1.3

Hai mục từ tương ứng với hình vị từ “yêu” trong từ điển in . . .

6

1.4

Cây phân cấp của động từ spray-9.7

. . . . . . . . . . . . . . .

8

1.5

Nhãn vai nghĩa của lớp động từ give-13.1 với phép toán | . . . .

9

1.6

Biểu diễn AMR của câu “The boy wants to go” . . . . . . . . . .


15

2.1

Các cây khởi tạo và phụ trợ . . . . . . . . . . . . . . . . . . . .

19

2.2

Q trình dẫn xuất của câu “tơi đang ngủ ”

. . . . . . . . . . .

19

2.3

Hợp nhất đặc trưng trong phép thế . . . . . . . . . . . . . . . .

20

2.4

Hợp nhất đặc trưng trong phép kết nối . . . . . . . . . . . . . .

20

2.5


Quá trình hợp nhất đặc trưng sinh câu “Cô ấy không đẹp” . . .

21

2.6

Ràng buộc đặc trưng trong phép kết nối . . . . . . . . . . . . .

21

2.7

Hiện tượng lặp cấu trúc trong TAG . . . . . . . . . . . . . . . .

22

2.8

Mô tả cú pháp XMG . . . . . . . . . . . . . . . . . . . . . . . .

23

2.9

Quá trình dẫn xuất trong RCG . . . . . . . . . . . . . . . . . .

28

2.10 Biểu thức lambda của câu “a woman walks” . . . . . . . . . . .


32

2.11 Cây cú pháp biểu diễn câu “a woman walks” . . . . . . . . . . .

34

2.12 Biểu diễn ngữ nghĩa “a woman walks” . . . . . . . . . . . . . . .

35

3.1

Tổng quan hệ thống XTAG . . . . . . . . . . . . . . . . . . . .

37

3.2

Văn phạm TAG . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.3

Thuật tốn phân tích cú pháp Early . . . . . . . . . . . . . . .

42

3.4


Dẫn xuất RCG và cây dẫn xuất TAG tương ứng . . . . . . . . .

42

v

LUAN VAN CHAT LUONG download : add


3.5

Giao diện cú pháp ngữ nghĩa biểu diễn câu: “every man loves a
woman” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

4.1

Xây dựng biểu diễn ngữ nghĩa của câu “Nó đọc sách” . . . . . .

53

4.2

Ràng buộc trong cấu trúc danh ngữ . . . . . . . . . . . . . . . .

54

4.3


Dữ liệu mẫu trong từ điển mở rộng . . . . . . . . . . . . . . . .

55

4.4

Kết quả phân tích cú pháp - ngữ nghĩa của câu “họ đã hy sinh vì
tổ quốc” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

vi

LUAN VAN CHAT LUONG download : add


Lời mở đầu
Trong giai đoạn hiện nay, với sự bùng nổ của Internet và sự phát triển của
các phương tiện truyền thông hiện đại, thế giới thông tin đang trở nên đa dạng
và phong phú hơn bao giờ hết. Khi đó, muốn cho các máy tính có thể hiểu và
hỗ trợ con người khai thác thông tin một cách hiệu quả thì xử lí ngơn ngữ tự
nhiên là một vấn đề quan trọng. Đây là lĩnh vực được nhiều nhà khoa học trên
thế giới quan tâm nghiên cứu trong suốt nhiều thập kỉ qua. Một hướng nghiên
cứu tích cực mang tính nền tảng của xử lí ngơn ngữ tự nhiên hiện nay là xây
dựng hệ thống biểu diễn ngữ nghĩa của các câu trong ngôn ngữ tự nhiên. Các
ứng dụng trong biểu diễn ngữ nghĩa ngôn ngữ tự nhiên khá phong phú, trong
đó phải kể đến một số ứng dụng chính như dịch máy, xây dựng các hệ thống
hỏi đáp, nhận dạng tiếng nói, thiết kế người máy có khả năng hiểu và nói được
tiếng con người,... Q trình biểu diễn ngữ nghĩa của các câu trong ngôn ngữ tự

nhiên địi hỏi phải giải quyết hai bài tốn quan trọng là bài tốn phân tích cú
pháp và bài tốn phân tích ngữ nghĩa. Trên thế giới, việc xây dựng các mơ hình
tự động biểu diễn ngữ nghĩa ngơn ngữ tự nhiên đã có những bước tiến đáng kể,
với các cơng cụ phần mềm cho phép tính tốn ngữ nghĩa kết hợp phân tích cú
pháp của các ngơn ngữ thơng dụng như tiếng Anh, tiếng Pháp, sử dụng nhiều
hệ hình thức văn phạm khác nhau như HPSG [7], TAG [8]. Đối với tiếng Việt,
đây là vấn đề khá mới, các kết quả đạt được về biểu diễn ngữ nghĩa còn hạn
chế.
Luận văn tập trung vào việc xây dựng hệ thống phân tích cú pháp và tính
tốn ngữ nghĩa cho văn phạm TAG tiếng Việt sử dụng công cụ XMG và TuLiPA.
Văn phạm kết nối cây TAG là một trong các hệ hình thức đã được chỉ ra là
thích hợp trong việc tính tốn ngữ nghĩa dựa trên thành phần cú pháp. Nội
1

LUAN VAN CHAT LUONG download : add


dung chính của luận văn được chia thành 4 chương:
• Chương 1 trình bày tổng quan về bài tốn phân tích cú pháp - ngữ nghĩa.
• Chương 2 trình bày kiến thức cơ sở về các hệ hình thức văn phạm, cách
biểu diễn và tính tốn ngữ nghĩa bằng logic làm nền tảng cho xây dựng hệ
thống phân tích cú pháp - ngữ nghĩa.
• Chương 3 giới thiệu chi tiết về cơng cụ phân tích cú pháp - ngữ nghĩa
TuLiPA.
• Chương 4 tập trung xây dựng dữ liệu cho hệ thống phân tích cú pháp - ngữ
nghĩa tiếng Việt, tiến hành thực nghiệm và đánh giá kết quả.

2

LUAN VAN CHAT LUONG download : add



Chương 1

Tổng quan về phân tích cú pháp ngữ nghĩa
Nội dung của chương này sẽ trình bày các kiến thức cơ bản về cú pháp, ngữ
nghĩa và một số nguồn tài nguyên quan trọng phục vụ cho phân tích cú pháp ngữ nghĩa.

1.1

Bài tốn phân tích cú pháp - ngữ nghĩa

1.1.1

Bài tốn phân tích cú pháp

Trong ngơn ngữ học, cú pháp là tập các quy tắc, nguyên tắc kết hợp các từ,
cụm từ để hình thành nên các câu trong ngôn ngữ tự nhiên. Cú pháp được xem
là linh hồn của ngôn ngữ, muốn sử dụng ngôn ngữ linh hoạt và hiệu quả, ta phải
hiểu rõ về cú pháp. Với mỗi câu trong ngơn ngữ tự nhiên, chúng ta có hai dạng
cú pháp tương ứng: Cú pháp thành phần và cú pháp phụ thuộc.
• Cú pháp phụ thuộc biểu diễn mối quan hệ phụ thuộc ngữ nghĩa giữa các từ
trong câu
• Cú pháp thành phần biểu diễn trật tự, cách thức ghép nối các từ, cụm từ
của câu theo cấu trúc thứ bậc
Để biểu diễn thông tin cú pháp của các câu trong ngơn ngữ tự nhiên, mơ hình
biểu diễn dưới dạng đồ thị là trực quan.
3

LUAN VAN CHAT LUONG download : add



root
dobj
nsubj



iobj

trả

tơi

tiền

Hình 1.1: Đồ thị phụ thuộc biểu diễn câu “Nó trả tơi tiền”
S
NP

VP

P

V

NP

NP




trả

P

N

tơi

tiền

Hình 1.2: Cây cú pháp thành phần biểu diễn câu “Nó trả tơi tiền”

Ví dụ: Đồ thị cú pháp phụ thuộc và cú pháp thành phần biểu diễn câu “Nó
trả tơi tiền” được thể hiện lần lượt trong hình 1.1 và 1.2.
Cú pháp thành phần với đồ thị biểu diễn được mô tả dưới dạng cây cho phép
chúng ta dễ dàng xây dựng và kết hợp các thành phần ngữ nghĩa dựa trên thành
phần cú pháp. Do đó, trong các phần tiếp theo, luận văn chỉ quan tâm tới bài
tốn phân tích cú pháp thành phần của các câu trong ngơn ngữ tự nhiên.
Phân tích cú pháp thành phần (phân tích cú pháp) đưa ra mơ tả về quan hệ
và vai trò ngữ pháp của các từ, cụm từ trong câu, từ đó đưa ra cấu trúc cú pháp
(cây phân tích) của câu. Đầu vào của bài tốn phân tích cú pháp là các câu đã
được tách từ, trong đó mỗi từ có đặc điểm hình thái xác định. Q trình phân
tích cú pháp cho phép kiểm tra một câu đầu vào có đúng ngữ pháp hay khơng
dựa trên các quy tắc ngơn ngữ.
Phân tích cú pháp là một trong những bài toán cơ bản và quan trọng, là nền
tảng để phát triển nhiều ứng dụng liên quan đến xử lí ngơn ngữ. Đối với tiếng
Việt, đã có một số cơng trình nghiên cứu về phân tích cú pháp cho các văn phạm
khác nhau như PCFG (Probabilistic Context-Free Grammars) [18], HPSG (Headdriven phrase structure grammar ) [21], TAG (Tree-adjoining grammar ) [22]...


4

LUAN VAN CHAT LUONG download : add


1.1.2

Bài tốn phân tích ngữ nghĩa

Ngữ nghĩa biểu thị mối quan hệ giữa các từ, cụm từ, ký hiệu... và ý nghĩa của
chúng thể hiện trong câu. Bài toán phân tích ngữ nghĩa được thể hiện ở nhiều
cấp độ: Phân tích ngữ nghĩa các từ, cụm từ, phân tích vai nghĩa... Luận văn
tập trung giải quyết vấn đề phân tích ngữ nghĩa của các câu trong ngơn ngữ tự
nhiên. Đó là quá trình ánh xạ mỗi câu thành một biểu diễn hình thức cho ngữ
nghĩa của câu. Một trong những cách thức phổ biến nhất để biểu diễn ngữ nghĩa
ngôn ngữ tự nhiên là sử dụng logic bậc một với nội dung chi tiết được trình bày
trong chương tiếp theo.
Bài tốn phân tích ngữ nghĩa đã và đang nhận được nhiều sự quan tâm của
các nhà ngôn ngữ học trên thế giới. Kết quả đạt được đầu tiên về biểu diễn ngữ
nghĩa ngôn ngữ tự nhiên phải kể đến nghiên cứu về ngữ nghĩa hình thức của
Richard Montague [29], trong đó các quy tắc ngữ pháp được kết hợp đồng thời
với các quy tắc ngữ nghĩa để xây dựng không chỉ cây cú pháp mà cả hạng thức
lambda biểu diễn nghĩa của thành phần cú pháp. Trong những năm gần đây,
các nhà khoa học đã có nhiều bước tiến đáng kể trong việc xây dựng các mơ
hình biểu diễn ngữ nghĩa [25], cùng với một số công cụ phần mềm [16][37][34]
cho phép sinh tự động biểu diễn ngữ nghĩa của nhiều ngôn ngữ khác nhau. Đối
với tiếng Việt, được sự quan tâm của các nhóm nghiên cứu xử lí ngơn ngữ từ
năm 2000 đến nay, nhiều vấn đề cơ bản đã được giải quyết nhưng nhìn chung
mới chỉ xoay quanh các bài tốn phân tích từ vựng và cú pháp. Đây là lúc cần

đầu tư nghiên cứu về xử lí ngữ nghĩa hướng tới một hệ thống phân tích cú pháp
- ngữ nghĩa hoàn chỉnh cho tiếng Việt.

1.2

Dữ liệu cho phân tích cú pháp - ngữ nghĩa

Kho ngữ liệu văn bản và từ điển là những nguồn tài nguyên không thể thiếu
cho các hệ thống xử lí ngơn ngữ tự nhiên. Trong phân tích cú pháp - ngữ nghĩa,
từ điển cung cấp thông tin cấu trúc cú pháp và biểu diễn ngữ nghĩa của từng từ
trong ngôn ngữ. Bên cạnh đó, các kho văn bản đóng vai trị như dữ liệu huấn
luyện, dữ liệu kiểm tra độ chính xác, dữ liệu đầu vào cho phân tích cú pháp 5

LUAN VAN CHAT LUONG download : add


yêu1 d.(id). Vật tưởng tượng trong cổ tích, thần thoại, hình thù kì dị, chuyên làm hại người.
yêu2 1 đg. Có tình cảm dễ chịu khi tiếp xúc với một đối tượng nào đó, muốn gần gũi và thường sẵn
sàng vì đối tượng đó mà hết lịng. Mẹ u con. Yêu nghề. Yêu đời. Trông thật đáng yêu. Yêu nên tốt,
ghét nên xấu (tng.). 2 đg. Có tình cảm thắm thiết dành riêng cho một người khác giới nào đó, muốn
chung sống và cùng nhau gắn bó cuộc đời. Yêu nhau. Người yêu. 3 đg. Từ dùng sau một động từ
trong những tổ hợp tả một hành vi về hình thức là chê trách, đánh mắng một cách nhẹ nhàng, nhưng
thật ra là biểu thị tình cảm thương yêu. Mẹ mắng yêu con. Nguýt yêu. Tát yêu.
Hình 1.3: Hai mục từ tương ứng với hình vị từ “yêu” trong từ điển in

ngữ nghĩa của nhiều ngôn ngữ khác nhau. Nội dung bên dưới trình bày một số
nguồn tài ngun có giá trị phục vụ cho các hệ thống phân tích cú pháp - ngữ
nghĩa.
1.2.1


Từ điển

Từ điển cung cấp cho các hệ thống xử lí ngơn ngữ thơng tin từ vựng ở nhiều
cấp độ, từ hình thái đến ngữ nghĩa. Dạng từ điển điện tử đầu tiên được hình
thành là từ điển in (print dictionary) [2], lưu trữ thông tin chuyển đổi từ các
bộ từ điển giấy. Đối với tiếng Việt, trung tâm từ điển học Vietlex hiện đang lưu
trữ một phiên bản từ điển in dưới định dạng MS Word chứa 39 924 mục từ [32].
Mỗi mục từ gồm các thông tin như từ loại, cách sử dụng, định nghĩa và các ví
dụ minh họa cho cách sử dụng của từ. Một từ nhiều nghĩa có thể được mơ tả
bởi nhiều mục từ khác nhau trong từ điển. Ví dụ, hình 1.3 thể hiện hai mục từ
tương ứng với hình vị từ “yêu” trong từ điển in.
Với yêu cầu giải quyết các bài toán ngày càng phức tạp trên máy tính và sự
phát triển của khoa học cơng nghệ, một loạt các từ điển cho máy tính (Machine
Readable Dictionary - MRD) [9] được xây dựng dựa trên chuẩn mơ hình từ điển
LMF [17]. Dự án LMF (Lexical Markup Framework ) được khởi động từ năm
2002, cung cấp nền tảng cho việc phát triển các từ điển xử lí ngơn ngữ tự nhiên.
Mục đích của nó là định nghĩa một tiêu chuẩn chung cho việc biểu diễn dữ liệu
từ vựng để nâng cao khả năng trao đổi và dùng lại của các từ điển. LMF đưa ra
một siêu mơ hình từ vựng, trong đó mỗi mục từ được mơ tả ở nhiều tầng bậc
khác nhau, với các khối thông tin đơn ngữ (ngữ âm, hình thái, cú pháp, ngữ
6

LUAN VAN CHAT LUONG download : add


nghĩa) và đa ngữ.
Trên thế giới, hiện nay, việc phát triển các kho ngữ liệu từ điển theo tiêu
chuẩn LMF là khá phổ biến, điển hình là các bộ từ điển cung cấp thông tin
ngôn ngữ ở nhiều tầng bậc, thiên về ngữ nghĩa như FrameNet, VerbNet.
FrameNet [14] [36] là bộ từ điển được xây dựng dựa trên lí thuyết ngữ nghĩa

được gọi là ngữ nghĩa khung. Mục đích là đưa ra bằng chứng về khả năng kết hợp
ngữ nghĩa và cú pháp của từng từ trong từng nét nghĩa của chúng, với sự giải
thích có trợ giúp của máy tính trên các câu ví dụ. Ý tưởng cơ bản của FrameNet
là sử dụng các khung ngữ nghĩa để biểu thị nghĩa của từng từ. Mỗi khung tham
chiếu đến một khái niệm, mô tả một hành động hoặc một trạng thái, với các
vai nghĩa và các thành phần liên quan tới khung. Các vai nghĩa trong khung
ngữ nghĩa được gọi là các thành phần khung (frame elements - FEs), các từ liên
quan đến khung ngữ nghĩa được gọi là các đơn vị từ vựng (lexical units - LUs).
FrameNet tổ chức các khung ngữ nghĩa theo mơ hình cây phân cấp, các khung ở
cấp cao hơn tham chiếu đến các khái niệm chung hơn, tổng quát hơn, các khung
ở cấp độ thấp hơn đề cập đến các khái niệm hẹp hơn, chi tiết hơn.
Nhiệm vụ của FrameNet là xác định các khung ngữ nghĩa và chú thích các
câu để thể hiện rằng các thành phần khung là phù hợp về mặt cú pháp với các
đơn vị từ vựng của khung. Dưới đây là ví dụ minh họa cho việc chú giải trong
FrameNet:
Ví dụ: Khung ngữ nghĩa apply_heat mơ tả hành động cook (nấu ăn) được
xây dựng như sau:
• Các thành phần khung: Các từ cook (người nấu), food (thức ăn), container
(vật dụng đựng thức ăn), heat_instrument (cơng cụ nấu)
• Các đơn vị từ vựng: Các từ liên quan như fry (rán), bake (nướng lị), grill
(nướng vỉ)...
Khi đó, câu “the boys grill their catches on an open fire” có thể được chú giải
như sau:
[Cook the boys] GRILL[F ood their catches][Heating_instrument on an open fire]
FrameNet cho tiếng Anh hiện bao gồm trên 170 000 câu được chú giải ngữ
7

LUAN VAN CHAT LUONG download : add



nghĩa thủ công. Đây là kho ngữ liệu lớn, cung cấp dữ liệu huấn luyện cho bài
toán gán nhãn vai nghĩa và sử dụng trong nhiều bài tốn xử lí ngôn ngữ khác.
Bên cạnh kho ngữ liệu ngữ nghĩa FrameNet, từ điển động từ VerbNet cho
nhiều ngôn ngữ cũng được xây dựng. Trong đó, mỗi khung ngữ nghĩa FrameNet
có thể được ánh xạ tới một số lớp động từ VerbNet cung cấp thông tin cú pháp
- ngữ nghĩa chi tiết của các từ trong ngôn ngữ. Dưới đây là mô tả cụ thể về từ
điển VerbNet.
VerbNet [20] [13] là từ điển động từ chứa xấp xỉ 5800 động từ và nhóm động
từ trong tiếng Anh, được chia thành 270 lớp theo cách phân loại của Beth
Levin [11]. Các thành phần trong một lớp động từ VerbNet gồm:
• Cây phân cấp: Chứa cấu trúc cây của lớp động từ gồm các lớp cha và lớp
con. Mỗi lớp có thể có nhiều lớp con kế thừa đặc điểm cú pháp và ngữ nghĩa
của lớp cha. Các lớp động từ trong VerbNet được đánh số phân cấp, các lớp
con có chỉ số lớp ở đầu giống nhau và giống với chỉ số của lớp cha (hình 1.4)
Cây phân cấp
SPRAY-9.7
SPRAY-9.7-1
SPRAY-9.7-1-1
SPRAY-9.7-2
Hình 1.4: Cây phân cấp của động từ spray-9.7

• Thành phần của lớp: Chứa danh sách các động từ của lớp
• Các vai nghĩa: Biểu thị mối quan hệ giữa vị từ và các đối số. Một số vai
nghĩa thường được sử dụng trong VerbNet như:
– Agent: Tác nhân gây ra hành động, trạng thái
– Attribute: Thuộc tính của thực thể
– Destination: Đích đến
– Theme: Vai thực thể chuyển động
– ...
• Các ràng buộc: Mỗi vai nghĩa trong một lớp được đặc trưng bởi các ràng

buộc, cung cấp thông tin về bản chất của vai nghĩa. VerbNet sử dụng các
8

LUAN VAN CHAT LUONG download : add


kí hiệu (+), (-) biểu diễn ràng buộc tồn tại hay khơng tồn tại một tính chất
nào đó. Ngồi ra, các ràng buộc có thể kết hợp với nhau thơng qua các phép
tốn | (hoặc), & (và)
Ví dụ: Trong hình 1.5 ràng buộc trên hai vai nghĩa Agent (người gửi) và
Recipient (người nhận) thể hiện các đối tượng này có thể là một thực thể
cụ thể hoặc một tổ chức.
Các vai nghĩa
• Agent [+animate | +organization]
• Theme
• Recipient [+animate | +organization]
Hình 1.5: Nhãn vai nghĩa của lớp động từ give-13.1 với phép tốn |

• Các khung cú pháp: Gồm các câu ví dụ, cấu trúc cú pháp của câu, thơng
tin ngữ nghĩa biểu diễn mối quan hệ giữa các thành phần trong câu.
Đối với tiếng Việt, bộ từ điển lớn nhất được xây dựng theo tiêu chuẩn LMF là
từ điển tiếng Việt cho máy tính (Vietnamese Computational Lexicon - VCL)[32].
Từ điển VCL được xây dựng trong khuôn khổ đề tài quốc gia, chứa khoảng 42 000
mục từ. Mục tiêu ban đầu của việc thiết kế VCL là phục vụ cho xử lí cú pháp
tiếng Việt, trong đó, mỗi mục từ được mơ tả trên ba bình diện: Hình thái, cú
pháp, ngữ nghĩa. Do đặc điểm cấu tạo tiếng Việt không có căn tố và phụ tố,
khơng có các ý nghĩa thuộc phạm trù hình thái (giống, số, cách...). Vì vậy, khi
xét về tính hình thái, từ điển VCL chỉ quan tâm đến cấu tạo từ với một số dạng:
Từ đơn, từ ghép, từ láy, từ vay mượn, từ viết tắt, kí hiệu.
Thơng tin cú pháp của mỗi mục từ được thể hiện thông qua việc phân loại

từ (danh từ - N, danh từ riêng - Np, danh từ đơn thể - Nc, động từ - V,...) và
liệt kê thông tin về mẫu động từ, các từ đồng nghĩa, trái nghĩa. Trong các ngôn
ngữ Ấn - Âu, đặc biệt là tiếng Anh, vị ngữ của một câu bao giờ cũng là động
từ. Đối với tiếng Việt, không phải lúc nào động từ cũng làm vị ngữ, tuy nhiên,
khi xem xét vai trò vị ngữ trong câu, các tác giả VCL bước đầu chỉ quan tâm
tới loại động từ và đưa ra 3 mẫu động từ cơ bản:
• Sub + V (Ví dụ: Tôi ngủ)
9

LUAN VAN CHAT LUONG download : add


• Sub + V +Obj (Ví dụ: Tơi đọc sách)
• Sub + V +Obj +Obj (Ví dụ: Tơi đưa cho Nam quyển sách)
trong đó: Obj có thể là cụm giới từ, cụm danh từ, cụm động từ, cụm tính
từ...
Xét về ngữ nghĩa, VCL tổ chức từ loại ngữ nghĩa theo mơ hình cây với gần 100
tiểu loại, đồng thời gán thông tin từ loại ngữ nghĩa cho mỗi mục từ (học sinh
- Person) và đưa ra ràng buộc ngữ nghĩa - thông tin về vai nghĩa của một từ
trong câu: Agent (tác nhân), Patient (bị thể)...
Ngồi các thơng tin nêu trên, các tác giả VCL cịn đưa thêm hai thơng tin
là lời định nghĩa nhằm nêu lên ý nghĩa cơ bản của từ vựng và phần ví dụ minh
họa cho định nghĩa.
VCL được xem là nguồn tri thức cơ bản của các mục từ tiếng Việt và nguồn
tài nguyên hữu ích cho phân tích cú pháp. Toàn bộ dữ liệu trong VCL được xây
dựng dựa trên tiêu chuẩn LMF cho phép cập nhật, kết nối với các tài nguyên
ngôn ngữ khác và mở rộng khi cần thiết.
1.2.2

Các kho văn bản


Để giải quyết các bài tốn đa dạng trong xử lí ngôn ngữ tự nhiên, bên cạnh
thông tin ngôn ngữ chứa trong từ điển, các kho văn bản chú giải cú pháp - ngữ
nghĩa là những nguồn tài nguyên khá quan trọng. Chúng thường được sử dụng
trong việc huấn luyện các mơ hình xử lí ngơn ngữ, là tiền đề cho sự ra đời của
nhiều ứng dụng. Nội dung dưới đây trình bày một số kho văn bản có tác động
to lớn trong các hệ thống xử lí cú pháp - ngữ nghĩa: TreeBank, PropBank, AMR
Bank.
Kho ngữ liệu TreeBank
TreeBank [24] là kho văn bản chú giải cú pháp, chứa các câu đã được phân
tích và gán nhãn. Kho ngữ liệu TreeBank có vai trị đặc biệt quan trọng trong
việc xây dựng các hệ thống phân tích cú pháp theo cách tiếp cận thống kê.
Có hai loại lược đồ chú giải cấu trúc cú pháp TreeBank là chú giải theo cấu
trúc thành phần (quan tâm đến cấu trúc ngữ đoạn trong câu) và chú giải theo
10

LUAN VAN CHAT LUONG download : add


STT

Tên

Chú thích

1

N

Danh từ


2

Np

Danh từ riêng

3

Nc

Danh từ chỉ loại

4

Nu

Danh từ đơn vị

5

V

Động từ

6

A

Tính từ


7

P

Đại từ

8

L

Định từ

9

M

Số từ

10

R

Phụ từ

11

E

Giới từ


12

C

Liên từ

13

I

Thán từ

14

T

Trợ từ, tiểu từ, tình thái từ

15

U

Từ đơn lẻ

16

Y

Từ viết tắt


17

X

Các từ không phân loại được
Bảng 1.1: Tập nhãn từ loại

cấu trúc phụ thuộc (quan tâm đến sự phụ thuộc ngữ pháp giữa các từ trong
câu). Tùy vào đặc điểm ngôn ngữ học khác nhau của từng ngôn ngữ, kho chú
giải TreeBank (phụ thuộc hay thành phần) tương ứng được xây dựng.
Hiện nay, một loạt các TreeBank (gồm cả TreeBank chứa chú giải cấu trúc
thành phần và phụ thuộc) với kích thước lớn đã xuất hiện cho nhiều ngôn ngữ
khác nhau như tiếng Anh, tiếng Pháp, tiếng Trung Quốc... Đối với tiếng Việt,
nhóm tác giả Nguyễn Phương Thái cùng cộng sự [5] đã lựa chọn xây dựng
TreeBank gồm các cây thành phần với tên gọi VietTreeBank chứa 10 ngàn câu
đã được chú giải cú pháp. Tập nhãn của VietTreeBank được thiết kế gồm có:
• Tập nhãn từ loại tiếng Việt gồm: Từ loại cơ sở (danh từ, động từ...), thông
tin ngữ nghĩa và một số thông tin cú pháp khác (bảng 1.1)
• Tập nhãn thành phần cú pháp: Chứa các mơ tả thành phần cú pháp cơ
bản như cụm từ và mệnh đề, là thông tin cơ bản nhất trên cây cú pháp.
11

LUAN VAN CHAT LUONG download : add


Bảng 1.2 liệt kê các nhãn mệnh đề và bảng 1.3 liệt kê tập nhãn cụm từ
trong VietTreeBank
STT


Tên

Chú thích

1

S

Câu trần thuật (khẳng định hoặc phủ định)

2

SQ

Câu hỏi

3

SBAR

Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, tính từ)
Bảng 1.2: Tập nhãn mệnh đề

STT

Tên

Chú thích

1


NP

Cụm danh từ

2

VP

Cụm động từ

3

AP

Cụm tính từ

4

RP

Cụm phụ từ

5

PP

Cụm giới từ

6


QP

Cụm từ chỉ số lượng

7

MDP

Cụm từ tình thái

8

WHNP

Cụm danh từ nghi vấn (ai, cái gì, con gì...)

9

WHAP

Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao...)

10

WHRP

Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn...

11


WHPP

Cụm giới từ nghi vấn (với ai, bằng cách nào...)
Bảng 1.3: Tập nhãn cụm từ

• Nhãn chức năng cú pháp: Cho biết vai trò của các thành phần cú pháp
trong thành phần cú pháp mức cao hơn. Nhãn chức năng cú pháp được gán
cho các thành phần chính trong câu như chủ ngữ, vị ngữ, tân ngữ (bảng 1.4)
Ví dụ: Chú giải cú pháp của câu “Nhân lực không nằm trong biên chế được
duyệt.” trong VietTreeBank:
(S (NP-SUB (N-H Nhân_lực)) (VP (R không) (V-H nằm)(PP (E-H trong)
(NP (N-H biên_chế) (VP (R được) (V-H duyệt))))) (. .))
Trong đó:
• S, NP, PP, VP là các nhãn mệnh đề và cụm từ
• N, R, V, E là các nhãn từ loại
12

LUAN VAN CHAT LUONG download : add


STT

Tên

Chú thích

1

SUB


Nhãn chức năng chủ ngữ

2

DOB

Nhãn chức năng tân ngữ trực tiếp

3

IOB

Nhãn chức năng tân ngữ gián tiếp

4

TPC

Nhãn chức năng chủ đề

5

PRD

Nhãn chức năng vị ngữ không phải cụm động từ

6

LGS


Nhãn chức năng chủ ngữ logic của câu ở thể bị động

7

EXT

Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động

8

H

Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề)

9 - 12

TC, CMD, EXC, SPL

Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt

13

TTL

Tít báo hay tiêu đề

14

VOC


Thành phần than gọi
Bảng 1.4: Nhãn chức năng cú pháp

• SUB, H là các nhãn chức năng cú pháp
Kho ngữ liệu PropBank
Propbank [28] là kho ngữ liệu chú giải vai nghĩa cho các đối số của vị từ, bổ
sung các nhãn vai nghĩa vào cấu trúc cú pháp, hướng tới mục tiêu hoàn thiện
đầy đủ kho ngữ liệu chú giải vai nghĩa TreeBank. Lớp thông tin này rất cần
thiết để hiểu đầy đủ ý nghĩa của câu. Đây là một bước tiến gần hơn tới biểu
diễn ngữ nghĩa chi tiết của ngôn ngữ tự nhiên. Danh sách các đối số ngữ nghĩa
của vị từ trong Propbank được thể hiện trong bảng 1.5.
STT

Kí hiệu

Vai nghĩa

1

Arg0

Tác thể

2

Arg1

Bị thể


3

Arg2

Cơng cụ để thực hiện hành động
Kẻ tiếp nhận hành động
Kẻ được hưởng thành quả từ một hành động

4

Arg3

Điểm bắt đầu của chuyển động

5

Arg4

Đích đến của chuyển động

6

ArgM (ArgM-LOC, ArgM-TMP...)

Các bổ ngữ (địa điểm, thời gian...)

Bảng 1.5: Tập nhãn vai nghĩa trong Propbank

Ví dụ: Gán nhãn vai nghĩa cho câu “He would not accept those things”:
13


LUAN VAN CHAT LUONG download : add


[Arg0 He][ArgM-MOD would][ArgM-NEG not][V accept] [Arg1 those things]
Trong đó, V: Động từ, Arg0: Vai tác thể, Arg1: Vai bị thể, ArgM-MOD: Động
từ khuyết thiếu (modal), ArgM-NEG: Vai phủ định (negation)
Trong Propbank tồn tại một số tệp dữ liệu khung (FrameSet) mơ tả tất cả
các đối số có thể, tương ứng với các trường hợp ngữ nghĩa khác nhau của từng
vị từ và các ví dụ minh họa. Ngồi ra, mỗi FrameSet được ánh xạ tới một số lớp
động từ VerbNet cung cấp cho chúng ta nhiều thông tin ngữ nghĩa của từ.
Ví dụ: FrameSet của động từ “decline”
FrameSet decline.01 (giảm dần)
Arg1: Thực thể bị giảm
Arg2: Số lượng giảm
Arg3: Điểm khởi đầu
Arg4: Điểm kết thúc
[Arg1 its net income] declining [Arg2 42% ][Arg4 to $121 million]
FrameSet decline.02 (từ chối)
Arg0: Tác nhân
Arg1: Điều bị từ chối
[Arg0 A spokesman] declined [Arg1 trace to elaborate]
Hiện tại, kho ngữ liệu PropBank tiếng Anh chứa khoảng 3500 câu đã chú giải
vai nghĩa. Với tiếng Việt, nhóm tác giả Hà Mỹ Linh [3] đã hoàn thành việc gán
nhãn vai nghĩa cho trên 5000 câu trong VietTreeBank. Tuy nhiên, điểm khác
biệt giữa PropBank tiếng Anh và PropBank tiếng Việt là các FrameSet tiếng
Việt không được kết nối với bất kì nguồn tài ngun nào khác, vì chúng ta khơng
có các nguồn tài nguyên ngữ nghĩa tương tự VerbNet.
Kho ngữ liệu AMR Bank
AMR (abstract meaning representation) [23] là một dạng chú giải ngữ nghĩa

ngắn gọn, dễ đọc cho toàn bộ câu. Thành phần chú giải gồm các thực thể, các
nhãn vai nghĩa PropBank, các từ chỉ mối quan hệ số lượng, ngày tháng...
AMR Bank là kho văn bản chú giải ngữ nghĩa AMR cho các câu trong ngôn
ngữ tự nhiên. Trong AMR Bank, mỗi câu được biểu diễn bởi một đồ thị có
nút gốc, khơng có chu trình với các nút lá được gán nhãn bởi các khái niệm,

14

LUAN VAN CHAT LUONG download : add


ARG1

instance

ARG0
ARG0

instance

want-01
instance

go-01

boy
Hình 1.6: Biểu diễn AMR của câu “The boy wants to go”

các cung được gán nhãn bởi các mối quan hệ. Các khái niệm trong AMR có
thể là các từ trong ngôn ngữ tự nhiên (boy, girl...), các khung vị từ (FrameSet)

trong PropBank, các từ khóa đặc biệt: Kiểu thực thể ngày tháng (date-entity),
vùng miền (world-region), đại lượng tiền tệ (monetary-quantity), khoảng cách
(distance-entity), các phép hội logic... AMR sử dụng gần 100 mối quan hệ:
• Các nhãn vai nghĩa theo quy ước Propbank (:arg0, :arg1...)
• Các mối quan hệ ngữ nghĩa nói chung như :name (tên), :age (tuổi), :location
(địa điểm)...
• Các mối quan hệ cho các đại lượng như :quant (số lượng), :unit (đơn vị),
:scale (tỉ lệ)...
• Các mối quan hệ cho các thực thể ngày tháng như :day (ngày), :month
(tháng), year (năm), :season (mùa)...
• ...
Ví dụ: Biểu diễn ngữ nghĩa AMR của câu “The boy wants to go” được thể
hiện trong hình 1.6). Biểu diễn AMR dưới dạng văn bản của câu trên như sau:
(w/want − 01
: Arg0(b/boy)
: Arg1(g/go − 01
: Arg0 b))

15

LUAN VAN CHAT LUONG download : add


Trong đó, Arg0, Arg1 là các vai nghĩa PropBank biểu thị các vai tác thể và
bị thể. Các biến w, b, b2, g tương ứng là các nút trong của đồ thị trên. Biến b
xuất hiện 2 lần, một lần đóng vai trị là Arg0 của want − 01, một lần là Arg0
của go − 01
Hiện tại, kho ngữ liệu chú giải AMR đã được xây dựng cho một số ngôn ngữ
như tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Nhật... Đối với tiếng Anh, một kho
văn bản chú giải AMR chứa 1562 câu của tác phẩm “The little prince” đã được

xây dựng. Đây là một nguồn tài nguyên quan trọng, mở ra những nghiên cứu
mới trong hiểu biết ngôn ngữ tự nhiên theo cách tiếp cận thống kê, đồng thời
cung cấp đầu vào ngữ nghĩa cho các hệ thống sinh ngơn ngữ tự nhiên.
Tóm lại, phân tích cú pháp - ngữ nghĩa có tầm ảnh hưởng mạnh mẽ trong
xử lí ngơn ngữ tự nhiên. Để giải quyết bài tốn phân tích cú pháp - ngữ nghĩa
địi hỏi chúng ta phải xây dựng các nguồn tài ngun ngơn ngữ có chất lượng
tốt. Trong tiếng Việt, các kho ngữ liệu phục vụ cho xử lí cú pháp khá phát
triển, tuy nhiên, chúng ta thiếu những nguồn tài nguyên ngữ nghĩa tương tự
như FrameNet, VerbNet, AMR Bank.

16

LUAN VAN CHAT LUONG download : add


Chương 2

Các hệ hình thức văn phạm
Chương này trình bày một số hệ hình thức văn phạm dùng cho phân tích cú
pháp - ngữ nghĩa và cách thức biểu diễn ngữ nghĩa dựa trên logic bậc một. Để
đảm bảo tính đặc trưng cho vấn đề được nhắc tới, một số ví dụ bằng tiếng Anh
trong các tài liệu tham khảo có thể được giữ nguyên trong các phần của chương.

2.1

Hệ hình thức văn phạm

Có hai cách tiếp cận cho bài tốn phân tích cú pháp: Phân tích cú pháp dựa
trên luật và dựa trên thống kê. Mọi bộ phân tích cú pháp suy cho cùng đều
phải sử dụng một văn phạm nào đó. Có nhiều loại văn phạm đã được sử dụng

cho phân tích cú pháp và biểu diễn ngữ nghĩa: Văn phạm phi ngữ cảnh (CFG),
văn phạm cảm ngữ cảnh (CSG), văn phạm cấu trúc ngữ đoạn hướng trung tâm
(HSPG)... Luận văn lựa chọn trình bày văn phạm hình thức TAG cho bài tốn
phân tích cú pháp - ngữ nghĩa bởi một số lí do [4]: Thứ nhất, TAG thuộc lớp
văn phạm cảm ngữ cảnh yếu, tức là có khả năng sinh mạnh hơn văn phạm phi
ngữ cảnh, trong khi độ phức tạp thời gian của bộ phân tích cú pháp TAG vẫn
là đa thức. Thứ hai, văn phạm TAG thuộc nhóm các hệ hình thức văn phạm
hợp nhất, rất phù hợp với các ứng dụng ngôn ngữ học, cho phép mô tả các
hiện tượng cú pháp, ngữ nghĩa một cách tự nhiên. Hơn nữa, khả năng chuyển
đổi một văn phạm TAG sang hệ hình thức văn phạm hợp nhất khác đã được
chứng minh. Nội dung bên dưới sẽ trình bày chi tiết văn phạm TAG, siêu văn
phạm XMG với các mảnh cây cho phép sinh một văn phạm TAG đầy đủ, giảm
17

LUAN VAN CHAT LUONG download : add


×