Lý thuyết biểu diễn diễn ngôn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (23.26 MB, 82 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

VŨ THỊ HƯƠNG

LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2014

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

VŨ THỊ HƯƠNG

LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN
Chuyên ngành: Cơ sở toán học cho tin học
Mã số:

60460110

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Nguyễn Thị Minh Huyền

Hà Nội – Năm 2014

MỤC LỤC
LỜI CẢM ƠN ..................................................................................................................................... 5
GIỚI THIỆU ....................................................................................................................................... 6
CHƯƠNG 1 CƠ SỞ TOÁN HỌC .................................................................................................... 10
1.1. LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT............................................................... 10
1.1.1 Các khái niệm cơ bản ....................................................................................................... 10
1.1.2 Các khái niệm ngữ nghĩa.................................................................................................. 11
1.1.3 Phép hợp nhất (Unification) ............................................................................................. 12
1.2. TÍNH TOÁN LAMBDA ........................................................................................................ 14
1.2.1 Cú pháp của tính toán lambda .......................................................................................... 15
1.2.2 Biến tự do và biến ràng buộc ........................................................................................... 16
1.2.3 Các phép biến đổi ............................................................................................................. 17
CHƯƠNG 2 LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN ................................................................... 21
2.1. CÁC THÀNH PHẦN CƠ BẢN CỦA DRT .......................................................................... 21
2.1.1 Tổng quan về DRT ........................................................................................................... 21
2.1.2 Cách xây dựng cấu trúc biểu diễn diễn ngôn ................................................................... 24
2.2 NGÔN NGỮ DRS CƠ BẢN VÀ BIỂU DIỄN ....................................................................... 27
2.2.1 Ngôn ngữ DRS mở rộng bậc một ..................................................................................... 27
2.2.2 Ngữ nghĩa chủ đích, mệnh đề, trạng thái thông tin và khả năng thay đổi ngữ cảnh ........ 32
2.2.3 Các lượng từ ..................................................................................................................... 40
2.2.4 Số nhiều............................................................................................................................ 41
2.2.5 Thời và thể ....................................................................................................................... 45
2.3 TIỀN GIẢ ĐỊNH (PRESUPPOSITION) ................................................................................ 49
2

2.3.1 Ý nghĩa của tiền giả định ................................................................................................. 49
2.3.2 Một ví dụ .......................................................................................................................... 50

CHƯƠNG 3 BIỂU DIỄN DIỄN NGÔN VỚI THAM CHIẾU THỜI GIAN TRONG TIẾNG VIỆT
........................................................................................................................................................... 55
3.1 ĐỊNH VỊ THỜI GIAN ............................................................................................................ 55
3.1.1 Biểu diễn thời gian trong mối quan hệ với không gian .................................................... 55
3.1.2 Định vị thời gian .............................................................................................................. 58
3.2 YẾU TỐ THỜI TRONG TIẾNG VIỆT .................................................................................. 69
3.2.1 Các quan niệm về thời trong tiếng Việt ........................................................................... 69
3.2.2 Cách diễn đạt ý nghĩa thời trong tiếng Việt ..................................................................... 70
3.3 DẤU HIỆU TỪ VỰNG ĐỂ NHẬN BIẾT THỜI TRONG TIẾNG VIỆT ............................. 73
KẾT LUẬN ....................................................................................................................................... 79
TÀI LIỆU THAM KHẢO................................................................................................................. 80

DANH MỤC HÌNH VẼ
Hình 1: Cây cú pháp của một biểu thức lambda............................................................................... 16
Hình 2: Phân tích cú pháp kết hợp tính toán lambda của câu (2). ................................................... 20
Hình 3: Thời gian được biểu diễn theo định hướng không gian. ...................................................... 55
Hình 4: Định vị thời gian với ẩm dụ người quan sát đứng yên. ....................................................... 56
Hình 5: Định vị thời gian với ẩm dụ người quan sát chuyển động. .................................................. 56

DANH MỤC TỪ VIẾT TẮT
Cụm từ đầy đủ

Cụm từ viết tắt
BV

Bound variables

CCG

Combinatory Categorial Grammar

3

CCP

Context change potential

DRT

Discourse representation theory

DRS

Discourse representation structure

EKAW

Knowledge Engineering and Knowledge Management

FV

Free variables

NP

Noun phrase

4

LỜI CẢM ƠN
Đầu tiên em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới TS.
Nguyễn Thị Minh Huyền đã luôn chỉ bảo, hướng dẫn tận tâm cho em trong
suốt quá trình thực hiện luận văn.
Việc hoàn thành luận văn này không thể không kể tới sự hỗ trợ và tạo
điều kiện của Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân
sự, Bộ Quốc Phòng là cơ quan tôi đang công tác. Tôi xin trân trọng gửi lời
cảm ơn tới các thủ trưởng, các đồng nghiệp, các đồng chí của mình.
Bên cạnh đó, em cũng xin cảm ơn các thầy cô, các cán bộ và nhân viên
của Bộ môn Tin học nói riêng và khoa Toán – Cơ – Tin học, trường Đại học
Khoa học Tự nhiên nói chung đã tận tình dạy dỗ và giúp đỡ em từ khi em còn
là sinh viên của trường đến những năm em trở lại học tập, nghiên cứu tại khoa
với cương vị học viên cao học.
Tôi xin cảm ơn gia đình, bạn bè và tất cả mọi người đã quan tâm, tạo
điều kiện, động viên cổ vũ tôi để tôi có thể hoàn thành nhiệm vụ của mình.
Luận văn của tôi không tránh khỏi những thiếu sót do hạn chế về thời
gian thực hiện và hiểu biết thật hệ thống về ngữ pháp, ngữ nghĩa tiếng Việt.
Tôi rất mong nhận được những ý kiến đóng góp của các thầy cô và các bạn.
Hà Nội, tháng 11 năm 2014
Học viên

Vũ Thị Hương
5

GIỚI THIỆU
Sự chi phối của ngữ cảnh trong ngôn ngữ tự nhiên là một hiện tượng
thiên biến vạn hóa vô cùng phức tạp, khiến nhiều nhà ngôn ngữ về ngữ nghĩa
dày công nghiên cứu. Trước đây, quan niệm về ngữ nghĩa chính tắc coi lý
thuyết ngữ nghĩa là mối quan tâm cơ bản, khái niệm trọng tâm là thông tin chứ

không phải sự thật, ý nghĩa của một câu không phải là các điều kiện sự thật
mà là khả năng thay đổi thông tin. Khi các nhà nghiên cứu chú trọng vào sự
phụ thuộc ngữ cảnh trong ngôn ngữ thì mô thức xử lý các bài toán ngữ nghĩa
có sự thay đổi lớn, các lý thuyết ngữ nghĩa động được thiết kế đặc thù để làm
việc với mối tương quan giữa phát ngôn và ngữ cảnh đã phản ánh được sự
thay đổi đó. Tuy nhiên, quan hệ giữa thông tin và sự thật vẫn có vị trí tối quan
trọng và là thành phần quyết định của tất cả các lý thuyết động.
Trong hai thập kỷ gần đây, các lý thuyết về ngữ nghĩa động phát triển
mạnh mẽ, xoay quanh vấn đề cốt lõi là mô tả sự phụ thuộc ngữ cảnh vào ngữ
nghĩa [10]. Đó là đặc tính luôn có trong các ngôn ngữ tự nhiên và sự tương tác
này có tính đối ứng. Ta có thể kể đến một vài lý thuyết ngữ nghĩa động như:
- Năm 1991 Groenendijk và Stokhof đưa ra văn phạm Montague động
dựa vào logic vị từ.
- Năm 1991 Chierchia nghiên cứu mối liên kết động trong hiện tượng
thay thế đại từ.
- Năm 1996 Kohlhase đưa ra lý thuyết tính toán ngữ nghĩa dựa vào tính
toán lambda.
6

- Năm 1997 Eijck và Kamp đề xuất cách biểu diễn diễn ngôn trong ngữ
cảnh đã có.
Các công cụ biểu diễn ngữ nghĩa động hiện nay cũng phát triển rất rộng rãi
như:
- Named Entity Recognition (Nhận biết tên thực thể): Công cụ này xác
định cụm từ nào trong văn bản biểu diễn tên người, cụm từ nào biểu
diễn vị trí hay tổ chức,…
- Wikifier: Công cụ xác định các thực thể và khái niệm quan trọng trong
văn bản, xử lý hiện tượng mập mờ về nghĩa và liên kết tới trang
Wikipedia

- Context-Sensitive Spelling Correction (Sửa lỗi từ dựa vào ngữ cảnh):
Công cụ này tìm ra và gợi ý cách sửa cho những lỗi sai về nghĩa
- Co-reference Resolution (Giải quyết đồng tham chiếu): Một thực thể có
thể được nhắc đến trong văn bản theo nhiều cách khác nhau. Công cụ
này phát hiện ra các cụm từ thể hiện cùng một thực thể
- Context Sensitive Verb Paraphrasing (Chú thích động từ dựa trên ngữ
cảnh): Công cụ này là một bộ phân loại xem xét động từ v và ngữ cảnh
của nó cùng với một động từ ứng viên u, đồng thời xác định trong một
ngữ cảnh đã cho nào đó u có thể thay thế cho v để vẫn giữ nguyên ý
nghĩa văn bản không.
Chúng ta có thể tham khảo minh họa trực tuyến của các công cụ này trên trang
/>7

Lý thuyết biểu diễn diễn ngôn (DRT: Discourse Representation Theory)
nằm trong phạm vi ngữ nghĩa động, nhưng khác biệt ở chỗ nó chỉ ra được vai
trò cực kỳ nổi bật của sự thật trong phát ngôn. Một công cụ tiêu biểu dựa trên
DRT hiện nay là Boxer do Johan Bos phát triển. Với đầu vào là CCG
(Combinatory Categorial Grammar: văn phạm danh mục kết nối), Boxer cho
ra

cấu

trúc

biểu

diễn

diễn

ngôn

(tham

khảo

minh

họa

tại

Một công trình khác do
Valentina Presutti, Francesco Draicchio và Aldo Gangemi công bố tại hội thảo
quốc tế EKAW 2012 đưa ra phương pháp kết hợp DRT với các mẫu bản thể
học để trích xuất tri thức [13].
Luận văn nghiên cứu về DRT với mục đích tạo tiền đề lý thuyết cho
ứng dụng biểu diễn diễn ngôn tiếng Việt. Cấu trúc của luận văn gồm ba phần:
Chương đầu tiên trình bày về cơ sở toán học sử dụng cho các chương
sau, bao gồm logic vị từ cấp một, tính toán lambda và phép toán hợp nhất
trong xử lý ngôn ngữ. Đây là các công cụ chính để biểu diễn và tính toán ngữ
nghĩa.
Chương hai trình bày về lý thuyết biểu diễn diễn ngôn. Phần đầu của
chương giới thiệu cách xây dựng cấu trúc biểu diễn diễn ngôn là phương tiện
để biểu diễn diễn ngôn cũng như cách thể hiện những yếu tố cú pháp trong các
cấu trúc đó. Mô hình tiền giả định được trình bày ở phần sau. Các kết luận và
ví dụ minh họa đều áp dụng cho tiếng Anh.
Chương ba khảo sát cách định vị thời gian và những phương thức thể
hiện yếu tố thời trong phát ngôn tiếng Việt. Từ đó có những nhận xét về cách

8

chọn thời gian tham chiếu phù hợp và thể hiện trọn vẹn được yếu tố thời trong
khi biểu diễn diễn ngôn tiếng Việt.

9

CHƯƠNG 1 CƠ SỞ TOÁN HỌC
Chương này nhắc lại các cơ sở về toán học sẽ được sử dụng trong các
chương tiếp theo của luận văn, bao gồm logic vị từ và tính toán lambda.
1.1. LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT
1.1.1 Các khái niệm cơ bản
Nội dung phần này có tham khảo tài liệu của tác giả Đỗ Đức Giáo [2].
Để tiện theo dõi, luận văn không trình bày lại các khái niệm cơ sở mà
chỉ nhắc lại các thuật ngữ. Ta xét câu tiếng Anh sau:
(1) If Pedro owns a donkey, he likes it.
Phân tích cú pháp của câu trên ta được:
- Trong mệnh đề thứ nhất: Chủ ngữ là danh từ riêng “Pedro”, vị ngữ là ngoại
động từ “own” với bổ ngữ “donkey”. Ta có biểu diễn dưới dạng vị từ 2 đối:
own(Pedro,donkey). Vì “donkey” chưa xác định nên ta kí hiệu là x, ta có:
donkey(x).
- Tương tự mệnh đề thứ hai được biểu diễn thành: like(Pedro, x). Ta kí hiệu
danh từ riêng Pedro là a.
Thay “donkey”, “own” và “like” lần lượt thành các vị từ P, Q, R ta được biểu
diễn ngữ nghĩa của câu trên bằng công thức logic vị từ cấp một như sau:

Trong công thức trên ta có:

- a là hằng. x là biến. Biến x bị ràng buộc trong phạm vi lượng từ , các
biến khác (nếu có) sẽ là biến tự do.
- x, a và P(x), Q(x),

,

công thức con) là các hạng tử
10

,… (các

- P(x), Q(x) là các công thức nguyên tử
Trong logic vị từ cấp một, những công thức không chứa biến tự do được gọi là
một câu.
1.1.2 Các khái niệm ngữ nghĩa
Nội dung phần này có tham khảo tài liệu của tác giả A. Burchardt [7].
Các khái niệm ngữ nghĩa sau đây phục vụ cho việc biểu diễn ngữ nghĩa
thành công thức logic vị từ cấp một. Ta vẫn dùng ví dụ (1) để minh họa.
Từ vựng
Khi nói về một chủ đề, ta cần từ vựng. Đó là yếu tố cơ bản của ngôn
ngữ để tiến hành hội thoại, là các thuật ngữ ta có thể sử dụng để diễn tả chủ
đề.
Cấu trúc từ vựng trong logic vị từ cấp một như sau:
(Tập các hằng, tập các vị từ (có chỉ rõ số các đối của mỗi vị từ))
Ví dụ, từ vựng cho (1) là:
({PEDRO}, {(DONKEY, 1), (OWN, 2), (LIKE, 2)})
Mô hình vị từ cấp một
Mô hình vị từ cấp một (ta sẽ gọi là mô hình) là một cấu trúc mô tả một
tình huống. Mô hình đưa ra hai thông tin sau:

- Tập các thực thể được nói đến D, còn gọi là miền xác định (trường minh
họa)
- Hàm minh họa F, ánh xạ mỗi từ vựng thành một (nhiều) bộ các phần tử
trên trường minh họa. Một bộ tương ứng với một vị từ sẽ có số phần tử
là số đối của vị từ đó, một bộ tương ứng với ký hiệu hằng sẽ có một
phần tử. Tức là với mỗi ký hiệu hằng a trong tập từ vựng ta có
, còn với mỗi quan hệ n-ngôi R ta có
11

.

Định nghĩa 1.1.1 (Mô hình) Mô hình M là một cặp được sắp (D, F) trong đó

D là trường minh họa và F là hàm minh họa chỉ tới các tập con trong D
Ví dụ ta có mô hình M = (D, F) như sau:
- Từ vựng: ({PEDRO}, {(DONKEY, 1), (OWN, 2), (LIKE, 2)})
- Trường minh họa: D = {d1, d2}
- Hàm minh họa:

F(PEDRO) = d1, F(DONKEY) = d2,
F(OWN) = (d1, d2), F(LIKE) = (d1, d2).

1.1.3 Phép hợp nhất (Unification)
Phần này trình bày theo tài liệu của tác giả A. Martelli [8] và F. Baader
[9].
Trước hết ta định nghĩa một số giả thiết và khái niệm liên quan:
Cho trước các đối tượng sau:
- Tập vô hạn các biến V.
-

Tập các hạng tử T (chứa V).

-

Ánh xạ vars: T → Vn, cho tương ứng mỗi hạng tử t

T với tập các biến

tự do trong t:
.
- Quan hệ tương đương trên T, ký hiệu là ≡, hai hạng tử tương đương
nhau nếu chúng đối sánh.
Định nghĩa 1.1.2 (Phép thế) Phép thế là một ánh xạ σ: V → T từ tập các biến
vào tập các hạng tử.
Ký hiệu (t1/x1,..., tk/xk) mô tả phép thế mỗi biến

thành hạng tử

tương ứng, i=1,...,k, còn các biến khác được thay thế bởi chính nó.
Ta viết t(t1/x1,..., tk/xk) nghĩa là thay thế đồng thời tất cả các vị trí của
mỗi biến xi trong hạng tử t bằng ti. Kết quả t(σ) sau khi áp dụng phép thế σ
cho một hạng tử t gọi là một trường hợp của t.
12

Định nghĩa 1.1.3 (Bài toán hợp nhất) Cho một tập hữu hạn các cặp hạng tử {li
ri,…, lk rk}, ta cần tìm phép thế để các cặp hạng tử này đối sánh nhau.
Phép thế σ là nghiệm của bài toán hợp nhất (hay còn gọi là phần tử hợp nhất:
unifier) nếu li(σ) và ri(σ) đối sánh nhau (i = 1, 2,…,k). Bài toán hợp nhất có

thể không có nghiệm hoặc có nhiều nghiệm.
Ví dụ bài toán hợp nhất {

} có nghiệm (x/y)

Phép hợp nhất là một thuật toán dùng để xác định những phép thế cần
thiết cho các tham biến vị từ để làm cho hai công thức vị từ đối sánh nhau.
Với các công thức logic vị từ cấp một, nếu bài toán hợp nhất có nghiệm thì
luôn có một nghiệm, phần tử hợp nhất khi đó gọi là phần tử hợp nhất tổng
quát nhất (mgu: most general unifier).
* Thuật toán hợp nhất
Thuật toán sau đây Martelli và Montanari đề xuất năm 1982.
{s1

Cho trước tập hữu hạn các cặp hạng tử cần hợp nhất G =
t1,..., sn tn}, thuật toán hợp nhất áp dụng các luật để biến đổi nó thành

một tập tương đương có dạng {x1

u1,..., xm

um } trong đó x1,..., xm là các

biến phân biệt và u1,..., um là các hạng tử không chứa biến xi nào. Tập có dạng
này có thể coi là phép thế. Ta ký hiệu G(t/x) là toán tử thực hiện thay thế tất cả
các vị trí của biến x trong bài toán thành hạng tử t. Để đơn giản trong trình
bày, ta coi các ký hiệu hằng như các ký hiệu hàm không có đối.
Trường hợp
G ∪ {t

Luật sử dụng

G

t}

G ∪ {f(s0,…, sk)

Kết quả

f(t0,…, tk)}

Xóa

G ∪ {s0

13

t0,…, sk

tk}

Phân tích

G ∪ {f(s0,…, sk)

g(t0,…, tm)}

Không hợp nhất được nếu

f ≠ g hay k ≠ m

G ∪ {f(s0,…, sk)

x}

G ∪ {x

f(s0,…, sk)}

G ∪ {x

t}

G(t/x) ∪ {x

G∪{x

f(s0,…, sk)}

Không hợp nhất được nếu
x là biến trong f(s0,…, sk)

t} nếu

Xung đột
Hoán đổi
Khử

Kiểm tra

* Một số ví dụ
Cặp biểu thức cần hợp nhất

Phép thế

P(x, x) và P(y,z)

(P(y/x)) (z/y) hoặc P(x/y,x/z)

P(x,f(y)) và P(Joe,z)

P(Joe/x) P(f(y)/z)

P(f(x)) và P(x)

Không thể hợp nhất

P(x) v Q(Jane) và P(Bill) v Q(y)

P(Bill/x) Q(Jane/y)

1.2. TÍNH TOÁN LAMBDA
Phần này trình bày theo tài liệu của P. Selinger [12] và A. Burchardt
[7].
Để biểu diễn ngữ nghĩa qua logic vị từ cấp một, ta phải có biến và hằng
đại diện cho các đối tượng trong câu và đưa chúng vào làm đối của các vị từ
thích hợp. Câu càng phức tạp thì cách chọn và sắp xếp các biến càng gặp
nhiều khó khăn. Tính toán Lambda là công cụ rất hữu ích giải quyết vấn đề
này.

14

1.2.1 Cú pháp của tính toán lambda
Định nghĩa 1.2.1 (Biểu thức lambda) Giả sử V là tập vô hạn các biến. A là
bảng chữ cái tạo nên các phần tử của V và các ký hiệu đặc biệt “(“, “)”, “λ”,
“.”. Gọi A* là tập các chuỗi trên A. Tập hợp các biểu thức lambda là tập con
nhỏ nhất Λ ⊆ A* thỏa mãn:
(i) Nếu x V thì x Λ và đây được gọi là một biến,
(ii) Nếu M, N Λ thì (M N) Λ và đây được gọi là phép áp dụng (app),
(iii) Nếu x

V và M

Λ thì (λx.M) Λ và đây được gọi là một phép

trừu tượng hóa lambda.
Ta sử dụng ký hiệu (M N) để chỉ sự áp dụng của hàm M cho đối N. Ký
hiệu trong phép trừu tượng λx.M thể hiện M là một hàm có đối x.
* Kỹ thuật tham biến hóa từng phần
Khi biểu diễn hàm M có nhiều tham biến x1, x2,…, xn, ta sử dụng kỹ
thuật tham biến hóa từng phần để đưa về dạng trừu tượng chỉ sử dụng một
biến:
λx1.( λx2. …(λxn.M)…)
* Cây cú pháp của biểu thức lambda
Ta có thể biểu diễn biểu thức lambda bằng cây cú pháp (hay còn gọi là
cấu trúc lambda). Ví dụ biểu thức (λx.(x y)(x y)) được biểu diễn bằng cây cú
pháp sau:

15

app
λx

app

app
x

x

y

y

Hình 1: Cây cú pháp của một biểu thức lambda.
* Một số quy ước
Để tiện cho việc trình bày, ta quy ước như sau:
- Ta sẽ bỏ các cặp ngoặc đơn ngoài cùng. Ví dụ ta viết M N thay cho (M
N),
- Các phép áp dụng có tính chất kết hợp trái nên M N P có thể viết thành
(M N) P, tương tự khi viết f xyz ta sẽ hiểu là ((f x) y) z,
- Phần chính của phép trừu tượng hóa lambda (phần sau dấu chấm) sẽ
được mở rộng nhất có thể về bên phải, giả sử khi ta viết λx.M N thì ta
hiểu là λx.(M N) chứ không phải (λx.M) N,
- Các phép trừu tượng hóa lambda có tính chất kết hợp phải nên
λx.λy.λz.M có thể viết thành λxyz.M.
1.2.2 Biến tự do và biến ràng buộc
Biến tự do và biến ràng buộc trong tính toán lambda được định nghĩa

tương tự như trong logic vị từ cấp một.
Trong biểu thức λx.M, tất cả các vị trí của x trong phần chính M đều là
ràng buộc. Một vị trí của biến không phải ràng buộc thì là vị trí tự do. Biến có
vị trí tự do gọi là biến tự do, biến có vị trí ràng buộc gọi là biến ràng buộc.
16

Về mặt hình thức, ta có thể định nghĩa biến tự do như sau:
Định nghĩa 1.2.2 (Biến tự do) Ký hiệu FV(M) là tập các biến tự do của M. Ta
có:
FV(x) = {x}
FV(M N) = FV(M) U FV(N)
FV(λx.M) = FV(M)\{x}
1.2.3 Các phép biến đổi
* Phép biến đổi alpha (α-conversion)
Ta ký hiệu

là phép tương đương alpha. Với mọi công thức M và mọi

biến y không xuất hiện trong M, ta có:
λx.M

λy.(M{y/x})

Quan hệ tương đương alpha tuân theo một số luật sau (ta viết = thay cho
ký hiệu

):
(Phản xạ)

(Kết hợp)

(Đối xứng)

(Bắc cầu)
* Phép thay thế (substitution)
Ta ký hiệu M[N/x] là phép thay thế x bởi N trong M với x là một biến
tự do trong M. Ta định nghĩa phép thay thế như sau:
17

x[N/x]

N

y[N/x]

y nếu x ≠ y

(M P)[N/x]

(M[N/x]) (P[N/x])

(λx.M) [N/x]

λx.M

(λy.M) [N/x]

λy.(M[N/x]), nếu x ≠ y và y

(λy.M) [N/x]

λy’.(M[y’/y][N/x]) nếu x ≠ y, y FV(N), y’ là biến mới

FV(N)

* Phép rút gọn beta (β-reduction)
Ta ký hiệu

là phép rút gọn beta với các luật sau:

(Kết hợp trái)

(Kết hợp phải)
Ví dụ ta kết hợp tính toán lambda để biểu diễn ngữ nghĩa cho câu sau:
(2) Pedro owns a donkey.
Khi phân tích cú pháp của câu này, ta có các luật sau:
S -> NP, VP

VP -> TV, NP

NP -> PN

NP -> Det, Noun

Biểu diễn lambda của các thành phần câu tương ứng với phân tích này là:
Thành phần câu
Noun

Biểu diễn lambda
λx.Noun(x)

Áp dụng
donkey: λx.DONKEY(x)

(danh từ chung)

18

PN (danh từ riêng) λP.P PN
TV

Pedro: λP.P PEDRO

λX.λz.(X λx.TV(z, x))

own: λX.λz.(X λy.OWN(z, y))

λP.λQ. x(P(x) ^ Q(x))

a: λQ.λR. w(Q(w) ^ R(w))

(ngoại động từ)
Det
(lượng từ: ở đây là
lượng từ tồn tại)
Các thành phần trên kết hợp thành câu, quá trình kết hợp được thực hiện theo
phân tích cú pháp. Ta sử dụng tính toán lambda để biểu diễn ngữ nghĩa của (2)

như trong hình 2.
* Tổng kết
Trong chương đầu tiên này, chúng ta đã biểu diễn được ngữ nghĩa của
một câu trong ngôn ngữ tự nhiên thành một công thức logic với sự trợ giúp
của tính toán lambda. Nhưng ngôn ngữ tự nhiên chứa một chuỗi nhiều câu liên
tiếp có liên quan ý nghĩa với nhau chứ không đơn thuần là từng câu riêng lẻ.
Như vậy ngoài các xử lý ở mức câu đã thực hiện trong chương này, chúng ta
cần có cách thức kết hợp các kết quả lại. Trong chương tiếp theo, chúng ta sẽ
tìm hiểu các kỹ thuật xử lý ở mức cao hơn trong lý thuyết biểu diễn diễn ngôn.
Nói riêng về tính toán lambda, đây là công cụ nền để tính toán ngữ
nghĩa. Khi biểu diễn câu bằng các biểu thức logic vị từ, tính toán lambda giúp
định vị biến. Khi xây dựng các chương trình ứng dụng lý thuyết biểu diễn diễn
ngôn, tính toán lambda không thể thiếu trong các biểu thức biểu diễn ngữ
nghĩa để thực hiện việc kết nối thông tin và xác định các đối tượng có tham
chiếu tới nhau. Vì luận văn tập trung nghiên cứu lý thuyết nên chỉ dừng lại ở
việc giới thiệu về tính toán lambda tại đây.
19

Pedro owns a donkey (sSem)
λP.P PEDRO (λz.( w(DONKEY(w)^ OWN(z,w))))
= λz.( w(DONKEY(w)^ OWN(z,w))) PEDRO
= w(DONKEY(w)^ OWN(PEDRO,w))

Pedro(npSem)
λP.P PEDRO

owns a donkey(vpSem)
λX.λz.(X λy.OWN(z,y)) (λR. w(DONKEY(w)^R(w)))
= λz.(λR. w(DONKEY(w)^R(w)) λy.OWN(z,y))

= λz.( w(DONKEY(w)^ λy.OWN(z,y) (w)))
= λz.( w(DONKEY(w)^ OWN(z,w)))

Pedro(pnSem)
λP.P PEDRO

own(tvSem)
λX.λz.(X λy.OWN(z,y))

a donkey(npSem)
λQ.λR. w(Q(w)^R(w)) (λx.DONKEY(x))
= λR. w(λx.DONKEY(x) (w)^R(w))
= λR. w(DONKEY(w)^R(w))

a(detSem)
λQ.λR. w(Q(w)^R(w))

donkey(nounSem)
λx.DONKEY(x)

Phân tích ngữ nghĩa từ vựng

Pedro owns

a

donkey

Hình 2: Phân tích cú pháp kết hợp tính toán lambda của câu (2).

20

CHƯƠNG 2 LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN
Với các công cụ toán học đã nêu ở chương trước, ta có thể biểu diễn
một câu trong văn bản qua các công thức logic. Trong chương này ta sẽ xây
dựng biểu diễn cho một diễn ngôn gồm nhiều câu liên tiếp, trong đó các câu
có liên quan với nhau về mặt ý nghĩa trong ngữ cảnh chung. Lý thuyết biểu
diễn diễn ngôn (DRT: Discourse Representaion Theory) là công cụ xử lý tốt
các quan hệ thay thế trong từng câu cũng như giữa nhiều câu trong một văn
bản.
Chương này tham khảo tài liệu về DRT của tác giả H. Kamp [10] và tác
giả A. Burchardt [7].
2.1. CÁC THÀNH PHẦN CƠ BẢN CỦA DRT
2.1.1 Tổng quan về DRT
Giả sử ta biểu diễn ngữ nghĩa cho diễn ngôn sau:
(3) A delegate arrived. She registered.
Ta có thể biểu diễn ngữ nghĩa cho từng câu rồi ghép lại thành công thức sau:

Biểu diễn này chứa biến tự do y nên không phải là một câu trong logic vị từ
cấp một. Hơn nữa nó không thể hiện được yếu tố ngữ cảnh là đại từ “she” ở
câu sau chỉ đến “delegate” ở câu trước.
Như vậy ta phải có một cách thức khác để biểu diễn ngữ nghĩa cho diễn
ngôn. DRT giải quyết được tình huống trên. DRT có sử dụng một công cụ để
cấu trúc hóa diễn ngôn, đó là cấu trúc biểu diễn diễn ngôn (DRS: discourse
representation structure). Ta có các định nghĩa sau:
21

Định nghĩa 2.1.1 (Tham chiếu diễn ngôn) Tham chiếu diễn ngôn là các thực

thể được nhắc đến trong diễn ngôn mà sau đó có thể dùng đại từ để tham chiếu
lại.
Trong ví dụ (3) có hai tham chiếu diễn ngôn là x và y (lần lượt thay thế
cho “delegate” và “she”).
Định nghĩa 2.1.2 (Cấu trúc biểu diễn diễn ngôn) Cấu trúc biểu diễn diễn ngôn
<U, Con> là một cấu trúc dữ liệu gồm hai thành phần:
-

Tập các tham chiếu diễn ngôn U (còn gọi là “không gian” của

DRS),
-

Tập các điều kiện Con, mô tả các ràng buộc giữa các tham chiếu.

Trong cấu trúc biểu diễn diễn ngôn, tập tham chiếu diễn ngôn cho ta
thông tin về các đối tượng được nhắc đến trong diễn ngôn còn tập điều kiện
cho ta biết các thuộc tính, quan hệ, hoạt động của các đối tượng do tham chiếu
diễn ngôn chỉ đến. Ví dụ câu đầu tiên trong (3) tương ứng với DRS sau:
<{x}, {delegate(x), arrive(x)}>
Hoặc ta có thể dùng dạng biểu diễn hình hộp:

x
delegate(x)
arrive(x)

Phiên bản gốc DRT do Kamp đề xuất năm 1981 thiết lập biểu diễn lần
lượt từng phần diễn ngôn. Giả sử ta cần xử lý một chuỗi câu S1, S2,…, Sn, ta
thực hiện lần lượt (theo hướng từ trên xuống):
S1 =>

DRS K1

S1, S2 => S2, K1 =>

DRS K1,2

…
S1, S2,…,Sn => … =>

DRS K1,2,…,n
22

Cách thức xử lý như vậy thể hiện phần ngữ nghĩa động của DRT. Mỗi bước
trên đều trải qua hai giai đoạn:
-

Xây dựng biểu diễn ngữ nghĩa thông qua cấu trúc biểu diễn diễn

ngôn (DRS) từ diễn ngôn đầu vào.
-

Tạo mô hình biểu diễn cho các cấu trúc biểu diễn diễn ngôn đó.

Đầu những năm 1990, Van Der Sandt và Geurts đề xuất cấu trúc DRT
mới dựa trên cách xử lý ngữ nghĩa tổng quát bằng tiền giả định
(presupposition).
Định nghĩa 2.1.3 (Tiền giả định) Tiền giả định là một giả thiết ngầm về tri
thức hiện thực hoặc hoàn cảnh xung quanh có liên quan đến một phát ngôn và

xác định đúng trong diễn ngôn.
Ta xét một số ví dụ:
Tiền giả định

Diễn ngôn
Jane no longer writes fiction.

Jane once wrote fiction

John saw the man with two heads.

There exists a man with two heads.

Robert’s children are very noisy.

Robert has children.

Ta có thể mô tả tiền giả định là một yêu cầu mà câu văn đưa ra cho ngữ
cảnh. Nếu ngữ cảnh không thỏa mãn các tiền giả định của câu thì nó có thể
biến đổi thành ngữ cảnh mới qua quá trình thích nghi. Nếu ngữ cảnh không
thỏa tất cả các tiền giả định cũng không thể biến đổi thành một ngữ cảnh thỏa
mãn tiền giả định nào đó thì biểu diễn bị loại bỏ. Thủ tục xử lý các tiền giả
định gồm hai trạng thái:
-

Khởi tạo một biểu diễn cho riêng từng câu, trong đó các tiền giả

định là các biểu diễn hiện được cho trước.
23

-

Kiểm chứng lại biểu diễn trên qua ngữ cảnh. Nếu cần và có thể

thực hiện được, ta sẽ biến đổi ngữ cảnh cho phù hợp (thích nghi).
Khi tất cả các tiền giả định đã thỏa mãn, phần còn lại của biểu diễn khởi tạo
(không phải phần tiền giả định) được hợp nhất với ngữ cảnh. Kết quả là một
DRS chứa cả thông tin ngữ cảnh và phần đóng góp từ câu văn bản.
Phiên bản DRT mới xây dựng biểu diễn theo hướng từ dưới lên: các
biểu diễn khởi tạo được xây dựng từ các cây phân tích cú pháp bằng cách gán
các biểu diễn ngữ nghĩa cho các lá, sau đó xây dựng các biểu diễn cho các
thành phần phức tạp bằng cách kết nối các biểu diễn của các phần cú pháp liền
kề. Luận văn chú trọng mô tả phiên bản DRT mới.
2.1.2 Cách xây dựng cấu trúc biểu diễn diễn ngôn
Gần đây hướng xử lý từ dưới lên ngày càng phổ biến trong DRT [10].
Luận văn sẽ mô tả thuật toán hướng từ dưới lên để xây dựng cấu trúc biểu
diễn diễn ngôn (áp dụng cho phiên bản DRT mới dựa trên tiền giả định).
Thuật toán gồm hai trạng thái.
-

Trạng thái đầu khởi tạo biểu diễn cho các câu trong đó tiền giả

định được thể hiện rõ ràng trong DRS. Biểu diễn khởi tạo đơn giản nhất
có dạng <P, D> trong đó DRS D là phần biểu diễn không có tiền giả
định còn P là tập tất cả các biểu diễn (các biểu diễn này có thể có dạng
DRS) tiền giả định của câu. Phức tạp hơn, chính P có thể chứa luôn các
DRS khởi tạo còn D có thể chứa thêm phần tiền giả định.
-

Trong trạng thái sau, tiền giả định được kiểm chứng trong các

ngữ cảnh tương ứng, có thể có hoặc không xảy ra quá trình thích nghi
ngữ cảnh. Đến khi tiền giả định được kiểm chứng thành công thì phần
24

Lý thuyết biểu diễn diễn ngôn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về