Tải bản đầy đủ (.pdf) (13 trang)

Lý thuyết biểu diễn diễn ngôn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.83 MB, 13 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

VŨ THỊ HƯƠNG

LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2014


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-------------------

VŨ THỊ HƯƠNG

LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN
Chuyên ngành: Cơ sở toán học cho tin học
Mã số:

60460110

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Nguyễn Thị Minh Huyền

Hà Nội – Năm 2014




MỤC LỤC
LỜI CẢM ƠN ..................................................................................................................................... 5
GIỚI THIỆU ....................................................................................................................................... 6
CHƯƠNG 1 CƠ SỞ TOÁN HỌC .................................................................................................... 10
1.1. LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT............................................................... 10
1.1.1 Các khái niệm cơ bản ....................................................................................................... 10
1.1.2 Các khái niệm ngữ nghĩa.................................................................................................. 11
1.1.3 Phép hợp nhất (Unification) ............................................................................................. 12
1.2. TÍNH TOÁN LAMBDA ........................................................................................................ 14
1.2.1 Cú pháp của tính toán lambda .......................................................................................... 15
1.2.2 Biến tự do và biến ràng buộc ........................................................................................... 16
1.2.3 Các phép biến đổi ............................................................................................................. 17
CHƯƠNG 2 LÝ THUYẾT BIỂU DIỄN DIỄN NGÔN ................................................................... 21
2.1. CÁC THÀNH PHẦN CƠ BẢN CỦA DRT .......................................................................... 21
2.1.1 Tổng quan về DRT ........................................................................................................... 21
2.1.2 Cách xây dựng cấu trúc biểu diễn diễn ngôn ................................................................... 24
2.2 NGÔN NGỮ DRS CƠ BẢN VÀ BIỂU DIỄN ....................................................................... 27
2.2.1 Ngôn ngữ DRS mở rộng bậc một ..................................................................................... 27
2.2.2 Ngữ nghĩa chủ đích, mệnh đề, trạng thái thông tin và khả năng thay đổi ngữ cảnh ........ 32
2.2.3 Các lượng từ ..................................................................................................................... 40
2.2.4 Số nhiều............................................................................................................................ 41
2.2.5 Thời và thể ....................................................................................................................... 45
2.3 TIỀN GIẢ ĐỊNH (PRESUPPOSITION) ................................................................................ 49
2


2.3.1 Ý nghĩa của tiền giả định ................................................................................................. 49
2.3.2 Một ví dụ .......................................................................................................................... 50

CHƯƠNG 3 BIỂU DIỄN DIỄN NGÔN VỚI THAM CHIẾU THỜI GIAN TRONG TIẾNG VIỆT
........................................................................................................................................................... 55
3.1 ĐỊNH VỊ THỜI GIAN ............................................................................................................ 55
3.1.1 Biểu diễn thời gian trong mối quan hệ với không gian .................................................... 55
3.1.2 Định vị thời gian .............................................................................................................. 58
3.2 YẾU TỐ THỜI TRONG TIẾNG VIỆT .................................................................................. 69
3.2.1 Các quan niệm về thời trong tiếng Việt ........................................................................... 69
3.2.2 Cách diễn đạt ý nghĩa thời trong tiếng Việt ..................................................................... 70
3.3 DẤU HIỆU TỪ VỰNG ĐỂ NHẬN BIẾT THỜI TRONG TIẾNG VIỆT ............................. 73
KẾT LUẬN ....................................................................................................................................... 79
TÀI LIỆU THAM KHẢO................................................................................................................. 80

DANH MỤC HÌNH VẼ
Hình 1: Cây cú pháp của một biểu thức lambda............................................................................... 16
Hình 2: Phân tích cú pháp kết hợp tính toán lambda của câu (2). ................................................... 20
Hình 3: Thời gian được biểu diễn theo định hướng không gian. ...................................................... 55
Hình 4: Định vị thời gian với ẩm dụ người quan sát đứng yên. ....................................................... 56
Hình 5: Định vị thời gian với ẩm dụ người quan sát chuyển động. .................................................. 56

DANH MỤC TỪ VIẾT TẮT
Cụm từ đầy đủ

Cụm từ viết tắt
BV

Bound variables

CCG

Combinatory Categorial Grammar

3


CCP

Context change potential

DRT

Discourse representation theory

DRS

Discourse representation structure

EKAW

Knowledge Engineering and Knowledge Management

FV

Free variables

NP

Noun phrase

4



LỜI CẢM ƠN
Đầu tiên em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới TS.
Nguyễn Thị Minh Huyền đã luôn chỉ bảo, hướng dẫn tận tâm cho em trong
suốt quá trình thực hiện luận văn.
Việc hoàn thành luận văn này không thể không kể tới sự hỗ trợ và tạo
điều kiện của Viện Công nghệ thông tin, Viện Khoa học và Công nghệ quân
sự, Bộ Quốc Phòng là cơ quan tôi đang công tác. Tôi xin trân trọng gửi lời
cảm ơn tới các thủ trưởng, các đồng nghiệp, các đồng chí của mình.
Bên cạnh đó, em cũng xin cảm ơn các thầy cô, các cán bộ và nhân viên
của Bộ môn Tin học nói riêng và khoa Toán – Cơ – Tin học, trường Đại học
Khoa học Tự nhiên nói chung đã tận tình dạy dỗ và giúp đỡ em từ khi em còn
là sinh viên của trường đến những năm em trở lại học tập, nghiên cứu tại khoa
với cương vị học viên cao học.
Tôi xin cảm ơn gia đình, bạn bè và tất cả mọi người đã quan tâm, tạo
điều kiện, động viên cổ vũ tôi để tôi có thể hoàn thành nhiệm vụ của mình.
Luận văn của tôi không tránh khỏi những thiếu sót do hạn chế về thời
gian thực hiện và hiểu biết thật hệ thống về ngữ pháp, ngữ nghĩa tiếng Việt.
Tôi rất mong nhận được những ý kiến đóng góp của các thầy cô và các bạn.
Hà Nội, tháng 11 năm 2014
Học viên

Vũ Thị Hương
5


GIỚI THIỆU
Sự chi phối của ngữ cảnh trong ngôn ngữ tự nhiên là một hiện tượng
thiên biến vạn hóa vô cùng phức tạp, khiến nhiều nhà ngôn ngữ về ngữ nghĩa
dày công nghiên cứu. Trước đây, quan niệm về ngữ nghĩa chính tắc coi lý
thuyết ngữ nghĩa là mối quan tâm cơ bản, khái niệm trọng tâm là thông tin chứ

không phải sự thật, ý nghĩa của một câu không phải là các điều kiện sự thật
mà là khả năng thay đổi thông tin. Khi các nhà nghiên cứu chú trọng vào sự
phụ thuộc ngữ cảnh trong ngôn ngữ thì mô thức xử lý các bài toán ngữ nghĩa
có sự thay đổi lớn, các lý thuyết ngữ nghĩa động được thiết kế đặc thù để làm
việc với mối tương quan giữa phát ngôn và ngữ cảnh đã phản ánh được sự
thay đổi đó. Tuy nhiên, quan hệ giữa thông tin và sự thật vẫn có vị trí tối quan
trọng và là thành phần quyết định của tất cả các lý thuyết động.
Trong hai thập kỷ gần đây, các lý thuyết về ngữ nghĩa động phát triển
mạnh mẽ, xoay quanh vấn đề cốt lõi là mô tả sự phụ thuộc ngữ cảnh vào ngữ
nghĩa [10]. Đó là đặc tính luôn có trong các ngôn ngữ tự nhiên và sự tương tác
này có tính đối ứng. Ta có thể kể đến một vài lý thuyết ngữ nghĩa động như:
- Năm 1991 Groenendijk và Stokhof đưa ra văn phạm Montague động
dựa vào logic vị từ.
- Năm 1991 Chierchia nghiên cứu mối liên kết động trong hiện tượng
thay thế đại từ.
- Năm 1996 Kohlhase đưa ra lý thuyết tính toán ngữ nghĩa dựa vào tính
toán lambda.
6


- Năm 1997 Eijck và Kamp đề xuất cách biểu diễn diễn ngôn trong ngữ
cảnh đã có.
Các công cụ biểu diễn ngữ nghĩa động hiện nay cũng phát triển rất rộng rãi
như:
- Named Entity Recognition (Nhận biết tên thực thể): Công cụ này xác
định cụm từ nào trong văn bản biểu diễn tên người, cụm từ nào biểu
diễn vị trí hay tổ chức,…
- Wikifier: Công cụ xác định các thực thể và khái niệm quan trọng trong
văn bản, xử lý hiện tượng mập mờ về nghĩa và liên kết tới trang
Wikipedia

- Context-Sensitive Spelling Correction (Sửa lỗi từ dựa vào ngữ cảnh):
Công cụ này tìm ra và gợi ý cách sửa cho những lỗi sai về nghĩa
- Co-reference Resolution (Giải quyết đồng tham chiếu): Một thực thể có
thể được nhắc đến trong văn bản theo nhiều cách khác nhau. Công cụ
này phát hiện ra các cụm từ thể hiện cùng một thực thể
- Context Sensitive Verb Paraphrasing (Chú thích động từ dựa trên ngữ
cảnh): Công cụ này là một bộ phân loại xem xét động từ v và ngữ cảnh
của nó cùng với một động từ ứng viên u, đồng thời xác định trong một
ngữ cảnh đã cho nào đó u có thể thay thế cho v để vẫn giữ nguyên ý
nghĩa văn bản không.
Chúng ta có thể tham khảo minh họa trực tuyến của các công cụ này trên trang
/>7


Lý thuyết biểu diễn diễn ngôn (DRT: Discourse Representation Theory)
nằm trong phạm vi ngữ nghĩa động, nhưng khác biệt ở chỗ nó chỉ ra được vai
trò cực kỳ nổi bật của sự thật trong phát ngôn. Một công cụ tiêu biểu dựa trên
DRT hiện nay là Boxer do Johan Bos phát triển. Với đầu vào là CCG
(Combinatory Categorial Grammar: văn phạm danh mục kết nối), Boxer cho
ra

cấu

trúc

biểu

diễn

diễn


ngôn

(tham

khảo

minh

họa

tại

Một công trình khác do
Valentina Presutti, Francesco Draicchio và Aldo Gangemi công bố tại hội thảo
quốc tế EKAW 2012 đưa ra phương pháp kết hợp DRT với các mẫu bản thể
học để trích xuất tri thức [13].
Luận văn nghiên cứu về DRT với mục đích tạo tiền đề lý thuyết cho
ứng dụng biểu diễn diễn ngôn tiếng Việt. Cấu trúc của luận văn gồm ba phần:
Chương đầu tiên trình bày về cơ sở toán học sử dụng cho các chương
sau, bao gồm logic vị từ cấp một, tính toán lambda và phép toán hợp nhất
trong xử lý ngôn ngữ. Đây là các công cụ chính để biểu diễn và tính toán ngữ
nghĩa.
Chương hai trình bày về lý thuyết biểu diễn diễn ngôn. Phần đầu của
chương giới thiệu cách xây dựng cấu trúc biểu diễn diễn ngôn là phương tiện
để biểu diễn diễn ngôn cũng như cách thể hiện những yếu tố cú pháp trong các
cấu trúc đó. Mô hình tiền giả định được trình bày ở phần sau. Các kết luận và
ví dụ minh họa đều áp dụng cho tiếng Anh.
Chương ba khảo sát cách định vị thời gian và những phương thức thể
hiện yếu tố thời trong phát ngôn tiếng Việt. Từ đó có những nhận xét về cách


8


chọn thời gian tham chiếu phù hợp và thể hiện trọn vẹn được yếu tố thời trong
khi biểu diễn diễn ngôn tiếng Việt.

9


CHƯƠNG 1 CƠ SỞ TOÁN HỌC
Chương này nhắc lại các cơ sở về toán học sẽ được sử dụng trong các
chương tiếp theo của luận văn, bao gồm logic vị từ và tính toán lambda.
1.1. LOGIC VỊ TỪ CẤP MỘT VÀ PHÉP HỢP NHẤT
1.1.1 Các khái niệm cơ bản
Nội dung phần này có tham khảo tài liệu của tác giả Đỗ Đức Giáo [2].
Để tiện theo dõi, luận văn không trình bày lại các khái niệm cơ sở mà
chỉ nhắc lại các thuật ngữ. Ta xét câu tiếng Anh sau:
(1) If Pedro owns a donkey, he likes it.
Phân tích cú pháp của câu trên ta được:
- Trong mệnh đề thứ nhất: Chủ ngữ là danh từ riêng “Pedro”, vị ngữ là ngoại
động từ “own” với bổ ngữ “donkey”. Ta có biểu diễn dưới dạng vị từ 2 đối:
own(Pedro,donkey). Vì “donkey” chưa xác định nên ta kí hiệu là x, ta có:
donkey(x).
- Tương tự mệnh đề thứ hai được biểu diễn thành: like(Pedro, x). Ta kí hiệu
danh từ riêng Pedro là a.
Thay “donkey”, “own” và “like” lần lượt thành các vị từ P, Q, R ta được biểu
diễn ngữ nghĩa của câu trên bằng công thức logic vị từ cấp một như sau:

Trong công thức trên ta có:

- a là hằng. x là biến. Biến x bị ràng buộc trong phạm vi lượng từ , các
biến khác (nếu có) sẽ là biến tự do.
- x, a và P(x), Q(x),

,

công thức con) là các hạng tử
10

,… (các


TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
(1) Nguyễn Đức Dân (1996), Nhận diện thời gian trong tiếng Việt, Tạp chí
Ngôn ngữ số 3, Viện Ngôn ngữ học.
(2) Đỗ Đức Giáo (2008), Toán rời rạc, Nhà xuất bản Giáo dục.
(3) Nguyễn Văn Hán (2012), Định vị thời gian trong tiếng Việt dưới góc
nhìn của ngôn ngữ học tri nhận (so sánh với tiếng Anh), Luận án tiến sĩ
Ngôn ngữ học, Trường Đại học Khoa học Xã hội và Nhân văn, Đại học
Quốc gia Thành phố Hồ Chí Minh.
(4) Cao Xuân Hạo (1998), Về ý nghĩa “thì” và “thể” trong tiếng Việt, Tạp
chí Ngôn ngữ số 5, Viện Ngôn ngữ học.
(5) Vũ Thị Ngân (2003), Phạm trù thời thể tiếng Pháp và tiếng Việt, Đề tài
cấp Đại học Quốc gia Hà Nội, Trường Đại học Ngoại ngữ, Đại học
Quốc gia Hà Nội.
(6) Nguyễn Minh Thuyết (1998), Thành phần câu tiếng Việt, Nhà xuất bản
Đại học Quốc gia Hà Nội.
Tài liệu tiếng Anh
(7) A. Burchardt, S. Walter, A. Koller, M. Kohlhase, P. Blackburn, J. Bos

(2002), Computational Semantics, MiLCA, Department of Computerlinguistic, Saarlandes Saarbrucken University, Germany.

80


(8) A. Martelli, U. Montanari (1982), An Efficient Unification Algorithm,
Journal: ACM Transactions on Programming Languages and Systems,
New York, USA.
(9) F. Baader, W. Snyder (2001), Unification Theory, Elsevier Science
Publishers.
(10)

H. Kamp, Josef van Genabith, Uwe Reyle (2011), Discourse

Representation Theory, An Updated Survey. In: D. Gabbay (ed.),
Handbook of Philosophical Logic, 2nd ed., Vol XV.
(11)

K. von Fintel, Irene Heim (2011), Intensional Semantics, MIT

Spring.
(12)

P. Selinger (2007), Lecture Notes on the Lambda Calculus,

Department of Mathematics and Statistics, Dalhousie University,
Halifax, Canada.
(13)

V. Presutti, Francesco Draicchio, Aldo Gangemi (2012),


Knowledge extraction based on discourse representation theory and
linguistic frames, EKAW'12 Proceedings of the 18th international
conference on Knowledge Engineering and Knowledge Management,
Springer-Verlag Berlin, Heidelberg.

81



×