Tải bản đầy đủ (.pdf) (56 trang)

Hệ thống hỏi đáp thông tin trong lĩnh vực công nghệ thông tin – truyền thông dựa trên cơ chế xử lý ngữ nghĩa của các tiêu đề tin tức tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.25 MB, 56 trang )

Đại học Quốc gia
Thành Phố Hồ Chí Minh

hí Minh

Ch

BÁO CÁO TỔNG KẾT

Tên đề tài: Hệ thống hỏi đáp thông tin trong lĩnh vực công nghệ thông tin –
truyền thông dựa trên cơ chế xử lý ngữ nghĩa của các tiêu đề tin tức tiếng Việt

Ngày ..... tháng ...... năm ....
Chủ tịch hội đồng nghiệm thu
(Họ tên, chữ ký)

Ngày ..... tháng ...... năm ....
Chủ nhiệm
(Họ tên và chữ ký)

Ngày ..... tháng ...... năm ....
Cơ quan chủ quản

Ngày ..... tháng ...... năm ....
Cơ quan chủ trì
(Họ tên, chữ ký, đóng dấu)

TP.HCM, tháng 09 năm 2014


MỤC LỤC


TÓM TẮT
ABSTRACT
CHƯƠNG 1:

TỔNG QUAN ............................................................................ 1

1.1

Đặt vấn đề ................................................................................................. 1

1.2

Các cơng trình nghiên cứu khác có liên quan ........................................... 1

1.3

Mục tiêu của đề tài.................................................................................... 2

1.4

Phạm vi đề tài ........................................................................................... 2

1.5

Những đóng góp khoa học mới của đề tài ................................................ 2

1.6

Các bài báo đã công bố của đề tài ............................................................ 3


CHƯƠNG 2:

MƠ HÌNH XỬ LÝ NGỮ NGHĨA TIÊU ĐỀ TIẾNG VIỆT

CÓ CẤU TRÚC CÂU ĐƠN ................................................................................ 5
2.1

Các định nghĩa, qui ước trong phương pháp biểu diễn ngữ nghĩa ........... 5

2.2

Định nghĩa phép liên kết và độ ưu tiên của phép liên kết ........................ 7

2.2.1

Định nghĩa phép liên kết .................................................................... 7

2.2.2

Độ ưu tiên của phép liên kết .............................................................. 7

2.3

Tiếp cận biểu diễn ngữ nghĩa ................................................................... 8

2.4

Biểu diễn ngữ nghĩa của câu đơn tiếng Việt ............................................ 9

2.4.1


Câu có một động từ ............................................................................ 9

2.4.2

Câu có nhiều động từ ....................................................................... 11

2.4.2.1

Câu có hai động từ liên tiếp nhau ............................................. 11

2.4.2.2

Câu có hai động từ liên kết với nhau bằng liên từ “và” ............ 12

2.4.2.3

Câu có hai động từ cách nhau bằng một ngữ đoạn bất kỳ ........ 13

2.4.3

Câu chỉ có duy nhất động ngữ hoặc động ngữ với giới ngữ, trạng

ngữ chỉ thời gian .......................................................................................... 14


2.4.4
2.5

Câu khơng có động từ ...................................................................... 15


Mơ hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống ................. 16

CHƯƠNG 3:

MƠ HÌNH ĐỌC HIỂU – TRẢ LỜI CÂU HỎI VỀ CÁC

TIÊU ĐỀ TIN TỨC TIẾNG VIỆT ................................................................... 17
3.1

Mơ hình xử lý đọc hiểu – trả lời câu hỏi tiếng Việt ............................... 17

3.2

Phân chia lớp câu hỏi trong hệ thống theo mục đích hỏi ....................... 18

3.2.1

Lớp câu hỏi để truy vấn về sự vật, sự việc, hiện tượng (1) ............. 19

3.2.2

Lớp câu hỏi để truy vấn về người, hay một đối tượng đại diện liên

quan đến người (2) ....................................................................................... 20
3.2.3

Lớp câu hỏi truy vấn về thời gian (3) .............................................. 21

3.2.4


Lớp câu hỏi truy vấn về vị trí, nơi chốn (4) ..................................... 22

3.2.5

Lớp câu hỏi truy vấn về mức độ, tính chất của sự việc (5) ............. 23

3.2.6

Lớp câu hỏi về số lượng đối tượng (6) ............................................ 23

3.2.7

Lớp câu hỏi dạng tổng hợp để truy vấn về thông tin của một đối

tượng (7) ....................................................................................................... 24
3.2.8

Lớp câu hỏi mang ý nghĩa “Đúng – Sai” (8) ................................... 29

CHƯƠNG 4:

HỆ THỐNG HỎI – ĐÁP TIẾNG VIỆT VỀ TIN TỨC

CÔNG NGHỆ THÔNG TIN – TRUYỀN THƠNG ........................................ 31
4.1

Mơ hình hệ thống .................................................................................... 31

4.1.1


Giới thiệu mơ hình hoạt động .......................................................... 31

4.1.2

Giải thích mơ hình hoạt động của mơ hình...................................... 32

4.2

Xây dựng hệ thống ................................................................................. 34

4.2.1

Xây dựng từ điển từ loại .................................................................. 34

4.2.2

Xây dựng “Bộ quy tắc cú pháp” và “Bộ quy tắc biểu diễn ngữ

nghĩa” 35
4.2.3

Xây dựng nguồn cung cấp thông tin cho hệ thống .......................... 36


CHƯƠNG 5:

THỬ NGHIỆM VÀ ĐÁNH GIÁ ........................................... 38

5.1


Cài đặt hệ thống ...................................................................................... 38

5.2

Thử nghiệm............................................................................................. 38

5.2.1

Thử nghiệm cơ sở ............................................................................ 38

5.2.2

Thử nghiệm mở rộng ....................................................................... 39

5.3

Đánh giá .................................................................................................. 40

CHƯƠNG 6:
6.1

KẾT LUẬN .............................................................................. 41

Kết luận................................................................................................... 41

6.1.1

Các kết quả của đề tài ...................................................................... 41


6.1.2

Những hạn chế của đề tài ................................................................. 41

6.2

Hướng phát triển ..................................................................................... 42

TÀI LIỆU THAM KHẢO ................................................................................. 43
PHỤ LỤC: CÁC KÝ HIỆU TỪ LOẠI VÀ NGỮ ĐOẠN ĐƯỢC DÙNG ..... 47


TĨM TẮT
Trong đề tài nghiên cứu này, chúng tơi nhắm đến việc xây dựng một Reading
Answering System Model (RASM) cho tiếng Việt. Mơ hình RASM cho phép cài
đặt một hệ thống hỏi đáp có thể đọc trực tiếp các tiêu đề tin tức tiếng Việt từ
ICTNEWS () để dùng chúng làm dữ liệu cho việc trả lời
các câu hỏi tiếng Việt có liên quan. Mơ hình này có thể phân tích cú pháp và ngữ
nghĩa của nhiều dạng cấu trúc tiêu đề tin tức và câu hỏi tiếng Việt. Chúng tôi đã
xây dựng một hệ thống dựa trên RASM và đánh giá hiệu quả của hệ thống này
trong các thực nghiệm. Hệ thống thử nghiệm đạt độ chính xác là 66.63%.


ABSTRACT
In this research project, we aim to build a Reading Answering System Model
(RASM) for Vietnamese Language. The RASM allows implementing a question
answering system which can read directly Vietnamese news titles from
ICTNEWS () and uses them as data for answering relative
Vietnamese questions. This model can analyze the syntax and semantics of
several structures of Vietnamese news titles and questions. We built a system

based on RASM and evaluated the performance of this system in experiments.
The accuracy of experimental system is 66.63%.


DANH MỤC HÌNH
Hình 2.1: Câu có một động từ (Nguồn: [24])....................................................... 10
Hình 2.2: Câu hai động từ liên tiếp nhau (Nguồn: [24]) ...................................... 11
Hình 2.3: Câu có hai động từ cách nhau bởi từ “và” (Nguồn: [24]) .................... 12
Hình 2.4: Câu có hai động từ nằm cách xa nhau (Nguồn: [24]) .......................... 13
Hình 2.5: Câu khơng có động từ (Nguồn: [24]) ................................................... 15
Hình 2.6: Hình thức biểu diễn nghĩa của câu khơng có động từ (Nguồn: [24]) .. 15
Hình 4.1: Mơ hình hoạt động của hệ thống [24], [25], [26]................................. 32
Hình 4.2: Mối quan hệ giữa các tập tin Prolog .................................................... 36


DANH MỤC BẢNG
Bảng 4.1: Bảng thống kê số lượng từ loại [24], [25], [26]................................... 35
Bảng 4.2: Cấu tạo thành phần tổ chức của hệ thống ............................................ 36
Bảng 5.1: Ngữ liệu cho thử nghiệm cơ sở (Nguồn: [25]) .................................... 38
Bảng 5.2: Kết quả thử nghiệm trên các câu hỏi chuẩn (Nguồn: [25]) ................. 39
Bảng 5.3: Thống kê kết quả thử nghiệm trên các nhóm câu hỏi mở rộng (Nguồn:
[26]) ...................................................................................................................... 39


Trang 1

CHƯƠNG 1: TỔNG QUAN
1.1

Đặt vấn đề

Theo cách tiếp cận truyền thống, một trong những thành phần cơ bản để

cung cấp dữ liệu cho việc trả lời những câu hỏi bằng ngôn ngữ tự nhiên trong các
hệ thống hỏi đáp là cơ sở dữ liệu hoặc cơ sở tri thức được xây dựng trước, theo
một số các chuẩn phổ biến. Khác với cách tiếp cận truyền thống, đề tài này được
phát triển theo hướng xây dựng một hệ thống hỏi đáp có khả năng tiếp nhận
thơng tin trực tiếp từ các nguồn ngữ liệu tiếng Việt trực tuyến, thay vì xây dựng
sẵn các các cơ sở dữ liệu hay cơ sở tri thức. Hướng tiếp cận này cho phép xử lý
trực tiếp các nguồn thông tin từ ngữ liệu tiếng Việt, nhưng ngược lại nó cũng đặt
ra những thách thức cần nghiên cứu giải quyết (cf. [24], [25], [26], [27], [28]).
Nội dung của báo cáo tổng kết này được trình bày dựa trên các bài
báo đã được công bố của đề tài: [24], [25], [26], [27], [28].

1.2

Các cơng trình nghiên cứu khác có liên quan
Vấn đề xây dựng các hệ thống hỏi đáp tiếng Việt dựa trên việc phân tích

cú pháp, ngữ nghĩa của các câu ngữ liệu tiếng Việt để có thơng tin trả lời cho các
câu hỏi có liên quan đã được thực hiện lần đầu tiên trong các đề tài khóa luận tốt
nghiệp đại học [2], [4], [5], [6] do TS. Nguyễn Tuấn Đăng, Trường Đại học Công
nghệ Thông tin – ĐHQG TP. HCM, là người hướng dẫn khoa học. Những đề tài
nói trên đã xây dựng các hệ thống hỏi đáp tiếng Việt cho những lĩnh vực ứng
dụng: kiến thức xã hội [2], kiến thức về động vật [4], kiến thức lịch sử Việt nam
[5], truy vấn thơng tin về sản phẩm máy tính bảng [6]. Đề tài này được chúng
tôi triển khai và phát triển dựa trên việc tham khảo các kết quả nghiên cứu
đã công bố của Phạm Thế Sơn và Hồ Quốc Thịnh [5].
Ngồi ra, một số mơ hình khác để xây dựng cơ chế đọc hiểu câu hỏi tiếng
Việt cũng đã được nghiên cứu trong [1], [3]. Trong vấn đề xây dựng các parser


Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 2
cú pháp hoặc ngữ nghĩa cho câu đơn tiếng Việt, một số hướng tiếp cận khác cũng
đã được giới thiệu trong các cơng trình như [10], [11].

1.3

Mục tiêu của đề tài
Đề tài nhằm mục tiêu xây dựng một hệ thống hỏi đáp tiếng Việt về những

tin tức ngắn gọn trong lĩnh vực công nghệ thông tin – truyền thông. Hệ thống này
hoạt động dựa trên một cơ chế đọc hiểu tiêu đề tiếng Việt của tối đa 10 tin mới
nhất được đăng trên web site ICTNEWS [22]. Dựa trên nội dung của các tiêu đề
tin tức mà hệ thống đã xử lý, hệ thống có thể trả lời các câu hỏi tiếng Việt đơn
giản được đặt ra cho hệ thống. Cơ chế đọc hiểu các tiêu đề tin tức và các câu hỏi
được xây dựng dựa trên việc phân tích cú pháp và biểu diễn ngữ nghĩa của các
câu đơn và một số loại ngữ đoạn tiếng Việt.

1.4

Phạm vi đề tài
Đề tài giới hạn phạm vi nghiên cứu như sau (theo thuyết minh đăng ký đề

tài):

-

Hệ thống có thể xử lý một tập từ vựng giới hạn trong 500 từ.

-

Hệ thống có thể xử lý những tiêu đề có cấu trúc câu đơn (tường thuật)
hoặc ngữ đoạn đơn giản (giới hạn trong tập từ vựng của hệ thống).

-

Hệ thống có thể trả lời các câu hỏi tiếng Việt có cấu trúc câu đơn, hỏi trực
tiếp về những nội dung có liên quan đến các tiêu đề tin tức trên web site
ICTNEWS [22] (khơng địi hỏi suy luận để trả lời và giới hạn trong tập từ
vựng của hệ thống).

-

Không xử lý các vấn đề về phong cách, tu từ, tình thái, ẩn ý, hàm ý, v.v…
trong các tiêu đề và câu hỏi tiếng Việt.

1.5

Những đóng góp khoa học mới của đề tài
-

Kết quả khoa học: Dựa trên các phương pháp biểu diễn và xử lý ngữ nghĩa
đã được đề nghị trong [12], [13], [14], [16], [17], [18], [19], đề tài ứng

Mã số đề tài: B2012-26-05

Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 3
dụng chúng vào việc xây dựng các phương pháp phân tích cú pháp và xử
lý ngữ nghĩa cho nhiều dạng câu đơn và ngữ đoạn tiếng Việt ở thể khẳng
định và nghi vấn trong lĩnh vực tin tức công nghệ thông tin – truyền thông
để xây dựng hệ thống hỏi - đáp (trong mục tiêu và phạm vi đề tài).
-

Chương trình máy tính: Hệ thống hỏi đáp tiếng Việt về tin tức công nghệ
thông tin – truyền thông (trong mục tiêu và phạm vi đề tài). Hệ thống
được xây dựng có thể xử lý 1199 từ vựng và đạt độ chính xác là 66.63%
trong các thử nghiệm.

1.6

Các bài báo đã công bố của đề tài
Các kết quả khoa học đã cơng bố của đề tài gồm có 05 bài báo:
1. Son The Pham and Dang Tuan Nguyen, "Processing Vietnamese News
Titles to Answer Relative Questions in VNEWSQA/ICT System",
International Journal on Natural Language Computing (IJNLC), Vol. 2,
No. 6, December 2013, pp. 39-51. ISSN: 2278 - 1307 [Online]; 2319 4111 [Print]. (Cf. [24]).
2. Son The Pham and Dang Tuan Nguyen, "Resolving the Semantics of
Vietnamese Questions in VNewsQA/ICT System", International journal
of Artificial Intelligence & Applications (IJAIA), Vol. 5, No. 2, March
2014, pp. 11-20. ISSN: 0975 - 900X [Online]; 0976 - 2191 [Print]. (Cf.

[25]).
3. Son The Pham, Dang Tuan Nguyen, “A Reading Answering System
Model for Vietnamese Language”, Asia Modelling Symposium 2014
(AMS 2014), Eighth Asia International conference on Mathematical
Modelling and Computer Simulation, Taipei, 23 September, 2014 / Kuala
Lumpur, 25 September, 2014, pp. 170-174, IEEE. ISBN: 978-1-47996487-1. (Cf. [26]). (ERA 2010 / CORE 2013 Conference Rankings: C)

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 4
4. Son The Pham, Dang Tuan Nguyen, “Implementation Method of
Answering Engine for Vietnamese Questions in Reading Answering
System Model (RASM)”, Asia Modelling Symposium 2014 (AMS 2014),
Eighth Asia International conference on Mathematical Modelling and
Computer Simulation, Taipei, 23 September, 2014 / Kuala Lumpur, 25
September, 2014, pp. 175-180, IEEE. ISBN: 978-1-4799-6487-1. (Cf.
[27]). (ERA 2010 / CORE 2013 Conference Rankings: C)
5. Son The Pham, Dang Tuan Nguyen, “Implementation Techniques for
Computing the Semantics of Vietnamese News Titles in Reading
Answering System Model (RASM)”, The Third Asian Conference on
Information Systems (ACIS 2014), Nha Trang, Vietnam, December 1-3,
2014, pp. 209-216. ISBN: 978-4-88686-089-7. (Cf. [28]).

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM


Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 5

CHƯƠNG 2: MƠ HÌNH XỬ LÝ NGỮ NGHĨA TIÊU
ĐỀ TIẾNG VIỆT CÓ CẤU TRÚC CÂU ĐƠN
Trong chương 2, chúng tơi sẽ trình bày những nội dung chính như sau:
-

Trình bày một số định nghĩa, quy ước riêng được sử dụng trong phương
pháp biểu diễn ngữ nghĩa câu đơn của đề tài.

-

Xây dựng một phương pháp trình bày và biểu diễn ngữ nghĩa câu đơn theo
mơ hình mà chúng tơi xây dựng, nhằm mục đích tạo sự dễ dàng trong việc
định nghĩa văn phạm DCG (Definite Clause Grammar) trong Prolog.

-

Định nghĩa một số “phép liên kết”, “hàm” để biểu diễn các mối quan hệ và
mối liên kết về mặt ngữ nghĩa.

-

Phân loại dạng câu đơn tiếng Việt theo nghĩa của động từ.


-

Xây dựng mơ hình xử lý và cơ chế đọc hiểu câu đơn tiếng Việt.
Những nội dung nghiên cứu trong chương này được trình bày theo

các bài báo đã được công bố của đề tài: [24], [26]. Phương pháp cài đặt thành
phần xử lý ngữ nghĩa tiêu đề tin tức tiếng Việt trong chương này được giới thiệu
trong [28].

2.1

Các định nghĩa, qui ước trong phương pháp biểu diễn ngữ nghĩa
Trong mục này chúng tơi trình bày những định nghĩa và những quy ước

riêng để sử dụng trong phương pháp biểu diễn ngữ nghĩa của một câu [24, [26].
 Hằng ngữ đoạn: là một ngữ đoạn mà chúng tôi cho rằng khơng thể nào
phân tích thành những ngữ đoạn nhỏ hơn. Chúng tôi biểu diễn hằng ngữ
đoạn bằng cách sử dụng các ký hiệu “_” để kết hợp các “từ vựng” với
nhau, hoặc đặt hằng ngữ đoạn nằm trong cặp dấu “<…>”.

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 6
Hằng_ngữ_đoạn
<Hằng ngữ đoạn>

 Vị từ: các vị từ là những thành tố cơ sở trong lý thuyết ngữ nghĩa hình
thức [12], [13], [14], [16], [17], [18], [19], … được dùng để biểu diễn cấu
trúc nghĩa của câu. Thuật ngữ “vị từ” được chúng tôi sử dụng với ý nghĩa
là các “động từ”. Các vị động từ có hình thức biểu diễn như sau:
Động_từ_làm_vị_từ(tham tố 1, tham tố 2)
Trong đó, các tham tố có thể là một danh ngữ, một động ngữ, hay một tiểu
cú.
 Hàm: dược sử dụng để biểu diễn các ý nghĩa về thời gian, không gian…
của câu, hay những mối quan hệ nào đó giữa hai đối tượng, và có hình
thức biểu diễn như sau [24]:
Tên_hàm(tham_tố)
Tên_hàm(tham_tố_1, tham_tố_2 …, tham_tố_n)
Trong đó, các tham tố có thể là những giới ngữ, tính ngữ hoặc trạng ngữ.
Hàm có một tham tố hoặc nhiều tham tố tùy thuộc vào mục đích biểu diễn.
Trong trường hợp biểu diễn quan hệ giữa hai đối tượng, hàm cịn có hình
thức như sau [24]:
Tên_hàm_1(Tên_hàm_2 (tham_tố))
Chúng tôi đã xây dựng những hàm cơ bản để dùng cho việc biểu diễn ngữ
nghĩa như sau [24]:
+ Hàm chỉ thời gian: Time(AdvP).
+ Hàm chỉ vị trí, nơi chốn: Location(PreP).

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 7

+ Hàm biểu đạt cách thức: Manner(AdvP).
+ Hàm biểu diễn sự một sự vật, sự việc, đối tượng: Object(NP) hoặc
Object(QuaP). Hàm này sử dụng cho câu khơng có động từ.
+ Hàm biểu diễn quan hệ sở hữu giữa hai đối tượng: Possessive(NP,
PreP_Poss) hoặc Possessive(QuaP, PreP_Poss).

2.2

Định nghĩa phép liên kết và độ ưu tiên của phép liên kết

2.2.1 Định nghĩa phép liên kết
 Phép liên kết giữa hàm với vị từ: gồm >->, >-->, >---> tương ứng
với việc làm rõ nghĩa câu của giới ngữ, tính ngữ, và trạng ngữ chỉ thời
gian đối với động từ [24]:
-

Phép liên kết >-> biểu diễn việc bổ nghĩa của giới ngữ chỉ vị trí, nơi chốn
cho vị từ.

-

Phép liên kết >--> biểu diễn việc bổ nghĩa của trạng ngữ chỉ tính chất
cho vị từ.

-

Phép liên kết >---> biểu diễn việc bổ nghĩa của trạng ngữ chỉ thời gian
cho vị từ.

 Phép liên kết giữa vị từ và vị từ: phép liên kết <-> biểu diễn mối quan

hệ giữa động từ với động từ trong câu có nhiều động từ [24].
2.2.2 Độ ưu tiên của phép liên kết
“Độ ưu tiên của các phép liên kết” là thứ tự thực hiện quá trình xử lý ngữ
nghĩa mà chúng tôi thiết lập. Mức độ ưu tiên của phép liên kết càng cao thì việc
xử lý ngữ nghĩa của phép liên kết đó được xảy ra trước. Nếu các phép liên kết có
cùng độ ưu tiên thì sẽ thực hiện từ trái sang phải, phép liên kết nào gặp đầu tiên
thì sẽ xử lý trước [24].

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 8
Độ ưu tiên của các phép liên kết theo thứ tự giảm dần như sau [24]:
<->, >->, >-->, >--->
Chú ý:
-

Những phép liên kết mà chúng tơi vừa trình bày được biểu diễn dưới dạng
“op, infix, prefix, and postfix operators, precedence” trong Prolog [15],
[20].

-

Trong quá trình biểu diễn ngữ nghĩa chúng tơi có thể định nghĩa thêm một
phép liên kết nào đó để biểu diễn mối quan hệ cần diễn tả.


2.3

Tiếp cận biểu diễn ngữ nghĩa
 Những ngữ đoạn như danh ngữ (NP), giới ngữ (PreP), tính ngữ (AdjP),
trạng ngữ chỉ thời gian (AdvP) sẽ được xem là các hằng ngữ đoạn và
chúng đóng vai trị là những tham tố của các vị từ hay hàm.
 Lượng ngữ QuaP là một ngữ đoạn có chức năng cung cấp thơng tin về số
lượng của một sự vật, sự việc, hoặc một đối tượng. Đối với lượng ngữ thì
có hai hướng để biểu diễn ngữ nghĩa như sau:
-

Hướng tiếp cận thứ nhất: Những từ biểu đạt thông tin về số lượng
(lượng từ) được chia làm hai loại:
+ Lượng từ xác định: nếu lượng từ đứng trước danh từ thì sẽ định
lượng cho danh từ đó. Để biểu diễn lượng từ xác định chúng tơi
định nghĩa một hàm như sau:
Definite(QuaP)
Trong đó, QuaP là lượng ngữ. Definite là tên hàm biểu diễn lượng
ngữ phía bên trong.

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 9
+ Lượng từ không xác định: bao gồm các từ như sau: {những, các, tất
cả, cả, cả thảy, nhiều, mọi, mỗi}. Những lượng từ vừa đề cập sẽ

đứng trước danh từ và biểu diễn số lượng không xác định cho danh
từ đang xét. Để biểu diễn lượng từ xác định chúng tơi định nghĩa
một hàm như sau:
Indefinite(QuaP)
Trong đó, QuaP là lượng ngữ. Indefinite là tên hàm biểu diễn lượng
ngữ phía bên trong.
Chúng tơi sẽ chọn cách thứ nhất làm hướng tiếp cận trong đề tài để
phát triển cho những câu liên quan đến lượng ngữ.
-

Hướng tiếp cận thứ hai: không phân chia lượng từ thành hai loại xác
định và không xác định nhưng vẫn đảm bảo rằng ngữ đoạn mà đang
xét là lượng ngữ. Hướng tiếp cận thứ hai này đã được giới thiệu trong
[5] và có một số hạn chế cần phát triển thêm. Do đó, chúng tơi không
sử dụng cách tiếp cận thứ hai này.

2.4

Biểu diễn ngữ nghĩa của câu đơn tiếng Việt
Theo lý thuyết ngữ nghĩa hình thức [12], [13], [14], [16], [17], [18], [19],

ngữ nghĩa câu được biểu diễn dựa trên cấu trúc tham tố của động từ. Trong đề tài
này chúng tôi nghiên cứu những cấu trúc câu có một và hai động từ trong tiếng
Việt dựa trên cơ sở của các lý thuyết ngơn ngữ học [9], [13], [21].
2.4.1 Câu có một động từ
Theo [24], câu đơn có một động từ được chúng tơi xử lý dựa trên mơ hình
trong [Hình 2.1].

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM


Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 10
(4)

(1)

(2)

(3)

NP + V + NP + C + NP +
QuaP
QuaP
QuaP

PreP
AdjP
AdvP

VP

Hình 2.1: Câu có một động từ (Nguồn: [24])
Động từ trong mơ hình biểu diễn trong [Hình 2.1] được biểu diễn bằng
cấu trúc vị từ có dạng như sau [24]:
động_từ_làm_vị_từ(tham_tố_1, tham_tố_2)
Trong đó, “tham_tố_1” và “tham_tố_2” có mối quan hệ với nhau phụ

thuộc vào đặc điểm của động từ chính trong câu. Các “tham_tố_1” và
“tham_tố_2” sẽ nhận giá trị là những ngữ đoạn NP hoặc QuaP nên (1), (2), (3)
trong [Hình 2.1] là những phép bổ nghĩa cho động từ chính trong câu.
Theo [24], những ngữ đoạn PreP, AdjP, AdvP sẽ đóng vai trị là phụ ngữ
làm sáng rõ nghĩa cho động từ chính; phép biểu diễn (4) (hay phép liên kết) trong
[Hình 2.1] chỉ sự làm rõ nghĩa cho động từ, mức độ làm rõ nghĩa của những phụ
ngữ PreP, AdjP, AdvP là như nhau. Trong mơ hình biểu diễn, chúng tôi sẽ định
nghĩa thêm ba phép biểu diễn dùng cho ba ngữ đoạn PreP, AdjP và AdvP như
sau [24]:
-

Đối với PreP, chúng tôi sẽ dùng hàm Location(PreP) và dùng phép liên kết
>-> làm phép biểu diễn ngữ nghĩa về việc làm sáng rõ nghĩa của PreP đối
với động từ chính trong câu.

-

Đối với AdvP, chúng tơi sẽ dùng hàm Manner(AdvP) và dùng phép liên
kết >--> làm phép biểu diễn ngữ nghĩa về việc làm sáng rõ nghĩa của AdjP
đối với động từ chính trong câu.

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 11
-


Hàm Time(AdvP) và phép liên kết >---> được chúng tôi sử dụng để làm
sáng rõ nghĩa về thời gian của AdvP đối với động từ chính trong câu.
Cả ba phép biểu diễn >->, >-->, >---> đều có mức độ làm rõ nghĩa đối

với động từ chính trong câu như nhau. Nhưng nếu cả ba phép biểu diễn này cùng
xuất hiện cùng nhau thì chúng tơi quy ước độ ưu tiên dùng để phân tích như sau:
>-> lớn hơn >--> lớn hơn >---> (giảm dần từ trái qua phải).
2.4.2 Câu có nhiều động từ
2.4.2.1 Câu có hai động từ liên tiếp nhau
Trong loại câu có hai động từ liên tiếp nhau, động từ đứng trước bổ nghĩa
cho động từ đứng sau hoặc động từ đứng sau bổ nghĩa cho động từ đứng trước
[24]. Động ngữ của câu sẽ được phân tích và biểu diễn thơng qua sơ đồ tổng
quan trong [Hình 2.2].
(4)

(1)

(2)

(3)

NP + V1 + V2 + NP + C + NP +
QuaP
QuaP
QuaP

PreP
AdjP
AdvP


VP1
VP2

Hình 2.2: Câu hai động từ liên tiếp nhau (Nguồn: [24])
Trong cấu trúc câu ở [Hình 2.2], hai thành phần bắt buộc không thể thiếu
là VP1 và VP2. Cấu trúc câu này có hình thức biểu diễn ngữ nghĩa như sau [24]:
động_từ_V1(tham_tố_1, động_từ_V2 (tham_tố_1, tham_tố_2))
Chúng tôi thấy “tham_tố_1” của “động_từ_V1” và “động_từ_V2” sẽ nhận
giá trị là ngữ đoạn đứng trước hai động từ, nhưng trong mơ hình biểu diễn chúng

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 12
tôi sẽ lấy giá trị cho tham_tố_1 của động từ V2 là same_Subject, còn tham_tố_2
của động_từ_V2 sẽ nhận ngữ đoạn đứng phía sau động từ V2 [24].
2.4.2.2 Câu có hai động từ liên kết với nhau bằng liên từ “và”
Trong mơ hình biểu diễn nghĩa của câu dạng này, động từ V1, V2 sẽ liên
kết với nhau bởi kết từ “và” và được mơ tả như trong [Hình 2.3].
(4)

(1)

(2)


(3)

NP + V1 [và] V2 + NP + C + NP
QuaP
QuaP
QuaP

PreP
AdjP
AdvP

Hình 2.3: Câu có hai động từ cách nhau bởi từ “và” (Nguồn: [24])
Trong cấu trúc câu ở [Hình 2.3], hai thành phần bắt buộc không thể thiếu
là VP1 và VP2. Cả hai động từ đều biểu đạt ngữ nghĩa của câu. Chúng tôi không
cùng lúc lấy V1 và V2 làm vị từ theo cách động_từ_V1_và_động_từ_V2(tham
tố, tham tố), bởi vì như vậy sẽ không biểu diễn hết về mặt nghĩa của mỗi động từ,
mặc dù hai động từ có cùng các tham tố nhưng mỗi động từ có nghĩa khác nhau
[24].
Chúng tơi đưa ra một hình thức để biểu diễn cho cả hai động từ trong mơ
hình như sau [24]:
động_từ_V1(tham tố 1, tham tố 2) <-> động_từ_V2(tham tố 1, tham tố 2)
Phép liên kết <-> được dùng để liên kết hai động từ lại với nhau, với mức
ưu tiên là cao nhất trong các phép liên kết được chúng tôi định nghĩa [24].

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn



Trang 13
Như vậy, chúng tôi đã liên kết được hai động từ lại với nhau. “tham tố 1”
lần lượt của vị từ “động_từ_V1” và “động_từ_V2” là cùng giống nhau và nhận
giá trị là danh ngữ (NP) hay lượng ngữ (QuaP). Tương tự “tham tố 2” cũng vậy.
Tiếp theo, quá trình xử lý những ngữ đoạn PreP, AdjP, AdvP cũng tương
tự như trên. Nhưng tại đây phải chú ý rằng độ ưu tiên của phép liên kết <-> là
cao nhất so với độ ưu tiên của các phép liên kết >->, >-->, >--->.
2.4.2.3 Câu có hai động từ cách nhau bằng một ngữ đoạn bất kỳ
Trong mơ hình này, động từ V1, V2 sẽ ở hai vị trí cách xa nhau, và được
mơ tả qua [Hình 2.4].

NP + V1 + NP + C + NP + V2 + NP + C + NP
QuaP
QuaP
QuaP
QuaP
QuaP
VP1
VP2
Clause
S

PreP
AdjP
AdvP

Hình 2.4: Câu có hai động từ nằm cách xa nhau (Nguồn: [24])
Trong [Hình 2.4], Clause thực ra là một tiểu cú. Xét theo ngữ cảnh đây là
một dạng câu mà hành động của động từ V1 xảy ra trước hành động của động từ

V2. Nhờ vào V1 xảy ra trước V2 nên mới có sự kết hợp tạo nên tiểu cú Clause.
Tiểu cú (Clause) trong [Hình 2.4] là một cấu trúc ngữ pháp cơ bản (giống
như câu có một động từ) nên chúng tôi dễ dàng biểu diễn được ngữ nghĩa thông
qua động từ V1 của tiểu cú như sau:
động_từ_V1(tham_tố_1, tham_tố_2)

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 14
Trong đó, “tham_tố_1” và “tham_tố_2” có thể là danh ngữ (NP) hoặc
lượng ngữ (QuaP).
Đối với động từ V2, động từ này cũng có hai tham tố theo hình thức như
sau:
động_từ_V2(tham_tố_3, tham_tố_4)
Trong đó, “tham_tố_3” sẽ nhận từ kết quả ngữ nghĩa của tiểu cú Clause
(thông qua dạng ngữ nghĩa của động từ V1). “Tham_tố_4” sẽ nhận giá trị là các
ngữ đoạn danh ngữ (NP) hoặc lượng ngữ (QuaP). Theo cách mơ tả vừa nêu,
chúng tơi có hình thức trình bày và biểu diễn ngữ cho tồn câu thơng qua hình
thức ngữ nghĩa của động từ V1 và V2 như sau:
động_từ_V2(động_từ_V1(ngữ_đoan_1, ngữ_đoạn_2), ngữ_đoạn_4)
2.4.3 Câu chỉ có duy nhất động ngữ hoặc động ngữ với giới ngữ, trạng ngữ
chỉ thời gian
Đây là dạng câu bắt đầu bằng động từ, thành phần danh ngữ và lượng ngữ
đứng trước động từ chính trong câu bị khuyết nhưng vẫn biểu diễn được nội dung
phát biểu của câu. Hay nói cách khác đây là loại câu bắt đầu từ động từ và trong

câu có thể có hai động từ.
Để giải quyết, chúng tôi xem ngữ đoạn bị khuyết như là một tham tố đặc
biệt của vị từ hoặc của hàm. Chúng tôi quy ước ngữ đoạn bị khuyết trong mơ
hình có ký hiệu như sau “_” hoặc “no_subject”. Mơ hình biểu diễn có hình thức
như sau:
động_từ_V1(no_subject, tham_tố)
động_từ_V2(động_từ_V1(no_subject, tham_tố_1), tham_tố_2)

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 15
2.4.4 Câu khơng có động từ
Đây là một dạng câu rất đặc biệt vì câu khơng có động từ. Cấu tạo của câu
được trình bày như trong [Hình 2.5].
(1)

NP
QP

(3)

(2)

+


PreP_loca
PreP_poss

+

AdjP

(4)

+

AdvP

Hình 2.5: Câu khơng có động từ (Nguồn: [24])
Cấu tạo của dạng câu này gồm các ngữ đoạn đơn giản với vị trí và thứ tự
khơng có mối liên hệ nào với nhau. Những ngữ đoạn mà chúng tôi xét gồm NP,
QuaP, PreP, AdjP và AdvP. Các ngữ đoạn (1), (2), (3), (4) trong [Hình 2.5] có
thể hốn vị vị trí lẫn nhau sao cho đúng về mặt nghĩa và người đọc hiểu được nội
dung của lời phát biểu. Chúng tôi dùng các hàm cùng với các phép liên kết để
biểu diễn ngữ nghĩa trong mơ hình câu khơng có động từ [24].
Cụ thể chúng tơi đề xuất hình thức dùng để trình bày ngữ nghĩa của câu
khơng có động từ như trong [Hình 2.6].
(1)

(2)

(3)

Object(NP)
Location(PreP_loca)

&
& Adjective(AdjP) & Time(AdvP)
Object(QuaP) Possessive(NP/QuaP, PreP_poss)

Hình 2.6: Hình thức biểu diễn nghĩa của câu khơng có động từ (Nguồn: [24])
Trong đó:
-

Hàm Object(NP), Object(QuaP) lần lượt sẽ biểu diễn danh ngữ và lượng
ngữ.

-

Hàm Location(PreP_loca), Possessive(NP/QuaP, PreP_poss) lần lượt sẽ
biểu diễn giới ngữ chỉ vị trí nơi chốn và giới ngữ chỉ sự sở hữu.

-

Hàm Adjective(AdjP) biểu diễn tính ngữ.

-

Hàm Time(AdvP) sẽ biểu diễn trạng ngữ chỉ thời gian.

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn



Trang 16
Phép liên kết & liên kết các hàm lại với nhau. Vì cùng là một phép liên kết
nên thứ tự ưu tiên để xét tính từ trái qua phải.

2.5

Mơ hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống
Mơ hình xử lý ngữ nghĩa câu đơn tiếng Việt trong hệ thống gồm có 5 giai

đoạn xử lý như sau [24]:
-

Giai đoạn 1: Xác định từ và từ loại. Hệ thống sử dụng một “Từ điển tiếng
Việt” được chúng tơi xây dựng để có thể xác định được từ và từ loại.

-

Giai đoạn 2: Phân tích và xác định ngữ đoạn. Bộ quy tắc cú pháp sẽ giúp
hệ thống xác định được loại ngữ đoạn và bản thân của ngữ đoạn đó sẽ là
tham tố của vị từ hoặc là tham tố của hàm.

-

Giai đoạn 3: Phân tích và xác định cây cú pháp của câu. Bộ quy tắc cú
pháp sẽ giúp hệ thống xác định cấu trúc cú pháp duy nhất của câu thông
qua văn phạm mà chúng tôi đã xây dựng trước.

-


Giai đoạn 4: Xác định mơ hình ngữ nghĩa của câu. Bộ quy tắc biểu diễn
ngữ nghĩa sẽ giúp hệ thống có thể xác định được mơ hình ngữ nghĩa cho
câu dữ liệu. Kết quả của giai đoạn này là một biểu thức biểu diễn ngữ
nghĩa của câu dựa trên các vị từ, phép liên kết, và hàm.

-

Giai đoạn 5: Đưa biểu thức biểu diễn ngữ nghĩa vào cơ sở dữ liệu sự kiện
Prolog. Thông qua q trình phân tích biểu thức ngữ nghĩa và kết hợp với
bộ quy tắc cập nhật thì hệ thống sẽ chuyển những biểu thức ngữ nghĩa
thành các sự kiện trong Prolog để cho người dùng truy vấn.
Mơ hình xử lý ngữ nghĩa câu đơn tiếng Việt của hệ thống đã được giải

thích chi tiết trong [24], [26], [28].

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


Trang 17

CHƯƠNG 3: MƠ HÌNH ĐỌC HIỂU – TRẢ LỜI CÂU
HỎI VỀ CÁC TIÊU ĐỀ TIN TỨC TIẾNG VIỆT
Trong chương 3, chúng tơi sẽ trình bày những nội dung chính như sau:
-

Xây dựng mơ hình đọc hiểu – trả lời các câu hỏi tiếng Việt trong hệ thống.


-

Phân loại xử lý câu hỏi tiếng Việt trong hệ thống tùy theo mục đích hỏi.
Những nội dung nghiên cứu trong chương này được trình bày theo các bài

báo đã được cơng bố của đề tài: [25], [26]. Các phương pháp và cài đặt chi tiết
của chương này được chúng tôi giới thiệu trong: [27].

3.1

Mơ hình xử lý đọc hiểu – trả lời câu hỏi tiếng Việt
Mơ hình đọc hiểu – trả lời câu hỏi tiếng Việt gồm có 5 giai đoạn xử lý như

sau [25]:
-

Giai đoạn 1: Đây là bước xác định từ và xác định từ loại dựa trên “Từ điển
tiếng Việt”.

-

Giai đoạn 2: Quá trình xác định ngữ đoạn. “Bộ quy tắc cú pháp” sẽ giúp
hệ thống xác định được loại ngữ đoạn NP, QuaP, AdvP, AdjP, PreP và
ngữ đoạn nghi vấn (QueP). Việc xác định ra ngữ đoạn nghi vấn sẽ giúp hệ
thống xác định được câu nhập vào là câu hỏi. Những ngữ đoạn NP, QuaP,
AdvP, AdjP, PreP sẽ là tham tố của vị từ hoặc là tham tố của hàm, còn
ngữ đoạn nghi vấn là một ngữ đoạn đặc biệt cũng đóng vai trị là tham tố
của vị từ hoặc của hàm nhưng với chức năng là một “biến truy vấn”, “biến
truy vấn” sẽ mang kết quả trả lời.


-

Giai đoạn 3: Đây là q trình phân tích cú pháp và xác định cấu trúc cú
pháp của câu hỏi dựa trên “Bộ quy tắc cú pháp”.

Mã số đề tài: B2012-26-05
Cấp quản lý: Đại học Quốc gia TP. HCM

Chủ nhiệm: TS. Nguyễn Tuấn Đăng
Thành viên: CN. Phạm Thế Sơn


×