Tải bản đầy đủ (.pdf) (61 trang)

Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (419.5 KB, 61 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
——————————

Nguyễn Việt Hùng

NGHIÊN CỨU XÁC ĐỊNH ĐỒNG SỞ CHỈ
VÀ ỨNG DỤNG CHO TIẾNG VIỆT

Chuyên ngành: Cơ sở toán cho tin học
Mã số: 60460110

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Hồng Phương

Hà Nội - 2015


LỜI CẢM ƠN

Trong quá trình học tập và nghiên cứu, em đã nhận được sự hướng dẫn tận
tình của thầy Lê Hồng Phương và cô Nguyễn Thị Minh Huyền. Em xin chân
thành cảm ơn thầy, cô đã giúp đỡ em rất nhiều trong học tập cũng như trong
công việc.
Em xin gửi lời cảm ơn tới các thầy, cô giáo đã nhiệt tình giảng dạy các chuyên
đề Cao học cho chúng em.
Em cũng xin được cảm ơn gia đình, bạn bè, đồng nghiệp, những người luôn
quan tâm, động viên em trong quá trình học tập và làm luận văn.
Hà Nội, ngày 29 tháng 11 năm 2015
Học viên



Nguyễn Việt Hùng

i


Mục lục
Danh sách bảng

v

Danh sách hình vẽ

vi

Giới thiệu

1

1 Tổng quan về xác định đồng sở chỉ

4

1.1

Bài toán xác định đồng sở chỉ . . . . . . . . . . . . . . . . . . .

5

1.2


Cách giải quyết bài toán xác định đồng sở chỉ . . . . . . . . . .

7

1.2.1

Xác định các đề cập . . . . . . . . . . . . . . . . . . . .

7

1.2.2

Xác định quan hệ đồng sở chỉ . . . . . . . . . . . . . . .

8

Phương pháp xác định đồng sở chỉ . . . . . . . . . . . . . . . .

11

1.3.1

Phương pháp phân loại . . . . . . . . . . . . . . . . . . .

11

1.3.2

Phương pháp phân cụm . . . . . . . . . . . . . . . . . .


12

1.3.3

Phương pháp lai . . . . . . . . . . . . . . . . . . . . . .

13

Đánh giá kết quả xác định đồng sở chỉ . . . . . . . . . . . . . .

14

1.4.1

Ngữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

1.4.2

Độ đo đánh giá . . . . . . . . . . . . . . . . . . . . . . .

14

1.3

1.4

2 Phương pháp xác định đồng sở chỉ bằng sàng nhiều lượt


22

2.1

Kiến trúc hệ thống . . . . . . . . . . . . . . . . . . . . . . . . .

22

2.2

Một số quá trình xử lý của hệ thống . . . . . . . . . . . . . . .

25

2.2.1

Xác định các đề cập . . . . . . . . . . . . . . . . . . . .

25

2.2.2

Xử lý các cụm đơn . . . . . . . . . . . . . . . . . . . . .

26

2.2.3

Đầu vào và đầu ra của mỗi bước sàng . . . . . . . . . . .


26

ii


2.3

2.4

2.2.4

Chia sẻ đặc trưng giữa các đề cập trong một cụm . . . .

26

2.2.5

Xác định đại diện của các cụm . . . . . . . . . . . . . .

27

2.2.6

Việc gộp các cụm . . . . . . . . . . . . . . . . . . . . . .

27

Các lượt sàng . . . . . . . . . . . . . . . . . . . . . . . . . . . .


27

2.3.1

Xác định người nói . . . . . . . . . . . . . . . . . . . . .

28

2.3.2

So khớp chuỗi chặt . . . . . . . . . . . . . . . . . . . . .

29

2.3.3

So khớp chuỗi nới lỏng . . . . . . . . . . . . . . . . . . .

29

2.3.4

Một số trường hợp chính xác cao . . . . . . . . . . . . .

29

2.3.5

So khớp từ chính chặt . . . . . . . . . . . . . . . . . . .


30

2.3.6

So khớp từ chính biến thể . . . . . . . . . . . . . . . . .

30

2.3.7

So khớp từ chính là danh từ riêng . . . . . . . . . . . . .

30

2.3.8

So khớp từ chính nới lỏng . . . . . . . . . . . . . . . . .

30

2.3.9

Xác định đồng sở chỉ cho các đại từ . . . . . . . . . . . .

31

Kết quả cho tiếng Anh . . . . . . . . . . . . . . . . . . . . . . .

31


2.4.1

Ngữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

2.4.2

Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

3 Ứng dụng cho tiếng Việt
3.1

3.2

3.3

33

Các công cụ đã có cho xử lý tiếng Việt . . . . . . . . . . . . . .

33

3.1.1

Công cụ tách từ, gán nhãn từ loại . . . . . . . . . . . . .

33


3.1.2

Kho ngữ liệu có gán nhãn cú pháp thành phần . . . . . .

34

3.1.3

Kho ngữ liệu có gán nhãn cú pháp phụ thuộc . . . . . .

34

3.1.4

Kho ngữ liệu có gán nhãn vai nghĩa . . . . . . . . . . . .

34

Phương pháp sàng nhiều lượt cho tiếng Việt . . . . . . . . . . .

35

3.2.1

Các lượt sàng . . . . . . . . . . . . . . . . . . . . . . . .

35

3.2.2


Xác định đặc trưng của các đề cập cho tiếng Việt . . . .

41

Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.3.1

Ngữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.3.2

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . .

42

Kết luận

43

Tài liệu tham khảo

45
iii



Phụ lục

49

VietTreebank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

Một số quan hệ phụ thuộc cho tiếng Việt . . . . . . . . . . . . . . . .

49

Phân tích vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

iv


Danh sách bảng
1.1

Các đặc trưng cơ bản của mô hình xác định đồng sở chỉ học máy

9

1.2

Các bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . .


15

2.1

Các lượt sàng trong tiếng Anh . . . . . . . . . . . . . . . . . . .

28

2.2

Các bộ dữ liệu thử nghiệm . . . . . . . . . . . . . . . . . . . . .

32

2.3

Kết quả hệ thống hệ thống Stanford với một số bộ dữ liệu . . .

32

2.4

Kết quả hệ thống Stanford tại cuộc thi năm 2013 . . . . . . . .

32

3.1

Các lượt sàng áp dụng cho tiếng Việt . . . . . . . . . . . . . . .


35

3.2

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . .

42

3.3

Tập nhãn từ loại trong VietTreeBank . . . . . . . . . . . . . . .

49

3.4

Tập nhãn cụm từ trong VietTreeBank

. . . . . . . . . . . . . .

50

3.5

Các nhãn chức năng cú pháp trong VietTreebank . . . . . . . .

50

v



Danh sách hình vẽ
1.1 Phân tích cú pháp thành phần của một câu trong tiếng Việt . . . . . .

7

2.1 Kiến trúc hệ thống xác định đồng sở chỉ của Stanford [17] . . . . . . .

23

3.1 Phân tích cú pháp câu "Tôi đã mua quyển sách mà thầy giáo giới thiệu." 37
3.2 Phân tích cú pháp câu "Quyển sách rất hay." . . . . . . . . . . . . . . 38
3.3 Phân tích cú pháp câu "Hà Nội, thủ đô của Việt Nam, đang bị ô nhiễm." 39
3.4 Phân tích cú pháp câu "Hà Nội là thủ đô của Việt Nam." . . . . . . . 40
3.5 Câu tiếng Anh được gán nhãn vai nghĩa.

vi

. . . . . . . . . . . . . . . .

54


Giới thiệu

Trong ngôn ngữ học, thuật ngữ đồng sở chỉ được dùng để nói về quan hệ giữa
các cụm từ cùng chỉ tới một thực thể. Xác định đồng sở chỉ là quá trình tìm các
cụm từ trong văn bản cùng tham chiếu tới một thực thể.
Xác định đồng sở chỉ là một vấn đề cơ bản trong ngôn ngữ tự nhiên. Đây là

một bước quan trọng trong việc phân tích và hiểu ngữ nghĩa của văn bản.
Ví dụ: John là một nhạc sĩ. Anh ấy chơi một ca khúc mới. Một cô gái chăm
chú lắng nghe ca khúc. "Đây là bài hát yêu thích của tôi", John nói với cô ấy.
Để hiểu được đoạn văn bản trên, trước tiên chúng ta cần phải xác định các
đối tượng được nói tới (đề cập) trong văn bản. Có 11 (sự) đề cập trong đoạn
văn trên là: [John]1 là [một nhạc sĩ]2 . [Anh ấy]3 chơi [một ca khúc mới]4 . [Một
cô gái]5 chăm chú lắng nghe [ca khúc]6 . "[Nó]7 là [bài hát yêu thích của [tôi]9 ]8 ",
[John]1 0 nói với [cô ấy]1 1. Các đề cập này nói tới 3 đối tượng:
• Một người nhạc sĩ tên John: [John]1 , [một nhạc sĩ]2 , [Anh ấy]3 , [tôi]9 ,
[John]1 0.
• Một cô gái nghe nhạc của John: [Một cô gái]5 , [cô ấy]1 1.
• Một bài hát mới của John: [một ca khúc mới]4 , [ca khúc]6 , [Nó]7 , [bài hát
yêu thích của tôi]8 .
Bài toán xác định đồng sở chỉ đã được nghiên cứu nhiều cho tiếng Anh và
vẫn là vấn đề thời sự. Các phương pháp luận đã áp dụng cho tiếng Anh cũng
được phát triển rộng rãi cho các ngôn ngữ khác [5].
Bài toán xác định đồng sở chỉ được giải quyết thông qua hai bước:
• Bước 1: Xác định các đề cập trong văn bản;
1


• Bước 2: Xác định quan hệ đồng sở chỉ giữa các đề cập này.
Bước 1 có thể được giải quyết bằng cách xác định các cụm danh từ trong văn
bản, đây thường là các đề cập trong văn bản. Bước 2 là trọng tâm để giải quyết
bài toán. Trong đa số các trường hợp, khi nói tới việc xác định đồng sở chỉ cho
văn bản, người ta tập trung vào giải quyết bước này.
Bài toán xác định đồng sở chỉ có thể mô hình hóa theo hai cách:
• Xác định mỗi cặp đề cập có quan hệ đồng sở chỉ hay không.
• Phân cụm các đề cập sao cho các đề cập trong mỗi cụm tham chiếu đến
cùng một thực thể.

Theo mô hình thứ nhất, bài toán này được đưa về bài toán phân lớp. Còn
theo mô hình thứ hai, ta có một bài toán phân cụm. Một số hệ thống có thể sử
dụng cả hai mô hình trên. Tiêu biểu là hệ thống xác định đồng sở chỉ với kiến
trúc sàng nhiều lượt của nhóm xử lý ngôn ngữ trường Đại học Stanford cho kết
quả tốt với tiếng Anh và đã được áp dụng cho các ngôn ngữ khác với kết quả
khả quan [17].
Với tiếng Việt, các nghiên cứu về đồng sở chỉ chưa nhiều, và chỉ tập trung vào
một số bài toán riêng như xác định các thực thể định danh [23] [15] [22] [20],
xác định hồi chỉ của một số đại từ đặc biệt. Do vậy, mục tiêu của luận văn là
nghiên cứu xây dựng một hệ thống xác định đồng sở chỉ trong văn bản tiếng
Việt.
Yêu cầu đầu tiên cho mọi hệ thống xác định đồng sở chỉ là xác định đặc trưng
cho xác đề cập (hoặc cụm đề cập). Trong luận văn này, bộ đặc trưng của tiếng
Anh được sử dụng làm cơ sở để xây dựng bộ đặc trưng cho tiếng Việt với một
số thay đổi cho phù hợp với đặc điểm ngôn ngữ.
Quá trình xác định các đặc trưng của đề cập (hoặc cặp đề cập) cần rất nhiều
thông tin, càng nhiều thông tin được xác định, kết quả xác định đồng sở chỉ
sẽ càng chính xác. Trong tiếng Anh, đã có rất nhiều các công cụ hỗ trợ để xác
định các đặc trưng này. Với tiếng Việt, có rất nhiều hạn chế về các công cụ xử
lý ngôn ngữ cơ bản: chưa có WordNet cho tiếng Việt, cũng chưa có các công
cụ có độ chính xác cao được chia sẻ để thực hiện các công việc như xác định
2


các thực thể định danh (NER), chưa có các từ điển thống nhất để xác định các
thông tin hình thái như giống đực/cái, chỉ người/chỉ vật,... Một công việc cần
thiết để xác định đồng sở chỉ cho tiếng Việt là cần xây dựng bộ các công cụ để
hỗ trợ xác định các quan hệ và đặc trưng của các đề cập.
Trong quá trình ứng dụng cho tiếng Việt, thực nghiệm được tiến hành trên
kho ngữ liệu Viettreebank [16] thuộc đề tài VLSP 1 gồm 10000 câu đã được phân

tích cú pháp. Kho ngữ liệu này được bổ sung thông tin cú pháp phụ thuộc [8]
và thông tin về vai nghĩa [6] để xác định các đặc trưng cho mô hình.
Luận văn có cấu trúc gồm 3 phần chính:
• Chương 1 trình bày tổng quan về bài toán xác định đồng sở chỉ, các cách
tiếp cận giải bài toán xác định đồng sở chỉ.
• Chương 2 trình bày về hệ thống xác định đồng sở chỉ theo kiến trúc sàng
nhiều lượt.
• Chương 3 trình bày về việc ứng dụng sàng nhiều lượt để xác định đồng sở
chỉ cho tiếng Việt và thực nghiệm.

1 :8080

3


Chương 1

Tổng quan về xác định đồng sở chỉ
Để hiểu được một văn bản, một trong những yêu cầu đầu tiên là phải xác
định được sự vật, sự việc được nói tới trong văn bản. Tuy nhiên, một văn bản
thường nhắc tới rất nhiều sự vật, sự việc và mỗi sự vật, sự việc lại có thể được
đề cập nhiều lần ở nhiều vị trí khác nhau. Ngoài ra, khi muốn nói về một sự vật,
sự việc đã được nhắc đến ở trước đó, người ta thường dùng các cụm từ ngắn
gọn hơn so với cụm từ đã được dùng trước đó.
Ví dụ:
• [Bộ trưởng Bộ Giáo dục Đào tạo] về thăm trường tiểu học Võ Thị Sáu. [Bộ
trưởng] đã có một buổi nói chuyện hết sức ý nghĩa với các học sinh.(1)
• [Người đàn ông mặc đồ đen] tiến vào trong ngôi nhà. [Hắn] mang theo một
cây gậy sắt.(2)
Trong ví dụ (1), [Bộ trưởng] nhắc lại về [Bộ trưởng Bộ Giáo dục Đào tạo]

nhưng đã rút gọn lại chứ không nhắc lại nguyên vẹn cả chuỗi. Trong ví dụ (2),
đại từ [Hắn] được dùng để nhắc lại về [Người đàn ông mặc đồ đen].
Hiện tượng các cụm từ trong văn bản cùng chỉ tới một thực thể (sự vật, sự
việc, ...) được gọi là đồng sở chỉ. Xác định đồng sở chỉ là một trong những bước
đầu tiên để phân tích và hiểu ngữ nghĩa văn bản. Chương này sẽ trình bày tổng
quan về bài toán xác định đồng sở chỉ cho văn bản.

4


1.1

Bài toán xác định đồng sở chỉ

Xác định đồng sở chỉ là quá trình tìm tất cả các cụm từ trong văn bản cùng
tham chiếu tới một thực thể. Một cụm từ trong văn bản tham chiếu tới một
thực thể gọi là một (sự) đề cập.
Ví dụ: Linh đến trường bằng xe buýt. Cô ấy thường đi chuyến xe số 22.
Trong đó,
• [Linh], [trường], [xe buýt], [cô ấy], [chuyến xe số 22] là các đề cập.
• [Linh] và [cô ấy] cùng chỉ đến thực thể là cô gái tên là Linh. Hay có thể nói,
[cô ấy] và [Linh] có quan hệ đồng sở chỉ.
[Linh], [trường], [xe buýt], [cô ấy], [chuyến xe số 22] là các đề cập trong ví dụ
trên và được phân thành các cụm:
• {[Linh], [cô ấy]}
• {[trường]}
• {[xe buýt]}
• {[chuyến xe số 22]}
Trong đa số các trường hợp, khi nói đến xác định đồng sở chỉ, kết quả được
quan tâm tới là các (nhiều) đề cập cùng tham chiếu tới một thực thể trong

thực tế, hay nói cách khác, như trong ví dụ trên, ta chỉ cần quan tâm đến cụm
{[Linh], [cô ấy]}.
Bài toán xác định đồng sở chỉ là một bài toán quan trọng trong xử lý ngôn
ngữ tự nhiên. Đây là một trong các bước nền tảng cho quá trình phân tích và
hiểu ngữ nghĩa văn bản. Quá trình xác định đồng sở chỉ có thể là bước tiền xử
lý cho nhiều hệ thống như: hệ thống tóm tắt văn bản [1], hệ thống hỏi đáp [12],
...
Xác định đồng sở chỉ là một bài toán phức tạp, bởi lẽ việc xác định này
không chỉ phụ thuộc vào cấu trúc ngữ pháp mà đôi khi còn phụ thuộc cả vào
ngữ nghĩa. Trong giao tiếp, việc xác định đồng sở chỉ còn phụ thuôc cả vào các

5


tín hiệu nhấn giọng, âm điệu, ... Trong một số trường hợp, người ta còn cần cả
các tri thức bên ngoài để xác định đồng sở chỉ.
Ví dụ: Chàng trai tặng cô gái một bông hồng. Cô ấy rất vui.
Các đề cập trong ví dụ trên là: [Chàng trai], [cô gái], [một bông hồng], [Cô
ấy]. Nếu chia cặp các đề cập để kiểm tra hai đề cập có quan hệ đồng sở chỉ
không, ta sẽ có 6 cặp. Trong đó, nếu muốn kiểm tra [cô ấy] chỉ đến thực thể nào
hay nói cách khác [cô ấy] là nhắc lại cho cụm nào xuát hiện trước đó ta sẽ phải
kiểm tra 3 cặp: ([Cô ấy],[Chàng trai]), ([Cô ấy], [cô gái]), ([Cô ấy], [một bông
hồng]). Tuy nhiên, với việc xác định cô ấy là chỉ người, giới tính nữ, ta có thể
bỏ qua [một bông hồng] và [chàng trai].
Ví dụ:
• Linh nói với Hằng rằng cô ấy đang gặp nguy hiểm. (1)
• Linh cảnh báo Hằng rằng cô ấy đang gặp nguy hiểm. (2)
Ở ví dụ đầu, Cô ấy có thể phù hợp với cả Linh và Hằng, tùy từng ngữ cảnh
khác nhau có thể là Linh và Hằng. Ví dụ sau ví dụ đầu nhưng do sắc thái ý
nghĩa của từ cảnh báo, Cô ấy ở đây tham chiếu tới Hằng.

Ví dụ:
Tổng thống Obama gặp Nelson Maldela. Cháu gái của người đàn ông già nua
ấy bị dính líu đến một tai nạn.
Ở đây, để xác định người đàn ông già nua tham chiếu đến Obama hay Nelson
Maldela có thể cần thêm cả tri thức về thế giới: Nelson Maldela lớn tuổi hơn
Obama và có độ tuổi phù hợp để được nhắc đến như là người đàn ông già nua
hơn Obama.
Ngoài ra, bài toán đồng sở chỉ không chỉ xuất hiện trong một văn bản mà
có thể có phạm vi trong nhiều văn bản. Ví dụ: Hai bài báo cùng nói về một sự
việc, sẽ có nhiều đề cập ở hai bài báo cùng tham chiếu tới một thực thể. Các đề
cập trong văn bản thông thường là cụm danh từ nhưng cũng có trường hợp là
cụm động từ, tính từ, ... Ví dụ: Anh ấy đi siêu thị. Anh ấy làm việc đó với các
bạn anh ấy. Trong ví dụ này, việc đó và đi siêu thị cùng trỏ đến việc đi siêu thị
trong thực tế.
6


Trong phạm vi của luận văn này, chúng tôi chỉ xét tới hiện tượng
đồng sở chỉ với đề cập là các cụm danh từ từ và trong phạm vi một
văn bản.

1.2

Cách giải quyết bài toán xác định đồng sở chỉ

Bài toán xác định đồng sở chỉ được giải quyết thông qua hai bước:
• Xác định các đề cập: các đề cập thường là các cụm danh từ.
• Xác định quan hệ đồng sở chỉ giữa các đề cập.
1.2.1


Xác định các đề cập

Với việc chỉ quan tâm tới các đề cập là các cụm danh từ, việc đầu tiên để
xác định xác đề cập là đi tìm tất cả các cụm danh từ trong văn bản. Việc này
có thể thực hiện thông qua phân tích cú pháp thành phần.
Ví dụ: Mảnh đấy của đạn bom không còn người nghèo.
Câu trên khi được tiến hành phân tích cú pháp thành phần sẽ thu được kết
quả như hình 1.1. Các cụm danh từ là các thành phần được gán nhãn NP [16].
Trong câu này, ta sẽ thu được các cụm danh từ là: [Mảnh đất của đạn bom],
[đạn bom], [người nghèo]
S-STL
NP-SUB
Nc-H

N

Mảnh

đất

VP
PP

E-H
của

NP

R


V-H

không

còn

N-H

N-H

đạn

bom

NP-DOB
N-H

A

người

nghèo

.
.

Hình 1.1: Phân tích cú pháp thành phần của một câu trong tiếng Việt

Tuy nhiên, trong một số trường hợp, không phải tất cả các cụm danh từ thu
được từ việc phân tích cú pháp đều có thể được coi là các đề cập.

Ví dụ: Căn nhà màu xanh được xây kiên cố kia là của họ.
7


Nếu tiến hành phân tích cú pháp sẽ thu được [Căn nhà], [Căn nhà màu xanh],
[Căn nhà màu xanh được xây kiên cố kia], [họ] đều là các cụm danh từ, và hiển
nhiên, cả 3 cụm danh từ này đều chỉ chung một thực thể. Tuy nhiên, việc xét
cả ba cụm danh từ này không có ý nghĩa, các cụm danh từ [Căn nhà], [Căn nhà
màu xanh] sẽ phải bị loại bỏ và chỉ xét một đề cập là [Căn nhà màu xanh được
xây kiên cố kia].
Các trường hợp một cụm danh từ không được coi là một đề cập:
• Loại bỏ các cụm danh từ nếu có một cụm danh từ khác lớn hơn có cùng từ
chính;
• Loại bỏ các thực thể số đếm như tỷ lệ phần trăm, số lượng. Ví dụ: 9%,
10.000đ, 100 dặm, ...;
• Loại bỏ các thực thể có các biểu thức lượng hoá. Ví dụ: tất cả 100 sinh
viên, không ai trong số họ, hàng triệu người, ...;
• Loại bỏ các từ thừa;
• Loại bỏ các dạng tính từ của tên các tên quốc gia hoặc từ viết tắt tên quốc
gia;
• Loại bỏ các từ dừng.
1.2.2

Xác định quan hệ đồng sở chỉ

Có hai hướng tiếp cận để xác định quan hệ đồng sở chỉ:
• Phân lớp các cặp đề cập;
• Phân cụm các đề cập.
Để xác định đồng sở chỉ, vào năm 2001, Soon và cộng sự đã đưa ra tập hợp
12 đặc trưng [21], và đến năm 2002, Ng và Cardie bổ sung thêm thành 52 đặc

trưng bao gồm vị trí, hình thái, từ vựng, cú pháp, ngữ nghĩa và thậm chí cả
thông tin thực tế [14]. Hầu hết các hệ thống hiện nay được xây dựng trên bộ
đặc trưng này với một vài thay đổi và bổ sung nhỏ. Bảng 1.2.2 chứa danh sách
các đặc trưng này.
8


Bảng 1.1: Các đặc trưng cơ bản của mô hình xác định đồng sở chỉ học máy
Đặc trưng
Đặc trưng vị trí
*Span
Distance
*Gender
*Number
Animacy
String matching
Alias
Minimum edit distance
Part-of-speech

Đặc trưng cú pháp
*Apposition
*Predicate nominal
construction
*Binding
*Contra-indices

Maximal NP projection
Parse tree similarity
Collocation Match

Syntactic
parallelism
Đặc trưng ngữ nghĩa
Named Entity class
WordNet Semantic
class

Mô tả
Trong các cụm danh từ lồng nhau, một cụm NP mở rộng một cụm
khác mà nói rằng chúng là các thực thể khác nhau.
Số lượng các từ, các danh từ hoặc các câu giữa hai cụm danh từ.
Đặc trưng hình thái
Giống đực, giống cái, trung tính
Số ít, số đôi (dual), số nhiều
Chỉ người, động vật, cây đối, lực lượng tự nhiên hay cái khác
Hai chuỗi khớp hoàn toàn hay khớp bộ phận.
Là tên viết tắt: IBM thay cho International Business Machines
Corp
Khoảng cách chỉnh sửa Wagner and Fischer là một đặc trưng hiệu
quả cho xác định đồng sở chỉ trong tiếng Đức
Loại cụm danh từ: đại từ, danh từ riêng, cụm danh từ có đại từ
chỉ định (this car ), cụm danh từ có mạo từ xác định (the car ),
cụm danh từ có mạo từ bất định (a car).
Hai đề cập đặt cạnh nhau
Hai cụm danh từ form a predicate nominal construction.
Hai cụm danh từ làm cho phù hợp với nguyên lý B và C trong
Binding Theory (Chomsky 1981).
Các cụm danh từ không thể được đánh cùng chỉ số dựa trên một
phương pháp heuristics đơn giản. Ví dụ, trong “CMU in Pittsburgh”, CMU và Pittsburgh phải là hai thực thể khác nhau.
Hai cụm danh từ có chung một cụm danh từ ngoài cùng.

Sự tương đồng giữa các cây con bao phủ tiền đề và sự nhắc lại.
(Yang et al., 2006)
Hai cụm danh từ đứng trước hoặc theo sau bởi cùng một động từ.
Hai cụm danh từ có cùng một vai trò ngữ pháp.

Phân lớp theo NER bao gồm người, tổ chức, địa danh, phương
tiện và các thực thể địa lý - chính trị.
Hai cụm NP có cùng một lớp nghĩa trong WordNet.

9


Phân lớp các cặp đề cập

Để xác định các đề cập cùng chỉ đến một thực thể, có thể kiểm tra từng cặp
đề cập có quan hệ đồng sở chỉ hay không. Một đề cập sẽ được xét lần lượt với
các đề cập trước đó để tìm ra đề cập có quan hệ đồng sở chỉ. Một cặp đề cập
này còn được gọi là một liên kết.
Các phương pháp xác định đồng sở chỉ di theo hướng tiếp cận này sẽ tiến
hành phân lớp các cặp đề cập vào hai lớp: lớp các đề cập có quan hệ đồng sở
chỉ và lớp các đề cập không có quan hệ đồng sở chỉ. Sau khi phân lớp các cặp
này, kết quả xác định đồng sở chỉ được tổng kết lại từ các cặp đề cập có quan
hệ đồng sở chỉ.
Ví dụ: Với 4 đề cập A, B, C, D, E, F.
Sẽ có 10 cặp đề cập có thể gồm: (B, A), (C, A), (D, A), (E, A) (C, B), (D,
B), (E, B), (D, C), (E, C). (E, D).
Sau khi tiến hành xác định đồng sở chỉ, thu được kết quả các cặp có quan hệ
đồng sở chỉ là: (B, A), (D, A), (E, C).
Như vậy, kết quả của bài toán xác định đồng sở chỉ là:
• Lớp 1: A, B, D;

• Lớp 2: C, E;
• Lớp 3: F (trong đa số các hệ thống, lớp này sẽ được bỏ đi).
Để phân lớp các cặp đề cập, các mô hình xác định đồng sở chỉ đi theo hướng
tiếp cận này thường sử dụng bộ đặc trưng cặp đề cập (pairwise features).
Phân cụm các đề cập

Các mô hình xác định đồng sở chỉ đi theo hướng tiếp cận này tiến hành xác
định đặc trưng cho từng đề cập và sử dụng các thuật toán phân cụm để xác
định quan hệ đồng sở chỉ.
Bộ đặc trưng được sử dụng trong trường hợp này là bộ đặc trưng cụm (cluster
features).
Hai cách tiếp cận trên đề có những nghiên cứu cho kết quả tốt. Phần tiếp
theo của luận văn sẽ giới thiệu một số phương pháp xác định đồng sở chỉ có kết
10


quả tốt.

1.3

Phương pháp xác định đồng sở chỉ

1.3.1

Phương pháp phân loại

Cây quyết định

Cây quyết định là phương pháp nổi bật trong số các phương pháp có giám
sát. C4.5 và một cải tiến của nó, C5, là các thuật toán phổ biến nhất. C4.5 dựa

trên thuật toán ID3.
Nhiều hệ thống lựa chọn C4.5 bởi có thể lựa chọn xác đặc trưng hữu ích và
xây dựng các cây ngắn gọn.
Mô hình tuyến tính logarit

Nhược điểm của phương pháp cây quyết định là chỉ xét từng đặc trưng một
trong một lần, và có thể bỏ qua các tổ hợp đặc trưng hữu ích [10]. Bởi các đặc
trưng của bài toán xác định đồng sở chỉ có sự chồng lấn, mô hình tuyến tính
logarit trở thành một lựa chọn tự nhiên.
Khoảng cách dựa trên nhân

Năm 2006, Yang và cộng sự đưa ra các đặc trưng dựa trên cây cú pháp [24].
Sự khác biệt giữa hai cây cú pháp được tính bởi thuật toán so sánh cây, và giá
trị sai khác này được sử dụng như giá trị nhân của SVM. Sự tương đồng của
hai cây được định nghĩa dựa trên số lượng đã chuẩn hóa các cây con. Có ba loại
cây được trích xuất từ cây cú pháp là:
• Min-Expansion: chỉ chứa các nút xuất hiện trên đường đi ngắn nhất từ đại
từ đến một ứng viên (Một ứng viên là một đề cập có thể có quan hệ đồng
sở chỉ với đề cập đang xét).
• Simple-Expansion: chứa các nút con của các nút trong Min-Expansion.
• Full-Expansion: Chứa các nút bao phủ toàn bộ các từ thuộc cả đại từ và
các ứng viên trong Simple-Expansion.
11


Phương pháp ứng viên kép

Năm 2003, Yang và cộng sự chỉ ra một vấn đề của các mô hình đơn ứng viên,
đó là, các hệ phân loại xác định khả năng một ứng viên có quan hệ đồng sở chỉ
với một đề cập tại một thời điểm chứ không phải so sánh giữa hai ứng viên [25].

Để giải quyết vấn đề này, phương pháp ứng viên kép được đưa ra để so sánh hai
ứng viên.
Năm 2007, Denis và Baldridge xây dựng phương pháp đa ứng viên dựa trên
ý tưởng của phương ứng viên kép [4].
1.3.2

Phương pháp phân cụm

Phân cụm cục bộ

Các phương pháp phi giám sát sẽ phân cụm một đề cập vào một cụm các đề
cập đã có sẵn, hoặc xếp đề cập này vào một cụm mới.
Năm 2001, Soon và cộng sự đưa ra thuật toán First-match [21]. Thuật toán
xử lý các đề cập từ trái qua phải (theo thứ tự xuất hiện). Khi xét một đề cập,
các đề cập trước đó được xếp từ phải qua trái (thứ tự dựa trên khoảng cách với
đề cập đang xét, đề cập gần hơn xếp trước) và lần lượt được tiến hành kiểm tra
xem có quan hệ đồng sở chỉ không. Nếu có ứng viên có quan hệ đồng sở chỉ với
đề cập đang xét, ta sẽ xếp đề cập này vào cụm có chứa ứng viên.
Năm 2002, Ng và Cardie trình bày một chiến lược tương tự có tên là bestmatch [14]. Tương tự nhue first-match, các đề cập được xử lý theo thứ tự từ
trái qua phải. Tất cả các ứng viên sẽ xét khẳ năng có quan hệ đồng sở chỉ với
đề cập đang xét. Ứng viên nào có khẳ năng có quan hệ đồng sở chỉ cao nhất với
đề cập đang xét sẽ được lựa chọn.
Phân cụm tăng trưởng

Năm 2004, Yang và cộng sự chỉ ra rằng, thường khó để xác định hai đề cập
cùng nói về một thực thể chỉ với các thuộc tính cặp đơn thuần, bởi mỗi đề cập
thường tránh nhắc lại đầy đủ các thông tin đã nếu ra ở đề cập trước đó [?]. Vì
vậy, thay vì đơn thuần chỉ quan tâm đến các cặp đề cập, cần xét đến quan hệ

12



giữa một đề cập và một cụm. Thông tin môt tả về một cụm sẽ nhiều hơn thông
tin mô tả về một đề cập đơn.
Phân cụm kết tụ - Agglomerative Clustering

Năm 2007, Cullotta và cộng sự giới thiệu mô hình xác suất bậc một (firstorder probabilistic model) [2]. Mô hình tính xác suất của một tập hợp các đề
cập có quan hệ đồng sở chỉ sử dụng một mô hình tuyến tính logarit.
Các phương pháp khác

Năm 2004, McCallum và Wellner mô hình xác suất kết hợp các lớp phân
hoạch sử dụng một mô hình tuyến tính logarit [9].
Năm 2005, Daume và Marcu kết hợp quá trình xác định các thực thể và quá
trình xác định đồng sở chỉ thành một hệ thống và giải quyết hai vấn đề đồng
thời [3].
Năm 2005, Ng thử nghiệm phương pháp siêu phân cụm bằng cách so sánh 54
tổ hợp của ba thuật toán (C4.5, RIPPER và Maximum Entropy) [13].
Năm 2004, Luo và cộng sự, và Florian và cộng sự thử nghiệm giải bài toán
xác định đồng sở chỉ như một bào toán tìm kiếm. Khoảng cách tìm kiếm được
biểu diễn bằng cây Bell [7]. Xác định các cặp đồng sở chỉ tương đương với việc
tìm đường đi trong cây Bell.
1.3.3

Phương pháp lai

Các phương pháp xác định đồng sở chỉ dựa trên luật, cần có nhiều thông tin,
đặc biệt là các thông tin về tri thức bên ngoài và phụ thuộc nhiều vào đặc điểm
riêng của từng ngôn ngữ. Các phương pháp học máy cần có quá trình xây dựng
đặc trưng cho từng phần tử. Điều này là không dễ dàng và sẵn có với một số
ngôn ngữ (thiếu các công cụ ngôn ngữ cơ bản và không có WordNet). Trong đó,

các phương pháp học máy có giám sát cần có dữ liệu huấn luyện tốt. Bộ dữ liệu
này với một số ngôn ngữ (trong đó có tiếng Việt) chưa có đầy đủ.
Đặc biệt, với mỗi phương pháp lại có ưu thế với một số loại quan hệ đồng
sở chỉ riêng. Các phương pháp lai được đưa ra để giải quyết các vấn đề này.
13


Một phương pháp lai cho kết quả rất tốt là phương pháp sử dụng kiến trúc sàng
nhiều lượt dựa trên luật thực thể trung tâm và xếp hạng độ chính xác [17] của
nhóm xử lý ngôn ngữ trường Đại học Stanford. Hệ thống xác định đồng sở chỉ
theo kiến trúc này của nhóm cho kết quả tốt nhất với tiếng Anh trong các cuộc
thi về xác định đồng sở chỉ năm 2011 và 2013 [?]. Hệ thống vẫn đang được tiếp
tục cải tiến để thu được kết quả cao hơn [18]. Hệ thống cũng đã được áp dụng
cho một số ngôn ngữ khác như: Ả rập, Hàn Quốc, ... và cũng cho kết quả cao.
Trong chương tiếp theo, luận văn sẽ trình bày chi tiết về hệ thống này.

1.4

Đánh giá kết quả xác định đồng sở chỉ

Để đánh giá kết quả của việc xác định đồng sở chỉ, cần có:
• Bộ dữ liệu chung để kiểm thử;
• Độ do đánh giá chất lượng của việc xác định đồng sở chỉ.
1.4.1

Ngữ liệu

Với tiếng Anh, các bộ dữ liệu công khai được đưa ra bởi MUC, ACE and
LDC. Qua từng năm, kích thước các bộ dữ liệu này tăng dần lên như trong
bảng 1.4.1

Với tiếng Việt, chưa có bộ dữ liệu chuẩn được công bố. Hầu hết các nhóm chỉ
thực nghiệm trên dữ liệu riêng của mình.
1.4.2

Độ đo đánh giá

Các đơn giản nhất để đánh giá một hệ thống xác định đồng sở chỉ là đánh
giá thông qua các cặp đề cập là đồng sở chỉ.
right_searched 1
1
right_searched
, precision =
,
=
+
recall =
total_right
total_seached F 1
recall
1
precision
trong đó,
• total_right là số lương các cặp đề cập có quan hệ đồng sở chỉ theo đáp án.
14


Bộ dữ liệu
MUC-6 (1995)
MUC-7 (1998)
ACE-2002

ACE-2002
ACE-2002
ACE-2002
ACE-2003
ACE-2003
ACE-2003
ACE-2003
ACE-2004
ACE-2004
ACE-2004
ACE-2005
ACE-2005
ACE-2005
ACE-2005
ACE-2005
ACE-2005
ACE-2007
ACE-2007
ACE-2007
ACE-2007
ACE-2007
ACE-2007

Nguồn
newswire
newswire
Broadcast news
Newspaper
Newswire
EELD data

Broadcast news
Newspaper
Newswire
EELD data
Broadcast news
Newswire
Other
Broadcast news
Broadcast conversations
Newswire
Weblog
Usenet
Conversational telephone speech
Broadcast news
Broadcast conversations
Newswire
Weblog
Usenet
Conversational telephone speech

Dữ liệu huấn luyện
12.4K
19K
60K
60K
60K
30K
65K
65K
15K

20K
57.5K
57.5K
35K
65K
45K
60K
45K
45K
45K
55K
40K
50K
40K
40K
40K

Bảng 1.2: Các bộ dữ liệu

15

Dữ liệu kiểm tra
13.4K
10K
15K
15K
15K
20K
25K
N/A

25K
N/A
25K
25K
N/A
10K
7.5K
10K
7.5K
7.5K
7.5K
10K
7.5K
10K
7.5K
7.5K
7.5K


• total_searched là số cặp đề cập có quan hệ đồng sở chỉ tìm được.
• right_searched là số cặp đề cập có quan hệ đồng sở chỉ tìm được là đúng
theo đáp án.
Ví dụ: Ta có danh sách các sự đề: m11 , m22 ,m13 , m34 , m25 .
Trong đó, chỉ số dưới là số thứ tự của các đề cập, chỉ số trên là chỉ số nhóm
(cụm) đúng của đề cập. Tức là:
• Nhóm 1: m1 , m3
• Nhóm 2: m2 , m5
• Nhóm 3: m4 .
Kết quả tìm được là:
• Nhóm 1: m1 , m3

• Nhóm 2: m2 , m4 , m5
Khi đó, ta có:
• Các cặp đề cập đúng: (m3 , m1 ) và (m5 , m2 )
• Các cặp đề cập tìm được là: (m3 , m1 ), (m2 , m4 ), (m2 , m5 ), (m4 , m5 )
• Các cặp đề cập tìm được đúng là: (m1 , m3 ) và (m2 , m5 )
Như vậy:
2
=1
2
2
• precision = = 0.5
4

• recall =

• F 1 = 0.67
Độ đo này được dùng khá rộng rãi, tuy nhiên, với việc quan tâm đến số lượng
sự nhắc lại được giải đúng (chính là số lượng cặp đề cập, tiền đề), độ đo này
không đánh giá được nhiều về kết quả phân cụm. Trong khi đó, với bài toán xác
định đồng sở chỉ, mục tiêu chính cần xem xét là kết quả phân cụm nên trong

16


một số trường hợp, sẽ cần có thêm các độ đo đánh giá khác quan tâm đến thông
tin về các cụm nhiều hơn.
Mitkov, 2000 đã chỉ ra rằng không thể chỉ dùng duy nhất một chỉ số này để
đánh giá một hệ thống xác định đồng sở chỉ [11]. Trên thực tế, người ta thường
kết hợp nhiều độ đo để đánh giá kết quả xác định đồng sở chỉ. Các độ đo này
được chia làm 3 loại:

• Các độ đo dựa trên liên kết
• Các độ đo dựa trên tập hợp
• Các độ đo dựa trên việc gióng hàng
Một số độ đo khác thường được sử dụng là [19]
• MUC
• B-Cubed
• ACE
• CEAF
• BLANC
• CoNLL
MUC

Độ bao phủ recall:
Giả sử:
• S là tập hợp các đề cập sinh ra bởi các khóa.
• R1 , R2 , ..., Rm là các lớp sinh ra bởi kết quả tìm được.
• p(S) là phân hoạch của S tương ứng với kết quả tìm được.
• c(S) là số lượng liên kết tối thiểu của các liên kết cần thiết để sinh ra S. Ta
có: c(S) = (|S| − 1)

17


• m(S) là số lượng các liên kết bị thiếu trong các kết quả tìm được so với
khóa. Ta có: m(S) = (|p(S)| − 1)
Khi đó, chỉ số bao phủ:
|S| − |p(S)|
c(S) − m(S)
=
recall =

c(S)
|S| − 1
Độ chính xác precision:
Giả sử
• S ′ là tập hợp các đề cập sinh ra bởi các kết quả tìm được.
• p′ (S ′ ) là phân hoạch của S ′ sinh ra bởi các khóa.
Khi đó, ta có độ chính xác precision:
|S ′ | − |p′ (S ′ )|
precision =
|S ′ | − 1
B-Cubed

Với mỗi sự đề thứ i trong văn bản, ta có:
• precisioni =
• recalli =

right_search_i
search_i

right_search_i
right_i

Trong đó:
• right_search_i là số lượng các phần tử trong kết quả tìm được có chứa
thực thể i là đúng
• search_i số lượng các phần tử trong kết quả tìm được có chứa thực thể i
• right_i là số lượng các phần tử trong kết quả có chứa thực thể i
Khi đó, ta có:
• precision =
• recall =


N
i=1 wi

N
i=1 wi

∗ precisioni

∗ recall

với, wi là trọng số của đề cập thứ i trong văn bản. Thông thường, nếu không
nói thêm, wi = df rac1N
18


×