Tải bản đầy đủ (.docx) (62 trang)

Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (381.4 KB, 62 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC
KHOA HỌC TỰ NHIÊN ——————————

Nguyễn Việt Hùng

NGHIÊN CỨU XÁC ĐỊNH ĐỒNG SỞ CHỈ
VÀ ỨNG DỤNG CHO TIẾNG VIỆT

Chuyên ngành: Cơ sở toán cho tin học
Mã số: 60460110

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Hồng Phương

Hà Nội - 2015


LỜI CẢM ƠN

Trong quá trình học tập và nghiên cứu, em đã nhận được sự hướng dẫn
tận tình của thầy Lê Hồng Phương và cô Nguyễn Thị Minh Huyền. Em xin
chân thành cảm ơn thầy, cô đã giúp đỡ em rất nhiều trong học tập cũng như
trong công việc.
Em xin gửi lời cảm ơn tới các thầy, cô giáo đã nhiệt tình giảng dạy các
chuyên đề Cao học cho chúng em.
Em cũng xin được cảm ơn gia đình, bạn bè, đồng nghiệp, những người
luôn quan tâm, động viên em trong quá trình học tập và làm luận văn.
Hà Nội, ngày 29 tháng 11 năm 2015

Học viên



Nguyễn Việt Hùng

i


Mục lục
Danh sách bảng
Danh sách hình vẽ
Giới thiệu
1 Tổng quan về xác định đồng sở chỉ

1.1 Bài toán xác định đồng sở chỉ . . .
1.2 Cách giải quyết bài toán xác định
1.2.1
1.2.2

1.3 Phương pháp xác định đồng sở ch
1.3.1
1.3.2
1.3.3

1.4 Đánh giá kết quả xác định đồng sở
1.4.1
1.4.2
2 Phương pháp xác định đồng sở chỉ bằng sàng nhiều lượt

2.1 Kiến trúc hệ thống . . . . . . . . . . . .

2.2 Một số quá trình xử lý của hệ thốn

2.2.1
2.2.2
2.2.3
ii

2.2.4


2.2.5
2.2.6
2.3

Các lượt sàng . . . . . . . . . . . . . . .
2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
2.3.7
2.3.8
2.3.9

2.4

Kết quả cho tiếng Anh . . . . . . . . .
2.4.1
2.4.2

3 Ứng dụng cho tiếng Việt

3.1

Các công cụ đã có cho xử lý tiếng
3.1.1
3.1.2
3.1.3
3.1.4

3.2

Phương pháp sàng nhiều lượt cho
3.2.1
3.2.2

3.3

Thực nghiệm . . . . . . . . . . . . . . . .
3.3.1
3.3.2
Kết luận

Tài liệu tham khảo
iii

Phụ lục


VietTreebank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Một số quan hệ phụ thuộc cho tiếng Việt . . . . . . . . . . . . . . . .
Phân tích vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . .


iv


Danh sách bảng

1.1 Các đặc trưng cơ bản của mô hình xác định đồng sở ch
1.2 Các bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1 Các lượt sàng trong tiếng Anh . . . . . . . . . . . . . . . . . . .
2.2 Các bộ dữ liệu thử nghiệm . . . . . . . . . . . . . . . . . . . . .
2.3 Kết quả hệ thống hệ thống Stanford với một số bộ dữ

2.4 Kết quả hệ thống Stanford tại cuộc thi năm 2013 . . . .
3.1 Các lượt sàng áp dụng cho tiếng Việt . . . . . . . . . . . . .
3.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . .

3.3 Tập nhãn từ loại trong VietTreeBank . . . . . . . . . . . . . .

3.4 Tập nhãn cụm từ trong VietTreeBank . . . . . . . . . . . . .

3.5 Các nhãn chức năng cú pháp trong VietTreebank . . .

v


Danh sách hình vẽ

1.1 Phân tích cú pháp thành phần của một câu trong tiếng Việt . .


2.1 Kiến trúc hệ thống xác định đồng sở chỉ của Stanford [17] . . .
3.1
3.2
3.3
3.4
3.5

Phân tích cú pháp câu "Tôi đã mua quyển sách mà thầy giáo g
Phân tích cú pháp câu "Quyển sách rất hay." . . . . . . . . . . . . .
Phân tích cú pháp câu "Hà Nội, thủ đô của Việt Nam, đang bị
Phân tích cú pháp câu "Hà Nội là thủ đô của Việt Nam." . . . .
Câu tiếng Anh được gán nhãn vai nghĩa. . . . . . . . . . . . . . . . .

vi


Giới thiệu

Trong ngôn ngữ học, thuật ngữ đồng sở chỉ được dùng để nói về quan
hệ giữa các cụm từ cùng chỉ tới một thực thể. Xác định đồng sở chỉ là quá
trình tìm các cụm từ trong văn bản cùng tham chiếu tới một thực thể.
Xác định đồng sở chỉ là một vấn đề cơ bản trong ngôn ngữ tự nhiên. Đây
là một bước quan trọng trong việc phân tích và hiểu ngữ nghĩa của văn bản.
Ví dụ: John là một nhạc sĩ. Anh ấy chơi một ca khúc mới. Một cô gái chăm
chú lắng nghe ca khúc. "Đây là bài hát yêu thích của tôi", John nói với cô ấy.
Để hiểu được đoạn văn bản trên, trước tiên chúng ta cần phải xác định các
đối tượng được nói tới (đề cập) trong văn bản. Có 11 (sự) đề cập trong đoạn
văn trên là: [John]1 là [một nhạc sĩ]2. [Anh ấy]3 chơi [một ca khúc mới]4. [Một
cô gái]5 chăm chú lắng nghe [ca khúc] 6. "[Nó]7 là [bài hát yêu thích của [tôi] 9]8",
[John]10 nói với [cô ấy]11. Các đề cập này nói tới 3 đối tượng:

• Một người nhạc sĩ tên John: [John]1, [một nhạc sĩ]2, [Anh ấy]3, [tôi]9,

[John]10.
• Một cô gái nghe nhạc của John: [Một cô gái]5, [cô ấy]11.
• Một bài hát mới của John: [một ca khúc mới]4, [ca khúc]6, [Nó]7, [bài hát

yêu thích của tôi]8.
Bài toán xác định đồng sở chỉ đã được nghiên cứu nhiều cho tiếng Anh
và vẫn là vấn đề thời sự. Các phương pháp luận đã áp dụng cho tiếng Anh
cũng được phát triển rộng rãi cho các ngôn ngữ khác [5].
Bài toán xác định đồng sở chỉ được giải quyết thông qua hai bước:
• Bước 1: Xác định các đề cập trong văn bản;
1


• Bước 2: Xác định quan hệ đồng sở chỉ giữa các đề cập này.

Bước 1 có thể được giải quyết bằng cách xác định các cụm danh từ
trong văn bản, đây thường là các đề cập trong văn bản. Bước 2 là trọng tâm
để giải quyết bài toán. Trong đa số các trường hợp, khi nói tới việc xác định
đồng sở chỉ cho văn bản, người ta tập trung vào giải quyết bước này.
Bài toán xác định đồng sở chỉ có thể mô hình hóa theo hai cách:
• Xác định mỗi cặp đề cập có quan hệ đồng sở chỉ hay không.
• Phân cụm các đề cập sao cho các đề cập trong mỗi cụm tham chiếu

đến cùng một thực thể.
Theo mô hình thứ nhất, bài toán này được đưa về bài toán phân lớp. Còn
theo mô hình thứ hai, ta có một bài toán phân cụm. Một số hệ thống có thể
sử dụng cả hai mô hình trên. Tiêu biểu là hệ thống xác định đồng sở chỉ với
kiến trúc sàng nhiều lượt của nhóm xử lý ngôn ngữ trường Đại học Stanford

cho kết quả tốt với tiếng Anh và đã được áp dụng cho các ngôn ngữ khác
với kết quả khả quan [17].
Với tiếng Việt, các nghiên cứu về đồng sở chỉ chưa nhiều, và chỉ tập
trung vào một số bài toán riêng như xác định các thực thể định danh [23]
[15] [22] [20], xác định hồi chỉ của một số đại từ đặc biệt. Do vậy, mục tiêu
của luận văn là nghiên cứu xây dựng một hệ thống xác định đồng sở chỉ
trong văn bản tiếng Việt.
Yêu cầu đầu tiên cho mọi hệ thống xác định đồng sở chỉ là xác định đặc
trưng cho xác đề cập (hoặc cụm đề cập). Trong luận văn này, bộ đặc trưng
của tiếng Anh được sử dụng làm cơ sở để xây dựng bộ đặc trưng cho tiếng
Việt với một số thay đổi cho phù hợp với đặc điểm ngôn ngữ.
Quá trình xác định các đặc trưng của đề cập (hoặc cặp đề cập) cần rất nhiều
thông tin, càng nhiều thông tin được xác định, kết quả xác định đồng sở chỉ sẽ
càng chính xác. Trong tiếng Anh, đã có rất nhiều các công cụ hỗ trợ để xác định
các đặc trưng này. Với tiếng Việt, có rất nhiều hạn chế về các công cụ xử lý ngôn
ngữ cơ bản: chưa có WordNet cho tiếng Việt, cũng chưa có các công cụ có độ
chính xác cao được chia sẻ để thực hiện các công việc như xác định
2


các thực thể định danh (NER), chưa có các từ điển thống nhất để xác định
các thông tin hình thái như giống đực/cái, chỉ người/chỉ vật,... Một công việc
cần thiết để xác định đồng sở chỉ cho tiếng Việt là cần xây dựng bộ các
công cụ để hỗ trợ xác định các quan hệ và đặc trưng của các đề cập.
Trong quá trình ứng dụng cho tiếng Việt, thực nghiệm được tiến hành trên
kho ngữ liệu Viettreebank [16] thuộc đề tài VLSP

1

gồm 10000 câu đã được


phân tích cú pháp. Kho ngữ liệu này được bổ sung thông tin cú pháp phụ thuộc
[8] và thông tin về vai nghĩa [6] để xác định các đặc trưng cho mô hình.

Luận văn có cấu trúc gồm 3 phần chính:
• Chương 1 trình bày tổng quan về bài toán xác định đồng sở chỉ, các

cách tiếp cận giải bài toán xác định đồng sở chỉ.
• Chương 2 trình bày về hệ thống xác định đồng sở chỉ theo kiến trúc

sàng nhiều lượt.
• Chương 3 trình bày về việc ứng dụng sàng nhiều lượt để xác định đồng

sở chỉ cho tiếng Việt và thực nghiệm.

1

:8080

3


Chương 1

Tổng quan về xác định đồng sở chỉ
Để hiểu được một văn bản, một trong những yêu cầu đầu tiên là phải xác
định được sự vật, sự việc được nói tới trong văn bản. Tuy nhiên, một văn
bản thường nhắc tới rất nhiều sự vật, sự việc và mỗi sự vật, sự việc lại có
thể được đề cập nhiều lần ở nhiều vị trí khác nhau. Ngoài ra, khi muốn nói
về một sự vật, sự việc đã được nhắc đến ở trước đó, người ta thường dùng

các cụm từ ngắn gọn hơn so với cụm từ đã được dùng trước đó.
Ví dụ:
• [Bộ trưởng Bộ Giáo dục Đào tạo] về thăm trường tiểu học Võ Thị Sáu. [Bộ

trưởng] đã có một buổi nói chuyện hết sức ý nghĩa với các học sinh.(1)
• [Người đàn ông mặc đồ đen] tiến vào trong ngôi nhà. [Hắn] mang theo

một cây gậy sắt.(2)
Trong ví dụ (1), [Bộ trưởng] nhắc lại về [Bộ trưởng Bộ Giáo dục Đào tạo]
nhưng đã rút gọn lại chứ không nhắc lại nguyên vẹn cả chuỗi. Trong ví dụ
(2), đại từ [Hắn] được dùng để nhắc lại về [Người đàn ông mặc đồ đen].
Hiện tượng các cụm từ trong văn bản cùng chỉ tới một thực thể (sự vật,
sự việc, ...) được gọi là đồng sở chỉ. Xác định đồng sở chỉ là một trong
những bước đầu tiên để phân tích và hiểu ngữ nghĩa văn bản. Chương này
sẽ trình bày tổng quan về bài toán xác định đồng sở chỉ cho văn bản.

4


1.1

Bài toán xác định đồng sở chỉ

Xác định đồng sở chỉ là quá trình tìm tất cả các cụm từ trong văn bản
cùng tham chiếu tới một thực thể. Một cụm từ trong văn bản tham chiếu tới
một thực thể gọi là một (sự) đề cập.
Ví dụ: Linh đến trường bằng xe buýt. Cô ấy thường đi chuyến xe số
22. Trong đó,
• [Linh], [trường], [xe buýt], [cô ấy], [chuyến xe số 22] là các đề cập.
• [Linh] và [cô ấy] cùng chỉ đến thực thể là cô gái tên là Linh. Hay có thể


nói, [cô ấy] và [Linh] có quan hệ đồng sở chỉ.
[Linh], [trường], [xe buýt], [cô ấy], [chuyến xe số 22] là các đề cập trong ví
dụ trên và được phân thành các cụm:
• {[Linh], [cô ấy]}
• {[trường]}
• {[xe buýt]}
• {[chuyến xe số 22]}

Trong đa số các trường hợp, khi nói đến xác định đồng sở chỉ, kết quả
được quan tâm tới là các (nhiều) đề cập cùng tham chiếu tới một thực thể
trong thực tế, hay nói cách khác, như trong ví dụ trên, ta chỉ cần quan tâm
đến cụm {[Linh], [cô ấy]}.
Bài toán xác định đồng sở chỉ là một bài toán quan trọng trong xử lý ngôn
ngữ tự nhiên. Đây là một trong các bước nền tảng cho quá trình phân tích
và hiểu ngữ nghĩa văn bản. Quá trình xác định đồng sở chỉ có thể là bước
tiền xử lý cho nhiều hệ thống như: hệ thống tóm tắt văn bản [1], hệ thống
hỏi đáp [12], ...
Xác định đồng sở chỉ là một bài toán phức tạp, bởi lẽ việc xác định này không
chỉ phụ thuộc vào cấu trúc ngữ pháp mà đôi khi còn phụ thuộc cả vào ngữ nghĩa.
Trong giao tiếp, việc xác định đồng sở chỉ còn phụ thuôc cả vào các

5


tín hiệu nhấn giọng, âm điệu, ... Trong một số trường hợp, người ta còn cần
cả các tri thức bên ngoài để xác định đồng sở chỉ.
Ví dụ: Chàng trai tặng cô gái một bông hồng. Cô ấy rất vui.
Các đề cập trong ví dụ trên là: [Chàng trai], [cô gái], [một bông hồng], [Cô
ấy]. Nếu chia cặp các đề cập để kiểm tra hai đề cập có quan hệ đồng sở chỉ

không, ta sẽ có 6 cặp. Trong đó, nếu muốn kiểm tra [cô ấy] chỉ đến thực thể
nào hay nói cách khác [cô ấy] là nhắc lại cho cụm nào xuát hiện trước đó ta
sẽ phải kiểm tra 3 cặp: ([Cô ấy],[Chàng trai]), ([Cô ấy], [cô gái]), ([Cô ấy],
[một bông hồng]). Tuy nhiên, với việc xác định cô ấy là chỉ người, giới tính
nữ, ta có thể bỏ qua [một bông hồng] và [chàng trai].
Ví dụ:
• Linh nói với Hằng rằng cô ấy đang gặp nguy hiểm. (1)
• Linh cảnh báo Hằng rằng cô ấy đang gặp nguy hiểm. (2)
Ở ví dụ đầu, Cô ấy có thể phù hợp với cả Linh và Hằng, tùy từng ngữ

cảnh khác nhau có thể là Linh và Hằng. Ví dụ sau ví dụ đầu nhưng do sắc
thái ý nghĩa của từ cảnh báo, Cô ấy ở đây tham chiếu tới Hằng.
Ví dụ:
Tổng thống Obama gặp Nelson Maldela. Cháu gái của người đàn ông già
nua ấy bị dính líu đến một tai nạn.
Ở đây, để xác định người đàn ông già nua tham chiếu đến Obama hay

Nelson Maldela có thể cần thêm cả tri thức về thế giới: Nelson Maldela lớn
tuổi hơn Obama và có độ tuổi phù hợp để được nhắc đến như là người đàn
ông già nua hơn Obama.
Ngoài ra, bài toán đồng sở chỉ không chỉ xuất hiện trong một văn bản mà
có thể có phạm vi trong nhiều văn bản. Ví dụ: Hai bài báo cùng nói về một
sự việc, sẽ có nhiều đề cập ở hai bài báo cùng tham chiếu tới một thực thể.
Các đề cập trong văn bản thông thường là cụm danh từ nhưng cũng có
trường hợp là cụm động từ, tính từ, ... Ví dụ: Anh ấy đi siêu thị. Anh ấy làm
việc đó với các bạn anh ấy. Trong ví dụ này, việc đó và đi siêu thị cùng trỏ
đến việc đi siêu thị trong thực tế.
6



Trong phạm vi của luận văn này, chúng tôi chỉ xét tới hiện tượng
đồng sở chỉ với đề cập là các cụm danh từ từ và trong phạm vi một
văn bản.

1.2

Cách giải quyết bài toán xác định đồng sở chỉ

Bài toán xác định đồng sở chỉ được giải quyết thông qua hai bước:
• Xác định các đề cập: các đề cập thường là các cụm danh từ.
• Xác định quan hệ đồng sở chỉ giữa các đề cập.

1.2.1

Xác định các đề cập

Với việc chỉ quan tâm tới các đề cập là các cụm danh từ, việc đầu tiên để
xác định xác đề cập là đi tìm tất cả các cụm danh từ trong văn bản. Việc này
có thể thực hiện thông qua phân tích cú pháp thành phần.
Ví dụ: Mảnh đấy của đạn bom không còn người nghèo.
Câu trên khi được tiến hành phân tích cú pháp thành phần sẽ thu được
kết quả như hình 1.1. Các cụm danh từ là các thành phần được gán nhãn
NP [16]. Trong câu này, ta sẽ thu được các cụm danh từ là: [Mảnh đất của
đạn bom], [đạn bom], [người nghèo]

NP-SUB
Nc-H

N


Mảnh

đất

E-H
của

đạn

bom

Hình 1.1: Phân tích cú pháp thành phần của một câu trong tiếng Việt

Tuy nhiên, trong một số trường hợp, không phải tất cả các cụm danh từ
thu được từ việc phân tích cú pháp đều có thể được coi là các đề cập.
Ví dụ: Căn nhà màu xanh được xây kiên cố kia là của họ.
7


Nếu tiến hành phân tích cú pháp sẽ thu được [Căn nhà], [Căn nhà màu
xanh], [Căn nhà màu xanh được xây kiên cố kia], [họ] đều là các cụm danh
từ, và hiển nhiên, cả 3 cụm danh từ này đều chỉ chung một thực thể. Tuy
nhiên, việc xét cả ba cụm danh từ này không có ý nghĩa, các cụm danh từ
[Căn nhà], [Căn nhà màu xanh] sẽ phải bị loại bỏ và chỉ xét một đề cập là
[Căn nhà màu xanh được xây kiên cố kia].
Các trường hợp một cụm danh từ không được coi là một đề cập:
• Loại bỏ các cụm danh từ nếu có một cụm danh từ khác lớn hơn có

cùng từ chính;
• Loại bỏ các thực thể số đếm như tỷ lệ phần trăm, số lượng. Ví dụ: 9%,


10.000đ, 100 dặm, ...;
• Loại bỏ các thực thể có các biểu thức lượng hoá. Ví dụ: tất cả 100 sinh

viên, không ai trong số họ, hàng triệu người, ...;
• Loại bỏ các từ thừa;
• Loại bỏ các dạng tính từ của tên các tên quốc gia hoặc từ viết tắt tên

quốc gia;
• Loại bỏ các từ dừng.

1.2.2

Xác định quan hệ đồng sở chỉ

Có hai hướng tiếp cận để xác định quan hệ đồng sở chỉ:
• Phân lớp các cặp đề cập;
• Phân cụm các đề cập.

Để xác định đồng sở chỉ, vào năm 2001, Soon và cộng sự đã đưa ra tập
hợp 12 đặc trưng [21], và đến năm 2002, Ng và Cardie bổ sung thêm thành
52 đặc trưng bao gồm vị trí, hình thái, từ vựng, cú pháp, ngữ nghĩa và thậm
chí cả thông tin thực tế [14]. Hầu hết các hệ thống hiện nay được xây dựng
trên bộ đặc trưng này với một vài thay đổi và bổ sung nhỏ. Bảng 1.2.2 chứa
danh sách các đặc trưng này.
8


Bảng 1.1: Các đặc trưng cơ bản của mô hình xác định đồng sở chỉ học máy
Đặc trưng

Đặc trưng vị trí
*Span
Distance
*Gender
*Number
Animacy
String matching
Alias
Minimum edit distance
Part-of-speech

Đặc trưng cú pháp
*Apposition
*Predicate nominal
construction
*Binding
*Contra-indices

Maximal
jection
Parse tree similarity
Collocation Match
Syntactic
lelism
Đặc trưng ngữ nghĩa
Named Entity class
WordNet
class

9



Phân lớp các cặp đề cập

Để xác định các đề cập cùng chỉ đến một thực thể, có thể kiểm tra từng
cặp đề cập có quan hệ đồng sở chỉ hay không. Một đề cập sẽ được xét lần
lượt với các đề cập trước đó để tìm ra đề cập có quan hệ đồng sở chỉ. Một
cặp đề cập này còn được gọi là một liên kết.
Các phương pháp xác định đồng sở chỉ di theo hướng tiếp cận này sẽ
tiến hành phân lớp các cặp đề cập vào hai lớp: lớp các đề cập có quan hệ
đồng sở chỉ và lớp các đề cập không có quan hệ đồng sở chỉ. Sau khi phân
lớp các cặp này, kết quả xác định đồng sở chỉ được tổng kết lại từ các cặp
đề cập có quan hệ đồng sở chỉ.
Ví dụ: Với 4 đề cập A, B, C, D, E, F.
Sẽ có 10 cặp đề cập có thể gồm: (B, A), (C, A), (D, A), (E, A) (C, B), (D,
B), (E, B), (D, C), (E, C). (E, D).
Sau khi tiến hành xác định đồng sở chỉ, thu được kết quả các cặp có
quan hệ đồng sở chỉ là: (B, A), (D, A), (E, C).
Như vậy, kết quả của bài toán xác định đồng sở chỉ là:
• Lớp 1: A, B, D;
• Lớp 2: C, E;
• Lớp 3: F (trong đa số các hệ thống, lớp này sẽ được bỏ đi).

Để phân lớp các cặp đề cập, các mô hình xác định đồng sở chỉ đi theo hướng
tiếp cận này thường sử dụng bộ đặc trưng cặp đề cập (pairwise features).
Phân cụm các đề cập

Các mô hình xác định đồng sở chỉ đi theo hướng tiếp cận này tiến hành
xác định đặc trưng cho từng đề cập và sử dụng các thuật toán phân cụm để
xác định quan hệ đồng sở chỉ.

Bộ đặc trưng được sử dụng trong trường hợp này là bộ đặc trưng cụm
(cluster features).
Hai cách tiếp cận trên đề có những nghiên cứu cho kết quả tốt. Phần tiếp theo
của luận văn sẽ giới thiệu một số phương pháp xác định đồng sở chỉ có kết
10


quả tốt.

1.3

Phương pháp xác định đồng sở chỉ

1.3.1

Phương pháp phân loại

Cây quyết định

Cây quyết định là phương pháp nổi bật trong số các phương pháp có
giám sát. C4.5 và một cải tiến của nó, C5, là các thuật toán phổ biến nhất.
C4.5 dựa trên thuật toán ID3.
Nhiều hệ thống lựa chọn C4.5 bởi có thể lựa chọn xác đặc trưng hữu ích
và xây dựng các cây ngắn gọn.
Mô hình tuyến tính logarit

Nhược điểm của phương pháp cây quyết định là chỉ xét từng đặc trưng
một trong một lần, và có thể bỏ qua các tổ hợp đặc trưng hữu ích [10]. Bởi
các đặc trưng của bài toán xác định đồng sở chỉ có sự chồng lấn, mô hình
tuyến tính logarit trở thành một lựa chọn tự nhiên.

Khoảng cách dựa trên nhân

Năm 2006, Yang và cộng sự đưa ra các đặc trưng dựa trên cây cú pháp
[24]. Sự khác biệt giữa hai cây cú pháp được tính bởi thuật toán so sánh
cây, và giá trị sai khác này được sử dụng như giá trị nhân của SVM. Sự
tương đồng của hai cây được định nghĩa dựa trên số lượng đã chuẩn hóa
các cây con. Có ba loại cây được trích xuất từ cây cú pháp là:
• Min-Expansion: chỉ chứa các nút xuất hiện trên đường đi ngắn nhất từ

đại từ đến một ứng viên (Một ứng viên là một đề cập có thể có quan hệ
đồng sở chỉ với đề cập đang xét).
• Simple-Expansion: chứa các nút con của các nút trong Min-Expansion.
• Full-Expansion: Chứa các nút bao phủ toàn bộ các từ thuộc cả đại từ

và các ứng viên trong Simple-Expansion.
11


Phương pháp ứng viên kép

Năm 2003, Yang và cộng sự chỉ ra một vấn đề của các mô hình đơn ứng
viên, đó là, các hệ phân loại xác định khả năng một ứng viên có quan hệ
đồng sở chỉ với một đề cập tại một thời điểm chứ không phải so sánh giữa
hai ứng viên [25]. Để giải quyết vấn đề này, phương pháp ứng viên kép
được đưa ra để so sánh hai ứng viên.
Năm 2007, Denis và Baldridge xây dựng phương pháp đa ứng viên dựa
trên ý tưởng của phương ứng viên kép [4].
1.3.2

Phương pháp phân cụm


Phân cụm cục bộ

Các phương pháp phi giám sát sẽ phân cụm một đề cập vào một cụm
các đề cập đã có sẵn, hoặc xếp đề cập này vào một cụm mới.
Năm 2001, Soon và cộng sự đưa ra thuật toán First-match [21]. Thuật toán
xử lý các đề cập từ trái qua phải (theo thứ tự xuất hiện). Khi xét một đề cập,
các đề cập trước đó được xếp từ phải qua trái (thứ tự dựa trên khoảng cách
với đề cập đang xét, đề cập gần hơn xếp trước) và lần lượt được tiến hành
kiểm tra xem có quan hệ đồng sở chỉ không. Nếu có ứng viên có quan hệ đồng
sở chỉ với đề cập đang xét, ta sẽ xếp đề cập này vào cụm có chứa ứng viên.

Năm 2002, Ng và Cardie trình bày một chiến lược tương tự có tên là
best-match [14]. Tương tự nhue first-match, các đề cập được xử lý theo thứ
tự từ trái qua phải. Tất cả các ứng viên sẽ xét khẳ năng có quan hệ đồng sở
chỉ với đề cập đang xét. Ứng viên nào có khẳ năng có quan hệ đồng sở chỉ
cao nhất với đề cập đang xét sẽ được lựa chọn.
Phân cụm tăng trưởng

Năm 2004, Yang và cộng sự chỉ ra rằng, thường khó để xác định hai đề cập
cùng nói về một thực thể chỉ với các thuộc tính cặp đơn thuần, bởi mỗi đề cập
thường tránh nhắc lại đầy đủ các thông tin đã nếu ra ở đề cập trước đó [ ?]. Vì
vậy, thay vì đơn thuần chỉ quan tâm đến các cặp đề cập, cần xét đến quan hệ

12


giữa một đề cập và một cụm. Thông tin môt tả về một cụm sẽ nhiều hơn
thông tin mô tả về một đề cập đơn.
Phân cụm kết tụ - Agglomerative Clustering


Năm 2007, Cullotta và cộng sự giới thiệu mô hình xác suất bậc một (firstorder probabilistic model) [2]. Mô hình tính xác suất của một tập hợp các đề
cập có quan hệ đồng sở chỉ sử dụng một mô hình tuyến tính logarit.
Các phương pháp khác

Năm 2004, McCallum và Wellner mô hình xác suất kết hợp các lớp phân
hoạch sử dụng một mô hình tuyến tính logarit [9].
Năm 2005, Daume và Marcu kết hợp quá trình xác định các thực thể và
quá trình xác định đồng sở chỉ thành một hệ thống và giải quyết hai vấn đề
đồng thời [3].
Năm 2005, Ng thử nghiệm phương pháp siêu phân cụm bằng cách so sánh
54 tổ hợp của ba thuật toán (C4.5, RIPPER và Maximum Entropy) [13].

Năm 2004, Luo và cộng sự, và Florian và cộng sự thử nghiệm giải bài
toán xác định đồng sở chỉ như một bào toán tìm kiếm. Khoảng cách tìm
kiếm được biểu diễn bằng cây Bell [7]. Xác định các cặp đồng sở chỉ tương
đương với việc tìm đường đi trong cây Bell.
1.3.3

Phương pháp lai

Các phương pháp xác định đồng sở chỉ dựa trên luật, cần có nhiều thông tin,
đặc biệt là các thông tin về tri thức bên ngoài và phụ thuộc nhiều vào đặc điểm
riêng của từng ngôn ngữ. Các phương pháp học máy cần có quá trình xây dựng
đặc trưng cho từng phần tử. Điều này là không dễ dàng và sẵn có với một số
ngôn ngữ (thiếu các công cụ ngôn ngữ cơ bản và không có WordNet). Trong đó,
các phương pháp học máy có giám sát cần có dữ liệu huấn luyện tốt. Bộ dữ liệu
này với một số ngôn ngữ (trong đó có tiếng Việt) chưa có đầy đủ.

Đặc biệt, với mỗi phương pháp lại có ưu thế với một số loại quan hệ đồng

sở chỉ riêng. Các phương pháp lai được đưa ra để giải quyết các vấn đề này.
13


Một phương pháp lai cho kết quả rất tốt là phương pháp sử dụng kiến trúc sàng
nhiều lượt dựa trên luật thực thể trung tâm và xếp hạng độ chính xác [17] của
nhóm xử lý ngôn ngữ trường Đại học Stanford. Hệ thống xác định đồng sở chỉ
theo kiến trúc này của nhóm cho kết quả tốt nhất với tiếng Anh trong các cuộc thi
về xác định đồng sở chỉ năm 2011 và 2013 [?]. Hệ thống vẫn đang được tiếp tục
cải tiến để thu được kết quả cao hơn [18]. Hệ thống cũng đã được áp dụng cho
một số ngôn ngữ khác như: Ả rập, Hàn Quốc, ... và cũng cho kết quả cao.

Trong chương tiếp theo, luận văn sẽ trình bày chi tiết về hệ thống này.

1.4

Đánh giá kết quả xác định đồng sở chỉ

Để đánh giá kết quả của việc xác định đồng sở chỉ, cần có:
• Bộ dữ liệu chung để kiểm thử;
• Độ do đánh giá chất lượng của việc xác định đồng sở chỉ.

1.4.1

Ngữ liệu

Với tiếng Anh, các bộ dữ liệu công khai được đưa ra bởi MUC, ACE and
LDC. Qua từng năm, kích thước các bộ dữ liệu này tăng dần lên như trong
bảng 1.4.1
Với tiếng Việt, chưa có bộ dữ liệu chuẩn được công bố. Hầu hết các

nhóm chỉ thực nghiệm trên dữ liệu riêng của mình.
1.4.2

Độ đo đánh giá

Các đơn giản nhất để đánh giá một hệ thống xác định đồng sở chỉ là đánh

giá thông qua các cặp đề cập là đồng sở chỉ.

reca
1
precision
trong đó,
• total_right là số lương các cặp đề cập có quan hệ đồng sở chỉ theo đáp án.

14


Bộ dữ liệu
MUC-6 (1995)
MUC-7 (1998)
ACE-2002
ACE-2002
ACE-2002
ACE-2002
ACE-2003
ACE-2003
ACE-2003
ACE-2003
ACE-2004

ACE-2004
ACE-2004
ACE-2005
ACE-2005
ACE-2005
ACE-2005
ACE-2005
ACE-2005
ACE-2007
ACE-2007
ACE-2007
ACE-2007
ACE-2007
ACE-2007
Bảng 1.2: Các bộ dữ liệu

15


• total_searched là số cặp đề cập có quan hệ đồng sở chỉ tìm được.
• right_searched là số cặp đề cập có quan hệ đồng sở chỉ tìm được là

đúng theo đáp án.
1

2

1

3


2

Ví dụ: Ta có danh sách các sự đề: m 1, m 2,m 3, m 4, m 5.
Trong đó, chỉ số dưới là số thứ tự của các đề cập, chỉ số trên là chỉ số
nhóm (cụm) đúng của đề cập. Tức là:
• Nhóm 1: m1, m3
• Nhóm 2: m2, m5
• Nhóm 3: m4.

Kết quả tìm được là:
• Nhóm 1: m1, m3
• Nhóm 2: m2, m4, m5

Khi đó, ta có:
• Các cặp đề cập đúng: (m3, m1) và (m5, m2)
• Các cặp đề cập tìm được là: (m3, m1), (m2, m4), (m2, m5), (m4, m5)
• Các cặp đề cập tìm được đúng là: (m1, m3) và (m2, m5)

Như vậy:
• recall =

2
2=1

• precision =

2
4 = 0.5


• F1 = 0.67

Độ đo này được dùng khá rộng rãi, tuy nhiên, với việc quan tâm đến số lượng
sự nhắc lại được giải đúng (chính là số lượng cặp đề cập, tiền đề), độ đo này
không đánh giá được nhiều về kết quả phân cụm. Trong khi đó, với bài toán xác
định đồng sở chỉ, mục tiêu chính cần xem xét là kết quả phân cụm nên trong

16


một số trường hợp, sẽ cần có thêm các độ đo đánh giá khác quan tâm đến
thông tin về các cụm nhiều hơn.
Mitkov, 2000 đã chỉ ra rằng không thể chỉ dùng duy nhất một chỉ số này
để đánh giá một hệ thống xác định đồng sở chỉ [11]. Trên thực tế, người ta
thường kết hợp nhiều độ đo để đánh giá kết quả xác định đồng sở chỉ. Các
độ đo này được chia làm 3 loại:
• Các độ đo dựa trên liên kết
• Các độ đo dựa trên tập hợp
• Các độ đo dựa trên việc gióng hàng

Một số độ đo khác thường được sử dụng là [19]
• MUC
• B-Cubed
• ACE
• CEAF
• BLANC
• CoNLL
MUC

Độ bao phủ recall:

Giả sử:
• S là tập hợp các đề cập sinh ra bởi các khóa.
• R1, R2, ..., Rm là các lớp sinh ra bởi kết quả tìm được.
• p(S) là phân hoạch của S tương ứng với kết quả tìm được.
• c(S) là số lượng liên kết tối thiểu của các liên kết cần thiết để sinh ra S.

Ta có: c(S) = (|S| − 1)

17


• m(S) là số lượng các liên kết bị thiếu trong các kết quả tìm được so với

khóa. Ta có: m(S) = (|p(S)| − 1)
Khi đó, chỉ số bao phủ:
recall = c(S) − m(S) = |S| − |p(S)|
c(S)
|S| − 1
Độ chính xác precision:

Giả sử
• S′ là tập hợp các đề cập sinh ra bởi các kết quả tìm được.
• p′(S′) là phân hoạch của S′ sinh ra bởi các khóa.

Khi đó, ta có độ chính xác precision:







precision = |S | − |p (S )|
|S′| − 1
B-Cubed

Với mỗi sự đề thứ i trong văn bản, ta có:


precisioni = right_search_i
search_i
right_search_i
• recalli =
_

right i
Trong đó:
• right_search_i là số lượng các phần tử trong kết quả tìm được có chứa

thực thể i là đúng
• search_i số lượng các phần tử trong kết quả tìm được có chứa thực thể i
• right_i là số lượng các phần tử trong kết quả có chứa thực thể i

Khi đó, ta có:
• precision =
• recall =
với, wi là trọng số của đề cập thứ i trong văn bản. Thông thường, nếu
không nói thêm, wi = df rac1N
18



×