TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN TÌM HIỂU PHÂN GIẢI ĐỒNG SỞ CHỈ ĐA SÀNG LỌC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (271.78 KB, 19 trang )

ĐẠI HỌC DUY TÂN
TIỂU LUẬN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Đề tài:
TÌM HIỂU PHÂN GIẢI ĐỒNG SỞ CHỈ ĐA
SÀNG LỌC
Giảng viên: TS. NGUYỄN THỊ THANH HUYỀN
Học viên : TRẦN ĐÌNH HOÀNG HUY
LÊ ĐÌNH PHÚC
Lớp : K7MCS
Đà Nẵng, 2/2014
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 2
MỤC LỤC
1. LỜI NÓI ĐẦU 3
2. MỤC TIÊU CÔNG CỤ 4
3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 5
4. THỬ NGHIỆM ĐÃ THỰC HIỆN TRÊN CÔNG CỤ 15
5. KẾT LUẬN 18
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 3
1. LỜI NÓI ĐẦU
Nhóm hai học viên: Trần Đình Hoàng Huy và Lê Đình Phúc chọn đề tài “ Tìm
hiểu phân giải đồng sở chỉ đa sàng lọc“ để làm tiểu luận môn học xử lý ngôn ngữ tự
nhiên. Nhóm chọn đề tài này với lý do: bài toán đồng sở chỉ được ứng dụng trong
các xử lý ngôn ngữ tự nhiên như: trích xuất thông tin, hỏi đáp tự động, tóm tắt văn
bản, đây cũng là các chủ đề hiện đang thu hút sự nghiên cứu, tìm hiểu trên thế giới.
Các xử lý ngôn ngữ tự nhiên này có ý nghĩa và khả năng áp dụng thực tiễn rất lớn.
Hai thành viên trong nhóm cũng rất quan tâm và hứng thú với chủ đề này.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 4
2. MỤC TIÊU CÔNG CỤ
Công cụ này có mục tiêu là xác định quan hệ đồng sở chỉ trong một văn bản.
Quan hệ đồng sở chỉ là quan hệ giữa 2 hay nhiều cụm từ cùng chỉ tới 1 thực thể xác

định trong thế giới thực. Xác định quan hệ đồng sở chỉ nhằm nhận dạng, thu thập và
gom các cụm từ đồng sở chỉ để trích xuất thêm các quan hệ ngữ nghĩa, hỗ trợ đầy đủ
hơn các tri thức trong văn bản.
Đầu vào: văn bản ngôn ngữ tự nhiên.
Đầu ra: các chuỗi đồng sở chỉ hoặc file định dạng XML mô tả quan hệ đồng
sở chỉ.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 5
3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN
Đa số các mô hình phân giải đồng sở chỉ đều xác định hai đề cập là đồng sở
chỉ thông qua một hàm sử dụng tập các ràng buộc hoặc các đặc trưng. Cách tiếp cận
này có thể dẫn đến những quyết định không chính xác như các đặc trưng có độ
chính xác thấp hơn thường áp đảo những đặc trưng có độ chính xác cao, và những
đặc trưng có độ chính xác cao thường có số lượng ít. Để khắc phục vấn đề này công
cụ sử dụng một kiến trúc đồng sở chỉ đơn giản nhiều tầng, có các sàng lọc ở từng
tầng, đồng thời các tầng ở mức trên sẽ thực hiện sàng lọc với độ chính xác cao hơn
các tầng ở mức thấp. Mỗi tầng sử dụng kết quả đã xử lý ở tầng trước đó. Ngoài ra,
kiến trúc này sẽ lưu chuyển thông tin toàn cục bằng cách chia sẻ các thuộc tính (ví
dụ giới tính, số lượng) đến các đề cập trong cùng một cụm (cluster). Cách sàng lọc
cẩn trọng này sẽ đảm bảo các đặc trưng quan trọng sẽ có độ ưu tiên cao hơn các đặc
trưng ít quan trọng. Kiến trúc này có tính mô-đun rất cao: mô-đun đồng sở chỉ có
thể thêm vào mà không cần bất kỳ sự thay đổi nào của các mô-đun khác. Mặc dù
đơn giản, kiến trúc này vượt trội hơn các mô hình có giám sát và không giám sát
tiên tiến khác khi chạy thử trên các kho dữ liệu tiêu chuẩn. Điều này cũng cho thấy
khả năng áp dụng kiến trúc sàng lọc cho các nhiệm vụ xử lý ngôn ngữ tự nhiên
khác.
Các nghiên cứu về đồng sở chỉ đã chỉ ra rằng một không gian các đặc trưng
như từ vựng, cú pháp, ngữ nghĩa và cách thức đối thoại (discourse phenomena) là
rất quan trọng (Bengston và Roth, 2008; Haghighi và Klein, 2009; Haghighi và
Klein, 2010). Nếu có sẵn các biểu diễn này thì ngay cả một mô hình với kiến trúc
đơn giản cũng cho hiệu quả vượt trội (Haghighi và Klein, 2009). Vì vậy việc xây

dựng không gian các đặc trưng một cách chính xác là rất quan trọng.
Cho đến hiện nay, các cách tiếp cận đều sử dụng một hàm mô tả các đặc trưng
và thông tin cục bộ để quyết định hai đề cập là đồng sở chỉ hay không. Cách tiếp cận
này có hai điểm yếu: (1) các đặc trưng ít quan trọng hơn thường áp đảo các đặc
trưng thật sự quan trọng (có số lượng ít) và (2) các thông tin cục bộ thường không
đủ để ra quyết định. Ví dụ:
The second attack occurred after some rocket firings aimed, apparently,
toward [the israelis], apparently in retaliation. [we]’re checking our facts on that
one. the president, quoted by ari fleischer, his spokesman, is saying he’s
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 6
concerned the strike will undermine efforts by palestinian authorities to bring an
end to terrorist attacks and does not contribute to the security of [israel].
Các cách tiếp cận mới nhất đều không chỉ ra được mối quan hệ đồng sở chỉ của
we và israelis vì sự gần gũi và tính tương thích của các thuộc tính (cả we và israelis
là số nhiều). Ngược lại với cách tiếp cận theo hướng sàng lọc, đầu tiên sẽ phân
israelis và israel thành một cụm. Bước phân cụm ban đầu này sẽ rất có vai trò rất
lớn trong việc xử lý chính xác các thực thể chính trị và địa lý.
Để giải quyết vấn đề này, công cụ tiếp cận theo hướng đa sàng không giám sát.
Cách tiếp cận này sử dụng nhiều sàng với độ chính xác từ cao đến thấp. Mỗi tầng sử
dụng nhóm các thực thể được tạo ra bởi các tầng trước đó, điều này đảm bảo các
thuộc tính quan trọng sẽ có độ ưu tiên cao hơn. Ngoài ra, mỗi quyết định đều dựa
trên nhiều thông tin về thuộc tính được chia sẻ xuyên suốt các nhóm từ các tầng
trước đó. Tất cả các thành phần đều hoạt động không giám sát, nghĩa là không cần
chạy pha huấn luyện.
Hướng tiếp cận này có các ưu điểm:
+ Mô hình nhiều sàng chứng minh hiệu quả cao hơn mô hình một sàng.
+ Mô hình chứng minh hiệu quả vượt trội so với các mô hình xác định đồng sở
chỉ không giám sát khác cũng như các mô hình có giám sát được huấn luyện trên
nhiều tập dữ liệu.
+ Mô hình có tính mo-đun rất cao vì vậy có thể dễ dàng mở rộng, thêm vào các

mô hình khác bao gồm cả các mô hình thống kê cũng như có giám sát. Cách tiếp cận
này có thể xem là ý tưởng nền tảng cho việc phát triển các hệ thống phân giải đồng
sở chỉ tương lai.
3.1 Các nghiên cứu liên quan
Công cụ thực hiện dựa trên một quan sát là cách sử dụng tốt các đặc trưng có
vai trò quan trọng hơn rất nhiều tính phức tạp của mô hình, theo cả hướng giám sát
lẫn không giám sát (Bengston và Roth, 2008; Haghighi và Klein, 2009)). Công cụ
triển khai trên một kiến trúc mới cho phép dễ dàng triển khai các đặc trưng cũng
như truyền các thông tin toàn cục sẵn sàng cho các đặc trưng sử dụng khi cần thiết.
Đa số các hướng tiếp cận phân giải đồng sở chỉ sử dụng các quyết định cục bộ
(local decisions) liên quan đến các cặp đề cập (Bengston và Roth, 2008; Finkel và
Manning, 2008; Haghighi và Klein, 2009; Stoyanov, 2010). Gần đây có hai nghiên
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 7
cứu có cách tiếp cận khác của Culotta và các cộng sự (2007), và của Poon
Domingos (2008). Cách tiếp cận này thực hiện phân giải đồng sở chỉ cho tất cả các
đề cập trong tài liệu, sử dụng mô hình xác suất bậc nhất, có thể thiết lập giám sát
hoặc không giám sát. Haghighi và Klein (2010) đề xuất hướng tiếp cận khác là mô
hình các cụm thực thể một cách tường minh sử dụng mô hình sinh sản không giám
sát (unsupervised generative model).
Có thể nói hướng tiếp cận của công cụ này dựa trên lý thuyết về phương pháp
xấp xỉ liên tiếp (method of successive approximations) của Skinner (1938). Lý
thuyết này có các tên gọi khác nhau trong các ứng dụng xử lý ngôn ngữ tự nhiên
như: Brown và các cộng sự (1993) sử dụng trong mô hình phân đoạn từ loại với tên
gọi “ stepping stones“; Collins (1999) sử dụng để phân loại tên các thực thể với tên
gọi danh sách quyết định thận trọng (cautious decision list); Spitkovsky và các cộng
sự (2010) sử dụng để phân tích sự phụ thuộc không giám sát dưới tên gọi “ baby
steps“ Và công cụ này là công cụ đầu tiên sử dụng lý thuyết này trong phân giải
đồng sở chỉ.
3.2 Cơ chế đa sàng lọc
Công cụ có cơ chế triển khai theo hướng các sàng lọc thực hiện kế tiếp nhau.

Dưới đây sẽ trình bày cách thức mỗi bước sàng lọc chọn lựa các đề cập ứng cử viên
cũng như hoạt động ở mỗi bước.
3.2.1. Xử lý đề cập (mention processing)
Với một đề cập m
i
, mỗi bước có thể từ chối đưa ra một giải pháp (với mục đích
để các bước sau đó xử lý) hoặc chọn lựa một cách rõ ràng một đề cập trước đó m
1
, ,
m
i-1
. Công cụ sắp xếp các ứng cử viên dựa trên thông tin ngữ nghĩa được cung cấp
bởi bộ phân tích của Stanford như sau:
Trường hợp cùng một câu: các ứng cử viên trong cùng một câu được sắp xếp
theo thuật toán duyệt cây ngữ nghĩa theo chiều rộng, từ trái qua phải (Hobbs, 1977).
Hình 1 là một ví dụ sắp xếp thứ tự ứng viên theo thuật toán sắp xếp này. Các thành
phần ở đầu câu có khuynh hướng có thứ tự đứng trước do ưu tiên từ trái qua phải.
Cách duyệt cây theo chiều rộng cũng làm nổi bật ngữ nghĩa của thành phần đó. Các
cụm danh từ cũng có độ ưu tiên cao và được sắp xếp gần đỉnh của cây phân tích
(Haghighi và Klein, 2009). Nếu câu chứa các đề cập trùng lặp hoặc nhiều mệnh đề,
ta sẽ lặp lại phép heuristic trên mỗi phần tử S*.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 8
Hình 1: Ví dụ duyệt cây theo chiều rộng từ trái qua phải. Các chữ số chỉ ra thứ
tự các NP được thăm
Trường hợp ở câu trước: với các đề cập danh từ, ta sắp xếp các ứng viên
trong các câu trước sử dụng phép duyệt cây theo chiều rộng từ phải qua trái. Điều
này đảm bảo làm nổi bật ngữ nghĩa cũng như ưu tiên các ứng viên gần. Với các đề
cập là đại từ, ta săp xếp các ứng viên trong các câu trước sử dụng phép duyệt cây từ
trái qua phải nhằm ưu tiên các chủ ngữ. Ví dụ với câu sau thì bằng cách ưu tiên sắp
xếp như trên ta xác định chính xác ứng viên cho pepsi là đề cập they:

[pepsi] says it expects to double [quaker]’s snack food growth rate. after a
month-long courtship, [they] agreed to buy quaker oats. . .
Mỗi bước sàng lọc sẽ lấy thông tin cụm cho mỗi đề cập từ bước sàng lọc trước
đó. Nói cách khác, mỗi đề cập m
i
có thể đã được gán cho một cụm C
j
chứa một tập
các đề cập: C
j
= {m
j
1
, , m
j
k
}; m
i
thuộc C
j
. Các đề cập chưa được gán sẽ nằm trong
các cụm riêng đặc biệt. Ta sẽ sử dụng các thông tin này theo nhiều cách:
Chia sẻ thuộc tính: phân giải đồng sở chỉ đại từ bị ảnh hưởng nhiều bởi các
thuộc tính bị thiếu (điều này sẽ gây lỗi không chính xác do thông tin thiếu dẫn đến
sắp xếp thứ tự sai) cũng như các thuộc tính không chính xác (điều này gây lỗi gọi lại
(recall error) vì không tạo được các liên kết chính xác giữa đề cập và các thành phần
đứng trước). Để giải quyết vấn đề này, ta thực hiện một liên minh tất cả các thuộc
tính được đề cập đến (ví dụ số lượng, giới tính ) trong một cụm cho trước và chia
sẻ kết quả với tất cả các cụm đề cập đến. Nếu các thuộc tính từ các đề cập khác nhau
mâu thuẫn lẫn nhau, ta duy trì tất cả các biến đó. Ví dụ, nếu ta phát hiện singular

được gán cho a group of students và plural gán cho five students, và các đề cập này
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 9
nằm trong cùng một cụm thì thuộc tính số cuối cùng là {singular, plural}. Do đó
cụm này sau đó có thể được trộn với cả các đại từ số ít hoặc số nhiều.
Chọn lựa đề cập: một mô hình đồng sở chỉ thông thường cố gắng giải quyết
mọi đề cập trong văn bản, điều này làm tăng khả năng sai sót. Thay vào đó, trong
mỗi bước sàng lọc của mô hình mới, ta khai thác các thông tin cụm nhận được từ
các giai đoạn trước và chỉ giải quyết các đề cập xuất hiện lần đầu tiên trong cụm
tương ứng. Ví dụ, cho trước một danh sách các đề cập theo thứ tự sau, {m
1
1
, m
2
2
,
m
3
2
, m
4
3
, m
5
1
, m
6
2
, }, các chỉ số ở trên là id của cụm, mô hình mới chỉ cố gắng giải
quyết hai đề cập m
3

2
và m
4
3
. Chỉ hai đề cập này có ứng cử viên đi trước tiềm năng và
hiện đang được đánh dấu là đề cập đầu tiên trong cụm. Phỏng đoán này có hai lí do.
Đầu tiên là các đề cập trước thường được định nghĩa tốt hơn các đề cập sau, và các
đề cập sau thường có ít bổ từ (modifier) hoặc đại từ hơn (Fox, 1993). Một số tầng
sàng lọc có sử dụng các thông tin này. Thứ hai là theo định nghĩa, các đề cập đầu
tiên xuất hiện ở phần khởi đầu của tài liệu thường có ít ứng cử viên hơn để lựa chọn,
do đó khả năng xẩy ra lựa chọn sai cao hơn.
Cắt xén tìm kiếm: Cuối cùng, ta cắt xén bớt không gian tìm kiếm bằng cách
làm nổi bật các biện luận. Ta vô hiệu hóa các đồng sở chỉ cho các đề cập của cụm
đầu tiên: (a) bắt đầu hoặc có các đại từ không xác định (ví dụ some, other), hoặc (b)
bắt đầu với các mạo từ không xác định (ví dụ a, an). Một ngoại lệ cho quy tắc này là
tầng đầu tiên, tại tầng này chỉ liên kết các đề cập nếu các mở rộng của chúng là là
hợp nhau một cách chính xác. Cách thức này được sử dụng cho tất cả các đề cập là
danh từ. Các đề cập không xác định sẽ được lặp lại trong tài liệu khi các khái niệm
được thảo luận kể cả khi nó được làm nổi bật, do nó có thể là đề cập không xác định
được lặp đi lặp lại trong một tài liệu khi khái niệm được thảo luận nhưng không
được khởi tạo đối tượng. Ví dụ trường hợp a sport bar ở dưới:
Hanlon, a longtime Broncos fan, thinks it is the perfect place for [a sports bar]
and has put up a blue-and-orange sign reading, “Wanted Broncos Sports Bar On
This Site.”. . . In a Nov. 28 letter, Proper states “while we have no objection to your
advertising the property as a location for [a sports bar], using the Broncos’ name
and colors gives the false impression that the bar is or can be affiliated with the
Broncos.”
3.2.2 Các mô-đun xử lý đa sàng lọc
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 10
Tiếp theo là mô tả các tầng xử lý đồng sở chỉ được triển khai để sàng lọc. Bảng

1 tóm tắt các chức năng của mỗi tầng, bảng 2 là hiệu suất tích lũy.
3.2.2.1 Tầng 1: kết nối chính xác (exact match)
Tầng này chỉ liên kết hai đề cập khi chúng cùng chứa các đoạn văn bản mở
rộng giống nhau, bao gồm cả các bổ từ và đại từ xác định, ví dụ the Shahab 3
ground-ground missile. Tầng này có độ chính xác lên đến 96%.
3.2.2.2 Tầng 2: cấu trúc chính xác (precise constructs)
Tầng này liên kết hai đề cập nếu một trong các điều kiện dưới đây được thỏa
mãn:
Đồng vị ngữ (appositive): hai đề cập danh từ trong một cấu trúc đồng vị ngữ,
ví dụ, [Israel’s Deputy Defense Minister], [Ephraim Sneh] , said . . . Ta sử dụng các
quy tắc cú pháp tương tự để phát hiện (Haghighi và Klein (2009)).
Tầng Loại Đặc trưng
1 N Kết nối chính xác
2 N, P Đồng vị ngữ | chủ ngữ vị ngữ | vai trò đồng vị ngữ | đại từ quan hệ
| từ viết tắt | hình thức xưng
3 N Kết nối đầu cụm & bao gồm từ & Chỉ có bổ từ tương thích &
không i-trong-i
4 N Kết nối đầu cụm & bao gồm từ & không i-trong-i
5 N Kết nối đầu cụm & Chỉ có bổ từ tương thích & không i-trong-i
6 N Kết nối đầu cụm nới lỏng & bao gồm từ & không i-trong-i
7 P Kết nối đại từ
Bảng 1: Tóm tắt tính năng của mỗi tầng. Cột Loại chỉ ra loại của đồng sở chỉ
trong mỗi tầng: N-danh từ, P-đại từ. & và | chỉ phép hội hoặc tuyển của các chức
năng.
Chủ ngữ vị ngữ (predicate nominative): hai đề cập (danh từ hoặc đại từ) ở
trong một mối quan hệ chủ ngữ-tân ngữ, ví dụ [The New York-based College
Board] is [a nonprofit organization that administers the SATs and promotes higher
education] (Poon và Domingos, 2008).
Vai trò đồng vị ngữ (role appositive): ứng cử viên có phần trước là một danh
từ và xuất hiện như một bổ từ trong một NP, ví dụ [[actress] Rebecca Schaeffer].

Xử lý này được đề xuất bởi Haghighi và Klein (2009). Ta ràng buộc sự phỏng đoán
này theo cách: (a) đề cập được dán nhãn là một người, (b) các từ phía trước là động
vật (animate), và (c) giới tính của các từ đứng trước là rõ ràng (not neutral).
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 11
Đại từ quan hệ (relative pronoun): đề cập là một đại từ quan hệ bổ nghĩa cho
từ đứng trước, ví dụ [the finance street [which] has already formed in the Waitan
district].
Từ viết tắt (acronym): cả hai đề cập đều được gắn thẻ NNP và một trong số
đó là một từ viết tắt của từ còn lại, ví dụ như, [Agence France Presse]. . . [AFP]. Ta
sử dụng thuật toán phát hiện từ viết tắt đơn giản để đánh dấu một đề cập như một từ
viết tắt của từ khác nếu văn bản đó trùng với các kí tự hoa của đề cập còn lại.
Hình thức xưng (demonym): một đề cập là một hình thức xưng của đề cập
khác, ví dụ, [Israel]. . . [Israeli]. Để phát hiện hình thức xưng ta sử dụng một danh
sách tĩnh của các nước và các hình thức xưng của chúng từ Wikipedia.
Tất cả các xử lý ở trên có độ chính xác rất cao. Như thể hiện trong bảng 2 độ
chính xác của các tầng sau khi thêm các xử lý này là trên 95% và thu hồi (recall)
tăng 5 điểm.
Bảng 2: Hiệu suất tích lũy khi các xử lý sàng lọc được thêm vào
3.2.2.3 Tầng 3: Kết nối phần đầu nghiêm ngặt (strict head matching)
Liên kết một đề cập đến một từ ở trước dựa trên việc tương ứng của các từ đầu
có thể tạo ra rất nhiều các liên kết giả mạo bởi vì nó hoàn toàn có thể bỏ qua các bổ
từ không tương thích (Elsner và Charniak, 2010). Ví dụ, Yale University và Harvard
University có từ tương tự, nhưng chúng rõ ràng là các thực thể khác nhau. Để giải
quyết vấn đề này, tầng này triển khai theo cách để tạo một liên kết phải thỏa mãn
các yêu của dưới đây:
Kết nối đầu cụm (Cluster head match): đề cập từ đầu (mention head word)
kết nối với bất kỳ từ đầu nào trong cụm đi trước. Ta ràng buộc tính năng này bằng
cách thi hành phép kết hợp giữa kết nối với các tính năng dưới đây.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 12
Tầng

Từng đôi
Bao gồm từ (word inclusion): tất cả các từ không dừng (non-stop word) trong
cụm đề cập nằm trong tập hợp các từ không dừng trong cụm của ứng cử viên phía
trước. Sự phỏng đoán này khai thác một tính chất: không bình thường nếu đưa thông
tin mới vào các đề cập sau (Fox, 1993). Thông thường, các đề cập đến cùng một
thực thể trở nên ngắn hơn và ít thông tin hơn so với các tiến trình tường thuật. Ví dụ,
hai đề cập trong. . . intervene in the [Florida Supreme Court]’s move . . . does look
like very dramatic change made by [the Florida court] . . . chỉ đến cùng một thực
thể, nhưng hai đề cập trong văn bản dưới đây thuộc về các cụm khác nhau:
The pilot had confirmed . . . he had turned onto [the correct runway] but pilots
behind him say he turned onto [the wrong runway].
Chỉ có bổ từ tương thích (compatible modifiers only): các bổ từ của đề cập
nằm trong các bổ từ của ứng cử viên đứng trước. Điều này giống với tính chất của
các tính năng trước đó, nhưng nó tập trung vào hai đề cập cá nhân phải được liên kết
chứ không phải là toàn bộ các cụm. Đối với tính năng này, ta chỉ sử dụng bổ từ là
danh từ hay tính từ.
Không i-trong-i (not i-within-i): hai đề cập không phải trong một cấu trúc i-
within-i, tức là, một đề cập không thể là một NP con trong một thành phần NP khác
(Haghighi và Klein, 2009).
Tầng này tiếp tục có độ chính xác cao (91%) và cải thiện đáng kể gọi lại (hơn
6 điểm cặp (pairwise) và khoảng 8 điểm MUC).
3.2.2.4 Tầng 4 và 5: Các biến đổi đầu nghiêm ngặt (Variants of Strict Head)
Tầng 4 và 5 hỗ trợ các đặc trưng kết nối được giới thiệu trong tầng 3. Tầng 4
loại bỏ đặc trưng chỉ có bổ từ tương thích (compatible modifiers only), trong khi
tầng 5 loại bỏ các ràng buộc bao gồm từ (word inclusion). Điều này nói chung làm
tăng độ chính xác. Bảng 2 cho thấy các đặc trưng bao gồm từ chính xác hơn chỉ có
bổ từ tương thích.
3.2.2.5 Tầng 6 – Giảm thiểu kết nối đầu (Relaxed Head Matching)
Tầng này giảm thiểu kết nối đầu cụm bằng cách cho phép đề cập đầu kết nối
với từ nào đó trong cụm của ứng cử viên đi trước. Ví dụ, kết nối đề cập Sanders đến

cụm có chứa các đề cập {Sauls, the judge, Circuit Judge N. Sanders Saulsg}. Để
duy trì độ chính xác cao, tầng này đòi hỏi cả đề cập cũng như từ đi trước đều phải
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 13
được gán nhãn là các thực thể đã đặt tên. Ngoài ra, tầng này cũng thực hiện kết hợp
các đặc trưng trên với bao gồm từ và không i-trong-i.
3.2.2.6 Tầng 7: Đại từ
Ngoại trừ tầng 2 ra thì tất cả các tầng trước tập trung vào phân giải đồng sở chỉ
danh từ. Tuy nhiên, cũng sẽ không chính xác khi nói rằng các xử lý ở sáu tầng đầu
tiên đã bỏ qua đồng sở chỉ đại từ. Trong thực tế, các tầng trước đã chuẩn bị một số
cơ sở để hỗ trợ phân giải đồng sở chỉ đại từ như xây dựng các cụm một cách chính
xác với các thuộc tính đề cập được chia sẻ. Đây là những yếu tố rất quan trọng để
phân giải đồng sở chỉ đại từ.
Như các xử lý trước, ta thực hiện phân giải đồng sở chỉ đại từ bằng cách thi
hành những ràng buộc thỏa thuận giữa các đề cập đồng sở chỉ. Ta sử dụng các thuộc
tính sau cho những ràng buộc này:
Số (number): chúng ta gán thuộc tính số dựa trên: (a) một danh sách tĩnh các
đại từ; (b) các nhãn NER: các đề cập được đánh dấu như một thực thể có tên được
xem là số ít trừ ngoại lệ là các tổ chức, có thể là cả số ít hoặc số nhiều; (c) một phần
của thẻ ngôn ngữ: thẻ NN * S là số nhiều và tất cả các thẻ NN * khác là số ít; và (d)
một từ điển tĩnh của Bergsma và Lin năm 2006.
Giới tính: ta chỉ định thuộc tính giới tính từ từ điển tĩnh của Bergsma và Lin,
2006; Ji và Lin, 2009.
Người: ta chỉ định thuộc tính người cho đại từ. Tuy nhiên, ta không thực thi
hạn chế này khi liên kết hai đại từ nếu một đại từ xuất hiện trong dấu ngoặc kép.
Đây là một phỏng đoán đơn giản để phát hiện người nói, ví dụ như, I và she chỉ đến
cùng một người trong:
“
[I] voted my conscience,” [she] said.
Sinh vật sống (Animacy): ta thiết lập các thuộc tính sinh vật sống sử dụng: (a)
một danh sách tĩnh các đại từ; (b) nhãn NER, ví dụ, PERSON là sinh vật sống trong

khi LOCATION không phải là sinh vật sống; và (c) một từ điển từ các trang web (Ji
và Lin, 2009).
Nhãn NER: từ Stanford NER.
Nếu ta không thể phát hiện một giá trị nào đó, ta thiết lập các thuộc tính là
unknown và xử lý như các ký tự đại diện (wildcard), nghĩa là chúng có thể phù hợp
với bất kỳ giá trị nào khác.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 14
Sau khi chạy qua tất cả các tầng, kết quả đầu ra của hệ thống là các mô tả phân
giải đồng sở chỉ.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 15
4. THỬ NGHIỆM ĐÃ THỰC HIỆN TRÊN CÔNG CỤ
4.1 Môi trường thử nghiệm
Hệ thống phân giải đồng sở chỉ được tích hợp trong bộ công cụ xử lý ngôn ngữ
tự nhiên của đại học Standford. Thử nghiệm thực hiện trên phiên bản 3.3.1, phát
hành ngày 04/01/2014 có thể tải về tại địa chỉ:
/> Thử nghiệm thực hiện trên máy xách tay cài đặt hệ điều hành Windows 7
Home Premium SP1 64bit. Chip Intel Core i7-2670QM CPU 2.20GHz. Bộ nhớ
RAM 8GB. Máy cài đặt java phiên bản 1.7.0_21.
4.2 Thử nghiệm
File thử nghiệm đầu vào input.txt có nội dung:
Stanford University is located in California. It is a great university, founded in
1891.
Lệnh thực thi thử nghiệm từ cmd:
java -cp stanford-corenlp-3.3.1.jar;stanford-corenlp-3.3.1-models.jar;xom.jar;joda-
time.jar;jollyday.jar;ejml-0.23.jar -Xmx3g
edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators
tokenize,ssplit,pos,lemma,ner,parse,dcoref -file input.txt
Kết quả đầu ra được lưu ở file input.txt.xml định dạng XML với phần nội dung
mô tả phân giải đồng sở chỉ:
<coreference>

<coreference>
<mention representative="true">
<sentence>1</sentence>
<start>1</start>
<end>3</end>
<head>2</head>
<text>Stanford University</text>
</mention>
<mention>
<sentence>2</sentence>
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 16
<start>1</start>
<end>2</end>
<head>1</head>
<text>It</text>
</mention>
<mention>
<sentence>2</sentence>
<start>3</start>
<end>10</end>
<head>5</head>
<text>a great university , founded in 1891</text>
</mention>
<mention>
<sentence>2</sentence>
<start>3</start>
<end>6</end>
<head>5</head>
<text>a great university</text>
</mention>

</coreference>
</coreference>
Ý nghĩa của các tag:
Tag <coreference> ngoài cùng thông báo bắt đầu một đoạn phân giải đồng sở
chỉ.
Tag <coreference> bên trong mô tả một thực thể (tập hợp các đề cập đồng sở
chỉ) trong đoạn.
Tag <mention> là một danh từ, đại từ, làm nên các phần của đoạn. Thuộc
tính representative=true chỉ khi đó là tên đầy đủ của thực thể.
Mỗi đề cập có một khối <sentence> mô tả câu mà đề cập đó được chứa.
Tag <start>, <end> mô tả vị trí của từ trong câu (bắt đầu từ 1).
Mỗi đề cập có tag <head> mô tả từ nào là từ đầu tiên khi xem xét sự phụ
thuộc.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 17
Nhận xét: việc xử lý file văn bản ngắn như input.txt sẽ không hiệu quả vì
trước khi bắt đầu xử lý phân giải đồng sở chỉ, công cụ cần khoảng hơn một phút để
nạp các tiền xử lý cần thiết.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 18
5. KẾT LUẬN
Phân công công việc trong nhóm:
Trần Đình Hoàng Huy: nửa đầu phần phương pháp giải quyết bài toán, thử
nghiệm đã thực hiện trên công cụ, kết luận.
Lê Đình Phúc: lời mở đầu, mục tiêu công cụ, nửa sau phần phương pháp giải
quyết bài toán.
Một số kết quả chính của tiểu luận:
1. Trình bày một phương pháp giải quyết bài toán đồng sở chỉ. Công cụ thực
hiện phân giải đồng sở chỉ theo phương pháp này đã đạt được kết quả rất tốt.
2. Hiểu được hoạt động của một công cụ xử lý ngôn ngữ tự nhiên thực tế, cách
thức tiến hành thử nghiệm, thiết lập môi trường thử nghiệm.
3. Tìm hiểu được cơ chế, cấu trúc đa sàng lọc sử dụng trong giải quyết bài toán

đồng sở chỉ. Cơ chế này cũng có khả năng ứng dụng rất lớn trong trong việc giải
quyết các nhiệm vụ xử lý ngôn ngữ tự nhiên khác.
Bên cạnh đó, tiểu luận cũng còn những hạn chế:
1. Chưa thực hiện thử nghiệm công cụ với các kho dữ liệu CoNLLst 2011,
ACE2004, MUC6. Các thiết lập cũng như cách thức để thực hiện thử nghiệm nhóm
đã tìm hiểu, tuy nhiên do nhóm không thu xếp được thời gian nên chưa tự mình
hoặc nhờ tải được các kho dữ liệu thử nghiệm trên.
2. Cơ chế đa sàng lọc là một cơ chế hay, tuy nhiêm nhóm chỉ mới ở những
bước đầu tìm hiểu mà chưa đi sâu phân tích, đặt câu hỏi cũng như hiểu rõ để có thể
áp dụng vào các xử lý ngôn ngữ tự nhiên khác.
Hướng phát triển của tiểu luận:
1. Thực hiện thử nghiệm công cụ với các kho dữ liệu CoNLLst 2011,
ACE2004, MUC6.
2. Tìm hiểu, nghiên cứu sâu hơn về cơ chế đa sàng lọc đã sử dụng trong công
cụ. Theo cảm nhận của nhóm thì đây là một cơ chế rất hiệu quả , hay và thú vị.
Trần Đình Hoàng Huy - Lê Đình Phúc - K7MCS 19

TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN TÌM HIỂU PHÂN GIẢI ĐỒNG SỞ CHỈ ĐA SÀNG LỌC

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về