ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Đức Trọng
GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU
TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO
PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Đức Trọng
GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU
TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO
PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Trí Thành
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
HÀ NỘI - 2011
Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Trí Thành, Thạc sỹ Trần Mai Vũ đã tận tình
hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp này.
Tôi xin chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi
để tôi học tập, rèn luyện và nghiên cứu tại trường Đại học Công nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên tại phòng thí
nghiệm KT-Sislab, các bạn trong nhóm nghiên cứu khoa học đã giúp đỡ, hỗ trợ tôi
trong quá trình thu thập dữ liệu và thực nghiệm mô hình. Đồng thời tôi xin gửi lời cảm
ơn đề tài QG 10.38 đã hỗ trợ tôi trong quá trình hoàn thành khóa luận này.
Tôi gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ,
khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại
trường
Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn bè –
những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích
tôi trong cuộc sống cũng như học tập, công việc.
Tôi xin chân thành cảm ơn !
Sinh viên
Lê Đức Trọng
Lời cam đoan
Tôi xin cam đoan mô hình đề xuất giải quyết bài toán đồng tham chiếu trong
văn bản tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện
dưới sự hướng dẫn của Tiến sĩ Nguyễn Trí Thành và Thạc sỹ Trần Mai Vũ.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Khóa luận không
sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về mặt tài liệu
tham khảo.
Các kết quả thực nghiệm của khóa luận đều được tiến hành thực nghiệm và
thống kê từ kết quả thực thế.
Sinh viên
Lê Đức Trọng
Tóm tắt
Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ
danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới
thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6] . Đây là một
vấn đề khó của lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được sự quan tâm rất lớn
từ các nhà nhiên cứu cũng như các hội nghị lớn trên thế giới. Tại Việt Nam, bài toán
này vẫn đặt ra nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và sự không
đầy đủ các nguồn tài nguyên ngôn ngữ học chuNn. Tuy nhiên, nó là một bài toán có
tiềm năng khai thác cho nguồn dữ liệu tiếng Việt, cần được tìm hiểu và nghiên cứu.
Dựa trên cơ sở những đặc trưng của miền dữ liệu tiếng Việt, dựa trên tính mới,
tính chính xác của các phương pháp tiếp cận giải quyết, khóa luận chọn hướng tiếp cận
sử dụng phương pháp máy vector hỗ trợ SVM để giải quyết bài toán đồng tham chiếu
trong văn bản tiếng Việt. Ý tưởng của hướng tiếp cận là ghép cặp các cụm từ tiềm
năng, mỗi cụm từ thể hiện cho một quan hệ, mỗi quan hệ được biểu diễn bởi một
vector đặc trưng. Sau đó được đưa vào bộ phân lớp SVM để xác định tính chất đồng
tham chiếu, từ đó gom nhóm các cụm từ đồng tham chiếu với nhau. Khóa luận sử
dụng nguồn dữ liệu là nội dung các bài báo được tải tự động và bóc tách nội dung
chính từ chuyên mục Văn hóa – xã hội của báo điện tử Vnexpress.net để xây dựng dữ
liệu học cho mô hình đề xuất.
Kết quả phần thực nghiệm bước đầu trên mô hình đề xuất đạt độ chính xác
76,51 %. Trong khi đó độ chính xác trên mô hình cơ sở là 73.79 % với các đặc trưng
tương đương. Điều này khẳng định mô hình là khả thi và có khả năng ứng dụng thực
tế.
Lời mở đầu 1
Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản 3
1.1.
Quan hệ đồng tham chiếu 3
1.1.1.
Khái niệm 3
1.1.2.
Các thành phần trong quan hệ đồng tham chiếu thường gặp 3
1.1.3.
Phân loại các quan hệ đồng tham chiếu 4
1.2.
Bài toán đồng tham chiếu trong văn bản 5
1.3.
Ứng dụng 6
1.4.
Khó khăn và thách thức 7
Tóm tắt chương một 8
Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn
bản 9
2.1.
Phương pháp học không giám sát 9
2.1.1
Phương pháp xếp hạng 9
2.1.2
Phương pháp gom cụm 11
2.2
Phương pháp học giám sát 15
2.2.1
Phương pháp cây quyết định C4.5 15
2.2.2
Phương pháp máy vector hỗ trợ (SVM) 17
2.3. Nhận xét 21
Tóm tắt chương hai 21
Chương 3. Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào
phương pháp máy vector hỗ trợ 22
3.1. Đặc trưng của văn bản tiếng Việt 22
3.1.1. Đặc trưng từ trong tiếng Việt 22
3.1.2. Đặc trưng về tên người trong tiếng Việt 23
3.1.3. Đặc trưng về quan hệ ngữ nghĩa 24
3.2. Phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt 25
3.2.1. Phát biểu bài toán 25
3.2.2. Ý tưởng giải quyết bài toán 25
3.3. Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào
phương pháp máy vector hỗ trợ 26
3.3.1. Xây dựng bộ dữ liệu học 26
3.3.2. Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29
Tóm tắt chương 3 34
Chương 4: Thực nghiệm và đánh giá 35
4.1. Môi trường thực nghiệm 35
4.1.1. Cấu hình sử dụng 35
4.1.2. Công cụ phần mền 35
4.2. Dữ liệu thực nghiệm 36
4.3. Thực nghiệm 36
4.3.1. Mô tả cài đặt chương trình 36
4.3.2. Xây dựng bộ dữ liệu học 36
4.3.3. Xây dựng bộ phân lớp 40
4.4. Đánh giá, so sánh 40
4.4.1. Đánh giá hệ thống 40
4.4.2. Phương pháp đánh giá 40
4.4.3. Kết quả thực nghiệm 41
4.5. Nhận xét 42
Kết luận 44
Tài liệu tham khảo 45
Danh sách các hình vẽ
Hình 1: Mô hình chung giải quyết bài toán đồng tham chiếu 6
Hình 2: Một ví dụ về cây quyết định 15
Hình 3: Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học 27
Hình 4: Văn bản tải về dạng html 28
Hình 5 : Mô hình xây dựng bộ dữ liệu học 28
Hình 6: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29
Hình 7: Ví dụ về dữ liệu gán nhãn 37
Hình 8: Một ví dụ về sinh vector đặc trưng 39
Hình 9: Kết quả độ đo chính xác của hai mô hình thực nghiệm trên 10 văn bản 41
Hình 10: Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản 42
Hình 11: Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản 42
Danh sách các bảng
Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng
trong ma trận khoảng cách 13
Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ 18
Bảng 3: Đặc trưng mô tả cụm từ đang xét 18
Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 18
Bảng 5: Đặc trưng thêm mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét
20
Bảng 6: Bảng đặc trưng của cụm từ NP1 32
Bảng 7: Bảng đặc trưng của cụm từ NP2 32
Bảng 8: Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 33
Bảng 9: Cấu hình phần cứng 35
Bảng 10: Danh sách các phần mềm sử dụng 35
Bảng 11: Độ chính xác trung bình của hai mô hình theo LibSVM và thực nghiệm thực
tế trên 10 văn bản 41
Bảng các kí hiệu viết tắt
Từ hoặc cụm từ Kí hiệu viết tắt
Vietname semantic web VSW
Name entity recognition NER
Part-of-speech tagging POS-tagging
Support vector machines SVM
A library for Support Vector Machines LibSVM
1
Lời mở đầu
Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ
danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới
thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6]. Đây là một
vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được nhiều sự quan tâm
của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for
Computational Linguistics ), IJCAI (International Joint Conference on Artifical
intelligence) Nếu một phương pháp giải quyết được đề xuất cho kết quả tốt thì nhiều
bài toán khác như: Hệ thống hỏi đáp, trích chọn quan hệ, nhận dạng thực thể, tóm tắt
văn bản [20], tự động sinh các biểu diễn tương đương của đoạn văn bản [4] … sẽ được
cải thiện về chất lượng một cách đáng kể. Xuất phát từ lý do đó và mong muốn nâng
cao chất lượng đề tài nghiên cứu khoa học sinh viên 2010 – 2011 là “Hệ thống hỏi
đáp thực thể tên người cho tiếng Việt”, khóa luận chọn bài toán đồng tham chiếu trong
văn bản tiếng Việt làm nội dung tập trung nghiên cứu và xây dựng mô hình giải quyết.
Bài toán đồng tham chiếu trong văn bản ra đời từ những năm 60-70 của thế kỉ
trước [21], các phương pháp tiếp cận ban đầu chủ yếu dựa trên các phương pháp tiếp
cận kinh nghiệm. Cho tới nay có rất nhiều phương pháp tiếp cận khác nhau đã được đề
xuất để giải quyết bài toán. Tuy nhiên, nổi bật hơn là các phương pháp dựa trên hướng
tiếp cận học máy không giám sát và học máy giám sát. Những công trình này mang
tính ứng dụng cao, đang ngày càng được cải tiến cho hiệu quả tốt hơn. Khóa luận này
giới thiệu một số phương pháp tiếp cận giải quyết điển hình như: phương pháp xếp
hạng, phương pháp gom cụm, phương pháp cây quyết định và phương pháp máy
vector hỗ trợ (SVM). Trong những phương pháp đó, phương pháp máy vector hỗ trợ là
phương pháp mới (2005) cho kết quả khả quan (độ chính xác đạt 69.2%). Vì vậy
chúng tôi sử dụng phương pháp này cho việc giải quyết bài toán đồng tham chiếu
trong văn bản tiếng Việt, cụ thể hơn là xây dựng mô hình trích chọn quan hệ đồng
tham chiếu trong văn bản tiếng Việt. Kết quả thực nghiệm bước đầu cho thấy mô hình
phù hợp với miền dữ liệu tiếng Việt và có khả năng ứng dụng tốt.
Nội dung của khóa luận bao gồm có 4 chương:
Chương 1: Giới thiệu khái quát về bài toán đồng tham chiếu cũng như các khái
niệm liên quan
Chương 2: Giới thiệu một số phương pháp tiếp cận giải quyết bài toán đồng
tham chiếu bao gồm hai phương pháp học máy không giám sát và hai phương pháp
học máy có giám sát. Đây là cơ sở lý thuyết, phương pháp luận quan trọng để khóa
2
luận đưa ra mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt ở
trong chương 4.
Chương 3: Trên cơ sở những phương pháp tiếp cận trình bày ở chương 2 và
thông qua khảo sát miền dữ liệu văn bản tiếng Việt, khóa luận đã lựa chọn phương
pháp máy vector hỗ trợ (SVM) là cơ sở của việc giải quyết bài toán đồng tham chiếu
trong tiếng Việt. Nội dung chính của chương này trình bày một số đặc trưng của văn
bản tiếng Việt, bài toán đồng tham chiếu trong văn bản tiếng Việt và mô hình đề xuất.
Chương 4: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm việc xây
dựng bộ dữ liệu học, xây dựng bộ phân lớp SVM để xác định các cặp cụm từ có quan
hệ đồng tham chiếu trong văn bản tiếng Việt. Trong chương này đánh giá, so sánh kết
quả giữa mô hình đề xuất và mô hình cơ sở mà khóa luận dựa trên.
Phần kết luận và định hướng phát triển: Tóm lược những kết quả đạt được
của khóa luận. Đồng thời đưa ra những hạn chế, những điểm cần khắc phục và đưa ra
định hướng nghiên cứu trong thời gian sắp tới.
3
Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản
Nội dung chính của khóa luận là đề xuất một mô hình giải quyết bài toán đồng
tham chiếu trong văn bản tiếng Việt, cụ thể hơn là mô hình trích chọn quan hệ đồng
tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ (SVM) .
Trong chương này sẽ giới thiệu các khái niệm cơ bản về quan hệ đồng tham chiếu, bài
toán đồng tham chiếu trong văn bản và những ứng dụng của nó. Đây là cơ sở lý thuyết
quan trọng cho việc xác định những mục tiêu cũng như phạm vi giải quyết của mô
hình đề xuất ở chương thứ tư của khóa luận.
1.1. Quan hệ đồng tham chiếu
1.1.1. Khái niệm
Quan hệ đồng tham chiếu là một quan hệ ngữ nghĩa đặc biệt, có rất nhiều định
nghĩa về quan hệ đồng tham chiếu đã được đưa ra. Theo Véronique Hoste [9] định
nghĩa về quan hệ đồng tham chiếu như sau:
“Quan hệ đồng tham chiếu là quan hệ giữa hai hay nhiều cụm từ mà cùng chỉ
tới một thực thể xác định trong thế giới thực.”
Ví dụ: Hồ Chí Minh là danh nhân văn hóa thế giới. Ông là người đầu tiên truyền bá
chủ nghĩa Mác – Lênin vào Việt Nam.
Trong ví dụ trên, Đại từ “Ông” và danh từ tên riêng “Hồ Chí Minh” có quan
hệ đồng tham chiếu vì cùng chỉ về một thực thể người có tên là “Hồ Chí Minh”.
Trong các bài toán liên quan tới xử lý ngôn ngữ tự nhiên trong văn bản thì việc
xác định quan hệ đồng tham chiếu là một vấn đề quan trọng. Quan hệ đồng tham chiếu
thể hiện tính liên kết giữa hai cụm từ trong văn bản nói riêng và giữa các câu chứa các
cụm từ đó nói chung. Nếu xác định được sự liên kết này sẽ làm tăng chất lượng trích
xuất thông tin tri thức từ tập văn bản. Vì vậy, chúng ta cần nhận biết các quan hệ đồng
tham chiếu và tìm hiểu các phương pháp để xác định được các quan hệ đó.
1.1.2. Các thành phần trong quan hệ đồng tham chiếu thường gặp
Một quan hệ đồng tham chiếu theo Hoste [9] thường là quan hệ giữa các cặp
cụm từ cơ sở bao gồm: danh từ riêng, cụm danh từ thuần túy, đại từ. Trong đó các
danh từ riêng đóng vai trò quan trọng trong mối quan hệ đồng tham chiếu. Nó là nền
tảng để xác định các cụm đồng tham chiếu trong văn bản.
a. Danh từ riêng
Gồm các tên và thực thể tên như: Tên người, tên tổ chức, tên địa danh …
Ví dụ:
4
• Tên riêng: Hồ Chí Minh, Trường Chinh, Võ Nguyên Giáp …
• Tên tổ chức: FAO, WTO, WHO …
• Tên địa danh: Hà Nội, Hải Phòng, Nam Định, Vĩnh Linh …
b. Đại từ
Bao gồm các loại đại từ nhân xưng, đại từ tân ngữ, đại từ tương hỗ và đại từ phản
thân:
• Đại từ nhân xưng đại diện cho tên người và tên vật: Tôi, cô, anh, nó
…
Ví dụ: Tôi thích chơi ghita.
• Đại từ tân ngữ được sử dụng khi người/vật là tân ngữ của câu hay
mệnh đề: anh ấy (him), cô ấy (her) …
Ví dụ: Hằng yêu anh ấy.
• Đại từ tương hỗ: chỉ mối quan hệ tương hỗ: nhau, cả hai …
Ví dụ: Họ cùng giúp đỡ nhau.
• Đại từ phản thân được sử dụng khi một người/vật tác động lên chính
nó: mình
Ví dụ: Anh ta tự bắn chính mình
c. Danh từ thuần túy
Bao gồm các danh từ chung khác. Thường các danh từ chỉ nghề nghiệp, chức vụ
được xét đến nhiều trong trường hợp này: bác sĩ, giám đốc, …
Ví dụ: Bình là một bác sĩ.
1.1.3. Phân loại các quan hệ đồng tham chiếu
Qua quá trình khảo sát và nghiên cứu, Hoste [9] và McCathy [11] đã tổng kết
một số loại quan hệ đồng tham chiếu như sau:
- Quan hệ đồng nhất (Identity relations)
Ví dụ: Lê Công Vinh là tiền đạo xuất sắc nhất của đội tuyển bóng đá
Việt Nam. Anh hiện đang đầu quân cho câu lạc bộ T&T Hà Nội.
- Quan hệ cùng chủng loại (Type/token relations)
Ví dụ: Inova và Camry là hai dòng xe nổi tiếng của Toyota.
- Quan hệ bộ phận (Part-whole/ element-set relations)
5
Ví dụ: “Lan và Nam là vợ chồng. Họ đã từng là bạn học của nhau từ đại
học”
Các tính chất của quan hệ đồng tham chiếu giữa các cụm từ NPi [9]:
- Tính chất đối xứng: NP1, NP2 là đồng tham chiếu thì NP2, NP1 cũng là
đồng tham chiếu
- Tính chất bắc cầu: Nếu NP1, NP2 là đồng tham chiếu; NP2, NP3 là đồng
tham chiếu thì NP1, NP3 là đồng tham chiếu.
- Tính chất độc lập: Sự thể hiện của NP1 và NP2 độc lập nhau trong ngữ cảnh
tương ứng
1.2. Bài toán đồng tham chiếu trong văn bản
Trong các văn bản, các cụm từ có quan hệ đồng tham chiếu nằm rải rác trong
các câu, tạo nên sự liên kết về ngữ nghĩa của các câu trong văn bản đó. Xác định sự
liên kết này phụ thuộc vào việc xác định các cụm từ có quan hệ đồng tham chiếu.
Morton [13] , Dzunic[5] và Denis [6] đã phát biểu bài toán đồng tham chiếu trong văn
bản như sau:
“Là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu
có quan hệ đồng tham chiếu và gom nhóm các cụm từ này thành các chuỗi đồng tham
chiếu”
Cụ thể là:
Đầu vào: Văn bản ngôn ngữ tự nhiên
Đầu ra: Các nhóm từ đồng tham chiếu
Ví dụ: Cho một đoạn văn bản với các cụm từ thuộc các thành phần phổ biến mục 1.2
được in đậm sau:
“Đến tuổi đi học, ông ngoại là đôi chân thứ hai cùng em đến lớp. Bất kể trời
mưa hay nắng, năm này sang năm khác ông Khôi đều cõng Trung trên đôi vai gầy
guộc của mình để đưa cháu đến trường. Hình ảnh một ông già ngoài 70 tuổi ngày
ngày chở đứa cháu khuyết tật tới trường bằng chiếc xe máy cũ kĩ luôn hiện hữu trong
mắt thầy cô và bạn học của Trung”
Khi đó, kết quả các cụm đồng tham chiếu như sau:
• Cụm 1: ông ngoại, ông Khôi, ông già ngoài 70 tuổi, mình, đôi chân thứ
hai
6
• Cụm 2: em, Trung, cháu, đứa cháu khuyết tật
Nhận xét: Các cụm trên đều chỉ chứa các cặp cụm từ có quan hệ đồng tham chiếu đồng
nhất.
Hình 1: Mô hình chung giải quyết bài toán đồng tham chiếu
1.3. Ứng dụng
Trong nghiên cứu của mình, Versley và đồng nghiệp [20] đã chỉ ra rằng bài
toán đồng tham chiếu được ứng dụng trong nhiều bài toán xử lý ngôn ngữ tự nhiên
khác như: Trích xuất thông tin (Information extraction), hỏi đáp tự động (Question
answering), tóm tắt văn bản (Summarization) … Hoặc sự ứng dụng vào bài toán tự
động sinh các biểu diễn tương đương của đoạn văn bản của tác giả Lê Thanh Hương
[3]. Trong các bài toán này, chức năng của việc xác định các quan hệ đồng tham chiếu
là nhận dạng, thu thập và gom các cụm từ đồng tham chiếu nhằm trích xuất thêm các
quan hệ ngữ nghĩa, hỗ trợ máy tính phát hiện đầy đủ hơn các tri thức có trong văn bản.
McCarthy, 1996 [11] đã nhúng một hệ thống phát hiện quan hệ đồng tham
chiếu vào hệ thống giải quyết bài toán trích xuất thông tin của mình. Mục đích của bài
toán trích xuất thông tin là nhận dạng những thành phần thông tin cụ thể của một văn
bản, những thành phần này là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản [22].
Văn bản dữ liệu
Tiền xử lý
Trích xuất các quan
hệ đồng tham chiếu
Các nhóm từ
đồng tham chiếu
7
Vì vậy, việc xác định các quan hệ đồng tham chiếu giúp nhận dạng các thành phần này
bằng cách xác định sự liên quan về ngữ nghĩa của các cặp cụm từ trong văn bản.
Trong mô hình giải quyết bài toán hỏi đáp tự động của mình năm 1999, Morton
[14] coi mỗi câu hỏi truy vấn định nghĩa một quan hệ giữa các sự kiện và các thực thể.
Và mỗi câu trả lời cũng bao gồm các sự kiện và các thực thể ấy. Hướng tiếp cận của
Morton là tìm ra các mối quan hệ đồng tham chiếu giữa các thực thể và các sự kiện
trong câu hỏi truy vấn với các thực thể và các sự kiện liên quan trong tài liệu. Dựa trên
những quan hệ đó, các câu trả về được xếp hạng. Sau đó, hệ thống đưa ra các câu có
hạng cao nhất cho người dùng.
Phương pháp tiếp cận giải quyết bài toán tóm tắt văn bản của Steinberger và
đồng nghiệp, 2007 [18] đã sử dụng việc phát hiện quan hệ đồng tham chiếu nhằm xác
định các cụm từ cùng nói về một thực thể. Từ đó thu thập toàn bộ thông tin về thực thể
đó bao gồm thông tin biểu diễn các đồng vị ngữ và các cấu trúc vị ngữ khác phục vụ
cho bài toán tóm tắt văn bản.
Tác giả Lê Thanh Hương, 2007 [3] đã sử dụng cơ chế thay đổi các từ đồng
tham chiếu trong việc xử lý bài toán tự động sinh biểu diễn tương đương của đoạn văn
bản. Mục đích là giải quyết vấn đề thiếu mạch lạc, phi ngữ pháp khi đổi vị trí các
mệnh đề của đoạn để sinh ra đoạn văn bản mới. Bởi vì cách sinh biểu diễn tương
đương này gây ra việc đại từ đi trước danh từ mà nó thay thế.
1.4. Khó khăn và thách thức
Những định nghĩa về quan hệ đồng tham chiếu hay bài toán đồng tham chiếu
trong văn bản khá là đơn giản. Tuy nghiên nó là một vấn đề khó trong xử lý ngôn ngữ
tự nhiên, bao gồm việc xử lý phức hợp nhiều nguồn tri thức và nhiều chiến lược suy
luận [16]. Vì vậy trong việc giải quyết bài toán này gặp rất nhiều thách thức và khó
khăn giống như các bài toán xử lý ngôn ngữ tự nhiên khác khiến cho việc giải quyết
chưa thực sự triệt để [13].
Thứ nhất, đó là sự nhập nhằng ngữ nghĩa. Trong ví dụ “Thọ là cánh tay phải
đắc lực của Năm”, cụm từ “cánh tay phải” và “Thọ” đồng tham chiếu với nhau.
Nhưng để máy nhận ra rằng cụm từ “cánh tay phải” chỉ về một thực thể người (Thọ)
và không phải chỉ về thực thể người (Năm) vẫn là một vấn đề khó với xử lý ngôn ngữ
tự nhiên nói chung và bài toán đồng tham chiếu nói riêng.
Thứ hai, đó là sự nhập nhằng thực thể xảy ra khi trong đoạn văn bản có quá
nhiều thực thể. Trong ví dụ: “Đạt là thầy giáo trực tiếp hướng dẫn của Bình và An. Họ
8
đều là những gương mặt tiêu biểu của khoa Công nghệ thông tin.”, từ “Họ” đồng tham
chiếu với cả 3 thực thể tên là “Đạt, Bình, An”. Tuy nhiên trong thực thế, máy tính chỉ
hiểu “Họ” và “Bình, An” mới là đồng tham chiếu của nhau.
Cuối cùng, đó là sự phụ thuộc vào bước tiền xử lý: Việc xác định các cặp có
quan hệ đồng tham chiếm chỉ được thực hiện sau các bước tiền xử lý như: Tách câu,
tách từ, gán nhãn, phân đoạn, nhận dạng thực thể …. Độ chính xác của nó phụ thuộc
nhiều vào độ chính xác của các bước kia. Bước tiền xử lý càng tốt thì kết quả của bài
toán đồng tham chiếu càng cao.
Tóm tắt chương một
Trong chương này, khóa luận đã giới thiệu khái quát các khái niệm liên quan tới
quan hệ đồng tham chiếu, bài toán đồng tham chiếu trong văn bản và một số ứng dụng
của nó. Trong chương tiếp theo, khóa luận sẽ giới thiệu một số phương pháp mô hình
hóa bài toán đồng tham chiếu trong văn bản và hướng tiếp cận giải quyết tương ứng.
9
Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham
chiếu trong văn bản
Có nhiều phương pháp giải quyết bài toán đồng tham chiếu trong văn bản.
Trong chương này, khóa luận giới thiệu một số hướng tiếp cận giải quyết bài toán
đồng tham chiếu trong văn bản bao gồm hai phương pháp học máy không giám sát và
hai phương pháp học máy có giám sát. Đây là những phương pháp tiếp cận phổ biến
cho kết quả tương đối khả quan tại thời điểm đề xuất.
2.1. Phương pháp học không giám sát
2.1.1 Phương pháp xếp hạng
Một phương pháp tiếp cận truyền thống với bài toán đồng tham chiếu dựa trên
ngôn ngữ học và miền tri thức được Mitkov [12] đề xuất năm 1998. Đây là hướng tiếp
cận giải quyết bài toán đồng tham chiếu đại từ trực tiếp trong trường hợp tri thức
không đủ nhiều. Đầu vào được kiểm tra với một số đặc trưng và điều kiện của tiền
ngữ. Các ứng viên được tính điểm (-1, 0, 1, 2) dựa trên các điều kiện đó. Tiền ngữ
đồng tham chiếu trả về là ứng viên có số điểm số tổng hợp cao nhất.
Những tiền điều kiện, đặc trưng của tiền ngữ được sử dụng trong phương pháp
tiếp cận này:
• Sự xác định (Definiteness): Tính xác định các cụm ngữ danh từ ở câu phía
trước giống với các tiền ngữ đồng tham chiếu của đại từ, được gán điểm lần
lượt là 0 và -1.
• Sự cho trước (Givenness): Các cụm ngữ danh từ trong các câu trước thể
hiện “thông tin đã cho” là các ứng viên tốt hơn cho các tiền ngữ đồng tham
chiếu. Chúng được tính điểm là 1. Ngược lại tính là 0.
• Các động từ cho trước (Indicating verbs): Nếu một động từ thuộc tập
Verb_set = {discuss, present, illustrate, identify, summarise, examine,
describe, define, show, check, develop, review, report, outline,
consider, investigate, explore, assess, analyse, synthesise, study, survey,
deal, cover} cụm ngữ danh từ đầu tiên ngay sau nó có khả năng là tiền ngữ
đồng tham chiếu cao hơn. Và được gán điểm là 1. Ngược lại là 0.
• Sự lặp lại từ vựng (lexical reiteration): Một cụm ngữ danh từ có điểm là 2
nếu lặp lại nhiều hơn hai lần trong cùng văn bản, có điểm là 1 nếu lặp lại 1
lần và có điểm là 0 nếu không lặp lại.
10
• Danh từ chính của câu (Section heading preference): Nếu một ngữ danh từ
đứng ở đầu câu thì nó được gán điểm là 1. Ngược lại gán là 0
• Các cụm ngữ danh từ phi giới từ (Non-preposittional noun phrases): Cụm
danh từ phi giới từ được ưu tiên cao hơn (gán điểm là 0) là cụm ngữ danh từ
là bộ phận của một cụm giới từ ( gán điểm là -1)
• Sự ưu tiên đồng vị (Collocation pattern preference): Sự ưu tiên này cho các
ứng viên mà là đồng vị của một đại từ, được gán điểm là 2. Ngược lại gán
điểm là 0.
• Sự tham chiếu tức thời (Imiadate reference): Sử dụng trong sự xây dựng
mẫu : “…(You) V1 NP con (you) V2 it (con (you) V3 it)”, trong đó
“con” thuộc tập {and/or/before/after…}, cụm ngữ danh từ xuất hiện ngay
sau V1 giống với ứng viên của tiền ngữ đồng tham chiếu của đại từ “it”
ngay sau V2. Chúng được lần lượt gán điểm là 2 và 0.
• Khoảng cách tham chiếu (Referential distance): Các cụm ngữ danh từ ở câu
trước là các ứng viên tốt nhất cho tiền ngữ đồng tham chiếu, tiếp theo bởi
các cụm ngữ danh từ ở hai câu phía sau và được gán điểm là 1, 0, -1.
• Điều kiện ưu tiên (Term preferene): Được gán điểm là 1 nếu cụm ngữ danh
từ là một điều kiện ưu tiên, 0 trường hợp còn lại.
Dựa trên những điều kiện trên, phương pháp tiếp cận này gồm các bước như sau:
Đầu vào: Văn bản T
Đầu ra: Tập các đại từ và các tiền ngữ đồng tham chiếu của chúng
Xử lý:
Bước 1: Kiểm tra câu hiện tại và hai câu phía trước (nếu có). Với mỗi đại từ,
tìm các cụm ngữ danh từ bên trái của đại từ.
Bước 2: Chọn từ tập ngữ danh từ đã xác định thỏa mãn tính cùng loại và số
lượng với các đại từ trùng lặp. Nhóm chúng thành tập ứng viên tiềm năng.
Bước 3: Áp dụng các tiền điều kiện với mỗi ứng viên tiềm năng và tính điểm.
Tiền ngữ đồng tham chiếu là ưng viên có điểm cao nhất.
Ưu, nhược điểm của hướng tiếp cận:
• Ưu điểm:
o Chi phí thời gian và công sức thấp hơn so với các phương pháp dựa trên
ngôn ngữ và miền tri thức truyền thống.
11
o Đạt kết quả khả quan trên miền dữ liệu tiếng Anh và tiếng Balan
• Nhược điểm:
o Chưa xác định được đầy đủ các cặp đồng tham chiếu.
o Chi phí tính toán cao
2.1.2 Phương pháp gom cụm
Năm 1999, Claire Cardie và Kiri Wagstaff [4] đã giải quyết bài toán đồng tham
chiếu ngữ danh từ bằng phương pháp gom cụm. Hướng tiếp cận này bắt đầu với việc
giả định rằng mỗi nhóm đồng tham chiếu ngữ danh từ được định nghĩa như là một lớp.
Do đó, quá trình xác định đồng tham chiếu đơn giản chỉ là xác định các phân vùng hay
gom nhóm các ngữ danh từ. Bằng trực giác, tất cả các ngữ danh từ được sử dụng để
mô tả một khái niệm cụ thể nào đó sẽ gán nhãn hoặc có biểu diễn quan hệ với nó theo
một hình thức nào đó, nghĩa là “khoảng cách” giữa các khái niệm sẽ nhỏ. Các tác giả
đã đưa ra cách mô tả của mỗi ngữ danh từ và một phương pháp ước lượng khoảng
cách giữa hai ngữ danh từ, một thuật toán gom nhóm các ngữ danh từ lại với nhau:
Ngữ danh từ với khoảng cách lớn hơn bán kính r không được gom vào trong cùng một
phân nhóm và ngược lại thì xem chúng như là các đồng tham chiếu trong cùng phân
nhóm.
Trong phương pháp này, mỗi ngữ danh từ được biểu diễn bởi tập 11 đặc trưng như
sau:
• Nội từ (Individual Words): Tất cả các từ của ngữ danh từ được lưu và xem
như là một đặc trưng.
• Danh từ chính (Head noun): Loại bỏ các từ chỉ loại, từ chỉ loài và xác định
từ đầu tiên trong các từ còn lại của ngữ chính là danh từ chính của ngữ danh
từ.
• Vị trí (Position): Vị trí của ngữ danh từ trong văn bản. Vị trí bắt đầu là ngữ
đầu tiên của văn bản được đánh với vị trí là 0.
• Đại từ (Pronoun Type): Đại từ được gán là một trong các nhãn Nominative,
Accusative, Possessive, hoặc Ambiguous. Tất các các ngữ danh từ khác có
giá trị là None đối với đặc trưng này.
• Mạo từ (Article): Mỗi ngữ danh từ có thể đánh dấu Indefinite (với trường hợp
tiếng Anh có các từ như a, an) hoặc Indenfinite với trường hợp không xác
định và None là không rõ.
12
• Đồng vị ngữ (Appositive): Nếu bao quanh ngữ danh từ bởi dấu phảy, một
mạo từ và đặt ngay trước một ngữ danh từ khác thì nó được coi là đồng vị
ngữ.
Ví dụ: Ông Nguyễn Tấn Dũng, thủ tướng nước Việt Nam …
• Số lượng (Number) : Trong tiếng Anh, nếu danh từ chính kết thúc bằng ’s’
thì danh từ này được đánh dấu là Plural; ngược lại, nó được xem như là
Singular. Các biểu thức tiền tệ, số đếm, hoặc phần trăm đều được đánh dấu là
Plural. Đối với tiếng Việt, số lượng được thể hiện bằng một số từ như
“mười”, “một số”, …. Đứng ở vị trí bắt đầu ngữ danh từ.
• Tên riêng (Proper Name): Tên riêng được nhận ra bằng các ký tự hoa của
các từ trong ngữ.
• Ngữ nghĩa (Semantic Class): WordNet
1
(Fellbaum, 1998) được sử dụng để
lấy thông tin lớp ngữ nghĩa của danh từ chính. Danh từ chính sẽ được gắn
đặc trưng như TIME, CITY, ANIMAL, HUMAN, hoặc OBJECT. Nếu một
trong những lớp này gắn với danh từ chính, thì lớp ngữ nghĩa sẽ được trả về.
• Giới tính (Gender): Giới tính (Masculine, Femnine, Either, hoặc Neuter)
được xác định thông qua sử dụng WordNet và (đối với tên riêng) danh sách
các tên thông thường.
• Animacy: Các ngữ danh từ là HUMAN hoặc ANMAL được đánh nhãn ANIM;
còn lại các ngữ danh từ khác được đánh nhãn là NANIM.
Khoảng cách giữa hai cụm ngữ danh từ NP
i
và NP
j
được ký hiệu là dist(NP
i
, NP
j
) xác
định bởi công thức:
݀݅ݏݐ൫ܰܲ
,ܰܲ
൯ = ݓ
∗ ݅݊ܿ݉ܽݐܾ݈݅݅݅ݐݕ
(ܰܲ
,ܰܲ
)
∈ி
Trong đó :
• F tương đương với tập các đặc trưng của NP được mô tả ở trên; tương
ứng f là một hàm để trả về giá trị 0 hoặc 1 nếu đặc trưng f tương ứng
của các NP
i
và NP
j
là như nhau; và w
f
là giá trị biểu diễn độ quan trọng
của đặc trưng f.
• Hàm bất tương hợp (incompatibility) và các trọng số tương ứng được
quy ước trong [4] như bảng 1 dưới đây. Thông thường, các trọng số được
chọn để biểu diễn tri thức ngôn ngữ về đồng tham chiếu. Các mẫu với
trọng số biểu diễn bộ lọc với các luật không thể xác định. Hai ngữ danh
1
13
từ không thể là tham chiếu của nhau khi các giá trị của chúng không
tương đương nhau đôi với các đặng trưng của mẫu.
Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc
trưng tương ứng trong ma trận khoảng cách
Đặc trưng f Trọng số Hàm incompatibility
Words 10.0
Số từ không trùng khớp/ Số từ trong
cụm danh từ
Head Noun 1.0
1 nếu các danh từ chính khác nhau;
ngược lại 0
Position 5.0
Sự khác nhau ở vị trí / Cực đại sự khác
nhau trong văn bản
Pronoun r
1 nếu NP
i
là đại từ và NP
j
không là đại
từ ; ngược lại 0
Article r
1 nếu NP
j
không xác định và không là
đồng vị ngữ; ngược lại 0
Words-substring
−
∞
1 nếu NP
i
là xâu con của NP
j
Appositive
−
∞
1 nếu NP
j
là đồng vị ngữ và NP
i
là tiền
ngữ ngay trước; ngược lại 0
Number
∞
1 nếu chúng không trùng khớp về số
lượng; ngược lại 0
Proper Name
∞
1 nếu chúng đều là tên riêng nhưng
không trùng hợp trên các từ; ngược lại
0;
Sematic Class
∞
1 nếu chúng không cùng lớp; ngược lại
0
14
Gender
∞
1 nếu chúng không cùng giới tính;
ngược lại 0
Animacy
∞
1 nếu chúng không cùng animacy;
ngược lại 0
Bởi vì ngữ danh từ thường tham chiếu đến ngữ danh từ trước đó, chúng ta bắt đầu tại
vị trí kết thúc văn bản và tiến hành xử lý ngược lên. Thuật toán gom nhóm được đề
xuất như sau:
Đầu vào: Văn bản T
Đầu ra: Các cụm chứa các cụm ngữ danh từ đồng tham chiếu
Xử lý:
Bước 1: Chọn bán kính gom cụm r
Bước 2: Gán mỗi cụm ngữ danh từ NP
i
vào một lớp c
i
: c
i
= {NP
i
}
Bước 3: Duyệt tất cả các cụm ngữ danh từ theo thứ tự từ cuối lên. Với mỗi cụm
ngữ danh từ NP
j
, xét các cụm ngữ danh từ trước nó NP
i
• Đặt d = dist(NP
i
, NP
j
)
• Nếu d < r và ALL_NPS_COMPATIBLE(c
i
, c
j
) thì c
j
= c
i
∪ c
j
Trong đó, giá trị hàm ALL_NPS_COMPATIBLE(c
i
, c
j
) xác định bởi :
Bước 1 : Duyệt tất cả NP
a
∈ c
j
• Duyệt tất cả NP
b
∈ c
i
• Nếu dist(NP
a
, NP
b
) = ∞ thì trả về FALSE ;
Bước 2: Trả về TRUE
Ưu, nhược điểm của hướng tiếp cận:
• Ưu điểm:
o Dễ dàng mở rộng cho nguồn dữ liệu khác.
o Đạt kết quả khả quan so (53,6 %) với các phương pháp tương đương
• Nhược điểm:
o Khó khăn trong việc một ngưỡng r, trọng số đặc trưng phù hợp
o Chưa phát hiện được hết những cặp đồng tham chiếu
15
2.2 Phương pháp học giám sát
2.2.1 Phương pháp cây quyết định C4.5
Phương pháp này được Joseph F. McCarthy đề xuất năm 1995, sau đó được
Zoran Dzunic và đồng nghiệp thực nghiệm lại năm 2006 với một số cải tiến trong
thuật toán đối sánh (Matching) của đặc trưng đối sánh xâu ký tự [5]. Tư tưởng chính
của phương pháp này sử dụng thuật toán cây quyết định để phân các cụm từ liên quan
tới cụm từ đang xét vào hai lớp: Lớp đồng tham chiếu và lớp không đồng tham chiếu
với cụm từ đang xét đó dựa trên các thuộc tính đặc trưng liên quan giữa hai cụm từ.
Hình 2: Một ví dụ về cây quyết định
Trong phương pháp này đã định nghĩa một số khái niệm như sau:
• Với mỗi cặp cụm từ (I, J) trong văn bản T, chúng ta nói I bên trái J và
viết I < J nếu và chỉ nếu I xuất hiện trước J trong văn bản T. J được gọi
là anaphora và I được gọi là tiền ngữ.
• Khoảng cách giữa hai xâu kí tự s1 và s2 bằng cực tiểu số kí tự được
chuyển đổi chính xác giữa hai xâu.
Và 10 thuộc tính đặc trưng thể hiện mối quan hệ giữa hai cụm từ I, J như sau:
• String_match: Thuộc tính có 2 giá trị là True và False. Thuộc tính này thể
hiện sự giống nhau giữa 2 cụm từ I, J theo chiến thuật khử các từ dừng (stop
words) và chiến thuật đối sánh xấp xỉ.
Ví dụ: Với 2 cụm từ “the man” và “this man” hàm thuộc tính trả về giá trị
True.
Hair color
Hair
length
Swedish
guy
Swedish
guy
Swedish
girl
blond
short long
dark
16
• Alias: Có hai giá trị True và False. Thuộc tính kiểm tra xem hai từ có phải là
dạng viết tắt của nhau không trong các kiểu viết tắt : từ viết tắt (NATO, FAO
), bí danh của một người (John Smith và Mr. Smith), ngày tháng (October
13th, 2005 và 13.10.2005)
• Appositive: Có hai giá trị là True và False. Thuộc tính này kiểm tra xem hai
cụm từ có phải là đồng vị ngữ hay không trong trường hợp hai cụm từ cách
nhau bởi dấu phảy, không chứa động từ và ít nhất một cụm từ là tên riêng.
Ví dụ : Công Vinh, tiền đạo nổi tiếng, vừa bị chấn thương trong trận gặp
Lào.
Trong ví dụ trên thì “Công Vinh” và “tiền đạo nổi tiếng” là đồng vị ngữ
• J pronoun: Có hai giá trị là True và False. Thuộc tính này kiểm tra xem cụm
từ J có là đại từ ko.
• I pronound: Có hai giá trị là True và False. Thuộc tính này kiểm tra xem
cụm từ I có là đại từ ko.
• Distance: Có giá trị là số nguyên. Thuộc tính thể hiện khoảng cách giữ 2
cụm từ bằng số câu (sentences) giữa 2 cụm từ này.
Ví dụ : Peter muốn sửa xe oto của anh ấy (0). Anh ấy(1) đưa nó vào gara
Long Vũ
• Gender_agreement: Có 3 giá trị là True, False và Unknow. Thuộc tính thể
hiện sự đồng nhất về giới tính giữa hai cụm từ I, J nếu nó cùng nói về người.
Trả về True nếu hai cụm từ I, J thể hiện cùng giới tính, False nếu không
cùng giới tính. Và Unknow nếu không xác định được sự đồng nhất.
• Definite_np: True nếu I là một cụm từ xác định ( Ví dụ: Công ty FPT).
Ngược lại có giá trị là False.
• Number_agreement: True nếu cụm từ được bắt đầu bởi một danh từ chỉ số
lượng. Ngược lại trả về False.
• Demonstrative_np: True nếu I là đại từ chỉ định. Ngược lại có giá trị là
False.
• Both_proper_names: True nếu cả hai cụm từ đều là tên riêng. Ngược lại trả
về False.
Dựa trên những khái niệm và thuộc tính đặc trưng đó, thuật toán cây quyết định được
áp dụng vào giải quyết bài toán đồng tham chiếu trong một văn bản:
Đầu vào: Văn bản T
Đầu ra: Các cụm từ và danh sách các cụm từ đồng tham chiếu tương ứng.