Tải bản đầy đủ (.pdf) (76 trang)

Áp dụng học máy trong xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt (Có code)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (987.24 KB, 76 trang )

MỤC LỤC
DANH MỤC CÁC HÌNH VẼ .......................................................................... 5
DANH MỤC CÁC BẢNG BIỂU ..................................................................... 6
MỞ ĐẦU ........................................................................................................... 7
1. Lý do chọn đề tài khóa luận .......................................................................... 7
2. Mục tiêu khóa luận ........................................................................................ 8
3. Nhiệm vụ nghiên cứu .................................................................................... 8
4. Phương pháp nghiên cứu ............................................................................... 8
5. Đối tượng và phạm vi nghiên cứu ................................................................. 8
6. Ý nghĩa khoa học .......................................................................................... 9
7. Bố cục khóa luận ........................................................................................... 9
CHƯƠNG 1: TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ .......... 10
1.1. Tổng quan về tình hình nghiên cứu đồng tham chiếu .............................. 10
1.2. Khái niệm đồng tham chiếu ..................................................................... 11
1.2.1. Khái niệm .............................................................................................. 11
1.2.2. Các thành phần trong quan hệ đồng tham chiếu thường gặp ................ 13
1.3. Phân loại đồng tham chiếu ....................................................................... 14
1.3.1. NP-anaphora .......................................................................................... 14
1.3.2. VP-anaphora .......................................................................................... 15
1.3.3. S-anaphora............................................................................................. 15
1.3.4. “One” anaphora ..................................................................................... 15
1.4. Đồng tham chiếu danh từ (Np-anaphora). ............................................... 16
1.5. Cách tiếp cận để xử lý đồng tham chiếu danh từ ..................................... 16
1.5.1. Xử lý đồng tham chiếu .......................................................................... 16
1.5.2. Nguồn kiến thức cần thiết cho xử lý đồng tham chiếu tự động ............ 17
1.5.3. Các yếu tố xử lý đồng tham chiếu......................................................... 18
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ
ĐỒNG THAM CHIẾU DANH TỪ ................................................................ 21
2.1. Phương pháp máy vector hỗ trợ (SVM)................................................... 21
2.1.1. Định nghĩa và cơ sở của phương pháp SVM ........................................ 21
2.1.2. Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản


tiếng Việt ......................................................................................................... 23
2.2. Conditional Random Fields (CRF) .......................................................... 26
2.2.1. Định nghĩa CRF .................................................................................... 26
2.2.2. Mô hình CRF......................................................................................... 28
2.3. TiMBL ...................................................................................................... 32
2.3.1. Phương pháp học K láng giềng gần nhất .............................................. 32
2.3.2. Cách sử dụng TiMBL............................................................................ 34
2.4. Nhận xét đánh giá về các phương pháp ................................................... 35
CHƯƠNG 3: ÁP DỤNG PHƯƠNG PHÁP HỌC MÁY SVM TRONG XỬ
LÝ ĐỒNG THAM CHIẾU DANH TỪ TRONG VĂN BẢN TIẾNG VIỆT 36

1


3.1. Mô hình hóa bài toán đồng tham chiếu danh từ....................................... 36
3.1.1. Phát biểu bài toán .................................................................................. 36
3.1.2. Hướng giải quyết bài toán ..................................................................... 38
3.1.3. Xử lý dữ liệu đầu vào ............................................................................ 48
3.1.4. Hoạt động của SVM với các mô hình dữ liệu....................................... 51
3.1.5. Các từ điển sử dụng trong chương trình ............................................... 55
3.2. Môi trường thực nghiệm .......................................................................... 56
3.2.1. Phần cứng .............................................................................................. 56
3.2.2. Phần mềm .............................................................................................. 56
3.3. Thực nghiệm ............................................................................................ 56
3.3.1. Mô tả cài đặt chương trình. ................................................................... 57
3.3.2. Dữ liệu thực nghiệm.............................................................................. 64
3.3.3. Kết quả và đánh giá ............................................................................... 72
3.4. Hướng phát triển ...................................................................................... 73
KẾT LUẬN ..................................................................................................... 74
TÀI LIỆU THAM KHẢO ............................................................................... 76


2


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Ý nghĩa

Các ký hiệu, từ viết tắt
Anaphora (danh từ)

Từ đồng tham chiếu

AR – Anaphora Resolution

Xử lý đồng tham chiếu

CC (Coordinating conjunction)

Liên từ kết hợp (và, nhưng…)

CRF (Conditional Random Fields)

Là mô hình dựa trên xác suất điều
kiện, thường được sử dụng trong gán
nhãn và phân tích dữ liệu tuần tự ví
dụ kí tự, ngôn ngữ tự nhiên.

E (Preposition)

Giới từ (ở, trên, dưới, ….)


Factor

Nhân tố, phần tử, thuộc tính

HMM

Mô hình Markov ẩn

K – NN

Thuật toán k láng giềng gần nhất

Label bias

Một vấn đề xảy ra được mô hình
CRF giải quyết - sự chuyển trạng
thái từ một trạng thái cho trước tới
trạng thái tiếp theo chỉ xem xét xác
suất dịch chuyển giữa chúng, chứ
không xem xét các xác suất dịch
chuyển khác trong mô hình.

M (Numeral)

Số, chữ số (Một, hai, ba…)

MEMM

Mô hình Markov cực đại hóa

entropy

Memory-Based Learner

Bộ học dựa trên bộ nhớ

N (Common noun)

Danh từ thông dụng (họa sĩ, nhà, ..)

Nc (Classifier)

Từ phân loại (cái, chiếc, .....)

3


Np (Proper noun)

Danh từ riêng (HàNội, Hương, ....)

Np– anaphora

Xử lý đồng tham chiếu danh từ

One – anaphora

Xử lý đồng tham chiếu số từ

P (Pronoun)


Đại từ (chị ấy, bà ta, .…)

S – anaphora

Đồng tham chiếu câu

SVM (Support Vector Machine)

Phương pháp máy vector hỗ trợ

TiMBL

Học dựa bộ nhớ là kỹ thuật học máy

(Nearest Neighbors algorithim)

có nguồn gốc từ phương pháp
k – láng giềng gần nhất.

V (Verb)

Động từ (mua, bán, học, ....)

Vp – anaphora

Xử lý đồng tham chiếu động từ

4



DANH MỤC CÁC HÌNH VẼ
Hình 3.1: Mô hình tổng quát xử lý hiện tượng đồng tham chiếu danh từ ...... 36
Hình 3.2: Kết quả file a1a.out......................................................................... 39
Hình 3.3: Ví dụ xác định tập thuộc tính .......................................................... 42
Hình 3.4: Ví dụ chủ ngữ giả ............................................................................ 46
Hình 3.5: Ví dụ câu phức ................................................................................ 46
Hình 3.6: Ví dụ câu ghép ................................................................................ 47
Hình 3.7: Ví dụ đại từ “ông ấy” ..................................................................... 49
Hình 3.8: Ví dụ danh từ “bố tôi” .................................................................... 49
Hình 3.9: Ví dụ đại từ “cô ấy” ....................................................................... 50
Hình 3.10: Ví dụ ghép danh từ ........................................................................ 50
Hình 3.11: Ghép “tôi” và danh từ .................................................................. 51
Hình 3.12: File train ....................................................................................... 53
Hình 3.13: File test ........................................................................................ 53
Hình 3.14: File test đầy đủ .............................................................................. 52
Hình 3.15: File mô hình huấn luyện ............................................................... 52
Hình 3.16: Kết quả phân lớp........................................................................... 52
Hình 3.17: Cấu trúc từ điển danh từ mới........................................................ 55
Hình 3.18: Cấu trúc từ điển đại từ .................................................................. 56
Hình 3.19: Biểu đồ tuần tự .............................................................................. 57
Hình 3.20: Biểu đồ trạng thái máy ................................................................. 58
Hình 3.21: Giao diê ̣n chương trình................................................................. 64

5


DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1: Xác định giá trị các thuộc tính ....................................................... 41
Bảng 3.2: Bộ dữ liệu dùng để thiết kế file train .............................................. 51

Bảng 3.3: Lớp Word ........................................................................................ 59
Bảng 3.4: Lớp Sentence .................................................................................. 59
Bảng 3.5: Lớp NPConnectionXML ................................................................. 60
Bảng 3.6: Lớp Gender ..................................................................................... 61
Bảng 3.7: Lớp DiscoverNpAnaphora ............................................................. 61
Bảng 3.8: Lớp TaggerClass ............................................................................ 62
Bảng 3.9: Lớp NpSolve ................................................................................... 63
Bảng 3.10: Kết quả thử nghiệm với dữ liệu tự tạo.......................................... 64
Bảng 3.11: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực xã hội ................. 66
Bảng 3.12: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực văn hóa .............. 67
Bảng 3.13: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực thể thao .............. 69
Bảng 3.14: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực đời sống ............. 70
Bảng 3.15: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực giáo dục ............. 71

6


MỞ ĐẦU
1. Lý do chọn đề tài khóa luận
Bài toán đồng tham chiếu danh từ trong văn bản là bài toán xác định
các cụm danh từ trong một tài liệu cùng chỉ tới một thực thể xác định trong
thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu.
Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhận được
nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như:
ACL (Association for Computational Linguistics), IJCAI (International Joint
Conference on Artifical intelligence)...Vậy phương pháp nào là tối ưu và đem
lại hiệu quả tốt?
Ngày nay, việc ứng dụng công nghệ vào xử lý ngôn ngữ cũng hết sức
phong phú. Chúng có thể giải quyết các bài toán như xử lý tiếng nói hay xử lý
hình ảnh (speech and image processing), xử lý văn bản (text processing), khai

phá văn bản hoặc web (text and web mining), xử lý đồng tham chiếu trong
văn bản... Tất cả các bài toán đó đều đã được thực hiện bằng máy, tuy nhiên
vấn đề đặt ra là làm thế nào để máy có thể xử lý một cách tự động lại là một
bài toán khó. Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của
con người.
Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, những câu hỏi
thắc mắc rằng: phương pháp nào, cách nào mà máy có thể hiểu và xử lý được
ngôn ngữ tự nhiên, đặc biệt là đối với một ngôn ngữ rất đa dạng và phong phú
như tiếng Việt là lí do để em chọn đề tài “Áp dụng học máy trong xử lý đồng
tham chiếu danh từ trong văn bản tiếng Việt” làm đề tài khóa luận tốt
nghiệp.
Trong phạm vi khóa luận này em sẽ tìm hiểu về một số phương pháp
học máy và chọn ra phương pháp phù hợp để cài đặt, giải quyết bài toán đồng
tham chiếu danh từ trong văn bản tiếng Việt.

7


2. Mục tiêu khóa luận
- Nghiên cứu, tìm hiểu bài toán đồng tham chiếu danh từ trong văn bản
tiếng Việt, các phương pháp tiếp cận để giải quyết bài toán.
- Sử dụng một phương pháp tiếp cận phù hợp, áp dụng mô hình này vào
xây dựng một chương trình chuyên biệt giải quyết bài toán đồng tham chiếu
danh từ trong văn bản tiếng Việt.
3. Nhiệm vụ nghiên cứu
- Nghiên cứu các loại đồng tham chiếu trong tiếng Việt, đi sâu giải
quyết đồng tham chiếu danh từ.
- Đưa ra phương pháp tiếp cận phù hợp và chương trình cài đặt giải
quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt.
4. Phương pháp nghiên cứu

• Phương pháp nghiên cứu tự luận: Đọc và nghiên cứu tài liệu, giáo
trình có liên quan đến bài toán đồng tham chiếu danh từ trong văn bản tiếng
Việt.
• Phương pháp tổng kết kinh nghiệm: Qua việc nghiên cứu, tham
khảo tài liệu, giáo trình từ đó rút ra kinh nghiệm để áp dụng vào việc nghiên
cứu.
• Phương pháp lấy ý kiến chuyên gia: Lấy ý kiến của giảng viên trực
tiếp hướng dẫn, các giảng viên khác để hoàn thiện về mặt nội dung và hình
thức của khóa luận.
5. Đối tượng và phạm vi nghiên cứu
• Đối tượng:
- Cấu trúc ngữ pháp tiếng Việt.
- Một số cách tiếp cận để giải quyết bài toán đồng tham chiếu
danh từ trong văn bản tiếng Việt.

8


• Phạm vi:
- Phương pháp học máy SVM.
- Ngôn ngữ được nghiên cứu là văn bản tiếng Việt.
6. Ý nghĩa khoa học
Nghiên cứu các phương pháp học máy và các giải thuật thường sử dụng
trong học máy. Đã sử dụng thành công phương pháp học máy vector hỗ trợ
(SVM) vào bài toán phân giải đồng tham chiếu danh từ trong văn bản tiếng
Việt.
Học máy là phương pháp học tốn ít thời gian và đảm bảo tối đa hiệu
quả công việc. Phương pháp này có ứng dụng rất cao trong việc trích xuất dữ
liệu, phân loại văn bản, nhận dạng ngôn ngữ văn bản, nhận dạng tiếng nói và
chữ viết, dịch tự động… Đây là kỹ thuật chưa được nghiên cứu phổ biến ở

Việt Nam điều đó mở ra hướng nghiên cứu, ứng dụng mới trong tương lai.
Đây còn là tài liệu tham khảo cho những ai quan tâm đến đề tài này.
7. Bố cục đề tài
Ngoài phần mở đầu, kết luận, tài liệu tham khảo, khóa luận được chia
thành các chương như sau:
Chương 1: Tổng quan về đồng tham chiếu danh từ.
Chương 2: Một số phương pháp học máy trong xử lý đồng tham
chiếu danh từ.
Chương 3: Áp dụng phương pháp học máy SVM trong xử lý đồng
tham chiếu danh từ trong văn bản tiếng Việt.

9


CHƯƠNG 1
TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ
1.1. Tổng quan về tình hình nghiên cứu đồng tham chiếu
- Ngoài nước:
Vấn đề xử lý đồng tham chiếu đã được đề cập và nghiên cứu khá lâu.
Nhiều cách tiếp cận khác nhau bởi nhiều tác giả đã được thực hiện trên nhiệm
vụ xử lý đồng tham chiếu. Hơn nữa nhiều công việc đã được tập trung vào sử
dụng học máy trong những năm gần đây.
+ Hobbs (1978): Cách tiếp cận dựa cú pháp mô tả bởi Hobbs dựa trên
một tập quy tắc khá phức tạp để nghiên cứu kỹ lưỡng cú pháp của văn bản.
Hệ thống của Hobbs tìm kiếm tiền ngữ trong cây phân tích cú pháp.
+ Lappin và Leass (1994): Cách tiếp cận dựa trên yếu tố/chỉ số đề ra
bởi Lappin và Leass sử dụng một tập các yếu tố nổi bật (salience factors) để
xác định tiền ngữ phù hợp nhất cho một từ thay thế cho trước. Một số yếu tố
nổi bật được gán cho tiền ngữ tiềm năng: độ gần câu, nhấn mạnh chủ thể, đối
tượng, nhấn mạnh sự tồn tại, danh từ đầu.

+ Cách tiếp cận thống kê hay học máy dựa trên tài liệu huấn luyện.
Phương pháp này có thể được chia thành phương pháp giám sát và không
giám sát tuỳ thuộc vào loại tài liệu huấn luyện mà chúng sử dụng. Phương
pháp giám sát yêu cầu tài liệu huấn luyện đã được chú thích thông tin về các
loại danh mục mà hệ thống xử lý trong khi điều này không cần thiết cho các
phương pháp không giám sát.
- Trong nước:
Trong những năm gần đây, hệ thống xử lý đồng tham chiếu đã nhận
được sự quan tâm của các nhà nghiên cứu về xử lý ngôn ngữ tự nhiên.
Các giảng viên và sinh viên ở các trường Đại học như: Đại học Bách
Khoa, Đại học Công nghệ… đang có những nghiên cứu về các hiện tượng

10


đồng tham chiếu xảy ra trong tiếng Việt, về các cách tiếp cận khác nhau để
giải quyết đồng tham chiếu. Các nghiên cứu đang hướng tới sử dụng các
phương pháp học máy khác nhau như: SVM, CRF, TiMBL,…Mỗi phương
pháp có đặc thù riêng và việc đánh giá độ chính xác, tin cậy, hiệu suất cũng
khác nhau.Tuy nhiên các nghiên cứu cho tiếng Việt vẫn còn rất nhiều hạn chế.
1.2. Khái niệm đồng tham chiếu
1.2.1. Khái niệm
Trong các bài toán liên quan tới xử lý ngôn ngữ tự nhiên trong văn bản
thì việc xác định quan hệ đồng tham chiếu là một vấn đề quan trọng. Quan hệ
đồng tham chiếu thể hiện tính liên kết giữa hai cụm từ trong văn bản nói riêng
và giữa các câu chứa các cụm từ đó nói chung. Nếu xác định được sự liên kết
này sẽ làm tăng chất lượng trích xuất thông tin tri thức từ tập văn bản.Vì vậy,
chúng ta cần hiểu chính xác thế nào là đồng tham chiếu, để từ đó phát hiện và
xử lý các hiện tượng đó một cách hiệu quả.
Quan hệ đồng tham chiếu là một quan hệ ngữ nghĩa đặc biệt, có rất

nhiều định nghĩa về quan hệ đồng tham chiếu đã được đưa ra. Theo
Véronique Hoste định nghĩa về quan hệ đồng tham chiếu như sau:
“Quan hệ đồng tham chiếu là quan hệ giữa hai hay nhiều cụm từ mà
cùng chỉ tới một thực thể xác định trong thế giới thực.”
Ví dụ: Hồ Hoài Anh là một giảng viên trường thanh nhạc. Anh ấy còn
là một ca sĩ nổi tiếng.
Trong ví dụ trên, đại từ “Anh ấy” và danh từ tên riêng “Hồ Hoài Anh”
có quan hệ đồng tham chiếu vì cùng chỉ về một thực thể người có tên là “Hồ
Hoài Anh”.
Một cách định nghĩa khác về hiện tượng đồng tham chiếu như sau:
Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ hay một cụm
từ để thay thế cho một từ, một cụm từ, một phần câu đã được nhắc đến trước
đó.

11


Xét thêm một ví dụ đơn giản của hiện tượng đồng tham chiếu:
- Ca sĩ Thùy Chi là người ở đâu?
- Cô ấy hiện tại đang ở thành phố Hà Nội.
Trong ví dụ trên, “Cô ấy” chính là đại từ thay thế cho “Thùy Chi”. Vấn
đề đặt ra là làm sao để hệ thống nhận diện được “Cô ấy” chính là từ thay thế
cho “Thùy Chi”.
Hai ví dụ trên chỉ là một trường hợp thường thấy của một dạng đồng
tham chiếu mà ta gặp hàng ngày trong cuộc sống. Xử lý đồng tham chiếu là
một vấn đề cực kỳ khó khăn, nó yêu cầu trang bị cho máy sự hiểu biết về cấu
trúc ngữ pháp, cấu trúc ngữ nghĩa của ngôn ngữ tự nhiên, thậm chí trong
những trường hợp phức tạp nó đòi hỏi cả hiểu biết “thực” trong đời sống. Mặc
dù vấn đề này được nhận diện từ khá sớm nhưng một giải pháp xử lý đồng
tham chiếu hoàn chỉnh vẫn chưa có lời giải cuối cùng. Các giải pháp được

nghiên cứu trong những năm 70, 80 của thế kỷ trước (điển hình là Hobbs
1978) chỉ tập trung vào ngữ pháp của câu và chỉ giải quyết được những
trường hợp không có sự mập mờ về ngữ nghĩa.
Xét trường hợp sau:
- Ông già đi nhanh quá.
Trong câu trên, nghĩa của câu có thể biến đổi tùy theo hoàn cảnh mà
câu được sử dụng.
Có hai cách để hiểu: Ông/già đi nhanh quá. Nếu phân tích như vậy, ta
sẽ hiểu rằng câu nói đang đề cập đến vấn đề tuổi tác – ông cụ đang già đi.
Cách thứ hai: Ông già/đi nhanh quá. Khác với cách phân tích thứ nhất,
cách này cho ta hiểu đang nói đến hành động đi nhanh của một cụ già.
Như vậy, khi đặt trường hợp này vào hiện tượng đồng tham chiếu sẽ
gây khó khăn trong việc phát hiện và xử lý vì sự mập mờ của ngữ nghĩa.
Các nghiên cứu những năm gần đây chủ yếu đi theo hướng kết hợp
giữa phân tích cú pháp và các thuật toán về ngữ nghĩa cùng nhiều cách tiếp

12


cận khác nhau tuỳ từng loại đồng tham chiếu.
1.2.2. Các thành phần trong quan hệ đồng tham chiếu thường gặp
Một quan hệ đồng tham chiếu thường là quan hệ giữa các cặp cụm từ
cơ sở bao gồm: danh từ riêng, cụm danh từ thuần túy, đại từ. Trong đó các
danh từ riêng đóng vai trò quan trọng trong mối quan hệ đồng tham chiếu. Nó
là nền tảng để xác định các cụm đồng tham chiếu trong văn bản.
a. Danh từ riêng
Gồm các tên và thực thể tên như: Tên người, tên tổ chức, tên địa danh...
Ví dụ: • Tên riêng: Hồ Chí Minh, Trường Chinh, Võ Nguyên Giáp…
• Tên tổ chức: WTO, WHO…
• Tên địa danh: Hà Nội, Hải Phòng, Nam Định, Phú Thọ…

b. Đại từ
Bao gồm các loại đại từ nhân xưng, đại từ tân ngữ, đại từ tương hỗ và
đại từ phản thân:
• Đại từ nhân xưng đại diện cho tên người và tên vật: Tôi, cô, anh, nó…
Ví dụ: Tôi thích chơi ghita.
• Đại từ tân ngữ được sử dụng khi người/vật là tân ngữ của câu hay
mệnh đề: anh ấy (him), cô ấy (her) …
Ví dụ: Hằng yêu anh ấy.
• Đại từ tương hỗ: chỉ mối quan hệ tương hỗ: nhau, cả hai …
Ví dụ: Họ cùng giúp đỡ nhau.
• Đại từ phản thân được sử dụng khi một người/vật tác động lên chính
nó: mình.
Ví dụ: Anh ta tự bắn chính mình.
c. Danh từ thuần túy
Là các danh từ chỉ chức vụ, được xét đến nhiều trong trường hợp này
như: bác sĩ, giám đốc…
Ví dụ: Bình là một bác sĩ.

13


1.3. Phân loại đồng tham chiếu
Có một số loại tham chiếu Anaphora, có thể phân loại dựa trên cú pháp
(tức là dựa trên hình thức của chúng) hoặc cơ sở ngữ nghĩa (dựa trên mối
quan hệ từ thay thế – tiền ngữ).
➢ Về mặt hình thức, đồng tham chiếu tồn tại dưới hai dạng:
- Từ được thay thế và từ thay thế nằm cùng trong một câu (intrasententially)
- Từ được thay thế và từ thay thế nằm trong nhiều câu (intersententially)
➢ Về mặt ngữ nghĩa các dạng đồng tham chiếu thường gặp trong tiếng
Việt có:

+ NP-anaphora
+ VP-anaphora
+ S-anaphora
+ “One”anaphora
1.3.1. NP-anaphora
NP-anaphora là từ dùng để chỉ trường hợp một từ thay thế cho một
danh từ hoặc cụm danh từ đã nêu trước nó.
Các đại từ thay thế, bao gồm tất cả các dạng như anh ta (he, his, him),
cô ta (she, her, hers), chúng nó (they, them)…là dạng phổ biến nhất của
NP- anaphora.
Dạng này có thể xảy ra ở cả hai hình thức ở hai câu khác nhau
(intra-sententially) và trong cùng một câu (inter-sententially). Ví dụ:
- Hưng tặng Hảo một bông hoa - Cô ấy đã làm nát nó. (intrasententially)
- Hưng tặng Hảo một bông hoa. Cô ấy đã làm nát nó khi lên xe. (intersententially)
Sự thay thế không nhất thiết phải là trực tiếp mà có thể xảy ra gián tiếp như:

14


- Sau vụ nổ, tất cả các ngôi nhà đều phải thay mái mới. (ở đây – “mái”
có sự liên quan ngầm với “tất cả các ngôi nhà”).
1.3.2. VP-anaphora
VP-anaphora là trường hợp từ thay thế cho động từ hoặc một cụm động
từ đã nói đến ở phía trước.
Ví dụ: Lan đang làm bài tập về nhà. Tôi cũng thế.
Trong ví dụ trên “thế” là từ thay thế cho cụm động từ “đang làm bài tập
về nhà”.
1.3.3. S-anaphora
S-anaphora là trường hợp mà một từ thay thế cho hẳn một câu hoặc
thay thế cho một câu đầy đủ nằm trong một câu bao ngoài đã nêu ở phía

trước. S-anaphora được minh họa thông qua ví dụ sau:
- Bộ phim The Heirs đã đứng đầu trong bảng xếp hạng các phim ăn
khách nhất năm 2013.
- Ôi! Điều đó thật tuyệt.
Trong ví dụ trên thì cụm từ “Điều đó” đã được thay thế cho cả câu ở
phía trước.
Hoặc:
- Tôi thấy chủ tịch Hồ Chí Minh thật vĩ đại.
- Ừ. Tôi cũng nghĩ vậy.
Thì ở đây “vậy” lại dùng để thay thế cho cả một câu con hoàn chỉnh
“chủ tịch Hồ Chí Minh rất vĩ đại”.
1.3.4. “One” anaphora
“One” anaphora là dạng đồng tham chiếu mà ở đó số từ được thay thế
cho một danh từ đứng trước nó.
Xét ví dụ một câu hội thoại sau:
- Anh định đặt mua năm chiếc Nokia Lumia 525 ạ?
- Không, chỉ ba chiếc thôi.

15


Ở đây số từ “ba” đã được dùng để thay thế cho từ “Nokia Lumia 525”.
1.4. Đồng tham chiếu danh từ (Np-anaphora)
Cũng như hiện tượng đồng tham chiếu nói chung, đồng tham chiếu
danh từ là một trường hợp của hiện tượng đồng tham chiếu trong văn bản
tiếng Việt. Trong đồng tham chiếu danh từ, thì từ thay thế được dùng để thay
thế cho một danh từ, hay một cụm danh từ đã được nhắc đến trước đó.
Trong tiếng Việt, sự phong phú về ngữ nghĩa cũng như các đặc trưng
về tên riêng đã tạo nên những khó khăn và thách thức trong việc xử lý đồng
tham chiếu danh từ.

Ví dụ: Bình là người trực tiếp giúp đỡ Hoa và Thái làm bài tập nghiên
cứu. Họ đều là những học viên xuất sắc.
Trong ví dụ trên, “họ” là đại từ chỉ đến cả Bình, Hoa và Thái. Nhưng
máy tính chỉ có hiểu rằng “họ” thay thế cho Hoa và Thái. Như vậy, sẽ gây
khó khăn trong việc xử lý.
Hay một ví dụ khác cho thấy sự đa dạng và phức tạp của đồng tham
chiếu danh từ trong tiếng Việt:
Ví dụ: Hoàng nói yêu Hạnh.
Cô ấy cảm thấy rất hạnh phúc.
Rõ ràng, nếu theo ngữ nghĩa và đặc trưng của tên riêng trong tiếng
Việt, chúng ta hiểu rằng “Cô ấy” ở đây là từ thay thế cho “Hạnh”, xong máy
tính có thể hiểu là “Cô ấy” là từ thay thế cho Hoàng.
Từ hai ví dụ trên cho thấy: Đồng tham chiếu danh từ trong tiếng Việt
rất đa dạng và khá phức tạp. Đây là một dạng đồng tham chiếu cần được đi
sâu nghiên cứu và xử lý.
1.5. Cách tiếp cận để xử lý đồng tham chiếu danh từ
1.5.1. Xử lý đồng tham chiếu
Quá trình xử lý đồng tham chiếu thường theo ba bước:
Bước 1: Nhận diện các từ thay thế

16


Bước 2: Xác định các ứng viên tiền ngữ
Bước 3: Lựa chọn ứng viên tiền ngữ có khả năng nhất
Cụ thể:
1. Nhận diện các từ thay thế: liên quan đến việc xác định các biểu hiện
tham chiếu và nó là nhiệm vụ phức tạp vì không phải tất cả các đại từ là đồng
tham chiếu. (Ví dụ: Nó là quan trọng để lưu ý...) và ít các mô tả đồng tham
chiếu rõ ràng trong ngữ liệu điển hình.

2. Xác định các ứng viên tiền ngữ: nói đến quá trình tìm kiếm các tiền
ngữ tiềm năng trong nguồn biểu diễn, trong đó bao gồm việc duyệt qua tất cả
các tiền ngữ có thể và lựa chọn tiền ngữ nào mà phù hợp với từ thay thế. Hạn
chế kích thước của tập các tiền ngữ có thể là quan trọng đối với vấn đề hiệu
suất và được thực hiện bằng cách xác định một phạm vi tìm kiếm.
Xác định mỗi tiền ngữ sẽ được thực hiện trong hai hoặc ba câu phía
trước từ thay thế. Điều này dựa trên thực tế rằng nhiều cách tiếp cận xử lý
đồng tham chiếu đại từ sử dụng phạm vi này cho kết quả thoả mãn.
Một khi các từ thay thế và ứng viên tiền ngữ được xác định, thì sẽ lựa
chọn ứng viên nhiều khả năng nhất.
3. Bước xử lý cuối cùng là lựa chọn một tiền ngữ từ tập các ứng viên,
sau đó tiền ngữ được đề xuất hoặc số “-1” được trả về nếu không có tiền ngữ
phù hợp được tìm thấy. Quá trình lựa chọn này có xét đến một loạt các yếu tố
xử lý đồng tham chiếu mà có thể hoạt động ở các mức độ khác nhau
(Ví dụ: hình thái cú tháp, ngữ nghĩa, ngôn từ) những yếu tố này được hạn chế
trong dạng các ràng buộc hoặc độ ưu tiên, từ đó các ứng viên thoả mãn có cơ
hội tốt hơn được lựa chọn.
1.5.2. Nguồn kiến thức cần thiết cho xử lý đồng tham chiếu tự động
- Hình thái học và kiến thức từ vựng: Hình thái học và thông tin từ
vựng như từ loại, giới tính, số và người là cần thiết để xử lý đồng tham chiếu.
Trước tiên chúng cung cấp thông tin cần thiết để xác định loại Anaphora, đại

17


từ. Thứ hai chúng giúp làm rõ tiền ngữ trên cơ sở sự đồng nhất về giới tính và
số, và thứ ba chúng cũng là cần thiết cho mức độ xử lý tiếp theo
(Ví dụ: phân tích cú pháp…).
- Hình thức cú pháp: Cú pháp cung cấp thông tin quan trọng về các
thành phần (Ví dụ: Np, mệnh đề, câu...) làm cơ sở cho việc xác định các

Anaphora và các tiền ngữ tiềm năng, làm cơ sở cho việc phân định phạm vi
tìm kiếm các tiền ngữ (Ví dụ: cách phát âm), cú pháp còn cung cấp một số
loại Anaphora như từ phản thân, thông tin cần thiết để xác định các ràng buộc
chặt trên những liên kết nào có thể và không thể đồng tham chiếu.
- Kiến thức ngữ nghĩa: thông tin về hạn chế lựa chọn rất hữu ích trong
việc thực hiện các ràng buộc về những loại liên kết nào là hợp lệ (có ý nghĩa)
và loại liên kết nào là không hợp lệ.
- Kiến thức ngôn từ: Xử lý đồng tham chiếu phần lớn là một hiện tượng
diễn ngôn, góp phần trực tiếp đến mức độ gắn kết và tính mạch lạc hiển thị
bằng diễn ngôn, một số loại tham chiếu chỉ cần một khái niệm cục bộ của cấu
trúc diễn ngôn (Ví dụ: đại từ) trong khi những loại khác là toàn cục
(Ví dụ: các mô tả xác định).
- Kiến thức thế giới thực: Loại kiến thức này là cần thiết cho việc giải
quyết nhiều loại tham chiếu như “WTO”, “Đức Giáo Hoàng”, “Mỹ”, và nó là
một trong những khó khăn nhất để viết mã và biểu diễn xử lý đồng tham
chiếu.
1.5.3. Các yếu tố xử lý đồng tham chiếu
Dưới đây là một số yếu tố ảnh hưởng đến hiệu suất xử lý đồng tham
chiếu:
• Sự đồng thuận về giới tính và số
Cả từ thay thế và tiền ngữ phải đồng nhất về số và giới tính.
Ví dụ: Tuấn và Tùng đã đến sân vận động. Họ đã ở đó cả buổi sáng.

18


Ở ví dụ trên có thể xác định hai từ thay thế trong câu thứ hai. Đại từ chỉ
người - số nhiều - ngôi thứ ba – nam giới “Họ” và trạng từ chỉ vị trí “đó” bằng
cách phân tích câu trước đó, hai Np (“Tuấn và Tùng” và “sân vận động” được
xác định là ứng viên tiền ngữ có thể. Bằng cách sử dụng một yếu tố đồng

thuận về giới tính và số có thể xác định “Tuấn và Tùng” là tiền ngữ của từ
thay thế thuộc về đại từ, “Họ” và “đó” là một từ thay thế thuộc trạng ngữ có
“sân vận động” là tiền ngữ của nó.
Như vậy các danh từ và đại từ thường được đánh dấu rõ ràng bằng giới
tính và số, yếu tố này có tầm quan trọng lớn trong quá trình xử lý đồng tham
chiếu.
• Giới hạn lựa chọn
Yếu tố này cũng được gọi là sự hạn chế ngữ nghĩa, nếu một giới hạn
lựa chọn được áp dụng cho một từ thay thế, nó cũng nên được áp dụng cho
tiền ngữ của nó. Hãy xét ví dụ sau:
- Huyền lấy thức ăn trong hộp ra và ăn nó.
- Huyền lấy thức ăn trong hộp ra và rửa nó.
Trong ví dụ trên giới hạn ngữ nghĩa áp dụng cho đại từ thay thế “nó”
phải được áp dụng cho tiền ngữ của nó. Mặc dù thực tế có ba ứng viên tiền
ngữ số ít - giống cái cho đại từ “nó” (Huyền, thức ăn, hộp). Huyền được loại
bỏ vì danh từ chỉ người, chỉ một trong số chúng có thể thoả mãn đầy đủ các
ràng buộc phân bố tương ứng với động từ “ăn” và “rửa”. Trong ví dụ thứ nhất
“nó” có thể là “ăn” vì vậy tiền ngữ là “thức ăn”. Trong ví dụ thứ hai “nó” có
thể là “rửa cái hộp”, vì vậy tiền ngữ là “hộp”.
• Cụm danh từ gần nhất
Đây là một yếu tố còn yếu cho xử lý đồng tham chiếu, thường Np gần
nhất mà phù hợp về giới tính và số với từ thay thế có thể là tiền ngữ đúng,
nhưng điều này không phải luôn là như vậy.
Ví dụ: Lan nhờ Trang giúp đỡ cô ấy.

19


Khi Np gần nhất là “Trang” nó sẽ được chọn là tiền ngữ cho “cô ấy”
nhưng trong trường hợp này tiền ngữ là “Lan” vì mệnh đề còn phụ thuộc vào

động từ “nhờ” và động từ này đặt ra rằng chủ ngữ của câu nguyên thể là đồng
tham chiếu với tân ngữ gián tiếp, vì vậy đại từ chỉ cách chỉ có thể tham chiếu
tới chủ ngữ chính của câu.
• Ưu tiên chủ ngữ
Yếu tố này ưu tiên cho chủ ngữ của câu trước đó là tiền ngữ của đại từ
chủ ngữ.
Ví dụ: Huấn gọi Thắng. Anh ấy muốn hỏi anh ta để mượn xe.
Chủ ngữ của ví dụ trên “Huấn” là tiền ngữ của từ tham chiếu “Anh ấy”.
Tuy nhiên ưu tiên này không quá mạnh.
Ví dụ: Huấn gọi Thắng. Anh ấy không trả lời điện thoại.
Người không trả lời điện thoại là “Thắng”, trong trường hợp này ưu
tiên chủ ngữ không vững chắc.
Như chúng ta thấy một số yếu tố có thể được xem là quan trọng hơn so
với yếu tố khác, chủ yếu là do đặc điểm ngôn ngữ được phân tích. Chẳng hạn
trong tiếng Việt sự đồng thuận về giới tính và số là yếu tố mạnh hơn so với
cụm danh từ gần nhất, khi chúng ta loại trừ một số ứng viên dựa trên giới tính
và số của từ thay thế và ứng viên. Mặt khác yếu tố tương tự, như khoảng cách
tương đối giữa từ thay thế và các ứng viên tiền ngữ không phải là yếu tố quyết
định hoàn toàn trong quá trình xử lý đồng tham chiếu. Tuy nhiên điều này
không có nghĩa rằng một vài yếu tố yếu hơn được xem là không đáng kể.
Trong việc xác định tiền ngữ đồng tham chiếu, việc sử dụng kết hợp một số
yếu tố xử lý đồng tham chiếu với nhau sẽ cho độ tin cậy lớn hơn.

20


CHƯƠNG 2
MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ
ĐỒNG THAM CHIẾU DANH TỪ
2.1. Phương pháp máy vector hỗ trợ (SVM)

2.1.1. Định nghĩa và cơ sở của phương pháp SVM
Phương pháp máy vector hỗ trợ SVM ra đời từ lý thuyết học thống kê
do Vapnik và Chervonekis xây dựng năm 1995, và có nhiều tiềm năng phát
triển về mặt lý thuyết cũng như ứng dụng trong thực tế. SVM là một họ các
phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro ước
lượng.
Bài toán cơ bản của SVM là bài toán phân loại hai lớp: Cho trước n
điểm trong không gian d chiều (mỗi điểm thuộc vào một lớp kí hiệu là (+1)
hoặc (–1)). Mục đích của giải thuật SVM là tìm một siêu phẳng (hyperplane)
phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các
điểm cùng một lớp nằm về một phía với siêu phẳng này.
Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân
loại khá tốt đối với bài toán phân lớp cũng như trong nhiều ứng dụng khác
(ước lượng hồi quy, nhận dạng chữ viết tay…).
Đố i với bài toán xử lý đồ ng tham chiế u danh từ, tư tưởng chính khi sử
du ̣ng hướng tiếp cận này là dùng bộ phân lớp để xác định xem một cụm từ có
đồng tham chiếu với một tiền ngữ ứng viên trước nó hay không.
Nếu coi các cụm từ đồng tham chiếu bao gồm cả thực thể tên, danh từ,
đại từ kí hiệu là NPi thì các nhóm cụm từ đồng tham chiếu được kí hiệu là
{NPi}. Trong mỗi nhóm, mỗi cặp NPi đều là đồng tham chiếu của nhau. Vì lý
do này, bài toán bây giờ trở thành: tìm tất cả các cặp cụm từ tiềm năng có
quan hệ đồng tham chiếu của nhau trong văn bản tiếng Việt. Tuy nhiên, vấn
đề quan trọng nhất vẫn là việc xác định tính chất đồng tham chiếu của một

21


cặp cụm từ tiềm năng. Dựa trên tư tưởng phương pháp máy vector hỗ trợ
(SVM) vừa được giới thiệu trong phần trên, coi mỗi cặp này thể hiện một
quan hệ, mỗi quan hệ này được biểu diễn bởi một vector các đặc trưng tương

ứng với miền dữ liệu tiếng Việt, ý tưởng giải quyết vấn đề này là sử dụng một
bộ phân lớp. Bộ phân lớp này có vai trò xác định xem vector đặc trưng trên
thuộc lớp nào trong 2 lớp: Lớp nhãn (1) là các cặp có quan hệ đồng tham
chiếu và lớp nhãn (-1) là các cặp không có quan hệ đồng tham chiếu. Sau đó
các cặp có quan hệ đồng tham chiếu với nhau được nhóm cùng vào một
nhóm.
Ngoài ra, trong một văn bản có nhiều câu, trong một câu có thể có một
hoặc nhiều các cụm từ tiềm năng như: thực thể tên, danh từ, đại từ. Như vậy,
bài toán còn liên quan tới bài toán ghép cặp các cụm từ trong các câu với
nhau.
Ý tưởng giải quyết bài toán được mô tả cụ thể như sau:
• Văn bản đầu vào được tiến hành tách câu tạo thành một tập các câu.
Trên mỗi câu tiến hành nhận dạng thực thể và gán nhãn từ loại, ta được một
tập các cụm từ tiềm năng NPi như đã nói ở trên. Tiến hành ghép cặp các cụm
từ trong một câu với nhau và các câu khác ở phía trước nó.
• Mỗi một cặp cụm từ thể hiện cho một quan hệ. Mỗi quan hệ này sẽ
tương ứng với một vector đặc trưng.
• Tiến hành tạo bộ phân lớp nhị phân các quan hệ vào 2 lớp: lớp (1)
tương ứng với cặp có quan hệ đồng tham chiếu, lớp (-1) tương ứng với cặp
không có quan hệ đồng tham chiếu.
• Nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một
nhóm.
Mô hình giải quyết bài toán đồng tham chiếu, cụ thể là mô hình trích
chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt chia làm hai phần

22


chính: phần xây dựng bộ dữ liệu học và phần áp dụng mô hình học máy để
xác định các nhóm đồng tham chiếu.

2.1.2. Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản
tiếng Việt
Như ý tưởng đã trình bày ở phần trước, mô hình trích chọn đồng tham
chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ sử
dụng một bộ phân lớp để nhận dạng các cặp cụm từ có quan hệ đồng tham
chiếu sẽ được xây dựng. Tuy nhiên, để xây dựng bộ phân lớp trên đòi hỏi phải
có một bộ dữ liệu học ban đầu.
2.1.2.1. Xây dựng bộ dữ liệu học
Một trong các bước quan trọng của phương pháp SVM là việc xây
dựng bộ dữ liệu học. Đây là một quá trình cần thiết.
Việc xây dựng bộ dữ liệu học được mô tả qua hai bước sau:
Bước 1: Thu nhập dữ liệu thô
Dữ liệu ban đầu có thể nhập tay, hoặc sử dụng một công cụ thích hợp
để tải tự động các thông tin, tài liệu từ các trang web có sẵn.
Tiếp đến, sẽ có thành phần bóc tách nội dung chính dữ liệu thô vừa thu
thập được theo các đặc trưng riêng đã được xác định trước.
Bước 2: Xây dựng bộ học dữ liệu
Tập dữ liệu thô thu thập ở bước trên được đưa qua các bước tiền xử lý:
gán nhãn, nhận dạng, ghép cặp các cụm từ tiềm năng… Sau đó với mỗi cặp
cụm từ tiềm năng sinh một vector đặc trưng tương ứng. Tập vector đặc trưng
này sẽ được gán nhãn bằng tay. Nếu cặp cụm từ có quan hệ đồng tham chiếu,
vector tương ứng sẽ được gán nhãn là 1, ngược lại sẽ được gán nhãn là -1.
Cuối cùng, tập vector đặc trưng đã gán nhãn được cho vào huấn luyện để xây
dựng bộ phân lớp SVM.
Dưới đây là mô hình dữ liệu học:

23


Hình 2.1: Mô hình dữ liệu học.

2.1.2.2. Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản
tiếng Việt
Từ ý tưởng của phương pháp học máy SVM, ta sẽ thiết lập được một
mô hình trích chọn quan hệ đồng tham chiếu trong văn bản trong tiếng Việt
bao gồm ba pha chính: pha tiền xử lý có vai trò nhận dạng và sinh tập các
cụm từ tiềm năng, pha sinh vector đặc trưng có nhiệm vụ ghép cặp các cụm từ
tiềm năng và sinh tập các vector đặc trưng tương ứng, pha nhận dạng dựa trên
bộ phân lớp SVM được học để xác định các cặp cụm từ đồng tham chiếu và
gom nhóm chúng lại với nhau.Làm theo các bước đó ta có một mô hình trích
chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt như sau:

Hình 2.2: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản
tiếng Việt với mô hình SVM.

24


a. Pha tiền xử lý:
Đầu vào: Văn bản tiếng Việt
Đầu ra: Tập các câu và các cụm từ đã nhận dạng trong câu tương ứng
b. Pha sinh vector đặc trưng:
Trong pha này gồm hai thành phần xử lý con
b.1. Ghép cặp:
Đầu vào: Tập các câu và các thành phần đã nhận dạng
Đầu ra: Tập các cặp từ các thành phần đã nhận dạng
b.2. Sinh vector đặc trưng:
Mỗi một cặp ở trên tương ứng với một quan hệ. Mỗi một quan hệ được
biểu diễn bởi một vector đặc trưng. Trong khóa luận đề cập đến bảy loại đặc
trưng chính như sau:
• Đặc trưng chủ ngữ (Subject Feature): Cụm từ đang xét có phải là chủ

ngữ (chủ thể) của câu hay không?
• Đặc trưng số (ít/nhiều - Number Feature): Kiểm tra số lượng biểu diễn
trong cặp cụm từ đang xét: Cùng số ít/nhiều, hay không cùng số ít/nhiều.
• Đặc trưng giới tính (Gender Feature): Kiểm tra giới tính (nam/nữ) biểu
diễn trong cặp cụm từ đang xét.
• Đặc trưng vị trí (Position Feature): Thể hiện đặc trưng về vị trí của câu
chứa cụm từ trong tập các câu đã xử lý hoặc đặc trưng về vị trí của cụm từ
trong câu.
• Đặc trưng về lớp (Class Feature): Cặp cụm từ tiềm năng đang xét có
thuộc cùng lớp (người/vật) hay không.
• Đặc trưng về vị ngữ: Cụm từ đang xét có phải là vị ngữ (đối tượng) của
câu hay không.
• Đặc trưng danh từ: Kiểm tra xem N (danh từ) đang xét có phải là danh
từ riêng không.

25


×