Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
iiiiiiiiiiii
2010
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
i
i
i
i
i
i
i
1. Thông tin về sinh viên
i
i
i
i
i
Họ và tên sinh viên: .Đỗ Thái Hà
i
i
i
i
i
ii
i
i
Điện thoại liên lạc: 0917290 254
i
Lớp:
i
i
i
i
iiiiiiii
Email:
ii
Hệ Thống Thông Tin K-50
i
i
i
i
Hệ đào tạo: Đại học chính quy
i
i
i
ii
i
i
i
Đồ án tốt nghiệp được thực hiện tại: Bộ môn Hệ Thống Thông Tin – Viện Công nghệ thông
tin và truyền thông – Trường Đại học Bách Khoa Hà Nội
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Thời gian làm ĐATN: Từ ngày
i
i
/
iiiii iiiii
i
i
i
i
/2010 đến
ii
i
i
i
i
i
i
i
i
/
iiiii iiiii
/2010
2. Mục đích nội dung của ĐATN
i
i
i
i
i
i
Mục tiêu của đồ án là đưa ra được phương pháp xử lý cho phân giải đồng tham
chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt, ít nhất là cho các trường hợp
hội thoại thông dụng nhất.
iiiiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
3. Các nhiệm vụ cụ thể của ĐATN
i
i
i
i
i
i
i
Phân loại hiện tượng đồng tham chiếu và tỉnh lược.
Phân tích đưa ra thuật tốn xử lý các trường hợp nhỏ của hiện tượng phân giải đồng
tham chiếu và tỉnh lược.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
iiiiiii
i
i
i
i
i
i
i
i
i
Kết hợp các thuật toán xử lý để xử lý được tất cả các trường hợp của phân giải đồng
tham chiếu và tỉnh lược.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Cài đặt chương trình , kết hợp với hệ thống hội thoại người – máy.
Tổng kết, đánh giá hiệu quả đồ án
i
i
i
i
i
i
i
i
i
i
i i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
4. Lời cam đoan của sinh viên:
i
i
i
i
i
i
Tôi – Đỗ Thái Hà - cam kết ĐATN là cơng trình nghiên cứu của bản thân tôi dưới sự hướng
dẫn của Tiến sĩ Lê Thanh Hương.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Các kết quả nêu trong ĐATN là trung thực, khơng phải là sao chép tồn văn của bất kỳ cơng
trình nào khác.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
1
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Hà Nội, ngày tháng năm
Tác giả ĐATN
i
i
iiii
i
ii
i
Họ và tên sinh viên
i
i
i
i
5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo vệ:
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Hà Nội, ngày tháng năm
Giáo viên hướng dẫn
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
iiii
i
ii
i
2
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
TĨM TẮT NỘI DUNG ĐỒ ÁN TƠT NGHIỆP
i
i
i
i
i
i
i
Ngơn ngữ tự nhiên luôn rất đa dạng và phong phú bất kể ngôn ngữ bạn sử dụng là ngôn
ngữ nào. Vì thế việc ánh xạ từ ngơn ngữ tự nhiên vào trong các hệ thống máy tính là một vấn
đề vô cùng phức tạp thu hút sự quan tâm nghiên cứu của nhiều chuyên gia. Một hệ thống hội
thoại tự động lý tưởng hiện tại vẫn chỉ là mơ ước của các chun gia máy tính.Bài tốn xây
dựng một hệ thống như thế cịn rất nhiều thách thức chưa có lời giải tồn vẹn. Để làm cho
máy tính “người” hơn, vấn đề về phân giải đồng tham chiếu và hiện tượng tỉnh lược trong
hội thoại là vấn đề không thể không quan tâm nghiên cứu.
iiiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Đồ án gồm 3 phần lớn.
i
i
i
i
i
Phần I : Tổng quan.
i
i i
i
Nội dung của phần này là nêu nên cái nhìn tổng quan về đề tài.Các ý lớn trong phần này :
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Nêu lên mơ hình tổng qt : Đề tài nghiên cứu về một hệ thống nằm trong hệ thống
hội thoại người – máy bằng tiếng Việt
Tóm tắt tình hình nghiên cứu trên thế giới và tình hình nghiên cứu vấ đề tại Việt
Nam . Phân tích các khó khăn đồ án gặp phải : ngữ pháp phức tạp, từ đa nghĩa, nhập
nhằng đại từ quan hệ
Mục tiêu và hướng tiếp cận của đồ án : không hướng vào chiều sâu mà hướng vào
chiều rộng – xây dựng chương trình giải quyết tổng hợp các trường hợp hay gặp của
cả đồng tham chiếu và tỉnh lược trong hội thoại.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Phần 2 : Nội dung chính.
i
i i
i
i
Phần này trình bày các hướng tiếp cận cụ thể cho từng khía cạnh của vấn đề, tổng hợp các
thuật toán. Các ý lớn trong phần này bao gồm:
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Phân tích cơ bản ngữ pháp tiếng Việt, quan tâm chủ yếu đến cấu trúc danh từ, động
từ, đại từ, cấu trúc câu trần thuật và câu nghi vấn
Phân loại hiện tượng đồng tham chiếu và tỉnh lược, đưa ra cách tiếp cận cho từng
loại.
Đưa ra kiến trúc từ điển kép theo cây Sematic
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Phần 3 : Cài đặt hệ thống
i
i
i i
i
i
i
Phần này đi sâu vào việc xây dựng và cài đặt chương trình.Các ý lớn gồm có :
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Các thiết kế mơ hình tổng qt của hệ thống
Kết quả kiểm thứ và đánh giá
Hướng phát triển tương lai .
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
3
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Lời cảm ơn
i
i
Để hoàn thành tốt đồ án này, em xin cảm ơn các thầy giáo, cô giáo bộ môn hệ
thống thông tin, các thầy giáo, cô giáo khoa Công nghệ thông tin cũng như các thầy cô
của trường Đại học Bách Khoa Hà Nội đã dìu dắt em trong suốt năm năm đại học.
i i i i i i i i i i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Em xin gửi lời cảm ơn sâu sắc nhất tới cô giáo TS. Lê Thanh Hương, người đã
định hướng, giúp đỡ em có được những tri thức, hiểu biết để hoàn thành đồ án này.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Con xin cảm ơn bố mẹ, những người thân đã luôn ở bên con, động viên và tạo
mọi điều kiện cho con trong quá trình làm đồ án.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Xin cảm ơn bạn bè đã luôn động viên, giúp đỡ tôi mỗi khi tôi cần.
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
i
i
i
i
4
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Mục lục
i
PHIẾUi GIAOi NHIỆMi VỤi ĐỒi ÁNi TỐTi NGHIỆP...................................................................1
Danhi mụci cáci từi viếti tắti vài thuậti ngữi Tiếngi Anh.................................................................8
Danhi mụci cáci bảng............................................................................................................ 9
PHẦNi Ii .i TỔNGi QUAN......................................................................................................11
CHƯƠNGi 1.i TỔNGi QUAN...............................................................................................11
1.1i Đặti vấni đề............................................................................................................... 11
1.2.i Mơi hìnhi tổngi qt...................................................................................................11
1.3.i Cáci cáchi tiếpi cậni trongi phâni giảii đồngi thami chiếui vài hiệni tượngi tỉnhi lượci trongi hộii
thoại.............................................................................................................................. 12
1.3.1.i Cáci cáchi tiếpi cậni trêni thếi giới..........................................................................12
1.3.2.i Nhữngi vấni đềi còni tồni tại..................................................................................12
1.3.3.i Phâni giảii đồngi thami chiếui vài hiệni tượngi tỉnhi lượci trongi hộii thoạii tiếngi Việt.....13
1.4.i Nhữngi khói khăni chínhi củai bàii toáni phâni giảii đồngi thami chiếui vài tỉnhi lượci trongi hộii
thoạii tiếngi Việt............................................................................................................... 13
1.4.1.i Ngữi phápi phứci tạp...........................................................................................13
1.4.2.Nhậpi nhằngi trongi việci táchi từi vài phâni loạii từ...................................................14
1.4.3.i Sựi nhậpi nhằngi ,i đai nghĩai củai đạii từ.................................................................14
1.5.i Mụci tiêu,i giớii hạni vài hướngi tiếpi cậni củai đồi án.......................................................15
PHẦNi II.i GIẢIi QUYẾTi VẤNi ĐỀ.........................................................................................16
CHƯƠNGi 2.i PHÂNi LOẠIi HIỆNi TƯỢNGi ĐỒNGi THAMi CHIẾUi VÀi TỈNHi LƯỢC...............16
2.1.i Hiệni tượngi đồngi thami chiếui –i Anaphora................................................................16
2.1.1.Địnhi nghĩa........................................................................................................16
2.1.2.i Phâni loại..........................................................................................................17
2.2.i Hiệni tượngi tỉnhi lượci -i Elliptics................................................................................19
2.2.1.i Địnhi nghĩa........................................................................................................19
2.2.2.Phâni loại........................................................................................................... 19
CHƯƠNGi 3i .i SƠi LƯỢCi CẤUi TRÚCi TIẾNGi VIỆT.............................................................20
3.1.i Danhi từi vài cụmi danhi từ..........................................................................................20
3.2.i Độngi từi vài cụmi độngi từ..........................................................................................22
3.3.i Cáci loạii từi khác......................................................................................................25
3.4.i Cáci dạngi câu..........................................................................................................28
a.i i Câui trầni thuật........................................................................................................28
b.i Câui nghii vấn.......................................................................................................... 29
c.i i Câui cầui khiến........................................................................................................32
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
5
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
d.i i Câui cảmi thán........................................................................................................32
CHƯƠNGi 4i .i XÂYi DỰNGi THUẬTi TOÁNi XỬi LÝi HIỆNi TƯỢNGi ĐỒNGi THAMi CHIẾUi VÀi
TỈNHi LƯỢCi TRONGi TIẾNGi VIỆT....................................................................................33
4.1.i Hiệni tượngi đồngi thami chiếui trongi tiếngi Việti vài hướngi tiếpi cận..............................33
4.1.1i .i Np-i anaphorai .................................................................................................33
4.1.2.i “One”i anaphora................................................................................................37
4.1.3.i VP-i anaphora...................................................................................................37
4.1.4.i S-i anaphora.....................................................................................................38
4.2.i Hiệni tượngi tỉnhi lượci câui vài hướngi tiếpi cận............................................................38
4.2.1.i Tỉnhi lượci ngữi phápi -i Contextuali ellipsisi ..........................................................38
4.2.2.i Hướngi tiếpi cận.................................................................................................40
4.3.i Tổngi hợp................................................................................................................ 41
4.3.1.Hướngi giảii quyếti mốii quani hệi chủi ngữi -i độngi từi -i bổi ngữ.................................41
4.3.2.i Hướngi xâyi dựngi cơi sởi dữi liệui từi điểni mới........................................................42
4.3.2.1.i Nguyêni nhân.................................................................................................42
4.3.2.2.i Cấui trúci từi điểni mới......................................................................................42
4.3.3.Tổngi hợpi cáci phươngi pháp..............................................................................48
PHẦNi 3.i XÂYi DỰNGi HỆi THỐNG.....................................................................................50
CHƯƠNGi 5.i THIẾTi KẾi HỆi THỐNG..................................................................................50
5.1.i Giớii hạni bàii tốn....................................................................................................50
5.2.i Vịi tríi củai hệi thốngi trongi hệi thốngi hộii thoạii tổngi hợp...............................................50
5.3.i Thiếti kếi cáci usecasei chính.....................................................................................51
5.3.1.i Biểui đồi tuầni tự.................................................................................................51
5.3.2.Biểui đồi trạngi tháii máy.......................................................................................52
5.4.i Thiếti kếi cáci góii chươngi trình..................................................................................52
5.4.1.i Góii truyi nhậpi cơi sởi dữi liệui –i XMLdataConnection...........................................53
5.4.2.i Góii Tiềni xửi lýi –i PrepareStructure.....................................................................54
5.4.3.i Góii pháti hiệni hiệni tượngi ngơni ngữi -i Discover..................................................56
5.4.4.i Góii xửi lýi cáci hiệni tượngi ngơni ngữ...................................................................58
5.5.i Thiếti kếi lớp............................................................................................................. 61
CHƯƠNGi 6.i THỬi NGHIỆMi VÀi ĐÁNHi GIÁi KẾTi QUẢ.......................................................63
6.1.i Kiểmi thử................................................................................................................. 63
6.1.1.i Giaoi diệni củai chươngi trình..............................................................................63
6.1.2.i Thửi nghiệmi vài kếti quả.....................................................................................64
6.2.Đánhi giái kếti quả......................................................................................................66
CHƯƠNGi 7.i KẾTi LUẬNi VÀi HƯỚNGi PHÁTi TRIỂN..........................................................68
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
6
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
7.1.i Nhậni xéti ưui vài khuyếti điểm....................................................................................68
7.1.1.i Ưui điểm........................................................................................................... 68
7.1.2.Khuyếti điểmi vài tồni tại.......................................................................................68
7.2.Hướngi pháti triểni choi tươngi lai................................................................................69
Tàii liệui thami khảo......................................................................................................... 71
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
7
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Danh mục các từ viết tắt và thuật ngữ Tiếng Anh
i
i
i
STT
i
i
i
i
i
i
i
Từ
Giải nghĩa
i
1
antecedent
Tiền ngữ - từ/câu bị thay thế
2.
Anaphora
Phân giải đồng tham chiếu
3.
S - Anaphora
Phân giải đồng tham chiếu câu
4.
VP - Anaphora
Phân giải đồng tham chiếu động từ
5.
One - anaphora
Phân giải đồng tham chiếu số từ.
6
NP – anaphora
Phân giải đồng tham chiếu danh từ
7
Pronominal
Phân giải đồng tham chiếu đại từ
8
Definite NP
Phân giải đồng tham chiếu đại từ xác định
9
Elliptics
Hiện tượng tỉnh lược
10
Contextual ellipsis
11
Pragmatic ellipsis
Tỉnh lược ngữ cảnh.
12
Prefer- Constraint
Ràng buộc thêm (không bắt buộc)
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Tỉnh lược ngữ pháp.
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
i
i
8
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Danh mục các bảng
i
i
i
a.i Lớpi NounConnection....................................................................................................50
b.i Góii VerbConnection......................................................................................................50
a.i Lớpi WordStruct............................................................................................................. 51
b.i Lớpi SentenceStruct......................................................................................................51
c.i Lớpi PrepareStructure....................................................................................................52
a.i EcllipsisDiscover:IDisCoverInterface............................................................................53
b.i Lớpi NPAnaphoraDisCover...........................................................................................53
c.i VPAnaphoraDisCover...................................................................................................54
d.i OneAnaphoraDisCover.................................................................................................54
e.i SAnaphoraDiscover......................................................................................................55
a.Lớpi NPAnaphoraResolve..............................................................................................55
b.i Lớpi VPAnaphoraResolve.............................................................................................56
c.Lớpi SPAnaphoraResolve..............................................................................................56
d.Lớpi OneAnaphoraResolve............................................................................................56
e.Lớpi EcllipsisResolve......................................................................................................57
f.i Lớpi MergeClassi –i Đâyi lài lớpi tổngi hợpi cáci thuậti toáni đểi xửi lýi chung.............................57
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
9
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
Danh mục các hình vẽ
i
i
i
i
Hìnhi 1i -i Mơi phỏngi thuậti tốni Hobbs.................................................................................33
Hìnhi 2i -i Mơi phỏngi quani hệi từi vựng...................................................................................39
Hìnhi 4i -i Biểui đồi trạngi tháii máyi tổngi quát..........................................................................51
Hìnhi 5i -i Minhi họai sơi đồi hoạti độngi giaii đoạni nhậni diệni câu...............................................51
Hìnhi 6-i Hìnhi biểui đồi lớpi góii nhậni diệni câu........................................................................60
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
10
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
PHẦN I . TỔNG QUAN
i
i i
i
CHƯƠNG 1. TỔNG QUAN
i
i
i
1.1 Đặt vấn đề.
Trong khoảng ba mươi năm gần đây, công nghệ thông tin đã, đang rất quan tâm
nghiên cứu đên lĩnh vực xử lý ngôn ngữ tự nhiên nhằm đạt được mục tiêu làm cho
máy tính có thể hiểu và trả lời như con người, khiến máy tính càng ngày càng giống
người.
i
i
i
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Một trong những hướng nghiên cứu quan trọng trong lĩnh vực xử lý ngôn ngữ tự
nhiên là hướng xây dựng một hệ thống hội thoại tự động giữa người và máy. Tuy vẫn
chưa thể làm cho máy tính có thể “giống người” nhưng trong những năm qua, lĩnh
vực này đã đạt được những thành công bước đầu không chỉ với Tiếng Anh mà cịn với
cả một số ngơn ngữ khác nữa.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Để máy tính có thể hiểu ngơn ngữ tự nhiên, một phần không thể thiếu được là
việc xử lý hiện tượng đồng tham chiếu và tỉnh lược trong hội thoại. Với tiếng Việt,
hiện tượng này cũng đã bắt đầu được quan tâm chú ý trong những năm gần đây, hiện
tượng đồng tham chiếu, tỉnh lược đã được nghiên cứu một cách riêng rẽ, mặc dù vậy
một nghiên cứu tổng hợp cả hai phương diện trên vẫn là một thiếu sót cần được bổ
sung.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
1.2. Mơ hình tổng qt.
Tổng qt bài toán xử lý hiện tượng đồng tham chiếu và tỉnh lược trong hội thoại
gồm 3 bước chính:
i
i
i
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Bước 1 : Quá trình tiền xử lý câu. Quá trình này tách câu đầu vào thành các từ
loại tương ứng.
Bước 2 : Q trình phân tích câu. Đây là q trình phức tạp và quan trọng nhất
nhằm tìm ra hiện tượng ngôn ngữ xảy ra trong câu và biện pháp xử lý phù hợp.
Bước 3 : Quá trình thay thế. Đây là quá trình thay thế câu đầu vào thành câu đã
được xử lý thay thế một từ hoặc một bộ phân câu để trở thành câu hoàn chỉnh,
rõ nghĩa.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
11
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
1.3. Các cách tiếp cận trong phân giải đồng tham chiếu và hiện tượng tỉnh lược
trong hội thoại.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
1.3.1. Các cách tiếp cận trên thế giới.
Phân giải đồng tham chiếu và hiện tượng tỉnh lược không phải là vấn đề mới mẻ
trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chúng đã được quan tâm nghiên cứu từ rất
sớm mà thuật toán kinh điển đầu tiên đưa vào cài đặt hiệu quả là thuật toán Hobbs do
nhà khoa học Jerry R. Hobbs công bố vào năm 1976. Kể từ đó đến nay, nhiều cách
tiếp cận mới – có thể mới chỉ là một ý tưởng mới hoặc đã được cài đặt thử nghiệm - đã
được nghiên cứu và công bố không chỉ với ngôn ngữ nghiên cứu là tiếng Anh mà cịn
với nhiều ngơn ngữ khác như tiếng Đức, tiếng Pháp, tiếng Nhật…
i
i
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Trong số những cách giải quyết vấn đề đó, có thể nhắc đến các phương pháp như
Centering, Entity-Base, Contrants … Độ chính xác của các thuật tốn này biến động
tùy vào từng lĩnh vực dữ liệu, nhìn chung có thể đạt kết quả chính xác khoảng 70 %
đến 80%.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Mặc dù vậy, cho đến nay việc tìm kiếm một giải pháp hoàn chỉnh cho phân giải
đồng tham chiếu và hiện tượng tỉnh lược vẫn là một bài toán chưa có lời giải. Các cách
tiếp cận tuy nhiều nhưng nhìn chung đều chỉ nhằm vào một phân vùng rất nhỏ của
hiện tượng đồng tham chiếu hoặc tỉnh lược – thường chỉ tập trung vào một trường hợp
nhỏ như là đồng tham chiếu đại từ, đồng tham chiếu động từ hoặc các trường hợp tỉnh
lược cơ bản ,các kết quả thử nghiệm hầu hết là trên các bộ dữ liệu từ hướng lĩnh vực
(ví dụ như thuật tốn Entity-Base đạt độ chính xác 85 % với bộ dữ liệu về thiên tai ,
hơn 80 % đối với bộ dữ liệu về tai nạn )- mà không đưa ra cách xử lý cho bài toán tổng
quát.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
Hiện nay, các hướng nghiên cứu mới trên thế giới chủ yếu hướng về tập trung
vào một phân vùng nhỏ của phân giải đồng tham chiếu hoặc hiện tượng tỉnh lược –
thường là đồng tham chiếu đại từ - trên môi trường đa giao diện- môi trường bao gồm
cả tiếng nói, hình ảnh.
i i i i i i i i i i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
1.3.2. Những vấn đề còn tồn tại.
Một điều khẳng định, các thuật tốn được cơng bố và chấp nhận hiện nay chỉ giải
quyết một trường hợp nhỏ của phân giải đồng tham chiếu hoặc tỉnh lược.
i
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Như đã nêu ở trên, mặc dù các cách giải quyết cho đề tài này đã được nghiên cứu
từ những năm 70 của thế kỷ trước nhưng giải pháp cho bài toán tổng hợp lại thiếu hụt
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
i
i
i
i
i
i
i
i
i
i
i
i
i
i
12
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
một cách đáng ngạc nhiên. Các thuật toán cài đặt thành cơng chủ yếu là các thuật tốn
nghiên cứu cho phân giải đồng tham chiếu đại từ, các thuật tốn cho các trường hợp
khác rất ít và độ chính xác cũng khơng cao. Điều này cũng dễ hiểu vì ngơn ngữ tự
nhiên có cấu trúc vơ cùng phức tạp và đa dạng và hiện tượng đồng tham chiếu đại từ
cũng là hiện tượng hay gặp nhất trong thực tế.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Vì thế, hướng nghiên cứu của đồ án này sẽ không nhằm vào việc xử lý trên môi
trường đa giao diện như xu hướng hiện nay mà nhằm vào việc xây dựng một chương
trình có thể xử lý được tổng hợp cả phân giải đồng tham chiếu và tỉnh lược hay gặp
cho những đoạn hội thoại hàng ngày.
iiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
1.3.3. Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng
Việt.
Lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt cũng là lĩnh vực được quan tâm
nghiên cứu của các nhà khoa học Việt Nam, trong đó, được quan tâm nhiều nhất là bài
tốn phân tích cú pháp. Các giải pháp cho phân giải đồng tham chiếu được cơng bố
rộng rãi cịn rất ít. Vì vậy, cũng như các ngơn ngữ khác, giải pháp cho bài tốn tổng
thể cho cả hiện tượng đồng tham chiếu và tỉnh lược lại càng thiếu hụt nghiêm trọng,
gần như khơng có.
i
i
iiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
Dĩ nhiên, việc xử lý tổng quát một trường hợp nhỏ của hiện tượng đồng tham
chiếu và tỉnh lược đã khó, tích hợp giải quyết tất cả các trường hợp đó cịn khó hơn.
Tuy nhiên, trong thực tế, một hệ thống hội thoại tự động giới hạn người dùng chỉ
được sử dụng một phân dạng nhỏ - như là chỉ được sử dụng đồng tham chiếu đại từ - là
hệ thống không thật sự thuyết phục. Ngược lại, việc giới hạn lĩnh vực của hệ thống là
chấp nhận được, ví dụ như khách tham quan đến viện bảo tàng thì chỉ quan tâm đến tất
cả các thông tin liên quan đến viện bảo tàng. Vì thế, đồ án này cũng đặt ra giới hạn là
chương trình hướng lĩnh vực.
i i i i i i i i
i
i
i
i
i
i
i
i
i i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
iii
Đồ án sẽ nghiên cứu trên đối tượng ngơn ngữ là tiếng Việt, có sử dụng lại chương
trình tách từ của thầy Lê Hồng Phương.
iiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
1.4.1. Ngữ pháp phức tạp.
Mặc dù có nhiều điểm căn bản giống với ngữ pháp tiếng Anh – ngôn ngữ tự
nhiên được nghiên cứu kỹ càng, tỉ mỉ nhất – nhưng do nhiều yếu tố khác nhau như lịch
i
i
i
i i i i i i i i i i
i
i
i
i
i
i
1.4. Những khó khăn chính của bài toán phân giải đồng tham chiếu và tỉnh lược
trong hội thoại tiếng Việt.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
i
i
i
i
i
i
i
i
i
i
i
i
i
i
13
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
sử phát triển lâu dài cùng với sự tiếp thu của nhiều nền văn hóa, ngữ pháp tiếng Việt
có nhiều điểm khác biệt khiến cho cấu trúc ngữ pháp vơ cùng phong phú. Việc xây
dựng một lí thuyết ngữ pháp hoàn chỉnh là điều chưa làm được. Sự phức tạp của ngữ
pháp tiếng Việt làm cho việc phân tích cấu trúc câu, phân loại và nhận diện câu trở
nên vơ cùng khó khăn…
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
Bên cạnh đó ngữ pháp tiếng Việt cịn có hiện tượng đồng âm, đồng nghĩa, chuyển
nghĩa của từ rất phức tạp. Ví dụ: từ “phát triển” trong 2 cụm từ “phát triển đất nước”
và “đất nước phát triển” là 2 loại từ khác nhau. “Phát triển” trong cụm từ thứ nhất là
động từ tác động vào danh từ “đất nước” trong khi “phát triển” trong cụm từ thứ hai
lại là tính từ bổ nghĩa cho danh từ đất nước.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
1.4.2.Nhập nhằng trong việc tách từ và phân loại từ.
Đặc điểm Tiếng Việt là ngôn ngữ đơn âm tiết, điều này gây nên khó khăn ngay từ
giai đoạn tách và phân loại từ vựng. Ví dụ như câu:
i
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
“Cụ /già đi/ nhanh/ quá”
“Cụ già/đi/nhanh /quá”
i
i
i
i
i
i
Mặc dù nội dung trung tâm của đề tài không nhằm vào vấn đề này nhưng giai
đoạn tách từ chính là giai đoạn tiền xử lý của hệ thống, vì thế sự đúng đắn của nó có
ảnh hưởng rất lớn đến sự đúng đắn của cả thuật toán.
i ii i i ii i i ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
1.4.3. Sự nhập nhằng , đa nghĩa của đại từ.
Một trong những vấn đề phức tạp nhất của tiếng Việt là trong Tiếng Việt có rất
nhiều đại từ xưng hô. Cặp xưng hô giữa 2 ngôi thứ nhất và thứ hai phổ biến như : tớ ấy, tớ - cậu, tao mày…
i
i
i
iiiiiiiiii
i
i
i
i
i i
i
i
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Vấn đề rắc rối nằm ở chỗ, tuỳ vào mối quan hệ giữa người nói với nhau, hoặc
giữa người nói với người thứ ba mà các đại từ xưng hơ này khác nhau. Ví dụ:
i i i i i i i i i i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Mẹ và con nói chuyện với nhau :
i
i
i
i
i
i
i
“Mẹ bao giờ đi làm ?”
i
i
i
i
i
“Lát nữa” .
i
i
Hai chị em nới chuyện với nhau :
i
i
i
i
i
i
i
“Mẹ đã đi làm chưa nhỉ?”
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
14
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
“Hình như đi rồi”
i
i
i
2010
i
“Mẹ” trong hai ví dụ trên rõ ràng là mang ý nghĩa ngữ pháp khác nhau. Để xử lý vấn
đề này yêu cầu có kiến thức xã hội sâu sắc, điều này rất khó thực hiện khi xây dựng
các thuật toán. Cách tiếp cận khả thi nhất đó là hướng vào việc xây dựng các hệ thống
cụ thể hướng lĩnh vực. Ở đây, bằng mặc định, đồ án nghiên cứu cho hệ thống hội
thoại, do đó ưu tiên xét quan hệ xưng hơ ngơi thứ nhất và ngôi thứ hai giữa người và
máy.
iiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
1.5. Mục tiêu, giới hạn và hướng tiếp cận của đồ án.
Mục tiêu của đồ án là đưa ra được phương pháp xử lý không phải chỉ riêng cho
từng trường hợp đồng tham chiếu hay tỉnh lược riêng lẻ mà là đưa ra phương pháp giải
quyết tổng hợp chung, ít nhất là cho các trường hợp hội thoại thông dụng nhất.
i
i
i
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Do sự phức tạp của ngữ pháp tiếng Việt – ta sẽ đi sâu vào phần này hơn ở phần
sau của bản báo cáo này – việc đưa ra thuật tốn có thể giải quyết đúng đắn cho tất cả
các trường hợp với tỉ lệ chính xác 100% là khơng thể, hơn nữa mục tiêu của đồ án tập
trung vào phần hội thoại. Khơng có một thuật tốn đơn lẻ nào có thể xử lý đúng đắn
toàn bộ các hiện tượng ngữ pháp. Vì thế để nâng cao tỉ lệ chính xác cho thuật toán, đồ
án sẽ sử dụng phương pháp tiếp cận là chia để trị với hai ý tưởng của thuật tốn
Centering và Gapping, tập trung vào các câu thơng thường trong hội thoại.
iiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
15
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
PHẦN II. GIẢI QUYẾT VẤN ĐỀ
i
i
i
i
i
CHƯƠNG 2. PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH
LƯỢC
i
i
i
i
i
i
i
i
i
i
i
2.1. Hiện tượng đồng tham chiếu – Anaphora.
i
i
i
i
i
i
i
2.1.1.Định nghĩa.
Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ để thay thế cho một từ,
một cụm từ, một phần câu đã được nhắc đến trước đó.
i
iiiiiiiiii
i
i
i
iiiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Xét một ví dụ đơn giản của anaphora:
i
i
i
i
i
i
i
Họa sĩ Tơ Ngọc Vân sống ở đâu?
Ơng ấy hiện tại đang ở thành phố Hồ Chí Minh.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
Trong ví dụ trên, “Ơng ấy” chính là đại từ thay thế cho “họa sĩ Tô Ngọc Vân”.
Vấn đề đặt ra là làm sao để hệ thống nhận diện được “Ông ấy” chính là từ thay thế cho
“họa sĩ Tơ ngọc Vân”.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Ví dụ trên chỉ là một trường hợp thường thấy của một dạng đồng tham chiếu mà
ta gặp hàng ngày trong cuộc sống. Xử lý đồng tham chiếu là một vấn đề cực kỳ khó
khăn, nó yêu cầu trang bị cho máy sự hiểu biết về cấu trúc ngữ pháp, cấu trúc ngữ
nghĩa của ngơn ngữ tự nhiên, thậm chí trong những trường hợp phức tạp nó địi hỏi cả
hiểu biết “thực” trong đời sống. Mặc dù vấn đề này được nhận diện từ khá sớm nhưng
một giải pháp xử lý đồng tham chiếu hồn chỉnh vẫn chưa có lời giải cuối cùng. Các
giải pháp được nghiên cứu trong những năm 70, 80 của thế kỷ trước (điển hình là
Hobbs 1976) chỉ tập trung vào ngữ pháp của câu và chỉ giải quyết được những trường
hợp khơng có sự mập mờ về ngữ nghĩa.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
iiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Xét trường hợp sau :
i
i
i
i
John lấy cái bánh ở trên bàn và ăn nó.
i
i
i
i
i
i
i
i
i
John lấy cái bánh ở trên bàn và rửa nó.
i
i
i
i
i
i
i
i
i
ii
Có thể thấy ngay rằng mặc dù có cùng một cấu trúc ngữ pháp nhưng nếu “nó” trong
câu thứ nhất chỉ đến “cái bánh” thì “nó” trong câu thứ hai lại chỉ đến “bàn”, ta có thể
iiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
i
i
i
i
i
i
ii
i
i
i
i
i
i
16
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
dễ dàng đặt ra ràng buộc cho động từ “ăn” là sự vật đi đằng sau phải là “ăn được”
nhưng ta không thể đặt ra luật là đằng sau “rửa” phải là vật không ăn được bởi như rau
quả hoàn toàn vừa “ăn được” vừa “rửa được”.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Các nghiên cứu những năm gần đây chủ yếu đi theo hướng kết hợp giữa phân tích
cú pháp và các thuật tốn về ngữ nghĩa cùng nhiều cách tiếp cận khác nhau tuỳ từng
loại đồng tham chiếu.
iiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
2.1.2. Phân loại.
Về mặt hình thức, đồng tham chiếu tồn tại dưới hai dạng:
i
iiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Từ được thay thế và từ thay thế nằm cùng trong một câu (intra-sententially)
i
i
i
i
i
i
i
i
i
i
i
i
i
Từ được thay thế và từ thay thế nằm trong nhiều câu (inter- sententially )
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Các dạng đồng tham chiếu thường gặp trong Tiếng Việt có :
i
i
i
i
i
i
i
i
i
i
i
NP anaphora
i
Pronominal
Definite NP
i
Deictic
Các dạng NP khác
i
i
i
VP anaphora
i
S anaphora
i
“one” anaphora
i
a. NP anaphora
i
i
NP – anaphora là từ dùng để chỉ trường hợp một từ thay thế cho một danh từ
hoặc cụm danh từ đã nêu trước nó.
i i i i i i i i i i i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Các đại từ thay thế, bao gồm tất cả các dạng như anh ta (he, his, him), cô ta (she,
her, hers), chúng nó (they, them)… là dạng phổ biến nhất của NP anaphora.
iiiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Dạng này có thể xảy ra ở cả hai hình thức ở hai câu kahcs nhau( intra-) và trong cùng
một câu (inter-sententially). Ví dụ:
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
17
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
John cho Mary mượn quyển sách - quyển sách cô ấy đã đánh mất . (intra-)
John cho Mary mượn quyển sách. Cơ ấy đánh mất nó trên đường về nhà
(inter-)
i
i
i
i
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i i
i
i
i
i
i
Sự thay thế không nhất thiết phải là trực tiếp mà có thể xảy ra gián tiếp như:
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Tất cả các ngôi nhà trên phố cần sửa lại mái(ở đây “mái” có sự liên quan ngầm
với “tất cả các ngơi nhà”).
Ross sử dụng thẻ tín dụng nhiều đến nỗi anh chàng tội nghiệp đó phải tuyên bố
phá sản.
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
b. VP-anaphora và S-anaphora
i
ii
i
Đồng tham chiếu không phải luôn luôn chỉ thay thế cho cho một cụm danh từ mà
nhiều lúc nó lại có vai trị thay thế cho hẳn một cụm động từ hoặc thậm chí là thay thế
cho cả một câu.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
VP- anaphora là trường hợp từ không thay thế cho một từ hoặc cụm danh từ phía
trước mà thay thế cho một cụm động từ đã nói đến ở phía trước. Xét ví dụ sau:
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Tuần tới Lan thi học kỳ à ?
Ừ, Trang cũng thế.
i
i
i
i
i
i
i
i
i
i
Trong ví dụ trên “thế” là từ thay thế cho cụm động từ “thi học kỳ”.
i
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
Tương tự, S-anaphora là trường hợp mà một từ thay thế cho hẳn một câu đã nêu
ở phía trước. S – anaphora được minh họa thơng qua ví dụ sau:
iiiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Mary đã mở được một phịng triển lãm tranh. Đó là một điều ngạc nhiên.
i
i
i
i
i
i
i
i
i
ii
i
i
i
i
i
c. “One” anaphora.
i
i
Một dạng đồng tham chiếu nữa không thể không kể trong đến là đồng tham chiếu
số từ “one”- anaphora. Đây là dạng đồng tham chiếu mà ở đó, số từ được thay thế cho
một danh từ (thường là một vật) đứng trước nó.
iiiiiiiii
i
i
i
i
i
i
i
iiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Xét ví dụ một câu hội thoại sau:
i
i
i
i
i
i
i
Cả hai bức tranh này là của cậu à?
Không, chỉ một bức thôi.
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
18
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
2.2. Hiện tượng tỉnh lược - Elliptics
i
i
i
i
i
i
2.2.1. Định nghĩa.
Hiện tượng tỉnh lược là hiện tượng lược bỏ một hay nhiều từ trong cấu trúc ngữ
pháp khi nghĩa của câu đó có thể hiểu được mà khơng cần đến những phần đã được
lược bỏ đó.
i
i
iiiiiiiii
iii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Cũng như hiện tượng đồng tham chiếu, hiện tượng tỉnh lược cũng là hiện tượng
phổ biến trong ngôn ngữ tự nhiên. Về mặt ngôn ngữ, ta nhận diện một câu tỉnh lược
mà một phần nghĩa câu cần được tổ chức lại dựa vào ngữ cảnh của câu nói. Ngữ cảnh
đó thường là một tiền ngữ (antecedent), một mệnh đề ở trong câu nói trước tương ứng
với phần đã bị lược bỏ trong câu tỉnh lược.
iiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
2.2.2.Phân loại
VP - anaphora có thể coi là một dạng đặc biệt của câu tỉnh lược.Trong hội thoại, hai
loại câu tỉnh lược thường gặp nhất là:
i
iiiii
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Contextual ellipsis : phần lược bỏ của câu có thể được khơi phục lại dựa vào
ngay câu phía trước, thường phần lược bỏ đó là sự lặp lại của một từ hoặc một
cụm từ đứng trước.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Pragmatic ellipsis : phần lược bỏ của câu được khơi phục nhờ người nghe dựa
trên tình huống ngồi lĩnh vực ngơn ngữ. Ví dụ: Cả hai hành khách nhìn thấy
một người đàn ông lạ mặt. “Say” – Một người nói. Câu đầy đủ phải là “ơng ta
say rồi” .
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Việc phân loại giữa hiện tượng tỉnh lược và hiện tượng đồng tham chiếu chỉ mang
ý nghĩa tượng trưng, bởi thực tế các VP anaphora , S anaphora và “one anaphora” có
thể coi là một trường hợp của tỉnh lược câu.
iiiiiiiii
i
i
Vì hệ thống ta xây dựng là hệ thống hội thoại giữa người và máy nên chúng ta sẽ
chỉ tập trung vào contextual ellipsis.
iiiiiiiiii
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
19
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại
2010
CHƯƠNG 3 . SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT
i
i i
i
i
i
i
i
3.1. Danh từ và cụm danh từ.
a. Danh từ riêng.
i
i
i
i
i
i
i
i
i
Kí hiệu là Np.
i
i
i
Danh từ riêng là những danh từ chỉ tên riêng hay tên địa điểm.
i
i
i
i
i
i
i
i
i
i
i
i
i
Danh từ riêng có cấu tạo như sau:
i
i
i
i
i
i
i
Chỉ có một từ tên riêng: Thúy Anh, Việt ...
i
i
i
i
i
i
i
i
i
Gồm từ chỉ họ và từ tên riêng: Bùi Thúy Anh, Nguyễn Việt...
i
i
i
i
Tên địa điểm:
i
i
i
i
i
i
i
i
i
i
i
Tên địa danh theo khu vực hành chính, hoặc địa lý: Hà Nội, Huế...
Tên núi, tên sông, tên đất...: (sơng) Hồng, (trường) Đại Học Bách Khoa Hà
Nội...
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
b. Danh từ.
i
i
Kí hiệu là N.
i
i
i
Danh từ là từ loại bao gồm những từ có ý nghĩa khái quát sự vật. Đó là những
thực từ chỉ vật thể-người, động vật, thực vật, đồ vật, những hiện tượng tự nhiên, hiện
tượng xã hội và những khái niệm trừu tượng... được con người nhận thức và phản ánh
như các vật thể tồn tại trong hiện thực.
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Ví dụ
i
Danh từ chỉ vật thể: ơng, bà, thầy giáo, công nhân, gà, cam, đèn, áo...
i
i
i
i
i
i
i
i
i
i
i
i
i
i
Danh từ chỉ hiện tượng tự nhiên: mưa, bão, sét, ngày, đêm...
i
i
i
i
i
i
i
i
i
i
i
Danh từ chỉ hiện tượng xã hội: làng, xã, đội, đoàn...
i
i
i
i
i
i
i
i
i
i
Danh từ chỉ khái niệm trừu tượng: chính trị, đường lối, đạo đức...
i
i
i
i
i
i
i
i
i
i
i
i
Phân loại:
i
Sinh viên thực hiện : Đỗ Thái Hà _ Hệ thống thông tin K50
20