Trường Đại học Bách Khoa Hà Nội
Viện Công nghệ thông tin và truyền thông
ĐỀ TÀI
PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
GIẢNG VIÊN HƯỚNG DẪN: TS. NGUYỄN THỊ
THU HƯƠNG
NHÓM SINH VIÊN THỰC HI ỆN: NHÓM 6
PHẦN I.
TỔNG QUAN PHÂN TÍCH
CÚ PHÁP NGÔN NGỮ TỰ NHIÊN
2
6/21/19
1. BIỂU DIỄN CÚ PHÁP
3
Biểu diễn thành phần
Biểu diễn phụ thuộc
S
N
V
VP
N
V
N
NP
D
PP
N
P
D
P
NP
D N
N
D
They killed the man with a gun
They killed the man with a gun
6/21/19
2. HAI KHÁI NIỆM PHÂN
TÍCH CÚ PHÁP
4
GRAMMAR
PARSING
Cho một văn phạm và một xâu đầu vào Tìm một số
hoặc tất cả các phân tích được gán cho bởi .
Bài toán well-defined abstract; không dựa trên thực
nghiệm.
TEXT PARSING
Cho một đoạn văn bản trong ngôn ngữ , xác định phép
phân tích đúng cho mỗi câu .
Bài toán xấp xỉ dựa trên thực nghiệm; không rõ tính
well-defined abstract.
6/21/19
3. CÁC TIÊU CHÍ
ĐÁNH GIÁ
5
Xét
một hệ thống được sử dụng để phân tích các
đoạn văn bản thuộc ngôn ngữ .
Robustness
Với mỗi trong , gán ít nhất một phân tích cho tất cả các câu .
Disambiguation
Với mỗi trong , gán nhiều nhất một phân tích cho tất cả các
câu .
Accuracy
Với mỗi trong , gán một phân tích đúng cho tất cả các câu .
Efficiency
Với mỗi trong , xử lý một xâu trong thời gian và không gian
là tuyến tính với độ dài .
6/21/19
4. HAI PHƯƠNG PHÁP PHÂN TÍCH CÚ
PHÁP ĐOẠN 6VĂN BẢN (1)
HƯỚ
NG VĂN PHẠM
Xấp xỉ dựa vào văn phạm:
Một số vấn đề trọng tâm: Robustness, disambiguation
và efficiency.
HƯỚNG DỮ LIỆU
Xấp xỉ quy nạp:
Mô hình hình thức định nghĩa các phân tích hợp l ệ.
Một đọan văn bản mẫu .
Sơ đồ suy luận quy nạp .
Một số vấn đề trọng tâm: Accuracy và efficiency.
6/21/19
4. HAI PHƯƠNG PHÁP PHÂN TÍCH CÚ
PHÁP ĐOẠN 7VĂN BẢN (2)
SO SÁNH HAI PHƯƠNG PHÁP
Hướng
văn phạm
Hướng
dữ liệu
Robustness
Disambiguation
Accuracy
Eficiency
6/21/19
PHẦN II.
PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
8
6/21/19
1. VĂN PHẠM9 PHỤ THUỘC
KHÁI NIỆM PHỤ THUỘC
Ý tưởng cơ bản:
Cấu trúc cú pháp của một câu bao gồm các phần tử từ vựng
được liên kết với nhau thông qua các mối quan hệ nhị phân bất
đối xứng gọi là các phụ thuộc.
Mỗi quan hệ phụ thuộc bao gồm một thành phần trung tâm
(head) và một thành phần phụ thuộc (dependent)
PU
PRED
ATT
PC
OBJ
SBJ
ATT
ATT
ATT
ROOT Economic news had little effect on financial markets .
Head
Dependent
6/21/19
1. VĂN PHẠM10PHỤ THUỘC
MỘT SỐ DẠNG QUAN HỆ PHỤ THUỘC
Hai dạng quan hệ phụ thuộc thường được tìm thấy trong
nhiều tài liệu hiện nay là head-complement và headmodifier.
Head-modifier
Head-complement
PU
PRED
ATT
PC
OBJ
SBJ
ATT
ATT
ATT
ROOT Economic news had little effect on financial markets .
6/21/19
1. VĂN PHẠM11PHỤ THUỘC
MỘT SỐ DẠNG QUAN HỆ PHỤ THUỘC
Tồn tại một số trường hợp không rõ ràng
Một nhóm các động từ (auxillary verb main verb)
Các mệnh đề phụ (complementizer verb)
Các mệnh đề tương đương (coordinator conjuncts)
Các mệnh đề giới ngữ (preposition nominal)
Dấu câu
Ví dụ:
I can see that they rely on this and that .
6/21/19
2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
12
H
ƯỚ
NG VĂN PHẠM
Mô hình của Gaifman
Một hệ phụ thuộc bao gồm ba tập luật:
: Các luật có dạng , dùng để chỉ từ loại có thể xu ất hiện với các từ
loại như các dependents.
: Các luật gán cho mỗi từ loại X một dãy các từ thuộc về nó.
: Một luật gán danh sách tất cả các từ loại một s ự kiện có th ể dẫn
đến việc hình thành một câu.
Một câu chứa các từ được phân tích bằng cách gán cho nó m ột
dãy các từ loại và một quan hệ phụ thuộc gi ữa các từ sao cho
6 điều kiện xác định được giữ.
6/21/19
2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
13
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG VĂN PHẠM
Văn phạm phụ thuộc và văn phạm phi ngữ cảnh
Văn phạm phụ thuộc (Gaifman) và văn phạm phi ngữ cảnh là
tương đương yếu. Chúng đều mô tả lớp ngôn ngữ phi ngữ cảnh.
Bất kỳ hệ phụ thuộc nào đều có thể chuy ển thành văn ph ạm
phi ngữ cảnh tương đương mạnh. Chiều ngược lại chỉ đúng với
một tập con chặt của văn phạm phi ngữ cảnh.
Kết luận văn phạm phụ thuộc chỉ là một biến thể ch ặt c ủa văn
phạm phi ngữ cảnh là chưa đầy đủ (chưa xét đến non-projective
dependency structure).
Sự tương đồng của hai loại văn phạm cho phép sử dụng cùng
các phương pháp phân tích cú pháp.
6/21/19
2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
14
PH
ƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC HƯỚNG
VĂN PHẠM
Mô hình bilexcical grammar của Eisner (2000)
Văn phạm bao gồm hai thành phần:
1.
2.
Một tập các kí hiệu kết thúc (từ), chứa ký hiệu đặc biệt ROOT.
Với mỗi từ , một cặp automata hữu hạn đơn định và . Mỗi automata
chấp nhận một tập con chính quy nào đấy của .
Ngôn ngữ được định nghĩa như sau:
1.
2.
3.
4.
Một cây phụ thuộc là một cây có gốc mà trong đó, mỗi node là m ột t ừ
từ , nút gốc là ROOT. Có xét thứ tự các node con.
Cây phụ thuộc có tính văn phạm nếu với m ọi từ , ch ấp nh ận dãy con
trái của và chấp nhận dãy con phải của .
Một xâu được sinh bởi với phân tích nếu là một cây ph ụ thuộc có
tính văn phạm và liệt kê nhãn của theo thứ tự trung tố tạo ra theo
sau bởi ROOT.
Ngôn ngữ là tập các xâu đợc sinh bởi .
6/21/19
2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
15
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG DỮ LIỆU
Mô hình của Eisner (1996)
Đưa ra khái niệm Weighted Bilexical Grammar (WBG).
Đề xuất 3 mô hình xác suất khác nhau để thực hiện phân tích cú
pháp phụ thuộc, hay nói cách khác, 3 chiến lược đánh trọng số
khác nhau bên trong framework của WBG.
Nghiên cứu này có hai ảnh hưởng quan trọng:
Chỉ ra rằng mô hình xác suất sinh mẫu và ph ương pháp h ọc có giám
sát có thể được áp dụng đối với các biểu diễn phụ thuộc để thu
được tính chính xác tương đối.
Chỉ ra rằng các mô hình này có thể được kết hợp với các kỹ thu ật
phân tích cú pháp hiệu quả để tận dụng các thu ộc tính đ ặc bi ệt c ủa
cấu trúc cú pháp.
6/21/19
2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
16
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG DỮ LIỆU
Một số công trình tiêu biểu
Cách tiếp cận của Collins et al. (1999)
Cách tiếp cận của Samuelsson (2000)
Cách tiếp cận của Wang & Harper (2004)
Cách tiếp cận trong tài liệu này tương tự cách tiếp cận
theo hướng quyết định của Yumada & Masumoto (2003).
6/21/19
2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
17
TI ỀM NĂNG CỦA PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
Các liên kết phụ thuộc sát hơn với các mối quan h ệ
ngữ nghĩa.
Cây phụ thuộc chứa một nodetừ
Chỉ phải liên kết các node có sẵn, không ph ải sinh
ra các node mới, tiếp cận được trực tiếp hơn
Phân tích cú pháp phụ thuộc sẽ thao tác, x ử lý trên
từng từ một
Không phải đợi toàn bộ cụm từ.
6/21/19
3. FRAMEWORK
18
CÁC
ĐỊNH NGHĨA CƠ BẢN
Định nghĩa 1. Một đoạn văn bản là một dãy các câu
Định nghĩa 2. Một câu là một dãy các tokens
Định nghĩa 3. Một token là một dãy các ký tự
Với một câu , ta định nghĩa hàm:
6/21/19
3. FRAMEWORK
19
Đ
Ồ
THỊ PHỤ THUỘC
Định nghĩa 4. Cho một tập các kiểu phụ thuộc, một đồ thị
phụ thuộc ứng với một câu là một đồ thị có hướng được gán
nhãn , trong đó:
Định nghĩa 5. Một đồ thị phụ thuộc là đúng đắn khi và chỉ khi
1.
2.
Node 0 là node gốc.
liên thông.
6/21/19
3. FRAMEWORK
20
ĐỒ
THỊ PHỤ THUỘC CÓ TÍNH CHIẾU
Định nghĩa 6. Một đồ thị phụ thuộc có tính chiếu là một
đồ thị phụ thuộc đúng đắn thỏa mãn những điều kiện
sau:
3.
Tất cả các node có nhiều nhất một head. Nghĩa là,
nếu thì không tồn tại một node sao cho và .
4.
Đồ thị là á chu trình. Nghĩa là, nếu thì không có
5.
Đồ thị có tính chiếu. Nghĩa là, nếu thì với mọi sao
cho hoặc .
6/21/19
3. FRAMEWORK
21
BÀI
TOÁN PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
Cho một đoạn văn bản trong ngôn ngữ , tìm một đồ thị
phụ thuộc đúng đối với mỗi câu .
6/21/19
4. THUẬT TOÁN PHÂN
TÍCH CÚ PHÁP
22
C
Ấ U HÌNH
Định nghĩa 7. Cho tập các kiểu phụ thuộc và một câu , m ột
cấu hình của bộ phân tích cú pháp đối với là một bộ bốn trong
đó:
1.
2.
3.
4.
5.
là một stack các token node ( với ).
là một dãy đã được sắp xếp các token node ().
là một hàm từ các token node đến các node.
là một hàm từ các token node đến các kiểu phụ thuộc.
Đối với mọi token node , .
Định nghĩa 8. Một cấu hình
đối với sẽ định nghĩa một đồ thị
phụ thuộc
1.
6/21/19
4. THUẬT TOÁN PHÂN
TÍCH CÚ PHÁP
23
CẤ U HÌNH KHỞI TẠO VÀ CẤU HÌNH DỪNG
Định nghĩa 9. Một cấu hình đối với là cấu hình khởi tạo
khi và chỉ khi nó có dạng , trong đó:
1.
với mọi .
2.
với mọi .
Định nghĩa 10. Một cấu hình đối với là cấu hình dừng
khi và chỉ khi nó có dạng , trong đó tùy ý.
6/21/19
4. THUẬT TOÁN PHÂN
TÍCH CÚ PHÁP
24
CÁC
PHÉP BIẾN ĐỔI
Định nghĩa 11. Một phép biến đổi là một hàm bộ phận .
Định nghĩa 12. Cho một tập các kiểu phụ thuộc , các
phép biến đổi sau là có thể đối với mọi .
1.
LEFT-ARC: nếu .
2.
RIGHT-ARC: nếu .
3.
REDUCE: nếu .
4.
SHIFT: .
6/21/19
4. THUẬT TOÁN PHÂN
TÍCH CÚ PHÁP
25
DÃY
CÁC PHÉP BIẾN ĐỔI
Định nghĩa 13. Một dãy các phép biến đổi là một dãy các cấu
hình , trong đó:
1.
2.
Cấu hình đầu tiên là cấu hình khởi tạo ().
Với mọi , tồn tại phép biến đổi sao cho .
Định nghĩa 14. Một dãy các phép biến đổi là dừng khi và chỉ
khi nó kết thúc ở trạng thái dừng.
Định nghĩa 15. Một dãy các phép biến đổi tương ứng với một
xâu khi và chỉ khi nếu , hay ().
Định nghĩa 14. Một dãy các phép biến đổi dừng tương ứng với
một xâu sẽ gán cho một đồ thị phụ thuộc định nghĩa bởi .
6/21/19