Tải bản đầy đủ (.pptx) (28 trang)

PHÂN TÍCH cú PHÁP PHỤ THUỘC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (943.49 KB, 28 trang )

Trường Đại học Bách Khoa Hà Nội
Viện Công nghệ thông tin và truyền thông

ĐỀ TÀI
PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
GIẢNG VIÊN HƯỚNG DẪN: TS. NGUYỄN THỊ
THU HƯƠNG
NHÓM SINH VIÊN THỰC HI ỆN: NHÓM 6


PHẦN I.
TỔNG QUAN PHÂN TÍCH
CÚ PHÁP NGÔN NGỮ TỰ NHIÊN

2

6/21/19


1. BIỂU DIỄN CÚ PHÁP
3

Biểu diễn thành phần

Biểu diễn phụ thuộc

S
N

V
VP



N

V

N

NP
D

PP

N
P

D

P

NP
D N

N
D
They killed the man with a gun

They killed the man with a gun
6/21/19



2. HAI KHÁI NIỆM PHÂN
TÍCH CÚ PHÁP
4

GRAMMAR
PARSING
 


Cho một văn phạm và một xâu đầu vào Tìm một số
hoặc tất cả các phân tích được gán cho bởi .



Bài toán well-defined abstract; không dựa trên thực
nghiệm.

TEXT PARSING




Cho một đoạn văn bản trong ngôn ngữ , xác định phép
phân tích đúng cho mỗi câu .
Bài toán xấp xỉ dựa trên thực nghiệm; không rõ tính
well-defined abstract.

6/21/19



3. CÁC TIÊU CHÍ
ĐÁNH GIÁ
5
Xét
  một hệ thống được sử dụng để phân tích các
đoạn văn bản thuộc ngôn ngữ .
Robustness

Với mỗi trong , gán ít nhất một phân tích cho tất cả các câu .
Disambiguation

Với mỗi trong , gán nhiều nhất một phân tích cho tất cả các
câu .
Accuracy

Với mỗi trong , gán một phân tích đúng cho tất cả các câu .
Efficiency

Với mỗi trong , xử lý một xâu trong thời gian và không gian
là tuyến tính với độ dài .
6/21/19


4. HAI PHƯƠNG PHÁP PHÂN TÍCH CÚ
PHÁP ĐOẠN 6VĂN BẢN (1)

HƯỚ
  NG VĂN PHẠM



Xấp xỉ dựa vào văn phạm:



Một số vấn đề trọng tâm: Robustness, disambiguation
và efficiency.

HƯỚNG DỮ LIỆU




Xấp xỉ quy nạp:


Mô hình hình thức định nghĩa các phân tích hợp l ệ.



Một đọan văn bản mẫu .



Sơ đồ suy luận quy nạp .

Một số vấn đề trọng tâm: Accuracy và efficiency.
6/21/19


4. HAI PHƯƠNG PHÁP PHÂN TÍCH CÚ

PHÁP ĐOẠN 7VĂN BẢN (2)
SO SÁNH HAI PHƯƠNG PHÁP
Hướng
văn phạm

Hướng
dữ liệu

Robustness
Disambiguation
Accuracy
Eficiency

6/21/19


PHẦN II.
PHÂN TÍCH CÚ PHÁP PHỤ THUỘC

8

6/21/19


1. VĂN PHẠM9 PHỤ THUỘC
KHÁI NIỆM PHỤ THUỘC
 Ý tưởng cơ bản:


Cấu trúc cú pháp của một câu bao gồm các phần tử từ vựng

được liên kết với nhau thông qua các mối quan hệ nhị phân bất
đối xứng gọi là các phụ thuộc.



Mỗi quan hệ phụ thuộc bao gồm một thành phần trung tâm
(head) và một thành phần phụ thuộc (dependent)
PU
PRED
ATT

PC

OBJ
SBJ

ATT

ATT

ATT

ROOT Economic news had little effect on financial markets .
Head

Dependent

6/21/19



1. VĂN PHẠM10PHỤ THUỘC
MỘT SỐ DẠNG QUAN HỆ PHỤ THUỘC
 Hai dạng quan hệ phụ thuộc thường được tìm thấy trong

nhiều tài liệu hiện nay là head-complement và headmodifier.
Head-modifier

Head-complement

PU
PRED
ATT

PC

OBJ
SBJ

ATT

ATT

ATT

ROOT Economic news had little effect on financial markets .

6/21/19


1. VĂN PHẠM11PHỤ THUỘC

MỘT SỐ DẠNG QUAN HỆ PHỤ THUỘC
 Tồn tại một số trường hợp không rõ ràng
 Một nhóm các động từ (auxillary verb main verb)
 Các mệnh đề phụ (complementizer verb)
 Các mệnh đề tương đương (coordinator conjuncts)
 Các mệnh đề giới ngữ (preposition nominal)
 Dấu câu

 Ví dụ:
I can see that they rely on this and that .

6/21/19


2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
12
H
ƯỚ
  NG VĂN PHẠM
Mô hình của Gaifman
 Một hệ phụ thuộc bao gồm ba tập luật:





: Các luật có dạng , dùng để chỉ từ loại có thể xu ất hiện với các từ
loại như các dependents.
: Các luật gán cho mỗi từ loại X một dãy các từ thuộc về nó.

: Một luật gán danh sách tất cả các từ loại một s ự kiện có th ể dẫn
đến việc hình thành một câu.

 Một câu chứa các từ được phân tích bằng cách gán cho nó m ột

dãy các từ loại và một quan hệ phụ thuộc gi ữa các từ sao cho
6 điều kiện xác định được giữ.

6/21/19


2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
13
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG VĂN PHẠM
Văn phạm phụ thuộc và văn phạm phi ngữ cảnh
 Văn phạm phụ thuộc (Gaifman) và văn phạm phi ngữ cảnh là

tương đương yếu. Chúng đều mô tả lớp ngôn ngữ phi ngữ cảnh.
 Bất kỳ hệ phụ thuộc nào đều có thể chuy ển thành văn ph ạm

phi ngữ cảnh tương đương mạnh. Chiều ngược lại chỉ đúng với
một tập con chặt của văn phạm phi ngữ cảnh.
 Kết luận văn phạm phụ thuộc chỉ là một biến thể ch ặt c ủa văn

phạm phi ngữ cảnh là chưa đầy đủ (chưa xét đến non-projective
dependency structure).
 Sự tương đồng của hai loại văn phạm cho phép sử dụng cùng
các phương pháp phân tích cú pháp.

6/21/19


2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
14
PH
 ƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC HƯỚNG
VĂN PHẠM
Mô hình bilexcical grammar của Eisner (2000)
 Văn phạm bao gồm hai thành phần:
1.
2.

Một tập các kí hiệu kết thúc (từ), chứa ký hiệu đặc biệt ROOT.
Với mỗi từ , một cặp automata hữu hạn đơn định và . Mỗi automata
chấp nhận một tập con chính quy nào đấy của .

 Ngôn ngữ được định nghĩa như sau:
1.

2.

3.

4.

Một cây phụ thuộc là một cây có gốc mà trong đó, mỗi node là m ột t ừ
từ , nút gốc là ROOT. Có xét thứ tự các node con.
Cây phụ thuộc có tính văn phạm nếu với m ọi từ , ch ấp nh ận dãy con

trái của và chấp nhận dãy con phải của .
Một xâu được sinh bởi với phân tích nếu là một cây ph ụ thuộc có
tính văn phạm và liệt kê nhãn của theo thứ tự trung tố tạo ra theo
sau bởi ROOT.
Ngôn ngữ là tập các xâu đợc sinh bởi .

6/21/19


2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
15
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG DỮ LIỆU
Mô hình của Eisner (1996)
 Đưa ra khái niệm Weighted Bilexical Grammar (WBG).
 Đề xuất 3 mô hình xác suất khác nhau để thực hiện phân tích cú

pháp phụ thuộc, hay nói cách khác, 3 chiến lược đánh trọng số
khác nhau bên trong framework của WBG.
 Nghiên cứu này có hai ảnh hưởng quan trọng:


Chỉ ra rằng mô hình xác suất sinh mẫu và ph ương pháp h ọc có giám
sát có thể được áp dụng đối với các biểu diễn phụ thuộc để thu
được tính chính xác tương đối.



Chỉ ra rằng các mô hình này có thể được kết hợp với các kỹ thu ật

phân tích cú pháp hiệu quả để tận dụng các thu ộc tính đ ặc bi ệt c ủa
cấu trúc cú pháp.

6/21/19


2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
16
PHƯƠNG PHÁP PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
HƯỚNG DỮ LIỆU
 Một số công trình tiêu biểu

Cách tiếp cận của Collins et al. (1999)
 Cách tiếp cận của Samuelsson (2000)
 Cách tiếp cận của Wang & Harper (2004)
 Cách tiếp cận trong tài liệu này tương tự cách tiếp cận
theo hướng quyết định của Yumada & Masumoto (2003).


6/21/19


2. PHÂN TÍCH CÚ PHÁP
PHỤ THUỘC
17

TI ỀM NĂNG CỦA PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
 Các liên kết phụ thuộc sát hơn với các mối quan h ệ


ngữ nghĩa.
 Cây phụ thuộc chứa một nodetừ
Chỉ phải liên kết các node có sẵn, không ph ải sinh
ra các node mới, tiếp cận được trực tiếp hơn
 Phân tích cú pháp phụ thuộc sẽ thao tác, x ử lý trên
từng từ một
Không phải đợi toàn bộ cụm từ.

6/21/19


3. FRAMEWORK
18

CÁC
  ĐỊNH NGHĨA CƠ BẢN
 Định nghĩa 1. Một đoạn văn bản là một dãy các câu

 Định nghĩa 2. Một câu là một dãy các tokens

 Định nghĩa 3. Một token là một dãy các ký tự

 Với một câu , ta định nghĩa hàm:

6/21/19


3. FRAMEWORK
19
Đ

Ồ
  THỊ PHỤ THUỘC
 Định nghĩa 4. Cho một tập các kiểu phụ thuộc, một đồ thị

phụ thuộc ứng với một câu là một đồ thị có hướng được gán
nhãn , trong đó:

 Định nghĩa 5. Một đồ thị phụ thuộc là đúng đắn khi và chỉ khi
1.
2.

Node 0 là node gốc.
liên thông.

6/21/19


3. FRAMEWORK
20

ĐỒ
  THỊ PHỤ THUỘC CÓ TÍNH CHIẾU
 Định nghĩa 6. Một đồ thị phụ thuộc có tính chiếu là một

đồ thị phụ thuộc đúng đắn thỏa mãn những điều kiện
sau:
3.

Tất cả các node có nhiều nhất một head. Nghĩa là,
nếu thì không tồn tại một node sao cho và .


4.

Đồ thị là á chu trình. Nghĩa là, nếu thì không có

5.

Đồ thị có tính chiếu. Nghĩa là, nếu thì với mọi sao
cho hoặc .

6/21/19


3. FRAMEWORK
21

BÀI
  TOÁN PHÂN TÍCH CÚ PHÁP PHỤ THUỘC
Cho một đoạn văn bản trong ngôn ngữ , tìm một đồ thị
phụ thuộc đúng đối với mỗi câu .

6/21/19


4. THUẬT TOÁN PHÂN
TÍCH CÚ PHÁP
22
C
Ấ U HÌNH
 Định nghĩa 7. Cho tập các kiểu phụ thuộc và một câu , m ột


cấu hình của bộ phân tích cú pháp đối với là một bộ bốn trong
đó:
1.
2.
3.
4.
5.

là một stack các token node ( với ).
là một dãy đã được sắp xếp các token node ().
là một hàm từ các token node đến các node.
là một hàm từ các token node đến các kiểu phụ thuộc.
Đối với mọi token node , .

 Định nghĩa 8. Một cấu hình

đối với sẽ định nghĩa một đồ thị

phụ thuộc
1.

6/21/19


4. THUẬT TOÁN PHÂN
TÍCH CÚ PHÁP
23

CẤ  U HÌNH KHỞI TẠO VÀ CẤU HÌNH DỪNG

 Định nghĩa 9. Một cấu hình đối với là cấu hình khởi tạo

khi và chỉ khi nó có dạng , trong đó:
1.

với mọi .

2.

với mọi .

 Định nghĩa 10. Một cấu hình đối với là cấu hình dừng

khi và chỉ khi nó có dạng , trong đó tùy ý.

6/21/19


4. THUẬT TOÁN PHÂN
TÍCH CÚ PHÁP
24

CÁC
  PHÉP BIẾN ĐỔI
 Định nghĩa 11. Một phép biến đổi là một hàm bộ phận .
 Định nghĩa 12. Cho một tập các kiểu phụ thuộc , các

phép biến đổi sau là có thể đối với mọi .
1.


LEFT-ARC: nếu .

2.

RIGHT-ARC: nếu .

3.

REDUCE: nếu .

4.

SHIFT: .

6/21/19


4. THUẬT TOÁN PHÂN
TÍCH CÚ PHÁP
25
DÃY
  CÁC PHÉP BIẾN ĐỔI
 Định nghĩa 13. Một dãy các phép biến đổi là một dãy các cấu

hình , trong đó:
1.
2.

Cấu hình đầu tiên là cấu hình khởi tạo ().
Với mọi , tồn tại phép biến đổi sao cho .


 Định nghĩa 14. Một dãy các phép biến đổi là dừng khi và chỉ

khi nó kết thúc ở trạng thái dừng.
 Định nghĩa 15. Một dãy các phép biến đổi tương ứng với một

xâu khi và chỉ khi nếu , hay ().
 Định nghĩa 14. Một dãy các phép biến đổi dừng tương ứng với

một xâu sẽ gán cho một đồ thị phụ thuộc định nghĩa bởi .

6/21/19


×