Tải bản đầy đủ (.ppt) (20 trang)

Phân tích cú pháp tiếng việt sử dụng văn phạm phụ thuộc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (208.18 KB, 20 trang )

PHÂN TÍCH CÚ PHÁP
TIẾNG VIỆT SỬ DỤNG
VĂN PHẠM PHỤ THUỘC
Sinh viên thực hiện:
Giáo viên hướng dẫn: ThS. Nguyễn Thị Thu Hương

1


NỘI DUNG

1.
2.
3.
4.

Bài toán phân tích cú pháp
Văn phạm phụ thuộc
Xây dựng văn phạm phụ thuộc cho tiếng Việt
Thử nghiệm phân tích cú pháp bằng chương trình
phân tích

2


BÀI TOÁN PHÂN TÍCH CÚ PHÁP







Quá trình phân tích một dãy các từ tố (các từ của câu) để xác
định cấu trúc ngữ pháp của chúng.
Các phương pháp PTCP dựa vào văn phạm phi ngữ cảnh
 Giải thuật CYK
 Giải thuật Earley
Văn phạm từ vựng
 Văn phạm liên kết (Link Grammar)
 Văn phạm phụ thuộc (Dependency Grammar)

3


VĂN PHẠM PHỤ THUỘC



Do Lucien Tesnière đưa ra năm 1959



Dựa vào từ vựng và quan hệ giữa các từ



Phân tích ngôn ngữ có trật tự từ tự do hiệu quả



Kết quả thu được sát ngữ nghĩa hơn


4


KHÁI NIỆM VĂN PHẠM PHỤ THUỘC


Gồm tập các từ và quan hệ phụ thuộc giữa các từ.



Từ chính là head, từ phụ là dependent, từ không phụ thuộc vào
từ nào là root của câu.



Quan hệ phụ thuộc được biểu diễn bằng cung từ head đến
dependent cùng với nhãn của quan hệ.
DT_TT

Áo

đẹp
5


TÍNH CHẤT VĂN PHẠM PHỤ THUỘC


Chỉ có một từ là root trong câu.




Các từ còn lại đều có head.



Tính đơn nhất: Mỗi từ chỉ có



1 head.
Tính xạ ảnh: Các cung không
được cắt nhau.

.
 Câu đúng cú pháp nếu thỏa mãn tất cả các tính chất

6


THUẬT TOÁN PHÂN TÍCH CÚ PHÁP
Đầu vào: Các từ đã được tách của câu (dãy các từ liên tiếp nhau)
 Đầu ra: Quan hệ phụ thuộc giữa các từ
Phương pháp
 Với mỗi từ W chỉ xét quan hệ phụ thuộc với các từ trước nó trong câu.
 Tìm dependent D:





Nếu D là dependent của W  liên kết W là head của D.
Không xét quan hệ phụ thuộc với từ đã có head.



D có head thì xét quan hệ phụ thuộc với head của D.





Tìm head H:




Nếu H là head của W  liên kết H là head của W.
Nếu không thì xét quan hệ phụ thuộc với head của D.
Sau khi tìm được head thì dừng.
7


MINH HỌA CHO THUẬT TOÁN
Phân tích câu anh Quân đang ngủ
Luật:
Danh từ đứng trước Danh từ: Danh từ đứng trước là head (SDT1)
Phụ từ đứng trước Động từ: Động từ là head (TĐT3)
Danh từ đứng trước Động từ: Động từ là head (DT_ĐT)
DT_ĐT

SDT1

anh
Danh
từ

|

TĐT3

Quân
Danh
từ

|

đang |
Phụ
từ

ngủ
Động
từ

8


XÂY DỰNG VĂN PHẠM PHỤ THUỘC
CHO TIẾNG VIỆT
ĐẶC ĐIỂM CỦA TIẾNG VIỆT



Cấu trúc phức tạp.



Không có sự biến đổi hình thái từ (giống cái, đực).



Có trật tự từ xác định (đa số có trật tự SVO).

 Vị trí của head và dependent có thể dự đoán.
Văn phạm phụ thuộc cho tiếng Việt có sự tương đồng với
văn phạm liên kết của Sleator.

9


LUẬT CỦA VĂN PHẠM PHỤ THUỘC
DT_TT

Áo

DT_TT

đẹp

Áo


đẹp

Danh từ: DT_TT_D>

Danh từ: DT_TT_D>

Tính từ: DT_TT_H<

Tính từ: DT_TT_H>

10


QUAN HỆ PHỤ THUỘC TRONG CỤM
DANH TỪ
Cụm danh từ = Phần phụ trước + Danh từ + Phần phụ sau
Danh từ: [TDT3_D<] & [TDT2_D< or ST_DT_D<] &
[TDT1_D<] & [SDT1_D>] & [SDT2_D] & [SDT3_D>] &
[SDT4_D>] & [SDT5_D>] & [SDT6_D>] & [GT_DT_H<]

11


QUAN HỆ PHỤ THUỘC TRONG CỤM
ĐỘNG TỪ
Cụm động từ = Phần phụ trước + Động từ + Phần phụ sau
Động từ: (([TĐT1_D<] & [TĐT2_1_D< or TĐT2_2_D<] &
[TĐT3_D<] & [TĐT4_D<]) or [TĐT5_D<]) & [SĐT_D>]

12



QUAN HỆ PHỤ THUỘC TRONG CỤM
TÍNH TỪ
Cụm tính từ = Phần phụ trước + Tính từ + Phần phụ sau
Phần phụ trước và phần phụ sau giống động từ
Tính từ: [TTT1_D<] & [TTT2_1_D< or TTT2_2_D<] &
[TTT3_D<] & [TTT4_D<] & [STT_D>]

13


QUAN HỆ PHỤ THUỘC GIỮA CÁC TỪ
LOẠI


Danh từ và Động từ:
Danh từ: [DT_ĐT_H>] or [ĐT_DT_H<]
Động từ: [DT_ĐT_D<] & [ĐT_DT_D>]



Danh từ và Tính từ
Danh từ: DT_TT_D>
Tính từ: DT_TT_H<

14


QUAN HỆ PHỤ THUỘC GIỮA CÁC TỪ

LOẠI


Động từ và Tính từ
Động từ: [ĐT_TT_D>] or [TT_ĐT_D<]
Tính từ: [ĐT_TT_H<] or [TT_ĐT_H>]



Động từ và Động từ
Động từ không độc lập: ĐT_ĐT_D>
Động từ độc lập: ĐT_ĐT_H<

15


CHƯƠNG TRÌNH PHÂN TÍCH
TIỀN XỬ LÝ


Sử dụng công cụ tách từ cho tiếng Việt JVnSegmenter (độ
chính xác 94%).



Xây dựng danh sách trái phải cho một từ

VD: ([TDT3_D<] & [TDT2_D<] & [TDT1_D<] & [SDT1_D>]
& [SDT_D>])
 [TDT3_D TDT2_D TDT1_D]: left

[SDT1_D SDT3_D] : right
16


CHƯƠNG TRÌNH PHÂN TÍCH
KẾT QUẢ THU ĐƯỢC


(word, headIndex, Relation)



(trời, 1, DT_ĐT), (mưa, -1, ), (rất, 3, TTT2_2), (to,1, ĐT_TT).

17


THỬ NGHIỆM CHƯƠNG TRÌNH



Văn bản thử nghiệm: Test.txt



Đúng 70% (61 câu, trung bình 18 từ/câu).



Sai do câu dài, thiếu luật, nhiều luật chưa hợp lí




Câu đúng là những câu xét trong quá trình xây dựng từ điển.

18


HƯỚNG PHÁT TRIỂN


Hoàn thiện bộ luật  tăng độ chính xác.



Cải tiến giải thuật phân tích  phân tích những câu không
thỏa mãn tính xạ ảnh.



Giải quyết từ “và”.

19


Em xin chân thành cảm ơn !

20




×