Tải bản đầy đủ (.pdf) (71 trang)

PHÁT HIỆN QUAN hệ PHỤ THUỘC GIỮA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (758.19 KB, 71 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-----------------------

PHẠM THỊ OANH

PHÁT HIỆN QUAN HỆ PHỤ THUỘC GIỮA
CÁC MỆNH ĐỀ TRONG CÂU GHÉP
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
Mã đề tài: CNTTVINH13B-08

LUẬN VĂN THẠC SĨ KỸ THUẬT
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. NGUYỄN THỊ THU HƢƠNG

Hà Nội – Năm 2015


LỜI CAM ĐOAN
Luận văn thạc sỹ do em nghiên cứu và thực hiện dưới sự hướng dẫn của Cô
giáo TS. Nguyễn Thị Thu Hƣơng bộ môn khoa học máy tính Viện công nghệ
thông tin và truyền thông trường Đại học BKHN. Với mục đích học tập, nghiên cứu
để nâng cao kiến thức và trình độ chuyên môn nên em đã làm luận văn này một
cách nghiêm túc và hoàn toàn trung thực.
Để hoàn thành bản luận văn này, ngoài các tài liệu tham khảo đã liệt kê, em
cam đoan không sao chép toàn văn các công trình hoặc thiết kế tốt nghiệp của người
khác.
Hà Nội, tháng 9 năm 2015
Học viên



Phạm Thị Oanh


LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành của em tới các thầy cô giáo
trường Đại học Bách khoa Hà Nội nói chung và các thầy cô Viện Công nghệ thông
tin-truyền thông và bộ môn Khoa học máy tính nói riêng. Các thầy, cô đã tạo điều
kiện cho chúng em có cơ hội được học, tận tình giúp đỡ chúng em trong suốt quá
trình học tập tại Viện.
Em xin được gửi lời cảm ơn sâu sắc nhất đến cô giáo TS. Nguyễn Thị Thu
Hương đã tận tình giúp đỡ, trực tiếp chỉ bảo, chỉnh sửa, huớng dẫn em trong suốt
quá trình làm luận văn. Trong thời gian làm việc với Cô, em không những được tiếp
thu thêm kiến thức mà còn học tập được tinh thần làm việc, thái độ nghiên cứu khoa
học nghiêm túc, hiệu quả.
Tôi xin cảm ơn các anh, chị, em trong lớp 13BCNTT-VINH đã đồng hành và
giúp đỡ tôi trong quá trình học tập và làm luận văn.
Cuối cùng, tôi xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã
động viên, khuyến khích, chăm sóc, đóng góp ý kiến và giúp đỡ trong quá trình
học tập, nghiên cứu và hoàn thành luận văn.
Trân trọng!


DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT
BNF Backus Naur Form: Công thức siêu ngữ Backus
ADJ Annotated Disjunct: Dạng tuyển có chú giải
RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn
CCR Chunks/Constituents/Relation
SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ
SVM Support Vector Machine: Máy vectơ hỗ trợ

CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện
EDUs Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố
HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng
trung tâm
BNF Backus Naur Form: Công thức siêu ngữ Backus mở rộng
LVSP Đề tài nghiên cứu xử lí tiếng Việt


DANH MỤC BẢNG BIỂU
Bảng 2.1. Bảng xác định phần tử trung tâm của một nhóm ......................................27
Bảng 2.2. Bảng danh sách các quan hệ .....................................................................29
Bảng 2.3. Bảng định nghĩa về quan hệ bằng chứng ..................................................31
Bảng 3.1. Mô tả ý nghĩa của các kí hiệu sử dụng trong các biểu thức mô tả của dấu
hiệu diễn ngôn. ..........................................................................................................47
Bảng 3.2. Một số dấu hiệu diễn ngôn thường gặp. ...................................................47
Bảng 3.3. Liệt kê một số quan hệ để xây dựng quan hệ diễn ngôn dựa vào dấu hiệu
diễn ngôn. ..................................................................................................................48
Bảng 3.4. Thuật toán tìm các quan hệ diễn ngôn giả thiết ........................................50
Bảng 4.1. Bảng kết quả .............................................................................................59


DANH MỤC HÌNH VẼ
Hình 1.1. Lược đồ cấu trúc một kiểu câu phức ...........................................................7
Hình 1.2. Cây ngữ cấu câu “Bò vàng gặm cỏ non” ....................................................9
Hình 1.3. Cây ngữ cấu “Họ sẽ không chuyển hàng xuống thuyền vào ngày mai”........... 10
Hình 1.4. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu ........................13
Hình 1.5. Phân tích câu trong văn phạm phụ thuộc ..................................................15
Hình 2.1. Phân tích câu “John loves a woman” trong một mô hình văn phạm phụ
thuộc ..........................................................................................................................20
Hình 2.2. Đồ thị phụ thuộc của câu “Economic news had little effect on financial

market” ......................................................................................................................21
Hình 2.3. Năm kiểu sơ đồ được sử dụng trong RST [Mann & Thompson] .............32
Hình 3.1. Liên kết giữa các đơn vị ............................................................................52
Hình 3.2. Xây dựng cây RST ....................................................................................53
Hình 4.1. Giao diện chương trình .............................................................................58
Hình 4.2. Giao diện tách từ .......................................................................................59


MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC BẢNG BIỂU
DANH MỤC HÌNH VẼ
MỤC LỤC
MỞ ĐẦU ....................................................................................................................1
CHƢƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ ........3
1.1. Phân loại câu trong các ngôn ngữ .....................................................................3
1.1.1. Tiếng Anh ...................................................................................................3
1.1.2. Tiếng Việt ...................................................................................................5
1.2. Các mô hình biểu diễn cú pháp.........................................................................7
1.2.1. Cách tiếp cận cấu trúc................................................................................7
1.2.2. Cách tiếp cận phụ thuộc (Dependency grammar) .................................15
1.3. Phân tích câu nhiều mệnh đề ..........................................................................16
1.3.1. Phương pháp dựa trên từ gợi ý và quan hệ diễn ngôn mức câu ..............17
1.3.2. Phương pháp học máy ..............................................................................17
CHƢƠNG 2. TỔNG QUAN VỀ MÔ HÌNH CÚ PHÁP PHỤ THUỘC .............19
2.1. Mô hình văn phạm phụ thuộc .........................................................................19
2.1.1. Khái niệm cơ bản......................................................................................19
2.1.2. Đặc điểm của mô hình phụ thuộc .............................................................22

2.1.3. Bộ phân tích cú pháp phụ thuộc ...............................................................23
2.1.4. Bộ phân tích cú pháp phụ thuộc cho Tiếng Việt ......................................26
2.2. Mối quan hệ phụ thuộc giữa các mệnh đề ......................................................31
2.2.1. Quan hệ diễn ngôn giữa các mệnh đề ......................................................31
2.2.2. Định nghĩa quan hệ phụ thuộc dựa trên quan hệ diễn ngôn. ...................33


CHƢƠNG 3. PHÂN TÁCH MỆNH ĐỀ TRONG CÂU GHÉP TIẾNG VIỆT.....38
3.1. Quan hệ diễn ngôn giữa các mệnh đề tiếng Việt ............................................38
3.1.1. Quan hệ liệt kê ..........................................................................................38
3.1.2. Quan hệ kết hợp........................................................................................38
3.1.3. Quan hệ đối chiếu.....................................................................................40
3.1.4. Quan hệ đối lập ........................................................................................40
3.1.5. Quan hệ nguyên nhân ...............................................................................41
3.1.6. Quan hệ điều kiện .....................................................................................42
3.1.7. Quan hệ mục đích .....................................................................................43
3.1.8. Quan hệ nhượng bộ ..................................................................................44
3.2. Phân tách mệnh đề dựa trên quan hệ diễn ngôn .............................................44
3.2.1. Xác định dấu hiệu diễn ngôn tiềm tàng ....................................................46
3.2.2. Từ dấu hiệu diễn ngôn giả thiết quan hệ diễn ngôn .................................48
3.2.3. Xây dựng cây RST cho câu. ......................................................................52
CHƢƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QỦA .................................56
4.1. Công cụ thử nghiệm ........................................................................................56
4.2. Kết quả đạt được .............................................................................................58
4.3. Những tồn tại và hướng phát triển ..................................................................60
KẾT LUẬN ..............................................................................................................61
TÀI LIỆU THAM KHẢO ......................................................................................62


MỞ ĐẦU

1. Lý do chọn đề tài
Với sự bùng nổ thông tin, nhu cầu tìm kiếm, dịch máy, tóm tắt văn bản,… của
người dùng ngày càng cao và phức tạp. Các mô hình cú pháp đóng vai trò tích cực
trong việc nâng cao chất lượng xử lý ngôn ngữ tự nhiên. Mô hình phụ thuộc là mô
hình mới được nghiên cứu ở Việt nam và mới chỉ có một vài kết quả ban đầu trong
việc xây dựng văn phạm, phân tích câu đơn. Trong khi câu ghép và câu phức chiếm
một tỷ lệ khá lớn trong các văn bản tiếng Việt. Việc tách mệnh đề của câu ghép để
phân tích sẽ nâng cao đáng kể độ chính xác của phân tích. Đề tài Phát hiện quan
hệ phụ thuộc giữa các mệnh đề trong câu ghép mang đến một đóng góp nhỏ bé
nhưng khá hiệu quả cho xử lý tiếng Việt.
2. Mục đích nghiên cứu luận văn
- Nắm vững kiến thức liên quan đến xử lý ngôn ngữ tự nhiên, bao gồm: các
mô hình biểu diễn cú pháp, mô hình phụ thuộc,
- Thử nghiệm phân tách mệnh đề dựa trên dấu hiệu diễn ngôn mức câu và thiết
lập mối quan hệ phụ thuộc giữa các mệnh đề.
3. Phạm vi nghiên cứu
Luận văn tập trung nghiên cứu phân tích cú pháp câu nhiều mệnh đề, mô
hình văn phạm phụ thuộc, phân tách mệnh đề trong câu ghép Tiếng Việt.
Nội dung luận văn gồm có phần mở đầu, 4 chương, phần kết luận, tài liệu
tham khảo và phụ lục.
Chƣơng 1. Vấn đề phân tích cú pháp câu nhiều mệnh đề. Chương này trình bày:
Phân loại câu trong các ngôn ngữ tiếng Anh và tiếng Việt; các mô hình biểu diễn cú
pháp: văn phạm phi ngữ cảnh, văn phạm phụ thuộc, một số mô hình khác; phân tích
câu nhiều mệnh đề trong tiếng Anh: phân tích theo mô hình phi ngữ cảnh, phân tích
theo mô hình phụ thuộc; các phương pháp phân tách mệnh đề trong tiếng Anh:
phương pháp dựa trên từ gợi ý và quan hệ diễn ngôn mức câu, phương pháp học
máy.

1



Chƣơng 2. Tổng quan về mô hình cú pháp phụ thuộc. Chương này trình bày: Mô
hình văn phạm phụ thuộc: Khái niệm cơ bản, đặc điểm của mô hình phụ thuộc, bộ
phân tích cú pháp phụ thuộc; mối quan hệ phụ thuộc giữa các mệnh đề: khái niệm
mệnh đề, quan hệ diễn ngôn giữa các mệnh đề, định nghĩa quan hệ phụ thuộc dựa
trên quan hệ diễn ngôn.
Chƣơng 3. Phân tách mệnh đề trong câu ghép tiếng Việt. Chương này trình bày:
Quan hệ diễn ngôn giữa các mệnh đề trong tiếng Việt: quan hệ liệt kê, quan hệ kết
hợp, quan hệ đối chiếu, quan hệ đối lập, quan hệ nguyên nhân, quan hệ điều kiện,
quan hệ mục đích, quan hệ nhượng bộ, các quan hệ khác; phân tách mệnh đề dựa
trên quan hệ diễn ngôn: xác định dấu hiệu diễn ngôn tiềm tàng, từ dấu hiệu diễn
ngôn giả thiết quan hệ diễn ngôn, xây dựng cây RST cho câu.
Chƣơng 4. Thử nghiệm và đánh giá kết quả. Chương này trình bày: Công cụ thử
nghiệm, kết quả đạt được, những tồn tại và hướng phát triển.

2


CHƢƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ
Thông tin cú pháp đóng vai trò rất quan trọng trong xử lý ngôn ngữ tự nhiên.
Dù hiện nay đã có những kho ngữ liệu lớn cho phép thực hiện các phương pháp
học máy, thống kê…, thông tin về cú pháp vẫn góp phần đáng kể cải tiến chất lượng
dịch máy, tóm tắt văn bản,… và tất nhiên không thể thiếu được một ứng dụng rất
quan trọng là kiểm tra cú pháp cho các văn bản. Việc phân tích câu đơn đã được
thực hiện khá hoàn chỉnh với các mô hình cú pháp khác nhau. Tuy nhiên, thực tế
câu gồm nhiều mệnh đề lại chiếm phần lớn trong các văn bản. Việc phân tích câu
nhiều mệnh đề thường rất chậm và dẫn đến kết quả không đúng do quá trình học đã
không tìm được câu thực sự tốt, hoặc do các luật cú pháp được áp vào một cách
khiên cưỡng, ví dụ câu “Trong biên bản hoàn công của công trình này (ông Tuấn ký
ngày 1-6-1995) công nhận phần kiến trúc “trệt, lửng, năm lầu và mái che thang,

khung cột đà sàn bê tông cốt thép”, với tổng DTXD 388, 80 m”, thực ra mệnh đề
“(ông Tuấn ký ngày 1-6-1995)” là một lời giải thích cho từ “biên bản”.
Vì vậy, việc tìm hiểu cấu trúc các câu nhiều mệnh đề và phân tách để phân
tích cú pháp riêng từng mệnh đề sẽ có thể đem lại hiệu quả tốt hơn. Trước khi đi sâu
vào chi tiết, luận văn xin giới thiệu các khái niệm liên quan đến câu, câu nhiều
mệnh đề trong một số ngôn ngữ.
1.1. Phân loại câu trong các ngôn ngữ
1.1.1. Tiếng Anh
a. Simple sentences (câu đơn)
- Là câu chỉ có một mệnh đề độc lập.
Ví dụ: + We were sorry. We left. We did not meet all the guests.
+ We felt the disappointment of our friends at our early departure.
– Câu đơn không phải là câu ngắn mà nó chỉ thể hiện một ý chính.
– Một câu đơn có thể có nhiều hơn một chủ ngữ
Ví dụ: John and Mary were sorry.
- Một câu đơn có thể có nhiều động từ
Ví dụ: John ate peanuts and drank coffee.
3


b. Counpound sentences (câu ghép)
– Là câu chứa từ hai mệnh đề độc lập trở lên, diễn tả các ý chính có tầm quan trọng
ngang nhau.
– Chúng ta sử dụng các cách sau để nối hai mệnh đề:
+ Sử dụng dấu chấm phẩy.
Ví dụ: The bus was very crowded; I had to stand all the way.
+ Sử dụng dấu phẩy và một liên từ đẳng lập.
Ví dụ: The bus was very crowded, so I had to stand all the way.
+ Sử dụng dấu chấm phẩy và một liên từ trạng từ (however, therefore,
nevertheless…) và theo sau đó là dấu phẩy.

Ví dụ: The bus was very crowded; therefore, I had to stand all the
way.
c. Complex sentences (câu phức)
– Là câu chứa một mệnh đề độc lập và một hay nhiều mệnh đề phụ thuộc. Mệnh đề
phụ có thể bắt đầu bằng liên từ phụ thuộc hoặc đại từ quan hệ.
Ví dụ: Because the bus was crowded, I had to stand all the way.
Trong câu trên có một mệnh đề độc lập “I had to stand all the way” và một mệnh
đề phụ thuộc “the bus was crowded”
Ví dụ: It makes me happy that you love me.
Câu này có một mệnh đề độc lập “it makes me happy” và một mệnh đề phụ thuộc
“that you love me”.
– Câu phức sử dụng liên từ phụ thuộc để nối các vế của câu.
Ví dụ: We left before he arrived.
d. Compound-complex sentences (câu phức hợp)
- Là câu có ít nhất hai mệnh đề độc lập và ít nhất một mệnh đề phụ thuộc.
Ví dụ: Because she didn’t hear the alarm, Mary was late and the train had
already left.
Trong câu trên, có hai mệnh đề độc lập là “Mary was late” và “the train had already
left”.

4


Một mệnh đề phụ thuộc là “she didn’t hear the alarm”.
Ví dụ: The cat lived in the backyard, but the dog, who knew he was superior,
lived inside the house.
Mệnh đề độc lập là: “the cat lived in the backyard”, “the dog lived inside the house”
Mệnh đề phụ thuộc là “who knew he was superior”
1.1.2. Tiếng Việt
Câu trong tiếng Việt cũng phân thành các loại sau: câu đơn; câu phức, câu

ghép. Tuy nhiên cách phân chia có sự khác biệt. Tiếng Anh phân chia theo vai trò
của mệnh đề, tiếng Việt phân chia theo vị trí các cụm chủ vị.
a. Câu đơn: Là câu có một kết cấu chủ ngử-vị ngữ.
Gồm câu đơn đặc biệt và câu đơn hai thành phần:
Câu đơn đặc biệt (câu đơn không xác định thành phần): Câu đơn đặc biệt là
cấu trúc có một trung tâm cú pháp chính (có thể thêm trung tâm cú pháp phụ) không
chứa hay không hàm ẩn một trung tâm cú pháp thứ hai có quan hệ với nó như là
quan hệ giữa chủ ngữ với vị ngữ.
Câu đơn đặc biệt là kiểu câu đơn do một từ, một ngữ tạo thành. Từ, ngữ tạo
thành câu đơn làm thành phần chính duy nhất (cũng có thể gọi là nòng cốt) không
thể xác định là chủ ngữ hay vị ngữ.
Câu đơn đặc biệt là loại câu mà ta không xác định được hai thành phần: chủ vị, nghĩa là câu có thể là một từ, một cụm từ hay một kết cấu khác không phải là
chủ-vị. Loại câu này muốn trở thành câu thì nó phải xuất hiện trong những hoàn
cảnh cụ thể và khi nói phải có giọng điệu đặc biệt.
Ví dụ:

- Còn đời mày nữa. (Ngô Tất Tố)
- Giỏi lắm.

Câu đơn hai thành phần: là câu có một cụm chủ-vị duy nhất làm thành nòng
cốt câu.
Ví dụ:

Giáp đang đọc sách; Con mèo đi rón rén.

b. Câu ghép
Câu ghép là câu chứa hai (hơn hai) kết cấu chủ-vị, trong số đó không kết cấu
chủ -vị nào bao kết cấu chủ-vị nào; mỗi kết cấu chủ vị diễn đạt một sự việc và các
5



sự việc này có quan hệ với nhau theo mối quan hệ nào đó. [Sách ngữ pháp tiếng việt
tr.143].
Câu ghép bao gồm câu ghép đẳng lập (còn được gọi là câu ghép bình đẳng,
câu ghép đẳng kết, câu ghép qua lại, câu ghép song song,..) và câu ghép chính phụ
còn gọi là câu ghép phụ kết).
Câu ghép đẳng lập: Là câu gồm có hai hay nhiều cụm chủ ngữ - vị ngữ liên
kết với nhau. Giữa các cụm chủ ngữ - vị ngữ này thường có liên từ: và, còn hoặc
dấu phẩy (,) để liên kết các mệnh đề.
Ví dụ: - Lan đang học lớp 1 còn em trai Lan thì mới đi mẫu giáo.
- Hoa hồng màu đỏ, hoa huệ màu trắng, hoa cúc thì màu vàng.
Câu ghép chính phụ: Là câu gồm có hai hay nhiều cụm chủ ngữ - vị ngữ liên
kết với nhau bằng các cặp quan hệ từ. Ở dạng câu ghép này nòng cốt chủ ngữ - vị
ngữ đứng trước thường được coi là vế chính, thông báo về điều kiện, lí do, nguyên
nhân, mục đích,... đảm bảo để có sự xuất hiện, tồn tại... của sự tình nêu ở nòng cốt
chủ ngữ - vị ngữ đứng sau. Các cặp quan hệ từ thường được sử dụng là:
Tuy... nhưng... (hoặc song), (mặc) dù... nhưng... (hoặc song), nếu... thì.., hễ...
thì..., không những... mà (còn)..., sở dĩ...(là) vì...
Ví dụ:

- Nếu anh đến thì tôi cũng không có ở nhà.
- Miễn là ông ấy đồng ý thì mọi việc đều coi như xong.

Trong một số trường hợp, một trong hai quan hệ từ này có thể vắng mặt do
ngữ cảnh giao tiếp đủ để hiểu:
Ví dụ: - (Sở dĩ) Nam học giỏi là vì cậu ấy rất chăm chỉ.
- Vì đông người mua nên hết sách.
c. Câu phức
Là câu có chứa hai kết cấu chủ ngữ-vị ngữ hoặc hơn hai kết cấu chủ-vị. Nhưng
chỉ có một kết cấu chủ-vị bao kết cấu chủ-vị còn lại. (Theo Diệp Quang Ban[13])

Ở câu phức, có hai hoặc hơn hai kết cấu chủ-vị nhưng trong số đó chỉ có một kết
cấu chủ-vị nằm ngoài cùng bao các kết cấu chủ-vị còn lại. Các kết cấu chủ-vị còn
lại bị bao bên trong kết cấu chủ-vị nằm ngoài cùng đó.

6


Ví dụ: Nó bảo nó đi Đà Nẵng
Nó bảo

nó đi Đà Nẵng
[C

C

V]

V

Hình 1.1. Lược đồ cấu trúc một kiểu câu phức
Trong câu phức có nhiều cụm chủ vị lồng nhau, ví dụ « Con mèo Giáp mua chạy
mất rồi », « Nó nhắn anh vì xe hỏng nó không đến được »
1.2. Các mô hình biểu diễn cú pháp
Theo Jurafsky [1], quan hệ văn phạm là cách hình thức hóa những tư tưởng
của văn phạm truyền thống như chủ ngữ hay bổ ngữ và mối quan hệ khác. Nhiều
mô hình văn phạm đã được đưa ra theo các hướng tiếp cận: cấu trúc (constituency)
với sự mở rộng của văn phạm phi ngữ cảnh (context free grammar), quan hệ văn
phạm (grammar relation), phân loại con (subcategorization) hay phụ thuộc
(dependency). Hai hướng tiếp cận phổ biến hiện nay là cấu trúc và phụ thuộc.
1.2.1. Cách tiếp cận cấu trúc

Mô hình cho phép nghiên cứu việc tạo lập các cấu trúc một cách đệ quy
chính là mô hình văn phạm phi ngữ cảnh. Mô hình hình thức này tương đương với
dạng chuẩn BNF (Backus Naur Form) của ngôn ngữ lập trình.
Văn phạm phi ngữ cảnh là một tập hợp hữu hạn các biến (còn gọi là các ký
hiệu không kết thúc), mỗi biến biểu diễn một ngôn ngữ. Ngôn ngữ được biểu diễn
bởi các biến được mô tả một cách đệ quy theo thuật ngữ của một khái niệm khác gọi
là ký hiệu kết thúc. Quy tắc quan hệ giữa các biến gọi là sản xuất. Mỗi sản xuất có
dạng một biến ở vế trái sinh ra một chuỗi có thể gồm biến lẫn các ký hiệu kết thúc
trong văn phạm.
Định nghĩa . Văn phạm phi ngữ cảnh là bộ 4

7


N: tập ký hiệu không kết thúc (biến)
: tập ký hiệu kết thúc (không giao với N)
R: tập luật hay tập sản xuất dạng A, A là ký hiệu không kết thúc,  là xâu
gồm hữu hạn ký hiệu trên tập vô hạn (N)*
S: ký hiệu đầu
Ví dụ: Một tập sản xuất của văn phạm phi ngữ cảnh tiếng Việt với ý nghĩa của các
kí hiệu kết thúc: G = (∑, ∆, R, S)
∑ = {A, V, N}
Tập kí hiệu kết thúc là các từ loại A: tính từ
V: động từ
N: Danh từ
∆ = {S, NP, VP}
Tập kí hiệu kết thúc chỉ các cấu trúc cú pháp:
S: câu-là kí hiệu đầu chỉ đối tượng được xây dựng nhờ văn phạm
NP: cụm danh ngữ
VP: cụm động ngữ

Tập các sản xuất:
S→ NP VP

NP→A N

VP→ V NP

Trong mô hình văn phạm phi ngữ cảnh, bài toán phân tích cú pháp là bài toán tìm ra
cây ngữ cấu cho câu đưa vào. Mỗi nút của cây ngữ cấu có nhãn là một ký hiệu
không kết thúc biểu diễn một cấu trúc. Theo cây ngữ cấu thể hiện những thông tin
sau về cú pháp:
- Thứ tự tuyến tính của các từ trong câu.
- Tên các phạm trù cú pháp của các từ và nhóm từ.
- Cấu trúc phân cấp của các phạm trù cú pháp.
Cho câu: “Bò vàng gặm cỏ non” được mô tả

8


S
NP
N

A

VP
V(gặm)

NP


N(cỏ)

(Bò) (vàng)

A(non)

Hình 1. 2. Cây ngữ cấu câu “Bò vàng gặm cỏ non”
Vấn đề nhập nhằng là một trong những vấn đề phức tạp nhất mà các bộ phân
tích cú pháp phải giải quyết. Trong giai đoạn phân tích cú pháp, vấn đề nhập nhằng
hướng về cấu trúc (structural ambiguity). Vấn đề này xảy ra khi một câu có nhiều
hơn một phân tích. Trong hình 1.3 sau là hai cây ngữ cấu khác nhau cho câu “Họ sẽ
không chuyển hàng xuống thuyền vào ngày mai”. Tập kí hiệu kết thúc chỉ cú pháp:
S  NP VP
NP P
VP  R VP | R R V N PP PP | VP PP | V NP PP
PP E NP
Ý nghĩa của các ký hiệu: S - câu, NP – cụm danh ngữ, VP- cụm động ngữ, PP – giới
ngữ, N - danh từ, V- động từ, P - đại từ, R – phụ từ, E- giới từ, PP-TMP-giới ngữ
chỉ thời gian.

9


Hình 1.3. Cây ngữ cấu câu “Họ sẽ không chuyển hàng xuống thuyền vào ngày
mai”
Một số mô hình phân tích cú pháp trong Tiếng Việt đã sử dụng văn phạm phi
ngữ cảnh và một số dạng mở rộng khác thành công với việc phân tích cú pháp của
câu đơn.
Câu ghép tiếng Việt là có cấu trúc ngữ pháp rất phức tạp việc biểu diễn câu
ghép bằng các luật sản xuất, mô tả cấu trúc là rất khó, đa dạng.

Do câu ghép tiếng Việt rất nhiều cấu trúc cú pháp, các liên từ giữa các mệnh
đề cũng phong phú nên tập luật sản xuất của câu ghép trong tiếng Việt là khá lớn.
Muốn biểu diễn được chính xác và chi tiết các trường hợp thì cần phải chỉ ra một
cách mô tả cụ thể hơn cho các luật. Ví dụ những câu ghép được nối với nhau bởi
một cặp liên từ, nếu liên từ đứng đầu là “Nếu” thì liên từ đi cùng chỉ có thể là “thì”

10


hoặc dấu “phẩy”. Việc biểu diễn chi tiết thì tập luật sản xuất càng lớn, cây ngữ cấu
càng sâu, tốc dộ phân tích giảm.
a. Văn phạm phi ngữ cảnh xác suất
Trong mô hình văn phạm phi ngữ cảnh xác suất, mỗi luật được gắn thêm một xác
suất cho thấy luật đó có thường xuyên được sử dụng trong các cây ngữ cấu hay
không.
Định nghĩa. Văn phạm phi ngữ cảnh xác suất là bộ 4
N: tập ký hiệu không kết thúc (biến)
: tập ký hiệu kết thúc (không giao với N)
R: tập luật hay tập sản xuất dạng A|p|, A là ký hiệu không kết thúc,  là
xâu gồm hữu hạn ký hiệu trên tập vô hạn ( N)*, p là số trong đoạn [0,1]
biểu diễn xác suất P(|A)
S: ký hiệu đầu
Mô hình xác suất đơn giản này được sử dụng để giải quyết vấn đề nhập nhằng. Xét
mọi cây ngữ cấu của câu S (cây cho kết quả là S), cây được chọn sẽ là cây thỏa mãn
yêu cầu. Xác suất của một cây là tích các xác suất của n luật có dạng.
LHSi RHSi (LHS: vế trái (Left Hand Side), RHS: vế phải (Right Hand Side))

được sử dụng để mở rộng n nút trong của nó. Cây được chọn là cây có xác suất lớn
nhất [1]


Xác suất của mỗi luật A  được tính dựa trên treebank sử dụng đánh giá về độ
tương tự cao nhất.

Văn phạm phi ngữ cảnh xác suất có những nhược điểm sau:
 Không mô hình hóa được sự phụ thuộc giữa các cấu trúc trên cây cú pháp do
xác suất của mỗi luật được tính toán hoàn toàn độc lập với nhau.
11


 Không diễn tả được sự thay đổi vị trí một số thành phần câu, đặc biệt là câu ghép.
 Thông tin cú pháp có liên quan đến những từ đặc biệt nào đó nhưng mô hình
phi ngữ cảnh lại không mô tả được. Do vậy dẫn đến nhập nhằng trong xử lý
liên hợp (coordination), loại con (subcategory), sử dụng giới từ.
b. Văn phạm phi ngữ cảnh xác suất từ vựng hóa (Lexicalized Probabilistic Context
Free Grammar)[1]
Văn phạm phi ngữ cảnh xác suất có thể từ vựng hóa bằng cách liên hệ mỗi từ
(w) và một từ loại (t) với mỗi ký hiệu không kết thúc A trên cây ngữ cấu, ví dụ câu
(S) có thể được mở rộng thành S(bought,VBD) hay NP thành NP(IBM, NNP). Như
vậy mỗi ký hiệu không kết thúc sẽ được viết dưới dạng A(x), x =(w, t) và A là một
nhãn của cấu trúc. Như vậy số ký hiệu không kết thúc sẽ tăng rất mạnh, nhiều nhất
tới |ν| × |τ| lần, |ν| là số lượng từ trong từ vựng và |τ| là số lượng từ loại của ngôn
ngữ.
Hình 1.4. dưới đây cho thấy hình ảnh một văn phạm phi ngữ cảnh xác suất từ vựng
hóa.
Ví dụ: Văn phạm phi ngữ cảnh xác suẩt từ vựng hóa
Các luật nội tại
TOP




S(bought, VBD)

S(bought, VBD)



NP(week, NN)

NP(IBM, NNP) VP(bought, VBD)

NP(week, NN)



JJ(Last, JJ)

NN(week,NN)

NP(IBM, NNP)



NNP(IBM, NNP)

VP(bought, VBD) 
NP(Lotus, NNP)



VBD(bought,VBD) NP(Lotus,NNP)

NNP(Lotus, NNP)

Các luật từ vựng
JJ(Last, JJ)



Last

NP(week, NN)



Week

NNP(IBM, NNP)



IBM

VBD(bought,VBD) 
NP(Lotus, NNP)



12

Bought
Lotus



Cây ngữ cấu cho câu “Last week IBM bought Lotus”

Hình 1.4. Văn phạm phi ngữ cảnh xác suất và cây ngữ cấu của câu
“Last week IBM bought Lotus”
Xác suất theo công thức về độ tương tự lớn nhất sẽ như sau:
P(NP(week,NN) NP(IBM, NNP) VP(bought,VBD) |S(bought, VBD)) =

Việc thêm thông tin từ vựng làm cho mẫu số trở nên vô cùng lớn, xác suất gần như
bằng 0. Để tránh số lượng tham số quá lớn, trong mô hình được Collins [18] đưa ra,
luật được chia thành một dãy các bước nhỏ hơn. Luật của văn phạm phi ngữ cảnh
xác suất từ vựng hóa có dạng.
P(h)  Ln(ln). . . L1(l1) H(h)R1(r1). . . Rm(rm)
H là con chính của luật sẽ thừa kế cặp từ/ nhãn từ loại của nút cha P. Thành phần
Ln(ln). .L1(l1) bổ nghĩa cho H ở bên trái và thành phần R1(r1). . . Rm(rm) bổ nghĩa cho
H ở bên phải n hoặc m có thể bằng 0. Dãy bên trái và bên phải được mở rộng bởi ký
hiệu STOP. Do vậy Ln+1= Lm+1 =STOP
Ví dụ. Với luật
S(brough, VBD)  NP(week, NN) NP(IBM,NNP) VP(bought,VBD)
n=2

m=0

P=S

H = VP

L1 =NP


L2 = NP

L3 = STOP

R1 = STOP

h = (bought,VBD)

l1 = (IBM,NNP)

l2 = (week, NN)

13


Các luật từ vựng thì vẫn có dạng P(h)  w với P là một từ nhãn loại, h là cặp (w,t).
Các luật này luôn được mở rộng với xác suất 1khi gặp một ký hiệu không kết thúc
là nhãn từ loại. Xác suất của luật nội tại được tính dựa theo luật chuỗi xác suất.

các chỉ số h, l, r chỉ ra kiểu tham số của trung tâm, thành phần bổ nghĩa bên trái,
phải. Xác suất này được tính với giả thiết các thành phần bổ nghĩa được sinh ra một
cách độc lập với nhau. Tuy nhiên rõ ràng xác suất sinh ra một đối tượng bổ nghĩa có
thể phụ thuộc vào một hàm bất kỳ của các đối tượng bổ nghĩa trước đó, lĩnh vực của
trung tâm hay từ trung tâm. Do vậy, khoảng cách được bổ sung vào giả thiết về tính
độc lập của các từ bổ nghĩa.
Pl(Li(li)|H, P, h, L1(l1). . .Li-1(li-1) = Pl(Li(li)|H,P,h,distancel(i-1))
Pr(Ri(ri)|H, P, h, R1(l1). . .Ri-1(Ri-1) = Pl(Ri(ri)|H,P,h,distancer(i-1))
Mô hình này cũng đã được sử dụng để xây dựng bộ phân tích cú pháp tiếng Việt với
nhận xét rằng trong tiếng Việt các thành phần biên của các ngữ phụ thuộc vào thành
phần bên cạnh nó nhiều hơn là phụ thuộc vào thành phần trung tâm.

Bảng 1.1. Ý nghĩa nhãn các từ viết tắt trong ví dụ trên:
Ý nghĩa

Nhãn

Ý nghĩa

Nhãn

N

Danh từ

VBD

Chức năng động từ

NP

Cụm danh ngữ

S

Câu

VP

Cụm động ngữ

NN


Chức năng danh từ

NNP

Ngoại động từ

V

Động từ

SBAR

Mệnh đề phụ kết

JJ

Chức năng tính từ

14


1.2.2. Cách tiếp cận phụ thuộc (Dependency grammar)
Văn phạm phụ thuộc có khởi đầu từ những ngôn ngữ Ấn độ cổ như Panini,
mô hình hiện đại được Lucien Tesniere giới thiệu, thể hiện được đặc tính tự do của
trật tự từ trong các ngôn ngữ. Mô hình văn phạm phụ thuộc là quan hệ bất đối xứng
gọi là quan hệ phụ thuộc (hay phụ thuộc-dependency). Quan hệ phụ thuộc xảy ra
giữa một từ phụ thuộc (dependent) và một từ khác mà nó phụ thuộc vào gọi là từ
trung tâm (head).
Trong văn phạm phụ thuộc mỗi câu được thể hiện bởi một tập các từ. Các từ

này được liên kết với nhau thông qua hai khái niệm là hướng và tên của quan hệ
giữa các từ trong một câu.
Hướng của quan hệ có hướng từ từ trung tâm tới từ phụ thuộc, mang ý nghĩa
bổ nghĩa cho nó. Tên của quan hệ có thể đi kèm với mỗi hướng của quan hệ nó thể
hiện ý nghĩa của quan hệ phụ thuộc giữa hai từ nằm ở giữa hai đầu quan hệ.
Đặc biệt là với bất kì từ nào trong câu nó cũng chỉ và chỉ có duy nhất một
cha nằm ở hướng mũi tên của quan hệ. Và với mỗi từ nó có thể có nhiều con trở tới
mang ý nghĩa bổ nghĩa khác nhau. Phần tử chính của câu được chọn là động từ
trung tâm của câu đó.
Ví dụ: “Cậu bé đang nghịch quả bóng màu xanh” được mô tả:
đtbn

Cậu bé

dep

bn

đang nghịch

quả

Dep

bóng
bn

màu

xanh


ttbn

Hình 1.5. Phân tích câu trong văn phạm phụ thuộc
Ký hiệu viết tắt là tên các quan hệ trong hình 1.5 là: dtbn- động từ bổ ngữ;Dep-phụ
thuộc; bn-bổ ngữ; ttbn-tính từ bổ nữ ngữ.
Mô hình phụ thuộc có đặc điểm là phân tích câu đơn giản, do vậy cây phân tích phụ
thuộc thấp hơn nhiều so với cây ngữ cấu, điều đó sẽ dẫn đến giảm không gian lưu
trữ, giảm thời gian thực hiện các phân tích khác. Một ưu điểm nữa của mô hình phụ
thuộc là có thể thể hiện những trật tự từ tự do trong câu, ví dụ, mối liên hệ phụ
thuộc giữa các từ trong câu “Hôm nay tôi rất mệt” và câu “Tôi hôm nay rất mệt” là

15


giống nhau, trong khi phân tích của hai câu này trong mô hình cấu trúc rất khác
nhau.
1.3. Phân tích câu nhiều mệnh đề
Mệnh đề là dãy từ trong câu và đóng vai trò một đơn vị cú pháp chứa tối
thiểu là một vị ngữ (và một chủ ngữ có thể ẩn hiện) biểu diễn một nhận định nào đó.
Mệnh đề được xem là thành phần của câu. Nói cách khác một câu có nhiều
mệnh đề. Mệnh đề gồm hai loại: mệnh đề phụ thuộc là mệnh đề không thể đứng
một mình để trở thành một câu hoàn chỉnh, nó luôn phải đi với một mệnh đề độc lập
nối với nhau bởi một từ hay cụm từ để tạo thành một câu có ý nghĩa, từ hay cụm từ
này sẽ là dấu hiệu nhận biết cho một mệnh đề phụ thuộc. Mệnh đề độc lập có thể
dứng một mình mà không cần kết hợp với các mệnh đề khác vì bản thân nó đã tạo
thành một câu hoàn chỉnh.
Trong tiếng Anh mệnh đề phải có ít nhất một động từ chia theo ngôi và theo
thời, tuy nhiên trong một số ngôn ngữ như tiếng Việt, tiếng Nga, vị ngữ có thể là
tính từ, do vậy mệnh đề có thể không chứa động từ.

Ví dụ: Câu tiếng Anh “I am reading book, he is watching TV” có hai mệnh
đề với hai động từ chính là read và watch.
Ví dụ: Câu “Tôi ăn cơm và sau đó tôi đi bộ”
là câu có hai mệnh đề “tôi ăn cơm” và “tôi đi bộ” với từ nối “và”, trạng ngữ chỉ
thời gian “sau đó”.
Khi phân tích câu nhiều mệnh đề, có thể xây dựng luật cho mệnh đề phụ như trong
mô hình cấu trúc có thể có luật:
VP  R P SBAR (VP-cụm động từ; R-phụ từ; P-đại từ; SBAR-mệnh đề phụ kết)
Trong đó SBAR là mệnh đề phụ kết, có chứa trong đó ít nhất một cụm chủ vị.
Trong mô hình phụ thuộc cũng có thể có những luật dành cho mệnh đề.
Trong mô hình phụ thuộc cũng có những luật tương tự như vậy để phân tích câu
nhiều mệnh đề.
Ví dụ, quan hệ phụ thuộc mark giữa động từ và một giới từ như because cho
phép nối động từ chính với một từ nối mở đầu một mệnh đề phụ.

16


Tuy nhiên, việc phân tích trực tiếp câu dài với nhiều mệnh đề tốn thời gian
và không cho kết quả chính xác do việc khử nhập nhằng không đúng. Hướng giải
quyết ở đây là phân tách câu thành các mệnh đề, phân tích các mệnh đề riêng rẽ và
cuối cùng kết hợp các mệnh đề thành phân tích hoàn chỉnh.
Việc phân tách các mệnh đề trong có thể được thực hiện thông qua một số
dấu hiệu. Dấu hiệu có thể là dấu phân cách, từ (cặp từ, cụm từ) gợi ý. Tuy nhiên khi
xây dựng bộ phân tách tự động cũng cần lưu ý đến khả năng từ gợi ý có thể đóng
nhiều vai trò khác nhau, không nhất thiết chỉ để phân cách mệnh đề. Đặc biệt với
những ngôn ngữ có trật tự từ tự do. Khi ấy cần kết hợp với các phương pháp học
máy để có được két quả chính xác.
1.3.1. Phương pháp dựa trên từ gợi ý và quan hệ diễn ngôn mức câu
Mục đích của phân tách văn bản đầu vào thành các đơn mệnh đề. Trong

nhiều nghiên cứu gần đây, đa số thuật toán phân tách diễn ngôn đều sử dụng từ gợi
ý để nhận dạng các nguyên tố. Tuy nhiên, Racker đã phát hiện ra rằng chỉ có
khoảng 50% mệnh đề có tồn tại các từ, cụm từ gợi ý. Do đó phân tách diễn ngôn
dựa vào từ gợi ý không cho kết quả tốt cho mọi loại văn bản, để nâng cao tính chính
xác của phân tách, người ta đã kết hợp giữa từ, cụm từ gợi ý và cây cú pháp kết quả
nhận được là khá tốt. Song với một loại văn bản nhất định (thường là những văn
bản khoa học, báo cáo,…) từ gợi ý vẫn là lựa chọn tốt dễ triển khai và kết quả
không khác xa so với thuật toán kết hợp từ gợi ý và cây cú pháp. 50% tốt với câu
ghép, câu phức chưa tốt.
1.3.2. Phương pháp học máy
Học máy, (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân
tạo liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học". Cụ
thể hơn, học máy là một phương pháp để tạo ra các chương trình máy tính bằng việc
phân tích các tập dữ liệu. Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực
đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung
vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy
luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu
sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lí được.
17


×