Tải bản đầy đủ (.pdf) (50 trang)

Xử lý ngôn ngữ tự nhiên bằng máy tính và ứng dụng trong việc dịch xuôi ngược anh việt báo cáo nghiệm thu đề tài nghiên cứu khoa học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.32 MB, 50 trang )

ĐẠI HỌC QUỐC

GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA
BACREICRHIGR

BAO CAO NGHIEM THU

DE TAI NGHIEN CUU KHOA HOC

XỬ LY NGÔN NGỮ TU NHIÊN
BẰNG MÁY TÍNH


UNG DUNG TRONG VIEC DICH XUGI, NGƯỢC
ANH - VIET

Chit nhiém dé tai: PGS.TS Phan Thj Tươi

TP.HCM, 8/2003


MUC LUC
TRANG

NOI DUNG

1

Chương 1: Đặt vấn để



1.1. Mở đẫu.....
1.2. Đặt vấn để

1
2
..............................-.-

4

Phần 1: Cơ sở lý thuyết ........................................-----e-eer

9

Chương 2: Ngôn ngữ tự nhiên và ngơn ngữ hình thức
2.1. Ngơn ngữ tự nhiên ..............................:

10
10

1.3.

Những nghiên cứu liền quan

.

2.1.1. Văn phạm tiếng Anh ...

10


. 13

2.1.2. Văn phạm tiếng Việt ..

...

18

Chương 3: Giải thuật phân tích cú phấp..............................ccreeeenerrerrenrre

19

2.2.

Ngơn ngữ hình thức ...................

Phân tích cú pháp từ trên xuống

19

3.2.
3.3.

Phân tích cú pháp từ dưới lên ....
Phân tích cú pháp theo giải thuật Earley

3.4.

Giải thuật Cocke, Kasami, Younger


20

3.1.

19
19

3.5. Phân tích cú pháp theo sơ đổ

3.5.1. Bộ phân tích cú pháp sơ đổ từ dưới lên

3.5.2. Bộ phân tích cú pháp sơ đồ từ trên xuống

...................................

23

chen

27

Chương 4: Hệ thống nét và văn phạm gia tỐ.......................

Chương 5: Ngữ nghĩa và dạng luận ly...
5.1. Dang luan ly
5.2. Ngôn ngữ dạng luận lý cơ bản.................
5.3. Mã hóa sự nhập nhằng trong dạng luận W.
5.4. Hành vi của phát ngôn và câu nhúng ......................------sree-eeeeee

Chương 6: Liên kết cú pháp và ngữ nghĩa .

6.1.

Giải thuật diễn dịch .........................

6.3.

Xử lý diễn dịch ngữ nghĩa ................................

6.2. Văn phạm đơn giản và từ điển với diễn địch ngữ nghĩa
6.4. Tổng hợp câu từ đạng luận lý............................

Phần 2: Dạng luận lý và địch máy ......................
Chương 7: Giải thuật tạo tự động dạng luận lý....
i





37
37

. 38

. 40

46


7.1.


Thử nghiệm tạo tự động dạng luận lý cho câu của ngôn ngữ tự nhiên...

50

7.2. Kiểm tra sự phù hợp
7.3. Kiến trúc chương trình ..

7.3.1. Kiến trúc chương trình .

7.3.2. Từ điển có hệ thống nét

7.4.

Văn phạm

7.4.1. Tập luật sinh của văn phạm tiếng Anh

7.4.2. Tập luật sinh của văn phạm lưu vẾC.........................v.ccssserrrrrrrirrree
7.4.3. Tập luật sinh của văn phạm kiểm tra sự phù hợp của

hệ thống nét

7.4.4. Tập luật sinh của văn phạm gia tố

ve

7.4.5. Tập luật sinh ánh xạ của văn phạm tiếng Việt có hệ thống nét...

65


7.4.6. Ví dụ minh họa

Chương 8: Kết quả chương trình minh họa và hướng dẫn sử dụng ..
8.1. Chương trình chính
§.2. Kết quả chương trình minh họa và hướng dẫn sử dụng ..
8.3. Các mơđun..
§.4. Một số ví dụ dịch cácccâu 1 don g giản từv Việt ssangg Anh: và ngược lại ......... 102
<1

0 .........................

tre
.........---.
th
2tr .......
Tài liệu tham khảo ..............

ti

167
169


CHƯƠNG 1
ĐẶT VẤN ĐỀ
11

Mở đầu


Trong lĩnh vực khoa học máy tính, xử lý ngơn ngữ tự nhiên (NLP: Natural
Language Processing) ẩn chứa nhiễu thách thức nên luôn là mục tiêu nghiên cứu
của các nhà khoa học, với mong muốn làm cho máy tính từng bước “hiểu được”
ngơn ngữ con người.

Xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy
(MT: Machine Translation), nhận dạng tiếng nói (SR: Speech Recognition), tim
kiếm bằng ngơn ngữ tự nhiên (NLQ: Natural Language Querying), bắt lỗi chính tả
(SC: Spelling Correction), v.v...

Trong xử lý ngơn ngữ tự nhiên, dịch máy có lịch sử tương đối sớm, nó bắt đầu

từ những năm 1950 [3], nhưng kết quả đạt được còn rất khiêm tốn. Dịch máy là sử
dụng phần mềm máy tính để dịch văn bản từ một ngôn ngữ tự nhiên này sang một
hay
cứu,
cịn
dịch

nhiều ngơn ngữ tự nhiên khác. Mặc dù được sự quan tâm của các nhà nghiên
và sự kỳ vọng của người sử dụng, nhưng hiện tại các chương trình dịch máy
nhiều hạn chế, chủ yếu do chất lượng dịch còn nghèo nan. Tuy nhiên do tốc độ
cao, giá thành địch thấp và còn nhiều hứa hẹn về ứng dụng của nó trong cuộc

sống nên địch máy vẫn được các nhà nghiên cứu quan tâm.
Vấn để lớn nhất của dịch máy là vấn để ngữ nghĩa (semantics) bao gồm: ngữ
e)
nghĩa của từ (word), ngữ nghĩa của cụm từ (phrase) và ngữ nghĩa của câu (sentenc

và trong mỗi ngữ cảnh chúng có thể có nghĩa khác nhau.


Vấn đề thứ hai là vấn đề cú pháp (syntax). Chúng ta biết rằng để biết một câu có

đúng hay sai cú pháp là vấn để chỉ có thể trả lời bằng cách đối chiếu với một hệ thống

quy tắc cụ thể. Hệ thống này hoặc tạo sinh ra nó (và như vậy, xác định nó là đúng
pháp) hoặc khơng tạo sinh ra nó (và do đó, xác định nó là sai cú pháp): [12].
Trong bối cảnh dịch máy còn tổn tại nhiều vấn để như vậy thì một tiếp cận
cần
mới trong hướng nghiên cứu về xử lý ngữ nghĩa cho ngôn ngữ tự nhiên là rất
tiếp
thiết, nhằm giải quyết đồng thời hai vấn để cú pháp và ngữ nghĩa - đó chính là
diễn
cận dạng biểu diễn trung gian— dạng luận ly “Logical Form” (LP). LP la biểu

ngữ nghĩa của câu dưới dạng lơgích của nó. Biểu diễn này độc lập với ngữ cảnh,
là biểu điễn trung gian trong q trình dịch chính xác ra nhiều ngơn ngữ tự nhiên
khác [8]. Ngồi ra nó cịn được ứng dụng trong q trình nhận dạng tiếng nói.


Mặc

dù LP được để cập từ năm

1985 [45] bởi Chomsky và May, nhưng mãi

đến năm 1995 những ứng dụng của nó mới có kết quả đáng kể. Điển hình là dự án

KANT (Knowledge-based Accurate Natural-language Translation) [11]. Thành công
của dự án KANT trong xử lý ngữ nghĩa đã đóng góp cho hướng nghiên cứu về dịch

`
máy đa ngôn ngữ.

1.2 Đặt vấn để
Trong xử lý ngôn ngữ tự nhiên, người ta luôn mong muốn “nắm bắt” được nghĩa

của câu nhập. Mô hình biểu diễn ngữ nghĩa cho câu của ngơn ngữ tự nhiên là một
công cụ quan trọng được sử dụng để biên dịch sang một hoặc nhiều ngôn ngữ khác.

Hiện nay nghiên cứu về dịch máy, người ta đã tập trung vào phân tích nghĩa
của câu chứ khơng chỉ quan tâm đến phân tích cú pháp, mặc dù phân tích cú pháp

vẫn ln đóng vai trị quan trọng trong q trình xử lý ngơn ngữ tự nhiên [9Ị. Để

biểu diễn ngữ nghĩa của ngôn ngữ tự nhiên, người ta dùng dạng luận lý. Dạng luận
lý là mức biểu diễn ngữ nghĩa mà không phụ thuộc ngữ cảnh (2, 10, 11].
Đề tài nghiên cứu khoa học này nhắm tới các mục tiêu sau đây:

« Nghiên cứu lý thuyết ngơn ngữ, bao gồm: từ vựng, văn phạm phi ngữ cảnh,
hệ thống nét, các giải thuật phân tích cú pháp cho ngơn ngữ tự nhiên để xây

dựng từ điển điện tứ và văn phạm có hệ thống nét cú pháp và nét ngữ nghĩa
cho ngơn ngữ cụ thể.

© Nghiên cứu các lý thuyết biểu diễn ngữ nghĩa của câu bằng dạng luận lý,
mối quan hệ giữa ngữ nghĩa và cú pháp thể hiện qua việc tạo tự động dạng
biểu diễn ngữ nghĩa của câu trong q trình phân tích cú pháp.

e Thí nghiệm dịch tự động các câu đơn giản từ tiếng Việt sang tiếng Anh và
ngược lại trên cơ sở lấy LP làm ngôn ngữ trung gian.


e Cải thiện một số giải thuật như giải thuật phân tích từ đưới lên để phục vụ

cho việc tạo tự động dạng biểu diễn ngữ nghĩa trong q trình phân tích cú
pháp đó là biểu thức lambda và thu giảm lambda.

e

Khi thực hiện các mục tiêu để tài còn vận dụng khái niệm văn phạm

nét.

Văn phạm nét là văn phạm phi ngữ cảnh có chứa hệ thống nét, trong đó các

nét làm nhiệm vụ lưu giữ vết của q trình phân tích. Vết là tập luật sinh
được dẫn xuất ra trong q trình phân tích cú pháp.
« Từ những kết quả nghiên cứu, để tài đã xây dựng hệ thống chương trình, với
từ điển điện tử Việt —- Anh, với 4000 từ có chứa nét, văn phạm phi ngữ cảnh

có hệ thống nét của tiếng Anh và tiếng Việt, văn phạm gia tố để thực hiện

việc tạo tự động dạng luận lý cho câu đơn giản tiếng Anh và tiếng Việt,
2


chương

trình tạo tự động dạng luận lý, địch tự động các câu đơn giản từ

tiếng Anh sang tiếng Việt và ngược lại.


Tóm lại để tài đã đạt được những kết quả sau:
Khảo sát ngôn ngữ tiếng Anh, tiếng Việt, ngôn ngữ hình thức và phương
pháp xây đựng văn phạm phi ngữ cânh để tìm phương pháp đặc tả ngơn ngữ

tự nhiên bằng văn phạm hình thức.

Xây dựng hệ thống luật của văn phạm phi ngữ cảnh, cách chuyển đổi từ văn
phạm phi ngữ cảnh sang văn phạm gia tố và từ điển có gắn hệ thống nét.
Trong q trình tạo tự động dạng luận lý cho câu đơn giản của ngôn ngữ tự

nhiên (tiếng Anh, Việt), đề tài đã sử dụng các văn phạm gia tố nói trên.

Nghiên

cứu phương pháp phân tích cú pháp hiện có. Chọn phương pháp

phân tích cú pháp phù hợp để có thể phát triển để tài.

Nghiên cứu phương pháp xây dựng dạng luận lý cho ngôn ngữ tự nhiên.

Việc chọn dạng biểu diễn trung gian cho q trình dịch máy có thể được

thực hiện bằng một số cách như: cây phân tích (parse tree), hàm cấu trúc cú
pháp (F-structure), và biểu diễn luận lý của câu LP. Để tài đã chọn cách
biểu diễn luận lý của câu, vì nó có triển vọng khắc phục được hai khó khăn

co ban trong dich máy là vấn đề cú pháp và vấn để ngữ nghĩa.

Cải thiện giải thuật fop-down chart parser {2] để lưu giữ vết, dùng cho việc

tạo đạng luân lý. Qua quá trình khảo sát một số phương pháp phân tích cú

pháp và trên cơ sở thực nghiệm một số để tài nghiên cứu khoa học, chúng
tôi thấy rằng phương pháp op-down chart parser cho kết quả phân tích tốt
(cả trên phương diện thời gian và bộ nhớ, sau thử nghiệm
sinh [6]).

với 32.000 Iật

Quá trình tổng hợp ngữ nghĩa là quá trình đi từ đưới lên, vì vậy dé

tài phải cải thiện thêm văn phạm và giải thuật phân tích từ dưới lên để lưu

giữ lại vết cho q trình phân tích.

Tạo

chương trình kiểm tra hệ thống nét phù hợp giữa danh từ và mạo từ,

giữa chủ từ và động từ (với những mẫu câu đơn giản). Việc kiểm tra sự phù
hợp giữa chủ từ và động từ, giữa mạo từ và danh từ có thể được thực hiện

bằng nhiều cách ví dụ như: đặc tả trong văn phạm, đặc tả trong từ điển như

là một nét ngữ nghĩa. Đề tài này đã chọn cách đặc tả trong từ điển và coi nó
như là nét ngữ nghĩa được cài vào các từ. Vì vậy việc kiểm tra sự phù hợp

(agreement) chỉ còn là sự kiểm tra phần giao của các thành phần hợp thành

phần khác rỗng khi tạo cây phân tích.



lên cho văn phạm tác vụ [41]
Cải thiện giải thuật phân tích cú pháp từ dưới
cho việc thu giảm biểu thức
(khơng thực hiện tính bảng § - R) để phục vụ
câu nhập.
lambda, tức là tạo ra sự biểu điễn ngữ nghĩa cho

-_

phải cải thiện
Để áp dụng cho lớp văn phạm phi ngữ cảnh tổng quát, để tài
ngôn ngữ tự nhiên, mà
giải thuật này dùng để diễn dịch ngữ nghĩa cho
không phải tinh bang S-R (Shift-Reduce) [41].

-

nhập của ngôn ngữ tự nhiên
Chugng trình tự động tạo đạng luận lý cho câu

trong q trình phân tích cú pháp.

cụ để dùng cho việc
Dạng luận lý của câu trong ngôn ngữ tự nhiên là công
ngữ khác như mô
dich tự động các câu từ ngôn ngữ tự nhiên này sang ngơn

ệm q trình dịch tự động

hình ở hình 1.1. Trong để tài chúng tơi đã thử nghi
câu tiếng Việt sang tiếng Anh và ngược lại.

R

Ngôn ngữ1

|——

Tao ty dong

dạng luận lý

|»!

ee
ae
Bộ biến đổi ngôn ngữ

a

Dạng luận lý

Ngôn ngữ 1

Ngôn ngữ 2

Ngôn ngữ 3

nghĩa bằng công cụ dạng luận lý

H1.1 Mơ hình dịch tự động trên cơ sở diễn dịch ngữ

1.3 _ Những nghiên cứu liên quan

và trong nước có liên
Dưới đây là một số kết quả nghiên cứu ở nước ngoài

quan đến để tài.
+

Những kết quả nghiên cứu của nước ngồi
dịch máy (MT) ở
© Từ năm 1950 đến 1966 đã có nhiều nhóm nghiên cứu về
hầu hết
các nước: Mỹ, Tây Âu, Liên Xô cũ và Đông Âu. Thời gian này
hình vị (mophological
các nhóm đều nghiên cứu MT trên cơ sở phân tích
và chuyển đối của
analysis), phân tích cú pháp các văn phạm sinh
những thành quả bước
N.Chomsky (văn phạm phi ngữ cảnh). Mặc dù có

dẫn hiện rõ,
đầu nhưng đến năm 1966 thì những vấn để khó khăn nhất đã

từ theo ngữ cảnh, v.v..
đó là vấn để đa nghĩa của các từ và nghĩa của

mất nhiều thời
Những khó khăn này làm cho các bản dịch rất khó hiểu và

gian để chỉnh sửa.

e Từ năm

d4 thuc hiện
1951 tai MIT (Massachuset Institute of Technology)

những nghiên cứu về dịch máy. Năm

được tổ chức tại MIT.

1952 hội nghị dịch máy đầu tiên


e Năm
chuẩn

1968, nhà

ngôn ngữ học Charles Fillmore bổ sung vào lý thuyết

của N.Chomsky,

khái niệm “cấu trúc nổi” (surface structures) liên

quan đến cú pháp và “cấu tric chim” (deep structures) liên quan đến
ngữ nghĩa.

e Từ năm 1975 nhóm nghiên cứu dịch máy của trường Đại học Grenoble
(Pháp) đã phát triển một hướng nghiên cứu mới gọi là Interlingua (thugc

trường phái KBMT: Knowledge Base Machine Translation). Theo trường

phái KBMT, thì các vấn để về ngữ nghĩa được quan tâm hàng đầu trong

dịch máy, và vấn đề dịch được thực hiện ở mức cao hơn mức cú pháp, đó là

mức ngữ nghĩa. Ưu điểm của KBMT là cho ra chất lượng dịch cao,
tuy nhiên nó cịn có một số nhược điểm là:
-

Chưa có phạm vỉ ứng dụng dịch thuật rộng, còn bị giới hạn trong những
lĩnh vực khá hẹp (với mục đích giới hạn ngữ cảnh), và với cấu trúc câu

tương đối đơn giản (giới hạn của cú pháp).

-_ Đồi hỏi đầu tư nghiên cứu nhiều thuật toán, luật ánh xạ và những bộ từ

điển phức tạp.

« Trong những năm 90, nhiều phương pháp và hệ thống dịch máy được trình

bày trong các hội nghị khoa học, nhưng điển hình nhất là hệ thống KANT
(KANT: Knowledger base Accurate Natural language Translation) —

Ý tưởng giải thuật được trình bày ở hình 1.2.


Structure
grammar


Parser

Source
Lexicon
Source
F - Structure

¥

Interpreter

[ro

Source
mapping

|

rules

Domain
Model

Interlingua
Target



mapping


Mapper

et

Targ
F-Structure

rues

Target
h
Lexicon

Y

Generator

Target
grammar

Target

Hình 1.2 Sơ đơ hệ thống KANT


thống

Hệ

KANT


(Carnegie Mellon

của dai hoc CMU

University)

da cho ra

phần mềm CATALYST, dịch tự động trong lĩnh vực cơ khí nặng. Cơng trình này bắt

đầu từ năm 1989, và đến năm 1995 hoàn thành mô đun dịch Anh — Pháp.

Để xây dựng CATALYST các nhà nghiên cứu đã khai thác những khối lượng
lớn các tài liệu ngơn ngữ tự nhiên có sẩn: khoảng 1.750.000 lượt từ, được đúc kết từ

các tài liệu đã được dịch ra tiếng Pháp trước đó (khoảng 4000 trang tài liệu), và

đồng thời họ cũng sưu tập hơn một triệu từ đã được đánh nhãn (do các chuyên gia

ngôn ngữ học thực hiện) cho từ điển phân tích {11]. Hệ

hướng mới về MT,

thống này đã mở ra một

tuy nhiên nó cịn chứa nhiều nhược điểm của trường phái

KBMT.


Hệ thống KANT làm việc theo nguyên tắc sau: khi một văn bản nguồn được
đưa vào hệ thống, nó sẽ phân tích từ vựng và cú pháp. Phân tích cú pháp tạo ra cấu

trúc chức năng gọi là F — Structure (Functional Structure). Ti F — Structure nó được

chuyển tới bộ thơng dịch (interpreter) đối sánh với các luật ánh xạ và tham khảo cơ
Sở tri thức chuyển thành ngôn ngữ trung gian (Interlingua) (Hinh 1.2).

Hệ thống KANT ưu việt ở chỗ sau khi dịch, người sử dụng khơng phải hiệu
đính, và nó có thể dịch đồng thời ra nhiều ngơn ngữ đích một lúc, tùy thuộc vào cơ
sở tri thức. Nếu câu của ngơn ngữ nguồn có nhiều hơn một E - Structure thì hệ
thống sẽ dich ra nhiều hơn một câu cho ngơn ngữ đích. Tuy nhiên nó cịn có khuyết

điểm là phải xây dựng cơ sở tri thức rất lớn.

Thí dụ: Khi phát triển hệ thống dịch từ Nhật sang Anh, người ta phải xây dựng:
- 400.000 ti trong từ điển ngữ nghĩa của tiếng Nhật;

-_ 16.000 mẫu trong từ điển ngữ nghĩa Nhật — Anh;
-_ 380.000 từ trong từ điển truyén (transfer dictionary);
-_

80.000 từ tiếng Anh (English word đictionary), kèm theo các thuật tốn [11].

e Các mơ hình kết hợp trên cơ sở ngôn ngữ học và không trên cơ sở ngôn ngữ
học: như báo cáo tổng kết của đại học John HopKins [36], năm 1999 nêu ra

các kết quả nghiên cứu và áp dụng phương pháp thống kê trong dịch máy
song ngữ.


%

Những kết quả nghiên cứu trong nước
e

Để

tài

nghiên

cứu

khoa

học

của

tập thể

Trường

Đại

học

Khoa

học


Tự nhiên thuộc Đại học Quốc gia TP.HCM do GS.TSKH Hoàng Kiếm làm

chủ nhiệm để tài được thực hiện bằng phương pháp xây dựng văn phạm
CASE cho tiếng Việt và ứng dụng vào giải quyết vấn để đa nghĩa khi phân
tích ngữ nghĩa trong hệ thống dịch máy Anh — Việt (22].


© Để tài nghiên cứu khoa học do các tác giả: Đinh Điển, Thái Nguyễn Hoàng

Nhã Trường Đại học Khoa học Tự nhiên thuộc Đại học Quốc gia TP.HCM
thực hiện đã dùng tiếp cận mạng neural để phân loại câu, tiêu để, đoạn
văn, trước khi chuyển vào cho hệ dịch máy Anh - Việt [23].

e Một phân mềm dịch máy từ Anh Sang Việt có tên là EV —- TRAN do
Phịng thí nghiệm Cơng nghệ phần mém máy tính, Trung tâm Vi điện tử
và Tin học, Viện nghiên cứu ứng dụng và công nghệ (SoftIex) giới thiệu.
Softex nghiên cứu dịch máy trên cơ sở cú pháp và ngữ nghĩa.
e Để tài nghiên cứu khoa học do các tác giả: Tiến sĩ Phan Thị Tươi, Nguyễn
Chí Hiếu, Trường Đại học Bách Khoa thuộc Đại học Quốc gia TP.HCM
thực hiện, đã xây dựng các luật cú pháp cho cụm Từ tiếng Việt bằng phương
pháp tự động, với 32.000 luật sinh, 4p dung phương pháp Top-down Chart
parser có cải thiện để phân tích cú pháp và phát hiện lỗi chính ta.
Riêng dạng luận lý của ngôn ngữ, mặc dù được nghiên cứu từ rất sớm bởi
Montague

năm

1974,


See

Partee

năm

1975,

Dowty,

Wall



Peters

năm

1981,

Cooper năm 1983, nhưng việc vận dụng trong thực tiễn của dịch máy ở nước ngồi
cịn rất ít i chi mới trong lĩnh vực hẹp là ngành cơ khí nặng, như dự án KANT
(KANT: Knowledge base Accurate Natural language Translation).
Các ứng dụng biểu diễn dạng luận lý của câu cho dịch máy ở trong nước chưa

thấy được đăng tải.

Đề tài đã chọn cách tiếp cận “Logical Form”, coi đây như là một cố gắng thử

nghiệm vì cảm nhận được triển vọng ứng dụng của hướng nghiên cứu này, với các

lý do sau đây:

- Thứ nhất, như trên đã trình bày, tuy dạng luận lý được để cập từ những năm

1974, nhưng khái niệm “Logical Form” mới được N.Chomsky và May hình
thành sau này vào năm 1985 [45]. Tài liệu gợi ý rõ nét nhất là “Natural

Language

Understanding”

[2]

cia

James

Allen,

dude

nha

xuất

bản

Benjamin/Cummings giới thiệu năm 1995.

- Thứ hai, những ý tưởng lý thuyết thuộc lĩnh vực dịch máy thường cần một

thời gian mới được triển khai, vận dụng vào trong thực tế.

- Cuối cùng, điểm thú vị trong ý tưởng về “Logical Form” khi đem nó ứng

dụng vào dịch máy, sẽ giúp chúng ta liên tưởng đến quá trình gắn ngữ nghĩa
vào cây cú pháp trong trình biên dịch.

Hướng đi này như là một nỗ lực thử nghiệm về dịch máy trên cơ sở ngữ nghĩa.


PHAN |
CO SO LY THUYET
Phân ï sẽ trình bày những lý thuyết căn bản làm cơ sở để thực hiện để tài. Phần
này bao gồm các nội dung:
-

Ngôn ngữ tự nhiên và ngơn ngữ hình thức.

-_

Một số giải thuật phân tích cú pháp.

- _ Hệ thống nét và văn phạm gia tố.
Ngữ nghĩa và dạng luận lý.

- _ Liên kết cú pháp và ngữ nghĩa.


CHƯƠNG 2
NGƠN NGỮ TỰ NHIÊN VÀ NGƠN NGỮ HÌNH THỨC

2.1 Ngôn ngữ tự nhiên
Ngôn ngữ tự nhiên là phương tiện giao tiếp của con người, nó bao gồm ngơn

ngữ nói và ngôn ngữ viết. Đặc điểm của ngôn ngữ tự nhiên là tính nhập nhằng

khơng rõ nghĩa. Đó là điểu chúng ta phải quan tâm khi xử lý ngôn ngữ tự nhiên

bằng máy tính.
Mục tiêu của để tài là ứng dụng xử lý ngữ nghĩa trong dịch máy Anh — Việt

nên trong phần này, để tài sẽ trình bày tóm tắt văn phạm tiếng Anh và tiếng Việt.
2.1.1 Văn phạm tiếng Anh
1. Từ

Trong tiếng Anh có hai cách tạo ra một từ từ một từ gốc.
-

Dạng biến tố (inflectional forms): dùng dạng gốc của từ và thêm hậu tố
(suffix) vao dé tao thanh dạng thích hợp. Ví dụ: động từ sigh dùng các
hậu tố -s, -ing, -ed sẽ tạo thành các dạng động từ sighs, sighing, sighed.

-

Dạng

dẫn xuất (derivational forms): tạo thành từ mới có dạng khác với từ

gốc. Ví dụ: danh từ friend khi thêm hậu tố -ly sẽ tạo thanh tinh tw friendly.

Trong tiếng Anh, từ có thể chia làm bốn loại chính tạo nên nghĩa của câu:

danh từ, động từ, tính từ và trạng từ. Ngồi ra, cũng còn nhiều loại từ khác cần thiết
để tạo thành câu như mạo từ, đại từ, giới từ, liên từ...

Bất kỳ từ nào trong bốn loại từ chính đều có thể được dùng để tạo thành cụm

từ (phrase), khi đó từ được gọi là head của cụm từ, mô tả hành động và đặc tính của
cụm từ đó.
Ví dụ:
-

Hungry

-

Very hungry
Hungry as a horse

Các cụm tính từ trên mơ tả các mức đói khác nhau. Trong mỗi trường hợp, từ

hungry chính là thành phần head.

Trong một vài trường hợp, thành phần head cần thêm các cụm từ phụ theo sau

nó để diễn tả nghĩa mong muốn. Cụm từ như vậy gọi là complement (phân bổ sung)

của thành phần head.

Vi du: head (in đậm), complement (in nghiêng)
10



Noun Phrases:

- The president of the company
- His derise to succed

2. Những phần tử của cụm danh từ đơn giản
Thành phần head trong cụm danh từ đơn giấn có các loại:
-

Danh

từ chung

(common

nouns):

chỉ

người,

vật

thuộc

cùng

loại


(man,

table...).
-

Danh

ti riéng (proper nouns hoặc name): để gọi riêng một người, một vật,

-

Bai tif (pronouns): he, she, they...

thường được viết hoa trong tiếng Anh (John, Viet Nam....

Danh từ được chia thành 2 lớp chính:
-_ Danh từ đếm được (count noun): book, books...
-

Danh từ không đếm được (mass noun): sand, water...

Trong cụm danh từ, ngồi head ra cịn có các thành phần khác:
-

ordinal: first, second...

-

cardinal: one, two...


-

determiners:

articles

(the,

a, an),

demonstratives

(this, that), possesssives

(John’s book, her,...)

Trong tiếng Anh, chúng ta phân biệt:
- Number (số): singular (số íQ, plural (số nhiều).
-

Person

(ngơi): first person

(ngdi thứ nhất),

second person

(ngơi thứ hai),


third person (ngơi thứ ba).
-

Gender

(giéng):

masculine

(giéng

duc),

feminine

(giéng

c4i),

(trung tinh).

Ví dụ:
Số

Ngơi thứ nhất

Ngơi thứ hai

Ngơi thứ ba


Ít

My

Your

His, her, its

Nhiều

Our

Your

3. Cum động từ và câu đơn giản
Trong tiếng Anh có 4 dạng câu căn bản:
11

Their

neuter


Dang câu
Miêu tả (hoặc khẳng định)

Câu hồi đúng sai
Câu hỏi Wh
Mệnh lệnh


Ví dụ

The cat is sleeping
Is the cat sleeping?
What is sleeping?
Shoot the cat!

Mỗi động từ, phải ở trong 5 dạng cơ bản sau:
Dạng

Base
Simple present
Simple past
Present participle
| Past participle

Ví dụ

go, be, cry
go, am, cries
went, was, cried
going, being, crying
gone, been, cried

Động từ chia được thành các lớp khác nhau:
-_

Trợ động từ (auxiliary verbs): be, do, have

-


could
Động từ hình thái (modal verbs): will, can,

-

ve
Dong ty chinh (main verbs): eat, ran, belie

Các thi (tenses) co bản:
The verb sequence
Simple present
Simple present
Simple past
Simple past
Will + infinitive
Simple future
Present perfect | Have in present + past participle
participle _|
Future perfect | Will + have in infinitive + past
Have in past + past participle
Past perfect

[Thi

Vidu

He walks to the store
He walked to the store
He will walk to the store

He has walked to the store
I will have walked to the store
Thad walked to the store

Đối với động từ chính ta có:
-

một mình và khơng cần bổ
Ngoại động từ (ntransitive verbs): có thể đứng
từ (Jack laughed).

cầu một cụm đanh từ theo sau
Nội động từ (transitive verbs): thường yêu
(Jack found a key).

12

|


Một vài cấu trúc bổ ngữ cho động từ:
Động từ
laugh
find
give
give
try
wish
seem


Cấu trúc bổ ngữ

Ví dụ

empty (intransitive)
NP (transitive)
NP + NP
NP + NP [to]
VP {to}
S [to]
ADJP

| Jack
Jack
Jack
Jack
Jack
Jack
Jack

laughed
found a key
gave Sue the paper
gave the book to the library
tried to apologize
wished for the man to go
seemed unhappy in his new job

4. Cum tinh tit


Những cụm tính từ đơn giản chỉ bao gồm một tính từ đơn. Những cụm tính từ
phức tạp cân những bổ ngữ như PP (prepositional phrase), VP (verb phras€),....

PP [with]
VP [inf]
S [that]

2.1.2

Jack was pleased with the prize
Jack seemed willing to lead the chorus
Jack was angry that he was left behind

Van phạm tiếng Việt

Khi nghiên cứu ngữ pháp tiếng Việt chúng ta phải nghiên cứu hai thành phần

đó là từ pháp và cú pháp. Từ pháp chuyên nghiên cứu về các quy tắc biến hình của

từ và đặc tính ngữ pháp của các loại từ cũng như sự cấu tạo của từ. Cú pháp nghiên

cứu cách cấu thành các từ và câu từ các nhóm từ theo một quy tắc nhất định.
2.1.2.1 Từ loại
Các từ trong tiếng Việt được chia thành các loại sau:

%

Danh từ

Danh từ dùng để biểu thị tính chất sự vật: sinh vật, vật thể, hiện tượng. Nó


khơng trực tiếp làm vị từ. Nếu làm vị từ thì danh từ phải có hệ từ /à, hoặc khơng

phải là, khơng đặt sau các từ: đừng, hãy, sẽ. Nó có thể kết hợp với số từ, đại từ chỉ
số, lượng từ, phó đanh từ, đại từ chỉ định. Ngồi ra cịn có loại phụ danh rừ, ding để

cá thể hóa danh từ.
s*

Thời vị từ

Thời vị từ dùng để biểu thị các điểm trong khơng gian và thời gian. Thời vị từ

có thể một mình làm thành câu, có thể là vị từ nến có hệ từ /ờ.
13


%

Số từ

với danh từ,
Số từ là từ dùng biểu thị số lượng và thứ tự, nó có thể kết hợp
làm vị ngữ mà phải
đứng trước danh từ, phó danh từ. Khơng có khả năng trực tiếp
có hệ từ /à.

Nếu số từ chỉ thứ tự thì nó có đặc điểm ngữ pháp như sau:
-_ Có khả năng trực tiếp làm vị ngữ khơng cần hệ từ đà.


hợp thì nó
Bao giờ cũng đứng sau danh từ. Nếu danh từ có định ngữ phức
đứng sau tính từ, trước đại từ chỉ định.



Động từ

Động từ là từ

có tính
dùng để chỉ sự hoạt động, động tác, trạng thái. Động từ

chất sau:
~_ Trực tiếp làm vị ngữ,
định.
Khơng đứng sau số từ, lượng từ, các phó danh từ và đại từ chỉ

-

Tính từ

«+»

Tính từ dùng để chỉ tính chất của sự vật, có đặc điểm sau:

-_ Có thể trực tiếp làm vị từ.
- Không kết hợp được với hãy, ... đừng .....
Đại từ




phương hướng, số
Đại từ là thực từ không dùng để gọi tên sự vật, thời gian,
vật đã nói ở trên.
lượng hay thứ tự hoạt động hay tính chất, mà nó chỉ các sự
s%

Phó từ

tạo thành câu, chỉ phụ
Phó từ chỉ phục vụ cho thực từ, nó khơng thể tự mình
trợ cho vị từ, vị ngữ.

«

Giới từ

từ chính) biểu
Giới từ dùng để nối liền từ phụ hoặc tổ phụ từ, với từ chính (tổ

thị ngữ pháp của hai đơn vị.
«&Ằ

Liên từ

quan hệ đẳng lập
Là từ dùng để nối liên những từ, hoặc tổ phụ từ, đoạn câu có
với nhau.


®%

Hệ từ

Hệ từ dùng để nối hai thành phần chủ yếu của câu.
14


2

Trợ từ

thán hoặc tỏ thái độ của
Dùng để tỏ rõ dạng câu: nghỉ vấn, mệnh lệnh, cảm
người nói.
®%

Thán từ

Dùng để biểu lộ tình cảm, làm tín hiệu của lời gọi và lời đáp.
phân chia làm 12 loai theo
Như vậy theo các nhà ngơn ngữ học thì từ được
thực tế khi sử dụng các loại từ
chức năng cú pháp của nó trong câu. Song, trong
chưa mang đầy đủ ngữ nghĩa.
trong câu, chúng ta sế nhận thấy sự phân loại này
cụm từ và câu và trợ giúp đốn
Chính vì vậy để giúp cho việc phân tích cú pháp

từ phải mang nhiều nét ngữ

nhận vị trí hợp lý của các từ trong câu thì địi hổi các
vào ngữ cảnh của văn bản.
nghĩa hơn. Những nét ngữ nghĩa này phụ thuộc nhiều

2.1.2.2 Từ tổ
Như trong

trên đơn vị cụm từ.
[6] chúng tôi đã chọn việc phân tích cú pháp

rất lớn khi phải đối mặt
Việc xác định này đã giúp chúng tơi tránh được khó khăn
tiếng Việt. Với cách tiếp
với việc phân tích cú pháp trên các loại câu phức tạp của

việc thử nghiệm dịch máy từ Việt
cận này, chúng tôi cũng áp dụng cho để tài trong

nhiều hơn hai thực từ ở
sang Anh. Trong các sách về ngữ pháp tiếng Việt thì hai hay
được gọi là từ tổ.
trong câu có quan hệ với nhau về nghĩavà ngữ pháp

nhau về mặt từ vựng và cú
Các từ hay nhóm trong từ tổ phải có quan hệ với
tâm. Tùy thuộc vai trò của từ trung
pháp. Trong mỗi từ tổ bao giờ cũng có từ trung

từ, từ tổ thời vị từ.
tâm mà ta phân biệt ra từ tổ động từ, từ tổ danh từ, từ tổ tính

1)

Từ tổ động từ

(N), thời vị từ (E), số từ (F),
Động từ có thể ghép với những loại từ: danh từ

có thể ghép với đại từ chỉ định giữa
động từ (V), tính từ (A). Động từ đương nhiên

tiếng Việt hệ thống giới
từ chính và từ phụ, có khi có giới từ (Z2) hoặc không. Trong
m một tỷ lệ tuyệt đối lớn.
từ không phát triển lắm, từ tổ động từ không giới từ chiế
Từ tổ động từ có các dạng:



Từ tổ động động từ + danh từ

-_

Từtổ(Đj)VN;

Loại này có các dạng thức sau:
Dạng thức 1: NÑ¡ VN;
Dạng thức 2:N; do NiV
Dang thifc 3: No ma N,V

15



Dạng thức 4: N;, Nị cũng V
Dạng thức 5: Ñ;V N;N;(N1) V

-

TY

(N) VN,

Trong từ tổ này bao giờ danh từ cũng kết hợp gián tiếp với động từ thông qua

giới từ. Giới từ thường dùng là: ở, :ừ, với, của, bởi, vì, bằng, vào, về,.. Có trường hợp

giới từ có khả năng đổi vị trí, đảo lên đầu câu để làm trạng ngữ chỉ địa điểm, tổn
tại, thời gian, nguyên nhân, mục đích, phương tiện.

-

Từ tổ (N,)V¿N;

Loại này có các dạng thức sau:
Dạng thức 1: (Ny) V N2N3
Dạng thức 2:N:

mà N, V (cho) No

Dạng thức 3:N; do Nị VạN;
Dang thtfc 4: N, V Ng cho N2

Dang thifc 5: N2 ma N; VN,

-_

Từtổ(N)VN:xN;

Loại này giống loại từ tổ N¡ V N; N: ở chỗ: động từ địi phải có hai danh từ
phụ, nhưng nó khác từ tổ kể trên ở chỗ: giữa N; và N; có một hư từ hay một động từ
đặc chỉ đã hư từ hóa.
Loại từ tổ
Dạng
Dạng
Dạng
Dạng

này
thức
thức
thức
thức

có các dạng thức sau:
1:N1V N2xN3
2: N2 do NI VxN3
3: N2 mà NI VxN3
4: N2, N1 cùng V„ N3

Dạng thức 5: N.V„ NạN;

Từ tổ động từ + thời vị từ

Những từ tổ động từ + thời vị từ có nhiều điểm giống từ tổ động từ + danh từ:
song trong thực tế loại từ tổ này rất hiếm thấy trong thực tế. Có thể chia làm bốn
nhóm như sau:

- Nhém(N)VE
-_

Nhóm(Nj)VzE
Nhóm (Ei) V EạN¡ Œ¿) V
Nhóm (N;) VE¡ x E¿

%fs

Từ tổ động từ + số từ

Chúng có những nhóm sau:
1. VF
2. VEuF
16


3.

«+

FiV;Fạ

Từ tổ động từ + động từ

-


Từtổ(@) VỊ V¿

Trong nhóm này Vị thường biểu thị tri giác, nội tâm như lo, sợ, đe dọa, liều,
thích, ham, mơ, mơ ước ...

V¿ biểu thị hoạt động hay trạng thái của N.
-

Từ tổ (N) Vị V;V¿

Đây là nhóm từ tổ động từ đặc biệt có ba động từ được xếp cạnh nhau theo trình

đi
tự hoạt động. Vị thường là động từ vận động, hầu hết các trường hợp là động từ
dam nhan, V2 biểu thị bất kỳ hành động nào, Vạ thường do động từ về đầm nhận.

‹»

Từ tổ động từ + tính từ

Có các dạng như: (N) A V
A,N cũng V

2)

Từ tổ tính từ

Tính từ có thể ghép với danh từ, động từ, số từ và cả thời vị từ để tạo ra từ tổ


tính từ.

+» Từ tổ tính từ + danh từ
Có các dạng:

- Từtổ (N? A NỈ
- TừtổV(N)AzN?

3)

Từ tổ số từ

4)

Từ tổ danh từ

Từ tổ danh từ + danh từ
Xét vê đặc điểm của loại từ tổ này, ta thấy có một loại từ tổ khơng bao giờ có

cái
hư từ (N¡ Nạ: đoàn người). Một loại bao giờ cũng phải có hư từ (N¡ zN;; ví dụ:
khó khăn cửa tơi) và một loại tim ẩn có hư từ (N¡ (2) N¿ ; ví dụ: làng tơi = làng
của tơi).

-_ Từ tổ NỊN;
-_ Từ tổ N¡zÑ¿

- Từ tổN¡() Ñ›

+*


Từ tổ danh từ + thời vị từ:

Từ tổ này có hai hình thức:
17


1.NE

2.NŒ)E
+

Từ tổ danh từ + số từ

+

Từ tổ danh từ + động từ

5)

Từ tổ thời vị từ

Cé dang FN
Hoặc N F (nếu F là số từ chỉ thứ tự)

+» Từ tổ danh từ + tính từ

2.2 Ngơn ngữ hình thức

đều cho một văn

Theo văn phạm sinh của N.Chomsky thì mỗi một ngôn ngữ

bốn loại văn phạm loại
phạm tương ứng sinh ra. Văn phạm hình thức được chia làm
cùng là văn phạm chính quy —
0 (máy Turing), văn phạm ngữ cảnh — loại 2 và cuối
tứ:
loại 3. Tất cả các văn phạm đêu được định nghĩa bằng bộ
G=(V,T,S,P)

+ G là ký hiệu cho văn phạm.

hiệu kết thúc.
+ T là tập hữu hạn các đối tượng được gọi là các ký

không kết thúc.
+_ V là tập hữu hạn có các đối tượng được gọi là các ký hiệu
+

5 là ký hiệu mục tiêu, thuộc tập V.

UT)*.
+ Pla tập luật sinh có dạng œ ~ ÿ, với œ vàB « {V

hợp chuỗi các ký hiệu kết thúc
ngôn ngữ đo G sinh ra được ký hiệu là L (G) là tập
được sinh ra từ S..

Văn
ngôn ngữ

phạm phi
cũng như

tả cú pháp cho
phạm phi ngữ cảnh được sử dụng rộng rãi trong việc đặc
cú pháp cho văn
lập trình và ngơn ngữ tự nhiên. Các giải thuật phân tích
chương trình dịch
ngữ cảnh đã và đang đóng một vai trị rất lớn trong các
các chương trình xử lý ngôn ngữ tự nhiên.

e - Định nghĩa văn phạm phi ngữ cảnh

phi ngữ cảnh nếu mọi luật
Văn phạm G = (V, T, $, P) được gọi là văn phạm

P có dạng:
sinh trong

A->œ

với

4ef

va ae(VUT)*.

18



CHƯƠNG 3

GIẢI THUẬT PHÂN TÍCH CÚ PHÁP
Hiện nay đã có nhiều giải thuật phan tích cú pháp, các giải thuật này có thể
thực hiện phân tích cú pháp từ trên xuống hay từ dưới lên và có thể xử lý được lớp
văn phạm phi ngữ cảnh tổng quát hay là lớp con của nó.
Việc tìm hiểu các giải thuật và cơng cụ hiện có giúp chúng ta có cái nhìn tổng
thể về việc phân tích cú pháp cũng như có điều kiện để so sánh ưu nhược điểm của
từng giải thuật, hơn nữa nó giúp tìm ra cách giải quyết thích hợp cho vấn để phân
tích cú pháp của ngơn ngữ tự nhiên. Sau đây chúng ta sẽ đi vào tìm hiểu một số giải
thuật và cơng cụ phân tích cú pháp thơng dụng.

3.1. Phân tích cú pháp từ trên xuống
Phương pháp bắt đầu từ gốc của cây phân tích là ký hiệu mục tiêu, lần lượt áp
dụng các luật sinh cho các ký hiệu không kết thúc của vế phải luật sinh cho đến khi
các nút lá của cây phân tích sinh ra giống câu cần phân tích.
Các giải thuật phân tích cú pháp thuộc loại này gồm có:
-_ Phân tích cú pháp theo giải thuật Earley.
-_ Phân tích cú pháp từ trên xuống đoán nhận trước đệ quy.
-_ Phân tích cú pháp đốn nhận trước khơng đệ quy.

-_ Phân tích cú pháp theo biểu đồ từ trên xuống.

3.2. Phân tích cú pháp từ dưới lên
Phương pháp này ngược lại với phương pháp trên, cây phân tích được sinh ra
bắt đầu từ các nút lá, nghĩa là từ các ký hiệu của câu nhập, lần lượt áp dụng các
luật sinh lên các dạng câu để thu giảm về ký hiệu mục tiêu đồng thời là nút của các
cây. Các giải thuật phân tích cú pháp thuộc loại này gêm có:
-


SLR, Canonical LR, LALR,

- Phan tich theo biéu đề từ dưới lên.

Sau đây chúng tôi sẽ trinh bay mét số phương pháp phân tích cú pháp cho văn
phạm phi ngữ cảnh tổng quát.

3.3. Phân tích cú pháp theo giải thuật Earley
Earley [37] đã đưa ra giải thuật phân tích cú pháp từ trên xuống tổng quát cho
văn phạm phi ngữ cảnh, giải thuật được tóm tắt như sau:
-_ Cho một văn phạm phi ngữ cảnh G = (V,T,S,P) và câu nhập w.
19


Ì ] được gọi là một thực

-_

Một đối tượng có dạng [A > X) X:..X\¡s Xự Xe,

-_

Dấu chấm (*) giữa Xv. và Xụ là ký hiệu khóa.

-

nào đó, ta có 8 —> y A ỗ (0 => ai..a¡ VÀ 6 > ajat.aj).
câu nhập w.
Chudi cdc danh sdch Jy, [).., được gợi là đanh sách thực thể cho


-

-_

thể cho w nếu A -> Xị Xạ...X„ là một luật sinh trong P và 0 < ¡ > n.

Đối với mỗi số nguyênj (0 < j > n), ta sẽ xây dựng một danh sách các thực
thể I¡ sao cho [A —> œ.ÿ, i] thuộc lj với 0<¡>n, nếu và chỉ nếu với y và
tổn tại
Chuỗi w thuộc L(G) (tức câu nhập đúng văn phạm), nếu và chỉ nếu
một thực thể nào đó có đạng [A —> œ, 0] trong lọ.

3.4. Giải thuật Cocke, Kasami, Younger (CKY)
trong
Giải thuật CYK [401 kiểm tra câu nhập có thuộc văn phạm phi ngữ cảnh
dạng chuẩn Chomsky hay không.
Giải thuật CYK

Nhập: Văn phạm phi ngữ cảnh (CEFG: Context Free Grammar) G trong dạng

chuẩn Chomsky (CNE), chuỗi

= a [i], a [2]...a[n]

Xuất: Trả lời đúng nếu œ thuộc L(G) và ngược lại.
Phương pháp

For ¡ in l..n loop

N [i, i] = {2};


For mỗi ky tự không kết thúc Ae G loop
If A —> a[i] là luật trong G thì
Thêm A vào N[ij]:
Endif;
Endloop;

Endloop;
For m in Ì..n-l loop
For i in L..n-m loop
Nii ntm] = (@};
For k in i..i +m -1 loop

For mỗi luật A > Bc trong G loop

If B € N[i,k] va C thudc N{k+, itm] then
Thêm A vào N[li+m];

Endif;
Endloop;
Endloop;
Endloop;

Endloop;
20


ing)
3.5. Phân tích cú pháp theo sơ đề (Chart pars


pháp trên văn phạm phi ngữ cảnh
Chart parsing là một giải thuật phân tích cú

pháp sơ đổ từ trên xuống (top-down
tổng qt. Nó gồm hai giải thuật phân tích cú
[2].
sơ đồ từ dưới lên (bottom — úp chart parser)
chart parser) và phân tích cú pháp

lên (bottom — up chart parser)
3.5.1. Bộ phân tích cú pháp sở đề từ dưới
dưới lên tổng qt, chúng ta ln cố
Trong phương pháp phân tích cú pháp từ
nhập, so trùng với vế phải luật sinh, nếu
gắng lấy một chuỗi con của chuỗi ký hiệu

sinh đó. Quá trình phân tích như vậy SẼ
trùng ta sẽ thu giảm vế phải về vế trái luật
bắt đầu của văn phạm. Để hiện thực
tiến hành cho tới khi thu giảm về ký hiệu
sau:
phương pháp này chúng ta thực hiện như
sang từ loại.
-_ Câu cần phân tích phải được chuyển

chúng được so trùng với vế phải
- Thay thế chuỗi các ký hiệu (từ loại) mà

luật sinh bằng vế trái của nó.


Giải thuật được tóm tắt như sau:

có thể xảy ra trường hợp một đoạn
Q trình phân tích cú pháp tổng qt rất
tránh điều đó xảy ra, bộ phân tích cú
ký hiệu nhập được so đi so lại nhiều lần. Để
lưu
trúc dữ liệu, vào sơ đổ (chart). Sơ đổ sẽ
cấu
chứa
lưu
sẽ
lên
dưới
từ
đồ

pháp
gian của việc so trùng, do đó bộ phân tích
nhớ các kết quả phân tích cú pháp trung

sẽ khơng cần lặp lại những gì đã thực hiện.

xét từ một điểm
Việc so trùng bao giờ cũng được xem

của một thành phần

g với
Để tìm các luật, bộ phân tích so trùn

(constituent) duge gọi là khóa (key).
đã được bắt

đầu bởi khóa, hoặc các luật
chuỗi có khóa, phải tìm các luật được bắt
hồn tất luật sinh hoặc khai triển luật
hoặc
đó
khóa
cầu
u
đó,
c
trướ
khóa
bởi
đầu
sau đây:

giải thuật mở rộng
sinh. Trong q trình tạo ra sơ đồ chúng ta cân
Giải thuật mỡ rộng:

p; thực hiện các bước sau:
Để thêm thành phần C vào vị trí từ pị đến
1. Thêm C vào sơ đồ từ p¡ đến p;.
đến pi,
có dạng X — Xị.* C.. Xụ từ vị trí pọ
2. Với bất kỳ cung hoạt động


pạ.
thêm cung mới X — Xị..® C... Xạ từ po đến

po dén pi,
có đạng X > X).. X, 0 C tl vi tri
3. Với bất kỳ cung hoạt động nào

đến p¿ và trong bang.
thêm một thành phần mới của X từ pọ

họa phương pháp phân tích cú pháp sơ
Chúng ta lấy ví dụ sau đây để mình

từ dưới lên:
sinh P:
«e - Cho văn phạm G, có tập luật

1.8

ONPVT

21


2.
3.
4,
5.
6.


NP
NP
NP
VP
VP

>
>
>
>
>

ART ADIN
ARTN
ADJN
AUX VP
VNP

Câu nhập vào cần phân tich 1a: the large can can hold the water
©

Các loại từ loại:
the

:ART

hold

large


: ADJ

can

:N,AUX,V

:N,V

water: N,V

Ta đọc từ đầu tiên của câu nhập vào là rhe, có từ loại ART;

so với các luật

sinh, có 2 luật sinh (Juật 2, 3) bắt đầu bằng từ loại ART, như vậy ta thêm 2 cung

hoạt động từ p, đến pạ. Đó là:

NP —> ART s ADJN

NP>ARTsN

đó là từ /zrge có từ loại là ADI. Ta xem các luật sinh nào có vế phải bắt
từ loại AD] và có thể triển khai tiếp các cung nào đã được điển từ pị đến
có luật 4. Ta thêm cung hoạt động NP > ADJ e N từ p; đến p; và thêm
-» ART ADJ eN từ pị đến p¿.
Tiếp theo là từ can có từ loại là N, AUX, V. Ta thêm vào sơ đổ từ p; đến py ky
hiệu N khơng có một cung nào được thêm vào nhưng có 2 cung được hoàn tất ở

Sau

đầu bằng
Po, ở đây
cung NP

bước 4 bằng giải thuật mở rộng, đó là NP; và NP¿.

Với NP‹ ( the large can từ p\ - pa):
thêm vào cung S > NP eVP ti p; - pa
thém vao cung S —> NP e VP tif p2 - Pa
V6i NP) (the large can tY p2 - ps) ngoai ra thêm cung có AUX dẫn đầu vế phải
luật sinh thứ 5:

VP > AUX « VP tit p3 ~ pa
VP — V e NP tit p3 — pa.

Cứ tiếp tục như vậy

chúng

ta có

sơ đổ ở các giai đoạn

“the large can can hold the water” như sau:

2

cho câu nhập

vào



×