Luận văn tơt nghiệp
1
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
TRẦN VĂN TRÍ
PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT
THEO HƯỚNG XÁC SUẤT
Chuyên ngành : Công nghệ thông tin
Mã số nghành : 60.48.01
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 02 . năm 2007
Luận văn tôt nghiệp
2
MỤC LỤC
CHƯƠNG 1 ......................................................................................................... 4
PHÁT BIỂU VẤN ĐỀ......................................................................................... 4
1.1. Đặt vấn đề................................................................................................... 4
1.2. Những đóng góp của đề tài......................................................................... 6
1.3. Hướng nghiên cứu ...................................................................................... 6
1.4. Cấu trúc của luận văn ................................................................................. 8
1.5. Qui ước về thuật ngữ và ký hiệu ................................................................ 9
CHƯƠNG 2 ....................................................................................................... 11
TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN........................................ 11
2.1. Những kết quả và cơng trình nghiên cứu trong nước............................... 11
2.2. Những kết quả và cơng trình nghiên cứu ngồi nước .............................. 11
CHƯƠNG 3 ....................................................................................................... 13
VĂN PHẠM TIẾNG VIỆT VÀ QUÁ TRÌNH CHUYỂN ĐỔI CÚ PHÁP TỪ
NGƠN NGỮ TIẾNG ANH SANG TIẾNG VIỆT.......................................... 13
3.1. Ngơn ngữ tự nhiên.................................................................................... 13
3.2. Văn phạm và cấu trúc ngữ pháp[22] ........................................................ 13
3.3. Một số điểm cú pháp khác nhau giữa ngôn ngữ Anh - Việt [22]............. 19
3.4. Ánh xạ cây cú pháp, luật sinh từ tiếng Anh sang tiếng Việt [22] ............ 21
3.5. Một số vấn đề cú pháp và chuyển đổi luật sinh tiếng Việt ...................... 26
3.5.1. Một số vấn đề về cú pháp .................................................................. 26
3.5.2. Một số vấn đề về chuyển đổi luật sinh tiếng Việt [22]...................... 26
CHƯƠNG 4 ....................................................................................................... 28
CƠ SỞ LÝ THUYẾT PHÂN TÍCH CÚ PHÁP THEO PHƯƠNG PHÁP
THỐNG KÊ ....................................................................................................... 28
4.1. Lý thuyết xác suất..................................................................................... 28
4.1.1. Xác suất.............................................................................................. 28
4.1.2. Xác suất và ngôn ngữ......................................................................... 29
4.1.3. Thơng số ước đốn khả năng xảy ra lớn nhất (MLE)........................ 29
4.1.4. Corpus – database của ngôn ngữ ....................................................... 29
4.1.5. Penn treebank..................................................................................... 30
4.1.6. Văn phạm phi ngữ cảnh có xác suất (PCFG) .................................... 36
4.2. Một số giải thuật phân tích cú pháp bằng xác suất .................................. 37
4.2.1. Giải thuật CKY(Cocke,Kasami, Younger) mở rộng, CKY+ ............ 37
4.2.2. Giải thuật Best-First Parsing.............................................................. 38
4.2.3. Giải thuật ViterbiPCFGParser ........................................................... 39
4.3.4. Giải thuật stack decoding................................................................... 40
4.3.5. Giải thuật phân tích tìm kiếm A* ..................................................... 40
CHƯƠNG 5 ....................................................................................................... 42
THIẾT KẾ VÀ THỰC HIỆN ĐỀ TÀI............................................................ 42
5.1. Mơ hình thiết kế đề tài.............................................................................. 42
5.1.1. Phân tích Peen treebank và xây dựng tập luật sinh cho tiếng Việt.... 42
Luận văn tơt nghiệp
3
5.1.2. Phân tích cú pháp tiếng Việt theo phương pháp thống kê ................. 46
5.1.3. Pháp phân tích cú pháp theo phương pháp thống giải quyết sự nhập
nhằng............................................................................................................ 47
5.1.4. Lựa chọn sự biểu diễn cho các cây (Tree representation) để tối ưu mơ
hình .............................................................................................................. 47
5.1.5. Mơ hình thống kê............................................................................... 49
5.2. Một số giải thuật và phương pháp đánh giá hiệu suất.............................. 50
5.2.1. Rút trích câu, từ loại đồng thời tạo loại bỏ nút lá trong treebank...... 50
5.2.2. Gán thông tin nút cha (parent annotation) lên cây nguyên thủy........ 51
5.2.3. Nhận diện và chuyển đổi cú pháp...................................................... 54
5.2.4. Chuyển đổi luật sinh về dạng right_branching_ binary..................... 55
5.2.5. Thống kê và xây dựng tập huấn luyện PCFG.................................... 56
5.2.6. Giải thuật phân tích cú pháp và tìm cây có xác suất cao nhất ........... 57
5.2.6. Kiểm tra sự phù hợp của cây phân tích cú pháp kết quả và chuyển về
dạng cây phù hợp với treebank .................................................................... 59
5.2.7. Đánh giá hiệu suất [11][20] ............................................................... 59
5.3. Demo chương trình................................................................................... 61
CHƯƠNG 6 ....................................................................................................... 71
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI ........................................ 71
6.1. Kết luận .................................................................................................... 71
6.2. Những vấn đề đạt được ............................................................................ 71
6.3. Những vấn chưa đạt được ........................................................................ 72
6.4. Hướng phát triển....................................................................................... 73
THAM KHẢO ................................................................................................... 75
DANH MỤC HÌNH........................................................................................... 77
DANH MỤC CÁC BẢNG ................................................................................ 78
PHỤ LỤC A ....................................................................................................... 79
PHỤ LỤC B ....................................................................................................... 90
PHỤ LỤC C ..................................................................................................... 101
Luận văn tôt nghiệp
4
CHƯƠNG 1
PHÁT BIỂU VẤN ĐỀ
1.1. Đặt vấn đề
Ngày nay, máy tính được ứng dụng vào mọi lĩnh vực trong đời sống kinh
tế xã hội. Nhưng về vấn đề xử lý ngôn ngữ tự nhiên, bằng cách nào để máy tính
có thể hiểu được ngơn ngữ, xử lý và ứng dụng ngơn ngữ thì đây quả là một thách
thức lớn cho các nhà khoa học.
Xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch
máy (MT: Machine Translation), nhận dạng tiếng nói (SR: Speech Recognition),
tìm kiếm bằng ngơn ngữ tự nhiên (NLQ: Nature Language Querying), bắt lỗi
chính tả (SC: Spelling Correction), v.v… Trong các lĩnh vực trên, phân tích cú
pháp là một vấn đề cơ bản và đóng một vai trị rất quan trọng trong tiến trình xử
lý cả cho ngơn ngữ máy và ngôn ngữ tự nhiên.
Những ứng dụng trong xử lý ngôn ngữ tự nhiên như dịch máy, rút trích
thơng tin, nhận dạng văn bản, bắt lỗi chính tả,… đạt chất lượng cao nếu có một
hệ thống phân tích cú pháp có độ chính xác cao. Từ quan điểm trên, tìm hiểu một
phương pháp phân tích cú pháp tốt là điều rất cần thiết.
Một trong những khó khăn chính của phân tích cú pháp là sự “nhập
nhằng” (ambiguity). Sự nhập nhằng xảy ra khi phân tích cú pháp cho kết quả là
nhiều cây phân tích với của một câu nhập.
Những giải thuật phân tích cú pháp hầu hết được phát triển vào những
năm 1960 và đã được ứng dụng rất nhiều trong xử lý ngôn ngữ tự nhiên. Tuy
nhiên, sự “nhập nhằng” của ngôn ngữ tự nhiên vẫn chưa được giải quyết. Hầu
hết những giải thuật này phụ thuộc vào toàn bộ khơng gian tìm kiếm để tìm được
những diễn dịch phù hợp với câu phân tích. Nếu có giải quyết được sự nhập
nhằng bằng cách đưa các yếu tố từ bên ngồi vào thì lại khó thực hiện và tốn
Luận văn tôt nghiệp
5
nhiều thời gian. Các phương pháp phân tích trước đây thường cho kết quả là
nhiều cây phân tích.
Những năm gần đây, việc áp dụng xác suất để giải quyết sự nhập nhằng
trong phân tích cú pháp ngày càng phát triển mạnh mẽ và có nhiều triển vọng
nhờ các corpus - kho dữ liệu về ngôn ngữ tự nhiên đã có sẵn. Với mơ hình phân
tích bằng xác suất - xác suất được gán vào mỗi cây phân tích cú pháp - sẽ chọn
ra được kết quả là một cây phân tích phù hợp nhất (có xác suất cao nhất) cho câu
nhập. Tuy nhiên, những ứng dụng đó chỉ đươc thử nghiệm cho những ngôn ngữ
tiếng Anh, Pháp, … cịn về ngơn ngữ tiếng Việt thì hiện chưa có một cơng trình
nào được cơng bố trong lĩnh vực nghiên cứu này.
Với mục tiêu nghiên cứu và phát triển ứng dụng nhằm hỗ trợ cho việc xử
lý và phân tích cú pháp cho ngơn ngữ tiếng Việt trên máy tính, tác giả chọn đề
tài “Phân tích cú pháp tiếng Việt theo hướng xác suất (Probabilistic
Parsing)”.
Đây là một lĩnh vực cịn khá mới mẽ và địi hỏi phải có sự trợ giúp của
nhiều nhà ngôn ngữ học. Để thực hiện thành công đề tài trước hết phải xây dựng
được kho dữ liệu corpus hoặc Treebank cho tiếng Việt. Việc xây dựng kho dữ
liệu cho tiếng Việt địi hỏi phải có rất nhiều thời gian và cơng sức đồng thời nó
thuộc lĩnh vực nghiên cứu của các nhà ngôn ngữ học, điều này ngồi khả năng
của tác giả.
Hiện nay chưa có một kho dữ liệu cũng như treebank nào cho tiếng Việt,
do đó để thực hiện đề tài tác giả sử dụng Penn treebank của tiếng Anh và dựa
trên sự tương đồng và không tương đồng giữa ngôn ngữ Anh - Việt chuyển Penn
treebank này thành tập luật sinh cú pháp tiếng Việt với sự giúp đỡ của các
chuyên gia dịch thuật.
Luận văn tơt nghiệp
6
1.2. Những đóng góp của đề tài
Đề tài nhằm hướng tới những mục tiêu sau:
1. Nghiên cứu văn phạm tiếng Việt để tìm sự khác biệt cú pháp giữa hai
ngôn ngữ tiếng Việt và tiếng Anh.
2. Nghiên cứu và xây dựng luật sinh, từ loại cho tiếng Việt từ Penn
treebank có sẵn.
3. Dựa trên tập luật sinh tiếng Anh nghiên cứu phương pháp chuyển đổi
cú pháp sang tập luật sinh tiếng Việt. Nghiên cứu phương pháp chuẩn hóa và
hồn thiện giải thuật huấn luyện để tạo tập luật sinh có xác suất.
4. Sử dụng tập luật sinh tiếng Việt và lựa chọn giải thuật phân tích cú
pháp bằng xác suất để thực hiện phân tích cú pháp cho câu tiếng Việt.
5. Xây dựng chương trình để phân tích cú pháp một số câu tiếng Việt đơn
giản và đánh giá kết quả.
1.3. Hướng nghiên cứu
Phân tích cú pháp theo phương pháp xác suất ứng dụng cho tiếng Việt, là
khi người sử dụng nhập vào một câu tiếng Việt, qua một loạt các thao tác xử lý
sẽ cho kết quả là cây cú pháp phù hợp nhất với câu nhập, nói cách khác là cây có
xác suất cao nhất. Để giải quyết vấn đề này, chúng ta cần phải có kho dữ liệu
treebank cho tiếng Việt, nhưng hiện tại ở Việt Nam chưa có kho dữ liệu treebank
nào được cơng bố.
Chính vì khó khăn đó, để có được treebank cho tiếng Việt phục vụ cho
việc thực hiện đề tài, tác giải chọn hướng nghiên cứu là tìm hiểu sự đối sánh
giữa ngôn ngữ tiếng Việt và tiếng Anh. Sau đó, dựa trên sự tương đồng về ngữ
nghĩa, cú pháp giữa hai ngơn ngữ này, với treebank sẳn có cho tiếng Anh tác giả
xây dựng công cụ chuyển đổi thành treebank và tập luật sinh theo cú pháp tiếng
Luận văn tôt nghiệp
7
Việt đồng thời nhờ sự trợ giúp của các chuyên gia dịch thuật, chuyển tập từ vựng
tiếng Anh trong treebank sang tiếng Việt theo đúng từ loại của nó.
Q trình triển khai và phát triển đề tài được mơ hình hóa theo sơ đồ sau:
Penn
Treebank
Cơng cụ
rút trích
và tạo tập
luật
Tập câu
Chuyên gia
dịch thuật
Bảng từ loại
Tập câu Test của
tiếng Việt
Tập luật sinh
Công cụ chuyển
đổi cú pháp
Tập luật sinh
tiếng Việt
Huấn luyện
Tập luật sinh
có xác suất
Tập câu Test của
tiếng Việt
Lexicon
Bộ phân tích cú
pháp xác suất
Lexicon
Cây cú pháp với
xác suất cao nhất
Hình 1. 1: Mơ hình hóa q trình phân tích cú pháp tiếng Việt
Luận văn tơt nghiệp
8
Từ Penn treebank sẵn có, thơng qua cơng cụ rút trích và tạo tập luật sẽ cho ra
được tập câu, bảng từ loại và tập luật sinh.
-
Tập luật sinh: Thông qua công cụ chuyển đổi cú pháp sẽ chuyển tập luật
sinh này sang tập luật sinh tiếng Việt. Từ tập luật sinh tiếng Việt, thông
qua công cụ huấn luyện sẽ cho ra được tập luật sinh có xác suất tiếng
Việt.
-
Tập câu: Tập câu được sinh ra từ Penn treebank sẽ được các chuyên gia
dịch thuật dịch chúng sang tập câu tiếng Việt hoặc cũng có thể lấy tập câu
tự do để làm tập câu thử nghiệm cho việc phân tích cú pháp.
-
Bảng từ loại: Bảng từ loại được tạo ra từ Penn treebank nhằm góp phần
vào việc gán từ loại cho các từ trong câu tiếng Việt để đưa ra cây cú pháp
với xác suất cao nhất.
Sau khi có tập luật sinh xác suất tiếng Việt, tập từ loại và tập câu thử nghiệm
tiếng Việt, tiến hành xây dựng bộ phân tích cú pháp để phân tích câu tiếng Việt
nhập vào và cho ra cây với xác suất cao nhất.
1.4. Cấu trúc của luận văn
Luận văn gồm 6 chương, bao gồm các nội dung cơ bản như sau:
Chương 1: “PHÁT BIỂU VẤN ĐỀ” trình bày về cách đặt vấn đề, định hướng
nghiên cứu và chọn phương pháp giải quyết vấn đề. Đưa ra mơ hình tổng qt,
mục tiêu cần đạt được, cũng như những kết quả và đóng góp của đề tài.
Chương 2: “TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN” tóm tắt một số
cơng trình khoa học đã được cơng bố trong và ngồi nước liên quan đến đề tài.
Chương 3: “VĂN PHẠM TIẾNG VIỆT VÀ QUÁ TRÌNH CHUYỂN ĐỔI CÚ
PHÁP TỪ NGƠN NGỮ TIẾNG ANH SANG TIẾNG VIỆT” trình bày sơ lược
về văn phạm tiếng Việt, tìm hiểu một số điểm cú pháp khác nhau giữa hai ngơn
ngữ Anh - Việt.Trên cơ sở đó, tìm hiểu quá trình ánh xạ cây cú pháp, tập luật
Luận văn tôt nghiệp
9
sinh từ ngôn ngữ tiếng Anh sang tiếng Việt, đồng thời đưa ra một số vấn đề gặp
phải trong qua trình phân tích cú pháp tiếng Việt xuất phát từ Penn treebank
tiếng Anh.
Chương 4: “CƠ SỞ LÝ THUYẾT PHÂN TÍCH CÚ PHÁP THEO PHƯƠNG PHÁP
THỐNG KÊ” trình bày cơ sở lý thuyết về xác suất ngôn ngữ, corpus, Penn
treebank đồng thời giới thiệu một số giải thuật phân tích cú pháp liên quan.
Chương 5: “THIẾT KẾ VÀ THỰC HIỆN ĐỀ TÀI” trình bày mơ hình thiết kế đề
tài, xây dựng các cơng cụ rút trích câu, từ loại, chuyển đổi cú pháp, chuẩn hóa và
tạo tập luật sinh tiếng Việt, xây dựng tập huấn luyện PCFG, … .từ corpus có sẵn
- Penn treebank đồng thời thực hiện Demo chương trình và đánh giá kết quả thực
hiện.
Chương 6: “KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI” kết luận, những vấn
đề đạt được và chưa đạt được đồng thời đưa ra hướng phát triển của đề tài
1.5. Qui ước về thuật ngữ và ký hiệu
Văn phạm phi ngữ cảnh
CFG
PCFG Văn phạm phi ngữ cảnh có xác suất
P
Xác suất
S
Tập các ký hiệu mục tiêu
s
Câu (sentence)
t
Cây (Tree)
tbest
Cây phân tích cú pháp phù hợp nhất với câu nhập
arg max t
T
Chọn t khi nó có giá trị lớn nhất thơng qua một hàm xác định giá trị.
POS tags
(Part-Of-Speech tags), gắn từ loại vào từ
Treebank
Kho dữ liệu chứa các mẩu cây phân tích cú pháp
Luận văn tơt nghiệp
10
Tổng
Tích
Giao của các tập hợp
ĉ
Ước lượng của c
wij , wi..j
chuỗi các từ hoặc từ loại w1,w2,… wj
G
Tập văn phạm
V
Tập các ký hiệu không kết thúc
N
Tập các ký hiệu kết thúc
P
Tập các luật sinh
Luận văn tơt nghiệp
11
CHƯƠNG 2
TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN
2.1. Những kết quả và cơng trình nghiên cứu trong nước
- Đề tài nghiên cứu khoa học của các tác giả: PGS.TS Phan Thị Tươi,
Nguyễn Chí Hiếu, Trường Đại học Bách Khoa thuộc Đại học quốc gia TP. Hồ
Chí Minh thực hiện, đã xây dựng các luật cú pháp cho cụm từ tiếng Việt bằng
phương pháp tự động, với 32.000 luật sinh, áp dụng phương pháp Top-Down
Chart parser có cải thiện để phân tích cú pháp và phát hiện lỗi chính tả [26].
- Đề tài nghiên cứu khoa học của các tác giả: PGS.TS Phan Thị Tươi,
Nguyễn Chí Hiếu, Trường Đại học Bách Khoa thuộc Đại học quốc gia TP. Hồ
Chí Minh thực hiện, đã tạo được các luật của văn phạm phi ngữ cảnh (khoảng
4000 luật sinh) cho ngôn ngữ tiếng Anh và tiếng Việt, xây dựng các ánh xạ
chuyển đổi cây phân tích. Đề tài hiện thực phân tích cú pháp bằng giải thuật
Earley có cải thiện [27][28].
Về các ứng dụng phân tích cú pháp theo phương pháp xác xuất:
- Luận văn Thạc sĩ của tác giả: Nguyễn Thị Thanh Tâm do PGS. TS Phan
Thị Tươi hướng dẫn, Trường ĐH Bách Khoa thuộc Đại học quốc gia TP. Hồ Chí
Minh thực hiện, phân tích cú pháp có xác suất cho câu tiếng Anh đơn giản, trên
cơ sở kho dữ liệu Penn treebank.
Những ứng dụng liên quan đến việc phân tích cú pháp cho ngơn ngữ tiếng
Việt hiện chưa thấy được cơng bố.
2.2. Những kết quả và cơng trình nghiên cứu ngồi nước
Có hai nhóm nghiên cứu chính:
1. Nhóm phân tích cú pháp khơng từ vựng (Non-lexicalied Parsing).
Luận văn tơt nghiệp
12
Phân tích cú pháp khơng từ vựng là nhóm phân tích trong đó phớt lờ các
thơng tin về từ vựng. Với việc phân tích theo nhóm này, một câu đưa vào để
phân tích thực chất chỉ là một dãy các từ loại. Điều này chứng tỏ một câu loại
này sẽ ít thơng tin hơn so với một câu có gắn với từ thực. Tuy nhiên, Phân tích
Cú Pháp Khơng Từ Vựng có ưu điểm là vì số lượng ký hiệu kết thúc nhỏ nên dễ
xây dựng và thường không gặp phải về vấn đề dữ liệu thưa.
Các cơng trình nghiên cứu điển hình của nhóm phương pháp này là:
- Cơng trình Partially Unsupervisor Learning (Khơng bị giám sát cục bộ)
của Pereia and Schabes năm 1992.
- Cơng trình PCFG Estimation from a treebank (Ước lượng PCFG từ một
treebank) của Charnial năm 1996. Kết quả kiểm định trên Wall Street treebank
với recall là 70.6% và precision là 74.8%.
- Công trình của Goodman năm 1996 mơ tả các giải thuật phân tích cú
pháp khác nhau trên PCFG để tối đa độ chính xác [23].
2. Nhóm phân tích cú pháp có từ vựng (Lexicalied Parsing)
Phân tích cú pháp có từ vựng là nhóm phân tích dựa vào các từ riêng lẻ và
tính tốn trên sự phân loại của từ. Nhưng việc thống kê các từ loại riêng biệt tức
thời dẫn đến vấn đề về dữ liệu thưa. Nếu cố gắng thống kê một cách rất chi tiết
sự kết hợp của các từ thì những kết hợp dư thừa khi huấn luyện cho corpus tăng
lên rất nhanh. Do đó, để giảm thiểu số lượng các kết hợp loại này, người ta gắn
vào mỗi thành phần một phần “head”, thông thường head được tính từ dưới lên
và head của một thành phần c là một hàm quyết định của luật sinh, dùng để vét
cạn (expend) c. Hướng phân tích này thuộc các cơng trình nghiên cứu điển hình
của Bob (1993) [11]; Black và cộng sự. (1993); De Marken (1995); Collin
(1996) [9]; Collin (1999) và một số tác giả khác.
Luận văn tôt nghiệp
13
CHƯƠNG 3
VĂN PHẠM TIẾNG VIỆT VÀ QUÁ TRÌNH CHUYỂN ĐỔI CÚ
PHÁP TỪ NGƠN NGỮ TIẾNG ANH SANG TIẾNG VIỆT
3.1. Ngôn ngữ tự nhiên
Là phương tiện giao tiếp của con người và là một thành phần cốt yếu
trong cuộc sống của chúng ta, nó bao gồm ngơn ngữ nói và ngơn ngữ viết. Đặc
điểm của ngơn ngữ tự nhiên là sự nhập nhằng khơng rõ nghĩa. Đó là điều mà
chúng ta cần phải quan tâm khi xử lý ngơn ngữ tự nhiên bằng máy tính.
3.2. Văn phạm và cấu trúc ngữ pháp[22]
1. Từ: Theo quan điểm của ngôn ngữ học phương Tây. Từ được hiểu như
là đơn vị cú pháp nhỏ nhất, có ý nghĩa, có từ loại và có chức năng ngữ pháp. Từ
tham gia cấu tạo, tổ chức làm thành những thành phần lớn hơn như cụm từ,
chuỗi từ, … sao cho có nghĩa và đúng ngữ pháp. Ví dụ:
(1) “Ăn” là một từ có ý nghĩa và là một động từ.
(2) “Năn” là tiếng/chữ không có nghĩa. Nhưng nếu ghép “ăn” với “năn”,
ta sẽ được một động từ có ý nghĩa: “ăn năn”. Từ này được ghép bằng 2
tiếng/chữ. Như vậy, từ có thể là sản phẩm của hơn hai tiếng/chữ hoặc của từ.
Nhiều từ kết hợp lại với nhau gọi là cụm từ hay chuỗi từ. Một cụm từ,
chuỗi từ được xem là một thành tố.
Mỗi từ đều có loại từ (lexical type) nhất định như danh từ, động từ, .... . Vì có
rất nhiều loại từ khác nhau, cho nên các nhà ngôn ngữ phải tìm cách phân loại từ
thành các lớp từ tương đương.
Lớp tương đương (equivalent class) được hiểu là một tiểu tập hợp bao
gồm mọi phần tử có cùng tính chất tương đương đã được chọn lọc theo những
chuẩn tắc nhất định. Sau đây là một số lớp từ:
Luận văn tôt nghiệp
14
- Lớp danh từ (noun class) là một lớp chỉ gồm những từ có tính chất và
chức năng, như danh từ riêng, danh từ chung, đại danh từ nhân vật, đại danh từ
quan hệ, đại danh từ sở hữu, đại danh từ nghi vấn, đại danh từ hỗ tương, ...
- Lớp chỉ định từ (determiner class) gồm có mạo từ, đại danh từ tái quy,
đại danh từ chỉ thị, ...
- Lớp tính từ (adjective class) gồm có tính từ và trạng từ.
- Lớp động từ (verb class) chỉ có động từ.
Trên thực tế, các nhà ngơn ngữ học phương Tây đã thu gọn như sau:
Phạm trù từ vựng (lexical category) được hiểu là tập hợp bao gồm 6 lớp
từ (word class):
1. Danh từ (noun)
2. Động từ (verb)
3. Tính từ (adjective)
4. Giới từ (preposition)
5. Liên từ (conjunction)
6. Chỉ định từ (determiner)
Lớp từ được tóm tắc trong bảng sau:
Lớp
Ký hiệu
Ví dụ
Danh từ (danh từ riêng, danh từ chung,
N
house, dog, I, you,
đại danh từ nhân vật, đại danh từ sở
mine, yours, each
hữu, đại danh từ nghi vấn, đại danh từ
other, one another,
hỗ tương, đại danh từ quan hệ, ...)
what, who, whom,
which, ...
Luận văn tơt nghiệp
15
Động từ
V
live, eat, ...
Tính từ (tính từ, trạng từ)
A
my, your, warm, hot,
slowly, extremly, ...
Giới từ
P
to, for, on, ...
Liên từ
C
and, or, ...
Chỉ định từ (mạo từ, đại danh từ tái
D
the, a, this, that,
quy, ...)
myseft, yourseft, ...
Những loại từ của ngơn ngữ khác.
Bảng 3.1: Bảng tóm tắt lớp từ
Tuy nhiên cách phân loại trên thực ra chỉ có giá trị cho những ngôn ngữ
Ấn-Âu, đặc biệt là tiếng Anh, chứ không đầy đủ cho mọi ngôn ngữ, chẳng hạn
như tiếng Việt. Một ví dụ tiêu biểu:
Cũng là danh từ như tiếng Anh, người Việt nói một “con gà”, một “bức
tranh”, một “chiếc thuyền”, ... Những từ đặc biệt “con”, “bức”, “chiếc”, ... tiếng
Anh khơng có. Trong tiếng Việt, loại từ này có thể đi với một từ danh từ, động
từ, tính từ để thành lập một thành tố mang tính danh từ và có thể coi như một
thực thể hầu như đếm được. Nếu đứng một mình, loại từ này có thể đại diện cho
đối tượng trong thành tố phía trước, nghĩa là đã được nói trước. Sau đây là một
số trường hợp được liệt kê cho trường hợp này:
1. Diễn tả cá thể người: ông giám đốc, anh kỹ sư, ...
2. Diễn tả cá thể đồ vật: cái nhà, cánh cửa, ...
3. Diễn tả cá thể thực vật: cây cam, trái quít, ...
4. Diễn tả cá thể thú vật: con chó, con mèo, ...
Luận văn tơt nghiệp
16
5. Diễn tả phái tính nam nữ: cô dâu, chú rể, ...
6. Diễn tả sự già trẻ: bà lão, cháu bé, ...
7. Diễn tả tính cao quý, sang hèn, kính trọng, khinh khi: đấng anh hùng,
nhà tư bản, ngài đại sứ, kẻ ăn mày, ...
8. Diễn tả thần linh: đức Chúa Trời, đức Phật, ...
9. Diễn tả sự kiện: cuộc biểu tình, sự bất mãn, ...
10. Diễn tả tâm tư: niềm hy vọng, nỗi nhớ thương, ...
11. Diễn tả số lượng: bầy trẻ, đàn gà, đám tang, ...
12. Diễn tả khối lượng: giọt mưa, trái núi, ...
13. Diễn tả tính từng phần: thửa vườn, mảnh ruộng, ...
14. Diễn tả thứ loại: loại nghệ thuật đắt tiền, thứ văn chương rẻ tiền, ...,
v.v.
2. Danh từ và cụm danh từ: Dùng để biểu thị tính chất sự vật như sinh vật, vật
thể, hiện tượng, sự việc trong đời sống hiện tại…
3. Cụm động từ: Động từ là những từ diễn tả sự tồn tại trạng thái hoặc hành
động. Mỗi động từ phải ở trong 5 dạng cơ bản sau:
Dạng
Ví dụ - Tiếng Anh
Base
go, be, cry
Simple present
go, am, cries
Simple past
Went, was, cried
Present participle
Going, being, crying
Past participle
Gone, been, cried
Bảng 3.2: Những dạng cơ bảng động từ và cụm động từ
Quá khứ trong tiếng Việt sử dụng từ “đã”, tiếp diễn thì là “đang” và tương lai là
“sẽ”
Luận văn tôt nghiệp
17
Động từ được chia thành các lớp khác nhau:
- Trợ động từ (auxiliary verbs): be, do, have
- Động từ hình thái (modal verbs): will, can, could
- Động từ chính (main verbs): eat, ran, believe
Các thì (tenses) cơ bản:
Cấu trúc động từ được
Thì
Ví dụ
chia
Simple present
Simple present
He walks to the bookstore
Simple past
Simple past
He walked to the bookstore
Simple future
Will + infinitive
He will walk to the bookstore
Present perfect
Have in present + past He has walked to the bookstore
participle
Future perfect
Will + have in infinitive He will have walked to bookstore
+ past participle
Past perfect
Have in the past + past I had walked to the bookstore
participle
Bảng 3.3: Các thì có bản trong của ngơn ngữ
Đối với động từ chính ta có:
- Ngoại động từ (intransitive verbs): có thể đứng một mình mà khơng cần
bổ từ (Jack laughed)
- Nội động từ (transitive verbs): thưòng yêu cầu một cụm danh từ theo sau
(Jack found a key)
Một vài cấu trúc bổ ngữ cho động từ:
Động từ
Cấu trúc bổ ngữ
Ví dụ
Laugh
Empty (intransitive)
Jack laughed
Luận văn tôt nghiệp
18
Find
NP (transitive)
Jack found a key
Give
NP + NP
Jack gave Sue a paper
Give
NP + NP (to)
Jack gave the book to the library
Try
VP (to)
Jack tried to apologise
Wish
S (to)
Jacked wish for the man to go
Seem
ADJP
Jack seem unhappy in his new job
Bảng 3.4: Một vài cấu trúc bổ ngữ cho động từ
4. Tính từ và cụm tính từ: Tính từ thường có chức năng bổ nghĩa cho các thành
phần khác trong câu, dùng để miêu tả đặc điểm, tính chất của con người, sự vật,
hiện tượng. Có thể chia làm 2 loại tính từ : tính từ miêu tả (big, small,…) và tính
từ quan hệ (presidential, …)
Những cụm tính từ đơn giản chỉ bao gồm một tính từ đơn. Những cụm từ
phức tạp cần những bổ ngữ như PP(prepositional phrase) ,VP (verb pharse),…
PP [with]
Jack was pleased with the prize
VP [inf]
Jack seem willing to lead the chorus
S [that]
Jack was angry that he was left behind
Bảng 3.5: Tính từ và cụm tính từ
5. Giới từ: Giới từ là một loại hư từ (trong nhóm quan hệ từ) dùng để nối liền từ
phụ với từ chính biểu thị ngữ pháp giữa hai đơn vị đó.
6. Mạo từ: có hai loại mạo từ:
- Mạo từ bất định (non-specified article): trong tiếng Anh là “a” tương ứng với
tiếng Việt là “một”
- Mạo từ xác định (specified article): tiếng Anh là “the” tương ứng với tiếng
Việt là “cái” và một số từ khác.
7. Câu đơn: có 5 hình thức:
Luận văn tơt nghiệp
19
Hình thức
Ví dụ
Chủ từ + nội động từ
My head aches
Chủ từ + động từ + bổ ngữ
Frank is an architect
Chủ từ + động từ + túc từ trực tiếp
My sister enjoyed the play
Chủ từ + động từ + túc từ gián tiếp + túc từ
The firm gave Sam a watch
trực tiếp
Chủ từ + động từ + túc từ + bổ ngữ
They made him redundant
Bảng 3.6: Một số cấu trúc câu đơn
8. Câu ghép: là câu có nhiều hơn hai mệnh đề và sự liên kết giữa hai mệnh đề
này có thể là :
Một dấu chấm phẩy.
We fished all day; we didn’t cacth a thing
Một dấu chấm phẩy kèm theo một
We fished all day; however, we didn’t
phó từ có chức năng liên kết.
cacth a thing
Một liên từ.
We fished all day but we didn’t cacth a
thing
Bảng 3.7: Một số cấu trúc câu ghép
3.3. Một số điểm cú pháp khác nhau giữa ngơn ngữ Anh - Việt [22]
1. Vị trí tính từ - danh từ: Trong câu tiếng Anh thơng thường nếu như sau tính từ
hoặc tính từ so sánh nhất là danh từ, khi chuyển sanh tiếng Việt, tính từ hoặc tính
từ so sánh nhất này sẽ được chuyển ra đứng sau danh từ.
Tiếng Anh
Tiếng Việt
ADJ + N
N + ADJ
ADJS + N
N + ADJS
Bảng 3.8: Bảng chuyển đổi cú pháp danh từ tính từ Anh - Việt
Ví dụ: A beautiful girl
Một cô gái đẹp
Luận văn tôt nghiệp
20
ADJ
N
N ADJ
She is the tallest girl in the city. Cô ta là cô gái cao nhất trong thành phố.
ADJS
N
N
ADJS
2. Hình thức sở hữu:
- Chỉ có trường hợp danh từ chủ sở hữu mang dấu “ ’s ” và đi trước danh
từ chỉ vật sở hữu, khi chuyển sang tiếng Việt, danh từ chủ sở hữu sẽ được
chuyển sang đứng sau danh từ sở hữu. ví dụ:
quyển sách của đứa trẻ
The boy’s book
- Đại từ sở hữu đứng trước danh từ, khi chuyển sang tiếng Việt, đại từ sở
hữu sẽ được chuyển sang đứng sau danh từ sở hữu. Ví dụ:
My father
Bố của tơi
His book
Quyển sách của anh ấy
Bảng tóm tắt trong điểm ngữ pháp này:
Tiếng Anh
Tiếng Việt
Chủ sở hữu ‘s + vật sở hữu
vật sở hữu + chủ sở hữu ‘s
Đại từ sở hữu + vật sở hữu
vật sở hữu + Đại từ sở hữu
Bảng 3.9. Bảng chuyển đổi cú pháp hình thức sở hữu từ Anh sang Việt
3. Một số chỉ định từ có thể hốn đổi vị trí khi chuyển cú pháp từ Anh sang Việt:
Một số chỉ định từ như this, that, these, those, … theo sau là danh từ, khi chuyển
sang tiếng Việt, những chỉ định từ này sẽ được chuyển sang đứng sau danh từ.
Ví dụ:
This book
quyển sách này
That book
quyển sách đó
These books
những quyển sách này
Luận văn tơt nghiệp
21
những quyển sách đó
Those books
3.4. Ánh xạ cây cú pháp, luật sinh từ tiếng Anh sang tiếng Việt [22]
1. Ngữ đoạn danh từ NP (Noun Phrase)
Ngữ đoạn danh từ còn gọi là cụm danh từ. Một ngữ đoạn danh từ NP đơn
giản nhất chỉ có một danh từ. Ta có luật sinh cho ngữ đoạn danh từ như sau:
NP N
Ta gọi là NP (noun phrase) sinh ra danh từ N (noun). Cây cú pháp tương
ứng như sau:
NP
N
Hình 3.1: Cây cú pháp cho ngữ đoạn danh từ
Ví dụ: tiếng Anh từ “knife” tiếng Việt là “dao”, cây cú pháp tương ứng
cho tiếng Anh và tiếng Việt như sau:
NP
NP
N
N
Knife
dao
(a) Tiếng Anh
(b) Tiếng Việt
Hình 3.2: Chuyển đổi cây cú pháp Anh - Việt
Mô tả luật sinh cho hai cây cú pháp trên như sau:
NP N
N knife/dao
Ngữ đoạn danh từ NP sinh ra N, N tận cùng bằng “knife” hoặc “dao”.
Luận văn tôt nghiệp
22
Mở rộng luật trên với một mạo từ xác định “the” và mạo từ bất định “a”
như ta đã giới thiệu ở trên, mạo từ xác định tương ứng với tiếng Việt là “con” và
bất định là “một”. Ta có luật như sau:
NP ART N
ART the, a/con, một
Ta có cây cú pháp tương ứng như sau:
NP
NP
ART
NP
ART
the/a
knife
con/một
NP
con dao
Hình 3.3: Ánh xạ cây cú pháp ngữ đoạn danh từ có mạo từ Anh - Việt
Trong những trường hợp trên ta thấy cấu trúc luật sinh và cây cú pháp
giữa tiếng Anh và tiếng Việt là tương tự nhau. Tuy nhiên ta xét một trường hợp
phức tạp hơn. Ví dụ xét câu sau:
Tiếng Việt: “một cơ gái đẹp”
Tiếng Anh:
“a beautiful girl”
Ta thấy cây cú pháp tương ứng như sau:
NP
NP
ART
ADJ
N
ART
N
A
beautiful
girl
một
cơ gái
ADJ
đẹp
Hình 3.4:Ánh xạ cây cú cụm danh từ có mạo từ và tính từ Anh - Việt
Từ đó ta có luật sinh tương ứng như sau:
Tiếng Anh:
Luận văn tơt nghiệp
23
NP ART ADJ NP
Khi đó luật sinh ở câu tiếng Việt như sau:
NP ART NP ADJ
Tới đây ta nhận thấy có sự khác nhau giữa tiếng Việt và tiếng Anh, đây
chính là điểm khác biệt cú pháp mà ta đã tìm hiểu ở mục trên.
Bây giờ ta mở rộng trường hợp này bằng cách thêm một giới từ vào câu
sau:
Tiếng Việt: “một cô gái đẹp ở Việt Nam”
Tiếng Anh: “a beautiful girl in Viet Nam”
Ta có cây cấu trúc tương đương với câu trên như sau:
NP
ART
A
ADJ
NP
N
PP
beautiful girl in Viet Nam
ART
một
N
cơ gái
ADJ
đẹp
PP
ở Việt Nam
Hình 3.5: Cây cú pháp ánh xạ ngữ đoạn danh từ có giới từ Anh - Việt
Luật sinh cho cho cây cú pháp này như sau:
Tiếng Anh: NP ART ADJ N PP
Tiếng Việt: NP ART N ADJ PP
PP ở ví dụ này ta khơng đi vào chi tiết, vì chỉ lấy ví dụ cho cụm danh từ.
2. Tính từ và cụm tính từ ADJP: (Adjective phrase):
Ở cụm tính từ, vị trí từ loại trong câu giữa tiếng Anh và tiếng Việt hầu
như là khơng thay đổi. Ví dụ: xét cụm từ:
Tiếng Việt: “Rất đẹp”
Tiếng Anh: “very beautiful”
Luận văn tơt nghiệp
24
ADJP
ADJP
ADV
ADJ
Very
beautiful
ADV
ADJ
rất
đẹp
Hình 3.6: Cây cú pháp ánh xạ tính từ và cụm tính từ Anh - Việt
Luật sinh cho cho cây cú pháp là:
ADJ ADV ADJ
ADV very/rất
ADJ beautiful/đẹp
3.Ngữ đoạn giới từ PP:
Xét cụm giới từ “ở Việt Nam” (tiếng Việt), “in Vietnam” (tiếng Anh):
PP
PP
P
NP
P
NP
In
N
ở
N
Vietnam
Việt nam
Hình 3.7: Cây cú pháp ánh xạ cụm giới từ Anh - Việt
Luật sinh của PP là:
PP P NP
P in/ở
NP N
N Vietnam/Việt nam
4. Ngữ đoạn động từ VP:
Ngữ đoạn (cụm động từ) VP đơn giản nhất chỉ là một động từ: VP V.
Xét cụm động từ sau:
“sing a song” (tiếng Anh) và
“hát một bài hát” (tiếng Việt)
Luận văn tơt nghiệp
25
VP
VP
V
NP
Sing
ART
V
N
a
NP
hát
ART
N
một
bài hát
song
Hình 3.8: Cây cú pháp ánh xạ cụm động từ Anh - Việt
Luật sinh tương ứng cho cây cú pháp như sau:
VP V NP
V sing/hát
NP D N
D a/một
N song/bài hát
5. Câu: xét câu đơn sau: “Người đàn ơng có một việc làm khó khăn” (tiếng Việt)
và The man has a hard job” (tiếng Anh). Cây cú pháp tương ứng như sau:
S
S
NP
D
VP
N
The man
V
NP
NP
D
hard
N
V
NP
Người đàn ơng có ART
has ART NP
a ADJ
VP
NP
một N
N
ADJ
việc làm khó
job
Hình 3.9: Cây cú pháp ánh xạ cụm động từ Anh - Việt
Tập luật sinh cho cây trên:
Cây tiếng Anh
Cây tiếng Việt
S NP VP
S NP VP