Tải bản đầy đủ (.pdf) (515 trang)

Xây dựng bộ luật văn phạm tiếng việt theo ngôn ngữ hình thức

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.56 MB, 515 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
KHOA VĂN HỌC VÀ NGÔN NGỮ

PHẠM THỊ KIM UYÊN

XÂY DỰNG BỘ LUẬT VĂN PHẠM TIẾNG VIỆT THEO
NGƠN NGỮ HÌNH THỨC

LUẬN VĂN THẠC SĨ
CHUN NGÀNH NGƠN NGỮ HỌC

THÀNH PHỐ HỒ CHÍ MINH - NĂM 2015


i

LỜI CAM ĐOAN

Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi, được sự hướng
dẫn khoa học của PGS.TS Đinh Điền.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ cơng trình nào khác.
Tơi xin chịu trách nhiệm về nghiên cứu của mình.
Tác giả
Phạm Thị Kim Uyên


ii

LỜI CẢM ƠN


Lời đầu tiên, tôi xin chân thành cảm ơn PGS.TS Đinh Điền, người đã tận tình
dẫn dắt tơi trong suốt quá trình thực hiện luận văn. Những lời hướng dẫn, chỉ dạy,
những tài liệu quý báu của thầy đã giúp tơi vững tin vượt qua những khó khăn trong
thời gian thực hiện.
Tôi cũng xin cảm ơn quý thầy cô trong Khoa Văn học & Ngôn ngữ, những
người đã truyền dạy cho tơi những kiến thức trong q trình học tập tại trường Đại
học Khoa học Xã hội và Nhân văn - ĐHQG TP.HCM.
Bên cạnh đó, tơi cũng xin cảm ơn các anh chị em trong nhóm VCL, những
người đã ln góp ý, động viên tơi một cách chân thành.
Cuối cùng, tơi xin cảm ơn gia đình, người thân, bạn bè… đã luôn ở bên cạnh
cổ vũ, hỗ trợ tôi trong khi thực hiện đề tài này.
Học viên
Phạm Thị Kim Uyên


iii

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................. i
LỜI CẢM ƠN .................................................................................................................. ii
MỤC LỤC ...................................................................................................................... iii
DANH MỤC BẢNG ....................................................................................................... vi
DANH MỤC HÌNH ....................................................................................................... vii
MỞ ĐẦU .......................................................................................................................... 1
1. Lí do chọn đề tài ............................................................................................................ 1
2. Lịch sử nghiên cứu đề tài ............................................................................................... 1
3. Đối tượng và phạm vi nghiên cứu .................................................................................. 5
4. Mục đích, nhiệm vụ nghiên cứu ..................................................................................... 5
5. Ý nghĩa khoa học và ý nghĩa thực tiễn ........................................................................... 5
6. Phương pháp nghiên cứu ............................................................................................... 5

CHƯƠNG 1 : CƠ SỞ LÝ THUYẾT ............................................................................... 7
1.1 MỘT SỐ KHÁI NIỆM CỦA NGƠN NGỮ HÌNH THỨC .................................... 7
1.1.1 Định nghĩa ngơn ngữ hình thức ..................................................................... 7
1.1.2 Phân loại văn phạm của Chomsky ................................................................. 9
1.1.3 Luật văn phạm tiếng Việt ............................................................................ 11
1.1.4 Cây suy dẫn ................................................................................................ 12
1.2 MỘT SỐ KHÁI NIỆM CỦA NGÔN NGỮ TỰ NHIÊN ..................................... 13
1.2.1 Ranh giới từ ................................................................................................ 13
1.2.2 Từ loại ........................................................................................................ 16
1.2.3 Ranh giới ngữ ............................................................................................. 18
1.2.4 Ngữ và các cách hiểu về ngữ ....................................................................... 18
1.2.5 Cây cú pháp ................................................................................................ 24
CHƯƠNG 2 : CÁC LUẬT VĂN PHẠM CỦA NGỮ VÀ CÂU TIẾNG VIỆT THEO
NGƠN NGỮ HÌNH THỨC ........................................................................................... 28
2.1 XÂY DỰNG TẬP LUẬT CHO NGỮ ................................................................ 30
2.1.1 Luật 1: Ngữ danh từ (NP) ............................................................................ 30
2.1.1.1 Thành tố trung tâm của ngữ danh từ ..................................................... 31
2.1.1.2 Thành tố phụ trước của ngữ danh từ ..................................................... 36
2.1.1.3 Thành tố phụ sau của ngữ danh từ ........................................................ 38
2.1.2 Luật 2: Ngữ động từ (VP)............................................................................ 44
2.1.2.1 Thành tố trung tâm của ngữ động từ ..................................................... 44
2.1.2.2 Thành tố phụ trước của ngữ động từ ..................................................... 50
2.1.2.3 Thành tố phụ sau của ngữ động từ ........................................................ 51
2.1.3 Luật 3: Ngữ tính từ (ADJP) ......................................................................... 56
2.1.3.1 Thành tố trung tâm của ngữ tính từ ....................................................... 56
2.1.3.2 Thành tố phụ trước của ngữ tính từ ....................................................... 57
2.1.3.3 Thành tố phụ sau của ngữ tính từ .......................................................... 58
2.1.4 Luật 4: Ngữ lượng từ (QP) .......................................................................... 62
2.1.4.1 Thành tố trung tâm của ngữ lượng từ .................................................... 62
2.1.4.2 Thành tố phụ trước của ngữ số từ ......................................................... 64

2.1.4.3 Thành tố phụ sau của ngữ giới từ .......................................................... 65


iv

2.1.5 Luật 5: Ngữ giới từ (PP) .............................................................................. 70
2.1.5.1 Thành tố trung tâm của ngữ giới từ ....................................................... 70
2.1.5.2 Thành tố phụ sau của ngữ giới từ .......................................................... 70
2.1.6 Luật 6: Ngữ phụ từ (RP).............................................................................. 74
2.1.7 Luật 7: Ngữ không cùng loại được nối với nhau bằng liên từ đẳng lập (UCP)
............................................................................................................................ 76
2.1.8 Luật 8: Ngữ đại từ nghi vấn (QNP) ............................................................. 77
2.1.9 Luật 9: Ngữ tình thái (MDP) ....................................................................... 79
2.2 XÂY DỰNG TẬP LUẬT CHO MỆNH ĐỀ/ CÂU............................................. 82
2.2.1 Luật 10: Câu trần thuật (S) .......................................................................... 82
2.2.2 Luật 11: Câu nghi vấn (SQ)......................................................................... 84
2.2.3 Luật 12: Câu mệnh lệnh (SIMP) .................................................................. 87
2.2.4 Luật 13: Câu cảm thán (SEXC) ................................................................... 88
2.2.5 Luật 14: Câu đặc biệt (SPL) ........................................................................ 89
2.2.6 Luật 15: Mệnh đề phụ kết (SBAR) .............................................................. 91
CHƯƠNG 3 : CÁC LUẬT VĂN PHẠM CỦA THÀNH PHẦN CHỨC NĂNG VÀ
THÀNH PHẦN RỖNG TIẾNG VIỆT THEO NGƠN NGỮ HÌNH THỨC................ 95
3.1 XÂY DỰNG TẬP LUẬT CHO THÀNH PHẦN CHỨC NĂNG ....................... 95
3.1.1 Luật 16: Chủ ngữ (SBJ)............................................................................... 95
3.1.2 Luật 17: Chủ ngữ logic (LGS) ..................................................................... 95
3.1.3 Luật 18: Vị ngữ không phải động từ (PRD) ................................................. 97
3.1.4 Luật 19: Tân ngữ trực tiếp (DOB) ............................................................... 97
3.1.5 Luật 20: Tân ngữ gián tiếp (IOB) ................................................................ 98
3.1.6 Luật 21: Bổ ngữ chỉ phạm vi, tần suất (EXT) .............................................. 99
3.1.7 Luật 22: Khởi ngữ (TPC) .......................................................................... 100

3.1.8 Luật 23: Giải ngữ (PRN) ........................................................................... 104
3.1.9 Luật 24: Hô ngữ (VOC) ............................................................................ 107
3.1.10 Luật 25: Nguyên nhân, mục đích, lý do (PRP) ......................................... 107
3.1.11 Luật 26: Điều kiện, giả thiết (CND) ......................................................... 108
3.1.12 Luật 27: Nhượng bộ (CNC) ..................................................................... 108
3.1.13 Luật 28: Thời gian (TMP) ....................................................................... 109
3.1.14 Luật 29: Địa điểm, nơi chốn (LOC) ......................................................... 110
3.1.15 Luật 30: Phương tiện, cách thức (MNR) .................................................. 110
3.1.16 Luật 31: Hướng hoạt động (DIR)............................................................. 110
3.1.17 Luật 32: Tựa đề (HLN)............................................................................ 111
3.1.18 Luật 33: Tựa đề được trích dẫn trong nội dung (TTL).............................. 112
3.2 XÂY DỰNG TẬP LUẬT CHO THÀNH PHẦN RỖNG ................................. 113
3.2.1 Luật 34: Thành phần rỗng ứng với hiện tượng tỉnh lược, có sự lưu vết trong
câu (*) ............................................................................................................... 113
3.2.2 Luật 35: Thành phần rỗng ứng với hiện tượng tỉnh lược, khơng có sự lưu vết
trong câu (*E*) .................................................................................................. 115
3.2.3 Luật 36: Thành phần rỗng ứng với hiện tượng chuyển đổi vị trí trong câu
(*T*) ................................................................................................................. 119
3.2.4 Luật 37: Thành phần rỗng ứng với vị trí hư từ bị tỉnh lược (*0*) ............... 120
3.2.5 Luật 38: Chỉ số kết nối (-1, -2, -3…) ......................................................... 121
3.3 CÁC TRƯỜNG HỢP NHẬP NHẰNG ............................................................ 122
3.3.1 Các cấu trúc sử dụng liên từ đẳng lập ........................................................ 122


v

3.3.2 Ngữ hay một vế câu ghép bị tỉnh lược ....................................................... 128
KẾT LUẬN .................................................................................................................. 136
1. Đánh giá kết quả........................................................................................................ 136
2. Phạm vi ứng dụng...................................................................................................... 136

3. Hướng phát triển........................................................................................................ 137
DANH MỤC TÀI LIỆU THAM KHẢO .................................................................... 138
1. Tiếng Việt ................................................................................................................. 138
2. Tiếng Anh ................................................................................................................. 139
3. Trang Web ................................................................................................................ 140
PHỤ LỤC 1: DANH SÁCH NHÃN TỪ LOẠI, CÚ PHÁP TIẾNG VIỆT ................ 142
1. Danh sách nhãn từ loại tiếng việt ............................................................................... 142
2. Danh sách nhãn cú pháp tiếng việt ............................................................................. 145
PHỤ LỤC 2: TẬP LUẬT CÚ PHÁP TIẾNG VIỆT .................................................. 147
1. Tập luật của ngữ ........................................................................................................ 147
2. Tập luật của câu......................................................................................................... 153
PHỤ LỤC 3: GÁN NHÃN CÚ PHÁP CHO NGỮ LIỆU ........................................... 155


vi

DANH MỤC BẢNG
Bảng 2.1 Nhãn cụm từ cho hệ phân cụm từ Việt .............................................................. 23
Bảng 2.2 Mơ tả q trình sinh ra dạng dữ liệu phân cụm.................................................. 24
Bảng 3.1 Các thành phần của ngữ danh từ ....................................................................... 38


vii

DANH MỤC HÌNH
Hình 1.1 So sánh về độ lớn của các lớp ngôn ngữ theo phân loại của Chomsky ............... 11
Hình 1.2 Hình cây suy dẫn thứ nhất của câu nhập nhằng ................................................. 12
Hình 1.3 Hình cây suy dẫn thứ hai của câu nhập nhằng ................................................... 13
Hình 3.1 Cấu tạo của ngữ: ngữ danh từ, ngữ động từ, ngữ tính từ .................................... 30



1

MỞ ĐẦU
1. Lí do chọn đề tài
Trong thời đại bùng nổ thông tin như hiện nay, văn bản trên internet xuất
hiện ngày càng nhiều. Vì vậy mà việc phân tích ngôn ngữ tự động trở nên vô
cùng cần thiết. Và để có thể phân tích tự động, ta cần có hệ thống nhãn ngơn
ngữ hình thức.
Từ những năm 1955, Noam Chomsky đã quan tâm đến việc hệ thống hóa
phân tích ngơn ngữ tự động. Từ đó đến nay, việc phân tích cú pháp ngơn ngữ và
tiến hành hệ thống hóa chúng luôn là những vấn đề được nhiều nhà khoa học
trên thế giới quan tâm, tìm hiểu. Những nghiên cứu trong lĩnh vực này đã đạt
được nhiều thành tựu và được ứng dụng trong đời sống như chữa lỗi văn bản,
nhận dạng chữ viết, dịch máy… Một trong những kết quả nghiên cứu đó phải
kể đến là xây dựng ngân hàng ngữ liệu và hệ thống hóa phân tích ngơn ngữ tự
động của các ngôn ngữ như tiếng Anh (Penn Treebank), tiếng Hoa (Chinese
Treebank)... Việc xây dựng treebank tiếng Anh, tiếng Hoa và phân tích ngơn
ngữ tự động của các thứ tiếng này đã có bước tiến đáng kể.
Ở Việt Nam, gán các thông tin về ngôn ngữ (như ngữ pháp, ngữ
nghĩa…) đã được nhóm Đinh Điền, Hồ Tú Bảo đào sâu nghiên cứu với nhiều
cơng trình. Những cơng trình của nhóm Đinh Điền tập trung chủ yếu vào việc
gán nhãn hình thái (ranh giới từ: WS), gán nhãn từ loại (POS) và phân tích tự
động.
Nhóm Hồ Tú Bảo ngồi việc gán nhãn từ loại còn quan tâm đến việc gán
nhãn cú pháp trong cơng trình “Nghiên cứu phát triển một số sản phẩm thiết
yếu về xử lí tiếng nói và văn bản tiếng Việt” với “Xây dựng tập nhãn và thiết kế
gán nhãn cú pháp” phân tích bằng tay, “hệ thống trình diễn một số sản phẩm
của nhánh
đề

tài
Xử
lí văn
bản
(VLSP) bằng máy
(:8080/demo/?page=home). Tuy nhiên, đánh giá kết quả
gán nhãn chỉ ra độ đồng thuận chưa cao, xử lý ngôn ngữ tự động (VLSP) chưa
chính xác trong nhiều trường hợp.
Chính vì những lý do đó mà luận văn đã chọn đề tài “Xây dựng bộ luật
văn phạm tiếng Viêt theo ngôn ngữ hình thức” làm đối tượng nghiên cứu. Luận
văn trên cơ sở kế thừa tập nhãn của từ loại của Đinh Điền (phụ lục 1) để tiếp tục
xây dựng nhãn cú pháp, tham khảo, rút kinh nghiệm từ những công trình về
thiết kế tập nhãn cú pháp trước đó với hy vọng có thể xây dựng nên Việt
Treebank (Vietnamese Treebank - VTB).
2. Lịch sử nghiên cứu đề tài


2

Những năm 1955, Noam Chomsky đã áp dụng các mô hình tốn học để
hệ thống hóa phân tích ngơn ngữ tự động. Mơ hình ngơn ngữ tự nhiên được
hình thức hóa đầu tiên của ơng dựa trên ý kiến cho rằng ngôn ngữ tự nhiên tuân
theo quy luật của chuỗi Markov, mang tên ngữ pháp các trạng thái hữu hạn.
Những mơ hình này có nhiều ứng dụng trong việc xây dựng mơ hình thơng tin
trong dịch tự động và trong tâm lý - ngơn ngữ học. Noam Chomsky cịn xây
dựng các ngữ pháp hình thức theo hướng tổng hợp và đưa ra mơ hình ngữ pháp
tạo sinh. Bên cạnh đó, S.Marcus đưa ra các mơ hình ngơn ngữ theo hướng phân
tích và một mơ hình kết hợp của hai mơ hình ngơn ngữ theo hướng tổng hợp,
phân tích là mơ hình ngữ pháp phạm trù.
Kế thừa những cơng trình của các nhà khoa học trước, những nhà nghiên

cứu xử lý ngôn ngữ ở Anh, Pháp, Nhật, Hoa đã tiến hành xây dựng và phân tích
từ loại, cú pháp ngơn ngữ của họ, xử lý ngôn ngữ tự động trên máy tính.
Trong tiếng Anh, phải kể đến những bài báo, cơng trình gán nhãn từ loại,
cú pháp như Part-of-Speech tagging guidelines for the penn treebank project
(1990) của Santorini tại trường Pennsylvania (Philadelphia, Mĩ), A
comprehensive grammar of the English language (1985) của nhóm Quirk tại
Anh, Building a large annotated corpus of English (1993) và The Penn
treebank: Annotating predicate argument structure, in Procceedings of the
human laguage technology workshop (1994) của nhóm Marcus (San Francisco,
Mĩ), bracketing guidelines for the treenbank II style penn treebank project
(1995) của nhóm Ann Bies (Mĩ), Bracketing switchboard: An addendum to the
treebank II bracketing guidelines (1996) của nhóm Ann Taylor (Mĩ),
Addendum to the penn treebank II style bracketing guidelines (2004) của nhóm
Ann Bies (Mĩ)…
Các cơng trình nghiên cứu này đều tập trung xây dựng tập nhãn từ loại,
gán nhãn từ loại, thiết kế tập nhãn và hướng dẫn cách gán nhãn cú pháp cho
tiếng Anh. Trong đó, phải kể đến cơng trình “Bracketing Guidelines for the
Treenbank II Style Penn Treebank Project” với hướng dẫn gán nhãn cụ thể, chi
tiết.
Tiếp thu và học hỏi Penn Treebank, những nhà xử lý ngôn ngữ tiếng
Hoa cũng xây dựng Chinese Treebank. Những cơng trình về lĩnh vực này như:
The Bracketing Guidelines for the Penn Chinese Treebank (3.0) (2000),
Chinese word segmentation as LMR tagging (2003), Annotating the
propositions in the Penn Chinese Treebank (2003), The Penn Chinese
TreeBank: Phrase structure annotation of a large corpus (2005) của nhóm tác
giả Nianwen Xue…


3


Ở Việt Nam, việc xử lý ngôn ngữ tiếng Việt trong thời gian gần đây mới
được quan tâm nghiên cứu. Trong các bài giảng về Trí tuệ nhân tạo, Lý thuyết
nhận dạng, Xử lý tín hiệu, Khai phá dữ liệu ở nhiều đại học, các nội dung và kỹ
thuật xử lý ngơn ngữ đã ít nhiều được đề cập. Các nghiên cứu về việc xử lý
ngôn ngữ tiếng Việt, các dự án xử lý ngôn ngữ tự động trên máy tính đã được
các nhà khoa học triển khai thực hiện.
Nghiên cứu về xử lý ngôn ngữ (văn bản) đã được theo đuổi bởi một số
tập thể như: ĐH Bách khoa Hà Nội, ĐH Khoa học Tự nhiên Hà Nội, ĐH Bách
khoa TP.HCM, ĐH Khoa học Tự nhiên TP.HCM, ĐH Bách Khoa Đà Nẵng,
ĐH Công nghệ, Viện Ứng dụng Công nghệ và Viện Công nghệ Thông tin…
Các vấn đề được những người xử lý ngôn ngữ quan tâm nghiên cứu như dịch
máy, các bài toán cơ bản của xử lý tiếng Việt (2001, 2003), tóm tắt văn bản
(2004), tìm kiếm và trích chọn thơng tin (1998), phân loại và chia nhóm văn
bản (2001), khai phá web (2005), gióng hàng văn bản (2003), mơ hình từ điển
điện tử (2003), xây dựng kho ngữ liệu (2002)… và gần đây là đề tài nhà nước
“Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng
Việt” (2001-2004), “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí
tiếng nói và văn bản tiếng Việt” (2010).
Bên cạnh đó, đề tài KC01.01/06-10 “Nghiên cứu phát triển một số sản
phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt” (VLSP), hệ thống trình
diễn một số sản phẩm của nhánh đề tài “Xử lí văn bản” tại
:8080/demo/?page=home do nhóm tác giả thực hiện và
GS. Hồ Tú Bảo chủ trì đã đạt được nhiều kết quả. Cơng trình đã thiết kế và gán
nhãn từ loại, thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn cú pháp cho
tiếng Việt. Các sản phẩm được trình diễn bao gồm:
SP7.2: Từ điển tiếng Việt dùng cho xử lí ngơn ngữ tự nhiên
SP7.3: Kho ngữ liệu câu tiếng Việt có chú giải
SP7.4: Hai kho ngữ liệu câu Anh-Việt phổ quát-chuyên ngành
SP8.2: Hệ phân đoạn từ tiếng Việt
SP8.3: Hệ phân loại từ tiếng Việt

SP8.4: Hệ phân cụm từ tiếng Việt
SP8.5: Hệ phân tích câu tiếng Việt
Bài viết “Về xử lý tiếng Việt trong công nghệ thông tin” Hồ Tú Bảo,
Lương Chi Mai - Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ
Tiên tiến Nhật Bản. Bài viết giới thiệu những khái niệm cơ bản và tình hình
nghiên cứu về xử lý ngơn ngữ nói chung, cũng như những nội dung và khó
khăn trong xử lý tiếng Việt (văn bản và tiếng nói).


4

Dự án “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn” SP 7.3 - Dự
án VLSP của nhóm tác giả Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị
Minh Huyền, Đào Minh Thu, Đào Thị Minh Ngọc, Lê Kim Ngân hướng dẫn
gán nhãn cú pháp cho Treebank tiếng Việt. Với mỗi hiện tượng ngữ pháp, tài
liệu đã trình bày cách nhận diện, cách gán nhãn cùng với các ví dụ cụ thể để
minh họa.
Dựa trên những ngữ liệu (260 câu) đã được gán nhãn theo cơng trình
“Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn”, Nguyễn Lê Minh và Cao
Hoàng Trụ đã tiến hành xác định ranh giới từ tiếng Việt trên máy tính. Cơng
trình bước đầu đạt được kết quả khả quan. Hay “Xây dựng hệ thống phân tích
cú pháp tiếng Việt sử dụng văn phạm PUSG” của Đỗ Bá Lâm, Lê Thanh
Hương cho phép xử lý các vấn đề bùng nổ tổ hợp, nhập nhằng cấu trúc và các
câu đặc biệt bằng cách sử dụng các luật cấu tạo cú pháp và ràng buộc ngữ
nghĩa.
Bài báo “Xây dựng treebank tiếng Việt” của Nguyễn Phương Thái, Vũ
Xuân Lương, Nguyễn Thị Minh Huyền - Đề tài nhánh SP7.3 thuộc đề tài nhà
nước “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và
văn bản tiếng Việt”, mã số KC01.01/06-10 đã tiến hành thu thập các bài báo
thuộc chủ đề Chính trị-Xã hội của báo Tuổi Trẻ điện tử và tiến hành gán nhãn.

Nội dung cụ thể, bài báo đã trình bày các phần gồm tập nhãn từ loại và hướng
dẫn gán nhãn từ loại, tập nhãn cú pháp và hướng dẫn gán nhãn cú pháp, công
cụ hỗ trợ người làm ngữ liệu, quy trình gán nhãn cú pháp. Bài báo có được
những kết quả bước đầu trong quá trình xây dựng Treebank tiếng Việt như: xây
dựng tập nhãn từ loại, xây dựng tập nhãn cú pháp, xây dựng công cụ, triển khai
gán nhãn. Tuy nhiên, cơng trình vẫn cịn nhiều vấn đề phải giải quyết như cải
tiến lý thuyết xây dựng tài liệu hướng dẫn gán nhãn. Trong phần đánh giá kết
quả gán nhãn, bài báo chỉ ra là độ đồng thuận giữa những người gán nhãn còn
chưa cao chứng tỏ còn nhiều vấn đề cần được giải quyết.
Đinh Điền với rất nhiều bài báo, cơng trình về xử lý ngơn ngữ tự động
trên máy tính. Những cơng trình liên quan đến lĩnh vực xây dựng bộ luật văn
phạm tiếng Việt như gán nhãn hình thái (ranh giới từ: WS) và gán nhãn từ loại
(POS), xây dựng tập nhãn và gán nhãn cú pháp: Xây dựng và khai thác kho ngữ
liệu song ngữ Anh-Việt điện tử, Vấn đề về ranh giới từ trong ngữ liệu song ngữ
Anh-Việt, Hướng dẫn phân tách từ tiếng Việt, Hướng dẫn gán nhãn ngôn ngữ
tiếng Việt phiên bản 1.0…
Bên ngồi Việt Nam, cũng có những nỗ lực về xử lý tiếng Việt như
nhóm dịch Anh-Việt của TS. Phạm Hải và các cộng sự (Mĩ) khởi đầu từ đầu
các năm 1990, tiến sĩ Lê Tăng Hồ và phần mềm tổng hợp tiếng Việt VVV


5

(Canada)… đặc biệt là của các cán bộ và nghiên cứu sinh Việt Nam tại Viện
Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST) với 6 nghiên cứu sinh về
xử lý ngơn ngữ.
Bên cạnh đó, những luận văn tốt nghiệp các ngành Ngôn ngữ học, Công
nghệ thông tin cấp bậc thạc sĩ, tiến sĩ cũng quan tâm, chọn những vấn đề này
làm đối tượng nghiên cứu, chẳng hạn như: Luận văn tốt nghiệp cao học “Phát
triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng

Việt” (2009) của Lưu Văn Tăng, “Xác định ranh giới từ tiếng Việt dựa trên
song ngữ Anh-Việt” (2008) của Phạm Tú Anh, “Phân tích hình thái từ tiếng
Việt theo tiếp cận ngữ dụng học và ứng dụng trong dịch máy thống kê AnhViệt” (2009) của Vũ Đình Hồng…
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Các đơn vị cú pháp tiếng Việt dựa trên ngữ liệu
là 230 câu trích rút từ báo Tuổi Trẻ.
Phạm vi nghiên cứu: Khảo sát trên ngữ liệu gồm 230 câu. Ngữ liệu này
trong kho ngữ liệu mà Đinh Điền rút trích từ báo Tuổi Trẻ từ tháng 3/2004 đến
tháng 9/2004 thuộc lĩnh vực Chính trị - Xã hội.
4. Mục đích, nhiệm vụ nghiên cứu
Mục đích nghiên cứu: Xây dựng bộ luật văn phạm tiếng Việt theo ngơn
ngữ hình thức.
Nhiệm vụ nghiên cứu:
- Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn cú pháp tiếng Việt
theo ngơn ngữ hình thức.
- Thực hiện gán nhãn cú pháp cho ngữ liệu (230 câu) để kiểm chứng
thực nghiệm.
- Rút ra các luật của ngữ, câu tiếng Việt theo ngơn ngữ hình thức.
5. Ý nghĩa khoa học và ý nghĩa thực tiễn
Ý nghĩa khoa học: Xây dựng được các luật văn phạm tiếng Việt để
hướng dẫn gán nhãn ngữ liệu, gán nhãn ngữ liệu bằng tay làm cơ sở cho việc
phân tích ngơn ngữ tự động trên máy tính.
Ý nghĩa thực tiễn: Trong một khn khổ nào đó, đề tài có thể là cơ sở
dữ liệu để xây dựng các chương trình phân tích cú pháp tự động, kết nối với các
hệ thống xử lý ngôn ngữ tự động, là nguồn tư liệu giúp cho những người quan
tâm và có mong muốn tìm hiểu về cấu trúc tiếng Việt.
6. Phương pháp nghiên cứu
Trong khi thực hiện đề tài “Bộ luật văn phạm tiếng Việt theo ngơn
ngữ hình thức”, luận văn đã sử dụng các phương pháp sau:



6

Phương pháp phân tích: Thu thập ngữ liệu thơ và tiến hành phân
tích cú pháp, xác định từ loại của từ/ ngữ đang mang nghĩa trong ngữ/câu.
Gán nhãn từ loại trong ngữ/ câu.
Phương pháp thống kê: Lập danh sách và thống kê các nhãn ngữ,
câu từ kho ngữ liệu đã phân tích.


7

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
Ngôn ngữ là phương tiện giao tiếp quan trọng nhất của con người. Để thực
hiện chức năng giao tiếp, mỗi dân tộc khác nhau sẽ sử dụng những ngôn ngữ khác
nhau chẳng hạn như người Việt sử dụng tiếng Việt, người Anh sử dụng tiếng Anh,
người Nga sử dụng tiếng Nga… Tuy nhiên, cũng có những trường hợp hai hay
nhiều dân tộc sử dụng cùng một ngơn ngữ hoặc một dân tộc có nhiều ngơn ngữ
khác nhau.
Những ngôn ngữ mà con người sử dụng hằng ngày để thực hiện chức năng
giao tiếp này được gọi là ngôn ngữ tự nhiên (để phân biệt với các khái niệm ngơn
ngữ khác chẳng hạn như ngơn ngữ hình thức). Để xây dựng nên ngôn ngữ tự nhiên,
mỗi dân tộc đã tạo ra những quy tắc như quy tắc về ngữ âm, từ vựng - ngữ nghĩa,
ngữ pháp. Những quy tắc này là quy tắc chung mà tất cả những người sử dụng ngơn
ngữ đó phải tn theo, tuy vậy nhưng trong thực tế vẫn xảy ra những hiện tượng gây
nhập nhằng hoặc không cùng cách hiểu như nhau. Hiện tượng nhập nhằng này đều
xảy ra ở các ngôn ngữ khác nhau hoặc nhiều hoặc ít. Một số trường hợp nhập nhằng
như: nhập nhằng do từ đồng âm (ví dụ: đường có thể là đường trong con đường,
đường trong ký đường), do tính đa nghĩa của từ (ví dụ: đi có nghĩa là di chuyển
bằng chân nhưng đi cũng có thể có nghĩa là qua đời), nhập nhằng về từ loại, nhập

nhằng về ranh giới từ (ví dụ: học sinh học sinh học), nhập nhằng khi phân tích cú
pháp.
Khi khoa học cơng nghệ phát triển, máy tính ra đời, để “giao tiếp” với máy
tính người ta cũng phải sử dụng ngôn ngữ. Tuy nhiên, thứ ngôn ngự tự nhiên của
chúng ta lại luôn chứa đựng những sự nhập nhằng. Điều này sẽ khiến cho máy tính
khơng hiểu, xử lý không đúng hoặc không thống nhất với cùng một trường hợp.
Bên cạnh đó, ngơn ngữ cịn gắn liền với ngữ cảnh. Vì vậy, khi xử lý, máy tính sẽ
khơng thể hiểu, xử lý linh hoạt trong những ngữ cảnh khác nhau này. Cũng chính vì
lý đó mà chúng ta phải xây dựng nên các quy tắc chặt chẽ hơn cho việc xử lý thống
nhất ngôn ngữ tự nhiên. Và ngôn ngữ mà chúng ta xây dựng nên được gọi là ngơn
ngữ hình thức. Để hiểu rõ hơn về ngơn ngữ hình thức, chúng ta sẽ đi tìm hiểu, phân
tích khái niệm về ngơn ngữ hình thức và các khái niệm dùng để hình thức hóa ngơn
ngữ trong chương 1.
1.1 MỘT SỐ KHÁI NIỆM CỦA NGƠN NGỮ HÌNH THỨC
1.1.1 Định nghĩa ngơn ngữ hình thức
Để việc giao tiếp giữa người mà máy được thực hiện thành cơng thì ta cần có
một thứ ngôn ngữ mà các quy tắc ngữ nghĩa và cú pháp của ngôn ngữ này phải thật
chặt chẽ, nghĩa là một từ hoặc một câu chỉ gồm một nghĩa duy nhất. Chỉ có như vậy


8

thì máy tính mới có thể hiểu đúng được những điều mà con người muốn giao tiếp
với chúng. Ngôn ngữ này được gọi là ngơn ngữ hình thức.
Ngơn ngữ hình thức tập trung vào các vấn đề về ngữ pháp hơn là các vấn đề
về ngữ nghĩa. Một đặc tả về cú pháp của một ngơn ngữ có hữu hạn từ, ít nhất về
ngun tắc, có thể được cho bằng cách liệt kê các từ. Tuy nhiên, ngôn ngữ lại rất
nhiều từ và các cách thức liên kết các từ lại thành câu. Do đó, nhiệm vụ của ngơn
ngữ hình thức là nghiên cứu các cách đặc tả hữu hạn của các ngơn ngữ vơ hạn [44,
tr.1].

Ví dụ: ta có ngữ học sinh học sinh học. Khi máy tính xử lý, máy có thể hiểu
theo các kiểu: học_sinh học sinh_học hoặc học sinh_học sinh_học hoặc học_sinh
học_sinh học. Đây là trường hợp nhập nhằng về ranh giới từ trong ngôn ngữ tự
nhiên. Để máy tính hiểu rõ câu này là học_sinh học sinh_học thì ta phải xây dựng
các nguyên tắc chặt chẽ cho máy tính. Thứ ngơn ngữ này là ngơn ngữ hình thức.
Như vậy, khi các nguyên tắc này được xây dựng thì máy tính chỉ hiểu đường trong:
“Con đường này rộng quá” là lối đi chứ không phải đường là chất kết tinh thành
hạt. Máy tính có thể căn cứ vào danh từ chỉ loại con (Nc) đi trước đường để xác
định rằng đây là đường để đi. Vì đường để ăn khơng có danh từ chỉ loại đứng trước.
Trong khi đó, theo tốn học và khoa học máy tính, thì ngơn ngữ hình thức
được định nghĩa như sau:
Một ngơn ngữ hình thức được xây dựng dựa trên một bảng chữ cái (alphabet)
và chúng được ràng buộc bởi các luật (rule) hoặc văn phạm (grammar) đã được định
nghĩa trước. Alphabet có thể là tập các kí tự trong ngơn ngữ tự nhiên (natural
language) hoặc tập tự định nghĩa các kí tự.
Giả sử có một alphabet Σ = {a, b} và kí hiệu L là ngơn ngữ. Như vậy, ta có
thể định nghĩa một số ngơn ngữ trên alphabet Σ như sau:
L1 = {aa, aaa}
L2 = {aba, aab}
L3 = {ab, ba, aabb,..., aaabbb,...}
Lĩnh vực mà lý thuyết ngơn ngữ hình thức nghiên cứu là những mẫu hình
(pattern) có cấu trúc bên trong những ngơn ngữ hình thức và đó là những khía cạnh
hồn tồn mang tính chất có cú pháp. Ngơn ngữ hình thức khơng cịn đơn giản chỉ
là để định nghĩa ngơn ngữ tự nhiên, mà nó đã vượt ra ngồi khỏi phạm vi đó và nó
cũng là một cách để hiểu được những quy tắc có cú pháp của ngôn ngữ tự nhiên
[47].
Để xử lý ngôn ngữ tự nhiên bằng máy tính người ta phải tiến hành hình thức
hóa chúng (formalization). Mơ hình ngơn ngữ tự nhiên đầu tiên được hình thức hóa
là của Noam Chomsky (dựa trên ý kiến cho rằng ngôn ngữ tự nhiên tuân theo quy
luật của chuỗi Markov) và mang tên ngữ pháp các trạng thái hữu hạn [7, tr.53].



9

Ví dụ: những ngữ, câu của tiếng Việt được hình thức hóa bằng các ký hiệu
để cho máy tính hiểu. Các ngữ như ngữ danh từ được ký hiệu bằng NP, ngữ tính từ
được ký hiệu bằng VP, ngữ giới từ là PP… Các câu như câu trần thuật được ký hiệu
là S, câu nghi vấn SQ, câu cảm thán SEXC… Máy tính dựa vào những ký hiệu mà
con người mặc định để hiểu thứ ngôn ngữ mà con người giao tiếp với nó.
1.1.2 Phân loại văn phạm của Chomsky
Văn phạm hiểu theo nghĩa đơn giản là một tập các quy tắc về cấu tạo từ và
các quy tắc về cách thức liên kết các từ lại thành câu.
Năm 1956, N. Chomsky là người đầu tiên xây dựng các ngữ pháp hình thức
theo hướng tổng hợp và đưa ra mơ hình văn phạm tạo sinh [7, tr. 54].
1.1.2.1 Định nghĩa văn phạm
Văn phạm G là một bộ sắp thứ tự gồm 4 thành phần: G = <N, Σ, P, S>.
Trong đó:
N là tập các từ vựng phụ trợ, như các phạm trù ngữ pháp, được gọi là các ký
hiệu không kết thúc.
Σ là một bảng chữ cái, gọi là bảng chữ cái cơ bản (hay bảng chữ cái kết
thúc), mỗi phần tử của nó được gọi là một ký hiệu kết thúc hay ký hiệu cơ bản.
S ∈ N được gọi là ký hiệu xuất phát hay tiên đề. Nó được dùng làm điểm
xuất phát cho các sản sinh trong P. Nói cách khác, S là yếu tố đứng ở vế trái của
quy tắc đầu tiên của hệ sản sinh P.
P là tập các luật văn phạm, là tập hợp các quy tắc sinh (production) có dạng
α→β, α được gọi là vế trái và β được gọi là vế phải của quy tắc này, với α, β ∈ (Σ ∪
N)* và trong α chứa ít nhất một ký hiệu khơng kết thúc.
Ví dụ sau đây là một văn phạm: G4 = < N, Σ, P, S>, trong đó:
Σ = {hoa, cá, cơm, đi, chạy, cha, lá, đoàn, lớp}
N = {<câu>, <chủ ngữ>, <vị ngữ>, <động từ 1>, <động từ 2>, <danh từ 1>,

<danh từ 2>}.
S = <câu>
P = {<câu> → <chủ ngữ> <vị ngữ>, <chủ ngữ> → hoa, <chủ ngữ> → cá,
<chủ ngữ> → cơm, <vị ngữ> → <động từ 1> <danh từ 1>, <vị ngữ> → <động từ
2> <danh từ 2>, <động từ 1> → đi, <động từ 2> → chạy, <danh từ 1> → cha,
<danh từ 1> → lá, <danh từ 2> → đàn, <danh từ 2> → lớp}.
1.1.2.2 Phân loại
Tùy theo đặc điểm của các sản sinh trong P mà ta có các kiểu văn phạm khác
nhau. Theo Noam Chomsky, văn phạm được chia thành bốn nhóm: văn phạm


10

không hạn chế (unrestricted), văn phạm cảm ngữ cảnh (context-sensitive), phi ngữ
cảnh (context-free grammar), văn phạm tuyến tính phải [7, tr.56].
Nếu mọi sản sinh đều có dạng:    với   (N  )* và   (N  )+
đây là văn phạm không hạn chế (unrestricted) hay văn phạm loại 0. Văn phạm này
được đoán nhận bằng một máy Turing.
Nếu mọi sản sinh đều có dạng: 1X2  12 với X, , 1, 2  (N  )+ thì
văn phạm đó gọi là cảm ngữ cảnh (context-sensitive) hay văn phạm loại 1, được
đoán nhận bằng máy Turing. Có thể cảm ngữ cảnh trái (1X  2) hay cảm ngữ
cảnh phải (X1  1).
Ví dụ: Cho văn phạm G = <{a, b, c}, {S, A, B, C}, S, P>, trong đó: P = {S
→ aSAC, S → abC, CA → BA, BA → BC, BC → AC, bA → bb, C → c}. Khi đó
G là văn phạm cảm ngữ cảnh.
Nếu mọi sản sinh đều có dạng: X   với X  N,   (N  )+ thì văn
phạm đó gọi là phi ngữ cảnh (context-free grammar: CFG) hay văn phạm loại 2. Sự
áp dụng các luật sản sinh trong P khơng bị điều kiện gì về ngữ cảnh ràng buộc. Văn
phạm này được đoán nhận bằng một ôtômát đẩy xuống (PDA: PushDown
Acceptor).

Nếu mọi sản sinh đều có dạng: X   và X  Y với X, Y  N và   
thì văn phạm đó gọi là tuyến tính phải (right-linear) hay văn phạm loại 3. Văn phạm
này được đoán nhận bằng một ôtômát trạng thái hữu hạn (finite-state automat).
Từ các khái niệm trên, ta thấy lớp văn phạm không hạn chế là rộng nhất, nó
chứa đựng các văn phạm cảm ngữ cảnh, lớp văn phạm cảm ngữ cảnh chứa các văn
phạm phi ngữ cảnh và lớp văn phạm phi ngữ cảnh chứa các văn phạm tuyến tính
phải.
Ngơn ngữ hình thức được gọi là ngôn ngữ tổng quát (hay cảm ngữ cảnh, phi
ngữ cảnh, chính quy) nếu tồn tại văn phạm loại tương ứng sinh ra nó. Vì vậy, đối
với các lớp ngơn ngữ, nếu ký hiệu L0, L1, L2, L3 lần lượt là các lớp ngôn ngữ
không hạn chế, cảm ngữ cảnh, phi ngữ cảnh và tuyến tính phải thì ta có hàm thức:
.
Hình 1.1: So sánh về độ lớn của các lớp ngôn ngữ theo phân loại của
Chomsky cho thấy lớp ngơn ngữ chính quy L3 là nhỏ nhất, nó bị chứa trong lớp
ngôn ngữ phi ngữ cảnh L2, lớp ngôn ngữ phi ngữ cảnh lại bị chứa trong lớp ngôn
ngữ cảm ngữ cảnh L1 và cuối cùng lớp ngôn ngữ không hạn chế L0 là rộng nhất.


11

Hình 1.1 So sánh về độ lớn của các lớp ngôn ngữ theo phân loại của Chomsky
1.1.3 Luật văn phạm tiếng Việt
Khi xây dựng các luật ngôn ngữ thật chặt chẽ và hình thức hóa bằng các ký
hiệu ta được các luật văn phạm. Các ký hiệu trong luật văn phạm tiếng Việt gồm: ký
hiệu kết thúc và ký hiệu không kết thúc. Các ký hiệu kết thúc là những ký hiệu
khơng có cịn phát sinh thêm các nhánh trên cây cú pháp và câu được hồn thành.
Trong khi đó, các câu, các ngữ có khả năng phát sinh thêm các nhánh trên cây cú
pháp.
Các ký hiệu không kết thúc gồm:
S (Sentence : câu )

NP (Noun Phrase : ngữ danh từ )
VP (Verb Phrase : ngữ động từ )
PP (Preposition Pharse : ngữ giới từ )
Các ký hiệu kết thúc (terminal) gồm:
Pp (đại từ) = {tôi, anh, chúng_tôi, họ…}
N (danh từ) = {bàn, đèn, nhà, trẻ_thơ, mẹ…}
V (động từ) = {chơi, chạy, xây_dựng, phát_sáng…}
A (tính từ) = {trẻ, vui_vẻ, ngạc_nhiên, lo_lắng…}
Cm (giới từ) = {với, của, về…}
Cp (liên từ) = {và, hoặc…}
Ví dụ: Ta có câu “Anh ấy là sinh viên” thì anh, ấy, là, sinh_viên là các ký
hiệu kết thúc. Còn các ngữ danh từ anh ấy, ngữ động từ là, ngữ danh từ sinh_viên là
các ký hiệu không kết thúc.
Dựa vào những cách cấu tạo của câu ngữ được hình thức hóa, ta có tập luật
văn phạm con như dưới đây. Các luật văn phạm có thể khác nhau ở các ngôn ngữ về
cách thức cấu tạo cũng như số lượng.
S ::= NP VP
NP ::= N A
NP ::= N V
NP ::= A N
VP ::= V


12

VP ::= V N
PP ::= Cm PP
PP :: = Cm NP
PP ::= Cm A
….

1.1.4 Cây suy dẫn
Ví dụ: Câu Tơi nhìn cơ gái với ống nhịm, theo lớp văn phạm con trên thì câu
này có hai câu cú pháp. Ta nói văn phạm này nhập nhằng và câu đang xét là nhập
nhằng. Nhập nhằng trường hợp này là do xác định từ bổ sung nghĩa.

S

Hình 1.2 Hình cây suy dẫn thứ nhất của câu nhập nhằng


13

Hình 1.3 Hình cây suy dẫn thứ hai của câu nhập nhằng
Cây cú pháp thứ 1, với ống nhòm bổ sung nghĩa cho cô gái. Cây này với ý
nghĩa tôi nhìn cơ gái và cơ gái ấy có một cái ống nhòm. Cây cú pháp thứ 2, với ống
nhòm bổ sung nghĩa cho nhìn. Cây này có thể hiểu là tơi dùng ống nhịm để nhìn cơ
gái.
1.2 MỘT SỐ KHÁI NIỆM CỦA NGƠN NGỮ TỰ NHIÊN
1.2.1 Ranh giới từ
Ngơn ngữ là một hệ thống bao gồm các yếu tố và quan hệ giữa các yếu tố đó.
Các yếu tố trong hệ thống ngơn ngữ chính là các đơn vị ngơn ngữ: âm vị, hình vị,
từ, câu. Chúng được chia thành các cấp độ khác nhau: câu bao gồm các từ, từ bao
gồm các hình vị, hình vị bao gồm các âm vị. Ở giữa cấp độ từ và câu còn có thể kể
đến một đơn vị ngơn ngữ đó là ngữ. Khi phân tích cú pháp ngơn ngữ, cơ sở để gán
nhãn từ loại, cú pháp là từ và ngữ. Vì vậy, nhất thiết phải xác định được từ, ngữ và
các tiêu chí nhận diện ranh giới từ, ranh giới ngữ. Chương 2 sẽ tập trung chủ yếu
vào các nhiệm vụ này.
Xác định ranh giới của từ là phân biệt từ với những đơn vị cũng có hai mặt
như nó:
-


Phân biệt từ với đơn vị ở cấp độ thấp hơn là hình vị.

-

Phân biệt từ với đơn vị ở cấp độ cao hơn là ngữ cố định.

-

Phân biệt từ với đơn vị ở cấp độ cú pháp là cụm từ tự do.


14

Ví vậy, đưa ra những tiêu chí để nhận diện từ giúp ta xác định ranh giới từ.
Tuy nhiên, việc đưa ra một định nghĩa về từ được mọi người chấp nhận khơng phải
dễ, nếu khơng muốn nói là tới nay vẫn cịn nan giải. Hiện nay, có đến trên 300 định
nghĩa khác nhau về từ và mỗi định nghĩa đều cố gắng giải thích một cách khái quát
nhất, đầy đủ nhất, đúng bản chất của từ nhất cho tất cả các ngôn ngữ.
Do nhu cầu xử lý ngôn ngữ tự động trên máy tính, chúng ta cũng sẽ phải đưa
ra một cách xác định về từ với những tiêu chí nhất qn nào đó. Những tiêu chí xác
định từ này sẽ mang tính hình thức nên chúng có thể khơng đúng hồn tồn với
quan điểm về từ trong ngơn ngữ học. Dưới đây là quan điểm mà luận văn sẽ theo và
thống nhất trong suốt quá trình xây dựng bộ luật văn phạm tiếng Việt.
1.2.1.1 Tiếng và vai trò của tiếng trong việc nhận diện từ
Xem tiếng (còn gọi là tiếng một về mặt âm hay chữ về mặt chữ viết) là hình
vị trong tiếng Việt. Sở dĩ như vậy là vì việc nhận diện tiếng trong tiếng Việt của
người và máy rất dễ dàng. Đối với người Việt, khi nói, họ sẽ nhận diện được mỗi
tiếng bao giờ cũng phát ra thành một hơi, nghe thành một tiếng và có một thanh
điệu nhất định. Trong khi viết, mỗi tiếng bao giờ cũng viết rời thành từng chữ (ngăn

cách bằng khoảng trắng hay các dấu ngắt) [7, tr.27]. Đối với máy tính, việc lưu trữ,
xử lý, tìm kiếm và sắp xếp tiếng dễ dàng. Bởi số lượng của tiếng không nhiều
khoảng 10.000, chiều dài tiếng chỉ tối đa 7 ký tự.
Tiếng đối với người Việt là đơn vị tự nhiên và họ đã sử dụng nó từ lâu. Khi
xét các tiêu chí của từ (về hình thức, nội dung, khả năng) thì tiếng chưa hẳn là từ.
Đây là quan điểm được hầu hết các nhà Việt ngữ học chấp nhận.
1.2.1.2 Từ và các tiêu chú xác định ranh giới từ
Khi đã xem tiếng là hình vị thì việc tiếp theo cần phải làm là nhận diện từ.
Để nhận diện được đâu là từ, các nhà ngôn ngữ các nước qua các thời kỳ đã đưa ra
nhiều khái niệm. Một số khái niệm điển hình như sau:
L. Bloomfield cho rằng “từ là một hình thái tự do nhỏ nhất”.
Theo Solncev thì “từ là đơn vị ngơn ngữ có tính hai mặt: âm và nghĩa. Từ có
khả năng độc lập về cú pháp khi sử dụng trong lời”.
Với B. Golovin “từ là đơn vị nhỏ nhất có nghĩa của ngơn ngữ, được vận
dụng độc lập tái hiện tự do trong lời nói để xây dựng nên câu”.
Như vậy, để nhận diện từ tồn diện và đầy đủ hơn, ta có thể dựa vào 2 tiêu
chuẩn: hình thức, nội dung.
 Tiêu chuẩn về hình thức


15

Tính cố định: đó là sự vững chắc về mặt cấu tạo và khơng thể chiêm xen.
Tính độc lập: dùng để phân biệt từ (đơn vị có nghĩa độc lập) và hình vị (đơn
vị có nghĩa khơng độc lập).
Tính từ loại và quan hệ cú pháp: trong ngữ/ câu, từ đảm nhận những chức
năng cú pháp nhất định nên mọi từ phải mang một từ loại nào đó, cịn hình vị thì
khơng có tính chất từ loại. Quan hệ giữa các từ là quan hệ cú pháp cịn giữa các
hình vị không phải là quan hệ cú pháp.
 Tiêu chuẩn về nội dung

Chức năng định danh: chức năng này dùng để xác định tư cách của từ (từ
thực), coi đó là đặc trưng để phân biệt giữa từ và hình vị.
Biểu thị khái niệm: có những từ biểu thị khái niệm nhưng có những từ khơng
biểu thị khái niệm.
Ý nghĩa biểu niệm: tiêu chí để phân biệt ý nghĩa từ vựng và ý nghĩa ngữ
pháp.
Hồn chỉnh về nghĩa: tiêu chí quan trọng để xác định tư cách của từ. Tiêu
chuẩn này liên quan đến tính thành ngữ và tính võ đoán.
 Phân loại từ tiếng Việt
Dựa vào cấu tạo của từ tiếng Việt, ta chia tiếng Việt thành 4 loại:
Từ đơn: là từ chỉ có 1 tiếng. Ví dụ: hát, trắng, viết...
Từ ghép: là từ có hai tiếng trở lại ghép lại với nhau, giữa các tiếng đó có
quan hệ với nhau về ý nghĩa. Ví dụ: sách vở, máy bay, xe đạp… Từ ghép chia thành
2 loại:
Từ ghép đẳng lập: là từ ghép mà các thành tố có quan hệ bình đẳng với nhau
về nghĩa. Trong đó, có thể các thành tố trong từ đều rõ nghĩa (quần áo, vợ chồng…)
hoặc có thể có thành tố khơng rõ nghĩa (chợ búa, giá cả…). Từ ghép đẳng lập biểu
thị ý nghĩa khái quát và tổng hợp.
Từ ghép chính phụ: là từ ghép mà trong đó có một thành tố chính và một
thành tố phụ. Thành tố phụ đóng vai trị phân loại cho thành tố chính. Ví dụ: tre
pheo, hoa hồng, máy bơm…
Từ láy: là từ có hai tiếng trở lên và quan hệ giữa chúng là quan hệ về âm. Ví
dụ: xanh xanh, sạch sành sanh, lưa thưa… Từ láy được phân thành 2 loại:
Từ láy hoàn toàn: chuồn chuồn, xanh xanh, xa xa…
Từ láy bộ phận (láy phụ âm đầu và láy phần vần): bươm bướm, tim tím…


16

Từ ngẫu hợp: là từ mà mối quan hệ giữa ngữ âm và ngữ nghĩa khơng tìm

thấy mối quan hệ. Ví dụ: bồ hóng, mồ hơi, cà nhắc…
Trên đây là các tiêu chí nhận diện từ trên cơ sở ngơn ngữ học giúp xác định
ranh giới từ.
Để nhận diện ranh giới từ trên máy tính, tiếng Anh nhận diện bằng các
khoảng trắng hay các dấu câu (từ tiếng Anh là từ chính tả, mỗi từ riêng lẻ đã mang
trọn vẹn một nghĩa nên có thể nhận diện bằng khoảng trắng). Tiếng Việt là ngôn
ngữ đơn lập (tiếng Anh là ngôn ngữ biến hình), từ vựng chủ yếu là các từ ghép, nếu
dựa vào cách xác định ranh giới từ này thì khơng chính xác. Muốn xác định ranh
giới từ tiếng Việt, chúng ta phải dựa vào các thông tin ở mức cao hơn như hình thái,
từ pháp, cú pháp, ngữ nghĩa, có khi cả ngữ dụng.
Trong bài tốn tách từ, cần phải nắm vững các tiêu chí ranh giới từ tiếng Việt
được xây dựng dựa trên cơ sở ngôn ngữ học. Ta phải biết gia đình, ngơi nhà, con
gà, cây xồi, cá trê... có phải là từ hay khơng, trên cơ sở đó, mới có thể “dạy cho
máy” cách nhận diện từ tự động. Để nhận diện từ, người ta có thể sử dụng một số
mơ hình như: MM (Maximum Matching: forward/ backward hay còn gọi là
LRMM: Left Right), giải thuật học cải biến TBL, mạng chuyển dịch trạng thái hữu
hạn có trọng số WFST, giải thuật dựa trên nén…
1.2.2 Từ loại
Từ loại là những lớp từ được phân chia ra trong một ngôn ngữ dựa trên ý
nghĩa khái quát và đặc điểm hoạt động ngữ pháp của chúng [28, tr.151].
Khi phân chia từ loại trong tiếng Việt, các nhà Việt ngữ học cũng phân thành
2 xu hướng:
Xu hướng thứ 1: Khơng tồn tại từ loại trong tiếng Việt vì chúng khơng có
dấu hiệu hình thức nào cả.
Xu hướng thứ 2: Tiếng Việt vẫn có từ loại và tồn tại những dấu hiệu khách
quan để định loại. Phần đông các nhà Việt ngữ đều theo quan điểm này. Sự phân
chia từ loại thành các tiểu từ loại tiếp tục phân ra 2 quan điểm: Chia tiếng Việt
thành 2 loại: thực từ và hư từ và chia tiếng Việt thành những lớp ngữ pháp cụ thể
như: danh từ, động từ, tính từ, liên từ…
Dựa vào ý nghĩa khái quát và đặc điểm hoạt động ngữ pháp của các lớp từ

trong tiếng Việt, cách chia từ loại được nhiều nhà ngôn ngữ đồng tình là chia tiếng
Việt thành 2 loại lớn: thực từ và hư từ.
1.2.2.1 Thực từ


17

Thực từ gồm 3 loại: danh từ, động từ, tính từ. Trong danh từ có thể tách ra
danh từ đơn vị và số từ. Trong động từ cịn có động từ chỉ hướng.
Danh từ là từ có thể làm thành tố chính (đầu tố) trong cụm từ, có ý nghĩa
thực thể (chỉ sự vật theo cách hiểu rộng), kết hợp được ở phía trước với các từ
những, các…, ở phía sau với các từ chỉ định như này, kia… thường làm chủ ngữ hay
bổ ngữ trong câu [4, tr.315].
Động từ là từ có khả năng làm yếu tố chính (đầu tố) trong cụm từ, có ý nghĩa
ngữ pháp khái quát là nêu đặc trưng ‘động’ hoặc đặc trưng ‘tĩnh’ (rõ nhất là trong
quan hệ với chủ ngữ) của sự việc được phản ánh, kết hợp được về phía trước với
các phó từ như đã, đang…, về phía sau với từ rồi, xong, động từ thường làm yếu tố
chính ở vị ngữ trong câu [4, tr.324].
Tính từ là từ có khả năng làm yếu tố chính (đầu tố) trong cụm từ chính phụ,
có ý nghĩa ngữ pháp khái qt là chỉ đặc trưng về tính chất của sự vật nêu ở danh từ
mà nó có liên quan hoặc chỉ đặc trưng của động từ hay của tính từ khác mà nó có
liên quan. Khả năng kết hợp với phó từ của tính từ lệ thuộc vào kiểu tính từ cụ thể
xét theo nghĩa [4, 330].
1.2.2.2 Hư từ
Hư từ gồm phụ từ (tương đương với phó từ) và kết từ (tương đương với liên
từ và giới từ). Ngồi ra cịn có đại từ, trợ từ, cảm từ (hay thán từ). Tuy đại từ là để
trỏ nhưng không thể dùng định danh như thực từ.
Phó từ chun đi kèm động từ và tính từ, vị trí ở phía trước và phía sau (ít
hơn) động từ, tính từ [4, tr.336]. Ví dụ: rất, đang, quá…
Kết từ là những hư từ dùng để nối kết các từ, cụm từ, các mệnh đề trong một

câu, các câu với nhau. Trong nhiều ngôn ngữ, quan hệ từ được phân biệt rõ thành
giới từ và liên từ.
Trợ từ: là những từ dùng để nhấn mạnh vào một từ, một cụm từ, một câu nào
đó mà nó kèm theo. Trợ từ khơng có ý nghĩa của riêng mình. Hai trợ từ nhấn mạnh
thường gặp là mà và thì [4, tr.342].
Thán từ (cảm từ) là từ-tín hiệu phản ánh các trạng thái tâm-sinh lí, chúng gần
với tiếng kêu tự phát nhiều hơn. Thán từ có nét riêng về cú pháp là nó có thể một
mình làm thành câu riêng hoặc là một vế câu cùng với vế câu khác chỉ sự việc làm
thành một câu ghép [4, tr.347].
Đại từ là từ làm nhiệm vụ thay thế cho từ ngữ rõ nghĩa đã được dùng ở chỗ
khác của ngữ cảnh hoặc thay thế một tên gọi vắng mặt hoặc chỉ trỏ vào vật để xác


×