Tải bản đầy đủ (.pdf) (119 trang)

Các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.31 MB, 119 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
-----------------------------------------------------

NGUYỄN THỊ MINH TÂM

CÁC VẤN ĐỀ XỬ LÝ TIẾNG VIỆT ĐỂ NÂNG
CAO HIỆU NĂNG CỦA CÔNG CỤ TÌM KIẾM

LUẬN VĂN THẠC SĨ
Chuyên ngành: Ngôn ngữ học

Hà Nội-2014


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
---------------*---------------

NGUYỄN THỊ MINH TÂM

CÁC VẤN ĐỀ XỬ LÝ TIẾNG VIỆT ĐỂ NÂNG
CAO HIỆU NĂNG CỦA CÔNG CỤ TÌM KIẾM

Luận văn Thạc sĩ chuyên ngành Ngôn ngữ học
Mã số: 60 22 01

Người hướng dẫn khoa học: TS Nguyễn Ái Việt

Hà Nội-2014



LỜI CAM ĐOAN
Tôi xin cam đoan rằng toàn bộ nội dung và số liệu trong luận văn này do tôi
tự nghiên cứu, khảo sát và thực hiện. Luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Học viên

Nguyễn Thị Minh Tâm


LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn quý thầy cô khoa Ngôn ngữ học, trường Đại học
Khoa học Xã hội và Nhân văn Hà Nội đã tạo cơ sở nền tảng kiến thức cho tôi trong
suốt quá trình học tập
Đặc biệt, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến thầy hướng
dẫn của mình- Tiến sĩ Nguyễn Ái Việt, Viện trưởng Viện công nghệ thông tin, Đại
học Quốc Gia Hà Nội, người thầy đã dành nhiều thời gian, tâm huyết và giúp đỡ tôi
hoàn thành luận văn thạc sĩ này.
Mặc dù tôi đã cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng
lực của mình nhưng không thể tránh khỏi những thiếu sót, tôi rất mong nhận được
những đóng góp quý báu của quý thầy cô và các bạn.
Xin chân thành cảm ơn.
Hà Nội, ngày…tháng…năm 2014
Học viên

Nguyễn Thị Minh Tâm


BẢNG THUẬT NGỮ TIẾNG ANH
Thuật ngữ tiếng Anh


Giải nghĩa tiếng Việt

Concept-based searching

Tìm kiếm theo ngữ nghĩa

Crawler

Bộ thu thập thông tin

of high frequency

Tần suất xuất hiện cao

Hyperlink

Siêu liên kết

Indexing

Đánh chỉ mục

Keyword searching

Tìm kiếm theo từ khóa

Natural language processing - NLP

Xử lý ngôn ngữ tự nhiên


Search engine- SE

Công cụ tìm kiếm

Stop words

Từ lọc bỏ trong quá trình lập chỉ mục

Semantical clustering

Phân cụm nhóm ngữ nghĩa

Text Information Retrieval System

Hệ thống tìm kiếm thông tin văn bản

Word segmentation

Phân tách từ


MỤC LỤC
PHẦN MỞ ĐẦU .............................................................................................. 4
CHƯƠNG 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT................................... 15
1.1. Từ tiếng Việt .................................................................................................15
1.1.1. Quan niệm về từ tiếng Việt ................................................................................ 15
1.1.2. Quan niệm về từ trong công nghệ thông tin ...................................................... 22
1.1.3. Những khó khăn trong việc giải quyết vấn đề về chính tả và từ của tiếng Việt
trong công cụ tìm kiếm ................................................................................................ 24


1.2. Từ loại trong tiếng Việt ................................................................................26
1.2.1. Quan niệm về từ loại trong tiếng Việt ............................................................... 26
1.2.2. Quan niệm từ loại trong xử lý ngôn ngữ tự nhiên ............................................. 31
1.2.3. Bảng phân loại từ loại trong xử lý ngôn ngữ tự nhiên ....................................... 33

1.3. Tiểu kết ..........................................................................................................37

CHƯƠNG 2: TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM VÀ ĐÁNH CHỈ
MỤC VĂN BẢN ............................................................................................ 39
2.1. Tổng quan về công cụ tìm kiếm ..................................................................39
2.1.1. Khái niệm công cụ tìm kiếm .............................................................................. 39
2.1.2. Các phương thức tìm kiếm................................................................................. 41
2.1.3. Các công cụ tìm kiếm phổ biến ......................................................................... 42

2.2. Xây dựng công cụ tìm kiếm .........................................................................47
2.2.1. Những bộ phận cấu thành nên công cụ tìm kiếm .............................................. 47
2.2.2. Nguyên lý hoạt động của Công cụ tìm kiếm ..................................................... 48
2.2.3. Xử lý ngôn ngữ tự nhiên trong công cụ tìm kiếm .............................................. 51

2.3. Tiểu kết ..........................................................................................................57

CHƯƠNG 3: STOP WORDS TIẾNG VIỆT ............................................. 59
3.1. Tổng quan về stop words .............................................................................59
3.1.1. Stop words ......................................................................................................... 59
3.1.2. Vị trí của stop words .......................................................................................... 60

3.2. Quan niệm stop words .................................................................................62
3.2.1. Định nghĩa stop words ....................................................................................... 62
3.2.2. Ý nghĩa của stop words trong các máy tìm kiếm ............................................... 65


3.3. Stop words tiếng Việt ...................................................................................71
3.3.1 Đặt vấn đề ........................................................................................................... 71

1


3.3.2 Bản chất ngôn ngữ của stop words ..................................................................... 77
3.3.3. Quy trình xử lý stop words ................................................................................ 86

3.4. Tiểu kết ..........................................................................................................88

PHẦN KẾT LUẬN ........................................................................................ 89
TÀI LIỆU THAM KHẢO ............................................................................ 91
PHỤ LỤC ..................................................................................................... 100

2


DANH MỤC BẢNG BIỂU
Bảng 1.1: Những tiêu chuẩn ngữ nghĩa ....................................................................18
Bảng 1.2: Những tiêu chuẩn về hình thức.................................................................19
Bảng 1.3: So sánh đặc điểm tiếng Việt và tiếng Anh ...............................................23
Bảng 1.4: Bảng phân loại từ loại của tác giả Nguyễn Hồng Cổn .............................31
Bảng 1.5: Phân loại từ loại theo VLSP .....................................................................34
Bảng 1.6: Tập nhãn từ loại Viet tree bank ................................................................35
Bảng 1.7: Tập nhãn từ loại VnPOS ...........................................................................36
Bảng 1.8: Bảng từ loại tiếng Anh..............................................................................36
Bảng 1.9: Bảng từ loại tiếng Trung ...........................................................................37
Bảng 2.1: Bảng hướng dẫn nhanh về cách sử dụng các search engine phổ biến trên

thế giới .......................................................................................................................47
Bảng 3.1: Số lượng từ trong dữ liệu văn bản ............................................................75
Bảng 3.2: Số lượng stop words trong một ngôn ngữ ................................................75
Bảng 3.3: Stop words là từ láy. .................................................................................80
Bảng 3.4: Từ loại và stop words ...............................................................................81
Bảng 3.5: Nhập nhằng từ loại trong việc xác định stop words .................................84
Bảng 3.6: Bảng dịch stop words tiếng Trung sang tiếng Việt ..................................86
Bảng 3.7: Bảng dịch stop words tiếng Anh sang tiếng Việt .....................................86
Bảng 3.8: Kết quả xử lý stop words trong quá trình lập chỉ mục .............................71
DANH MỤC HÌNH MINH HỌA
Hình 1.1: Sơ đồ hệ thống từ loại tiếng Việt theo quan niệm của tác giả Đinh Văn Đức ....28
Hình 1.2: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của các tác giả Diệp
Quang Ban - Hoàng Văn Thung................................................................................29
Hình 1.3: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của tác giả Lê Biên ....29
Hình 1.4: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của tác giả Nguyễn Tài Cẩn .30
Hình 2.1: Spider lấy nội dung của trang web và tạo các từ khóa tìm kiếm để cho
phép người dùng trực tuyến có thể tìm các trang mong muốn .................................49
Hình 2.2: Googebot, Web Crawler của Google ........................................................50
Hình 2.3: Kết quả tìm kiếm với từ khóa “tô tranh” ..................................................58
Hình 3.1: Vị trí stop words trong quá trình lập chỉ mục. ..........................................62
Hình 3.2: Stop words, Frequency words ...................................................................76
Hình 3.3: Các đại từ trong tiếng Việt (Nguồn: wiki) ................................................82

3


PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Ngôn ngữ học ứng dụng là một nhánh của ngành ngôn ngữ học, tập trung
vào việc xác định, điều tra và cung cấp các giải pháp cho các vấn đề có liên quan

đến ngôn ngữ trong thực tiễn cuộc sống. Ngôn ngữ học ứng dụng bao gồm tất cả
các ứng dụng của lý thuyết ngôn ngữ học và là sự tích hợp chuyên môn liên quan
đến nhiều ngành học, như ngôn ngữ học, nhân học, tâm lý họcvà giáo dục học, ngôn
ngữ học xã hội và mới đây nhất là ngành công nghệ thông tin.
Ứng dụng ngôn ngữ học trong ngành công nghệ thông tin mang tính thực
tiễn rất cao và không ngừng thay đổi. Việc chuyển mình theo sự thay đổi đó đòi hỏi
ngôn ngữ đóng vai trò như nguồn dữ liệu khổng lồ cần được xử lý và việc quan tâm
đến từng ngóc ngách của nó sẽ giúp cho việc xử lý ngôn ngữ tự nhiên bằng máy
được chính xác và hiệu quả hơn. Những nghiên cứu ngôn ngữ trong lĩnh vực công
nghệ thông tin đánh dấu những ngành khoa học liên ngành mới như ngôn ngữ học
khối liệu mang tính ứng dụng nhiều hơn so với những suy nghĩ hàn lâm về ngôn
ngữ.
Ngày nay với sự bùng nổ thông tin, nhất là sự phát triển mạnh mẽ của
Internet và World Wide Web, việc tìm kiếm thông tin đang trở nên dễ dàng đối với
người dùng internet. Nhờ đó có sự xuất hiện của hàng loạt các máy tìm kiếm
(search engine) như Google, Bing!, Yahoo, Ask, MSM… người ta có thể tìm kiếm
mọi thông tin bằng chính bản ngữ của mình vì các công cụ quốc tế này đáp ứng nhu
cầu tìm kiếm với hơn 200 ngôn ngữ khác nhau. Sử dụng các máy tìm kiếm đã trở
thành một kỹ năng không thể thiếu trong công việc và sinh hoạt thường ngày của
con người hiện đại.
Với sự phát triển không ngừng của công nghệ thông tin, các máy tìm kiếm
ngày càng cải thiện được hiệu năng tìm kiếm và nhanh chóng chiếm được niềm tin
của người dùng Internet trên toàn thế giới.
Bản chất của các máy tìm kiếm hiện đại là sử dụng các bộ thu thập (crawler)
thu thập thông tin từ tất cả các trang web trên thế giới vào một kho dữ liệu khổng lồ.
4


Khi người dùng sử dụng một trình duyệt như Firefox, Internet Explorer, Chrome,
Opera, Cờ-rôm (Việt Nam)… đưa ra một đoạn văn bản trên trang tìm kiếm, máy

tìm kiếm sẽ phân tích đoạn văn bản này và tìm kiếm trong kho dữ liệu khổng lồ nói
trên các thông tin cần thiết và sắp xếp chúng theo một thứ tự ưu tiên nhất định (thí
dụ như sắp xếp page của Google với link đầu là mười kết quả tốt- phổ biến nhất).
Các máy tìm kiếm thường được đánh giá theo hai tiêu chuẩn:
a. Chất lượng tìm kiếm: Máy tìm kiếm thông thường có thể đưa ra kết quả
hàng trăm nghìn bản ghi, thậm chí nhiều khi tới hàng trăm triệu bản ghi. Do vậy,
các kết quả này cần được sắp xếp theo thứ tự ưu tiên nhất định để người dùng có thể
truy cập đến các thông tin cần tìm nhanh nhất. Để việc sắp xếp này có chất lượng
cao, máy tìm kiếm cần phân tích để “hiểu” được nội dung cần tìm. Trong việc phân
tích như vậy việc xử lý ngôn ngữ của đoạn văn cần tìm đóng vai trò hết sức quan
trọng. Chính vì vậy, các máy tìm kiếm bản địa tại Trung Quốc, Hàn Quốc, Nhật,
Nga,… chiếm được ưu thế so với các máy tìm kiếm quốc tế như Google, Yahoo,
Bing… thông qua việc xử lý ngôn ngữ bản địa.
b. Thời gian đáp ứng: Việc tìm kiếm phân tích kho dữ liệu khổng lồ để đưa ra
khối lượng kết quả khổng lồ, vừa phục vụ hàng chục triệu người dùng trên toàn thế
giới, phải diễn ra trong thời gian ngắn nhất (từ 3-5 giây). Bên cạnh một mạng lưới
máy tính lớn và các phương pháp tính toán nhanh ngày càng hoàn thiện, xử lý ngôn
ngữ có vai trò vô cùng quan trọng trong việc tối ưu hoá thời gian tìm kiếm bằng
cách lọc bỏ các thông tin thừa.
Như vậy, ngôn ngữ học có một vai trò quan trọng trong việc cải tiến các máy
tìm kiếm. Chính vì thế, ngôn ngữ học và công nghệ thông tin ngày càng xích lại gần
nhau để tạo ra nhiều ứng dụng thực tế có ích cho đời sống. Hơn nữa quá trình đó cũng
đặt ra những vấn đề nghiên cứu cơ bản mới mang tính liên ngành và cho mỗi ngành.
Do đặc điểm khác biệt về ngôn ngữ, văn hóa mang tính vùng miền mà đôi
khi các công cụ tìm kiếm mang tính quốc tế này chưa thực sự hiểu mục đích tìm
kiếm thông tin của người dùng và kết quả trả về chưa chính xác như mong muốn.
Điển hình như Trung Quốc và nhiều nước có hệ chữ viết (chữ tượng hình và chữ

5



chắp dính) khác biệt với hệ chữ latinh thì việc tìm kiếm trên các công cụ quốc tế
khó khăn hơn và ít kết quả có thể đáp ứng được nhu cầu tìm kiếm của người tìm
kiếm. Hệ quả là công cụ tìm kiếm riêng của Trung Quốc và các nước không sử
dụng chữ cái Latinh làm chữ viết vượt trên cả những “gã khổng lồ” về công cụ tìm
kiếm như Baidu thắng thế so với Google tại thị trường Trung Quốc.
Tình hình ở Việt Nam lại khác, tiếng Việt là ngôn ngữ có chữ viết theo hệ
chữ cái latinh nên đối với việc tìm kiếm thông tin trên các công cụ tìm kiếm quốc tế
khá dễ dàng. Cũng phải thừa nhận rằng, công cụ tìm kiếm ở Việt Nam chưa thể
bằng công nghệ các công cụ tìm kiếm của các công ty có hơn chục năm hoạt động
trên thị trường tìm kiếm trên thế giới. Nhưng những kĩ sư công nghệ thông tin vẫn
có tham vọng xây dựng một công cụ tìm kiếm dành riêng cho người Việt, gần gũi
với người Việt và hiểu người Việt. Tức là một công cụ thể hiện văn hóa, nhận thức
của người Việt. Trên công cụ tìm kiếm này, các kĩ sư phải giải quyết được vấn đề
xử lý tiếng Việt để kết quả tìm kiếm được tốt hơn. Đây cũng là lý do chúng tôi chọn
đề tài “Các vấn đề xử lý tiếng Việt để nâng cao hiệu năng của công cụ tìm kiếm”.
Vấn đề xử lý tiếng Việt ứng dụng trong tìm kiếm là một nội dung rộng.
Trong luận văn này, chúng tôi chỉ tập trung tìm hiểu hai vấn đề: Việc đánh chỉ mục
cho văn bản tiếng Việt và tìm bản chất từ loại của các stop words trong tiếng Việt.
Đánh chỉ mục (indexing) là việc sắp xếp dữ liệu vào một hệ thống để tìm
kiếm cho nhanh nhất. Việc tìm kiếm sẽ dựa vào các chỉ mục, do đó việc lập chỉ mục
sẽ quyết định tốc độ tìm kiếm. Trong quá trình lập chỉ mục, các quy tắc của ngôn
ngữ sẽ giúp cải thiện được chất lượng và tốc độ tìm kiếm.
Các stop words là các từ mà các công cụ tìm kiếm thường lược bỏ để tăng
tốc độ cũng như chất lượng tìm kiếm. Trong thực tiễn, các chuyên gia công nghệ
thông tin thường dựa trên kinh nghiệm của mình để đưa ra danh sách các stop
words cho mỗi ngôn ngữ. Qua việc khảo sát các danh sách stop words thông dụng
tiếng Anh, Trung, Việt mà chúng tôi sưu tầm được, chúng tôi có thể kết luận, bản
chất từ loại của stop words khá phong phú. Do các danh sách này chủ yếu dựa trên
kinh nghiệm, chúng không bao gồm toàn bộ các stop words trong mỗi ngôn ngữ.


6


Việc tìm ra quy luật của các stop words sẽ có ý nghĩa quan trọng trong việc mở rộng
các danh sách này để nâng cao hiệu năng và chất lượng của các máy tìm kiếm. Việc
nghiên cứu bản chất từ loại của các stop words sẽ là bước đầu cho công việc này.
Chúng tôi chưa tìm thấy một nghiên cứu nào trước đây về bản chất ngôn ngữ
của các stop words tiếng Việt. Trên thế giới chúng tôi cũng chưa tìm thấy một công
trình nào bàn về vấn đề này một cách có hệ thống. Vấn đề này xuất phát từ một yêu
cầu thực tế, nhưng có một ý nghĩa nhất định trong việc trả lời câu hỏi có tính lý luận
về xử lý dữ liệu. Đối với nghiên cứu khoa học, luận văn chúng tôi đóng góp phần lý
luận ban đầu cho việc triển khai nghiên cứu stop words, qua đó giúp các nhà công
nghệ có thể dựa vào những bản chất nội tại của chúng để đưa ra một danh sách hoàn
chỉnh có tính ứng dụng và tương đối phù hợp với công cụ tìm kiếm Việt Nam. Đối
với ứng dụng thực tiễn, như đã trình bày ở trên, stop words là một phần rất nhỏ
trong quá trình xử lý ngôn ngữ tự nhiên nói chung và xây dụng cộng cụ tìm kiếm
nói riêng. Tuy nhiên vấn đề này vẫn chưa được quan tâm đúng mức, chúng ta không
nên bỏ sót bất cứ một nhập nhằng hay một vấn đề nào để biến công cụ của mình
thành mạnh nhất và cạnh tranh với các đối thủ còn lại. Stop words giống như một ốc
vít của bộ máy kết nối các bộ phận với nhau để bộ máy có thể hoạt động trơn tru và
hiệu quả.
2. Lịch sử nghiên cứu

Những nghiên cứu xử lý ngôn ngữ tự nhiên và ứng dụng ngôn ngữ trong
công nghệ thông tin ngày càng phát triển, kéo theo đó là sự xuất hiện nhiều sản
phẩm có tính thực tiễn trong đời sống hàng ngày như xây dựng từ điển, phần mềm
dịch thuật, công cụ xử lý tiếng nói, công cụ tìm kiếm…v.v. Chúng ta có thể gõ bất
kỳ một cụm từ liên quan đến “xử lý ngôn ngữ tự nhiên” (Natural language
processing) trên máy tìm kiếm là thấy được rất nhiều kết quả trả về liên quan và

được trình bày hết sức tổng quan.
Trong luận văn này, chúng tôi tìm hiểu tính ứng dụng của nó trong công cụ
tìm kiếm nên phần lớn quan tâm tới những tài liệu liên quan đến mảng ứng dụng
tìm kiếm. Đây cũng là một trong những mảng ứng dụng khá sôi động, và được các

7


nhà nghiên cứu quan tâm nhưng phần lớn tập trung vào những vấn đề nhất định phù
hợp với đề tài nghiên cứu của mình, ví dụ như các nhà công nghệ quan tâm đến việc
xây dựng công cụ tìm kiếm như thế nào thì sẽ quan tâm về ứng dụng xử lý ngôn
ngữ tự nhiên theo hướng đó. Tiêu biểu là một số bài báo đáng chú ý như sau:
The Infocious Web Công cụ tìm kiếm: Improving Web Searching Through
Linguistic Analysis (Công cụ tìm kiếm web Infocious: Cải thiện tìm kiếm web thông
qua phân tích ngôn ngữ) của các tác giả Alexandros Ntoulas, Gerald Chao, Junghoo
Cho, của UCLA Computer Science: Tập trung nghiên cứu trên máy tìm kiếm
InfociousWeb giải quyết các vấn đề từ khóa, các vấn đề nhập nhằng ngôn ngữ.
Công cụ tìm kiếm này tập trung vào tiêu điểm nội dung thông tin thay vì kết quả trả
về dựa trên từ khóa. Ưu điểm của SE1 này là hiểu biết tốt hơn về nội dung trang
web, phù hợp với truy vấn của người sử dụng với các tài liệu đã được lập chỉ mục
do đó có thể cải thiện kết quả tìm kiếm. Ưu điểm thứ hai là CÔNG CỤ TÌM KIẾM
sắp xếp kết quả một cách trực quan hơn. Các tác giả đưa ra công nghệ xử lý ngôn
ngữ, kiến trúc và hiệu suất có được khi đi theo hướng này.
Hay như bài báo “Specialized Search in Linguistics and Languages” (Tìm
kiếm chuyên ngành trong ngôn ngữ học và ngôn ngữ) của tác giả Zhiping Zheng và
Gregor Erbach của Computational Linguistics Department, Đại học Saarland,
hướng về công cụ tìm kiếm chuyên ngành và đánh giá kết quả tìm kiếm đạt hiệu
quả cao nhất vì dữ liệu thường được xử lý bán thủ công đôi khi có sự giúp đỡ của
các công nghệ chuyên ngành nên kết quả tìm kiếm hoàn toàn không phải bàn cãi.
Từ đó các tác giả cố gắng dựa vào những thành tựu đi trước để có thể tự động hóa

xử lý dữ liệu theo hướng chuyên ngành này.
Đôi khi các tác giả cũng chỉ tập trung vào tìm kiếm web theo tên miền, ví dụ
Getess của các tác giả trường đại học Rostock với bài báo “ Getess: constructing a
linguistic search index for an Internet Công cụ tìm kiếm” (Getess: xây dựng một chỉ
mục tìm kiếm ngôn ngữ cho một Internet Công cụ tìm kiếm). Đối với các công cụ
tìm kiếm nói chung, các tác giả thường quan tâm đến cơ sở dữ liệu phần chỉ mục,
1

Viết tắt SE = Search engine

8


nơi ảnh hưởng trực tiếp đến kết quả cũng như hiệu quả tìm kiếm tiêu biểu như bài
báo “Indexing and querying linguistic metadata and document content” (Lập chỉ
mục và truy vấn siêu dữ liệu ngôn ngữ và nội dung tài liệu) của các tác giả Niraj
Aswani và Valentin Tablan, Kalina Bontcheva, Hamish Cunningham của
Department of Computer Science, Đại học Sheffield. Trong công trình này, các tác
giả đưa ra hệ thống ANNIC để xử lý ngôn ngữ tự nhiên bằng việc chú thích ngôn
ngữ và các tính năng để cho phép người dùng xây dựng truy vấn đa năng giữ từ
khóa và thông tin ngôn ngữ để các kết quả bao gồm các văn bản phù hợp trong ngữ
liệu hiện thị trong bối cảnh được chú thích.
Ngoài những công trình trên còn có rất nhiều những công trình nghiên cứu
khác tập trung giải quyết những vấn đề trong bộ máy tìm kiếm: từ khóa, ngữ nghĩa,
website, chủ đề… Phần này sẽ được chúng tôi trình bày kỹ hơn ở chương hai.
Đối với vấn đề chúng tôi nghiên cứu, stop words trong bộ máy tìm kiếm,
hiện nay, trên ngữ liệu tiếng Anh mà chúng tôi thu thập được, đã có rất nhiều công
trình nghiên cứu đề cập đến vai trò và cách giải quyết nó tiêu biểu như:
Công trình “Influence of Stop-Words Removal on Sequence Patterns
Identification within Comparable Corpora”( Ảnh hưởng của bỏ Stopwwords

trên mẫu xác định thứ tự trong so sánh Corpora)

của các tác giả

Daša

Munková, Michal Munk, Martin Vozár : quan niệm stop words là những dữ liệu
ồn như khẩu hiệu, cụm từ, từ, ký hiệu cần phải lọc ra khỏi dữ liệu quan trọng. Mục
đích của việc này là xác định được mức độ nào đó trước khi lọc bỏ dữ liệu, loại bỏ
sự ảnh hưởng của nó bằng cách trích xuất và chỉ có ngôn ngữ tác động đáng kể cả
về số lượng và chất lượng trích xuất.
Bài nghiên cứu “An Empirical Evaluation of Stop Word Removal in
Statistical Machine Translation” (Một số đánh giá về loại bỏ stop words trong dịch
máy phân tích) của AChong Tze Yuang, Rafael E. Banchs và Chng Eng Siong đánh
giá khả năng cải thiện hiệu suất của hệ thống dịch máy bằng việc loại bỏ những từ
thường xuyên và những vấn đề dự đoán từ từ vựng ngôn ngữ. Những từ này được
loại bỏ sẽ làm giảm sự nhầm lẫn trong văn bản.

9


Và “Effective Listings of Function Stop words for Twitter” (Danh sách hiệu
quả của các stop words chức năng cho Twitter) của Murphy Choy đánh giá những
stop words là những từ tái hiện rất thường xuyên nhưng cơ bản là vô nghĩa khi tham
gia câu, không đóng góp vào bối cảnh và nội dung của văn bản. Vì tần số cao của
chúng nên gây trở ngại trong việc khai thác văn bản. Để giải quyết vấn đề này, các
phương pháp sử dụng đều là dùng phần mềm hoặc sử dụng danh sách stop words
cho sẵn để loại bỏ những từ đó. Các tác giả đề xuất kiểm tra việc sử dụng nhưng
loại có tần suất xuất hiện nhiều, lập danh sách cho nguồn dữ liệu Twitter. Họ xây
dựng một kỹ thuật mới sử dụng giá trị tổ hợp như là một biện pháp thay thế để đưa

là danh sách stop words hiệu quả.
Các công trình nghiên cứu về stop words thường là những bài báo được trích
dẫn trong các luận văn hoặc báo cáo của các tác giả tùy thuộc vào yêu cầu của ứng
dụng. Những quan điểm và cách xử lý về loại từ này đều được thống nhất.
Ở Việt Nam, những công trình nghiên cứu về xử lý ngôn ngữ tự nhiên thì rất
nhiều nhưng lại chưa có một công trình cụ thể nào về stop words.
Về xử lý ngôn ngữ tự nhiên, chúng ta có thể kể đến một số tác giả nghiên
cứu chuyên sâu về ngữ pháp ngôn ngữ trong việc tách từ, phân chia từ loại và xử lý
nhập nhằng như TS Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương:
Nghiên cứu xây dựng từ điển tiếng Việt cho máy tính, Sử dụng bộ gán nhãn từ loại
xác suất Qtag cho văn bản tiếng Việt (2003). Ngoài ra có những tác giả, có những
nghiên cứu khái quát về xử lý tiếng Việt và đặc điểm tiếng Việt trong ứng dụng
công nghệ thông tin để người đọc có thể tìm hiểu được sự giống và khác nhau giữa
quan niệm trọng yếu “từ”, khó khăn trong việc xử lý so với các thứ tiếng khác tiêu
biểu là các tác giả Đinh Điền, Hồ Bảo Quốc: Vấn đề ranh giới từ trong ngữ liệu
song ngữ Anh-Việt.
Xây dựng bộ máy tìm kiếm là một trong những ứng dụng có nhiều người
quan tâm nhất bởi sản phẩm thực tiễn của nó có vai trò quan trọng đối với con
người trong thời đại bùng nổ thông tin. Vấn đề xây dựng bộ máy tìm kiếm tiếng
Việt không mới so với ngành công nghệ thông tin hiện nay. Có rất nhiều nghiên cứu

10


về bộ máy tìm kiếm và có những chuyên luận viết về ngôn ngữ trên công cụ tìm
kiếm tiếng Việt như: Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin
trên văn bản tiếng Việt (Đồng Thị Bích Thủy, Hồ Bảo Quốc- Khoa Công Nghệ
Thông Tin - Đại học khoa học tự nhiên TP. Hồ Chí Minh); Xây dựng một công cụ
hỗ trỡ tra cứu và tổng hợp thông tin trong thư viện số (Báo cáo khoa học TS Đỗ
Phúc và Ths. Nguyễn Minh Hiệp, TP Hồ Chí Minh, 2003); Nghiên cứu ứng dụng

mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản
(Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng, Tạp chí khoa học và công nghệ
Đại học Đà Nẵng- số 4 (39) 201); Dương Đình Thiện (2012) Xây dựng bộ tìm kiếm
(công cụ tìm kiếm), Luận văn thạc sĩ, Đại học Đà Nẵng; Vũ Đức Thìn, Hoàng Văn
Dũng (2008), Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm,
Luận văn Thạc sỹ
Cho đến nay, chúng ta có rất nhiều bài viết về công cụ tìm kiếm tiếng Việt phải kể
đến các website, forum bàn luận khá sâu về vấn đề này: caohocviet.net, viet.jnlp.org,
nlp.hcmut.edu.vn…Tuy nhiên, các bài viết chủ yếu nhìn nhận từ cách nhìn của các
nhà công nghệ thông tin về kĩ thuật xây dựng công cụ tìm kiếm. Các bài viết đi sâu
vào nghiên cứu việc giải quyết các bài toán xử lý ngôn ngữ tự nhiên, tuy nhiên chưa
thật sự có một công trình nào ở Việt Nam bàn về vấn đề nghiên cứu stop words.
Dù chỉ là một phần rất nhỏ trong cả một hệ thống xây dựng công cụ tìm kiếm
nhưng stop words vẫn cần một nghiên cứu đầy đủ để định hướng cho các kĩ sư công
nghệ đưa ra được danh sách hợp lý và độ chính xác cao.
Vì vậy chúng tôi mong rằng luận văn sẽ góp phần cải thiện kết quả tìm kiếm
của các công cụ tìm kiếm qua việc nghiên cứu vấn đề còn mới mẻ này.
3. Đối tượng nghiên cứu
Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval
System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác
định tập chỉ mục biểu diễn tốt nhất cho nội dung của văn bản (tiến trình lập chỉ mục
- indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term)
tốt, người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào

11


tiến trình này. Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như
cụm danh từ (noun phrase), khái niệm (concept)... Vấn đề xác định chỉ mục cho văn
bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn

của một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các
khoảng trắng giữa chúng. Hơn nữa, ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh
luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động
hóa việc phân tích tiếng Việt.
Trong luận văn này chúng tôi trình bày về các vấn đề xử lý ngôn ngữ tự
nhiên trong hệ thống tìm kiếm thông tin nói chung đặc biệt là việc xử lý tiếng Việt
trên công cụ tìm kiếm.
Xử lý ngôn ngữ tự nhiên đối với tiếng Việt, chúng ta có rất nhiều vấn đề cần
phải quan tâm như bài toán tách từ, xây dựng từ điển, xây dựng chỉ mục cho máy tìm
kiếm. Tuy nhiên, chúng tôi quan tâm đến việc xử lý stop words một trong những quá
trình xử lý nhập nhằng nhỏ nhưng đóng vai trò quan trọng trong việc kiểm soát hiệu
năng công cụ tìm kiếm. Stop words giống như một mắt xích không thể thiếu để tăng
tốc cũng như cải thiện kết quả tìm kiếm. Hai điều này quan trọng để đánh giá công cụ
tìm kiếm này có hiệu quả hay không.
Trong quá trình tiếp cận vấn đề, chúng tôi cũng trình bày một số đặc trưng
của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Mục đích cuối cùng là
đảm bảo kết quả tìm kiếm là chính xác nhất, hiệu quả nhất, đáp ứng được nhu cầu
tìm kiếm của người Việt.
4. Phương pháp nghiên cứu
Với luận văn này, ngoài việc sử dụng các thủ pháp nghiên cứu chung trong
khoa học như diễn dịch, quy nạp, so sánh, thống kê…, chúng tôi còn sử dụng các
phương pháp nghiên cứu sau:
Phương pháp phân tích từ và từ loại: Dựa vào quan niệm từ loại và đặc điểm
từ loại trong việc xử lý ngôn ngữ trên công cụ tìm kiếm so sánh với quan niệm từ và
từ loại thông thường của ngôn ngữ học lý thuyết. Với phương pháp này chúng tôi
xử lý dữ liệu cho sẵn bao gồm các tổ hợp từ có tần suất xuất hiện tương đối lớn

12



trong các văn bản mà máy thu thập được bằng cách phân loại từ, cụm từ và phân
tích từ theo từ loại.
Phương pháp phân tích khối liệu: Trong quá trình nghiên cứu, chúng tôi sử
dụng công cụ tách lọc những khối liệu cần thiết để đưa vào luận văn nhằm phân tích
khối liệu và đưa ra bản chất của vấn đề.
Phương pháp mô tả, so sánh và đối chiếu: Số lượng tư liệu thu thập được từ
stop words tiếng Anh, tiếng Trung và tiếng Việt đã được tập hợp từ các bài nghiên
cứu cũng như danh sách tạm thời sẵn có để đưa vào phân tích đối chiếu. So sánh
stop words giữa tiếng Việt và hai tiếng Anh, Trung sẽ cho thấy được những nét đặc
thù khác biệt trong việc xử lý tiếng Việt. Qua đối chiếu, chúng tôi muốn đi sâu vào
bản chất stop words tiếng Việt để sau này khi xác lập danh sách của nó có thể bớt
hoặc thêm những từ có ảnh hưởng đến chỉ mục và dữ liệu máy.
5. Phạm vi nghiên cứu
Chúng tôi tập trung khảo sát cách xử lý ngôn ngữ tự nhiên trên các công cụ
tìm kiếm tiếng Việt phổ biến hiện nay như: xalo, itim, google, yahoo, bing… Đặc
biệt chúng tôi lưu tâm đến các kết quả trả về trên công cụ google search- một trong
những công cụ tìm kiếm tiếng Việt mạnh nhất hiện nay. Những công cụ tìm kiếm
này có công cụ chỉ dành riêng cho việc tìm kiếm bằng tiếng Việt và các công cụ
quốc tế như yahoo, bing, google có ứng dụng cho rất nhiều ngôn ngữ khác.
Những dữ liệu phục vụ nghiên cứu được thu thập trên cơ sở dữ liệu đã có từ
trước trên các trang web chuyên về tìm kiếm. Chúng tôi cũng sử dụng máy để tách
lọc qua khối liệu từ các bài báo trên mạng để đưa ra danh sách từ có tần suất xuất
hiện cao để phân tích.
6. Bố cục luận văn
Luận văn gồm 3 phần: Mở đầu, Nội dung và Kết luận
Phần chính là phần Nội dung được chia thành 3 chương
Chương 1: Tổng quan cơ sở lý luận của đề tài

13



Đối với chương một, chúng tôi đưa ra những vấn đề lý thuyết còn nhập
nhằng trên công cụ tìm kiếm thông tin như từ, từ loại. Chúng tôi cũng lựa chọn
quan niệm thích hợp với đối tượng nghiên cứu của mình.
Chương 2: Tổng quan về công cụ tìm kiếm và đánh chỉ mục văn bản
Trong chương này, chúng tôi tập trung mô tả máy tìm kiếm và vấn đề xử lý
ngôn ngữ tự nhiên trong máy như xây dựng từ điển, lập chỉ mục…
Chương 3: Stop words tiếng Việt
Dựa vào yêu cầu thực tiễn trong quá trình xử lý ngôn ngữ, chúng tôi lựa chọn
stop words làm đối tượng nghiên cứu và kết quả nghiên cứu hoàn toàn mới góp
phần vào việc xây dựng máy tìm kiếm cho người Việt được tốt hơn.
Phần cuối: Kết luận

14


CHƯƠNG 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT
1.1. Từ tiếng Việt

1.1.1. Quan niệm về từ tiếng Việt
Từ là một trong những khái niệm cơ bản của ngôn ngữ học. Khi nghiên cứu
bất kỳ một ngôn ngữ nào người ta không thể không nhắc đến việc xác định đơn vị
này. Tuy nhiên, khái niệm này chưa có sự thống nhất và là một vấn đề rất khó, còn
nhiều tranh cãi trong lí thuyết ngôn ngữ học đại cương.
Đối với các ngôn ngữ biến hình việc xác định ranh giới từ dường như đơn
giản hơn vì có thể dựa vào khoảng trắng chính tả để làm ranh giới phân biệt, ngược
lại tiếng Việt thì khoảng trắng không phải là ranh giới để xác định các từ mà chỉ là
ranh giới xác định các tiếng. Từ của tiếng Việt có những điểm khác biệt so với các
ngôn ngữ này:
Thứ nhất, từ tiếng Việt là đơn vị nhỏ nhất có nghĩa còn các ngôn ngữ Ấn Âu

đơn vị nhỏ nhất là hình vị.
Thứ hai, từ Tiếng Việt có nhiều biến thể ngữ âm nhưng không có biến thể
hình thái học: lời và nhời, trời và giời, trăng và giăng…dù đứng trong câu hay đứng
lẻ một mình, bao giờ chũng cũng giữ nguyên một hình thức, ngược lại trong ngôn
ngữ Ấn Âu từ có thể tồn tại dưới nhiều từ hình khác nhau.
Và cuối cùng, ý nghĩa từ vựng và ý nghĩa ngữ pháp gắn bó chặt chẽ với nhau
ở trong từ Tiếng Việt. Vì vậy ý nghĩa của từ tiếng Việt thường có tính chất trừu
tượng, khái quát, chỉ khi kết hợp với các từ khác ý nghĩa của nó mới được cụ thể
hóa, ở các ngôn ngữ biến hình ý nghĩa từ vựng và ý nghĩa ngữ pháp được biểu thị
bằng những bộ phận khác nhau của từ. Nhờ có các dạng của từ mà ý nghĩa của từ
bao giờ cũng cụ thể xét về mặt ngữ pháp.
Theo quan điểm của GS Nguyễn Thiện Giáp:
Từ của tiếng Việt là một chỉnh thể nhỏ nhất có ý nghĩa dùng để tạo câu
nói; nó có hình thức của một âm tiết, một khối viết liền. [26, tr. 69]
Để phục vụ cho mục đích nghiên cứu, chúng tôi tham khảo thêm một số
quan niệm khác về từ của các nhà nghiên cứu phương Tây. Cách nhìn của họ
15


thường mang tính phổ quát được ứng dụng nhiều trong việc giải quyết các vấn đề về
từ khi xây dựng máy tìm kiếm hoặc dịch.
Theo S.E. Jakhontov, các nhà nghiên cứu khác nhau đã dùng thuật ngữ “từ”
để gọi những hiện tượng khác nhau, nhưng có quan hệ lẫn nhau. Ít nhất có 5 quan
niệm khác nhau về cái được gọi là “từ” [28, tr. 14]2:
Đầu tiên là quan niệm từ chính tả: Từ chính tả là khoảng cách giữa hai chỗ
trống trên chữ viết. Hiện nay trên các công trình dịch máy, người ta định nghĩa từ
như vậy. Quan niệm đó về từ còn được gặp cả trong những lĩnh vực khác của ngôn
ngữ học. Nguyên tắc viết liền và viết rời trong ngôn ngữ nào đó được nêu lên thành
nguyên tắc xác định ranh giới của từ. Nhưng chính tả (nguyên tắc viết liền và viết
rời) không phải bao giờ cũng phản ánh đúng những hiện thực tồn tại khách quan

trong ngôn ngữ hoặc phản ánh đúng sự lĩnh hội chung của những người sử dụng
ngôn ngữ đó. Có những ngôn ngữ không có khoảng cách giữa các từ hoặc khoảng
trắng không có nghĩa là đã phân định được từ (trong tiếng Việt).
Đối với quan điểm từ từ điển học, từ là đơn vị mà căn cứ vào đặc điểm ý
nghĩa của nó xếp riêng trong từ điển. Từ điển học không bắt buộc phải trùng với
chính tả mà chỉ là một bộ phận của từ chính tả hoặc có những trường hợp từ chính
tả chỉ tồn tại với tư cách là một bộ phận của từ từ điển học.
Từ ngữ âm là nhóm các hình vị được thống nhất bởi các hiện tượng ngữ âm
nào đó.Từ ngữ âm trong mỗi ngôn ngữ có những đặc trưng riêng của mình: trọng
âm, sự hài hòa nguyên âm, sự biến đổi của những âm tố nào đó trong phạm vi của
một từ…Từ ngữ âm là cái mơ hồ, không rõ ràng nhất trong tất cả những hiện tượng
được gọi là từ. Bởi mỗi ngôn ngữ có những đặc điểm ngữ âm và ngữ pháp riêng nên
những đặc trưng của từ ngữ âm của chúng cũng không có tính phổ quát. Nhưng việc
nghiên cứu những đặc trưng riêng của các ngôn ngữ sẽ tạo được những khác biệt
nhằm đáp ững những nhu cầu ứng dụng của riêng ngôn ngữ đó.
Từ biến tố là một phức thể luôn luôn gắn với hai phần, một phần là “thân từ”
có ý nghĩa đối tượng, còn phần kia “biến tố” biểu thị mối quan hệ của từ đó khác
2

Xem thêm: Nguyễn Thiện Giáp (5.2005), Từ vựng học tiếng Việt, NXB Giáo dục

16


với từ khác trong câu. Các hiểu như vậy không thể áp dụng cho tất cả ngôn ngữ, đặc
biệt là những ngôn ngữ đơn lập như tiếng Việt và tiếng Hán vì 2 ngôn ngữ này
không có biến tố.
Từ hoàn chỉnh: từ hoàn chỉnh là nhóm các hình vị không thể tách hoặc hoán
vị các hình vị đó mà lại không làm thay đổi nghĩa của chúng hoặc không vi phạm
mối quan hệ giữa chúng.

Hiện nay, công nghệ thông tin thường dựa vào quan niệm từ trong từ điển và
từ chính tả để dung hòa tạo ra một quy luật nhận diện từ riêng cho máy. Từ trong từ
điển đảm bảo tính cấu trúc về nghĩa và từ pháp. Từ chính tả lại đảm bảo về mặt hình
thức. Cả hai loại từ này đều có thể dễ dàng xây dựng được quy luật phù hợp vừa
đơn giản vừa đảm bảo tính chính xác. Tuy vậy, như đã nói ở trước, từ trong Việt
ngữ học không đơn giản như vậy.
Để nhận diện từ, các nhà nghiên cứu đã đưa ra những tiêu chuẩn để nhận
diện từ: tiêu chuẩn về ngữ nghĩa, tiêu chuẩn về hình thức.

17


* Đặc trưng để xác định từ, phân biệt từ với hình vị
Chức năng

* Chỉ các thực từ mới có chức năng định danh

định danh

* Không bao quát hết dữ liệu: cụm từ, câu cũng có thể có
chức năng định danh
* Biểu thị khái niệm được coi là dấu hiệu xác định từ

Khái niệm,

* Không bao quát hết dữ liệu: thán từ, đại từ, giới từ, liên

biểu tượng

từ không biểu thị khái niệm vẫn được coi là từ; cụm từ

biểu thị khái niệm nhưng không được coi là từ
* Phân biệt ý nghĩa từ vựng và ý nghĩa ngữ pháp

Những
tiêu

Ý nghĩa biểu
niệm

* Ý nghĩa biểu niệm là trung tâm của ý nghĩa từ vựng
(GS Đỗ Hữu Châu)
* Ý nghĩa từ vựng luôn luôn là ý nghĩa riêng của từng từ
(GS Nguyễn Thiện Giáp)

chuẩn
ngữ

* Tất cả những đơn vị ngôn

nghĩa

ngữ còn lại (trừ cụm từ tự do)
ít nhiều đều võ đoán hóa về
nghĩa.
* Không thể coi là tiêu chuẩn
Tính hoàn

Tính võ đoán về nghĩa

chỉnh về nghĩa


hữu hiệu để nhận diện từ
* Tiêu chuẩn phân biệt từ

Tính thành ngữ

ghép và cụm từ tự do
* Tiêu chuẩn nhận diện từ
ghép và thành ngữ
* Biểu thị khái niệm tồn tại

Tính hoàn chỉnh về nghĩa bên ngoài chuỗi lời nói
Bảng 1.1: Những tiêu chuẩn ngữ nghĩa

18


* Giá trị phân biệt những cấu tạo được gọi là từ ghép và
cụm từ tự do, không phải là đặc trưng chung của từ.
* Giải quyết vấn đề ranh giới từ bằng phương pháp xen
Tính cố

kẽ và thêm ngoài. Ví dụ: áo dài: áo dài quá…(GS

định hay

Nguyễn Kim Thản)

tính vững


* Tiêu chuẩn kiểm nghiệm tính cố định của những đơn

chắc về cấu

vị gọi là từ ghép: dựa vào trọng âm, dựa vào tính chất

tạo

của thành tố trực tiếp, dựa vào quan hệ trật tự từ, dựa
vào khả năng cải biến tổ hợp. (GS Nguyễn Tài Cẩn)
* Ngưỡng của tính cố định lựa chọn một cách chủ quan,
không thống nhất
* Phân biệt từ và hình vị

Những
tiêu chuẩn
về hình
thức

Tính độc
lập của từ

* Tiếng độc lập là tiếng có thể tự mình đảm nhận chức
năng định danh và chức năng thông báo, biểu hiện của
tính độc lập là có thể tự mình làm thành một câu tối
giản. (GS Nguyễn Thiện Giáp)
Tính

* Thông thường các từ bao giờ cũng thuộc một


từ loại

từ loại nào đó, hình vị với tư cách một bộ phận
của từ không có tính chất từ loại
* Tiêu chuẩn xác định từ loại: tiêu chuẩn ý

Tính từ loại

nghĩa, tiêu chuẩn hình thái học, tiêu chuẩn cú

và quan hệ
cú pháp

pháp.
Quan

* Các từ kết hợp với nhau theo quy tắc cú pháp

hệ cú

của ngôn ngữ, cho nên nếu chứng minh được

pháp

quan hệ giữa hai yếu tố AB là quan hệ cú pháp
thì có thể kết luận A và B là các từ

Bảng 1.2: Những tiêu chuẩn về hình thức

19



Từ tiếng Việt được cấu tạo hoặc là bằng các dùng một tiếng, hoặc là tổ hợp
các tiếng lại theo lối nào đó.
+ Phương thức dùng một tiếng làm một từ sẽ cho ta các từ đơn (còn gọi là từ
đơn tiết). Vậy từ đơn ở đây được hiểu là những từ cấu tạo bằng một tiếng: tôi, bác,
người, nhà, cây, hoa, trâu, ngựa...
+ Phương thức tổ hợp (ghép) các tiếng lại, mà giữa các tiếng (thành tố cấu
tạo) đó có quan hệ về nghĩa với nhau, sẽ cho ta những từ gọi là từ ghép. Dựa vào
tính chất của mối quan hệ về nghĩa giữa các thành tố cấu tạo, có thể phân loại từ
ghép tiếng Việt như sau:
Từ ghép đẳng lập. Đây là những từ mà các thành tố cấu tạo có quan hệ bình
đẳng với nhau về nghĩa. Từ ghép đẳng lập biểu thị ý nghĩa khái quát và tổng hợp.
Đây là một trong những điểm làm cho nó khác với từ ghép chính phụ.
Từ ghép chính phụ. Những từ ghép mà có thành tố cấu tạo này phụ thuộc vào
thành tố cấu tạo kia, đều được gọi là từ ghép chính phụ. Thành tố phụ có vai trò
phân loại, chuyên biệt hoá và sắc thái hoá cho thành tố chính. Ví dụ: tàu hoả, đường
sắt, sân bay, hàng không, nông sản, cà chua, máy cái, dưa hấu, cỏ gà... xấu bụng,
tốt mã, lão hoá... xanh lè, đỏ rực, ngay đơ, thằng tắp, sưng vù...
Phương thức tổ hợp các tiếng trên cơ sở hoà phối ngữ âm cho ta các từ
láy (còn gọi là từ lấp láy, từ láy âm). Từ láy tiếng Việt có độ dài tối thiểu là hai
tiếng, tối đa là bốn tiếng và còn có loại ba tiếng. Tuy nhiên, loại đầu tiên là loại tiêu
biểu nhất cho từ láy và phương thức láy của tiếng Việt. Một từ sẽ được coi là từ láy
khi các yếu tố cấu tạo nên chúng có thành phần ngữ âm được lặp lại; nhưng vừa có
lặp (còn gọi là điệp) vừa có biến đổi (còn gọi là đối). Ví dụ: đỏ đắn: điệp ở âm đầu,
đối ở phần vần. Vì thế, nếu chỉ có điệp mà không có đối (chẳng hạn như: người
người, nhà nhà, ngành ngành... thì ta có dạng láy của từ chứ không phải là từ láy.
Kết hợp tiêu chí về số lượng tiếng với cách láy, có thể phân loại từ láy như sau:
Từ láy gồm hai tiếng (cũng gọi là từ láy đôi) có các dạng cấu tạo sau:


20


×