Tải bản đầy đủ (.doc) (84 trang)

XÂY DỰNG ỨNG DỤNG hỗ TRỢ PHÂN LOẠI văn bản TIẾNG VIỆT dựa TRÊN PHƯƠNG PHÁP POINTWISE và bộ PHÂN LOẠI SVM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 84 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

HÀ HẢI ĐĂNG

XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
DỰA TRÊN PHƯƠNG PHÁP POINTWISE VÀ BỘ PHÂN LOẠI SVM
Chuyên ngành: Khoa học máy tính

LUẬN VĂN THẠC SĨ KỸ THUẬT

Hà Nội - Năm 2014


BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

HÀ HẢI ĐĂNG

XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
DỰA TRÊN PHƯƠNG PHÁP POINTWISE VÀ BỘ PHÂN LOẠI SVM
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KỸ THUẬT



Hà Nội - Năm 2014


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
HỌC VIỆN KỸ THUẬT QUÂN SỰ

Cán bộ hướng dẫn chính: TS. Lê Đình Sơn

Cán bộ chấm phản biện 1: ........................................................................

Cán bộ chấm phản biện 2:.........................................................................

Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ
HỌC VIỆN KỸ THUẬT QUÂN SỰ
Ngày….tháng…. năm 2014


Tôi xin cam đoan:
Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn
trung thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và
pháp luật Việt Nam. Nếu sai, tôi xin chịu hoàn toàn trách nhiệm trước pháp
luật.

TÁC GIẢ LUẬN VĂN

Hà Hải Đăng



LỜI CẢM ƠN
Em xin chân thành cảm ơn các thầy, các cô trong Khoa Công nghệ
thông tin, Học viện Kỹ thuật Quân sự đã giúp đỡ, chỉ bảo em trong suốt quá
trình học tập tại trường cũng như khi làm luận văn tốt nghiệp.
Em xin gửi lời cảm ơn sâu sắc đến Ts. Lê Đình Sơn, thầy đã tận tình
giúp đỡ, hướng dẫn và truyền đạt những kiến thức, những kinh nghiệp quý
báu trong suốt quá trình thực hiện và hoàn thành luận văn.
Cuối cùng, tôi xin gửi lời cảm ơn các anh chị, bạn bè đồng nghiệp, đặc
biệt là những người thân trong gia đình đã tạo điều kiện, giúp đỡ và động viên
tôi trong suốt quá trình học tập cũng như làm luận văn tốt nghiệp!


MỤC LỤC

Trang phụ bìa.......................................................................................................
Bản cam đoan......................................................................................................
Mục lục................................................................................................................
Tóm tắt luận văn..................................................................................................
Danh mục bảng....................................................................................................
Danh mục hình vẽ................................................................................................
MỞ ĐẦU..........................................................................................................1
Chương 1..........................................................................................................3
TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN.................................................3
1.1. Một số định nghĩa trong văn bản và ngôn ngữ.......................................3
1.1.1. Các cấp độ ngôn ngữ.......................................................................3
1.1.2. Quan hệ trong ngôn ngữ..................................................................4
1.2. Phân loại ngôn ngữ.................................................................................5
1.2.1. Phân loại theo cội nguồn.................................................................5
1.2.2. Phân loại theo loại hình...................................................................6
1.2.3. Phân loại theo thứ tự của ngôn ngữ.................................................6

1.3. Các đặc điểm cơ bản của tiếng Việt.......................................................7
1.3.1. Tiếng – đơn vị cấu tạo nên từ..........................................................8
1.3.2. Cấu tạo từ......................................................................................10
1.3.3. Nhập nhằng....................................................................................12
1.4. Mô hình tổng quát của bài toán phân loại văn bản tiếng Việt..............12
1.4.1. Yêu cầu đối với bài toán phân loại văn bản..................................12
1.4.2. Cấu trúc chương trình....................................................................13
1.5. Các nghiên cứu đối với bài toán phân loại văn bản.............................17


1.5.1. Các phương pháp phân loại văn bản tiếng Anh.............................18
1.5.2. Các nghiên cứu đối với phân loại văn bản tiếng Việt...................20
1.6. Mô tả phương pháp nghiên cứu trong luận văn...................................23
Chương 2........................................................................................................24
PHƯƠNG PHÁP TIỀN XỬ LÝ TRONG PHÂN LOẠI VĂN BẢN.........24
2.1. Tầm quan trọng của bước tiền xử lý trong phân loại văn bản..............24
2.1.1. Tách câu........................................................................................25
2.1.2. Tách từ...........................................................................................27
2.2. Một số phương pháp tách từ tiếng Việt................................................29
2.2.1. Phương pháp khớp nối tối đa Muximun Matching:
forward/backward....................................................................................29
2.2.2. Phương pháp giải thuật học cải biến (Tranformation based
learning)...................................................................................................31
2.2.3. Phương pháp quy hoạch động (Dynamic Programming)..............32
2.3. Phương pháp Pointwise........................................................................33
2.3.1. Mô hình ngôn ngữ N-Gram...........................................................33
2.3.2. Ý tưởng chung về phương pháp Pointwise...................................35
2.4. Những đặc trưng trong phương pháp pointwise...................................37
Chương 3........................................................................................................41
PHÂN LOẠI VĂN BẢN VỚI BỘ PHÂN LOẠI SVM...............................41

3.1. Giới thiệu SVM....................................................................................41
3.2. Bộ phân loại vector hỗ trợ (SVM)........................................................45
3.3. Phân loại văn bản và SVM...................................................................50
3.4. Thiết kế chương trình thử nghiệm........................................................54
3.4.1. Giới thiệu về chương trình............................................................54
3.4.2. Thư viện Dongdu và svm.net........................................................55
3.4.3. Nguồn dữ liệu................................................................................59


3.5. Kết quả đạt được..................................................................................60
KẾT LUẬN VÀ KIẾN NGHỊ.......................................................................65
1. Kết luận...................................................................................................65
2. Kiến nghị.................................................................................................65
TÀI LIỆU THAM KHẢO............................................................................66


Tóm tắt luận văn:

Họ và tên học viên: Hà Hải Đăng
Chuyên ngành: Khoa học máy tính

Khóa: 24

Cán bộ hướng dẫn: TS. Lê Đình Sơn
Tên đề tài: Xây dựng ứng dụng hỗ trợ phân loại văn bản tiếng Việt
dựa trên phương pháp pointwise và bộ phân loại SVM.
Tóm tắt: Luận văn nghiên cứu bài toán phân loại văn bản, áp dụng với
tiếng Việt. Qua việc nghiên cứu với phương pháp tách từ Pointwise và bộ
phân loại SVM, qua đó xây dựng chương trình ứng dụng hỗ trợ phân loại văn
bản tiếng Việt.



DANH MỤC CÁC BẢNG

MỞ ĐẦU..........................................................................................................1
Chương 1..........................................................................................................3
TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN.................................................3
1.1. Một số định nghĩa trong văn bản và ngôn ngữ.......................................3
1.1.1. Các cấp độ ngôn ngữ.......................................................................3
1.1.2. Quan hệ trong ngôn ngữ..................................................................4
1.2. Phân loại ngôn ngữ.................................................................................5
1.2.1. Phân loại theo cội nguồn.................................................................5
1.2.2. Phân loại theo loại hình...................................................................6
1.2.3. Phân loại theo thứ tự của ngôn ngữ.................................................6
1.3. Các đặc điểm cơ bản của tiếng Việt.......................................................7
1.3.1. Tiếng – đơn vị cấu tạo nên từ..........................................................8
Bảng 1.1. Bảng cấu trúc của tiếng trong tiếng Việt..........................9
1.3.2. Cấu tạo từ......................................................................................10
1.3.3. Nhập nhằng....................................................................................12
1.4. Mô hình tổng quát của bài toán phân loại văn bản tiếng Việt..............12
1.4.1. Yêu cầu đối với bài toán phân loại văn bản..................................12
1.4.2. Cấu trúc chương trình....................................................................13
Hình 1.1. Cấu trúc chương trình..........................................................13
1.5. Các nghiên cứu đối với bài toán phân loại văn bản.............................17
1.5.1. Các phương pháp phân loại văn bản tiếng Anh.............................18
1.5.2. Các nghiên cứu đối với phân loại văn bản tiếng Việt...................20
1.6. Mô tả phương pháp nghiên cứu trong luận văn...................................23


Chương 2........................................................................................................24

PHƯƠNG PHÁP TIỀN XỬ LÝ TRONG PHÂN LOẠI VĂN BẢN.........24
2.1. Tầm quan trọng của bước tiền xử lý trong phân loại văn bản..............24
2.1.1. Tách câu........................................................................................25
2.1.2. Tách từ...........................................................................................27
2.2. Một số phương pháp tách từ tiếng Việt................................................29
2.2.1. Phương pháp khớp nối tối đa Muximun Matching:
forward/backward....................................................................................29
2.2.2. Phương pháp giải thuật học cải biến (Tranformation based
learning)...................................................................................................31
2.2.3. Phương pháp quy hoạch động (Dynamic Programming)..............32
2.3. Phương pháp Pointwise........................................................................33
2.3.1. Mô hình ngôn ngữ N-Gram...........................................................33
2.3.2. Ý tưởng chung về phương pháp Pointwise...................................35
Hình 2.1. ví dụ về việc tham khảo các kết quả trước..........................35
Hình 2.2. ví dụ về việc không tham chiếu đến các nhãn trước đó......36
2.4. Những đặc trưng trong phương pháp pointwise...................................37
Hình 2.3. Ví dụ N – gram âm tiết và N– gram chủng loại âm tiết với
W = 2...................................................................................................38
Hình 2.4. Ví dụ về đặc trưng từ điển...................................................38
Bảng 2.1. Thông tin dữ liệu huấn luyện cho phương pháp pointwise
.........................................................................................................40
Bảng 2.2. Kết quả so sánh hai phương pháp Vntokenizer và
Pointwise.........................................................................................40
Chương 3........................................................................................................41
PHÂN LOẠI VĂN BẢN VỚI BỘ PHÂN LOẠI SVM...............................41


3.1. Giới thiệu SVM....................................................................................41
Hình 3.1. Mô hình hệ thống phân loại ăn bản bằng SVM...................42
3.2. Bộ phân loại vector hỗ trợ (SVM)........................................................45

Hình 3.2. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm.......46
3.3. Phân loại văn bản và SVM...................................................................50
Hình 3.3. Tần suất từ trong văn bản....................................................52
Hình 3.4. Lưu các từ vào vector đặc trưng..........................................52
3.4. Thiết kế chương trình thử nghiệm........................................................54
3.4.1. Giới thiệu về chương trình............................................................54
Hình 3.5. Mô hình giải quyết bài toán.................................................55
3.4.2. Thư viện Dongdu và svm.net........................................................55
3.4.3. Nguồn dữ liệu................................................................................59
Bảng 3.1. Bảng dữ liệu huấn luyện và dữ liệu kiểm tra..................59
3.5. Kết quả đạt được..................................................................................60
Bảng 3.2. Kết quả phân loại của chương trình................................60
Hình 3.6. Huấn luyện cho thuật toán tách từ pointwise......................61
Hình 3.7. Lựa chọn cấu hình cho việc phân loại văn bản...................61
Hình 3.8. Huấn luyện văn bản với bước tiền xử lý.............................62
Hình 3.9. Huấn luyện văn bản.............................................................62
Hình 3.10. Phân loại văn bản..............................................................63
Hình 3.11. Biểu diễn vector văn bản...................................................63
Hình 3.12. Mô hình huấn luyện văn bản trên một chủ đề...................64
Hình 3.13. Kết quả phân loại văn bản trên tập kiểm tra......................64


KẾT LUẬN VÀ KIẾN NGHỊ.......................................................................65
1. Kết luận...................................................................................................65
2. Kiến nghị.................................................................................................65
TÀI LIỆU THAM KHẢO............................................................................66


DANH MỤC CÁC HÌNH VẼ


MỞ ĐẦU..........................................................................................................1
Chương 1..........................................................................................................3
TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN.................................................3
1.1. Một số định nghĩa trong văn bản và ngôn ngữ.......................................3
1.1.1. Các cấp độ ngôn ngữ.......................................................................3
1.1.2. Quan hệ trong ngôn ngữ..................................................................4
1.2. Phân loại ngôn ngữ.................................................................................5
1.2.1. Phân loại theo cội nguồn.................................................................5
1.2.2. Phân loại theo loại hình...................................................................6
1.2.3. Phân loại theo thứ tự của ngôn ngữ.................................................6
1.3. Các đặc điểm cơ bản của tiếng Việt.......................................................7
1.3.1. Tiếng – đơn vị cấu tạo nên từ..........................................................8
1.3.2. Cấu tạo từ......................................................................................10
1.3.3. Nhập nhằng....................................................................................12
1.4. Mô hình tổng quát của bài toán phân loại văn bản tiếng Việt..............12
1.4.1. Yêu cầu đối với bài toán phân loại văn bản..................................12
1.4.2. Cấu trúc chương trình....................................................................13
Hình 1.1. Cấu trúc chương trình..........................................................13
1.5. Các nghiên cứu đối với bài toán phân loại văn bản.............................17
1.5.1. Các phương pháp phân loại văn bản tiếng Anh.............................18
1.5.2. Các nghiên cứu đối với phân loại văn bản tiếng Việt...................20
1.6. Mô tả phương pháp nghiên cứu trong luận văn...................................23
Chương 2........................................................................................................24


PHƯƠNG PHÁP TIỀN XỬ LÝ TRONG PHÂN LOẠI VĂN BẢN.........24
2.1. Tầm quan trọng của bước tiền xử lý trong phân loại văn bản..............24
2.1.1. Tách câu........................................................................................25
2.1.2. Tách từ...........................................................................................27
2.2. Một số phương pháp tách từ tiếng Việt................................................29

2.2.1. Phương pháp khớp nối tối đa Muximun Matching:
forward/backward....................................................................................29
2.2.2. Phương pháp giải thuật học cải biến (Tranformation based
learning)...................................................................................................31
2.2.3. Phương pháp quy hoạch động (Dynamic Programming)..............32
2.3. Phương pháp Pointwise........................................................................33
2.3.1. Mô hình ngôn ngữ N-Gram...........................................................33
2.3.2. Ý tưởng chung về phương pháp Pointwise...................................35
Hình 2.1. ví dụ về việc tham khảo các kết quả trước..........................35
Hình 2.2. ví dụ về việc không tham chiếu đến các nhãn trước đó......36
2.4. Những đặc trưng trong phương pháp pointwise...................................37
Hình 2.3. Ví dụ N – gram âm tiết và N– gram chủng loại âm tiết với
W = 2...................................................................................................38
Hình 2.4. Ví dụ về đặc trưng từ điển...................................................38
Chương 3........................................................................................................41
PHÂN LOẠI VĂN BẢN VỚI BỘ PHÂN LOẠI SVM...............................41
3.1. Giới thiệu SVM....................................................................................41
Hình 3.1. Mô hình hệ thống phân loại ăn bản bằng SVM...................42
3.2. Bộ phân loại vector hỗ trợ (SVM)........................................................45
Hình 3.2. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm.......46
3.3. Phân loại văn bản và SVM...................................................................50


Hình 3.3. Tần suất từ trong văn bản....................................................52
Hình 3.4. Lưu các từ vào vector đặc trưng..........................................52
3.4. Thiết kế chương trình thử nghiệm........................................................54
3.4.1. Giới thiệu về chương trình............................................................54
Hình 3.5. Mô hình giải quyết bài toán.................................................55
3.4.2. Thư viện Dongdu và svm.net........................................................55
3.4.3. Nguồn dữ liệu................................................................................59

3.5. Kết quả đạt được..................................................................................60
Hình 3.6. Huấn luyện cho thuật toán tách từ pointwise......................61
Hình 3.7. Lựa chọn cấu hình cho việc phân loại văn bản...................61
Hình 3.8. Huấn luyện văn bản với bước tiền xử lý.............................62
Hình 3.9. Huấn luyện văn bản.............................................................62
Hình 3.10. Phân loại văn bản..............................................................63
Hình 3.11. Biểu diễn vector văn bản...................................................63
Hình 3.12. Mô hình huấn luyện văn bản trên một chủ đề...................64
Hình 3.13. Kết quả phân loại văn bản trên tập kiểm tra......................64
KẾT LUẬN VÀ KIẾN NGHỊ.......................................................................65
1. Kết luận...................................................................................................65
2. Kiến nghị.................................................................................................65
TÀI LIỆU THAM KHẢO............................................................................66


1

MỞ ĐẦU
Ngày nay, sự phát triển mạnh mẽ của Internet dẫn đến sự bùng nổ
thông tin về nhiều mặt cả nội dung và số lượng. Tuy nhiên đi kèm với sự phát
triển về công nghệ thông tin ấy thì số lượng người sử dụng Internet để tìm
kiếm và truy cập tài liệu, văn bản ngày càng gia tăng. Trong quá trình tìm
kiếm, số lượng văn bản và tài liệu trả về vô cùng lớn, người sử dụng không
thể đọc hết được chúng. Mặt khác, mô hình biểu diễn văn bản hiện nay là mô
hình không gian vector, trong đó mỗi văn bản được biểu diễn bằng các từ
khóa. Tuy nhiên bài toán phân loại văn bản thường gặp phải khó khăn lớn về
tính nhiều chiều của văn bản, tính nhập nhằng của ngôn ngữ…
Vì vậy, phân loại văn bản là một trong những phương pháp hữu ích, có
ứng dụng thực tế trong nhiều lĩnh vực khác nhau. Phân loại văn bản đáp ứng
nhu cầu tìm kiếm và phân chia tài liệu của người sử dụng, giảm đáng kể thời

gian chọn lọc tài liệu, giúp cho quá trình quản lý và sử dụng văn bản thuận
tiện hơn.
Đề tài luận văn “Xây dựng ứng dụng hỗ trợ phân loại văn bản tiếng
Việt dựa trên phương pháp pointwise và bộ phân loại SVM”.
Mục tiêu của đề tài:
+ Tìm hiểu một số phương pháp tách từ tiếng Việt.
+ Tìm hiểu một số phương pháp phân loại văn bản tiếng Việt hiện
nay.
+ Nghiên cứu phương pháp tách từ pointwise ứng dụng vào bài
toán tách từ tiếng Việt.
+ Nghiên cứu thuật toán SVM và áp dụng vào bài toán phân loại
văn bản tiếng Việt với bước tiền xử lý có áp dụng phương pháp
tách từ tiếng Việt pointwise.
+ Xây dựng ứng dụng hỗ trợ phân loại văn bản tiếng Việt dựa trên
bộ phân loại SVM.


2

Nội dung của luận văn được trình bày bao gồm 3 phần: Phần Mở đầu;
Phần Nội dung chính, gồm 3 chương; Phần Kết luận và kiến nghị.
Cụ thể phần nội dung chính:
+ Chương 1: Tổng quan về bài toán phân loại văn bản tiếng Việt. Trình
bày khái quát về các vấn đề văn bản và ngôn ngữ, tổng quan của bài
toán phân loại văn bản.
+ Chương 2: Phương pháp tiền xử lý trong phân loại văn bản tiếng Việt.
Tìm hiểu phương pháp tách từ và ý tưởng của Pointwise áp dụng cho
tiền xử lý văn bản tiếng Việt.
+ Chương 3: Phân loại văn bản tiếng Việt với bộ phân loại SVM. Nghiên
cứu máy hỗ trợ vector SVM và thuật toán phân loại văn bản SVM.

Chương trình minh họa thực hiện phương pháp của luận văn.


3

Chương 1
TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN
Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong tiếng Việt
dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu văn bản
và các kỹ thuật xử lý đã được phát triển trên thế giới. Tuy nhiên văn bản tiếng
Việt lại có những đặc điểm riêng, ta có thể nhận thấy ngay được sự khác biệt
về mặt cú pháp và ngữ pháp của tiếng Việt khác so với các ngôn ngữ phổ biến
trên thế giới như tiếng Anh, tiếng Pháp. Vậy những đặc trưng này sẽ ảnh
hưởng thế nào đến bài toán phân loại văn bản, dùng kỹ thuật nào để có thể tận
dụng được những ưu thế của tiếng Việt cũng như giải quyết được những phức
tạp trong tiếng Việt.
Trong chương này, chúng ta sẽ cùng nhau nghiên cứu những khái niệm
chung nhất của ngôn ngữ, những đặc điểm của tiếng Việt cũng như những yêu
cầu đối với bài toán xử lý ngôn ngữ tiếng Việt. Mô hình tổng quát của bài
toán phân loại văn bản và các nghiên cứu đối với bài toán phân loại văn bản.
1.1. Một số định nghĩa trong văn bản và ngôn ngữ
Ngôn ngữ là hệ thống tín hiệu đặc biệt và quan trọng bậc nhất của loài
người, là phương tiện và công cụ giao tiếp xã hội. Ngôn ngữ bao gồm ngôn
ngữ nói và ngôn ngữ viết, chính vì vậy tìm hiểu ngôn ngữ là tìm hiểu tư duy
của con người. Đối với những bài toán xử lý ngôn ngữ tự nhiên thì vấn đề tìm
hiểu nguồn gốc, đặc điểm của ngôn ngữ có ý nghĩa quan trọng để quyết định
vấn đề đối với ngôn ngữ đang nghiên cứu.
1.1.1. Các cấp độ ngôn ngữ
Theo trình tự từ nhỏ đến lớn, có thể kể ra các đơn vị ngôn ngữ là:
Từ: đơn vị mang nghĩa độc lập, được cấu tạo bởi hình vị, có chức năng

định danh.


4

Ngữ: gồm hai hay nhiều từ có quan hệ ngữ pháp hay ngữ nghĩa với
nhau, ví dụ: bức thư, mạng máy tính, hệ thống máy tính, ...
Câu: gồm các từ/ngữ có quan hệ ngữ pháp hay ngữ nghĩa với nhau và
có chức năng cơ bản là thông báo, ví dụ: Tôi đang đọc sách,...
Văn bản: là hệ thống các câu được liên kết với nhau về mặt hình thức,
từ ngữ, ngữ nghĩa và ngữ dụng.
1.1.2. Quan hệ trong ngôn ngữ
Mỗi đơn vị kể trên, chúng ta lại làm thành một tiểu hệ thống trong hệ
thống lớn là hệ thống ngôn ngữ. Người ta gọi mỗi tiểu hệ thống (gồm những
đơn vị đồng loại) của ngôn ngữ là một cấp độ. Đó là vì các tiểu hệ thống có
quan hệ chi phối lẫn nhau. Ví dụ: cấp độ câu, cấp độ từ, cấp độ hình vi, cấp
độ âm vị. Các đơn vị của ngôn ngữ quan hệ với nhau rất phức tạp và theo
nhiều kiểu, tuy nhiên có 3 quan hệ cốt lõi đó là:
Quan hệ cấp bậc (hierachical relation): đơn vị cấp cao hơn bao giờ
cũng bao hàm đơn vị của cấp độ thấp hơn và ngược lại. Ví dụ: câu bao hàm
từ, ...
Quan hệ ngữ đoạn (syntagmatical relation): nối kết các đơn vị ngôn
ngữ thành chuỗi khi ngôn ngữ đi vào hoạt động. Đây là tính hình tuyến của
ngôn ngữ. Tính chất này bắt buộc các đơn vị ngôn ngữ phải nối tiếp nhau lần
lượt trong ngữ lưu để cho ta những kết hợp gọi là ngữ đoạn (syntagmes). Ví
dụ: This book, this book is interesting, ...
Quan hệ liên tưởng (associative relation): là quan hệ xâu chuỗi, một
yếu tố xuất hiện với những yếu tố khác “đứng sau lưng” nó về nguyên tắc có
thể thay thế nó. Ví dụ: I read book (newspage, magazine, ...) thì các từ
newspage, magazine là tương đương với book và có thể thay thế cho book.



5

1.2. Phân loại ngôn ngữ
Mỗi ngôn ngữ là công cụ tư duy, nó là thành quả của việc nghiên cứu
trí tuệ. Phân loại các ngôn ngữ là cách phân loại ngôn ngữ theo cấu trúc và
chức năng của chúng. Kết quả phân loại cho ta những loại hình ngôn
ngữ. Loại hình ngôn ngữ không phải là một ngôn ngữ cụ thể nào, cũng không
phải là một tổng hoặc một tập các ngôn ngữ. Loại hình ngôn ngữ là tổng thể
của những đặc điểm hoặc thuộc tính về cấu trúc và chức năng vốn có của các
ngôn ngữ thuộc nhóm đó, phân biệt nhóm đó với các nhóm ngôn ngữ khác.
Trong mỗi ngôn ngữ có thể thấy ba nhóm thuộc tính: thuộc tính phổ quát, tức
là thuộc tính chung, vốn có đối với tất cả các ngôn ngữ thế giới, thuộc tính
riêng biệt là thuộc tính chỉ có ở ngôn ngữ đó, thuộc tính loại hình là thuộc
tính đặc trưng cho từng nhóm ngôn ngữ nhất định. Thuộc tính loại hình được
dùng làm tiêu chuẩn để quy định vị trí của một ngôn ngữ nào đó trong khi
phân loại.
1.2.1. Phân loại theo cội nguồn
Căn cứ theo cội nguồn (nghiên cứu lịch đại), ta có các ngữ hệ sau:
+ Ấn-Âu: Dòng ngôn ngữ Ấn Độ, I-Ran, Bantic, Slave, Roman, Hy
Lạp, German (Gồm Đức, Anh, Hà Lan, ...)
+ Sê-Mít: Dòng ngôn ngữ Sê-mít, Ai Cập, Kusit, Beebe, ...
+ Thổ: Ngôn ngữ Thổ Nhĩ Kỳ, Azecbaizan, Tacta, ...
+ Hán-Tạng: Dòng ngôn ngữ Hán, Tạng, Miến, ...
+ Nam Phương: Dòng Nam-Thái, Nam Á. Trong đó dòng Nam Á có
các ngành: Nahali, MunDa, Nicoba và Môn-Khmer. Trong ngành
Môn-Khmer có nhóm Việt-Mường và trong nhóm này có ngôn ngữ
tiếng Việt của chúng ta.



6

1.2.2. Phân loại theo loại hình
Căn cứ theo các đặc điểm hiện nay của các ngôn ngữ (nghiên cứu đồng
đại), người ta phân các ngôn ngư thành các loại hình khác nhau (một cách gần
đúng) bao gồm:
+ Ngôn ngữ hòa kết (flexional): loại hình này bao gồm các ngôn ngữ:
Đức, Latin, Hy lạp, Anh, Pháp, Nga, A-Rập, ...
+ Ngôn ngữ cháp dính (agglutinate): có hiện tượng cứ nối tiếp thêm
một cách máy móc, cơ giới vào căn tố nào đó một hay nhiều phụ tố,
mà mỗi phụ tố đó lại chỉ luôn mang lại một ý nghĩa ngữ pháp nhất
định. Ví dụ: Thổ Nhĩ Kỳ, Mông Cổ, Nhật Bản, Triều Tiên, ...
+ Ngôn ngữ đơn lập (isolate): còn gọi là ngôn ngữ phi hình thái,
không biến hình, đơn âm tiết, phân tiết, ... Loại hình này bao gồm
các ngôn ngữ: tiếng Việt, Hán, Êvê, Vùng Đông Nam Á, ...
+ Ngôn ngữ đa tổng hợp (polysynthetic): còn gọi là ngôn ngữ hỗn
nhập hay nhập khuân. Đây là loại mang những đặc điểm của các
lọai hình nói trên.
1.2.3. Phân loại theo thứ tự của ngôn ngữ
Xét về loại hình trật tự ở cấp độ câu, thì tiếng Anh và tiếng Việt có
cùng chung loại hình, đó là loại hình S-V-O, có nghĩa là trong một câu bình
thường (không đánh dấu), thứ tự các thành phần được sắp xếp như sau:
S (Subject: chủ ngữ) – V (Verb: động từ) – O (Object: bổ ngữ)
Ví dụ:
Tôi

nhìn anh

S


V

O

ấy



I

see

him

S

V

O

Theo thống kê [1]:
+ Loại S-V-O chiếm 32,4 - 41,8 % bao gồm các tiếng như: tiếng Anh,
Pháp, Việt, ...


7

+ Loại hình S-O-V chiếm 41,0 - 51,8 % như tiếng Nhật.
+ Loại hình V-S-O chiếm 2,0 % - 4,0 %

+ Loại hình V-O-S chiếm 9 - 18 %
+ Loại hình O-S-V chiếm khoảng 1 %
Trật tự từ (word - order) là sự thể hiện hình tuyến của ngôn ngữ. Trật tự
từ được hiểu theo nghĩa hẹp là: trật tự các thành phần S-V-O như trên, còn
nếu hiểu theo nghĩa rộng thì là trật tự các thành tố ở ba cấp độ đơn vị ngôn
ngữ:
+ Từ: trật tự các tiếng, hình vị, từ tố trong từ ghép. Ví dụ: ChaMẹ/Mẹ-Cha.
+ Ngữ: trật tự các từ trong cụm từ hay ngữ như: trật tự định tố trong
danh ngữ, trật tự bỏ ngữ trong động ngữ.
+ Câu: trật tự các thành phần S, V, O trong câu.
Có một số ngôn ngữ tuy cùng loại hình trật tự từ ở cấp độ câu (như
tiếng Anh và tiếng Việt cùng loại hình S-V-O), nhưng trật tự từ bên trong các
ngữ có thể khác nhau. Chẳng hạn: trong tiếng Anh tính từ đứng trước danh từ
còn trong tiếng Việt thì ngược lại [1].
1.3. Các đặc điểm cơ bản của tiếng Việt
Một vấn đề khó khăn đầu tiên trong việc xử lý tự động tiếng Việt là
việc định nghĩa từ trong tiếng Việt vẫn còn nhiều tranh luận. Theo quan điểm
của Đinh Điền, một câu tiếng Việt bao gồm nhiều từ, mỗi từ bao gồm một hay
nhiều “tiếng”, mỗi “tiếng” là một chuỗi ký tự liền nhau, phân biệt với các
tiếng khác bằng một hay nhiều khoảng trắng. Ví dụ:
Từ “học” là một từ gồm một tiếng
Từ “học sinh” là một từ gồm hai tiếng
Cụm từ “công nghệ thông tin” gồm 2 từ (4 tiếng)


8

Trong các hệ thống tìm kiếm thông tin văn bản các tiếng Châu Âu,
người ta có thể đơn giản lấy xác định các từ nhờ vào các khoảng trắng để
phân cách từ và chọn các đặc trưng cho nội dung văn bản (thông qua tần suất

xuất hiện của từ) làm chỉ mục mà hiệu quả tìm kiếm vẫn chấp nhận được. Đối
với tiếng Việt chúng ta không thể làm tương tự bởi nếu chúng ta xác định từ
chỉ dựa vào khoảng trắng phân cách thì chúng ta chỉ có thể nhận được nhiều
“tiếng” vô nghĩa và do đó độ chính xác của hệ thống sẽ rất thấp. Theo các nhà
ngôn ngữ học thì tiếng Việt có đến 80% là từ 2 “tiếng”.
Một đặc điểm của tiếng Việt là từ tiếng Việt không có biến thể về hình
thái học và do đó công đoạn chuẩn hóa về hình thái học là không hiệu quả đối
với tiếng Việt. Dĩ nhiên tiếng Việt cũng có một số hình thức biến thể về hình
thái học như trường hợp thêm tiếng “sự” trước một động từ để biến nó thành
danh từ tương đương ví dụ như: động từ “lựa chọn” và danh từ “sự lựa chọn”
hay việc thêm tiếng “hóa” sau một số danh từ để biến nó thành động từ tương
đương như: danh từ “tin học” và động từ “tin học hóa”.
Nhưng xét trên góc độ ứng dụng, ta có thể hiểu một cách đơn giản là
“từ được cấu tạo bởi một hoặc nhiều tiếng”. Chúng ta tìm hiểu khái niệm
“tiếng” trong tiếng Việt với hình vị từ.
1.3.1. Tiếng – đơn vị cấu tạo nên từ
Tiếng là đơn vị cơ sở để cấu tạo nên từ tiếng Việt. Về mặt hình thức,
tiếng là một đoạn phát âm của người nói, dù chúng ta có cố tình phát âm
chậm đến mấy cũng không thể tách tiếng ra thành các đơn vị khác được.
Tiếng được các nhà ngôn ngữ gọi là âm tiết (syllable). Về mặt nội dung, tiếng
là đơn vị nhỏ nhất có nội dung được thể hiện, ít nhất tiếng cũng có giá trị về
mặt hình thái học (cấu tạo từ), đôi khi người ta gọi tiếng là hình tiết
(morphemesyllable), tức là âm tiết có giá trị về hình thái học.


9

Các tiếng không phải tất cả đều giống nhau, xét về mặt ý nghĩa, chúng
ta có thể chia tiếng thành các loại sau:
+ Tiếng tự thân nó đã có ý nghĩa, thường được quy chiếu vào một đối

tượng, khái niệm. Ví dụ: trời, đất, nước, cây, cỏ, ...
+ Tiếng tự thân nó không có ý nghĩa, chúng không được quy chiếu
vào đối tượng, khái niệm nào cả. Chúng thường đi cùng với một
tiếng khác có nghĩa và làm thay đổi sắc thái của tiếng đó, ví dụ:
(xanh) lè, (đường) xá, (nắng) nôi, ...
+ Tiếng tự thân nó không có ý nghĩa nhưng lại đi với nhau để tạo
thành từ. Nhiều tiếng nếu tách rời tiếng này ra đứng riêng thì chúng
lại không có ý nghĩa, nhưng khi ghép lại thì thành từ có nghĩa. Ta
thường xuyên gặp ở những từ vay mượn như Phéc-mơ-tuya, a-pa-tít,
pa-tin, mì-chính, ...
Trong tiếng Việt thì các tiếng thuộc nhóm đầu là chiếm đa số. Các tiếng
thuộc hai nhóm sau chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thường
được gọi là tiếng vô nghĩa. Việc nhóm đầu tiên chiếm đa số phản ánh thực tế
là khi nói, người ta thường sử dụng các tiếng có nghĩa, hiếm khi lại nói toàn
vô nghĩa.
Mô hình tiếng trong tiếng Việt và các thành tố của tiếng Việt
Ta có thể biểu diễn cấu trúc của tiếng như bảng sau:
Bảng 1.1. Bảng cấu trúc của tiếng trong tiếng Việt
Âm đầu
Âm đệm

Trong đó:

Thanh điệu
Vần
Âm chính

Âm cuối



×