Tải bản đầy đủ (.pdf) (116 trang)

Xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng việt bằng phương pháp support vector machines

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 116 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

-----[—\-----

HỒNG THANH LUẬN

XÁC ĐỊNH CÁC CỤM DANH TỪ, TỪ ĐẶC TRƯNG
NGỮ NGHĨA CHO CÂU TIẾNG VIỆT BẰNG
PHƯƠNG PHÁP SUPPORT VECTOR MACHINES
Chuyên ngành : Khoa học máy tính

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 7 năm 2007


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: PGS TS.PHAN THỊ TƯƠI

Cán bộ chấm nhận xét 1: PGS TS.CAO HOÀNG TRỤ

Cán bộ chấm nhận xét 2: PGS TS.ĐỖ PHÚC

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày…...tháng…..năm 2007



ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
------------------

Độc lập – Tự do – Hạnh phúc
---oOo---

Tp. HCM, ngày 11 tháng 07 năm 2007

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Hồng Thanh Luận ................................... Giới tính: Nam ;/ Nữ …
Ngày, tháng, năm sinh: 12/10/1980......................................... Nơi sinh: Cần Thơ ...........
Chuyên ngành: Khoa học Máy tính...................................................................................
Khóa: 2005 ........................................................................................................................
1- TÊN ĐỀ TÀI: Xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng
Việt bằng phương pháp Support Vector Machines ...........................................................
2- NHIỆM VỤ LUẬN VĂN: ..........................................................................................
- Nghiên cứu ngữ pháp tiếng Việt, tập trung vào từ loại và cấu trúc cụm danh từ ...........
- Nghiên cứu phương pháp học máy Support Vector Machines. So sánh, đánh giá tính
hiệu quả của SVMs với các phương pháp học máy khác..................................................
- Xây dựng kho ngữ liệu huấn luyện phù hợp với mục tiêu của luận văn ........................
- Hiện thực hệ thống xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu tiếng
Việt bằng phương pháp Support Vector Machines ...........................................................
3- NGÀY GIAO NHIỆM VỤ: .....................................................................................
4- NGÀY HOÀN THÀNH NHIỆM VỤ: ....................................................................
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PHAN THỊ TƯƠI ....................................
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua.
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN


(Họ tên và chữ ký)

QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGs Ts.Phan Thị Tươi, người
đã trang bị cho tơi những kiến thức q báu ở bậc Cao học, hướng dẫn tôi đến với lĩnh
vực nghiên cứu mới và tận tình hướng dẫn để tơi có thể hồn thành tốt luận văn này.
Tơi cũng xin bày tỏ lòng biết ơn đối với NCS Nguyễn Quang Châu vì đã tận tình
truyền đạt những kinh nghiệm q báu cũng như động viên tôi trong suốt thời gian
thực hiện luận văn.
Cuối cùng, tôi cũng xin gửi lời cảm ơn đến tất cả bạn bè và đồng nghiệp đã tạo mọi
điều kiện thuận lợi trong suốt thời gian thực hiện luận văn để tơi có thể hồn thành tốt
nhiệm vụ học tập của mình.


TĨM TẮT
Chúng tơi áp dụng Support Vector Machines (SVMs) trong việc xác định các cụm
từ đặc trưng trong câu truy vấn tiếng Việt nhằm hỗ trợ về mặt ngữ nghĩa cho các bộ
máy tìm kiếm thơng tin cũng như phục vụ cho các hệ thống trả lời tự động bằng tiếng
Việt. Mục tiêu của chúng tôi là loại bỏ các từ vô nghĩa trong câu truy vấn, giữ lại các
từ và cụm từ mang nhiều ý nghĩa nhất. Cụ thể, chúng tôi xây dựng hệ thống cho phép
người dùng nhập vào câu truy vấn tiếng Việt, qua các giai đoạn xử lý như: phân đoạn
từ, gán nhãn từ loại, xác định các cụm danh từ và từ đặc trưng ngữ nghĩa, kết quả trả
về của hệ thống là các cụm danh từ và từ đặc trưng ngữ nghĩa mà chúng tôi gọi chung
là các cụm từ đặc trưng. Từ kết quả đó, thơng qua các bộ máy tìm kiếm thơng tin, các
hệ thống trả lời tự động, người sử dụng có thể tìm được những thơng tin cần thiết một

cách nhanh chóng và chính xác.
We apply a Support Vector Machines (SVMs) to identify automatically key
phrases in Vietnamese query in order to support the meaning for either search engines
and automatic answers system in Vietnamese. Our purpose is rejecting meaningless
words in queries, keeping words and phrases which are meaningful. For instance, we
build a system that allows users to input their Vietnamese query and to cross
processing stages such as word segmentation, POS tagging, base noun phrase
identification and meaningfulness word identification. The result of system is base
noun phrases and key features which are called key phrases. From that result, by using
search engines and automatic answers system, users can find the essential information
quickly and accurately.


MỤC LỤC
Trang
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN .................................................................1
1.1 PHÁT BIỂU VẤN ĐỀ...........................................................................................1
1.2 MỤC TIÊU NGHIÊN CỨU ..................................................................................2
CHƯƠNG 2: NHỮNG KẾT QUẢ NGHIÊN CỨU LIÊN QUAN.............................3
2.1 NHỮNG KẾT QUẢ NGHIÊN CỨU TRONG NƯỚC.........................................3
2.2 NHỮNG KẾT QUẢ NGHIÊN CỨU NƯỚC NGOÀI..........................................5
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TIẾNG VIỆT.....................................................8
3.1 TỪ LOẠI ..............................................................................................................9
3.1.1 Danh từ .........................................................................................................9
3.1.2 Động từ.......................................................................................................14
3.1.3 Tính từ ........................................................................................................18
3.1.4 Đại từ ..........................................................................................................20
3.1.5 Phụ từ..........................................................................................................22
3.1.6 Kết từ ..........................................................................................................25
3.1.7 Trợ từ..........................................................................................................26

3.1.8 Cảm từ ........................................................................................................27
3.2 CỤM DANH TỪ ................................................................................................28
3.2.1 Khái niệm ...................................................................................................28


3.2.2 Cấu tạo........................................................................................................28
3.2.3 Chức năng...................................................................................................39
3.3 CÂU TIẾNG VIỆT..............................................................................................40
3.3.1 Định nghĩa ..................................................................................................40
3.3.2 Phân loại câu ..............................................................................................40
CHƯƠNG 4: SUPPORT VECTOR MACHINES (SVMs) ......................................42
4.1 GIỚI THIỆU ........................................................................................................42
4.2 CÁC KHÁI NIỆM ...............................................................................................42
4.2.1 Nguyên tắc Structural Risk Minization......................................................42
4.2.2 Khái niệm VC-Dimension..........................................................................43
4.3 PHÂN LOẠI TUYẾN TÍNH...............................................................................44
4.3.1 Trường hợp phân biệt được........................................................................44
4.3.2 Trường hợp không phân biệt được.............................................................49
4.4 PHÂN LOẠI PHI TUYẾN (NON-LINEAR)......................................................52
4.4.1 Hàm Kernel ................................................................................................53
4.4.2 Huấn luyện .................................................................................................54
4.4.3 Phân loại .....................................................................................................54
4.5 MỞ RỘNG PHÂN LOẠI TRONG SVMs ..........................................................55
4.5.1 Kỹ thuật so sánh Một - Một (One vs One).................................................55
4.5.2 Kỹ thuật so sánh Một - Phần dư còn lại (One vs Rest) ..............................56
4.6 CÁC ỨNG DỤNG CỦA SUPPORT VECTOR MACHINES............................57


4.7 CÁC KẾT QUẢ THỰC NGHIỆM CỦA PHƯƠNG PHÁP SUPPORT
VECTOR MACHINES..................................................................................................58

4.8 CÁC THUẬT TOÁN CỦA SUPPORT VECTOR MACHINES .......................64
CHƯƠNG 5: ỨNG DỤNG SVMs TRONG VIỆC XÁC ĐỊNH CÁC CỤM TỪ
ĐẶC TRƯNG NGỮ NGHĨA TRONG CÂU ............................................................67
5.1 CÁC KHÁI NIỆM ...............................................................................................67
5.2 XÁC ĐỊNH CÁC CỤM TỪ ĐẶC TRƯNG NGỮ NGHĨA TRONG CÂU .......68
5.2.1 Giai đoạn tiền xử lý ....................................................................................72
5.2.2 Giai đoạn xác định các cụm danh từ trong câu ..........................................72
5.2.3 Giai đoạn xác định các từ bổ sung nét ngữ nghĩa trong câu ......................81
5.2.4 Kết quả thực nghiệm của hệ thống.............................................................86
CHƯƠNG 6: MỘT SỐ HÌNH ẢNH VỀ CHƯƠNG TRÌNH ..................................88
CHƯƠNG 7: ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN...........................................95
7.1 ĐÁNH GIÁ..........................................................................................................95
7.2 HƯỚNG PHÁT TRIỂN.......................................................................................96
TÀI LIỆU THAM KHẢO ...........................................................................................97
PHỤ LỤC ....................................................................................................................101


DANH SÁCH CÁC BẢNG
Trang
Bảng 3.1: Phân loại từ .....................................................................................................9
Bảng 3.2: Phân loại danh từ ..........................................................................................13
Bảng 3.3: Phân loại động từ ..........................................................................................18
Bảng 3.4: Phân loại tính từ ............................................................................................19
Bảng 3.5: Phân loại đại từ xưng hơ có ngơi xác định....................................................20
Bảng 3.6: Phân loại đại từ .............................................................................................22
Bảng 3.7: Phân loại phụ từ ............................................................................................25
Bảng 3.8: Phân loại kết từ .............................................................................................26
Bảng 4.1: Kỹ thuật phân loại Một - Phần dư còn lại (One vs Rest)..............................56
Bảng 4.2: Kết quả phân loại văn bản dùng 5 phương pháp học khác nhau ..................59
Bảng 4.3: Kết quả nhận dạng khuôn mặt người bằng phương pháp SVMs..................60

Bảng 4.4: Các phương pháp phân loại trong R (version 1.6.1).....................................61
Bảng 4.5: Sai số thử nghiệm của 17 giải thuật học máy (Mean 1) ...............................62
Bảng 4.6: Sai số thử nghiệm của 17 giải thuật học máy (Mean 2)................................63
Bảng 5.1: Kho ngữ liệu cho giai đoạn xác định cụm danh từ .......................................78
Bảng 5.2: Kết quả phân loại nhãn gom cụm IOB .........................................................80
Bảng 5.3: So sánh kết quả phân loại nhãn gom cụm IOB bằng hai phương pháp........81
Bảng 5.4: Kho ngữ liệu cho giai đoạn xác định các từ bổ sung nét ngữ nghĩa.............85
Bảng 5.5: Kết quả phân loại từ bổ sung nét ngữ nghĩa .................................................86


Bảng 5.6: Tập dữ liệu thực nghiệm của hệ thống..........................................................87
Bảng 5.7: Kết quả thực nghiệm của hệ thống ...............................................................87


DANH SÁCH CÁC HÌNH VẼ
Trang
Hình 3.1: Cấu trúc cây của câu .....................................................................................41
Hình 4.1: Nguyên lý Structural Risk Minization ..........................................................43
Hình 4.2: 3 điểm trong mặt phẳng R2 được chia bởi đường thẳng tuyến tính ..............44
Hình 4.3: Các mặt phẳng phân tách ..............................................................................45
Hình 4.4: Mặt phẳng phân tách với độ rộng biên cực đại.............................................46
Hình 4.5: Một trường hợp khơng phân biệt được .........................................................50
Hình 4.6: Q trình ánh xạ từ khơng gian nhập vào khơng gian đặc trưng ..................53
Hình 4.7: Ba giải thuật huấn luyện SVMs: Chunking, Osuna và SMO........................65
Hình 5.1: Mơ hình xử lý của hệ thống xác định các cụm danh từ, từ đặc trưng ngữ
nghĩa cho câu tiếng Việt.................................................................................................70
Hình 5.2: Ví dụ q trình xử lý của hệ thống xác định các cụm danh từ, từ đặc trưng
ngữ nghĩa cho câu tiếng Việt .........................................................................................71
Hình 6.1: Giao diện chính của chương trình .................................................................88
Hình 6.2: Menu Program...............................................................................................89

Hình 6.3: Menu Commands ..........................................................................................90
Hình 6.4: Cập nhật kho ngữ liệu huấn luyện cho giai đoạn xác định cụm danh từ ......91
Hình 6.5: Cập nhật kho ngữ liệu huấn luyện cho giai đoạn xác định các từ bổ sung
nét ngữ nghĩa..................................................................................................................92
Hình 6.6: Huấn luyện mơ hình ......................................................................................93
Hình 6.7: Xác định các cụm từ đặc trưng trong câu .....................................................94


1

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN
1.1 PHÁT BIỂU VẤN ĐỀ
Trong thời đại bùng nổ thông tin như hiện nay, con người dễ bị bao vây bởi lượng
thông tin vô cùng phong phú và khái niệm “Information overload” thường được đề
cập tới do sự thiếu thốn các công cụ, phương pháp giúp con người tìm thấy các
thơng tin cần thiết và khai thác chúng một cách có hiệu quả. Do đó, vấn đề cốt lõi
được đặt ra trong các hệ thống khai thác thông tin như truy cập thông tin
(Information Retrieval), tóm tắt văn bản (Text Summarization) và rút trích thơng tin
(Information Extraction),…là phải xác định được các cụm từ đặc trưng ngữ nghĩa
của văn bản nhằm giúp người sử dụng tìm được các thơng tin cần thiết một cách
nhanh chóng và chính xác. Tuy nhiên, việc xác định thủ cơng các cụm từ đặc trưng
ngữ nghĩa sẽ tiêu tốn rất nhiều thời gian và chi phí nhất là khơng phù hợp với các hệ
thống cung cấp dịch vụ thời gian thực. Do đó, việc rút trích các cụm từ đặc trưng
ngữ nghĩa của văn bản một cách tự động là nhu cầu, là mong muốn của các nhà
nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên bằng máy tính.
Trên thế giới đã có nhiều cơng trình nghiên cứu tập trung vào vấn đề này và đã
đạt được nhiều kết quả đáng khích lệ nhưng đối với Việt ngữ, nhất là vấn đề rút
trích cụm từ đặc trưng ngữ nghĩa trong câu, đang là nhu cầu đang bị bỏ ngõ trong
các hệ thống khai thác thông tin. Nhu cầu này cũng chính là vấn đề cần giải quyết
đối với hệ thống tìm kiếm thơng tin xun ngơn ngữ (Cross Language Information

Retrieval), là hệ thống tìm kiếm thơng tin cho phép người dùng nhập vào câu truy
vấn chứa thông tin cần tìm trên Internet bằng ngơn ngữ tiếng Việt và kết quả trả về
sẽ là các tài liệu liên quan (bằng ngơn ngữ khác) một cách chính xác. Vì vậy, việc
triển khai đề tài “Xác định các cụm danh từ, từ đặc trưng ngữ nghĩa cho câu
tiếng Việt bằng phương pháp Support Vector Machines” thực sự là cần thiết
trong thực tế, làm nền tảng và hỗ trợ về mặt ngữ nghĩa cho các ứng dụng khai thác
thông tin trong văn bản tiếng Việt.


2

1.2 MỤC TIÊU NGHIÊN CỨU
Mục tiêu chính của luận văn là tìm hiểu các cơng trình nghiên cứu làm nền tảng
cho giai đoạn tiền xử lý như phân đoạn từ (Word Segmentation) và gán nhãn từ loại
(POS Tagging), các phương pháp đã được sử dụng để xác định các cụm từ đặc
trưng trong văn bản (Key Phrase), cũng như phương pháp học máy Support Vector
Machines. Từ đó, xây dựng một cơng cụ cho phép rút trích tự động các cụm từ đặc
trưng ngữ nghĩa trong câu tiếng Việt.
Với mục tiêu đặt ra như trên, cấu trúc của luận văn được chia làm 7 chương:
Chương 1: Giới thiệu sơ lược về đề tài, nội dung nghiên cứu cũng như cấu trúc
của đề tài.
Chương 2: Phân tích và đánh giá các cơng trình nghiên cứu trong và ngồi nước
có liên quan đến nội dung nghiên cứu của đề tài.
Chương 3: Trình bày cơ sở lý thuyết của tiếng Việt, tập trung vào tìm hiểu từ
loại và cấu trúc cụm danh từ.
Chương 4: Trình bày cơ sở lý thuyết của phương pháp học máy Support Vector
Machines, đánh giá tính hiệu quả của phương pháp này so với các phương pháp
phân loại có giám sát khác (supervised classification).
Chương 5: Hiện thực hệ thống xác định các cụm danh từ, từ đặc trưng ngữ
nghĩa trong câu tiếng Việt bằng phương pháp học máy Support Vector Machines.

Chương 6: Trình bày một số hình ảnh về hoạt động của chương trình.
Chương 7: Một số nhận xét kết luận và hướng phát triển của đề tài.


3

CHƯƠNG 2: NHỮNG KẾT QUẢ NGHIÊN CỨU LIÊN QUAN
2.1 NHỮNG KẾT QUẢ NGHIÊN CỨU TRONG NƯỚC
Các cơng trình nghiên cứu xử lý ngôn ngữ tự nhiên tập trung chủ yếu ở các nhóm
nghiên cứu và cá nhân thuộc các trường Đại Học Bách Khoa TP.HCM, Đại Học
Khoa Học Tự Nhiên TP.HCM, Đại Học Cơng Nghiệp TP.HCM,…tập trung theo
các hướng chính như Semantic Web, Text Categorization, Text Summarization,
Machine Learning.
Các nghiên cứu này đều tập trung vào việc xử lý và hỗ trợ tiếng Việt, bước đầu đã
có một số kết quả thành cơng nhất định, bao gồm các cơng trình sau:
2.1.1 Trần Ngọc Tuấn. (2001). Phân đoạn từ tiếng Việt dùng Corpus và các mơ
hình thống kê. Luận văn Thạc sĩ, Đại Học Bách Khoa TP.HCM [36].
Tác giả đã dùng mô hình thống kê dựa vào tập ngữ liệu huấn luyện và không
dùng từ điển. Phương pháp huấn luyện dựa vào việc xây dựng các mơ hình Markov
ẩn cấp 1 và cấp 2 (tương ứng với bi-gram và tri-gram), thống kê dựa vào tập ngữ
liệu thơ. Cơng trình đã đạt được kết quả rất khả quan. Tuy nhiên, vì đi theo hướng
thống kê nên để đạt độ chính xác cao thì cần phải tốn nhiều công sức để cập nhật,
bổ sung kho ngữ liệu.
2.1.2 Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phong. (2003). Sử
dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt. In Proceedings
of ICT.rda’03, Hanoi Feb, Việt Nam, pp. 22-23 [29].
Các tác giả trình bày chi tiết thử nghiệm về gán nhãn từ loại cho các văn bản
tiếng Việt bằng cách áp dụng bộ gán nhãn QTAG, một bộ gán nhãn xác suất độc lập
với ngôn ngữ. Các tác giả đã sử dụng hai bộ nhãn với độ mịn khác nhau. Kết quả
đạt độ chính xác ~ 94% đối với bộ nhãn thứ nhất (9 nhãn từ loại và 10 nhãn cho các

loại kí hiệu), trong khi với bộ nhãn thứ hai chỉ đạt tới ~ 85% (48 nhãn từ loại và 10
nhãn cho các loại kí hiệu). Tuy nhiên, để ứng dụng phương pháp gán nhãn này vào
thực tế thì cần phải giải quyết nhiều vấn đề như: giải quyết nhập nhằng sau khi phân


4

đoạn từ nếu có nhiều cách phân tích khác nhau, chưa nhận dạng được các cụm từ là
tên riêng, tên viết tắt…
2.1.3 Nguyễn Quang Châu. (2005). Phân đoạn từ và gán nhãn từ loại cho từ
trong tiếng Việt. Trong Đề tài trọng điểm cấp nhà nước “Viet Nam Semantic
Web” (KC01-21) do PGS TS. Cao Hoàng Trụ làm chủ nhiệm đề tài [28].
Tác giả đã sử dụng mơ hình thống kê N-Gram dựa vào tập ngữ liệu huấn luyện để
phân đoạn từ và gán nhãn từ loại bằng phương pháp xác suất cho các từ trong văn
bản tiếng Việt. Cơng trình đã đạt được độ chính xác trên 90%, cũng như với tốc độ
xử lý khá nhanh, có thể áp dụng cho giai đoạn tiền xử lý trong các hệ thống xử lý
tiếng Việt khác như tóm tắt văn bản (Text Summarization), truy cập thơng tin
(Information Retrieval), rút trích thơng tin (Information Extraction),... Thành công
của tác giả là đã xây dựng được kho ngữ liệu huấn luyện tiếng Việt tương đối lớn
khoảng 72.000 từ với một tập gồm 49 từ loại ở 10 miền giới hạn nhằm phục vụ cho
các công trình nghiên cứu khác.
2.1.4 Lại Thị Hạnh. (2002). Trích cụm danh từ tiếng Việt nhằm phục vụ cho
các hệ thống tra cứu thông tin đa ngôn ngữ. Luận văn Thạc sĩ, Đại Học Khoa
Học Tự Nhiên TP.HCM [18].
Đây được coi là một trong những đề tài đầu tiên trong việc rút trích các cụm danh
từ trong văn bản tiếng Việt. Tác giả đã sử dụng các phương pháp học dựa trên các
luật biến đổi (TBL) để xây dựng tập luật biến đổi dựa trên ngữ cảnh phục vụ cho
việc xác định cụm danh từ. Cơng trình đã đạt được độ chính xác khoảng 75%. Tuy
nhiên để cơng trình có thể ứng dụng được vào thực tế, làm nền tảng cho các hệ
thống xử lý tiếng Việt thì phải tốn thêm nhiều công sức để bổ sung kho ngữ liệu

huấn luyện cũng như các luật ngữ pháp nhằm đạt được kết quả tốt hơn.


5

2.2 NHỮNG KẾT QUẢ NGHIÊN CỨU NƯỚC NGOÀI
Nhiều kết quả nghiên cứu theo nhiều hướng tại các trường Đại học ở Mỹ,
Canada, Châu Âu, Nhật Bản, Trung Quốc, Hàn Quốc, Đài Loan đã được công bố
rộng rãi trên Internet, bao gồm các cơng trình tiêu biểu sau:
2.2.1 Cheng, Alex. (2002). Base Noun Phrase Chunking with Support Vector
Machines. Final Project Report, Cornell University, Ithaca, New York, USA [4].
Tác giả đã sử dụng phương pháp phân loại mẫu (pattern classification) Support
Vector Machines để xác định cụm danh từ cơ bản trong tiếng Anh. Bằng cách sử
dụng các thuộc tính của từ cùng với các từ lân cận như giá trị từ loại, nhãn từ loại và
giá trị của từ được in hoa cộng với cách biểu diễn IOB, tác giả cho thấy cơng trình
đạt được độ chính xác khoảng 94%. Đây là một kết quả rất khả quan nhưng để đạt
được kết quả đó thì phải tốn rất nhiều cơng sức để xây dựng kho ngữ liệu huấn
luyện mà theo tác giả thì chứa khoảng 10.000 câu với khoảng 211.000 từ.
2.2.2 Ong, Thian-Huat. and Chen, Hsinchun. (1999). Updateable PAT-Tree
Approach to Chinese Key Phrase Extraction using Mutual Information: A
Linguistic Foundation for Knowledge Management. In Proceedings of the
Second Asian Digital Library Conference, Taipei, Taiwan, pp. 63-84 [30].
Nhóm tác giả đã đề ra phương pháp rút trích tự động các cụm từ khóa trong các
tài liệu tiếng Hoa bằng cách dựa trên PAT-Tree và các thông tin chung cũng như tần
số xuất hiện của các cụm từ trong văn bản. Đây là sự cải tiến của cách tiếp cận trong
[5] mà sự khác nhau đó là cách rút trích các cụm từ dự tuyển bằng việc sử dụng
“stop words” và phương pháp rút trích các cụm từ khóa. Theo thử nghiệm của các
tác giả thì giải thuật này đạt được độ chính xác khoảng 50% (so với giải thuật chưa
cải tiến là 30%). Cách tiếp cận này đã áp dụng thành công và đạt hiệu quả cao trong
các nghiên cứu thuộc lĩnh vực truy cập thông tin (Information Retrieval) như phân

loại văn bản (Document Classification), lập chỉ mục tài liệu (Book Indexing)…Tuy
nhiên, vì giai đoạn rút trích các cụm từ dự tuyển khơng tập trung theo hướng ngơn
ngữ, chỉ rút trích các cụm từ có độ dài bất kỳ không chứa “stop words”, nên giải


6

thuật vẫn còn hạn chế về mặt ngữ nghĩa. Mặt khác, các tác giả chỉ thử nghiệm giải
thuật trên phần tóm tắt của văn bản (abstract) chứ khơng phải tồn văn bản nên độ
chính xác sẽ giảm khi áp dụng cho cả văn bản.
2.2.3 Frantzi, K., Ananiadou, S. and Mina, H. (2000). Automatic Recognition
of Multi-word Terms: the C-value/NC-value Method. International Journal on
Digital Library, pp. 115-130 [11].
Các tác giả tiếp cận vấn đề theo hướng kết hợp giữa ngôn ngữ và thống kê để rút
trích tự động các cụm từ khóa trong các tài liệu tiếng Anh. Trong giai đoạn rút trích
các cụm từ dự tuyển, các tác giả sử dụng các mẫu cụm danh từ hoặc cụm tính từ
thường dùng dựa trên từ loại nhưng số lượng các mẫu này vẫn khá khiêm tốn. Cịn
trong giai đoạn rút trích các cụm từ khóa, họ dựa trên các thuộc tính đã được thống
kê của các cụm từ khóa như tần số xuất hiện trong kho ngữ liệu, độ dài, tần số xuất
hiện trong các cụm từ dài hơn,…Qua thử nghiệm công trình đã đạt được kết quả
tương đối tốt, độ chính xác chấp nhận được là khoảng 64% và được đánh giá cao.
Tuy nhiên, để có thể ứng dụng vào thực tế thì cần phải cải tiến hoặc bổ sung giải
thuật trong giai đoạn xử lý dựa trên ngôn ngữ để rút trích được các cụm từ mang
ngữ nghĩa tốt hơn.
2.2.3 Medelyna, Olena. (2005). Automatic Keyphrase Indexing with a DomainSpecific Thesaurus. MSc thesis, University of Waikato, New Zealand [20].
Tác giả đã cải tiến giải thuật KEA [10] trong giai đoạn rút trích các cụm từ dự
tuyển bằng cách dựa vào một từ điển đồng nghĩa theo hướng kết hợp giữa ngôn ngữ
và thống kê bao gồm các bước sau: Đầu tiên xác định các cụm từ khóa dự tuyển
bằng phương pháp từ vựng và tính các giá trị của chúng dựa trên các thuộc tính
TFxIDF (Term Frequency x Inverse Document Frequency), First occurrence,

Length và Node degree của chúng, sau đó sử dụng giải thuật học máy (Naïve
Bayes) dựa trên kho ngữ liệu đã được xác định cụm từ khóa mẫu để dự đoán và rút
ra bảng các giá trị xác suất tiêu chuẩn phục vụ cho giai đoạn rút trích các cụm từ
khóa sau này. Theo thử nghiệm của tác giả thì giải thuật này đạt được độ chính xác


7

khoảng 28.3% (so với giải thuật KEA chưa cải tiến là 13.3%). Đây là giải thuật đơn
giản, dễ thiết kế, cài đặt, thời gian huấn luyện nhanh chóng mà mang lại hiệu quả
tương đối cao nhưng muốn ứng dụng được vào thực tế thì cần phải cải tiến thêm ở
cả hai giai đoạn rút trích các cụm từ dự tuyển và rút trích các cụm từ đặc trưng.


8

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT TIẾNG VIỆT
Trong chương này, chúng ta sẽ tìm hiểu cơ sở lý thuyết về ngữ pháp tiếng Việt
nhằm làm nền tảng kiến thức cho các giai đoạn về sau. Tuy nhiên, vì mục tiêu của
luận văn là xác định các cụm từ đặc trưng trong câu tiếng Việt, hỗ trợ về mặt ngữ
nghĩa cho các bộ máy tìm kiếm thơng tin, các hệ thống trả lời tự động nên trong các
cơng trình nghiên cứu thực hiện tóm tắt văn bản ([14], [20], [30]), mặc dù không
phù hợp quan điểm với mục tiêu này nhưng tất cả đều khẳng định tính hiệu quả
trong việc tập trung xác định các cụm từ là cụm danh từ. Mặt khác, cụm danh từ
ln đóng vai trị quan trọng trong các tác vụ truy xuất, rút trích và tìm kiếm thơng
tin [4], (Phụ lục D, E). Thêm vào đó, thông qua các thống kê sơ bộ (Phụ lục B, C) ta
cũng thấy rằng trong các câu truy vấn dưới dạng câu tường thuật hoặc câu hỏi thì
các cụm danh từ đều là các cụm từ đặc trưng. Do đó, trong chương này, do giới hạn
của luận văn nên chúng ta chỉ tập trung vào việc tìm hiểu từ loại và cấu trúc cụm
danh từ trong tiếng Việt.



9

3.1 TỪ LOẠI
Theo các nhà Việt ngữ học [6], [24], [25], [38] thì có thể chia từ loại tiếng Việt
thành 8 loại, xếp thành 2 nhóm: thực từ và hư từ.

ĐẶC ĐIỂM
CÁC LOẠI

Ý NGHĨA

CHỨC VỤ

TỪ VỰNG

NGỮ PHÁP

1. Danh từ
THỰC TỪ

2. Động từ
3. Tính từ

Có khả năng đảm nhiệm
Có ý nghĩa thực

các chức vụ ngữ pháp
trong câu


4. Đại từ
5. Phụ từ
HƯ TỪ

6. Kết từ
7. Trợ từ

Chỉ có tác dụng nối kết
Khơng có ý nghĩa thực

mà khơng tự mình làm
thành phần câu

8. Cảm từ
Bảng 3.1: Phân loại từ

3.1.1 Danh từ
3.1.1.1 Đặc trưng
Ý nghĩa từ vựng: là ý nghĩa thực thể. Hiểu theo nghĩa rộng, ý nghĩa thực
thể là ý nghĩa chỉ sự vật, chỉ khái niệm về sự vật và những gì được “sự vật hóa”.
Khả năng kết hợp: có khả năng kết hợp với đại từ chỉ định: này, nọ,
ấy,…


10

Chức năng cú pháp: có đầy đủ chức năng cú pháp của thực từ. Trong mối
quan hệ với động từ, tính từ, nét riêng biệt của danh từ là ít được dùng làm vị ngữ
đặt trực tiếp sau chủ ngữ của câu.

3.1.1.2 Phân loại
a. Danh từ chỉ sự vật đơn thể (danh từ đơn thể)
Biểu thị các sự vật đơn thể như: bàn, ghế, bị, người,…
Ví dụ:

một cái bàn
hai ghế
ba con bò

b. Danh từ chỉ sự vật tổng thể (danh từ tổng thể)
Biểu thị các sự vật tồn tại thành từng tổng thể như: thợ thuyền, quần áo,
binh lính,…
Ví dụ:

Tơi vơ quần áo mặc vào người.

Khả năng kết hợp của danh từ tổng hợp với danh từ chỉ số lượng là rất
hạn chế. Danh từ tổng hợp không đứng sau các danh từ chỉ loại hay chỉ đơn vị rời
(như: cái, con, chiếc,…).
Ví dụ:

Có thể nói : “hai mươi căn nhà ấy”
nhưng khơng thể nói : “hai mươi căn nhà cửa ấy”
Có thể nói : “tồn thể quần chúng”
nhưng khơng thể nói: “ba quần chúng”

Tuy vậy, đáng chú ý là có những danh từ khi thì dùng theo nghĩa tổng
thể, khi thì dùng theo nghĩa đơn thể.
Ví dụ:


“tồn thể giáo viên” hay “hai đồng chí giáo viên”


11

c. Danh từ chỉ loại thể sự vật (danh từ loại thể)
Bao gồm các từ như: cái, con, tấm, miếng, mảnh, ơng, bà, chú, bác, anh,
chị,...
Ví dụ:

cái nhà, cái áo, chị giáo viên,…

d. Danh từ chỉ đơn vị sự vật (danh từ đơn vị)
Bao gồm các từ như: lít, mẫu, cân, tấn, sào,…
Ví dụ:

hai lít nước
một mẫu đất

Ngồi ra cịn có những danh từ đơn vị khác:
- Danh từ đơn vị tính tốn, đo lường ước lượng, khơng chính xác, như:
nắm, ngụm, nồi,…
Ví dụ:

một nắm muối
hai ngụm rượu
mấy nồi cơm

- Danh từ đơn vị thời gian như: giờ, phút, giây, lúc,…
Ví dụ:


một giờ nghỉ
mấy phút suy nghĩ

- Danh từ đơn vị tổ chức như: làng, xã, tỉnh, khu, lớp, đoàn, tổ,…
Ví dụ:

một tổ cơng nhân

e. Danh từ chỉ sự vật trừu tượng (danh từ trừu tượng)
Xét về mặt nghĩa, sự vật trừu tượng đây là những khái niệm như: tình
cảm, ý nghĩ, quyền lợi, tư tưởng, thái độ, quan điểm, lập trường, trí tuệ,…
Ví dụ:

hai thái độ
những ý nghĩ


12

f. Danh từ chỉ số lượng sự vật (danh từ số lượng)
Được biểu thị bằng những từ như: một, hai, ba, mười, một trăm, những,
các, vài, mấy, tất cả, số đơng, phần lớn,…
Ví dụ:

hai thái độ
những ý nghĩ

g. Danh từ chỉ vị trí (danh từ vị trí)
Danh từ vị trí là các từ: trên, dưới, trong, ngoài, sau, trước,…chỉ các vị

trí hoặc “phương vị”.
Ví dụ:

có thể qn ta vào hướng ấy hoặc nghi binh vào hướng ấy.


13

Các lớp con danh từ
Danh từ riêng
Danh từ đơn thể
Danh từ tổng thể

Danh từ loại thể

Ví dụ
Nguyễn Đình Chiểu, MêKơng,
Trà Vinh,…
bàn, ghế, bị, người,…
bàn ghế, nhà cửa, trâu bị, máy
móc, mắm muối,…
cái, con, tấm, miếng, mảnh, ơng,
bà,…
lít, mẫu, cân, tấn,…
nắm, ngụm, nồi...

Danh từ chung

Danh từ đơn vị


giờ, phút, giây, lúc…
làng, xã, tỉnh, khu, lớp, đoàn,
tổ…

Danh từ trừu tượng

Danh từ số lượng

Danh từ vị trí

tư tưởng, thái độ, quan điểm, lập
trường,…
một, hai, ba, mười, một trăm
những, các,…
trên, dưới, trong, ngoài, sau,
trước…

Bảng 3.2: Phân loại danh từ


14

3.1.2 Động từ
3.1.2.1 Đặc trưng
Ý nghĩa từ vựng: biểu thị ý nghĩa khái quát về quá trình. Ý nghĩa quá
trình thể hiện trực tiếp đặc trưng vận động của thực thể. Đó là ý nghĩa hành động. Ý
nghĩa trạng thái được khái quát hóa trong mối liên hệ với vận động của thực thể
trong thời gian và không gian.
Khả năng kết hợp: thường có các phụ từ đi kèm để biểu thị các ý nghĩa
quan hệ có tính tình thái giữa quá trình với cách thức và với các đặc trưng vận động

của q trình trong khơng gian, thời gian và hiện thực. Động từ còn kết hợp được
với thực từ (danh từ) nhằm phản ánh các quan hệ trong nội dung vận động của q
trình.
Chức năng cú pháp: có đầy đủ chức năng cú pháp của thực từ. Nhưng
chức năng phổ biến và quan trọng nhất là làm vị ngữ trong cấu tạo câu, có vị trí trực
tiếp sau chủ ngữ.
3.1.2.2 Phân loại
a. Động từ chỉ những hoạt động có bắc cầu sang sự vật ở ngồi nó (động
từ ngoại động)
Đó là những hoạt động như ăn, viết, đọc, xây dựng, cải tiến,…
Lớp động từ này khi làm thành phần câu thường đòi hỏi kết hợp với thực
từ hay tổ hợp thực từ để khỏi “trống” nghĩa.
Ví dụ:

ăn bánh
viết thư

Đối tượng nói đây là sự vật chịu tác động của hoạt động.
Ví dụ:

ăn bánh
cuốc đất


×