Tải bản đầy đủ (.pdf) (72 trang)

Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.38 MB, 72 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





Nguyễn Ngọc Khương




KẾT HỢP MÔ HÌNH CỰC ĐẠI ENTROPY VÀ HỌC LUẬT
CHUYỂN ĐỔI CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI





LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH







HÀ NỘI - 2014
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ






Nguyễn Ngọc Khương


KẾT HỢP MÔ HÌNH CỰC ĐẠI ENTROPY VÀ HỌC LUẬT
CHUYỂN ĐỔI CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI



Ngành : Công nghệ thông tin
Chuyên ngành : Khoa học máy tính
Mã số : 60 48 01 01



LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH


NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Lê Anh Cường



HÀ NỘI - 2014
i


ii


LỜI CAM ĐOAN


‘Tôi xin cam đoan rằng, công trình này là sản phẩm nghiên cứu của riêng cá nhân tôi.
Các kết quả trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công
trình nào trước đây’.

Hanoi 20/10/2014
Signed

iii

MỤC LỤC
Trang
TRANG BÌA PHỤ i
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH MỤC HÌNH vi
DANH MỤC BẢNG vii
LỜI CẢM ƠN viii
TÓM TẮT ix
MỞ ĐẦU x
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 1
1.1. Bài toán gán nhãn từ loại 1
1.2. Các ứng dụng của gán nhãn từ loại 3
1.3. Các nghiên cứu liên quan 5
1.3.1. Phương pháp dựa trên luật 6
1.3.2. Phương pháp dựa trên tiếp cận học máy thống kê 6
1.3.3. Các hướng nghiên cứu khác 7

1.3.3.1. Gán nhãn đa ngôn ngữ 7
1.3.3.2. Kết hợp các thông tin thống kê 8
1.3.3.3. Mở rộng mô hình ngôn ngữ trong hướng tiếp cận thống kê 8
1.3.4. Gán nhãn từ loại tiếng Việt 8
1.3.4.1. Các nghiên cứu dựa trên phương pháp hệ luật 9
1.3.4.2. Các nghiên cứu dựa trên phương pháp học máy 9
1.3.4.3. Các nghiên cứu dựa trên phương pháp lai 10
1.4. Đặt vấn đề 10
1.5. Mục tiêu của đề tài 11
1.6. Đối tượng và phương pháp nghiên cứu 11
1.7. Những đóng góp của luận văn 12
1.8. Bố cục của luận văn 12
CHƯƠNG 2. KIẾN THỨC CƠ SỞ 13
2.1. Ngữ liệu 13
2.1.1. Một số khái niệm cơ sở 13
2.1.2. Ngữ liệu Penn Treebank 14
iv

2.1.2.1. Miêu tả 14
2.1.2.2. Quá trình gán nhãn từ loại 15
2.1.3. Ngữ liệu Viet Treebank 15
2.1.3.1. Miêu tả 15
2.1.3.2 Quá trình gán nhãn từ loại 15
2.2. Một số phương pháp học máy 17
2.2.1. Mô hình cực đại hóa Entropy 17
2.2.1.1. Khái niệm MEM 17
2.2.1.2. Nguyên lý cực đại hóa Entropy 17
2.2.1.3. Mô hình xác suất 18
2.2.1.4. Hạn chế của mô hình MEM 19
2.2.2. Mô học học luật chuyển đổi 20

2.2.2.1. Sơ đồ của giải thuật TBL 20
2.2.2.2. Mô tả các giải thuật trong mô hình 21
2.2.2.3. Trình bày giải thuật 23
2.2.2.4. Giải thuật TBL nguyên thuỷ 23
2.2.2.5. Kết luận 24
CHƯƠNG 3. ĐỀ XUẤT MÔ HÌNH GÁN NHÃN TỪ LOẠI 25
3.1. Đề xuất mô hình 25
3.1.1. Mô hình cơ sở 25
3.1.1.1. Huấn luyện hệ thống 26
3.1.1.2. Quá trình gán nhãn 26
3.1.2. Mô hình kết hợp 27
3.1.3.1. Quá trình huấn luyện mô hình kết hợp 29
3.1.3.2. Quá trình kiểm tra 33
3.2. Mô hình ngôn ngữ 34
3.2.1. Biểu diễn ngữ cảnh 34
3.2.2. Lựa chọn đặc trưng 35
3.2.3. Lựa chọn tập mẫu 38
3.3. Tiếp cận xây dựng bộ gán nhãn từ loại 39
3.3.1. Xử lý dữ liệu 39
3.3.2. Cấu hình để thực hiện 40
3.3.3. Huấn luyện 41
3.3.4. Gãn nhãn từ loại 42
v

CHƯƠNG 4. THỰC NGHIỆM 43
4.1. Mô tả thực nghiệm 43
4.1.1. Dữ liệu thực nghiệm 43
4.1.1.1. Peen TreeBank 43
4.1.1.2. Viet TreeBank 46
4.1.2. Phần cứng 48

4.1.3. Phần mềm 48
4.2. Phương pháp thực nghiệm 49
4.3. Kết quả thực nghiệm 50
4.3.1. Các tham số đánh giá thực nghiệm 50
4.3.2. Kết quả 50
4.3.2.1. Phương pháp Holdout 50
4.3.2.2. Phương pháp K-Fold Cross-Validation 51
KẾT LUẬN 53
DANH MỤC CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN LUẬN VĂN 54
TÀI LIỆU THAM KHẢO 55


vi

DANH MỤC HÌNH

Hình 1-1: Nhập nhằng từ loại trong câu Tiếng Anh với 8 nhãn cơ bản 1
Hình 1-2: Các bước xử lý ngôn ngữ tự nhiên [11] 3
Hình 1-3: Một số phương pháp giải quyết bài toán gán nhãn từ loại [3] 5
Hình 2-1: Sơ đồ quá trình làm ngữ liệu 16
Hình 2-2: Sơ đồ hoạt động của giải thuật TBL 20
Hình 2-3: Sơ đồ quá trình huấn luyện của giải thuật TBL 22
Hình 3-1: Mô hình kết hợp cho gán nhãn từ loại 28
Hình 3-2: Sơ đồ mô tả quá trình huấn luyện ở giai đoạn thứ nhất 30
Hình 3-3: Sơ đồ mô tả quá trình huấn luyện ở giai đoạn thứ hai 32
Hình 3-4: Sơ đồ mô tả quá trình kiểm tra 33
Hình 3-5: Một số mẫu luật chuyển cơ bản 39
Hình 3-6: Các mẫu luật chuyển cho Tiếng Anh 39
Hình 4-1: Các từ không có từ loại 48
Hình 4-2: Câu không phân biệt từ tố 48



vii

DANH MỤC BẢNG
Bảng 3-1: Một số đặc trưng history h
i
hiện tại trong tiếng Việt 36
Bảng 3-2: Một số đặc trưng của từ hiếm 36
Bảng 3-3: Dữ liệu mẫu 37
Bảng 3-4: Một số đặc trưng rút ra từ h
4
trong bảng 3-3 37
Bảng 3-5: Một số đặc trưng rút ra từ h
3
trong bảng 3.3 37
Bảng 3-6: Một số thuộc tính cho mô hình cực đại hóa Entropy 41
Bảng 4-1: Tần suất xuất hiện nhãn từ loại trong ngữ liệu Peen Treebank [48] 44
Bảng 4-2: Một số từ có đa nhãn từ loại trong ngữ liệu Penn Treebank 44
Bảng 4-3: Bảng nhãn từ loại trong Penn Treebank 45
Bảng 4-4: Tần suất xuất hiện nhãn từ loại trong ngữ liệu Viet Treebank 46
Bảng 4-5: Một số từ có đa nhãn từ loại 46
Bảng 4-6: Nhãn từ loại trong Viet Treebank 47


viii

LỜI CẢM ƠN



Trước tiên em xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS Lê Anh Cường, người thầy
đã luôn tận tình hướng dẫn, chỉ bảo và tạo điều kiện để em hoàn thành luận văn này.
Em xin gửi lời cảm ơn sâu sắc tới nhóm xây dựng ngữ liệu Viet Treebank, đặc biệt là
thầy Nguyễn Phương Thái, người đã hướng dẫn và cung cấp tài liệu, dữ liệu cần thiết
cho em trong quá trình hoàn thành luận văn.
Em xin chân thành cảm ơn Khoa Công nghệ thông tin, trường Đại học Công nghệ, Đại
học Quốc gia Hà Nội đặc biệt là các Thầy(Cô) trong bộ môn Khoa học máy tính đã tạo
điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu và thực hiện luận văn.
Tôi cũng xin gửi lời cảm ơn chân thành tới Ban chủ nhiệm Khoa Toán Tin, trường Đại
học Hải Phòng đã tạo mọi điều kiện thuận lợi để tôi có điều kiện học tập và nâng cao
trình độ chuyên môn.
Một phần không thể thiếu trong cuộc sống, tôi xin gửi lời cảm ơn đến các anh chị em,
bạn bè đồng nghiệp đã quan tâm, động viên và giúp đỡ tôi.
Và cuối cùng nhưng không kém phần quan trọng, tôi xin bày tỏ lòng chân thành và biết
ơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn bên cạnh và động
viên tôi trong suốt quá trình thực hiện luận văn tốt nghiệp này.
Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi năng lực và khả năng cho phép
nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong nhận được sự tận tình
chỉ bảo của quý Thầy (Cô) và các bạn.
Hà Nội, ngày 20 tháng 10 năm 2014

Nguyễn Ngọc Khương



ix

TÓM TẮT



Gán nhãn từ loại - Part-Of-Speech (POS) Tagging là một trong những bài toán cơ
bản của xử lý ngôn ngữ tự nhiên. Nhiệm vụ của bài toán là xây dựng một mô hình gán
nhãn từ loại để sao cho từ một câu đầu vào, ta phải thu được chuỗi đầu ra với các từ đã
được gán nhãn từ loại tương ứng. Trong lĩnh vực xử lý ngôn ngữ tự nhiên, gán nhãn từ
loại là pha cơ bản và quan trọng được sử dụng phục vụ cho các ứng dụng khác như:
Phân tích cú pháp, Phân tích ngữ nghĩa, Dịch máy,
Theo [1], tiếng việt là ngôn ngữ phổ biến thứ 12 trên thế giới và là ngôn ngữ chính
được sử dụng tại Việt Nam với trên 85% dân số trong cả nước và gần 3 triệu Việt kiều
ở nước ngoài. Sự đa dạng và phong phú của ngữ pháp tiếng Việt bản chất xuất phát từ
đặc trưng cấu tạo của ngôn ngữ. Ở Việt Nam đã có một số nghiên cứu về bài toán gán
nhãn từ loại tuy nhiên độ chính xác vẫn còn thấp hơn một số nghiên cứu trên các ngôn
ngữ thông dụng khác như tiếng Anh, tiếng Trung, bên cạnh một số đặc trưng ngôn ngữ
cho bài toán này cũng chưa được phân tích kỹ. Trong những năm gần đây, học máy đã
và đang trở thành một phương pháp hữu hiệu trong xử lý ngôn ngữ tự nhiên. Việc tìm
hiểu các phương pháp gán nhãn từ loại trong tiếng Anh cho thấy hướng tiếp cận dựa
theo phương pháp học máy cho kết quả tốt hơn các phương pháp dựa trên luật. Quan sát
của chúng tôi cho thấy rằng việc kết hợp học máy thống kê và phương pháp dựa trên
luật sẽ tận dụng được ưu điểm của hai cách tiếp cận này.
Vì vậy luận văn tập trung nghiên cứu việc kết hợp mô hình cực đại hóa Entropy
(Maximum Entropy Model - MEM) và mô hình học luật chuyển đổi (Transformation-
Based Learning - TBL) để giải quyết bài toán gán nhãn từ loại cho ngữ liệu Treebank
cho tiếng Việt và tiếng Anh. Kết quả thực nghiệm gán nhãn từ loại trên mô hình kết hợp
cho thấy độ chính xác đối với tiếng Việt là khoảng 95.50% (tăng khoảng 1.18%) và
tiếng Anh là 97.40% (tăng khoảng 0.12%) so với phương pháp dựa trên mô hình cực
đại hóa Entropy. Những kết quả của luận văn cho thấy rằng, việc áp dụng mô hình kết
hợp cho bài toán gán nhãn từ loại đem lại hiệu quả tốt hơn đối với kho ngữ liệu chưa
đầy đủ như tiếng Việt.
x

MỞ ĐẦU



Gán nhãn từ loại (Part-of-speech tagging – POS tagging) cho một văn bản là cách
thức xác định từ loại chính xác cho các từ trong văn bản đó. Đây là vấn đề rất quan trọng
trong lĩnh vực xử lý ngôn ngữ tự nhiên, là bước tiền xử lý của nhiều bài toán và một số
hệ thống thông minh khác, tuy nhiên các nghiên cứu về bài toán này đối với một số ngôn
ngữ biến hình đang dần tiến đến tới hạn và đối với không ngữ không biến hình như
Tiếng Việt vẫn còn ở giai đoạn đầu và cần được tiếp tục cải thiện. Với tầm quan trọng
và nhu cầu thực tiễn cũng như những khó khăn của bài toán gán nhãn từ loại, vì thế
trong luận văn này chúng tôi chọn đề tài “Kết hợp mô hình cực đại Entropy và học luật
chuyển đổi cho bài toán gán nhãn từ loại”. Đóng góp của luận văn là việc tìm hiểu,
nghiên cứu và đề xuất mô hình kết hợp phục vụ nhiệm vụ gán nhãn từ loại. Trong mô
hình kết hợp, MEM đóng vai trò làm mô hình cơ sở và mô hình TBL đóng vai trò là
thành phần sửa sai cho mô hình cở. Thực nghiệm được tiến hành trên hai kho ngữ liệu
điển hình là Penn Treebank và Viet Treebank cho thấy mô hình kết hợp đem lại kết quả
khả quan đối với ngôn ngữ chưa có kho dữ liệu đầy đủ. Các kết quả này sẽ đóng góp
một phần hữu ích trong việc tiến hành các nghiên cứu ở mức cao hơn như phân tích cú
pháp, dịch máy, tóm tắt văn bản …
Luận văn được tổ chức thành bốn chương chính với nội dung cơ bản như sau:
Chương 1: Khái quát về bài toán gán nhãn từ loại. Chương 1 đưa ra khái niệm, vị
trí và ứng dụng của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên. Cùng với
đó, việc đề cập các nghiên cứu liên quan và phân tích các vấn đề cơ bản của bài toán
gán nhãn từ loại cũng là nội dung quan trọng được đề cập trong chương này.
Chương 2: Kiến thức cơ sở. Trình bày một số khái niệm cơ sở trong bài toán gán
nhãn từ loại, đặc trưng kho ngữ liệu. Nội dung chương cũng giới thiệu hai phương pháp
học máy điển hình cực đại hóa Entropy và mô hình học luật chuyển đổi, được sử dụng
làm mô hình cơ sở khi xây dựng mô hình kết hợp phục vụ nhiệm vụ gán nhãn từ loại.
Chương 3: Giới thiệu mô hình kết hợp mà nhóm tác giả đề xuất cho bài toán gán
nhãn từ loại. Nội dung chương cũng đề cập đề cập quá trình phân tích đặc điểm ngôn
ngữ để lựa chọn mô hình biểu diễn ngữ cảnh, phân tích và trích chọn đặc trưng ngôn

ngữ để xây dựng tập luật mẫu phục vụ cho quá trình học của mô hình đề xuất. Nội dung
xi

chương này cũng đặt nền tảng lý thuyết cho phần cài đặt và thực nghiệm của luận văn.
Chương 4: Thực nghiệm mô hình kết hợp cho bài toán gán nhãn từ loại tiếng Việt,
tiếng Anh và đánh giá kết quả. Chương này trình bày các công việc thực nghiệm mà
luận văn đã tiến hành, bao gồm việc lựa chọn tập đặc trưng và áp dụng mô hình kết hợp
để giải quyết bài toán gán nhãn từ loại. Từ kết quả thực nghiệm, tiến hành đối chiếu, so
sánh và đưa ra một số nhận xét về ưu, nhược điểm của mô hình kết hợp đối với bài toán
gán nhãn từ loại so với mô hình cơ sở và với một số mô hình sẵn có.
Phần kết luận cũng tóm lược các kết quả đã đạt được và đóng góp của luận văn, đồng
thời định hướng một số hướng nghiên cứu trong thời gian tới.

1

CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN
GÁN NHÃN TỪ LOẠI

1.1. Bài toán gán nhãn từ loại
Ngôn ngữ tự nhiên thường hàm chứa sự nhập nhằng ở nhiều mức khác nhau. Nhập
nhằng từ loại là một trong những bài toán điển hình, một từ có thể có nhiều từ loại và
ngược lại. Từ loại chính xác của một từ trong một ngôn ngữ nhất định thường phụ thuộc
vào hai yếu tố: Ngữ cảnh xuất hiện của từ đó và từ vị của từ. Chúng ta hãy xem xét các
ví dụ sau:
1. Keep the book on the top shelf.
2. Ông già đi nhanh lắm.
Những câu trên đều có hơn một nghĩa mà nguyên nhân chính đều xuất phát từ hiện
tượng nhập nhằng từ loại nên muốn xác định được nghĩa đúng của câu trước hết ta cần
xác định chính xác từ loại của các từ. Ví dụ ở câu 1, từ “keep” và từ “book” có thể là
danh từ hoặc động từ; “on” có thể là giới từ, trạng từ hoặc tính từ. Tương tự trong câu

2, từ “già” khi ghép với từ “đi” có thể là động từ, danh từ khi ghép với từ “Ông”. Trong
hầu hết các trường hợp nhập nhằng từ loại có thể được giải quyết bằng cách xem xét
ngữ cảnh xung quanh từ cần gán nhãn. Hình 1.1. cho ta thấy chi tiết sự nhập nhằng từ
loại trong câu tiếng Anh với 8 từ loại cơ bản. Hình chữ nhật có viền nét đơn chứa nhãn
đúng của từ không có sự nhập nhằng về từ loại (từ chỉ có một từ loại). Ngược lại, hình
chữ nhật với viền đôi là nhãn đúng và các nhãn có thể có của các từ tương ứng.






Hình 1-1: Nhập nhằng từ loại trong câu Tiếng Anh với 8 nhãn cơ bản
Gán nhãn từ loại là việc xác định từ loại đúng của mỗi từ trong câu, tức là xác định
một từ loại chính xác của từ dựa vào ngữ cảnh tồn tại và hình vị của từ đó [2], [3]. Về
cơ bản, gán nhãn từ loại thường được thể hiện bằng cách gãn cho mỗi từ trong câu một
“nhãn” trong tập nhãn từ loại cho trước.
Keep the book on the top shelf .
N
DET
N
ADV
DET
ADJ
N
.
V
V
ADJ
N

P
2

Bài toán có thể được mô tả như sau:
 Input: Một câu và tập nhãn từ loại (Ví dụ như chuỗi các từ “Cô ấy cho tôi một
quả Cam.” và tập nhãn từ loại tương ứng với các từ trong câu đó.)
 Output: Một nhãn tốt nhất cho từng từ trong câu đã được đưa ra (Ví dụ: đối với
câu “Cô ấy cho tôi một quả Cam.”, thì nhãn thích hợp tương ứng cho từng từ sẽ
là Cô/N ấy/P cho/E tôi/P một/M quả/Nc cam/N ./.)
Trong lý thuyết xác suất thống kê, bài toán gán nhãn từ loại có thể được định nghĩa
như sau:
Cho một chuỗi bao gồm tập hợp các từ W=w
1

… w
n
, ta cần tìm một chuỗi các từ
loại tương ứng T=t
1

… t
n
, tập từ loại {T} thỏa mãn tính chất
:
1
11

argmax ( | w w )
n
nn

tt
S P t t
(1-1)
Theo [4], quá trình gán nhãn từ loại có thể chia làm 3 bước:
+ Bước 1. Phân tách xâu kí tự thành chuỗi các từ. Tùy theo đặc trưng và quan niệm về
từ vị của ngôn ngữ sẽ quy định cách thức thực hiện đối với giai đoạn này. Chẳng hạn
đối với ngôn ngữ biến hình, việc phân tách từ thường dựa vào các kí hiệu trắng. Tuy
nhiên trên thực tế, vẫn có những từ ghép hay những cụm từ gây ra tranh cãi nhất định
về cách phân tách. Trong khi đó với các ngôn ngữ không biến hình như tiếng Việt thì
dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần
số xuất hiện từ ghép khá cao. Với bài toán gán nhãn từ loại được xem xét trong luận
văn thì chúng tôi giả sử bước này đã được thực hiện “đúng”.
+ Bước 2. Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà
nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho văn bản
đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có
thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ
biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương
ứng của từ đang xét.
+ Bước 3. Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa
chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn tiên nghiệm. Có
nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các
phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là phương pháp Brill [5]
và các phương pháp xác suất [6]. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron
3

[7], các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp [8], gán
nhãn nhiều tầng [9]. Vấn đề cần giải quyết trong bài toán gãn nhãn từ loại chính là hiện
tượng nhập nhằng từ loại, tức là một từ có nhiều nhãn từ loại tiềm năng. Tuy nhiên hầu
hết các từ thường chỉ nhận một từ loại nhất định trong ngữ cảnh cụ thể. Đôi khi, ngay
cả khi có thông tin ngữ cảnh của một số từ nhưng vẫn tiềm tàng yếu tố nhập nhằng khi

đó người ta cần xét đến yếu tố khác như: ngữ cảnh ngoài của câu, hình vị, nguồn gốc,…
1.2. Các ứng dụng của gán nhãn từ loại
Khử nhập nhằng từ loại có vai trò quan trọng trong nhiều ứng dụng xử lý ngôn ngữ
tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên bao gồm các bước: Tiền xử lý văn
bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ nghĩa thì gán nhãn từ loại
thuộc vào giai đoạn đầu của pha phân tích cú pháp. Bước này có nhiệm vụ phân tích câu
thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả các thông tin
về từ đó, như là: Từ loại (part-of-speech), phạm trù ngữ pháp (category), các biến cách
của từ, tiền tố, hậu tố của từ (nếu có) [10] [11]. Gán nhãn từ loại làm cơ sở cho nhiều
ứng dụng khác như: Tổng hợp và nhận dạng tiếng nói [12]; trích rút thông tin [13] [14]
[15]; phân tích cú pháp, dịch máy,…
Hiệu quả của pha gán nhãn từ loại ảnh hưởng dây chuyền tới hầu hết các pha khác
nên việc xây dựng một công cụ gán nhãn từ loại với độ chính xác cao có vai trò quan
trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên.

Hình 1-2: Các bước xử lý ngôn ngữ tự nhiên [11]
4

Hình 1-2 ở trên cho ta mô tả trực quan về vị trí của bài toán gán nhãn từ loại trong
xử lý ngôn ngữ tự nhiên. Như vậy, gán nhãn từ loại là bước tiền xử lý quan trọng cho
các pha tiếp theo trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân
tích ngữ nghĩa. Có thể điểm qua một số ứng dụng tiêu biểu của bài toán gán nhãn từ loại
như dưới đây:
 Tổng hợp, phân tích và nhận dạng tiếng nói, thông tin từ loại của các từ và từ
láng riềng được sử dụng trong mô hình nhận dạng tiếng nói [10]. Từ loại của từ
cho chúng ta biết chức năng của từ loại thuộc về một nhóm nhất định nào đó.

Khôi phục và trích chọn thông tin,
khi hệ thống văn bản đã được gán nhãn, hay
nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong

các hệ thống tìm kiếm thông tin,
bằng cách kết hợp thông tin từ loại và thông
tin truy vấn sẽ làm cho kết quả khôi phục và trích rút thông tin hiệu quả hơn.
Ví dụ, một người nào đó muốn tìm kiếm các tài liệu chứa từ “book” là một
danh từ, thêm thông tin từ loại sẽ hạn chế việc tìm kiếm các tài liệu có từ
“book” là động từ.

 Dịch máy, là một trong những ứng dụng thường được nhắc đến nhiều nhất trên
cơ sở bài toán gán nhãn từ loại là trong hệ thống dịch máy. Cho đến nay, sau hơn
50 năm phát triển, dịch máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng
thời cũng là một bài toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế
giới. Từ đầu thập niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch
máy cơ bản, đó là dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa
trên chuyển đổi. Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng
định được tính hiệu quả và tiềm năng của nó. Trong hệ dịch dựa trên sự chuyển
đổi, khối chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết
định chất lượng hệ dịch. Khối này phụ thuộc rất lớn vào sự chính xác của quá
trình phân tích ở bước trước, trong đó có bộ phận gán nhãn từ loại, giả sử như
các từ trong cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng
bị sai. Xác suất để dịch một từ trong ngôn ngữ nguồn sang một từ trong ngôn ngữ
đích có thực sự hiểu quả hay không phụ thuộc vào nhóm từ loại của từ trong ngôn
ngữ nguồn. Giả sử như hệ thống tiến hành dịch câu sau đây từ tiếng Anh sang
tiếng Việt: “Jet planes fly about nine miles high”, nếu không có sự trợ giúp của
công cụ gán nhãn từ loại, hệ thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có
5

được kết quả tiếng Việt là “Phản lực các phi cơ bay khoảng chín dặm cao”.
Jet
planes
fly

about
nine
miles
high








Phản lực
các phi cơ
bay
khoảng
chín
dặm
cao
Trong khi đó, nếu các từ đã được gán nhãn từ loại một cách chính xác, ta sẽ có
khả năng cao nhận được một câu tiếng Việt hợp lý hơn rất nhiều: “Các phi cơ
phản lực bay cao khoảng chín dặm”
Jet
planes
fly
about
nine
miles
high



Các phi cơ
phản lực
bay
cao
khoảng
chín
dặm
1.3. Các nghiên cứu liên quan
Bài toán gán nhãn từ loại là một trong những bài toán cơ bản trong xử lý ngôn ngữ
tự nhiên và được quan tâm từ rất sớm. Những nghiên cứu nổi bật thời kỳ đầu vào khoảng
thập niên 60 và 70 chủ yếu dựa trên hệ luật.

Hình 1-3: Một số phương pháp giải quyết bài toán gán nhãn từ loại [3]
Hình 1-3 cho thấy có nhiều khái niệm và phương pháp đã được giới thiệu để cải thiện
chất lượng gán nhãn từ loại trên nhiều ngôn ngữ khác nhau. Mặc dù cách phân loại là
tương đối tuy nhiên dựa trên cách thực hiện ta có thể chia thành hai nhóm chính như sau
[16]: Phương pháp dựa trên luật, phương pháp dựa trên tiếp cận học máy thống kê. Ngoài
6

ra ngày nay khi các hướng nghiên cứu trên dần đi đến tới hạn thì phương pháp lai được
coi là một trong số những phương pháp khả thi đem lại những kết quả tốt hơn.
1.3.1. Phương pháp dựa trên luật
Vấn đề gán nhãn từ loại được đề cập từ cuối thập niên 60. Các bộ gán nhãn dựa trên
luật ở thời kỳ đầu thường được thiết kế một cách thủ công, sau đó các luật được tích hợp
thêm các yếu tố tri thức về ngôn ngữ và được thiết kế bởi các nhà ngôn ngữ học. Điển
hình cho cách tiếp cận này là công cụ TAGGIT [ 1 7 ] , được sử dụng để gán nhãn cho
kho ngữ liệu Brown. Từ đó cho đến nay đã có thêm rất nhiều nỗ lực đáng kể nhằm nâng
cao độ chính xác và hiệu suất tuy nhiên các kết quả đạt được của công cụ này còn khá
hạn chế. Gần đây các luật được xây dựng dựa vào ngữ cảnh chứa từ đang xét nhằm loại

bỏ nhập nhằng nếu từ đó có nhiều nhãn từ loại khả thi. Đại diện tiêu biểu cho phương
pháp này là bộ gán nhãn từ loại cho tiếng Anh ENGTWOL [18]. Tuy nhiên, mỗi luật
trên đều chứa một số lượng lớn các ngoại lệ. Thậm chí ngay cả khi tích hợp tri thức
chuyên gia vào các luật để tìm cách giải quyết hết các ngoại lệ mà họ nghĩ đến thì vẫn
tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực nghiệm. Mặt
khác khi lực lượng của tập luật càng lớn thì nguy cơ xảy ra hiện tượng mâu thuẫn giữa
các luật là càng cao. Hơn nữa, một hệ thống luật dù rất đồ sộ cũng khó có thể bao quát
được hết tất cả các trường hợp ngôn ngữ, vì vậy, hiện nay các phương pháp dựa trên luật
thường được sử dụng bằng cách kết hợp bổ sung với các phương pháp khác [19]. Có thể
kể đến bộ gán nhãn Brill [20] [21] [22] là mô hình kết hợp giữa học máy và luật chuyển
được sử dụng để sửa nhãn từ loại bị sai, ngày nay mô hình này được sử dụng khá
rộng rãi trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên.
1.3.2. Phương pháp dựa trên tiếp cận học máy thống kê
Một phương pháp tiếp cận hiện đại hơn đó hướng tiếp cận học máy thống kê, tư
tưởng chính của phương pháp này là xây dựng mô hình thống kê của ngôn ngữ dựa trên
phương pháp học máy và sử dụng mô hình thống kê để khử nhập nhằng từ loại bằng
cách chọn từ loại có khả năng phù hợp nhất với từ đang xét. Mô hình thống kê của
ngôn ngữ thường được xây dựng từ ngữ liệu đã được gán nhãn từ loại chuẩn. Đối với
bài toán gãn nhãn từ loại thì mô hình thống kê cần xây dựng dựa trên số lần xuất hiện
cùng nhau của từ và từ loại trong ngữ liệu đồng thời kết hợp với các từ và từ loại láng
7

riềng để tạo thành mô hình xác suất n-gram. Xét trên hướng tiếp cận, phương pháp học
máy thống kê cho bài toán gán nhãn từ loại có thể được chia thành hai loại.
+ Thứ nhất là coi gán nhãn từ loại như là bài toán gán nhãn cho một chuỗi (Sequence
labeling). Các phương pháp phổ biến dựa trên cách tiếp cần này có thể kế đến như: Mô
hình Hidden Markov Model (HMM) [23] [24]; mô hình Conditional Random Fields
(CRF) [25],…
+ Một cách tiếp cận thứ hai là xem bài toán gán nhãn từ loại như bài toán phân loại.
Mỗi từ sẽ được phân vào một trong các lớp là các nhãn từ loại có thể của từ đó dựa vào

thông tin ngữ cảnh là các từ và các nhãn (có thể có) của từ xung quanh. Việc gán nhãn
từ loại cho một câu có N từ là kết quả của N bài toán phân loại trên từng từ. Có nhiều
phương pháp được sử dụng để phân loại, có thể kể đến như: Naïve Bayes [26], Support
Vector Machines (SVM) [27] [28], Cây quyết định (Decision Tree) [29], Mạng noron
(Neural Network) [30] [31], cực đại hóa Entropy(Maximum Entropy Models), …
1.3.3. Các hướng nghiên cứu khác
Gần đây có nhiều công trình nghiên cứu giải quyết bài toán gán nhãn từ loại trên
nhiều ngôn ngữ khác nhau. Các hướng nghiên cứu hiện tại cũng bao gồm việc kết hợp
các thuật toán thống kê và sử dụng nhiều hơn các mô hình ngôn ngữ phức tạp. Hơn nữa
các hướng nghiên cứu cũng đã tập trung vào việc tìm hiểu các tính chất cho các thuật
toán dựa trên đặc trưng để giải quyết bài toán gãn nhãn từ loại. Nội dung phần này sẽ đề
cập một số nghiên cứu điển hình để giải quyết bài toán gán nhãn từ loại.
1.3.3.1. Gán nhãn đa ngôn ngữ
Một trong những vấn đề trọng tâm trong xử lý ngôn ngữ tự nhiên là việc phát triển
các hệ thống xử lý cho nhiều ngôn ngữ. Thông qua việc kế thừa các tính chất của các
ngôn ngữ có sẵn và các tài nguyên phục vụ cho bài toán khử nhập nhằng nhãn từ loại để
hướng đến việc xây dựng các hệ thống gán nhãn từ loại đa ngôn ngữ. Hướng nghiên cứu
này có một số công trình tiêu biểu sau:
+ Học từ kho ngữ liệu huấn luyện nhỏ [32] [33].
+ Mở rộng kích thước tập nhãn từ loại [34] [35].
+ Khai thác đặc trưng hình thái của các ngôn ngữ biến hình [36].
+ Học từ dữ liệu chưa chú thích [37] [38].


8

1.3.3.2. Kết hợp các thông tin thống kê
Thông tin thống kê trên mỗi nhóm đặc trưng sẽ có những hiệu quả tích cực cho một
bài toán cụ thể và cho một số các trường hợp cụ thể trong bài toán đang xét. Việc kết
hợp các công cụ gán nhãn dựa trên thống kê đã được đề xuất trong khá nhiều các nghiên

cứu nhằm đạt được mô hình với độ chính xác cao hơn đặc biệt để khắc phục vấn đề
“thưa dữ liệu” [39]. Bên cạnh đó cũng đã có nhiều phương pháp làm mịn mô hình thống
kê được đề xuất nhằm cải thiện hiệu xuất trong các công cụ gán nhãn từ loại như (Back-
off, linear interpolation,…). Một số nghiên cứu gần đây đã sử dụng một số nguồn thông
tin cho bài toán gán nhãn từ loại. Trong công trình mình [40], Kazama đã xây dựng mô
hình dựa trên sự kết hợp giữ mô hình Markop ẩn (Hidden Markop Model - HMM) với
mô hình cực đại hóa Entropy bằng phương pháp học không giám sát. Quá trình huấn
luyện HMM được thực hiện bởi thuật toán Baum-Welch với ngữ liệu chưa gán nhãn.
Tham số trong HMM được sử dụng như là tập đặc trưng cho mô hình cực đại hóa
Entropy. Hệ thống chỉ cần sử dụng kho ngữ liệu với kích thước nhỏ để thiết lập nhãn
tương ứng với mỗi trạng thái của mô hình.
1.3.3.3. Mở rộng mô hình ngôn ngữ trong hướng tiếp cận thống kê
Gần đây, các nghiên cứu không chỉ giới hạn trọng mô hình n-gram cố định mà mô
hình ngôn ngữ còn được mở rộng ra với các mô hình khác như: n-gram có thứ tự, n-
gram dài, từ không liền kề,…Các mô hình này đã được áp dụng một cách hiệu quả trong
lĩnh vực nhận dạng tiếng nói. Đối với các giai đoạn gán nhãn từ loại và phân tích cú
pháp đã xuất hiện nhiều mô hình biểu diễn ngôn ngữ mới và đã chứng minh được tính
hiệu quả trong các nghiên cứu của Pereira [41] với mô hình Markov tổng hợp; Brants
[42] với mô hình cây đoán hậu tố hỗn hợp,…Đặc biệt, trong nghiên cứu của mình nhóm
tác giả Sha, Pereira [43] và Shrivastav [39] đã giới thiệu và áp dụng mô hình Shallow
Conditional Random Field (SCRF) để giải quyết khá thành công bài toán khử nhập
nhằng từ loại.
1.3.4. Gán nhãn từ loại tiếng Việt
Quá trình nghiên cứu giải quyết bài toán gán nhãn từ loại cho tiếng Việt gặp không
ít khó khăn do vốn đặc trưng phức tạp của tiếng Việt. Mặt khác do bài toán gán nhãn từ
loại tiếng Việt được nghiên cứu khá muộn so với một số ngôn ngữ biến hình nên việc
nghiên cứu lại có một lợi thế rất lớn nhất định trong việc tiếp thu được những thành quả
nghiên cứu đã được áp dụng cho tiếng Anh nói riêng và một số ngôn ngữ khác trên thế
9


giới nói chung. Nội dung phần này sẽ sơ lược một số nghiên cứu tiêu biểu liên quan đến
bài toán gán nhãn từ loại tiếng Việt.
1.3.4.1. Các nghiên cứu dựa trên phương pháp hệ luật
Nhằm phát huy tác dụng hữu ích của phương pháp dựa trên hệ luật khi được sử dụng
bằng cách kết hợp bổ sung với các phương pháp khác, nhóm nghiên cứu gồm các tác
giả Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ [2] đã đề xuất một phương
pháp gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất. Nhóm
tác giả xây dựng một hệ thống kết hợp bộ gán nhãn tri-gram và bộ gán nhãn dựa trên
văn phong. Phương pháp gán nhãn từ loại dựa trên văn phong thực chất là căn cứ vào
cách thể hiện của văn bản trong một ngữ cảnh cụ thể để xác định từ loại cho các từ, điều
này bao hàm việc xác định phải đảm bảo các luật văn phạm của các từ trong câu. Để xây
dựng hệ thống luật này, nhóm tác giả dựa vào JAPE (Java Annotation Patterns Engine),
hệ thống luật gồm trên 270 luật để xác định cho 48 từ loại (danh từ riêng, đại từ xưng
hô, danh từ loại thể, ) và các luật để xác định các kiểu ngày tháng năm (date). Phương
pháp dựa trên văn phong áp dụng các luật xác định danh từ riêng, trên cơ sở các danh từ
riêng được xác định, tiếp tục áp dụng các luật để xác định 48 nhãn từ loại còn lại.
Nhóm các tác giả tiến hành thử nghiệm trên một bộ dữ liệu khoảng hơn 70.000 từ
thuộc các văn bản về lĩnh vực văn học, báo chí Nghiên cứu thực nghiệm sử dụng tập
nhãn gồm 48 nhãn từ loại với 10 miền giới hạn.
Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác ~80%
nếu chỉ dùng phương pháp gán nhãn bằng xác suất (P1) và đạt ~90% nếu dùng phương
pháp gán nhãn dựa trên văn phong kết hợp với phương pháp xác suất (P2).
1.3.4.2. Các nghiên cứu dựa trên phương pháp học máy
Nghiên cứu theo hướng giải quyết bài toán gán nhãn từ loại tiếng Việt bằng phương
pháp xác suất, nhóm nghiên cứu của tác giả Nguyễn Thị Minh Huyền [44] đã sửa đổi
phần mềm QTAG được xây dựng cho tiếng Anh (do nhóm nghiên cứu Corpus Research
thuộc trường đại học tổng hợp Birmingham phát triển) để thích nghi với việc thao tác
trên văn bản tiếng Việt, cũng như cho phép sử dụng từ điển từ vựng có thông tin từ loại
bên cạnh việc sử dụng kho văn bản đa gán nhãn. Bộ gán nhãn QTAG là một bộ gán nhãn
tri-gram, sử dụng phương pháp gán nhãn xác suất, QTAG sử dụng từ điển từ vựng gồm

37454 mục từ, mỗi mục từ có kèm theo dãy tất cả các từ loại mà nó có thể có. VNQTAG
được huấn luyện và kiểm thử bằng các văn bản thuộc một số thể loại khác nhau (văn
10

học Việt Nam/nước ngoài, khoa học, báo chí), bao gồm 63732 lượt từ, sử dụng hai bộ
nhãn từ loại với độ mịn khác nhau: bộ thứ nhất gồm 9 nhãn từ vựng và 10 nhãn cho các
loại kí hiệu, bộ nhãn thứ hai gồm 48 nhãn từ vựng và 10 nhãn cho các loại kí hiệu. Kết
quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác ~94% đối với
bộ nhãn thứ nhất, trong khi với bộ nhãn thứ hai chỉ đạt tới ~85%.
1.3.4.3. Các nghiên cứu dựa trên phương pháp lai
Một nghiên cứu khác cũng dựa trên nền tảng của phương pháp học máy là công trình
xây dựng công cụ gán nhãn từ loại tiếng Việt JvnTagger, đây là nghiên cứu nằm trong
khuôn khổ đề tài cấp nhà nước VLSP được thực hiện bởi nhóm các tác giả Phan Xuân
Hiếu, Nguyễn Cẩm Tú [45]. JvnTagger dựa trên mô hình CRF và mô hình cực đại hóa
Entropy và được cài đặt bằng ngôn nhữ Java. Công cụ này được huấn luyện bằng dữ
liệu khoảng 10.000 câu của Viet Treebank và sử dụng tập nhãn Viet Treebank. Theo các
báo cáo kỹ thuật mà nhóm tác giả cung cấp thì thử nghiệm với phương pháp 5-fold cross
validation cho thấy kết quả gán nhãn với CRFs có thể đạt giá trị F1 lớn nhất là 90.40%
và MaxEnt đạt giá trị F1 lớn nhất là 91.03%.
Ngoài ra còn có nhiều nghiên cứu khác theo hướng dựa trên phương pháp học máy
để giải quyết bài toán gán nhãn từ loại. Áp dụng phương pháp lai TBL, Ðinh Ðiền và
các cộng sự đã đề xuất một phương pháp gán nhãn từ loại tự động cho Tiếng Việt [46]
bằng việc xây dựng kho ngữ liệu song ngữ Anh-Việt (EVC) với hơn 500.000 câu mà
trong đó hơn 25.000 câu tiếng Việt đã được gán nhãn từ loại chính xác nhờ kết quả liên
kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt (Tập nhãn tiếng Anh sử dụng để
đối chiếu là Brown corpus, kho ngữ liệu này đã được công bố ở Hội nghị Quốc tế về Xử
lý ngôn ngữ APIS02 tại Bangkok, Thái Lan vào 2/2002). Đây chính là điểm nổi bật của
phương pháp gán nhãn từ loại này.
Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng
được quan tâm nghiên cứu, bước đầu đã đạt được một số kết quả khá khả quan. Tuy

nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng đầy thử thách, cùng với đó
là việc các nghiên cứu đã có hầu hết vẫn còn mang tính cá thể, chưa có được sự đối
chiếu so sánh khách quan.
1.4. Đặt vấn đề
Như đã trình bày ở trên, cách tiếp cận học máy thống kê đã cho thấy những ưu điểm
của nó so với các cách tiếp cận dựa trên tiếp cận luật. Cách tiếp cận học máy có thể giải
11

quyết vấn đề này trên quy mô lớn mà không phải quan tâm nhiều đến khía cạnh ngôn
ngữ. Tuy nhiên, các phương pháp tiếp cận học máy thường yêu cầu bộ dữ liệu đã gán
nhãn trước để xây dựng lên mô hình. Dữ liệu huấn luyện càng nhiều thì mô hình thống
kê càng đầy đủ, thiếu ngữ liệu huấn luyện là khó khăn lớn nhất trong cách tiếp cận này
dẫn đến những sai số nhất định trong kết quả thực nghiệm. Đối với tiếng Anh thì bài
toán gán nhãn từ loại đã được giải quyết khá tốt với độ chính xác khá cao >97% [47].
Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình (như tiếng
Trung Quốc, Nhật, Hàn Quốc …), các ngôn ngữ của Nga, Ấn Độ, A Rập, Thái Lan …
cũng như đối với các ngôn ngữ kho dữ liệu chưa “đầy đủ” như tiếng Việt thì bài toán
gán nhãn từ loại vẫn là một thách thức lớn [23]. Các phương pháp và công cụ đã được
xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác
loại trên thường đưa lại kết quả thấp hoặc chưa đáp ứng được nhu cầu ứng dụng. Như
vậy, yêu cầu đặt ra với từng ngôn ngữ là phải kế thừa, tận dụng được các phương pháp
sẵn có, tiến hành hiệu chỉnh hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp
với đặc điểm riêng của từng ngôn ngữ. Các nghiên cứu tại mục 1.3 cho thấy, vẫn còn
những trường hợp mà mô hình học máy thống kê chưa giải quyết được. Tuy nhiên những
trường hợp sai điển hình đó lại có thể được giải quyết bởi mô hình học luật chuyển đổi
(TBL) bởi tính kế thừa của mô hình này. Trong luận văn này, chúng tôi tập trung nghiên
cứu tìm hiểu đặc trưng của một số ngôn ngữ như tiếng Anh, tiếng Việt dựa trên các tập
ngữ liệu có sẵn như Peen Treebank, Viet Treebank, đồng thời đề xuất mô kết hợp để cải
thiện chất lượng gán nhãn của mô hình học máy thống kê.
1.5. Mục tiêu của đề tài

Luận văn này đề xuất xây dựng một mô hình kết hợp mô hình cực đại hóa Entropy
với mô hình học luật chuyển đổi thích hợp để gán nhãn từ loại. Mô hình học luật chuyển
đổi được sử dụng để giải quyết các trường hợp bị lỗi từ loại nhằm nâng cao độ chính
xác của mô hình học máy thống kê đối với bài toán gán nhãn từ loại. Mô hình đề xuất
cũng được sử dụng để tiến hành thực nghiệm trên tiếng Anh và tiếng Việt.
1.6. Đối tượng và phương pháp nghiên cứu
Đối tượng nghiên cứu của luận văn gồm: Một số mô hình học máy thống kê và mô
hình học dựa trên luật chuyển mà được sử dụng để giải quyết bài toán khử nhập nhằng
từ loại. Trong đó chúng tôi tập trung vào mô hình học máy cực đại hóa Entropy và mô
hình học dựa trên luật chuyển đổi.
12

Phương pháp nghiên cứu của luận văn: Đề xuất mô hình mới về mặt lý thuyết, sau
đó tiến hành sử dụng các công cụ gán nhãn có sẵn được xây dựng trên nền tảng mô hình
cực đại hóa Entropy cho Tiếng Anh và Tiếng Việt kết hợp với mô hình học luật chuyển
đổi thành một công cụ duy nhất phục vụ quá trình thực nghiệm. Qua đó chứng minh tính
hiệu quả của mô hình mới mà chúng tôi đề xuất so với các mô hình đã có trước đó.
1.7. Những đóng góp của luận văn
Thứ nhất, đề xuất tập mẫu luật chuyển phù hợp trong phương pháp học dựa trên luật
chuyển để thu được các luật chuyển có chất lượng tốt. Qua đó giúp cho việc sửa các lỗi
của mô hình học máy thống kê tốt hơn.
Thứ hai, phát triển và xây dựng hoàn thành công cụ gán nhãn từ loại tiếng Việt dựa
trên mô hình kết hợp trên ngôn ngữ lập trình JAVA.
Thứ ba, thông qua quá trình thực nghiệm, chúng tôi phát hiện và chỉnh sửa trên gần
300 câu trong kho ngữ liệu Viet TreeBank với hơn 400 lỗi ngoại lệ.
Thứ tư, đề xuất một mô hình kết hợp dựa trên mô hình học máy thống kê và mô hình
học luật chuyển đổi để giải quyết bài toán gán nhãn từ loại. Mô hình mới này cho phép
sửa được các lỗi sai của mô hình cơ sở, mô hình kết hợp đạt được độ chính xác tốt hơn
khi so sánh với các mô hình thành phần, và các mô hình học máy khác mà chúng tôi đã
khảo sát. Hơn nữa, mô hình này mà chúng tôi đề xuất có thể áp dụng để giải quyết nhiều

bài toán khác của xử lý ngôn ngữ tự nhiên.
1.8. Bố cục của luận văn
Trong phần này, chúng tôi sẽ trình bày chi tiết cách tổ chức luận văn và thông tin
tóm tắt của từng chương. Luận văn được tổ chức thành 4 chương, ngoài chương 1 đã
được trình bày, các chương còn lại được tổ chức như sau:
 Chương 2: Kiến thức cơ sở
 Chương 3: Đề xuất mô hình gán nhãn từ loại
 Chương 4: Thực nghiệm
 Kết luận

×