Tải bản đầy đủ (.pdf) (174 trang)

Nghiên cứu phát triển một số kỹ thuật tách từ tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.83 MB, 174 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

TRẦN NGỌC ANH

NGHIÊN CỨU PHÁT TRIỂN
MỘT SỐ KỸ THUẬT TÁCH TỪ TIẾNG VIỆT

Tai Lieu Chat Luong

LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI – NĂM 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

TRẦN NGỌC ANH

NGHIÊN CỨU PHÁT TRIỂN
MỘT SỐ KỸ THUẬT TÁCH TỪ TIẾNG VIỆT
Chuyên ngành : Cơ sở toán học cho tin học
Mã số


: 62.46.01.10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TS. Đào Thanh Tĩnh
2. PGS. TS. Nguyễn Phương Thái

HÀ NỘI – NĂM 2016


- ii -

LỜI CAM ĐOAN

Tôi xin cam đoan đây là cơng trình nghiên cứu của riêng tơi. Các kết quả viết
chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa vào
luận án. Các số liệu, kết quả nghiên cứu trong luận án là trung thực và chưa từng
được công bố trong bất kì cơng trình nào khác.
Tác giả luận án

Trần Ngọc Anh


- iii -

LỜI CẢM ƠN

Trước hết, tác giả xin chân thành cảm ơn hai thầy hướng dẫn, PGS. TS. Đào Thanh
Tĩnh và PGS. TS. Nguyễn Phương Thái, đã định hướng, tận tình hướng dẫn, giúp đỡ tác

giả trong suốt thời gian nghiên cứu, đã đóng góp nhiều ý kiến khoa học cho luận án này.
Tác giả xin bày tỏ lời cảm ơn chân thành đến tập thể Bộ môn Hệ thống thơng tin,
Khoa Cơng nghệ Thơng tin và Phịng Sau đại học, Học viện Kỹ thuật Quân sự; tác giả
xin chân thành cảm ơn đến tập thể cán bộ Trung tâm 2, Cục Công nghệ Thông tin, Bộ
Tổng Tham mưu; xin cảm ơn tập thể Khoa Công nghệ Thông tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội đã tạo điều kiện thuận lợi cho tác giả hoàn thành luận án
của mình. Tác giả cũng xin cảm ơn sự hỗ trợ của Đề tài Đại học Quốc gia Hà Nội (mã
số QG.12.49) và Đề tài Quốc gia (mã số KC.01.20/11-15) trong quá trình nghiên cứu,
thực hiện luận án.
Tác giả xin bày tỏ lời cảm ơn đến GS. TSKH. Phạm Thế Long, PGS. TS. Lương
Chi Mai, PGS. TS. Lê Thanh Hương, PGS. TS. Lê Anh Cường, PGS. TS. Bùi Thu Lâm,
PGS.TS. Nguyễn Xn Hồi, PGS.TS. Ngơ Thành Long, TS. Nguyễn Thị Minh Huyền,
TS. Hoa Tất Thắng, TS. Nguyễn Văn Vinh và TS. Lê Hải Sơn đã có nhiều ý kiến đóng
góp q báu giúp tác giả hồn thiện bản thảo luận án của mình.
Tác giả xin bày tỏ lời cảm ơn đến các chuyên gia: TS. Lê Hồng Phương (với
VnTokenizer), TS. Nguyễn Cẩm Tú (với JvnSegmenter), KS. Lưu Tuấn Anh (với
DongDu), TS. Nguyễn Chí Thành và TS. Trần Văn An đã hỗ trợ tác giả thực hiện quá
trình huấn luyện lại và chạy thử nghiệm tách từ trên các hệ thống.
Tác giả cũng xin bày tỏ lời cảm ơn đến các chuyên gia ngôn ngữ học: TS. Nguyễn
Thị Trung Thành và TS. Trương Thị Thu Hà đã nhiệt tình giúp đỡ tác giả một số vấn đề
liên quan đến ngơn ngữ học trong q trình nghiên cứu.
Tác giả gửi lời cảm ơn những người anh em, những người đồng đội luôn giúp đỡ,
ủng hộ và động viên tác giả kể từ khi bắt đầu nghiên cứu đến nay.
Cuối cùng, tác giả bày tỏ lòng biết ơn sâu sắc đối với cha mẹ và những người thân
trong gia đình, đặc biệt là hai mẹ con Giang Nguyên và Khánh Linh đã luôn chia sẻ và
ủng hộ tác giả trong suốt thời gian thực hiện luận án này.


- iv -


MỤC LỤC
Trang

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ........................................ vii
DANH MỤC CÁC BẢNG ........................................................................................ ix
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ.................................................................. xi
DANH MỤC CÁC THUẬT TỐN........................................................................ xii
MỞ ĐẦU ......................................................................................................................1
Chương 1 TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TIẾNG VIỆT ....................4
1.1. BÀI TOÁN TÁCH TỪ TIẾNG VIỆT ...............................................................4
1.1.1. Phát biểu bài toán tách từ tiếng Việt ...........................................................4
1.1.2. Đặc trưng của đơn vị từ vựng tiếng Việt.....................................................5
1.1.3. Những vấn đề khó trong tách từ tiếng Việt .................................................8
1.1.4. Phương pháp đánh giá kết quả tách từ tiếng Việt .....................................10
1.2. NHỮNG TIẾP CẬN TRÊN THẾ GIỚI VÀ TRONG NƯỚC ........................10
1.2.1. Những tiếp cận trên thế giới ......................................................................11
1.2.2. Những tiếp cận trong nước........................................................................14
1.2.3. Những kết quả đạt được trong tách từ tiếng Việt ......................................16
1.2.4. Những tồn tại trong nghiên cứu tách từ tiếng Việt....................................17
1.3. ĐỀ XUẤT HƯỚNG GIẢI QUYẾT.................................................................20
1.3.1. Xác định tài nguyên cho bài toán tách từ tiếng Việt .................................20
1.3.2. Thống kê chất lượng các kho ngữ liệu mẫu tiếng Việt .............................21
1.3.3. Chọn mơ hình tích hợp cho tách từ tiếng Việt ..........................................24
Chương 2 TÁCH TỪ VÀ NHẬN DIỆN THỰC THỂ VĂN BẢN TIẾNG VIỆT .. 26
2.1. THUẬT TOÁN TÁCH TỪ TIẾNG VIỆT.......................................................26
2.1.1. Thuật toán tách từ tiếng Việt VWS ...........................................................26
2.1.2. Các thuật toán dùng chung trong tách từ...................................................26
2.1.3. Thử nghiệm thuật toán so khớp cực đại cải tiến AMM ............................32
2.2. NHẬN DIỆN THỰC THỂ VÀ KHỬ NHẬP NHẰNG TÊN RIÊNG.............33
2.2.1. Bài toán nhận diện thực thể trong văn bản................................................33

2.2.2. Nhận diện các thực thể trong văn bản tiếng Việt ......................................34
2.2.3. Nhận diện và khử nhập nhằng ranh giới tên riêng tiếng Việt ...................38
2.2.4. Kết quả thử nghiệm ...................................................................................44
Chương 3 NHẬN DIỆN TỪ LÁY VÀ TỪ GHÉP ĐẲNG LẬP TIẾNG VIỆT ..... 46
3.1. NHẬN DIỆN TỪ GHÉP BẰNG HỌC KHÔNG GIÁM SÁT ........................46


-v-

3.1.1. Chọn độ dài từ ghép tiếng Việt cho học không giám sát ..........................46
3.1.2. Một số độ đo thống kê nhận diện từ ghép có 2 âm tiết tiếng Việt ............46
3.1.3. Giải pháp nhận diện từ ghép có 2 âm tiết tiếng Việt dựa vào đỉnh nhọn ..50
3.1.4. Kết quả thử nghiệm ...................................................................................51
3.2. NHẬN DIỆN TỪ LÁY TIẾNG VIỆT.............................................................54
3.2.1. Các đặc điểm cấu tạo từ láy tiếng Việt......................................................55
3.2.2. Nhận diện và xây dựng từ điển từ láy đôi tiếng Việt ................................56
3.2.3. Nhận diện từ láy ba, từ láy tư tiếng Việt ...................................................58
3.2.4. Kết quả thử nghiệm ...................................................................................60
3.3. NHẬN DIỆN TỪ GHÉP ĐẲNG LẬP TIẾNG VIỆT .....................................61
3.3.1. Các đặc trưng về cấu tạo từ ghép đẳng lập tiếng Việt...............................61
3.3.2. Nhận diện và xây dựng từ điển từ ghép song tiết đẳng lập tiếng Việt ......63
3.3.3. Nhận diện tổ hợp từ, thành ngữ có 3 hay 4 âm tiết ...................................69
3.3.4. Kết quả thử nghiệm ...................................................................................71
Chương 4 KHỬ NHẬP NHẰNG RANH GIỚI TỪ TIẾNG VIỆT ......................73
4.1. NHẬP NHẰNG RANH GIỚI TỪ TIẾNG VIỆT ............................................73
4.1.1. Khái niệm và phân loại nhập nhằng ranh giới từ tiếng Việt .....................73
4.1.2. Thống kê và giải pháp khử nhập nhằng ranh giới từ.................................74
4.1.3. Tạo ngữ liệu nhập nhằng cho huấn luyện và thử nghiệm .........................76
4.2. KHỬ NHẬP NHẰNG RANH GIỚI TỪ BẰNG TỪ ĐIỂN............................77
4.2.1. Phương pháp khử nhập nhằng CA bằng từ điển (VWS5.1)......................77

4.2.2. Kết quả thử nghiệm ...................................................................................79
4.3. KHỬ NHẬP NHẰNG BẰNG ĐỘ PHỨC TẠP VĂN BẢN...........................80
4.3.1. Độ phức tạp văn bản theo xác suất bigram mức từ ...................................80
4.3.2. Độ phức tạp văn bản của mơ hình Markov ẩn gán nhãn từ loại................81
4.3.3. Độ phức tạp văn bản của bigram mức từ và gán nhãn từ loại...................82
4.3.4. Kết quả thử nghiệm ...................................................................................84
4.4. KHỬ NHẬP NHẰNG BẰNG MÔ HÌNH ĐIỂM SỐ .....................................87
4.4.1. Mơ hình điểm số khử nhập nhằng chồng lấp OA theo ngữ cảnh..............88
4.4.2. Mơ hình điểm số khử nhập nhằng ghép tách CA theo ngữ cảnh ..............90
4.4.3. Kết quả thử nghiệm ...................................................................................92
Chương 5 THỬ NGHIỆM VÀ ĐÁNH GIÁ ...........................................................95
5.1. THỬ NGHIỆM TÁCH TỪ TIẾNG VIỆT.......................................................95
5.1.1. Mô tả các bước trong thuật toán tách từ tiếng Việt ...................................96
5.1.2. Các nhóm giải pháp dùng cho thử nghiệm tách từ tiếng Việt...................97
5.1.3. Thử nghiệm tách từ và đánh giá ................................................................97


- vi -

5.2. SO SÁNH VỚI MỘT SỐ CÔNG CỤ TÁCH TỪ TIẾNG VIỆT ..................102
5.2.1. Giới thiệu về một số công cụ tách từ hiện nay ........................................102
5.2.2. Kết quả thử nghiệm tách từ, đánh giá và so sánh....................................104
5.3. KIỂM LỖI CHÍNH TẢ VĂN BẢN TIẾNG VIỆT........................................107
5.3.1. Giới thiệu bài tốn kiểm lỗi chính tả tiếng Việt ......................................107
5.3.2. Kiểm lỗi cách dùng từ và cụm từ bằng mơ hình ngram mức âm tiết ......109
5.3.3. Kiểm lỗi chính tả bằng mơ hình tách từ và gán nhãn từ loại ..................113
KẾT LUẬN..............................................................................................................117
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ .....................................................119
TÀI LIỆU THAM KHẢO ......................................................................................120
PHỤ LỤC.................................................................................................................129

A. CÁC THUẬT TỐN HỖ TRỢ .......................................................................129
A1. Thuật tốn tìm số từ chung dài nhất của hai dãy từ....................................129
A2. Thuật tốn chuyển mã unicode...................................................................129
A3. Thuật tốn sửa lỗi chính tả dấu thanh tiếng Việt tự động ..........................131
A4. Thuật toán xây dựng từ điển automat tối thiểu...........................................132
B. MINH HOẠ KẾT QUẢ THỐNG KÊ TỪ CÁC TÀI NGUYÊN.....................139
B1. Minh hoạ một số lỗi trong kho ngữ liệu VietTreeBank..............................139
B2. Thống kê sửa lỗi chính tả các kho ngữ liệu mẫu tiếng Việt .......................141
B3. Thống kê các kí tự đặc biệt trong các kho ngữ liệu....................................141
B4. Thống kê phân loại thực thể và độ dài thực thể trong các kho ngữ liệu.....142
B5. Danh sách các từ tố tên riêng, tên riêng đặc biệt và tên họ người Việt ......143
C. PHÉP ĐO ĐỘ TƯƠNG TỰ NGỮ NGHĨA DÙNG TỪ ĐIỂN VCL ..............147
C1. Độ tương tự dựa vào so khớp chuỗi xấp xỉ theo khoảng cách ...................148
C2. Độ tương tự dựa vào phép đo đồng xuất hiện ............................................148
C3. Độ tương tự theo vector (Vector Space Model) .........................................149
D. MỘT SỐ THUẬT TOÁN SO KHỚP CỰC ĐẠI.............................................150
D1. So khớp cực đại MM (Maximum Matching) .............................................150
D2. So khớp cực đại có cửa sổ ..........................................................................152
E. THUẬT TỐN NHẬN DIỆN VÀ KHỬ NHẬP NHẰNG TÊN RIÊNG .......153
E1. Thuật toán nhận diện tên riêng, nhận diện số và phân số bằng chữ ...........153
E2. Các thuật toán khử nhập nhằng tên riêng....................................................155
F. THUẬT TỐN TÌM THAM SỐ HỌC TỐI ƯU..............................................158
F1. Thuật tốn di truyền GA và cực đại hoá kỳ vọng EM ................................158
F2. Thuật toán EM trên các đoạn con ...............................................................161


- vii -

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Kí hiệu

ACO
AM/AMM
BM/BMM
CA
CC/TGĐL
CRF
DFA
EM
ER
FM/FMM
FSM
GA
HMM
LCS
MEM
MI
MinDFA
MM
NE
NER
NLP
NW
OA
Pb
Pk
PN
POS
PP
PSO
Pu

RW
SC/TGCP

Mơ tả
Tối ưu đàn kiến (Ant Colony Optimization)
So khớp cực đại cải tiến (Advanced Maximum Matching)
So khớp cực đại lùi (Backward Maximum Matching)
Nhập nhằng ghép-tách (Combinated Ambiguity)
Từ ghép đẳng lập (Coordinated Compound)
Trường ngẫu nhiên có điều kiện (Conditional Random Field)
Automat [hữu hạn tiền định] (Determine Finite Automata)
Thuật toán cực đại hoá kỳ vọng (Expectation Maximization)
Nhận diện thực thể văn bản (Entity Recognition)
So khớp cực đại tiến (Forward Maximum Matching)
Máy trạng thái hữu hạn (Finite State Machine)
Giải thuật di truyền (Genetic Algorithms)
Mơ hình Markov ẩn (Hidden Markov Model)
Dãy con chung dài nhất (Longest Common Substring)
Mơ hình Entropy cực đại (Maximum Entropy Model)
Độ thông tin tương hỗ (Mutual Information)
Automat tối thiểu (Minimal Determine Finite Automata)
So khớp cực đại (Maximum Matching)
Thực thể có tên (Named Entity)
Nhận diện thực thể có tên (Named Entity Recognition)
Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
Từ mới (New Word)
Nhập nhằng chồng lấp (Overlaping Ambiguity)
Xác suất bigram (bigram Probability)
Xác suất bigram có điều kiện (conditional bigram Probability)
Tên riêng (Private/Proper Name)/Nhận diện tên riêng

Từ loại (Part-Of-Speech)
Độ phức tạp văn bản (Perplexity)
Tối ưu bầy đàn (Particle Swarm Optimization)
Xác suất unigram (unigram Probability)
Từ láy (Reduplicative Word)
Từ ghép chính phụ (Subordinated Compound)


- viii -

Sim
SP731
SP732
SP733
SP73POS
VCL
VFD
VLP
VSD
VWS

Độ tương tự (Similarity)
Kho ngữ liệu đã tách từ, gồm 1.542.673 từ, 68.000 câu (10 MB)
Kho ngữ liệu đã tách từ, gán nhãn từ loại, 221.221 từ, 10.000 câu
Kho ngữ liệu đã tách từ, gán nhãn từ loại và cú pháp, 10.000 câu
Kho ngữ liệu đã tách từ, gán nhãn từ loại, 20.000 câu.
Từ điển từ vựng tiếng Việt (Vietrnamese Computation Lexicon)
Từ điển tên họ người Việt (Vietnamese Family Dictionary)
Xử lý ngôn ngữ tiếng Việt (Vietnamese Language Processing)
Từ điển âm tiết tiếng Việt (Vietnamese Syllable Dictionary)

Tách từ tiếng Việt (Vietnamese Word Segmenation)

Các kí hiệu cho phép đo đánh giá độ chính xác tách từ dùng trong luận án:
Kí hiệu
Nm
Nt

R
P
F1

Mô tả
Số lượng đơn vị từ trong kho mẫu.
Số lượng đơn vị từ tách được.
Số lượng đơn vị từ tách đúng. (dùng LCS để xác định, Phụ lục A1)
Độ đo hồi tưởng (Recall) : R = Nđ/Nm
Độ đo chính xác (Precision) : P = Nđ/Nt
Độ đo F1-score
: F1 = 2RP/(R+P)


- ix -

DANH MỤC CÁC BẢNG
Bảng 1.1. Thống kê độ dài từ trong các kho ngữ liệu mẫu (đã sửa lỗi)......................... 17
Bảng 1.2. Tách từ theo dấu cách và dấu câu các kho ngữ liệu mẫu (đã sửa lỗi)........... 18
Bảng 1.3. Kết quả thử nghiệm của [29], PN là nhận diện tên riêng .............................. 19
Bảng 1.4. Thống kê phân loại đơn vị từ trong các kho ngữ liệu mẫu............................ 22
Bảng 1.5. Thống kê tỉ lệ từ theo độ dài tối đa trong các kho ngữ liệu mẫu................... 23
Bảng 1.6. Thống kê độ phủ từ - từ điển của các kho ngữ liệu tiếng Việt ...................... 23

Bảng 2.1. Thử nghiệm tách từ với các mơ hình FMM, BMM và AMM ...................... 32
Bảng 2.2. Mô tả các trường hợp nhập nhằng tên riêng với tên riêng............................. 41
Bảng 2.3. Kết quả nhận diện & khử nhập nhằng tên riêng của kho SP731................... 44
Bảng 2.4. Kết quả tách từ có nhận diện thực thể với FMM, BMM và AMM .............. 44
Bảng 3.1. Nhận diện từ ghép có 2 âm tiết dựa theo chọn đỉnh nhọn............................. 52
Bảng 3.2. Nhận diện từ ghép có 2 âm tiết theo đỉnh nhọn vượt ngưỡng....................... 52
Bảng 3.3. Nhận diện từ ghép có 2 âm tiết theo đỉnh nhọn và unigram dưới ngưỡng ... 53
Bảng 3.4. Nhận diện từ ghép có 2 âm tiết với đỉnh nhọn vượt max unigram ............... 53
Bảng 3.5. Nhận diện từ ghép với đỉnh nhọn vượt max unigram có tham số .............. 53
Bảng 3.6. Minh hoạ nhận diện từ láy ba và từ láy tư ..................................................... 60
Bảng 3.7. Thử nghiệm tách từ với các mô-đun ER, AM, RW ...................................... 61
Bảng 3.8. Mô tả thông tin từ điển VCL của hai từ "cha" và "mẹ"................................. 65
Bảng 3.9. Một số thông tin từ điển VCL của hai từ "dút dát" và "an tâm" ................... 65
Bảng 3.10. Minh hoạ một phần các cặp từ đồng nghĩa (4.958 cặp) .............................. 68
Bảng 3.11. Minh hoạ một phần các cặp từ đối nghĩa (762 cặp) .................................... 69
Bảng 3.12. Minh hoạ độ đo tương tự các cặp từ (SimDice > 0,5: 14.452 cặp)................ 69
Bảng 3.13. Minh hoạ dùng MI (từ internet) để xác định TGĐL (4.718 cặp)................ 69
Bảng 3.14. Kết quả phát hiện danh sách các từ ghép song tiết đẳng lập ....................... 69
Bảng 3.15. Minh hoạ nhận diện tổ hợp từ có 3-4 âm tiết (TGĐL) ................................ 70
Bảng 3.16. Tách từ với các mô-đun ER, AM và CC ..................................................... 71
Bảng 4.1. Thống kê nhập nhằng OA và CA trong các kho ngữ liệu ............................. 74
Bảng 4.2. Tỉ lệ gây lỗi của các nhập nhằng trong các kho ngữ liệu .............................. 74
Bảng 4.3. Minh hoạ nhập nhằng chồng lấp OA trong các kho ngữ liệu ....................... 75
Bảng 4.4. Minh hoạ nhập nhằng ghép-tách CA trong các kho ngữ liệu........................ 75
Bảng 4.5. Phân chia ngữ liệu VietTreeBank cho huấn luyện và thử nghiệm................ 77
Bảng 4.6. Minh hoạ nhập nhằng CA với quán từ ở đầu/cuối cụm từ............................ 78
Bảng 4.7. Tỉ lệ khử nhập nhằng với từ điển quán từ BE................................................ 79
Bảng 4.8. Kết quả tách từ bằng FM, BM, AM với các mô-đun ER và BE................... 79



-x-

Bảng 4.9. Kí hiệu 22 từ loại của kho ngữ liệu SP73POS 20.000 câu............................ 84
Bảng 4.10. Kết quả khử nhập nhằng với các mơ hình M2x........................................... 86
Bảng 4.11. Kết quả tách từ bằng ER, AM và khử nhập nhằng với PB, PO .................. 86
Bảng 4.12. Minh hoạ khử nhập nhằng OA/CA bằng mơ hình M22 và M23................ 87
Bảng 4.13. Kết quả tỉ lệ khử nhập nhằng với các mơ hình điểm số M3x...................... 92
Bảng 4.14. Kết quả tách từ và khử nhập nhằng bằng các mơ hình điểm số M3x ......... 93
Bảng 4.15. Minh hoạ khử các nhập nhằng OA bằng M21 và M3x............................... 94
Bảng 5.1. Mô tả các mô-đun (đặc trưng) tích hợp cho mơ hình tách từ........................ 95
Bảng 5.2. Kết quả tách từ với giải pháp cải tiến so khớp cực đại cho TEST.OCA ...... 98
Bảng 5.3. Kết quả tách từ với giải pháp cải tiến so khớp cực đại cho TEST.ALL ....... 99
Bảng 5.4. Kết quả tách từ với mơ hình độ phức tạp văn bản cho TEST.OCA ........... 100
Bảng 5.5. Kết quả tách từ với mô hình độ phức tạp văn bản cho TEST.ALL ............ 100
Bảng 5.6. Kết quả tách từ với mơ hình điểm số cho TEST.OCA................................ 101
Bảng 5.7. Kết quả tách từ với mô hình điểm số cho TEST.ALL ................................ 101
Bảng 5.8. Kết quả so sánh thử nghiệm tách từ giữa các công cụ với TEST.OCA ........... 105
Bảng 5.9. Kết quả so sánh thử nghiệm tách từ giữa các công cụ với TEST.ALL ............ 105
Bảng 5.10. Kết quả so sánh nhận diện từ mới có 2 âm tiết trở lên với TEST.ALL.......... 105
Bảng 5.11. Kết quả so sánh nhận diện tên riêng giữa các công cụ với TEST.ALL.......... 106
Bảng 5.12. Kết quả so sánh khử nhập nhằng OA-CA giữa các công cụ với TEST.OCA 106
Bảng 5.13. So sánh thời gian chạy trung bình (giây) giữa các công cụ với TEST.ALL .. 106
Bảng 5.14. Kiểm lỗi cụm từ theo mơ hình độ phức tạp văn bản ................................. 112
Bảng 5.15. Kiểm lỗi trigram theo xác suất ................................................................... 112
Bảng 5.16. Kết quả đo LPP cho mơ hình PB+PO với văn bản kiểm lỗi ..................... 114
Bảng 5.17. Kết quả sắp xếp độ đo LPP giảm dần theo từng cụm từ/câu..................... 115


- xi -


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 0.1. Tiếp cận phân tích và hiểu văn bản theo các mức............................................ 1
Hình 1.1. Văn bản tin tức tiếng Việt được tách từ (thực thể in đậm) .............................. 5
Hình 1.2. Phân loại từ tiếng Việt theo cấu tạo.................................................................. 5
Hình 1.3. Một số câu tiếng Việt được tách từ bị lỗi ....................................................... 17
Hình 1.4. Mơ hình ghép nối có thứ tự cho tách từ tiếng Việt ........................................ 24
Hình 2.1. Cây quyết định nhị phân để tách các kí tự đặc biệt........................................ 27
Hình 2.2. Minh hoạ sơ đồ mạng từ được sinh theo từ điển cho câu 1 ........................... 29
Hình 2.3. Minh hoạ sơ đồ mạng từ được sinh theo từ điển cho câu 2 ........................... 29
Hình 2.4. Minh hoạ nhận diện ranh giới tên riêng cho tách từ tiếng Việt ..................... 33
Hình 2.5. Minh hoạ nhận diện thực thể có tên sau khi tách từ tiếng Việt...................... 34
Hình 2.6. Mơ tả khử nhập nhằng tên riêng với từ hậu tố ............................................... 40
Hình 3.1. Đồ thị xác suất unigram từng âm tiết trong câu ............................................. 47
Hình 3.2. Đồ thị xác suất bigram các cặp âm tiết trong câu........................................... 48
Hình 3.3. Xác suất bigram có điều kiện các cặp âm tiết trong câu ................................ 49
Hình 3.4. Lược đồ thơng tin tương hỗ của âm tiết và cặp âm tiết.................................. 49
Hình 3.5. Độ tương hỗ thơng tin của các cặp âm tiết trong câu..................................... 50
Hình 3.6. Phân loại từ láy tiếng Việt............................................................................... 55
Hình 3.7. Giao diện công cụ bổ sung và cập nhật từ điển VCL..................................... 64
Hình 4.1. Tỉ lệ ngữ liệu VietTreeBank cho huấn luyện và thử nghiệm......................... 77
Hình 4.2. Mơ hình Markov ẩn HMM (có dãy quan sát X độc lập) ............................... 81
Hình 4.3. Mơ hình Markov ẩn với dãy quan sát X phụ thuộc........................................ 83
Hình 5.1. Mơ tả văn bản thử nghiệm kiểm lỗi chính tả................................................ 112


- xii -

DANH MỤC CÁC THUẬT TỐN
Thuật tốn VWS. Thuật toán tổng quát cho tách từ tiếng Việt...................................... 26
Thuật toán VWS1. Tách kí tự đặc biệt dựa vào cây quyết định nhị phân. .................... 27

Thuật toán VWS3. Sinh ứng viên từ có cửa sổ âm tiết dựa vào từ điển........................ 30
Thuật tốn VWS6. Tìm dãy tách từ tối ưu. .................................................................... 30
Thuật toán VWS2.21. Nhận diện tên riêng và khử nhập nhằng từ tiền tố..................... 39
Thuật toán VWS2.22. Khử nhập nhằng tên riêng với từ hậu tố sau tách từ.................. 40
Thuật toán VWS2.23. Khử nhập nhằng giữa tên riêng với tên riêng. ........................... 42
Thuật tốn 3.1. Tìm kiếm các từ láy đơi mới.................................................................. 57
Thuật tốn 3.2. Tính độ tương tự giữa hai từ dựa vào từ điển VCL. ............................. 66
Thuật toán 3.3. Nhận diện từ ghép song tiết đẳng lập.................................................... 68
Thuật toán VWS5.1. Khử nhập nhằng bằng từ điển quán từ BE................................... 78


-1-

MỞ ĐẦU
1. Tính cấp thiết của luận án
Xử lý ngơn ngữ tự nhiên (hay ngơn ngữ học tính tốn) là lĩnh vực được nhiều
chuyên gia trên thế giới cũng như trong nước quan tâm nghiên cứu, nhằm tạo ra các
sản phẩm phần mềm có tri thức và thơng minh, hiểu được ngôn ngữ con người và
trao đổi được giữa các ngơn ngữ khác nhau.
Trong các bài tốn xử lý ngơn ngữ tự nhiên thì bài tốn tách từ là một trong
những bài tốn cơ bản vì nó là nền tảng cho các nghiên cứu để hiểu ngôn ngữ và ứng
dụng vào thực tiễn như: kiểm lỗi chính tả, tóm tắt văn bản trả lời câu hỏi tự động,
dịch máy,... Ta có thể thấy vai trị nền tảng của đơn vị từ trong các bước phân tích và
hiểu ngơn ngữ văn bản như hình 0.1.

Hình 0.1. Tiếp cận phân tích và hiểu văn bản theo các mức
Đối với tiếng Việt, từ được cấu tạo bởi một hay nhiều âm tiết ghép lại, khơng
có ký hiệu phân tách rõ ràng giữa các từ với nhau. Do vậy, tách từ tiếng Việt là một
bài tốn khó. Qua các khảo sát nghiên cứu, một số vấn đề quan trọng trong bài toán
tách từ tiếng Việt cịn bỏ ngỏ gồm có: nhận diện và khử nhập nhằng tên riêng, nhận

diện từ mới, và xử lý nhập nhằng ranh giới từ. Đây cũng là những vấn đề khó mà hầu
hết các nghiên cứu về tách từ trong một số ngôn ngữ ở châu Á như: tiếng Trung,
tiếng Nhật, tiếng Thái, tiếng Lào, tiếng Khmer,… đang quan tâm giải quyết.
Chính vì thế, trong mục tiêu và phạm vi nghiên cứu, tác giả chọn đề tài luận án
là “Nghiên cứu phát triển một số kỹ thuật tách từ tiếng Việt”.


-2-

2. Mục tiêu nghiên cứu của luận án
Mục tiêu chính của luận án là giải quyết một số vấn đề khó trong bài tách từ
tiếng Việt hiện nay là: nhận diện và khử nhập nhằng tên riêng, nhận diện từ mới và
xử lý nhập nhằng ranh giới từ. Mục tiêu cụ thể là phân tích những điểm tồn tại trong
nghiên cứu tách từ tiếng Việt, xác định cách thức tích hợp tri thức từ các từ điển, các
kho ngữ liệu, các quy tắc cấu tạo từ, nâng cao hiệu quả nhận diện từ mới và khử các
nhập nhằng ranh giới từ trong tách từ tiếng Việt.

3. Đối tượng và phạm vi nghiên cứu của luận án
- Nhận diện các thực thể trong văn bản: được giới hạn trong phạm vi của bài
toán tách từ, xem như các đơn vị từ: tên riêng (tên người, tên địa điểm, tên tổ chức),
tên viết tắt, biểu thức ngày tháng, thời gian, biểu thức số, địa chỉ email, địa chỉ url,…
Nghĩa là trong bài toán tách từ, chỉ nghiên cứu tách ranh giới thực thể (chủ yếu là tên
riêng) chứ không thực hiện nghiên cứu phân lớp các thực thể.
- Nhận diện từ ghép mới: nhận diện từ mới gồm 2 âm tiết trở lên, gồm hai loại
tiêu biểu là từ láy và từ ghép đẳng lập.
- Xử lý nhập nhằng ranh giới từ trong văn bản tiếng Việt gồm 2 loại: nhập
nhằng chồng lấp và nhập nhằng ghép tách.
Trong đó, các tiêu chí xác định đơn vị từ tiếng Việt dựa vào tài liệu hướng dẫn
tách từ đã nghiệm thu của đề tài KC01.01/06-10, và một số tài liệu về từ vựng, ngữ
pháp tiếng Việt giảng dạy chuyên ngành ngôn ngữ học. Các khảo sát thống kê, kết

quả thử nghiệm được thực hiện trên kho ngữ liệu mẫu VietTreeBank và từ điển VCL.

4. Phương pháp nghiên cứu của luận án
Luận án sử dụng tổng hợp các phương pháp nghiên cứu chuyên ngành và liên
ngành trên cơ sở một số lĩnh vực: Ngôn ngữ học tiếng Việt và các dạng nhập nhằng;
Lý thuyết về mơ hình thống kê ngơn ngữ n-gram; Lý thuyết về Ô-tô-mát trạng thái
hữu hạn; Lý thuyết về học máy thống kê; Lý thuyết về độ phức tạp thuật toán; Lý
thuyết về tối ưu hố; và Lý thuyết về trí tuệ nhân tạo trong xử lý ngôn ngữ tự nhiên.
Tiếp cận nghiên cứu bằng hệ thống các phương pháp:
- Phương pháp lơ-gích
- Phương pháp thống kê - khảo sát - đánh giá
- Phương pháp phân tích - tổng hợp.
- Phương pháp chuyên gia.
- Phương pháp hệ thống


-3-

Trong đó, kết hợp chặt chẽ có hệ thống các phương pháp lơgíc, thống kê – khảo
sát, phân tích – tổng hợp và phương pháp chuyên gia.

5. Một số kết quả đạt được trong luận án
1) Đề xuất kỹ thuật nhận diện và khử nhập nhằng tên riêng, làm tăng đáng kể
độ chính xác tách từ: nhận diện và khử nhập nhằng từ tiền tố với tên riêng; khử nhập
nhằng tên riêng với từ hậu tố; và khử nhập nhằng tên riêng với tên riêng.
2) Đề xuất kỹ thuật nhận diện từ láy và từ ghép đẳng lập cho tách từ tiếng Việt
([A7], [A9], [A10]) dựa trên độ thông tin tương hỗ cùng với các quy tắc ngôn ngữ
học nhận diện chúng. Trên cơ sở đó, mở rộng nhận diện các tổ hợp từ có 3-4 âm tiết.
3) Đề xuất kỹ thuật khử các loại nhập nhằng chồng lấp và nhập nhằng ghép
tách theo ngữ cảnh thống kê ([A2], [A8] và [A11]) trong điều kiện kho ngữ liệu huấn

luyện có kích thước nhỏ, có nhiều xác suất 0. Thực hiện khảo sát các mẫu nhập
nhằng khác nhau và đưa ra một số giải pháp và công thức linh hoạt biểu diễn theo
ngữ cảnh để khử nhập nhằng hiệu quả.
Các kết quả của luận án được thực hiện trên cơ sở khảo sát thống kê và thử
nghiệm tách từ với các kho ngữ liệu mẫu của VietTreeBank. Các thuật toán đề xuất
cho tách từ trong luận án có độ phức tạp tính tốn là O(n), với n là số lượng âm tiết
trong dãy vào, và kết quả thử nghiệm tách từ đạt độ chính xác F1-score là 98,78%.
Ngồi ra, luận án cũng đã đề xuất thử nghiệm giải pháp kiểm lỗi chính tả tiếng Việt
([A4]), có thể ứng dụng trong thực tế.

6. Bố cục luận án
Ngoài phần mở đầu và kết luận, luận án gồm 5 chương:
Chương 1: Tổng quan về bài toán tách từ tiếng Việt.
Chương 2: Tách từ và nhận diện thực thể văn bản tiếng Việt.
Chương 3: Nhận diện từ láy và từ ghép đẳng lập tiếng Việt.
Chương 4: Khử nhập nhằng ranh giới từ tiếng Việt.
Chương 5: Thử nghiệm và đánh giá.


-4-

Chương 1
TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TIẾNG VIỆT

1.1. BÀI TỐN TÁCH TỪ TIẾNG VIỆT
1.1.1. Phát biểu bài tốn tách từ tiếng Việt
Khi thực hiện nhiệm vụ xử lý ngơn ngữ tự nhiên cho bất kì ngơn ngữ nào thì
bước đầu tiên cần phải làm là tách từ (word segmentation). Vì thế, việc nhận biết
ranh giới từ một cách nhanh chóng và chính xác là vấn đề có ý nghĩa quan trọng. Đối
với một số ngôn ngữ như tiếng Nga, Anh, Pháp hay Đức, ranh giới từ được cho bởi

khoảng trắng hay các dấu ngắt câu. Với tiếng Việt, về mặt hình thức, từ được cấu tạo
bởi một hay nhiều âm tiết (tiếng) ghép lại, nên nếu chỉ dùng khoảng trắng sẽ không
thể phân biệt ranh giới từ.
Minh hoạ từ tiếng Việt:
- Từ có một âm tiết: nhà, cửa, đi, chạy, xanh, đỏ,...
- Từ có từ hai âm tiết trở lên:
+ Từ kép : nhà trường, tổ chức, lung linh, lấp lánh, đu đưa,...
+ Từ bộ ba: phương pháp luận, bất đắc dĩ, sạch sành sanh,...
+ Từ bộ tư: xã hội chủ nghĩa, nói đi nói lại, đu đa đu đưa,...
Bài tốn tách từ tiếng Việt có thể được phát biểu như sau:
Cho cụm từ gồm n âm tiết (tiếng): S = s1 s2 s3 ... sn-1 sn
Yêu cầu tách thành m từ (m ≤ n) : S = w1 w2 w3... wm-1 wm
Về mặt ngơn ngữ học tính toán, "từ" ở dạng từ phức và "ngữ" ở dạng cụm từ
được cấu tạo bởi nhiều âm tiết ghép lại, nên việc phân biệt khái niệm giữa "từ" và
"ngữ" (hay "từ" và "cụm từ") vẫn còn chưa rõ ràng. Trong thực tế xử lý bằng máy
tính có sử dụng từ điển từ vựng, có nhiều trường hợp rất khó phân biệt ranh giới từ.
Chẳng hạn với dãy âm tiết "đón tiếp tân" trong ví dụ sau thì máy tính phải chọn
phương án nào cho đúng.
Ví dụ: Họ đang chuẩn bị đón tiếp tân giám đốc.
Để biểu diễn từ, có thể dùng dấu nối “_” để ghép các âm tiết lại với nhau trong
mỗi từ. Với ví dụ trên, ta sẽ có hai phương án tách từ như sau:
(a)

Họ đang chuẩn_bị đón tiếp_tân giám_đốc .

(b)

Họ đang chuẩn_bị đón_tiếp tân giám_đốc .



-5-

Ranh giới không rõ ràng như vậy được gọi là sự nhập nhằng trong ngôn ngữ.
Nhập nhằng ranh giới từ là vấn đề thường xuất hiện trong tiếng Việt và một số ngôn
ngữ khác như tiếng Trung, tiếng Thái, tiếng Lào, tiếng Khmer,...
Trong tiếng Việt, do có nhiều quy tắc cấu tạo từ (từ láy, từ ghép đẳng lập, từ
ghép chính phụ), nên trong thực tế sử dụng và phát triển ngơn ngữ, có rất nhiều từ
mới được tạo ra mà từ điển không thể chứa đựng hết được (được gọi là từ - từ điển).
Đây cũng là vấn đề hóc búa cho bài tốn tự động hố tách từ tiếng Việt.
Ngoài vấn đề nhập nhằng ranh giới từ và xác định từ mới đã nêu, thì bài tốn
tách từ đòi hỏi phải nhận diện các "thực thể" văn bản (entity, theo [47] và [48]) như
tên riêng (tên người, tên tổ chức, tên địa điểm), tên viết tắt, ngày tháng, thời gian,
biểu thức số, phần trăm, đơn vị đo, thư điện tử,... Có thể thấy qua minh hoạ tách từ
và thực thể trong hình 1.1.

Hình 1.1. Văn bản tin tức tiếng Việt được tách từ (thực thể in đậm)
1.1.2. Đặc trưng của đơn vị từ vựng tiếng Việt
Theo [8], đơn vị từ vựng tiếng Việt gồm hai lớp: từ và ngữ cố định.
1.1.2.1. Từ tiếng Việt
* Phân loại từ tiếng Việt theo cấu tạo

Hình 1.2. Phân loại từ tiếng Việt theo cấu tạo
Theo [3], từ tiếng Việt bao gồm từ đơn và từ phức. Từ đơn chỉ có một âm tiết,
cịn từ phức có từ hai âm tiết trở lên. Trong đó, từ phức về mặt ngữ âm, ngữ pháp và


-6-

ngữ nghĩa chia thành ba loại: từ ghép, từ láy và từ ngẫu hợp. Từ ghép được phân chia
thành hai dạng: từ ghép chính phụ, từ ghép đẳng lập. Trong đó, từ láy và từ ghép

đẳng lập (khối đậm trong hình 1.2) có những đặc điểm về cấu tạo về ngữ âm, ngữ
pháp và ngữ nghĩa khá rõ ràng.
* Đặc điểm cấu tạo từ tiếng Việt
Cấu tạo từ tiếng Việt được phân loại theo hình 1.2 có một số đặc điểm sau:
a. Từ đơn: Từ đơn là những từ được cấu tạo bởi một âm tiết độc lập.
Ví dụ: nhà, cửa, đi, chạy, xanh, đỏ,...
b. Từ phức: Từ phức là những từ được cấu tạo bởi hai âm tiết trở lên, ghép lại
với nhau để tạo nghĩa. Về mặt quan hệ nghĩa, chúng được chia thành ba dạng sau:
i) Từ ngẫu hợp: các thành phần khơng có quan hệ với nhau, được kết hợp với
nhau một cách ngẫu nhiên.
Ví dụ: bồ hóng, mít tinh, rơ mc, tắc kè,...
ii) Từ ghép: là những từ được cấu tạo bởi hai âm tiết trở lên, chúng được ghép
với nhau về mặt ngữ nghĩa để tạo nghĩa mới.
 Từ ghép chính phụ: có chứa một thành tố chính chỉ loại lớn, một thành tố
phụ có vai trị chi tiết hố loại lớn.
+ Từ ghép chính phụ thuần Việt (chính trước, phụ sau) như: xe máy, xe đạp,
hoa hồng, hoa nhài, máy xay, máy xát,...
+ Từ ghép chính phụ gốc Hán (phụ trước, chính sau) như: dân ca, đồng ca,
xướng ca, bác học, văn học, kinh tế học, nông dân, ngư dân, cư dân,…
Mở rộng từ ghép chính phụ bậc hai ở dạng thêm phần phụ chi tiết hơn như:
xe đạp điện, xe đạp mini, hoa hồng trắng, hoa hồng vàng, máy xay thịt,...
 Từ ghép đẳng lập: các thành tố bình đẳng nhau về ngữ nghĩa và từ loại. Từ
ghép song tiết đẳng lập có thể chia thành ba nhóm:
+ Đồng nghĩa: đợi chờ, xinh đẹp, chùa chiền, xe cộ,...
+ Đối nghĩa: cha mẹ, nam nữ, âm dương, được mất, đúng sai,...
+ Gần nghĩa: nhà cửa, đồi núi, sông suối, cát bụi, gà vịt, vui tươi,...
Mở rộng từ có ba, bốn âm tiết có các đơn vị đẳng lập như: anh chị em,
thanh thiếu nhi, cơ xương khớp, xuân hạ thu đông, bà con cô bác,... hoặc tổ
hợp xen song tiết đẳng lập như: con ông cháu cha, cơm no áo ấm,…
Mở rộng ghép chính phụ và đẳng lập: hai từ ghép chính phụ "thầy giáo" và

"cơ giáo" có hai thành phần đẳng lập là "thầy" và "cô", nên từ ghép mở rộng


-7-

là: "thầy cô giáo". Tương tự, "y sĩ" và "bác sĩ" có thể tạo từ ghép "y bác sĩ".
Ghép giữa tổ hợp song tiết đẳng lập với từ đứng trước: chạy ngược chạy
xi, bữa no bữa đói, khi nắng khi mưa,... hoặc có thể ghép với từ đứng sau:
phịng cháy chữa cháy, phòng bệnh chữa bệnh, ăn miếng trả miếng,...
Lặp lại từ ghép chính phụ: hư hư thực thực, đi đi về về, quần quần áo áo,...
iii) Từ láy: là những từ phức (đa số là có hai tiếng) được cấu tạo theo các quy
tắc hài âm và hài thanh của tiếng Việt (theo quy tắc “vừa điệp vừa đối” trên phụ âm
đầu, vần và dấu thanh).
Đối với từ láy đơi: theo [13] có 8 mẫu như: lăm lăm, đo đỏ, chúm chím, vằng
vặc, lịng thịng, khéo léo, đỏ đắn, lập loè.
Mở rộng từ láy ba, bốn âm tiết:
+ Từ láy bộ ba: đỏ lịm lịm, đen sì sì, xanh lè lè, tối om om,…
đỏ hon hỏn, đen trùi trũi, thẳng đuồn đuột,…
sạch sành sanh, cuống cuồng cuồng, xốp xồm xộp,...
+ Từ láy bộ tư: ấm a ấm ức, nhí nha nhí nhảnh, đù đà đù đờ,
bậu xà bậu xậu, linh ta linh tinh, hớt hơ hớt hải,...
Láy bổ sung cho một số các từ đơn, từ ghép: phần láy ln đứng sau.
Ví dụ: điệp phụ âm đầu và thêm vần "iếc", "iệc", "ang", "ung".
+ phở: phở phiếc; lớp: lớp lang; vải: vải vung;
+ máy bay: máy bay máy biếc; máy bay máy bung;
+ hoa tai: hoa tai hoa tiếc; hoa tai hoa tung;
+ đàn ông: đàn ông đàn iếc; đàn ông đàn ang;...
Dạng lặp: là sự mở rộng của từ láy, có thành phần được lặp lại trong từ/cụm từ.
Ví dụ: với từ có hai, ba hay bốn âm tiết
+ người người, ngày ngày, tháng tháng, xanh xanh, hây hây,…

+ ha ha ha, ầm ầm ầm,...
+ hăm hăm hở hở, hối hối hả hả, vội vội vàng vàng,...
+ tẩn ngẩn tần ngần, bổi hổi bồi hồi, bấu xấu bậu xậu,...
+ nói vội nói vàng, đen thui đen thủi,...
Một số dạng lặp đặc biệt khác:
+ đen đen là; sợ sợ là; vui vui là; thương thương là;...
+ đẹp ơi là đẹp; xinh ơi là xinh; thương ơi là thương;...
+ ngoan thật là ngoan; khôn thật là khôn;...


-8-

1.1.2.2. Ngữ cố định
Đây là những đơn vị được xếp vào từ điển từ vựng tiếng Việt do tính hồn
chỉnh về nghĩa của nó, nên có thể coi như là những đơn vị từ vựng.
a. Thành ngữ: Thành ngữ là ngữ cố định vừa có tính hồn chỉnh về nghĩa vừa
có tính gợi cảm.
Ví dụ: chó ngáp phải ruồi; hồn xiêu phách lạc; nói thánh nói tướng;...
b. Quán ngữ: Quán ngữ là ngữ cố định được dùng để lặp đi lặp lại trong các
loại văn bản để liên kết, đưa đẩy, rào đón hoặc nhấn mạnh nội dung cần diễn đạt.
Ví dụ: của đáng tội; nói cách khác; nói tóm lại; dù sao đi nữa; ngược lại;...
1.1.3. Những vấn đề khó trong tách từ tiếng Việt
Trong thực tế hiện nay chưa có một chuẩn thống nhất để phân tách từ, nên vẫn còn
tồn tại những quan điểm khác nhau về từ ([10]; [12], tr.52-61; [26], tr.8-16). Về sản
phẩm từ điển, hiện đang tồn tại một số từ điển tiếng Việt khác nhau ([19], [23]). Thậm
chí, kho ngữ liệu mẫu VietTreeBank cũng có những sai khác (xem lỗi thực thể ở Phụ lục
B1). Nếu dựa vào một số kết quả của đề tài cấp nhà nước KC.01.01/06-10 về “Hướng
dẫn nhận diện đơn vị từ trong văn bản tiếng Việt” ([10]) thì có thể hiệu chỉnh sự khác
biệt về từ giữa từ điển từ vựng, quy tắc cấu tạo từ, với các kho ngữ liệu VietTreeBank
([10]) để đưa ra một tiêu chuẩn chấp nhận được cho bài toán tách từ tiếng Việt.

Các từ điển, các kho ngữ liệu cần được thống nhất theo một bộ mã tiếng Việt
([24] và [6]); thống nhất về chính tả được nhà nước ban hành ([4] và [5]); thống nhất
về đơn vị từ vựng và các đơn vị là thực thể trong văn bản tiếng Việt ([10]),...
Quá trình tách từ tiếng Việt sẽ phải đối diện với các vấn đề: nhận diện và khử
nhập nhằng ranh giới tên riêng; nhận diện từ mới; và xử lý nhập nhằng ranh giới từ.
1.1.3.1. Vấn đề nhận diện và khử nhập nhằng tên riêng tiếng Việt
Trong tách từ tiếng Việt, khi nhận diện tên riêng có từ 2 âm tiết trở lên, thường
xảy ra nhập nhằng giữa tên riêng với tên riêng. Ví dụ: "Chủ tịch UBND TP Hà Nội
Nguyễn Thế Thảo ..." có thể được phân tách theo các phương án như:
(1) "Chủ_tịch UBND TP Hà_Nội_Nguyễn_Thế_Thảo ..."
(2) "Chủ_tịch UBND TP Hà_Nội Nguyễn_Thế_Thảo ..."
Hiện tượng nhập nhằng còn xảy ra giữa tên riêng với từ trong văn bản. Ví dụ:
"Trường Đại học Bách khoa Hà Nội" có hai phương án phân tách là:
(1) "Trường_Đại học Bách_khoa Hà_Nội"
(2) "Trường Đại_học Bách_khoa Hà_Nội"


-9-

1.1.3.2. Vấn đề nhận diện từ mới
Ta biết rằng từ điển từ vựng tiếng Việt chứa một số lượng lớn các từ. Tuy
nhiên, nó khơng thể chứa hết các từ được sử dụng trong thực tế, đặc biệt là các dạng
từ có khả năng tạo sinh lớn như từ láy, từ ghép đẳng lập, từ ghép chính phụ. Vì thế,
bài toán tách từ tiếng Việt phải đối diện với vấn đề nhận diện từ mới.
Ví dụ 1. "Tiếng nổ bùm bụp trong khói bụi ..."
Ví dụ 2. "Các tổ hợp từ khúc kha khúc khích và cơm no áo ấm ."
Trong ví dụ 1 có hai từ mới là "bùm bụp" (từ láy) và "khói bụi" (từ ghép đẳng
lập); cịn trong ví dụ 2, cũng có hai tổ hợp từ mới là "khúc kha khúc khích" (tổ hợp
từ láy mở rộng) và "cơm no áo ấm" (tổ hợp ghép đẳng lập mở rộng). Tất cả chúng
đều khơng có trong từ điển cũng như kho ngữ liệu, kết quả tách từ sẽ thường bị lỗi,

chẳng hạn như:
"Tiếng nổ bùm bụp trong khói bụi ..."
"Các tổ_hợp từ khúc kha khúc_khích và cơm no áo_ấm ."
Nếu từ điển từ vựng được bổ sung thêm một số lớp từ như: từ láy hay từ ghép
đẳng lập, chúng có khả năng chứa các từ "bùm bụp" hay "khói bụi". Nếu dùng luật
cấu tạo từ ghép mở rộng, có thể xác định được hai cụm từ "khúc kha khúc khích" và
"cơm no áo ấm". Khi đó, kết quả tách từ sẽ là:
"Tiếng nổ bùm_bụp trong khói_bụi ..."
"Các tổ_hợp từ khúc_kha_khúc_khích và cơm_no_áo_ấm ."
Để giảm số lượng từ mới cần đốn nhận, cần phải có tài ngun từ vựng lớn.
Nghĩa là, cần phải có từ điển từ vựng lớn cũng như kho ngữ liệu huấn luyện (đã tách
từ) lớn, phủ nhiều lĩnh vực khác nhau.
Ngoài ra, từ mới có thể được xác định bằng cách sử dụng các quy tắc cấu tạo
từ tiếng Việt ([3], [8], [9], [10], [12], [13], [14], [21], [26]), hoặc dựa vào tính
tốn thống kê mức âm tiết trên văn bản cần tách từ ([33], [64], [72], [99], [101]).
Vì thế, cần có một số phân tích, thống kê và thảo luận về các từ điển, các kho ngữ
liệu và nghiên cứu một số phương pháp nhận diện từ mới cho tách từ tiếng Việt.
1.1.3.3. Vấn đề nhập nhằng ranh giới từ
Nhập nhằng ranh giới từ tiếng Việt là hiện tượng thường gặp, đặc biệt trong các
ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải thao tác với ý nghĩa từ
vựng. Ví dụ, “họ đi kiểm tra một vịng quanh khu vực đón tiếp tân giám đốc” có tới 4
phương án phân tách từ:


- 10 -

(1) "họ đi kiểm_tra một vịng_quanh khu_vực đón_tiếp tân giám_đốc"
(2) "họ đi kiểm_tra một vịng_quanh khu_vực đón tiếp_tân giám_đốc"
(3) "họ đi kiểm_tra một vịng quanh khu_vực đón_tiếp tân giám_đốc"
(4) "họ đi kiểm_tra một vịng quanh khu_vực đón tiếp_tân giám_đốc"

Dựa vào ngữ cảnh và một số dấu hiệu khác, con người có thể xác định phương
án đúng dễ dàng, nhưng với máy móc thì đó là một thách thức.
1.1.4. Phương pháp đánh giá kết quả tách từ tiếng Việt
Có nhiều tiêu chí và phương pháp đánh giá khác nhau như: dựa vào biên của từ,
dựa vào từ, hay dựa vào câu. Ở đây, luận án dựa vào đơn vị từ để đánh giá.
Kí hiệu:
+ Nm: là số từ trong văn bản mẫu đã tách từ.
+ Nt : là số từ trong văn bản kết quả tách từ.
+ Nđ: là số từ tách đúng so với mẫu.
Đánh giá độ chính xác kết quả tách từ so với mẫu theo các công thức:
+ Độ hồi tưởng R (Recall)

:

R = Nđ/Nm

(1.1)

+ Độ chính xác P (Precision) : P = Nđ/Nt

(1.2)

+ Độ đo F1-score

(1.3)

:

F1 = 2RP/(R+P)


1.2. NHỮNG TIẾP CẬN TRÊN THẾ GIỚI VÀ TRONG NƯỚC
Cho đến nay, bài tốn tách từ đã có một lịch sử phát triển đáng kể (hơn 20 năm
trên thế giới và hơn 10 năm trong nước) và đã thu được nhiều kết quả quan trọng.
Những tiếp cận trên thế giới về bài toán tách từ chủ yếu tập trung vào các ngôn
ngữ thuộc khu vực Châu Á. Các ngơn ngữ này có đặc điểm giống nhau về cấu tạo là
khơng có kí hiệu để phân cách giữa các đơn vị từ trong văn bản như tiếng Việt, tiếng
Trung. Chính vì thế, hầu hết các ngơn ngữ thuộc khu vực này đều có nhiều nghiên
cứu và xử lý cần thiết để giải quyết bài tốn tách từ cho mình. Đi đầu và có nhiều
nghiên cứu nhất là tiếng Trung (xem [40], [41], [45], [46], [49], [53], [63], [65], [68],
[71]), tiếng Thái (xem [38], [39], [42], [43], [50], [63], [137], [151]), kế đến là tiếng
Việt (xem [61], [69], [70], [128], [160], [162]), tiếng Nhật (xem [57], [129], [154]),
tiếng Lào (xem [150], [152]), tiếng Khmer (xem [44]),...
Phần này sẽ giới thiệu sơ lược các phương pháp giải quyết bài toán tách từ trên
thế giới cũng như trong nước. Trên cơ sở đó, tóm tắt một số kết quả đạt được và
những tồn tại cần khắc phục giải quyết cho bài toán tách từ tiếng Việt.


- 11 -

1.2.1. Những tiếp cận trên thế giới
Bài toán tách từ được nghiên cứu ngay từ những năm 1980. Lúc đầu, các thuật
toán tách từ theo quan điểm so khớp cực đại dựa vào từ điển ([116], [137]). Sau đó, bài
tốn được nghiên cứu theo một số quan điểm về cấu trúc từ trong câu ([40], [117]), rồi
đến phương pháp thống kê ([141]). Trong đó, có đưa ra cách giải quyết nhập nhằng
phân tách bằng hai cách: kiểm tra các mối quan hệ cấu trúc giữa các từ, và thực hiện
thống kê so sánh tần số sử dụng của các từ. Cả hai tiếp cận này cho kết quả cịn rất hạn
chế. Ngay sau đó, [109] kết hợp giữa cấu trúc từ và thống kê để nhận diện ranh giới từ.
Cho đến nay, có nhiều phương pháp tách từ đã được đề xuất như [84], [143],
[168],... Các phương pháp này có thể được phân thành ba nhóm phương pháp chính:
các phương pháp dựa trên từ điển; các phương pháp dựa trên thống kê; và các

phương pháp lai kết hợp; và có thể kể đến một số phương pháp phỏng sinh học.
1.2.1.1. Các phương pháp dựa trên từ điển
Trong các phương pháp dựa trên từ điển, cho một chuỗi kí tự đầu vào, từ duy
nhất được lưu trữ trong từ điển có thể được xác định. Một trong những phương pháp
phổ biến nhất là so khớp cực đại (MM - Maximum Matching). Tuỳ hướng duyệt
chuỗi kí tự đầu vào mà ta có hai tiếp cận so khớp cực đại khác nhau ([166], [180]):
so khớp cực đại tiến (FMM - Forward Maximum Matching) và so khớp cực đại lùi
(BMM - Backward Maximum Matching). Ngoài ra, phương pháp so khớp cực đại
thường được tăng cường với các thông tin heuristic hay thống kê để xử lý với các
nhập nhằng chồng lấp (OA - Overlap Ambiguities) ranh giới từ giữa FMM và BMM
([105], [153]). Ngoài ra, các phương pháp so khớp cực đại phụ thuộc vào độ lớn của
từ điển từ vựng. Tuy nhiên, trong thực tế các từ mới (NW - New Words) xuất hiện
liên tục mà phương pháp so khớp theo từ điển khó có thể hồn thành tốt cơng việc.
Vì vậy, để giải quyết vấn đề từ mới, nhiều hệ thống cũng chứa các thành phần đặc
biệt để xác định từ mới, bổ sung vào từ điển.
Các nghiên cứu so khớp với từ điển được thực hiện từ những năm 1980 đến nay:
tiếng Trung ([116]); tiếng Thái ([137]); tiếng Myanmar ([163]); tiếng Urdu ([124]);...
1.2.1.2. Các phương pháp dựa trên thống kê
Các phương pháp thống kê được áp dụng rộng rãi bởi vì chúng sử dụng một cơ
chế tính điểm dựa trên chi phí hoặc xác suất thay cho từ điển để tách từ trong văn
bản. Tuy nhiên, những phương pháp này gặp phải 3 hạn chế:


- 12 -

 Một số phương pháp trong [100] xác định các từ mới NW mà khơng biết nó
là cái gì. Chẳng hạn, người ta sẽ xác định một chuỗi như là một đơn vị từ
vựng, nhưng không xác định được nó cho dù nó là một tên người.
 Nhiều phương pháp thống kê hiện nay gặp khó khăn trong việc kết hợp tri
thức ngôn ngữ một cách hiệu quả vào tách từ. Chẳng hạn như [155] và [60]

không sử dụng bất kì tri thức ngơn ngữ nào. Như vậy, việc xác định các từ
mới NW có khả năng khơng hợp lý về mặt ngơn ngữ học. Do đó, việc kiểm
tra thủ công bổ sung là cần thiết đối với một số nhiệm vụ tiếp theo như phân
tích từ loại hay phân tích cú pháp.
 Trong nhiều bộ tách từ hiện nay, việc xác định từ mới NW được coi như là
một quá trình riêng biệt trong tách từ ([32], [34], [110]). Ví dụ, [32] giả định
rằng các từ mới NW thường là hai hoặc nhiều kí tự và thường được phân
tách thành các kí tự đơn. Sau đó, tác giả dùng các thành phần khác nhau để
phát hiện các loại từ NW khác nhau theo từng lớp sau khi tách từ cơ bản.
Có hai nhóm phương pháp trong thống kê:
a. Học khơng giám sát (unsupervised): có thể chia thành hai loại:
+ Loại 1: dùng các độ đo được thiết kế cẩn thận để xác định các ứng viên từ.
Các độ đo phổ biến gồm: các xác suất ngram, độ thông tin tương hỗ (MI - Mutual
Information, theo [141]), độ lợi chiều dài mô tả (DLG - Description Length Gain,
theo [54]), độ AV (Accessor Variety, theo [74]) đo tần suất phụ tố của dãy con, độ
Entropy của ranh giới (BE - Boundary Entropy, theo [181]) và biến thể của Entropy
nhánh được chuẩn hoá (nVBE - normalized Variation of Branching Entropy, theo
[135]), độ dài mô tả cực tiểu (MDL - Minimum Description Length, theo [136],
[144], [148]), v.v.
+ Loại 2: tập trung vào việc thiết kế mơ hình thống kê phức tạp, thường là mơ
hình Bayes phi tham số để tìm cách tách từ với xác suất hậu nghiệm cao nhất cho dãy
âm tiết quan sát đã biết. Các mơ hình thống kê tiêu biểu bao gồm: mơ hình q trình
Dirichlet phân cấp (HDP - Hierarchical Dirichlet Process, theo [147]), mơ hình quá
trình Pitman-Yor lồng nhau (NPY - Nested Pitman-Yor process, theo [123]), mơ
hình Bayes-HMM (theo [120]), v.v.
b. Học máy có giám sát (supervised): với nhiều mơ hình học máy hiện đại như:
Naive Bayes/mơ hình xác suất n-gram mức từ; mạng nơ-ron nhân tạo (ANN -



×