TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
************************************
BÀI TẬP LỚN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
ĐỀ TÀI: : Xây dựng bộ tách từ Tiếng Việt
Hà Nội – 05/2012
Giáo viên hướng dẫn : PGS.Lê Thanh Hương
Sinh viên thực hiện : Trần QuangHưng - 20071489
Nguyễn Nam Thanh -
20072552
Đỗ Quang Trường - 20063382
Võ Hải Nam - 20073735
Lớp : HTTT K52
MỤC LỤC
1 MỞ ĐẦU 3
1.1 GIỚI THIỆU 3
1.2 MỘT SỐ ĐẶC ĐIỂM CHÍNH TRONG TIẾNG VIỆT 3
1.3 ĐẶT VẤN ĐỀ 6
2 CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 7
2.1 PHƯƠNG PHÁP MAXIMUM MATCHING : FORWARD/ BACKWARD 7
2.2 PHƯƠNG PHÁP GIẢI THUẬT HỌC CẢI BIẾN (TRANSFORMATION-BASED LEARNING,TBL). .8
2.3 MÔ HÌNH TÁCH TỪ WFST VÀ MẠNG NEURAL 9
2.4 PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DYNAMIC PROGRAMMING) 12
2.5 PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT DỰA TRÊN THỐNG KÊ TỪ INTERNET VÀ THUẬT
TOÁN DI TRUYỀN 13
2.6 PHƯƠNG PHÁP CONDITIOANL RANDOM FIELDS 15
2.7 PHƯƠNG PHÁP TÁCH TỪ KẾT HỢP GIỮA Ô-TÔ-MÁT VÀ XÁC SUẤT THỐNG KÊ 17
3 CÀI ĐẶT 19
4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 21
5 KẾT LUẬN 24
6 TÀI LIỆU THAM KHẢO 24
Phân chia công việc :
Võ Hải Nam
– Kiểm thử hệ
thống và đưa ra
giải pháp tối ưu
1 MỞ ĐẦU
1.1 GIỚI THIỆU
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ
trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định
các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác
định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu
cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này
tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài
toán rất khó giải quyết.
Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ
thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc
vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc,
tiếng Nhật, tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này,
ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn
ngữ thuộc loại hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ
giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì
vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là
khử được sự nhập nhằng trong ranh giới từ.
Một số ví dụ :
-Nếu nhà máy nghỉ thì ta đi về
-Ông già đi nhanh quá
-Sống, chiến đấu, lao động, học tập theo gương Bác Hồ vĩ đại
1.2 MỘT SỐ ĐẶC ĐIỂM CHÍNH TRONG TIẾNG VIỆT
1.2.1 TIẾNG
Về mặt ngữ âm, tiếng là âm tiết. Âm tiết bao gồm những đơn vị ở bậc
thấp hơn gọi là âm vị. Mỗi âm vị được ghi bằng một ký tự gọi là chữ
Trần QuangHưng - Xây dựng và code chính cho hệ thống
Nguyễn Nam Thanh – Tìm hiểu các phương pháp tách từ
Đỗ Quang Trường – Xây dựng cập nhật bộ từ điển
Về mặt ngữ nghĩa, tiếng là đơn vị nhỏ nhất có nghĩa, nhưng cũng có một
số tiếng không có nghĩa.
Về mặt giá trị ngữ pháp, tiếng là đơn vị cấu tạo từ. Sử dụng tiếng việt để
tạo thành từ, ta có hai trường hợp như sau:
• Từ một tiếng: gọi là từ đơn. Trường hợp này một từ chỉ có duy nhất một
tiếng. Ví dụ: ông, bà…
• Từ hai tiếng trở lên: gọi là từ phức. Trường hợp này một từ có thể có hai
hay nhiều tiếng trở lên. Ví dụ: xã hội, an ninh, hợp tác xã…
1.2.2 TỪ
Có rất nhiều quan niệm về từ trong tiếng Việt , từ nhiều quan niệm về từ
tiếng Việt khác nhau đó chúng ta có thể thấy đặc trưng cơ bản của "từ " là
sự hoàn chỉnh về mặt nội dung, từ là đơn vị nhỏ nhất để đặt câu.
Người ta dùng "từ" kết hợp thành câu chứ không phải dùng "tiếng" do
đó quá trình lập chỉ mục bằng cách tách câu thành các "từ" cho kết qua
tốt hơn là tách câu bằng “tiếng”.
Theo trung tâm từ điển Vietlex
1
thì từ vựng trong tiếng việt có 40,181
từ, nó ngày càng được mở rộng dùng trong giao tiếp, báo chí và văn học.
Những từ đó được tạo thành bởi 7,729 tiếng.
Có một vài điều thú vị khi thống kê độ dài của từ với thước đo là số âm
tiết như Bảng 2 -1 dưới đây. Đầu tiên có khoảng 81.55% tiếng tạo ra từ,
người ta gọi đó là từ đơn; 15,69% từ là từ đơn âm tiết. Thứ hai, có 70,72%
từ ghép được tạo ra từ hai âm tiết. Cuối cùng, có 13,59% từ được ghép từ ít
nhất ba âm tiết; chỉ có khoảng 1,04% là trên 4 âm tiết.
Độ dài Tổng số (từ) Chiếm tỷ lệ (%)
1 6,303 15,69
2 28,416 70,72
3 2,589 5,62
4 2,784 6,93
≥5 419 1,04
1
Tổng cộng 40,181 100
Bảng 2-1 Độ dài từ với thước đo là số âm tiết
Từ một số đặc điểm giữa tiếng Việt và tiếng Anh ta có bảng so sánh
dưới đây:
Đặc điểm của Tiếng Việt Đặc điểm của Tiếng Anh
• Được xếp là loại hình đơn
lập (isolate) hay còn gọi là loại
hình phi hình thái, không biến
hình, đơn tiết
• Từ không biến đổi hình
thái, ý nghĩa ngữ pháp nằm ở
ngoài từ
Ví dụ : Chị ngã em nâng và Em
ngã chị nâng
• Phương thức ngữ pháp chủ
yếu:trật tự từ và hư từ.
Ví dụ: Gạo xay và Xay gạo; đang
học và học rồi ; “nó bảo sao
không tới”, “sao không bảo nó
tới”, “sao không tới bảo nó”
• Ranh giới từ không được
xác định mặc nhiên bằng khoảng
trắng
• Tồn tại loại từ đặc biệt “ từ
chỉ loại” (classifier) hay còn gọi
là phó danh từ chỉ loại kèm theo
với danh từ, như: cái bàn, cuốn
sách, bức thư, con chó, con
• Là loại hình biến cách
(flexion) hay còn gọi là loại hình
khuất chiết
• Từ có biến đổi hình thái, ý
nghĩa ngữ pháp nằm ở trong từ.
Ví dụ: I see him và He sees me.
• Phương thức ngữ pháp chủ
yếu là : phụ tố.
Ví dụ: studying và studied
• Kết hợp giữa các hình vị là
chặt chẽ, khó xác định, được nhận
diện bằng khoảng trắng hoặc dấu
câu.
• Hiện tượng cấu tạo bằng từ
ghép thêm phụ tố (affix) vào gốc từ
là rất phổ biến.
Ví dụ: anticomputerizational
( anticompute-er-ize-ation-al)
sông,vì sao…
• Có hiện tượng láy và nói lái
trong tiếng Việt
Ví dụ: lấp lánh, lung linh
Hiện đại -> hại điện, thầy giáo->
tháo giầy…
Bảng 2-2 So sánh tiếng Việt và tiếng Anh
Nhận xét:
• Tiếng Việt là loại hình phi hình thái nên việc phân biệt loại từ (danh
từ, động từ, tính từ …) và ý nghĩa từ là rất khó, cho dù có sử dụng từ điển.
• Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức
tạp với phần xử lý các hư từ, phụ từ, từ láy…
• Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương
pháp tính xác suất xuất hiện của từ có thể không chính xác như mong đợi
• Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Điều
này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khó khăn.
Việc nhận diện ranh giới từ là quan trọng làm tiền đề cho các xử lý tiếp theo
sau đó, như: kiểm lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ,…
• Vì giữa tiếng Anh và tiếng Việt có nhiều điểm khác biệt nên chúng ta
không thể áp dụng y nguyên các thuật toán tiếng Anh cho tiếng Việt
1.3 ĐẶT VẤN ĐỀ
Nhập vào một câu Tiếng Việt hoặc một văn bản Tiếng Việt bất kỳ, chương trình trả ra
những đơn vị từ vựng của câu
2 CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN
2.1 PHƯƠNG PHÁP MAXIMUM MATCHING : FORWARD/
BACKWARD
2.1.1 NỘI DUNG
Phương pháp khớp tối đa (Maximum Matching) còn gọi là Left Right
Maximum Matching (LRMM). Theo phương pháp này, ta sẽ duyệt một
cụm từ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt
trong từ điển, rồi cứ thể tiếp tục cho từ kế tiếp cho đến hết câu.
Dạng đơn giản được dùng giải quyết nhập nhằng từ đơn. Giả sử có một
chuỗi ký tự (tương đương với chuỗi âm tiết trong tiếng Việt) C1, C2, ,
Cn. Ta bắt đầu từ đầu chuỗi. Đầu tiên kiểm tra xem C1, có phải là từ hay
không, sau đó kiểm tra xem C1C2 có phải là từ hay không. Tiếp tục tìm cho
đến khi tìm được từ dài nhất. Từ có vẻ hợp lý nhất sẽ là từ dài nhất. Chọn từ
đó, sau đó tìm tiếp như trên cho những từ còn lại cho đến khi xác định được
toàn bộ chuỗi từ.
Dạng phức tạp: Quy tắc của dạng này là phân đoạn có vẻ hợp lý nhất là
đoạn ba từ với chiều dài tối đa. Thuật toán bắt đầu như dạng đơn giản. Nếu
phát hiện ra những cách tách từ gây nhập nhằng (ví dụ, C1 là từ và C1C2
cũng là từ), ta xem các chữ kế tiếp để tìm tất cả các đoạn ba từ có thể có bắt
đầu với C1 hoặc C1C2. Ví dụ ta được những đoạn sau:
C1C2 C3 C4
C1C2 C3 C4 C5
C1C2 C3 C4 C5 C6
Chuỗi dài nhất sẽ là chuỗi thứ ba. Vậy từ đầu tiên của chuỗi thứ ba
(C1C2) sẽ được chọn. Thực hiện lại các bước cho đến khi được chuỗi từ
hoàn chỉnh.
2.1.2 ƯU ĐIỂM
• Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như “ hợp
tác xã ||mua bán”, “thành lập || nước || Việt Nam || dân chủ || cộng hòa”
• Cách tách từ đơn giản, nhanh, chỉ cần dựa vào từ điển
• Trong tiếng Hoa, cách này đạt được độ chính xác 98,41% Error:
Reference source not found
2.1.3 NHƯỢC ĐIỂM
• Độ chính xác của phương pháp phụ thuộc hoàn toàn vào tính đủ và
tính chính xác của từ điển
• Phương pháp này sẽ tách từ sai trong các trường hợp “ học sinh || học
sinh|| học”, “một || ông || quan tài || giỏi”, “trước || bàn là || một || ly ||
nước”…
2.2 PHƯƠNG PHÁP GIẢI THUẬT HỌC CẢI BIẾN
(TRANSFORMATION-BASED LEARNING,TBL)
2.2.1 NỘI DUNG
Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu. Theo cách tiếp cận này,
để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta
có thể cho máy “học” trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh
dấu ranh giới từ đúng.
Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần
thiết cho mô hình nhận diện từ.
2.2.2 ƯU ĐIỂM
• Đặc điểm của phương pháp này là khả năng tự rút ra quy luật của ngôn
ngữ.
• Nó có những ưu điểm của cách tiếp cận dựa trên luật vì cuối cùng nó
cũng dựa trên luật được rút ra) nhưng nó khắc phục được khuyết điểm
của việc xây dựng các luật một cách thủ công bởi các chuyên gia.
• Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả
của luật (dựa trên ngữ liệu huấn luyện)
• Có khả năng khử được một số nhập nhằng như “The singer sang a lot of
a??as”, thì hệ có thể xác định được “a??as” là “arias” (dân ca) thay vì
“areas” (khu vực) của các mô hình ngôn ngữ theo kiểu thống kê.
2.2.3 NHƯỢC ĐIỂM
• Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động
các qui luật đó” Error: Reference source not found. Việc xây dựng một
tập ngữ liệu đạt được đầy đủ các tiêu chí của tập ngữ liệu trong tiếng Việt
là một điều rất khó, tốn kém nhiều về mặt thời gian và công sức.
• Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật
tương đối đầy đủ
• Cài đặt phức tạp
2.3 MÔ HÌNH TÁCH TỪ WFST VÀ MẠNG NEURAL
2.3.1 NỘI DUNG
Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST
(Weighted finit–state Transducer) đã được Richard W Sproat et al Error:
Reference source not found áp dụng để tách từ tiếng Trung Quốc. Ý tưởng
cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi
từ trong ngữ liệu. Dùng WFST để duyệt qua câu cần xét. Cách duyệt có
trọng số lớn nhất (hay bé ???) sẽ là cách tách từ được chọn. Giải pháp này
cũng đã được áp dụng trong Error: Reference source not found kèm với
mạng neutral để khử nhập nhằng. Hệ thống tách từ tiếng Việt của Đinh
Điền et al Error: Reference source not found gồm hai tầng: tầng WFST
ngoài việc tách từ còn xử lý thêm các vấn đề liên quan đến đặc thù của
tiếng Việt như từ láy, tên riêng… và tầng mạng neural dùng để khử nhập
nhằng nếu có.
Tầng WFST :gồm có ba bước
Xây dựng từ điển trọng số : theo mô hình WFST, việc phân đoạn từ được
xem như là một sự chuyển dịch trạng thái có xác suất (Stochastic
Transduction). Chúng ta miêu tả từ điển D là một đồ thị biến đổi trạng thái
hữu hạn có trọng số. Giả sử:
• H: là tập các từ chính tả tiếng Việt (còn gọi là “tiếng”)
• P: là từ loại của từ (POS: Part – Of – Speech).
Mỗi cung của D có thể là:
• Từ một phần tử của H tới một phần tử của H, hoặc
• Từ ε (ký hiệu kết thúc từ) tới một phần tử của P
Các nhãn trong D biểu thị một chi phí ước lượng (estimated cost) bằng
công thức :
Cost = - log(f/N)
• Với f: tần số của từ, N: kích thước tập mẫu.
Đối với các trường hợp từ mới chưa gặp, tác giả áp dụng xác suất có điều
kiện Goog-Turning (Baayen) để tính toán trọng số.
Xây dựng các khả năng phân đoạn từ : Để giảm sự bùng nổ tổ hợp khi
sinh ra các dãy các từ có thể từ một dãy các tiếng trong câu, tác giả đề xuất
một phương pháp mới là kết hợp dùng từ điển để hạn chế sinh ra các bùng
nổ tổ hợp. Khi phát hiện thấy một cách phân đoạn từ nào đó không phù hợp
(không có trong từ điển, không phải là từ láy, không phải là danh từ
riêng…) thì tác giả loại bỏ các nhánh xuất phát từ cách phân đoạn từ đó.
Lựa chọn khả năng phân đoạn từ tối ưu : Sau khi được một danh sách các
cách phân đoạn từ có thể có của câu, tác giả chọn trường hợp phân đoạn từ
có trọng số bé nhất như sau:
• Ví dụ: input = “Tốc độ truyền thông tin sẽ tăng cao”
Dictionary “tốc độ” 8.68
“truyền” 12.31
“truyền thông” 12.31
“thông tin” 7.24
“tin” 7.33
“sẽ” 6.09
“tăng” 7.43
“cao” 6.95
Id(D)*D* = “Tốc độ # truyền thông # tin # sẽ # tăng # cao.” 48.79
(8.68 +12.31 + 7.33 + 6.09 + 7.43 +6.95 = 48.79 )
Id(D)*D* = “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” 48.70
(8.68 +12.31 + 7.24 + 6.09 + 7.43 +6.95 = 48.70 )
Do đó, ta có được phân đoạn tối ưu là “Tốc độ # truyền # thông tin # sẽ
# tăng # cao.”
Tầng mạng neural : Mô hình mạng neural mà tác giả đề xuất được dùng để
lượng giá 3 dãy từ loại: NNV,NVN, VNN (N: Noun, V: Verb). Mô hình
này được học bằng chính các câu mà cách phân đoạn từ vẫn còn nhập
nhằng sau khi qua mô hình thứ nhất.
2.3.2 ƯU ĐIỂM
• Độ chính xác trên 97% Error: Reference source not found
• Mô hình cho kết quả phân đoạn từ với độ tin cậy (xác suất) kèm theo.
• Nhờ có tầng mạng neural nên mô hình có thể khử nhập nhằng các
trường hợp tầng WFST cho ra nhiều ứng viên có kết quả ngang nhau
• Phương pháp này cho kết quả với độ chính xác khá cao vì mục đích
của tác giả muốn nhắm đến việc tách từ thật chính xác để là nền tảng cho
việc dịch máy.
2.3.3 NHƯỢC ĐIỂM
Cũng tương tự như phương pháp TBL, việc xây dựng tập ngữ liệu là rất
công phu, nhưng thật sự rất cần thiết để phục vụ cho mục đích dịch máy sau
này của tác giả
2.4 PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DYNAMIC
PROGRAMMING)
2.4.1 NỘI DUNG
• Phương pháp quy hoạch động được đưa ra bởi Lê An Hà Error:
Reference source not found chỉ sử dụng tập ngữ liệu thô để lấy thông tin về
tần số thống kê của từ , làm tăng độ tin cậy cho việc tính toán. Việc tính
toán bắt đầu với những đơn vị chắc chắn như câu, các cụm từ (chunk) được
phân cách bởi dấu câu ( như dấu phẩy, gạch nối, chấm phẩy…) vì những
thành phần này không có tính nhập nhằng ngay cả trong văn viết cũng như
nói. Sau đó, tác giả cố gắng tối đa hoá xác suất của ngữ bằng cách tìm ra
nhiều cách tách ngữ đó. Cách tách cuối cùng là cách tách là cho cụm từ đó
có xác suất cao nhất. Ý tưởng của cách tách từ này cho một ngữ cần tách từ,
ta phải tìm ra các tổ hợp từ tạo nên ngữ đó sao cho tổ hợp đó đạt được xác
suất tối đa. Tuy nhiên trong phương pháp tính toán này, tác giả gặp phải
vấn đề bùng nổ tổ hợp và phân tích ngữ liệu thô. Để giải quyết vấn đề trên,
tác giả đã sử dụng phương pháp quy hoạch động (dynamic programming) vì
lúc đó, xác suất cực đại của một ngữ nhỏ hơn chỉ phải tính toán một lần và
sử dụng lại trong các lần sau.
2.4.2 ƯU ĐIỂM
Không cần sử dụng tập ngữ liệu đã đánh dấu chính xác
2.4.3 NHƯỢC ĐIỂM
• Trong thí nghiệm, tác giả chỉ dừng lại ở việc tách các từ có ba tiếng
bởi vì tập ngữ liệu đầu vào vẫn còn khá nhỏ.
• Xác suất từ đúng là 51%, xác suất từ chấp nhận được 65% Error:
Reference source not found. Xác suất này tương đối thấp so với các phương
pháp tách từ khác đã đề cập ở trên.
2.5 PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT DỰA TRÊN THỐNG
KÊ TỪ INTERNET VÀ THUẬT TOÁN DI TRUYỀN
2.5.1 NỘI DUNG
Phương pháp IGATEC được Hung Nguyen et al Error: Reference
source not found giới thiệu là một hướng tiếp cận mới cho việc tách từ với
mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập
huấn luyện nào. Trong hướng tiếp cận này, tác giả kết hợp giữa thuật toán
di truyền (Genetics Algorithm - GA) với dữ liệu thống kê được trích xuất từ
Internet tiến hoá một quần thể gồm các cá thể là các khả năng tách từ trong
câu.
Hệ thống gồm ba phần
Hình 2.1 Toàn cảnh hệ thống IGATEC
Online Extractor
Online Extractor
….
Online Extractor
Online Extractor
Segmentation
Segmentation
Segmentation
Online Extractor : Phần này có tác dụng lấy thông tin về tần số xuất hiện
của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng
như Google. Sau đó, tác giả sử dụng các công thức sau đây để tính toán
mức độ phụ thuộc lẫn nhau (mutual information) để là cơ sở tính fitness
cho GA engine.
o Tính xác suất các từ xuất hiện trên Internet
MAX
wcount
wp
)(
)(
=
MAX
wwcount
wwp
)&(
)&(
21
21
=
Trong đó, MAX= 4 * 10
9
count(w) số lượng văn bản trên Internet tìm thấy có chứa từ w hoặc cùng
chứa w
1
và w
2
đối với count(w
1
& w
2
)
o Tính độ xác suất phụ thuộc của một từ lên một từ khác
)(
)&(
)|(
1
21
21
wp
wwcount
wwp =
o Thông tin phụ thuộc lẫn nhau (mutual information) của các từ ghép được
cấu tạo bởi n tiếng (c
w
= w
1
w
2
…w
n
)
∑
=
−
=
n
j
nj
n
wwwpwp
wwwp
cwMI
1
21
21
)& &&()(
)& &&(
)(
GA Engine for Text Segmentation : mỗi cá thể trong quần thể được
biểu diễn bởi chuỗi các bit 0,1, trong đó, mỗi bit đại diện cho một tiếng
trong văn bản, mỗi nhóm bit cùng loại đại diện cho một segment.
o Các cá thể được khởi tạo ngẫu nhiên, trong đó, mỗi segment được giới
hạn trong khoảng 5. GA engine sau đó thực hiện các bước đột biến và lai
ghép nhằm mục đích làm tăng giá trị fitness của các cá thể, để đạt được
cách tách từ tốt nhất có thể.
Text Categorization : tác giả dùng độ hỗ trợ (support degree) của văn
bản cần phân loại cho các từ khoá để phân loại văn bản.
2.5.2 ƯU ĐIỂM
• Không cần sử dụng bất cứ tập huấn luyện hoặc từ điển nào
• Phương pháp tương đối đơn giản.
• Không tốn thời gian huấn luyện
2.5.3 NHƯỢC ĐIỂM
• So với các phương pháp trước, IGATEC có độ chính xác thấp hơn
LRMM
• và WFST nhưng vẫn chấp nhận được đối với mục đích tách từ dành cho
phân loại văn bản.
• Thời gian chạy ban đầu khá chậm do phải lấy thông tin từ Internet mà
đường truyền ở Việt Nam còn hạn chế.
• Chưa có các thử nghiệm trên tập dữ liệu đủ lớn.
2.6 PHƯƠNG PHÁP CONDITIOANL RANDOM FIELDS
2.6.1 NỘI DUNG
Mô hình CRFs được đưa ra bởi nhóm tác giả Nguyễn Cẩm Tú Error:
Reference source not found là một mô hình học giám sát dựa trên thống kê
và tuân theo tính chất Markov thứ nhất. CRFs đã được chứng minh rất
thành công với các bài toán gán nhãn cho chuỗi như tách từ, gán nhãn cụm
từ, xác định thực thể, gán nhãn cụm danh từ,…
Gọi o = (o
1
, o
2
, …, o
T
) là một chuỗi dữ liệu quan sát cần được gán nhãn. Gọi
S là tập trạng thái, mỗi trạng thái liên kết với một nhãn l ∈ L. Đặt s = (s
1
,
s
2
, …, s
T
) là một chuỗi trạng thái nào đó, CRFs xác định xác suất điều kiện
của một chuỗi trạng thái khi biết chuỗi quan sát như sau:
=
∑∑
=
−
T
t k
ttkk
tossf
z
osp
1
1
),,,(exp
)0(
1
)|(
λ
θ
(1)
Gọi
∑ ∑∑
=
=
−
'
1
1
),','(exp)(
s
T
t k
ttkk
tossfoZ
λ
là thừa số chuẩn hóa trên toàn bộ
các chuỗi nhãn có thể.
xác định một hàm đặc trưng và
là trọng số liên
kết với mỗi đặc trưng
. Mục đích của việc học máy với CRFs là ước
lượng các trọng số này. Ở đây, ta có hai loại đặc trưng : đặc trưng trạng
thái (per – state) và đặc trưng chuyển (transition).
f
k
(per-state)
(s
t
,o,t) = δ(s
t
,l)x
k
(o,t) (2)
f
k
(transition)
(s
t-1
,s
t
,t) = δ(s
t-1
,l) δ(s
t
,l). (3)
Ở đây δ là Kronecker-δ. Mỗi đặc trưng trạng thái (2) kết hợp nhãn l của
trạng thái hiện tại s
t
và một vị từ ngữ cảnh – một hàm nhị phân x
k
(o, t) xác
định các ngữ cảnh quan trọng của quan sát o tại vị trí t. Một đặc trưng
chuyển (3) biểu diễn sự phụ thuộc chuỗi bằng các kết hợp nhãn l‟ của trạng
thái trước s
t-1
và nhãn l của trạng thái hiện tại s
t
. Người ta thường huấn
luyện CRFs bằng cách làm cực đại hóa hàm likelihood theo dữ liệu huấn
luyện sử dụng các kỹ thuật tối ưu như L-BFGS. Việc lập luận (dựa trên mô
hình đã học) là tìm ra chuỗi nhãn tương ứng của một chuỗi quan sát đầu
vào.
2.6.2 ƯU ĐIỂM
Đạt độ chính xác khá cao (94%)
2.6.3 NHƯỢC ĐIỂM
• Phải xây dựng tập huấn luyện và các model rất công phu và phức tạp. Hơn
nữa cách xây dựng không được nhóm tác giả đề cập tới.
• Thời gian load dữ liệu vào bộ nhớ tương đối lâu do tập ngữ liệu huấn
luyện tương đối lớn
2.7 PHƯƠNG PHÁP TÁCH TỪ KẾT HỢP GIỮA Ô-TÔ-MÁT VÀ
XÁC SUẤT THỐNG KÊ
2.7.1 NỘI DUNG
Ô-tô-mát hữu hạn trạng thái được ứng dụng trong nhiều lĩnh vực, đặc biệt là
lĩnh vực xử lý ngôn ngữ (NLP – Natural Language Processing). Theo
Maurel Error: Reference source not found Ô-tô-mát hữu hạn trạng thái xác
định tối thiểu (MDFA – minimal deterministic finite-state automata) được
biết đến như là sự biểu diễn tốt nhất của một từ vựng. Chúng không chỉ nhỏ
gọn mà còn tối ưu hóa thời gian truy cập vào tập dữ liệu. Từ điển tiếng Việt
được sẽ được xây dựng bằng các sử dụng một Ô-tô-mát tối thiểu để mã hóa
theo giải thuật được phát triển bởi J.Daciuk et al Error: Reference source
not found
2
. Khi đó từ vựng tiếng việt sẽ được biểu diễn bởi một MDFA.
Định nghĩa một Ô-tô-mát hữu hạn trạng thái xác định gồm 5 phần:
M=(Q,
∑
,δ,q
0
,F)
Với Q là tập các trạng thái hữu hạn.
q
0
∈
Q là trạng thái bắt đầu.
F
⊆
Q là tập trạng thái kết thúc.
∑ là tập các ký tự hữu hạn, là các chữ cái trong bảng chữ cái alphabet.
δ là một ánh xạ δ: Q x
∑
→
Q biểu diễn quá trình chuyển đổi.
Khi δ(q,a) không xác định thì δ(q,a) =
⊥
.
Mở rộng ánh xạ δ tới một phần ánh xạ δ
*
: Q x
∑
→
Q như sau ( với
a
∈∑
, x
∈
∑
*
)
2
/>Lấy DAFSA (Deterministic, acyclic, finite-state automata) là tập tất cả
Ô-tô-mát hữu hạn trạng thái xác định trong hàm chuyển đổi δ là không tuần
hoàn – sẽ không tồn tại xâu w và trạng thái q như sau δ
*
(q,w)=q
Định nghĩa L(M) là một ngôn ngữ được đoán nhận bởi Ô-tô-mát M:
L(M) ={ x
∈
∑
*
| δ
*
(q
0
,x)
∈
F}
Kích thước của Ô-tô-mát, |M|, bằng tổng số trạng thái, |Q|.P(
∑
*
) là tập
tất cả các ngôn ngữ trên
∑
. Định nghĩa hàm : Q
→
P(
∑
*
) ánh xạ a trạng
thái q tới một tập tất cả xâu trên đường đi từ q tới bất kỳ một trạng thái kết
thúc (final state) trong M. Chính xác hơn có:
(q) = { x
∈
∑
*
| δ
*
(q,x)
∈
F}
(q) gọi là ngôn ngữ đúng (right language) của q. Lưu ý rằng L(M)=
(q
0
). Ngôn ngữ đúng của một trạng thái có thể được định nghĩa đệ quy:
(q) = { a (δ(q,a)) | a
∈
∑ δ(q,a)
≠
⊥
) ∪
Định nghĩa một thuộc tính của một Ô-tô-mát chỉ rõ rằng tất cả các trạng
thái mà nó có thể tới được từ trạng thái bạn đầu:
Reachable(M)
≡
∀
q
∈
Q
∃
x
∈∑
*
( δ
*
(q
0
,x) =q)
Thuộc tính được sinh ra bởi một Ô-tô-mát tối thiểu thông thường được
xác định như sau ( theo Error: Reference source not foundError: Reference
source not found) :
Min(M)
≡
∀
M’
∈
DAFSA
(L(M) = L(M’) ⇒ |M|
≤
|M’|)
Tối thiểu hóa được tính như sau :
Minimal(M)
≡
(
∀
q,q’
∈
Q
(q
≠
q’
⇒
(q’)))
∧
Reachable(M)
Xử lý tối thiểu Ô-tô-mát được đưa ra bởi Watson et al Error: Reference
source not found và tính chính xác của giải thuật được chứng minh bởi
Mihov et al Error: Reference source not found.
2.7.2 ƯU ĐIỂM
• Độ chính xác cao
2.7.3 NHƯỢC ĐIỂM
• Cài đặt phức tạp
3 CÀI ĐẶT
Trong bài toán này nhóm chúng em sẽ sử dụng phương pháp so khớp cực
đại.
Các bước giải quyết :
-Xây dựng từ điển.
-Tìm từ trong từ điển : xác định tất cả các từ có trong câu
- Liệt kê tất cả các câu có thể.
-Phân giải nhập nhằng : sử dụng phương pháp so khớp cực đại đưa ra câu có số từ ít nhất
Xây dựng từ điển : bao gồm một tập các file dữ liệu từ điển dưới dạng
chuẩn XML được tổ chức như sau :
<Dictionary>
<LexicalEntry>
<HeadWord>a</HeadWord>
<Morphology>
<WordType>symbol</WordType>
</Morphology>
<Syntactic>
<Collocation>
<forward>_</forward>
<backward>_</backward>
</Collocation>
<Category>N</Category>
<Subcategory>N</Subcategory>
<VerbPattern>_</VerbPattern>
</Syntactic>
<Semantic>
<LogicalConstraint>
<CategoryMeaning>_</CategoryMeaning>
<Synonym>_</Synonym>
<Antonym>_</Antonym>
</LogicalConstraint>
<SemanticConstraint>
<semanticSub>_</semanticSub>
<semanticDob>_</semanticDob>
</SemanticConstraint>
<Definition>con chữ thứ nhất của bảng chữ cái chữ
quốc ngữ</Definition>
<Example>_</Example>
</Semantic>
</LexicalEntry>
…
</Dictionary>
-Tìm từ trong từ điển : ta tách mỗi câu thành danh sách các từ, với mỗi từ
tìm kiếm trong từ điển với độ dài tối đa là 5. Xác định từ có thể nằm trong
file dữ liệu từ điển tương ứng nào và tìm kiếm. Lưu tất cả các kết quả tìm
20
được trong từ điển vào danh sách, bao gồm thông tin : từ,vị trí bắt đầu, vị trí
kết thúc, danh sách các từ loại của từ.
-Xác định các câu từ danh sách các từ tìm được : sử dụng giải thuật đệ
quy xây dựng lại các câu từ danh sách các từ tìm được.
-Xác định câu được chấp nhận : theo phương pháp so khớp dài nhất.
4 THỬ NGHIỆM VÀ ĐÁNH GIÁ
Giao diện chương trình :
21
Thử nghiệm :
Kết quả chương trình đối với một số câu :
-Nếu nhà máy nghỉ thì ta đi về
Danh sách các từ :
[0,1:nếu(C)]
[1,2:nhà(N)]
[1,3:nhà máy(N)]
[2,3:máy(V,A,N)]
[3,4:nghỉ(V)]
[4,5:thì(I,C,N)]
[5,6:ta(A,N,P)]
[6,7:đi(R,I,V)]
[7,8:về(C,V)]
Các cách tách từ :
nếu|nhà|máy|nghỉ|thì|ta|đi|về
nếu|nhà máy|nghỉ|thì|ta|đi|về => Lựa chọn
-Ông già đi nhanh quá
Danh sách các từ :
[0,1:ông(N,L)]
[0,2:ông già(N)]
[1,2:già(N,A)]
[2,3:đi(R,I,V)]
[3,4:nhanh(A)]
[4,5:quá(V,R)]
Các cách tách từ :
ông|già|đi|nhanh|quá
ông già|đi|nhanh|quá => Lựa chọn
-Sống, chiến đấu, lao động, học tập theo gương Bác Hồ vĩ đại
Danh sách các từ :
[1,2:chiến(N,V)]
[1,3:chiến đấu(V)]
[2,3:đấu(N,V)]
[3,4:lao(N,V)]
[3,5:lao động(V,N)]
[4,5:động(N,C,V)]
[4,6:động học(N)]
[5,6:học(S,V)]
[5,7:học tập(V)]
22
[6,7:tập(N,V,L)]
[7,8:theo(V)]
[8,9:gương(N)]
[11,12:vĩ(N)]
[11,13:vĩ đại(A)]
[12,13:đại(N,A,R,S)]
Các cách tách từ :
Sống|chiến|đấu|lao|động|học|tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến đấu|lao|động|học|tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến đấu|lao động|học|tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến|đấu|lao động|học|tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến đấu|lao|động học|tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến đấu|lao động|học tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến|đấu|lao|động học|tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến đấu|lao|động|học tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến|đấu|lao động|học tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến|đấu|lao|động|học tập|theo|gương|BácHồ|vĩ|đại
Sống|chiến đấu|lao động|học tập|theo|gương|BácHồ|vĩ đại => Lựa chọn
Sống|chiến đấu|lao động|học|tập|theo|gương|BácHồ|vĩ đại
Sống|chiến đấu|lao|động học|tập|theo|gương|BácHồ|vĩ đại
Sống|chiến đấu|lao|động|học tập|theo|gương|BácHồ|vĩ đại
Sống|chiến|đấu|lao động|học tập|theo|gương|BácHồ|vĩ đại
Sống|chiến đấu|lao|động|học|tập|theo|gương|BácHồ|vĩ đại
Sống|chiến|đấu|lao động|học|tập|theo|gương|BácHồ|vĩ đại
Sống|chiến|đấu|lao|động học|tập|theo|gương|BácHồ|vĩ đại
Sống|chiến|đấu|lao|động|học tập|theo|gương|BácHồ|vĩ đại
Sống|chiến|đấu|lao|động|học|tập|theo|gương|BácHồ|vĩ đại
Đánh giá hệ thống :
-Kết quả thu được của chương trình là khá chính xác, song vẫn chưa thể xử
lý hết các trường hợp nhập nhằng khi các từ có câu có cùng số từ vựng.
-Độ chính xác của hệ thống phụ thuộc nhiều vào phong phú của từ điển.
-Không xử lý được các tổ hợp từ cố định, ví dụ : “ông chẳng bà chuộc”…
Một số giải pháp đề xuất :
-Về vấn đề xử lý nhập nhằng, có thể áp dụng thêm một số phương pháp như
xử lý cú pháp, xác suất thống kê để xử lý các trường hợp nhập nhằng.
-Đối với các vấn đề các tổ hợp từ cố định, có thể đưa ra tất cả các từ ghép
có trong phần đầu của xâu vào
23
5 KẾT LUẬN
Sau thời gian nghiên cứu và cài đặt chương trình tách từ cho văn bản
tiếng Việt sử dụng kỹ thuật Ô-tô-mát kết hợp với xác suất thống kê, em đã
có thêm rất nhiều kiến thức về bài toán tách từ tiếng việt, hiểu được bản
chất của kỹ thuật Ô-tô-mát và mô hình n-gram. Hệ thống tìm kiếm tài liệu
tiếng Việt theo lĩnh vực chuyên sâu cũng đã dần được hoàn thiện và bước
đầu cho thấy kết quả khả quan ở hệ thống thu thập tài liệu. Với hệ thống đã
xây dựng, chúng em đã bảo vệ thành công và đạt giải nhì sinh viên nghiên
cứu khoa học năm 2010, Kết quả nghiên cứu cũng đã được gửi tham gia hội
nghị IEEE-RIVF 1010.
Để tiếp tục nâng cao hiệu quả cho bộ tách từ, hướng phát triển tiếp theo
sẽ là
• Tiếp tục nghiên cứu lựa chọn ra thông số cắt cụm từ để tăng tốc độ tách từ
lên một cách nhanh nhất.
• Tìm hiểu các phương pháp tách từ mới, hoặc kết hợp những phương pháp đã
nêu để tăng độ chính xác và rút ngắn thời gian thực hiện.
6 TÀI LIỆU THAM KHẢO
• Slide bài giảng môn xử lý ngôn ngữ tự nhiên ( cô Lê Thanh
Hương ).
• ( Trang web của
Lê Hồng Phương).
• :8080/demo/?page=resources : một số tài
nguyên cho xử lý văn bản tiếng Việt.
• Và một số tài liệu khác từ internet.
24