Tách từ tiếng Việt sử dụng Longest Matching và CONDITIONAL RANDOM FIELDS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (183.62 KB, 20 trang )

ĐẶT VẤN ĐỀ
Với sự phát triển nhanh chóng của cơng nghệ thông tin, nguồn thông tin trực
tuyến (online) dưới dạng văn bản xuất hiện càng ngày càng nhiều. Nguồn thông tin
này đến từ các thư viện điện tử, thư điện tử, trang web, hệ thống tìm kiếm và tra
cứu thơng tin. Việc khám phá tri thức tiềm ẩn từ kho dữ liệu văn bản là cần thiết
cho việc quản lý, khai thác hiệu quả nguồn thông tin văn bản khổng lồ này.
Trong nỗ lực xây dựng một cơ sở tri thức tiếng Việt thì việc hiểu các văn bản
tiếng Việt, tóm tắt văn bản tiếng Việt, hay phân loại văn bản tiếng Việt…là những
cơng việc khơng thể thiếu được. Chính vì lý do đó, Bộ Khoa học - Cơng nghệ đã
phê duyệt đề tài cấp nhà nước với tên gọi "Nghiên cứu phát triển một số sản phẩm
thiết yếu về xử lý tiếng nói và văn bản tiếng Việt" năm 2006. Một dạng điển hình
về kết quả của đề tài là các công cụ cơ bản dùng để xử lý văn bản (tiếng Việt) như
kiểm lỗi chính tả, phân tách từ, xác định loại từ, phân tích cú pháp... Cơng việc cơ
bản đầu tiên có tính tiên quyết là phân đoạn từ tiếng Việt.
Tách từ là một bước quan trọng không thể thiếu trong xử lý ngôn ngữ tự
nhiên, nhằm xác định được ranh giới các từ có trong văn bản. Trong tiếng Việt,
ngồi từ đơn (một âm tiết), cịn có từ ghép (đa âm tiết) khác so với tiếng anh. Bên
cạnh đó, ngữ cảnh cũng ảnh hưởng khơng ít đến việc tách từ, đặc biệt có những
câu đa nghĩa trong tiếng việt như “Con ngựa đá con ngựa đá”.
Ý thức được những lợi ích của việc xây dựng cơ sở tri thức tiếng Việt nói
chung và bài tốn phân đoạn từ tiếng Việt nói riêng, chúng em đã chọn đề tài mơn
học Khai phá dữ liệu là tìm hiểu các cách thức phân đoạn từ tiếng Việt

I.

Tiếng Việt và cách hướng tiếp cận bài toán tách từ

1. Từ vựng Tiếng Việt
Việc chỉ ra định nghĩa chính xác suất thế nào là một từ không phải đơn giản,
địi hỏi cơng sức nghiên cứu của các nhà ngơn ngữ học. Chúng ta giới thiệu một

định nghĩa sau làm ví dụ về định nghĩa từ: “Từ là đơn vị nhỏ nhất có nghĩa, có kết
cấu vỏ ngữ âm bền vững, hồn chỉnh, có chức năng gọi tên, được vận dụng độc
lập, tái hiện tự do trong lời nói để tạo câu”.
Nhưng xét trên góc độ ứng dụng, ta có thể hiểu một các đơn giản là “từ được
cấu tạo bởi một hoặc nhiều tiếng”.
1.1. Tiếng – đơn vị cấu tạo lên từ:
+ Về mặt hình thức, tiếng là một đoạn phát âm của người nói, dù chúng ta
có cố tình phát âm chậm đến mấy cũng khơng thể tách tiếng ra thành các đơn vị
khác được. Tiếng được các nhà ngôn ngữ gọi là âm tiết (syllable).
+ Về mặt nội dung, tiếng là đơn vị nhỏ nhất có nội dung được thể hiện, chí
ít tiếng cũng có giá trị về mặt hình thái học (cấu tạo từ), đơi khi người ta gọi tiếng
là hình tiết (morphemesyllable), tức là âm tiết có có giá trị về hình thái học.
- Phân loại: Các tiếng không phải tất cả đều giống nhau, xét về mặt ý nghĩa,
chúng ta có thể chia tiếng thành các loại sau
- Tiếng tự thân nó đã có ý nghĩa, thường được quy chiếu vào một đối tượng,
khái niệm. Ví dụ: trời, đất, nước, cây, cỏ…
- Tiếng tự thân nó khơng có ý nghĩa, chúng khơng được quy chiếu vào đối
tượng, khái niệm nào cả. Chúng thường đi cùng với một tiếng khác có nghĩa và
làm thay đổi sắc thái của tiếng đó, ví dụ như: (xanh) lè, (đường) xá, (năng) nơi…
- Tiếng tự thân nó khơng có ý nghĩa nhưng lại đi với nhau để tạo thành từ.
Những nếu tách rời tiếng này ra đứng riêng thì chúng khơng có nghĩa gì cả, nhưng

lại có thể ghép lại thành từ có nghĩa. Ta thường xun gặp ở những từ mượn như
phéc-mơ-tuya, a-pa-tít, mì-chính... Trong tiếng Việt thì các tiếng thuộc nhóm đầu
tiên chiếm đa số. Các tiếng thuộc hai nhóm sau thưởng chỉ chiếm số ít, đặc biệt là
nhóm thứ 3, chúng thường được gọi là tiếng vơ nghĩa. Việc nhóm đầu tiên chiếm
đa số phản ánh thực tế là khi nói, người ta thường sử dụng các tiếng có nghĩa, hiếm
khi lại nói ra tồn từ vơ nghĩa
1.2. Cấu tạo từ

- Từ đơn:
Từ đơn, hay còn gọi là từ đơn âm tiết, là các từ được cấu tạo bởi một tiếng
duy nhất. Ví dụ: tơi, bạn, nhà, hoa, vườn…
- Từ ghép:
Từ ghép là các từ được tạo lên từ hai hoặc nhiều hơn các tiếng lại. Giữa các
tiếng có mỗi quan hệ về nghĩa với nhau, vì thế ta cũng có các loại từ ghép khác
nhau.
• Từ ghép đẳng lập: các thành phần cấu tạo từ có mối quan hệ bình đẳng với
nhau về nghĩa. Ví dụ: ăn nói, bơi lội …
• Từ ghép chính phụ: các thành phần cấu tạo từ có mối quan hệ phụ thuộc
với nhau về nghĩa. Thành phần phụ sẽ có vai trị làm chun biệt hóa, tạo sắc thái
cho thành phần chính. Ví dụ: hoa hồng, đường sắt…
- Theo Từ điển từ tiếng Việt (Vietlex): >40.000 từ, trong đó:
• 81.55% âm tiết là từ : từ đơn
• 15.69% các từ trong từ điển là từ đơn
• 70.72% từ ghép có 2 âm tiết
• 13.59% từ ghép ≥ 3 âm tiết

• 1.04% từ ghép ≥ 4 âm tiết
-

Từ láy: Một từ sẽ được coi là từ láy khi các yếu tố cấu tạo nên nó có

thành phần ngữ âm được lặp lại; nhưng vừa có lặp (cịn gọi là điệp) vừa có biến đổi
(cịn gọi là đối). Ví dụ: đo đỏ, man mát… Nếu một từ chỉ có phần lặp mà khơng có
sự biến đổi (chẳng hạn như từ nhà nhà, ngành ngành…) thì ta có dạng láy của từ.
1.3. Nhập nhằng
Nếu ta dựa trên khái niệm “từ” của các nhà ngôn ngữ học để trực tiếp phân
đoạn từ bằng tay thì khó có thể xảy ra việc nhập nhằng trong tiếng Việt. Song dưới

góc độ ứng dụng máy tính, chúng ta coi một từ chỉ đơn giản là cấu tạo từ một hoặc
nhiều tiếng, và việc này rất dễ gây ra sự nhập nhằng trong quá trình phân đoạn từ.
Sự nhập nhằng của tiếng Việt có thể chia thành 2 kiểu sau:
• Nhập nhằng chồng chéo: chuỗi “abc” được gọi là nhặp nhằng chồng chéo
nếu như từ “ab”, “bc” đều xuất hiện trong từ điển tiếng Việt. Ví dụ như 8 trong câu
“ơng già đi nhanh q” thì chuỗi “ơng già đi” bị nhập nhằng chồng chéo vì các từ
“ơng già” và “già đi” đều có trong từ điển.
• Nhập nhằng kết hợp: chuỗi “abc” được gọi là nhập nhằng kết hợp nếu như
từ “a”,”b”,”ab” đều xuất hiện trong từ điển tiếng Việt. Ví dụ như trong câu “Bàn là
này cịn rất mới” thì chuỗi “bàn là” bị nhập nhằng kết hợp, do các từ “bàn”, “là”,
“bàn là” đều có trong từ điển.
2. Các hướng tiếp cận hiện nay
Để nhận dạng đúng ranh giới của các từ (tách từ) phục vụ cho các bài tốn
phân tích dữ liệu văn bản như: gom nhóm, phân lớp văn bản, các nhà khoa học đã
đề xuất nhiều phương pháp tách từ. Dựa trên đặc điểm của từ, kết hợp với cách tiếp
cận khác nhau, các phương pháp tách từ này có thể chia thành ba nhóm chính: dựa

trên từ điển (dictionary-based), dựa trên thống kê (statistic-based) và phương pháp
lai (hybrid).
Sau khi tìm hiểu về ngơn ngữ tiếng Việt và một số phương pháp phân đoạn
từ tiếng Việt bằng máy tính hiện nay, em nhận thấy một mơ hình phân đoạn từ
tiếng Việt tốt phải giải quyết được hai vấn đề chính đó là giải quyết nhập nhằng
trong tiếng Việt và có khả năng phát hiện từ mới. Xuất phát từ đó, em chọn hướng
tiếp cận sử dụng mơ hình học máy CRF cho bài tốn phân đoạn từ tiếng Việt. Đây
là mơ hình có khả năng tích hợp hàng triệu đặc điểm của dữ liệu huấn luyện cho
q trình học máy, nhờ đó có thể giảm thiểu nhập nhằng trong tiếng Việt
Các phương pháp đã tìm hiểu
2.1. Phương pháp So khớp từ dài nhất (Longest Matching)
Là phương pháp theo hướng tiếp cận dựa trên từ điển: Ý tưởng chính của

phương pháp tách từ dựa trên từ điển là từ một từ điển sẵn có, thực hiện so khớp
từng âm tiết trong văn bản với các từ có trong từ điển. Tuỳ vào cách thức so khớp
mà ta có các phương pháp khác nhau như: so khớp từ dài nhất (longest matching),
so khớp từ ngắn nhất (short matching), so khớp chồng lắp (overlap matching) và so
khớp cực đại (maximum matching).
Độ chính xác của phương pháp dựa trên từ điển phụ thuộc rất lớn vào kích
thước từ điển được xây dựng. Với đặc điểm là khơng cần phải có bước huấn luyện
nên thời gian xử lý của phương pháp này tương đối nhanh, đơn giản và dễ hiểu.
Tuy nhiên, phương pháp này sẽ khó có thể xử lý dược các tình huống nhập nhằng
cũng như xử lý tình huống xuất hiện từ mới không tồn tại trong từ điển.
Giải thuật:
Gọi V là danh sách các tiếng chưa xét.
T là bộ từ điển.

While V≠⍉ do
Begin
Wmax= từ đầu danh sách V; // từ dài nhất
Foreach (v thuộc từ gồm các tiếng bắt đầu trong V)
If(length(v)> length(Wmax) and v thuộc T) then Wmax=
v;
Loại đi các tiếng trong Wmax ở đầu danh sách V;
End.
Ví dụ: Tôi là công dân nước Việt Nam:
Bước Từ dài nhất có thể

Các tiếng cịn lại

1

là cơng dân nước Việt

Tơi

Nam
2

Là

cơng dân nước Việt Nam

3

Cơng dân

nước Việt Nam

4

Nước

Việt Nam

5

Việt Nam

Ưu điểm:
• Tách từ nhanh đơn giản chỉ cần dựa vào từ điển.
• Độ chính xác tương đối cao.

Hạn chế:
• Độ chính xác phụ thuộc vào hồn tồn vào tính đầy đủ và chính xác
của từ điển.

Phương pháp này sẽ không đạt được kết quả nếu cuối từ trước có liên
hệ với các từ sau. Ví dụ : một ông quan tài giỏi => một ||ông|| quan tài|| giỏi.
Khi tồn tại các từ ghép ngoài từ điển, phương pháp này không thể
nhận ra.
2.2.

Phương pháp WFST

Phương pháp WFST Phương pháp WFST (Weighted Finite-State
Transducer) còn gọi là phương pháp chuyển dịch trạng thái hữu hạn có trọng số.
Ý tưởng chính của phương pháp này áp dụng cho phân đoan từ tiếng Việt là
các từ sẽ được gán trọng số bằng xác suất xuất hiện của từ đó trong dữ liệu. Sau đó
duyệt qua các câu, cách duyệt có trọng số lớn nhất sẽ là cách dùng để phân đoạn
từ. Hoạt động của WFST có thể chia thành ba bước sau:
• Xây dựng từ điển trọng số: từ điển trọng số D được xây dựng như là một
đồ thị biến đổi trạng thái hữu hạn có trọng số.
Giả sử
- H là tập các tiếng trong tiếng Việt
- P là tập các loại từ trong tiếng Việt.
- Mỗi cung của D có thể là:
+ Từ một phần tử của H tới môt phần tử của H
+ Từ phần tử ε (xâu rỗng) đến một phần tử của P
- Mỗi từ trong D được biểu diễn bởi một chuỗi các cung bắt đầu bởi một
cung tương ứng với một phần tử của H, kết thúc bởi một cung có trọng số
tương ứng với một phần tử của ε × P. Trọng số biểu diễn một chi phí ước

lượng (estimated cost) cho bởi công thức:
C = - log()

Trong đó f: tần số xuất hiện của từ, N: kích thước tập mẫu
• Xây dựng các khả năng phân đoạn từ: bước này thống kê tất cả các khả
năng phân đoạn của một câu. Giả sử câu có n tiếng, thì sẽ có cách phân đoạn khác
nhau. Để giảm sự bùng nổ các cách phân đoạn, thuật toán sẽ loại bỏ ngay những
nhánh phân đoạn mà chứa từ không xuất hiện trong từ điển.
• Lựa chọn khả năng phân đoạn tối ưu: sau khi liệt kê tất cả các khả năng
phân đoạn từ, thuật toán sẽ chọn cách phân đoạn tốt nhất, đó là cách phân đoạn có
trọng số bé nhất.
Ví dụ: câu “Tốc độ truyền thơng tin sẽ tăng cao”
- Từ điển trọng số:

Tốc độ

8.68

Truyền

12.31

Truyền thông

12.31

Thông tin

7.24

Tin

7.33

Sẽ

6.09

Tăng

7.43

Cao

6.95
Trọng số theo mỗi cách phân đoạn được tính là :
• “Tốc độ # truyền thơng # tin # sẽ # tăng # cao.” = 8.68 +12.31 + 7.33 +

6.09 + 7.43 +6.95
• “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” = 8.68 +12.31 + 7.24 +
6.09 + 7.43 +6.95
Do đó, ta có được phân đoạn tối ưu là cách phân đoạn sau “Tốc độ # truyền
# thông tin # sẽ # tăng #cao.”
Nhận xét: Nhược điểm chính của thuật tốn là việc đánh trọng số dựa trên
tần số xuất hiện của từ, nên khi tiến hành phân đoạn thì khơng tránh khỏi các nhập
nhằng trong tiếng Việt. Hơn nữa với những văn bản dài thì phương pháp này cịn
gặp phải sự bùng nổ các khả năng phân đoạn của từng câu. Ưu điểm của phương
pháp này là sẽ cho độ chính xác cao nếu ta xây dựng được một dữ liệu học đầy đủ

và chính xác.

3. Conditional Random Field

Một số qui ước ký hiệu:
 Chữ viết hoa X, Y, Z.. kí hiệu cho các biến ngẫu nhiên.
 Chữ đậm

ví dụ: x = (x1,...,xn), y, t .. ký hiệu các vector vector

biểu diễn chuỗi dữ liệu quan sát , vector biểu diễn chuỗi các nhãn.
 xi , yi biểu diễn các thành phần trong một vector.
 chữ viết thường x, y, z…. là ký hiệu cho một giá trị đơn như một dữ
liệu quan sát hay một trạng thái.
 S là tập các hữu hạn trạng thái.
 O là tập dữ liệu quan sát được.

3.1. MÔ HÌNH MARKOV ẨN- HMM
Mơ hình Markov được giới thiệu vào cuối những năm 1960. Cho đến hiện nay nó
có một ứng dụng khá rộng như trong nhận dạng giọng nói, tính tốn sinh học
(Computational Biology ), và xử lý ngơn ngữ tự nhiên.
HMM là mơ hình máy hữu hạn trạng thái với các tham số biểu diễn xác suất chuyển
trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái.
Mơ hình Markov ẩn là mơ hình thống kê trong đó hệ thống được mơ hình hóa được
cho là một q trình Markov với các tham số khơng biết trước, nhiệm vụ là xác định các
tham số ẩn từ các tham số quan sát được.
Trong một mơ hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người
quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất (hình 5 có
thể mơ tả rõ cho điều này).

Hình 5. HMM
- xi — Các trạng thái trong mơ hình Markov

- aij — Các xác suất chuyển tiếp
- bij — Các xác suất đầu ra
- yi — Các dữ liệu quan sát
Mơ hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bố trên
các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi
HMM không trực tiếp chỉ ra dãy các trạng thái. Ta có tìm ra được chuỗi các trạng thái mơ
tả tốt nhất cho chuỗi dữ liệu quan sát được bằng cách tính.
(2.1)
Y
1

Y
2

…

…

…

Y
n

X
1

X
2

…

…

…

X
n

Hình 6. Đồ thị vơ hướng HMM
Ở đó Yn là trạng thái tại thời điểm thứ t=n trong chuỗi trạng thái Y, Xn là dữ liệu
quan sát được tại thời điểm thứ t=n trong chuỗi X. Do trạng thái hiện tại chỉ phụ thuộc
vào trạng thái ngay trước đó với giả thiết rằng dữ liệu quan sát được tại thời điểm t chỉ

phụ thuộc và trạng thái t. Ta có thể tính P(Y, X).
(2.2)
Một số hạn chế của mơ hình Markov để tính được xác suất P(Y,X) thơng thường ta
phải liệt kê hết các trường hợp có thể của chuỗi Y và chuỗi X. Thực tế thì chuỗi Y là hữu
hạn có thể liệt kê được, còn X (các dữ liệu quan sát) là rất phong phú. Để giải quyết các
vấn đề này HMM đưa ra giả thiết về sự độc lập giữa các dữ liệu quan sát: Dữ liệu quan
sát được tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm đó. Hạn chế thứ hai gặp
phải là việc sử dụng xác suất đồng thời P(Y, X) đôi khi khơng chính xác vì với một số bài
tốn thì việc sử dụng xác suất điều kiện P(Y | X) cho kết quả tốt hơn rất nhiều.

3.2. MƠ HÌNH CỰC ĐẠI HĨA ENTROPY-MEMM

Mơ hình MEMM thay thế các xác suất chuyển trạng thái và các xác suất sinh quan
sát trong HMM bởi một hàm xác suất duy nhất P(Si | Si-1, Oi) (xác suất dịch chuyển từ
trạng thái hiện tại là Si-1 tới trạng thái trước đó là Si với dữ liệu quan sát hiện tại là Oi)
thay vì sử dụng P(Si | Si-1) và P(Oi | Si). Mơ hình MEMM quan niệm rằng các quan sát đã
được cho trước và chúng ta không cần quan tâm đến xác suất sinh ra chúng mà chỉ quan
tâm vào xác suất chuyển trạng thái.
Dưới đây là đồ thị có hướng mơ tả cho mơ hình MEMM.

S
1

S
2

…

…

…

S
n

S
1:
n

Hình 7. Đồ thị có hướng mơ tả cho mô hinh MEMM

Qua đồ thị ta nhận thấy rằng quan sát hiện tại không chỉ phụ thuộc vào trạng thái
hiện tại mà cịn có thể phụ thuộc vào trạng thái trước đó.
Xác suất P(S | O) có thể tính như sau:
(2.3)
MEMM coi dữ liệu quan sát là các điều kiện cho trước thay vì coi chúng là các
thành phần được sinh bởi mơ hình như trong HMM vì thế xác suất chuyển trạng thái có
thể phụ thuộc vào các thuộc tính đa dạng của chuỗi dữ liệu quan sát.
Với mơ hình này ta chia thành các hàm dịch chuyển được huấn luyện một cách
riêng biệt trong |S| - tập hợp trạng thái. Như sau:
McCallum xác định phân phối cho xác suất chuyển trạng thái có dạng hàm mũ sau:
(2.4)
Ở đây là các tham số cần được huấn luyện; Z(Ot, St) là thừa số chuẩn hóa để tổng
xác suất chuyển từ trạng St-1 sang St kề với nó đều bằng 1; fa(Ot, St) là hàm thuộc tính tại vị
trí thứ i trong chuỗi dữ liệu quan sát và trong chuỗi trạng thái. Ở đây ta định nghĩa mỗi
một thuộc tính fa có hai đối số: Dữ liệu quan sát hiện tại và trạng thái hiện tại. McCallum
cũng đinh nghĩa a=<b, St> trong đó b chỉ phụ thuộc vào dữ liệu quan sát hiện tại.
1 nếu dữ liệu quan sát hiện tại là “1tỷ”
b(Ot)=
0 nếu ngược lại
Hàm thuộc tính fa xác định nếu b(Ot) nhận một giá trị xác định:
1 nếu b(Ot)=1 và St=St-1
f<b,St>(Ot,St)=
0 nếu ngược lại

Vấn đề “label alias” gặp phải trong mô hình MEMM

Vấn đề gặp phải ở mơ hình MEMM [14] “lable alias”. Xét một ví dụ đơn giản sau:

Hình 8. label alias

Giả sử ta cần xác định chuỗi trạng thái khi xuất hiện chuỗi quan sát là “rob” do vậy
chuỗi trạng thái đúng là 0345 vì vậy ta mong đợi xác suất.
P( 0345|rob ) > P( 0125|rob)
Lại có P(0125|rob) = P(0)*P(1|0, r)*P(2|1,o )*P(5|2, b).
Do xác suất chuyển trạng thái của 2 trạng thái kề nhau là l. Do vậy:
P(0125 | rob)=P(0)*P(1 | 0, r).
Tương tự ta cũng có P(0345 | rob)=P(0)*P(3 | 0, r). Nếu trong tập huấn luyện
“rib”xuất hiện nhiều hơn “rob” thì chuỗi trạng thái S=0125 ln được chọn dù chuỗi quan
sát là rib hay rob. Đây là hạn chế gặp phải trong mơ hình MEMM, hạn chế này ảnh
hưởng rất lớn đến quá trình gán nhãn của MEMM.
Để giải quyết vấn đề alias Léon Bottou (1991) đưa ra một số cách sau: Thứ nhất
như mơ hình ở trên ta có thể gộp trạng thái 1 và 4 và trì hỗn việc phân nhánh cho đến
khi gặp một quan sát xác định ( Discriminating Observation ). Nhưng đối với máy hữu
hạn trạng thái thì điều này khơng thể vì xảy ra sự bùng nổ tổ hợp. giải pháp thứ hai là ta
có thể ln thay đổi cấu trúc trạng thái của mơ hình điều này có nghĩa xác suất của tồn
bộ chuỗi trạng thái sẽ khơng được bảo tồn mà có thể bị thay đổi trong một vài bước
chuyển tùy thuộc vào quan sát đó.
Trên đây là những vấn đề hạn chế của HMM và MEMM từ đó cho thấy nhu cầu cần
thiết của mơ hình CRF có thể giải quyết những hạn chế trên.

3.3. MƠ HÌNH CONDITIONAL RANDOM FIELDS
CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp. CRF
là mơ hình dựa trên xác xuất điều kiện, thường được sử dụng trong gán nhãn và phân tích
dữ liệu tuần tự ví dụ ký tự, ngơn ngữ tự nhiên. Khác với mơ hình MEMM, CRF là mơ
hình đồ thị vơ hướng. Điều này cho phép CRF có thể định nghĩa phân phối xác suất của
toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên
mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mơ
hình MEMM. Chính những tính chất này của CRF mà mơ hình này giải quyết được vấn
đề “label bias”.

3.3.1. Định nghĩa CRF
Trước khi xem định nghĩa trường ngẫu nhiên điều kiện ta xem định nghĩa thế nào là
một trường ngẫu nhiên
Cho một đồ thị vơ hướng khơng có chu trình G(V,E), ở đây V là tập các đỉnh của đồ
thị và E là tập các cạnh vô hướng nối các đỉnh của đồ thị nếu thỏa mãn:
thì V gọi là trường ngẫu nhiên

Y5

(2.5)

Y1

Y2

Y4

Y3

Y6

Hình 9. Một trường ngẫu nhiên
P(Y5| Yi)=P(Y5|Y4,Y6) . Vậy Y={Y5, Y4,Y6} là trường ngẫu nhiên.

Tiếp đến chúng ta định nghĩa trường ngẫu nhiên có điều kiện như sau: X là biến
ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn.Y là biến ngẫu nhiên nhận giá
trị là chuỗi nhãn tương ứng. Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận giá trị
trong tập hữu hạn các trạng thái S. Các đỉnh V biểu diễn các thành phần của biến ngẫu

nhiên Y sao cho tồn tại ánh xạ một – một giữa các đỉnh và một thành phần Yv của Y. Ta
nói:
CRF được định nghĩa: (Y | X) là một trường ngẫu nhiên điều kiện (Conditional
Random Field) với điều kiện X khi ta chỉ tính được xác xuất có điệu kiện P(Yi | Xi) với YiY
và Xi X và với mỗi Xi ta chọn được argmaxYiP(Yi | Xi).
Trong bài tốn dữ liệu dạng chuỗi, G có thể được biểu diễn như sau:
G = ( V={1,2,3,…m}, E={i,i+1}i=1…m-1).
Kí hiệu X=(X1, X2…Xn), Y=(Y1, Y2,…Yn). Ta có mơ hình đồ thị vơ hướng của CRF có
dạng sau:

Hình 10. Đồ thị vơ hướng mơ tả cho CRF
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G (đồ thị biểu diễn cấu trúc
của một CRF). Theo kết quả của Hammerly-Clifford cho các trường Markov, ta thừa số
hóa được p(y | x) – xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu quan sát –
thành tích các hàm tiềm năng:

P(y|x)=
Có thể mơ phỏng như hình sau:

(2.6)

Yt+3

Yt+1

Yt

Yt+2

Ψ2

Ψ3

Ψ1

X1:n
Hình 11. Mơ tả các hàm tiềm năng
3.3.2. Conditional Random Fields
Mơ hình CRFs cho phép các quan sát trên tồn bộ X, nhờ đó chúng ta có thể sử
dụng nhiều thuộc tính hơn phương pháp Hidden Markov Model. Một cách hình thức
chúng ta có thể xác định được quan hệ giữa một dãy các nhãn y và một câu đầu vào x qua
công thức sau.
(2.17)
Ở đây x,y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; tk(yi-1,yi,x,i): là
thuộc tính của tồn bộ chuỗi quan sát và các trạng thái tại vị trí i-1, i trong chuỗi trạng
thái; sk(yi,x,i): là thuộc tính của tồn bộ chuỗi quan sát và trạng thái tại vị trí i trong chuỗi
trạng thái; λj, μk: là các tham số được thiết lập từ dữ liệu huấn luyện.

II. Cài đặt thuật tốn
1. Mơ tả bài tốn phận đoạn từ tiếng Việt
Ta có thể quy bài tốn phân đoạn từ tiếng Việt thành bài toán gán nhãn cho
các âm tiết tiếng Việt. Dựa vào các nhãn đó ta có thể xác định được ranh giới của
từng từ trong văn bản tiếng Việt.
Các nhãn được sử dụng ở đây là
• B_W: nhãn đánh dấu bắt đầu một từ
• I_W: nhãn đánh dấu ở trong một từ
Như vậy bài toán phân đoạn từ tiếng Việt có thể phát biểu là: “Hãy xây dựng
một mơ hình để gán nhãn {B_W, I_W} cho các âm tiết của văn bản tiếng Việt chưa

được phân đoạn”. Để có thể xây dựng được một mơ hình tốt, trước hết ta phải
chuẩn bị được một tập dữ liệu huấn luyện đầy đủ và chính xác
Dữ liệu chúng ta cần chuẩn bị ở dạng sau:
X = [[{'bias': 1.0, 'lower': 'hello'}, {'bias': 1.0, 'lower': 'world'}],
[{'bias': 1.0, 'lower': 'world'}, {'bias': 1.0, 'lower': 'hello'}]]
y = [['B', 'I'], ['B', 'I']]
X là dữ liệu features, chúng ta chuẩn bị ở dạng dictionary.
Mỗi âm (syllable) được tính và tạo ra một dữ liệu đặc trưng dạng json.
Ví dụ: với câu “Hello World” sẽ có 2 syllables là “Hello” và “World”.
Syllable là “Hello” sẽ tạo ra 1 dict là {‘bias’: 1.0, ‘lower’: ‘hello’}.
Một số các feature chúng ta có thể tính là: ‘bias’, ‘lower’, ‘isupper’, ‘istitle’,
‘isdigit’.
Lưu ý: feature của một từ cịn được tính cho các từ phía trước phía sau.
Ví dụ: ‘+1:lower’: ‘world’ là 1 feature của “Hello”. Tương ứng với mỗi
syllable (ví dụ “Hello”) là một nhãn, chẳng hạn ‘B’ hay ‘I’

2. Dữ liệu
Dữ liệu train dựa trên các lĩnh vực và đã được tách từ .
STT
1
2
3
4
5
6

Lĩnh vực
Kinh doanh
Pháp luật

Thể thao
Văn hóa
Vi tính
Xã hội

Số lượng
540
240
660
360
660
300

Tổng số file 2760

Dữ liệu test với 301 file được chuẩn bị trước
3. Kết quả cài đặt
Thống kê với 5 lần thử nghiệm, ta có kết quả thống kê như sau:
Lần

F1 score trên

F1 score trên

tập test

tập train

1

0.935

0.944

2

0.932

0.946

3

0.935

0.944

4

0.936

0.945

5

0.933

0.946

Như vậy, ta thấy model đã train khá phù hợp đối với bài toán tách từ và bộ
dữ liệu được chuẩn bị.

III. Kết luận
Tiểu luận đã hệ thống hóa một số vấn đề về phân đoạn từ tiếng Việt bao gồm
tìm hiểu về từ vựng tiếng Việt, các hướng tiếp cận bài toán phần đoạn từ tiếng Việt
kèm theo đánh giá nhận xét. Đồng thời đề xuất phương án phân đoạn từ tiếng Việt
bằng học máy sử dụng mơ hình CRF, thực nghiệm trên dữ liệu tiếng Việt cho kết
quả rất khả quan. Sau đây là tóm lược một số ý chính luận văn đã đề cập tới:
- Đã trình bày hệ thống về mơ hình CRF, gồm định nghĩa, các huấn luyện
mơ hình và cách suy diễn mơ hình.
- Đã mô tả chi tiết các phương pháp phân đoạn tiếng Việt theo hướng thi
hành phương pháp áp dụng mơ hình CRF. Quá trình thu thập và xử lý dữ liệu đã
mô tả chi tiết.
Chương này cũng đã đưa ra cách đánh giá độ chính xác của mơ hình theo
ước lượng chéo trên k tập con, với ba độ đo là độ chính xác, độ hồi tưởng, và độ đo
F1.
Hướng nghiên cứu tiếp theo:
Mặc dù kết quả thu được của luận văn là đáng khích lệ nhưng trong thời gian
có hạn, em chưa thể thu thập dữ liệu lớn hơn và tiến hành thêm nhiều thử nghiệm
khác nhau. Trong thời gian tới, em sẽ tiến hành thu thập thêm các dữ liệu sách báo,
truyện tiếng Việt, các bài văn cổ… với lượng dữ liệu phong phú nhiều lĩnh vực em
hi vọng sẽ đạt được kết quả cao hơn nữa. Cũng trên cơ sở kết quả đạt được của
luận văn, xây dựng một phần mềm hoàn chỉnh cho phép phân đoạn các văn bản
tiếng Việt với độ chính xác cao, tiện dụng và đem lại hiệu quả thiết thực trong xử
lý văn bản tiếng Việt.

Tách từ tiếng Việt sử dụng Longest Matching và CONDITIONAL RANDOM FIELDS

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về