Tải bản đầy đủ (.pdf) (8 trang)

3 wordsegmentation

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (314.96 KB, 8 trang )

Tách từ

Tách từ tiếng Việt

z
z

Lê Thanh Hương
Bộ môn Hệ thống Thông tin
Viện CNTT &TT – Trường ĐHBKHN
g @
Email:

z

¾

Mục đích: xác định ranh giới của các từ trong câu.
Là b
bước
ớ xử
ử lý quan ttrọng đối với
ới các
á hệ thố
thống XLNNTN
XLNNTN,
đặc biệt là đối với các ngôn ngữ đơn lập, ví dụ: âm tiết
Trung Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt.
Với các ngôn ngữ đơn lập, một từ có thể có một hoặc
nhiều âm tiết.
Vấn đề của bài toán tách từ là khử được sự nhập nhằng


trong ranh giới từ.

1

Từ vựng
z
z

Từ vựng

tiếng Việt là ngôn ngữ không biến hình
Từ điển từ tiếng Việt (Vietlex): >40.000 từ,
trong đó:
z
z
z
z
z

2

Độ dài
1
2
3
4
5
Tổng

81.55% âm tiết là từ : từ đơn

15.69% các từ trong từ điển là từ đơn
70.72% từ ghép có 2 âm tiết
13.59% từ ghép ≥ 3 âm tiết
1.04% từ ghép ≥ 4 âm tiết

# từ
6,303
28,416
2,259
2,784
419
40,181

%
15.69
70.72
5.62
6.93
1.04
100

Bảng 1. Độ dài của từ tính theo âm tiết
3

4


Qui tắc cấu tạo từ tiếng Việt
z


Từ đơn: dùng một âm tiết làm một từ.
z

z

Qui tắc cấu tạo từ tiếng Việt
z

Ví dụ:
d tôi,
tôi bá
bác, người,
ời cây,
â h
hoa, đi
đi, chạy,
h
vì,
ì đã,
đã à
à, nhỉ,
hỉ nhé...


Từ ghép: tổ hợp (ghép) các âm tiết lại, giữa các âm tiết
đó có quan hệ về nghĩa với nhau.
z

z


z

Từ ghép đẳng lập. các thành tố cấu tạo có quan hệ bình đẳng với
nhau về nghĩa.
z Ví dụ: chợ búa, bếp núc
Từ ghép chính phụ
phụ. các thành tố cấu tạo này phụ thuộc vào thành
tố cấu tạo kia. Thành tố phụ có vai trò phân loại, chuyên biệt hoá
và sắc thái hoá cho thành tố chính.
z Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, ngay đơ, thằng
tắp, sưng vù...

Từ láy: các yếu tố cấu tạo có thành phần ngữ âm được lặp
lại; nhưng vừa lặp vừa biến đổi
đổi. Một từ được lặp lại cũng cho
ta từ láy.
Biến thể của từ: được coi là dạng lâm thời biến động hoặc
dạng "lời nói" của từ.
z

z

Rút gọn một từ dài thành từ ngắn hơn
z ki-lô-gam → ki lô/ kí lô
Lâm thời p
phá vỡ cấu trúc của từ,, phân
p
bố lại
ạ yếu
y tố tạo

ạ từ với
những yếu tố khác ngoài từ chen vào. Ví dụ:
z khổ sở → lo khổ lo sở
z ngặt nghẽo → cười ngặt cười nghẽo
z danh lợi + ham chuộng → ham danh chuộng lợi

5

Các hướng tiếp cận

Qui tắc cấu tạo từ tiếng Việt
z

z

z

6

Các diễn tả gồm nhiều từ (vd, “bởi vì”) cũng được coi là
1 từ
Tên riêng: tên người và vị trí được coi là 1 đơn vị từ
vựng
Các mẫu thường xuyên: số, thời gian

z
z
z

7


Tiếp cận dựa trên từ điển
Tiếp cận theo phương pháp thống kê
Kết hợp hai phương pháp trên.

8


Các phương pháp
z
z

z

z
z

z

z

Tiếp cận dựa trên từ điển

So khớp từ dài nhất (Longest Matching)
H dựa
Học
d
trên
t ê sự cải
ải biế

biến (T
(Transformation-based
f
ti b
d
Learning – TBL)
Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite
State Transducer – WFST)
Độ hỗn loạn cực đại (Maximum Entropy – ME)
Học
ọ máy
y sử dụng
ụ g mô hình Markov ẩn ((Hidden Markov
Models- HMM)
Học máy sử dụng vectơ hỗ trợ (Support Vector
Machines)
Kết hợp các phương pháp trên

cao học
học, 1999>
z Xây dựng từ điển
z Mỗi mục từ lưu thông tin về từ, từ loại, nghĩa loại
z Tổ chức sao cho tốn ít bộ nhớ và thuận tiện trong việc
tìm kiếm
z Mã hóa từ điển: Từ loại
ạ và nghĩa
g
loại
ạ kiểu byte

y được
ợ lưu
dưới dạng một ký tự.
z VD: danh từ -112 – p, <loại từ> - 115 – s

9

Tiếp cận dựa trên từ điển
z

Tìm từ trong từ điển

Phân trang theo hai chữ cái đầu của từ, sắp tăng. Với mỗi trang,
các từ lại được sắp theo vần ABC.
Paragraph



z
z

n

2

1

ba

. . . . . .


10

xe

Content
1

bao

2

bà ngoại

bài tập

n

xe cộ

xe đạp

¾

11

Độ dài tối đa của từ? 3? 4? 5?
Vấn đề: nếu ngắn (vd 3), không xử lý được
các tổ hợp từ cố định, vd "ông chẳng bà
chuộc“

Đưa ra tất cả các từ ghép có trong từ điển
trùng với phần đầu của xâu vào

12


Tìm từ trong từ điển
Nếu

nhà

Vị trí
t í từ:
từ
0
1
z Ta có bảng sau:

máy
2

Phân giải nhập nhằng

nghỉ
3

thì
4

ta

5

về
6

z

7

Lấy tất cả các cách phân tích, nếu phân tích
cú pháp cho ra cây đúng thì đó là cách phân
tích đúng.

z
z

z

Ký hiệu:
z <liên từ> - LT
z <động từ> - ĐgT

<danh từ> - DT
<đại từ> - ĐaT
13

Cách tiếp cận lai

14


Biểu thức chính qui

segmentation of Vietnamese texts
texts, Proceedings of the
2nd International Conference on Language and Automat
Theory and Applications, LATA 2008, Tarragona, Spain,
2008.>
z Kết hợp phân tích automat hữu hạn + biểu thức chính
quy + so khớp từ dài nhất + thống kê (để giải quyết nhập
nhằng)

z

là một khuôn mẫu được so sánh với một chuỗi

z

Các kýý tự đặc biệt:
z * - bất cứ chuỗi ký tự nào, kể cả không có gì
z x – ít nhất 1 ký tự
z + - chuỗi trong ngoặc xuất hiện ít nhất 1 lần
Ví dụ:
z Email: *@x(.*)+
z dir *.txt
z ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John”

z

z


15

Biểu thức chính quy được sử dụng đặc biệt nhiều trong:
* Phân tích cú pháp
* Xác nhận tính hợp lệ của dữ liệu
* Xử lý chuỗi
* Tách dữ liệu và tạo báo cáo
16


e) [ 00 + 11 + (01+ 10) (00+ 11)*(01+ 10)]*

a) 0(0 + 1)* 0

z
z

b) (0+ 1)*0(0
1) 0(0 + 1) (0 + 1)

z

c) (11+ 0)*(00+ 1)

z
z
z

) ( + 0 + 00))

d)) ((1+ 01+ 001)*(ε

z

e) [ 00 + 11 + (01+ 10) (00+ 11)*(01+ 10)]*

z

Lớp ngôn ngữ chính qui, được đoán nhận bởi máy ảo,
gọi tên là automat hữu hạn
hạn.
z
z

z

0101010010101101
0101, 1010, 1001, 0110, 01101, 101101
(01)* (00+ ε) (10)* (11+ ε) (01)*
011011
(11+ ε) (00+ ε)

Giới thiệu phi hình thức về
automat hữu hạn

Automat hữu hạn
z

0011, 000011, 001111,
001100

001101001101

z

Automat hữu hạn đơn định (Deterministic Finite Automat a– DFA
Automat hữu hạn không đơn định (Nondeterministic Finite
Automat a– NFA)
Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng
(ε-NFA)

19

z

z

Một bài toán trong automat là nhận diện
chuỗi
ỗ w có thuộc về
ề ngôn ngữ L hay không.
Chuỗi nhập được xử lý tuần tự từng ký hiệu
một từ trái sang phải.
Trong quá trình thực thi, automat cần phải
nhớ thông tin đã qua xử lý.

20


Automat hữu hạn cho các từ
tiếng Anh


Ví dụ về automat hữu hạn
L = {w ∈ {0, 1}* | w kết thúc bằng chuỗi con 10}.

21

Automata hữu hạn cho các từ
tiếng Việt

22

Cách tách từ đơn giản

23

z

Phát hiện các mẫu thông thường như tên riêng, chữ viết
tắt số,
tắt,
số ngày tháng
tháng, địa chỉ email,
email URL,…
URL
sử dụng biểu
thức chính qui

z

Hệ thống chọn chuỗi âm tiết dài nhất từ vị trí hiện tại và

có trong từ điển, chọn cách tách có ít từ nhất

¾

Hạn chế: có thể đưa ra cách phân tích không đúng.

¾

Giải quyết: liệt kê tất, có 1 chiến lược để chọn cách tách
tốt nhất.

24


Lựa chọn cách tách từ
z
z

z

z

z

Thuật toán

Biểu diễn đoạn bằng chuỗi các âm tiết s1 s2 … sn
Trường
g hợp
ợp nhập

ập nhằng
g thường
g xuyên
y nhất là 3 từ liền nhau s1s2s3
trong đó s1s2 và s2s3 đều là từ.

BIểu diễn
BIể
diễ 1 đoạn
đ
bằng
bằ đồ thị
hị có
óh
hướng
ớ tuyến
ế tính
í h G = (V,E),
(V E) V = {v
{ 0,
v1, . . . , vn, vn+1}
Nếu các âm tiết si+1, si+2, . . . , sj tạo thành 1 từ -> trong G có cạnh
(vi,vj)
Các cách tách từ = các đường đi ngắn nhất từ v0 đến vn+1

Thuật toán 1. Xây dựng đồ thị cho chuỗi s1s2 . . . sn
1: V ← ‫;׎‬
2: for i = 0 to n + 1 do
3:
V ← V ∪ {vi};

4: end for
5: for i = 0 to n do
6:
for j = i to n do
7:
if (accept(AW, si · · · sj)) then
{(vi, vj+1)};
8:
E ← E ∪ {(
9:
end if
10: end for
11: end for
12: return G = (V,E);
accept(A, s): automat A nhận xâu vào s

25

Phân giải nhập nhằng

26

Phân giải nhập nhằng

z

Xác suất xâu s:

z


Khi n = 2, tính giá trị P(wi|wi-1) lớn nhất maximum
likelihood (ML)

z

P(wi|w1i-1): xác suất wi khi có i-1 âm tiết trước
đó
n = 2: bigram; n = 3: trigram

z

c(s): số lần xâu s xuất hiện; N: tổng số từ trong tập luyện
Khi dữ liệu luyện nhỏ hơn kích cỡ toàn bộ tập dữ liệu Æ
P~0
Sử dụng kỹ thuật làm trơn

z

27

z

z

28


Xác định giá trị λ1, λ2

Kỹ thuật làm trơn


z

với λ1 + λ2 = 1 và λ1, λ2 ≥ 0
PML(wi) = c(wi)/N
z

Với tập thử nghiệm T = {s1,s2,…,sn}, xác suất P(T) của tập
thử:

Từ tập dữ liệu mẫu, định nghĩa C(wi-1,wi) là số lần (wi-1,
wi) xuất hiện trong tập mẫu
mẫu. Ta cần chọn λ1 λ2 để làm
cực đại giá trị

với λ1 + λ2 = 1 và λ1, λ2 ≥ 0

29

Thuật toán

Kết quả
z
z

z

31

Sử dụng tập dữ liệu gồm 1264 bài trong báo Tuổi trẻ, có 507,358 từ

Lấy ε = 0.03,
0 03 các giá trị λ hội tụ sau 4 vòng lặp

Độ chính xác = số từ hệ thống xác định đúng/tổng số từ hệ thống
xác định = 95%
32



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×