Đồ Án Nghiên Cứu Phân Loại Văn Bản Tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (341.72 KB, 39 trang )

Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
CHƯƠNG 1 : TỔNG QUAN

Ngày này , sự bùng nổ thông tin do bị tác động bởi sự xuất hiện của các siêu phương
tiện và World Wide Web (WWW) đã làm cho không gian dữ liệu gia tăng thường
xuyên , điều này tạo ra một thách thức cho các hệ thống truy vấn thông tin sao cho
có hiệu qủa . Một trong những khó khăn mà các hệ thống thông tin thường phải gặp
đó là tần suất cập nhật của các thông tin qúa lớn .Phương thức sử dụng giấy trong
giao dịch đang dần được số hóa , do nhiều tính năng vượt trội mà phương thức này
mang lại , như là có thể lưu trữ lâu dài , cập nhật , sửa đổi , tìm kiếm một cách nhanh
chóng . Do đó số lượng văn bản số hóa ngày nay đang tăng dần theo cấp số nhân ,
cùng với sự gia tăng của số lượng văn bản , nhu cầu tìm kiếm văn bản cũng tăng theo
, khi đó phân loại văn bản tự động là một yêu cầu cấp thiết được đặt ra . Phân loại
văn bản giúp sẽ giúp chúng ta tìm kiếm thông tin một cách nhanh chóng hơn thay vì
phải tìm lần lượt trong từng văn bản , hơn nữa khi mà số lượng văn bản đang gia
tăng một cách nhanh chóng thì thao tác tìm lần lượt trong từng văn bản sẽ mất rất
nhiều thời gian , công sức và là một công việc nhàm chán và không khả thi. Chính vì
thế nhu cầu phân loại văn bản tự động là thực sự cần thiết.
Hiện nay đã có rất nhiều công trình nghiên cứu về phân loại văn bản và đã có được
những kết qủa đáng khích lệ , như là : Support Vector Machine , K – Nearest
Neighbor , Linear Least Squares Fit , Neural Network , Naïve Bayes , Centroid –
Based … Điểm chung của các phương pháp này đều dựa vào xác suất thống kê hoặc
dựa vào trọng số của các từ , cụm từ trong văn bản .Trong mỗi phương pháp đều có
cách tính toán khác nhau , tuy nhiên các phương pháp này đều phải thực hiện một số
bước chung , như : đầu tiên mỗi phương pháp sẽ dựa vào thông tin về sự xuất hiện
của các từ trong văn bản ( tần số xuất hiện trong tập văn bản ,…) để biểu diễn thành
dạng vector , sau đó tùy từng bài toán cụ thể mà chúng ta sẽ quyết định chọn áp
dụng phương pháp nào , công thức tính toán nào cho phù hợp để phân loại tập văn
bản dựa trên tập các vector đã xây dựng được ở bước trên , nhằm mục đích đạt được
kết qủa phân loại tốt nhất .
_________________________________________________________________________

_
Học viên : Trịnh Quốc Sơn - CH0401047 1
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
CHƯƠNG 2 : CÁC HƯỚNG TIẾP CẬN PHÂN LOẠI VĂN BẢN
Cùng với các hướng nghiên cứu khác về xử lý và rút trích thông tin trong văn bản
như phân cụm ( clustering) , tổng luợc văn bản ( text summarization ) , phân loại văn
bản tự động là một hướng nghiên cứu được quan tâm trong nhiều năm gần đây . Để
phân loại văn bản các công trình nghiên cứu thường dựa vào từ khóa , dựa trên ngữ
nghĩa của từ , tập thô hay một số mô hình khác .
I. Biểu diễn văn bản
Như đã trình bày ở phần trên , bước đầu tiên trong qui trình phân loại văn bản là thao
tác chuyển văn bản đang được mô tả duới dạng chuỗi các từ thành một mô hình khác
, sao cho phù hợp với các thuật toán phân loại ,thông thường nguời ta thường biểu
diễn văn bản bằng mô hình vector. Ý tưởng của mô hình này là xem mỗi một văn
bản ( D
i
) được biểu diễn theo dạng
(
)
i,
d
D
i
i
=
, trong đó i là chỉ số dùng để nhận
diện văn bản này và
d
i
là vector đặc trưng của văn bản D

i
này , trong đó :
), ,,(
www
d
in2i1i
i
=
, và n là số luợng đặc trưng của vector văn bản ,
w
ij
là
trọng số của đặc trưng thứ j ,
{ }
n1,2, ,j∈
.
Một vấn đề cần quan tâm khi biểu diễn văn bản theo vector đặc trưng chính là việc
chọn lựa đặc trưng và số chiều cho không gian vector . Cần phải chọn bao nhiêu từ ,
là các từ nào , phương pháp chọn ra sao ? . Đây là câu hỏi chúng ta phải trả lời trong
qúa trình chuyển văn bản sang thành vector , có nhiều cách tiếp cận khác nhau để trả
lời cho câu hỏi này , tiêu biểu là sử dụng phương pháp Information Gain , phương
pháp DF – Thresolding hay phương pháp Term Strength . Phương pháp Information
Gain sử dụng độ đo MI ( Mutual Information) để chọn ra tập từ khóa đặc trưng có độ
đo MI cao nhất . Tuy nhiên , việc chọn lựa phương pháp nào thì tuỳ thuộc vào độ
thích hợp , phù hợp của phương pháp , của độ đo mà phương pháp đó sử dụng so với
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 2
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
bài toán mà chúng ta đang xem xét giải quyết , có thể là nếu văn bản là một trang

web thì sẽ có phương pháp để chọn lựa đặc trưng khác so với các văn bản loại khác .
Các đặc trưng của văn bản khi biểu diễn dưới dạng vector :
- Số nhiều không gian đặc trưng thường lớn .
- Các đặc trưng độc lập nhau.
- Các đặc trưng rời rạc : vector đặc trưng d
i
có thể có nhiều thành phần mang
giá trị 0 do có nhiều đặc trưng không xuất hiện trong văn bản d
i
(nếu chúng ta
tiếp cận theo cách sử dụng giá trị nhị phân 1 , 0 để biểu diễn cho việc có xuất
hiện hay không một đặc trưng nào đó trong văn bản đang được biểu diễn
thành vector) , tuy nhiên nếu đơn thuần cách tiếp cận sử dụng giá trị nhị phân
0 , 1 này thì kết qủa phân loại phần nào hạn chế là do có thể đặc trưng đó
không có trong văn bản đang xét nhưng trong văn bản đang xét lại có từ khóa
khác với từ đặc trưng nhưng có ngữ nghĩa giống với từ đặc trưng này , do đó
một cách tiếp cận khác là không sử dụng số nhị phân 0 ,1 mà sử dụng giá trị
số thực để phần nào giảm bớt sự rời rạc trong vector văn bản.
II.Các phương pháp phân loại văn bản
II.1. Phương pháp SVM – Support Vector Machine
SVM là phương pháp phân loại rất hiệu qủa được Vapnik giới thiệu năm 1995 .
Ý tưởng của phương pháp là cho trước một tập huấn luyện được biểu diễn trong
không gian vector , trong đó mỗi một văn bản được xem như một điểm trong không
gian này .Phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể
chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng , tạm gọi là
lớp + ( cộng ) và lớp – ( trừ) .Chất lượng của siêu mặt phẳng này được quyết định
bởi một khoảng cách ( được gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến
mặt phẳng này . Khoảng cách biên càng lớn thì càng có sự phân chia tốt các điểm ra
thành hai lớp , nghĩa là sẽ đạt được kết qủa phân loại tốt . Mục tiêu của thuật toán
SVM là tìm được khoảng cách biên lớn nhất để tạo kết qủa phân loại tốt .

_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 3
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
Có thể nói SVM thực chất là một bài toán tối ưu , mục tiêu của thuật toán là tìm
được một không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số khi
phân loại là thấp nhất , nghĩa là kết qủa phân loại sẽ cho kết qủa tốt nhất .
Phương trình siêu mặt phẳng chứa vector d
i
trong không gian như sau :
0b
w
.
d
i
=+
→
→







<+
→
→
−
>+

→
→
+
=








→
→
=








→
0b
w
.
d
i
,

0b
w
.
d
i
,
w
.
d
i
sign
d
i
h
Như thế vector h(d
i
) biểu diễn sự phân lớp của vector d
i
vào hai lớp . Gọi Y
i
mang
giá trị +1 hoặc -1 , khi đó Y
i
= +1 văn bản tương ứng với vector d
i
thuộc lớp + và
ngược lại nó sẽ thuộc vào lớp - . Khi này để có siêu mặt phẳng h ta sẽ giải bài toán
sau :
Tìm Min
w

→
với
w
→
và b thỏa điều kiện :
1b))w
d
i
(sign(
y
i
:n1,i
≥+−∈∀
Chúng ta thấy rằng SVM là mặt phẳng quyết định chỉ phụ thuộc vào các vector hỗ
trợ có khoảng cách đến mặt phẳng quyết định là 1/w
i
. Khi các điểm khác bị xóa đi
thì thuật toán vẫn cho kết qủa giống như ban đầu . Chính đặc điểm này làm cho
SVM khác với các thuật toán khác như kNN , LLSF , Nnet , NB vì tất cả dữ liệu
trong tập huấn luyện đều được dùng để tối ưu hóa kết qủa .
II.2. Phương pháp K – Nearest Neighbor ( kNN)
kNN là phương pháp truyền thống khá nổi tiếng theo hướng tiếp cận thống kê đã
được nghiên cứu trong nhiều năm qua . kNN được đánh giá là một trong những
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 4
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
phương pháp tốt nhất được sử dụng từ những thời kỳ đầu trong nghiên cứu về phân
loại văn bản .
Ý tưởng của phương pháp này đó là khi cần phân loại một văn bản mới , thuật toán

sẽ xác định khoảng cách (có thể áp dụng các công thức về khoảng cách như Euclide ,
Cosine , Manhattan , …) của tất cả các văn bản trong tập huấn luyện đến văn bản
này để tìm ra k văn bản gần nhất ,gọi là k nearest neighbor – k láng giềng gần nhất ,
sau đó dùng các khoảng cách này đánh trọng số cho tất cả các chủ đề. Khi đó , trọng
số của một chủ đề chính là tổng tất cả các khoảng cách ở trên của các văn bản trong
k láng giềng có cùng chủ đề , chủ đề nào không xuất hiện trong k láng giềng sẽ có
trọng số bằng 0 . Sau đó các chủ đề sẽ được sắp xếp theo giá trị trọng số giảm dần và
các chủ đề có trọng số cao sẽ được chọn làm chủ đề của văn bản cần phân loại.
Trọng số của chủ đề c
j
đối với văn bản x được tính như sau :

b
j
c
j
,
d
i
y.
{kNN}
d
i
d
i
,
x
simc
j
x,

W −






→
∑
∈
→








→
→
=









→
Trong đó :
y (d
i
, c) thuộc {0,1} , với :
- y = 0 : văn bản d
i
không thuộc về chủ đề c
j
- y = 1 : văn bản d
i
thuộc về chủ đề c
j
sim (x , d) : độ giống nhau giữa văn bản cần phân loại x và văn bản d . Chúng ta
có thể sử dụng độ đo cosine để tính khoảng cách :
d
i
x
d
i
.
x
d
i
,
x
cos
d
i
,

x
sim
→
→
→
→
=








→
→
=








→
→
- b
j

là ngưỡng phân loại của chủ đề c
j
được tự động học sử dụng một tập văn bản
hợp lệ được chọn ra từ tập huấn luyện.
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 5
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
Để chọn được tham số k tốt nhất cho thao tác phân loại , thuật toán cần được chạy
thử nghiệm trên nhiều giá trị k khác nhau , giá trị k càng lớn thì thuật toán càng ổn
định và sai sót càng thấp .
II.3.Phương pháp Naïve Bayes (NB)
NB là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực
máy học và nhiều lĩnh vực khác như trong các công cụ tìm kiếm , các bộ lọc mail …
Ý tưởng cơ bản của cách tiếp cận này là sử dụng xác suất có điều kiện giữa từ hoặc
cụm từ và chủ đề để dự đoán xác suất chủ đề của một văn bản cần phân loại.Điểm
quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả
các từ trong văn bản đều độc lập với nhau. Như thế NB không tận dụng được sự phụ
thuộc của nhiều từ vào một chủ đề cụ thể . Chính giả định đó làm cho việc tính toán
NB hiệu qủa và nhanh chóng hơn các phương pháp khác với độ phức tạp theo số mũ
vì nó không sử dụng cách kết hợp các từ để đưa ra phán đoán chủ đề.
Mục đích chính là làm sao tính được xác suất Pr(C
j
, d’) , xác suất để văn bản d’nằm
trong lớp C
j
.Theo luật Bayes , văn bản d’ sẽ được gán vào lớp C
j
nào có xác suất
Pr(C

j
, d’) cao nhất .
Công thức để tính Pr(C
j
, d’) như sau :
( )
( ) ( )
( ) ( )














∑
∈
∏
=
∏
=
∈
=

c
c
'
d
'
1i
C
'
|
w
i
Pr.
c
'
Pr
d
'
1i
C
j
|
w
i
Pr.
C
j
Pr
argmax
C
c

j
d
'
H
BAYES
Với :
- TF(w
i
, d’) là số lần xuất hiện của từ w
i
trong văn bản d’
- |d’| là số lượng các từ trong văn bản d’
- w
i
là một từ trong không gian đặc trưng F với số chiều là |F|
- Pr(C
j
) được tính dựa trên tỷ lệ phần trăm của số văn bản mỗi lớp tương ứng
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 6
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
( )
∑
∈
==
C
C
'
C

'
C
j
C
C
j
C
j
Pr
trong tập dữ liệu huấn luyện
-
( )
( )
( )
∑
∈
+
+
=
F
w
'
c
j
,
w
'
TFF
c
j

,
w
i
TF1
C
j
|
w
i
Pr
Ngoài ra còn có các phương pháp NB khác có thể kể ra như ML Naïve Bayes ,
MAP Naïve Bayes , Expected Naïve Bayes . Nói chung Naïve Bayes là một công cụ
rất hiệu qủa trong một số trường hợp. Kết qủa có thể rất xấu nếu dữ liệu huấn luyện
nghèo nàn và các tham số dự đoán (như không gian đặc trưng) có chất lượng
kém.Nhìn chung đây là một thuật toán phân loại tuyến tính thích hợp trong phân loại
văn bản nhiều chủ đề . NB có ưu điểm là cài đặt đơn giản , tốc độ thực hiện thuật
toán nhanh , dễ dàng cập nhật dữ liệu huấn luyện mới và có tính độc lập cao với tập
huấn luyện .
II.4. Phương pháp Linear Least Square Fit – LLSF
LLSF là một cách tiếp cận ánh xạ được phát triển bởi Yang và Chute vào năm 1992 .
Ban đầu LLSF được thử nghiệm trong lĩnh vực xác định từ đồng nghĩa sau đó sử
dụng trong phân loại vào năm 1994 . Các thử nghiệm cho thấy hiệu suất phân loại
của LLSF có thể ngang bằng với phương pháp kNN kinh điển.
Ý tưởng của LLSF là sử dụng phương pháp hồi quy để học từ tập huấn luyện và các
chủ đề có sẵn.
Tập huấn luyện được biểu diễn dưới dạng một cặp vector đầu vào và đầu ra
như sau:
-Vector đầu vào là một văn bản bao gồm các từ và trọng số.
-Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứng với
vector đầu vào .

_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 7
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
Giải phương trình các cặp vector đầu vào , đầu ra chúng ta sẽ thu được ma trận đồng
hiện của hệ số hồi quy của từ và chủ đề .
Phương pháp này sử dụng công thức :
BFA
2
min
arg
F
F
LS
−=
Trong đó :
- A, B là ma trận đại diện tập dữ liệu huấn luyện ( các cột trong ma trận tương
ứng là các vector đầu vào và đầu ra).
- F
LS
là ma trận kết qủa chỉ ra một ánh xạ từ một văn bản bất kỳ vào vector của
chủ đề đã gán trọng số.
Nhờ vào việc sắp xếp trọng số của các chủ đề , chúng ta được một danh sách chủ đề
có thể gán cho văn bản cần phân loại . Nhờ đặt ngưỡng lên trọng số của các chủ đề
mà ta tìm được chủ đề thích hợp cho văn bản đầu vào . Hệ thống tự động học các
ngưỡng tối ưu cho từng chủ đề , giống với kNN . Mặc dù LLSF và kNN khác nhau
về mặt thống kê , nhưng chúng ta vẫn tìm thấy điểm chung trong cách làm của hai
phương pháp này là qúa trình học ngưỡng tối ưu.
5. Phương pháp Centroid – based vector
Là một phương pháp phân loại đơn giản , dễ cài đặt và tốc độ nhanh do có độ phức

tạp tuyến tính O(n).
Ý tưởng của cách tiếp cận này là mỗi lớp trong dữ liệu huấn luyện sẽ được biểu diễn
bằng một vector trọng tâm . Việc xác định lớp của một văn bản bất kỳ sẽ thông qua
việc tìm vector trọng tâm nào gần với vector biểu diễn văn bản thứ nhất.Lớp của văn
bản chính là lớp mà vector trọng tâm đại diện và khoảng cách được xác định theo độ
đo cosine.
Chúng ta có công thức tính vector trọng tâm của lớp i :
∑
∈
→
=
→
{i}
d
j
d
j
{i}
1
C
i
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 8
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
Độ đo khoảng cácg giữa vector x và vector C
i
:
C
i

.
x
C
i
.
x
C
i
,
x
cos
→
→
→
→
=








→
→
Trong đó :
- x là vector văn bản cần phân loại
- {i} là tập hợp các văn bản thuộc chủ đề C
i

- Chủ đề của vector x là C
x
thỏa mãn cos(x, C
x
)= arg max (cos(x,C
i
)).
III.Kết luận :
Các thuật toán phân loại trên từ thuật toán phân loại hai lớp (SVM) đến các thuật
toán phân loại đa lớp (kNN) đều có điểm chung là yêu cầu văn bản phải được biểu
diễn dưới dạng vector đặc trưng. Ngoài ra các thuật toán như kNN, NB , LLSF đều
phải sử dụng các ước lượng tham số và ngưỡng tối ưu khi phân loại văn bản, trong
khi thuật toán SVM có thể tự xác định các tham số tối ưu này trong qúa trình thực
hiện thuật toán. Xét về mặt thời gian, các phương pháp có thời gian huấn luyện khác
nhau, các phương pháp kNN, NB, LLSF có thời gian huấn luyện và phân loại văn
bản nhanh hơn so với các thuật toán còn lại, đồng thời dễ dàng cài đặt hơn.
Một câu hỏi được đặt ra là: “ Để có được một kết quả phân loại đạt kết quả tốt thì
cần những yếu tố gì ? ”
Có 3 yếu tố quan trọng tác động đến kết qủa phân loại văn bản :
1) Cần một tập dữ liệu huấn luyện chuẩn và đủ lớn để cho thuật toán học
phân loại . Nếu chúng ta có được một tập dữ liệu chuẩn và đủ lớn thì qúa
trình huấn luyện sẽ tốt và khi đó chúng ta sẽ có kết qủa phân loại tốt sau
khi đã được học .
2) Các phương pháp trên hầu hết đều sử dụng mô hình vector để biểu diễn
văn bản , do đó phương pháp tách từ trong văn bản đóng vai trò quan
trọng qúa trình biểu diễn văn bản bằng vector . Yếu tố này rất quan trọng ,
vì có thể đối với một số ngôn ngữ như tiếng Anh chẳng hạn thì thao tác
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 9

Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
tách từ trong văn bản đơn giản chỉ là dựa vào các khoảng trắng , tuy nhiên
trong các ngôn ngữ đa âm tiết như tiếng Việt và một số ngôn ngữ khác thì
sử dụng khoảng trắng khi tách từ là không chính xác , do đó phương pháp
tách từ là một yếu tố quan trọng.
3) Thuật toán sử dụng để phân loại phải có thời gian xử lý hợp lý , thời gian
này bao gồm : thời gian học , thời gian phân loại văn bản , ngoài ra thuật
toán này phải có tính tăng cường (incremental function) nghĩa là không
phân loại lại toàn bộ tập văn bản khi thêm một số văn bản mới vào tập dữ
liệu mà chỉ phân loại các văn bản mới mà thôi , khi đó thuật toán phải có
khả năng giảm độ nhiễu ( noise ) khi phân loại văn bản.
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 10
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
CHƯƠNG 3 : CÁC HƯỚNG TIẾP CẬN TÁCH TỪ
I.CÁC HƯỚNG TIẾP CẬN DỰA TRÊN TỪ :
Hướng tiếp cận dựa trên từ với mục tiêu tách được các từ hoàn chỉnh trong câu.
Hướng tiếp cận này có thể chia ra theo 3 hướng : dựa trên thống kê (statistics -
based) , dựa trên từ điển ( dictionary – based) và hydrid ( kết hợp nhiều phương pháp
với hy vọng đạt được những ưu điểm của các phương pháp này) .
 Hướng tiếp cận dựa trên thống kê : Dựa trên các thông tin như tần số xuất
hiện của từ trong tập huấn luyện ban đầu . Hướng tiếp cận này đặc biệt dựa
trên tập ngữ liệu huấn luyện , nhờ vậy nên hướng tiếp cận này tỏ ra linh hoạt
và hữu dụng trong nhiều lĩnh vực khác nhau.
 Hướng tiếp cận dựa trên từ điển : Ý tưởng của hướng tiếp cận này là
những cụm từ được tách ra từ văn bản phải được so khớp với các từ trong từ
điển. Do đó trong hướng tiếp cận này đòi hỏi từ điển riêng cho từng lĩnh vực
quan tâm . Hướng tiếp cận “full word / phrase” cần sử dụng một từ điển hoàn
chỉnh để có thể tách được đầy đủ các từ hoặc ngữ trong văn bản , trong khi đó

hướng tiếp cận thành phần “component” lại sử dụng từ điển thành phần .Từ
điển thành phần chỉ chứa các thành phần của từ và ngữ như hình vị và các từ
đơn giản . Hướng tiếp cận theo từ điển vẫn còn một số hạn chế trong việc tách
từ vì thực hiện hoàn toàn dựa vào từ điển . Nếu như thực hiện thao tác tách từ
bằng cách sử dụng từ điển hoàn chỉnh thì trong thực tế việc xây dựng một bộ
từ điển hoàn chỉnh là khó thực hiện vì đòi hỏi nhiều thời gian và công sức .
Nếu tiếp cận theo hướng sử dụng từ điển thành phần thì sẽ giảm nhẹ hạn chế ,
khó khăn khi xây dựng từ điển , vì khi đó chúng ta sẽ sử dụng các hình vị từ
và các từ đơn giản và các từ khác để hình thành nên từ , cụm từ hoàn chỉnh.
 Hướng tiếp cận theo Hybrid : Với mục đích kết hợp các hướng tiếp cận
khác nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng
tiếp cận khác nhau nhằm nâng cao kết qủa . Hướng tiếp cận này thường kết
hợp giữa hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 11
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
mạnh của các phương pháp này . Tuy nhiên hướng tiếp cận Hybrid lại mất
nhiều thời gian xử lý , không gian đĩa và đòi hỏi nhiều chi phí.
II. CÁC HƯỚNG TIẾP CẬN DỰA TRÊN KÝ TỰ:
Trong tiếng việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự trong
bảng chữ cái . Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định các
tiếng trong văn bản như rút trích từ 1 ký tự (unigram) hay nhiều ký tự (n-gram) và
cũng mang lại một số kết qủa nhất định được minh chứng thông qua một số công
trình nghiên cứu đã được công bố , như của tác giả Lê An Hà [2003] xây dựng tập
ngữ liệu thô 10MB bằng cách sử dụng phương pháp qui hoạch động để cựa đại hóa
xác suất xuất hiện của các ngữ.Rồi công trình nghiên cứu của H. Nguyễn[2005] làm
theo hướng tiếp cận là thay vì sử dụng ngữ liệu thô , công trình tiếp cận theo hướng
xem Internet như một kho ngữ liệu khổng lồ , sau đó tiến hành thống kê và sử dụng
thuật giải di truyền để tìm cách tách từ tối ưu nhất , và một số công trình của một số

tác giả khác.Khi so sánh kết qủa của tác giả Lê An Hà và H.Nguyễnt thì thấy công
trình của H.Nguyễn cho được kết qủa tốt hơn khi tiến hành tách từ , tuy nhiên thời
gian xử lý lâu hơn.Ưu điểm nổi bật của hướng tiếp cận dựa trên nhiều ký tự là tính
đơn giản , dễ ứng dụng , ngoài ra còn có thuận lợi là ít tốn chi phí cho thao tác tạo
chỉ mục và xử lý nhiều câu truy vấn.Qua nhiều công trình nghiên cứu của các tác giả
đã được công bố , hướng tiếp cận tách từ dựa trên nhiều ký tự , cụ thể là cách tách từ
hai ký tự được cho là sự lựa chọn thích hợp.
III. MỘT SỐ PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT HIỆN NAY
III.1.Phương pháp Maximum Matching : Forward / Backward
Phương pháp khớp tối đa ( MM - Maximum Matching) hay còn gọi là LRMM - Left
Right Maximum Matching. Ở phương pháp này , chúng ta sẽ duyệt một ngữ hoặc
câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực
hiện lặp lại như vậy cho đến hết câu.
Dạng đơn giản của phương pháp dùng để giải quyết nhập nhằng từ đơn. Giả sử
chúng ta có một chuỗi ký tự C
1
, C
2
, …, C
n
. Chúng ta sẽ áp dụng phương pháp từ
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 12
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
đầu chuỗi . Đầu tiên kiểm tra xem C
1
có phải là từ hay không , sau đó kiểm tra xem
C
1

C
2
có phải là từ hay không . Tiếp tục thực hiện như thế cho đến khi tìm được từ
dài nhất .
Dạng phức tạp : Quy tắc của dạng này là phân đoạn từ .Thông thường người ta chọn
phân đoạn ba từ có chiều dài tối đa. Thuật toán bắt đầu từ dạng đơn giản , cụ thể là
nếu phát hiện ra những cách tách từ gây nhập nhằng , như ở ví dụ trên , giả sử C
1
là
từ và C
1
C
2
cũng là một từ , khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi C
1
,
C
2
, … ,C
n
để tìm tất cả các đoạn ba từ có bắt đầu với C
1
hoặc C
1
C
2
.
Ví dụ : Giả sử chúng ta có được các đoạn sau :
- C
1

C
2
C
3
C
4
-C
1
C
2
C
3
C
4
C
5
-C
1
C
2
C
3
C
4
C
5
C
6
Khi đó chuỗi dài nhất sẽ là chuỗi thứ ba . Do đó từ đầu tiên của chuỗi thứ ba (C
1

C
2
)
sẽ được chọn . Thực hiện các bước cho đến khi được chuỗi từ hoành chỉnh.
Nhận xét :
Phương pháp này thực hiện tách từ đơn giản , nhanh và chỉ cần dựa vào từ điển để
thực hiện . Tuy nhiên , khuyết điểm của phương pháp này cũng chính là từ điển ,
nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ , tính
chính xác của từ điển.
III.2.Phương pháp Transformation – based Learning – TBL :
Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu .Theo cách tiếp cận này
để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể tách từ chính xác ,
chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới
giữa các từ đúng .Rõ ràng chúng ta thấy phương pháp rất đơn giản , vì chỉ cần cho
máy học các tập câu mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ
đó sẽ áp dụng chính xác khi có những câu đúng theo luật mà máy đã rút ra . Và rõ
ràng để tách từ được hoàn toàn chính xác trong mọi trường hợp thì đòi hỏi phải có
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 13
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra
các luật đầy đủ.
III.3.Mô hình tách từ bằng WFST và mạng Neural :
Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST – Weighted Finit
State Transducer đã được áp dụng trong tách từ từ năm 1996 . Ý tưởng cơ bản là áp
dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ liệu. Dùng
WFST để duyệt qua các câu cần xét , khi đó từ có trọng số lớn nhất là từ được chọn
để tách. Phương pháp này cũng đã được sử dụng trong công trình đã được công bố
của tác giả Đinh Điền [2001] , tác giả đã sử dụng WFST kèm với mạng Neural để

khử nhập nhằng khi tách từ , trong công trình tác giả đã xây dựng hệ thống tách từ
gồm tầng WFST để tách từ và xử lý các vấn đề liên quan đến một số đặc thù riêng
của ngôn ngữ tiếng Việt như từ láy , tên riêng , và tầng mạng Neural dùng để khử
nhập nhằng về ngữ nghĩa sau khi đã tách từ (nếu có).
Chi tiết về 2 tầng này như sau :
3.1 Tầng WFST gồm có 3 bước :
o Bước 1 : Xây dựng từ điển trọng số : theo mô hình WFST , thao tác phân
đoạn từ được xem như là một sự chuyển dịch trạng thái có xác suất.Chúng ta
miêu tả từ điển D là một đồ thị biến đổi trạng thái hữu hạn có trọng số .
Giả sử :
 H là tập các từ chính tả tiếng Việt (còn gọi là “tiếng”) .
- P là từ loại của từ .
 Mỗi cung của D có thể là :
- Từ một phần tử của H tới một phần tử của H
- Các nhãn trong D biểu diễn một chi phí được ước lượng theo
công thức : Cost =-log(f/N)
Trong đó : f là tần số của từ , N là kích thước tập mẫu.
o Bước 2 : Xây dựng các khả năng phân đoạn từ : Để giảm sự bùng nổ tổ hợp
khi sinh ra dãy các từ có thể từ một dãy các tiếng trong câu , tác giả đã đề xuất
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 14
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
phương pháp kết hợp dùng thêm từ điển để hạn chế sinh ra các bùng nổ tổ
hợp , cụ thể là nếu phát hiện thấy một cách phân đoạn từ nào đó không phù
hợp ( không có trong từ điển , không có phải là tứ láy , không phải là danh từ
riêng ,…) thì tác giả loại bỏ các nhánh xuất phát từ cách phân đoạn đoạn đó.
o Bước 3: Lựa chọn khả năng phân đoạn từ tối ưu : Sau khi có được danh sách
các cách phân đoạn từ có thể có của câu , tác giả đã chọn trường hợp phân
đoạn từ có trọng số bé nhất.

3.2 Tầng mạng Neural : Mô hình được sử dụng để khử nhập nhằng khi tách từ bằng
cách kết hợp so sánh với từ điển.
Nhận xét : Mô hình này đạt được độ chính xác trên 97% theo như công bố trong
công trình của tác giả , bằng việc sử dụng thêm mạng Neural kết hợp với từ điển để
khử các nhập nhằng có thể có khi tách ra các được nhiều từ từ một câu và khi đó
tầng mạng Neural sẽ loại bỏ đi các từ không phù hợp bằng cách kết hợp với từ điển.
Bên cạnh đó, cũng tương tự như phương pháp TBL điểm quan trọng của mô hình
này cần tập ngữ liệu học đầy đủ.
III.4.Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và
thuật giải di truyền
Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di
truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for
Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp
cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ
điển hay tập ngữ liệu học nào . Trong hướng tiếp cận này , tác giả kết hợp giữa thuật
toán di truyền với dữ liệu thống kê được lấy từ Internet .
Trong tiếp cận của mình , tác giả đã mô tả hệ thống tách từ gồm các thành phần
a. Online Extractor : Thành phần này có tác dụng lấy thông tin về tần số xuất hiện
của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như Google
hay Yahoo chẳng hạn . Sau đó , tác giả sử dụng các công thức dưới đây để tính toán
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 15
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
mức độ phụ thuộc lẫn nhau (mutual information) để làm cơ sở tính fitness cho GA
engine.
• Tính xác suất các từ xuất hiện trên Internet :
( )
MAX
)

w
2
&
w
1
count(
)
w
2
&
w
1
p(
MAX
count(w)
wp
=
=
Trong đó MAX = 4 * 10
9
count(w) số lượng văn bản trên Internet được tìm thấy có chứa từ w hoặc cùng
chứa w1 và w2 đối với count(w1&w2).
• Tính xác suất độ phụ thuộc của một từ lên một từ khác :
( )
w
1
p
)
w
2

&
w
1
p(
)
w
2
|
w
1
p( =
Thông tin phụ thuộc lẫn nhau (mutual information) của các từ ghép được cấu
tạo bởi n tiếng ( cw = w
1
w
2
…w
n
)
( )
∑
=
−
=
n
1j
)
w
n
& &

w
2
&
w
1
p(
w
j
p
)
w
n
& &
w
2
&
w
1
p(
MI(cw)
b. GA Engine for Text Segmentation : mỗi cá thể trong quan thể được biểu diễn
bởi chuỗi các bit 0, 1, trong đó, mỗi bit đại diện cho một tiếng trong văn bản, mỗi
nhóm bit cùng loại đại diện cho cho một segment. Các cá thể trong quần thể được
khởi tạo ngẫu nhiên, trong đó mỗi segment được giới hạn trong khoảng 5. GA
engine sau đó thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng giá
trị fitness của các cá thể để đạt được cách tách từ tốt nhất có thể.
IV. KẾT LUẬN :
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 16

Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
Sau khi xem xét một số hướng tiếp cận trong tách từ văn bản tiếng Việt , các nghiên
cứu đã được công bố đều chỉ ra rằng phương pháp tách từ dựa trên từ mang lại kết
qủa có độ chính xác khá cao , điều này có được nhờ vào tập huấn luyện lớn , được
đánh dấu ranh giới giữa các từ chính xác giúp cho việc học để rút ra các luật để tách
từ cho các văn bản khác được tốt đẹp , tuy nhiên chúng ta cũng dễ nhận thấy hiệu
suất của phương pháp hoàn toàn phụ thuộc vào tập ngữ liệu huấn luyện. Do đó để
khắc phục sự phụ thuộc của từ điển, chúng ta đề nghị sử dụng hướng tiếp cận của
H.Nguyễn (sẽ được trình bày chi tiết trong phần sau ) để tách từ .
Hướng tiếp cận dựa trên ký tự có ưu điểm là dễ thực hiện , thời gian thực hiện tương
đối nhanh , tuy nhiên lại cho kết qủa không chính xác bằng hướng tiếp cận dựa trên
từ . Hướng tiếp cận này nói chung phù hợp cho các ứng dụng không cần độ chính
xác tuyệt đối trong tách từ văn bản như ứng dụng lọc spam mail , firewall ,…Nhìn
chung với hướng tiếp cận này nếu chúng ta có thể cải tiến để nâng cao độ chính xác
trong tách từ thì hướng tiếp cận này là hoàn toàn khả thi và có khả năng thay thế
hướng tiếp cận tách từ dựa trên từ vì đã không phải xây dựng kho ngữ liệu , một
công việc đòi hỏi nhiều công sức , thời gian và sự hỗ trợ của các chuyên gia trong
các lĩnh vực khác nhau.
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 17
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
CHƯƠNG 4 : PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
Để tiến hành phân loại văn bản nói chung, chúng ta sẽ thực hiện các bước như sau :
 Bước 1 : Rút trích đặc trưng văn bản và biểu diễn văn bản bằng mô hình
vector.
 Bước 2 : Áp dụng thuật toán phân loại văn bản . Bước này chúng ta sẽ đề
xuất sử dụng thuật toán Navie Bayes để phân loại văn bản vì nhìn chung đây
là một thuật toán phân loại tuyến tính thích hợp trong phân loại văn bản nhiều
chủ đề . NB có ưu điểm là cài đặt đơn giản , tốc độ thực hiện thuật toán nhanh

, dễ dàng cập nhật dữ liệu huấn luyện mới và có tính độc lập cao với tập huấn
luyện .
I.RÚT TRÍCH ĐẶC TRƯNG VĂN BẢN VÀ BIỂU DIỄN BẰNG MÔ HÌNH
VECTOR
Để rút trích đặc trưng của văn bản , chúng sẽ thực hiện thao tác tách từ trong văn bản
, xác định từ loại của từ và sau đó tiến hành biểu diễn các văn bản bằng mô hình
vector .
I.1.Tách từ trong văn bản :
Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di
truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for
Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp
cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ
điển hay tập ngữ liệu học nào . Trong hướng tiếp cận này , tác giả kết hợp giữa thuật
toán di truyền với dữ liệu thống kê được lấy từ Internet .
Trong tiếp cận của mình , tác giả đã mô tả hệ thống tách từ gồm các thành phần
1.1 Online Extractor : Thành phần này có tác dụng lấy thông tin về tần số xuất hiện
của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như Google
hay Yahoo chẳng hạn . Sau đó , tác giả sử dụng các công thức dưới đây để tính toán
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 18
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
mức độ phụ thuộc lẫn nhau (mutual information) để làm cơ sở tính fitness cho GA
engine.
• Tính xác suất các từ xuất hiện trên Internet :
( )
MAX
)
w
2

&
w
1
count(
)
w
2
&
w
1
p(
MAX
count(w)
wp
=
=
Trong đó : MAX = 4 * 10
9
count(w) số lượng văn bản trên Internet được tìm thấy có chứa
từ w hoặc cùng chứa w1 và w2 đối với count(w1&w2).
• Tính xác suất độ phụ thuộc của một từ lên một từ khác :
( )
w
1
p
)
w
2
&
w

1
p(
)
w
2
|
w
1
p( =
Thông tin phụ thuộc lẫn nhau (mutual information) của các từ ghép được cấu
tạo bởi n tiếng ( cw = w
1
w
2
…w
n
)
( )
∑
=
−
=
n
1j
)
w
n
& &
w
2

&
w
1
p(
w
j
p
)
w
n
& &
w
2
&
w
1
p(
MI(cw)
1.2 GA Engine for Text Segmentation : mỗi cá thể trong quan thể được biểu diễn
bởi chuỗi các bit 0,1, trong đó mỗi bit đại diện cho một tiếng trong văn bản, mỗi
nhóm bit cùng loại đại diện cho cho một segment. Các cá thể trong quần thể được
khởi tạo ngẫu nhiên, trong đó mỗi segment được giới hạn trong khoảng 5. GA
engine sau đó thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng giá
trị fitness của các cá thể để đạt được cách tách từ tốt nhất có thể.
1.2.1 Khởi tạo quần thể:
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 19
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
a. Biểu diễn cá thể :

Giả sử văn bản đầu vào t bao gồm n tiếng như sau : T=s
1
s
2
…s
n
.Mục đích của qúa
trình thực hiện thuật toán GA là tìm cách tách ra các từ có độ phù hợp cao nhất :
t=w
1
w
2
…w
m
với w
k
=s
i
…s
j
( 1 <= k <= m , 1 <= i,j <= n).Sau đó mỗi cá thể trong
quan thể được biểu diễn bởi chuỗi các bit 0,1 , trong đó , mỗi bit đại diện cho một
tiếng trong văn bản , mỗi nhóm bit cùng loại đại diện cho cho một segment.
Tác giả đã đưa ra ví dụ như sau :
b. Khởi tạo các tham số :
Trong bước này để cho GA chạy , chúng ta phải khởi tạo giá trị các tham số , bao
gồm : số thế hệ tiến hóa , kích thước quần thể , tỷ lệ lai ghép, … Qua nhiều lần thử
sai , tác giả đã đưa ra giá trị cho các tham số như sau :
Tham số Giá trị
Số thế hệ tiến hóa 100

Kích thước quần thể 50
Tỷ lệ lai ghép 95%
Tỷ lệ đột biến 5%
Top N cá thể được chọn 100
Tỷ lệ từ 1 tiếng (mono – gram) 10%
Tỷ lệ từ 2 tiếng (bi – gram) 70%
Tỷ lệ từ 3 tiếng (tri – gram) 10%
Tỷ lệ từ 4 tiếng (quad – gram) 10%
c. Khởi tạo cá thể :
Mục đích của thuật toán di truyền là thực hiện tiến hóa các cá thể qua các thế hệ
nhằm đạt đến độ hội tụ của chỉ số thích nghi . Ở đây , chúng ta thấy rằng , nếu cá thể
được khởi tạo ngẫu nhiên sẽ có độ thích nghi thấp , khi đó sẽ phải được tiến hóa qua
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 20
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
nhiều thế hệ để đạt được độ hội tụ cần thiết , tuy nhiên số thế hệ tiến hóa càng nhiều
thì thời gian tiêu tốn và chi phí tính toán càng cao .Do đó giải pháp tối ưu là khởi tạo
một số cá thể ban đầu gần với điểm hội tụ thì sẽ giúp giảm bớt số thế hệ tiến hóa .
d. Khởi tạo cá thể bằng phương pháp Maximum Matching : Forward /
Backward
Phương pháp này có độ chính xác khá cao nên sử dụng để khởi tạo cá thể ban đầu là
phù hợp , vì như thế sẽ tạo ra được các các thể gần đúng nhất để giảm số lần tiến hóa
.Bên cạnh đó phương pháp cũng khá đơn giản vì thực hiện tuyến tính nên cũng có
thời gian tính toán thấp hơn các phương pháp khác.Sau khi khởi tạo xong ,quần thể
sẽ được tiến hóa qua các qúa trình lai ghép , đột biến , sinh sản.
1.2.2 Tiến hóa cá thể:
a. Qúa trình lai ghép
Phương pháp lai ghép được tác giả thực hiện bằng cách dựa trên một điểm ngẫu
nhiên trong chuỗi các bit 0 , 1 của các cá thể . Khi có một cặp cá thể bố mẹ , thế hệ

con được tạo ra dựa trên sự kết hợp từ phần đầu tiên của bố với phần cuối của mẹ và
ngược lại .
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 21
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
b. Qúa trình đột biến
Ý tưởng thực hiện đột biến được thực hiện bằng cách hoán chuyển vị trí của 2 bit
liền nhau tại một vị trí ngẫu nhiên , cách làm này thể hiện tính tự nhiên do là một
tiếng nếu kết hợp với tiếng trước nếu không phù hợp thì có thể kết hợp với từ đứng
sau ( bit đứng sau ) như thế sẽ tạo ra được các từ có ý nghĩa và loại bỏ các từ vô
nghĩa nếu ghép 2 bit ở 2 vị trí ngẫu nhiên trong câu.
Ví dụ :
c. Qúa trình sinh sản
Sau khi đã lai ghép và đột biến chúng ta sẽ kết hợp các cá thể bố mẹ với cá thể con
vừa được tạo ra để phục vụ cho bước chọn cá thể . Sau khi kết hợp , chúng ta sẽ chọn
lọc các cá thể trong quần thể để đạt được nhiều kết qủa tách từ tốt .
Ví dụ :
d. Qúa trình chọn cá thể
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 22
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
Qúa trình chọn lựa cá thể là buớc rất quan trọng trong qúa trình tiến hóa , vì qúa
trình này sẽ chọn các cá thể tốt , chính việc chọn lựa này sẽ quyết định đến qúa trình
tiến hóa ở thế hệ tiếp theo , cũng như ảnh hưởng đến độ hội tụ trong thuật toán di
truyền.Sau khi chọn lựa , quần thể sẽ được sắp xếp theo giá trị của độ thích nghi
giảm dần ,khi đó qúa trình chọn lọc cá thể sẽ chọn N cá thể có độ thích nghi cao nhất
để hình thành nên một quần thể mới nhằm chuẩn bị cho qúa trình tiến hóa tiếp theo .
Cách thức lựa chọn cá thể thoả mãn điều kiện như sau :

( )
∑
=
=
∑
=
==
N
1i
)
id
i
fit(fit(pop)
m
1k
w
k
MI)
w
m

w
2
w
1
fit(fit(id)
Trong đó ,id =w
1
w
2

…w
m
là một cá thể trong quần thể .
e. Độ hội tụ
Qúa trình thực hiện thuật toán GA cố gắng tăng độ thích nghi (fitness) của mỗi cá
thể , điều này cũng có nghĩa là tăng chất lượng của từ được từ . Và do đó ở mỗi thế
hệ tiến hóa , chỉ số thích nghi của quần thể sẽ tăng lên dần đến một ngưỡng hội tụ T .
Khi đó sau một qúa trình tiến hóa độ chêng lệch giữa chỉ số thích nghi của hai cá thể
trong quần thể sẽ giảm dần và tiến dần về 0 hoặc đạt đến ngưỡng hội tụ T mà chúng
ta đã chọn .
1.3.Nhận xét
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 23
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
Phương pháp do tác giả H.Nguyễn đề xuất có ưu điểm là không cần sử dụng bất cứ
tập huấn luyện hoặc từ điển nào do đó không mất thời gian để huấn luyện.Phương
pháp tách từ cũng không phức tạp. Tuy nhiên khi so sánh với các phương pháp
LRMM và WFST đã được trình bày ở trên thì IGATEC có độ chính xác thấp hơn
nhưng hoàn toàn chấp nhận được, thời gian chạy ban đầu hơi chậm do phải lấy thông
tin từ mạng Internet.
I.2.Xác định từ loại của từ
Để xác định từ loại của từ tiếng Việt , có một công trình khá tốt là VnQTag của
nhóm tác giả Nguyễn Thị Minh Huyền . VnQTag giúp gán nhãn từ loại tự động cho
văn bản tiếng Việt . Chương trình VnQTag được nhóm tác giả trên chỉnh sửa lại
thành phiên bản dùng cho tiếng Việt từ phần mếm QTAG của nhóm tác giả O.
Mason, Đại học Bermingham, Anh. QTAG là chương trình gán nhãn từ loại tự động
dựa vào thống kê tức là dựa vào xác suất. Qua một số thử nghiệm thực tế ,VnQTag
cho kết quả có độ chính xác khá cao.
QTAG là một bộ gán nhãn xác suất độc lập với ngôn ngữ. Phương pháp xử lý của

QTAG có thể mô tả tổng quát như sau. Đầu tiên tiến hành học từ vựng, bộ nhãn từ
loại, cùng với xác suất từ vựng và xác suất ngữ cảnh từ một kho ngữ liệu đã được
gán nhãn bằng tay. Dựa vào những dữ liệu đã học được này, bộ gán nhãn tìm những
nhãn có thể được và tần số của nó cho từng từ trong kho dữ liệu mới đã được tách từ.
Nếu việc tìm kiếm một từ trong danh sách từ vựng đã học thất bại thì tất cả các nhãn
sẽ được gán cho từ đó. Cuối cùng, bộ gán nhãn thực hiện bước loại bỏ nhập nhằng
bằng cách sử dụng thông tin về xác suất phân bố từ vựng đã được học trước đó.
Dữ liệu đầu vào của VnQTag là văn bản đã được tách từ trong từng câu có được từ
kết quả của bước tách từ ở phần trên, kết quả đầu ra của chương trình là một từ loại
tương ứng sẽ được gán cho từng từ trong văn bản. VnQTag sử dụng đồng thời từ
điển để liệt kê các từ loại có thể cho một từ, và một kho văn bản mẫu để loại bỏ nhập
nhằng.
I.3. Loại bỏ các từ tầm thường
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 24
Khóa Luận Môn DataMining Nghiên Cứu Phân Loại Văn Bản Tiếng Việt
Sau khi đã tiến hành tách từ trong văn bản , chúng ta sẽ tiến hành loại bỏ các từ tầm
thường (stopword) .Trong một văn bản , không phải tất cả các từ đều có ngữ nghĩa
tương đương nhau , và không phải tất cả các từ đều dùng để miêu tả nội dung của
văn bản .Do đó trong bất kỳ một văn bản nào thì chắc chắn sẽ có những từ mà không
mang ngữ nghĩa của văn bản , và các từ như vậy thì được gọi là stopword .Và vì vậy
chúng ta sẽ loại bỏ các từ này ra khỏi văn bản . Trong các ngôn ngữ tự nhiên thì các
mạo từ , giới từ , liên từ là các stopword . Ngoài ra cũng có một số động từ , tính từ ,
phó từ thì cũng được xem như là các stopword. Danh sách các từ stopword được
liệt kê trong phụ lục .
I.4.Trích chọn đặc trưng văn bản
4.1 Các ý tưởng cơ bản
Các phương pháp rút trích thông tin cổ điển thì coi mỗi một văn bản như là tập các
từ khóa và gọi tập các từ khóa này là tập các term . Một phần tử trong tập term thì

đơn giản là một từ , mà ngữ nghĩa của từ này giúp tạo thành nên nội dung của văn
bản .Vì vậy , tập term được sử dụng để tạo các chỉ mục và tóm lược nội dung của
văn bản .
Giả sử cho một tập term của một văn bản nào đó , chúng ta có thể nhận thấy rằng
không phải tất cả các từ trong tập term này đều có mức độ quan trọng như nhau
trong việc mô tả nội dung văn bản . Ví dụ , bây giờ chúng ta xét một tập gồm một
trăm ngàn văn bản , giả sử có một từ A nào đó xuất hiện trong một trăm ngàn văn
bản này thì chúng ta có thể khẳng định rằng từ A này không quan trọng và chúng ta
sẽ không quan tâm đến nó , bởi vì chắc chắn là nó sẽ không cho chúng ta biết được
về nội dung của các văn bản này .Vì vậy từ A sẽ bị loại ra khỏi tập các term ,khi
chúng ta xây dựng tập term cho văn bản để miêu tả nội dung ngữ nghĩa của các văn
bản này . Kết qủa này có được thông qua thao tác xác định trọng số cho mỗi một từ
trong tập term của một văn bản .
Đặt k
i
là từ thứ i trong tập term, d
j
là văn bản j , và w
ij
>= 0 là trọng số của từ k
i
trong văn bản d
j
.Giá trị của trọng số này thì rất là quan trọng trong việc miêu tả nội
dung của văn bản .
_________________________________________________________________________
_
Học viên : Trịnh Quốc Sơn - CH0401047 25

Đồ Án Nghiên Cứu Phân Loại Văn Bản Tiếng Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về