Phân loại tin tức Tiếng Việt dựa trên mô hình tập thô dung sai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (138.06 KB, 5 trang )

PHÂN LOẠI TIN TỨC TIẾNG VIỆT DỰA TRÊN
MƠ HÌNH TẬP THÔ DUNG SAI
Trần Ngọc Hà
Trường ðại học Sư phạm – ðH Thái Ngun
TĨM TẮT
Những năm gần đây chúng ta đã thấy một sự gia tăng nhanh chóng của số lượng văn bản
trên Internet. Phân loại văn bản tự ñộng là nhiệm vụ quan trọng có thể giúp cho cả việc tổ chức
cũng như tìm kiếm thơng tin trong nguồn tài nguyên thông tin khổng lồ này. Các phương pháp
phân loại văn bản hiện nay gặp phải thách thức bởi số lượng tài liệu huấn luyện và dữ liệu cần
gán nhãn lớn. Tiếng Việt có đặc thù riêng, nên việc phân loại văn bản tiếng Việt cịn gặp một khó
khăn khác là phải tách từ chính xác khi biểu diễn các tài liệu. Trong báo cáo này, chúng tơi đề
xuất một phương pháp phân loại văn bản một cách tự ñộng hoạt động tốt trên các văn bản tiếng
Việt có thể áp dụng vào xây dựng các hệ thống tồng hợp tin tức tiếng Việt. Phương pháp của
chúng tôi sử dụng các thuật tốn tách từ tiếng Việt để biểu diễn văn bản và áp dụng mơ hình tập
thơ dung sai vào thuật toán phân loại văn bản Centroid – based ñể nâng cao chất lượng phân loại.
Từ khóa: phân loại văn bản, tập thơ dung sai, trọng tâm, đồng xuất hiện, thu thập tin tức.
1. GIỚI THIỆU
Báo ñiện tử tổng hợp là một dạng
website tin tức mà nguồn tin ñược tổng hợp
tự ñộng từ các báo ñiện tử khác. Báo ñiện tử
tổng hợp giúp cho người ñọc có thể theo dõi
các thơng tin một cách đầy đủ nhất mà
khơng cần phải ghé thăm các trang báo ñiện
tử khác, do vậy giúp người đọc tiết kiệm
được thời gian và khơng phải ñọc các tin
trùng lặp ñược ñăng tải trên các báo ñiện tử
khác nhau.
Mỗi trang báo ñiện tử tổng hợp có thể
có các chức năng, cũng như cách thể hiện
khác nhau ñối với người ñọc. Tuy nhiên một
ứng dụng ñọc báo tổng hợp đều có các thành

phần cơ bản sau:
- Trình thu thập tin tức: là thành
phần có nhiệm vụ thu thập tin bài từ các
trang báo ñiện tử khác một cách tự ñộng.
- Lưu trữ tài liệu: Các ứng dụng
tổng hợp tin tức thường lưu trữ tiêu ñề,
URL, ảnh ñại diện và phần tóm tắt của các
bài viết gốc. Một số trang báo điện tử tổng
hợp cịn lưu cả nội dung bài viết.
- Bộ phân loại tin tức: ðây là một
bộ phận quan trọng, có chức năng tự động
phân loại tin theo các chủ ñề trên hệ thống.
- Giao diện sử dụng: là thành phần
tương tác trực tiếp của hệ thống với người
sử dụng.
Khi xây dựng hệ thống, khó khăn lớn

nhất là xây dựng chức năng phân loại tin tức
tự ñộng, ñặc biệt là ñối với các tin tức tiếng
Việt. Phân loại tin tức tiếng Việt gặp phải
một số khó khăn sau:
- Chủ ñề tin tức trên các báo ñiện tử là
khơng đồng nhất.
- Ngơn ngữ tiếng Việt có những đặc
thù riêng địi hỏi phải có những phương
pháp xử lý riêng để đảm bảo việc phân loại
tin tức là chính xác và mềm dẻo.
- Tin tức tổng hợp phải luôn mới, vì
vậy việc thu thập và phân loại tin tức phải
thực hiện nhanh để đảm bảo tin tức là ln

mới ñối với người ñọc.
ðể giải quyết ñược các khó khăn trên,
trong báo cáo này chúng tơi áp dụng mơ
hình tập thô dung sai làm tăng chất lượng
biểu diễn tài liệu, từ đó giúp phát hiện mối
quan hệ về mặt ngữ nghĩa tiềm ẩn giữa các
tài liệu giúp phân loại chính xác hơn. Các
thuật tốn tách từ tiếng Việt cũng được áp
dụng để đảm bảo việc tách từ là chính xác.
2. BÀI TỐN PHÂN LOẠI TIN TỨC
VÀ MƠ HÌNH TẬP THƠ DUNG SAI
Phân loại văn bản tự ñộng là việc gán
các nhãn phân loại lên một văn bản mới dựa
trên mức ñộ tương tự của văn bản ñó so với
các văn bản ñã ñược gán nhãn trong tập
huấn luyện.
Một số phương pháp phân loại văn
bản thông dụng hiện nay là: Support Vector

1

Machine, KNN, Linear Least Squares Fit,
Neural Network, Naïve Bayes, Centroidbased,.... [7].
Các phương pháp trên khi áp dụng
phân loại văn bản tự ñộng trong tiếng Anh
ñã ñạt ñược kết quả ñáng khích lệ. Tuy
nhiên khi áp dụng vào các văn bản tiếng
Việt sẽ gặp phải các hạn chế do ñặc thù của
tiếng Việt. ðơn vị nhỏ nhất của tiếng Việt là

“tiếng” mà không phải là từ như trong tiếng
Anh nên việc tách văn bản thành các từ
cũng địi hỏi các thuật tốn hoạt động hiệu
quả hơn. Ngồi ra các phương pháp trên khi
ñánh giá sự phụ thuộc của một văn bản vào
một chủ đề thơng qua cách biểu diễn văn
bản dưới dạng vector thuần túy cũng sẽ
khơng thấy được mối quan hệ về mặt ngữ
nghĩa giữa các tài liệu với nhau và giữa tài
liệu với các chủ đề.
2.1. Thuật tốn phân loại Centroid –
based [4]
Có nhiều thuật tốn phân loại văn bản
khác nhau, tuy nhiên phương pháp phân loại
tin tức mà chúng tơi đề xuất dựa trên
phương pháp phân loại Centroid – based.
Centroid – based là một phương pháp
phân loại ñơn giản, dễ cài đặt và có độ phức
tạp tuyến tính O(n). Ý tưởng của phương
pháp phân loại này là: Mỗi lớp trong dữ liệu
huấn luyện sẽ ñược biểu diễn bởi một vector
trọng tâm. Việc xác ñịnh lớp của một tài liệu
thử bất kì sẽ thơng qua việc tìm vector trọng
tâm nào gần với vector biểu diễn tài liệu thử
nhất. Lớp của văn bản thử chính là lớp mà
vector trọng tâm ñại diện. ðộ tương tự giữa
các tài liệu và giữa tài liệu với trọng tâm của
một lớp được tính theo độ đo cosin.
Cơng thức tính vector trọng tâm của
lớp thứ i là:

Ci =

1
{i}

∑d

i

(1)

d j ∈{i}

Cơng thức tính độ tương tự giữa một
vector tài liệu với một vector trọng tâm Ci
là:

cos( x, Ci ) =

x.Ci
x . Ci

(2)

2.2. Mơ hình tập thơ dung sai (Tolerance
Rough Set Model - TRSM)

Lý thuyết tập thô lần ñầu tiên ñược ñề
xuất bởi Z. Pawlak vào ñầu những năm

1980 và nhanh chóng được xem như một
cơng cụ xử lý các thông tin mơ hồ và không
chắc chắn trong việc phân tích và phân lớp
dữ liệu [6].
Mơ hình tập thơ dựa trên quan hệ
tương đương ln giả sử rằng tập T của các
từ chỉ mục có thể chia thành các lớp tương
ñương tách rời nhau dựa trên quan hệ tương
đương. Tuy nhiên trong vấn đề xử lý ngơn
ngữ tự nhiên và tìm kiếm thơng tin, người ta
nhận thấy trong ba tính chất của quan hệ
tương đương thì quan hệ bắc cầu khơng thực
sự phù hợp bởi vì với mỗi từ đều có một
lớp các từ có nghĩa tương tự. Các lớp này
khơng rời rạc (lớp tương đương) mà chúng
phủ nhau, nghĩa của các từ khơng có tính
chất bắc cầu. Vì vậy mơ hình tập thơ dung
sai được giới thiệu ñể khắc phục những hạn
chế nêu trên.
Quan hệ dung sai (tolerance relations)
là quan hệ chỉ thỏa mãn hai tính chất là tính
chất phản xạ và tính chất đối xứng. Các lớp
phủ nhau có thể được sinh ra bởi các quan
hệ dung sai. Mơ hình xấp xỉ chung sử dụng
quan hệ dung sai được giới thiệu trong đó
khơng gian chung được gọi là khơng gian
dung sai (tolerance spaces) có chứa các lớp
phủ nhau của các ñối tượng trong vũ trụ (các
lớp dung sai).
Khơng gian dung sai được định nghĩa

gồm 4 thành phần ℜ= (U,I,v,p) trong đó U
là tập vũ trụ các đối tượng, I:U→2U là một
hàm khơng chắc chắn, v: 2U x 2U → [0,1] là
một hàm tính độ mập mờ, P: I(U) → {0;1}
là hàm cấu trúc (chi tiết xem [2]).
3. THUẬT TOÁN PHÂN LOẠI TIN
TỨC DỰA TRÊN TRSM
Trước khi trình bày thuật tốn, chúng tơi
giới thiệu tóm tắt về không gian dung sai
(chi tiết xem [2],[5])
3.1. Không gian dung sai
Giả sử D = {d1, d2, …, dn} là tập các
tài liệu và T={t1, t2,…,tm} là tập các từ chỉ
mục của tập tài liệu D. Trong TRSM, không
gian dung sai ñược ký hiệu qua một vũ trụ
của tất cả các từ chỉ mục
U = T = {t1 , t2 ,..., tM }
(3)
ðể xác ñịnh ñược mối quan hệ giữa

2

các từ chỉ mục trong các lớp, quan hệ dung
sai R ñược xác ñịnh là sự xuất hiện ñồng
thời của các từ trong tất cả các tài liệu từ tập
D. Quan hệ ñồng xuất hiện của các từ chỉ
mục giúp xác ñịnh mối quan hệ ngữ nghĩa
và làm sáng tỏ ý nghĩa thực sự của các từ
trong ngữ cảnh của các tài liệu và việc tính

tốn trở lên đơn giản và hiệu quả.
Giả sử fD(ti, tj) là số lượng các tài liệu
trong D xuất hiện cả hai từ ti và tj. Hàm
khơng chắc chắn I phụ thuộc vào ngưỡng θ
được ñịnh nghĩa là:
Iθ (ti ) = {tj | fD (ti, tj ) ≥ θ} ∪ {ti } (4)
Rõ ràng hàm trên thỏa mãn các tính
chất đối xứng và bắc cầu với mọi ti và tj ∈
T. Vì vậy quan hệ dung sai I ⊆TxT có thể
định nghĩa qua hàm I:
ti I tj ⇔ tj ∈ Iθ(ti )
(5)
Trong đó Iθ (ti ) là lớp dung sai của từ
chỉ mục tj
ðể ñánh giá mức ñộ bao hàm của một
tập trong tập khác, hàm bao phủ khơng chắc
chắn được định nghĩa là:
v( X , Y ) =

X ∩Y
X

(6)

Hàm tính độ phụ thuộc của từ khố
ti∈T, X ⊆ T:

µ (ti , X ) = ν ( Iθ (ti ), X ) =

I θ ( ti ) ∩ X

Iθ (ti )

(7)

Từ những giả sử trên ta có thể coi tất
cả các lớp dung sai của mỗi ti đều là các tập
con có cấu trúc, nghĩa là P(Iθ(ti)) =1 với ∀
ti ∈ T
Các xấp xỉ trên và dưới của tập X ⊆ T
trong không gian ℜ vừa xác ñịnh ñược:
LR (X) = {ti ∈ T : v(Iθ(ti),X) = 1} (8)
UR (X) = {ti ∈ T: v(Iθ(ti),X) > 0} (9)
Trong mơ hình khơng gian vector
chuẩn, một tài liệu được xem như một nhóm
của các từ, những từ xuất hiện trong tài liệu
sẽ ñược gán các giá trị trọng số khác 0 trong
vector biểu diễn tài liệu. Với TRSM, để tăng
chất lượng biểu diễn tài liệu, ta khơng chỉ sử
dụng các từ xuất hiện trực tiếp trong tài liệu
mà cịn cả các từ có liên quan về mặt ý
nghĩa với các từ đó. Một cách biểu diễn tài

liệu chất lượng hơn có thể coi là sự biểu
diễn tài liệu bởi tập các lớp dung sai của các
từ mà nó chứa. Ta có thể đơn giản hóa việc
biểu diễn tài liệu với các xấp xỉ trên của nó.
Giả sử di = {ti1, ti2,…,tik } là 1 tài liệu trong
D và ti1, ti2,…,tik là các từ chỉ mục của di:

U R (di ) = {ti ∈ T | v ( Iθ (ti ), di ) > 0}

(10)
Lược ñồ TF*IDF ñược sử dụng ñể
gán trọng số cho vector tài liệu. ðể khai thác
các xấp xỉ của tài liệu, lược ñồ ñược mở
rộng để giải quyết trường hợp các từ chỉ có
trong xấp xỉ trên của tài liệu nhưng không
xuất hiện trong chính tài liệu (hoặc các từ
xuất hiện trong tài liệu nhưng lại không nằm
trong xấp xỉ dưới của tài liệu)[5].
3.2. Thuật toán phân loại tin tức dựa trên
TRSM
Thuật toán phân loại mà chúng tơi đề
xuất dựa trên thuật tốn phân loại Centroid based. Như đã giới thiệu, thuật tốn
Centroid – based có độ phức tạp tuyến tính,
do vậy phù hợp với việc phân loại tin tức
một cách trực tuyến. Việc sử dụng khơng
gian dung sai và xấp xỉ trên để tăng mối
quan hệ giữa các tài liệu và giữa tài liệu với
các nhóm chủ đề cho phép thuật tốn phát
hiện ra sự tương tự khó phát hiện mà các
thuật tốn khác khơng làm được.
Thuật tốn mà chúng tơi giới thiệu
gồm các bước các bước như dưới ñây:
Tiền xử lý
Tiền xử lý dữ liệu văn bản trước khi
ñưa vào các thuật tốn phân cụm là rất cần
thiết và có thể làm tăng hiệu xuất của thuật
toán. ðầu tiên ta loại bỏ khỏi kết quả tìm
kiếm những ký tự khơng phải là chữ cái (ví

dụ: $,@,…), các thẻ HTML và các mã ký tự
ñặc biệt như &, ",…Sau bước này
ta sử dụng các thuật tốn tách từ tiếng Việt
để tách tài liệu thu được thành các từ có
nghĩa. Bước tiếp theo là loại bỏ các từ dừng.
Xây dựng ma trận từ - tài liệu
Thuật tốn TRSM sử dụng mơ hình
khơng gian vector ñể xây dựng ma trận từ tài liệu biểu diễn các tài liệu
Bảng ñồng xuất hiện ñược xây dựng
sau khi tập tài liệu đã qua pha tiền xử lí và
nó ñược trích chọn theo quy luật sau:
- Bỏ qua số, các từ có ít hơn hai kí tự.

3

- Sử dụng bộ lọc ñể loại bỏ các từ có
tần xuất thấp (nhỏ hơn 1 ngưỡng nào đó cho
trước) vì những từ này sẽ làm tăng số đặc
tính của tài liệu
Sau khi trích chọn ta xây dựng ma
trận từ - tài liệu theo lược ñồ trọng số
TF*IDF [5].
Tạo lớp dung sai [3]
Mục đích của việc tạo lớp dung sai là
để xác định tập các từ có liên quan đến mỗi
từ với quan hệ dung sai là quan hệ ñồng
xuất hiện; tập hợp từ đó được gọi là lớp
dung sai. Ta ñịnh nghĩa ma trận ñồng xuất
hiện của từ như sau:

TC = [tc x , y ]MxM
Trong đó tcx,y là tần số ñồng xuất hiện
của hai từ x,y-nghĩa là số tài liệu có chứa
đồng thời cả hai từ x và y. Quan hệ dung sai
R giữa các từ ñược ñịnh nghĩa là:
xRy⇔tcx,y > θ
Trong đó θ được gọi là ngưỡng đồng
xuất hiện.
Chi tiết về thuật tốn có thể xem
trong [7].
Thuật tốn phân loại dựa trên TRSM
Thuật tốn mà chúng tơi ñề xuất là
một cải tiến của thuật toán Centroid –
based dựa trên TRSM. Thuật tốn được
mơ tả như sau:
Input: Tập các dữ liệu huấn luyện D, tập n
chủ ñề, văn bản cần phân loại x
Output: Lớp của văn bản x
Thuật tốn:
Foreach Ci (i=1,…, n) {
Tính tốn độ tương tự giữa xấp xỉ trên
của tài liệu với trọng tâm của lớp dữ liệu
S(Ur(x), Ci)
If (S(Ur(x), Ci) =max ({S(Ur(x), Ci)})
then{
Gán chủ ñề cho tài liệu x là i;
}
}
ðể giúp thuật toán thực hiện nhanh

hơn khi áp dụng trong thực tế thì kết quả
tính trọng tâm của từng lớp tài liệu và biểu
diễn của các tài liệu sẽ ñược lưu trữ lại phục
vụ cho các lần tính tốn sau. Sau khi một tin

tức mới được bổ sung vào một chủ đề thì
trọng tâm của lớp tin đó cũng được xác định
lại.
Xấp xỉ trên của tài liệu được tính tốn
trên quan hệ đồng xuất hiện của các từ biểu
diễn tài liệu với các từ nằm trong tập K tài
liệu ñược lấy ra từ tập dữ liệu huấn luyện và
chia ñều theo các chủ ñề.
Việc áp dụng TRSM vào thuật tốn
phân loại sẽ có 2 ưu điểm chính là:
1. Làm giảm các hệ số có giá trị bằng 0
khi ta biểu diễn các tài liệu bởi các từ
liên quan đến nó trong các lớp dung sai.
2. Có khả năng phát hiện ra mối quan hệ
giữa các tài liệu mà có ít từ chung
(hoặc thậm chí khơng có) với tập các từ
phổ biến với các chủ ñề.
4. THỬ NGHIỆM
ðể ñánh giá phương pháp phân loại
văn bản ñã ñề xuất, chúng tôi ñã cài ñặt thử
nghiệm một hệ thống tổng hợp tin tức tiếng
Việt.
ðể tạo tập dữ liệu huấn luyện, chúng
tôi sử dụng kỹ thuật Crawler theo chủ ñề ñể
thu thập ñược hơn 3000 bài báo tiếng Việt

thuộc 26 chủ ñề mà của các trang tin tức
tiếng Việt ñược nhiều người ñọc như
, .
Khi biểu diễn các văn bản dưới dạng
vector, chúng tôi sử dụng phương pháp
Maximum Matching cùng với 1 từ ñiển
tiếng Việt gồm 70591 từ, từ ñiển tên riêng
gồm 26070 tên ñể tách từ, việc loại bỏ các
từ dừng sử dụng từ ñiển từ dừng trong tiếng
Việt gồm 807 từ. Vì vậy mà phương pháp
tách từ của chúng tơi đạt được độ chính xác
cao.
Khi tiến hành thu thập tin tức từ các
nguồn tin mới, thuật tốn phân loại mà
chúng tơi đề xuất đều phân loại khá tốt các
tin tức này vào các chủ đề có sẵn trên hệ
thống của chúng tôi kể cả trường hợp tên
các chủ đề trên các website là khơng tương
đồng.
Việc bổ sung thêm các nguồn tin mới
và việc gia tăng số lượng tin tổng hợp cũng
khơng làm ảnh hưởng đến tốc ñộ tổng hợp
thông tin.
Phương pháp phân loại mà chúng tôi
ñề xuất ñã ñược áp dụng cho việc tổng hợp

4

các thông tin cho các website:

và .
5. KẾT LUẬN
Với việc áp dụng TRSM vào thuật toán
phân loại Centroid – based, báo cáo ñề xuất
một phương pháp phân loại tin tức tiếng
Việt khá hiệu quả. Việc áp dụng mơ hình tập
thô dung sai với quan hệ dung sai là quan hệ
ñồng xuất hiện của các từ trong tài liệu ñã
giúp phát hiện ra mối quan hệ giữa các từ
trong tập các bài báo, từ đó làm tăng chất
lượng của việc phân loại. Ngoài ra việc sử
dụng các phương pháp tách từ dành cho
tiếng Việt giúp cho chất lượng phân loại
ñược nâng cao so với các phương pháp
khác. Việc lựa chọn phương pháp phân loại
là Centroid – based giúp cho việc cài ñặt
ñơn giản, tốc ñộ xử lý nhanh rất phù hợp với
việc phân loại tin tức điện tử có số lượng
lớn và địi hỏi tốc độ xử lý nhanh.

Tài liệu tham khảo
1. S.Chakrabarti (2003), Mining the Web.
Morgan Kaufmann
2. T. B. Ho and N. B. Nguyen (2002)
Nonhierarchical document clustering
based on a tolerance rough set model.
International Journal of Intelligent
Systems, VOL. 17, 199–212 (2002).
3. Hu Guan, Jingyu Zhou, Minyi GuoA,
Class-Feature-Centroid Classifier for Text

Categorization, Madrid 2009
4. E.H. Han and G. Karypis. Centroidbased document classification algorithms:
Analy-sis & experimental results. Technical
Report
TR-00-017,
Department
of
Computer Science, University of Minnesota,
Minneapolis, 2000.
5. Trần Ngọc Hà (2010), Áp dụng lý thuyết
tập thô vào tìm kiếm web Master's thesis.
6. Z. Pawlak (1991), Rough sets:
Theoretical aspects of reasoning about data.
Kluwer Dordrecht.
7. Y. Yang and X. Liu. A re-examination of
text categorization methods. In SIGIR-99,
1999.

SUMARY
VIETNAMESE NEWS CATEGORIZATION BASED ON
TOLERANCE ROUGH SET MODEL
Tran Ngoc Ha
College of Education -TNU

ABSTRACT
In recent years we have seen a tremendous growth in the volume of text documents available
on the Internet. Automatic texts categorization is an important task that can help both in
organizing as well as in finding information on these huge resources. Present text categorization
methods challenges due to the large number of data set and training samples. Vietnamese has its
own characteristics, so Vietnamese text classification facing other difficult that is have to have

exactly words segmentation when we represent the document. In this article we propose an
automatically texts categorization method perform well on the Vietnamese text can be applied in
building a Vietnamese newses colecting system. Our method uses Vietnamese words
segmentation algorithms in order to represent document and apply the tolerance rough set model
to Centroid – based text categorization algorithm to improve the quality of categorization.
Keywords: Text categorization, tolerance rough set, centroid, co-occurrence, news crawler.
Liên hệ: Trần Ngọc Hà – Mobile: 0983.168400 - Email:

5

Phân loại tin tức Tiếng Việt dựa trên mô hình tập thô dung sai

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về