Tải bản đầy đủ (.pdf) (74 trang)

Xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc tơ hỗ trợ kết hợp các phương pháp tối ưu kích thích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (25.8 MB, 74 trang )

DẠI ỉIỌ C ỌƯÓC GIA IỈẢ NỘI

TRƯỜ NG ĐẠI HỌC CÔNG NGHỆ






Phạm Đức Hồng

XÂY DỤNG HỆ THỐNG PHÂN LOẠI VẢN BẢN
TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TO
HỎ TRỢ KÉT HỢP CÁC PHƯƠNG PHÁP TỐI ư u
KÍCH THƯỚC DỬ LIỆU

Ngành: C ông nghệ thông tin
C huyên ngành: C ôn g nghệ phần mềm
Mã số: 60 48 10

LU Ậ N V Ă N TH Ạ C s ĩ

NG Ư Ờ I H Ư Ớ N G D À N K H O A HỌC: TS. Lê Anh C u ờ n g

ỌỌ0 5 D OOOồdỹ

Hà Nội - 2009


Lời cảm ơn
Tôi xin gừi lời cám ơn chân thành nhấí đến TS. Lê Anh Cường, người đã tận


tình hướng dần, giúp đờ tôi trong suốt quá trình thực hiện luận vãn.
Cảm ơn Ban Giám đốc Trung tâm An ninh mạng Bkis đà tạo điều kiện đế tôi
thực hiện và thừ nghiệm kết quà trong suốt quá trình làm luận văn.
Xin cảm ơn gia đinh và nhữntĩ neười bạn đã dành cho tôi tình thương yêu và
sự hồ trợ tốt nhất.


Tóm tắt luận văn


Phân loại văn bàn là một trong những bài toán quan trọng trong xử lý văn hàn
tiếng Việt. Một trong những thách thức cùa bài toán phân loại văn bàn là sỏ lượng đặc
trưng (thuộc tính) dùng đe phân toại thi thường rất lớn. Bên cạnh dó, khi áp dụng vào
ưong xìr lý tiếng Việt chúng ta cần phai khảo sát hiệu quả của các phương pháp phân
loại trên một số dặc diem riêng của tiếng Việt như việc sử dụng từ hay âm tiết.
Luận văn trình bày phương pháp phân loại Máy Véc-tơ hồ trự. đây dược cho là
một trong những phương pháp phân loại tốt nhất hiện này đồng thời kết hợp tập trung
giãi quyết vấn để "số chiêu đặc trưng lớn" bans cách áp dụng các phương pháp eiàm
chiều đặc trưng. Sau khi trình bàv tổnẹ quan về các tiếp cận giam chiểu đặc trưna luận
vãn đi sâu vào trình bày các tiếp cận Lantern semantic index. Centroid. Orthogonal
Centroid, GSVD/LDA được áp dụna cho dữ liệu phán cụm phù hợp với bài toán phân
loại văn bản. Trên cơ sờ dó chúng tôi cài đặt và thử nghiệm, đưa ra bảng so sánh đánh
giá các kết quà phân loại được ứns dụne cho bài toán phân loại vãn bán tiếng Việt
trôna hai trường hợp dựa vào đặc điểm riêng của tiếng Việt là sử dụng tách từ và âm
tiết.

1


Mục lục

Tóim tát luận v ă n ....................................................................................................................................1
Dainh mục thuật ngữ ............................................................................................................................. 4
Dainh mục các hình v ẽ...........................................................................................................................5
Dainh mục các bảng.........................«.....................................................................................................5
Chiưoiìg 1: Tổng quan.........................................................................................................................6
Il. I Giới thiệu bài toán xứ lý văn bàn............................................................................................ 6
11.2 Các phưang pháp phân loại văn ban.......................................................................................6
11.3 Vấn dề giảm chiều đặc trưng.................................................................................................. 7
1.3.1. Giới thiệu........................................................................................................................... 7
1.3.2. Các tiếp cận và tinh hình nghiên cứu ở Việt Nam ........................................................ 9
11.4 Đặc điềm của tiếng Việt........................................................................................................... 9
11.5 Mục tiêu của luận vãn............................................................................................................ 10
Ch ương 2: Biểu diễn văn bản........................................................................................................... 11
2. !

G ió i t h i ệ u .........................................................................................................................................................................11

2.2 Mô hình Boolean......................................................................................................................12
2.3 Mô hình tần suất (Term Frequency - TF)............................................................................ 12
2.4 Mỏ hình nghịch đào tần sổ văn bản ( Inverse Document Frequency - IDF)...................13
2.5 Mô hình kết hợp TFxIDF........................................................................................................ 13
2.6 Áp dụng phưang pháp véc-tơ thưa trong lưu trữ vănbàn.................................................... 13
Ch ương 3: Các phương pháp phân loại văn bản.........................................................................15
3.1 Giới thiệu..................................................................................................................................15
3.2 Ọuv trình phân loại văn bán....................................................................................................15
3.3 Đặc điểm cùa Tiếng Việt và ảnh hưởng trong phânloạivăn bản......................................... 16
3.3.1.
Đặc điểm tiêng V iệt..................................................................................................... 16
3.3.2.
Ánh hưởng trong phân loại văn bản............................................................................. 18

3.4 Phương pháp phân loại Naïve Bayes.....................................................................................18
3.5 Phương pháp phân loại Centroid- based vector.................................................................. 19
3.6 Phương pháp phùn loại k-Nearest Neighbor (kNN)...........................................................19
3.7 Phân loại văn bản bang phưong pháp SupportVector Machines....................................... 20
3.7.1. Lý thuyết học thông kê................................................................................................... 20
3.7.1.1.
Chiều VC (Vapnik Chervonenkis dimension)................................................... 20
3.7.1.2.
Rủi ro cùa bài toán học phân loại có giám sát................................................... 22
3.7.1.3.
Rủi ro thực nghiệm.................................................................................................23
3.7.1.4.
Nậuỵên tắc tối thiểu hoá rủi ro cấu trúc..............................................................23
3.7.1.5.
Bồ đề Vapnik.........................................................................................................24
3.7.2.
Support Vector Machines...... ......................... ............................................................. 25
3.7.2.1.
Dừ liệu huấn luyện có thể phân chia tuyến tính và không có nhiễu................26
3.7.2.2.
Dữ liệu huấn luyện có thể phàn chia tuyến tính nhưng có nhiễu..................... 30
3.7.2.3.
Dừ liệu huấn luyện không thể phân chia tuyến tinh dược................................. 32
3.7.2.4.
Hàm nhân Kernel...... ........................................................................................... 34
3.7.3. Phương pháp giải bài toán tối ưu.................................................................................. 34
3.7.?. 1.
Thuật toán giãi bài toán tối ư u.............................................................................35
3.7.3.2.
Thuật toán khới tạo các biến a " .......................................................................... 37

Chưoìig 4: Các phưong pháp tối ưu kích thưóc dữ liệu............................................................39
4.1 Biểu diễn giám bậc của ma trận Term - Doc....................................................................... 39
4.2 Phương pháp Latent semantic analysis................................................................................. 41
4.2.1. Singular value decomposition........................................................................................42
4.2.2. Thuật toán giảm số chiều LSI/SVD..............................................................................45
2


4.3 Phương pháp trọng tâm.............................................................................................................47
4.3. i . Binh phưcrng tồi thiếu.....................................................................................................47
4.3.2. Thuật toán trọng tâm giám số chiều..............................................................................49
4.4 Phưcmg pháp trọng tâm trực giao............................................................................................ 49
4.4.1. Phân tích QR của ma trận............................................................................................... 49
4.4.2. Thuật toán trọng tâm trực giao giảm số chiều..............................................................52
4.5 Phương pháp Linear discriminant analysis.............................................................................52
4.5.1. Hàm phân lớp tuyến tính của Fisher (Fisher’s linear discriminant - FLD).............. 52
4.5.2. Generalized Singular Value Decomposition (GSVD)................................................53
4.5.3. Linear discriminant analysis trong da lớp.....................................................................55
4.5.4. Thuật toán giảm số chiều LDA/GSVD........................................................................ 56
Chưong 5: Cài đăt chuông trình và kết quả thử nghiệm..........................................................58
5.1 Chức năng tiên xử lý vân bản................................................................................................... 58
5.1.1. Chuẩn hóa........................................................................................................................ 58
5.1.2. Xây dựng bộ từ điển........................................................................................................ 58
5.1.3.
Biểu diễn văn bàn............................................................................................................ 59
5.1.4.
Thuật toán giảm số chiều vãn bàn................................................................................. 59
5.1.4.1.
Thuật toán giảm sộ chiều LSI/SVD.................................................................... 59
5.1.4.2.

Thuật toán giảm số chiều Centroid..................................................................... 60
5.1.4.3.
Thuật toán giảm số chiều Orthogonal Centroid.................................................60
5.2 Huấn luyện và phân loại............................................................................................................ 61
5.2.1.
Phương pháp SVM...........................................................................................................61
5.2.1.1.
Quá trình huấn luyện............................................................................................... 61
5.2.1.2.
Quá trình kiểm tra................................................................................................... 63
5.2.1.3.
Phân loại vãn bán.................................................................................................... 64
5.3 Ket quá thực nghiệm................................................................................................................. 65
5.3.1.
Vãn bản được tách thành các từ (word segments)..................................................... 65
5.3.2.
Văn bản dược tách thành các âm tiết...........................................................................67
Kết luận............................. ......................................................................................................................70
Tài liệu tham khảo.........................................................................................................................
71

3


Danh mục thuật ngữ
iS l
• IW l-i '■ 1 1 '
1
2


kNN

3
4

SVM

5

III
y ;
Tiếng Việt
P S I E I illi
tã M ẳ ấ .ỊJrtix*vJwijiir;WLf. ễyÌÌlỆ llftfl
High Dimension
SỐ chiều dặc trưnii lớn (Cao)

I I

k-Nearest Neighbor

k láng giềng gần nhất (phân loại
văn bàn)

s top words

từ dừng

Support Vector Machines


Máy véc-tơ hỗ trợ

Text Categorization
Classification)

Bài toán phân loại văn hàn

(Text

6

FLD

Fisher’s linear discriminant

Hàm phân lớp tuyến tính Fisher

7

LSI

Latent semantic indexing

Đánh chi mục ngữ nghĩa ẩn

8

SVD

Singular value decomposition


Phân tích giá trị kỳ dị

9

GSVD

Generalized Singular Value
Decomposition

Phân tích giá trị kỳ dị giữa hai ma
trận

10

Centroid

Trạng tâm

11

Orthogonal Centroid

Trọng tâm trực giao

12

word segments

Tách từ


13

Linear discriminant analysis

Phân tích tuyến tính

4


Danh mục các hình vẽ
Hình l. Biêu diên các véc-tơ văn bàn tronẹ không gian chi có 2 thuật ngữ ......................1 1
Hình 2. Minh họa chiểu v c của tập các hàm Ịf(x)} trong không gian hai chiêu với 3
điêm dữ liệ u ...........................................................................................................................21
Hình Minh họa các hàm ịf(x)Ị trong không gian hai chiểu với 4 điếm dữ liệu .......22
Hình 4. Mô tá các siêu phăng phân chia tập mẫu huấn luyện ............................................ 26
Hình 5. Siêu phănẹ phân chia dữ liệu và các ràng b u ộ c ..................................................... 27

Danh mục các bảng
Bàng l. Dữ liệu huấn luyện và kiêm th ử ................................................................................... 65
Báng 2. Độ chính xác phân loại trên mỏi chuvên mục và trên toàn bộ tập dừ liệu
trường hợp văn bàn tách thành các từ sư dụng thuật toán giám chiểu LSI/SVM 65
Bâng 3. Độ chỉnh xác phân loại trên moi chuyên mục vò trên toàn bộ tập dữ liệu
trường hợp văn ban tách thành các từ sứ dụng thuật toán giam chiểu Centroid và
Orthogonal C entroid .............................................................................................................66
Bủng 4. Chì phí thời gian huấn luyện và phân loại sử dụng hàm nhản Poly (d - 2 )
trường hợp văn bán được tách thành các từ ..................................................................67
Bãrg 5. Chi phí thời gian thực hiện các thuật toán giảm chiểu trường hợp văn bản
được tách thành các từ ........................................................................................................ 67
Bárg 6. Độ chính xác phân loại trên môi chuyên mục và trên (oàn bộ tập dừ liệu

trường hợp văn bàn tách thành các âm tiết sử dụng thuật toán ẹiớm chiểu
LSI/SVM ... ................................ ........... ................................. .................................................. 67
Bárg 7. Độ chinh xác phần loại trên moi chuyền mục và trên toàn bộ tập dừ liệu
trường hợp văn bán tách thành các âm tiết sư dụng thuật toán giảm chiều
Centroicỉ và Orthogonal C entroid ......................................................................................68
Bars; 8. Chi phi thời gian huấn luyện và phán loại sứ dụng hàm nhân Polỵ (ci-2)
trường hợp văn bản dược tách thành các âm tiế t ..........................................................69
Bàrg 9. Chi phi thời gian thực hiện các thuật toán giám chiều trường hợp văn bàn
được tách thành các âm tiế t ................................................................................................ 69

5


Chương

1:

Tổng quan

1.11 GIỚI thiệu bài toán xử lý văn bản
Ngày nay cùng với sự phát triển mạnh mẽ của công nghệ thỏim tin thì nhu cầu
lưui trừ va trao doi thône tin bàng văn hàn số tăng lên với sổ lượng rất lớn. Đó là côntĩ
văni giấy tờ trong các doanh nghiệp và tổ chức hành chính được số hóa lưu trừ dưới
dạnig văn bàn. tin bài trên các web site báo điện tử, nội dung thông tin trao đôi trong
ermail,...
Với một cơ sờ dừ liệu có số lượng văn bản khổng lồ cùng với nhu cầu trao đồi
thô'ng tin rất lớn thì một lớp bài toán xir lý văn bản ra đời nham khai thác một cách
hiệtu quà thông tin từ dữ liệu văn bàn. Lớp các bài toán xử lý văn bàn bao gồm: dịch tự
độnig văn bàn, tóm tắt văn bản, tìm kiếm văn bản, phân loại văn bản,...
Xử lý văn bàn là một kỹ thuật chung để trích chọn ra những thông tin có ích

chưa được biết đến, còn tiềm ẩn từ những văn bản. Xử lý văn bản cỏ nhiệm vụ thu
thập và phàn tích văn bản bàng các công cụ tự động hoặc bán tự động từ các nguồn
văn bàn đã có khác nhau, để có dược các tri thức mới, chưa dược biết đến trước đó;
phát hiện ra các mô tà chune, cùa các lớp đổi tượng văn bàn, các từ khoá, các mối liên
quan về mặt nội dung, sự phân loại của các đối tượng văn bàn, v.v...
Bài toán tự động phản loại văn bàn (Text Classification) là bài toán quan trọne
cần eiải quyết trong xử lý văn bàn. Kết quả của phân loại được ứna dụng trực tiếp và
là một thành phần quan trọne trong nhiều hệ thống xử lý thông tin khác như trong hệ
thống lọc thư rác (mail spam) hay lay tin tự động. Ngoài ra nó cũng có írng dụng hỗ
trợ trong nhiều bài toán xừ lý vãn bản như tim kiếm, dịch máy, tóm tắt văn bán.

1.2 Các phương pháp phân loại văn bản
Trong xử lý vãn bản, các phương pháp học mảy dã chứng tỏ được tính hiệu quà
vượt trội. Một số phương pháp phân loại thône, dụng đã dược sử dụng như quyết định
Bayes (Mitchell, 1996), cây quyếl định (Fuhr et al, 19 9 1), véc-tơ trọng tâm (Centroidbased vector) (Han, Karypis 2000), k-lántỊ giềng gần nhất (Yang, 1994), mạng nơron
(Wiener et al, 1995), ... Những phương pháp nàv đã cho kết quà chấp nhận được và
được sử dụng trone thực tế. Prone những năm «ần đây. phương pháp phân loại sử
dụng Bộ phân loại véc-tơ hồ trợ (SVM ) được quan tâm và sir dụng nhiều trong những
lĩnh vục nhận dạng và phân loại (Joachims, 1998). SVM là một họ các phươna pháp
dựa trèn cơ sờ các hàm nhân (kernel) dề tối thiểu hóa rủi ro ước lirợne.
6


Phương pháp SVM ra dời từ lý thuyết học thổng kê do Vapnik và
Chiervonenkis xây dựng và có nhiều tiềm năng phát triền về mặt lv thuyết cũns, như
ứng dụng trong thực tiền. Các thử nghiệm thực tố cho thấy, phương pháp SVM cỏ khà
nărsg phân loại khá tốt đối với bài toán phân loại văn bàn cũng như tron li nhiều ứng
dụng khác (như nhận dạng chừ viêt tay, phát hiện mặt người tronc các ánh. ước lượng
hồi quy. ...). So sánh với các phương pháp phân loại khác, khả năns phàn loại cùa
SVM là tương dương hoặc tốt hơn đáng kể (Nguyền Linh Giang và Nguyền Mạnh

Hiền, 2005).
Hệ thốnụ phân loại văn bàn tiếng Việt ỡ nước ta đã có nhiều nhà nghiên cứu và
phát triền xây dựnc trong những năm gần đây (Huỳnh Quyết Thắng và Đinh Thị
Phương. 1999) (Nguyền Linh Giang và Nguyễn Mạnh Hiển, 2005). Các hướng tiếp
cận bài toán phân loại văn bàn đã được nghiên cửu bao gom: hướng tiếp cận hài toán
phân loại bẳng lý thuyết đồ thị (Đồ Bích Diệp, 2004), cách tiếp cận sử dụng lý thuyết
tập thô (Nguyễn Ngọc Bình, 2004), cách tiếp cận thong kê (Nguyễn Linh Giang và
Nguyễn Duy Hài, 1999), cách tiếp cận sử dụng phương pháp học không giám sát và
đánh chi mục (Huỳnh Quyết Thẳng và Đinh Thị Phương, 1999). Nhìn chung, nhìme
cách tiếp cận này đều cho kết quà chấp nhận được.

N hững tháclì thức trong bài toán phân loại văn bản Tiếng Việt:
1. Số chiều đặc trung lớn
Trong phân loại văn bàn lất cả các phương pháp gặp một khó khăn chung khi
không gian dừ liệu với số chiều lớn. Khi đỏ đòi hỏi không gian bộ nhứ dữ liệu lớn và
mất nhiều thời gian xử lý văn bàn phân loại. Đê giải quyết vấn đề khó khăn này luận
văn sẽ trình bày và xây dựng hệ thống phân loại kết hợp với các phương pháp tối ưu
kích thước dừ liệu được áp dụng cho văn bàn Tiếng Việt.
2. Phân tách câu thành các từ
Khác với tiếng Anh. vãn hán tiếng Việt có thổ được biểu diễn bời danh sách các
từ hoặc âm tiết. Đẻ biểu diễn văn hãn bởi các từ. chúng ta phải xử lý bài toán tách từ
(word segmentation) cho tiếng Việt. Ilai cách sử dụnu này (âm tiết và từ) sỗ được
khải) sát so sánh trong luận văn của chúng tôi.

1.3

Vấn đề giảm chiều đặc trưng

1.3.1. G ió i thiệu
Những tiến hộ trono, công nghệ thông tin như mạng máy tính (network), phần

cứng (hardware), phàn mềm (software), cấu trúc dừ liệu và thuật toán đã tạo lên cơ sở
7


hạ tầng đủ mạnh để xử lý luồng dừ liệu khổng lồ trên web, tronẹ hệ thống máy tính,
trong các bộ cảm biển mạng máy tính (sensor networks), trong việc phân tích gen
DNA cùa người và các sinh vật khác, các loại dừ liệu ờ dạn a văn bản (text), ảnh, âm
thanh...song dô xử lý được luồng dừ liệu lớn vần còn là vấn dò phức tạp. Trong bài
giảng cho sinh viên với chu dê "Phân tích dữ liệu có sô chiều dặc trưng cao: Nlĩững
thuận lợi và khó khăn” (High-Dimensional Data Analysis: The Curses and Blessings
o f Dimensionality) (David Donoho, 2000) tại đại học Standford năm 2000 tiến SV
David Donolio đà điểm qua những thuận lợi và khó khăn trong việc giải quyết bài
toán có số chiều đặc trưng cao dồng thời kêu gọi các nhà toán học trong the kỳ 21
quan tâm và đóne 2 Óp hướng giải quyết nhiều hơn nữa cho lớp bài toán này.
Khái niệm “khó khăn cùa số chiều đặc trưng lớn” (curses o f dimensionality)
(Richard Bellman, 1961) do Richard Bellman sử dụng Ian đầu tiên nói đến sự khó
khản trong việc giải quyết các bài toán liên quan đến số chiều đặc trưng lớn (high
dimension), s ổ lượne chiều (dimension) của bài toán có thể là sổ lượna biến số liên
quan, có thể do số lượne các bộ cảm biến (sensors) dùng dế thu thập dừ liệu rất lớn.
Để xứ lý dù liệu với sổ chiều (dimension) khổng lồ và sổ lượng khổng lồ đòi hỏi tìm
kiếm trong một trong gian trạng thái lớn gấp nhiều lần khi dó chi phí về thời gian có
thể theo đa thức hoặc hàm so 11ÌŨ.
Điều thú vị là bài toán toán xử lý dữ liệu lớn cũng có nhiều thuận lợi (blessings
o f dimensionality) trong toán học một trong những yếu tố thuận lợi của số chiều lớn
chính là khái niệm “thước đo tập trung tương đối” (concentration o f measure) nói dến
thống kê sự tập Iruna xấp xi khi có nhiều sự thể hiển có cùng đặc trưng. Trong lý
thuyết xác suất chúng ta có luật số lớn (law o f large numbers) giá trị trung bình cùa
các sự thể hiện ngẫu nhiên thường hội tụ về giá trị kỳ vọng cùa biến ngẫu nhiên
(constant). Hay định luật giới hạn trung lâm (central limit): Giá trị trung bình cùa các
sự thế hiện ngầu nhiên có hành vi giống như biến Gauss, khi ta chọn naẫu nhiên một

sự thê hiện trong dây các sự thể hiện thì kích thước dãy các sự thể hiện càng lớn thì
các đặc trưne thong kê (trung bình, phươns sa i....) của sự thê hiện càng gan với đặc
trung của dãy.
Giám chiều khônẹ gian đặc trưng trong bài toán phân loại văn bản nói riêng và
các bài toán có số chiều lớn nói chung có vai trò quan trọng trong việc:
-

Giảm thiếu khôníỊ gian bộ nhớ dừ liệu

-

Tăng tốc dộ xử lý dừ liệu cho giải thuật xử lý văn bản

8


1.3.2. C ác tiếp cận và tình hình nghiên cứu ở Việt Nam
^. f
A• X
A
1. C
a c tic p c â n

Dược chia làm hai loại:
Các phương pháp giảm chiều đặc trưng cho dữ liệu chưa được phân cụm hav
còn aọi là dữ liệu khôna siảm sát (Unsupervised) như Principal components analysis
(Karl Pearson , 1901), Independent Component Analysis

(Pierre Cornon, 1994).


Locally linear Embedding (Sam T. Roweis và Lawrence K. Saul , 2000). Khi dừ liệu
chưa phân cụm thì có thể áp dụnc các giải thuật phân cụm dế gom dừ liệu thành các
nhóm sau đó áp dụne các phương pháp giảm sổ chiều cho dữ liệu đã được phân cụm.
Các phương pháp aiàni chiều đặc trưne cho dữ liệu dã được phàn cụm hay còn
gọi là dữ liệu giám sát (Supervised) như Latent semantic indexing

(Scott

Deerwester,ext, 1988), Centroid (Park et al, 2003) , Orthogonal centroid (Park et al,
2003), Generalized singular value deconìpositon (GSVD/LDA) (Park et al, 2003),
Linear discriminant analysis (Fisher, 1936),...
2. Tình hình nghiên cứu ờ Việt Nam
Ờ Việt Nam cũns, đâ có những nghiên cứu về giảm chiều đặc trưng như cách
tiếp cận LSI (lantent semantic indexing) đánh chỉ mục ngừ nghĩa ẩn (Dương Thanh
Tịnh, 2005) làm giảm chiều đặc trưng áp dụng trong hệ thống hồ trự tư vấn cho
thương mại điện tử, sử dụng giải thuật phân tán cho inạng máy tính (Dỗ Thanh Nghị,
2002) phân phối công việc cho mạng máy tính xừ lý bài toán phân loại vãn bàn có số
chiều đặc trưníỊ cao, xong vẫn còn ít và chưa được quan tâm nhiều đến lớp bài toán có
số chiều đặc trưng cao (high dimension).

1.4 Đặc điểm của tiếng Việt
Tiếng Việt thuộc ngôn ngữ dơn lập, tức lù mỗi một tiếng (âm tiết) dưực phát
âm tách rời nhau và được thể hiện bảng một chữ viết. Đặc điềm này thể hiện rõ rệt ờ
tấ! cả các mặt ngữ âm, từ vựng, ngữ pháp,

về

mặt ngữ âm, mồi tiếng là một âm tiết.

Hè thống âm vị tiếng Việt phong phú và có tính cân dối, tạo ra tiềm năng của ngữ âm

tiéng Việt trong việc thể hiện các đcm vị có nghĩa. Nhiều từ tượng hình, tượng thanh
CC giá trị gợi tả dặc sẳc. Tiếng là dơn vị cơ sờ của hệ thống các dơn vị có nghĩa của
tiéng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác đè định danh sự vật, hiện
tưmg.... Từ vựng tối thiểu cùa tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một
tiếng). Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này chi phối các đặc
đièm ngữ pháp khác. Khi từ kết hợp từ thành các két cấu như naữ, câu, tièng Việt rất

9


coi trọng phương thức trật tự từ và hir từ. Việc sắp xếp các từ theo một trật tự nhất
dịĩih là cách chù yếu đổ biếu thị các quan hệ cú pháp, trật tự chủ ngừ dứng trước, vị
ngừ đứng sau.

1.5 Mục tiêu của luận văn




Luận văn tập truntỉ trình bày các phương pháp tối ưu kích thước dừ liệu ứng
dụrm trong hài toán phân loại văn hãn tiếng Việt. Phương pháp phàn loại văn bàn sử
dụng Iront» luận vãn là phương pháp Máy vec tơ hỗ trợ, là một trongnhững phương
pháp phân loại tốt nhất hiện nay. Nội dune cùa luận vãn dược trình bày bao gồm 5
chương và kết luận:


C huông 1. Tổng quan: Giới thiệu về bài toán xìr lý văn hàn. các cách tiếp cận

trong bài toán phân loại văn bàn, đặc điểm của Tiếng Việt, vai trò cùa giảm chiều đặc
trưns irone hài toán (high dimension) có số chiều lớn và tình hình nghiên cứu ở Việt

Nam.


Chirong 2. Biểu diễn văn bản: Trình bày các phương pháp biểu diễn văn bản

trong không gian Vec tơ.


Chương 3. Các phương pháp phân loại văn bản: Trình bày các phương pháp

phân loại văn bản, trong dó phương pháp Support Vector Machines được trình bày chi
tiết và cụ thể hơn cả.


Chương 4. Các phương pháp tối ưu kích thưcVc dữ liệu: Biểu diễn ma trận term-

doc, định nghĩa bài toán giảm chiều, trình bày 4 phương pháp dược áp dụng cho dữ
liệu đã được phân cụm I.SI. Centroid. Orthogonal Centroid, LDA/GSVD.


C hưong 5. Cài đặt và kết quả thử nghiệm: Trình bày các bước cài đặt và các

thành phần cùa chương trình phân loại văn bản Tiếng Việt, dưa ra kết quà so sánh
giữa các phương pháp giảm chiều đặc trưng áp dụng tronc bài toán.


Kểt luận: Đánh giá kết quà đạt dưực của luận văn và hướna nghiên cửu tiếp theo

của luận văn


10


2:

Chương

Biểu diễn văn bản

2.1 Giới thiệu
Như ta đã biết, dế có thể xứ lý dược các vãn han, ta phải chuyển chúne về đạnc
dữ liệu có cấu trúc. Đe thực hiện dược công việc này. người ta dưa ra các mô hình
biểu diễn văn bàn. Mô hình biểu diễn văn bản có ảnh hường rất nhiều đến hiệu quả và
hiệu suất xử lv các vãn bàn. TuỲ mục dích, yêu cầu dặt ra cùa ứng dụng mà chúng ta
lựa chọn mô hình biểu diễn và phươrm pháp xử lý phù hợp.
Các 1Ĩ1Ô hình biểu diền văn bàn dã dược sử dụng như mô hình dựa trên tập mờ
(Nguyễn íloàna Phương, 200ỉ)(Đ oàn Sơn. 2002), mô hình tập thô dung sai (Hồ Tú
Bão et al, 2 0 0 1), mô hình khôníỉ gian vectơ (Vector Space Model) (Sparck Jones,
1972)( G. Salton et al, 1975). Trong luận văn này trình bày mô hình không gian vectơ.
Bản chất của mô hình không gian vec-tơ là mồi vãn bàn dược biểu diễn thành
một véc-tơ. Mồi thành phần của véc-tơ biểu diễn một thuật neừ riêng biệt trong tập
vãn bản gổc và được gán một siá trị là hàm f cùa từng thuật ngừ trong văn bản. Giá trị
f này tlurừng là trọng sổ của từ trong văn bản, dược xác định theo nhiều cách khác
nhau. Hình sau biểu diễn các véc-tơ vãn bán trong không gian chỉ có 2 thuật ngừ.

văn bản 1

Thuật ngữ 2

Q


văn bản 2

/

p

y
<



*

y

văn bản 3

p

/
'V Ỹ ) văn bản 4
-'
V

,

T

4



Thuật ngữ 1

Hình 1. Biểu diễn các vẻc-tơ vãn bàn trong không gian chi có 2 thuật ngữ

Có nhiều biến thể của mỏ hình không gian véc-tơ. dưới đây là một số dạne cùa
mò hình không gian véc-tơ:

11


2.2 Mô hình Boolean
Đây là mô hinh biểu diễn véc-tơ với hàm f cho ra giá trị rời rạc với duy nhất hai
giá trị dúng và sai (true và false, hoặc 0 và 1). Hàm f tương ứng với thuật ngữ ti sẽ cho
ra giá trị dúnc nếu và chi nếu thuật ngữ ti xuất hiện trong văn hán đó.
Trọng số của thuật ngữ trong mô hình Boolean: Giả sứ có một cơ sở dừ liệu
gồm m văn bàn, D = {d l. d 2 ,... dm}. Mỗi văn bàn dược biểu diễn dưới dạng một véctư gồm n thuật neừ T = {11, t2__ tn}. Gọi w = {vv ij} là ma trận trọng số, trong đó vviị
là giá trị trọng số cùa thuật ngữ ti trong văn bàn dị.
Mô hình Boolean là mô hình đơn giàn nhất dirợc xác định như sau:

2.3

1

if t € d

0

if t, i d .


Mô hình tần suất (Term Frequency - TF)
Các giá trị wij được tính dựa trên tần số (hay số lần) xuất hiện của thuật ngữ

trong văn bản. Gọi ỉìj là số lần xuất hiện cùa thuật naữ ti trong văn bàn dj. khi dó wij
được tính bởi một trong ba công thức:

wij =fij
Wịj = / + lo g ự ụ

Trong đó: log(X) - logarit cơ số 10 của X.
Trong phương pháp này, trọng số vvýđồng biến với số lần xuất hiện cùa thuật
ngữ t, trong văn bản dị. Khi số lần xuất hiện thuật ngữ t, trong văn bản dj càng lớn thì
điều đó có nghĩa là văn hãn dj càng phụ thuộc vào thuật ngữ t„ hay nói cách khác thuật
ngữ /, mang nhiều thông tin trone vãn bàn d).
Ví dụ:

Cho văn bản D = “ Khi tắt cá đểu nghĩ hai đội mạnh nhất Đông Nam Ả sắp
sứa vào hai hiệp phụ thì bắt ngờ cái đầu vàng cùa Lè Công Vinh đội lên tích tắc mang
về chiếc cúp A FF cho đội tuyển Việt Nam... "
Và được phân đoạn như sau:

12


Khi tắt cá đểu nghĩ hai đội mạnh nhắt Đỏng Nam Ả sắp sứa vào hai
hiệp phụ thì bắt ngờ cái dầu vàng cùa Lê Công Vinh đội lên rích tắc maniỊ

V't’


chiếc

cúp_AFF cho đội tuyên Việt Nam
Tập từ khóa (bộ íừ điển): “ Thế_fhao , Bónẹ đũ, Dội tuyến, Đông Nam_Ả,

Củp_A FF, Việt_Nam
Văn bàn D được biếu diễn bẳng phươna pháp tần suất là: D = (0,0,1, u , 1)

2.4 Mô hình nghịch đảo tần số văn bản (Inverse Document
Frequency - IDF)
Trong phương pháp nàv, aiá trị vvv được tính theo còng thức sau:

với m là số lượng vãn bản và hị là số văn bàn mà thuật ngữ t, xuất hiện. 1'rọng
số Wự tron í; công thức này dược tính dựa trên độ quan trọne cùa thuật ngừ /, trong văn
bán dị. Nếu /, xuất hiện trong càne ít vãn bản, điều đó có nuhĩa là nếu nó xuất hiện
trong

thì trọng số của nó đối với văn bản dị càng lớn hay nó là điểm quan trọng để

phân biệt văn bàn dj với các văn bản khác và hàm lượng thông tin trong nó càng lớn.

2.5 Mô hình kết hợp TFxIDF
Phương pháp này là kết hợp của hai phương pháp TF và ÍDF, giá trị cùa ma
trận trọng so được tính như sau:

[i + iog(y;y)) .io g f
W ÌJ =

if t, 6 d '


h<

0

if t, e d f

Phương pháp này kết hợp được ưu điểm cùa cà hai phương pháp trên. Trọng số
w„ được tinh bàng tần sổ xuất hiện cùa thuật ngữ t, trong vãn bản dj và độ hiếm của
thuật ngừ t, trong toàn bộ cơ sờ dừ liộu.Tuỳ theo yêu cầu ràng buộc cụ thể của bài toán
mà ta sử dụng các mô hình biểu diễn văn bản cho phù hợp.

2.6 Áp dụng phương pháp véc-tơ thưa trong lưu trữ văn bản
Khi biểu diễn văn bàn theo mò hình véc-tơ chuẩn, việc xứ lý các phép toán trên
véc-tơ sỗ phụ thuộc vào độ lớn của ma trận ỈVv. i~ Ị Ị ..... tì}, j - ị l ...... m ị với n là số

13


lượng thuật ngữ hay số chiều cùa véc-tơ và m là số lưựng vãn bản có trong cơ sở dừ
liệu. Trên thực tế, số lượng thuật ngừ và số văn hãn thường rất lớn, có thế lên dến
hàng nghìn hoặc hơn nữa. Khi đỏ số lượng phan tử trong ma trận IV,. sẽ lên đến con số
hàng triệu và việc lưu trừ ma trận IV,J sẽ tốn quá nhiều tài nguyên bộ nhớ đồng thời
các phép toán trẽn các véc-tơ sè rát phức tạp. Đê khăc phục vân dê này có thê sử dụng
kỳ thuật xứ lý trên véc-tơ thưa thay vì việc lưu trữ và xử lý trên các véc-tơ chuấn.
Véc-tư thưa là kiểu véc-tơ chi lưu trừ nhữnu thành phần từ khoá có sổ lần xuất
hiện trong một văn bản là >0 và khônc lưu trữ những từ không xuất hiện trong vãn
bàn. Như vậy một véc-to thưa phải đảm bảo lưu dược 2 dừ liệu: chi sổ cùa từ. và số
lần xuất hiện, hoặc trọng số của từ dỏ trong văn bản. Điều kiện để có thể áp dụng
phương pháp véc-tơ thưa, là ta phải có các véc-tơ thực sự thưa (số phần tứ có trọng số
khác 0 nhò hơn rất nhiều so với sổ thuật neữ trong cơ sở dừ liệu), đong thời phép xử

lý trên véc-tơ thưa khôna, được quá phức tạp.
Một ví dụ biểu diễn véc-tơ thưa từ các véc-tơ chuẩn:

mảy
tính

virus

buôn
bán

thị
trường

học sinh

nhà
trường

Do(CNTT)

2

3

0

0

0


0

D| (kinh tế)

1

0

1

4

0

0

D2 (giáo dục)

1

0

0

0

3

2


Wij

Các véc-tơ chuẩn có dạng:

do =(2. 3. 0,0. 0 ,0 )
d, = (Ị, 0, ỉ, 4, 0. tì)
d2 = (ỉ. 0, tì. 0. 3. 2)
Đổi với véc-tơ thưa:

do = ((ỉ, 2), (2, 3))
d, = ((1,1), (3,1), (4,4))
ci2 = ((Ị,ỉ). (5.3). (6.2))

14


Chương 3:

Các phương pháp phân loại van bản

3.1 GIỚI thiệu
Phân loại văn hán là nhiệm vụ học có giám sát khi cho một số lớp văn ban dã
dược xác dịnh trước, yêu cầu gán nhãn cho các văn bản vào một (hay một số) lớp văn
bàn thích hợp dựa vào nội dune cùa các văn bán dó. Các văn bán dà dược phân lớp
(các mầu huấn luyện) trở thành nguồn, '['rong trường hợp thuận lợi nhất là chúng đã
có sẵn, khi đó quá trình phân loại bắt đẩu bàne. việc học từ tập dừ liệu này, sau dó sẽ
thực hiện phân loại tự độnc với các văn bàn khác. Trường họp ít thuận lợi. không có
sẵn văn bán đã phân loại bằng tay; khi dỏ quá trình phân loại bẩt đầu một hành dộng
phân loại và chọn một phương pháp tự động.


3.2 Quy trình phản loại văn bản
Quy trình của bài toán phân loại văn bàn dựa trên kỹ thuật học máy có thê dirợc
biểu diễn qua các bước như sau:
- Từ tập dừ liệu ban đâu, chuẩn bị tập dừ liệu huấn luyện (Training Data) và tập
dữ liệu kiểm tra (Test Data).
- Tách từ trong văn bàn.
- Biểu diễn văn bàn theo định dạng có cấu trúc.
- Áp dụng phương pháp học đối với tập dữ liệu huấn luyện để phân loại văn
bản.
- Sử dụng tập dữ liệu kiểm tra để thẩm định lại phương pháp.
- Đánh giá hiệu quà của phưcmg pháp học.
Cách tiếp cận học máy dựa trên một tập dừ liệu có sẵn từ đầu Q “ {đ|,

dtQị}

c D. trong đỏ D tập tất cà các văn bản đã dược phân lớp trước, d, là văn bàn thứ ị. Tập
các lớp C={C|,

Cịcị}, c, là kí hiệu của lứp thứ i. Hàm 0

D X c - » { /',F} với mọi

(d j , c, ) e í ì x c . Một văn bán dj là mẫu dương của c, nếu ò ( (l / , c, ) = T , là một mẫu âm
nếu é ( d ) = F .
Với mỗi cách phân loại dược đưa ra. neười ta mong muốn đánh giá được hiệu
quà phân loại của chúng. Bởi vậy, trước khi xây dựng phân loại neười ta chia tập văn

15



bàn ban đầu thành 2 tập hợp, số các văn băn trong hai tập hợp này không nhất thiết
phài bầng nhau:
- Tập huấn luyện (training (-and-validation) set) T r-ịảI, .... clịTị-|/. Phân lứp
&

cho các phân loại

C - / c / .......CỊCJ

dược xây dựng quy nạp dựa trên sự quan sát các

đặc trưna cùa các văn bán tronc Tr.
- Tập kiêm tra (test set) Te-Ịdựy-Hị, ...dịQỈ, được sử dụnq để kiểm tra hiệu
quà của phân lớp. Mỗi (Ị, eT e được dưa vào hệ thống phân lớp đế xác dịnh giá trị

<ĩ>ụr c, ), và so sánh giá trị này với quyết định cD(t/;,c ,) cùa chuyên gia. Hiệu quả của
phân lớp dựa trên sự phù hợp giữa 0(
)•

Trong dỏ. T m T e = 0 . Neu điều kiện này bị vi phạm thì kết quả đánh giá hiệu
quà của mô hình mất đi yếu tổ khách quan, khoa học.
Hầu hết các phươrm pháp phàn loại văn bàn dựa trên kỹ thuật học máy hiện nay
đều dựa vào tần xuất xuất hiện (số lần xuất hiện) cùa từ hoặc cụm tứ trong văn bàn,
hoặc dựa vào tần xuất xuất hiện của từ tronạ văn bản và tần xuất văn bản (số các văn
bán trong tập dữ liệu huấn luyện có chứa từ đỏ).

3.3 Đặc điểm của Tiếng Việt và ảnh hưởng trong phân loại văn
bản

(Trung tâm từ điển học Việt Nam, 2000)

3.3.1. Đ ặc điềm tiếng V iệt
Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mồi một tiếng (âm tiết) được phát
âm tách rời nhau và được thề hiện bằng một chừ viết. Đặc điềm này thể hiện rõ rệt ở
tất cá các mặt ngũ âm, từ vựng, ngữ pháp.
/. Đặc điếm n g ừ âm. Trong tiếng Việt có một loại dơn vị đặc biệt gợi là
"tiếng", v ề mặt ngừ âm, mồi tiếng là một âm tiết. Hệ thống âm vị tiếng Việt phong
phú và có tính cân đổi, tạo ra tiềm năng của ngừ âm tiếng Việt trong việc thể hiện các
đơn vị có nghĩa. Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sác. Khi tạo
câu, tạo lời, người Việt rất chú V đến sự hài hoà về ngừ âm, đến nhạc diệu của câu
văn.

2.

Đặc điếm từ vựng. Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là

đơn vị cư sở cua hệ thống các dơn vị có nghĩa cua tiếng Việt. Từ tiếng, người ta tạo ra

16


các đơn vị từ vựng khác đẻ định danh sự vật, hiện tượng..., chù yếu nhờ phương thức
g.hép và phương thức láy.
Việc tạo ra các đơn vị từ vựng ứ phương thức ghép luôn chịu sự chi phôi cùa
quy luật kết hợp ngừ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát...
Hiện nay, dây là phương thức chú yếu dể sản sinh ra các đơn vị từ vựng. Theo phương
thức này, tiếng Việt triệt đố sir dụnẹ các yếu tố cấu tạo từ thuần Việt hay vay mượn từ
các ngôn ngừ khác để tạo ra các từ, ngừ mới, ví dụ: tiếp thị, karaoke, thư diện tử (email), thư thoại (voice mail), phiên bàn (version), xa lộ thông tin, siêu liên kết văn
bản, truy cập ngẫu nhiên, V.V.

Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp nqừ âm
chi phối chù yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chia, chỏng chơ,
đỏng đa dònạ đành, tha thân, lúng lá lúng liếng, v.v.
Vốn từ vựng tối thiểu cùa tiếng Việt phần lứn là các từ đơn tiết (một âm tiết,
một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã
tạo dieu kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về sổ lượng, vừa đa
dạng trong hoạt động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng,
có thể cỏ nhiều từ ngừ khác nhau biểu thị. Tiềm năng của vốn từ ngừ tiếng Việt dược
phát huy cao độ trong các phong cách chức năng ngôn ngừ, đặc biệt là trong phong
cách ngôn ngừ nghệ thuật. Hiện nay, do sự phát triển vượt bậc cùa khoa học-kĩ thuật,
đặc biệt là công nghệ thông tin, thi tiềm năng đó còn được phát huy mạnh mẽ hơn.

3.

Dộc điểm n g ữ pháp. Từ của tiếng Việt không biến đổi hình thái. Đặc diếm

này sè chi phổi các đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các kết cấu như
ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và lur từ.
Việc sấp xép các từ theo một trật tự nhất định là cách chù yếu dề biểu thị các
quan hệ cú pháp. Trong tiếng Việt khi nói "Anh ta lại đến" là khác với "Lại đến anh
ta". Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thỉ từ đứng trước
giữ vai trò chính, từ đứng sau giữ vai trò phụ. Nhờ trật tự kết hợp cùa từ mà "cù cải"
khác với "cãi cũ", "tình câm" khác vợi "căm tinh", Trật tự chu ngừ đứng trước, vị ngừ
đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt.
Phương thức hư từ cũng là phirưne, thức ngữ pháp chủ yếu cùa tiếng Việt. Nhờ
hư từ mà tồ hợp "anh cùa em" khác với tổ hợp "anh và em", "anh vi em". Hư từ cùng
với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bàn
như nhau nhưng khác nhau về sác thái biểu cám. Ví dụ, so sánh các câu sau đây:
I' '■
17


..

V

v ~

-

C w _5b 0 0 0 0 3 0



■■


- Ong ấy không hút thuốc.
- Thuốc, ông ấy không hút.
- Thuốc, ỏng ấy cũng không hút.
Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụne phirơim thức ngừ diệu. Ngừ
điệu giữ vai trò trong việc biểu hiện quan hệ cú pháp cùa các yếu tố trong câu, nhờ đó
nhằm đưa ra nội dung muốn thông báo. Trên vãn bàn, ngừ điệu thường được biêu hiện
bằng dâu câu. Chúng ta thừ so sánh 2 câu sau để thay sự khác nhau trong nội dung
thông báo:
- Đêm hôm qua, cầu gãy.
- Đêm hôm, qua cầu gãy.

3.3.2. Ảnh hư ởn g trong phân loại văn bản
Độ chính xác của kết quà tách từ có ảnh hưởng rất lớn dến kết quà cùa phân
loại, không thể có một kết quà phàn loại tốt nếu như không tách được đúng các từ

trong văn bàn. Bời vậy, một vấn đề quan trọne đối với phân loại văn bàn là phải tách
được chính xác các từ trong văn bản. Các vãn bản dược viết hầng các ngôn ngừ khác
nhau thì có dặc trưng riêng cùa ngôn ngừ đó. và không có một phương pháp chung
nào đe tách các từ trong các văn bản được viết bằng các ngôn naữ khác nhau. Trong
luận văn này chúng tôi sử dụng lại kết quà tách từ (C. T. Nguyen et al, 2006).

3.4 Phương pháp phân loại Naïve Bayes
Naïve Bayes là phương pháp phân loại dựa vào xác suất được sử dụne rộne rãi
trong lĩnh vực máy học (Mitchell, 1996) (Joachims, 1997) (Jason, 2001 ) được sir dụng
lần đẩu tiên trong lĩnh vực phân loại hởi Maron vào năm 1961 (Maron, 1961) sau đó
trở nên phổ hiến dùng trong nhiều lĩnh vực như trong các công cụ tìm kiếm
(Rijsbergen etal, 1970), các bộ lọc mail (Sahami et al, 1998)...
Naïve Bayes sử dụng xác suất có điều kiện giữa từ và chủ đề để dự đoán xác
suất chủ đề cùa một vãn bản cần phân loại. Điểm quan trọng của phương pháp này
chính là ở chồ già định răng sự xuất hiện cùa tất cả các từ trong văn bản đều độc lập
với nhau. Như thế NB không tận dụng được sự phụ thuộc của nhiều từ vào một chủ đề
cụ thể Giả định đó làm cho việc tính toán NB hiệu quả và nhanh chóng hơn các
phương pháp khác với độ phức tạp theo số mũ vì nó không sử dụna việc kcp hợp các
từ dế dưa ra phán đoán chù đề

18


De xác ciịnh văn han d thuộc chủ đề i nào đó là việc tìm xác xuất P(C' jí/), tức
la chù đề nào có xác xuất lớn nhất đối với văn bàn d thi d thuộc chù đè đó.
Công thức tinh xác xuất đầy dù Bayes:

P {C U I)= w

n o

P(d)

Với P(d)=const do đó P(Ct \d) = P(d Ic, )P(C )

Thuật toán :
1. Tính xác xuất của mỗi từ worđt ịi- ỉ..m ) xuất hiện trong mồi chủ đề C'
2. Tính tổne số từ của mồi lớp c ,
3. Tính xác xuất của chù đè c , đối với văn bàn d theo công thức
4.

P(C] \d) = ụ \w o r d , I c )*P(wonlĩ \C l)*...* P(wonim I c,)) *(Tổng

số

từ

của chủ đề c . )/ (Tổng số từ của tất cả các chủ đe)
5. Nếu Pic Ií/ ) = argmax(P(C Id ) thì vãn bàn (/ thuộc lớp .V

3.5 Phương pháp phân loại Centroid- based vector
Là một phương pháp phàn loại dơn giàn, dễ cài đặt và tốc độ nhanh do có độ
phức tạp tuyến tính O(n) (Han, Karypis 2000) Mỗi lớp trong dữ liệu luyện sẽ dược
biểu diễn bởi một véc-tơ trợng tâm. Việc xác định lớp của một vãn bản thừ bất kì sỗ
thông qua viêc tìm véc-tơ trọng tâm nào gần với véc-tơ biểu diễn văn bản thử nhất.
Lớp cùa văn bàn thử chính là lớp mà véc-tơ trợng tâm đại diện. Khoảng cách được
tính theo độ do cosine.

Thuật toán.
1.


Tính trọng tâm c của lớp Ihứ /

2.

Tính dô tương dôna C

i

*

5

O

'

S

d*c
TT- 7 cùa moi văn bản (ỉ với trone tâm
|rf||cf|

c,
3.

Ncu cos{d,C\) - argmax(cos(f/,C )) thì vãn bản d thuộc lớp X

3.6 Phưcyng pháp phân loại k-Nearest Neighbor (kNN)
kNN là phưcmg pháp truyền thống khá nổi tiếng về lurớns tiếp cận dựa trên
thống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua (Dasarathy,

1991 ). kNN được đánh giá là một trong những phương pháp tốt nhất (áp dụng trên tập

19


dử liệu Reuters phiên bàn 21450), dược sứ dụniỉ từ những thời kỳ đầu cùa việc phân
loại văn bàn Marsand et al, 1992) (Yang, 1994) (Iwayama, Tokunaga, 1995)
Khi can phân loại một văn bản mới. thuật toán sẽ tính khoảng cách (khoảng
cách Euclide, Cosine ...) cùa tất cả các vãn bàn trong tập huấn luyện đến văn bàn này
để tìm ra k văn bàn gần nhất (gọi là k “láng giềng”), sau đỏ dùng các khoảng cách này
đánh trọn Sĩ số cho tất cả chù đề. Trọng số của một chù đề chính là tổng tất cá khoảng
cách ờ trên cùa các văn bàn trong k láng giềns có cùng chú đề, chủ đề nào không xuất
hiện trong k láng giềng sẽ có trọng số bằng 0. Sau đó các chủ dề sẽ được sấp xếp theo
mức độ trọng sổ giảm dần và các chủ đề cỏ trọng số cao sẽ được chọn là chủ đề của
vãn bàn cẩn phùn loại.

Thuật toán :
à* ả
'
'
1. Tính COSụ i.d ) - ; ■, , , của văn bàn li đôi với tât cá vãn bản d thuôc

M*kl
lớp ị với ỉ < j < n

2. Sắp xếp các giá trị cos(c/,í/ ) trong mỗi tập j theo thứ tự giảm dần
3. Lấy k = 5 là so lane giềng gần nhất
4. Tính tổng Sumd{j) =

1,1 œ s (d,dị) trong k vec tớ dầu tiền cùa tập j


5. Nếu sumd(x) = argm ax(suntj(j)) thì văn bản d thuộc lớp X

3.7

Phân loại văn bản bằng phương pháp Support Vector

Machines
Support Vector Machines phân loại văn bàn theo cơ sờ phân loại nhị phân, có
nghĩa là khi xét một loại vãn hàn nhất dịnh, thì việc phân loại một vãn bản sỗ là đưa ra
dự đoán văn bàn này có thuộc loại văn bản đang xét hay không. Vì SVM xuất phát từ
lý thuyết học thống kê, dựa trên nguyên tac tối thiểu hoá rủi ro cấu trúc.
Nên trước hết ta hãy xem xét một số ỉý thuyết học thống kê có liên quan.

3.7.1. Lý thuyết học thống kê

3.7.ỉ. 1. Chiều v c (Vapnik Chervonenkỉs dimension)
Xét các hàm fix): R-> {+1,-11' có 2"s cách để gán nhãn cho /ỉ, dicm. Nêu với
mỗi một cách gán nhãn ta đều có thể tim thấy một thành phần cùa tập hợp lf(x)} mà
nhận dạng chính xác cách gán nhăn này. Khi đỏ lập hợp của ns điểm được nói là bị
20


phá vỡ bời tập họp các hàm ff(x)}. Chiều v c cùa Ịtìx)! là số lớn nhất của các điểm dừ
liệu mà có the bị phá vỡ bới I1Ó.
Chiều v c của các siêu phẳng trong không gian R" là // + /. Ví dụ, chiều v c của
các dườne (hầng có hướtig trong không gian 2 chiều (R~) là 3.

1
1 •

1
0 !
i •
1

o / ' •
y
s



''

.

/


o /
//

/

o



-

o

^



o

/

°/

9

°

/ °
/
/
/
/ o

■ - ............................ ....................................



o

\ \•
\
\
N

o

/

..............

II

00

H

^

*

A S (X i,X ;

2 3

///«// 2. A'//n/ỉ /ìọa c/î/ew v c cùa tập các hàm ỈJ(x)} trong không
gian hai chiêu với 3 diêm dữ liệu
r\ị

Trên đây là ví dụ về chiều v c của không gian 2 chiều. Khi số điểm dừ liệu >3,
VI

dụ là 4, thì sổ cách gán nhãn (số hàm f(x)) sẽ không còn là 24 nữa.

21



V




° /

• \



.

/

o
N




o

\









✓'



- í

X
o
o

!•
1
o l
Ị•

°



-----

°

°

o





ì o

o


o

0

0

° \



• /
/

\
/
\
o



o


sy

o

lo

»

0

o

°

o

N\ o
N\ \ o

o

A 5' ( X 1 , X 2 , X 3 , X 4 ) =

o
o

•i





12 < 2 4 =

o

16

ỉlìn h 3. Minh họa cúc hàm ịf(x)ị trong không gian hai chiều với 4
điềm dữ liệu

3.7.1.2. Rủi ro của bài toán học phân loại cỏ giảm sát
Không gian đầu vào: X&R!'
Không gian dầu ra: Ke’ {-1,1}
Dữ liệu huấn luyện: S---{(xh y ị)...... (xns, y,JỈ
Hàm fs là ánh xạ từ tập X vào tập Y
fs

•'

X

Y

f s ■ X f—>y

Giả sứ mối liên quan giữa

X




V

được cho bởi phân bổ xác suất liên kết

p(x,y)-p(x).p(ỵ\x). Mục đích của bài toán học có íĩiám sát là tìm một hàm /j trong tập
hợp các hàm [fs i fs : X -> Y , và f\ được học trên tập dữ liệu huấn luyện S} để tối
th iể u .

# ( / ) = [

c ( j \ ( -V). y ) P { X, y ) d x d v

22


Trong dó:

R(ís)' là rúi ro toàn cục của f\(x).
c: là hàm thiệt hại (loss function), dùnc de do sự sai lệch cùa t](x)

so với V (y là giá trị quan sát thực tế của .v).
Có nhiều cách đề dịnh nghĩa hàm c , ví dụ ta có thể chọn hàm c như sau:

Mục đích cùa chủng ta là tìm một hàm, hoặc một

2 Ìá

thuyết /s, dựa trên dừ liệu


huân luyện có sần S-{(X/, V/J....... (x„y, V,JỈ sao cho rủi ro R là tối thiểu. Vì trong thực
tế. chúng ta không biết được phân bố thực sự P(x, y) nên chúng ta không thê biết được
tất cả các khả năng xảy ra của tập dữ liệu kiếm tra. Tuy nhiên, chúní» ta có thê tính
toán dược rủi ro thực nghiệm (Emprical Risk) dựa trên tập dừ liệu huấn luyện s.

3.7.1.3. Rủi ro thực nghiệm
CỈ10 s= {(x,, Vi), .... (xns, vns)}, và c là hàm thiệt hại cùa fjx ) thì rủi ro thực
nghiệm Rempơx) cùa hàm fs(x) trên tập dữ liệu huấn luyện

s dược

tinh như sau:

Tuy nhiên, việc tối thiểu rủi ro thực nghiệm khône phải là điều kiện tất yếu làm
cho rủi ro toàn cục tối thiếu. Chúng ta thấy rằng, trong trườn2. hợp fs (x j-y , V ( X ị , y\) €

s thì rủi ro thực nghiệm Rempiís) sè bang 0, mặc dù vậy. trường hợp nàv là không tone
quát. Vì hàm fs có thể đạt được rủi ro lối thiểu trên tập dữ liệu s (hiện tượng tài liệu
tốt, well-documented), nhưng có thể gây ra rủi ro lớn trong các tập dữ liệu khác. Hiện
tượng này

CÒI1

dược gọi là hiện tượng tràn lỗi (overfitting), nghĩa là giả thuyết

fs

chi


tốt với tập dừ liệu huấn luyện s (tối ưu cục bộ), nhưng không tốt với các tập dừ liệu
khác.

3.7.1.4. Nguyên tắc tối thiêu hoá rủi ro cấu trúc
Mặc dù, không trực tiếp tối thiểu dược rủi ro toàn cục, nhưng nếu chúng ta tìm
được một hàm t\ để có thê tối thiêu giới hạn Irẻn cùa rủi ro toàn cục. thì K(Jj cũns sè
là tối thiêu. Giới hạn trên cùa rùi ro toàn cục là:

23


×