Tải bản đầy đủ (.ppt) (39 trang)

xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (306.16 KB, 39 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Đức Hồng

XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN
TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY
VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP
TỐI ƯU KÍCH THƯỚC DỮ LIỆU
Ngành: Cơng nghệ thơng tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Anh Cường


Nội dung trình bày
• Đặt vấn đề
• Các phương pháp học máy phân loại văn
bản
• Các phương pháp giảm chiều đặc trưng
• Kết quả thực nghiệm
• Kết luận


Đặt vấn đề





Giới thiệu


Ứng dụng
Mơ hình hóa bài tốn
Các vấn đề đặt ra trong luận văn


Đặt vấn đề
• Giới thiệu: Phân loại văn bản là nhiệm vụ học
có giám sát khi cho mợt sớ lớp văn bản đã được
xác định trước, yêu cầu gán nhãn cho các văn
bản mới vào một (hay một số) lớp văn bản thích
hợp dựa vào nội dung của các văn bản đó.
• Ứng dụng: Hệ thống phân loại văn bản được
ứng dụng trong các hệ thống như lọc thư rác
(mail spam), dịch máy, tóm tắt văn bản, tìm
kiếm,…


Mơ hình hóa bài tốn (tiếp)

- Biểu diễn văn bản:
Ví dụ:
• Cho văn bản D = “Khi tất cả đều nghĩ hai đội mạnh nhất

Đông Nam Á sắp sửa vào hai hiệp phụ thì bất ngờ cái đầu vàng của
Lê Cơng Vinh đội lên tích tắc mang về chiếc cúp AFF cho đội tuyển
Việt Nam...”

• Được phân đoạn như sau:

• D = “Khi tất_cả đều nghĩ hai đội mạnh nhất Đơng_Nam_Á


sắp_sửa vào hai hiệp_phụ thì bất_ngờ cái đầu vàng của
Lê_Cơng_Vinh đội lên tích_tắc mang về chiếc cúp_AFF cho
đội_tuyển Việt_Nam”

• Tập từ khóa (bộ từ điển): “Thể_thao, Bóng_đá,
Đội_tuyển, Đơng_Nam_Á, Cúp_AFF, Việt_Nam”

Văn bản D được biểu diễn bằng phương pháp tần suất là:
D = (0,0,1,1,1,1)


Mơ hình hóa bài tốn (tiếp)
- Biểu diễn bài tốn:
n
• Input space:
X = {x1 , x2 ,..., xn } ∈ R
• Output space: Y = {y1 ,y 2 ,...,y n } ∈{-1,+1}
• Tập dữ liệu huấn luyện: S = {(x1 ,y1 ),(x 2 ,y 2 ),...,(x n ,y n )}
• Hàm f là ánh xạ từ tập X vào tập Y

f: X→Y
• Giải bài tốn phân loại là tìm tối ưu hóa hàm f
• Lớp hàm f là lớp hàm tuyến tính.


Đặt vấn đề (tiếp)
• Các vấn đề đặt ra trong luận văn:
- Vấn đề về giảm chiều đặc trưng
- Sử dụng phương pháp học máy SVM



Các phương pháp học máy phân
loại văn bản
• Các phương pháp:
-

Bayes (Mitchell, 1996).
Cây quyết định (Fuhr et al, 1991).
Véc-tơ trọng tâm (Centroid- based vector) (Han và Karypis, 2000).
k-láng giềng gần nhất (Yang, 1994).
Mạng nơron (Wiener et al, 1995).
Support vector machines (Joachims, 1998).


Phân loại với SVM


Cho tập dữ liệu { ( xi , yi ) | i = 1,2,..., n, xi ∈ R , yi ∈{-1,+1} }.
n

Mặt siêu phẳng lề tối ưu

h(w, b)
Các mẫu dương
Các mẫu
âm

d (w, b, xi )


wxT + b = 0


Các mặt siêu phẳng có phương trình là
đó w là véctơ trọng số, b là độ dịch

, trong


Phân loại với SVM (tiếp)


Bộ phân loại SVM được định nghĩa:
f ( x) = sign(w T x + b)





f ( z ) = +1,if z ≤ 0
f ( z ) = −1,if z < 0

Trong đó
Nếu f(x)=+1 thì x thuộc về lớp dương (lĩnh vực được quan tâm)
Nếu f(x)=-1 thì x thuộc về lớp âm (các lĩnh vực khác)


Phân loại với SVM (tiếp)



Để xây dựng một mặt siêu phẳng lề tối ưu,chúng ta phải giải bài
toán quy hoạch toàn phương sau:

1 n n
max LD (α ) = − ∑∑αiα j yi y j K ( xi , x j )
α
2 i =1 j =1


Với các ràng buộc:

1
0 ≤ αi ≤
n
ns

∑α



j =1

j

i = 1, ..., n

yj = 0

Gọi α* là nghiệm của bài tốn, khi đó các hệ số của siêu phẳng là
n


w = ∑αi* yi xi
*

i =1

n
1
b =−
∑ ∑αi* yi K ( xi , xr )
2 s r|αr* >0 i =1
*



Trong đó: xr là support véc-tơ thỏa mãn: α r > 0
s: là tổng số các support véc-tơ của siêu phẳng tối ưu


Phân loại với SVM (tiếp)
• Các hàm nhân được sử dụng:

K ( xi , x j ) = xi .x j
- Hàm tuyến tính:
- Hàm đa thức (polynomial function): K ( xi , x j ) = ( xi .x j + 1) d
K ( xi , x j ) = exp( −γ ( xi − x j ) 2 ), γ ∈ R +
- Hàm RBF (radial basis function):


Dữ liệu văn

bản huấn luyện

Dữ liệu văn bản
kiểm thử

Xử lý dữ liệu văn
bản huấn luyện và
biểu diễn văn bản

Xử lý dữ liệu văn
bản kiểm thử và
biểu diễn văn bản

Ma trận Term-Doc
huấn luyện
Huấn luyện

Ma trận TermDoc kiểm thử
Phân loại

Kết quả phân
loại

Sơ đồ tổng quan Hệ thống phân loại văn bản tiếng Việt


Giảm chiều đặc trưng trong bài toán Phân loại
Dữ liệu huấn luyện

Dữ liệu kiểm thử


Dữ liệu văn bản
1

2

Xử lý và biểu
diễn
Ma trận Term-Doc ∈ R

i



r



mxn

Biến đổi giảm chiểu
(LSI, Centroid, Centroid
Orthogonal)

Ma trận Term-Doc ∈R qxn

mxn
mx1

1 2


i


r


qxn

Classification

qx1


Ma trận Term-Doc
• A= [ a1 ,...., an ] = [ A1 , A2 ,..., Ar ] ∈ R
Ni = Số văn bản trong lớp i, tổng số có r lớp
Véc-tơ trung bình cộng của lớp i (centroid)
Véc-tơ trung bình cộng hàng i của A (global centroid)

mxn



ci =

1
ni

∑a

j∈N

j

n

c = ∑ ai
i =1


Bài toán giảm chiều đặc trưng
mxn
Cho một ma trận term-doc A∈ ¡ , và số
nguyên k>0
Phép biến đổi giảm chiều là một phép biến
đổi tuyến tính GT ∈ ¡ kxmđể ánh xạ từng cột của
A trong không giam m chiều thành một véctơ trong không gian k chiều (k
G T : ai ∈ ¡

mx1

→ yi ∈ ¡

kx1

,1 ≤ i ≤ n

Đây là một bài toán xấp xỉ (approximation),
khi mà ma trận A được phân tích thành 2 ma

trận B và Y tức là:
A ≈ BY
với B ∈ ¡ mxk Y ∈ ¡ kxn
,


Bài tốn giảm chiều đặc
trưng (tiếp)
Để tìm được

B∈¡

mxk



Y ∈¡

kxn

Chúng ta phải giải bài toán:
min B ,Y A − BY

F

(*)

Để giải bài toán này luận văn đã sử dụng các
phương pháp LSI/SVD (Scott Deerwester et al., 1988),
Centroid (Park et al., 2003), Orthogonal Centroid

(Park et al., 2003), LDA/GSVD (Park et al., 2003).


Phương pháp LSI/SVD
LSI là ứng dụng của một kỹ thuật toán học đặc
biệt được gọi là Singular value decomposition
(SVD):
T
Amxn = U mxn S nxnVnxn

Ma trận xấp xỉ của A

Ak = U k S kVkT


(k
Do kpháp giảm chiều
Ma trận xấp xỉ là tốt nhất nếu ∆ =
nhất

A − Ak

2

là nhỏ


Phương pháp LSI/SVD

• Theo Bài tốn (*) chúng ta có: B = U k là ma
Y = SkV T là biểu
trận biến đổi giảm chiều và
diễn giảm chiều của ma trận A


Thuật tốn giảm chiều LSI/SVD
• Input: Cho ma trận A∈ ¡

mxn

và số nguyên k>0

T
1. Tính Ak = U k ∑ k Vk
T
2. Đặt ma trận Q bằng ∑ k Vk

• Output: Q


Phương pháp Centroid
• Phương pháp này dựa vào trọng tâm của k
lớp và bình phương tối thiểu:
• Trọng tâm của k lớp C = [ c1 , c2 ,..., ck ]
• Ma trân B trong Bài tốn (*) chính là C, để xác
định được Y chúng ta giải bài toán:
min Y CY − A

2



Thuật tốn giảm chiều Centroid
• Input: Cho ma trận
chun mục)

A∈ ¡

mxn

với k chủ đề (k

1. Tính trọng tâm ci của chủ đề thứ với
2. Đặt ma trận C = [ c1 , c2 ,..., ck ]
3. Tìm min Y CY − A

• Output: Y ∈ R

kxn

2


Phương pháp Orthogonal Centroid
• Phương pháp này cũng dựa vào trọng tâm của
k lớp và bình phương tối thiểu, nhưng từ ma
trận trọng tâm bằng cách phân tích QR
decomposition chúng ta tìm được ma trận trực
giao Q và QT sử dụng làm ma trận biến đổi
giảm chiều.



Thuật tốn giảm chiều Orthogonal
Centroid
• Input: Cho ma trận
chun mục)

A∈ ¡

mxn

với k chủ đề (k

1. Tính trọng tâm ci của chủ đề thứ với
2. Đặt ma trận C = [ c1 , c2 ,..., ck ]
3. Tính QR của C = Qk R
4. Y = QkT A

• Output: Y ∈ R

kxn


Phương pháp LDA/GSVD
• LDA tính tốn tối ưu hóa phép biến đổi bằng
cách cực tiểu hóa khoảng cách within-class và
cực đại hóa khoảng cách between-class nhằm
đạt được cực đại hóa phân tách các lớp (class
discrimination).
• Phép biến đổi tối ưu trong LDA được thực hiện

bằng phân tích giá trị riêng trên các ma trận phân
tách.


×