Tải bản đầy đủ (.ppt) (25 trang)

Phân loại các trang web tiếng việt(naïve bayes classification)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (430.74 KB, 25 trang )

PHÂN LOẠI CÁC TRANG
WEB TIẾNG VIỆT(NAÏVE
BAYES CLASSIFICATION)
TS. Nguyễn Nhật Quang
Nhóm
1
NỘI DUNG CHÍNH
I. Tổng quan
1. Bài toán phân loại văn bản
2. ứng dựng
II. Giải thuật học máy
1. Giới thiệu
2. Định lý Bayes
III. Tập dữ liệu sử dụng
IV. Các kết quả thí nghiệm
1. Các phương pháp đánh giá hiệu năng học máy
2. Các kết quả
2
NỘI DUNG CHÍNH
V. Chức năng của hệ thống
VI. Cấu trúc mã nguồn của chương trình
VII. Các khó khăn gặp phải trong quá trình thực hiện công
việc và cách thức được dùng để giải quyết
VIII. Kết Luận
3
I. TỔNG QUAN
1. Bà toán phân loại văn bản

Phân loại văn bản được coi là quá trình phân loại một văn
bản bất kì vào một hay nhiều lớp cho trước:


Xây dựng tập dữ liệu huấn luyện (Training dataset). Bao gồm
tập văn bản và phân lớp tương ứng của chúng

Phân lớp cho những văn bản (chưa được phân loại). Sử dụng
bước đầu tiên.
Mục tiêu: nhằm xây dựng mô hình có khả năng gán nhãn cho
một văn bản bất kì với độ chính xác cao nhất có thể.
4
2. ỨNG DỤNG
-
Áp dụng vào bài toán phân loại hay lọc nội dung
-
Lọc nội dung: Văn bản được phân loại vào nhóm có ích
hay không có ích. Nhóm không có ích bị loại bỏ. VD:lọc
thư giác, lọc trang web phản động.
-
Xây dựng bộ phân lớp sau tìm kiếm. Định vị nội dung
thông tin cần tìm kiếm nhanh và dễ dàng.
5
II. GIẢI THUẬT HỌC MÁY
1. Giới thiệu Giải thuật Naïve Bayes
-
Là phương pháp phân loại dựa vào xác suất được sử dụng
rộng rãi trong lĩnh vực học máy
-
Được sử dụng phổ biến trong nhiều lĩnh vực tìm kiếm, các
bộ lọc email.
-
Giải thuật phân loại theo xác xuất đơn giản dựa trên lý thuyết
Bayes vơi các giả thiết độc lập.

-
Ưu điểm:

Dễ cài đặt

Áp dụng phổ biến trong thực tế

Nhanh, khá chính xác
-
Nhược điểm: các giả thiết độc lập, sẽ làm giảm độ chính xác
6
2. ĐỊNH LÝ BAYES
Công thức:

P(h): Xác xuất trước (tiên nghiệm) của giả thiết (phân loại) h.

P(D): Xác xuất trước (tiên nghiệm) của việc quan sát được dữ
liệu D.

P(D|h): Xác xuất (có điều kiện) của việc quan sát được dữ liệu D,
nếu giả thiết (phân loại) h là đúng.

P(h|D): Xác xuất (có điều kiện ) của giả thiết (phân loại) h là
đúng, nếu quan sát được dữ liệu D.
7
Phân loại Naïve Bayes trong bài toán
phân loại trang web
Biểu diễn bài toán phân loại:

Một tập học D_train, trong đó mỗi ví dụ học x được biểu diễn là

một vectơ n chiều: (x
1
, x
2
, …., x
n
). Các x
j
là các từ khóa được rút
ra làm đặc trưng.

Một tập xác định các nhãn lớp: C={c
1
, c
2
,…., c
m
}

Với một ví dụ mới z thì cần xác định xem z sẽ được phân vào lớp
nào.

Mục tiêu: Xác định phân lớp phù hợp nhất với z.
8
PHÂN LOẠI NAÏVE BAYES TRONG BÀI TOÁN
PHÂN LOẠI TRANG WEB

Vì xác xuất
Là như nhau đối với các phân lớp cần tìm nên:
Các thuộc tính là độc lập có điều kiện nên:

9
Phân loại văn bản bằng phương pháp
Naïve Bayes

Giai đoạn học

Từ tập các văn bản trong D_train(đã gắn nhãn lớp (d
k
,
Ci)), ta trích ra tập các từ khóa T = {t
j
} là các đặc trưng dùng
để biểu diễn văn bản

Gọi D_c
i
(thuộc D_train) là tập các văn bản trong D_train có
nhãn lớp c
i

Đối với mỗi phân lớp c
i
:

Tính giá trị xác xuất trước của phân lớp ci

Đối với mỗi từ khóa tj, tính xác xuất từ khóa tj xuất hiện đối với lớp ci theo công thức:
10
PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP
NAÏVE BAYES


Giai đoạn phân lớp cho một văn bản mới d:

Từ văn bản d, trích ra tập T_d gồm các từ khóa được định
nghĩa trong tập T

Giả sử rằng, xác xuất xuất hiện của từ khóa t
j
đối với phân
lớp c
i
là độc lập đối với vị trí của từ khóa đó trong văn bản.

Đối với mỗi phân lớp c
i
, ta tính giá trị likehood của văn bản d
đối với lớp c
i

Văn bản d sẽ được phân vào lớp C* có giá trị likehood lớn nhất

C* =
11
III. TẬP DỮ LIỆU SỬ DỤNG

Sử dụng 3 bộ dữ liệu để thực nghiệm. Cả 3 đều được lưu trữ
dưới dạng CSDL lưu trong MySQL với cấu trúc giống nhau.

Cấu trúc CSDL lưu trữ văn bản:
12

III. TẬP DỮ LIỆU SỬ DỤNG
13
III. TẬP DỮ LIỆU SỬ DỤNG
14
IV. CÁC KẾT QUẢ THÍ NGHIỆM
1. Đánh giá hiệu năng của hệ thống
P(Ci) = (Precision)
R(Ci) = (Recall)
Trong đó, :số lượng các ví dụ thuộc lớp Ci được phân loại
chính xác vào lớp Ci
là số lượng các ví dụ không thuộc lớp Ci bị phân loại nhầm
vào lớp Ci
số lượng các ví dụ thuộc lớp Ci bị phân loại nhầm vào các lớp
khác.
Độ đo F-measure
15
CÁC KẾT QUẢ THÍ NGHIỆM(TỪ TRÁI
QUA PHẢI 12, 10, 5 CỤM)
16
CÁC KẾT QUẢ THÍ NGHIỆM(TỪ TRÁI
QUA PHẢI 12, 10, 5 CỤM)
17
CÁC KẾT QUẢ THÍ NGHIỆM(TỪ TRÁI
QUA PHẢI 12, 10, 5 CỤM)
18
V. CHỨC NĂNG CHÍNH CỦA HỆ
THỐNG
19
TỪ DỪNG
20

VI. CẤU TRÚC MÃ NGUỒN CHƯƠNG
TRÌNH
21
CÁC KHÓ KHĂN GẶP PHẢI TRONG QUÁ
TRÌNH THỰC HIỆN CÔNG VIỆC VÀ CÁCH
THỨC ĐƯỢC DÙNG ĐỂ GIẢI QUYẾT

Việc phân chia dữ liệu D ban đầu ra thành 70% dữ liệu làm
tập train, 30% dữ liệu làm tập test sao cho D_train D_test =,
đầy đủ label như trong tập D.

=> Đã khắc phục: tự xây dựng chương chương trình thực
hiện việc phân chia. Chương trình được viết bằng PHP.

Chưa tìm được số lượng từ biểu diễn đặc trưng và số phần
trăm dữ liệu dùng để huấn luyện sao cho có được độ chính xác
cao nhất.

=> Thực hiện thực nghiệm với nhiều kịch bản khác nhau.

Với các bộ dữ liệu lớn và nhiều thể loại, độ chính xác lại
giảm đi.
22
KẾT LUẬN

Với bộ dữ liệu lớn hơn, gồm nhiều văn bản và số loại thể loại
hơn, độ chính xác đã bị giảm đi. Lý do một phần do số lượng văn
bản với mỗi thể thoại là chưa đều nhau, gây ra sự phân hoá

Ranh giới các thể loại là không rõ ràng, dễ nhầm lẫn


Đề xuất cải tiến: là thu thập nhiều dữ liệu và thể loại hơn, tăng
cường khả năng học cho hệ thống.

Ý tưởng: là xây dựng hệ thống học tự động: tự động thu thập dữ
liệu và học

Về mặt kỹ thuật: lưu trữ trong MySql. Điều này không thực sự
phù hợp với các bộ dữ liệu vừa và lớn, gây ảnh hưởng đến tốc độ
xử lý bài toán
23
KẾT LUẬN

Đề xuất của nhóm là sử dụng NoSQL (ví dụ MongoDB) để tăng tốc độ.

Nghiên cứu và tìm hiểu các thuật toán phân loại khác để áp dụng
linh hoạt, chính xác vào bài toán phân loại văn bản
24
THANK YOU FOR LISTENING
25

×