PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC MỜ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (534.83 KB, 32 trang )

ĐỀ TÀI: PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC
MỜ
Giảng viên hướng dẫn : TS. Nguyễn Thị Thu Hà
BÁO CÁO MÔN: MÁY HỌC
Sinh viên thực hiện : Phương Văn Cảnh
: Đỗ Anh Đức
: Trần Văn Hải
: Khổng Huy Thịnh
Hà Nội - 2012
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
TỔNG QUAN

Chương 1: Các hướng tiếp cận phân loại văn bản.

Chương 2: Các hướng tiếp cận tách từ.

Chương 3: Phân loại văn bản Tiếng Việt.

Chương 4: Sử dụng thuật toán Navie Bayes để phân loại văn bản.

Chương 5: Phân loại văn bản dựa vào thuật toán Logic Mờ.

Chương 6: Phân tích thiết kế hệ thống.

Chương 7: Kết luận
2
Các phương pháp phân loại văn bản:

Phương pháp SVM – Support Vector Machine.


Phương pháp K – Nearest Neighbor.

Phương pháp Naïve Bayes.

Phương pháp Linear Least Square Fit – LLSF.

Phương pháp Centroid – based vector.

Phương pháp Logic Mờ.
3
CHƯƠNG 1: CÁC HƯỚNG TIẾP CẬN PHÂN LOẠI VĂN BẢN
CHƯƠNG 2: CÁC HƯỚNG TIẾP CẬN TÁCH TỪ
2.1. Các hướng tiếp cận dựa trên từ:

Hướng tiếp cận dựa trên thống kê.

Hướng tiếp cận dựa trên từ điển.

Hướng tiếp cận theo Hybrid.
2.2. Các hướng tiếp cận dựa trên kí tự.
4
CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
3.1. Tách từ trong văn bản

Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC gồm:

Online Extractor : Lấy thông tin về tần số xuất hiện của các từ trong văn bản.

Sử dụng các công thức dưới đây để tính toán mức độ phụ thuộc lẫn nhau:
5

CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
3.1. Tách từ trong văn bản

Online Extractor:
6

Trong đó: MAX = 4 * 10
9
count(w): số lượng văn bản trên Internet được tìm thấy có chứa từ w hoặc cùng chứa w1 và
w2 đối với count(w1&w2).

Tính xác suất độ phụ thuộc của một từ lên một từ khác:
7

Thông tin phụ thuộc lẫn nhau của các từ ghép được cấu tạo bởi n tiếng ( cw = w
1
w
2
…w
n
)
CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
3.2. Phương pháp trích rút đặc trưng văn bản

Phương pháp truyền thống trích rút đặc trưng văn bản.

Phương pháp trích rút đặc trưng đề nghị sử dụng.
8
CHƯƠNG 3: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN

4.1. Lý do chọn Naïve Bayes:

Phân loại dựa vào xác suất.

Tính toán NB hiệu quả và nhanh chóng.

Cài đặt đơn giản, tốc độ thực hiện thuật toán nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và có tính
độc lập cao với tập huấn luyện.
9
4.2. Áp dụng cho bài toán phân loại văn bản

A. Huấn luyện: tính và

Công thức tính đã làm trơn Laplace

Trong đó:

|docs
i
|: số văn bản của tập huấn luyện thuộc phân lớp i.

|total docs|: số văn bản trong tập huấn luyện.

m: số phân lớp


10
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN

Công thức tính đã làm trơn Laplace:


Trong đó:

Số văn bản trong trong phân lớp i có đặc trưng thứ k mang giá trị x
k
. (hay số văn bản trong lớp i, có
xuất hiện/không xuất hiện đặc trưng k)

Số văn bản của tập huấn luyện thuộc phân lớp i.

Số giá trị có thể có của đặc trưng thứ k


11
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
B. Phân lớp:

Công thức tính xác suất thuộc phân lớp i khi biết trước mẫu X:
12
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
VÍ DỤ:
Docs Var Bit Class
Doc1 1 0 Math
Doc2 0 1 Comp
Doc3 1 1 Comp
Doc4 1 0 Math
Doc5 0 1 Math
Doc6 0 1 Comp
13
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN

14
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
Docs Var Bit Class
Doc1 1 0 Math
Doc2 0 1 Comp
Doc3 1 1 Comp
Doc4 1 0 Math
Doc5 0 1 Math
Doc6 0 1 Comp
15
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
Docs Var Bit Class
Doc1 1 0 Math
Doc2 0 1 Comp
Doc3 1 1 Comp
Doc4 1 0 Math
Doc5 0 1 Math
Doc6 0 1 Comp
16
=> Vậy văn bản mới thuộc lớp Math.
CHƯƠNG 4: SỬ DỤNG THUẬT TOÁN NAIVE BAYES ĐỂ PHÂN LOẠI VĂN BẢN
Doc
new
= (1,0)
CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ
5.1. Mô hình chung.
* Mô hình chung của các thuật toán gồm các phần :

Xây dựng tập từ điển.


Xây dựng tập các từ dừng (stopword).

Chọn lựa tập văn bản mẫu để huấn luyện.

Xây dựng các hàm để phân loại hoặc tóm tắt trên cơ sở ứng dụng công cụ logic mờ.
17
Huấn luyện:

Giá trị µ
R
(t
i
, c
j
) được tính bằng tổng số thuật ngữ t
i
trong loại c
j
chia cho tổng số tần suất t
i
trong tất cả
các loại. Tiến trình này được mô tả bằng công thức sau :
18
CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ
19
CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ
Văn bản
Thuật ngữ
Lĩnh vực
t

1
t
2
t
3
t
4
t
5
t
6
d
1
2 1 2    c
1
d
2
3 2    1 c
1
d
3
  1 2 3  c
2
d
4
   3 1 1 c
2
Ví dụ: Với văn bản trainning có số lượng từ thuật ngữ như sau:
Thuật ngữ
Lĩnh vực

c
1
c
2
t
1
5 0
t
2
3 0
t
3
2 1
t
4
0 5
t
5
0 4
t
6
1 1
Thuật ngữ
Lĩnh vực
c
1
c
2
t
1

1 0
t
2
1 0
t
3
0.67 0.33
t
4
0 1
t
5
0 1
t
6
0.5 0.5
Bảng thống kê Xác suất

Phân loại dựa trên độ đo tương tự mờ.
20
CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ

Tính: Độ đo tương tự mờ :

Trường hợp đặc biệt của độ đo tương tự mờ :
21
CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ

Trường hợp đặc biệt của độ đo tương tự mờ :
sim(d,c

j
) = Card[R(t,c
j
)]
Trong đó t∈d và m là số lượng các thuật ngữ riêng biệt trong văn bản d.


22
CHƯƠNG 5: PHÂN LOẠI VĂN BẢN DỰA VÀO THUẬT TOÁN LOGIC MỜ

Biểu đồ UserCase tổng quát hệ thống:
23
CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ

Biểu đồ hoạt động của UserCase huấn luyện:
24
CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ

Biểu đồ hoạt động của UserCase phân loại:
25
CHƯƠNG 6: PHÂN TÍCH THIẾT KẾ

PHÂN LOẠI VĂN BẢN SỬ DỤNG THUẬT TOÁN NAVIE BAYES VÀ LOGIC MỜ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về