Tải bản đầy đủ (.pptx) (22 trang)

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài phân lớp văn bản - phân loại website

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (308.23 KB, 22 trang )

Xử lý ngôn ngữ tự nhiên
Phân lớp văn bản – Phân loại website
Nhóm sinh viên thực hiện :
Đinh Quang Huy - 20081124
Nguyễn Hữu Hạnh - 20080903
Nguyễn Đức Yên - 20083244
Doãn Đình Việt - 20083124
Giáo viên hướng dẫn :
TS. Lê Thanh Hương
Nội dung

Tổng quan

Phương pháp giải quyết bài toán

Chương trình Demo

Kết luận
Tổng quan

Phân lớp văn bản được coi là quá trình phân
loại 1 văn bản bất kỳ vào một hay nhiều lớp
cho trước.

Quá trình này gồm 2 bước:

Xây dựng mô hình phân lớp

Sử dụng mô hình phân lớp trên để phân lớp cho
những văn bản (chưa được phân loại)
Tổng quan



Ứng dụng lớn nhất của bài toán phân lớp văn
bản là áp dụng vào bài toán phân loại hay lọc
nội dung. Các ứng dụng cụ thể như:

Lọc thư rác

Lọc trang web có nội dung phản động, không
lành mạnh,…

Một ứng dụng khác của bài toán phân lớp là
xây dựng bộ phân lớp sau tìm kiếm.
Phương pháp giải quyết bài toán

Phương pháp Naïve Bayes

Định lý Bayes

Phân loại Naïve Bayes

Phân loại Naïve Bayes – Giải thuật

Phân loại văn bản bằng phương pháp
Naïve Bayes

Áp dụng vào bài toán phân lớp website
Phương pháp Naïve Bayes

Định lý Bayes:
Phân loại Naïve Bayes


Biểu diễn bài toán phân loại:

Một tập học D_train, trong đó mỗi ví dụ học x
được biểu diễn là 1 vector n chiều (x1, x2,…, xn)

Một tập xác định các nhãn lớp: C = {c1, c2,…, cm}

Với 1 ví dụ mới z, ta cần xác định xem z sẽ được
phân loại vào lớp nào?

Mục tiêu: xác định phân lớp phù hợp nhất với
z
Phân loại Naïve Bayes

Vì xác suất P(z1, z2,…, zn) là như nhau
đối với các lớp nên ta cần tìm:
Phân loại Naïve Bayes

Lại có, trong phương pháp phân loại
Naïve Bayes, giả sử các thuộc tính là độc
lập có điều kiện đối với các lớp. Vậy:
Phân loại Naïve Bayes

Phân loại Naïve Bayes tìm phân lớp có
thể nhất đối với ví dụ mới z sẽ là:
Phân loại Naïve Bayes – giải thuật

Giai đoạn học: sử dụng 1 tập học D_train.


Đối với mỗi phân lớp có thể C, tính xác suất
trước P(ci)

Đối với mỗi giá trị thuộc tính xj, tính xác suất
xảy ra của giá trị thuộc tính đó với một phân
lớp ci P(xj | ci )


Phân loại Naïve Bayes – giải thuật

Giai đoạn phân lớp, với mỗi ví dụ mới:

Đối với mỗi phân lớp C, tính giá trị likehood:

Xác định phân lớp của z là có thể nhất:


Phân loại văn bản bằng phương pháp Naïve
Bayes

Biểu diễn bài toán phân loại văn bản:

Tập học D_train, trong đó mỗi ví dụ học là một biểu
diễn văn bản đã gắn với 1 nhãn lớp xác định: D =
{(dk, ci)}

Một tập các nhãn lớp xác định: C = {ci}
Phân loại văn bản bằng phương pháp Naïve
Bayes


Giai đoạn học:

Từ tập các văn bản trong D_train, ta trích ra tập
các từ khóa T= {ti}

Gọi D_ci ( D_train) là tập các văn bản trong
D_train có nhãn lớp là ci

Đối với mỗi phân lớp ci :

Tính giá trị xác suất trước của phân lớp ci


Phân loại văn bản bằng phương pháp Naïve
Bayes

Giai đoạn học:

Đối với mỗi phân lớp ci :

Đối với mỗi từ khóa tj, tính xác suất từ khóa tj xuất hiện đối
với lớp ci theo công thức:

Trong đó: n(dk, tj) là số lần xuất hiện từ khóa tj trong văn
bản dk
Phân loại văn bản bằng phương pháp Naïve
Bayes

Giai đoạn phân lớp cho 1 văn bản mới d:


Từ văn bản d, trích ra tập T_d gồm các từ khóa
được định nghĩa trong tập T (T_d T)

Giả sử rằng xác suất xuất hiện của từ khóa tj đối
với lớp ci là độc lập đối với vị trí của từ khóa đó
trong văn bản.


Phân loại văn bản bằng phương pháp Naïve
Bayes

Giai đoạn phân lớp cho 1 văn bản mới d:

Đối với mỗi phân lớp ci, ta tính giá trị likehood của
văn bản d đối với lớp ci theo công thức:

Văn bản d sẽ được phân vào lớp c* có giá trị
likehood lớn nhất:
Áp dụng vào bài toán phân loại website
Mô hình giải quyết bài toán
và còn hay hoặc không
không những không chỉ mà còn nếu
thì nên hễ tuy nhưng
bả lại giá vì bởi tại
do song dầu mặc dầu dù
dẫu dẫu cho chẳng lẽ làm như thế mà
bậy mà có điều hơn nữa huống hồ huống gì
huống nữa ngay cũng chính cả
Bảng danh sách các stop-word
STT Tên Nhãn Mô tả

1 Kinh tế nss Các nội dung liên quan đến thị trường, kinh doanh,…
2 Giáo dục edu Các nội dung liên quan đến giáo dục
3 Văn hóa, giải trí ent
Các nội dung liên quan đến nghệ thuật, âm nhạc, điện
ảnh.
4 Sức khỏe hel Các nội dung liên quan đến sức khỏe.
5 Chính trị, xã hội plt Các nội dung liên quan đến tình hình chính trị, xã hội,…
6 Khoa học sci Các nội dung liên quan đến khoa học.
7 Thể thao spt Các nội dung liên quan đến thể thao.
8 Công nhệ tec Các nội dung liên quan đến công nghệ.
Bảng các lớp tin tức
Chương trình demo
Any question?

×