Xử lý ngôn ngữ tự nhiên
Phân lớp văn bản – Phân loại website
Nhóm sinh viên thực hiện :
Đinh Quang Huy - 20081124
Nguyễn Hữu Hạnh - 20080903
Nguyễn Đức Yên - 20083244
Doãn Đình Việt - 20083124
Giáo viên hướng dẫn :
TS. Lê Thanh Hương
Nội dung
•
Tổng quan
•
Phương pháp giải quyết bài toán
•
Chương trình Demo
•
Kết luận
Tổng quan
•
Phân lớp văn bản được coi là quá trình phân
loại 1 văn bản bất kỳ vào một hay nhiều lớp
cho trước.
•
Quá trình này gồm 2 bước:
Xây dựng mô hình phân lớp
Sử dụng mô hình phân lớp trên để phân lớp cho
những văn bản (chưa được phân loại)
Tổng quan
•
Ứng dụng lớn nhất của bài toán phân lớp văn
bản là áp dụng vào bài toán phân loại hay lọc
nội dung. Các ứng dụng cụ thể như:
Lọc thư rác
Lọc trang web có nội dung phản động, không
lành mạnh,…
•
Một ứng dụng khác của bài toán phân lớp là
xây dựng bộ phân lớp sau tìm kiếm.
Phương pháp giải quyết bài toán
•
Phương pháp Naïve Bayes
Định lý Bayes
Phân loại Naïve Bayes
Phân loại Naïve Bayes – Giải thuật
Phân loại văn bản bằng phương pháp
Naïve Bayes
•
Áp dụng vào bài toán phân lớp website
Phương pháp Naïve Bayes
•
Định lý Bayes:
Phân loại Naïve Bayes
•
Biểu diễn bài toán phân loại:
Một tập học D_train, trong đó mỗi ví dụ học x
được biểu diễn là 1 vector n chiều (x1, x2,…, xn)
Một tập xác định các nhãn lớp: C = {c1, c2,…, cm}
Với 1 ví dụ mới z, ta cần xác định xem z sẽ được
phân loại vào lớp nào?
•
Mục tiêu: xác định phân lớp phù hợp nhất với
z
Phân loại Naïve Bayes
•
Vì xác suất P(z1, z2,…, zn) là như nhau
đối với các lớp nên ta cần tìm:
Phân loại Naïve Bayes
•
Lại có, trong phương pháp phân loại
Naïve Bayes, giả sử các thuộc tính là độc
lập có điều kiện đối với các lớp. Vậy:
Phân loại Naïve Bayes
•
Phân loại Naïve Bayes tìm phân lớp có
thể nhất đối với ví dụ mới z sẽ là:
Phân loại Naïve Bayes – giải thuật
•
Giai đoạn học: sử dụng 1 tập học D_train.
Đối với mỗi phân lớp có thể C, tính xác suất
trước P(ci)
Đối với mỗi giá trị thuộc tính xj, tính xác suất
xảy ra của giá trị thuộc tính đó với một phân
lớp ci P(xj | ci )
•
Phân loại Naïve Bayes – giải thuật
•
Giai đoạn phân lớp, với mỗi ví dụ mới:
Đối với mỗi phân lớp C, tính giá trị likehood:
Xác định phân lớp của z là có thể nhất:
•
Phân loại văn bản bằng phương pháp Naïve
Bayes
•
Biểu diễn bài toán phân loại văn bản:
Tập học D_train, trong đó mỗi ví dụ học là một biểu
diễn văn bản đã gắn với 1 nhãn lớp xác định: D =
{(dk, ci)}
Một tập các nhãn lớp xác định: C = {ci}
Phân loại văn bản bằng phương pháp Naïve
Bayes
•
Giai đoạn học:
Từ tập các văn bản trong D_train, ta trích ra tập
các từ khóa T= {ti}
Gọi D_ci ( D_train) là tập các văn bản trong
D_train có nhãn lớp là ci
Đối với mỗi phân lớp ci :
Tính giá trị xác suất trước của phân lớp ci
•
Phân loại văn bản bằng phương pháp Naïve
Bayes
•
Giai đoạn học:
Đối với mỗi phân lớp ci :
Đối với mỗi từ khóa tj, tính xác suất từ khóa tj xuất hiện đối
với lớp ci theo công thức:
Trong đó: n(dk, tj) là số lần xuất hiện từ khóa tj trong văn
bản dk
Phân loại văn bản bằng phương pháp Naïve
Bayes
•
Giai đoạn phân lớp cho 1 văn bản mới d:
Từ văn bản d, trích ra tập T_d gồm các từ khóa
được định nghĩa trong tập T (T_d T)
Giả sử rằng xác suất xuất hiện của từ khóa tj đối
với lớp ci là độc lập đối với vị trí của từ khóa đó
trong văn bản.
•
Phân loại văn bản bằng phương pháp Naïve
Bayes
•
Giai đoạn phân lớp cho 1 văn bản mới d:
Đối với mỗi phân lớp ci, ta tính giá trị likehood của
văn bản d đối với lớp ci theo công thức:
Văn bản d sẽ được phân vào lớp c* có giá trị
likehood lớn nhất:
Áp dụng vào bài toán phân loại website
Mô hình giải quyết bài toán
và còn hay hoặc không
không những không chỉ mà còn nếu
thì nên hễ tuy nhưng
bả lại giá vì bởi tại
do song dầu mặc dầu dù
dẫu dẫu cho chẳng lẽ làm như thế mà
bậy mà có điều hơn nữa huống hồ huống gì
huống nữa ngay cũng chính cả
Bảng danh sách các stop-word
STT Tên Nhãn Mô tả
1 Kinh tế nss Các nội dung liên quan đến thị trường, kinh doanh,…
2 Giáo dục edu Các nội dung liên quan đến giáo dục
3 Văn hóa, giải trí ent
Các nội dung liên quan đến nghệ thuật, âm nhạc, điện
ảnh.
4 Sức khỏe hel Các nội dung liên quan đến sức khỏe.
5 Chính trị, xã hội plt Các nội dung liên quan đến tình hình chính trị, xã hội,…
6 Khoa học sci Các nội dung liên quan đến khoa học.
7 Thể thao spt Các nội dung liên quan đến thể thao.
8 Công nhệ tec Các nội dung liên quan đến công nghệ.
Bảng các lớp tin tức
Chương trình demo
Any question?