Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.76 MB, 70 trang )

-i -

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
------------------

NGUYỄN THỊ THÙY DƢƠNG

NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ
ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.0101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học:

TS. NGUYỄN THỊ THU HÀ
THÁI NGUYÊN, NĂM 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-ii -

LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Những nội dung trong luận văn này là do tôi thực hiện dƣới sự trực
tiếp hƣớng dẫn của cô giáo TS. Nguyễn Thị Thu Hà.
2. Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng tên tác
giả, tên công trình, thời gian, địa điểm công bố.

3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi
xin chịu hoàn toàn trách nhiệm.
Tác giả luận văn

Nguyễn Thị Thùy Dƣơng

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-iii -

LỜI CẢM ƠN
Lời đầu tiên tôi xin đƣợc bày tỏ lòng biết ơn chân thành đến Ban Giám
Hiệu, các thầy giáo, cô giáo phòng Sau đại học trƣờng Đại học Công Nghệ
Thông Tin & Truyền Thông, các thầy giáo ở Viện Công Nghệ Thông Tin đã
giảng dạy và tạo mọi điều kiện cho tôi học tập, nghiên cứu và hoàn thành luận
văn này.
Đặc biệt, tôi xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến TS.
Nguyễn Thị Thu Hà, ngƣời đã tận tình hƣớng dẫn và giúp đỡ tôi trong suốt
quá trình học tập, nghiên cứu và hoàn thành luận văn.
Tôi chân thành cảm ơn các thầy cô Khoa Công nghệ thông tin, Trƣờng
Trung cấp nghề Phát Thanh Truyền Hình Thanh Hóa nơi tôi công tác đã tạo
điều kiện và hỗ trợ tôi trong suốt thời gian qua.
Tôi cũng xin chân thành cảm ơn ngƣời thân, bạn bè đã giúp đỡ và động
viên tôi trong suốt thời gian học tập cũng nhƣ trong thời gian thực hiện luận
văn.
Xin chân thành cảm ơn!
Thái Nguyên, ngày 20 tháng 08 năm 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-iv -

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................... i
LỜI CẢM ƠN .......................................................................................... iii
DANH SÁCH CÁC BẢNG ..................................................................... vi
Chƣơng 1: TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN ......................... 3
1.1. Giới thiệu bài toán phân loại văn bản tiếng Việt ........................................................ 3
1.1.1. Tổng quan bài toán phân loại văn bản ................................................................. 3
1.1.2. Mô hình hệ thống phân loại văn bản.................................................................... 4
1.1.3. Các khái niệm cơ bản trong phân loại văn bản .................................................... 5
1.2. Các nghiên cứu liên quan ............................................................................................ 9
1.2.1. Đánh giá phân loại văn bản................................................................................ 11
1.2.2. Lý thuyết Naive Bayes ....................................................................................... 11
1.2.3. Khái niệm ........................................................................................................... 12
1.3. Kết luận chƣơng 1 ..................................................................................................... 17

Chƣơng 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN
PHƢƠNG PHÁP NAIVE BAYES ................................................................. 18
2.1. Bộ phân loại Naive Bayes ......................................................................................... 18
2.2. Phân loại văn bản tiếng Việt ..................................................................................... 22
2.2.1. Ứng dụng Naive Bayes trong phân loại văn bản tiếng Việt .............................. 22
2.2.2. Rút trích đặc trƣng ............................................................................................. 25
2.2.3. Phân loại văn bản tiếng Việt dựa trên Naive Bayes.......................................... 39
2.3. Kết luận chƣơng 2 ..................................................................................................... 42

Chƣơng 3: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG
VIỆT DỰA TRÊN NAIVE BAYES ............................................................... 43
3.1. Mô hình tổng quát của hệ thống ............................................................................... 43
3.2. Xây dựng tập ngữ liệu............................................................................................... 44
3.2.1. Xây dựng tập dữ liệu.......................................................................................... 44
3.2.2. Tiền xử lý và chuẩn hóa dữ liệu......................................................................... 47
3.2.3. Xây dựng bộ từ điển danh từ ............................................................................. 48
3.3. Môi trƣờng cài đặt .................................................................................................... 50
3.3.1. Môi trƣờng cài đặt của hệ thống ........................................................................ 50
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-v -

3.3.2. Cấu trúc của chƣơng trình .................................................................................. 50
3.3.3. Giao diện chƣơng trình ...................................................................................... 51
3.4. Kết quả thực nghiệm ................................................................................................. 56
3.5. Kết luận chƣơng 3 ..................................................................................................... 57

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .............................................. 59
TÀI LIỆU THAM KHẢO....................................................................... 60

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-vi -

DANH SÁCH CÁC BẢNG

Bảng1.2. Đánh giá phân loại văn bản ..................................................... 11
Bảng 2.1. Các từ chủ đề trong tập mô tả của Andrews năm 2009.......... 30
Bảng 2.2. Danh sách một số chủ đề đã đƣợc xây dựng .......................... 41
Bảng 3.1. Các chức năng của chƣơng trình ............................................ 45
Bảng 3.2. Danh sách một số từ trong tập từ chủ đề. ............................... 49
Bảng 3.3. Độ triệu hồi khi thực hiện các truy vấn. ................................. 57

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-vii -

DANH SÁCH HÌNH VẼ
Hình 1.1. Quá trình học phân loại văn bản. .............................................. 4
Hình 1.2. Mô hình SVM ........................................................................... 8
Hình 2.1. Mô tả bƣớc xây dựng bộ phân lớp .......................................... 21
Hình 2.2. Trực quan hóa dữ liệu giảm chiều .......................................... 26
Hình 2.3. Danh sách một số từ dừng....................................................... 27
Hình 2.4. Chỉ số ngữ nghĩa ẩn ................................................................ 28
Hình 2.5. Mô tả việc sắp xếp một văn bản vào chủ đề phù hợp ............. 29
Hình 2.6. Mô tả một cách suy diễn chủ đề dựa trên các thuật ngữ ......... 30
Hình 2.7. Mô hình chủ đề dựa trên mạng Bayesian ............................... 33
Hình 2.8. Mô hình chủ đề dựa trên HMM .............................................. 34
Hình 2.9. Quy trình phân loại văn bản tiếng Việt. .................................. 36
Hình 2.10. Mô hình chủ đề dựa trên xác suất ......................................... 37
Hình 2.11. Thuật toán xây dựng mô hình chủ đề. .................................. 39
Hình 3.1. Sơ đồ chức năng hệ thống xử lý văn bản tiếng Việt ............... 43
Hình 3.2. Biểu đồ Use case tổng quát ..................................................... 44
Hình 3.2 Văn bản đã chuẩn hóa. ............................................................. 48

Hình 3.3. Hệ thống VLSP. ...................................................................... 49
Hình 3.4. Giao diệntrang chủ .................................................................. 51
Hình 3.5. Giao diện các thể loại tin ........................................................ 52
Hình 3.6. Giao diện tin huấn luyện ......................................................... 52
Hình 3.7. Giao diện danh sách từ khóa ................................................... 53
Hình 3.8. Giao diện cài đặt huấn luyện ................................................... 54
Hình 3.9. Giao diện huấn luyện phân loại .............................................. 55
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-viii -

Hình 3.10. Giao diện danh sách tin tức ................................................... 55
Hình 3.11. Giao diện ngƣời dùng ........................................................... 56

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-ix -

DANH SÁCH CÁC CHỮ VIẾT TẮT
Viết tắt
k- NN

Tiếng Anh
k- Nearest Neighbor

Tiếng Việt

k-Láng giềng gần nhất

SVM

Support Vector Machine

Máy véc tơ hỗ trợ

RSS

Really Simple Syndication

Định dạng tập tin

ML

Machine Languages

Ngôn ngữ máy

LSI

Latent Sematic Indexing

Chỉ số ngữ nghĩa ẩn

SVD

Singular Value Decomposition Phân tích giá trị đơn
sffDđsadfsdầdsafdsaDecomposD

ecompositio

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-1 -

MỞ ĐẦU
1. Lý do chọn đề tài
Với lƣợng thông tin đồ sộ, một yêu cầu lớn đặt ra đối với chúng ta là
làm sao tổ chức và tìm kiếm thông tin có hiệu quả nhất. Phân loại thông tin là
một trong những giải pháp hợp lý cho yêu cầu trên. Nhƣng một thực tế là khối
lƣợng thông tin quá lớn, việc phân loại dữ liệu thủ công là điều không tƣởng.
Hƣớng giải quyết là một chƣơng trình máy tính tự động phân loại các thông
tin trên.
Đề tài “Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại
văn bản Tiếng Việt” nhằm tìm hiểu và thử nghiệm các phƣơng pháp phân loại
văn bản áp dụng trên tiếng Việt. Phân loại văn bản (Text classification) là một
trong những công cụ khai phá dữ liệu dạng văn bản một cách hữu hiệu, làm
nhiệm vụ đƣa những văn bản có cùng nội dung chủ đề giống nhau về cùng
một lớp có sẵn. Phân loại văn bản giúp ngƣời dùng dễ dàng hơn trong việc
tìm kiếm thông tin cần thiết đồng thời có thể lƣu trữ các thông tin theo đúng
chủ đề (topic) hay lớp (class) dựa trên các thuật toán phân loại.
2. Đối tƣợng và phạm vi nghiên cứu: Tìm hiểu lý thuyết Naive Bayes và
ứng dụng trong phân loại văn bản tiếng Việt.
3. Những nội dung nghiên cứu chính
 Chƣơng 1: Tổng quan về phân loại văn bản
Tổng quan về phân loại văn bản và khái niệm cơ bản về lý thuyết Naive
Bayes, bộ phân loại Naive Bayes trên mô hình xác suất.

 Chƣơng 2: Phân loại văn bản tiếng Việt dựa trên phƣơng pháp Naive
Bayes
Trình bày phương pháp phân loại văn bản tiếng Việt dựa trên phân loại
Naive Bayes và cách giảm chiều đặc trưng nhằm tăng tốc trong quá trình tính
toán xử lý bằng cách sử dụng mô hình chủ đề dùng cho tiếng Việt.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-2 -

 Chƣơng 3: Phát triển hệ thống phân loại văn bản Tiếng Việt
Trình bày chi tiết từ phân tích thiết kế của hệ thống và các giao diện
của hệ thống.
4. Phƣơng pháp nghiên cứu
- Tổng hợp các thông tin liên quan, lựa chọn các cách tiếp cận đã đƣợc
áp dụng
thành công, tiến hành cài đặt thử nghiệm, đánh giá kết quả.
- Các tƣ liệu và thông tin liên quan chủ yếu đƣợc thu thập, tổng hợp từ
các nguồn: Các tạp chí khoa học chuyên ngành trong và ngoài nƣớc,
Internet,..Trao đổi với thầy hƣớng dẫn và các đồng nghiệp cùng lĩnh vực
nghiên cứu.
5. Ý nghĩa khoa học của đề tài
Ý nghĩa luận văn nhằm giải quyết một số vấn đề chính nhằm nâng cao
hiệu năng của hệ thống phân loại văn bản tiếng Việt tự động:
- Phƣơng pháp phân loại văn bản tiếng Việt tự động có kết hợp với
giảm chiều nhằm giảm đi độ phức tạp tính toán đồng thời tăng độ chính xác
của phƣơng pháp đã đề xuất.
- Có ý nghĩa thực tiễn cao trong cuộc sống, hệ thống thực nghiệm đƣợc
xây dựng dựa trên phƣơng pháp đề xuất mang lại tính ứng dụng hỗ trợ ngày

một tốt hơn cho ngƣời dùng trên Internet.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-3 -

Chƣơng 1: TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN
Trong chƣơng này, luận văn trình bày các khái niệm cơ bản về phân
loại văn bản tự động, mô hình của hệ thống phân loại văn bản tự động, từ đó
giới thiệu một số các phƣơng pháp nghiên cứu liên quan dựa trên cách tiếp
cận học máy và một số phƣơng pháp đánh giá hiệu năng của hệ thống phân
loại văn bản tự động.

1.1. Giới thiệu bài toán phân loại văn bản tiếng Việt
1.1.1. Tổng quan bài toán phân loại văn bản
Các nghiên cứu về khai phá dữ liệu dạng văn bản đang đƣợc quan tâm
hơn trong thời gian gần đây vì số lƣợng các tài liệu điện tử tăng nhanh chóng
từ nhiều nguồn khác nhau. Không kể tới những văn bản có cấu trúc, số lƣợng
các văn bản không cấu trúc và cấu trúc cũng tăng lên quá lớn. Mục đích chính
của việc khai phá dữ liệu văn bản là cho phép ngƣời dùng trích xuất thông tin
của các nguồn văn bản và sử dụng chúng thông qua các công cụ nhƣ: tra cứu,
hỏi đáp, phân loại và tóm tắt sử dụng ngôn ngữ tự nhiên.
Phân loại văn bản là một trong những phần quan trọng của việc khai
phá dữ liệu văn bản, khá nhiều các hệ thống phân loại văn bản sử dụng kỹ
thuật dựa trên tri thức (knowledge based) hoặc dựa trên các luật đƣợc xây
dựng sẵn để tạo thành một tập hợp các quy tắc logic để hiểu và phân loại văn
bản. Mỗi loại (hay còn gọi là lớp –class) tƣơng đƣơng với một chủ đề ví dụ
“thể thao”, “chính trị” hay “nghệ thuật”. Nhiệm vụ phân loại đƣợc bắt đầu

xây dựng từ một tập các văn bản D = {d1,d2,..,dn} đƣợc gọi là tập huấn luyện
và trong đó các tài liệu di đƣợc gán nhãn cj với cjthuộc tập các chủ đề
C={c1,c2,...,cm}. Nhiệm vụ tiếp theo đó là xác định đƣợc mô hình phân loại
mà có thể gán đúng lớp để một tài liệu dk bất kỳ có thể phân loại chính xác
vào một trong những chủ đề của tập chủ đề C [4].
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-4 -

Khái niệm [Phân loại văn bản]: Phân loại văn bản là nhiệm vụ gán một
văn bản dj vào một chủ đề ck thích hợp thuộc tập chủ đề C = {c1,c2,...,cm}theo
đúng nội dung của văn bản đó.
1.1.2. Mô hình hệ thống phân loại văn bản
Mô hình bài toán phân loại văn bản đƣợc mô tả nhƣ hình sau:
Huấn luyện
Nhãn
Thuật
toán
học

Tập
văn
bản

Trích chọn
đặc trưng

Văn

bản

Trích chọn
đặc trưng

Bộ
phân
loại

Nhãn

Phân loại

Hình 1.1. Quá trình học phân loại văn bản.
Một quy trình xử lý phân loại văn bản bao gồm 2 pha chính: Pha huấn
luyện và pha phân loại.
- Pha huấn luyện: Các văn bản đầu vào đƣợc gán nhãn và đƣợc trích
chọn đặc trƣng để nhận dạng và sử dụng thuật toán học để lƣu trữ lại các giá
trị của đặc trƣng theo một mô hình chuẩn.
- Pha phân loại: Văn bản đầu vào đƣợc trích rút thành các đặc trƣng và
dựa trên mô hình chuẩn đã đƣợc học để phân theo đúng nhãn.
Đối với những bài toán xử lý phân loại các đối tƣợng, việc quan trọng
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-5 -

là xác định đặc trƣng bởi hầu hết trong những bài toán này, số chiều đặc trƣng
dƣờng nhƣ là khá lớn, bởi thế, các đề xuất trƣớc đây [5] sẽ gặp phải những

khó khăn sau:
- Thời gian tính toán lớn (do số chiều đặc trƣng cao)
- Độ chính xác cũng nhƣ hiệu năng của hệ thống bị hạn chế.
1.1.3. Các khái niệm cơ bản trong phân loại văn bản
1.1.3.1. Tập văn bản huấn luyện (Training documents set)
Tập văn bản huấn luyện là một tập hợp các dữ liệu đƣợc sử dụng trong
các quá trình tìm kiếm những quan hệ, các luật để dùng cho dự đoán hoặc dự
báo sau này.
1.1.3.2. Tiền xử lý (Preprocessing)
Tiền xử lý là một bƣớc quan trọng trƣớc khi nhận diện văn bản hoặc
thực hiện việc gán nhãn cho tập văn bản huấn luyện. Đầu tiên cần biểu diễn
văn bản dƣới dạng các từ (word) rõ ràng. Các văn bản đƣợc chuẩn bị thực
hiện phân loại thƣờng có số chiều đặc trƣng là khá lớn. Thông thƣờng, các
bƣớc tiền xử lý bao gồm:
Tokenization: Văn bản đƣợc coi nhƣ là một chuỗi, do đó cần phân chia
thành danh sách các tokens (token ở đây có thể là ký tự, từ,...)
Loại bỏ các từ dừng: Loại bỏ các từ dừng đƣợc coi nhƣ là một bƣớc
giúp lọc bỏ các nhiễu, giúp hạn chế các sai số trong quá trình tính toán và
cũng giảm bớt đƣợc số chiều của đặc trƣng. Các từ dừng nhƣ “và”, “thôi”,
“này”.
1.1.3.3. Đánh chỉ số (Indexing)
Biểu diễn văn bản là một trong những kỹ thuật tiền xử lý, nó đƣợc sử
dụng để giảm độ phức tạp của văn bản và dễ dàng trong lƣu trữ và xử lý, văn
bản có thể biến đổi từ dạng chữ đầy đủ thành một véc tơ văn bản. Thông

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-6 -

thƣờng nhất sử dụng mô hình véc tơ không gian. Các văn bản đƣợc biểu diễn
bằng các véc tơ từ. Ví dụ nhƣ ma trận trọng số sau:
T1

T2

...

Tαt ci

D1

w11 w21

...

wt1 c1

D2

w12 w22

...

wt2 c2

Dn

w1n w2n

...

wtn cn

Trong đó mỗi một phần tử biểu diễn tần suất xuất hiện của tử trong văn
bản và wtn là trọng số của từ i trong văn bản n. Có rất nhiều cách để xác định
các trọng số w trong ma trận trên, có thể sử dụng phƣơng pháp trọng số
Boolean, trọng số tần xuất từ, mô hình tf-idf, entropy,...[3]
1.1.3.4 Trích chọn đặc trưng (Feature selection)
Sau khi tiền xử lý và đánh chỉ số, bƣớc quan trọng tiếp theo của phân
loại văn bản là trích chọn đặc trƣng để xây dựng véc tơ không gian, để làm
tăng chất lƣợng, độ chính xác của phân loại văn bản. Ý tƣởng chính của trích
chọn đặc trƣng là lựa chọn ra tập các đặc trƣng từ trong văn bản gốc. Trích
chọn đặc trƣng đƣợc thực hiện bằng cách giữ lại các từ có chỉ số cao theo một
độ đo đã đƣợc xác định trƣớc. Bởi bài toán phân loại văn bản thƣờng là những
bài toán có số chiều đặc trƣng cao. Một số các độ đo đánh giá đặc trƣng theo
độ lợi ích thông tin (information gain), tần suất từ (term frequency), độ tƣơng
hỗ thông tin (mutual information)...
1.1.3.5. Kỹ thuật phân loại
Phân loại văn bản tự động sử dụng một số các kỹ thuật để phân loại: kỹ
thuật học giám sát, kỹ thuật học không giám sát và kỹ thuật học bán giám sát.
Một số các phƣơng pháp phân loại chính nhƣ: Phân loại Bayes (Naive Bayes
Classification), cây quyết định (Decision tree),k - NN.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-7 -

Phƣơng pháp k-NN [6] là phƣơng pháp truyền thống khá nổi tiếng theo
hƣớng tiếp cận thống kê đã đƣợc nghiên cứu trong nhiều năm qua. k - NN
đƣợc đánh giá là một trong những phƣơng pháp tốt nhất đƣợc sử dụng từ
những thời kỳ đầu trong nghiên cứu về phân loại văn bản.
Ý tƣởng của phƣơng pháp này đó là khi cần phân loại một văn bản mới,
thuật toán sẽ xác định khoảng cách (có thể áp dụng các công thức về khoảng
cách nhƣ Ơclit, Cô sin, Manhattan, …) của tất cả các văn bản trong tập huấn
luyện đến văn bản này để tìm ra k văn bản gần nhất, gọi là k – NN, sau đó
dùng các khoảng cách này đánh trọng số cho tất cả các chủ đề. Khi đó, trọng
số của một chủ đề chính là tổng tất cả các khoảng cách ở trên của các văn bản
trong k láng giềng có cùng chủ đề, chủ đề nào không xuất hiện trong k láng
giềng sẽ có trọng số bằng 0. Sau đó các chủ đề sẽ đƣợc sắp xếp theo giá trị
trọng số giảm dần và các chủ đề có trọng số cao sẽ đƣợc chọn làm chủ đề của
văn bản cần phân loại.
Trọng số của chủ đề cj đối với văn bản x đƣợc tính nhƣ sau:
𝑤(𝑥, 𝑐𝑗 ) =

𝑑 𝑖 ∈ 𝑘𝑁𝑁

sin(𝑥 , 𝑑𝑖 ) . 𝑦 𝑑𝑖 , 𝑐𝑗 - 𝑏𝑗

Trong đó: y (di, c) thuộc {0,1}, với:
+ y = 0 : văn bản di không thuộc về chủ đề cj
+ y = 1 : văn bản di thuộc về chủ đề cj sim (x , d) : độ giống nhau giữa
văn bản cần phân loại x và văn bản d. Chúng ta có thể sử dụng độ đo Cô sin
để tính khoảng cách:
sin( 𝑥, 𝑑𝑖 ) = cos ( 𝑥 , 𝑑𝑖 ) =

𝑥.𝑑 𝑖

𝑥 . 𝑑𝑖

si học sử dụng một
+ bj là ngƣỡng phân loại của chủ đề cj đƣợc tự động

tập văn bản hợp lệ đƣợc chọn ra từ tập huấn luyện.
Để chọn đƣợc tham số k tốt nhất cho thao tác phân loại, thuật toán cần
đƣợc chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-8 -

thuật toán càng ổn định và sai sót càng thấp.
- Máy véc tơ hỗ trợ (SVM).
Máy sử dụng véc tơ hỗ trợ (SVM) [1], [7] đƣợc Cortess và Vapnik giới
thiệu năm 1995, là phƣơng pháp tiếp cận phân lớp hiệu quả để giải quyết vấn
đề nhận dạng mẫu 2 lớp sử dụng nguyên lý Cực tiểu hóa Rủi ro có Cấu trúc
(Structural Risk Minimization).
Trong không gian véc tơ cho trƣớc một tập huấn luyện đƣợc biểu diễn
trong đó mỗi tài liệu là một điểm, thuật toán SVM sẽ tìm ra một siêu mặt
phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành
hai lớp riêng biệt tƣơng ứng lớp “+” và lớp “–“. Chất lƣợng của siêu mặt
phẳng phân cách này đƣợc quyết định bởi khoảng cách (gọi là biên) của điểm
dữ liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách biên càng lớn
thì mặt phẳng quyết định càng tốt và việc phân lớp càng chính xác. Mục đích
thuật toán SVM là tìm đƣợc khoảng cách biên lớn nhất.
Hình sau minh họa cho thuật toán này:
+

+
+
+
+

+
+

+

+

h

+

-

-

-

-

-

-

Hình 1.2. Mô hình SVM
Công thức

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-9 -



Phƣơng trình siêu mặt phẳng chứa véc tơ d i trong không gian:




di . w  b  0
Đặt
+ 1, khi (𝑑𝑖 . 𝑤 + 𝑏) > 0

𝑕 𝑑𝑖 = 𝑠𝑖𝑔𝑛(𝑑𝑖 . 𝑤 + b) =

− 1, khi (𝑑𝑖 . 𝑤 + 𝑏) < 0




Từ đó h(di ) biểu diễn sự phân lớp của d i vào 2 lớp nói trên




Có yi  {  1} thì với yi= +1, văn bản d i  “+”;với yi= -1, văn bản d i 
“-”.Lúc này muốn có siêu mặt phẳng h, ta sẽ giải bài toán sau:
min 𝑤𝑖 ,

Tìm



trong



đó w i

và

b

thỏa

mãn

điều

kiện:



i 1, n : y i (sin g (di .w  b))  1

Khi đó ta có thể sử dụng toán tử Lagrange biến đổi thành dạng thức để
giải bài toán. Ở phƣơng pháp SVM, mặt phẳng quyết định chỉ phụ thuộc vào
các điểm gần nó nhất (véc tơ hỗ trợ - support véc tơ) mà có khoảng cách đến
nó là:

1


. Khi các điểm khác bị xóa đi thì vẫn không ảnh hƣởng đến kết

|| w ||

quả ban đầu.

1.2. Các nghiên cứu liên quan
Các nghiên cứu về phân loại văn bản tập trung vào việc áp dụng các
phƣơng pháp học giám sát, sử dụng các kho dữ liệu lớn là tập các văn bản
đƣợc phân loại theo các chủ đề khác nhau nhƣ phƣơng pháp Naive Bayes
(McCalum, 1998; Ko, 2000), Phƣơng pháp k - NN (Yang, 2002), và Rocchio
(Lewis, 1996).
Đối với phân loại bằng mạng nơ ron, mô hình đơn giản nhất đƣợc đề
xuất bởi Dagan và các cộng sự (1997) và Ng (1997) là perceptron. Một mô
hình đơn giản khác là mạng nơ ron tuyến tính bổ sung một kiểu hồi quy logic
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-10 -

đƣợc đề xuất bởi Schutze và các cộng sự vào năm 1995 mang lại hiệu quả

tƣơng đối cao.
Một mô hình nơ ron không tuyến tính nhiều lớp sử dụng trong phân
loại văn bản đƣợc đề xuất bởi Lam và Lee vào năm 1999 thay thế cho mô
hình một nơ ron tuyến tính đơn giản, tiếp theo đó một loạt các mô hình mạng
nơ ron nhiều lớp đƣợc đề xuất nhƣ Ruiz và Srinivasan (1999), Weigend
(1999); Yang and Liu (1999). Trong mô hình nhiều lớp này có thể thể hiện
đƣợc sự tƣơng tác giữa các thuật ngữ và có khả năng học tốt hơn [9].
Các nghiên cứu về tiếng Việt mới đƣợc phát triển từ những năm 2004 2005, do đó các công bố về phân loại văn bản tiếng Việt còn ít so với tiếng
Anh. Mặt khác, các kho dữ liệu và các công cụ phục vụ cho nghiên cứu tiếng
Việt còn thiếu hoặc hiệu quả chƣa cao, một số các nghiên cứu đều dừng lại ở
mức tìm hiểu, đề xuất phƣơng pháp mà chƣa xây dựng hệ thống hoàn chỉnh.
Các kho dữ liệu chƣa thống nhất và tự do các nhóm nghiên cứu tự xây dựng
phục vụ cho nghiên cứu của mình. Chƣa thành lập đƣợc các chuẩn đánh giá
hiệu năng cho các hệ thống phân loại văn bản.
Một số các nghiên cứu phân loại tiếng Việt tập trung vào ứng dụng các
phƣơng pháp máy học hoặc áp dụng các phƣơng pháp đã đƣợc đề xuất hiệu
quả cho tiếng Anh nhƣ Phân loại văn bản do nhóm tác giả Phạm Nguyên
Khang, Đỗ Thanh Nghị, Francois Poulet đề xuất. Phân loại văn bản tiếng Việt
dựa trên tập thô do nhóm tác giả Đỗ Phúc và các cộng sự đề xuất (2004).
Phân loại văn bản Tiếng Việt bằng phƣơng pháp Support véc tơ Machines
(Nguyễn Kim Ngân). Phân loại văn bản dựa trên mô hình xác suất Bayes và
áp dụng cho tiếng Việt (Nguyễn Tuấn, Anh, 2003), Phƣơng pháp “A
comparative study for Vietnamese text classification” (Hoang Cong Duy Vu,
Nguyen Le Nguyen, Ngo Quoc Hung, Dinh Dien, 2007), hoặc mô hình tần
suất (Tu Anh Hoang Nguyen, 2009)…
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-11 -

1.2.1. Đánh giá phân loại văn bản
Cách đánh giá phân loại văn bản tập trung vào đánh giá thực nghiệm
chứ không sử dụng cách đánh giá dựa trên phân tích lý thuyết. Các đánh giá
thực nghiệm của phân loại văn bản sử dụng độ đo chính xác (precision) và độ
hồi tƣởng (recall)
Microaveraging
Độ đo chính xác ()

=
=

Độ hồi tƣởng ()

|𝑐|
𝑖=1 𝑇𝑃 𝑖

|𝑐|
𝑖=1 𝑇𝑃 𝑖

+ 𝐹𝑃 𝑖

|𝑐|
𝑖=1 𝑇𝑃 𝑖

|𝑐|
𝑖=1 𝑇𝑃 𝑖

+ 𝐹𝑁 𝑖

Macroaveraging
=
=

|𝑐|
𝑖=1 𝑖

|𝑐|
|𝑐|
𝑖=1 𝑖

|𝑐|

=

𝑇𝑃 𝑖
|𝑐|
𝑖=1𝑇𝑃 + 𝐹𝑃
𝑖
𝑖

=

|𝑐|
𝑇𝑃 𝑖
|𝑐|
𝑖=1𝑇𝑃 + 𝐹𝑃
𝑖
𝑖

|𝑐|

Bảng1.2. Đánh giá phân loại văn bản
Trong đó:
Trung bình hóa có độ chính xác và thu hồi trên các loại khác nhau; TPi,
TNi, FPi và FNitham khảo các bộ tích cực đúng, âm đúng, sai tích cực, sai tiêu
cực và wrt ci, tƣơng ứng
1.2.2. Lý thuyết Naive Bayes
Trong học máy, phân loại Naive Bayes là một thành viên trong nhóm
các phân loại có xác suất dựa trên việc áp dụng định lý Bayes khai thác mạnh
giả định độc lập giữa các hàm, hay đặc trƣng.
Mô hình Naive Bayes cũng đƣợc biết đến với nhiều tên khác nhau ví
dụ: Simple Bayes hay independence Bayes hay phân loại Bayes.
Naive Bayes đã đƣợc nghiên cứu rộng rãi từ những năm 1950. Nó đƣợc
giới thiệu vào đầu những năm 1960 đầu tiên ứng dụng trong phân loại văn
bản, các vấn đề của việc đánh giá các tài liệu thuộc về một thể loại hay khác
(chẳng hạn nhƣ thƣ rác hoặc hợp pháp, thể thao, chính trị, v.v..) với tần số từ
nhƣ các đặc trƣng. Với tiền xử lý thích hợp, đó là cạnh tranh trong lĩnh vực

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-12 -

này với nhiều phƣơng pháp tiên tiến bao gồm cả máy véc tơ hỗ trợ. Nó cũng
tìm thấy ứng dụng trong chẩn đoán tự động.
Phân loại Naive Bayes đƣợc đánh giá cao khả năng mở rộng, đòi hỏi
một số thông số tuyến tính trong số lƣợng các biến (các tính năng/tố dự báo)
trong nhiều lĩnh vực khác nhau.

1.2.3. Khái niệm
Một phân loại Naive Bayes dựa trên ý tƣởng nó là một lớp đƣợc dự
đoán bằng các giá trị của đặc trƣng cho các thành viên của lớp đó. Các đối
tƣợng là một nhóm (group) trong các lớp nếu chúng có cùng các đặc trƣng
chung. Có thể có nhiều lớp rời rạc hoặc lớp nhị phân.
Các luật Bayes dựa trên xác suất để dự đoán chúng về các lớp có sẵn
dựa trên các đặc trƣng đƣợc trích rút. Trong phân loại Bayes, việc học đƣợc
coi nhƣ xây dựng một mô hình xác suất của các đặc trƣng và sử dụng mô hình
này để dự đoán phân loại cho một ví dụ mới.
Biến chƣa biết hay còn gọi là biến ẩn là một biến xác suất chƣa đƣợc
quan sát trƣớc đó. Phân loại Bayes sử dụng mô hình xác suất trong đó phân
loại là một biến ẩn có liên quan tới các biến đã đƣợc quan sát. Quá trình phân
loại lúc này trở thành suy diễn trên mô hình xác suất.
Trƣờng hợp đơn giản nhất của phân loại Naive Bayes là tạo ra các giả
thiết độc lập về các đặc trƣng đầu vào và độc lập có điều kiện với mỗi một lớp
đã cho. Sự độc lập của phân loại Naive Bayes chính là thể hiện của mô hình
mạng tin cậy (belief network) trong trƣờng hợp đặc biệt, và phân loại là chỉ
dựa trên một nút cha duy nhất của mỗi một đặc trƣng đầu vào. Mạng tin cậy
này đề cập tới xác suất phân tán P(Y) đối với mỗi một đặc trƣng đích Y và
P(Xi|Y) đối với mỗi một đặc trƣng đầu vào Xi. Với mỗi một đối tƣợng, dự
đoán bằng cách tính toán dựa trên các xác suất điều kiện của các đặc trƣng
quan sát đƣợc cho mỗi đặc trƣng đầu vào.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-13 -

Định lý Bayes: Giả sử A và B là hai sự kiện đã xảy ra. Xác suất có điều
kiện A khi biết trƣớc điều kiện B đƣợc cho bởi:

P(A|B) = P(B|A).P(A)/P(B)
- P(A): Xác suất của sự kiện A xảy ra.
- P(B): Xác suất của sự kiện B xảy ra.
- P(B|A): Xác suất (có điều kiện) của sự kiện B xảy ra,nếu biết rằng sự
kiện A đã xảy ra.
- P(A|B): Xác suất (có điều kiện) của sự kiện A xảy ra, nếu biết rằng sự
kiện B đã xảy ra.
1.2.3.1. Mô hình xác suất
Một cách trừu tƣợng, mô hình xác suất cho phân loại là một mô hình
điều kiện (C|F1, . ., Fn)
Trên một lớp biến C với số lƣợng nhỏ các đầu ra hoặc các lớp. Điều
kiện trên một vài biến đặc trƣng F1 đến F2. Vấn đề chính trong bài toán này là
nếu số đặc trƣng n là lớp hoặc một đặc trƣng có thể có số lƣợng lớn các giá
trị, thì một mô hình đƣợc tạo ra dựa trên các bảng xác suất là phù hợp trong
điều kiện này. Lý thuyết Bayes có thể viết thành:
(C|F1, . ., Fn) =

 C (F 1 ,..,F n |C)
(F 1 ,..,F n |C)

Một cách mô tả đơn giản cho công thức trên nhƣ sau:
Hậu nghiệm =

𝑛𝑔 𝑕𝑖ệ𝑚𝑡𝑟 ƣớ𝑐×𝑘𝑕ả𝑛ă𝑛𝑔
𝑏ằ𝑛𝑔𝑐 𝑕ứ𝑛𝑔

Trên thực tế, chỉ cần quan tâm tới số các phân mảnh (fraction), bởi có
một số đặc trƣng không phụ thuộc vào C và các giá trị F i đã cho, mô hình
(C|F1, . ., Fn) có thể đƣợc viết lại nhƣ sau, sử dụng luật xích để lặp lại định
nghĩa của xác suất điều kiện:

Có nghĩa rằng dƣới giả thiết độc lập trên, phân tán có điều kiện trên các
lớp biến C là:
1

(C|F1,. . ., Fn) = 𝑍 (C)

𝑛
𝑖=1 (𝐹𝑖

|𝐶)

Với Z = (F1,. . ., Fn) đƣợc gọi là nhân tố độc lập trên F1,. . ., Fn và là
một hằng nếu các giá trị của các biến đặc trƣng là đã biết.
1.2.3.2. Xây dựng phân lớp từ mô hình xác suất

Phân lớp Bayes kết hợp với luật quyết định tạo ra phân loại Naive
Bayes. Một luật thông thƣờng đƣa ra giả thuyết về khả năng nhất hay còn
đƣợc xem nhƣ là cực đại hóa xác suất hậu nghiệm (maximum a posteriori).
Bộ phân loại Bayes là một hàm phân loại đƣợc định nghĩa:
𝑐𝑙𝑎𝑠𝑠𝑖𝑓𝑦(𝑓1 , … , 𝑓𝑛 ) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑝 𝐶 = 𝑐

𝑛
𝑖=1 𝑝(𝐹𝑖

= 𝑓𝑖 | C=c)

Ví dụ về phân lớp giới tính nam và nữ dựa trên một số độ đo đặc trƣng.
Các đặc trƣng bao gồm: chiều cao, cân nặng và cỡ chân.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-15 -

Để giải quyết vấn đề này dựa trên phân loại Naive Bayes, cần phải theo
các bƣớcsau: huấn luyện (training), kiểm tra (testing).
Có dữ liệu huấn luyện nhƣ sau:
height (feet)

weight (lbs)

Male

6

180

foot size
(inches)
12

Male

5.92 (5'11")

190

11

male

5.58 (5'7")

170

12

male

5.92 (5'11")

165

10

female

5

100

6

female

5.5 (5'6")

150

8

female

5.42 (5'5")

130

7

female

5.75 (5'9")

150

9

sex

Bộ phân loại đƣợc tạo từ tập huấn luyện sử dụng giả thiết phân tán
Gauss tạo ra giá trị cho các đặc trƣng nhƣ sau:

Sex

Male

mean
(height)
5.855

Female 5.4175

variance
(height)

mean

mean
variance
(foot

(weight) (weight)

size)

variance
(foot size)

3.5033e-02 176.25

1.2292e+02

11.25

9.1667e-01

9.7225e-02 132.5

5.5833e+02

7.5

1.6667e+00

Giả sử rằng tạo ra hai lớp tƣơng đƣơng P(male)= P(female) = 0.5. Xác
suất hậu nghiệm phân tán dựa trên những tri thức đã tính toán đƣợc thông qua
tần suất trong tổng thể dân số lớn hoặc tần suất trong tập huấn luyện.
Kiểm tra: Sau khi xây dựng xong bộ phân lớp, có thể dễ dàng kiểm tra,
kiểm thử việc phân lớp với một bộ dữ liệu dùng kiểm tra (test) nhƣ sau:

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

-16 -

Sex
Sample

height (feet)

weight (lbs)

6

130

foot size(inches)
8

Để xác định hậu nghiệm lớn hơn, đối với phân lớp male cho bởi:
Posterior(male) =

𝑃 𝑚𝑎𝑙𝑒  𝑕𝑒𝑖𝑔 𝑕𝑒𝑡 𝑚𝑎𝑙𝑒  𝑤𝑒𝑖𝑔 𝑕𝑡 𝑚𝑎𝑙𝑒 (𝑓𝑜𝑜𝑡𝑠𝑖𝑧𝑒 |𝑚𝑎𝑙𝑒 )
𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒

Đối với lớp fermale cho bởi:
𝑃 𝑓𝑒𝑚𝑎𝑙𝑒  𝑕𝑒𝑖𝑔 𝑕𝑒𝑡 𝑓𝑒𝑚𝑎𝑙𝑒  𝑤𝑒𝑖𝑔 𝑕𝑡 𝑓𝑒𝑚𝑎𝑙𝑒 (𝑓𝑜𝑜𝑡𝑠𝑖𝑧𝑒 |𝑓𝑒𝑚𝑎𝑙𝑒 )

Posterior(female) =

𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒

Evidence đƣợc tính bởi:
evidence =
𝑃 𝑚𝑎𝑙𝑒  𝑕𝑒𝑖𝑔𝑕𝑒𝑡 𝑚𝑎𝑙𝑒  𝑤𝑒𝑖𝑔𝑕𝑡 𝑚𝑎𝑙𝑒 (𝑓𝑜𝑜𝑡𝑠𝑖𝑧𝑒|𝑚𝑎𝑙𝑒) +
𝑃 𝑓𝑒𝑚𝑎𝑙𝑒  𝑕𝑒𝑖𝑔𝑕𝑒𝑡 𝑓𝑒𝑚𝑎𝑙𝑒  𝑤𝑒𝑖𝑔𝑕𝑡 𝑓𝑒𝑚𝑎𝑙𝑒 (𝑓𝑜𝑜𝑡𝑠𝑖𝑧𝑒|𝑓𝑒𝑚𝑎𝑙𝑒)
Theo các công thức trên, với ví dụ đã cho là một hằng số, do đó độ đo
về hậu nghiệm của cả hai lớp là bằng nhau. Xác định xác suất phân tán với
mỗi một giới tính theo ví dụ trên:
𝑃 𝑚𝑎𝑙𝑒 = 0.5

 𝑕𝑒𝑖𝑔𝑕𝑒𝑡 𝑚𝑎𝑙𝑒 =

1
2𝜎

exp
2

−(6−𝜇 )2
2𝜎 2

≈ 1.5789

Trong đó:
𝜇 = 5.85 và 𝜎 2 = 3.5033 .10−2 là các tham số của phân tán đã đƣợc xác
định trƣớc đó từ trong tập huấn luyện. Nếu giá trị >1 là chấp nhận đƣợc:

 𝑤𝑒𝑖𝑔𝑕𝑡 𝑚𝑎𝑙𝑒 = 5.9881 .10−6
 𝑓𝑜𝑜𝑡𝑠𝑖𝑧𝑒 𝑚𝑎𝑙𝑒 = 1.3112 .10−3
Posterior numerator (male) = their product = 6.1984 .10−9
P(female) = 0.5

 𝑕𝑒𝑖𝑔𝑕𝑡 𝑚𝑎𝑙𝑒 = 2.2346 .10−1
 𝑤𝑒𝑖𝑔𝑕𝑡 𝑓𝑒𝑚𝑎𝑙𝑒 = 1.6789 .10−2
 𝑓𝑜𝑜𝑡𝑠𝑖𝑧𝑒 𝑓𝑒𝑚𝑎𝑙𝑒 = 2.8669 .10−1
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

Trích đoạn

Kết luận chƣơng 3

Nghiên cứu lý thuyết Naive Bayes và ứng dụng trong phân loại văn bản tiếng Việt

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về