Tải bản đầy đủ (.pdf) (61 trang)

Một số thuật toán Bayes phân lớp đa nhãn và áp dụng vào phân lớp văn bản đa nhãn lĩnh vực điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.78 MB, 61 trang )

4

Mục lục
Lời cam đoan 1

̀
i ca
̉
m ơn 2
Tm tt nội dung 3
Mục lục 4
Bảng các k hiệu và ch vit tt 6
Danh sa
́
ch ba
̉
ng biê
̉
u 7
Danh sa
́
ch hình ảnh 8
Mở đầu 9
CHƢƠNG 1. GIỚI THIỆU CHUNG VỀ PHÂN LỚP ĐA NHÃN VĂN BẢN 11
1.1 Giới thiệu chung 11
1.1.1 Phân lớp văn bản 11
1.1.2 Phân lớp đa nhãn (Multiple Label Class - MLC) 12
1.1.3 Ý nghĩa và ứng dụng 13
1.2 Cách thức phân lớp đa nhãn 14
1.2.1 Phân lớp dựa vào xếp hạng 14
1.2.2 Phân lớp theo cấu trúc phân cấp (Hierarchical structure) 14


1.3 Phương pháp phân lớp đa nhãn 15
1.3.1 Phương pháp chuyển đổi bài toán 15
1.3.2 Phương pháp thích nghi thuật toán 20
Tóm tắt chương 1 22
CHƢƠNG 2. THUẬT TOÁN PHÂN LỚP ĐA NHÃN BAYES 23
2.1 Phân lớp Bayes 23
2.2 Giới thiệu chung về phân lớp đa nhãn Bayes 25
2.3 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp 27
2.4 Phân lớp đa nhãn Bayes dựa trên chuỗi phân lớp cải tiến 29
2.5Phân lớp đa nhãn Bayes trực tuyến 33
Tóm tắt chương2 37
5

CHƢƠNG 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ 38
3.1 Môi trường và các công cụ sử dụng thực nghiệm 38
3.2 Dữ liệu thực nghiệm 39
3.2.1 Đặc trưng một tài liệu thực nghiệm 39
3.2.2 Thu thập dữ liệu 41
3.3 Thực nghiệm 44
3.3.1 Phát biểu bài toán 44
3.3.2 Mô hình đề xuất 45
3.3.3 Mô tả cài đặt chương trình 50
3.3.4 Giới thiệu hệ thống 51
3.3.5 Thực nghiệm hệ thống 55
3.3.6 Đánh giá kết quả thực nghiệm 57
Tóm tắt chương 3 59
Kt luận và định hƣớng phát triển 60
TÀI LIỆU THAM KHẢO 61
PHỤ LỤC 62
Phụ lục I: Kết quả phân lớp chi tiết với thuật toán CC 62

Phụ lục II: Kết quả phân lớp chi tiết với thuật toán ECC 64

6

Bảng các k hiệu và ch vit tt
Ký hiệu vit tt
Vit đầy đủ
Giải nghĩa
MLC
Multiple Label Class
Phân lớp đa nhãn
CC
Classifier Chains
Chuỗi phân lớp
BM
Binary relevance method
Phương pháp nhị phân
CM
Label Combination Method
Phương pháp kết hợp nhãn
ML – kNN
Multiple Label k Nearest
Neighbor
Đa nhãn với k người láng
giềng gần nhất.
SVM
Supper Vector Machine
Máy vecto hỗ trợ
PCC
Probabilitistic Classifier Chain

Chuỗi phân lớp xác suất
ECC
Ensembles Classifier Chain
Tập hợp chuỗi phân lớp
BOMC
Bayesian online Learning for
Multi – label classification
framework
Phân lớp đa nhãn Bayes trực
tuyến
XML
Extensible Markup Language
Ngôn ngữ đánh dấu mở rộng
DF
Document Frequency
Tần suất văn bản
TS
Term Strength
Cường độ thuật ngữ
MIPS
Munich Information Centre for
Protein Sequences
Trung tâm thông tin ở
Munich đối với Protein
Sequences

7


Danh sa

́
ch ba
̉
ng biê
̉
u
Bảng 1.1: Mẫu bộ dữ liệu đa nhãn 16
Bảng 1.2: Dữ liệu được chuyển đổi bằng phương pháp PT1 16
Bảng 1.3: Dữ liệu được chuyển đổi bằng phương pháp PT2 16
Bảng 1.4: Dữ liệu được chuyển đổi bằng phương pháp PT3 17
Bảng 1.5: Dữ liệu được chuyển đổi bằng phương pháp PT5 19
Bảng 1.6: Dữ liệu được chuyển đổi bằng phương pháp PT6 21
Bảng 3.1: Cấu hình hệ thống thử nghiệm 38
Bảng 3.2: Công cụ phần mềm sử dụng 38
Bảng 3.3: Tổ chức các thành phần trong một tài liệu XML 42
Bảng 3.4: Các gói cài đặt phía Client 50
Bảng 3.5: Các gói cài đặt phía Server 51
Bảng 3.6: Ví dụ một tài liệu đầu vào 53
Bảng 3.7: Vector tài liệu đầu vào 54
Bảng 3.8: Thống kê dữ liệu huấn luyện của các lớp 55
Bảng 3.9: Kết quả phân lớp của hệ thống với 5 tài liệu 56
Bảng 3.10: Bảng ký hiệu 57
Bảng 3.11: Kết quả phân loại của hệ thống với CC 59
Bảng 3.12: Kết quả phân loại của hệ thống với ECC 59

8

Danh sa
́
ch hình ảnh

Hình 1.1: Bốn tập hợp dữ liệu được PT4 tạo ra 18
Hình 2.1: Giai đoạn huấn luyện (tạo ra) tập dữ liệu D và bộ nhãn L của CC 27
Hình 2.2: Giai đoạn dự đoán của CC cho phiên bản kiểm tra x 28
Hình 2.3: Một đồ thị phân lớp đa nhãn. Đồ thị tương ứng với ví dụ x có nhãn là 2 35
Hình 2.4: Phân lớp đa nhãn thông qua việc so sánh từng cặp. Lớp 2 và 4 là liên quan
d
ịj
= f
i
– f
j
, trong đó, i phù hợp và j thì không phù hợp 36
Hình 2.5: Phân lớp đa nhãn thông qua thứ tự tổng và xu hướng chung 37
Hình 3.1: Một giáo trình sau khi được biểu diễn theo cấu trúc XML. 40
Hình 3.2: Cấu trúc một tài liệu huấn luyện .XML 42
Hình 3.3: Minh họa cách đặt tên, lưu trữ tài liệu vào các lớp 43
Hình 3.4: Công cụ kiểm tra dữ liệu học 44
Hình 3.5: Mô hình hệ thống 45
Hình 3.6: Một tài liệu trước khi tiền xử lý 47
Hình 3.7: Một tài liệu sau khi tiền xử lý 47
Hình 3.8: Giao diện ứng dụng trên Client 52
Hình 3.9: Khởi động Server để nhận yêu cầu phân lớp từ Client. 52
Hình 3.10: Kết quả phân lớp 54

9

Mở đầu
Trong xu hướng phát triển mạnh mẽ hiện nay, mọi vấn đề của cuộc sống
đều được chứa trong nhiều nguồn thông tin khác nhau. Việc lựa chọn nguồn
thông tin nào và đặt chúng vào một “lớp” hay một kho nào đó để tiện cho quá

trình khai thác và sử dụng là một yêu cầu cấp thiết.
Những thành tựu những năm gần đây trong lĩnh vực máy tính, thông tin
và những công nghệ lưu trữ làm cho dữ liệu thu thập và được lưu trữ với lượng
rất lớn. Các kho dữ liệu tuy rất lớn nhưng thông tin lại nghèo nàn như hiện
tượng “ngập trong dữ liệu nhưng thiếu thông tin”. Do đó, vấn đề đặt ra là làm
thế nào để các tổ chức, cá nhân có thể thu được các tri thức và phân lớp các dữ
liệu từ kho dữ liệu khổng lồ đó, tức là gán cho nó một nhãn và đặt nó vào một
lớp cụ thể nào đó. Thậm chí, một tài liệu đã được gán nhãn và đặt trong một lớp
cụ thể rồi vẫn có thể gây nên hiện tượng chanh chấp do tài liệu này vừa có nội
dung phù hợp với lớp đang chứa nó đồng thời lại phù hợp và cần thiết với một
số lớp khác nữa.
Từ các yêu cầu đó, bài toán phân lớp đa nhãn các văn bản, tài liệu được
nhiều công trình nghiên cứu đề cập đến.
Phân lớp đa nhãn là bài toán phân lớp cho phép một đối tượng có thể có
nhiều hơn một nhãn. Điều này là hết sức tự nhiên, chẳng hạn như, trong bài toán
phân lớp văn bản, nếu mỗi nhãn lớp tương ứng với một chủ đề thì một văn bản
có thể thuộc vào nhiều chủ đề, tương ứng là văn bản đó được gán nhiều nhãn
lớp. Nhiều công trình nghiên cứu về các thuật toán phân lớp đã được công bố,
chẳng hạn như [DCH10, GM05, GS04, PC10, RD10, TK07, ZGH10, ZPH09],
trong đó công trình [TK07] cho một khái quát về các giải pháp phân lớp đa nhãn
tới năm 2007. Từ năm 2007 tới nay, nhiều giải pháp phân lớp đa nhãn tiếp tục
được đề xuất, chẳng hạn như [DCH10, PC10, RD10, ZGH10, ZPH09].
Một lớp thuật toán phân lớp đa nhãn điển hình là các thuật toán phân lớp
đa nhãn Bayes. Một số giải pháp phân lớp Bayes đa nhãn đã được đề xuất,
chẳng hạn như [DCH10, ZGH10, ZPH09].
10

Luận văn tập trung nghiên cứu một số thuật toán phân lớp đa nhãn Bayes
và ứng dụng vào phân lớp đã nhãn các tài liệu thuộc lĩnh vực điện tử là lĩnh vực
đã và đang được đào tạo tại Trường Cao đẳng Công nghệ Viettronics.

Nội dung luận văn gồm có 3 chương:
Chƣơng 1: Giới thiệu chung về phân lớp đa nhãn văn bản.
Chƣơng 2: Giới thiệu một số thuật toán phân lớp đa nhãn văn bản Bayes.
Đây là cơ sở để tác giả đưa ra mô hình thực nghiệm với những cải tiến ở
chương 3.
Chƣơng 3: Thực nghiệm và đánh giá.
Trên cơ sở các phân tích về lý thuyết các thuật toán đề cập trong chương
2, tác giả trình bày các bước cài đặt chương trình thi thành thực nghiệm hệ thống
cài đặt theo mô hình đề xuất. Đồng thời tiến hành đánh giá kết quả thử nghiệm
của hệ thống. Kết quả thực nghiệm cho thấy tính đúng đắn và khả năng áp dụng
của mô hình vào thực tế là khả quan.
Phần kt luận và định hƣớng phát triển luận văn: Tóm lược những nội
dung chính đạt được của luận văn. Nghiên cứu, triển khai giải pháp nâng cao
hiệu quả hệ thống phần mềm đã xây dựng.
11


CHƢƠNG 1. GIỚI THIỆU CHUNG VỀ PHÂN LỚP ĐA NHÃN VĂN BẢN
1.1 Giới thiệu chung
1.1.1 Phân lớp văn bản
Phân lớp là một trong những mối quan tâm lớn của con người trong quá
trình làm việc với một tập hợp đối tượng. Điều này giúp họ có thể tiến hành việc
sắp xếp, tìm kiếm các đối tượng một cách thuận lợi. Khi biểu diễn đối tượng vào
các hệ thống thông tin, tính chất lớp vốn có của đối tượng trong thực tế thường
được biểu diễn tương ứng bằng một thuộc tính “lớp” riêng biệt [TK07].
Bài toán phân lớp văn bản được phân biệt một cách chi tiết hơn, phân lớp
nhị phân khi miền áp dụng chỉ có 2 lớp (|C| = 2), và phân lớp đa nhãn khi miền
áp dụng có nhiều hơn hai lớp (|C| >2) [TK07].
Phân lớp văn bản là một trong những nhiệm vụ quản lý tài liệu dựa trên
nội dung. Đây là một vấn đề quan trọng trong việc gán một tài liệu vào một hoặc

nhiều lớp cho trước[TK07, XL05].
Ví dụ, có các lớp “Bắc Mỹ”, “Châu Á”, “Châu Âu”; một bản tin nói về
mối quan hệ thương mại giữa Mỹ và Pháp có thể được gán vào cả hai lớp “Bắc
Mỹ” và “Châu Âu” [XL05].
Ngày nay với sự phát triển không ngừng của mạng Internet đã tạo ra một
khối lượng khổng lồ các tài liệu điện tử, đó là động lực cho sự phát triển của bài
toán phân lớp văn bản tự động. Sự phát triển của phần cứng máy tính đã tạo ra
sức mạnh tính toán, cho phép quá trình phân lớp văn bản tự động được sử dụng
trong các ứng dụng thực tế [TK07].
Bài toán phân lớp văn bản được sử dụng rộng rãi để loại bỏ thư rác, phân
lớp các tập hợp văn bản vào các chủ đề cho trước, quản lý tri thức và tìm kiếm
thông tin trên Internet.

×