Đề Tài Các Phương Pháp Xác Định Mối Quan Hệ Đa Nhãn Và Ứng Dụng Trong Phân Lớp Đa Nhãn Tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (369.63 KB, 14 trang )

BÁO CÁO NGHIÊN CỨU ĐỀ
TÀI LUẬN VĂN
Giáo viên HD : TS. Nguyễn Cẩm Tú
Học viên
: Đỗ Thị Nương

Nội dung






Giới thiệu đề tài
Phân lớp đa nhãn
Các thuật toán học đa nhãn
Mối quan hệ trong phân lớp đa nhãn
Định hướng nghiên cứu tiếp theo

26/10/2013

2

Giới thiệu đề tài


Tên đề tài:
◦ “Các phương pháp xác định mối quan hệ đa nhãn và
ứng dụng trong phân lớp đa nhãn tiếng Việt”.



Cơ sở thực tiễn:
◦ Phân lớp đa nhãn có ứng dụng trong nhiều lĩnh vực
như: Phân loại văn bản tự động và chuẩn đoán trong
y học…
◦ Việc xác định mối quan hệ giữa các nhãn giữ vai trò
quan trọng trong nâng cao chất lượng gán nhãn.
 Ví dụ: một ảnh được gán nhãn “bãi biển” sẽ loại trừ được
nhãn "sa mạc";
 Các nhãn "bóng đá, câu lạc bộ, đội bóng" thường đồng xuất
hiện với nhau trong quá trình gán nhãn văn bản
26/10/2013

3

Phân lớp đa nhãn


Bài toán phân lớp tổng quát:
◦ C = {c1, c2, …, cK}: tập K lớp
◦ X = {xi} (i=1,2,…) là không gian các đối tượng cần phân lớp
◦ Xây dựng một ánh xạ f : X → C
◦ Ánh xạ f được gọi là mô hình phân lớp (classification model, classifier)
◦ Xây dựng mô hình f bằng học giám sát (supervised learning)
 D = {(x1, c1), (x2, c2), …, (xN, cN)} trong đó xn ∈ X, cn ∈ C là tập dữ liệu huấn luyện
(training data)
 Huấn luyện mô hình f dựa trên tập huấn luyện D sao cho f phân lớp chính xác

nhất có thể.



Phân lớp đơn nhãn
◦ ci chỉ bao gồm 1 phần tử duy nhất.



Phân lớp đa nhãn
◦ ci > 1 phần tử

26/10/2013

4

Các giải thuật học đa nhãn
Binary Relevance(BR)
2. Label Powerset (LP)
3. Classifier Chain
4. Multi-label k-Nearest Neighbors (MLkNN)
1.

26/10/2013

5

Các giải thuật học đa nhãn(tt)

Không xét đến đặc trưng của các thể hiện.
 Xét tập dữ liệu huấn luyện:


 Tập các thể hiện X = {1, 2, 3, 4}
 Xét tập lớp Y = {y1, y2, y3, y4}

Instance

Label

1

{y2, y3}

2

{y1}

3

{y1, y2, y3}

4

{y2, y4}

26/10/2013

6

Binary Relevance(BR)


Ý tưởng : Sử dụng phương pháp chuyển đổi nhị phân,
xây dựng một bộ nhị phân cho từng nhãn trong tập
nhãn.
◦ Tạo k tập dữ liệu ( k = số lượng nhãn) cho từng nhãn
◦ Mỗi tập có số thể hiện như tập dữ liệu nguồn
◦ Trong mỗi tập sẽ gán nhãn cho các thể hiện là thuộc
hoặc không thuộc lớp Yj. ( Bộ phân lớp nhị phân)
Ex
1
2
3
4

Label
¬y1
y1
y1
y1

Ex
1
2
3
4

Label
y2
¬y2
y2
y2

Ex
1
2
3
4

Label
y3
¬y3
y3
¬y3

26/10/2013

Ex
1
2
3
4

Label
¬y4
¬y4
¬y4

y4

7

Label Powerset (LP)


Ý tưởng: Xem mỗi tập nhãn trong tập dữ liệu như
là một nhãn đơn.
◦ Tiến hành việc phân lớp đơn nhãn
◦ Tập các nhãn con tạo ra là lớn.

Instance
1
2
3
4

Label
{y2, y3}
{y1}
{y1, y2, y3}
{y2, y4}

Instance
1
2
3
4

Label
y2,3
y1
y1,2,3
y2,4

26/10/2013

8

Các giải thuật học đa nhãn(tt)
Binary Relevance(BR): Coi các nhãn là độc lập
không có quan hệ với nhau.
 Label Powerset (LP): Có xét đến quan hệ các
nhãn.


⇒ Vấn đề khi các nhãn có quan hệ với nhau, và số

lượng nhãn lớn.
⇒ Với dữ liệu văn bản có kích thước lớn, chứa đựng
nhiều thông tin chủ chốt, cũng như thông tin
nhiễu. Vì vậy, cần có một phương pháp cho việc
lựa chọn đặc trưng để có thể tối giản bài toán
phân lớp.
26/10/2013

9

Mối quan hệ trong phân lớp đa
nhãn

Kiểu quan hệ bậc nhất: các nhãn được giả thiết là
độc lập. Nói cách khác, mối quan hệ đa nhãn
không được tận dụng trong phân lớp đa nhãn.
 Kiểu quan hệ bậc hai: các mối quan hệ theo cặp,
ví như: mối quan hệ giữa “nhãn phù hợp” và
“nhãn không phù hợp” trong quá trình xếp hạng
nhãn.
 Kiểu quan hệ bậc cao: ví như quan hệ toàn bộ
theo đó toàn bộ các nhãn đều có ảnh hưởng tới
việc phân lớp mỗi nhãn; hoặc quan hệ bộ phận
trong đó với một nhãn nhất định, tồn tại một
nhóm con trong số toàn bộ các nhãn có ảnh
hưởng tới việc phân lớp nhãn được xét.


26/10/2013

10

Mối quan hệ trong phân lớp đa
nhãn(tt)
Bayesian network.
 Maximum Entropy


26/10/2013

11

Định hướng nghiên cứu tiếp theo


Tìm hiểu về các giả thuật học đa nhãn:
◦ Bayesian network.
◦ Maximum Entropy



Tìm hiểu phương pháp lựa chọn đặc trưng.
◦ LDA…

Khảo sát công cụ WEKA và thư viện MULAN
 Khảo sát việc ứng dụng trong phân lớp đa nhãn
tiếng Việt


26/10/2013

12

Tài liệu tham khảo
[1] Sorower, Mohammad S. "A literature survey on algorithms for multi-label

learning." Preprint 63 (2010).
[2] Zhang, Min-Ling, and Kun Zhang. "Multi-label learning by exploiting label
dependency." Proceedings of the 16th ACM SIGKDD international conference on
Knowledge discovery and data mining. ACM, 2010
[3] Min-LingZhangandKunZhang. Multi-label learning by exploiting label dependency. In
Proceedings of the 16th ACMSIGKDD international conference on Knowledge discovery
and data mining, KDD’10, pages 999–1008, NewYork, NY, USA, 2010. ACM.

26/10/2013

13

Cảm ơn thầy cô và các bạn đã lắng nghe!

26/10/2013

14

Đề Tài Các Phương Pháp Xác Định Mối Quan Hệ Đa Nhãn Và Ứng Dụng Trong Phân Lớp Đa Nhãn Tiếng Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về