Tìm hiểu về Học bán giám sát

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (755.49 KB, 15 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
--------------****--------------

NGUYỄN THỊ LOAN
MOUNPHINE PHONEPANYA
VŨ ĐÌNH THUẤN

PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT
SEMI-SUPERVIED LEARNING

BÀI TẬP LỚN MÔN PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC

Lớp: Cao học K25
Giảng viên hướng dẫn: TS Trần Đăng Hưng

Hà Nội, tháng 5 năm 2016

MỤC LỤC
Trang

MỞ ĐẦU .........................................................................................................................3
Chương 1: GIỚI THIỆU..................................................................................................4
1.1

Giới thiệu về học máy ........................................................................................4

1.1.1

Khái niệm học máy .....................................................................................4

1.1.2

Chương trình học máy.................................................................................4

1.1.3

Ứng dụng .....................................................................................................5

1.2

Các phương pháp học máy.................................................................................5

1.2.1

Học có giám sát ...........................................................................................6

1.2.2

Học không giám sát .....................................................................................6

1.2.3

Học bán giám sát .........................................................................................6

1.2.4

Học tăng cường ...........................................................................................6

1.3

Mục tiêu, nhiệm vụ nghiên cứu của đề tài .........................................................7

Chương 2: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT ....................................................8
2.1

Giới thiệu ...........................................................................................................8

2.1.1

Khái niệm học bán giám sát ........................................................................8

2.1.2

Nội dung phương pháp học bán giám sát ....................................................8

2.2

Một số thuật toán tiêu biểu.................................................................................8

2.2.1

Thuật toán cực đại kỳ vọng (EM) ...............................................................9

2.2.2

SVM truyền dẫn (TSVM) .........................................................................10

2.2.3

Self-training ...............................................................................................11

2.2.4

Co-training ................................................................................................11

2.2.5

Phương pháp dựa trên đồ thị (Graph-based) .............................................13

2.3 Ứng dụng ..............................................................................................................13
KẾT LUẬN ...................................................................................................................14
TÀI LIỆU THAM KHẢO .............................................................................................15

2

MỞ ĐẦU
Hiện nay công nghệ thông tin đã và đang phát triển rất mạnh mẽ, được ứng
dụng rộng rãi ở nhiều lĩnh vực. Do đó mà số lượng và tốc độ thay đổi thông tin là
cực kỳ nhanh chóng, trong đó chủ yếu là các thông tin chưa được gán nhãn. Nhiều
nghiên cứu của ngành học máy có thể tìm ra được dữ liệu chưa gán nhãn khi sử
dụng với một số lượng nhỏ dữ liệu gán nhãn. Tuy nhiên để thu được kết quả của
dữ liệu gán nhãn thường đòi hỏi ở trình độ tư duy và khả năng của con người,
công việ�. Có hai chiến lược được đưa ra để giải quyết bài toán này: Một là, chúng ta
thử nhiều giá trị khởi đầu khác nhau, sau đó lựa chọn giải pháp có giá trị likelihood
hội tụ lớn nhất. Hai là, sử dụng mô hình đơn giản hơn để xác định giá trị khởi đầu
cho các mô hình phức tạp. Ý tưởng là: một mô hình đơn giản hơn sẽ giúp tìm
được vùng tồn tại cực đại toàn cục, và ta bắt đầu bằng một giá trị trong vùng đó
để tìm kiếm tối ưu chính xác khi sử dụng mô hình phức tạp hơn.

Thuật toán EM rất đơn giản, ít nhất là về mặt khái niệm. Nó được sử dụng
hiệu quả nếu dữ liệu có tính phân cụm cao.
9

2.2.2 SVM truyền dẫn (TSVM)
Học quy nạp (inductive learning)
Ta xem xét hàm 𝑓 ánh xạ từ đầu vào 𝑥 tới đầu ra 𝑦:𝑦 = 𝑓(𝑥) với 𝑦 ∈ {−1,1}
Học quy nạp sẽ dựa vào các dữ liệu huấn luyện có dạng {(𝑥𝑖 , 𝑦𝑖 ): 𝑖 = 1,2, . . , 𝑛}
để tìm hàm 𝑓. Sau đó, ta sẽ sử dụng hàm 𝑓 để dự đoán nhãn 𝑦𝑛+1 cho các mẫu
chưa gán nhãn 𝑥𝑛+1 .
Các vấn đề của phương pháp:
 Khó tập hợp các dữ liệu gán nhãn.
 Lấy các mẫu dữ liệu chưa gán nhãn thì dễ dàng.
 Các mẫu cần phân lớp là biết trước.
 Không quan tâm đến hàm phân lớp 𝑓.
Học truyền dẫn (transductive learning)
Học truyền dẫn được Vapnik đề cập từ năm 1998. Một bộ học được gọi là
truyền dẫn nếu nó chỉ xử lý trên dữ liệu gán nhãn và dữ liệu chưa gán nhãn, và
không thể xử lý dữ liệu mà nó chưa biết. Cho trước một tập các mẫu gán nhãn
{(𝑥𝑖 , 𝑦𝑖 ): 𝑖 = 1,2, . . , 𝑛} và một tập các dữ liệu chưa gán nhãn 𝑥1 , 𝑥2 , . . , 𝑥𝑚 , mục
đích của ta là tìm các nhãn 𝑦1 , 𝑦2 , . . , 𝑦𝑚 . Học truyền dẫn không cần thiết phải xây
dựng hàm 𝑓, đầu ra của nó sẽ là một vector các nhãn lớp được xác định bằng việc
chuyển thông tin từ dữ liệu gán nhãn sang dữ liệu chưa gán nhãn. Các phương
pháp dựa trên đồ thị lúc đầu thường là truyền dẫn.
Phương pháp học TSVM
Qui ước:
+, - : các mẫu âm, dương
: các mẫu chưa gán nhãn
TSVM là một mở rộng của SVM chuẩn. Trong

SVM chỉ có dữ liệu gán nhãn được sử dụng,
mục đích là tìm siêu phẳng cực đại dựa trên các
mẫu dữ liệu huấn luyện. Với TSVM, các điểm
dữ liệu chưa gán nhãn cũng được sử dụng. Mục
đích của TSVM là gán nhãn cho các điểm dữ liệu chưa gán nhãn để cho biên tuyến
tính có lề phân cách là lớn nhất trên cả dữ liệu gán nhãn và dữ liệu chưa gán nhãn.
10

2.2.3 Self-training
Self-training là kỹ thuật học bán giám sát được sử dụng khá phổ biến do
tận dụng được nguồn dữ liệu chưa gán nhãn lớn và ban đầu chỉ cần lượng nhỏ dữ
liệu đã gán nhãn. Nội dung chính của Self-training là lặp nhiều lần phương pháp
học có giám sát.
Gọi 𝐷: là tập các dữ liệu đã được gán nhãn.
𝐶 : là tập các dữ liệu chưa gán nhãn.
Thuật toán Self-training thực hiện như sau:
Lặp (cho đến khi 𝐶 = ∅):
(1) Huấn luyện bộ phân lớp có giám sát ℎ trên tập 𝐷.
(2) Sử dụng ℎ để phân lớp dữ liệu trong tập 𝐶.
(3) Tìm tập con 𝐶 ′ ⊆ 𝐶 có độ tin cậy cao nhất: 𝐷 + 𝐶 ′ ⇒ 𝐷; 𝐶 − 𝐶 ′ ⇒ 𝐶
Ban đầu huấn luyện bộ phân lớp bằng cách cho bộ phân lớp học một tập dữ liệu
huấn luyện đã được gán nhãn (tập này thường nhỏ so với tập dữ liệu chưa gán
nhãn). Dùng bộ phân lớp đã được huấn luyện, phân lớp cho các dữ liệu chưa được
gán nhãn. Trong số dữ liệu mới được gán nhãn, chọn các dữ liệu có độ tin cậy cao
(lớn hơn một ngưỡng nào đó) kèm với nhãn vừa gán, đem bổ sung vào tập dữ liệu
huấn luyện ban đầu. Sau đó, bộ phân lớp được học lại trên tập huấn luyện mới
(gồm dữ liệu đã gán nhãn ban đầu và dữ liệu do bộ phân lớp mới gán nhãn) và
thuật toán được lặp lại. Sau mỗi vòng lặp, bộ phân lớp sẽ bổ sung một số mẫu dữ
liệu có độ tin cậy cao nhất cùng với dự đoán phân lớp của chúng vào tập dữ liệu

huấn luyện. Tên gọi Self-training xuất phát từ việc sử dụng dự đoán của nó để
huấn luyện chính nó.
2.2.4 Co-training
Thuật toán Co-training dựa trên giả thuyết rằng các đặc trưng của tập dữ
liệu huấn luyện có thể được phân chia thành 2 tập con (trường hợp lý tưởng là hai
tập con này thoả mãn điều kiện độc lập nhau). Nội dung chính của thuật toán như
sau:
+ Dùng 2 bộ phân lớp phù hợp để học 2 tập con tương ứng (mỗi tập con
huấn luyện một bộ phân lớp).
+ Mỗi bộ phân lớp thực hiện phân lớp cho các dữ liệu chưa gán nhãn, thu
được kết quả là tập dữ liệu chưa gán nhãn kèm theo nhãn dự đoán của chúng.
Trong tập kết quả của bộ phân lớp 1, chọn ra những mẫu dữ liệu (kèm nhãn đã dự
11

đoán) có độ tin cậy cao nhất bổ sung vào tập huấn luyện của bộ phân lớp 2 và
ngược lại.
+ Mỗi bộ phân lớp được học lại tập dữ liệu huấn luyện (gồm dữ liệu gán
nhãn ban đầu và dữ liệu gán nhãn mới bổ sung từ kết quả của bộ phân lớp kia).
Quá trình được lặp lại cho đến khi tập dữ liệu chưa gán nhãn rỗng hoặc số vòng
lặp đạt tới một ngưỡng được xác định trước.
Thuật toán Co-training:
(1)

(2)

(1) Huấn luyện hai bộ phân lớp: 𝑓 (1) từ (𝑋1 , 𝑌1 ), 𝑓 (2) từ (𝑋1 , 𝑌1 ).
(2) Phân lớp các mẫu dữ liệu chưa gán nhãn 𝑋𝑐 với 𝑓 (1) và 𝑓 (2) tách biệt
nhau. (𝐶 là tập các mẫu dữ liệu chưa gán nhãn).
(3) Chèn thêm vào 𝑓 (1) k-most-confident (𝑥, 𝑓 (1) (𝑥)) tới các dữ liệu đã

gán nhãn của 𝑓 (2) .
(4) Chèn thêm vào 𝑓 (2) k-most-confident (𝑥, 𝑓 (2) (𝑥)) tới các dữ liệu đã gán
nhãn của 𝑓 (1) .
(5) Lặp lại các quá trình trên.
Thuật toán Co-training trên có thể viết như sau:
𝐷: là tập các mẫu dữ liệu đã gán nhãn.
𝐶: là tập các mẫu dữ liệu chưa gán nhãn.
(1) 𝐶 có thể phân chia thành hai tập con 𝐶1 và 𝐶2 (trường hợp lý tưởng thì
𝐶1 và 𝐶2 độc lập nhau).
(2) Cho bộ phân lớp ℎ1 học 𝐶1 (hay dùng 𝐶1 huấn luyện bộ phân lớp ℎ1 ).
Cho bộ phân lớp ℎ2 học 𝐶2 (hay dùng 𝐶2 huấn luyện bộ phân lớp ℎ2 ).
(3) Dùng ℎ1 phân lớp cho 𝐶 thu được tập 𝐶1′ kèm nhãn dự đoán của chúng.
Dùng ℎ2 phân lớp cho 𝐶 thu được tập 𝐶2′ kèm nhãn dự đoán của chúng.
(4) Từ 𝐶1′ chọn ra 𝑐1 mẫu dữ liệu kèm theo nhãn của nó, có độ tin cậy cao
nhất. Bổ sung 𝑐1 vào 𝐶2 . Khi đó, 𝐶2 + 𝑐1 ⇒ 𝐶2 .
Từ 𝐶2′ chọn ra 𝑐2 mẫu dữ liệu kèm theo nhãn của nó, có độ tin cậy cao
nhất. Bổ sung 𝑐2 vào 𝐶1 . Khi đó, 𝐶1 + 𝑐2 ⇒ 𝐶1 .
(5) Dùng 𝐶1 mới huấn luyện bộ phân lớp ℎ1 (hay ℎ1 học 𝐶1 ).
Dùng 𝐶2 mới huấn luyện bộ phân lớp ℎ2 (hay ℎ2 học 𝐶2 ).
(6) Lặp lại từ bước (3). cho đến khi tập 𝐶 rỗng hoặc số vòng lặp đạt đến
ngưỡng xác định trước.
12

2.2.5 Phương pháp dựa trên đồ thị (Graph-based)
Tư tưởng chính của phương pháp học bán giám sát dựa trên đồ thị là xây
dựng một đồ thị có trọng số dựa trên tập dữ liệu ban đầu với các node là các mẫu
dữ liệu có nhãn và các mẫu dữ liệu chưa gán nhãn. Trọng số của các cạnh tương
ứng với một vài mối quan hệ giữa các mẫu như: độ tương tự hoặc khoảng cách
giữa các mẫu. Từ các node đã có nhãn, mỗi node sẽ bắt đầu gán chính nhãn của

nó cho các node láng giềng, quá trình lặp này sẽ kết thúc khi đạt được điều kiện
hội tụ. Ví dụ

Mục đích là tìm ra một nhát cắt cực tiểu (𝑣+ , 𝑣− )trên đồ thị . Sau đó, gán
nhãn dương cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa 𝑣+ , và gán
nhãn âm cho tất cả các mẫu chưa gán nhãn thuộc đồ thị con chứa 𝑣− . Phương
pháp này đưa ra một thuật toán có thời gian đa thức để tìm kiếm lời giải tối ưu
toàn cục thực sự của nó.
2.3 Ứng dụng
Các bài toán phân cụm dựa trên mật độ.
Nhận dạng văn bản (EM).
Phân loại ảnh (EM).
Nhận dạng tiếng nói (Baum-Welch).
Phân lớp văn bản (Self-training, Co-training).
Phân lớp văn bản, trang Web (SVM).

13

KẾT LUẬN
Những việc đã làm được của đề tài
Qua quá trình nghiên cứu, đề tài đã trình bày được cơ sở lý thuyết của học
máy: khái niệm học máy, ứng dụng học máy trong các lĩnh vực, quá trình học, các
phương pháp cơ bản trong học máy.
Về phương pháp học bán giám sát, đề tài đã trình bày được khái niệm, nội
dung và các thuật toán tiêu biểu của phương pháp học bán giám sát.
Hướng nghiên cứu trong thời gian tới
Do khả năng, thời gian và phạm vi nghiên cứu còn hạn chế nên đề tài chưa
nghiên cứu sâu được các thuật toán cũng như chưa tiến hành thực nghiệm được
trên dữ liệu thực tế vì vậy trong thời gian tới chúng tôi sẽ tìm hiểu kỹ hơn về các

thuật toán trong phương pháp học bán giám sát cùng với việc thực nghiệm trên
dữ liệu thực tế.
Như đã trình bày ở trên, đề tài sẽ không tránh khỏi thiếu sót. Rất mong nhận
được sự đóng góp từ thầy giáo và các bạn học viên./.
Nhóm tác giả

14

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Hồ Thị Ngọc (2012). Nghiên cứu ứng dụng học bán giám sát. Luận văn thạc
sĩ, Đại học Đà Nẵng, 2012.
[2] Nguyễn Nhật Quang (2011). Học máy. Đại học Bách Khoa Hà Nội, 2011.
Tiếng Anh
[3] Chapelle, O., Zien, A., & Sch¨olkopf, B. (Eds.), Semi-Supervised Learning.
MIT Press, 2006.
[4] Piyush Rai (2011). Semi-supervised Learning. Machine Learning,
CS5350/6350, November 8, 2011.
[5] Xiaojin Zhu (2008). Semi-supervised Learning Literature Survey. Computer
Sciences TR 1530, University of Wisconsin – Madison, July 19, 2008.
[6] Xiaojin Zhu (2007). Semi-supervised Learning Tutorial. Department of
Computer Sciences, University of Wisconsin – Madison, 2007.
[7] Xiaojin Zhu (2005). Semi-supervised Learning with Graphs. PhD thesis,
Carnegie Mellon University, CMU-LTI-05-192, May 2005.
[8] Zoubin Ghahramani (2012). Graph-based Semi-supervised Learning.
Department of Engineering, University of Cambridge – UK, 2012.
[9] />
15

Tìm hiểu về Học bán giám sát

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về