BÀI GIẢNG KHAI PHÁ dữ LIỆU nội dung bổ sung về khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.5 MB, 105 trang )

BÀI GIẢNG KHAI PHÁ DỮ LIỆU

Nội dung bổ sung về Khai phá dữ liệu

1

Nội dung
1.

Khai phá dữ liệu: Học suốt đời

2.

Khai phá quy trình

3.

Một số tài nguyên khai phá dữ liệu

2

1. GIỚI THIỆU VỀ HỌC MÁY SUỐT ĐỜI

3

Nguồn tài liệu chính

 Sách




[Chen16[ Zhiyuan Chen and Bing Liu. Lifelong Machine Learning. Morgan & Claypool Publishers, November 2016.
[Thrun96] Sebastian Thrun. Explanation-Based Neural Network Learning: A Lifelong Learning Approach. Springer US,
1996.

 Bài trình bày




Zhiyuan Chen and Bing Liu. Lifelong Machine Learning in the Big Data Era. A IJCAI 2015 Tutorial. 130
Zhiyuan Chen, Estevam Hruschka, Bing Liu. Lifelong Machine Learning and Computer Reading the Web. A KDD-2016
Tutorial. 217



DS&KTLab: A New Lifelong Topic Modeling Method and Its Application to Vietnamese Text Multi-label Classification. ACIIDS
2018

 Trang Web





Zhiyuan Chen
Bing Liu

Website on lifelong machine learning.

4

Hình ảnh Trường thu – đông Quảng Bình

5

Hình ảnh Trường thu – đông Quảng Bình

6

Tại sao học máy suốt đời?

-

Học máy truyền thống: hạn chế
Học máy suốt đời: hiện diện một cộng đồng
Một dự án về học máy suốt đời

7

Học máy truyền thống (ML1.0)

 Thành công



Học máy thống kê: nhiều thành công đáng ghi nhận

 Hạn chế






Học máy cô lập: xem xét một bài toán học máy
Không thừa kế được ”kinh nghiệm” từ học trước đây
Không thể đáp ứng “học tựa như con người”
Yêu cầu tập ví dụ huấn luyện đủ lớn

 Yêu cầu




“học tựa như con người”
Chỉ cần tập ví dụ rất nhỏ

8

Học suốt đời (ML2.0): một hành vi trí tuệ

 Nghiên cứu trí tuệ tự nhiên luôn thời sự

 Một số hành vi trí tuệ liên quan tới học





Học từ kinh nghiệm và áp dụng tri thức từ kinh nghiệm.
Giải quyết vấn đề thiếu thông tin quan trọng
Xử lý và thao tác với “biểu tượng”

 Học máy suốt đời






Thế hệ học máy thứ hai (ML2.0)
Học và sử dụng tri thức từ kinh nghiệm, đặc biệt các miền văn bản
Giải quyết thách thức tập ví dụ huấn luyện lớn
Vấn đề: Chọn tri thức đã học để giải quyết bài toán mới

9

Học suốt đời: một nguồn trí tuệ [Poole17]

 Sinh học





Tiến hóa của loài người
Sống sót được trong nhiều môi trường sống khác nhau

 Văn hóa




Cung cấp ngôn ngữ
Các công cụ hữu dụng, các khái niệm hữu dụng, sự thông thái từ cha mẹ và giáo viên truyền tới con cái

 Học suốt đời





Con người học hỏi suốt đời
Tích lũy tri thức và kỹ năng
Học nhanh hơn và hiệu quả hơn

[Poole17] David L Poole, Alan K Mackworth. Artificial intelligence foundations of computational agents (2

nd

edition). Cambridge University Press,

2017. o/html/ArtInt_4.html

10

Xe tự lái: một hệ thống học suốt đời





Hình mô tả hệ thống học của “xe tự lái”
cảm biến quét xung quanh thông báo không ngừng tới hệ thống
hệ thống học sử dụng dữ liệu (i) Hướng dẫn hành động lái xe hiện thời; (ii) Chỉnh sửa chương trình và dữ liệu

/>
11

Học suốt đời: hiện diện một cộng đồng

công bố về học máy suốt đời
danh sách học giả học suốt đời
dự án học suốt đời chính
Các sự kiện học suốt đời
thông báo và tin tức học suốt đời

/>12

Học suốt đời: một cộng đồng

Bing Liu. Sentiment Analysis Mining Opinions Sentiments and Emotions. Cambridge University Press, 2015 (11
Mining Intentions)

/>13

Một thư xin tài liệu

14

Một chương trình nghiên cứu

 Thông tin chung






Cơ quan nghiên cứu Bộ Quốc phòng Mỹ (Defense Advanced Research Projects Agency: DARPA)
Quản lý chương trình: Tiến sĩ Hava Siegelmann,
/> />Hava_T= (J40, C42)

 Mục tiêu kỹ thuật



Cơ chế học máy: học máy liên tục áp dụng kinh nghiệm quá khứ và thích ứng "bài học kinh nghiệm" với dữ

liệu/tình huống mới, phát triển kỹ thuật giám sát hành vi hệ thống học máy, đặt phạm vi khả năng thích ứng, và can
thiệp vào chức năng hệ thống khi cần.
Lý thuyết mạng, thuật toán, phần mềm và kiến trúc máy tính.



Cơ chế học sinh học: (i) hệ sinh thái học: di truyền từ thế hệ cha → con: di truyền toàn bộ, di truyền chỉ khả năng
học, v.v.?; (ii) làm thích nghi áp dụng được tới hệ thống học máy.

/>15

Học máy truyền thống liên quan

-

Học máy: một bài toán tối ưu hóa
Học chuyển đổi
Học đa nhiệm theo lô
Học trực tuyến đơn nhiệm
Học tăng cường

16

Học máy giám sát ≡ tối ưu hóa

 Bài toán học máy giám sát





Cho miền dữ liệu I và một tập nhãn O (hữu hạn)
Tồn tại một ánh xạ f: I → O, f chưa biết

Input



Cho “tập ví dụ mẫu” IL: (IL⊂I∧IL≠∅),
f xác định trên IL, ∀i∈ IL: f(i)=o đã biết.

Output



Tìm ánh xạ toàn bộ f* xấp xỉ tốt nhất f

 Ví dụ và trao đổi






Miền dữ liệu I = {nhận xét sản phẩm A}, O = {khen, chê}
Ánh xạ f: I → O, f chưa biết
Input: Tập ví dụ mẫu IL gồm đánh giá đã có nhãn khen/chê.
Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi nhận xét.

17

Xấp xỉ tốt nhất?

 Biết f chỉ ở một bộ phận (tập I ): f|
L
IL



Thách thức

 Tập G vô hạn các ánh xạ, g∈G, g: I→O
 Chưa biết f toàn bộ




Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f
f|IL là toàn bộ “hiểu biết” về f

 vừa để tìm ra f*
 vừa để kiểm tra tính “tốt nhất” của f*
 Xấp xỉ tốt nhất






Giả thiết: IL “đại diện” cho I; “mọi đặc trưng của I” đều tìm được từ IL.
“đánh giá” cần độc lập với “xây dựng”
IL: vừa tìm f* vừa đánh giá f*. Chia ngẫu nhiên IL = ITrain + ITest. ITrain xây dựng f* và ITest đánh giá f*.
Một số độ đo “tốt” liên quan đến tính “tốt nhất”

18

Học máy không giám sát ≡ tối ưu hóa

 Bài toán học không giám sát







Cho I là tập dữ liệu I={<i>},
Cho tập G là tập các ánh xạ g: I→Z với Z là tập số nguyên
Cho một độ đo “tốt” trên tập các ánh xạ G
Tìm hàm f: I→Z đạt độ đo “tốt nhất” trên tập G.
Trường hợp đơn giản:




G = {g là một phân hoạch của I: g={I 1,I2,…, Ig} và I=ΣIj}}
tìm f là phân hoạch tốt nhất

19

Học truyền thống và học chuyển đổi
 Học truyền thống và Học chuyển đổi



Học truyền thống: (i) Cho bài toán/miền A: có dữ liệu có nhãn để dạy mô hình A, áp dụng mô hình tới dữ liệu chưa nhãn của A; (ii)
Cho bài toán/miền B: cần đủ ví dụ mẫu cho B; (iii) Không liên hệ học A và B



Học chuyển đổi: (i) Transfer learning/domain adaptation (thích ứng miền); (ii) Miền B: một/nhiều miền nguồn, nhiều dữ liệu có nhãn;
Miền đích A: ví dụ mẫu ít/vắng; (iii) Liên kết học B tới A ; (iv): Giả thiết quan trọng: miền nguồn “tương tự” miền đích : tri thức
miền B dùng cho học miền đích A

www.comp.nus.edu.sg/~leews/MLSS/Transfer1.pptx
20

Học chuyển đổi và học suốt đời

 Kiểu truyền tri thức miền nguồn cho miền đích





chuyển dịch “ví dụ có nhãn nguồn” → “ví dụ có nhãn đích”; NLP
chuyển dịch “đặc trưng nguồn” → “đặc trưng đích”
Học tương ứng cấu trúc Structural Correspondence Learning: SCL: ứng dụng văn bản, “dấu hiệu đặc trưng” cùng
xuất hiện ở hai miền “đặc trưng then chốt”, ví dụ từ phổ biến ở cả hai miền



Học sâu (deep learning) trong học chuyển đổi.

 Phân biệt học suốt đời với học chuyển đổi





Học chuyển đổi không học liên tục và không tích lũy tri thức
Học chuyển đổi là một chiều
Học suốt đời không đòi hỏi yêu cầu tương tự miền

Textual Entailment: Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu. An Empirical Study of Recognizing Textual Entailment in Japanese
Text. CICLing (1) 2012: 438-449; Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh Nguyen Thi. Refining the Judgment Threshold to
Improve Recognizing Textual Entailment Using Similarity. ICCCI (2) 2012: 335-344.
VietSentiWordNet: Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu.An Upgrading Feature-Based Opinion Mining Model on
Vietnamese Product Reviews. AMT 2011: 173-185.

21

Học đa nhiệm theo lô và học suốt đời

 Giới thiệu




multi-task learning/batch multi-task learning “theo lô”
Định nghĩa: học nhiều bài toán � = {1, 2, …, N} đồng thời, mỗi bài toán j có dữ liệu học Dj. Mục tiêu tối ưu hóa hiệu
năng mọi bài toán

 Giả thiết các bài toán có liên quan chặt




Dữ liệu bài toán trong cùng một không gian, các mô hình bài toán “tựa” trên một mô hình tổng quát
Sử dụng chung tập đặc trưng

 Phân biệt học suốt đời với học đa nhiệm theo lô





Cùng mục địch chia sẻ thông tin hỗ trợ việc học.
Học đa nhiệm theo mô hình truyền thống: không tích lũy tri thức, không sử dụng khái niệm học liên tục
Học đa nhiệm trực tuyến: một kiểu học suốt đời do có giữ lại tri thức cho học về sau

22

Học trực tuyến đơn nhiệm& học suốt đời

 Giới thiệu




Online machine learning
Định nghĩa: Điểm dữ liệu huấn luyện diễn ra tuần tự theo một thứ tự nhất định, khi điểm dữ liệu
mới xuất hiện mô hình hiện tại được cập nhật để phù hợp tốt nhất



Là một mô hình học theo ghi nhớ

 Phân biệt học suốt đời với học trực tuyến



Học trực tuyến: Thực hiện chỉ một bài toán theo thời gian, không lưu tri thức, không sử dụng tri
thức từ trước.



Học suốt đời: học một chuỗi bài toán khác nhau, lưu và sử dụng tri thức hỗ trợ bài toán mới

23

Học tăng cường và học suốt đời

 Giới thiệu





Reinforcement Learning: RL
Định nghĩa: học cách hành động theo tiếp cận tương tác “thử và đánh giá lỗi” trong môi trường động. Mục đích:
Thử và đánh giá lỗi trong mỗi bước tương tác: (i) nhận input chứa trạng thái môi trường hiện thời; (ii) Chọn một
hành động trong tập hành động có thể → thay đổi môi trường, (iii) Tính lại giá trị trạng thái môi trường: thưởng
hoặc phạt.



Học được quỹ đạo tối ưu hóa mục tiêu ánh xạ trạng thái → hành động để cực đại tổng thưởng trong thời gian dài.

 Phân biệt học suốt đời với học tăng cường



Học tăng cường:




chi phạm vi một bài toán và ở một môi trường,
không tích lũy và sử dụng tri thức.

24

Học máy suốt đời là gì?

-

Thrun 1996
Silver 2013
Z. Chen và B. Liu 2014-2016

25

BÀI GIẢNG KHAI PHÁ dữ LIỆU nội dung bổ sung về khai phá dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về