Giáo trình giảng dạy Máy học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (779.94 KB, 41 trang )

1
HỌC MÁY
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
Thạc sĩ: Phạm Đức Hồng
2
Nội dung trình bày

Khái niệm

Các loại thuật toán

Các ví dụ học máy

Quy trình giải quyết bài toán bằng phương
pháp máy học

Biểu diễn dữ liệu

Các thuật toán máy học
3
Khái niệm Học máy

Học máy là một phương pháp để tạo ra các
chương trình máy tính bằng việc phân tích các tập
dữ liệu.

Học máy có liên quan lớn đến thống kê, vì cả hai
lĩnh vực đều nghiên cứu việc phân tích dữ liệu,
nhưng khác với thống kê, học máy tập trung vào
sự phức tạp của các giải thuật trong việc thực thi
tính toán

4
Ứng dụng Học máy

Các ứng dụng Học máy bao gồm:

Máy truy tìm dữ liệu.

Chẩn đoán y khoa.

Phát hiện thẻ tín dụng giả.

Phân tích thị trường chứng khoán.

Phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ
viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot
locomotion).
5
Các loại thuật toán Học máy

Học có giám sát trong đó, thuật toán tạo ra một
hàm ánh xạ dữ liệu vào tới kết quả mong muốn.
Một phát biểu chuẩn về một việc học có giám sát
là bài toán phân loại: chương trình cần học (cách
xấp xỉ biểu hiện của) một hàm ánh xạ một vector
tới một vài lớp bằng cách xem xét một số mẫu
dữ_liệu - kết_quả của hàm đó.

Học không giám sát mô hình hóa một tập dữ
liệu, không có sẵn các ví dụ đã được gắn nhãn.
6

Các loại thuật toán Học máy (tiếp)

Học nửa giám sát : kết hợp các ví dụ có gắn
nhãn và không gắn nhãn để sinh một hàm
hoặc một bộ phân loại thích hợp.

Học tăng cường : trong đó, thuật toán học
một chính sách hành động tùy theo các quan
sát về thế giới. Mỗi hành động đều có tác
động tới môi trường, và môi trường cung cấp
thông tin phản hồi để hướng dẫn cho thuật
toán của quá trình học.
7
Các loại thuật toán Học máy (tiếp)

Chuyển đổi tương tự học có giám sát nhưng
không xây dựng hàm một cách rõ ràng. Thay vì
thế, cố gắng đoán kết quả mới dựa vào các dữ
liệu huấn luyện, kết quả huấn luyện, và dữ liệu
thử nghiệm có sẵn trong quá trình huấn luyện.

Học cách học trong đó thuật toán học thiên
kiến quy nạp của chính mình, dựa theo các kinh
nghiệm đã gặp.
8
Biểu diễn một bài toán học máy
9
Các ví dụ học máy
10
Các ví dụ học máy (tiếp)

11
Các ví dụ học máy (tiếp)
12
Các ví dụ học máy (tiếp)
13
Quy trình học máy
14
Quy trình giải bài toán học giám sát
15
Các thuật toán học

Các thuật toán học bao gồm:

Bayes (Mitchell, 1996).

Cây quyết định (Fuhr et al, 1991).

Véc-tơ trọng tâm (Centroid- based vector) (Han
và Karypis, 2000).

k-láng giềng gần nhất (Yang, 1994).

Mạng nơron (Wiener et al, 1995).

Support vector machines (Joachims, 1998).
16
Biểu diễn dữ liệu
17
Biểu diễn dữ liệu (tiếp)


Đối với dữ liệu phi cấu trúc thì phải biểu diễn
bằng dữ liệu có cấu trúc.

Biểu diễn dữ liệu bằng Mô hình thông tin không
gian-Vector
18
Ví dụ: Biểu diễn ảnh bằng Véc-tơ
19
Ví dụ: Biểu diễn văn bản bằng véc - tơ

Cho văn bản D = “Khi tất cả đều nghĩ hai
đội mạnh nhất Đông Nam Á sắp sửa vào
hai hiệp phụ thì bất ngờ cái đầu vàng của
Lê Công Vinh đội lên tích tắc mang về
chiếc cúp AFF cho đội tuyển Việt Nam ”

Giả sử bộ từ điển bao gồm: “Thể_thao,
Bóng_đá, Đội_tuyển, Đông_Nam_Á,
Cúp_AFF, Việt_Nam”
Thì văn bản D được biểu diễn bằng
phương pháp tần suất là: D = (0,0,1,1,1,1)
20
Biểu diễn dữ liệu (tiếp)

Hình: Biểu diễn các véc-tơ văn bản trong không
gian chỉ có 2 thuật ngữ
21

Các giá trị wij được tính dựa trên tần số (hay
số lần) xuất hiện của thuật ngữ trong văn bản.

Gọi fij là số lần xuất hiện của thuật ngữ ti trong
văn bản dj, khi đó wij được tính bởi một trong
ba công thức:



Trong đó: log(X) - logarit cơ số 10 của X.
22
Các thuật toán máy học

Lựa chọn, mô hình học hiệu quả phát triển
-
Bayes (Mitchell, 1996).
-
Cây quyết định (Fuhr et al, 1991).
-
Véc-tơ trọng tâm (Centroid- based vector) (Han
và Karypis, 2000).
-
k-láng giềng gần nhất (Yang, 1994).
-
Mạng nơron (Wiener et al, 1995).
-
Support vector machines (Joachims, 1998).
23
Phân loại Bayes
24
Phân loại Bayes (tiếp)

Định lý Bayes cho phép tính xác suất xảy ra

của một sự kiện ngẫu nhiên A khi biết sự
kiện liên quan B đã xảy ra. Xác suất này
được ký hiệu là P(A|B), và đọc là "xác suất
của A nếu có B".
25
Bayes (tiếp)

Theo định lí Bayes, xác suất xảy ra A khi biết
B sẽ phụ thuộc vào 3 yếu tố:

Xác suất xảy ra A của riêng nó, không quan tâm
đến B. Kí hiệu là P(A) và đọc là xác suất của A

Xác suất xảy ra B của riêng nó, không quan tâm
đến A. Kí hiệu là P(B) và đọc là "xác suất của B".

Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|
A) và đọc là "xác suất của B nếu có A".

Khi biết ba đại lượng này, xác suất của A khi
biết B cho bởi công thức:

Giáo trình giảng dạy Máy học

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về