Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 1
Báo Cáo Viên: PGS.TS. Vũ Thanh Nguyên
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 2
Công nghệ Máy học là một trong những phương
pháp chính trong khai phá dữ liệu. Nó được sử
dụng trong tiến trình khám phá tri thức.
Một số lợi ích của máy học:
Các thông tin ngày càng nhiều, hàng ngày ta phải xử lý rất nhiều
thông tin đến từ nhiều nguồn khác nhau. Máy học có thể giúp xứ lý
và dự báo các thông tin đó bằng cách tạo ra các luất sản xuất từ dữ
liệu thu thập.
Ở những nơi không có chuyên gia, máy học có thể giúp tạo ra được
các quyết định từ các dữ liệu có được.
Các thuật toán máy học có thể giúp xử lý khi dữ liệu không đầy đử,
không chính xác.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 3
Một số lợi ích của máy học:
Máy học giúp thiết kế hệ thống huấn luyện tự động (mạng nơrôn
nhân tạo) và giải mã mối liên hệ giữa các tri thức được lưu trữ trong
mạng từ dữ liệu.
…
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 4
Rất khó để định nghĩa một cách chính xác về
máy học.
“Học - learn” có ý nghĩa khác nhau trong từng
lĩnh vực: tâm lý học, giáo dục, trí tuệ nhân tạo,
…
Một định nghĩa rộng nhất: “máy học là một cụm
từ dùng để chỉ khả năng một chương trình máy
tính để tăng tính thực thi dựa trên những kinh
nghiêm đã trải qua” hoặc “máy học là để chỉ khả
năng một chương trình có thể phát sinh ra một
cấu trúc dữ liệu mới khác với các cấu trúc dữ
liệu cũ”
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 5
Lợi điểm của các phương pháp máy học là nó
phát sinh ra các luật tường minh, có thể được
sửa đổi, hoặc được huấn luyện trong một giới
hạn nhất định.
Các phương pháp máy học hoạt động trên các
dữ liệu có đặc tả thông tin.
Các thông tin được trình bày theo một cấu trúc
gồm 4 mức được gọi là tri thức kim tự tháp
(pyramid knowledge).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 6
Mô hình kim tự tháp: Từ dữ liệu đến tri thức.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 7
Máy học là sự tự động của quy trình học và việc
học thì tương đương với việc xây dựng những
luật dựa trên việc quan sát trạng thái trên cơ sở
dữ liệu và những sự chuyển hoá của chúng.
Đây là lĩnh vực rộng lớn không chỉ bao gồm việc
học từ mẫu, mà còn học tăng cường, học với
“thầy”,
Các thuật toán học lấy bộ dữ liệu và những
thông tin quen thuộc của nó khi nhập và trả về
một kết quả câu nói hay một câu ví dụ, một khái
niệm để diễn tả những kết quả học.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 8
Máy học kiểm tra những ví dụ trước đó và kiểm
tra luôn cả những kết quả của chúng khi xuất và
học làm cách nào để tái tạo lại những kết quả
này và tạo nên những sự tổng quát hóa cho
những trường hợp mới.
Nói chung, máy học sử dụng một tập hữu hạn dữ
liệu được gọi là tập huấn luyện. Tập này chứa
những mẫu dữ liệu mà nó được viết bằng mã
theo một cách nào đó để máy có thể đọc và hiểu
được.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 9
Tuy nhiên, tập huấn luyện bao giờ cũng hữu hạn
do đó không phải toàn bộ dữ liệu sẽ được học
một cách chính xác.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 10
Một tiến trình máy học gồm 2 giai đoạn:
Giai đoạn học (learning): hệ thống phân tích dữ liệu và
nhận ra sự mối quan hệ (có thể là phi tuyến hoặc tuyến
tính) giữa các đối tượng dữ liệu. Kết quả của việc học có
thể là: nhóm các đối tượng vào trong các lớp, tạo ra các
luật, tiên đoán lớp cho các đối tượng mới.
Giai đoạn thử nghiệm (testing): Mối quan hệ (các luật,
lớp ) được tạo ra phải được kiểm nghiệm lại bằng một
số hàm tính toán thực thi trên một phần của tập dữ liệu
huấn luyện hoặc trên một tập dữ liệu lớn.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 11
Các thuật toán máy học được chia làm 3 loại:
học giám sát, học không giám sát và học nửa
giám sát.
Học có giám sát (Supervised Learning).
Đây là cách học từ những mẫu dữ liệu mà ở đó các kỹ
thuật máy học giúp hệ thống xây dựng cách xác định
những lớp dữ liệu. Hệ thống phải tìm một sự mô tả cho
từng lớp (đặc tính của mẫu dữ liệu).
Người ta có thể sử dụng các luật phân loại hình thành
trong quá trình học và phân lớp để có thể sử dụng dự báo
các lớp dữ liệu sau này.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 12
Học có giám sát (Supervised Learning).
Thuật toán học có giám sát gồm tập dữ liệu huấn luyện
M cặp:
S = {(x
i
, c
j
)| i=1,…,M; j=1,…,C}
Các cặp huấn luyện này được gọi là mẫu, với
x
i
là vector n-chiều còn gọi là vector đặc trưng,
c
j
là lớp thứ j đã biết trước.
Thuật toán máy học giám sát tìm kiếm không gian của
những giả thuyết có thể, gọi là H. Đối với một hay nhiều
giả thuyết, mà ước lượng tốt nhất hàm không được biết
chính xác f : x
c.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 13
Học có giám sát (Supervised Learning).
Đối với công việc phân lớp có thể xem giả thuyết như
một tiêu chí phân lớp.
Thuật toán máy học tìm ra những giả thuyết bằng cách
khám phá ra những đặc trưng chung của những ví dụ
mẫu thể hiện cho mỗi lớp.
Kết quả nhận được thường ở dạng luật (Nếu thì).
Khi áp dụng cho những mẫu dữ liệu mới, cần dựa trên
những giả thuyết đã có để dự báo những phân lớp tương
ứng của chúng. Nếu như không gian giả thuyết lớn, thì
cần một tập dữ liệu huấn luyện đủ lớn nhằm tìm kiếm
một hàm xấp xỉ tốt nhất f.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 14
Học có giám sát (Supervised Learning).
Tùy thuộc vào mức độ của thuật toán học giám sát,
người ta có những mô hình học giám sát như sau:
Học vẹt (rote): hệ thống luôn luôn được “dạy” những luật
đúng, rồi có học hội tụ.
Học bằng phép loại suy (analogy): hệ thống được dạy phản hồi
đúng cho một công việc tương tự, nhưng không xác định. Vì
thế hệ thống phải hiệu chỉnh phản hồi trước đó bằng cách tạo ra
một luật mới có thể áp dụng cho trường hợp mới.
Học dựa trên trường hợp (case-based learning): trong trường
hợp này hệ thống học lưu trữ tất cả các trường hợp, cùng với
kết quả đầu ra của chúng. Khi bắt gặp một trường hợp mới, nó
sẽ cố gắng hiệu chỉnh đến trường hợp mới này cách xử lý trước
đó của nó đã được lưu trữ.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 15
Học có giám sát (Supervised Learning).
Học dựa trên sự giải thích (explanation-based learning), hệ
thống sẽ phân tích tập hợp những giải pháp nhằm chỉ ra tại sao
mỗi phương pháp là thành công hay không thành công. Sau khi
những giải thích này được tạo ra, chúng sẽ được dùng để giải
quyết những vấn đề mới.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 16
Học Không giám sát (Unsupervised Learning).
Đây là việc học từ quan sát và khám phá. Hệ
thống khai thác dữ liệu được ứng dụng với
những đối tượng nhưng không có lớp được định
nghĩa trước, mà để nó phải tự hệ thống quan sát
những mẫu và nhận ra mẫu. Hệ thống này dẫn
đến một tập lớp, mỗi lớp có một tập mẫu được
khám phá trong tập dữ liệu.
Học không giám sát còn gọi là học từ quan sát
và khám phá.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 17
Học Không giám sát (Unsupervised Learning).
Trong trường hợp chỉ có ít, hay gần như không
có tri thức về dữ liệu đầu vào, khi đó một hệ
thống học không giám sát sẽ khám phá ra những
phân lớp của dữ liệu, bằng cách tìm ra những
thuộc tính, đặc trưng chung của những mẫu hình
thành nên tập dữ liệu.
Một thuật toán máy học giám sát luôn có thể
biến đổi thành một thuật toán máy học không
giám sát (Langley 1996).
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 18
Học Không giám sát (Unsupervised Learning).
Đối với một bài toán mà những mẫu dữ liệu
được mô tả bởi n đặc trưng, người ta có thể chạy
thuật toán học giám sát n-lần, mỗi lần với một
đặc trưng khác nhau đóng vai trò thuộc tính lớp,
mà chúng ta đang tiên đoán.
Kết quả sẽ là n tiêu chí phân lớp (n bộ phân lớp),
với hy vọng là ít nhất một trong n bộ phân lớp
đó là đúng.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 19
Học nửa giám sát.
Học nửa giám sát là các thuật toán học tích hợp
từ học giám sát và học không giám sát. Việc học
nửa giám sát tận dụng những ưu điểm của việc
học giám sát và học không giám sát và loại bỏ
những khuyết điểm thường gặp trên hai kiểu học
này.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 20
Thuật Toán Naïve Bayes
Đây là thuật toán được xem là đơn giản và đước sử dụng
rộng rãi.
Thuật toán Naïve Bayes dựa trên định lý Bayes được
phát biểu như sau:
Trong đó:
Y đại diện một giả thuyết, giả thuyết này được suy luận khi có được chứng cứ
mới X
P(X) : xác xuất X xảy ra, P(Y) : xác xuất Y xảy ra
P(X|Y) : xác xuất X xảy ra khi Y xảy ra (xác suất có điều kiện, khả năng của X
khi Y đúng)
P(Y|X) : xác suất hậu nghiệm của Y nếu biết X.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 21
Thuật Toán Naïve Bayes được ứng dụng rất
nhiều trong thực tế. Một trong những ứng dụng
cụ thể là ứng dụng bài toán phân lớp.
Đây là thuật toán được xem là đơn giản nhất
trong các phương pháp phân lớp. Bộ phân lớp
Bayes có thể dự báo các xác suất là thành viên
của lớp, chẳng hạn xác suất mẫu cho trước thuộc
về một lớp xác định.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 22
Với mỗi lớp dữ liệu trong bộ huấn luyện, ta tính
xác suất phụ thuộc của văn bản cần phân loại:
Với c
1
là lớp dữ liệu cần tính xác suất và x là văn bản dữ
liệu cần phân loại
Công thức tính P(x|c
i
):
P(x|c
i
) = P(w
1
|c
i
)*P(w
2
|c
i
)*…*P(w
n
|c
i
)
Trong đó: P(w
k
|c
i
) là xác suất xuất hiện của từ w
k
trong lớp văn bản c
i
(k=1n; i=1,2,3…)
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 23
Mô hình Hệ thống mạng Nơrôn Lan truyền
ngược – Backpropogation Neural Network
(FNN).
Các mô hình sử dụng mạng neuron là một cách tiếp cận
khá phổ biến cho vấn đề nêu trên. Điều đó xuất phát từ
khả năng ghi nhớ và học của cấu trúc này.
Bên cạnh đó, tính ổn định của mạng neuron cũng là một
yếu tố quan trọng giúp nó được chọn vì đây là điều kiện
quan trọng đặt ra cho bài toán mô hình.
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 24
Thuật toán lan truyền ngược (BackPropagation
Algorithm)
file: backproalgorithm.pdf
Phương pháp cài đặt cho thuật toán học Back-
Propagation.
file: setup_backproalgorithm.pdf
Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 25
Mô hình hệ thống mạng Nơrôn dạng hàm radial
- RADIAL BASIS FUNCTION NEURAL
NETWORKS (RBFNNs).
Hệ thống Mạng Nơrôn RBFNNs sẽ giải quyết vấn đề xấp xỉ một
hàm liên tục n biến trên một miền compact. RBFNNs tiến hành lấy
đặc trưng cục bộ của hàm, và như vậy sẽ dễ dàng khởi tạo và huấn
luyện dữ liệu khi học.