Tải bản đầy đủ (.pdf) (14 trang)

Phương pháp thống kê đánh giá và so sánh các thuật toán máy học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (773.89 KB, 14 trang )

Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 1

Cross Validation – Phương pháp thống kê đánh giá và so sánh
các thuật toán máy học
1. Giới thiệu
Việc đánh giá hiệu năng hệ thống máy học thường được thực hiện dựa trên thực
nghiệm (experimentally), hơn là dựa trên phân tích (analytically). Xem qui trình
phân tích hệ thống máy học trong hình 1. Các đánh giá phân tích (analytical
evaluation) nhằm chứng minh một hệ thống là đúng đắn (correct) và hoàn chỉnh
(complete). Ví dụ, các bộ chứng minh định lý trong Logics. Ta không thể xây
dựng một đặc tả (định nghĩa) hình thức của vấn đề mà một hệ thống máy học giải
quyết. Đối với bài toán máy học, để đánh giá hiệu năng của hệ thống ta cần có các
điều kiện sau:
- Thực hiện một cách tự động, sử dụng một tập các ví dụ (tập thử nghiệm)
- Không cần sự tham gia (can thiệp) của người dùng.


Hình 1: Phân tích bộ phân lớp
Để thu được một đánh giá đáng tin cậy về hiệu năng của hệ thống, ta cần có:
- Tập huấn luyện càng lớn, thì hiệu năng của hệ thống học càng tốt
Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 2

- Tập kiểm thử càng lớn, thì việc đánh giá càng chính xác
Tuy nhiên, rất khó (ít khi) có thể có được các tập dữ liệu (rất) lớn. Trong đó, hiệu
năng của hệ thống không chỉ phụ thuộc vào giải thuật học máy được sử dụng, mà
còn phụ thuộc vào:
- Phân bố lớp (Class distribution)
- Chi phí của việc phân lớp sai (Cost of misclassification)
- Kích thước của tập huấn luyện (Size of the training set)


- Kích thước của tập kiểm thử (Size of the test set)
1.1 Các kiểu huấn luyện
1.1.1 Học có giám sát
Học có giám sát là một kĩ thuật xây dựng một hàm (function) từ dữ liệu huấn
luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường
dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một hàm có thể là một giá trị
liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loại cho một đối
tượng đầu vào (gọi là phân loại). Nhiệm vụ của chương trình học có giám sát là
dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã
xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương
ứng). Để đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu
sẵn có để dự đoán được những tình huống chưa gặp phải theo một cách "hợp
lí".
Học có giám sát có thể tạo ra 2 loại mô hình. Phổ biến nhất, học có giám sát
tạo ra một mô hình toàn cục (global model) để ánh xạ đối tượng đầu vào đến
đầu ra mong muốn. Tuy nhiên, trong một số trường hợp, việc ánh xạ được thực
hiện dưới dạng một tập các mô hình cục bộ (như trong phương pháp lập luận
theo tình huống (case-based reasoning) hay giải thuật láng giềng gần nhất).
Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 3

Để có thể giải quyết một bài toán nào đó của học có giám sát (ví dụ: học để
nhận dạng chữ viết tay) người ta phải xem xét nhiều bước khác nhau:
 Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ điều gì, ta
nên quyết định loại dữ liệu nào sẽ được sử dụng làm ví dụ. Chẳng hạn,
đó có thể là một kí tự viết tay đơn lẻ, toàn bộ một từ viết tay, hay toàn
bộ một dòng chữ viết tay.
 Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho thực tế sử
dụng của hàm chức năng. Vì thế, một tập các đối tượng đầu vào được
thu thập và đầu ra tương ứng được thu thập, hoặc từ các chuyên gia

hoặc từ việc đo đạc tính toán.
 Xác định việc biễu diễn các đặc trưng đầu vào cho hàm chức năng cần
tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối
tượng đầu vào được biểu diễn. Thông thường, đối tượng đầu vào được
chuyển đổi thành một vec-tơ đặc trưng, chứa một số các đặc trưng nhằm
mô tả cho đối tượng đó. Số lượng các đặc trưng không nên quá lớn, do
sự bùng nổ tổ hợp nhưng phải đủ lớn để dự đoán chính xác đầu ra.
 Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương
ứng. Ví dụ, người kĩ sư có thể lựa chọn việc sử dụng mạng nơ-ron nhân
tạo hay cây quyết định.
 Hoàn thiện thiết kế. Người kĩ sư sẽ chạy giải thuật học từ tập huấn luyện
thu thập được. Các tham số của giải thuật học có thể được điều chỉnh
bằng cách tối ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng -
validation set) của tập huấn luyện, hay thông qua kiểm chứng chéo
(cross-validation). Sau khi học và điều chỉnh tham số, hiệu năng của
giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập huấn
luyện.
1.1.2 Học bán giám sát
Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 4

Các phương pháp học bán giám sát sẽ rất hữu ích khi dữ liệu chưa gán nhãn
nhiều hơn dữ liệu gán nhãn. Việc thu được dữ liệu gán nhãn là rẻ, nhưng để
gán nhãn chúng thì tốn rất nhiều thời gian, công sức và tiền bạc. Học bán giám
sát có thể được xem là:
 Học giám sát cộng thêm dữ liệu chưa gán nhãn (Supervised learning +
additional unlabeled data).
 Học không giám sát cộng thêm dữ liệu gán nhãn (Unsupervised learning
+ additional labeled data).
Học bán giám sát chính là cách học sử dụng thông tin chứa trong cả dữ liệu

chưa gán nhãn và tập dữ liệu huấn luyện. Các thuật toán học bán giám sát có
nhiệm vụ chính là mở rộng tập các dữ liệu gán nhãn ban đầu. Hiệu quả của
thuật toán phụ thuộc vào chất lượng của các mẫu gán nhãn được thêm vào ở
mỗi vòng lặp và được đánh giá dựa trên hai tiêu chí:
 Các mẫu được thêm vào phải được gán nhãn một cách chính xác.
 Các mẫu được thêm vào phải mang lại thông tin hữu ích cho bộ phân
lớp (hoặc dữ liệu huấn luyện).
1.2 Vấn đề quá khớp (overfitting)
1.2.1 Learning curve – Biểu đồ học
Dùng biểu đồ học để thao dõi việc học của chương trình huấn luyện (classifier,
hoặc các tham số huấn luyện) được tiến triển như thế nào trong suốt quá trình
học. Thông thường, trong khoản thời gian đầu việc học phát triển rất nhanh và
chậm dần trong khoản thời gian sau và đạt đến trạng thái tối ưu. Theo logic, thì
học càng nhiều và càng lâu thì người học sẽ càng giỏi (biểu hiện thông qua
biểu đồ học ngày sẽ càng tăng).
Biểu đồ học thường được xác định thông qua các hàm cực tiểu xác suất lỗi
(minimize generalization error) hoặc các hàm ước lượng cực đại khả năng xảy
ra (maximization likelihood estimation) tuỳ theo từng bài toán cụ thể.
Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 5

Song song với biểu đồ học, ta có biểu đồ kiểm tra việc học (testing curve).
Việc kiểm tra đạt kết quả cao hay thấp sẽ đánh giá được quá trình học là tốt
hay không tốt. Việc kiểm tra tốt thông thường là ngẫu nhiên và khách quan với
việc học cho nên việc kiểm tra thường hiếm khi trùng khớp với những gì đã
học, ngoại trừ kiểm tra việc học theo cách học thuộc long. Do vậy, biểu đồ
kiểm tra thường phải thấp hơn biểu đồ học.

Hình 2: Biểu đồ học và kiểm tra việc học
1.2.2 Xác định quá khớp

Trong việc huấn luyện, mục tiêu là làm thế nào để người học được huấn luyện
một cách tốt nhất. Trong nhiều trường hợp, biểu đồ học cho thấy quá trình
huấn luyện là rất tốt, nhưng khi kiểm tra thì lại không đạt kết quả cao. Nếu
tiếp tục quá trình học cây quyết định sẽ làm giảm độ chính xác đối với tập thử
nghiệm mặc dù tăng độ chính xác đối với tập học. Ví dụ, một sinh viên đạt
được điểm số và thành tích trong học tập rất cao, nhưng khi ra trường làm việc
thì đạt kết quả thấp. Điều đó cho thấy quá trình huấn luyện có vấn đề, và các
vấn đề trong quá trình huấn luyện là do một số nguyên nhân như sau:
Các hệ cơ sở tri thức Cross Validation
Nguyễn Thị Ngọc Thanh – CH1101132 Page 6


Hình 3: Minh hoạ vấn đề quá khớp
1.2.3 Xữ lý quá khớp
Ngừng việc học (phát triển) cây quyết định sớm hơn, trước khi nó đạt tới cấu
trúc cây cho phép phân loại (khớp) hoàn hảo tập huấn luyện.
Học (phát triển) cây đầy đủ (tương ứng với cấu trúc cây hoàn toàn phù hợp đối
với tập huấn luyện), và sau đó thực hiện quá trình tỉa (to post-prune) cây.
Chiến lược tỉa cây đầy đủ (Post-pruning over-fit trees)thường cho hiệu quả tốt
hơn trong thực tế vì chiến lược “ngừng sớm” việc học cây cần phải đánh giá
chính xác được khi nào nên ngừng việc học (phát triển) cây, điều này khó xác
định.

×