Tải bản đầy đủ (.doc) (15 trang)

tin moi day!

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (103.93 KB, 15 trang )

CHƯƠNG II-CÁC KHÁI NIỆM VÀ VIỆC SẮP XẾP TỪ TỔNG QUÁT ĐẾN CỤ THỂ
Vấn đề quy nạp các chức năng tổng quát từ những ví dụ cụ thể là trung tâm của việc học.Chương này
nghiên cứu về các khái niệm: tìm ra định nghĩa của loại tổng quát từ một ví dụ điển hình của …….Việc
học các khái niệm có thể được trình bày rõ ràng như là một vấn đề của việc tìm kiếm một giả thuyết phù
hợp nhất cho các ví dụ luyện tập,thông qua khoảng trống đã được định nghĩa trước của những giả thuyết
tiềm ẩn.Trong nhiều trường hợp việc nghiên cứu này có thể được tổ chức hiệu quả bằng việc tận dụng một
cấu trúc xuất hiện ngẫu nhiên ở khoảng trống của giả thuyết-đó là việc sắp xếp từ tổng quát đến cụ thể các
giả thuyết.Chương này trình bày một số thuật toán vá xem xét các tình huống mà chúng có thể đồng quy
về một giả thuyết chính xác.Chúng tôi cũng nghiên cứu bản chất việc học quy nạp và lý lẽ hợp lý mà bất
cứ chương trình nào cũng có thể khái quát hóa dựa vào lý lẽ này,ngoài những dữ liệu được quan sát.
2.1-GIỚI THIỆU
Đa số việc học bao gồm việc tìm ra những khái niệm tổng quát từ những ví dụ luyện tập cụ thể.Ví dụ như
con người dần biết được các khái niệm hay loại chung nào đó,như “chim”,”xe”,”những trường hợp mà tôi
nên học nhiều hơn để vượt qua kì thi”….Mỗi một khái niệm như vậy có thể được nhìn dưới góc độ như là
việc miêu tả một tập hợp con của các vật hay sự kiện nào đó được định nghĩa qua một tập hợp lơn hơn
(Ví dụ như tập hợp con của động vật cấu thành loài chim).Mỗi khái niệm có thể được nghĩ đến như một
hàm số hệ thống ghi đại số Boolean được định nghĩa thông qua tập hợp lớn này (ví dụ một hàm số được
định nghĩa dựa vào các con vật,tất cả những giá trị là đúng đối với chim và sai đối với các động vật khác.)
Trong chương này chúng tôi cũng nghiên cứu vấn đề suy luận một cách tự động định nghĩa chung của một
khái niệm nào đó,những ví dụ cụ thể xem như là thành viên hay không phải thành viên của khái niệm
đó.Bài tập này nói chung như là việc học các khái niệm ,hay là giống như một hàm số dùng các giá trị ghi
đại số của Boolean từ các ví dụ .
2.2-Bài tập tìm các khái niệm
Để đặt nền tảng cho việc thảo luận về việc học các khái niệm,chúng ta hãy nghiên cứu bài tập mẫu về tìm
ra khái niệm “những ngày mà bạn tôi Aldo chơi môn thể thao dưới nước yêu thích”.Bảng 2.1 miêu tả một
tập hợp các ngày ,mỗi ngày tượng trưng cho một tập hợp các đặc tính.Đặc tính Môn thể thao yêu thích cho
thấy Aldo có chơi môn thể thao dưới nước yêu thích của mình vào ngày này hay không.Bài tập này nhằm
mục đích học cách đoán trước giá trị Môn thể thao yêu thích cho một ngày tùy ý ,dựa vào các giá trị các
đặc tính của nó.
Chúng tôi sẽ trình bày giả thuyết nào trong trường hợp này?Chúng ta hãy bắt đầu bằng việc xem xét sự
trình bày đơn giản mà mỗi một giả thuyết bao gồm sự kết hợp các sự yêu cầu lên các đặc tính trong ví dụ


này.Cụ thể,hãy xem mỗi giả thuyết là một vector của 6 sự yêu cầu,làm rõ 6 giái trị của 6 đặc tính
Trời,Nhiệt độ không khí,độ ẩm,gió,nước và Dự báo.Với mỗi đặc tính,giả thuyết có thể hoặc là:
*chỉ ra bằng một dấu hỏi ? rằng bất kì giá trị nào đều được chấp nhận cho đặc tính này
*hoặc là nói rõ một giá trị đòi hỏi cụ thể (ví dụ ấm áp) cho đặc tính này
*hoặc là chỉ ra bằng một dấu (phi) rằng không có giá trị nào được chấp nhận cho đặc tính này.
Nếu một trường hợp x nào đó thỏa mãn tất cả những yêu cầu của giả thuyết h,thì h phân loại x là một ví
dụ tuyệt đối…Để minh họa,giả thuyết mà Aldo chơi môn thể thao dưới nước yêu thích của mình chỉ vào
những ngày lạnh với độ ẩm cao(không phụ thuộc vào các giá trị của các đặc tính khác ),được trình bày
bằng biểu thức (?,cold,high.?,?,?)
Giả thuyết chung nhất là –mỗi ngày là một ví dụ dương-được biểu thị bởi (?,?,?,?,?,?)
Và giả thuyết cụ thể nhất có thể là –rằng không ngày nào là một ví dụ dương—được biểu thị bởi (phi,…)
Tóm lại,bài tập tìm khái niệm Môn thể thao yêu thích đòi hỏi xem xét tập hợp những ngày mà Môn thể
thao yêu thích là Có,miêu tả tập hợp này bằng sự liên kết các sự đè nén đối với các đặc tính của ví dụ
này.Nói một cách tổng quát,bất kì bài tập tìm khái niệm nào cũng có thể được miêu tả bằng tập hợp các ví
dụ hàm số đích được xác định,bằng hàm số đích ,bằng tập hợp các giả thuyết có thể xảy ra được xem xét
bởi người học và bằng tập hợp các ví dụ luyện tập sẵn có.Định nghĩa của bài tập tìm khái niệm Môn thể
thao yêu thích trong phần giới thiệu chung này được đưa ra trong Bảng 2.2.
2.2.1.PHƯƠNG PHÁP KÍ HIỆU
Qua cuốn sách này,chúng tôi dùng thuật ngữ chuyên môn khi thảo luận các vấn đề về tìm khái niệm.Tập
hợp các thuật ngữ mà qua đó khái niệm được định nghĩa được gọi là tập hợp các ví dụ,mà chúng tôi đánh
dấu là X.Trong ví dụ trên,X là tập hợp tất cả các ngày có thể,mỗi ngày được biểu thị bởi các đặc tính
Trời,Nhiệt độ,Độ ẩm,Gió,Nước và Dự báo.Định nghĩa hay hàm số rút ra được gọi khái niệm đích,kí hiệu
là c.Nói khái quát,có thể là bất kì hàm số dùng các giá trị ghi đại số Boolean được định nghĩa qua tập hợp
X.;đó là,X→{0,1}.Trong ví dụ trên,khái niệm đích tương ứng với giá trị củaMôn thể thao yêu thích là
( c(x)=1 nếu ………..)
*Đã cho:
*Các ví dụ X:các ngày có thể,mỗi ngày được biểu thị bằng một đặc tính
-Trời(với các giá trị có thể là nắng,có mây hoặc mưa)
-Nhiệt độ…….
*Các giả thuyết H:mỗi giả thuyết ………………….

*Tìm ra:
-Một giả thuyết h trong H thỏa mãn h(x)=c(x) với mọi x trong X.
Khi nghiên cứu khái niệm đích,người học được cung cấp một tập hợp các ví dụ luyện tập,mỗi tập hopwj
bao gồm một tham số x trong tập hơp X,cùng với khái niệm đích c(x).Các tham số thỏa mãn c(x)=1 được
gọi là ví dụ dương,còn gọi là thành viên của khái niệm đích.Chúng tôi sẽ luôn viết cặp (x,c(x)) để biểu thị
ví dụ luyện tập bao gồm tham số x và khái niệm đích giá trị c(x).CHúng tôi sẽ dùng kí hiệu D để kí hiệu
tập hợp các ví dụ luyện tập sẵn có.
Được cung cấp một tập hợp các ví dụ luyện tập của khái niệm đích c,vấn đề phải giải quyết của người học
là đưa ra giả thuyết,hay là ước lượng giả thuyết c.Chúng tôi dùng kí hiệu H để kí hiệu tập hợp tất cả các
giả thuyết có thể xảy ra mà người học có thể xem xét liên quan đến sự giống nhau với khái niệm đích.Nói
khái quát,mỗi giả thuyết h trong H biểu thị một hàm số Boolean được xác định theo X;đó là,h:
X→{0,1}.Mục đích của người học là tìm ra giả thuyết h thỏa mãn h(x)=c(x) với mọi x trong X.
2.2.2-GIẢ THUYẾT HỌC THEO PHƯƠNG PHÁP QUI NẠP.
Chú ý rằng mặc dù nhiệm vụ của người học là xác định một giả thuyết h giống với khái niệm đích c dựa
vào tập hợp tham số X,thì thông tin duy nhất sẵn có đối với c là giá trị của nó dựa vào các ví dụ luyện
tập.Do đó,việc học các thuật toán quy nạp phải đảm bảo rằng giả thuyết đưa ra phải phù hợp với khái
niệm đích dựa vào các dữ liệu luyện tập.Thiếu bất kì thông tin nào,thì giả thuyết đúng đắn nhất liên quan
đến các tham số không nhìn thấy là giả thuyết phù hợp nhất với các dữ liệu luyện tập được thấy.Đây là sự
đạt được quan trọng nhất của việc học theo cách quy nạp,và chúng ta sẽ có nhiều điều để trao đổi về việc
này suốt cuốn sách.Chúng tôi trình bày khái quát vấn đề này và sẽ phân tích cụ thể hơn trong chương 5,6
và 7.
Giả thuyết học theo cách quy nạp:Bất kì một giả thuyết nào được tìm thấy là giống với hàm số đích dựa
vào tập hợp đủ lớn các ví dụ luyện tập thì cúng sẽ giống với hàm số đích dựa vào các ví dụ không được
nhìn thấy.
2.3-VIỆC HỌC KHÁI NIỆM NHƯ VIỆC NGHIÊN CỨU
Việc học khái niệm có thể được xem như bài thực hành nghiên cứu thông qua một lượng lớn các giả
thuyết được định nghĩa một cách tuyệt đối bởi sự trình bày các giả thuyết.Mục đích của việc nghiên cứu
này là tìm ra giả thuyết phù hợp nhất với các ví dụ luyện tập.Rất quan trọng để chỉ ra rằng bằng việc lựa
chọn một sự trình bày giả thuyết,việc thiết kế các thuật ngữ định nghĩa một cách tuyệt đối khoảng trống
của tất cả các giả thuyết rằng mà chương trình có thể trình bày và chính vì thế có thể học được.Ví dụ ta có

thể xem xét các tham số X và các giả thuyết H trong bài tập Môn thể thao yêu thích.Đặt trường hợp rằng
đặc tính Trời có 3 giá trị có thể ,và Nhiệt độ,độ ẩm,gió,nước và dự báo có 2 giá trị có thể,trường hợp
khoảng trống X chứa chính xác 3.2.2.2.2.2=96 trường hợp phân biệt.Phép tính tương tự cho thấy rằng có
5.4.4.4.4=5120 giả thuyết phân biệt theo cú pháp trong taajpp hợp H.Tuy nhiên chúng ta phải chú ý là,mỗi
giả thuyết chứa một hay nhiều hơn một biểu tượng”phi” biểu thị cho một tập hợp rỗng các trường hợp;có
nghĩa la nó phân loại mỗi trường hợp là âm.Do đó,con số các giả thuyết phân biệt về ngữ nghĩa thì chỉ có
1+(4.3.3.3.3.3)=973.Ví dụ Môn thể thao yêu thích của chúng ta là một bài tập rất đơn giản,với một khoảng
trống giả thuyết tương đối có giới hạn và nhỏ hẹp.Hầu hết các bài tập thực tiễn bao gồm những khoảng
trống giả thuyết lớn hơn,đôi khi không có giới hạn.
Nếu chúng ta xem việc học như là việc nghiên cứu thì thật là bình thường rằng việc nghiên cứu các thuật
toán sẽ xem xét các tiêu chí khác nhau của việc nghiên cứu khoảng trống giả thuyết.Chúng ta sẽ chỉ quan
tâm tới các thuật toán có khả năng đủ để nghiên cứu các khoảng trống giả thuyết rộng lơn hoặc không giới
hạn,để tìm ra các giả thuyết phú hợp với các dư liệu luyên tập nhât.
2.3.1-VIỆC SẮP XẾP TỪ TỔNG QUÁT ĐẾN CỤ THỂ CÁC GIẢ THUYẾT
Nhiều thuật ngữ trong việc học khái niệm tổ chức sắp xếp việc nghiên cứu thông qua khoảng trống giả
thuyết bằng cách dựa vào một cấu trúc rất hữu ích tồn tại đối với bất kì vấn đề học khái niệm nào: một sự
sắp xếp từ tổng quát đến cụ thể các giả thuyết.Bằng cách tận dụng cấu trúc diễn ra tự nhiên qua khoảng
trống giả thuyết,chúng ta có thể thiết lập nên các thuật ngữ nghiên cứu những khoảng trống giả thuyết mà
không cần liệt kê chính xác từng giả thuyết.Để minh họa việc sắp xếp từ tổng quát đến cụ thể,hãy xem xét
2 giả thuyết sau:
………………
Bây giờ hãy xem tập hợp những tham số dương qua h1 và h2.Bởi vì h2 có ít điều kiện về tham số hơn nên
sẽ có nhiều hơn các tham số dương.Trên thực tế,bất kì tham số nào được xem là dương bởi h1 cũng là
tham số dương với h2.Do đó,chúng ta coi h2 mang tính tổng quát hơn h1.
Mơi quan hệ tổng quát hơn tự nhiên giữa các giả thuyết nà có thể được định nghĩa chính xác như sau.Đầu
tiên,đối với tham số x bất kì trong tập hợp X và giả thuyết h trong H,chúng ta nói rằng x thỏa mãn h khi và
chỉ khi h(x)=1.Bây giờ chúng ta định nghĩa mối quan hệ tổng-quát-hơn-hoặc bằng-nhau thông qua những
tập hợp các tham số thỏa mãn 2 giả thuyết sau:Giả thuyết đưa ra hj và hk,hj là tổng-quát-hơn-hoặc bằng
hk khi và chỉ khi có bất kì tham số nào thỏa mãn đồng thời 2 giả thuyết hj và hk.
*Định nghĩa:Cho hj và hk là các hàm số Boolean xác định theo X.Thì hj sẽ tổng-quát-hơn-hoặc bằng hk

(viết là…)khi và chỉ khi ……..
Chúng ta cũng sẽ thấy hữu ích khi xem xét các trường hợp trong đó một giả thuyết tuyệt đối tổng quát hơn
giả thuyết khác.Do đó,chúng ta có thể nói rằng hj là tuyệt đối tổng-quát-hơn-hoặc bằng- hk(viết là….) khi
và chỉ khi ……..Cuối cùng,đôi khi chúng ta có thể thấy trường hợp ngược lại hữu ích và nói rằng hj cụ-
thể-hơn hk khi hk tổng-quát-hơn hj.
Để minh họa những định nghĩa này,hãy xem 3 giả thuyết h1,h2 và h3 trên ví dụ Môn thể thao yêu
thích,trong bảng Figure 2.1.Những giả thuyết này liên hệ với nhau như thế nào qua mối liên hệ với >=g?
Như đã ghi chú từ trước,giả thuyết h2 tổng quát hơn h1 bởi vì mỗi tham số thỏa mãn h1 cũng thỏa mãn
h2.Tương tự,h2 tổng quát hơn h3.Chú ý rằng h1 va h3 không giả thuyết nào tổng quát hơn giả thuyết
nào ;mặc dù các tham số thỏa mãn 2 giả thuyết này trùng nhau,nhưng không tập hợp nào bao hàm tập hợp
nào.Để ý rằng mối quan hệ >=g và >g được định nghĩa độc lập với khái niệm đích.Một cách chính
thức,mối quan hệ >=g định nghĩa sự sắp xếp từng phần qua khoảng trống giả thuyết H (mối quan hệ là
phản thân,không cân xứng và đòi hỏi qua lại).Thông thường,khi chúng ta nói một cấu trúc là sự sắp xếp
từng phần,có nghĩa là có thể có các cặp giả thuyết như h1 và h3,mà…….
Mối quan hệ >=g quan trọng bởi vì nó đưa ra cho chúng ta một cấu trúc hữu ích thông qua khoảng trống
giả thuyết H đới với bất kì vấn đề học về khái niệm nào.Phần sau trình bày những thuật ngữ trong việc
học khái niệm mà chúng dựa vào sự sắp xếp từng phần để tổ chức một cách hiệu quả việc nghiên cứu các
giả thuyết phù hợp với dữ liệu luyện tập.
2.4-TÌM MỘT GIẢ THUYẾT CỤ THỂ NHẤT
Chúng ta có thể sử dụng sự săp xếp từng phần tổng-quát-hơn như thết nào để tổ chức tìm ra một giả
thuyết thích hợp với những ví dụ luyện tập đã được đưa ra?Có một cách đó là bắt đầu từ giả thuyết có thể
cụ thể nhất trong tập hợp H,sau đó khái quát hóa giả thuyết này mỗi lần nó không phù hợp với một ví dụ
luyện tập dương.(Chúng ta nói rằng một giả thuyết phù hợp một ví dụ dương khi nó chính xác phân loại ví
dụ đó là dương).Để chắc chắn hơn về về việc sử dụng việc sắp xếp từng phần như thế nào,hãy xem xét
thuật toán FIND-S được định nghĩa ở Bảng 2.3.
Để minh họa thuật toán này,người học được cung cấp một chuỗi ví dụ luyện tập từ Bảng 2.1 với bài tập
Môn thể thao yêu thích.Bước đầu tiên của FIND-S là kí hiệu h đối với giả thuyết cụ thể nhất trong H
h←(phi,…..)
Khi xem xét ví dụ luyện tập đầu tiên trong Bảng 2.1,ví dụ mà dường như là một ví dụ dương,thì rõ ràng
giả thuyết của ta là quá cụ thể.Cụ thể là,không có một điều kiện “phi” nào trong h thỏa mãn bởi ví dụ

này,chính vì vậy mỗi điều kiện được thay bằng điều kiện tiếp theo mà nó phù hợp với ví dụ này;tức là,giá
trị đặc tính cho ví dụ luyện tập này.
h←(nắng,ấm,bình thường,mạnh,ấm,không thay đổi)
Giả thuyết h này vẫn rất cụ thể;nó xác nhận rằng tất cả các tham số đều âm ngoại trừ ví dụ luyện tập
dương duy nhất mà chúng ta đã thấy.Kế đến,ví dụ luyện tập thứ 2(cũng dương trong trường hợp này)buộc
thuật toán phải khái quát hơn nữa giả thuyết h,lần này sẽ thay thế một dấu “?” ở chỗ bất kì các giá trị đặc
tính nào trong h mà không thỏa mãn bởi một ví dụ mới.Giả thuyết đã sàng lọc trong trường hợp này là
h←(nắng,ấm,? ,mạnh,ấm,không thay đổi)
Khi gặp ví dụ luyện tập thứ 3-trong trường hợp này là một ví dụ âm-thì thuật toán cũng đúng với h.Thực
tế,thuật toán FIND-S đơn giản bỏ qua mỗi ví dụ âm!Tuy lúc đầu điều này hơi lạ,nhưng hãy chú ý rằng
trong trường hợp đang xét giả thuyết h đã phù hợp với giá trị âm mới(đó là,giả thuyết h đã phân loại chính
xác ví dụ này là âm).và vì thế không cần phải kiểm tra lại.Trong trường hợp tổng quát,miễn là chúng ta
chắc chắn là khoảng trống giả thuyết H chứa một giả thuyết miêu tả khái niệm đích c và dữ liệu luyện tập
không có sai sót nào,thì giả thuyết hiện tại h không cần phải kiểm tra lại một ví dụ âm nào.Để tìm hiểu tại
sao,hãy nhớ lại là giả thuyết hiện tại h là giả thuyết cụ thể nhất trong tập hợp H phù hợp với các ví dụ
dương đã được đưa ra.Bởi vì khái niệm đích c cũng chắc chắn thuộc H và phù hợp với ví dụ luyện tập
dương,cho nên c chắc chắn tổng-quát-hơn-hoặc-bằng h.Nhưng khái niệm đích c sẽ không bao giờ chứa
một ví dụ âm,nên giả thuyết h cũng vậy.Do đó,giả thuyết h không cần phải kiểm tra lại bất kì một giá trị
âm nào.
Để hoàn thành việc tìm FIND-S,ví dụ (dương)thứ 4 dẫn đến việc khái quát hóa h.
là h←(nắng,ấm,? ,mạnh,?,?)
Thuật toán FIND-S minh họa một phương pháp mà trong đó việc sắp xếp từng phần tổng-quát-hơn có thể
được sử dụng để tìm một giả thuyết hợp lí nhất.Việc tìm kiếm chuyển từ giả thuyết này đến giả thuyết
khác,tìm kiếm từ giả thuyết cụ thể nhất và dần dần đến các giả thuyết tổng quát hơn theo chuỗi săp xếp
từng phần.Hình FIGURE 2.2 minh họa việc tìm kiếm này theo tham số và các khoảng trống giả thuyết.Ở
mỗi bước,giả thuyết được khái quát hóa chỉ khi có một ví dụ dương mới.Do đó,mỗi giai đoạn giả thuyết
đó là giả thuyết cụ thể nhất phù hợp với các ví dụ luyện tập được đưa ra(do đó có tên FIND-S).Tài liệu về
việc học khái niệm rất phổ biến bởi nhiều thuật toán khác nhau mà nó sử dụng cùng một cách sắp xếp
từng phần tổng-quát-hơn để tìm loại mới hơn này hay khác.Rất nhiều dạng thuật toán như vậy được thảo
luận trong chương này và một vài thuật toán khác được trình bày trong chương 10.

Đặc tính cơ bản của thuật toán FIND-s là đối với các khoảng trống giả thuyêt được miêu tả bởi sự liên kết
các điều kiện (ví dụ như H trong bài tập môn thể thao yêu thích),thuật toán FIND-s đảm bảo đưa ra giả
thuyết cụ thể nhất thuộc H phù hợp với các ví dụ luyện tập dương.Giả thuyết cuối cùng cũng sẽ phù hợp
với các ví dụ âm,miễn là khái niệm đích chính xác được chứa đựng trong H,và với điều kiện là các ví dụ
luyện tập là đúng.Tuy nhiên,vẫn còn một số câu hỏi chưa có câu trả lời qua thuật toán này,ví dụ như là:
*Liệu người học đã đi đến được khái niệm đích chính xác chưa?Dù FIND-s sẽ tìm ra một giả thuyết phù
hợp với dữ liệu luyện tập nhưng nó không có cách nào khẳng định là nó đã tìm thấy một giả thuyết duy
nhất trong H thỏa mãn dữ liệu(cụ thể đó là khái niệm đích chính xác)hay không,hay là liệu còn có nhiều
giả thuyeert cũng phù hợp khác.Chúng ta cần có một thuật toán chắc chắn là nó đã tìm chính xác;và nếu
không,ít nhất là phải khẳng định tính không chính xác của nó.
*Tại sao lại cần một giả thuyết cụ thể nhất?trong trường hợp có nhiều giả thuyết phù hợp với các ví dụ
luyện tập ,thuật toán FIND-s sẽ tìm ra giả thuyết sụ thể nhất.Điều này không rõ ràng là liệu chúng ta có
cần giả thuyết cụ thể nhất này hơn các giả thuyết tổng quát nhất hay không
*Liệu những ví dụ luyện tập có phù hợp?Trong hầu hết vấn đề học thực tiễn,có một vài trường hợp các ví
dụ luyện tập sẽ chứa đựng ít nhất vài lỗi sai hoặc gây nhiễu.Những tập hợp như vậy sẽ làm thuật toán
FIND-S lẫn lộn.trong điều kiện nó bỏ qua các ví dụ âm.Chúng ta cần một thuật toán mà ít nhất có thể tìm
ra những ví dụ không phù hợp như vậy hoặc có thể sửa những lỗi như thế.
*Điều gì sẽ xảy ra nếu có một vài giả thuyết cụ thể phù hợp nhất?Trong ngôn ngữ giả thuyết H đối với bài
tập Môn thê thao yêu thích,lúc nào cũng có một giả thuyết cụ thể nhất và duy nhất thỏa mãn bất kì ví dụ
dương nào.Tuy nhiên,đối với các khoảng trống giả thuyết khác(sẽ thảo luận sau),có thể có vài giả thuyết
cụ thể nhất phù hợp với các dữ liệu.Trong trường hợp này,FIND-S sẽ mở rộng lựa chọn lại cách khái quát
hóa giả thuyết,để đảm bảo khả năng là khái niệm đích nằm ở một nhánh khác của sự sắp xếp từng phần
chứ không phải trên nhánh mà nó đã chọn.Hơn nữa,chúng ta có thể định nghĩa các khoảng trống khái
niệm mà không có giả thuyết cụ thể nào phù hợp,mặc dù đây là một vấn đề về lý thuyết hơn là về thực
hành.
2.5-CÁC KHOẢNG TRỐNG PHIÊN BẢN VÀ THUẬT TOÁN LOAI-TRỪ-CÁC-ỨNG-VIÊN
Phần này miêu tả một cách tiếp cận thứ 2 việc học khái niệm,đó là thuật toán loại trừ các ứng viên,mà nó
có thể cải thiện những hạn chế của FIND-s.Ta chú ý rằng mặc dù sản phẩm của FIND-S là một giả thuyêt
thuộc H,mà nó phù hợp với các ví dụ luyện tập,nhưng đây chỉ là một trong những giả thuyết trong H mà
cũng có thể phù hợp với các dữ liệu.Ý chính trong thuật toán loại bỏ các ứng viên là đưa ra sự miêu tả tập

hợp tất cả các giả thuyết phù hợp với các ví dụ luyện tập.Lạ thay,thuật toán loại bỏ các u ứng viên này tính
toán sự miêu tả tập hợp này mà không liệt kê chính xác các thành viên.Thuật toán làm được điều này bằng
cách một lần nữa sử dụng cách sắp xếp từng phần tổng quát hơn,lần này duy trì một sự trình bày chặt chẽ
tập hợp các giả thuyết phù hợp và định nghĩa phát triển sự trình bày này khi gặp một ví dụ luyện tập mới.
Thuật toán loại trừ các ứng viên được áp dụng để giải quyết các vấn đề như việc học các quy tắc trong
quang phổ nghiệm khối trong hóa học và việc học các quy tắc kiểm soát việc nghiên cứu dựa vào kinh
nghiệm để tìm hiểu.Tuy nhiên,việc áp dụng thực tiễn của thuật toán loại trừ các ứng viên và thuật toán
FIND-S bị giới hạn bởi thực tế chúng đều thực thi kém khi đưa vào những dữ liệu gây nhiễu.Với mục
địch của chúng ta, thuật toán loại trừ các ứng viên cung cấp một khung thuộc về khái niệm đối với việc
giới thiệu các vấn đề cơ bản trong việc nghiên cứu máy móc.Phần còn lại của chương này chúng tôi sẽ
trình bày thuật toán và thảo luận các vấn đề này.Bắt đầu chương tiếp theo,chúng tôi sẽ xem xét nghiên cứu
các thuật toán được sử dụng thường xuyên hơn với các dữ liệu gây nhiễu.
2.5.1 GIỚI THIỆU
Thuật toán loại trừ các ứng viên tìm được tất cả các giả thuyết có thể miêu tả được phù hợp với những ví
dụ luyện tập đã cho.Để định nghĩa một cách chính xác thuật toán này,chúng ta hãy bắt đầu với một vài
định nghĩa cơ bản.Đầu tiên,chúng ta nói rằng một giả thuyết là phù hợp với những ví dụ luyện tập nếu nó
phân loại chính xác những ví dụ này
*Định nghĩa:Một giả thuyết h là phù hợp với một tập hợp các ví dụ luyện tập D khi và chỉ khi
h(x)=c(x) với mỗi ví dụ (x,c(x)) thuộc D.
Hãy chú ý sự khác nhau cơ bản giữa định nghĩa consistent(phù hợp) và định nghĩa trước đó thỏa mãn
(satisfies).Một ví dụ x được cho là thỏa mãn giả thuyết h khi h(x)=1,cho dù x là ví dụ dương hay âm của
khái niệm đích.Tuy nhiên,một ví dụ như vậy là thỏa mãn hay không phụ thuộc vào khái niệm đích,cụ thể
là h(x)=c(x).
Thuật toán loại trừ các ứng viên trình bày tập hợp tất cả các giả thuyết phù hợp với các ví dụ luyện tập đã
cho.Tập hợp con của tất cả các giả thuyết này được gọi là khoảng trống phiên bản liên quan đến khoảng
trống giả thuyết H và ví dụ luyện tập D,bởi vì nó chứa tất cả các phiên bản có thể đúng của khái niệm
đích.
*Định nghĩa: Khoảng trống phiên bản,kí hiệu VS H.D ,xét đến khoảng trống giả thuyết H và các ví
dụ luyện tập D ,là tập hợp con của các giả thuyết từ H phù hợp với các ví dụ luyện tập thuộc D.
…………..

2.5.2-THUẬT TOÁN LIỆT-KÊ-RỒI-LOẠI-BỎ
Một cách rõ ràng để trình bày khoảng trống phiên bản là đơn giản liệt kê tất cả các thành tố của nó.Điều
này dẫn đến một thuật toán nghiên cứu giản đơn,mà chúng ta có thể gọi đó là thuật toán liệt-kê-rồi-loại-
bỏ.
Thuật toán liệt-kê-rồi-loại-bỏ lúc đầu kí hiệu khoảng trống phiên bản chứa đựng tất cả các giả thuyết
thuộc H,sau đó loại bỏ bất kỳ giả thuyết nào thấy không phù hợp với bất kỳ ví dụ luyện tập nào.Khoảng
trống phiên bản của các giả thuyết ứng viên vì thế thu hẹp lại vì nhiều ví dụ được xem xét hơn,cho đến khi
một giả thuyết lý tưởng duy nhất còn lại phù hợp với tất cả các ví dụ đã cho.Giả thuyết này có thể đúng là
giả thuyết cần tìm.Nếu không đủ dữ liệu cần thiết để thu hẹp khoảng trống phiên bản thành một giả thuyết
duy nhất,thì thuật toán có thể đưa ra một tập hợp các giả thuyết phù hợp với dữ liệu đã cho.
Về căn bản, thuật toán liệt-kê-rồi-loại-bỏ có thể được áp dụng bất cứ trường hợp nào nếu khoảng trống giả
thuyết H là giới hạn.Thuật toán này có nhiều tiện ích,bao gồm thực tế là nó đảm bảo đưa ra tất cả những
giả thuyết phù hợp với các dữ liệu luyện tập.Nhưng không may thay,nó đòi hỏi việc liệt kê tất cả các giả
thuyết thuộc H-một đòi hỏi không thực tế đối với tất cả các giả thuyết trừ các khoảng trống giả thuyết lặt
vặt nhất.
2.5.3-TRÌNH BÀY CHI TIẾT VỀ CÁC KHOẢNG TRỐNG PHIÊN BẢN
Thuật toán loại trừ các ứng viên làm việc dựa vào cùng một quy tắc như Thuật toán liệt-kê-rồi-loại-bỏ.Tuy
nhiên, Thuật toán loại trừ các ứng viên sử dụng sự trình bày chi tiết của khoảng trống phiên bản hơn
nhiều.Nói một cách cụ thể là,khoảng trống phiên bản được trình bày dựa cào các thành tố khái quát nhất

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×