Tải bản đầy đủ (.docx) (52 trang)

Tiểu luận công nghệ tri thức và ứng dụng THUẬT TOÁN QUINLAN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (615.56 KB, 52 trang )

Mc lc
Muẽc Luẽc
Noõẽi Dung trang
Li m u 5
Li cm n 6
Nhn xột ca giỏo viờn 7
Chệễng 1. Toõng quan veõỉ maựy hoẽc.
I. GII THIU V MY HC ... 8
1. Cỏc nh ngha 8
1.1 Th no l hc ? .. 8
1.2 Th no l mỏy hc ? 8
2. Phõn loi mỏy hc 8
2.1 Phõn loi thụ 8
2.1.1 Hc cú giỏm sỏt 8
2.1.2 Hc khụng giỏm sỏt .. 8
2.1.3 Hc bỏn giỏm sỏt 9
2.1.4 Hc tng cng 9
2.1.5 Chuyn i 9
2.1.6 Hc cỏch hc 9
2.2 Phõn loi theo hai tiờu chun cựng lỳc: cp hc & cỏch tip cn 9
2.2.1 Hc vt 9
2.2.2 Hc bng cỏch ch dn 9
2.2.3 Hc bng qui np 10
2.2.4 Hc bng tng t 10
2.2.5 Hc da theo gii thớch . 10
2.2.6 Hc da trờn tỡnh hung . 10
3. Cỏch tip cn: cú hai cỏch tip cn cho h thng hc .. 10
3.1 Hc t ký hiu . 10
3.2 Hc t d liu s . 10
4.Kho sỏt mt s cỏch tip cn ca mỏy hc 10
4.1 Tip cn thng kờ . 10


4.1.1 Vớ d .. 11
4.1.2 í tng ci t: ht sc n gin ... 11
4.1.3 Nhn xột vớ d 11
4.2 Tip cn hỡnh hc 12
4.2.1 Hóy xột bi toỏn sau . 12
4.2.2 Gii quyt bi toỏn .. 12
4.2.3 Nhn xột bi toỏn . 13
4.3 Tip cn logic .. 14
CH1101098 Nguyn Ngc Lõm Ư GVHD: GS. TSKH Hong Vn Kim Trang 1
Mc lc
4.3.1 Vớ d 1 . 14
4.3.2 Nhn xột vớ d 1 . 14
4.3.3 Vớ d 2 . 15
4.3.4 Nhn xột vớ d 2 . 15
4.3.5 nh ngha cỏc mnh logic n gin . 15
4.3.6 Nhn xột . 16
4.4 Tip cn mng neural . . 17
4.5 Tip cn khai m d liu . 17
4.5.1 Ti sao cn khai m d liu ? . 17
4.5.1.1 S cn thit ca khai m d liu . 17
4.5.1.1.1 Khớa cnh thng mi .. 17
4.5.1.1.2 Khớa cnh khoa hc . 17
4.5.1.2 S ra i ca khai m d liu 17
4.5.1.3 S dng khai m d liu khi no .. 17
4.5.1.4 Lnh vc ng dng khai m d liu .. 17
4.5.1.4.1 Thụng tin thng mi . 17
4.5.1.4.2 Thụng tin sn xut . 18
4.5.1.4.3 Thụng tin khoa hc . 18
4.5.1.5 Khai m d liu l gỡ ? . 18
4.5.1.5.1 nh ngha 18

4.5.1.5.2 Th no l mu tim n ? 18
4.5.1.6 Qui trỡnh khỏm phỏ tri thc 18
4.5.1.7 Cỏc nhim v chớnh ca khai m d liu . 19
4.5.1.7.1 D oỏn 19
4.5.1.7.2 Mụ t 19
4.5.1.8 Cỏc k thut khai m d liu 19
4.5.1.8.1 K thut phõn lp v d oỏn 19
4.5.1.8.1.1 Phõn lp 19
4.5.1.8.1.2 D oỏn 19
4.5.1.8.2 K thut gom nhúm . 19
4.5.1.9 Thỏch thc trong quỏ trỡnh khai m d liu 19
Chệễng 2. Hoẽc baờỉng phệễng phaựp xaõy Dửẽng caõy ẹiẽnh Danh
I. CY NH DANH 20
1. Cõy nh danh 20
2. Thut toỏn xõy dng cõy nh danh . 20
3. Phõn tớch bi toỏn . . 20
4. í tng 13
II. M CHI 21
1. Quan sỏt thuc tớnh mu túc . . 21
2. Dựng s hỡnh cõy mụ t phõn hoch .. 22
3. Nhn xột . 23
CH1101098 Nguyn Ngc Lõm Ư GVHD: GS. TSKH Hong Vn Kim Trang 2
Mc lc
4. Phng phỏp chn thuc tớnh phõn hoch . 23
III. THUT TON QUINLAN 23
IV. MINH HA THUT TON 24
1. Xột thuc tớnh mu túc . 24
2. Xột thuc tớnh chiu cao 24
3. Xột thuc tớnh cõn nng 24
4. Xột thuc tớnh dựng kem 25

5. Cõy c phõn hoch theo thuc tớnh mu túc 25
6. Phõn hoch P
vng
26
6.1 Xột thuc tớnh chiu cao 26
6.2 Xột thuc tớnh cõn nng . 26
6.3 Xột thuc tớnh dựng kem . 26
V. O HN LON . 27
1. Tớnh do hn lon . 27
2. Cụng thc tớnh o hn lon . 27
3.Minh ha thut toỏn 27
3.1 Tớnh o hn lon trung bỡnh 27
3.2 Cõy c phõn hoch theo thuc tớnh mu túc . 28
VI. PHT SINH TP LUT 30
VII. TI U HểA TP LUT . 30
1. Loi b mnh tha . 30
2. p dng loi b lut tha 31
VIII. XY DNG MNH MC NH . 32
IX. THUT TON ILA (Inductive Learning Algorithm) 33
1. Thut toỏn 33
2.Minh ha thut toỏn ILA 34
3. ỏnh giỏ thut toỏn . 38
Chệễng 3. Maẽng Neural nhaõn taẽo
I. TNG QUAN V MNG NEURAL NHN TO 39
1. Lch s phỏt trin ca mng neural ..39
2. Cỏc ng dng thc tin ca mng neural nhõn to .39
3. Mng neural sinh hc . . 40
4. Mng neural nhõn to 40
4.1 Cu to ca mt n v thn kinh nhõn to . 41
4.2 Cỏc hm truyn thng c s dng 41

4.3 Mụ hỡnh mng neural nhõn to 41
4.3.1Mng neural mt lp . 41
4.3.2Mng neural nhiu lp 42
4.3.3Mng lan truyn ngc 43
4.3.3.1 nh ngha 43
4.3.3.2 Nguyờn tc hot ng ca mng lan truyn ngc . 43
4.3.3.2.1 Tớn hiu hm 43
CH1101098 Nguyn Ngc Lõm Ư GVHD: GS. TSKH Hong Vn Kim Trang 3
Mục lục
4.3.3.2.2 Tín hiệu lỗi ……………………………………………… ………. 43
4.3.4Mạng perceptron ……………………………………………………………… 44
4.3.4.1 Định nghĩa ……………………………………………………… …… 44
4.3.4.2 Ngun tắc hoạt động ……………………………………………… …. 44
II. THUẬT TỐN HỌC ĐƠN GIẢN TRÊN PERCEPTRON ………………………… 45
III. THUẬT TỐN LAN TRUYỀN NGƯỢC ……………………………………….……… 47
ChƯƠng 4. Cài ĐăÏt Ứng Dng minh ha 50
ChƯƠng 5. KêÙt luâÏn …………………………………………………………… 52
CH1101098 Nguyễn Ngọc Lâm ¦ GVHD: GS. TSKH Hồng Văn Kiếm Trang 4
Li m u
Lễứi mễ ẹaõỉu
Mỏy hc l mt lnh vc ca trớ t nhõn to liờn quan n vic phỏt trin cỏc k thut cho phộp
mỏy tớnh cú th Hc. C th hn, mỏy hc l mt phng phỏp to ra cỏc chng trỡnh
mỏy tớnh bng vic phõn tớch cỏc tp d liu. Mỏy hc cú liờn quan ln n lnh vc thng kờ vỡ
c hai lnh vc u nguyờn cu vic phõn tớch d liu, nhng khỏc vi thng kờ, mỏy hc tp
trung vo nguyờn cu s phc tp ca cỏc gii thut trong vic thc thi tớnh toỏn.
Mt trong nhng nguyờn nhõn lm cho trớ tu nhõn to tr thnh mt trong nhng lnh vc mi
nhn trong thi i hin nay l vic lm cho mỏy tớnh tr nờn thụng minh hn, tng cng s
cng tỏc gia ngi v mỏy, t ng húa mt phn, gúp phn gii cỏc cụng vic trong lnh vc
i sng xó hi.
Mỏy hc cú tớnh ng dng rt cao trong cỏc ngnh khoa hc sn xut, t bit l nhng ngnh

cn phõn tớch khi lng d liu khng l. Mt s ng dng thng thy nh:
X lý ngụn ng t nhiờn: x lý vn bn, giao tip gia ngi v mỏy.
Nhn dng: nhn dng ting núi, ch vit tay, võn tay, th giỏc mỏy.
Tỡm kim.
Chun oỏn y khoa: phõn tớch nh X Quang, cỏc h chuyờn gia chun oỏn t ng
Sinh hc: Phõn tớch cỏc chui DNA
Vt lý: phõn tớch nh thiờn vn, tỏc ng gia cỏc ht
Phõn tớch th trng chớnh khoỏn
Chi trũ chi v c ng ca rụ-bt
Chuyờn sau õy s kho sỏt mt phn nh v ng dng ca mỏy hc, ú l vic hc bng
phng phỏp xõy dng cõy nh danh. Bi toỏn c t ra t mt mu CSDL cú sn, mỏy tớnh
s phõn tớch cỏc quy lut trong tp CSDL bng phng phỏp xõy dng cõy nh danh v nh ú
giỳp con ngi a ra quyt nh nhanh chng v chớnh xỏc.
CH1101098 Nguyn Ngc Lõm Ư GVHD: GS. TSKH Hong Vn Kim Trang 5
Lời cảm ơn
LÔØi caœm Ôn
Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý Thầy Cô ở khoa Khoa Học Máy Tính - trường Đại
Học Công Nghệ Thông Tin đã đem hết tâm huyết của mình truyền đạt vốn kiến thức quý báu cho chúng
em.
Em xin chân thành cảm ơn GS. TSKH. Hoàng Văn Kiếm đã truyền đạt kiến thức môn Công Nghệ Tri
Thức và Ứng Dụng. Qua đó giúp em co đầy đủ kiến thức để hoàn thành bài thu hoạch này.
Nhân đây em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, đồng nghiệp đã động viên tin
thần cho em trong suốt quá trình học tập của mình.
Sau cùng, em xin kính chúc quý Thầy Cô trong khoa Khoa Học Máy Tính cùng GS. TSKH. Hoàng Văn
Kiếm dồi dào sức khỏe để thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai
sau.
Một lần nữa em xin chân thành cảm ơn !
Lời cảm ơn
TP. HCM, ngày 03 tháng 06 năm 2012
Sinh viên thực hiện

(ký và ghi rõ họ tên)
Nguyễn Ngọc Lâm
Nhận xét của giáo viên hướng dẫn
NhaâÏn xeùt cuœa giaùo vieân hÖÔùng DaâÕn
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
……………………………………………………………………………………………………………
TP. HCM, ngày 03 tháng 06 năm 2012
Sinh viên thực hiện
(ký và ghi rõ họ tên)
Nguyễn Ngọc Lâm
Chng 1. Tng quan v mỏy hc
Chệễng 1. Toõng quan veõỉ maựy hoẽc
I. GII THIU V MY HC
1. Cỏc nh ngha

1.1 Th no l hc?
- Thut ng Hc theo ngha thụng thng l quỏ trỡnh tip thu tri thc cú chn lc t
th gii bờn ngoi bit cỏch vn dng.
1.2 Th no l mỏy hc?
- Mỏy tớnh hay chng trỡnh mỏy tớnh cú kh nng t hon thin t kinh nghin.
- Mỏy hc cũn cú ngha l vic mụ hỡnh húa mụi trng xung quanh hay kh nng mt
chng trỡnh mỏy tớnh sinh ra mt cu trỳc d liu mi khỏc vi cu trỳc hin cú.
Chng hn vic tỡm ra nhng lut Ifthen t tp d liu u vo.
2. Phõn loi mỏy hc:
2.1 Phõn loi thụ
2.1.1 Hc cú giỏm sỏt
- Quỏ trỡnh hc cú giỏm sỏt c tin hnh trờn mt tp d liu mu vi giỏ tr ó
c phõn loi(gỏn nhón) sn. Tp d liu gm:
S = {x
i
, c
j
| I = 1, , M, j = 1, , C}
Trong ú:
x
i
l vộc t n chiu
C
j
l cỏc lp bit trc
- Thut toỏn s tỡm kim trờn khụng gian gi thit gii phỏp tt nht cho ỏnh x f
vi c = f(x). Kt qu tỡm c phn ỏnh c trng ca mu d liu. Cỏc thut
toỏn tỡm cỏch phỏt sinh mt tp gi thit bng cỏch tỡm ra cỏc c trng v giỏ tr
tng ng vi mu d liu ca mi lp. Sau ú ỏp dng cỏc tp gi thit tỡm c
phõn loi cỏc mu d liu mi vo cỏc lp tng ng.

- Cỏc chng trỡnh hc cú giỏm sỏt c s dng rng rói nh: Mng N-ron nhõn
to, Support Vector Machine, k lỏng ging gn nht, Naive Bayes, mụ hỡnh hn
hp Gauss.
2.1.2 Hc khụng giỏm sỏt
- L mt phng phỏp ca ngnh mỏy hc nhm tỡm ra mt mụ hỡnh phự hp vi
cỏc quan sỏt. Trong mụ hỡnh hc cú giỏm sỏt, s cỏc lp l bit trc. Ngc li
trong mụ hỡnh hc khụng giỏm sỏt, mu hc cha c gỏn nhón nờn núi chung,
s lp cha bit trc. Cỏc h hc loi ny cú kh nng t giỏm sỏt quỏ trỡnh hỡnh
thnh v phỏt sinh ca cỏc lp. Cụng tỏc gỏn nhón c thc hin t ng mt
cỏch h thng v phõn bit vi cỏc lp khỏc.
- Trong hc khụng giỏm sỏt mt tp d liu u vo l mt tp cỏc bin ngu
nhiờn. Sau ú h tỡm ra quy lut hỡnh thnh cỏc mu v khỏm phỏ mi quan h
ca d liu.
Chương 1. Tổng quan về máy học
- Học không giám sát hữu ích cho việc nén dữ liệu, về cơ bản mọi thuật toán nén
dữ liệu dựa vào một phân bố xác suất trên một tập đầu vào một cách tường minh
hay không tường minh.
2.1.3 Học bán giám sát
- Học bán giám sát sử dụng các mẫu dữ liệu chưa được gán nhãn để làm giàu cho
tập huấn luyện bằng cách từ từ gán nhãn cho chúng dựa vào ước lượng từ tập mẫu
đã được gán nhãn ban đầu.
- Tập huấn luyện là một giải thuật được sử dụng nhiều nhất cho học bán giám sát.
Trong tập huấn luyện một bộ phận lớp đầu tiên được huấn luyện với một lượng
nhỏ dữ liệu được gán nhãn. Thông thường những điểm được gán nhãn với độ tin
cậy cao nhất cùng với những nhãn dự đoán của nó sẽ được thêm vào tập huấn
luyện.
- Học bán giám sát là một giải thuật được kết hợp từ hai giải thuật: học có giám sát
và học không giám sát.
2.1.4 Học tăng cường
- Trong ngành khoa học máy tính, học tăng cường là một lĩnh vực con của máy

học, máy tính đưa ra quyết định hành động và nhận kết quả phản hồi từ môi
trường, sau đó máy tính tìm cách chỉnh sửa cách ra quyết định của mình.
- Khác với học có giám sát, trong học tăng cường các hành động gần tối ưu cũng
không được đánh giá đúng sai một cách tường minh.
2.1.5 Chuyển đổi
- Tương tự như học có giám sát nhưng không xây dựng hàm một cách rõ ràng.
Thay vào đó cố gắng đoán kết quả mới dựa vào các dữ liệu huấn luyện, kết quả
huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện.
2.1.6 Học cách học
- Đề cập đến những giả định bổ sung mà máy học dùng để dự đoán đầu ra đúng
cho các tình huống chưa từng gặp phải trước đây, là cách học dựa vào kinh
nghiệm đã gặp phải trước đó.
2.2 Phân loại theo hai tiêu chuẩn cùng lúc: “cấp độ học” & “cách tiếp cận”
2.2.1 Học vẹt
- Hệ tiếp nhận tập khẳng định của các quyết định đúng, nếu tạo ra một quyết định
không đúng, hệ sẽ đưa ra các luật/quan hệ đúng đã sử dụng. Hình thức học vẹt
nhằm cho phép chuyên gia cung cấp tri thức theo kiểu tương tác.
2.2.2 Học bằng cách chỉ dẫn
- Thay vì đưa ra một luật cụ thể cần áp dụng vào một tình huống cho trước, hệ
thống được cung cấp các chỉ dẫn tổng quát. Hệ tự đề ra cách biến đổi trừu tượng
thành các luật phổ dụng.
2.2.3 Học bằng qui nạp
- Hệ thống được cung cấp một tập các ví dụ và kết luận được rút ra từ từng ví dụ.
Hệ liên tục học các luật và quan hệ nhằm xử lý và rút ra kết luận cho từng ví dụ
mới.
Chương 1. Tổng quan về máy học
2.2.4 Học bằng tương tự
- Hệ thống được cung cấp đáp án đúng cho các tác vụ tương tự nhưng không giống
nhau. Hệ thống cần làm thích ứng đáp án trước đó nhằm tạo ra một luật mới có
khả năng áp dụng cho tình huống mới.

2.2.5 Học dựa theo giải thích
- Hệ thống phân tích tập các ví dụ nhằm ấn định khả năng đúng hoặc sai, sau đó tạo
ra các giải thích hướng dẫn cách giải các bài toán tương tự trong tương lai.
2.2.6 Học dựa trên tình huống
- Bất kỳ tình huống nào được hệ thống lập luận đều được lưu trữ cùng với kết quả
cho dù đúng hay sai. Khi gặp tình huống mới, hệ thống sẽ tự thích nghi dựa vào
các tình huống cũ đã được lưu trữ.
3. Cách tiếp cận: có hai cách tiếp cận cho hệ thống học
3.1 Học từ ký hiệu
- Bao gồm việc hình thức hóa, sữa chữa các luật tường minh, sự kiện và các quan hệ
3.1 Học từ dữ liệu số
- Được áp dụng cho những hệ thống được mô hình dưới dạng số liên quan đến các kỹ
thuật nhằm tối ưu các tham số. Học theo dạng số bao gồm mạng Neural nhân tạo,
thuật giải di truyền, các bài toán tối ưu truyền thống. Các kỹ thuật học từ dữ liệu số
không tạo ra cơ sở tri thức tường minh.
4. Khảo sát một số cách tiếp cận của hệ thống học
4.1 Tiếp cận thống kê
4.1.1 ví dụ: chúng ta hãy tìm hiểu một chương trình khá thú vị. Chương trình này tuy chỉ
hoạt động dựa trên xác xuất nhưng lại cho ra một kết quả hết sức ấn tượng. Đó là chương
trình dự đoán ý nghĩ con người, liệu đây có phải là một “tiểu xảo” nhằm lừa chúng ta,
cho rằng máy tính cũng thông minh không? Câu trả lời là có nhưng hiệu quả của chương
trình này khiến chúng ta phải suy nghĩ. Chương trình này khá đơn giản: máy sẽ đoán
người chơi nghĩ số 1 hay số 0 trong đầu, người chơi phải trả lời cho máy biết là máy
đoán đúng hay đoán sai. Để từ đó máy tính sẽ học quy luật suy nghĩ của người chơi.
Chương 1. Tổng quan về máy học
Hình 1.1 chương trình dự đoán ý nghĩ con người
4.1.2 Ý tưởng cài đặt: hết sức đơn giản
- Lưu trữ toàn bộ dãy số 0, 1 mà người chơi đã nghĩ ra.
- Lấy 7 con số trước đó (do người chơi đưa ra), tính xác xuất xuất hiện của số 1 và
số 0 sau dãy 7 con số này. Máy sẽ đoán số có xác xuất xuất hiện cao hơn.

- Giả sử ở lần đoán thứ i, dãy số mà người dùng đã dự đoán như sau:
- … 1 1 0 1 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 ?
- Từ dữ liệu ở những lần đoán trước đó, giả sử số lần xuất hiện của 1 sau dãy 0 0 0
0 1 0 0 là 28 và số lần xuất hiện của số 0 là 90.
- Xác xuất xuất hiện của số 1 sau dãy này là: = 23.7%
- Xác xuất xuất hiện của số 0 sau dãy này là: = 76.3%
Máy sẽ đoán là số 0
4.1.3 Nhận xét ví dụ
- ví dụ đã đưa ra là thuộc cấp độ học vẹt sử dụng cách tiếp cận thống kê.
- Máy không thể đoán đúng ngay được, nhưng càng về sau(sau vài trăm lần đoán)
máy càng trở nên chính xác một cách kinh ngạc (trung bình có thể lên đến 90% ).
- Trên thực tế khi cài đặt chương trình này tác giả không chỉ đoán qui luật từ người
chơi, máy còn sử dụng cả dãy số mà máy đã đoán.
4.2 Tiếp cận hình học
4.2.1 Hãy xét bài toán sau: cho tập các hình chữ nhật với kích thước( ngang & rộng) và
màu sắc khác nhau(hình vẽ 1.2). cho biết hình bên phải có màu gì?
Chương 1. Tổng quan về máy học
Hình 1.2 các khối hình chữ nhật
4.2.2 Giải quyết bài toán
- Theo phản ứng tự nhiên của con người khi đứng trước bài toán loại này là: tìm
xem khối hình chữ nhật cần đoán màu sắc có kích thước ( ngang & rộng) gần
giống với hình chữ nhật đã cho nào nhất để đoán màu sắc cho khối hình chữ nhật
chưa biết. Như thế nào là gần giống?
- Để dể hình dung hơn về khái niệm “gần” trong bài toán này, ta hãy nhìn bài toán
từ một góc nhìn khác. Biểu diễn 2 thuộc tính chiều rộng & chiều cao của hình
chữ nhật dưới dạng 1 điểm trên mặt phẳng 2 chiều, trong đó chiều rộng ứng với
trục hoành còn chiều cao ứng với trục tung.
Hình 1.3 biểu diễn dưới mặt phẳng tọa độ
- Tính khoảng cách từ khối cần tìm đến tất cả các khối còn lại, sau đó chọn ra
khoảng cách gần nhất. Người ta gọi bài toán này là bài toán người láng giềng

gần nhất. Tuy nhiên cách làm này có độ phức tạp O(n).
- Một cách hiệu quả hơn là tìm cách phân chia không gian các hình chữ nhật mẫu
thành từng khu vực riêng biệt theo kiểu phân cấp không gian.
Chương 1. Tổng quan về máy học
- Đầu tiên ta phân chia không gian thành 2 đường trên và dưới theo đường y =
3.5(đường [1]). Sau đó, mỗi phần không gian còn lại tiếp tục được phân chia.
Quá trình phân chia tiếp tục cho đến khi mỗi phần không gian chứa đúng một
hình chữ nhật trong tập mẫu.
Hình 1.4 phân chia không gian
- Kết quả của phép phân chia này cho chúng ta 8 phần không gian riêng biệt ứng
với 8 hình chữ nhật đã cho ban đầu.
- Để xác định hình chữ nhật mẫu gần với hình chữ nhật chưa biết màu cần tìm(tạm
gọi là U), ta xác định vị trí tương đối của U so với đường chia [1]. U nằm trên
đường chia [1] nên nó sẽ được xếp vào vùng không gian bên trên. Tiếp theo ta
lại so sánh U với đường chia [1.2]. U nằm bên trái. Cuối cùng, u nằm bên dưới
đường chia [1.2.2], nêu U được xếp vào cùng một không gian với hình chữ nhật
màu cam. Do đó U có màu gia cam.
4.2.3 Nhận xét bài toán
- Về mặt thuật toán, phân chia không gian theo cách làm như trên là phân chia
theo cây k-d, với d là số chiều của không gian được phân chia. Trường hợp bài
toán ở trên là chia theo theo cây k – 2. Nếu bài toán đặt ra còn thêm một thông
số nữa là trọng lượng của các hình chữ nhật thì bài toán của chúng ta sẽ dẫn đến
cây k – 3.
- Cây quyết định K–2 của bài toán có thể biểu diễn như sau:
Chương 1. Tổng quan về máy học
Hình 1.5 Cây quyết định k-2
4.3 Tiếp cận logic
4.3.1 Ví dụ 1.
- Trong chương trình máy học ở phương pháp tiếp cận thống kê chỉ là một chuổi
số nhị phân đơn giản. Nhưng trên thực tế, tập mẫu mà chúng ta khảo sát thường

có cấu trúc rất phức tạp, đặc biệt là liên quan tới các hình ảnh. Bạn hãy thử tìm
đặc tính để phân biệt hai nhóm hình ảnh A và B sau đây.
Hình 1.6 phân biệt nhóm hình ảnh
4.3.2 Nhận xét ví dụ 1.
- Nếu tinh mắt bạn sẽ nhân thấy các điểm trắng của nhóm A luôn thẳng hàng
- Thật khó để phát hiện ra đặc tính vừa nêu trên (ngay cả đối với con người) nhất
là đối với các đối tượng hình học.
- Nhà bác học Bongard đã đề ra một phương án xác định mối liên hệ bằng cách
xây dựng các mệnh đề logic. Khảo sát ví dụ 2 sau đây để nắm rõ vấn đề hơn về
phương pháp này.
4.3.3 Ví dụ 2.
- Xác định đặc điểm của 2 nhóm hình A và B sau đây.
Chương 1. Tổng quan về máy học
Hình 1.6 xác định đặc điểm 2 nhóm hình A và B
4.3.4 Nhận xét ví dụ 2.
- Nhóm A: tổng số đỉnh trừ đi tổng số đối tượng bằng 7(chẳng hạn như hình 2
trong nhóm A gồm 2 hình tam giác và 1 hình chữ nhật, tổng cộng 10 đỉnh).
- Nhóm B: tổng số đỉnh trừ tổng số đối tượng bằng 6(chẳng hạn như hình 4 trong
nhóm B gồm 2 hình chữ nhật, tổng cộng có 8 đỉnh).
- Hình ellipse và hình tròn được xem là không có đỉnh nào.
- Nếu không được gợi ý thì quan hệ trên là một loại quan hệ rất khó được phát
hiện.
- Với phương án của Bongard, ta vẫn có thể tìm ra được mối quan hệ đủ để phân
biệt hai nhóm hình này.
4.3.5 Định ra các mệnh đề logic đơn giản.
- P1: “tồn tại tam giác”.
- P2: “tồn tại vòng tròn”.
- P3: “tồn tại hình oval”.
- P4: “tồn tại hình chữ nhật”.
- P5: “tồn tại hình đa giác nhiều hơn 4 cạnh”.

Với 5 mệnh đề logic này bạn hãy lập ra bảng sau nhằm xác định giá trị của các mệnh đề
ứng với mỗi hình trong tập hình đã cho.
Hình Tam giác P
1
Vòng tròn P
2
Oval P
3
Chữ nhật P
4
Đa giác P
5
Nhóm
1 1 1 1 1 0 A
2 1 0 0 1 0 A
3 0 1 0 0 1 A
Chương 1. Tổng quan về máy học
4 1 0 0 0 1 A
5 0 1 0 1 0 A
6 1 1 0 1 0 A
7 1 1 0 0 0 B
8 1 1 0 1 0 B
9 0 0 0 1 0 B
10 1 0 1 0 0 B
11 1 1 0 0 0 B
12 1 0 0 0 0 B
Hình 1.7 bảng giá trị các mệnh đề
- Bước tiếp theo là xây dựng mệnh đề logic cho từng hình, rồi sau đó là cho cả
nhóm hình. Chẳng hạn như ở hình 2 thuộc nhóm A có 2 hình tam giác và một
hình chữ nhật nên mệnh đề P

1
và P
4
có giá trị là 1, tất cả các mệnh đề khác đều
có giá trị là 0. Nói cách khác, ta có thể phân biệt hình 2 với các hình còn lại bằng
mệnh đề logic “đặc trưng” sau:
 q2 = P
1
∧ P
2
∧¬P
3
∧ P
4
∧ ¬P
5
hay viết gọn lại là
 q2 = P
1
¬P
2
¬P3 P
4
¬P
5
- Sử dụng các mệnh đề logic khá đơn giản, ta xây dựng được một liên hệ đặc
trưng cho nhóm hình A như sau:
 ϕ = P
1
P

2
P
3
P
4
¬P
5
∨ P
1
¬P
2
¬P
3
P
4
¬P
5
∨ ¬P
1
P
2
¬P
3
¬P
4
P
5

P
1

P
2
¬P
3
¬P
4
¬P
5
∨ ¬ P
1
P
2
¬

P
3
P
4
P
5
∨ P
1
P
2
¬P
3
P
4
¬


P
5
- Bằng các phép biến đổi logic toán học, ta có thể thu gọn mệnh đề trên thành: ϕ =
¬P
1
P
2
∨ P
1
(P
2
P
3
∨ ¬

P
2
¬P
3
).
- Như vậy một hình H nào đó muốn xếp vào nhóm hình A thì giá trị các mệnh đề
P
1
đến P
6
của hình H phải thỏa đều kiện ϕ.
4.3.6 Nhận xét.
- Trong trường hợp tổng quát, phải chọn các mệnh đề cơ sở (như các mệnh đề P1,
P2,…, P6 trong ví dụ trên) như thế nào để mệnh đề đặt trưng của tất cả các hình
trong tập mẫu là khác nhau và mệnh đề đặt trưng của nhóm hình cũng phải khác

nhau.
- Làm sao xây dựng các thủ tục để kiểm tra các giá trị của mệnh đề cơ sở. mắt
người có thể dễ dàng nhận biết sự tồn tại một hình tròn, hình tam giác, hình
vuông,… trong một hình ảnh có nhiều đối tượng khác nhau nhưng làm bằng
chương trình máy tính hoàn toàn không đơn giản chút nào.
- Chính vì lý do đó, phương pháp học này rất cần đến sự hỗ trợ của con người
trong việc đưa ra quyết định tính đúng đắn của mệnh đề thành viên trong mệnh
đề đặc trưng.
4.4 Tiếp cận mạng Neural
- Mạng neural là một thuật ngữ nói đến một phương pháp giải quyết vấn đề - bài toán
trên máy tính mô phỏng theo hoạt động của các tế bào thần kinh trong não bộ. Vấn đề
này sẽ được phân tích kỹ hơn trong các chương sau.
Chương 1. Tổng quan về máy học
4.5 Tiếp cận khai mỏ dữ liệu
4.5.1 Tại sao cần khai mỏ dữ liệu?
4.5.1.1 Sự cần thiết của khai mỏ dữ liệu
- Dữ liệu chứa rất nhiều thông tin có giá trị, rất có lợi cho quy trình ra quyết định.
- Không thể phân tích một khối lượng lớn dữ liệu bằng tay do phần lớn dữ liệu
chưa bao giờ được phân tích.
4.5.1.1.1 Khía cạnh thương mại
- Trong thương mại khối lượng dữ liệu cần thu thập và lưu trữ vô cùng lớn.
- Máy tính ngày càng mạnh và rẽ hơn.
- Áp lực cạnh tranh vô cùng khóc liệt.
4.5.1.1.2 Khía cạnh khoa học
- Dữ liệu được thu thập và lưu trữ với tốc độ cao (GB/h).
- Các kỹ thuật truyền thống không đủ khả năng làm việc với dữ liệu thô
- Khai mỏ dữ liệu có thể giúp các nhà khoa học phân loại và phân đoạn dữ
liệu, đồng thời xây dựng các giả thiết.
4.5.1.2 Sự ra đời của khai mỏ dữ liệu
- Khai mỏ dữ liệu được ra đời trong bối cảnh: “giàu dữ liệu – nghèo tri thức”.

- Khai mỏ dữ liệu là một giải pháp giúp phân tích tự động các núi dữ liệu và hỗ
trợ ra quyết định.
4.5.1.3 Sử dụng khai mỏ dữ liệu khi nào
- Dữ liệu quá nhiều.
- Dữ liệu lớn (chiều và kích thước).
Dữ liệu ảnh (kích thước).
 Dữ liệu gene (số chiều).
- Có ít tri thức về dữ liệu.
4.5.1.4 Lĩnh vực ứng dụng khai mỏ dữ liệu
4.5.1.4.1 Thông tin thương mại
- Phân tích thị trường và mua bán (chính khoán, nhà đất, tiền tuệ, ).
- Phân tích đầu tư.
- Phát hiện gian lận.
- …
4.5.1.4.2 Thông tin sản xuất
- Đều khiển và lên kế hoạch.
- Quảng trị mạng.
- Phân tích kết quả thực nghiệm.
- …
4.5.1.4.3 Thông tin khoa học
- Thiên văn học.
- Cơ sở dữ liệu sinh học.
- Khoa học địa chất: bộ dò tìm động đất.
- …
4.5.1.5 Khai mỏ dữ liệu là gì?
Chương 1. Tổng quan về máy học
4.5.1.5.1 Định nghĩa: khai mỏ dữ liệu là quá trình không tầm thường của việc
xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích, và có thể hiểu
được tối đa trong CSDL. U.Fayyad(996).
4.5.1.5.2 Thế nào là mẫu tiềm ẩn?

- Mẫu tiềm ẩn là mối quan hệ trong dữ liệu ví dụ như:
- Những người mua quần tây thường hay mua thêm áo sơ mi.
- Những người có mức tính dụng tốt thì thường ít bị tai nạn.
4.5.1.6 Qui trình khám phá tri thức
Hình 1.8 qui trình khám phá tri thức
4.5.1.7 Các nhiệm vụ chính của khai mỏ dữ liệu
4.5.1.7.1 Dự đoán:
- Sử dụng một vài biến để dự báo giá trị chưa biết hoặc giá trị tương lai của
các biến khác.
 Phân lớp.
 Hồi qui.
 Phát hiện sự thay đổi/ lạc hướng.
4.5.1.7.2 Mô tả
- Xác định các mẫu mô tả dữ liệu mà con người có thể hiểu được.
 Gom cụm.
 Tóm tắt.
 Mô hình hóa phụ thuộc.
4.5.1.8 Các kỹ thuật khai mỏ dữ liệu
Chương 1. Tổng quan về máy học
4.5.1.8.1 Kỹ thuật phân lớp và dự đoán
4.5.1.8.1.1 Phân lớp
- Mục đích: để dự đoán những nhãn phân lớp cho các mẫu dữ liệu mới.
- Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho
mỗi mẫu dữ liệu.
- Đầu ra: mô hình dựa trên tập huyến luyện và những nhãn phân lớp.
4.5.1.8.1.2 Dự đoán
- Tương tự như phân lớp, dự đoán cũng xây dụng một mô hình và sử dụng
mô hình đó để dự đoán cho những giá trị chưa biết.
4.5.1.8.2 Kỹ thuật gom nhóm
- Gom nhóm là quá trình nhóm các đối tượng thành từng nhóm/cụm/lớp có

ý nghĩa. Các đối tượng trong cùng một nhóm có nhiều tính chất chung và
có những tính chất khác với các đối tượng.
4.5.1.9 Thách thức trong quá trình khai mỏ dữ liệu
- Tính hiệu quả và tính ổn định của các giải thuật khai mỏ dữ liệu.
- Các phương pháp khai mỏ dữ liệu song song, phân tán, luồng và tăng
cường.
- Xử lý với dữ liệu chứa nhiều lỗi, không chắc chắn, không hoàn chỉnh.
- Khai mỏ các kiểu dữ liệu rất khác nhau.
- Bảo đãm tính an ninh, toàn vẹn, riêng tư trong khai mỏ dữ liệu.
- …

Chng 2. Hc bng phng phỏp xõy dng cõy nh danh
Chệễng 2. . Hoùc baống phửễng phaựp
xaõy Dửẽng caõy ẹiẽnh Danh
I CY NH DANH
- Mt trong nhng phng phỏp hc õy l hc bng phng phỏp xõy dng cõy nh danh.
- Quy trỡnh hc:
Bng d liu Phộp th Cõy nh danh Xõy dng Lut Ti u lut.
1 Cõy nh danh: l mt dng ca cõy quyt nh, trong ú mi tp cỏc kt lun cú th c
thit lp mt cỏch ngm nh bi mt danh sỏch cỏc mu m chỳng c phõn vo mt lp
ó bit.
2 Thut toỏn xõy dng cõy nh danh
- Mt vn vụ cựng quan trng trong cỏc thut toỏn xõy dng cõy nh danh ú l ti mi
thi im chỳng ta chn thuc tớnh no phõn hoch sao cho cõy nh danh thu c l
gn nht.
- Cú 2 thut toỏn chn thuc tớnh phõn hoch hay c s dng ú l:
Thut toỏn Quinlan.
Thut toỏn o hn lon.
Nhn xột: thụng thng trong CSTT ngi ta hay dựng thut toỏn o hn lon.
3 Phõn tớch bi toỏn: cho bng d liu quan sỏt sau

ST
T
Tờn Mu Túc Chiu Cao Cõn Nng Dựng Kem? Kt Qu
1 Sarah Vng Trung Bỡnh Nh Khụng Chỏy Nng
2 Dana Vng Cao Trung Bỡnh Cú Khụng
3 Alex Nõu Thp Trung Bỡnh Cú Khụng
4 Annie Vng Thp Trung Bỡnh Khụng Chỏy Nng
5 Emille Trung Bỡnh Nng Khụng Chỏy Nng
6 Peter Nõu Cao Nng Khụng Khụng
7 John Nõu Trung Bỡnh Nng Khụng Khụng
8 Kartie Vng Thp Nh Cú Khụng
Hỡnh 2.1 bng d liu quan sỏt
- Cn xõy dng cỏc quy lut kt lun mt ngi nh th no khi i tm bin thỡ b chỏy
nng.
Màu tóc
Vàng
- Sarah
- Dana
- Annie
- Kare
- Alex
- Peter
- John
- Emmile
Nâu
Đỏ
Chương 2. Học bằng phương pháp xây dựng cây định danh
- Ta gọi tính chất cháy nắng hay không cháy nắng là thuộc tính quan tâm hay còn gọi là
thuộc tính mục tiêu.
 Trong trường hợp này tập R gồm có 2 phần tử {Cháy nắng, Không cháy nắng}.

 Tập P là tập tất cả các mẫu trong bảng dữ liệu quan sát .
- Hiệu tượng cháy nắng dựa trên 4 thuộc tính sau:
 Màu tóc (Vàng, Nâu, Đỏ).
 Chiều cao (Trung bình, Cao, Thấp).
 Cân Nặng (Nhẹ, Trung bình, Nặng).
 Dùng kem (Không, Có).
Ta gọi các thuộc tính này là thuộc tính dẫn xuất.
4 Ý tưởng
- Phân hoạch tập P thành các tập P
i
sao cho tất cả các phần tử trong tập P
i
đều có chung
thuộc tính mục tiêu.
 P = P
1
P
2
… P
n
và (i, j), ij thì P
i
P
j
= Ø và
 i, n,m : P
n
P
i
và P

m
P
j
thì f(P
n
) = f(P
m
).
- Các phân hoạch P
i
được đặt trưng bởi thuộc tính đích r
i
với r
i
R.
- Ứng với mỗi phân hoạch P
i
ta xây dựng luật L
i :
GT
i
r
i
trong đó các giả thiết GT
i

mệnh đề được hình thành bằng cách kết hợp các thuộc tính dẫn xuất.
- Có 2 cách phân hoạch hiển nhiên.
 Cách thứ nhất: Là cho mỗi mẫu vào một phân hoạch riêng( P
1

= {Sarah}, P
2
=
{Dana}, P
3
= {Alex}, …). Tổng cộng có 8 phân hoạch tương ứng với 8 mẫu trong
bảng dữ liệu quan sát.
 Cách thứ hai: Là phân hoạch thành hai tập, một tập gồm tất cả những người cháy
nắng, tập còn lại gồm tất cả những người không cháy nắng.
 Một phương pháp khác là xét ngẫu nhiên qua từng thuộc tính rồi phân nhóm kết quả
theo từng giá trị của thuộc tính.
II ĐÂM CHỒI
1 Quan sát thuộc tính màu tóc, có 3 phân hoạch
- P
vàng
= {Sarah, Dana, Annie, Kartie}
- P
nâu
= {Alex, Peter, John}
- P
đỏ
= {Emmile}
Ghi chú: những người được gạch dưới và in đậm là bị cháy nắng.
2 Dùng sơ đồ cây để mô tả phân hoạch
Màu tóc
Vàng
- Alex
- Peter
- John
- Emmile

Nâu
Đỏ
Chiều cao
Trung bình
Cao Thấp
- Sarah
- Dana
- Annie
- Kare
Chương 2. Học bằng phương pháp xây dựng cây định danh
Hình 2.2 sơ đồ mô tả phân hoạch cho thuộc tính màu tóc
3 Nhận xét:
- Tập P
nâu
chứa toàn người không cháy nắng.
- Tập P
đỏ
chứa toàn người bị cháy nắng.
- Tập P
vàng
chứa lẫn lộn người không cháy nắng và người cháy nắng, nên tiếp tục phân
hoạch tập P
vàng
kết hợp với thuộc tính chiều cao thành 3 tập con sau:
 P
vàng, trung bình
= {Sarah}
 P
vàng, cao
= {Dana}

 P
vàng, thấp
= {Annie, Kartie}
Hình 2.3 sơ đồ mô tả phân hoạch cho thuộc tính màu tóc và chiều cao
- Quá trình này cứ tiếp tục cho đến khi tất cả các nút lá của cây không còn lẫn lộn giữa
cháy nắng và không cháy nắng.
- Quá trình này còn được gọi là quá trình “đâm chồi”. Cây chúng ta đang xây dựng được
gọi là cây định danh.
- Nếu ban đầu ta không chọn thuộc tính màu tóc để phân hoạch mà chọn một thuộc tính
khác, chẳng hạn như thuộc tính chiều cao thì kết quả như thế nào? Vậy thì cách phân
hoạch nào sẽ tốt hơn?
Chương 2. Học bằng phương pháp xây dựng cây định danh
4 Phương án chọn thuộc tính phân hoạch.
- Khi đứng trước một ngã rẽ, ta phải đi hướng nào?
- Hai phương pháp dưới đây sẽ giúp chúng ta chọn được thuộc tính phân hoạch tại mỗi
bước xây dựng cây định danh.
III THUẬT TOÁN QUINLAN
- Quinlan quyết định thuộc tính phân hoạch bằng cách xây dựng các vector đặc trưng cho
mỗi giá trị của từng thuộc tính dẫn xuất và thuộc tính mục tiêu. Cụ thể như sau:
 Với mỗi thuộc tính dẫn xuất A còn có thể sử dụng để phân hoạch, tính:
 VA(j) = ( T(j, r
1
), T(j, r
2
), T(j, r
3
), …, T(j, r
n
))
- T(j, r

i
) =
 Trong đó: r1, r2, …, rn là các giá trị của thuộc tính mục tiêu.
 = 1 .
 Một thuộc tính A có thể nhận một trong n giá trị khác nhau thì nó sẽ có n vector đặc
trưng.
 Vector đơn vị: là vector có duy nhất một thành phần có giá trị 1 và những thành phần
khác có giá trị là 0.
 Thuộc tính được chọn để phân hoạch là thuộc tính có nhiều vector đơn vị nhất.
Lưu ý: nếu không có vector đơn vị thì chọn thuộc tính có ít đặc tính nhất để phân hoạch.
IV MINH HỌA THUẬT TOÁN
- Định nghĩa độ đo V:
V(thuộc tính = đặc tính) =
1 Xét thuộc tính màu tóc: thuộc tính màu tóc có 3 giá trị khác nhau (tóc vàng, tóc nâu, tóc
đỏ) nên sẽ có 3 vector đặc trưng tương ứng.
- V
Tóc
(Vàng) = (T(vàng, cháy nắng), T(vàng, không cháy nắng)).
 Số người tóc vàng: 4
 Số người tóc vàng và bị cháy nắng: 2
Tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j
và có giá trị thuộc tính mục tiêu là r
i
Tổng số phần tử trong phân hoạch có giá trị thuộc tính dẫn xuất A là j
Màu tóc
Vàng
- Sarah
- Dana
- Annie
- Kare

- Alex
- Peter
- John
- Emmile
Nâu
Đỏ
Chương 2. Học bằng phương pháp xây dựng cây định danh
 Số người tóc vàng và không cháy nắng: 2
- Do đó:
 V
Tóc
(Vàng) = () = (0.5, 0.5)
- Tương tự
 VTóc (Nâu) = () = (0, 1) (vector đơn vị)
 VTóc (Đỏ) = () = (1, 0) (vector đơn vị)
Kết luận: tổng số vector đơn vị của thuộc tính màu tóc: 2
2 Xét thuộc tính chiều cao
- Ta có:
 V
Chiều cao
(Trung bình) = ()
 V
Chiều cao
(Cao) = () = (0, 1) (vector đơn vị)
 V
Chiều cao
(Thấp) = ()
Kết luận: tổng số vector đơn vị của thuộc tính chiều cao: 1
3 Xét thuộc tính cân nặng
- Ta có:

 V
Cân nặng
(Nhẹ) = () = (0.5, 0.5)
 V
Cân nặng
(Trung bình) = ()
 V
Cân nặng
(Nặng) = ()
Kết luận: thuộc tính cân nặng không chứa vector đơn vị
4 Xét thuộc tính dùng kem
- Ta có:
 V
Dùng kem
(Không) = ()
 V
Dùng kem
(Có) = () = (0, 1) (vector đơn vị)
Kết luận: tổng số vector đơn vị của thuộc tính dùng kem: 1
Nhận xét: thuộc tính màu tóc có nhiều vector đơn vị nhất nên được chọn để phân hoạch đầu
tiên.
5 Cây được phân hoạch theo thuộc tính màu tóc

×