Tải bản đầy đủ (.pdf) (30 trang)

Báo cáo bài tập lớn trí tuệ nhân tạođề tài dự đoán giá nhà dựa trên thuật toán machinelearning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (968.26 KB, 30 trang )

lOMoARcPSD|39475011

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN

----------***----------

BÁO CÁO BÀI TẬP LỚN

MƠN HỌC : TRÍ TUỆ NHÂN TẠO
ĐỀ TÀI : Dự đoán giá nhà dựa trên thuật toán machine

learning

Giáo viên hướng dẫn :
Sinh Viên Thực Hiện :

LỜI MỞ ĐẦU

Hà Nội, năm 2022

Downloaded by bong bong ()

lOMoARcPSD|39475011

Trí tuệ nhân tạo là lĩnh vực được các nhà khoa học rất quan tâm để giải
quyết các yêu cầu trong cuộc sống hiện nay, có nhiều lĩnh vực được ứng dụng
trí tuệ


nhân tạo như trong y tế, trong ngân hàng, trong vận tải và trong nông
nghiệp.Vấn đề giá nhà đang là một trong những bài tốn khó giải ở nước ta.

Để dự đốn giá nhà, có nhiều phương pháp và kỹ thuật khác nhau như: học
máy, mơ hình time series, mơ hình xác xuất thống kê, mơ hình mạng nơ ron. Đã
có nhiều cơng trình nghiên cứu về dự đốn giá nhà có kết quả cao, tuy nhiên,
các ứng dụng vẫn chưa đáp ứng hoàn toàn các yêu cầu của người dùng.

Hiện nay với sự phát triển khơng ngừng của máy tính, phương pháp Học
máy ra đời đã đáp ứng cơ bản trong việc phân loại và xử lý ảnh. Học máy là
một thuật toán dựa trên một số ý tưởng từ não bộ tới việc tiếp thu nhiều tầng
biểu đạt, cả cụ thể lẫn trừu tượng, qua đó làm rõ nghĩa của các loại dữ liệu. Học
máy được ứng dụng trong nhận diện truyền thơng, ngân hàng, tài chính tiền tệ.
Hiện nay rất nhiều các bài toán nhận dạng sử dụng Học máy để giải quyết do
Học máy có thể giải quyết các bài tốn với số lượng lớn, kích thước đầu vào lớn
với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp
truyền thống.

Với những lý do trên, nhóm em chọn nghiên cứu đề tài : “Ứng dụng giải
thuật cây quyết định cho bài toán chuẩn đoán ung thu phổi ”

Downloaded by bong bong ()

lOMoARcPSD|39475011

MỤC LỤC
Chương 1. MẠNG NƠ - RON CƠ BẢN............................................................5

1.1 Perceptrons............................................................................................5
1.1.1 Perceptron cơ bản............................................................................5

1.1.2 Các hàm kích hoạt...........................................................................6

Chương 2. KIẾN TRÚC MẠNG CNN..............................................................9
2.1 Các lớp cơ bản trong CNN..................................................................10
2.1.1 Lớp tích chập - Convolutional layer.............................................10
2.1.2 Lớp gộp – Pooling layer................................................................11
2.1.3 Lớp phi tuyến – ReLU layer..........................................................12
2.1.4 Lớp kết nối đầy đủ - Fully connected layer...................................13
2.1.5 Tổng kết.........................................................................................14

Chương 3. XÂY DỰNG ỨNG DỤNG..............................................................16
3.1 Bộ dữ liệu............................................................................................16
3.2 Các thuật toán tối ưu............................................................................16
3.2.1 Tối ưu hàm loss (Multi – Class Cross –Entropy Loss)................16
3.2.2 Thuật toán tối ưu Adam (Multi – Class Cross –Entropy Loss)....17
3.3 Mơ hình bài tốn..................................................................................20
3.3.1 Xử lý dữ liệu..................................................................................20
3.3.2 Hiển thị dữ liệu..............................................................................21
3.3.3 Thiết lập mơ hình..........................................................................23
3.3.4 Tiến hành traning...........................................................................27
3.4 Đánh giá...............................................................................................28

Downloaded by bong bong ()

lOMoARcPSD|39475011

Chương 1. HỌC MÁY CƠ BẢN

Chương 2. Học máy
Chương 3. Giới thiệu vềề Machine Learning

- Những năm gầnầ đầy, AI - Artificial Intelligence (Trí Tuệ Nhần Tạo),
và cụ thể hơn là Machine Learning (Học Máy hoặc Máy Học) nổi lên như
một bănầ g chứng của cuộc cách mạng công nghiệp lầnầ thứ tư (1 - động
cơ hơi nước, 2 - năng lượng điện, 3 - công nghệ thơng tin). Trí Tuệ Nhần
Tạo đang len lỏi vào mọi lĩnh vực trong đời sơnố g mà có thể chúng ta
không nhận ra. Xe tự hành của Google và Tesla, hệ thônố g tự tag khuôn
mặt trong ảnh của Facebook, trợ lý ảo Siri của Apple, hệ thônố g gợi ý sản
phẩm của Amazon, hệ thônố g gợi ý phim của Netflix, máy chơi cờ vầy
AlphaGo của Google DeepMind, …, chỉ là một vài trong vô vàn những ứng
dụng của AI/Machine Learning.
- Machine Learning là một tập con của AI. Theo định nghĩa của
Wikipedia, Machine learning is the subfield of computer science that “gives
computers the ability to learn without being explicitly programmed”. Nói
đơn giản, Machine Learning là một lĩnh vực nhỏ của Khoa Học Máy Tính,
nó có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cầnầ phải
được lập trình cụ thể.
- Những năm gầnầ đầy, khi mà khả năng tính tốn của các máy tính
được nầng lên một tầmầ cao mới và lượng dữ liệu khổng lôầ được thu thập
bởi các hãng công nghệ lớn, Machine Learning đã tiênố thêm một bước dài
và một lĩnh vực mới được ra đời gọi là Deep Learning (Học Sầu - thực sự
tôi không muônố dịch từ này ra tiênố g Việt). Deep Learning đã giúp máy
tính thực thi những việc tưởng chừng như không thể vào 10 năm trước:
phần loại cả ngàn vật thể khác nhau trong các bức ảnh, tự tạo chú thích

Downloaded by bong bong ()

lOMoARcPSD|39475011

cho ảnh, bătố chước giọng nói và chữ viêtố của con người, giao tiêpố với con
người, hay thậm chí cả sáng tác văn hay ầm nhạc


Chương 4. Phân nhóm các thuật toán Machine
Learning

- Có hai cách phổ biênố phần nhóm các thuật tốn Machine learning.
Một là dựa trên phương thức học (learning style), hai là dựa trên chức
năng (function) (của mơiỗ thuật tốn):

a. Phân nhóm dựa trền phương thức học
 Supervised Learning( Học có giám sát)
 Supervised learning là thuật toán dự đoán đầuầ ra
(outcome) của một dữ liệu mới (new input) dựa trên
các cặp (input, outcome) đã biêtố từ trước. Cặp dữ
liệu này còn được gọi là (data, label), tức (dữ liệu,

Downloaded by bong bong ()

lOMoARcPSD|39475011

nhãn). Supervised learning là nhóm phổ biênố nhầtố
trong các thuật toán Machine Learning
 Một cách toán học, Supervised learning là khi chúng
ra có một tập hợp biênố đầuầ vào X={x1,x2,
…,xN}X={x1,x2,…,xN} và một tập hợp nhãn tương
ứng Y={y1,y2,…,yN}Y={y1,y2,…,yN}, trong
đó xi,yixi,yi là các vector. Các cặp dữ liệu biêtố
trước (xi,yi)∈X×Y(xi,yi)∈X×Y được gọi là
tập training data (dữ liệu huầnố luyện). Từ tập
training data này, chúng ta cầnầ tạo ra một hàm sôố
ánh xạ môiỗ phầnầ tử từ tập X sang một phầnầ tử (xầpố

xỉ) tương ứng của tập Y.

 Mục đích là xầpố xỉ hàm sơố ff thật tơtố để khi có một dữ
liệu xx mới, chúng ta có thể tính được nhãn tương
ứng của nó y=f(x).

 Unsupervised Learning( Học không giám sát)
 Trong thuật tốn này, chúng ta khơng biêtố
được outcome hay nhãn mà chỉ có dữ liệu đầuầ vào.
Thuật toán unsupervised learning seỗ dựa vào cầuố trúc
của dữ liệu để thực hiện một công việc nào đó, ví dụ
như phần nhóm (clustering) hoặc giảm sôố chiêuầ của
dữ liệu (dimension reduction) để thuận tiện trong
việc lưu trữ và tính tốn.
 Một cách toán học, Unsupervised learning là khi
chúng ta chỉ có dữ liệu vào XX mà không
biêtố nhãn YY tương ứng.

Downloaded by bong bong ()

lOMoARcPSD|39475011

 Những thuật toán loại này được gọi là Unsupervised
learning vì khơng giơnố g như Supervised learning,
chúng ta không biêtố cầu trả lời chính xác cho mơiỗ dữ
liệu đầuầ vào. Giônố g như khi ta học, khơng có thầyầ cơ
giáo nào chỉ cho ta biêtố đó là chữ A hay chữ B.
Cụm không giám sát được đặt tên theo nghĩa này

 Semi-Supervised Learning( Học bán giám sát)

 Các bài toán khi chúng ta có một lượng lớn dữ
liệu XX nhưng chỉ một phầnầ trong chúng được gán
nhãn được gọi là Semi-Supervised Learning. Những
bài tốn thuộc nhóm này nămầ giữa hai nhóm được
nêu bên trên
 Một ví dụ điển hình của nhóm này là chỉ có một phầnầ
ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh vêầ
người, động vật hoặc các văn bản khoa học, chính trị)
và phầnầ lớn các bức ảnh/văn bản khác chưa được
gán nhãn được thu thập từ internet. Thực têố cho thầyố
rầtố nhiêuầ các bài toán Machine Learning thuộc vào
nhóm này vì việc thu thập dữ liệu có nhãn tơnố rầtố
nhiêuầ thời gian và có chi phí cao. Rầtố nhiêuầ loại dữ liệu
thậm chí cầnầ phải có chun gia mới gán nhãn được
(ảnh y học chẳng hạn). Ngược lại, dữ liệu chưa có
nhãn có thể được thu thập với chi phí thầpố từ internet

 Reinforcement Learning( Học củng cốố)
 Reinforcement learning là các bài toán giúp cho một
hệ thôống tự động xác định hành vi dựa trên hoàn
cảnh để đạt được lợi ích cao nhầốt (maximizing the
performance). Hiện tại, Reinforcement learning chủ

Downloaded by bong bong ()

lOMoARcPSD|39475011

yêốu được áp dụng vào Lý Thuyêốt Trò Chơi (Game
Theory), các thuật toán cầần xác định nước đi tiêốp
theo để đạt được điểm sôố cao nhầốt.

b. Phân nhóm dựa trên chức năng
 Regression Algorithms
 Classification Algorithms
 Clustering Algorithms

Chương 5. CÁC THUẬT TOÁN

Chương 6. Linear Classifier
Chương 7. Giới thiệu
- Trong lớp các mơ hình học có giám sát (supervised learning) thì có
hai bài tốn chính là bài tốn dự báo (đối với biến mục tiêu liên tục) và bài
toán phân loại (đối với biến mục tiêu là rời rạc). Chúng ta đã được tìm hiểu
về bài tốn dự báo và mơ hình hồi qui tuyến tính ở bài trước. Trong bài này
chúng ta sẽ tiếp tục tìm hiểu về bài tốn phân loại và mơ hình hồi qui
logistic.
- Bài toán phân loại là lớp bài toán được ứng dụng phổ biến nhất trong
machine learning. Có rất nhiều các tác vụ mà chúng ta có thể kể đến liên
quan tới lớp bài toán phân loại:
 Phân loại nợ xấu trong ngân hàng: Danh mục banking book của ngân
hàng luôn tồn tại những rủi ro. Các khoảng vay tiềm ẩn những nguy cơ
vỡ nợ nên các ngân hàng cần phải đánh giá rủi ro đối với khách hàng của
mình thơng qua các mơ hình phân loại nợ xấu để ra quyết định có cho
vay hay không và vay với hạn mức, kỳ hạn, lãi suất là bao nhiêu? Sự khác
biệt về sức khoẻ tín dụng giữa các ngân hàng được đánh giá trên khả
năng kiểm soát nợ xấu. Để tạo ra một hệ thống quản trị rủi ro hiệu quả thì

Downloaded by bong bong ()

lOMoARcPSD|39475011


bên cạnh những biện pháp về phòng ngừa và tuân thủ, ngân hàng cần sử
dụng các cơng cụ mơ hình để lượng hố rủi ro khách hàng.
 Phát hiện đầu cơ và gian lận trong thương mại điện tử (viết tắt
TMĐT): Đầu cơ và gian lận là hiện tượng phổ biến trong lĩnh vực
TMĐT. Đầu cơ là việc khách hàng mua vượt quá số lượng cho phép và
bán ra thị trường với giá cao hơn nhằm hưởng lợi. Một số hành vi gian
lận khác gây hậu quả nghiêm trọng cho sàn TMĐT đó là cửa hàng lợi
dụng chính sách thưởng doanh số để nhận hoa hoa hồng, khách hàng gian
lận để hưởng khuyến mãi,… Cả hai hành vi đầu cơ và gian lận gây đều
gây thâm dụng vốn cho các sàn TMĐT. Xây dựng được một hệ thống
phát hiện gian lận sẽ giúp sàn TMĐT hoạt động hiệu quả, tối ưu hoá được
ngồn lực về vốn và mở rộng tập khách hàng để tạo ra những lợi thế cạnh
tranh trên thị trường.
 Phân loại bệnh trong y sinh: Đây là một trong những lĩnh vực có nhiều
tiềm năng phát triển và giúp giải quyết các vấn đề liên quan đến sức khoẻ
con người. Trong y sinh một số mơ hình phân loại giúp cho chúng ta đưa
ra các chuẩn đoán bệnh dựa trên các chỉ số xét nghiệm đầu vào sơ bộ như
huyết áp, đường huyết, hồng cầu, bạch cầu, tiểu cầu,… Bên cạnh đó xử lý
ảnh trong y sinh cũng là một lĩnh vực có tính ứng dụng cao. Các mơ hình
thị giác máy tính có thể đưa ra những khuyến nghị cho bác sĩ về vị trí,
kích thước và loại khối u. Bạn đọc quan tâm tới lĩnh vực này có thể tham
khảo cuộc thi VinBigData Chest X-ray Abnormalities Detection .
- Bên trên là một vài ứng dụng nhỏ để bạn đọc hình dung rõ hơn về
tính hữu ích và sự phổ biến của các bài toán phân loại trong học có giám sát?
Có thể thấy rằng bài toán phân loại hiện tại đang giải quyết rất nhiều vấn đề
mà con người đang phải đối mặt. Đồng thời với vai trị to lớn của mình, nó
đã và đang mang lại nhiều thay đổi cho nhân loại. Với sự bùng nổ về thuật
tốn, năng lực tính tốn và sự dồi dào của dữ liệu. Ngày càng có nhiều ứng
dụng của mơ hình phân loại đạt độ chính xác ở mức con người hay thậm chí
là vượt trội và thay thế con người trong nhiều tác vụ khác nhau.


Downloaded by bong bong ()

lOMoARcPSD|39475011

- Phân loại nhị phân là bài tốn phân loại có biến mục tiêu gồm hai
nhãn {0,1}. Trong đó nhãn 1 là tích cực (postive) và nhãn 0 là tiêu cực
(negative). Nhãn tích cực ở đây hàm chứa ý nghĩa xảy ra sự kiện và tiêu
cực là sự vắng mặt của sự kiện. Mục tiêu của phân loại nhị phân là dự báo
xác suất xảy ra hoặc vắng mặt của sự kiện lần lượt tương ứng với nhãn 1 và
0. Tổng của hai xác suất này bằng 1:

P(y=1|x,w)+P(y=0|x,w)=1
- Trong cơng thức trên thì P(y=1|x) là xác suất có điều kiện, nó thể hiện
xác suất của tích cực tại một quan sát x ứng với một mơ hình cụ thể có trọng
số w. Giá trị của xác suất này nằm trong khoảng [0,1]. Chính vì thế trong hồi
qui tuyến tính chúng ta sẽ đề xuất một hàm giả thuyết 0≤hw(x)≤1 để dự báo
xác suất. Hàm này là hàm Sigmoid hoặc hàm Logistic mà chúng ta sẽ tìm
hiểu ở mục sau.

Chương 8. Decision Tree Classifer
Chương 9. Giới thiệu
- Thuật toán Cây quyết định thuộc họ thuật tốn học có giám sát. Khơng
giống như các thuật tốn học có giám sát khác, thuật tốn cây quyết định cũng có
thể được sử dụng để giải các bài tốn hơiầ quy và phần loại .
- Mục tiêu của việc sử dụng Cầy quyêtố định là tạo ra một mơ hình
đào tạo có thể sử dụng để dự đoán lớp hoặc giá trị của biênố mục tiêu
bănầ g cách học các quy tăcố quyêtố định đơn giản được suy ra từ dữ liệu
trước đó (dữ liệu đào tạo).


Downloaded by bong bong ()

lOMoARcPSD|39475011

- Trong Cầy quyêtố định, để dự đoán nhãn lớp cho một bản ghi, chúng
ta bătố đầuầ từ gôcố của cầy. Chúng tôi so sánh các giá trị của thuộc tính
gơcố với thuộc tính của bản ghi. Trên cơ sở so sánh, ta theo nhánh tương
ứng với giá trị đó và nhảy đênố nút tiêpố theo.

Chương 10. Phân tích thuật tốn
 Các loại cây quyết định
+ Các loại cây quyết định dựa trên loại biến mục tiêu mà chúng ta có. Nó có thể

có hai loại:
1. Cây quyết định biến phân loại: Cây quyết định có một biến mục tiêu

phân loại thì nó được gọi là cây quyết định biến phân loại.
2. Cây quyết định biến liên tục: Cây quyết định có một biến mục tiêu liên

tục thì nó được gọi là Cây quyết định biến liên tục.
 Thuật ngữ quan tọng liên quan đến cây quyết định :

1. Nút gốc: Nó đại diện cho tồn bộ tập hợp hoặc mẫu và nó tiếp tục
được chia thành hai hoặc nhiều tập hợp đồng nhất.

2. Chia tách: Là một quá trình phân chia một nút thành hai hoặc nhiều
nút con.

3. Nút quyết định: Khi một nút con tách thành các nút con xa hơn, thì
nó được gọi là nút quyết định.


4. Nút lá / nút đầu cuối: Các nút không phân chia được gọi là nút Lá
hoặc nút đầu cuối.

5. Cắt tỉa: Khi chúng ta loại bỏ các nút con của một nút quyết định,
quá trình này được gọi là cắt tỉa. Bạn có thể nói q trình phân tách
ngược lại.

6. Cành / Cây phụ: Một phần phụ của toàn bộ cây được gọi là nhánh
hoặc cây con.

7. Nút cha và nút con: Một nút được chia thành các nút con được gọi
là nút cha của các nút con trong khi các nút con là con của nút cha.

Downloaded by bong bong ()

lOMoARcPSD|39475011

Ví dụ: - Giả sử chúng ta gặp vấn đề trong việc dự đoán liệu một
khách hàng có thanh tốn phí bảo hiểm gia hạn của mình với một cơng
ty bảo hiểm hay không (có / khơng). Ở đây chúng tơi biết rằng thu
nhập của khách hàng là một biến số đáng kể nhưng công ty bảo hiểm
khơng có chi tiết thu nhập cho tất cả khách hàng. Bây giờ, như chúng
ta biết đây là một biến quan trọng, sau đó chúng ta có thể xây dựng cây
quyết định để dự đoán thu nhập của khách hàng dựa trên nghề nghiệp,
sản phẩm và nhiều biến số khác. Trong trường hợp này, chúng tôi đang
dự đoán giá trị cho các biến liên tục.
 Các bước trong thuật toán ID3:
1. Nó bătố đầuầ với tập ban đầuầ S làm nút gôcố .
2. Trên mơiỗ lầnầ lặp của thuật tốn, nó seỗ lặp qua thuộc tính rầtố khơng


được sử dụng của tập S và tính tốn Entropy (H) và Độ lợi thơng
tin (IG) của thuộc tính này.
3. Sau đó, nó chọn thuộc tính có mức tăng Entropy nhỏ nhầtố hoặc
Thông tin lớn nhầtố .
4. Tập hợp S sau đó được chia theo thuộc tính đã chọn để tạo ra một
tập hợp con của dữ liệu.

Downloaded by bong bong ()

lOMoARcPSD|39475011

5. Thuật tốn tiêpố tục lặp lại trên mơiỗ tập hợp con, chỉ xem xét các
thuộc tính chưa từng được chọn trước đó.
Chương 11. Random Forest Classifer
Chương 12. Giới thiệu

- Random là ngầuỗ nhiên, Forest là rừng, nên ở thuật toán Random
Forest mình seỗ xầy dựng nhiêuầ cầy quyêtố định bănầ g thuật tốn Decision
Tree, tuy nhiên mơiỗ cầy qutố định seỗ khác nhau (có uố tơố random). Sau
đó kêtố quả dự đoán được tổng hợp từ các cầy quyêtố định.
- Ở bước huầnố luyện thì mình seỗ xầy dựng nhiêuầ cầy quyêtố định, các
cầy quyêtố định có thể khác nhau.

- Sau đó ở bước dự đốn, với một dữ liệu mới, thì ở mơiỗ cầy qutố
định mình seỗ đi từ trên xuônố g theo các node điêuầ kiện để được các dự
đốn, sau đó kêtố quả ciố cùng được tổng hợp từ kêtố quả của các cầy
quyêtố định.

Downloaded by bong bong ()


lOMoARcPSD|39475011

Chương 13. Phân tích thuật tốn
- Thuật toán hoạt động theo 4 bước
1. Chọn k điểm dữ liệu ngầuỗ nhiên từ tập huầốn luyện.
2. Xầy dựng cầy quyêốt định liên kêốt với k điểm dữ liệu này.
3. Chọn sôố N cầy bạn muônố xầy dựng và lặp lại bước 1 và bước 2
4. Đôiố với một điểm dữ liệu mới, hãy đặt từng cầy trong sôố N- cầy của
bạn dự đoán giá trị của y cho điểm dữ liệu được đêầ cập và gán điểm dữ
liệu mới cho giá trị trung bình trên tầốt cả các giá trị y được dự đoán .

Downloaded by bong bong ()

lOMoARcPSD|39475011

- Mơ hình hơiầ quy rừng ngầỗu nhiên rầốt mạnh meỗ và chính xác. Nó
thường hoạt động tơốt trên nhiêầu vầốn đêầ, bao gơầm các đơối tượng địa lý
có mơiố quan hệ phi tuốn tính. Tuy nhiên, các nhược điểm bao gơầm
những điêuầ sau: khơng có khả năng diêỗn giải, có thể dêỗ xảy ra hiện
tượng overfitting, chúng ta phải chọn sôố lượng cầy để đưa vào mơ
hình.

Downloaded by bong bong ()

lOMoARcPSD|39475011

Chương 14. XGBClassifer (Xtrem Gradient BOOSTing
Classifer)


Chương 15. Giới thiệu
- XGBoost (Extreme Gradient Boosting) là một giải thuật được
base trên gradient boosting, tuy nhiên kèm theo đó là những cải tiênố to
lớn vêầ mặt tơiố ưu thuật tốn, vêầ sự kêốt hợp hoàn hảo giữa sức mạnh
phầnầ mêầm và phầnầ cứng, giúp đạt được những kêtố quả vượt trội cả vêầ
thời gian training cũng như bộ nhớ sử dụng.

- Kể từ lầần đầầu ra mătố năm 2014, XGBoost nhanh chóng được đón
nhận và là giải thuật được sử dụng chính, tạo ra nhiêuầ kêốt quả vượt
trội, giành giải cao trong các cuộc thi trền kaggle do tính đơn giản
và hiểu quả của nó.

Chương 16. Phân tích thuật tốn
- Boosting : Là phương pháp tổng hợp các weak learner thành một
strong learner trong đó lầnầ lượt học các weak learner sao cho weak
learner sau cải thiện weak learner trước.
- Gradient Boosting:

Downloaded by bong bong ()

lOMoARcPSD|39475011

 Weak learner sau cải thiện weak learn trước bănầ g việc chú ý hơn vào
các điểm dữ liệu mà weak learner trước học sai. Điêuầ này dầnỗ tới các
bộ học sau càng ngày càng chú trọng hơn vào những điểm dữ liệu khó
học.

 Cụ thể, ban đầuầ các mầuỗ được đánh trọng sôố như nhau. Sau môiỗ lầnầ
học weak learner, các điểm dữ liệu mà weak learner đó seỗ học sai sơố
của learner trước đó , tham gia nhiêuầ hơn vào việc tính hàm mầtố mát.

Do đó, bộ học weak learner sau seỗ chú ý hơn vào chúng. Do đó, bộ học
weak learner sau seỗ chú ý hơn vào chúng. Cơ chêố này khá giônố g với
Gradient Descent nhưng khác ở chơỗ thay vì cơố gănố g thay đổi weights thì
Gradient Boostin seỗ thêm vào các bộ học weak learner.

Downloaded by bong bong ()

lOMoARcPSD|39475011

 Prediction của ensemble model seỗ là tổng của các prediction của các
learner thành phầần (regression).

 Gradient Boosting hoạt động được cả cho Classification và
Regression.

 Ta thầốy răầng, các leaner sau học sai sơố của learner trước do đó,
ensemble model seỗ dầần dầần khiêốn cho loss=0 –> Boosting giúp giảm
bias cho mơ hình.

- XGBoost là một cài đặt của GBM (Gradient Boosting Model) trong
đó tơiố ưu các tài ngun tính tốn bănầ g cách xầy dựng các cầy Decision
Tree một cách song song cùng các thuật tốn tơiố ưu khác

Downloaded by bong bong ()

lOMoARcPSD|39475011

Chương 17. XÂY DỰNG ỨNG DỤNG

Chương 18. Bộ dữ liệu


- Dữ liệu được lầyố trên trang Kaggle: là một trong những trang tổ
chức các cuộc thi nhiêuầ nhầtố trên thêố giới vêầ AI.

Downloaded by bong bong ()

lOMoARcPSD|39475011

- Bộ dữ liệu gơmầ 80 thuộc tính , trong đó có 6 biênố phụ thuộc và 1
biênố độc lập:

 Result – phần loại có bị ung thu phổi hay không với 1: là bị ung
thư , 0: không bị ung thư. Đầy là biênố mục tiêu mà bạn đang côố
gănố g dự đoán

 Name : Tên bệnh nhần
 Surname : Tên đệm của bệnh nhần
 Age : Tuổi của bệnh nhần
 Smokers :
 AreaQ :
 Alkhol :

Chương 19. Mô hình bài tốn
Chương 20. Lâấy thông tin dữ liệu
- Dữ liệu gơmầ 1 ma trận có 59 hàng và 7 cột

Downloaded by bong bong ()



×