Tải bản đầy đủ (.pptx) (16 trang)

random forest deception tree

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (660.83 KB, 16 trang )

CẤU TRÚC DỮ LIÊU
& GIẢI THUẬT
NHÓM 5


GIỚI THIỆU
1
2
3
4

D e c i s i o n Tr e e

Ra n d om Fores t

Ứng dụng thực tế xây dựng mơ hình
machine learning đơn giản để
dự đốn giá nhà

5

Dữ liệu và khoa học dữ liệu

Mô phỏng


01
Dữ liệu và khoa học dữ liệu
Dữ liệu là tập hợp thơng tin bao gồm các số, từ hoặc hình ảnh, được chia
làm dữ liệu thô và dữ liệu đã được xử lý.



Dữ liệu thơ

là các số, ký tự, hình ảnh, ký hiệu, đại lượng vật lý và thường được tiếp tục xử lý bởi con người hoặc đưa vào máy tính.

Dữ liệu thơ mang tính tương đối
Dữ liệu đã được xử lí ở bước này có thể được gọi là dữ liệu thô ở bước tiếp theo.

Dữ liệu đã được xử lí

Là những dữ liệu được thu thập để chuyển đổi sang dạng mong muốn. Và phải được xử lí theo từng bước như lưu trữ, sắp xếp, xử lý,
phân tích, trình bày.


Đặc trưng của Big Data

Big Data



là tập hợp dữ liệu có khối lượng lớn và phức tạp

1

Volume: Khối lượng dữ liệu lớn

mà các phần mềm xử lý dữ liệu truyền thống
không thể thu thập, quản lý và xử lý trong một
khoảng thời gian ngắn.




2

Variety: Đa dạng các loại dữ liệu

Bao gồm dữ liệu có cấu trúc, khơng có cấu trúc
và bán cấu trúc

3

Velocity: Tốc độ xử lý và phân tích dữ liệu


Khoa học dữ liệu

Tạo ra và quản trị dữ liệu

là khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá
trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các
quyết định dẫn dắt hành động.

Khoa học dữ liệu bao gồm 3 phần chính

Phân tích dữ liệu

Chuyển kết quả phân tích
thành giá trị hành động



02
Decision Tree
là cây nhị phân chia tách một cách đệ quy tập dữ liệu cho đến khi chúng ta

chỉ còn các nút lá thuần túy


Classification Decision
Cây quyết định là một thuật toán tham lam, nó chọn con đường tốt nhất, tối đa hóa thơng tin thu
được, nó sẽ khơng quay lại và thay đổi phân tách trước đó

Vì vậy tất cả các phần tách sau sẽ phụ thuộc vào phần hiện tại
và điều này khơng đảm bảo chúng ta có được bộ phân tách tối
ưu nhất nhưng có sự tham lam tìm kiếm làm cho machine
learning nhanh hơn nhiều.


ENTROPY

Là thước đo lượng thông tin chứa trong một trạng thái. Tìm mức tăng
thơng tin tương ứng với một phép tách, chúng ta cần trừ entropy kết
hợp của các nút con khỏi entropy của nút cha

 

IG = E(parent) -

GINI

Dùng GINI để tính tốn mức tăng thơng tin, chúng ta cần kiểm tra xem mức tăng thơng

tin hiện tại này có lớn hơn mức tăng thông tin tối đa hay không

 

Gini Index = 1 - với pi = probability of class i


Regressor Decision
Trong hồi quy, ta sử dụng phương sai làm thước
đo tạp chất giống như đã sử dụng chỉ số entropy
hoặc gini trong bài toán phân loại.

 

Var =

Phương sai cao hơn có nghĩa là tạp chất cao hơn.
 

Var Red = Var(parent) (Varian reduction: độ giảm)

Trọng số chỉ là kích thước tương đối của nút con
đối với nút cha. Dùng Var Red với mục đích tương tự IG.


03
Random Forest
Là một tập hợp của nhiều cây quyết định ngẫu nhiên và nó ít nhạy cảm hơn

nhiều với dữ liệu





Đào tạo một cây quyết
định trên từng bộ dữ liệu
được khởi động 1 cách
độc lập. Chọn ngẫu
nhiên một tập hợp con
các đặc điểm cho từng
cây và chỉ sử dụng
chúng để training.



Xây dựng cây quyết định
ngẫu nhiên



Bước đầu tiên là xây dựng bộ dữ
liệu mới từ dữ liệu ban đầu. Quá
trình tạo mới dữ liệu được gọi là
Bootstrapping



Kết hợp các kết quả từ nhiều mơ hình
( Q trình tổng hợp)



04
Ứng dụng thực tế xây dựng mơ hình machine learning
đơn giản để dự đoán giá nhà


Id

LotArea

YearBuilt

SalePrice

Id

FullBath

YearBuilt

SalePrice

1

8450

2003

208500


7

2

2004

307000

3

11250

3

2

9600

1976

181500

2

2

1976

181500


10

7420

1

8450

2003

208500

1

2

2003

208500

1

8450

4

9550

1915


140000

9

2

1931

129900

4

  9550

5

14260

2000

250000

4

1

1915

140000


8

10382

5

14260

2000

250000

3

YearBuilt 2

2001
1stFlrSF

223500

8

2

2001

223500

1


118000

6

10084

2004

6

10084

2004

9
10

Dự đoán
6120

 2nd

Id

LotArea

143000

3


143000
 

10

 

FB

3

11250

2001

1939
856
1976
  1262
FB
2003
920

4

9550

1915


961

1

1931

LA 8450

2003

129900

2
Dự đoán
SalePrice:
118000
7420 155700 1939

2

2

9600

1976
1

2

SalePrice: 130500

5
6

Dự đoán
SalePrice:168900

7
8
9
10

14260
14115
10084
10382

Dự đoán
6120

Id

1stFlrSF

FullBath

2000
6
7
5
4


SalePrice: 1400002
7420

3

1993
2004
1973
1931
1939

1694
1145
961

 
208500
142350

SalePrice

1262 Dự

1694  

1022

đoán


1077

143000
566

2

307000
0

2

Bedroom
250000

140000
752đoán
Dự

2

181500
0
SalePrice:

920 SalePrice: 237333
2

223500


2

118000

9

2

8

129900

3

208500

3

2

6

223500

3

140000

9


2

8

129900

200000

5

2

9

250000

YB200000

7

2
SalePrice

7

5

2

9


6

1

5

 
 

TotRmsAbvGrd

FB

129900
250000
8

208500

1

 
FB

208500

3

3


10

LA

223500
140000
Dự đoán

7
SalePrice

Dự1đoán

4
1

756

1

140000

SalePrice:
141500
2

5
3


1053

2

2

2
3

0

2

2

9
2

752

2

866

2

0

2


181500

1

854

2

208500

1

854

2

208500

207000
Dự đoán

1

4

3
Dự đoán
2
Dự đoán salePrice:
SalePrice: 1936602

208500

Dự đoán

9

5
7
7
8
5

250000
SalePrice:
234200
Dự đoán
143000

250000

SalePrice: 195780
307000

181500
129900
118000

196500

1022


2

129900

1

856

2

208500

856

2

208500

Dự đoán

5

1053

2

250000

856


2

208500

SalePrice:250000

9

752

2

129900

1
1

Dự đoán

SalePrice:207833

SalePrice:164300

200000
129900

118000
Dự đoán salePrice:


9

SalePrice: 12900

1

6

 

307000
250000

SalePrice: 246166

143000

8

208500

5

118000

181500

FullBath

2


2

6

3

Dự đoán

208500

2ndFlrSF

983

1

181500

Id

1053

1

6

3

8450


1

2

3

2

756

2

4

8450

1

Tot

223500

3

2

866
Dự đoán salePrice:


SalePrice

2

14260

1

TotRmsAbvGrd

3

2

0

FullBath

BedroomAbvGr

6120

5

Id

3

10328


9

181500

YB

 1st

SalePrice

BedroomAbvGr

FullBath

854

796

1107

LotArea

2ndFlrSF

1145

796

Id



05
Mô phỏng


T H A N K YO U
Cảm ơn thầy đã lắng nghe bài thuyết trình của chúng em



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×