CẤU TRÚC DỮ LIÊU
& GIẢI THUẬT
NHÓM 5
GIỚI THIỆU
1
2
3
4
D e c i s i o n Tr e e
Ra n d om Fores t
Ứng dụng thực tế xây dựng mơ hình
machine learning đơn giản để
dự đốn giá nhà
5
Dữ liệu và khoa học dữ liệu
Mô phỏng
01
Dữ liệu và khoa học dữ liệu
Dữ liệu là tập hợp thơng tin bao gồm các số, từ hoặc hình ảnh, được chia
làm dữ liệu thô và dữ liệu đã được xử lý.
Dữ liệu thơ
là các số, ký tự, hình ảnh, ký hiệu, đại lượng vật lý và thường được tiếp tục xử lý bởi con người hoặc đưa vào máy tính.
Dữ liệu thơ mang tính tương đối
Dữ liệu đã được xử lí ở bước này có thể được gọi là dữ liệu thô ở bước tiếp theo.
Dữ liệu đã được xử lí
Là những dữ liệu được thu thập để chuyển đổi sang dạng mong muốn. Và phải được xử lí theo từng bước như lưu trữ, sắp xếp, xử lý,
phân tích, trình bày.
Đặc trưng của Big Data
Big Data
•
là tập hợp dữ liệu có khối lượng lớn và phức tạp
1
Volume: Khối lượng dữ liệu lớn
mà các phần mềm xử lý dữ liệu truyền thống
không thể thu thập, quản lý và xử lý trong một
khoảng thời gian ngắn.
•
2
Variety: Đa dạng các loại dữ liệu
Bao gồm dữ liệu có cấu trúc, khơng có cấu trúc
và bán cấu trúc
3
Velocity: Tốc độ xử lý và phân tích dữ liệu
Khoa học dữ liệu
Tạo ra và quản trị dữ liệu
là khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá
trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các
quyết định dẫn dắt hành động.
Khoa học dữ liệu bao gồm 3 phần chính
Phân tích dữ liệu
Chuyển kết quả phân tích
thành giá trị hành động
02
Decision Tree
là cây nhị phân chia tách một cách đệ quy tập dữ liệu cho đến khi chúng ta
chỉ còn các nút lá thuần túy
Classification Decision
Cây quyết định là một thuật toán tham lam, nó chọn con đường tốt nhất, tối đa hóa thơng tin thu
được, nó sẽ khơng quay lại và thay đổi phân tách trước đó
Vì vậy tất cả các phần tách sau sẽ phụ thuộc vào phần hiện tại
và điều này khơng đảm bảo chúng ta có được bộ phân tách tối
ưu nhất nhưng có sự tham lam tìm kiếm làm cho machine
learning nhanh hơn nhiều.
ENTROPY
Là thước đo lượng thông tin chứa trong một trạng thái. Tìm mức tăng
thơng tin tương ứng với một phép tách, chúng ta cần trừ entropy kết
hợp của các nút con khỏi entropy của nút cha
IG = E(parent) -
GINI
Dùng GINI để tính tốn mức tăng thơng tin, chúng ta cần kiểm tra xem mức tăng thơng
tin hiện tại này có lớn hơn mức tăng thông tin tối đa hay không
Gini Index = 1 - với pi = probability of class i
Regressor Decision
Trong hồi quy, ta sử dụng phương sai làm thước
đo tạp chất giống như đã sử dụng chỉ số entropy
hoặc gini trong bài toán phân loại.
Var =
Phương sai cao hơn có nghĩa là tạp chất cao hơn.
Var Red = Var(parent) (Varian reduction: độ giảm)
Trọng số chỉ là kích thước tương đối của nút con
đối với nút cha. Dùng Var Red với mục đích tương tự IG.
03
Random Forest
Là một tập hợp của nhiều cây quyết định ngẫu nhiên và nó ít nhạy cảm hơn
nhiều với dữ liệu
•
Đào tạo một cây quyết
định trên từng bộ dữ liệu
được khởi động 1 cách
độc lập. Chọn ngẫu
nhiên một tập hợp con
các đặc điểm cho từng
cây và chỉ sử dụng
chúng để training.
•
Xây dựng cây quyết định
ngẫu nhiên
•
Bước đầu tiên là xây dựng bộ dữ
liệu mới từ dữ liệu ban đầu. Quá
trình tạo mới dữ liệu được gọi là
Bootstrapping
•
Kết hợp các kết quả từ nhiều mơ hình
( Q trình tổng hợp)
04
Ứng dụng thực tế xây dựng mơ hình machine learning
đơn giản để dự đoán giá nhà
Id
LotArea
YearBuilt
SalePrice
Id
FullBath
YearBuilt
SalePrice
1
8450
2003
208500
7
2
2004
307000
3
11250
3
2
9600
1976
181500
2
2
1976
181500
10
7420
1
8450
2003
208500
1
2
2003
208500
1
8450
4
9550
1915
140000
9
2
1931
129900
4
9550
5
14260
2000
250000
4
1
1915
140000
8
10382
5
14260
2000
250000
3
YearBuilt 2
2001
1stFlrSF
223500
8
2
2001
223500
1
118000
6
10084
2004
6
10084
2004
9
10
Dự đoán
6120
2nd
Id
LotArea
143000
3
143000
10
FB
3
11250
2001
1939
856
1976
1262
FB
2003
920
4
9550
1915
961
1
1931
LA 8450
2003
129900
2
Dự đoán
SalePrice:
118000
7420 155700 1939
2
2
9600
1976
1
2
SalePrice: 130500
5
6
Dự đoán
SalePrice:168900
7
8
9
10
14260
14115
10084
10382
Dự đoán
6120
Id
1stFlrSF
FullBath
2000
6
7
5
4
SalePrice: 1400002
7420
3
1993
2004
1973
1931
1939
1694
1145
961
208500
142350
SalePrice
1262 Dự
1694
1022
đoán
1077
143000
566
2
307000
0
2
Bedroom
250000
140000
752đoán
Dự
2
181500
0
SalePrice:
920 SalePrice: 237333
2
223500
2
118000
9
2
8
129900
3
208500
3
2
6
223500
3
140000
9
2
8
129900
200000
5
2
9
250000
YB200000
7
2
SalePrice
7
5
2
9
6
1
5
TotRmsAbvGrd
FB
129900
250000
8
208500
1
FB
208500
3
3
10
LA
223500
140000
Dự đoán
7
SalePrice
Dự1đoán
4
1
756
1
140000
SalePrice:
141500
2
5
3
1053
2
2
2
3
0
2
2
9
2
752
2
866
2
0
2
181500
1
854
2
208500
1
854
2
208500
207000
Dự đoán
1
4
3
Dự đoán
2
Dự đoán salePrice:
SalePrice: 1936602
208500
Dự đoán
9
5
7
7
8
5
250000
SalePrice:
234200
Dự đoán
143000
250000
SalePrice: 195780
307000
181500
129900
118000
196500
1022
2
129900
1
856
2
208500
856
2
208500
Dự đoán
5
1053
2
250000
856
2
208500
SalePrice:250000
9
752
2
129900
1
1
Dự đoán
SalePrice:207833
SalePrice:164300
200000
129900
118000
Dự đoán salePrice:
9
SalePrice: 12900
1
6
307000
250000
SalePrice: 246166
143000
8
208500
5
118000
181500
FullBath
2
2
6
3
Dự đoán
208500
2ndFlrSF
983
1
181500
Id
1053
1
6
3
8450
1
2
3
2
756
2
4
8450
1
Tot
223500
3
2
866
Dự đoán salePrice:
SalePrice
2
14260
1
TotRmsAbvGrd
3
2
0
FullBath
BedroomAbvGr
6120
5
Id
3
10328
9
181500
YB
1st
SalePrice
BedroomAbvGr
FullBath
854
796
1107
LotArea
2ndFlrSF
1145
796
Id
05
Mô phỏng
T H A N K YO U
Cảm ơn thầy đã lắng nghe bài thuyết trình của chúng em