BẮT ĐẦU HỌC DATA SCIENCE
ÔN G XU ÂN HỒNG – DATA ANALYST @ KNOREX
NỘI DU NG
Data science
101
Làm sao để
trở thành
Data
Scientist
Rèn luyện
thế
nào
Sự
nghiệp
GIỚI THIỆU BẢNTHÂN
Full-stack web developer (PHP, Java)
Master @ JAIST (NLP)
Blogger (Machine
Learning)
Working @ Knorex
(Advertising analysis)
Để biết mình hợp với cái nào thì phải
thử…
TÌM KHỐ HỌC ONLINE
•
•
•
•
•
Nắm kiến thức cơ bản.
Có thể vừa học vừa làm.
Thích học giáo trình nào thì
học.
Chi phí thấp.
Học nhanh học chậm là do
bạn.
HỌC LẬP TRÌNH
CẤU TRÚC DỮ LIỆUVÀ GIẢI THUẬT
Kiểu
dữ
liệu
Vòng
lặp,
phân
luồng
Hà
m
Hướn
g đối
tượng
HỌC TOÁN
HỌC TỐN
¡
Giải tích (Analytics): tìm độ lỗi cực tiểu cho mơ hình, cực đại hố khả năng.
¡
Đại số tuyến tính (Linear algebra):nhân ma trận trong xử lý ảnh, biểu diễn và thao tác dữ liệu
bảng.
¡
Toán rời rạc (Discrete mathematics):hỗ trợ phép đếm trong xác suất.
¡
Lý thuyết đồ thị (Graph theory): phân tích mạng xã hội.
¡
Xác suất thống kê (Statistics and probability): xây dựng mơ hình dự đốn dựa vào dữ liệu quá
khứ“educated guess”.
INDUSTRY DOMAIN
¡ Marketing
¡ C ustom
¡ Audio/Vid
er
support
¡ Agricultur
¡ Sales
¡ HR/Recr
uiting
¡ Security/
Fraud
¡ Educatio
eo
e
¡ Healthcare
¡ Legal
¡ Financial
SỰ NGHIỆP
Học
Đi làm
Start
up
thuậ
t
HỌC THUẬT
Đại
học
•
•
•
•
•
•
• 4
năm
Mast
er
• 2
năm
Ph
D
Tầm sư học đạo 10 năm.
Ít rủi ro.
Được nghiên cứu lĩnh vực mình thích.
Thường làm việc một mình hoặc nhóm nhỏ.
Áp lực về xuất bản bài báo khoa học.
Làm giảng viên, nghiên cứu sinh, hoặc
nhà tư vấn.
• 3
năm
Postd
oc
• 2
năm
ĐI
LÀM
¡
Data engineer.
¡
Data analyst.
¡
Data scientist.
¡
Project management.
¡
Business owner of a
Start-up.
REAL-TIME BIDDING
Bidding
O ptimiz
er
D emandSide
Platform
Advertiser
Knorex
User
Information
(Male, 25,
Student,
Ad science,
Longdon, … )
1.
Bid
Request
2.
Bid
(user,
Response
context)
(ad,
bid)
4.Win
Notice
(paying
price)
Data
Managem
ent
Platform
Ad
Exchan
ge
3.Ad
auction
Google
0.Ad
Request
5.Ad
(with
tracking)
Webpag
e
DATA ENGINEER
¡
Vai trị: thiết kế, xây dựng, bảo trì, giám sát hệ thống Big Data sao cho hệ thống có khả năng co
giãn hợp lý, tiết kiệm chi phí.
¡
Thách thức: mang lại trải nghiệm tốt về Big Data cho người dùng.
¡
Công nghệ: Docker, Zookeeper, Mesos, Chronos, Marathon, Spark, Redis, Kafka,Amazon Web
Service…
¡
Nhiệm vụ hằng ngày:
¡
Setup các hệ thống server.
¡
Tracking dữ liệu đến từ nhiều nguồn.
¡
Xây dựng hệ thống monitoring.
¡
Đảm bảo hệ thống duy trì ổn định.
LOGSTASH – ELASTICSEARCH - KIBANA
¡ Làm sao lấy access log cách đây 6 ngày trong khoảng thời gian 11:03
AM đến 08:16 PM?
¡
Logstash: ghi dữ liệu log từ nhiều nguồn.
¡
Elasticsearch:lưu trữ, tìm kiếm và phân tích dữ liệu log.
¡
Kibana: biểu diễn dữ liệu log, quan sát nhiều tác vụ trong một thời điểm.
DATA ANALYST
¡
Vai trị: thực hiện phân tích, theo dõi hệ thống Big Data.
¡
Thách thức: đảm bảo tính tồn vẹn của dữ liệu, xây dựng kế hoạch và xử lý nhanh những biến cố
của hệ thống.
¡
Công nghệ: MongoDB, MySQL, PostgreSQL,Excel, …
¡
Nhiệm vụ hằng ngày:
¡
Hỗ trợ Extract Transform Load dữ liệu.
¡
Điều tra phân tích những sự cố về dữ liệu.
¡
Tổng hợp Big Data từ nhiều nguồn để phân tích.
LÀMVIỆCVỚI DỮ LIỆU
¡
Tổng hợp dữ liệu thành Data warehouse theo giờ, ngày, và
tháng.
¡
Biểu diễn dữ liệu thành các bảng biểu và đồ thị để quan sát
trực quan.
¡
Tích hợp dữ liệu từ Facebook, Google theo dạng chuẩn.
¡
Xuất file report Excel Big Data (> 100 MB).
DATA SCIENTIST
¡
Vai trò: xác định vấn đề và đưa ra giải pháp AI cho tổ chức.
¡
Thách thức: xây dựng được hệ thống có độ chính xác cao, hỗ trợ lãnh đạo ra quyết định tốt hơn.
¡
Công nghệ: Docker, Spark,Amazon Web Service, Google cloud computing, MongoDB,
PostgreSQL,Jupyter, …
DATA SCIENTIST
Brainstor
m
Khảo
sát tài
liệu
Cài
đặt
Giải
pháp
Vấn
đề
Thực
Phân
tích
thất
bại
nghiệ
m
Thất
bại
BIDDING OPTIMIZER
¡
Có nên bid hay khơng?
¡
Nếu có thì bid với giá bao nhiêu để thắng?
¡
Dự đoán xem khi đăng quảng cáo này user có khả năng click là bao
nhiêu?
¡
Mục tiêu: maximize số lượng win với điều kiện Budget và CPM cho
trước bởi user.
PROJECT MANAGEMENT
¡
Vai trò: xây dựng và áp dụng những quy trình giúp hồn thành dự án
đúng thời hạn.
¡
Nhiệm vụ: phân công công việc và tài nguyên cho đúng người đúng việc.
¡
Cơng cụ: quản lý thời gian, quản lý quy trình.
¡
Thách thức:
¡
Làm hài lòng sếp.
¡
Làm hài lòng anh em.
¡
Làm hài lòng khách hàng.
BUSINESS OWNER
¡
Vai trò: nắm bắt và tạo ra xu hướng, truyền lửa, truyền cảm hứng, gửi gắm tầm nhìn
vào sản phẩm.
¡
Nhiệm vụ: tìm mặt gửi vàng, phân phối tài nguyên và nguồn lực hợp lý.
¡
Công cụ: kĩ năng giao tiếp, đam mê, tiền bạc, và nhân cách.
¡
Thách thức:
¡
Làm hài lòng khách hàng.
¡
Chiêu dụ và giữ chân được nhân tài.
¡
Chấp nhận rủi ro bị phá sản.
¡
Cập nhật kịp thời xu hướng nhanh so với đối thủ cạnh tranh.
NỘI DU NG
Data science
101
Làm sao để
trở thành
Data
Scientist
Rèn luyện
thế
nào
Sự
nghiệp