Tải bản đầy đủ (.pptx) (26 trang)

BẮT ĐẦU HỌC DATA SCIENCE ÔNG XUÂN HỒNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (114.17 KB, 26 trang )

BẮT ĐẦU HỌC DATA SCIENCE
ÔN G XU ÂN HỒNG – DATA ANALYST @ KNOREX


NỘI DU NG

Data science
101

Làm sao để
trở thành
Data
Scientist

Rèn luyện
thế
nào

Sự
nghiệp


GIỚI THIỆU BẢNTHÂN

Full-stack web developer (PHP, Java)
Master @ JAIST (NLP)
Blogger (Machine
Learning)
Working @ Knorex
(Advertising analysis)



Để biết mình hợp với cái nào thì phải
thử…


TÌM KHỐ HỌC ONLINE







Nắm kiến thức cơ bản.
Có thể vừa học vừa làm.
Thích học giáo trình nào thì
học.
Chi phí thấp.
Học nhanh học chậm là do
bạn.


HỌC LẬP TRÌNH



CẤU TRÚC DỮ LIỆUVÀ GIẢI THUẬT

Kiểu
dữ

liệu

Vòng
lặp,
phân
luồng


m

Hướn
g đối
tượng


HỌC TOÁN


HỌC TỐN

¡

Giải tích (Analytics): tìm độ lỗi cực tiểu cho mơ hình, cực đại hố khả năng.

¡

Đại số tuyến tính (Linear algebra):nhân ma trận trong xử lý ảnh, biểu diễn và thao tác dữ liệu
bảng.

¡


Toán rời rạc (Discrete mathematics):hỗ trợ phép đếm trong xác suất.

¡

Lý thuyết đồ thị (Graph theory): phân tích mạng xã hội.

¡

Xác suất thống kê (Statistics and probability): xây dựng mơ hình dự đốn dựa vào dữ liệu quá
khứ“educated guess”.


INDUSTRY DOMAIN
¡ Marketing
¡ C ustom

¡ Audio/Vid

er
support

¡ Agricultur

¡ Sales
¡ HR/Recr

uiting
¡ Security/


Fraud
¡ Educatio

eo
e
¡ Healthcare
¡ Legal
¡ Financial


SỰ NGHIỆP

Học
Đi làm
Start
up

thuậ
t


HỌC THUẬT

Đại
học









• 4
năm

Mast
er

• 2
năm

Ph
D

Tầm sư học đạo 10 năm.
Ít rủi ro.
Được nghiên cứu lĩnh vực mình thích.
Thường làm việc một mình hoặc nhóm nhỏ.
Áp lực về xuất bản bài báo khoa học.
Làm giảng viên, nghiên cứu sinh, hoặc
nhà tư vấn.

• 3
năm

Postd
oc

• 2

năm


ĐI
LÀM

¡

Data engineer.

¡

Data analyst.

¡

Data scientist.

¡

Project management.

¡

Business owner of a
Start-up.


REAL-TIME BIDDING


Bidding
O ptimiz
er

D emandSide
Platform
Advertiser

Knorex

User
Information
(Male, 25,
Student,
Ad science,
Longdon, … )
1.
Bid
Request
2.
Bid
(user,
Response
context)
(ad,
bid)
4.Win
Notice
(paying
price)


Data
Managem
ent
Platform
Ad
Exchan
ge
3.Ad
auction

Google

0.Ad
Request
5.Ad
(with
tracking)

Webpag
e


DATA ENGINEER

¡

Vai trị: thiết kế, xây dựng, bảo trì, giám sát hệ thống Big Data sao cho hệ thống có khả năng co
giãn hợp lý, tiết kiệm chi phí.


¡

Thách thức: mang lại trải nghiệm tốt về Big Data cho người dùng.

¡

Công nghệ: Docker, Zookeeper, Mesos, Chronos, Marathon, Spark, Redis, Kafka,Amazon Web
Service…

¡

Nhiệm vụ hằng ngày:
¡

Setup các hệ thống server.

¡

Tracking dữ liệu đến từ nhiều nguồn.

¡

Xây dựng hệ thống monitoring.

¡

Đảm bảo hệ thống duy trì ổn định.


LOGSTASH – ELASTICSEARCH - KIBANA


¡ Làm sao lấy access log cách đây 6 ngày trong khoảng thời gian 11:03

AM đến 08:16 PM?
¡

Logstash: ghi dữ liệu log từ nhiều nguồn.

¡

Elasticsearch:lưu trữ, tìm kiếm và phân tích dữ liệu log.

¡

Kibana: biểu diễn dữ liệu log, quan sát nhiều tác vụ trong một thời điểm.


DATA ANALYST

¡

Vai trị: thực hiện phân tích, theo dõi hệ thống Big Data.

¡

Thách thức: đảm bảo tính tồn vẹn của dữ liệu, xây dựng kế hoạch và xử lý nhanh những biến cố
của hệ thống.

¡


Công nghệ: MongoDB, MySQL, PostgreSQL,Excel, …

¡

Nhiệm vụ hằng ngày:
¡

Hỗ trợ Extract Transform Load dữ liệu.

¡

Điều tra phân tích những sự cố về dữ liệu.

¡

Tổng hợp Big Data từ nhiều nguồn để phân tích.


LÀMVIỆCVỚI DỮ LIỆU

¡

Tổng hợp dữ liệu thành Data warehouse theo giờ, ngày, và
tháng.

¡

Biểu diễn dữ liệu thành các bảng biểu và đồ thị để quan sát
trực quan.


¡

Tích hợp dữ liệu từ Facebook, Google theo dạng chuẩn.

¡

Xuất file report Excel Big Data (> 100 MB).


DATA SCIENTIST

¡

Vai trò: xác định vấn đề và đưa ra giải pháp AI cho tổ chức.

¡

Thách thức: xây dựng được hệ thống có độ chính xác cao, hỗ trợ lãnh đạo ra quyết định tốt hơn.

¡

Công nghệ: Docker, Spark,Amazon Web Service, Google cloud computing, MongoDB,
PostgreSQL,Jupyter, …


DATA SCIENTIST
Brainstor
m
Khảo
sát tài

liệu

Cài
đặt

Giải
pháp

Vấn
đề
Thực

Phân
tích
thất
bại

nghiệ
m
Thất
bại


BIDDING OPTIMIZER

¡

Có nên bid hay khơng?

¡


Nếu có thì bid với giá bao nhiêu để thắng?

¡

Dự đoán xem khi đăng quảng cáo này user có khả năng click là bao
nhiêu?

¡

Mục tiêu: maximize số lượng win với điều kiện Budget và CPM cho
trước bởi user.


PROJECT MANAGEMENT

¡

Vai trò: xây dựng và áp dụng những quy trình giúp hồn thành dự án
đúng thời hạn.

¡

Nhiệm vụ: phân công công việc và tài nguyên cho đúng người đúng việc.

¡

Cơng cụ: quản lý thời gian, quản lý quy trình.

¡


Thách thức:
¡

Làm hài lòng sếp.

¡

Làm hài lòng anh em.

¡

Làm hài lòng khách hàng.


BUSINESS OWNER

¡

Vai trò: nắm bắt và tạo ra xu hướng, truyền lửa, truyền cảm hứng, gửi gắm tầm nhìn
vào sản phẩm.

¡

Nhiệm vụ: tìm mặt gửi vàng, phân phối tài nguyên và nguồn lực hợp lý.

¡

Công cụ: kĩ năng giao tiếp, đam mê, tiền bạc, và nhân cách.


¡

Thách thức:
¡

Làm hài lòng khách hàng.

¡

Chiêu dụ và giữ chân được nhân tài.

¡

Chấp nhận rủi ro bị phá sản.

¡

Cập nhật kịp thời xu hướng nhanh so với đối thủ cạnh tranh.


NỘI DU NG

Data science
101

Làm sao để
trở thành
Data
Scientist


Rèn luyện
thế
nào

Sự
nghiệp


×