Tải bản đầy đủ (.pdf) (31 trang)

Giới thiệu về khóa học với r ranalytics vn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.92 MB, 31 trang )

Giới thiệu khóa học về
You can have data without information, but you cannot
have information without data.
1
Daniel Keys
Moran


Contents
• Ranalytics
• Giới thiệu về R
• Khóa học về R
• Q&A


1. RANALYTICS


Who we are?

• Data scientist

• Web developer

• Data visualizer &
applied modeler


Who we are?

/>



Our services
• Hướng dẫn phân tích dữ liệu với R
• Phân tích dữ liệu kinh doanh (out source)
• Nghiên cứu thị trường


2. GIỚI THIỆU VỀ R


R là gì?
• Ngơn ngữ lập trình – phần mềm
dành cho tính tốn thống kê & xây
dựng biểu đồ (R is a language and
environment for statistical
computing and graphics –
r-project.org)
• R được các nhà phân tích sử dụng
rộng rãi ở TẤT CẢ các lĩnh vực

Nguồn: />

Lịch sử phát triển R
• Ross Ihaka & Robert Gentleman (New Zealand – 1990s)
• 1988: Phần mềm S
• 1997: R-core team


Tại sao nên học R?
• Các phương pháp phân tích dữ liệu mới

nhất
• Khả năng trực quan hóa
• Tính ứng dụng – kế thừa cao – hỗ trợ với
rất nhiều packages
• Khả năng kết hợp với các cơng cụ khác
(Google Analytics, Facebook…)
• Nhu cầu phân tích dữ liệu ngày càng tăng
• Miễn phí


Tại sao nên học R (cont)?
Analytics softwares used by data scientists 2015
(Rexer Analytics survey)

R Usage Growth
Rexer Data Miner Survey, 2007-2015

76% of analytic
professionals
report using R

36% select R as
their primary tool

Source: />

So sánh R với SPSS & Excel
STT Tiêu chí

Excel


SPSS

R

1

Dễ sử dụng

5

4

3

2

Vẽ biểu đồ phức tạp

3

4

5

3

Xây dựng mơ hình, phân tích số liệu phức
tạp


2

4

5

4

Xử lý số liệu lớn (>1triệu dòng)

1

3

5

5

Đọc các nguồn dữ liệu

3

4

5

6

Khả năng tái sử dụng kết quả phân tích


3

4

5

7

Khả năng quản lý project

2

4

5

Nguồn:
/> /> />

Nên học phần mềm phân tích số liệu nào???


Case Study – R in Business Analytics
• Uber: Phân tích ảnh hưởng của Uber tại Chicago
• Facebook: Phân tích hành vi người dùng
• Ford: Data-driven strategy


Case Study – R in Business Analytics
• Exploratory Data Analysis

• Experimental Analysis
“Generally, we use R to move
fast when we get a new data
set. With R, we don’t need to
develop custom tools or write
a bunch of code. Instead, we
can just go about cleaning and
exploring the data.”
Solomon Messing, data scientist at
Facebook


3. KHÓA HỌC VỀ R


Giới thiệu khóa học về R
Các bước phân tích số liệu cơ bản
Version 1: Người không sử dụng R
Lên ý tưởng
(Google/
Mind)

Thu thập số
liệu (Excel)

Xử lý số liệu
(Excel)

Phân tích số
liệu (SPSS,

Excel)

Kết quả, báo
cáo (Word)

Phân tích số
liệu (R)

Kết quả, báo cáo
(R/Word/HTML)

Version 2: Người sử dụng R
Lên ý tưởng
(Google/R)

Thu thập số
liệu (R/Excel)

Xử lý số liệu (R)


Giới thiệu module 1 – “Ngữ pháp của biểu đồ”
Số lượng dự kiến: 3 buổi
Nội dung khóa học:
• Cơ bản về R: Giới thiệu cơ bản về R & Rstudio – Một số câu lệnh cơ bản
trong R
• Grammar of Graphics: Giới thiệu và phân tích “ngữ pháp của biểu đồ”, xây
dựng các biểu đồ nâng cao + case study
Đối tượng: Dành cho những người đi làm – khơng có thời gian học cơ bản để có thể
ứng dụng được ngay “Ngữ pháp của biểu đồ - Grammar of Graphics”



Học được gì qua module “Ngữ pháp của biểu đồ”?
• Cơ bản biết cách sử dụng được công cụ phân tích dữ liệu mạnh nhất thế
giới
• Hiểu & ứng dụng được khái niệm “Grammar of Graphics” trong công
việc


Giới thiệu module 2 – Xử lý và phân tích dữ liệu với R
Số lượng dự kiến: 3 buổi
Nội dung module:
• Xử lý & phân tích dữ liệu với R (2): Import dữ liệu từ các nguồn khác nhau,
hướng dẫn cách thức phân tích & đọc hiểu số liệu cơ bản trên R (histogram,
boxplot, quantile…) + Case study
• Mơ hình OLS (1): Mơ hình hồi quy đơn giản + case study


Học được gì qua “Xử lý & phân tích dữ liệu với R”?
• Sử dụng được cơng cụ phân tích dữ liệu mạnh nhất thế giới
• Chuẩn hóa các bước phân tích dữ liệu & đọc hiểu kết quả phân tích
thống kê trong thực tế


Ví dụ về R
ggplot(nmmaps, aes(x=season,
y=death)) +
geom_boxplot(aes(fill = season)) +
geom_violin(alpha=0.5,
color="gray") +

geom_jitter(alpha=0.5,
aes(color=season), position =
position_jitter(width = 0.1)) +
coord_flip() +
ggtitle("Distribution of death
regarding seasons in Chicago") +
theme_bw()



Các khóa học nâng cao (chưa triển khai hiện tại)
• R in Excel (RExcel)
• Advanced graphics in R (gganimate, ggally)
• Google Analytics in R (RGA – ggplot2)
• Social Analytics in R (Facebook & social network)
• Time Series in R (Var, GARCH,…)
• Quantitative Finance in R (quantmod,…)
• Data Mining in R – Predictive Modelling (rattle, rpart…)


4. Q&A


×