Tải bản đầy đủ (.docx) (13 trang)

Hướng dẫn cho người mới bắt đầu về R và RStudio (máy học nâng cao)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (266.41 KB, 13 trang )

HƯỚNG DẪN CHO NGƯỜI MỚI BẮT ĐẦU
VỀ R VÀ RSTUDIO

GIỚI THIỆU VỀ R
R là một ngơn ngữ lập trình được sử dụng để phân tích thơng tin
thống kê, để trực quan hóa chúng bằng cách sử dụng biểu diễn đồ họa, báo
cáo và mơ hình hóa dữ liệu. Ngơn ngữ lập trình này đã đặt tên là R, dựa
trên chữ cái đầu tiên của hai tác giả (Robert Gentleman và Ross Ihaka).
R cũng cho phép tích hợp với các thủ tục được viết bằng ngôn ngữ C,
C ++, .Net, Python và FORTRAN để nâng cao hiệu quả.
R là một trong những công cụ quan trọng nhất được các nhà nghiên
cứu, nhà phân tích dữ liệu, nhà thống kê và nhà tiếp thị sử dụng để truy
xuất, làm sạch, phân tích, trực quan hóa và trình bày dữ liệu.
R cung cấp nhiều loại phân tích thống kê bao gồm:
Mơ hình hóa tuyến tính và phi tuyến tính,
Kiểm tra thống kê cổ điển,
Phân tích chuỗi thời gian,
Phân loại,
Phân cụm,
Phân tích dữ liệu lớn,


Khai thác dữ liệu
CÀI ĐẶT R
R là mã nguồn mở và nó có các phiên bản cho tất cả các hệ điều hành
chính. Để cài đặt R, chúng ta có thể lấy nó từ trang web hoặc có thể sử dụng các lệnh từ thiết bị đầu cuối.
Tôi khá chắc rằng bạn có thể quản lý cài đặt này theo hệ điều hành
bạn đang sử dụng, tôi sẽ không mô tả nó vì nó chỉ là một bản sửa lỗi đơn
giản. Thậm chí bạn có thể tìm thấy nhiều hướng dẫn trên internet. Tuy
nhiên, Nếu bạn cài đặt chương trình của mình đến một vị trí tùy chỉnh khác
với vị trí cài đặt mặc định của HĐH, hãy đảm bảo bạn thêm đường dẫn của


thư mục bin vào biến đường dẫn hệ thống sau khi cài đặt, để làm việc với
R trong dấu nhắc lệnh.
Bắt đầu
Khi bạn đã cài đặt R vào máy tính, có một số cách để bạn bắt tay vào
lập trình R.
1. Bạn có thể tải bảng điều khiển R bằng cách sử dụng phím tắt mặc định
trong menu bắt đầu và bắt đầu mã hóa tương tác R.
2. Bạn có thể vào dấu nhắc lệnh, gõ R và lấy bảng điều khiển và bắt đầu.
3. Bạn có thể viết một tập lệnh với phần mở rộng .R và chạy nó trong dấu
nhắc lệnh bằng lệnh Rscript <tên tệp> .
4. Bạn có thể cài đặt R studio IDE và bắt đầu viết mã ở đó.
R là một ngơn ngữ thơng dịch, vì vậy khi bạn sử dụng R trong bảng
điều khiển R, nó hoạt động về cơ bản theo mơ hình câu hỏi và câu trả lời.
Bạn nhập một dịng lệnh và nhấn phím 'Enter', sau đó chương trình thực
hiện dịng đó, in kết quả nếu có, và nếu cần, yêu cầu nhập thêm.
Điều này có nghĩa là bạn có thể thấy đầu ra của mình ngay sau khi
bạn viết một dòng mã và chuyển sang phần tiếp theo. Đó là một lợi thế vì
khi đó bạn ít bị lỗi giữa chương trình hơn.
Khi sử dụng Rstudio IDE, bạn có thể chạy các tập lệnh của mình
bằng ctrl + Enter
Nếu một lệnh quá dài để vừa trên một dòng, dấu “+” được sử dụng
cho lời nhắc tiếp tục.
Để thốt khỏi bảng điều khiển, bạn có thể sử dụng lệnh q ()
R phân biệt chữ hoa chữ thường.
Ký tự nhắc mặc định trong R là>


Nếu bạn thấy điều đó trên dịng lệnh của mình, điều đó có nghĩa là nó đã
sẵn sàng thực hiện các hướng dẫn.
Nếu do bất kỳ nguyên nhân nào bạn làm mất lời nhắc, hãy thử ctrl + z để

khôi phục trạng thái sẵn sàng.
Bình luận trong R
bạn có thể nhận xét một dòng trong tập lệnh R bằng cách sử dụng #
R khơng hỗ trợ bình luận nhiều dịng, nhưng có một cách để giải quyết vấn
đề này. Mọi người thường sử dụng điều kiện if mà sẽ không bao giờ được
thỏa mãn, để nhập một nhận xét nhiều dịng vào tập lệnh
Ví dụ
class(x)If (FALSE)
{
This
Is
A comment,
}
q () -quit chương trình
print () -dùng để in các chuỗi và giá trị biến. Nhưng chỉ có thể in một biến
với hàm.
message = “Hello”
print(message)
>"Hello"
có thể in nhiều hơn một biến và chuỗi.
cat (message, “ User ”)
>"Hello User"
lệnh get thư mục làm việc hiển thị vị trí nơi các hoạt động hiện tại đang
diễn ra
setwd ()
đặt thư mục làm việc hiện tại


ls ()
hiển thị các đối tượng được tạo trong không gian làm việc.

tức là các biến, mảng, v.v.
khi làm việc trong bảng điều khiển, nếu bạn cần lưu môi trường làm việc
của mình, bạn có thể lưu nó bằng cách sử dụng.
save.image ('filepath / filename.Rdata')
lệnh này sẽ lưu tất cả các biến và cấu trúc dữ liệu mà bạn đang sử dụng
trong chương trình của mình để bạn có thể sử dụng chúng sau này.
và khi bạn cần bắt đầu làm việc lại trong mơi trường đó, bạn có thể tải tệp
này vào bộ nhớ bằng cách sử dụng
load ('filename.Rdata')
nhưng lưu ý rằng tệp này được lưu bằng hàm save.image () khơng phải là
tệp có thể đọc được như tệp bạn viết bằng trình soạn thảo văn bản.
Nếu bạn mở tệp hình ảnh này bằng trình chỉnh sửa văn bản, bạn sẽ thấy
danh sách các ký tự lộn xộn, có nghĩa là nó khơng phải là định dạng hỗ trợ
văn bản. Tệp này chỉ hữu ích nếu bạn làm việc trong bảng điều khiển để
lưu các đối tượng môi trường của mình.
Hãy xem hello world trong R ngay bây giờ

Xin chào thế giới trong R
Là một toán tử gán, <- cũng có thể được sử dụng trong R thay vì = và cả
hai đều làm chính xác cùng một điều.


Nhưng tơi thích sử dụng = vì tơi khơng thấy lý do gì để sử dụng một ký
hiệu dành riêng cho ngơn ngữ khi tơi có thể sử dụng hồn hảo ký hiệu
chuẩn và hồn thành cơng việc tương tự.
Một chức năng hữu ích khác trong bảng điều khiển R là lưu lịch sử lệnh
của bạn và có thể tải lại. Sau đó, khơng cần phải gõ lại cùng một lệnh cũ
bằng tay, bạn có thể chọn các lệnh trước đó bằng cách nhấn phím mũi tên
lên và xuống của bàn phím. Lịch sử thường được lưu tự động trong thư
mục làm việc và được tải trở lại khi bạn tải tệp .Rdata, nhưng nếu khơng

phải vì lý do nào đó hoặc nếu bạn cần lịch sử của mình để lưu vào một tệp
riêng biệt, hai lệnh này sẽ hữu ích .
savehistory(‘/path/filename.Rhistory’)
loadhistory(‘/path/filename.Rhistory’)
history () #last 25 commands
history(max.show=Inf) #all commands
Nếu bạn biết một lệnh cụ thể, nhưng khơng biết cú pháp chính xác thì hãy
sử dụng phương pháp này để xem chi tiết của nó.
trợ giúp (“lệnh”)
Ví dụ :
>help(“ls”)

# or > ?ls

help.search (“từ khóa”)
Ví dụ :
> help.search(“ls”)
Hãy xem ví dụ sau và hiểu cách bạn có thể sử dụng R để thực hiện các
phép toán số học cơ bản.


Ở đây trở đi, tôi sẽ sử dụng Rstudio để tiếp tục việc này vì trong tương lai
khi bạn phải xử lý các công việc phức tạp hơn, đặc biệt là trong lĩnh vực
phân tích, sử dụng bảng điều khiển sẽ không phải là lựa chọn lý tưởng. Sử
dụng Rstudio và quen thuộc với nó chắc chắn sẽ có lợi thế.
Vì vậy, hãy tải xuống và cài đặt
từ />theo hệ điều hành của bạn và kiến trúc của CPU.
Nhưng điều quan trọng cần hiểu là bạn cần cài đặt R trong máy tính của
mình để làm việc với Rstudio. Nó không bao gồm R theo mặc định.
Rstudio chỉ là một IDE cấp cao chạy trên R.

Sau khi bạn cài đặt và mở R, nó sẽ như thế này


Khu vực 1 là khu vực mã hóa nơi bạn viết các tập lệnh. Nếu bạn vẫn chưa
thấy điều này, đừng lo lắng, chúng tôi sẽ biết cách thực hiện nó trong vài
giây.
Khu vực 2 là khu vực giao diện điều khiển nơi bạn có thể xem kết quả của
tập lệnh của mình khi bạn thực thi nó.
Khu vực 3 là nơi bạn có thể thấy các đối tượng như biến và cấu trúc dữ
liệu mà bạn đang tạo trong tập lệnh của mình.
Như điều đầu tiên bạn làm, hãy nhấp vào tạo dự án và làm theo hướng dẫn
để bắt đầu một dự án mới.

ở đó bạn có thể tạo một thư mục mới hoặc chọn một thư mục hiện có để
lưu chi tiết dự án của mình. Điều gì xảy ra khi bạn tạo một dự án mới trong
Rstudio về cơ bản là nó thay đổi thư mục làm việc của môi trường và tạo
các tệp cần thiết.
Khi bạn làm điều đó, hãy nhấp vào thêm tệp mới và chọn Rscript.


Bây giờ bạn đã sẵn sàng để viết tập lệnh trong R. hãy thử dùng hello world
ở đây.

Bây giờ hãy nhớ rằng bạn nên lưu tệp kịch bản trước, sau đó bạn có thể
thực thi / chạy tệp này.
Nhưng bạn cũng nên nhớ rằng, khi bạn nhấp vào nút lệnh Run ở trên cùng
bên phải của tệp script hoặc khi bạn sử dụng phím tắt ctrl + Enter , chỉ
dịng mã tương ứng mà bạn đã đặt con trỏ sẽ được thực thi.
Tất cả các dịng sẽ khơng được thực hiện cùng một lúc. Vì vậy, bạn cần
thực hiện chúng từng dịng một cách thích hợp.

Khi một dịng được thực thi, ảnh hưởng của nó đối với mơi trường sẽ tự
động được tạo ra. Ví dụ: nếu bạn tạo một biến trong một dịng và sau đó
nếu bạn cần sử dụng biến đó trong dịng khác sau này, biến sẽ có thể truy
cập được ở đó vì nó đã được tạo khi bạn thực hiện dịng trước đó. Bạn có
thể thấy các biến này và các đối tượng khác mà bạn đang tạo và giá trị của
chúng tại khu vực 3.
Lệnh “ Nguồn ” ở trên cùng bên phải của tập lệnh ở đó để nhập tất cả các
biến và đối tượng tạo tại tập lệnh vào môi trường của chúng ta mà không
cần phải thực thi chúng một cách cụ thể.
Nếu bạn cần xóa các giá trị trong mơi trường này, bạn có thể sử dụng lệnh
list = ls()
remove(list)


#or
remove(list = ls())
Ngay cả trên máy tính bỏ túi cũng cần lưu trữ các kết quả trung gian. Vì
mục đích đó trong R, giống như trong các ngơn ngữ máy tính khác, có các
biến tượng trưng. (Tên có thể được sử dụng để đại diện cho các giá trị.)
Ngược lại với các ngơn ngữ lập trình khác như C và java trong R, các biến
không được khai báo cùng với một số kiểu dữ liệu. Các biến được gán với
đối tượng R và ngay lập tức và kiểu dữ liệu của đối tượng R trở thành kiểu
dữ liệu của biến.
Một biến có thể lưu trữ một số, một đối tượng, một kết quả thống kê, một
vectơ, một tập dữ liệu, một dự đốn mơ hình hoặc về cơ bản là bất cứ thứ
gì R xuất ra. Chúng ta có thể sử dụng biến đó sau này đơn giản bằng cách
gọi tên của biến.
Để khai báo một biến, chúng ta cần gán một tên biến. Tên biến có thể có cả
chữ cái và số, đồng thời có dấu gạch dưới và dấu chấm. Nhưng phải bắt
đầu bằng một lá thư.

Tên không được có khoảng trắng. Chúng ta có thể sử dụng _ hoặc. để kết
nối hai từ.
Các từ khóa dành riêng cho hệ thống không thể được sử dụng làm tên biến
Vd: c, q, t, D, F, I, T, diff, df, pt
Để gán giá trị cho các biến, có thể sử dụng dấu = hoặc <-.
A <-5 or 5 ->A ( as < implies the assigning direction )
Or
A= 5
R Các kiểu dữ liệu
1. Numeric {Ví dụ: 3, 4.098, 1234}
2. Nhân vật {Ví dụ: Andrew, hơm nay, RRR}
3. Lơgic {Ví dụ: TRUE, FALSE}
Chúng ta có thể kiểm tra kiểu của một biến bằng hàm lớp
>x = 28
>class(x)


[1] "numeric"
>y = "R is Fantastic"
>class(y)
[1] "character"
>z = TRUE
>class(z)
[1] "logical"
+ addition
- subtraction
/ deviation
* multiplication
** or ^ exponential
!= not equals

isTRUE( x ) check whether x statement is True
& AND operation
| OR operation
/>R các loại đối tượng
Hầu hết các hoạt động mà chúng ta sẽ gặp trong phân tích dữ liệu khơng
thể quản lý được chỉ với các phần tử đơn lẻ, chúng ta cần các phương tiện
phức tạp hơn để xử lý các tập dữ liệu của mình. Vì vậy, chúng ta hãy xem
xét các loại đối tượng khác nhau mà chúng ta có thể sử dụng trong R.
Vectơ
Vectơ là một mảng một chiều, nó là đối tượng đơn giản nhất để bắt đầu. Nó
là một chuỗi các phần tử dữ liệu có cùng kiểu cơ bản. Chúng ta có thể tạo
một vector cho tất cả các kiểu dữ liệu cơ bản mà chúng ta đã học trước đây.
Cách đơn giản nhất để xây dựng một vectơ trong R là sử dụng hàm c () có
nghĩa là kết hợp các phần tử thành một vectơ.
>numbers = c(1,2,3,4,5)
>numbers


[1] 1 2 3 4 5
> numbers[3]
[1] 3
> numbers[1:3]

#1:3 means 1 through 3 range inclusively (1,2,3)

[1] 1 2 3
Vectơ ký tự là một vectơ của chuỗi văn bản. Khi xác định vector như vậy,
chúng ta nên đề cập đến các phần tử được chỉ định trong dấu ngoặc kép
hoặc đơn và khi in chúng, R cũng làm như vậy.
> words = c(“my”, “name”,”is”,”Mad”)

> words
[1] “my” “name” “is” “Mad”
Bạn có thể làm tương tự với một biến và cả với một vectơ số.
> numbers[3] > 5
[1] FALSE
> numbers>3
[1] FALSE FALSE FALSE TRUE TRUE
> logic = c(T,T,F,F,F,T)
> logic
[1] TRUE TRUE FALSE FALSE FALSE TRUE
Và bất cứ khi nào bạn lấy Nan làm đầu ra có nghĩa là giá trị đó khơng
phải là số hoặc là số khơng thể
Và Inf có nghĩa là Vô cực
> numbers[100]
[1] NA
> 0/0
[1] NaN
> 1/0
[1] Inf


Ma trận là một cấu trúc dữ liệu đồng nhất hai chiều trong lập trình R.
Ma trận tương tự như vectơ, nhưng có thêm tính năng đa chiều.
GHI CHÚ
Tất cả các thuộc tính của một đối tượng có thể được kiểm tra
bằng attributes()hàm
Kích thước cũng có thể được kiểm tra trực tiếp với dim()chức năng.
Chúng ta có thể kiểm tra xem một đối tượng có phải là ma trận hay khơng
bằng class()hàm.
Tạo ma trận có thể được thực hiện theo nhiều cách, nhưng về cơ bản tất cả

các cách đó đều thực hiện tương tự như đã đề cập trong cú pháp sau.
Matrix_name = matrix (<elements>, kích thước)
Để cung cấp những thơng tin này, các yếu tố và kích thước, chúng ta có thể
sử dụng một số cách khác nhau tùy theo tình huống ứng dụng.
myvector = c (1,2,3,4,5,6) # or c(1:6)
A = matrix(myvector,nrow = 3,ncol=2) # providing only one dimension
#is enough
>A
[,1] [,2]
[1,] 1 4
[2,] 2 5
[3,] 3 6
matrix(1:9, nrow = 3)
[,1] [,2] [,3]
[1,] 1 4 7
[2,] 2 5 8
[3,] 3 6 9
> matrix(1:15,3, byrow=T)
[,1] [,2] [,3] [,4] [,5]
[1,] 1

2 3 4 5

[2,] 6

7 8 9 10

# T stantds for True



[3,] 11 12 13 14 15
Đây là cách chúng tôi thay đổi nó. Hoặc bạn chèn byrow = F, hoặc khơng
đề cập đến nó, các phần tử sẽ được chèn vào cột một cách khôn ngoan.



×