Tải bản đầy đủ (.doc) (15 trang)

Ngôn ngữ R và Ứng dụng trong việc xử lý dữ liệu lớn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.62 MB, 15 trang )

Ngôn ngữ R và Ứng dụng trong việc xử lý dữ liệu lớn
Dữ liệu lớn (big data) đã và đang trở thành một xu thế trong nghiên cứu ở rất nhiều
lĩnh vực khác nhau. Điều này địi hỏi phải có một công cụ xử lý dữ liệu đủ mạnh để
thực hiện các công việc phức tạp này. Bài viết này sẽ giới thiệu về ngôn ngữ R đang
được sử dụng phổ biến trong phân tích Big data trên thế giới

Một thập kỷ trở lại đây, thế giới đã chứng kiến sự phát triển vơ cùng nhanh chóng của
ba xu hướng công nghệ nổi bật: dữ liệu lớn (big data), vạn vật kết nối (internet of
things) và trí tuệ nhân tạo (artificial intelligent). Trong ba xu hướng kể trên, công
nghệ dữ liệu lớn thu hút được sự chú ý nhiều hơn cả từ chính phủ, doanh nghiệp và
cơng chúng trên tồn cầu vì sức ảnh hưởng sâu rộng của nó đến toàn bộ các lĩnh vực
của đời sống kinh tế xã hội.

Diễn Đàn Kinh Tế Thế Giới đánh giá dữ liệu lớn là một dạng tài sản kinh tế mới, có
giá trị như tiền tệ hay vàng [1]. Tạp chí Economists gọi dữ liệu lớn là một loại dầu
hỏa mới, đem lại lợi thế cạnh tranh đặc biệt cho nhiều công ty công nghệ [2]. Dữ liệu
lớn cũng đang thay đổi sâu sắc nghiên cứu y học, giúp hỗ trợ chuẩn đoán bệnh và
điều trị hiệu quả hơn [3]. Trong lĩnh vực cơng, chính quyền các quốc gia như Hoa
Kỳ, Thụy Điển, Đan Mạch, Canada đang triển khai nhiều sáng kiến ứng dụng dữ liệu
lớn để cải thiện chất lượng dịch vụ cơng [4]. Ngồi ra có nhiều chương trình liên
quan đến dữ liệu lớn ở các lĩnh vực khác như an ninh quốc gia, y tế công cộng,
nghiên cứu tế bào, nghiên cứu không gian, nghiên cứu trái đất [5].

Dữ liệu ngày càng nhiều đã thúc đẩy sự ra đời và phát triển mạnh mẽ của ngành khoa
học dữ liệu (data science), đồng thời đặt ra đòi hỏi cần phải có cơng cụ phân tích hiệu
quả giúp khai thác tiềm năng từ dữ liệu. Trong số các công cụ hiện có, ngơn ngữ máy
tính R đã và đang trở thành một tiêu chuẩn thực tế (de facto) trong ngành khoa học
dữ liệu, được sử dụng rộng rãi bởi giới nghiên cứu và doanh nghiệp.


1, R là ngôn ngữ xử lý dữ liệu của giới nghiên cứu



Ngơn ngữ lập trình mã nguồn mở R [8] là công cụ xử lý dữ liệu và phân tích thống kê
được phát triển bởi hai nhà thống kê Ross Ihaka và Robert Gentleman thuộc đại học
Auckland, New Zealand vào năm 1992, lấy cảm hứng từ ngôn ngữ lập trình thống kê
S do John Chambers và các cộng sự phát triển tại trung tâm nghiên cứu danh tiếng
Bell Laboratories, Hoa Kỳ.

Nhờ có nguồn gốc từ giới nghiên cứu và là dự án mã nguồn mở nên R thu hút được
rất nhiều sự đóng góp của cộng đồng khoa học. R nhanh chóng trở thành ngơn ngữ
thơng dụng khơng chỉ trong phân tích thống kê, xử lý số liệu mà cịn trong nghiên
cứu khoa học nói chung.

Sức mạnh của R, theo Daryl Pregibon - một nhà khoa học tại Google - là “nó cho
phép thực hiện dễ dàng các phân tích rắc rối và phức tạp mà khơng cần phải biết đến
từng chi tiết của hệ thống tính tốn” [12].

Năm 2017, chuyên san khoa học Nature đăng bài luận về sự “trỗi dậy” của việc sử
dụng R trong giới nghiên cứu bởi nó đã được ứng dụng thực hiện nghiên cứu của rất
nhiều ngành từ toán học, vi sinh học cho đến khoa học nông nghiệp và gen [11].


Hình 1: Sự phổ biến của R trong nghiên cứu khoa học
(Nguồn: Tạp chí Nature, 2017, sự trỗi dậy của R)

Việc phổ biến của R trong giới các nhà khoa học, nhà thống kê, chuyên gia phân tích
dữ liệu và lập trình viên trên tồn thế giới cịn được thể hiện qua bảng xếp hạng các
phần mềm được sử dụng nhiều nhất do Viện kỹ sư điện và điện tử IEEE (Institute of
Electrical and Electronics Engineers) công bố hàng năm. Theo đó, trong những năm
qua, ngơn ngữ R liên tục được xếp hạng trong nhóm các ngơn ngữ lập trình máy tính
phổ biến nhất [9, 10].



Năm 2017, R được xếp hạng phổ biến thứ 7 trên 47 ngơn ngữ máy tính đang được
các sử dụng ở mọi lĩnh vực. Đáng chú ý, trong số 10 ngơn ngữ máy tính được sử
dụng nhiều nhất, đa số đều là những ngôn ngữ xây dựng hệ thống hoặc ứng dụng
nhúng như C, C++, PHP và Python. Riêng R là ngơn ngữ chun dụng cho phân tích
và xử lý dữ liệu, nhưng vẫn là một trong những ngôn ngữ được sử dụng phổ biến nhất
đã minh chứng cho tính phổ biến cao của ngơn ngữ này.

Hình 2: Bảng xếp hạng ngơn ngữ lập trình của IEEE năm 2017
(nguồn:

Một trong những dấu mốc quan trọng trong quá trình phát triển của ngôn ngữ R là
thương vụ công ty công nghệ Microsoft mua lại Revolution Analytics, một công ty
chuyên phát triển các cơng nghệ để làm việc với các bài tốn dữ liệu lớn sử dụng
ngôn ngữ R [13]. Sản phẩm của Revolution Analytics được tích hợp với cơng nghệ
điện tốn đám mây của Microsoft, cùng với sự hỗ trợ của SQL Server và nền tảng
Học Máy Azure, cho phép các nhà khoa học dữ liệu triển khai được các thuật tốn
của R trên quy mơ lớn. Sự kiện này đánh dấu vị trị dẫn đầu của R trên thị trường
công cụ phân tích dữ liệu lớn.


Sự phổ biến của R còn nhờ vào khả năng trực quan hóa dữ liệu tuyệt vời của nó.
Trực quan hóa dữ liệu ln đóng vai trị quan trọng trong phân tích số liệu. Nó là
cơng cụ mạnh nhất để các nhà nghiên cứu bước đầu tìm hiểu bộ dữ liệu nghiên cứu.
Hiện nay, có hơn gần 40 cơng cụ như Microsoft Excel, ZingChart, Stata, QGIS… để
trực quan hóa hơn 40 loại biểu đồ khác nhau. Mỗi công cụ chỉ trực quan hóa được 1
số loại biểu đồ nhất định, chỉ duy nhất R có thể mơ thể trực quan hóa gần như tồn bộ
các loại biểu đồ hiện nay.


Hình 3: Tổng hợp các cơng cụ trực quan hóa dữ liệu và các loại biểu đồ
(Nguồn: />
Với khả năng trực quan hóa dữ liệu vượt trội, R có thể trực quan hóa dữ liệu theo
những biểu đồ đẹp mắt, dễ hiểu đối với nhiều đối tượng sử dụng khác nhau. Ví dụ: từ
2 bảng số liệu dưới đây, R có thể trực quan hóa bằng 1 biểu đồ sinh động.


Thị trường nhập khẩu chính của 5
nhóm
hàng nhập khẩu lớn nhất năm
2017

Thị trường xuất khẩu chính của 5
nhóm
hàng nhập khẩu lớn nhất năm
2017
Đơn vị tính: Triệu USD

Máy vi tính, sản phẩm điện tử và
linh kiện
Hàn quốc

Điện thoại di động

15,335

EU

11,955


Trung Quốc

7,077

Trung
Quốc

Đài Loan

3,939

Hàn Quốc

3,971

ASEAN

3,223

UAE

3,894

Nhật bản

3,189

Hoa Kỳ

3,703


Hoa Kỳ

2,784

ASEAN

3,214

Hoa Kỳ

12,275

Máy móc thiết bị
Trung Quốc

7,152

Dệt may
10,909

Hàn quốc

8,687

EU

3,785

Nhật bản


4,317

Nhật Bản

3,110

EU

3,643

Hàn Quốc

2,642

2,212

Trung
Quốc

1,103

ASEAN
Đài Loan
Hoa Kỳ

1,351
1,008

Điện thoại di động

Trung Quốc

8,749

Máy vi tính, sản phẩm điện tử và
linh kiện
Trung
Quốc

6,861

EU

4,613

Hoa Kỳ

3,439


Hàn quốc

6,176

ASEAN

2,532
1,850

Nhật bản


314

Hong
Kong

ASEAN

311

Hàn Quốc

4,855

Hong Kong

193

Hoa Kỳ

5,113

6,078

EU

4,649

Hàn quốc


2,046

Trung
Quốc

1,141

Đài Loan

1,567

Nhật Bản

751

Nhật bản

671

Hàn Quốc

403

Giày dép

Vải các loại
Trung Quốc

ASEAN


386

Sắt thép

Máy móc thiết
bị
Hoa Kỳ

2,427

Trung Quốc

4,104

EU

1,864

Nhật bản

1,411

Nhật Bản

1,716

1,218

Trung
Quốc


1,574

Đài Loan

902

Hong
Kong

1,039

Ấn Độ

811

Hàn quốc

(Nguồn: Niên giám Thống kê Hải Quan 2017)


Hình 4: Thị trường xuất nhập khẩu chính của 5 nhóm hàng lớn nhất của Việt Nam
năm 2017 – Tác giả trực quan hóa từ nguồn dữ liệu của Tổng cục Hải Quan 2017

R khơng chỉ trực quan hóa dữ liệu đối với những dữ liệu, báo cáo truyền thống mà
cịn rất hữu ích khi mơ phỏng Big data để định hướng phân tích dễ dàng hơn.


Hình 5: Các bất động sản được rao bán trên Internet tại thành phố Hồ Chí Minh tháng
12 năm 2017


2. Ứng dụng R trong phân tích Big data của các cơng ty cơng nghệ và các cơ
quan chính phủ
Các cơng ty công nghệ thường là những đơn vị tiên phong và rất sáng tạo trong việc
phân tích dữ liệu để thấu hiểu hành vi của người dùng, qua đó cung cấp và cải thiện
nền tảng dịch vụ dựa trên những phân tích này.


Facebook, nền tảng mạng xã hội có mức xử lý dữ liệu hơn 500 TB dữ liệu một ngày,
sử dụng R để tìm hiểu và dự đốn cách thức người dùng tương tác với dịch vụ của họ
[14]. Việc phân tích này giúp Facebook biết được người dùng của họ đang làm gì và
cách mà các xu hướng lan truyền qua mạng xã hội. Hình ảnh hóa dữ liệu là một phần
quan trọng trong những phân tích này và Facebook thậm chí cịn sử dụng R để tạo
một bản đồ thể hiện sự kết nối của hàng trăm triệu người dùng trong bản cáo bạch
IPO của họ [15].

Phân tích quảng cáo là một mảng phát triển nhanh khác của việc ứng dụng ngơn ngữ
R. Thơng tin về thói quen mua sắm, sở thích cũng như lai lịch của khách hàng được
các cơng ty phân tích quảng cáo sử dụng để cung cấp các chiến lược kinh doanh hữu
ích nhất cho các nhà bán lẻ. Ví dụ, DataSong, một cơng ty tư vấn quảng cáo có trụ sở
tại San Fransico, sử dụng R để xây dựng các mơ hình định lượng xử lý tới 30 triệu
bản ghi, giúp các nhà bán lẻ tìm hiểu liệu một chiến dịch quảng cáo có ảnh hưởng
như thế nào tới cách khách hàng quyết định mua sản phẩm [16].

Một lĩnh vực khác đang trở thành xu thế trong ngành truyền thơng là báo chí dữ liệu
(data journalism), nơi mà các nhà báo có thể khai thác nguồn dữ liệu mở để xuất bản
các phân tích chất lượng cao dựa trên dữ liệu. Chẳng hạn, thời báo New York đã sử
dụng R để phân tích dữ liệu của các cuộc khảo sát nhằm dự đoán kết quả các cuộc
bầu cử nghị sĩ và tổng thống [17]. Khả năng thử nghiệm và tùy chỉnh nhanh chóng
của R giúp các phóng viên có thể đi từ một ý tưởng tới một mơ hình hồn thiện trong

một vài giờ, cho phép việc phân tích nhanh chóng các tin tức nóng hổi dựa trên dữ
liệu mới [18].

Các ngành tài chính và bảo hiểm vẫn ln có truyền thống dẫn đầu trong các phân
tích thống kê cao cấp, vì thế khơng bất ngờ khi ngôn ngữ R được sử dụng một các
rộng rãi để phát triển các chiến lược mua bán, chiến lược đặt giá và tối ưu hóa nhằm
gia tăng lợi nhuận và giảm thiểu rủi ro. American Century Investment, một quỹ đầu
tư quản lý 125 tỷ USD tài sản, sử dụng ngơn ngữ R để phân tích một “mạng xã hội”
giữa các cơng ty, trong đó các quan hệ tài chính thay thế cho mối quan hệ bạn bè


[19]. Việc hiểu được cách các nhà cung cấp ảnh hưởng tới các nhà phân phối cho
phép họ tối ưu các gói đầu tư tài chính. Về mảng ngân hàng, ANZ sử dụng R để ước
tính các rủi ro liên quan tới thế chấp nhà [20]. Việc ước tính các rủi ro này cũng là tối
quan trọng trong lĩnh vực bảo hiểm, chẳng hạn Lloyds of London sử dụng R để mơ
phỏng các mức chi phí liên quan tới các thảm họa như bão hay động đất [21].
Không chỉ các doanh nghiệp, mà nhiều chính quyền các thành phố, quốc gia trên thế
giới cũng khai thác sức mạnh cuả R để biến dữ liệu thành thông tin phục vụ quản lý
và chính sách. Sáng kiến Nước Sạch (Clear Water) của thành phố Chicago (Hoa Kỳ)
là một dự án giám sát chất lượng nước của nhiều bãi biển công cộng tại hồ Michigan
và đưa ra cảnh báo khi nồng độ vi khuẩn E Coli trong hồ nước qúa cao. Dự án này sử
dụng R để phân tích và tạo ra các mơ hình tiên lượng giúp dự đốn chất lượng nước
[22]. Một dự án khác cũng của thành phố Chicago là xây dựng một dứng dụng dựa
trên các thuật toán viết bằng R để phân tích dữ liệu lấy từ mạng xã hội Twitter, qua đó
dự đốn các nhà hàng vi phạm điều kiện vệ sinh an toàn thực phẩm [23]. Bộ Phát
Triển Nguồn Nhân Lực thuộc bang Indiana, Hoa Kỳ, là cơ quan có nhiệm vụ dự đốn
tỷ lệ việc làm cho từng loại cơng việc nhằm giúp chính quyền bang có cơ sở đưa ra
chính sách giáo dục và đào tạo phù hợp. Bằng cách sử dụng R trên công nghệ xử lý
song song của Microsoft Azure, cơ quan này có thể thực hiện hàng triệu dự báo dự
báo cùng một lúc [24].


R còn được sử dụng trong nhiều dự án phục vụ lợi ích cộng đồng. Vụ Thời Tiết Quốc
Gia Hoa Kỳ đã sử dụng R để dự báo mức nước sông và các cảnh báo lụt lội [25], tổ
chức realclimate.org cũng đã sử dụng R để sơ đồ hóa những ảnh hưởng của thay đổi
khí hậu tồn cầu, chẳng hạn như sự suy giảm băng trên Bắc Băng Dương [26]. Và
trong các vùng đang có giao tranh như Syria, một nhóm phân tích nhân quyền đã sử
dụng R để dự báo tổn thất chiến tranh từ các nguồn thơng tin chưa hồn thiện [27].

Trong thời đại của cuộc cách mạng 4.0 hiện nay, khoa học dữ liệu đã đem lại những
cơ hội to lớn cho các chính phủ, các công ty ở mọi ngành, mọi lĩnh vực những công
cụ để quản lý điều hành tốt hơn. Điều này phụ thuộc nhiều vào khả năng thu thập,
phân tích và xử lý dữ liệu hiệu quả. Ngôn ngữ R, với những thế mạnh của nó, cho
phép các tổ chức có khả năng phân tích dữ liệu nhanh và mạnh hơn những công cụ


khác, và điều này giải thích cho sự phát triển nhanh chóng của nó trong nhiều ngành
và lĩnh vực khác nhau.

Tham khảo

[1] Big Data, Big Impact: New Possibilities for International Development. World
Economics Forum.
/>
[2] The world’s most valuable resource is no longer oil, but data. The Economists.
/>
[3] Bệnh án điện tử: Nguồn dữ liệu lớn vô giá của y học. Tạp chí Tia Sáng.
/>
[4] Demystifying Big Data - A Practical Guide To Transforming The Business of
Government. Tech America Foundation.


[5] Dữ liệu lớn: Cơ hội và thách thức lớn. Tạp chí Tia Sáng.

[6] Undefined By Data: A Survey of Big Data Definitions. Jonathan Stuart Ward and
Adam Barker, School of Computer Science University of St Andrews, UK.


[7] L. Douglas. 3d data management: Controlling data volume, velocity and variety.
Gartner.

[8] The R Project for Statistical Computing. />
[9] IEEE Spectrum 2017 Top Programming Languages.
/>
[10] New Leader, Trends, and Surprises in Analytics, Data Science, Machine
Learning Software Poll.
/>
[11] Programming tools: Adventures with R. www.nature.com/news/programmingtools-adventures-with-r-1.16609

[12] Data Analysts Captivated by R’s Power.
/>
[13] Microsoft to acquire Revolution Analytics to help customers find big data value
with advanced statistical analysis.
/>

[14] Forecasting at scale.
/>
Sean

J

Taylor


and

Benjamin

Letham.

[15] R Chart featured in Facebook IPO.
/>
[16] Why The R Programming Language Is Good For Business.
/>
[17] Who Will Win The Senate? />
[18] NYT charts Michael Jackson's pop hits with R.
/>
[19] American Century Investments Revolutionizes Their Investment Analytics
Platform. />
[20] How ANZ uses R for credit risk analysis.
/>

[21] How Lloyd's of London uses R for Insurance.
/>
[22] Clear Water - Forecasting Chicago's Beach Water Quality.
/>
[23] Up to code? An algorithm is helping Chicago health officials predict restaurant
safety violations. />
[24] White Paper: Dive deep into small data with big data techniques. Microsoft
Advanced Analytics and IoT

[25] How NOAA uses R to forecast river flooding.
/>

[26] An update on the Arctic sea-ice.
/>
[27] How Statistics lifts the fog of war in Syria.
/>


×