Tải bản đầy đủ (.docx) (20 trang)

Tieuluan dientoandammay cloud computing for bigdata v0 0 1 v1 0 1

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (173.89 KB, 20 trang )

MỤC LỤC

ĐẶT VẤN ĐỀ
A.1. Lý do chọn đề tài
Chúng ta đang sống trong thời đại bùng nổ internet, nơi mà thông tin được truyền
đi không giới hạn vào bất kỳ lúc nào, tại bất kỳ nơi đâu. Một trong những xu hướng được
các chuyên gia IT và các doanh nghiệp nhắc đến nhiều hiện nay chính là điện toán đám
mây (cloud computing).
Mức độ phổ biến của điện toán đám mây đang tăng với một tốc độ chóng mặt, làm
thay đổi triệt để cách thức kinh doanh của các doanh nghiệp. Trong một cuộc khảo sát
gần đây thực hiện trên 1800 chuyên gia IT, kết quả cho thấy nhu cầu áp dụng điện toán
đám mây khi thiết lập các ứng dụng và dịch vụ mới chiếm 52%.
Điện toán đám mây sẽ cung cấp hạ tầng kỹ thuật số cho các thành phố tương lai,
nơi ước tính 6 tỉ dân số toàn cầu sẽ sinh sống vào năm 2045. Thang máy và bãi đậu xe
thông minh, xe ô tô và taxi bay không người lái, tàu hỏa và tàu điện ngầm, trang trại và
nhà máy điện - tất cả sẽ trở nên an toàn hơn và được quản lý tốt hơn nhờ khả năng lưu trữ
và phân tích dữ liệu của điện toán đám mây.
Điện toán đám mây cũng sẽ giúp xã hội đối phó với lượng dữ liệu ngày càng tăng
cao. Các dữ liệu này bao gồm các ứng dụng chẳng hạn như video có độ phân giải cao và
sẽ chiếm 89% lưu lượng người dùng cá nhân vào năm 2025, theo ước tính của Huawei.
Điện toán đám mây sẽ hỗ trợ các công nghệ mới nổi như AI và giúp chúng thích
ứng với các nền tảng mới, ví dụ như điện thoại di động. Khi doanh số điện thoại thông
minh vượt qua doanh số máy tính để bàn vào năm 2011, điện thoại di động đã trở thành


nền tảng điện toán lớn nhất thế giới và đương nhiên, AI đã và đang thâm nhập vào nền
tảng điện toán lớn nhất thế giới này.

B. 2. Phạm vi nghiên cứu
Trong phạm vi nghiên cứu của đề tài này, em tìm hiểu các khái niệm cơ bản của Điện
toán đám mây và tập trung vào một hướng nghiên cứu trong một nghiên cứu được đăng


trên tạp chí Research Gate của tác giả Hanan Elazhary về Điện toán đám mây cho Dữ
liệu lớn. Ngoài việc dịch tài liệu, em cũng cố gắng nghiên cứu các kiến thức khoa học
trong bài báo đã cho. Trong thời gian hạn hẹp không thể thiếu sót, mong sự đóng góp ý
kiến của Thầy cho bài tiểu luận được hoàn thiện hơn.

DANH MỤC TỪ VIẾT TẮT
STT

Ký hiệu, chữ viết tắt

Ý nghĩa

1

Cloud Computing

Điện toán đám mây

2

Big Data

Dữ liệu lớn/Siêu dữ liệu

3

Genome

Phân tích bộ Gen


4

Proteomics

Sinh vật học phân tử nghiên cứu protein

5

IaaS

6

PaaS

7

SaaS

8
9

Cơ sở hạ tầng như một dịch vụ
(Infrastructure as a Service)
Nền tảng như một dich vụ
(Platform as a Service)
Phần mềm như một dịch vụ
(Software as a Service)


Xem thảo luận, thống kê, và hồ sơ tác giả của ấn bản này tại:

/>
ĐIỆN TOÁN ĐÁM MÂY CHO DỮ LIỆU LỚN
(CLOUD COMPUTING FOR BIG DATA)
Article · January 2014
BÀI

ĐỌC

13

1,713


Toàn bộ nội dung dưới đây được đăng bởi Hanan Elazhary ngày 05/12/2015.
The user has requested enhancement of the downloaded file.


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144

ĐIỆN TOÁN ĐÁM MÂY CHO DỮ LIỆU LỚN
Hanan Elazhary
Khoa Máy tính và Công nghệ Thông tin, Đại học King Abdulaziz University, Jeddah,
Saudi Arabia
Tổng quan: Dữ liệu lớn (Big Data) được đặc trưng bởi các tập dữ liệu lớn và các
ứng dụng tính toán chuyên dụng. Các ví dụ bao gồm các ứng dụng phân tích sinh học
như phân tích bộ Gen (genome) và chuỗi DNA, sinh vật học phân tử nghiên cứu protein

(proteomics), tính toán khoa học thần kinh (computational neuroscience), tính toán dược
lý học (computational pharmacology) hay tính toán nghiên cứu đa hệ gen
(metagenomics). Các ngành vật lý học, kinh doanh và các Chính phủ cũng có rất nhiều
ứng dụng trong lĩnh vực này. Những dữ liệu và các ứng dụng tương ứng như vậy đặt ra
những thách thức đối với các phương thức lưu trữ truyền thống và các giải pháp tính
toán. Bên cạnh vấn đề chia sẻ một số lượng lớn dữ liệu giữa các nhà nghiên cứu một
cách có kiểm soát. Điện toán đám mây là một giải pháp đầy hứa hẹn cung cấp hệ thống
lưu trữ không giới hạn có khả năng co giãn theo yêu cầu và khả năng tính toán với giá
cả phải chăng. Mục đích của bài báo này là để thảo luận về các cơ hội và thách thức của
việc sử dụng đám mây máy tính cho việc xử lý Dữ liệu lớn. Ngoài ra, nó cung cấp một
cuộc khảo sát toàn diện về các công cụ hiện có cho Big Data và phân loại chúng bằng
cách sử dụng tiêu chí cụ thể cho Big Data. Các ứng dụng mẫu sử dụng những công cụ
này cũng được giới thiệu trong bài viết này.
Từ khóa: Dữ liệu lớn, sinh học tính toán, tin sinh học, điện toán đám mây, Big Data,
Computational Biology, Cloud Computing

C.1. GIỚI THIỆU (INTRODUCTION)
Vài năm trở lại đây, có một sự gia tăng rất lớn những quan tâm đến các ứng dụng Dữ
liệu lớn (Big Data). Ví dụ, tin sinh học [1] nhằm mục đích gia tăng những hiểu biết sâu
sắc hơn trong lĩnh vực sinh học. Các ứng dụng sinh học tính toán bao gồm Dự án phân
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
tích bộ Gen người (Human Genome Project - HGP) [2] nhằm mục đích hiểu biết đầy đủ
về bộ gen người (the human genome1). Các kỹ thuật cho phép như vậy trong một dự án

liên quan đến chuỗi DNA hoặc phân tích toàn bộ chuỗi gen [3] với mục tiêu là xác định
chuỗi DNA đầy đủ của một bộ Gen xác định tại một thời điểm. Một ứng dụng khác là sinh
vật học phân tử nghiên cứu protein (proteomics) [4], nhằm mục đích sự hiểu biết đầy đủ
về các proteins (proteomes2). Tính toán khoa học thần kinh [5] đề cập đến nghiên cứu cấu
trúc của hệ thần kinh của bộ não và chức năng xử lý thông tin của nó. Giải phẫu Não
Chuột (The Mouse Brain Atlas) [6, 7] và Giải phẫu Não người (The Human Brain Atlas)
[8] là các dự án như thế do Viện nghiên cứu Allen tiến hành trong lĩnh vực Nghiên cứu bộ
não.
Tính toán nghiên cứu đa hệ gen (metagenomics) [9] là một lĩnh vực nhằm nghiên
cứu thành phần di truyền thu được từ các môi trường lấy mẫu. Dữ liệu nghiên cứu đa hệ
gen đồng thời vừa cực lớn vừa nhiều nhiễu như nó chứa dữ liệu phân mảnh có thể đại
diện khoảng 10.000 loài. Tính toán dược lý học [1] là một lĩnh vực khác có liên quan với
việc tìm ra mối liên kết giữa các gen và bệnh để xác định các loại thuốc tiềm năng.
Lĩnh vực Vật lý cũng có rất nhiều ứng dụng. Ví dụ, Tổ chức nghiên cứu hạt nhân
Châu Âu (CERN) đã xây dựng máy gia tốc hạt mạnh nhất và lớn nhất thế giới, Large
Hadron Collider (LHC) [10] với mục đích cho phép các nhà vật lý kiểm tra những dự
đoán của các lý thuyết của vật lý hạt và vật lý năng lượng cao khác nhau. Dữ liệu được
sản xuất bởi LHC và liên quan đến mô phỏng LHC được ước tính là khoảng 15 petabytes
mỗi năm. Trung tâm mô phỏng Khí tượng của NASA (The NASA Center for Climate
Simulation-NCCS) [11] xử lý nhiều hơn 32 petabytes các quan sát và mô phỏng khí hậu
[12]. Trạm quan sát bầu trời bằng kỹ thuật số Sloan (The Sloan Digital Sky SurveySDSS) [13] sử dụng một kính thiên văn chuyên dụng để khảo sát bầu trời. Dữ liệu thu
thập dược bắt đầu từ năm 2000 và những hình ảnh thu thập được cho đến nay đã bao phủ
hơn 35% bầu trời.
Amazon [14], e-bay [15], Walmart [16] và Facebook [17] là những ví dụ về ứng
dụng thương mại của Big Data. Ứng dụng cho Chính phủ của Big Data bao gồm phân
tích lưu lượng hàng hóa từ các cảng nhập khẩu đến các cảng xuất khẩu để đảm bảo an
1 Khái niệm “genome” đề cập đến toàn bộ các gen của một sinh vật nhất định
2 Khái niệm “proteomes” là một kết hợp của thuật ngữ "protein" và "bộ gen" và đề cập đến toàn bộ các
protein của một sinh vật nhất định


(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
ninh cho chuỗi cung ứng toàn cầu [18]. Chiến dịch của Omaba là ví dụ sử dụng Big Data
để tập hợp các cử tri riêng biệt trong cuộc bầu cử năm 2012 [19].
Các ứng dụng Big Data bao hàm cả lưu trữ và phân tích tính toán chuyên sâu và tiến
trình xử lý lượng dữ liệu khổng lồ. Trong trường hợp tốt nhất, hầu hết các phân tích là
O(N) và điều này trở nên tệ hơn trong trường hợp cặp/nhóm hoặc nghiên cứu các kết hợp
bậc cao [20]. Thật không may, lưu trữ truyền thống và các giải pháp tính toán không đủ
đáp ứng các yêu cầu của dữ liệu và các ứng dụng đó. Một vấn đề khác là cần phải chia sẻ
dữ liệu như vậy giữa các nhà nghiên cứu tại các vị trí khác nhau một cách hạn chế và có
kiểm soát. Điều này bổ sung yêu cầu băng thông cần thiết cho việc truyền dữ liệu. Điện
toán đám mây mang đến triển vọng giải pháp cho hầu hết các vấn đề này và vì vậy mục
tiêu của bài báo này là cung cấp định nghĩa cho điện toán đám mây và làm nổi bật các cơ
hội và thách thức trong sử dụng điện toán đám mây cho Big Data. Một khảo sát toàn diện
về các công cụ Dữ liệu lớn được cung cấp và các công cụ này được phân loại bằng cách
sử dụng tiêu chí phù hợp cho Big Data. Bài báo cũng cung cấp các ứng dụng về Big Data
mẫu sử dụng nền tảng đám mây.
Bài báo được tổ chức như sau: Phần 2 cung cấp các định nghĩa về điện toán đám
mây. Phần 3 và 4 thảo luận về các cơ hội và thách thức của điện toán đám mây cho Big
Data tương ứng. Phần 5 thảo luận và phân loại các công cụ hiện có cho Big Data và các
ứng dụng mẫu sử dụng các công cụ này. Cuối cùng, Phần 6 đưa ra các kết luận.

D.2. ĐỊNH NGHĨA ĐIỆN TOÁN ĐÁM MÂY
Cho đến nay, vẫn chưa có định nghĩa một cách thống nhất về điện toán đám mây. Cái

tốt nhất mà chúng ta có là định nghĩa chính thức duy nhất trong tài liệu đã được xuất bản
sau nhiều năm làm việc với 15 bản thảo của Viện Quốc gia về Tiêu chuẩn và Công nghệ
(NIST) vào tháng 9 năm 2011 [21]. Theo NIST [22], điện toán đám mây là một mô hình
với năm đặc điểm thiết yếu, ba mô hình dịch vụ và bốn mô hình triển khai. Năm đặc
điểm thiết yếu là:
Truy cập qua mạng: Các tài nguyên luôn sẵn sàng qua mạng và cho phép truy cập
thông qua các thiết bị tiêu chuẩn được sử dụng bởi các thiết bị đầu cuối khác nhau
như điện thoại di động, máy tính bảng, máy tính xách tay, máy tính cá nhân và máy
trạm.

(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
Truy cập tài nguyên một cách thuận tiện: Một người dùng có thể tự cấu hình tài
nguyên theo nhu cầu khi cần thiết và giảm thiểu tương tác với nhà cung cấp dịch vụ.
Tài nguyên dùng chung: Các tài nguyên được gộp lại một cách không giới hạn để
phục vụ cho nhiều người một cách tối ưu; điều này đạt được bằng cách tự động phân
bổ và tái phân bổ tài nguyên theo nhu cầu sử dụng.
Tài nguyên có thể tăng/giảm nhanh chóng mà không cần sự hỗ trợ của nhà cung cấp
dịch vụ: Tài nguyên có thể nhanh chóng được cấp phép một cách linh động bên trong
và bên ngoài theo nhu cầu.
Dịch vụ có thể đo đếm: Các dịch vụ cung cấp được đo đếm trên cơ sở trả tiền theo
nhu cầu sử dụng tại một số mức độ trừu tượng tùy theo loại dịch vụ.
Ba mô hình dịch vụ là:
Cơ sở hạ tầng như một dịch vụ (IaaS): The người dùng có thể được cung cấp tài

nguyên máy tính (chẳng hạn như các bộ vi xử lý, bộ nhớ, và mạng) để triển khai và
chạy phần mềm một cách tùy ý bao gồm các hệ điều hành và ứng dụng với cấu hình
tài nguyên máy tính đã cho.
Nền tảng dưới dạng Dịch vụ (PaaS): The người dùng có thể triển khai và chạy các
ứng dụng được tạo bằng các ngôn ngữ lập trình, thư viện, dịch vụ và công cụ được
hỗ trợ bởi nhà cung cấp với cấu hình môi trường ứng dụng máy chủ đã cho mà không
cần biết đến cấu hình của cơ sở cơ sở hạ tầng.
Ứng dụng phần mềm dưới dạng Dịch vụ (SaaS): The người dùng có thể sử dụng các
ứng dụng được cung cấp bởi các nhà cung cấp và chạy trên một đám mây cơ sở hạ
tầng với cấu hình ứng dụng người dùng cụ thể.
Bốn mô hình triển khai là:
Đám mây dùng riêng: là nền tảng đám mây với mục đích dùng riêng cho một tổ
chức/doanh nghiệp duy nhất với nhiều người dùng và không chia sẻ với các tổ
chức/doanh nghiệp khác.
Đám mây cộng đồng: là nền tảng đám mây với mục đích dùng riêng bởi một cộng
đồng cụ thể người dùng có thể khác nhau về tổ chức/doanh nghiệp nhưng có mối
quan tâm và sở thích chung cùng hợp tác, xây dựng.
Đám mây công cộng: là nền tảng đám mây với mục đích cho thuê, sử dụng bởi bất
cứ ai.
Đám mây kết hợp (lai): là nền tảng đám mây kết hợp nhiều loại đám mây riêng biệt
(dùng riêng, cộng đồng hoặc công cộng) liên kết với nhau bằng các chuẩn cho phép
dễ dàng chuyển đổi khi cần thiết.
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144

Vấn đề của định nghĩa này là nó quá đặc trưng. Điều này làm cho định nghĩa vừa
cứng nhắc (do sử dụng quá nhiều điều khoản) vừa không thể mở rộng (do rất đặc trưng).
Do đó, bất chấp nỗ lực tác động để chỉnh sửa định nghĩa này, nó đã bị chỉ trích nhiều lần
trong các tài liệu.
Theo Daconta [23], định nghĩa là "không đầy đủ, méo mó và tầm nhìn hạn chế" vì
nhiều lý do. Ví dụ, nó giới hạn bản thân thành ba trong số ít có thể "những thứ như
một dịch vụ." Bên cạnh đó, nó giả định rằng ba mô hình dịch vụ (IaaS, PaaS và
SaaS) là các lớp, không phải lúc nào cũng đúng. Nó cũng giả định rằng ba mô hình
đều quan trọng như nhau, cũng được cho là sai.
Chou [24] đã đề cập rằng "sự phân loại và một số định nghĩa của bốn mô hình triển
khai là không cần thiết và không nhất quán". Ví dụ, một đám mây cộng đồng trên
thực tế là một đám mây dùng riêng nhưng cho với một cộng đồng cụ thể. Anh cũng
chỉ trích sự thay đổi tiêu chí của phân loại: một đám mây lai được hình thành những
đám mây khác nhau, nhưng một đám mây dùng riêng và một đám mây công cộng lại
được phân loại theo người dùng của nó.
Chúng tôi định nghĩa lại điện toán đám mây là một mô hình điện toán cung cấp
công cụ đo truy cập một cách thuận tiện để chia sẻ các dịch vụ. 5 khái niệm được sử
dụng trong định nghĩa trên có thể được thảo luận như sau:
Khái niệm "mô hình" là một thuật ngữ chung có thể mô tả những khả năng cài đặt và
triển khai khác nhau; điều này bao hàm viêc các mô hình triển khai của NIST (IaaS,
PaaS và SaaS) không nên bị gói gọn như một phần của định nghĩa cũng giống như
Mạng cá nhân (Personal Area Network - PAN), Mạng nội bộ (Local Area Network LAN), Mạng khu vực đô thị (Metropolitian Area Network - MAN) và Mạng diện
rộng (Wide Area Network - WAN) là không gói gọn như một phần của định nghĩa
của mạng máy tính.
Khái niệm "dịch vụ" là một thuật ngữ thông dụng khác bao gồm mọi loại dịch vụ
trong đó bao gồm các dịch vụ vật lý và dịch vụ ảo hóa, các tài nguyên phần cứng, các
giải pháp phần mềm, Cơ sở hạ tầng như một dịch vụ (IaaS), Nền tảng dưới dạng
Dịch vụ (PaaS) và Phần mềm dưới dạng Dịch vụ (SaaS).
Khái niệm "chia sẻ" ngụ ý rằng các kho lưu trữ được đặt trên các máy chủ dịch vụ
kết nối qua mạng ở khắp nơi.

Khái niệm "công cụ đo" ngụ ý rằng các dịch vụ trả tiền theo nhu cầu sử dụng vì lợi
ích của cả người dùng và các nhà cung cấp dịch vụ.
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
Khái niệm "một cách thuận tiện" là một thuật ngữ mở rộng bao gồm sự kết hợp
nhiều tính năng như cần thiết như nhanh chóng theo yêu cầu, có thể cho phép tự cấu
hình và truy cập vào các dịch vụ phù hợp với nhu cầu của người dùng và sử dụng các
loại thiết bị giao tiếp khác nhau của khách hàng mà có thể không cần tương tác với
nhà cung cấp dịch vụ. Nó cũng cho phép loại bỏ rủi ro ra khỏi công việc kinh doanh
(theo quan điểm của người dùng) và cung cấp sự cung cấp mềm dẻo với nỗ lực quản
lý tối thiểu (theo quan điểm của nhà cung cấp dịch vụ).

E.3. CƠ HỘI CHO ĐIỆN TOÁN ĐÁM MÂY
Điện toán đám mây cung cấp vô vàn cơ hội cho Big Data. Nó có nhiều khả năng đầy
hứa hẹn; ví dụ:
Khả năng mở rộng: Trong điện toán đám mây, dung lượng hầu như không giới hạn
và do đó khả năng mở rộng là luôn luôn có thể; thay vì chạy một công việc trên một
máy tính trong 10 giờ, nó có thể được chạy trên 10 máy tính trong một giờ.
Sự mềm dẻo: Các tài nguyên được cung cấp tùy theo nhu cầu công việc. Việc mềm
dẻo thể hiện ở 3 khía cạnh: chi phí, chất lượng và tài nguyên [25].
Khả năng trả tiền theo nhu cầu sử dụng: Do tài nguyên được tự động cấp phép theo
thay đổi khối lượng công việc, việc thanh toán được thực hiện theo việc sử dụng thực
tế để không lãng phí tiền
Khả năng chia sẻ: Điện toán đám mây cho phép chia sẻ tài nguyên một cách thông

suốt. Cho ví dụ, các kho dữ liệu trên đám mây cho phép chia sẻ các bộ dữ liệu lớn
thay vì copy các bản sao chép trên các cụm tách biệt.
Độ tin cậy dữ liệu: Bản sao dữ liệu có thể sao lưu ở địa lý khác vị trí để khắc phục
mất dữ liệu ngay cả do thiên tai..
Khả năng mô hình hóa dữ liệu lớn: Một tập hợp các mô hình chẳng hạn như
MapReduce [26, 27] và Dremel [28] đã được phát triển đặc biệt cho việc xử lý và
phân tích Dữ liệu lớn.
Dễ dàng bảo trì và nâng cấp hơn: Bảo trì được thực hiện bởi dịch vụ nhà cung cấp và
cho phép các nhà nghiên cứu chỉ tập trung vào nghiên cứu.

F. 4. NHỮNG THÁCH THỨC CỦA ĐIỆN TOÁN ĐÁM MÂY
Mặc dù rất nhiều cơ hội được mang đến bởi điện toán đám mây cho Dữ liệu lớn,
cũng có nhiều thách thức cần được giải quyết; bao gồm:

(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
Vấn đề bảo mật: giảm quyền kiểm soát do vị trí của dữ liệu nhạy cảm và khả năng rò
rỉ dữ liệu do dữ liệu thuộc về các khách hàng khác nhau có thể được lưu trữ ở cùng
một vị trí. Đó cũng là vấn đề về quyền riêng tư của dữ liệu con người trên đám mây.
Kết nối Internet: Trong trường hợp ứng dụng cần tương tác cao, một kết nối Internet
ổn định cùng cao băng thông cao là bắt buộc và không phải lúc nào cũng có sẵn.
Điều này làm tăng thời gian và chi phí cần thiết để chuyển các tập dữ liệu lớn với
đám mây hoặc giữa các đám mây.
Các mô hình tính toán dữ liệu lớn và các công cụ như MapReduce không thực hiện

tốt và là nguyên nhân làm tăng chi phí do việc tăng kích thước dữ liệu yêu cầu của
việc tính toán lại và tái cấu trúc mã [20].
Tính sẵn sàng của các ứng dụng và dữ liệu trong số các nhà cung cấp dịch vụ.
Các mô hình định giá phức tạp làm cho định giá khó đánh giá và theo dõi.
Khó khăn trong việc Đảm bảo chất lượng dịch vụ (QoS).

G.

5. CÁC CÔNG CỤ CHO DỮ LIỆU LỚN

Rất nhiều công cụ hữu ích hiện nay đã hiện hữu cho Dữ liệu lớn. Trong bài báo này,
chúng được phân loại bằng cách sử dụng một tiêu chí phù hợp cho Big Data. Nó rất đáng
lưu ý rằng OpenCrowd [29] duy trì một bảng Phân loại đám mây của một số công cụ này,
nhưng cung cấp phân loại khá tổng quan và bỏ qua một số công cụ rất quan trọng. Các
lớp phân loại của chúng tôi được đề xuất trong các bộ phận nhỏ sau:
1. 5.1 Cơ sở hạ tầng hiệu năng cao như một Dịch vụ
Cơ sở hạ tầng như một công cụ Dịch vụ có thể được sử dụng để triển khai và chạy
phần mềm tùy ý bao gồm hệ điều hành và các ứng dụng. Dữ liệu lớn yêu cầu Cơ sở hạ
tầng hoạt động như một công cụ Dịch vụ có hiệu năng cao để chạy các ứng dụng tính
toán chuyên sâu và xử lý lượng dữ liệu khổng lồ. Các công cụ này bao gồm:
IBM Softlayer [30]: Softlayer Bare Metal Server cung cấp hiệu suất vượt trội với khả
năng lưu trữ dung lượng có tốc độ, sức mạnh, và tính linh hoạt cần thiết cho các ứng
dụng Big Data.
ProfitBricks [31]: Giải pháp cung cấp hạ tầng như một dịch vụ IaaS hiệu suất cao
phù hợp với các ứng dụng Dữ liệu lớn.
Amazon EC2 [32]: Máy tính hiệu suất cao High Performance Computing (HPC) cho
Dữ liệu lớn được kích hoạt thông qua Cluster Compute hoặc các server Cluster GPU
trong Dịch vụ đám mây Amazon Web Services của Amazon (AWS)[33].

(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)



Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
2. 5.2 Hệ thống lưu trữ dưới dạng Dịch vụ
Các ứng dụng Big Data yêu cầu dung lượng lưu trữ rất lớn cho lượng dữ liệu khổng
lồ. Rất nhiều công cụ hiện nay phù hợp với mục đích này. Chúng bao gồm:
Amazon Elastic Block Store (Amazon EBS) [34]: Hệ thống cung cấp lưu trữ mức
khối được sử dụng với đám mây Amazon Elastic Compute Cloud (Amazon EC2)
trong AWS Cloud.
Amazon S3 [35]: Hệ thống cung cấp một giao diện đơn giản cho lưu trữ mọi nơi và
truy xuất bất kỳ lượng dữ liệu nào trên Web.
AT & T Synaptic Storage [36]: Hệ thống cung cấp một dung lượng linh hoạt cho
phép truy cập khắp nơi tới dữ liệu qua giao diện chương trình ứng dụng (API).
Google BigTable [37]: Hệ thống cung cấp bộ nhớ cho các ứng dụng sử dụng Nền
tảng Google dưới dạng công cụ Dịch vụ (Google Platform as a Service tools) do
Google cung cấp App Engine mà sẽ được thảo luận trong phần sau các bộ phận nhỏ
sau.
HP Cloud Object Store [38]: Nó cho phép khách hàng tạo số không giới hạn các nơi
chứa với số lượng không hạn chế đối tượng trên các máy chủ HP hiệu năng cao.
Internap Cloud Storage [39]: Đây là một hệ thống lưu trữ đối tượng nằm ở các trung
tâm dữ liệu an toàn có độ sẵn sàng cao và được thiết kế để mở rộng cho hàng triệu
đối tượng.
Zetta [40]: Nó cung cấp một máy chủ hoàn chỉnh giải pháp sao lưu.
3. 5.3 Dữ liệu lớn như một dịch vụ
Các công cụ Nền tảng như một Dịch vụ có thể được sử dụng để triển khai và chạy
các ứng dụng được tạo bằng ngôn ngữ lập trình, các thư viện, dịch vụ và công cụ được

cung cấp. Các công cụ Dữ liệu lớn dưới dạng Dịch vụ được coi là nhóm con của các
công cụ Nền tảng dưới dạng công cụ Dịch vụ dành riêng cho Big Data. Một nền tảng nổi
bật phổ biến để xử lý Dữ liệu lớn là Apache Hadoop [41], là một nền tảng mã nguồn mở
với các thư viện và tiện ích để lưu trữ và xử lý Dữ liệu lớn. Nó sử dụng thuật toán
MapReduce cho phân phối dữ liệu giữa các nút xử lý. Các công cụ Dữ liệu lớn như một
Dịch vụ bao gồm:
Actian DataCloud [42]: Một nền tảng cho phép phát triển tích hợp và giải pháp quản
lý dữ liệu và các ứng dụng có kích thước bất kỳ.
Altiscale [43]: Nó cung cấp Hadoop như một Dịch vụ.
Amazon Kinesis [44]: Nó cho phép phát triển các ứng dụng phản hồi thay đổi trong
việc truyền Dữ liệu lớn với vài dòng mã.
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
BigML [45]: Nó là một nền tảng học máy trên nền đám mây cái cho phép phát triển
các dự đoán cho Dữ liệu lớn online. BigML PredictServer [46] là một hình ảnh đám
mây chuyên dụng có thể được sử dụng để phát triển các dự đoán nhanh chóng và rõ
ràng.
Datameer [47]: Nó là một nền tảng cho Hadoop với các chức năng được xây dựng
sẵn, nhưng có thể được mở rộng bằng các plug-ins và các API mở.
Mortar Data [48]: Nó cung cấp các giải pháp, mã và các công cụ cho dữ liệu khoa
học có khả năng mở rộng cao. Nó đã được khai thác bởi một số khách hàng như
Associated Press [49].
Qubole [50]: Nó cung cấp một số công cụ bao gồm Hadoop MapReduce cho dịch vụ
Big Data toàn diện. Do đó, nó đã được 50 khách hàng khai thác như NextDoor [51].

Cloudera [52]: Một nền tảng cho Hadoop chạy trên đám mây AWS.
MapR [53]: Một nền tảng dựa trên Hadoop cho phép khách hàng dễ dàng lưu trữ và
xử lý Dữ liệu lớn. Nó đã được chấp nhận bởi một số lượng lớn đối tác và khách hàng
bao gồm cả Google và Amazon.
Pig [54] : Đây là nền tảng ngôn ngữ cấp cao để tạo MapReduce các chương trình sử
dụng với Hadoop.
Hadoop-BAM [55]: Là một thư viện hoạt động như một lớp tích hợp giữa các ứng
dụng phân tích và dữ liệu tuần tự được xử lý bằng Hadoop trong tin sinh học.
4. 5.4 Dữ liệu dưới dạng dịch vụ
Các công cụ Dữ liệu như là một dịch vụ cung cấp dữ liệu cần thiết cho các ứng dụng
cụ thể. Những dịch vụ này là đặc biệt cần thiết cho các ứng dụng Big Data khi mà thu
thập các tập dữ liệu lớn không phải là một nhiệm vụ dễ dàng. Các công cụ Dữ liệu dưới
dạng Dịch vụ bao gồm:
AWS Public Datasets [56]: Nó cung cấp bộ dữ liệu từ tám domains khác nhau.
BrightPlanet [57]: Nó cung cấp dữ liệu từ các trang web được chọn trên Web.
5. 5.5 Kho dữ liệu như là một dịch vụ
Big Data không thể dễ dàng điều khiển bằng cách sử dụng hệ quản trị cơ sở dữ liệu
quan hệ truyền thống cái sử dụng Truy vấn SQL để quản lý dữ liệu. Do vậy, khoảng năm
mươi kho dữ liệu NoSQL [58] đã được đề xuất và phát triển đặc biệt cho Big Data nhằm
mục đích đạt được cả tốc độ và khả năng co giãn. Các kho dữ liệu này có thể được phân
nhánh một cách chung chung như sau:
Các kho Khóa-Giá trị (Key-Value Stores): Chúng là kho lưu trữ dữ liệu NoSQL đơn
giản nhất lưu trữ các cặp khóa và các giá trị và truy xuất các giá trị dựa trên những
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-


144
khóa. Chúng cũng có thể sắp xếp các khóa để cho phép truy vấn theo khoảng và xử
lý thứ tự của khóa. Chúng rất nhanh và có thể dễ dàng mở rộng quy mô dữ liệu với
kích thước lớn thay đổi mỗi giây với hàng triệu người dùng đồng thời trong trường
hợp các ứng dụng trực tuyến, trò chơi và dành cho thiết bị di động [59]. Ví dụ các
công cụ bao gồm đám mây Redis [60] và Amazon Dynamo DB [61]
Các kho tài liệu (Document Stores): Chúng ghép mỗi khóa với một tài liệu, đó là các
cấu trúc dữ liệu phức tạp có thể chứa các cặp khóa-giá trị khác nhau, các cặp khóamảng, và các tài liệu lồng ghép. Chúng phù hợp để lưu trữ dữ liệu phi cấu trúc, chẳng
hạn như dữ liệu bài đăng mạng xã hội và dữ liệu đa phương tiện. Các công cụ ví dụ
bao gồm MongoDB [62] và CouchDB [63].
Các kho dạng Cột (Column Stores): Chúng lưu trữ cột thay vì các hàng dữ liệu.
Chúng phù hợp cho ứng dụng kinh doanh thông minh và kho dữ liệu khi các giá trị
mới của cột được cung cấp cho tất cả các hàng cùng một lúc. Các công cụ thí dụ bao
gồm: Cassandra [64] và Google BigQuery [65].
Kho bản đồ (Graph Stores): Chúng được sử dụng để lưu trữ dữ liệu mạng như kết nối
xã hội. Các công cụ ví dụ bao gồm: Neo4j [66] và Google Horton [67].
SpliceMachine [68] được cho chỉ là Hệ quản trị cơ sở dữ liệu Hadoop cái cho phép
mở rộng quy mô máy chủ lớn hơn và mở rộng theo chiều ngang. Nó có thể hỗ trợ tin
sinh học bằng xử lý lượng dữ liệu khổng lồ như dữ liệu về gen.
6. 5.6 Phần mềm dưới dạng Dịch vụ
Một tập các công cụ Phần mềm như là một Dịch vụ được phát triển và đang phát
triển để hỗ trợ xử lý Dữ liệu lớn. Chúng bao gồm:
Plex [69]: Nó là một Phần mềm như một dịch vụ (SaaS) ERP để kết nối và quản lý
toàn bộ quy trình sản xuất
Opani: Nó là một công cụ Phần mềm như một dịch vụ để phân tích Dữ liệu lớn như
các hình ảnh MRI, hình ảnh hiển vi của các tế bào ung thư và cơ sở dữ liệu MySQL.
Nó có đã được thông qua để cập nhật trạng thái Facebook, Twitter và Yahoo Finance.
Nhiều phần mềm như một công cụ Dịch vụ có được phát triển đặc biệt để xử lý Dữ
liệu lớn Sinh học như phân tích chuỗi, căn chỉnh hàng và lập bản đồ. Những công cụ có
thể được phân loại là Các công cụ Sinh học dưới dạng dịch vụ bao gồm

ArrayExpressHTS [71], BGI [72], Bioscope [73], CloudAligner [74], Cloud BioLinux
[75], CloudBurst [76], Cloud-Coffee [77], Cloud-MAQ [78], CloVR [79], Crossbow
[80], Eoulsan [81, 82], FX [83], Jnomics [84], Myrna [85], PeakRanger [86], SEAL [87],
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
SeqWare [88], YunBe [89] và VAT [90]. Đáng lưu ý rằng một số công cụ này có thể được
tiếp tục phân loại theo nhiệm vụ cụ thể của họ [91, 92, 93].

H.

6. KẾT LUẬN

Mặc dù các giải pháp lưu trữ và tính toán truyền thống không thể đáp ứng các yêu
cầu của các ứng dụng Dữ liệu lớn, điện toán đám mây là một ứng viên đầy hứa hẹn cho
mục đích này. Đám mây tính toán có vài năng lực vốn có cung cấp cơ hội thực sự cho
Big Data. Chúng bao gồm: khả năng mở rộng, khả năng co giãn, công cụ đo khả năng trả
tiền theo nhu cầu, chia sẻ, độ tin cậy dữ liệu, mô hình Big Data, và thêm vào đó khả năng
bảo trì và nâng cấp dễ dàng hơn. Mặt khác, có nhiều thách thức như vấn đề bảo mật và
riêng tư, liên quan đến kết nối Internet chậm, hiệu suất của Big Data trong trường hợp
mô hình dữ liệu có kích thước dữ liệu cực kỳ lớn , các mô hình định giá phức tạp, sự đảm
bảo chất lượng dịch vụ, cộng thêm tính cơ động của các ứng dụng và dữ liệu giữa các
nhà cung cấp dịch vụ khác nhau. Trong các tài liệu, một số lượng lớn các công cụ đã tồn
tại cho một số loại ứng dụng Dữ liệu lớn khác nhau và những ứng dụng này đã được
khảo sát và thảo luận trong bài báo. chúng đã được phân loại bằng cách sử dụng một tiêu

chí phù hợp cho Big Data và các ứng dụng ví dụ và dữ liệu có đã được lợi ích từ khả
năng đám mây được cung cấp.

I. 9. TÀI LIỆU THAM KHẢO (REFERENCES)
[1] accessed July 2014.
[1] accessed July 2014.
[2] accessed July 2014.
[3] accessed July 2014.
[4] accessed July 2014.
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
[5] accessed July 2014.
[6] accessed July 2014.
[7] Lein E. et al., "Genome-Wide Atlas of Gene Expression in the Adult Mouse
Brain," Nature 445 (pp. 168-176, 2007).
[8] accessed July 2014.
[9] accessed July 2014.
[10] accessed July 2014.
[11] accessed July 2014.
[12] accessed July 2014.
[13] accessed July 2014.
[14] accessed July 2014.
[15] accessed July 2014.
[16] accessed July 2014.

[17] accessed July 2014.
[18]

/>
accessed July 2014.
[19] Issenberg S., "How President Obama’s campaign used big data to rally
individual voters, Part 1.," accessed July 2014.
[20] Kasson P., "Computational Biology in the Cloud: Methods and New Insights
from Computing at Scale, Proc. Pac Symp Biocomputing (pp. 451-453, 2013).
[21] accessed July 2014.
[22] Mell P. and Grance T., "The NIST Definition of Cloud Computing," Special
Publication 800-145, National Institute of Standards and Technology (NIST), U.S.
Department of Commerce (2011).
[23] Daconta M., “Why NIST's Cloud Definition is Fatally Flawed,”
/>accessed July 2014.
[24] Chou Y., “An Inconvenient Truth of the NIST Definition of Cloud
Computing," accessed July 2014.
[25] accessed July
2014.
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
[26] Dean, J. and Ghemawat S., "MapReduce: Simplified Data Processing on
Large Clusters," Communications of the ACM, 51(1) (pp. 107-113, 2008).
[27] Dean J. and Ghemawat S., "MapReduce: A Flexible Data Processing Tool,"

Communications of the ACM 53(1) (pp. 72-77, 2010).
[28] Melnik S. et al., "Dremel: Interactive Analysis of Web-Scale Datasets,"
Communications of the ACM 54(6) (p. 114-123, 2011).
[29] accessed July 2014.
[30] accessed July 2014.
[31] accessed July
2014.
[32] accessed July 2014.
[33] accessed July 2014.
[34] accessed July 2014.
[35] accessed July 2014.
[36]
/>accessed July 2014.
[37] accessed July 2014.
[38] accessed July
2014.
[39] accessed July 2014.
[40] accessed July 2014.
[41] accessed July 2014.
[42] accessed July 2014.
[43] accessed July
2014.
[44] accessed July 2014.
[45] accessed July 2014.
[46] accessed July 2014.
[47] accessed July 2014.
[48] accessed July 2014.
[49] accessed July 2014.
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)



Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
[50] accessed July 2014.
[51] accessed July 2014.
[52]

/>
Web-Services.html; accessed July 2014.
[53] accessed July
2014.
[54] accessed July 2014.
[55] Niemenmaa M. et al., " Hadoop-BAM: Directly Manipulating Next
Generation Sequencing Data in the Cloud," Bioinformatics 28(6) (pp. 876–877, 2012).
[56] accessed July 2014.
[57] accessed July 2014.
[58] accessed July 2014.
[59]

/>
for-key-value-databases/; accessed July 2014.
[60] accessed July 2014.
[61] accessed July 2014.
[62] accessed July 2014.
[63] accessed July 2014.
[64] accessed July 2014.
[65] accessed July 2014.

[66] accessed July 2014.
[67] accessed July 2014.
[68] accessed July 2014.
[69] accessed July 2014.
[70] accessed
July 2014.
[71] Goncalves A. et al., "A Pipeline for RNA-Seq Data Processing and Quality
Assessment," Bioinformatics 27(6) (pp. 867–869, 2011).
[72] accessed July 2014.
[73] accessed July
2014.
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)

Vol.2 (4). PP:135-

144
[74] Nguyen T. et al., "CloudAligner: A Fast and Full-Featured MapReduce Based
Tool for Sequence Mapping," BMC Research Notes 4(171) (2011).
[75] accessed July 2014.
[76] Schatz M., "CloudBurst: Highly Sensitive Read Mapping with MapReduce,"
Bioinformatics 25(11) (pp. 1363–1369, 2009).
[77] Tommaso P. et al., "Cloud-Coffee: Implementation of a Parallel ConsistencyBased Multiple Alignment Algorithm in the T-coffee Package and its Benchmarking on
the Amazon Elastic-Cloud," Bioinformatics 26(15) (pp. 1903–1904, 2010).
[78] Talukder A et al., "Cloud-MAQ: The Cloud-Enabled Scalable Whole Genome
Reference Assembly Application," Proc. the 7th International Conference on Wireless
And Optical Communications Networks (pp. 1-5, 2010).
[79] accessed July 2014.

[80] Langmead B. et al. "Searching for SNPs with cloud computing," Genome
Biology 10(11) (2009).
[81] accessed July 2014.
[82] Jourdren L et al., "Eoulsan: A Cloud Computing-Based Framework
Facilitating High Throughput Sequencing Analyses.," Bioinformatics 28(11) (pp. 1542-3,
2012).
[83] Hong D. et al., "FX: An RNA-Seq Analysis Tool on the Cloud,"
Bioinformatics 28(5) (pp. 721–723, 2012).
[84]

/>
accessed

July

2014.
[85] Langmead B. et al., "Cloud-Scale RNA-Sequencing Differential Expression
Analysis with Myrna," Genome Biology 11(R83) (2010).
[86] Feng X., "PeakRanger: A cloud-Enabled Peak Caller for ChIP-Seq Data,"
Bioinformatics 12(139) (2011).
[87] Pireddu L. et al. "Seal: A Distributed Short Read Mapping and Duplicate
Removal Tool," Bioinformatics 27(15) (pp. 2159–2160, 2011).
[88] O’Connor B. et al., "SeqWare Query Engine: Storing and Searching
Sequence Data in the Cloud," BMC Bioinformatics 11(Suppl 12:S2) (2010).
[89] Zhang L. et al., "Gene set analysis in the cloud," Bioinformatics (2011).
(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)


Báo cáo nghiên cứu MAGNT (ISSN. 1444-8939)


Vol.2 (4). PP:135-

144
[90] Habegger, L., "VAT: A Computational Framework to Functionally Annotate
Variants in Personal Genomes within a Cloud-Computing Environment," Bioinformatics
28(17) (pp. 2267-2269, 2012).
[91] Lin Y., Yu C. and Lin Y., "Enabling Large-Scale Biomedical Analysis in the
Cloud," BioMed Research International, 2013(185679) (2013).
[92] Dai L. et al., "Bioinformatics Clouds for Big Data Manipulation," Biology
Direct 7(43) (2012).
[93] Chen J. et al., "Translational Biomedical Informatics in the Cloud: Present
and Future," BioMed Research International, 2013(658925) (2013).

(DOI: dx.doi.org/14.9831/1444-8939.2014/2-4/MAGNT.21)



×