Tải bản đầy đủ (.pdf) (67 trang)

Xây dựng các dịch vụ tin sinh học trên nền tảng điện toán đám mây

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.33 MB, 67 trang )

Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

MỤC LỤC
MỤC LỤC ...................................................................................................................1
L I

M ĐO N .......................................................................................................3

L I CẢM ƠN .............................................................................................................4
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................5
DANH MỤC HÌNH VẼ ..............................................................................................7
DANH MỤC CÁC BẢNG..........................................................................................8
PHẦN MỞ ĐẦU .........................................................................................................9
Lý do chọn đề tài .....................................................................................................9
Mục tiêu và nhiệm vụ nghiên cứu. ........................................................................10
Bố cục của luận v n ...............................................................................................10
HƢƠNG 1. TỔNG QUAN VỀ TIN SINH VÀ ĐIỆN TOÁN ĐÁM MÂY ..........11
1.1.

Tổng quan về điện toán đám mây. ...............................................................11

1.1.1.

Khái niệm. .............................................................................................11

1.1.2.

Các mô hình dịch vụ và triển khai. .......................................................13


1.2.

Tổng quan về bài toán tin sinh học. .............................................................18

1.2.1.

Khái niệm ..............................................................................................18

1.2.2.

Các mô hình tin sinh truyền thống ........................................................21

1.3.

Nhiệm vụ của luận v n. ...............................................................................22

HƢƠNG 2. DỊCH VỤ, ỨNG DỤNG TRONG MÔI TRƢ NG Đ ĐÁM MÂY25
2.1

Môi trƣờng đa đám mây. .............................................................................26

2.1.1

Khái niệm. .............................................................................................26

2.1.2

Mô hình đa đám mây. ...........................................................................28

2.1.3


Mô hình đa đám mây triển khai trong thực tiễn. ..................................32

2.2

Các yếu tố cần thiết khi thiết kế môi trƣờng điện toán đa đám mây. ..........35

2.2.1

Tính khả mở (scalability). .....................................................................36

2.2.2

Tính khả chuyển (portability). ..............................................................36

2.2.3

Tính chuẩn hoá (standarization). ..........................................................37

2.3. Hƣớng tiếp cận. ...............................................................................................42
HƢƠNG 3. MÔ HÌNH ĐỀ XUẤT CHUYỂN DỊCH ỨNG DỤNG TIN SINH
TRÊN MÔI TRƢ NG Đ ĐÁM MÂY ..................................................................43

1

H cv

Lê Quang Hiếu



Luận v n th c s kỹ thuật

3.1.

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

Kiến trúc tổng quan. ....................................................................................43

3.1.1.

Mô hình thành phần. .............................................................................44

3.1.2.

Luồng nghiệp vụ. ..................................................................................47

3.2.

Bài toán tối ƣu tài nguyên sử dụng. .............................................................48

3.2.1.

Mô tả bài toán. ......................................................................................48

3.2.2.

Tiền đề. .................................................................................................49

3.2.3.


Mô hình, giải thuật đề xuất. ..................................................................50

3.3.

Thử nghiệm..................................................................................................54

3.3.1.

Giao diện tin sinh trên đám mây ...........................................................54

3.3.2.

Kết quả thử nghiệm mô hình tối ƣu tài nguyên ....................................58

KẾT LUẬN ...............................................................................................................62
A. Kết luận .............................................................................................................62
B. Hƣớng phát triển của đề tài. ..............................................................................63
TÀI LIỆU THAM KHẢO .........................................................................................64

2

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng


LỜI CAM ĐOAN
Tác giả luận v n xin cam đoan đây là công trình nghiên cứu của riêng tác giả
luận v n; đúc kết của quá trình nghiên cứu từ việc tập hợp các nguồn tài liệu, các
kiến thức đã học đến việc tự thu thập các thông tin liên quan và liên hệ thực tế t i
đơn vị công tác. Các số liệu, kết quả nêu trong luận v n là trung thực và chƣa từng
đƣợc ai công bố trong bất kỳ công trình nào khác.
Tác giả luận v n xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận
v n này đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận v n đã đƣợc chỉ rõ
nguồn gốc.
Tác giả luận v n xin chịu trách nhiệm về nghiên cứu của mình.

H cv

Giảng viên hƣớng dẫn

Nguyễn Hữu Đức

t

c



uậ v

Lê Quang Hiếu

3

H cv


Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

LỜI CẢM ƠN
Trƣớc tiên, tôi – tác giả luận v n xin đƣợc gửi lời cảm ơn đến các Quý
Thầy/Cô đã giảng d y trong chƣơng trình đào t o th c sỹ, Viện Công Nghệ Thông
Tin và Truyền Thông, Đ i học Bách Khoa Hà Nội, những ngƣời đã tận tình truyền
đ t kiến thức trong quá trình tôi học tập. Đây là vốn kiến thức thực sự hữu ích,
không chỉ làm nền tảng cho quá trình nghiên cứu khóa luận, mà còn là hành trang
giúp tôi vững bƣớc trên con đƣờng ho t động trong l nh vực Công nghệ thông tin
nói riêng và trong cuộc sống nói chung.
Với tất cả lòng kính trọng và biết ơn, tôi xin đƣợc gửi lời cảm ơn chân thành
tới TS. Nguyễn Bình Minh, TS. Nguyễn Hữu Đức và TS. Doãn Trung Tùng –
những ngƣời đã định hƣớng, hƣớng dẫn cho tôi những ngày đầu thực hiện luận v n.
Mặc dù trong quá trình thực hiện luận v n, có những giai đo n khó kh n không
thuận lợi, nhƣng những lời động viên, hƣớng dẫn quý báu của các thầy đã giúp tôi
vƣợt qua và hoàn thành luận v n này.
Cuối cùng tôi xin gửi lời biết ơn sâu sắc đến gia đình, b n bè, cộng đồng
nguồn mở Vietnam OpenStack – những ngƣời đã luôn bên c nh giúp đỡ và t o điều
kiện tốt nhất cho tôi trong suốt quá trình học tập cũng nhƣ thực hiện luận v n.
Do thời gian có h n và kinh nghiệm nghiên cứu khoa học chƣa nhiều nên
luận v n còn nhiều thiếu sót, rất mong nhận đƣợc ý kiến góp ý của Quý Thầy ô và
các b n học viên.
H c viên th c hiện luậ v


Lê Quang Hiếu

4

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

DANH MỤC CÁC TỪ VIẾT TẮT
Từ
viết tắt

Diễn giả ý g ĩa

ĐTĐM

Điện toán đám mây

IaaS

Infrastructure as a Service – H tầng nhƣ một dịch vụ

PaaS

Platform as a Service – Nền tảng nhƣ một dịch vụ


SaaS

Software as a Service – Phần mềm nhƣ một dịch vụ

EGI

European Grid Infrastructure – Tổ chức phi lợi nhuận quản lý h tầng
m ng lƣới Châu Âu

OCCI

Open Cloud Computing Interface – Chuẩn giao diện quản trị h tầng
điện toán đám mây.

CDMI

Cloud Data Management Interface – Chuẩn giao diện quản trị dữ liệu
đám mây.

OVF

Open Virtualization Format – Chuẩn định d ng ổ đ a ảo

SSO

Single Sign-On – Cách thức đ ng nhập đồng nhất cho nhiều dịch vụ

EIRO


European Intergovernmental Research Organisation – Tổ chức nghiên
cứu liên quốc gia Châu Âu

GLUE2

Grid Laboratory for Uniform Environment – Chuẩn giao tiếp lƣới

OSS

Open Source Software – Phần mềm mã nguồn mở

HPC

High Performance Computing – Tính toán hiệu n ng cao

AWS

Amazon Web Service – Dịch vụ ĐTĐM công cộng của Amazon

API

Application Program Interface – Giao diện ứng dụng chƣơng trình

CAL

Cloud Abstract Layer – Lớp trừu tƣợng hoá ĐTĐM

OPS

OpenStack


SDK

Software Development Kit – Bộ công cụ phát triển phần mềm

ACS

Apache Cloud Stack – nền tảng ĐTĐM mã nguồn mở

BIMI

Bio Informatic Management Interface – Chuẩn về giao diện quản trị tin

5

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

sinh
SNIA

Storage Networking Industry Association – Tổ chức công nghiệp về lƣu
trữ và truyền dẫn


XML

eXentensible Markup Language

OOP

Object Oriented Programming – Lập trình hƣớng đối tƣợng

CLI

Command Line Interface – Giao diện dòng lệnh

GA-

Genetic Algorith – Back Propagation Neural Network: M ng nơ-ron lan

BPNN

truyền ngƣợc kết hợp giải thuật di truyền.

PD-

Periodicity Detection - Genetic Algorith Back Propagation: Giải thuật

GABP

phát hiện chu kỳ sử dụng lan truyền ngƣợc kết hợp giải thuật di truyền.

DFT


Discrete Fourier Transform – Biến đổi rời r c Fourier

JSON

Java Script Object Notation – Định d ng dữ liệu Java Script

6

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

DANH MỤC HÌNH VẼ
Hình 1. Mô hình cơ bản của điện toán đám mây ......................................................15
Hình 2. Quy trình nghiên cứu của một dự án Metagenomics ...................................19
Hình 3. Mô hình điện toán đa đám mây ....................................................................28
Hình 4. Mô hình chức n ng trong mô hình đa đám mây ..........................................29
Hình 5. Mô hình đa đám mây EGI ............................................................................34
Hình 6. Mô hình thử nghiệm đa đám mây Nimbus trên Grid'5000 ..........................35
Hình 7. Vai trò, vị trí của OCCI trong kiến trúc .......................................................38
Hình 8. Vai trò DMI trong mô hình lƣu trữ phân tán .............................................39
Hình 9. Định d ng OVF ............................................................................................40
Hình 10. Mô hình thành phần ứng dụng tin sinh ......................................................45
Hình 11. Luồng nghiệp vụ ứng dụng tin sinh ...........................................................47
Hình 12. Mô hình m ng nơ-ron nhiều tầng...............................................................51

Hình 13. Đ ng nhập vào giao diện Web ...................................................................55
Hình 14. Giao diện Web Tin sinh .............................................................................55
Hình 15. Khởi t o luồng nghiệp vụ mới ...................................................................56
Hình 16. Cấu hình cho một công cụ tin sinh .............................................................56
Hình 17. Đặc tả JSON của luồng nghiệp vụ tin sinh ................................................57
Hình 18. Thông báo hệ thống khi bắt đầu ch y luồng tin sinh .................................57
Hình 19. Thông báo hệ thống khi luồng tin sinh hoàn thành ....................................57
Hình 20. Thông báo hệ thống khi luồng tin sinh gặp lỗi ..........................................58
Hình 21. Dữ liệu đầu ra của từng bƣớc lƣu trên môi trƣờng đám mây ....................58
Hình 22. Kết quả dự báo mô hình BPNN với kích thƣớc vùng trƣợt 4 ....................59
Hình 23. Kết quả dự báo GA-BPNN với p=4 ...........................................................59
Hình 24. So sánh tỉ lệ lỗi MEAN giữa GA-BPNN và BPNN ...................................60
Hình 25. Kết quả dự đoán PD-GABP với p=4..........................................................60
Hình 26. So sánh tỉ lệ lỗi MEAN giữa GA-BPNN và PD-GABP ............................60

7

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

DANH MỤC CÁC BẢNG
Bảng 1. Định d ng SCUFL2 .....................................................................................42
Bảng 2. Trừu tƣợng hoá đối tƣợng máy ảo ...............................................................43
Bảng 3. Trừu tƣợng hoá đối tƣợng cụm máy ảo .......................................................44

Bảng 4. Mô tả BIMI API...........................................................................................46
Bảng 5. So sánh độ chính xác giữa BPNN và GA-BPNN với giá trị vùng trƣợt khác
nhau ...........................................................................................................................60
Bảng 6. So sánh độ chính xác giữa GA-BPNN và PD-GABP với giá trị vùng trƣợt
khác nhau...................................................................................................................61

8

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

PHẦN MỞ ĐẦU
Lý do c

đề tà

Trong vài n m qua,

ông nghệ thông tin đã bắt đầu một mẫu hình mới – Cloud

computing (điện toán đám mây - ĐTĐM). Mặc dù ĐTĐM chỉ là một cách khác để
cung cấp các tài nguyên máy tính, chứ không phải là một công nghệ hoàn toàn mới,
nhƣng nó đã châm ngòi một cuộc cách m ng trong cách cung cấp thông tin và dịch
vụ của các tổ chức. Tuy nhiên, cuộc cách m ng này, giống nhƣ mọi cuộc cách

m ng, có các thành phần của quá khứ mà từ đó nó phát triển lên. Trong thế giới của
ĐTĐM, có chỗ cho sự cộng tác sang t o của công nghệ đám mây, và cho các tiện
ích đã qua thử thách của các hệ thống tiền thân đã từng thống trị công nghệ thông
tin, ví dụ nhƣ các máy tính lớn m nh mẽ (mainframe). Sự thay đổi thực sự ấy trong
cách chúng ta tính toán mang l i các cơ hội to lớn cho nhân viên công nghệ thông
tin để kiểm soát sự thay đổi và sử dụng chúng cho lợi ích cá nhân và tổ chức của họ.
Các bài toán tin sinh, cụ thể bài toán Metagenomics là một l nh vực nghiên cứu
tƣơng đối mới mẻ t i Việt Nam. Tuy nhiên, các trung tâm nghiên cứu cũng nhƣ các
nhà khoa học Việt Nam đang từng bƣớc tiếp cận với công nghệ giải trình tự thế hệ
mới. Các nhóm nghiên cứu về tin sinh học đã và đang tiếp tục đƣợc thành lập và
phát triển t i các viện nghiên cứu và các trƣờng đ i học lớn t i Việt Nam nhƣ Đ i
học công nghệ, ĐHQGHN, Học viện bƣu chính viên thông, Đ i học sƣ ph m Hà
Nội, Viện Công nghệ thông tin. Những nghiên cứu đã thực hiện chủ yếu tập trung
vào nhóm bài toàn cho đơn hệ gen (genomics). Tuy nhiên, vấn đề về nền tảng h
tầng và môi trƣờng phục vụ nghiên cứu tin sinh khiến cho việc nghiên cứu công
nghệ trở nên khó kh n hơn.
Bởi vậy, việc đƣa các công cụ tin sinh chuyên biệt lên đám mây thành dịch vụ sẽ
giúp cho rất nhiều chuyên gia ở Việt Nam có thể sử dụng vào những nghiên cứu
của mình trong các bài toán cần tính toán và cả nhu cầu chia sẻ dữ liệu sinh học
nhằm thúc đẩy hơn nữa sự phát triển của ngành tin sinh học trong nƣớc.
9

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

Mục t u và


ệm vụ g

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

cứu.

Mục tiêu của đề tài là xây dựng một nền tảng đám mây cung cấp các dịch vụ tin
sinh học cụ thể cho các bài toán tin sinh siêu bộ gen đòi hỏi khối lƣợng tính toán và
dữ liệu cực lớn. Các dịch vụ có thể ch y độc lập hoặc phối hợp với nhau trong một
luồng công việc. Dữ liệu đƣợc bảo mật và có thể đƣợc chia sẻ giữa các dịch vụ và
ngƣời sử dụng dịch vụ. Ngoài ra, đề tài đề xuất cách tiếp cận mới giúp cải thiện bài
toán tối ƣu hoá tài nguyên sử dụng.
Bố cục của uậ v
Luận v n gồm 03 chƣơng:


hƣơng 1: Tổng quan về tin sinh và điện toán đám mây



hƣơng 2: Dịch vụ, ứng dụng trong môi trƣờng đa đám mây



hƣơng 3: Mô hình đề xuất chuyển dịch ứng dụng tin sinh trên môi trƣờng
đa đám mây

10


H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

CHƢƠNG 1. TỔNG QUAN VỀ TIN SINH VÀ ĐIỆN TOÁN ĐÁM MÂY
1.1. Tổ g qua về đ ệ toá đám mây.
1.1.1. Khái niệm.
Thuật ngữ ĐTĐM ra đời từ những n m 2007 với mục đích khái quát l i các hƣớng
đi của cơ sở h tầng thông tin vốn đã và đang diễn ra từ mấy n m qua. Khái niệm về
ĐTĐM có thể mô tả nhƣ sau: các nhu cầu điện toán thông thƣờng nhƣ phần mềm,
ứng dụng, dịch vụ, dữ liệu … sẽ nằm t i các máy chủ ảo trên Internet thay vì trong
máy tính gia đình và v n phòng để ngƣời dùng kết nối và sử dụng mỗi khi họ cần.
Với các dịch vụ sẵn có trên Internet, doanh nghiệp không phải mua và duy trì h
tầng cũng nhƣ phần mềm mà chỉ cần tập trung vào kinh doanh, nghiệp vụ riêng bởi
đã có các nhà cung cấp dịch vụ ĐTĐM lo cơ sở h tầng và công nghệ thông tin thay
họ. Đa số ngƣời dùng Internet đã tiếp cận những dịch vụ đám mây phổ thông nhƣ email, album ảnh, bản đồ số.
ĐTĐM là một giải pháp toàn diện, cung cấp sức m nh của công nghệ thông tin dƣới
d ng dịch vụ. Đây là một giải pháp điện toán chủ yếu dựa trên kết nối m ng (LAN,
Internet...), ở đó cung cấp tài nguyên chia sẻ theo nhu cầu. Ở mô hình điện toán này,
mọi khả n ng liên quan đến công nghệ thông tin đều đƣợc cung cấp dƣới d ng các
dịch vụ, cho phép ngƣời sử dụng truy cập các dịch vụ công nghệ từ một nhà cung
cấp mà không cần phải có các kiến thức, kinh nghiệm về công nghệ đó, cũng nhƣ
không cần quan tâm đến các cơ sở h tầng phục vụ công nghệ đó.
Tính linh ho t của ĐTĐM là phân phát tài nguyên theo yêu cầu. Điều này t o khả
n ng mềm dẻo, thuận lợi cho việc sử dụng các tài nguyên của hệ thống, lo i bỏ sự

ràng buộc phải đầu tƣ phần cứng cụ thể cho một nhiệm vụ. Trƣớc khi có ĐTĐM,
các trang web hoặc các ứng dụng đƣợc ch y trên một máy chủ cụ thể ho t động
trong một hệ thống. Với sự ra đời của ĐTĐM, các tài nguyên đƣợc hợp nhất và sử
dụng nhƣ kho chung. Cấu hình hợp nhất này cung cấp một môi trƣờng ở đó các ứng

11

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

dụng thực hiện một cách độc lập mà không quan tâm đến bất kỳ cấu hình cụ thể
nào.
Viện Tiêu chuẩn và

ông nghệ Quốc gia Mỹ cũng định ngh a 5 đặc điểm quan

trọng nhất của ĐTĐM nhƣ sau:
1. Dịch vụ cung cấp theo nhu cầu: Ngƣời dùng có thể thuê (mua), tự cấu hình và
triển khai các dịch vụ ĐTĐM sử dụng các hình mẫu (template) đƣợc định ngh a
sẵn, mà không cần sự trợ giúp của bộ phận IT. Để làm đƣợc điều này, các nhà
cung cấp h tầng phải t o ra các hình mẫu từ trƣớc. ác hình mẫu này chứa các
cấu hình đã đƣợc định ngh a trƣớc, c n cứ vào đó ngƣời dùng sẽ tùy chỉnh them
và cài đặt thêm các dịch vụ theo nhu cầu. Một số ví dụ về hình mẫu nhƣ HP
loud Maps của HP, loudForms của RightScale và Red Hat…

2. Truy cập m ng rộng: N ng lực tính toán có tính sẵn sàng cao trên toàn m ng và
đƣợc truy cập thông qua các cơ chế chuẩn.
3. Tài nguyên không giới h n: Tài nguyên điện toán của các nhà cung cấp đƣợc kết
hợp để phục vụ nhiều khách hàng sử dụng mô hình multi-tenant bằng cách sử
dụng công nghệ ảo hóa.
4. Khả n ng đàn hồi cao: Tài nguyên điện toán có thể đƣợc cung cấp và giải phóng
một cách linh ho t. Đối với khách hàng, tài nguyên điện toán dƣờng nhƣ là
không giới h n và có thể đƣợc sử dụng với bất kì số lƣợng nào t i bất kì thời
điểm nào.
5. Dịch vụ đƣợc đo lƣờng: ác hệ thống ĐTĐM tự động kiểm soát và tối ƣu hóa
tài nguyên sử dụng bằng cách tận dụng khả n ng đo đ c ở mức trừu tƣợng phù
hợp với các lo i dịch vụ. Lƣu lƣợng sử dụng tài nguyên đƣợc giám sát, điều
khiển và thống kê trong suốt đối với cả nhà cung cấp và ngƣời sử dụng.

12

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

1.1.2. Các mô hình dịch vụ và triển khai.
1.1.2.1.

Các mô hình triển khai


1.1.2.1.1.

Đám mây ộ bộ - Private cloud

Private cloud là h tầng ĐTĐM đƣợc vận hành chỉ cho một tổ chức. Để thực hiện
một dự án private cloud đòi hỏi một mức độ hợp tác đáng kể để ảo hóa môi trƣờng
kinh doanh và đòi hỏi tổ chức phải đánh giá l i các quyết định về các nguồn lực
hiện có. Một dự án private cloud đƣợc triển khai đúng cách sẽ cải thiện kinh doanh,
tuy nhiên mỗi bƣớc trong dự án l i gia t ng các vấn đề bảo mật cần đƣợc giải quyết
để ng n chặn các lỗ hổng nghiêm trọng.

ác trung tâm dữ liệu thƣờng đòi hỏi rất

nhiều vốn: chi phí mua h tầng phần cứng (các servers, storages), không gian địa
điểm và chi phí bảo vệ. Hơn thế nữa các chúng cần đƣợc nâng cấp, bảo trì, cập nhật
định kì, kéo theo các khoản chi phí bổ sung. Quản l một private cloud yêu cầu các
công cụ phần mềm để giúp t o một hệ thống các servers đƣợc ảo hóa, cung cấp một
self-service portal cho end-users, kiểm soát bảo mật, phân bố tài nguyên, theo d i
và kiểm soát sử dụng.
1.1.2.1.2.

Đám mây cô g cộ g - Public cloud

Một cloud đƣợc gọi là công cộng (public) khi các dịch vụ đƣợc cung cấp trên một
m ng Internet công cộng. Một public cloud có thể đƣợc hiểu theo ngh a thông
thƣờng nhất: các tài nguyên đƣợc cung cấp dƣới d ng dịch vụ trên Internet đƣợc
ngƣời dùng truy cập bằng các ứng dụng web, các nhà cung cấp sẽ cung cấp các tài
nguyên chia sẻ, gửi hóa đơn tính phí dựa trên cơ sở tính toán lƣợng sử dụng của
ngƣời dùng. Về mặt k thuật, không có nhiều khác biệt giữa kiến trúc public và
private cloud, trừ việc vấn đề bảo mật cần phải đƣợc đặc biệt quan tâm đối với các

dịch vụ (ứng dụng, dữ liệu lƣu trữ và các tài nguyên khác) đƣợc cung cấp public khi
mà các giao tiếp đƣợc thực hiện qua một m ng không đáng tin cậy. Thông thƣờng,
các nhà cung cấp dịch vụ public cloud nhƣ

mazon

WS, Microsoft và Google sở

hữu và vận hành cơ sở h tầng và cung cấp truy cập chỉ thông qua Internet.

13

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

1.1.2.1.3.

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

Đám mây cộ g đồ g - Community cloud

ommunity cloud chia sẻ h tầng giữa một số tổ chức từ một cộng đồng cụ thể có
các mối quan tâm chung (v d: một nhóm ngành nghề lớn). hi phí trải đều trên một
tập ít ngƣời dùng hơn so với public cloud nhƣng nhiều hơn so với private cloud.
1.1.2.1.4.


Đám mây a - Hybrid cloud

Hybrid cloud là sự kết hợp của hai hay nhiều mô hình ĐTĐM khác nhau (private,
community hoặc public) nhằm phát huy lợi thế của nhiều mô hình triền khai.
Hybrid cloud có thể đƣợc kết hợp từ nhiều dịch vụ ĐTĐM từ các nhà cung cấp dịch
vụ khác nhau. Một dịch vụ hybrid cloud giữa các nhà cung cấp cho phép mở rộng
khả n ng của dịch vụ ĐTĐM bằng cách thống nhất, tích hợp hoặc tùy biến với các
dịch vụ ĐTĐM khác.
Kiến trúc hybrid cloud yêu cầu cả các tài nguyên có tính đồng bộ và h tầng ĐTĐM
phải định ngh a các giao thức làm việc từ xa đƣợc với nhau. Trong môi trƣờng
hybrid cloud, tài nguyên tính toán, kết nối m ng và tài nguyên lƣu trữ phải đƣợc
quản lý thông suốt qua nhiều nhà cung cấp dịch vụ, do đó một chiến lƣợc quản lý
hybrid cloud tốt nên bắt đầu với việc định ngh a những gì cần quản lý, ở đâu và làm
thế nào để thực hiện. Các công việc để giúp quản lý thông suốt giữa các nhà cung
cấp dịch vụ bao gồm việc cấu hình và cài đặt các template chung, kiểm soát truy
cập, dự toán ngân sách và báo cáo. Kiểm soát truy cập thƣờng bao gồm việc sử
dụng SSO – Single Sign – On, một kỹ thuật giúp ngƣời dùng chỉ cần login một lần
và có thể truy cập vào tất cả các hệ thống mà không bị nhắc nhở phải login l i mỗi
lần truy cập.
1.1.2.2.

Các mô hình dịch vụ

Khái niệm điện toán đám mây đƣợc xây dựng trên các tầng, mỗi tầng cung cấp một
chức n ng riêng. Sự phân tầng này đã cung cấp một cơ sở để điện toán đám mây
định lƣợng đƣợc dịch vụ cung cấp. Dịch vụ mà điện toán đám mây cung cấp là khả
n ng điện toán với chi phí thấp cho ngƣời dùng. ĐTĐM đã sẵn sàng để trở thành
dịch vụ siêu tiện ích trong thời đ i công nghệ ngày nay.
14


H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

ác tầng của ĐTĐM đƣợc cung cấp bởi các nhà cung cấp dịch vụ, các mô hình dịch
vụ cơ bản tƣơng ứng với các tầng sau:
o

Tầng cơ sở h tầng là tầng nền tảng của ĐTĐM  IaaS

o

Tầng giữa là tầng nền tảng hệ thống PaaS

o

Tầng trên cùng là tầng ứng dụng  SaaS

Hình 1. Mô ì

cơ bả của đ ệ toá đám mây

Bên c nh các mô hình cơ bản, các nhà cung cấp đang hƣớng tới cung cấp anything
as a service , và điều đó đã từng bƣớc trở thành hiện thực. Một số thành phần chủ
chốt trong XaaS – anything as a Service – đƣợc mô tả trong một mô hình phân lo i

toàn diện đƣợc công bố n m 2009, nhƣ SaaS – Strategy as a Service, BaaS –
Business as a Service, DaaS – Development as a Service… N m 2012, NaaS –
Network as a Service,

aaS –

ommunication as a Service chính thức đƣợc ITU

(Internation Telecommunication Union – Hiệp hội Viễn thông Quốc tế) công nhận
là một phần của mô hình điện toán đám mây cơ bản, và là một trong những lo i
hình dịch vụ đƣợc công nhận của một hệ sinh thái ĐTĐM lấy viễn thông làm trung
tâm (telecommunication – centric cloud ecosystem).
1.1.2.2.1. Hạ tầ g

ƣ một dịc vụ (IaaS)

Đây là mô hình dịch vụ ĐTĐM cơ bản nhất, các nhà cung cấp IaaS cung cấp các
servers, storages vật l đƣợc ảo hóa bởi nền tảng ảo hóa hybervisor, hệ thống các
15

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

servers ảo bên trong ĐTĐM có thể phục vụ một số lƣợng lớn khách hàng (thông

qua các guest machines ch y hệ điều hành ảo trên cùng một server) và khả n ng co
dãn tùy theo yêu cầu đa d ng của khách hàng.
IaaS thƣờng cung cấp thêm các tài nguyên nhƣ thƣ viện các hình mẫu máy ảo, các
dịch vụ lƣu trữ theo nhiều cơ chế nhƣ Block, Object, File, dịch vụ tƣờng lửa, bộ cân
bằng tải, địa chỉ IP, m ng địa phƣơng ảo (VL N – Virtual Local rea Network) và
một số gói phần mềm đặc thù.

ác nhà cung cấp ĐTĐM thƣờng cung cấp tài

nguyên theo yêu cầu của khách hang từ những cụm máy chủ tính toán đặt t i data
center tập trung hoặc phân tán. Với m ng W N, khách hàng có thể sử dụng chung
cả Internet và truy cập vào ĐTĐM của nhà cung cấp dịch vụ (m ng riêng ảo).
Để triển khai các ứng dụng, ngƣời dùng ĐTĐM thƣờng cài đặt hệ điều hành và các
phần mềm ứng dụng lên trên h tầng ĐTĐM. Trong mô hình này, mặc dù không
phải bỏ ra chi phí mua h tầng vật l , nhƣng ngƣời dùng phải tự vá lỗi (patch), cập
nhật và tự bảo trì hệ điều hành cũng nhƣ các ứng dụng phần mềm. Nhà cung cấp
ĐTĐM thƣờng tính tiền dịch vụ IaaS dựa trên lƣợng tài nguyên đƣợc cấp và tiêu
thụ.
Hai ví dụ điển hình của mô hình IaaS trong viễn thông là cloud communications và
cloud telephony, thay vì việc thay thế h tầng điện toán địa phƣơng mà thay thế h
tầng viễn thông địa phƣơng bởi VoIP – Voice over IP và các dịch vụ internet offsite khác.
1.1.2.2.2. Nề tả g

ƣ một dịc vụ (PaaS)

Trong mô hình PaaS, các nhà cung cấp ĐTĐM cung cấp nền tảng điện toán, thƣờng
bao gồm hệ điều hành, môi trƣờng thực thi cac ngôn ngữ lập trình, cơ sở dữ liệu và
web server. Nó tƣơng đƣơng với middle ware trong mô hình truyền thống (non –
could computing). Lập trình viên có thể lập trình và ch y các giải pháp phần mềm
của họ trên một nền tảng ĐTĐM bằng cách sử dụng


PI và các công cụ do nhà

cung cấp hỗ trợ, tức là không cần phải quan tâm đến giá cả và độ phức t p khi mua
và quản l các lớp phần cứng và phần mềm bên dƣới. Đối với một số PaaS nhƣ
Windows

zure, tài nguyên điện toán và lƣu trữ còn đƣợc co giãn tự động để phù
16

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

hợp với các yêu cầu của ứng dụng. Do đó, ngƣời dùng không cần phải phân bổ và
cấu hình tài nguyên bằng tay. ác doanh nghiệp phần mềm nhỏ là đối tƣợng khách
hàng l tƣởng đối với mô hình PaaS. Với nền tảng hệ thống đã chọn lọc kỹ, doanh
nghiệp có thể t o ra các sản phẩm phục vụ tốt nhu cầu nghiệp vụ mà không phải
chịu thêm gánh nặng về chi phí h tầng phần cứng và nền tảng.
1.1.2.2.3. P ầ mềm

ƣ một dịc vụ (SaaS)

Trong các mô hình kinh doanh sử dụng SaaS, ngƣời dùng đƣợc cung cấp truy cập
tới các phần mềm ứng dụng và cơ sở dữ liệu. Nhà cung cấp ĐTĐM quản l h tầng

cơ sở và các nền tảng trên đó các ứng dụng ch y. SaaS nhiều khi đƣợc gọi là ondemand software – phần mềm theo yêu cầu . Những nhà cung cấp SaaS thƣờng
định giá các ứng dụng qua phí thuê dịch vụ.
Trong mô hình SaaS, các nhà cung cấp ĐTĐM cài đặt và vận hành các phần mềm
ứng dụng trên ĐTĐM và ngƣời dùng ĐTĐM truy cập vào phần mềm từ các thiết bị
đầu cuối hoặc web. Ngƣời dùng ĐTĐM không quản l h tầng cơ sở và các nền
tảng trên đó ứng dụng ch y. Điều này lo i bỏ yêu cầu phải cài đặt và ch y ứng dụng
trên máy tính của ngƣời sử dụng ĐTĐM, đồng thời đơn giản hóa việc bảo trì cũng
nhƣ hỗ trợ. ác ứng dụng ĐTĐM phân biệt với các ứng dụng khác nhờ tính co dãn
của chúng. Điều này có thể đ t đƣợc bằng nhiều cách nhƣ sử dụng bộ cân bằng tải,
sao chép các tác vụ trên nhiều máy ảo trong thời gian ch y để đảm bảo nhu cầu thay
đổi công việc. ác bộ cân bằng tải phân bổ công việc trên tập các máy ảo. Quá trình
này là trong suốt đối với ngƣời sử dụng ĐTĐM, họ chỉ nhìn thấy một điểm truy cập
đơn duy nhất. Để phục vụ số lƣợng lớn ngƣời dùng ĐTĐM, các ứng dụng ĐTĐM
có thể multi-tenant, điều đó có ngh a là, mỗi máy tính sẽ phục vụ nhiều hơn một
nhóm ngƣời dùng ĐTĐM. Ngƣời ta thƣờng đề cập đến các lo i dịch vụ đặc biệt của
ĐTĐM dựa trên phần mềm ứng dụng nhƣ: desktop as a service, business process as
a service, test environment as a service, communication as a service.
Mô hình định giá cho các ứng dụng SaaS thƣờng là phí sử dụng dịch vụ cố định
theo tháng hoặc theo n m trên một ngƣời dùng.

17

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng


Những ngƣời ủng hộ cho rằng SaaS cho phép một doanh nghiệp giảm các chi phí
ho t động IT bằng cách chuyển công việc bảo trì và hỗ trợ phần cứng, phần mềm
cho các nhà cung cấp ĐTĐM. Điều đó cho phép doanh nghiệp có thể phân bổ l i
các chi phí ho t động IT, giảm thiểu chi phí tiêu dùng phần cứng phần mềm và nhân
sự để có thể đ t đƣợc các mục tiêu khác. Ngoài ra với các ứng dụng đƣợc tập trung,
việc cập nhật có thể đƣợc tiến hành mà không cần ngƣời dùng phải cài đặt phần
mềm mới. Một nhƣợc điểm của SaaS đó là dữ liệu của ngƣời dùng đƣợc lƣu trữ trên
server của nhà cung cấp ĐTĐM. Kết quả là có khả n ng xảy ra truy cập trái phép
vào dữ liệu. Với l do đó, những ngƣời sử dụng có thể sử dụng hệ thống quản l
khóa thông minh của bên thứ ba để giúp bảo mật dữ liệu của họ. Google Pack của
Google là một ví dụ điển hình cho SaaS. Google Pack bao gồm các ứng dụng, các
công cụ có thể sử dụng đƣợc qua Internet nhƣ Google

alendar, Gmail, Google

Talk, Google Docs và nhiều dịch vụ khác.
1.2. Tổ g qua về bà toá t

s

c.

1.2.1. Khái niệm
Bài toán Metagenomics trong nghiên cứu tin sinh học đƣợc định ngh a bao gồm
việc tách chiết DNA, RNA từ mẫu môi trƣờng tự nhiên, tổ chức lƣu trữ thông tin
thu đƣợc, và phân tích bằng các công cụ tính toán của tin sinh học. Hình dƣới đây
mô tả quy trình tiến hành một dự án Metagenomics.

18


H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

Hình 2. Quy trình nghiên cứu của một dự án Metagenomics
Trong khi kỹ thuật giải trình tự thế hệ mới (next generation sequencing - NGS) đã
giải quyết đƣợc vấn đề thời gian và chi phí trong việc chuẩn bị dữ liệu cho nghiên
cứu metagenomics, thì bƣớc phân tích và làm sáng tỏ

ngh a các kết quả tính toán

l i là thách thức lớn trong l nh vực này. Trƣớc đây, các phƣơng pháp, công cụ đã
phát triển cho genomics (hệ gene đơn nhất), tuy cùng bản chất sinh học, đã không
thể áp dụng cho metagenomics (tập hợp các gene của một quần thể vi sinh), đòi hỏi
phải đƣợc mở rộng hoặc đề xuất mới. Cụ thể, một số vấn đề cơ bản làm giảm hiệu
quả của các phƣơng pháp tính toán gồm:
(1) Khối lƣợng dữ liệu metagenomics có thể lớn (Gb/mẫu) dẫn đến yêu cầu lƣu trữ
và n ng lực tính toán cao.
(2) Chuỗi trình tự NGS (shotgun sequencing read) tƣơng đối ngắn (100-200 bp) dẫn
đến khó kh n trong phân tích dữ liệu, ví dụ lắp ghép các đơn vị trình tự dài (contig,
scaffold) hơn hoặc toàn hệ gen (whole genome assembly).
(3) Đặc thù của dữ liệu metagenomics là một phần không nhỏ dữ liệu chƣa có chú
giải phân loài và chức n ng (taxomomy and function annotation) của các vi sinh vật


19

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

chƣa biết, dẫn đến nhu cầu xây dựng cơ sở dữ liệu tham chiếu (reference databases)
song song với các phƣơng pháp tính toán thích hợp (robust) để khắc phục nhƣợc
điểm (đồng thời cũng là tiềm n ng) này.
Các thành phần tin sinh học của metagenomics gồm các thành phần cơ bản nhƣ sau:
 Các tập dữ liệu metagenome (trình tự DN , RN , protein) thu đƣợc từ hệ vi
sinh vật trong mẫu.
 Tập dữ liệu tham chiếu: toàn bộ hệ gene của các loài vi khuẩn, virus, v.v.
 Các tập dữ liệu metagenome có chú giải về đa d ng phân loài, chức n ng,
v.v.
 Một số trung tâm nghiên cứu lớn của thế giới lƣu trữ/quản l các cơ sở dữ
liệu tham chiếu đồng thời cung cấp các dịch vụ nhƣ: tiếp nhận lƣu trữ, truy
vấn, phân tích thống kê, và môt số công cụ tính toán. Đặc điểm chung của
các hệ thống này là:
 Dung lƣợng lƣu trữ lớn.
 Dữ liệu đƣợc tổ chức theo chuẩn nhất định, sử dụng cơ sở dữ liệu quan hệ.
Chuẩn thƣờng đƣợc sử dụng nhất là của Genome Standards Consortium
(GSC).
 Sử dụng những máy chủ m nh, siêu máy tính, môi trƣờng tính toán song
song hoặc đám mây cho các tác vụ tính toán trên dữ liệu lớn.

 Phân quyền truy vấn đối với các tập dữ liệu, ngƣời dùng.
 Cho phép tải các tập dữ liệu lên và trả về kết quả phân tích qua Internet.
Sau đây là một số hệ thống tiêu biểu, có những điểm cần tham khảo khi thiết kế hệ
thống t i Việt Nam.
 Intergrated Microbial Genomes and Metagenomes (IMG), JGI bộ N ng
lƣợng, Mỹ: là hệ thống tích hợp nguồn dữ liệu đƣợc công bố bởi dự án t i
JGI và các dự án metagenomics khác theo chuẩn của IMG, ví dụ đất, nƣớc
biển, nƣớc ngọt, suối nƣớc nóng, vật chủ (cây công nghiệp, ruột động vật),
môi trƣờng ô nhiễm. N m 2013, 7678 hệ gen mới đƣợc lƣu trữ, trong đó
1126 đƣợc giải trình tự và chú giải t i JGI, 6441 từ Genbank, và 91 hệ gen
20

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

do ngƣời dùng trực tiếp đƣa lên. Tới tháng 1 2014 đã có trên 5500 ngƣời
dùng từ 69 quốc gia.
 MetabioME, RIKEN, Nhật: Tập hợp các tập dữ liệu metagenomics, dữ liệu
tham chiếu (971 hệ gene vi khuẩn), v.v đã đƣợc công bố từ 10 nguồn khác
nhau, nhƣ ENZYME, Swiss-Prot, BRENDA, GenBank, v.v. và chú giải bằng
tay bởi các chuyên gia. Đặc biệt, cung cấp danh sách trên 500 enzymes có
giá trị thƣơng m i đã đƣợc công bố quốc tế.
 MG-RAST, NIH, Mỹ: Lƣu trữ 50,683 tập dữ liệu metagenomics (trong đó
trên 10,095 miễn phí), 14.2 Tbp DNA. Hệ thống tính toán dựa trên các cụm

máy (clusters) và đám mây (cloud).
1.2.2. Các mô hình tin sinh truyền thống
Phân tích dữ liệu metagenomics tuân theo một quy trình nhất định (analysis
pipeline) cho các lo i dữ liệu khác nhau và tùy theo mục tiêu phân tích của bài toán
sinh học. Tuy nhiên, có một số tác vụ cơ bản chung nhƣ phân tích đa d ng phân loài
(taxonomy), chức n ng (function), lắp ghép hệ gen (genome assembly), so sánh các
quần thể vi sinh vật (comparative metagenomics).
Về cơ bản, các phƣơng pháp tính toán có thể thuộc một trong số hoặc kết hợp hai
hƣớng tiếp cận sau:
 Dựa vào đặc tính của chuỗi DNA (sequence-based): số lƣợng, tần số của
nucleotide, motifs v.v. là đầu vào cho các thuật toán phân lo i.
 Dựa vào tính tƣơng đồng của chuỗi DNA (homolog-based): tìm sự tƣơng
đồng với chuỗi đã đƣợc chú giải trong cơ sở dữ liệu tham chiếu, cây phân
loài (NCBI) hoặc cây con đƣờng chức n ng (KEGG, SEED) để gán phân
nhóm hay chức n ng gần nhất.
Các công cụ đã đƣợc phát triển và công bố cho metagenomics tƣơng đối nhiều, ch y
qua giao diện web, dòng lệnh, hoặc giao diện đồ họa, v.v., có thể chia thành ba
nhóm sau:
 Nền tảng tính toán (platform): cung cấp khả n ng đƣa các công cụ, thuật toán
v.v vào dƣới d ng các module chức n ng, ghép nối thành các luồng giải pháp
21

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng


(analysis pipeline) cho từng vấn đề cụ thể, ví dụ nhƣ: Galaxy, MG-Rast,
IMG/M, CAMERA. Việc lƣu dữ liệu và tính toán sẽ đƣợc thực hiện trên hệ
thống của nhà cung cấp dịch vụ phân tích nêu trên.
 Gói phần mềm (package): tập hợp các công cụ, tiện ích trong phân tích
metagenomics, ví dụ nhƣ Qiime, Meta B , MetabioME, MEG N. ác gói
này đƣợc cài đặt trên nền Windows, Linux, v.v.
 Công cụ cho từng tác vụ riêng biệt: tìm đa d ng phân loài hoặc và đa d ng
chức n ng, ví dụ nhƣ BL ST, BL STX, BL T, PhyloPythia, Tetra, v.v.
Đây chủ yếu là các thuật toán cơ bản đƣợc công bố quốc tế giải quyết một
vấn đề nhất định trong tính toán. Riêng BLAST và các biến thể là công cụ
tìm kiếm đối sánh quan trọng đƣợc sử dụng trong hầu hết các hệ thống và gói
phần mềm.
Đặc trƣng của bài toán phân tích dữ liệu metagenomics tập trung vào khái niệm
luồng xử lý dữ liệu tin sinh (workflow), trong đó mỗi bƣớc trong một workflow bao
hàm luồng nghiệp vụ đặc trƣng nhƣ tìm kiếm, sắp xếp, hiển thị.. Đầu ra của bƣớc
này là đầu vào của bƣớc tiếp theo.
1.3. N ệm vụ của uậ v

.

Ở Việt Nam hiện nay hƣớng tiếp cận metagenomics đang nổi lên là một các làm
mới cho các bài toán nghiên cứu và khai thác vật liệu di truyền từ vi sinh vật. Một
số các đề tài cấp cơ sở và cấp nhà nƣớc đang sử dụng metagenomics đƣợc thực hiện
t i Viện Hàn lâm khoa học và công nghệ Việt Nam (VAST) với mục tiêu chung là
khai thác vật liệu di truyền mới mã hóa các enzyme và các chất có ho t chất sinh
học hữu ích nhƣ sau:
 Nghiên cứu metagenome của các vùng đất bị ô nhiễm (thuốc diệt cỏ, dioxin).
 Nghiên cứu metagenome của vi sinh vật đất và vùng rễ của một số cây công
nghiệp, cây thuốc ở Việt Nam.

 Nghiên cứu metagenome của các hệ mini sinh thái tiềm n ng trong chuyển
hóa hiệu quả lignocellulose.
 Nghiên cứu metagenome của các hệ vi sinh vật trong đầm nuôi tôm.
22

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

 Nghiên cứu metagenome của hệ vi sinh vật liên kết hải miên t i biển miền
Trung Việt Nam.
Đề tài này dự kiến thực hiện phần lƣu trữ dữ liệu và tính toán một phần dựa vào tài
nguyên sẵn có của V ST, đồng thời thuê ngoài đặc biệt với những tác vụ phân tích
đòi hỏi n ng lực tính toán lớn. Ngoài ra, các nghiên cứu tin sinh học t i Viện Công
nghệ thông tin (IOIT, V ST) theo hƣớng metagenomics cũng đang đƣợc triển khai
theo hƣớng xây dựng luồng phân tích và các phƣơng pháp tính toán cho 2 bài toán
đặc tả thành phần phân loài (taxonomy) và chức n ng (function) của hệ vi sinh vật
trong ruột ngƣời (human intestinal microbiome).
Về l nh vực điện toán đám mây, trong vòng vài n m trở l i đây, điện toán đám mây
đã đ t đƣợc những bƣớc phát triển rất nhanh chóng. Rất nhiều các mô hình dịch vụ
của đám mây đã ra đời trong đó có thể quy về các dịch vụ phân phối tài nguyên
phần cứng (Infrastructure as a Service – IaaS), dịch vụ cung cấp nền tảng (Platform
as a Service – PaaS) cho các nhà phát triển và dịch vụ phân phối tài nguyên phần
mềm (Software as a Service – SaaS) trên nền ảo hóa tới ngƣời sử dụng. Lợi ích
mà điện toán đám mây đem l i là rất to lớn và có thể áp dụng trong rất nhiều l nh

vực, từ học tập nghiên cứu đến kinh doanh. Trong 3 d ng dịch vụ cung cấp bởi điện
toán đám mây thì SaaS là dịch vụ hƣớng đến ngƣời dùng cá nhân hơn cả. Các phần
mềm phổ biến hiện nay đã đƣợc đƣa lên thành dịch vụ trên đám mây bao gồm các
phần mềm v n phòng, lƣu trữ chia sẻ dữ liệu, thƣ điện tử, phần mềm diệt virus,
phần mềm đồ họa, v.v và cả các phần mềm chuyên biệt trong kinh doanh nhƣ ch m
sóc khách hàng, quản lý nhân sự, kế toán, v.v Tuy nhiên trong l nh vực nghiên cứu
khoa học thì chƣa có nhiều dịch vụ nhƣ vậy cụ thể là l nh vực tin sinh học.
Các bài toán tin sinh học rất nhiều và đa d ng, đặc biệt là siêu bộ gen
(metagenomics).

ó bài toán đòi hỏi khối lƣợng tính toán lớn, thời gian tính toán

lâu. Có bài toán đòi hỏi khối lƣợng dữ liệu tính toán cực lớn. Những d ng bài toán
nhƣ vậy thƣờng không thể ch y đƣợc trên máy tính cá nhân mà thƣờng phải đƣa lên
các cụm máy tính hoặc siêu máy tính để giải quyết. Trong nƣớc, dự án giải mã gen
ngƣời đã đƣợc thực hiện với sự trợ giúp từ hệ thống tính toán cụm và siêu máy tính
23

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

t i Đ i học Bách khoa Hà Nội. Việc đƣa các công cụ tin sinh chuyên biệt lên đám
mây thành dịch vụ sẽ giúp cho rất nhiều chuyên gia ở Việt Nam có thể sử dụng vào
những nghiên cứu của mình trong các bài toán cần tính toán và cả chia sẻ dữ liệu

sinh học nhằm thúc đẩy hơn nữa sự phát triển của ngành tin sinh học ở trong nƣớc.
Qua phân tích yêu cầu và quy trình nghiệp vụ bài toán. Trong các chƣơng tiếp theo,
luận v n sẽ phải thực hiện ba nhiệm vụ sau:
1. Đề xuất mô hình tổng quát khả thi cho việc chuyển dịch ứng dụng lên môi
trƣờng đa đám mây
2. Cụ thể hoá mô hình tổng quát với bài toán tin sinh.
3. Tiến hành phân tích, đánh giá các kết quả đ t đƣợc.

24

H cv

Lê Quang Hiếu


Luận v n th c s kỹ thuật

GVHD: TS. Nguyễn Hữu Đức – TS. Doãn Trung Tùng

CHƢƠNG 2. DỊCH VỤ, ỨNG DỤNG TRONG MÔI TRƢỜNG ĐA ĐÁM
MÂY
Điện toán đám mây là một trong những động lực m nh mẽ cho sự phát triển các cấu
trúc web (Web Architectures) trong thế kỉ thứ 21. Mô hình kiến trúc này mang l i
ƣu điểm vƣợt trội về khả n ng cung cấp tài nguyên tính toán so với các môi hình
điện toán trƣớc đó nhƣ lƣới (Grid), cụm ( luster), đa chip xử lý (multi-core) v.v…
nhờ công nghệ ảo hóa (Virtualization Technology). Trong thị trƣờng các dịch vụ
đám mây, tài nguyên tính toán đƣợc cung cấp rất đa d ng từ các gói phần mềm hoàn
chỉnh tới hệ thống nền tảng h tầng tính toán. Tất cả chúng đều có khả n ng đƣợc sử
dụng một cách tự động theo nhu cầu ngƣời dùng dựa trên một hệ thống phân tán tài
nguyên với tính khả mở cao. Chính vì vậy, hiện nay các nhà cung cấp phần mềm

độc lập (ISVs – Independent Software Vendors) đã và đang có xu hƣớng đƣa các
dịch vụ của họ vào môi trƣờng đám mây nhằm tận dụng các ƣu thế của kiến trúc
này.
Phần mềm nhƣ là một dịch vụ (SaaS – Software as a Service) là một d ng kinh
doanh nổi lên trong ngành công nghiệp phần mềm. Tốc độ phát triển của SaaS rất
nhanh. Theo báo cáo của ID n m 2005, cho tới n m 2009, các doanh nghiệp trên
toàn thế giới đã chi 10,7 tỉ đô la cho SaaS. Bên c nh đó, cho tới n m 2011, 25 phần
tr m phần mềm thƣơng m i sẽ đƣợc cung cấp dƣới d ng SaaS. Rất nhiều các phần
mềm hiện nay đã đƣợc mây hóa (cloudification) hoặc SaaS hóa (SaaSification) và
danh sách này ngày càng t ng lên.

ông nghệ nền tảng của SaaS tập trung xung

quanh kiến trúc đa ngƣời dùng (multi-tenant). SaaS đƣợc mô tả nhƣ là một phần
mềm đƣợc triển khai bởi nhà cung cấp trên hệ thống h tầng khả mở và có thể truy
cập thông qua m ng. Và sự phát triển m nh mẽ của công nghệ ảo hóa cũng nhƣ điện
toán đám mây đã cho phép các dịch vụ d ng SaaS đƣợc cung cấp hiệu quả tới ngƣời
dùng đầu cuối nhờ những tính chất phù hợp của nó. Tính khả mở của các ứng dụng
SaaS cho phép nhà cung cấp phần mềm cung ứng dịch vụ tới ngƣời dùng và không
cần quan tâm về sự h n chế của tài nguyên mà dịch vụ đó sẽ tiêu tốn. Khái niệm đa
25

H cv

Lê Quang Hiếu


×