Tải bản đầy đủ (.docx) (31 trang)

NGHIÊN CỨU TÍNH BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN BIG DATA MINING TRONG ĐIỆN TOÁN ĐÁM MÂY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (396.65 KB, 31 trang )

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Bài thu hoạch cuối kỳ:
ĐIỆN TOÁN LƯỚI ĐÁM MÂY
Đề tài:
NGHIÊN CỨU TÍNH BẢO MẬT VÀ KHAI PHÁ
DỮ LIỆU LỚN (BIG DATA MINING)
TRONG ĐIỆN TOÁN ĐÁM MÂY
Giảng viên phụ trách: PGS.TS. Nguyễn Phi Khứ
Học viên: Phạm Thế Sơn
MSHV: CH1301033
TP. HỒ CHÍ MINH – 6/2014
MỤC LỤC
DANH MỤC HÌNH
Điện Toán Lưới Và Đám Mây
CHƯƠNG I: TỔNG QUAN
Trình bày tổng quan về việc đặt vấn đề để nghiên cứu tìm hiểu tính bảo
mật và khai phá dữ liệu lớn (Big Data Mining) trong Điện toán đám mây.
Trình bày tình hình ứng dụng Điện toán đám mây trên thế gới và trong
nước.
I.1 Đặt vấn đề
Ngày nay, đối với các công ty, doanh nghiệp, trường học, … (gọi chung là cơ
quan/tổ chức), thì việc quản lý tốt, hiệu quả dữ liệu của riêng một tổ chức cũng như dữ
liệu khách hàng, đối tác, học sinh – sinh viên là một trong những bài toán được ưu tiên
hàng đầu và đang không ngừng gây khó khăn cho . Để có thể quản lý được nguồn dữ
liệu đó, ban đầu các cơ quan, tổ chức phải đầu tư, tính toán rất nhiều loại chi phí như
chi phí cho phần cứng, phần mềm, mạng, chi phí cho quản trị viên, chi phí bảo trì, sửa
chữa, … Ngoài ra, còn phải tính toán khả năng mở rộng, nâng cấp thiết bị; phải kiểm
soát việc bảo mật dữ liệu cũng như tính sẵn sàng cao của dữ liệu.
Từ một bài toán điển hình như vậy, chúng tôi thấy được rằng nếu có một nơi tin
cậy giúp các cơ quan/tổ chức quản lý tốt nguồn dữ liệu đó, thì sẽ không còn quan tâm


đến cơ sở hạ tầng, công nghệ mà chỉ tập trung chính vào công việc hoạt động của đơn
vị thì sẽ mang lại hiệu quả và lợi nhuận ngày càng cao hơn. Thuật ngữ “Cloud
Computing” ra đời bắt nguồn từ một trong những hoàn cảnh như vậy.
Công nghệ điện toán đám mây là một thành tựu khoa học tương đương thành tựu
của các công nghệ tính toán nhưng nó khác ở chỗ: công nghệ đám mây còn là mô hình
dịch vụ mới. Điện toán đám mây cung cấp phương tiện để chia sẻ phần cứng, phần
mềm cơ sở hạ tầng lưu trữ, theo một gói phần mềm tiện dụng và phổ biến. Chúng ta
có thể truy cập và sử dụng đến các dịch vụ CNTT tồn tại trong “đám mây”. Cấu trúc
bên trong các “đám mây” là những cơ sở hạ tầng như phần cứng, phần mềm, mạng,
phương thức lưu trữ, bảo trì, backup, v v , được duy trì để cung cấp các dịch vụ
đảm bảo khả năng sẵn sàng cao.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Dữ liệu và lưu trữ dữ liệu đối với một tổ chức là rất quan trọng và cần được bảo
mật. Theo năm tháng, dữ liệu ngày một lớn dần đến một mức gọi là khổng lồ, vậy làm
sao con người khai thác, phân tích, sử dụng nó một cách hợp lý là cả một vấn đề cần
phải đặt ra và cần phải giải quyết. Do đó, thuật ngữ “Big Data Mining” ra đời bắt
nguồn từ một trong những hoàn cảnh như vậy.
I.2 Mục tiêu
Điện toán đám mây đã chứng tỏ được tầm vóc và vai trò đối với mọi quy mô, và
việc an toàn dữ liệu trên mây của một hệ thống luôn cần phải đảm bảo. Ở đây không
phải là vấn đề quy mô mà là vấn đề của khối lượng bảo mật, cho biết điều quan trọng
là giải pháp bảo mật nội bộ đạt tiêu chuẩn nào và điện toán đám mây có thể cung cấp
một dịch vụ tương tự hay không. Vì vậy, mục tiêu thứ nhất của đề tài là nghiên cứu
tìm hiểu một số phương pháp vấn đề bảo mật và mã hóa dữ liệu trong Điện toán đám
mây.
Hơn nữa, nếu chỉ đơn giản là sử dụng đám mây như một giải pháp sao lưu và
không có ý định đặt các thông tin nhạy cảm trên mây thì cũng không nên tiết kiệm chi
phí cho an ninh dữ liệu. Mã hóa dữ liệu trước khi di chuyển lên mây, mã hóa quá cảnh
ở khu vực trung gian, và mã hóa đầu cuối là 3 lớp cơ bản để đảm bảo dữ liệu một cách

chắc chắn.
Điện toán đám mây (cloud computing) trong tương lai sẽ được ứng dụng để quản
lý và xử lý các nguồn dữ liệu lớn, khổng lồ (Big Data), đây sẽ là xu thế mới đồng thời
cũng là giải pháp cho các công ty, doanh nghiệp, trường học, …. Mỗi ngày có khoảng
2.5 exabyte (2.5 tỉ tỉ byte) dữ liệu được tạo ra, và con số này hoàn toàn chưa có dấu
hiệu ngừng lại. Big Data dùng để chỉ các lượng thông tin cực lớn đó, chúng quá lớn
đến nỗi các công ty không thể tự mình lưu trữ, kiểm soát hay phân tích, mà cần nhờ
đến công nghệ điện toán đám mây. Vì vậy, mục tiêu thứ hai của đề tài là nghiên cứu
tìm hiểu một số thuật toán khai thác dữ liệu lớn (Big Data Mining) trong Điện toán
đám mây.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
I.3 Tình hình phát triển Điện toán đám mây trên thế giới và trong nước
I.3.1 Tình hình phát triển trên thế giới
Điện toán đám mây (Cloud computing) không còn là điều gì mới mẻ. Bắt nguồn
từ điện toán lưới (grid computing) từ những năm 80, điện toán theo nhu cầu (Utility
computing) và phần mềm dịch vụ (SaaS), Oracle là nhà tiên phong trong việc triển
khai công nghệ này.
Hiện nay, điện toán đám mây đang được phát triển và cung cấp bởi nhiều nhà
cung cấp, trong đó có Amazon, Google, DataSynapse, Salesforce cũng như các nhà
cung cấp truyền thống Microsoft, IBM, HP… Đã được rất nhiều người dùng cá nhân
cho đến các công ty lớn như L’Oréal, General Electric, Ebay, Coca-cola… chấp nhận
và sử dụng.
I.3.2 Tình hình phát triển trong nước
Tại Việt Nam, điện toán đám mây mới chỉ thực sự nở rộ trong các dịch vụ cá
nhân như lưu trữ file, hạn chế lớn của phần mềm điện toán đám mây là yêu cầu kết nối
Internet. Trong điều kiện cơ sở hạ tầng mạng còn chưa tốt như ở Việt Nam, đây thực
sự là một thách thức không nhỏ.
Ví dụ: ở trong nước, nếu một siêu thị sử dụng phần mềm bán hàng online (trực
tuyến), khi không có mạng, nhân viên thu ngân sẽ không thể quét mã vạch để tìm

kiếm thông tin giá hàng. Như vậy, kể cả khi có máy tính bỏ túi làm phương án dự
phòng, hoạt động kinh doanh cũng sẽ bị đình trệ.
IBM là doanh nghiệp tiên phong khai trương trung tâm điện toán đám mây tại
Việt Nam vào tháng 9/2008 với khách hàng đầu tiên là là Công ty cổ phần công nghệ
và truyền thông Việt Nam (VNTT). Sau đó, Microsoft là một trong những “đại gia”
tiếp bước điện toán đám mây ở thị trường Việt Nam, nhưng hiện vẫn đang trong giai
đoạn phát triển thử nghiệm (Nguồn: được trích từ website Thông tin Công nghệ, link:

Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Tóm lại, về thực trạng ứng dụng điện toán đám mây ở các doanh nghiệp Việt
Nam, có thể rút ra kết luận như sau: Hiện nay đã có một vài doanh nghiệp lớn tại Việt
Nam đưa điện toán đám mây vào ứng dụng và hiệu suất kinh doanh được cải thiện
đáng kể. Tuy nhiên số lượng là khá ít. Phần lớn vẫn chỉ dừng ở mức quan tâm và tìm
hiểu.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
CHƯƠNG II: ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY
Chương II trình bày về nguồn gốc của Điện toán lưới và đám mây, những
mô hình nghiên cứu, phát triển ứng dụng Điện toán đám mây.
II.1 Định nghĩa điện toán đám mây
Điện toán đám mây là một giải pháp toàn diện cung cấp Công nghệ Thông tin
như một dịch vụ. Nó là một giải pháp điện toán dựa trên Internet, ở đó cung cấp tài
nguyên chia sẻ giống như dòng điện được phân phối trên lưới điện [1], [2]. Các máy
tính trong các đám mây được cấu hình để làm việc cùng nhau và các ứng dụng khác
nhau sử dụng sức mạnh điện toán tập hợp cứ như thể là chúng đang chạy trên một hệ
thống duy nhất.
Tính linh hoạt của điện toán đám mây là một chức năng phân phát tài nguyên
theo yêu cầu. Điều này tạo điều kiện thuận lợi cho việc sử dụng các tài nguyên tích
lũy của hệ thống, phủ nhận sự cần thiết phải chỉ định phần cứng cụ thể cho một nhiệm

vụ. Trước điện toán đám mây, các trang web và các ứng dụng dựa trên máy chủ đã
được thi hành trên một hệ thống cụ thể. Với sự ra đời của điện toán đám mây, các tài
nguyên được sử dụng như một máy tính gộp ảo. Cấu hình hợp nhất này cung cấp một
môi trường ở đó các ứng dụng thực hiện một cách độc lập mà không quan tâm đến bất
kỳ cấu hình cụ thể nào [1], [2].
Tóm lại, Điện Toán Đám mây là mô hình dịch vụ trong đó các tài nguyên như:
hardware, platform (OS, DB, Middleware,…), software được chuyển giao và sử dụng
theo yêu cầu thông qua môi trường internet.
II.2 Quá trình phát triển của Điện toán đám mây
Điện toán đám mây là cuộc cách mạng lần 3 trong công nghiệp IT tiếp sau cuộc
cách mạng PC thập kỷ 80 và Internet thập kỷ 90. Quá trình phát triển được thể hiện
qua [Hình 1].
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Hình 1: Mô tả quá trình phát triển của Điện Toán Đám mây
II.3 Lợi ích của Điện toán đám mây
Chi phí giảm: Điện toán đám mây có thể làm giảm cả chi phí vốn (CapEx) lẫn
chi phí vận hành (OpEx) vì các tài nguyên chỉ được mua khi cần và chỉ phải trả tiền
khi sử dụng.
Giảm người điều hành ứng dụng: Việc sử dụng điện toán đám mây giải phóng
đội ngũ nhân viên quý giá cho phép họ tập trung vào việc cung cấp giá trị hơn là duy
trì phần cứng và phần mềm.
Khả năng mở rộng vững mạnh: Điện toán đám mây cho phép khả năng điều
chỉnh quy mô ngay lập tức hoặc tăng lên hoặc giảm xuống, bất cứ lúc nào mà không
cần giao kết dài hạn.
Tiết kiệm chi phí đầu tư: chi phí mua phần cứng, phần mềm.
Tiết kiệm chi phí vận hành: trả theo mức độ sử dụng, giảm chi phí hỗ trợ, vận
hành, bảo trì, giảm chi phí nhân công IT.
Triển khai áp dụng nhanh hơn và linh hoạt trong việc mở rộng phạm vi ứng
dụng.

Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Truy cập dữ liệu và thông tin nhanh hơn và hiệu quả hơn.
Chuẩn hóa và tự động hóa quy trình làm việc.
Được cập nhật với các nâng cấp mới nhất.
II.4 Quan ngại về vấn đề bảo mật của Điện toán đám mây
- Việc bảo mật và khả năng đảm bảo tính riêng tư của dữ liệu (chiếm 69%): đây
là mối quan ngại hàng đầu của khách hàng khi quyết định sử dụng các dịch vụ
điện toán đám mây công cộng.
- Chất lượng dịch vụ và năng lực của hệ thống (54%).
- Sự nghi ngờ về khả năng thực sự tiết kiệm được chi phí so với mô hình triển
khai truyển thống (53%).
- Tính sẵn sàng của hệ thống khi triển khai trên mạng internet (52%): khi triển
khai trên mạng thì sẽ có nhiều rủi ro dẫn đến việc gián đoạn đường truyền.
- Khó khăn trong việc tích hợp với các hệ thống IT hiện có của doanh nghiệp
(47%).
II.5 Mô hình Điện toán đám mây
Mô hình điện toán đám mây gồm có một mặt trước (front end) và một mặt sau
(back end). Hai thành phần này được kết nối thông qua một mạng, trong đa số trường
hợp là Internet.
- Phần mặt trước là phương tiện chuyên chở qua đó người dùng tương tác với hệ
thống; phần mặt sau chính là đám mây. Phần mặt trước gồm có một máy tính
khách hoặc mạng máy tính của doanh nghiệp và các ứng dụng được sử dụng để
truy cập vào đám mây.
- Phần mặt sau cung cấp các ứng dụng, các máy tính, các máy chủ và lưu trữ dữ
liệu để tạo ra đám mây của các dịch vụ.
Mô hình Điện toán đám mây là mô hình điện toán với sự cân bằng động và các
tài nguyên ảo hóa được cung cấp như dịch vụ trên mạng Internet.
Trong Điện toán đám mây, người sử dụng truy cập các dịch vụ tính toán từ nhà
cung cấp nào đó “trong đám mây” mà không cần phải có các kiến thức và kinh

Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
nghiệm về công nghệ đó cũng như không quan tâm đến các cơ sở hạ tầng phục vụ
công nghệ đó.
Hình 2: Mô hình Điện toán đám mây
II.5.1 Các khối xây dựng của điện toán đám mây
Khái niệm điện toán đám mây được xây dựng trên các tầng, mỗi tầng cung cấp
một mức chức năng riêng. Sự phân tầng này của các thành phần đám mây đã cung cấp
một phương tiện cho các tầng của điện toán đám mây để trở thành một loại hàng hóa
như điện, dịch vụ điện thoại hoặc khí tự nhiên. Hàng hóa mà điện toán đám mây bán
là khả năng tính toán với chi phí và phí tổn thấp hơn cho người dùng. Điện toán đám
mây đã sẵn sàng để trở thành dịch vụ siêu tiện ích tiếp theo.
Trình giám sát máy ảo (VMM- virtual machine monitor) cung cấp phương tiện
để sử dụng đồng thời các tiện ích điện toán đám mây [Hình 3]. VMM là một chương
trình trên một hệ thống máy tính chủ cho phép một máy tính hỗ trợ nhiều môi trường
thi hành giống hệt nhau. Từ quan điểm của người dùng, hệ thống này là một máy tính
độc lập, hoàn toàn cách biệt với những người dùng khác. Trong thực tế, các người
dùng đang được phục vụ bởi cùng một máy tính. Một máy ảo là một hệ điều hành
(OS) đang được quản lý bởi một chương trình điều khiển nằm dưới cho phép nó xuất
hiện giống như là nhiều hệ điều hành. Trong điện toán đám mây, VMM cho phép
những người dùng giám sát và do đó quản lý các khía cạnh của quá trình như là truy
cập dữ liệu, lưu trữ dữ liệu, mã hóa, đánh địa chỉ, cấu trúc liên kết và di chuyển tải
công việc.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Hình 3: Các trình giám sát máy ảo hoạt động như thế nào
II.5.1.1 Tầng cơ sở hạ tầng là nền tảng của đám mây
Nó gồm có các tài sản vật lý — các máy chủ, các thiết bị mạng, các ổ đĩa lưu trữ,
v.v Cơ sở hạ tầng là một dịch vụ (IaaS) có các nhà cung cấp như IBM® Cloud. Khi
sử dụng IaaS bạn thực tế không kiểm soát cơ sở hạ tầng nằm dưới, nhưng bạn có

quyền kiểm soát các hệ điều hành, lưu trữ, triển khai các ứng dụng và ở một mức độ
hạn chế, có quyền kiểm soát việc lựa chọn các thành phần mạng.
Dịch vụ in theo yêu cầu (POD) là một ví dụ về các tổ chức có thể hưởng lợi từ
IaaS. Mô hình POD được dựa trên việc bán sản phẩm có khả năng tùy chỉnh. Các
POD cho phép các cá nhân mở cửa hàng và bán thiết kế các sản phẩm. Các chủ cửa
hàng có thể tải lên nhiều hay ít thiết kế tùy theo khả năng sáng tạo của họ. Có hàng
ngàn lần tải lên. Với các khả năng lưu trữ đám mây, một POD có thể cung cấp không
gian lưu trữ không hạn chế.
II.5.1.2 Tầng giữa là nền tảng hệ thống
Nó cung cấp cơ sở hạ tầng của ứng dụng. Nền tảng hệ thống là một dịch vụ
(PaaS) cung cấp sự truy cập đến các hệ điều hành và các dịch vụ có liên quan. Nó
cung cấp một cách để triển khai các ứng dụng lên đám mây bằng cách sử dụng các
ngôn ngữ lập trình và các công cụ do nhà cung cấp hỗ trợ. Bạn không cần phải quản lý
hoặc kiểm soát cơ sở hạ tầng nằm dưới, nhưng bạn có quyền điều khiển các ứng dụng
đã triển khai và ở một mức độ nào có quyền điều khiển ứng dụng sử dụng các cấu
hình môi trường trên máy tính chủ.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
PaaS có các nhà cung cấp như là Elastic Compute Cloud (EC2) của Amazon.
Nhà phần mềm doanh nhân nhỏ là một hoạt động kinh doanh lý tưởng đối với PaaS.
Với nền tảng hệ thống đã chọn lọc kỹ, có thể tạo ra các sản phẩm đẳng cấp thế giới mà
không thêm gánh nặng cho hệ thống đang chạy trong công ty.
II.5.1.3 Tầng trên cùng là tầng ứng dụng
Đây là tầng mà hầu hết mọi người xem như là đám mây. Các ứng dụng chạy ở
đây và được cung cấp theo yêu cầu của những người dùng. Phần mềm là một dịch vụ
(SaaS) có các nhà cung cấp như Google Pack. Google Pack bao gồm các ứng dụng,
các công cụ có thể sử dụng được qua Internet, như Calendar, Gmail, Google Talk,
Docs và nhiều hơn nữa.
Hình 4: Các tầng điện toán đám mây được nhúng trong các thành phần "là một
dịch vụ"

II.5.2 Các cách hình thành đám mây
Có ba kiểu hình thành đám mây: riêng tư (theo giả thuyết), công cộng và lai tạo.
Các đám mây công cộng: có sẵn cho công chúng do một tổ chức bán các dịch vụ
đám mây sở hữu và cung cấp. Một đám mây công cộng là cái mà người ta hình dung
là đám mây theo nghĩa thông thường; đó là, các tài nguyên được cung cấp động trên
Internet bằng cách sử dụng các ứng dụng web từ một nhà cung cấp bên thứ ba bên
ngoài cung cấp các tài nguyên chia sẻ và gửi hóa đơn tính cước trên cơ sở tính toán
việc sử dụng.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Các đám mây riêng tư: tồn tại bên trong tường lửa của công ty bạn và do tổ chức
của bạn quản lý. Chúng là các dịch vụ đám mây do bạn tạo ra và kiểm soát trong
doanh nghiệp của mình. Các đám mây riêng tư cũng cung cấp nhiều lợi ích tương tự
như các đám mây công cộng, sự khác biệt chủ yếu là tổ chức của bạn chịu trách nhiệm
thiết lập và duy trì đám mây đó.
Các đám mây lai là một sự kết hợp của đám mây công cộng và riêng tư khi sử
dụng các dịch vụ có trong cả hai vùng công cộng và riêng tư. Các trách nhiệm quản lý
được phân chia giữa các nhà cung cấp dịch vụ đám mây công cộng và chính doanh
nghiệp. Khi sử dụng một đám mây lai, các tổ chức có thể xác định các mục tiêu và các
yêu cầu của các dịch vụ được tạo ra và có được chúng dựa vào sự lựa chọn thích hợp
nhất.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
CHƯƠNG III: BẢO MẬT VÀ KHAI PHÁ DỮ LIỆU LỚN
TRONG ĐIỆN TOÁN ĐÁM MÂY
Trong Chương III, giới thiệu, trình bày về những vấn đề an toàn - bảo
mật, và khai phá dữ liệu lớn (big data mining) trong Điện toán đám mây.
III.1Bảo mật và An toàn trên điện toán đám mây
III.1.1Vấn đề an toàn liên quan đến kiến trúc của điện toán đám mây
Một đám mây điện tử là một cụm máy tính kết nối nhau thông qua mạng cục bộ

hoặc mạng diện rộng trên cơ sở ảo hóa tài nguyên phần cứng nhờ chức năng ảo hóa để
cung cấp một cách trong suốt 3 dịch vụ cơ bản của điện toán đám mây là SaaS, PaaS
và IaaS. Mô hình triển khai đám mây có thể là công cộng, đám mây riêng hoặc cộng
đồng hay hỗn hợp như đã nói ở phần trên.
Các dịch vụ điện toán đám mây có kiến trúc phân tầng (layer), mỗi tầng cung
cấp các dịch vụ và tiện ích (chức năng) riêng của nó trên cơ sở các dịch vụ và tiện ích
của tầng thấp hơn [Hình 5]. Vì vậy an ninh của hệ thống phụ thuộc vào an ninh của
mỗi tầng được thiết kế và cài đặt kèm theo như là một dịch vụ hay tiện ích.
Hình 5: Kiến trúc phân tầng dịch vụ trong điện toán đám mây
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
III.1.1.1 An ninh ở mức hạ tầng
An ninh của các dịch vụ ở tầng thấp như tầng vật lý hay hạ tầng (IaaS) phụ thuộc
vào nhà cung cấp, tức là chủ sở hữu của đám mây. Hiện tại, có một số nhà cung cấp
dịch vụ IaaS nhưng chưa có chuẩn nào về an ninh cho các dịch vụ này. Về mặt
nguyên tắc, khách hàng thuê bao dịch vụ IaaS có thể áp đặt các chính sách an ninh của
mình bằng cách phát triển các dịch vụ hay tiện ích riêng thông qua các dịch vụ của
tầng vật lý và các dịch vụ IaaS của nhà cung cấp. Chính sách về an toàn ở mức này là
rất phức tạp vì nhiều chính sách khác nhau áp đặt lên cùng một môi trường phần cứng
(vật lý). Những mối đe dọa an toàn ở mức này có thể liên quan tới máy chủ ảo
(Virtual Machine) như là vi-rút và các phần mềm độc hại khác. Nhà cung cấp dịch vụ
chịu trách nhiệm chính về giải pháp cho vấn đề này. Khách hàng thuê bao cũng có thể
thực hiện các giải pháp và chính sách an toàn riêng cho mình, từ đó làm gia tăng gánh
nặng lên phần cứng và hiệu năng chung của hệ thống. Các máy chủ ảo vẫn có thể bị
lây nhiễm hay bị kiểm soát bởi phần mềm độc hại. Trong trường hợp này, các chính
sách an ninh của khách hàng có thể bị vô hiệu, như vậy nhà cung cấp dịch vụ phải là
người có vai trò chính trong an ninh ở mức này. Ngoài ra, vì IaaS khai thác hạ tầng
vật lý và chính sách chung như DNS Server, Switch, IP protocol,… Vì vậy, khả năng
bị tấn công vào “khách hàng yếu nhất” sau đó “lây lan” cho các khách hàng khác. Vấn
đề này hiện nay khách hàng thuê bao không thể can thiệp gì vì nhiều máy chủ ảo chia

sẻ cùng tài nguyên vật lý như CPU, bộ nhớ, đĩa,… Mọi ánh xạ vật lý-máy ảo, máy ảo-
vật lý đều thông qua một “bộ ảo hóa”, nếu bộ này bị phần mềm độc hại kiểm soát thì
toàn bộ khách hàng trong đám mây sẽ bị cùng một mối hiểm họa như nhau.
III.1.1.2 An ninh ở mức dịch vụ nền tảng
Ở mức trung gian, dịch vụ nền tảng (PaaS) dựa trên dịch vụ tầng dưới (IaaS) và
cung cấp dịch vụ của mình cho tầng trên nó (SaaS). Ở mức này, các dịch vụ hay tiện
ích về an toàn có thể được cài đặt thêm hoặc cấu hình các dịch vụ được cung cấp từ
tầng dưới. Ở đây, người dùng có thể quản trị phần thuê bao của mình để tạo ra môi
trường thực thi các ứng dụng. Hiện nay, dịch vụ PaaS của đám mây dựa trên mô hình
kiến trúc hướng dịch vụ (SOA) vì vậy những nguy cơ về an toàn giống hệt như những
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
nguy cơ an toàn của SOA như tấn công từ chối dịch vụ, tấn công XML và nhiều cách
tấn công khác.
Vì dịch vụ nền tảng là dịch vụ đa thuê bao, nhiều người dùng nên cơ chế xác
thực, chứng thực là rất quan trọng. Trách nhiệm bảo mật và an toàn trong trường hợp
này liên quan đến cả nhà cung cấp, người thuê bao và người dùng (user). Các dịch vụ
PaaS phải cung cấp môi trường để phát triển ứng dụng bao gồm chức năng tác nghiệp,
các chức năng an toàn và quản lí hệ thống. Nhà cung cấp cần có cơ chế bắt buộc
chứng thực để truy cập các dịch vụ PaaS, người thuê bao có trách nhiệm phát triển hay
cung cấp các chức năng bảo mật cần thiết thông qua cơ chế chứng thực chung và
người dùng phải có trách nhiệm bảo vệ tài khoản đăng nhập cá nhân của mình.
III.1.1.3 An ninh ở mức dịch vụ phần mềm
Ở mức dịch vụ phần mềm (SaaS), các phần mềm được cung cấp như là dịch vụ
trên mạng, sử dụng các chính sách bảo mật dữ liệu và tài nguyên khác từ các tầng bên
dưới cung cấp. Một số dịch vụ phần mềm khá phổ biến hiện nay là Google Search
Engine, Google mail… Khách hàng của các dịch vụ này không biết được dữ liệu của
mình được quản lí và khai thác như thế nào và nó nằm ở đâu trên thế giới này. Vấn đề
an ninh ở đây liên quan đến bảo mật dữ liệu, rò rỉ thông tin nhạy cảm và nguy cơ bị
tấn công từ chối truy cập… Trách nhiệm về an toàn được chia sẻ cho nhà cung cấp hạ

tầng đám mây và nhà cung cấp dịch vụ phần mềm. Người dùng đầu cuối (end user)
chỉ là người dùng phần mềm với các lựa chọn cấu hình khác nhau được cung cấp bởi
phần mềm nên không có nhiều vai trò trong an toàn hệ thống. Người dùng cuối chỉ
biết tin vào nhà cung cấp phần mềm và các cam kết của nhà cung cấp về trách nhiệm
bảo mật. Thông thường các cam kết này có thể là điều khoản trong hợp đồng thuê bao
phần mềm, như là: an toàn thông tin và chất lượng dịch vụ. Chúng thường bao gồm:
dung lượng dữ liệu, toàn vẹn dữ liệu, chính sách về phân tán, sao lưu và phục hồi dữ
liệu khi có sự cố, độ tin cậy, tính riêng tư và an toàn mạng cùng với các cam kết khác
về chất lượng dịch vụ như dung lượng đường truyền, tính sẵn dùng. Ở mức này, các
phần mềm được cung cấp trên nền web (web-based application). Các web này thường
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
được đặt ở máy chủ ảo trên đám mây, cho nên chúng phải được kiểm tra bằng cách
quét các yếu điểm web nhờ vào một ứng dụng quét nào đó.
Tường lửa có thể được dùng để ngăn chặn các tấn công vào điểm yếu đã biết của
các phần mềm nền web. Những công việc này thuộc về nhà cung cấp phần mềm hoặc
đám mây, người dùng cuối nhiều lắm là tham gia vào lựa chọn các cấu hình (option)
khác nhau mà thôi. Tình hình này có thể dẫn đến những lộn xộn trong cấu hình an
toàn chung của hệ thống do tính chất đa thuê bao, kéo theo những lỗ hổng trong an
toàn hệ thống. Vì vậy, các nhà cung cấp phải có những chính sách chung bắt buộc và
cách kiểm soát sao cho những cấu hình an toàn, bảo mật phải nhất quán, chặt chẽ và
không có lỗ hổng.
III.1.2Vấn đề quản lí an toàn hệ thống
Phần trên vừa trình bày cho thấy tính phức tạp trong “kỹ thuật” an toàn trên đám
mây từ góc độ kiến trúc và dịch vụ của điện toán đám mây. Phần này xin đề cập đến
một số khía cạnh về quản lí, vốn không thể tách rời với kỹ thuật nhằm đảm bảo cho sự
áp dụng chính sách bảo mật đúng đắn, cộng tác và có trách nhiệm giữa các bên có liên
quan trong điện toán đám mây. Nghiên cứu về quản lí an toàn trên đám mây là rất
phức tạp vì nó liên quan đến số lượng lớn người có liên quan với các yêu cầu
(requirement) khác nhau về an toàn. Việc quản lí an toàn liên quan tới việc xây dựng

các yêu cầu về an toàn, đặc tả chính sách an toàn, cơ chế kiểm soát và các cấu hình
khác nhau về an toàn tương ứng với các chính sách đặc thù. Việc quản lí này là động
vì luôn phải đáp ứng các yêu cầu mới, các phản hồi từ môi trường và từ chính quá
trình kiểm soát an toàn.
Điện toán đám mây cung cấp các dịch vụ trên cơ sở một hợp đồng trách nhiệm
(SLA – Service Level Agreement), đây là pháp lý quan trọng trong các tranh chấp, bất
đồng sau này. Hợp đồng thông thường bao gồm chất lượng dịch vụ, tính sẵn dùng, độ
tin cậy và an toàn. Và như bao cam kết hợp đồng, nó có những điều khoản về trả phí
dịch vụ xử phạt và bồi thường. Một đòi hỏi cao về an toàn thường dẫn đến một tiêu
tốn nhiều nguồn lực và vì vậy mức giá dịch vụ sẽ cao lên tương ứng.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Cần lưu ý rằng những đòi hỏi khắc khe về an toàn có thể ảnh hưởng đến hiệu
năng chung của hệ thống (cồng kềnh hơn, chậm hơn,…). Vì vậy, cần có sự cân bằng
giữa yêu cầu an toàn, chi phí và hiệu năng của hệ thống. Nhiều khía cạnh khác liên
quan đến quản lí an toàn cũng như các cơ quan quản lí an toàn đám mây.
III.2Khai phá dữ liệu lớn (Big Data Mining) trong Điện toán đám mây
Dữ liệu lớn (Big Data) là một tính năng vốn có của công nghệ điện toán đám
mây và cung cấp cơ hội chưa từng có khi sử dụng cả hai loại cơ sở dữ liệu truyền
thống và mạng xã hội và dữ liệu của mạng. Các ứng dụng dữ liệu lớn yêu cầu kiến
trúc trung tâm dữ liệu và nhiều giải pháp bao gồm các API (Application Programming
Interface – tạm dịch là Giao diện lập trình của ứng dụng) của nền tảng đám mây để
tích hợp với tìm kiếm nâng cao, các giải thuật máy học và các phân tích nâng cao như
thị giác máy tính, phân tích phim ảnh và các công cụ phân tích trực quan.
III.2.1Big Data
Theo IBM thì Big Data được mô tả như sau:
- Trong công nghệ thông tin, thuật ngữ Big Data (dữ liệu lớn) chỉ những tập
hợp dữ liệu phát triển nhanh chóng và rộng khắp dưới nhiều hình thức khác
nhau, làm cho chúng vượt quá khả năng xử lý của những hệ thống cơ sở dữ
liệu truyền thống. Mỗi ngày, chúng ta tạo ra 2,5 quintillion (1030) bytes dữ

liệu. Khối lượng dữ liệu mới được tạo ra nhiều và nhanh đến mức mà hai
năm gần đây nhất chiếm đến 90% khối lượng dữ liệu trên thế giới hiện nay.
Những dữ liệu này tới từ mọi nơi – ví dụ như từ những chiếc cảm biến để
thu thập thông tin thời tiết, những thông tin được cập nhật trên các trang
web mạng xã hội, những bức ảnh và video kỹ thuật số được đưa lên mạng,
dữ liệu giao dịch của các hoạt động mua sắm trên mạng – dưới mọi hình
thức khác nhau (có cấu trúc, phi cấu trúc, bán cấu trúc). Đó chính là dữ liệu
lớn.
- Dữ liệu lớn có ba đặc trưng cơ bản: dung lượng lớn, vận tốc lớn và tính đa
dạng.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
- Dữ liệu lớn không chỉ là thách thức dành cho tổ chức và doanh nghiệp; hơn
thế, dữ liệu lớn là cơ hội để tìm kiếm những thông tin chiến lược từ những
dạng dữ liệu mới, để bảo đảm rằng công việc kinh doanh bền vững, có hiệu
quả hơn, và cũng là cơ hội để tìm ra câu trả lời cho những vấn đề mà trước
đây chưa có lời giải đáp.
Một cách để hiểu dữ liệu lớn rõ hơn đơn giản là tiếp cận gần hơn những trang
web điện toán đám mây, những trang web này có đủ dữ liệu (thông thường là
petabytes) cùng với các công cụ truy vấn (thường là terabytes) cho các ứng dụng sử
dụng. Hầu hết chúng ta truy vấn Google hàng ngày, nhưng Google cũng cung cấp
BigQuery, BigQuery sử dụng việc lưu trữ và tìm kiếm theo dạng cột phức tạp hơn (đã
được thảo luận kỹ hơn thông qua một ví dụ). Những ví dụ nổi tiếng khác như là
Facebook (mạng xã hội), Wikipedia (thư viện mở), Internet Archive (nhà giám sát dữ
liệu kỹ thuật số), DigitalGlobe (hệ thống thông tin địa lý [GIS]), Microsoft® Virtual
Earth (GIS), Google Earth (GIS), và đông đảo những nhà cung cấp dịch vụ dữ liệu lớn
mới.
Các công ty có dữ liệu lớn nội tại cũng như trên các hệ thống điện toán đám mây
riêng. Nhiều hệ thống dữ liệu lớn chỉ cho phép người truy vấn đọc (với bản sao từ các
nguồn được tạo ra bởi máy tính), nhưng có thể gồm chứng thực mạnh nếu họ cho

phép cập nhật tới cơ sở dữ liệu hoặc dữ liệu không có cấu trúc
III.2.2Khai phá dữ liệu bằng phân lớp dữ liệu
III.2.2.1 Khái niệm sự phân lớp
Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính xác cao nhất để dự
đoán những nhãn phân lớp cho các bộ dữ liệu (mẫu) mới.
Đầu vào: - Một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp
cho mỗi mẫu dữ liệu.
Đầu ra: - Mô hình dự đoán (bộ phân lớp) dựa trên tập huấn luyện và
những nhãn phân lớp.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
III.2.2.2 Quá trình phân lớp
Quá trình phân lớp được tiến hành bao gồm 2 bước: Xây dựng mô hình và sử
dụng mô hình.
Bước 1: Xây dựng mô hình, mô tả một tập những bộ hoặc mẫu được gán
thuộc về các lớp được định nghĩa trước như là được xác định bởi thuộc tính nhãn
lớp, tập hợp của những bộ được sử dụng trong việc sử dụng mô hình được gọi là
tập huấn luyện. Mô hìnhđược biểu diễn là những luật phân lớp, cây quyết định
và những công thức toán học.
Bước 2: Sử dụng mô hình, việc sử dụng mô hình phục vụ cho mục đích
phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết
đến. Trước khi sử dụng mô hình, người ta thường phải đánh giá tính chính xác
của mô hình.
III.2.2.3 Các kỹ thuật phân lớp
Có rất nhiều kỹ thuật phân lớp, mỗi kỹ thuật có những đặc điểm phù hợp với một
lớp các bài toán, với các dạng dữ liệu và miền dữ liệu nhất định. Các kỹ thuật phân
lớp phổ biến là: Phương pháp quy nạp cây quyết định, phướng pháp dựa trên luật,
phương pháp Naive Bayess, phương pháp dựa trên thể hiện, mạng nơron, SVM
(support vector machine), tập thô.
III.2.2.4 Phân lớp bằng phương pháp quy nạp cây quyết định

a) Khái niệm cây quyết định
Cây quyết định là một cấu trúc phân cấp của các nút và các nhánh, nút bên trong
được gán nhãn bằng các thuộc tính. Các nhánh bắt nguồn từ một nút có nhãn là thuộc
tính A sẽ được gán nhãn bằng mỗi giá trị có thể có của thuộc tính A. Các nút lá của
cây biểu diễn nhãn lớp hoặc sự phân bố của lớp.
b) Tạo cây quyết định
Việc tạo cây quyết định gồm 2 giai đoạn: Tạo cây và tỉa cây.
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
- Tạo cây, ở thời điểm bắt đầu tất cả những mẫu huấn luyện đều ở gốc, sau đó
phân chia mẫu dựa trên các thuộc tính được chọn, với việc kiểm tra các thuộc
tính được chọn dựa trên một độ đo thống kê hoặc heuristic.
- Tỉa cây, là xác định và xóa những nhánh mà có phần tử hỗn loạn hoặc những
phần tử nằm ngoài các lớp.
c) Sử dụng cây quyết định
Để sử dụng cây quyết định, chúng ta duyệt cây bắt đầu từ nút gốc của cây để
sinh ra các luật. Căn cứ vào các luật này, chúng ta dự đoán cho các mẫu dữ liệu chưa
biết.
d) Giải thuật qui nạp cây quyết định C4.5
Để xây dựng cây quyết định, ta dùng giải thuật C4.5
Đầu vào: - Một tập hợp các mẫu huấn luyện.
Đầu ra: - Cây quyết định.
Thuật toán:
Function induce_tree (tập_mẫu_huấn_luyện, tập_thuộc_tính)
begin
if mọi mẫu trong tập_mẫu_huấn_luyện đều nằm trong cùng
một lớp then
return một nút lá được gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá được gán nhãn bởi tuyển của tất cả

các lớp trong tập_mẫu_huấn_luyện
else
begin
chọn một thuộc tính P, lấy nó làm gốc cho cây hiện
tại; //(thuộc tính P có độ đo GainRatio lớn nhất)
xóa P ra khỏi tập_thuộc_tính;
với mỗi giá trị V của P
begin
Tạo một nhánh của cây gán nhãn V;
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Đặt vào phân_vùng V các mẫu trong
tập_mẫu_huấn_luyện có giá trị V tại thuộc
tính P;
Gọi induce_tree(phân_vùngV, tập_thuộc_tính)
//gắn kết quả vào nhánh V
end
end
end
- Việc chọn thuộc tính nào để phân chia các mẫu
Thuộc tính được chọn là thuộc tính cho độ đo tốt nhất, có lợi nhất cho quá trình
phân lớp. Các tiêu chuẩn để xác định độ đo là Gini Index (Breiman và các đồng sự,
1984), Information Gain (Quinlan, 1993), X2 – bảng thống kê các sự kiện xảy ra ngẫu
nhiên (ccontingency table statistic)
- Điều kiện để dừng việc phân chia
1. Tất cả những mẫu huấn luyện thuộc về cùng một lớp.
2. Không còn thuộc tính còn lại nào để phân chia tiếp.
3. Không còn mẫu nào còn lại.
- Độ lợi thông tin (Information Gain) trong cây quyết định
Information Gain (Gain): là đại lượng được sử dụng để lựa chọn thuộc tính có độ

lợi thông tin lớn nhất để phân lớp dữ liệu. Độ đo Information Gain được tính dựa vào
2 độ đo info (I) và entropy (E). Giả sử cho P, N là hai lớp và S là tập dữ liệu chứa p
phần tử của lớp P và n phần tử của lớp N. Khi đó:
Info (I) là độ đo thông tin kỳ vọng để phân lớp mẫu dữ liệu
Entropy (E) là độ đo thuần nhất của từng thuộc tính
Độ lợi thông tin phân nhánh trên thuộc tính A là:
Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
SplitInfo là độ đo thông tin trung bình của từng thuộc tính
Độ đo GainRation dùng để lựa chọn thuộc tính phân lớp.
- Vấn đề quá khớp trong phân lớp
Cây được tạo ra có thể quá khớp với dữ liệu huấn luyện. Giải quyết vấn đề này
có hai cách tiếp cận: tỉa trước và tỉa sau.
- Vấn đề phân lớp cây quyết định trong cơ sở dữ liệu lớn
Cây quyết định được đánh giá cao trong khai phá dữ liệu lớn vì chính xác trong
phân lớp, có thể sử dụng truy vấn SQL để truy xuất cơ sở dữ liệu, không có giới hạn
cho khối lượng dữ liệu đầu vào cũng như số lượng thuộc tính…
III.2.3Khai phá dữ liệu lớn bằng phương pháp K-mean
Thuật toán phân hoạch K-means do MacQuean đề xuất trong lĩnh vực thống kê
năm 1967. Đây là thuật toán truyền thống được sử dụng phổ biến. Ý tưởng của
phương pháp này là từ tập ban đầu ta tìm một phép phân hoạch nó vào trong k tập
con, trong đó k là số nguyên dương chọn trước cố định. Trong mỗi nhóm có một phần
tử đặc biệt đại diện cho nhóm, gọi là trọng tậm của nhóm. Một phần tử được xem xét
có thuộc vào một nhóm nào đó hay không tùy thuộc vào khoảng cách từ nó đến phần
tử trọng tâm. Phương pháp K-mean rất thích hợp khai phá dữ liệu lớn.
Định nghĩa:
Phần tử trọng tâm của một nhóm là phần tử có giá trị các tham số là trung bình
cộng các giá trị tham số của tất cả các phần tử trong nhóm. Phần tử trọng tâm này có
thể xem là phần tử đại diện cho nhóm.
Điểm trọng tâm r của nhóm C có thể tính như sau:

Phạm Thế Sơn – CH1301033
Điện Toán Lưới Và Đám Mây
Ta có thể đánh giá một gom cụm thông qua một hàm chi phí, có thể xem đây là
một độ đo cho phép đánh giá một gom cụm là tốt hay xấu. Có hai phương pháp định
nghĩa hàm chi phí này:
Phương pháp 1: Trước tiên tính tổng bình phương các khoảng cách từ mỗi
điểm trong nhóm đến điểm trọng tâm của nó:
Trong đó r
i
là điểm trọng tâm của nhóm Ci. Hàm chi phí mC của một gom cụm
sẽ được tính như là tổng của các mC
i
:
Phương pháp 2: Hàm chi phí được tính thông qua khoảng cách giữa các
điểm trọng tâm các nhóm với nhau theo công thức:
Trong phương pháp K-mean thay vì tính khoảng cách giữa các cặp phần tử trong
cùng nhóm với nhau, ta tính khoảng cách từ mỗi phần tử đến phần tử trọng tâm
của nhóm. Trong thuật toán các phần tử trọng tâm ban đầu của k nhóm được
chọn ngẫu nhiên từ các điểm trong tập cần phân hoạch. Trong mỗi lần lặp, mỗi
phần tử được phân vào nhóm có trọng tâm gần nó nhất, sau đó trọng tâm của
nhóm được tính lại.
Thuật toán K-Mean:
Input: - D là tập dữ liệu cần phân hoạch
- Số lượng cụm k, với k là số nguyên
Output: Danh sách k nhóm: C
1
, C
2
, . . ., C
k


Thuật toán như sau:
Begin
For i = 1 to k
{
Chọn ngẫu nhiên r
i
D làm trọng tâm của C
i

}
While có thay đổi trong các nhóm C
i

{
Phạm Thế Sơn – CH1301033

×