Tải bản đầy đủ (.docx) (25 trang)

Tiểu luận môn Điện toán lưới và đám mây CÔNG NGHỆ KHAI MỎ DỮ LIỆU TRONG ĐIỆN TOÁN ĐÁM MÂY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (409.1 KB, 25 trang )

Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
o0o
ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY
ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY
CÔNG NGHỆ KHAI MỎ DỮ LIỆU
CÔNG NGHỆ KHAI MỎ DỮ LIỆU


TRONG ĐIỆN TOÁN ĐÁM MÂY
TRONG ĐIỆN TOÁN ĐÁM MÂY
GVHD : PGS. TS. NGUYỄN PHI KHỨ
HVTH : NGUYỄN THỊ MAI
MÃ HV : CH1301038
LỚP : CH KHÓA 8
SVTH: Nguyễn Thị Mai 1
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
MỤC LỤC
LỜI CẢM ƠN
Em xin chân thành cảm ơn thầy PGS.TS Nguyễn Phi Khứ đã cung cấp cho
em những kiến thức quan trọng, nền tảng của môn Điện toán Lưới và Đám
mây, giúp em có them những kiến thức và hướng nghiên cứu trong lĩnh vực
này.
Trong bài này, em xin trình bày những kiến thức cơ bản về Điện toán Đám
mây, Khai mỏ dữ liệu và những công nghệ khai thác dữ liệu lớn, được biết
đến với tên gọi Khai mỏ dữ liệu đám mây (Cloud Data Mining - CDM).
Do thời gian có hạn nên bài viết chưa thực sự hoàn chỉnh, còn nhiều hạn
chế và hiểu biết chưa sâu rộng, mong thầy thông cảm.
Tp. Hồ Chí Minh, ngày 08 tháng 06 năm 2014
Học viên thực hiện


Nguyễn Thị Mai
SVTH: Nguyễn Thị Mai 2
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
I. GIỚI THIỆU
Điện toán đám mây cung cấp một cơ sở hạ tầng linh hoạt, mạnh mẽ và có
thể mở rộng giúp người dùng có thể tích hợp các kỹ thuật, phương pháp của
khai mỏ dữ liệu. Kết quả của sự tích hợp đó là một nền tảng dung tính, vững
chắc. Nó có thể giải quyết sự xuất hiện gia tăng của dữ liệu hoặc sẽ tạo ra
những điều kiện cho việc khai thác hiệu quả lượng lớn dữ liệu từ các kho dữ
liệu đa dạng. Mục tiêu là tạo ra thông tin (hữu ích) hoặc sản phẩm của tri thức
mới.
Như một hệ quả của các hoạt động kinh doanh và đặc biệt trong những
ngăm gần dây, tầm quan trọng của việc sử dụng các dịch vụ on-line ngày càng
nâng cao và phát triển, một lượng dữ liệu khổng lồ đã và đang được tạo ra.
Tất cả dữ liệu tích lũy này là khả năng tiềm ẩn trong thông tin (hữu ích), ví dụ
như: sở thích mua sắm, tình huống tài chính, lợi nhuận, quan điểm chính trị,
… của người sử dụng hoặc khách hàng đều có thể cải thiện đáng kể trong việc
ra quyết định. Nhưng làm cách nào để có được những thông tin hữu ích, tiềm
năng đang ẩn dấu trong cả “núi dữ liệu” khi việc xử lý và lưu trữ lượng lớn dữ
liệu đang nhân lên mỗi ngà và thực tế cho thấy những hạn chế nhất định của
kỹ thuật, công cụ thông tin liên lạc truyền thống? Câu trả lời tất yếu là ứng
dụng những công nghệ hiện đại. Cơ sở hạ tầng đám mây có thể được sử dụng
hiệu quả cho các hoạt động đòi hỏi khắt khe và chuyên sâu với dữ liệu điển
hình cho quá trình khai mỏ dữ liệu. Thật cần thiết để có kho dữ liệu quy mô
lớn và tài nguyên máy tính có thể mở rộng, lưu trữ hiệu quả và phân tích sâu
lượng lớn dữ liệu. Điện toán đám mây đưa ra rằng: việc chi ra một khoản đầu
tư khổng lồ là cần thiết nếu một người hoặc một công ty muốn xây xựng một
hệ thống khai thác dữ liệu trong phạm vi một công ty hoặc một tổ chức hệ
thống thông tin.
II. TỔNG QUAN

1. Khai mỏ dữ liệu
Trong nhiều năm, những tổ chức và công ty tích lũy lượng lớn dữ liệu và
khối lượng này tăng đa tạp. Một câu hỏi đặt ra là có phải một số thông tin hữu
ích cho đến nay vẫn chưa được khai phá, đang ẩn trong dữ liệu? Câu trả lời là
có thể cung cấp ứng dụng xử lý khai mỏ dữ liệu.
SVTH: Nguyễn Thị Mai 3
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Về cơ bản, khai mỏ dữ liệu là quá trình khám phá hoặc tìm kiếm những
hình thức dữ liệu mới, hữu ích, có giá trị, tiềm năng và có thể hiểu được.
Những hình thức dữ liệu đề cập đến quy tắc khai phá giữa các biến dữ liệu.
Các quy tắc được phát hiện áp dụng cho tất cả dữ liệu, sau đó là mô hình khai
phá. Tuy nhiên các quy tắc có thể tương quan với sự mở rộng của dữ liệu là
một mô hình hoặc mẫu.
Khai mỏ dữ liệu là tạo ra lượng dữ liệu lớn vượt trội để đưa ra những
thông tin mới sẽ là nền tảng cho việc đưa ra những quyết định kinh doanh tốt
hơn. Khai mỏ dữ liệu là lĩnh vực đa ngành mức cao, có nguồn gốc từ thống
kê, toán học, lý thuyết thông tin, trí tuệ nhân tạo, lý thuyết máy học, cơ sở dữ
liệu và trong hầu hết các chuỗi liên quan đến các lĩnh vực khác. Có thể xác
định những loại thông tin sau đây: lớp, cụm (hạng), các sự kiện xã hội truyền
thống (ví dụ: khách hàng mua một sản phẩm A, 70% trường hợp họ mua phải
sản phẩm A1), là các sự kiện tuần tự được thiết lập với một xác suất nhất định
theo sau một sự kiện khác và những dự báo dự đoán tương lai từ những dữ
liệu sẵn có. Khai mỏ dữ liệu là một hoạt động đầy thử thách và phức tạp, mà
quá trình cài đặt yêu cầu chuyên gia từ các lĩnh vực khác nhau. Nhân sự của
một dự án Khai mỏ dữ liệu bao gồm:
- Các nhà khoa học máy tính với vai trò chuẩn bị dữ liệu.
- Các nhà phân tích với vai trò lựa chọn phương pháp và trình bày
phương pháp luận kết quả khai thác dữ liệu
- Các chuyên gia chịu trách nhiệm về các vấn đề, định nghĩa một vấn đề
nghiệp vụ, chọn lọc dữ liệu liên quan và đề ra các hoạt động dựa trên

nền tảng kết quả thu được.
Định nghĩa vấn đề
Định nghĩa dữ liệu yêu cầu
Chuyển đổi và dữ liệu mẫu
Định lượng dữ liệu
Lựa chọn kỹ thuật khai thác
Xây dựng và định lượng mô hình
SVTH: Nguyễn Thị Mai 4
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Định lượng dữ liệu
Biên dịch và sử dụng kết quả
Bước 1: Định nghĩa vấn đề nghiệp vụ
Bước 2: Chuẩn bị dữ liệu
Bước 3: Mô hình hóa
Bước 4: Cài đặt
Hình 1: Các bước của quá trình khai thác dữ liệu.
Trong những đội dự án, người ta khuyến nghị rằng, nên có thêm một người
là quản lý dự án, đóng vai trò sắp xếp, lãnh đạo dự án Khai thác dữ liệu có tổ
chức. Không có thủ tục truyền lệnh cho Khai thác dữ liệu mà sẽ luôn chắc
chắn có kết quả trong việc tìm kiếm các dữ liệu có giá trị. Tuy nhiên, có thể
với phương pháp lập kế hoạch theo những bước tiêu chuẩn (phrase) của tiến
trình khai thác dữ liệu, sự gia tăng đáng kể xác suất thành công.
Xây dựng một mô hình là bước đặc biệt quan trọng trong quá trình khai
mỏ dữ liệu. Đó là một quá trình phức tạp liên quan đến nhiều hoạt động:
- Lựa chọn kỹ thuật khai thác dữ liệu
- Xác định trường hợp, chọn lựa các đơn vị dữ liệu cần xem xét
- Xác định dữ liệu cho các nhà phân tích
- Tùy chọn tạo ra các chiều và khối ảo từ mô hình kết quả
- Xử lý quá trình tạo mô hình và thu thập kết quả.
Khi tạo ra mô hình Khai thác dữ liệu, vấn đề lớn nhất là làm thế nào để

ứng dụng các kỹ thuật khác nhau (và các thuật toán khác nhau) vào các tập
hợp dữ liệu khác nhauvới mục tiêu tìm ra mô hình quan trọng và hữu ích. Một
lượng khổng lồ thông tin phức tạp và rời rạc không cho phép ứng dụng cùng
một thuật toán hoặc cùng một kỹ thuật khai thác. Vì thế, vai trò của người
phân tích – một chuyên gia trong lĩnh vực Khai mỏ dữ liệu là đặc biệt quan
trọng bởi năng lực của họ, quyết định dựa trên chọn lựa công cụ, kỹ thuật và
phương pháp sẽ được sử dụng trong những trường hợp đặc biệt.
SVTH: Nguyễn Thị Mai 5
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Trong một dự án Khai thác dữ liệu, có thể chọn cách sử dụng nhiều
phương pháp có thủ tục cũng như việc chọn cách sử dụng một phương pháp.
Nếu quyết định chọn một hay nhiều phương pháp là không thích hợp, các
tham số của việc chọn phương pháp có thể được thay đổi hoặc lựa chọn
phương pháp mới được tạo ra. Một số phương pháp và kỹ thuật của Khai thác
dữ liệu là: phân lớp, liên kết, phân tích tuần tự, gom cụm, dự đoán, mạng
neural, logic mờ, cây quyết định, phân tích thị trường và bộ nhớ dựa trên lý
luận.
Trong bối cảnh hiện nay, ứng dụng của kho dữ liệu là rất quan trọng. Đặc
biệt, vì mục đích của nhiều công ty hiện đại điều hành thị trường toàn cầu có
hệ thống thông tin, nó đòi hỏi hình thức tổ chức (quản lý) dữ liệu dựa trên
khái niệm kho dữ liệu. Kho dữ liệu hợp nhất hoặc tích hợp dữ liệu từ nhiều
nguồn khác nhau, dữ liệu lịch sử trong quá trình quản lý của công ty và dữ
liệu từ môi trường. Kho dữ liệu, theo yêu cầu kỹ thuật và nội dung có sự khác
biệt đáng kể với giao dịch chuẩn dựa trên hệ thống và thiết kế để có thể tìm
kiếm dữ liệu dễ dàng hơn là quá trình phân tích và báo cáo. Kho dữ liệu là
một khái niệm quan trọng của hệ hỗ trợ ra quyết định hiệu quả, phát triển mở
trộng trong vài năm trở lại đây. Nó cung cấp các ý tượng kích hoạt tìm kiếm
và đề cập đến các thông tin cần thiết trong quá trình ra quyết định. Nó sử
dụng thủ tục quá quá trình phân tích, khai mỏ dữ liệu và khai phá tri thức từ
dữ liệu. Đề cập đến khái niệm và phương pháp dựa trên công nghệ thông tin

nhằm mục đich đạt được sự quản lý thông minh của công ty trong điều kiện
thị trường phức tạp ngày nay.
Như đã đề cập, dữ liệu đưa vào Kho từ nhiều nguồn đa dạng, bao gồm hệ
thống giao dịch của các công ty. Công việc quan trọng nhất và toàn diện nhất
trong quá trình lưu trữ dữ liệu là tích hợp dữ liệu và tổ chức nội dung dữ liệu.
Những hoạt động này là một phần của quá trình dẫn xuất, chuyển đổi và tải
dữ liệu ETL (Extract, Transform, Load) với nhiệm vụ thu thập dữ liệu từ các
nguồn hỗn tạp, chuyển đổi nó trong định dạng thích hợp và đưa vào kho với
dữ liệu được tinh lọc và chuẩn bị. Mặc dù Khai mỏ dữ liệu có thể được quản
lý không cần kho dữ liệu, nhưng rõ ràng, sự thiết lập và ứng dụng của Kho dữ
liệu làm gia tăng đáng kể các cơ hội hành công.
Data
SVTH: Nguyễn Thị Mai 6
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Warehouse
Source 3
Source 4
Source 1
Source 2
ELT process
DM
Reports
Hình2: Mô phỏng đơn giản của Kho dữ liệu
như nguồn dữ liệu cho tiến trình Khai thác dữ liệu
2. Điện toán đám mây
Trong nhiều năm gần đây, một trong những chủ đề thú vị và quan trọng
nhất của thế giới công nghệ thông tin và truyền thông (ICT) là Điện toán Đám
mây. Trong phần này sẽ trình bày những thông tin cơ bản và đặc điểm của
công nghệ Điện toán đám mây và mô hình nghiệp vụ.
2.1 Định nghĩa

Viện tiêu chuẩn và công nghệ quốc gia NIST (National Institute of
Standards and Technology) định nghĩa Điện toán Đám mây như là một mô
hình cung cấp mạng phổ biến, đơn giản, theo yêu cầu truy cập của người dùng
đến một tập chia sẻ các tài nguyên (ví dụ: tài nguyên mạng, máy chủ, lưu trữ
dữ liệu, ứng dụng và dịch vụ) có thể đọc được và có giá trị sử dụng, hoặc nếu
cần thiết, nhà cung cấp có thể can thiệp và ngừng lại tất cả các dịch vụ đó.
Influential Gartner và Forrester cung cấp định nghĩa sau: “Điện toán đám
mây là lĩnh vực điện toán mà các thiết bị công nghệ thông tin có khả năng
cung cấp các hình thức linh hoạt của dịch vụ được cấp phát thông qua Internet
đến đông đảo khách hàng bên ngoài.”
SVTH: Nguyễn Thị Mai 7
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Một số đông chuyên gia tin rằng: đó là mô hình nghiệp vụ mới và là nền
tảng công nghệ cho sự điều tiết, khởi đầu và sử dụng các dịch vụ cũng như
các sản phẩm công nghệ thông tin đa dạng. Từ quan điểm của người dùng,
điện toán đám mây có thể được định nghĩa như một cách thức mới, an toàn
hơn trong sử dụng các giải pháp phần mềm được thuê theo nhu cầu. Mặt
khác, từ khía cạnh nhà cung cấp dịch vụ, Điện toán đám mây có thể được
định nghĩa như một cách thức mới, công nghệ mới và kênh phân phối khác
nhau của sản phẩm công nghệ thông tin và của dịch vụ công nghệ thông tin
dự phòng.
Mặc dù có khá nhiều các định nghĩa tập trung vào những khía cạnh khác
nhau nhưng các định nghĩa này vẫn được coi là gây tranh cãi. Điện toán đám
mây đang trở thành một hiện tượng nổi trội trong thế giới công nghệ thông tin
và truyền thông.
Thực tế, những công ty lớn nhất (và giàu nhất) như Microsoft, Google,
Oracle và Cisco đang đứng bên cạnh khái niệm này để thể hiện một cái nhìn
rõ ràng về định hướng Cloud Computing. Trong khi đó, thế giới công nghệ
thông tin di chuyển không ngừng và đặt ra nhiều thách thức trong quản lý dữ
liệu bằng Điện toán đám mây. Khái niệm điện toán đám mây, theo NIST, có 5

tính chất sau:
• Tự phục vụ theo yêu cầu,
• Truy cập mạng rộng rãi,
• Hợp nhất nguồn,
• Tính đàn hồi nhanh chóng,
• Dịch vụ được đo lường.
2.2 Mô hình cấp phát dịch vụ Điện toán đám mây
Việc cung cấp dịch vụ Điện toán đám mây được phân chia thành ba mô
hình kiến trúc và sự kết hợp dẫn xuất khác nhau của các mô hình cơ bản.
Dưới đây là ba phân lớp cơ bản được biết đến như mô hình SPI (Software,
Platform, Infrastructure).
SVTH: Nguyễn Thị Mai 8
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hình 3: Mô hình SPI
Mô hình cơ bản cung cấp dịch vụ Điện toán đám mây là :
• SaaS (software as a service) – là một nền (platform) công nghệ cho
phép truy cập các ứng dụng thông qua Internet với dạng dịch vụ được thuê
theo nhu cầu thay vì mua chương trình phần mềm tách biệt và phải cài đặt
trên máy tính người dùng (văn phòng và/hoặc tại nhà).
• PaaS (Platform as a Service) – là một mô hình sai khác của cấu trúc
SaaS, như một sự phát triển môi trường cấp phát dịch vụ. Cho phép người
dùng xây dựng ứng dụng của riêng mình chạy trên cơ sở hạ tầng của nhà cung
cấp. Các ứng dụng được cấp phát cho người sử dụng thông qua giao diện máy
chủ có thể truy cập từ Internet.
• IaaS (Infrastructure as a Service) – cung cấp khả năng sử dụng cơ sở
hạ tầng máy tính (chủ yếu là nền ảo - virtual platforms). Người dùng không
phải mua máy chủ, phần mềm, thiết bị lưu trữ dữ liệu hoặc thiết bị mạng,
nhưng họ phải mua các tài nguyên như một dịch vụ bên ngoài.
SVTH: Nguyễn Thị Mai 9
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ

2.3 Mô hình cài đặt
Không kể đến loại mô hình cấp phát dịch vụ (SaaS, PaaS, hoặc IaaS), có
bốn mô hình cơ bản của dịch vụ điện toán đám mây, bao gồm:
• Public Cloud – platform có sẵn và mở đối với mọi người, không kể là
cá nhân hay tổ chức nào.
• Private Cloud – cơ sở hạ tầng Điện toán đám mây có thể truy cập chỉ
với một tổ chức. Nó được quản lý bởi chính tổ chức đó hoặc một số người
khác đang làm việc cho tổ chức đó (out-sourcing)
• Community Cloud – mô hình cài đặt cung cấp khả năng cho nhiều tổ
chức có thể chia sẻ cùng cấu trúc Điện toán đám mây. Cơ sở hạ tầng hỗ trợ
những tổ chức, cộng đồng có cùng sở thích, nhu cầu và yêu cầu bảo mật.
• Hybrid Cloud – là mô hình bao gồm hai hoặc nhiều phần của những
mô hình trước, là loại mô hình được thiết lập cấu trúc Điện toán đám mây để
duy trì tính hợp nhất và độc lập giữa các thực thể, nhưng với một loại liên kết
đối ứng, để mà đạt được tính lưu động của dữ liệu giữa chúng.
2.4 Thuận lợi và khó khăn của Điện toán đám mây
Giống như bất kỳ công nghệ khác, Điện toán đám mây có nhiều thuận lợi
và một số bất lợi đáng kể. Bảng bên dưới cho ta cái nhìn tổng quan sau:
Thuận lợi Khó khăn
− Có khả năng giảm đáng kể chi phí − Các vấn đề thông tin có sẵn (hoặc
không có sẵn)
− Giảm nhu cầu hỗ trợ, bảo trì phần
mềm
− Vấn đề an toàn
− Giảm bộ phân CNTT trong công
ty
− Vấn đề quản lý
− Có thể mở rộng − Nhà cung cấp có thể ngừng dịch
vụ đột ngột
− Tập trung vào ngành kinh doanh

chính
− Dữ liệu có sẵn và độc lập
− Tiết kiệm năng lượng, đóng góp
SVTH: Nguyễn Thị Mai 10
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
vào bảo vệ môi trường
Bảng 1: Thuận lợi và khó khăn của Điện toán đám mây
III. CLOUD DATA MINING (CDM)
1. Giới thiệu Cloud Data Mining
CDM (Khai mỏ dữ liệu đám mây) đề cập khả năng to lớn trong phân tích
và trích xuất thông tin (hữu ích) trong các lĩnh vực đa dạng các hoạt động của
con người: tài chính, ngân hàng, y tế, di truyền, sinh học, dược phẩm, chứng
khoán,… Ứng dụng của nhưng công nghệ này có thể chỉ với vài cú click
chuột, người ta có thể tiếp cận được những thông tin mong muốn về khách
hàng, thói quen, sở thích, sức mua, tần số mua một số mặt hàng, địa điểm,…
Đám mây cho phép mọi người sử dụng tiềm năng cung cấp trong các hình
thức dịch vụ mà trước đây chỉ dành riêng cho những công ty lớn (và giàu).
Những công ty quy mô nhỏ và trung bình không có đủ tiền để đầu tư cho một
hệ thống quá xa xỉ, hiện tại đã có cơ hội để thuê một dịch vụ Đám mây để
phân tích hiệu quả tất cả dữ liệu trong tổ chức cũng như các dữ liệu bên ngoài
có lợi cho tổ chức. Đám mây cung cấp công nghệ có thể quản lý lượng khổng
lồ dữ liệu mà không thể được xử lý hiệu quả bởi các kỹ thuật và công nghệ
tiêu chuẩn có chi phí hợp lý hơn. Phân tích dữ liệu hướng mạng xã hội, nhận
dạng mẫu, xử lý hình ảnh kích thước lớn, đồng bộ, mô tả, khai thác dữ liệu
chỉ là một số ví dụ công việc ý tưởng cài đặt trong Cloud.
Khái niệm khai mỏ dữ liệu Đám mây xuất phát từ quan điểm kỹ thuật, một
quá trình rất khô khan, yêu cầu một cơ sở hạ tầng đặc biệt dựa trên ứng dụng
của công nghệ lưu trữ, điều khiển và xử lý. Dữ liệu lớn/Hadoop là sự quảng
cáo cường điệu mới nhất trong lĩnh vực xử lý dữ liệu. Dựa trên thuật toán và
công nghệ được phát triển bởi các công ty Internet lớn, có một eco-system với

tốc độ lan truyền khá rộng rãi các giải pháp cho quá trình xử lý và phân tích
lượng lớn dữ liệu.
2. Big Data và cơ sở lưu trữ NoSQL
SVTH: Nguyễn Thị Mai 11
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Sự sản sinh dữ liệu khổng lồ trong vài năm gần đây như một kết quả tất
yếu của các hoạt động kinh doanh, các hoạt động trong mạng xã hội,… bao
hàm nhu cầu cho việc lưu trữ và phân tích hiệu quả dữ liệu này. Big Data là
một thuật ngữ mới cho tập hợp dữ liệu lớn và phức tạp mà không thể được xử
lý và duy trì bằng cách sử dụng công cụ truyền thống cho việc quản lý cơ sở
dữ liệu. Big Data liên quan đến việc sử dụng của cơ sở dữ liệu gọi là NoSQL
được cung cấp ý tưởng cho việc lưu trữ lượng lớn dữ liệu trong hệ thống phân
tán. Các cơ sở dữ liệu liên quan dựa trên các quy tắc nghiêm ngặt, có nghĩa là
kiên định, tin cậy và khả năng rủi ro được đảm bảo. Tuy nhiên, với Cloud, nơi
cần thiết để cung cấp cho các cơ sở dữ liệu quan hệ một cách nhanh chóng,
linh hoạt và dễ dàng mở rộng đang phải đối mặt với các vấn đề. Dĩ nhiên,
điều này không có nghĩa mô hình quan hệ (relational model) kém hơn mô
hình không quan hệ (non-relational model), nhưng tính phức tạp mang lại cho
mô hình quan hệ không thể cung cấp yêu cầu hiệu quả và tốc độ trong quá
trình xử lý lượng lớn dữ liệu và thiếu tính linh hoạt của hệ quản trị cơ sở dữ
liệu quan hệ (RDBMS) là nguyên nhân chính của cơ chế mới hoặc cách quản
lý dữ liệu – cơ sở dữ liệu NoSQL (Not Only SQL). Các công ty Internet lớn
như Google, Twitter, Facebook, Amazon, làm việc với lượng lớn dữ liệu,
được tạo ra từ công nghệ cho việc lưu trữ và xử lý trong đám mây để duy trì
hệ thống phân tán và tính linh hoạt của cơ sở dữ liệu. Cơ sở dữ liệu không
quan hệ (non-relational) không hỗ trợ đầy đủ các thuộc tính ACID (Atomicity,
Consistency, Isolation, Durability). Thực tế, chúng thể hiện kho dữ liệu thuần
túy với cơ chế đơn giản của giao dịch điều khiển dữ liệu. Khái niệm NoSQL
dựa trên những căn cứ sau:
1. Tính linh hoạt – khả năng tự động phản hồi (đưa ra yêu cầu cơ bản về

tài nguyên) theo sự gia tăng của ứng dụng.
2. Tính hồi đáp – dữ liệu trong trường hợp cơ sở dữ liệu phân tán được lưu
trữ trong nhiều nút.
3. Dữ liệu phân hoạch – có nghĩa là dữ liệu chia sẻ trong một cách với
những phần khác nhau trong những nút khác nhau. Mục tiêu của dữ liệu phân
chia là cải thiện hiệu suất khi đọc và ghi dữ liệu.
SVTH: Nguyễn Thị Mai 12
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Tính bất định của NoSQL dựa trên dữ liệu bù bằng cách cung cấp tính
linh hoạt lớn hơn và khả năng mở rộng chắc chắn, mà trong môi trường Cloud
thể hiện yêu cầu cơ bản. Các điều ước thỏa hiệp của thuộc tính ACID là cần
thiết trong môi trường CC vì chúng có thể vượt qua những giới hạn chắc chắn
của cơ sở dữ liệu quan hệ và cung cấp đánh giá tốt hơn trong lĩnh vực sau của
ứng dụng:
• Lưu trữ và xử lý lượng lớn dữ liệu.
• Lưu trữ và xử lý dữ liệu không có cấu trúc và dữ liệu bán cấu trúc, các
hoạt động đọc độ trễ thấp và tính mở rộng tự động.
Có nhiều yếu tố chính có thể ảnh hưởng đến sự xuất hiện và phát triển của
cơ sở dữ liệu NoSQL, bao gồm:
• Tốc độ gia tăng không ngừng của việc sản sinh dữ liệu.
• Yêu cầu phát triển cho quá trình xử lý dữ liệu không cấu trúc và bán
cấu trúc.
• Tránh xa các ánh xạ quan hệ đối tượng phức tạp và tốn kém.
• Yêu cầu điện toán đám mây.
• Hiệu quả công việc, hiệu quá lưu trữ dữ liệu lớn và quá trình xử lý.
• Tính mở rộng.
• Tính thỏa hiệp không thể thiếu trong quan hệ với các thuộc tính ACID.
Trong những năm gần đây, các giải pháp NoSQL đang phát triển rất nhanh
chóng, vì thế ngày nay chúng ta có một con số ấn tượng về chúng. Mặc dù
không có định nghĩa riêng lẻ có thể xác định cụ thể cái gì bao hàm trong thuật

ngữ NoSQL.Trong thực tế, cơ sở dữ liệu NoSQL có những lớp sau: Key-
Value (Khóa-giá trị), Document oriented (hướng tài liệu), đồ thị, Column
oriented
3. Apache Hadoop
SVTH: Nguyễn Thị Mai 13
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hình 4. Hadoop cluster
Apache Hadoop, một dự án mã nguồn mở, được xem như một framework
cho sự phát triển của các ứng dụng mở rộng và phân tán mà công việc với
lượng rất lớn dữ liệu (đo bằng petabyte). Nó dựa trên thuật toán MapReduce
của Google và một hệ quản trị dữ liệu đặc biệt HDFS (Hadoop Distributed
File System), có thể phân chiia thành hệ thống tập tin của Google. Hadoop
được phát triển bằng Java, vì vậy nó là một sản phẩm cross-platform. Nó hoạt
động theo cách mà các công việc cần thiết hoàn thành, được định vị cho mỗi
máy tính cụm và sau đó quản lý những máy tính đó để thực hiện công việc
nhanh chóng và tin cậy nhất có thể. Hadoop framework hỗ trợ khả năng biểu
diễn lượng lớn các tính toán và quá trình làm rõ dữ liệu không cấu trúc.
Hadoop, giữa những cái khác sử dụng Google, Facebook, IBM, Yahoo,
Twitter, Amazon, Adobe và gần dây là Microsoft như là một phần của Azure
Cloud platform. Với việc cài đặt kho dữ liệu cũng như phân tích sâu, khai mỏ
dữ liệu, các module bổ sung Hive và Pig được sử dụng
4. Apache Hive
SVTH: Nguyễn Thị Mai 14
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hive là một cơ sở hạ tầng kho dữ liệu xây dựng trên đỉnh Hadoop
framework và cho phép phân tích dữ liệu và thực hiện truy vấn theo cách
tương tự truy vấn SQL trong RDBMS (HiveQL). Hive được phát triển khởi
đầu đặc biệt dành cho Facebook, nhưng ngày nay, nó được sử dụng và phát
triển bởi những thương hiệu khác như Netflix và Amazon (như một phần của
Amazon Elastic MapReduce platform)

5. Pig
Pig là một platform được thiết kế cho cấp độ cao của Hadoop, có thể đáp
ứng để tạo ra chương trình MapReduce. Pig dễ dàng viết code MapReduce
giới thiệu một ngôn ngữ đặc biệt – Pig Latin và môi trường thực thi code. Pig
dịch mã từ ngôn ngữ cấp độ cao (Pig Latin) thành mã nguồn MapReduce mà
có thể thực thi trong một máy tính cụm.
INPUT = LOAD ‘/tmp/my-copy-of-all-pages-on-
internet’;
Extract words from each line and put them into a
pig bag
datatype, then flatten the bag to get one word
on each row
WORDS = foreach INPUT generate
flatten(TOKENIZE((chararray)$0)) AS word;
filter out any words that are just white spaces
FILTERED_WORDS = FILTER WORDS BY word matches
‘\\w+’;
create a group for each word
WORD_GROUPS = GROUP FILTERED_WORDS BY word;
count the entries in each group
WORD_COUNT = foreach WORD_GROUPS generate
SVTH: Nguyễn Thị Mai 15
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
COUNT(FILTERED_WORDS) AS COUNT, GROUP AS word;
order the records by count
ORDERED_WORD_COUNT = ORDER WORD_COUNT BY
COUNT DESC;
store ORDERED_WORD_COUNT INTO ‘/tmp/number-
of-words-on-internet’;
Hình 5: Chương trình code tạo ra việc thực thi song song các nhiệm vụ của

môi trường phân tán (trong hàng ngàn máy tính) cụm Hadoop để đếm số từ
trong một các tập hợp dữ liệu.
6. MapReduce
MapReduce là một module được sử dụng cho xử lý phân tán cao các tập
dữ liệu lớn sử dụng hàng ngàn máy tính. Được giới thiệu vào năm 2004 bởi
Google, MapReduce có thể được xem là một framework hoặc hệ thống thực
thi truy vấn trong nền tảng cơ sở. Không kể tới lượng dữ liệu, hệ thống xử lý
toàn bộ tập dữ liệu cho mỗi truy vấn. Quá trình xử lý được định nghĩa bởi hai
chức năng:
• Map – đọc thông suốt đữ liệu thô từ hệ thống tập tin phân tán, tinh
chỉnh và tạo ra cặp key-value;
• Reduce – xử lý các cặp key-value được sắp xếp và liên kết ở trên để
tạo ra chức năng Map và đầu ra trong định dạng key-value.
MapReduce là một khái niệm nền tảng của xử lý trong môi trường
Hadoop. Hệ thống con biểu diễn chương trình MapReduce trong Hadoop tạo
ra các nút chính, được gọi là “job tracker” và tập hợp các nút công việc gọi là
“task tracker”. Chương trình MapReduce gửi đến một hành động gọi là “job”.
Hadoop phân chia job tành tập các task. Bước vào chương trình MapReduce
là một tập của dữ liệu lưu trữ trong hệ thống tập tin phân tán. Hadoop chia sẻ
thông tin trong những phần cùng kích thước được phân bố cho chức năng
Map, hoặc có thể nói nó thể hiện cho dữ liệu ánh xạ. Chức năng Map tạo ra
SVTH: Nguyễn Thị Mai 16
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
cặp k-v mà hệ thống trộn lẫn và sắp xếp khóa. Khi tất cả các chức năng Map
đã hoàn tất với task, chức năng Reduce biểu diễn các task trên các cặp k-v đã
được sắp xếp và liên kết.
Biểu diễn các task được hoàn tất dưới sự điều khiển của nút chính. Trước
khi thể hiện các task đặc biệt, “job tracker” phải lựa chọn những job mà task
đó thuộc về và tiến hành. Lập lịch cho các job tham dự lựa chọn công việc
đầu tiên đến từ hàng đợi (job queue). Sau khi lựa chọn job, job tracker chỉ

định task có thể khiến node trở thành free worker. Task tracker báo cáo định
kỳ trạng thái của nó cho head node, nơi các tình huống thể hiện thông tin trên
số lượng các khe trống của các tác vụ Map/Reduce. Sau khi tác vụ
Map/Reduce được cấp phát, việc tối ưu hóa đáng kể được hoàn thành. Đặc
biệt, tác vụ Map được chỉ định đến nút worker có chưa dữ liệu riêng có thể xử
lý với task được chỉ định. Điều này vô cùng quan trọng bởi vì theo cách này,
chúng ta tránh được chi phí cao cho mạng truyền thông. Một job kết thúc khi
một worker node thực hiện nhiệm vụ cuối cùng truyền đạn đến head node như
một nút kết thúc nhiệm vụ chỉ định.
7. Giải pháp CDM trong xây dựng ứng dụng
Ta thấy rằng khai thác trong Cloud là những điều mới mẻ và vẫn không có
lượng lớn giải pháp hoàn tất đầy đủ và có giá trị với người dùng. Tuy nhiên,
những sản phẩm mới vẫn sẽ sớm xuất hiện, một con số đáng kể các giải pháp
khai mỏ dữ liệu sẽ khai thác tiềm năng của Điện toán Đám mây và sớm xuất
hiện trên thị trường. Từ đó, chỉ một số giải pháp tồn tại được trình bày ngắn
gọn:
• Google BigQuery Service (Dremel),
• Amazon Elastic MapReduce (EMR),
• MS SQL Server Data Mining đối với Cloud.
7.1 Google BigQuery
Dịch vụ đám mây của Google, BigQuery là một trong những dịch vụ mới
nhất của loại này. Cụ thể là sau mười một tháng trong những năm trước vừa
qua, Google thông báo phiên bản test giới hạn của công cụ này và dịch vụ này
SVTH: Nguyễn Thị Mai 17
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
chỉ xuất hiện từ 1.5.2012 một cách công khai và sẵn có. Các đặc điểm cơ bản:
tốc độ (phân tích hàng tỉ bản ghi trong một giây), có thể mở rộng, tính đơn
giản (liên lạc thông qua ngông ngữ tương tự SQL đơn giản và có thể truy
cập), khả năng của nhóm công việc, xác thực (SSL được sử dụng để truy cập),
các khả năng đa dạng khác của việc sử dụng (thông qua giao diện người dùng

web – công cụ trình duyệt BigQuery, thông qua command line, công cụ
command-line BigQuery hoặc thông qua REST API). Google cung cấp thư
viện client cho nền lập trình ảo với kịch bản và các mẫu của ứng dụng sẵn có.
Google đề xuất khả năng sử dụng dịch vụ Cloud hoàn toàn miễn phí với giới
hạn 100 GB dữ liệu được lưu trữ và phân tích mỗi tháng.
Dưới đây thể hiện một vài khung nhìn minh họa tính năng và đặc điểm của
công cụ CDM. Để truy cập, cần phải có một tài khoản Gmail và thực hiện log
in dịch vụ nhanh chóng và trực quan. Để kiểm tra, ta sử dụng hai kho dữ liệu
sẵn có mà Google tạo ra cho người dùng chỉ để kiểm tra mục đich (Natality
và Wikipedia).
SVTH: Nguyễn Thị Mai 18
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hình 6: Chi tiết cơ bản sử dụng “tables”
SVTH: Nguyễn Thị Mai 19
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Hình 7: Truy vấn và kết quả thực thi truy vấn tìm xem có bao nhiêu bài báo của Wikipedia
mà tựa đề chưa từ “Cloud Computing” và có nhiều hơn 2000 ký tự.
Hình 8: Kiến trúc Amazon EMR
SVTH: Nguyễn Thị Mai 20
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
7.2 Amazon Elastic MapReduce (EMR)
EMR là một flatform cho phát triển ứng dụng mà các nhà phân tích, phát
triển và nghiên cứu trong một cách nhanh chóng và đơn giản không với chi
phí lớn, phân tích lượng lớn hỗn hợp của dữ liệu từ các tập hợp dữ liệu khác.
EMR dựa trên Hadoop và thực thi dựa trên cơ sở hạ tầng có tính mở rộng
Amazon EC2 và dịch vụ lưu trữ đơn giản (Amazon S3). Emazon EMR cho
phép quyết định nững ứng dụng và/ hoặc phân tích kịch bản được tạo ra từ
ngôn ngữ tương tự SQL như là HiveQL hoặc Pig. Tuy nhiên, nếu người dùng
muốn tạo ứng dụng phức tạp trên Java, C++, Perl và những ngôn ngữ khác,
Amazon cung cấp hỗ trợ chất lượng trong hình thức mẫu với source code toàn

phần và các hướng dẫn liên quan. Quy tắc hoạt động của EMR có thể được
mô tả thông qua bốn bước sau:
1. Tạo kịch bản hoặc ứng dụng,
2. Chuyển giao dữ liệu và/hoặc ứng dụng trong môi trường Amazon S3
3. Điều hành công việc Map/Reduce trong suốt quá trình quản lý hệ thống
điều khiển (AWS Management Console), nơi cung cấp số trường hợp EC2và
quyết định vị trí dữ liệu và ứng dụng trên platform S3.
4. Quan sác các hoạt động cho đến khi thu được kết quả khai thác cuối
cùng.
Với dịch vụ này, Amazon chiếm vị trí dẫn đầu trên thị trường trong lĩnh
vực cung cấp các dịch vụ CDM, hoặc một số người còn gọi là “Phân tích như
một Dịch vụ”. Với EMR, công ty mục tiêu của Amazon điều hành lượng lớn
và công ty đó cần một cơ sở hạ tầng lưu trữ mềm dẻo, linh hoạt và dữ liệu
(đang khai thác) được phân tích sâu rộng.
EMR đem lại những gì?
Đầu tiên, EMR là một dịch vụ theo nhu cầu, có thể được phân lớp như một
thứ hạng của giải pháp SaaS và PaaS, phụ thuộc vào sự bổ sung của người
dùng.
EMR tạo ra tài nguyên linh hoạt, lập trình, chi trả theo tiêu chuẩn nguyên
tắc Điện toán Đám mây, chỉ sử dụng các tài nguyên, cơ sở hạ tầng không
SVTH: Nguyễn Thị Mai 21
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
được định vị trên EC2 về mặt địa lý và trong hầu hết các trường hợp tăng cấp
độ bảo mật.
Amazon EMR tích hợp mảng rộng các công cụ, độc lập với nhà sản xuất
như Karmasphere Analyst, trực giác tích hợp với môi trường được thiết kế
chủ yếu cho phân tích chuyên nghiệp.
Karmasphere Analyst cung cấp hỗ trợ cho quá trình phân tích kỹ lưỡng
“big data”. Nó thực thi thông qua các hoạt động “4A” (Access, Assemble,
Analyze, Act – Truy cập, Tích hợp, Phân tích, Hành động) hoặc các pha.

Truy cập các pha kết nối đến cụm Hadoop. Khi tạo, cài đặt, kiểm tra kết
nối và lưu cài đặt kết nối để sử dụng sau. Các pha tích hợp liên quan đến dữ
liệu được tổ chức có cấu trúc, bán cấu trúc và không cấu trúc trong những
định dạng khác nhau và sự chuẩn bị cho trang kế tiếp. Kết quả của pha này là
một hay nhiều bảng. Hoạt động phân tích cho phép người ta biểu diễn các
phân tích lặp lại dựa trên ngôn ngữ HiveQL. Có một số công cụ có thể giúp ta
định nghĩa truy vấn và hiệu chỉnh nó. Khi trong quá trình phân tích, nó bắt
đầu nhận dạng xu hướng và mẫu, nó bước vào một vòng lặp mới với kết quả
thu được có thể định dạng thêm, lọc và sắp xếp.
Act là màn cuối của phân tích big data. Nó được điều khiển bởi kết quả thu
được và bao gồm các hoạt động của kết quả như là lưu hình thức bảng cơ sở
dữ liệu, bảng Hive, định dạng Excel (.xls) hoặc hoặc như một đồ thị.
7.3 SQL Server Data Mining cho Cloud
SQL Server Data Mining cho Cloud là một dịch vụ Microsoft để thực hiện
khai mỏ dữ liệu trong Cloud, được phát triển như ứng dụng WCF (Windows
Comumuication Foundation). WCF là một tập của API trong .NET framework
dành cho phát triển ứng dụng hướng dịch vụ. Nó cho phép người dùng truy
cập đến dịch vụ thông qua một công cụ đặc biệt hoặc ứng dụng chạy trong
trong web.
SVTH: Nguyễn Thị Mai 22
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
Figure 10: Currently (still) are available only three DM browser and
allows users to set up user data on the server / servers, selection of DM tools,
configuration of tools and review of results.
Kết nối với điểm cuối dịch vụ khi ứng dụng máy khách thể hiện kết quả.
Dịch vụ là công khai (với giới hạn chức năng, hoặc giới hạn số công cụ của
DM) tại trang http.//clouddm.msftlabs.com, không yêu cầu đăng ký khi sử
dụng. Các công cụ Khai mỏ dữ liệu có sẵn cho người sử dụng là:
• Analyze Key influencers,
• Dự báo

• Máy tính dự đoán
Các dịch vụ cho phép upload dữ liệu của người dùng sử dụng công cụ
“Load Data” ở định dạng .csv hoặc sử dụng các bảng có sẵn để kiểm tra như
“BikeBuyer Sample” và “Forecasting Sample”.
7.4 Một trường hợp nghiên cứu với Facebook
Việc khai thác dữ liệu mạnh mẽ trên Facebook là không thể nếu không sử
dụng các giải phảp Điện toán đám mây. Với hơn 500 triệu người dùng và
trung bình cả tỉ người xem mỗi ngày, hầu hết, mạng xã hội phổ biến nhất này
(và ứng dụng đám mây) hằng ngày tạo ra và tích lũy lượng dữ liệu khổng lồ.
Một trong những thử thách lớn nhất, thực tế từ việc khởi đầu là giải quyết các
vấn đề về lưu trữ hiệu quả, xử lý và phân tích dữ liệu. Để giải quyết vấn đề,
các kỹ sư và nhà phân tích cần có một công cụ mạnh mẽ để khai thác và xử lý
với lượng lớn dữ liệu . Không chỉ các máy chủ có khả năng thỏa mãn những
nhu cầu đó, người sử dụng cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu quan hệ
không còn là một lựa chọn. Vì thế, để Facebook có thể tiếp tục phát triển,
phải tạo ra công nghệ có thể cho phép xử lý lưu trữ hằng ngày khoảng 15
terabyte cho những dữ liệu mới; dữ liệu không cấu trúc, những công cụ định
dạng khác nhau, ngôn ngữ khác nhau và platform khác nhau,… Facebook cần
một framework thực sự mạnh, linh hoạt với khả năng xử lý song song và với
khả năng đáng tin cậy của việc lưu trữ bảo mật một lượng dữ liệu khổng lồ.
Thêm vào đó, nó phải chắc chắn một cách hữu hiệu trong việc khai thác dữ
liệu này. Như những yêu cầu truyền thống về cơ sở hạ tầng công nghệ thông
SVTH: Nguyễn Thị Mai 23
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
tin và truyền thông, không thể lấp đầy một cách thỏa đáng nhưng Điện toán
Đám mây có thể! Ví dụ, đám mây mà Facebook cần, cấp phát 8500 lõi CPU
và cung cấp lựa chọn sử dụng petabytes(250B) dung lượng lưu trữ. Như sức
mạnh và khả năng cung cấp để có thể xử lý phân tích dữ liệu kỹ lưỡng trên
diện rộng các tham số khai thác.
IV. KẾT LUẬN

Chúng ta đang sống trong thời đại công nghệ thông tin với những nguồn
tài nguyên vô cùng giá trị. Những lượng dữ liệu khổng lồ hằng ngày sinh sôi
ẩn chứa những thông tin hữu ích tiềm năng. Dữ liệu được xử lý không chỉ
khởi nguốn từ hệ thống thông tin phức tạp, một lượng lớn đến từ môi trường
“on-line” với sự đa dạng của các dịch vụ mà con người sử dụng cho mục đích
thương mại và cả những mục đích riêng. Dữ liệu chứa những nguồn thông tin
tiềm năng, vô giá đầy ấn tượng, ví dụ, việc mua ưu đãi, các tình huống tài
chính và sở thích của người dùng (khách hàng) có thể được liệt kê. Nhiệm vụ
của công nghệ thông tin và truyền thông là tạo ra các phương pháp và công cụ
xử lý dữ liệu hiệu quả.
Ngày nay, điều đó không phải là một nhiệm vụ dễ dàng, ngược lại, việc xử
lý lưu trữ số lượng lớn dữ liệu được nhân lên hằng ngày , thể hiện vấn đề
quan trọng và tiết lộ giới hạn của thông tin truyền thống trong công nghệ
thông tin và công cụ. Hiện tại, các vấn đề quan trọng thể hiện sự thiếu hụt
ngân quỹ. Các công ty không thể đầu tư nguồn quỹ lớn vào phát triển lĩnh vực
công nghệ thông tin của họ. Mặt khác, nhu cầu cho quản lý đòi hỏi một sự
phân tích và xử lý sâu các dữ liệu ngày càng lớn. Vậy đâu là giải pháp?
Một trong những giải pháp chắc chắn có thể đề cập là tích hợp khai thác và
phân tích dữ liệu với Cloud Computing. Việc lưu trữ lớn và xử lý tiềm năng
của Điện toán đám mây được biết như những kỹ thuật, phương pháp phổ biến
của khai thác dữ liệu, di chuyển mọi thứ đến Đám mây để tạo ra platform
mạnh mẽ cho phân tích lượng lớn dữ liệu được tạo ra hằng ngày và bản thân
nó ẩn chứa nhiều thông tin hữu ích khác, về cơ bản cho những tri thức mứoi
và quyết định kinh doanh tốt hơn, trở lại với mục đích chính sau cùng. Bằng
cách phát triển đám mây dựa trên các giải pháp khai thác dữ liệu, việc truy
cập vào dịch vụ khai thác dữ liệu mỗi lúc, mỗi nơi và từ những platform khác
SVTH: Nguyễn Thị Mai 24
Điện toán lưới và đám mây GVHD: PGS.TS Nguyễn Phi Khứ
nhau đều trở nên có thể. Sau cùng, ứng dụng các giải pháp CDM có thể cung
cấp một loại eco-system khai phá tri thức, xây dựng số lượng lớn dữ liệu được

phân cấp bởi các dịch vụ phân tích. Thời điểm quan trọng có thể lưu ý là tạo
ra và cung cấp các dịch vụ khai mỏ dữ liệu trong đám mây. Ngày nay, các
hoạt động kinh doanh quan trọng đòi hỏi những tài nguyên đáp ứng được yêu
cầu kỹ thuật và có tính kinh tế mà những công ty có quy mô nhỏ, trung bình
và ít ảnh hưởng có thể truy cập và sử dụng được, không kể đến những thuận
lợi của việc áp dụng Bussiness Intelligent.
I. TÀI LIỆU THAM KHẢO
[1] PGS. TS. Nguyễn Phi Khứ, Grid Computing, Part III – Cloud
Computing for: MSc students in Computer Science, Information
Technology University.
[2] Robert Vrbić, Data Mining and Cloud Computing, University Vitez,
Travnik, Bosnia, Herzegovina.
[3]
[4]
dung-n20100513024151387c1008.htm
[5]
[6] />bigdatacloud/
SVTH: Nguyễn Thị Mai 25

×