HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LÊ THIÊN HINH
TÌM HIỂU GIẢI PHÁP LƯU TRỮ, XỬ LÝ VÀ TRÌNH DIỄN CÁC DỮ LIỆU
THỐNG KÊ ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – NĂM 2013
Luận văn đƣợc hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Ngƣời hƣớng dẫn khoa học: TS. Hoàng Lê Minh
Phản biện 1: …………………………………………………………
Phản biện 2: …………………………………………………………
Luận văn sẽ đƣợc bảo vệ trƣớc Hội đồng chấm luận văn thạc sĩ tại Học viện
Công nghệ Bƣu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thƣ viện của Học viện Công nghệ Bƣu chính Viễn thông
1
MỞ ĐẦU
I. LÝ DO CHỌN ĐỀ TÀI
Điện toán đám mây (Cloud Computing) đang là xu hƣớng phát triển mới của ngành
Công nghệ thông tin - Truyền thông (CNTT-TT). Điện toán đám mây cho phép triển khai
các mô hình cung cấp dịch vụ mang tính năng động cao, có khả năng kết nối và mở rộng
đến các tài nguyên ảo khác thông qua mạng Internet. Điện toán đám mây là xu hƣớng công
nghệ quan trọng, nhiều chuyên gia và doanh nghiệp kỳ vọng điện toán đám mây sẽ định
hình lại nhiều quy trình liên quan tới lƣu trữ, cung cấp dữ liệu và dịch vụ cho các ứng dụng
CNTT-TT. Với điện toán đám mây ngƣời dùng có thể sử dụng các thiết bị cá nhân và di
động để truy cập dữ liệu, các ứng dụng, tham gia vào quá trình lƣu trữ và cung cấp dịch vụ
trên mạng Internet. Ứng dụng điện toán đám mây trong lƣu trữ, xử lý dữ liệu cho phép tiết
kiệm chi phí, nâng cao khả năng sẵn sàng của dữ liệu.
Chính vì thế việc ứng dụng điện toán đám mây trong lƣu trữ và xử lý dữ liệu đang trở
thành một chủ đề nghiên cứu quan trọng. Đó là lý do lựa chọn đề tài nghiên cứu của luận
văn: “Tìm hiểu giải pháp lưu trữ, xử lý và trình diễn các dữ liệu thống kê ứng dụng
điện toán đám mây”
II. MỤC ĐÍCH VÀ NỘI DUNG NGHIÊN CỨU:
Mục đích chính là tìm hiểu công nghệ Điện toán đám mây, khả năng ứng dụng
ĐTĐM trong lƣu trữ, xử lý dữ liệu, trong đó có mô hình dữ liệu lớn, phức tạp, phát sinh
trong quá trình vận hành của một số hệ thống thông tin của ngành thống kê.
Nội dung luận văn tốt nghiệp gồm 03 chƣơng:
CHƢƠNG I. TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY
CHƢƠNG II. NGHIÊN CỨU CÁC CÔNG NGHỆ ĐIỆN TOÁN ĐÁM MÂY LƢU TRỮ,
XỬ LÝ DỮ LIỆU ỨNG DỤNG TRONG THỐNG KẾ
CHƢƠNG III. ĐỀ XUẤT GIẢI PHÁP LƢU TRỮ, XỬ LÝ VÀ TRÌNH DIỄN DỮ LIỆU
CHO NGÀNH THỐNG KÊ VÀO ĐIỆN TOÁN ĐÁM MÂY (iDRAGON COULD)
2
CHƯƠNG 1
TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY
1.1 Giới thiệu
Ngày nay, với sự phát triển vƣợt bậc của khoa học kỹ thuật và công nghệ hiện đại,
mỗi ngƣời chúng ta càng có nhiều cơ hội đƣợc tiếp cận, đƣợc sử dụng và sở hữu các sản
phẩm của công nghệ cao có chất lƣợng hơn, tiện lợi hơn, sử dụng đơn giản hơn và chi phí
cũng thấp hơn. Cùng với sự phát triển của khoa học và công nghệ cũng làm phát sinh ngày
càng nhiều những bài toán trong nhiều lĩnh vực đòi hỏi sức mạnh tính toán lớn, khả năng
chia sẻ tài nguyên, khối lƣợng dữ liệu lƣu trữ và chia sẻ nhiều, sự phân công chuyên môn
hóa cao… Để giải quyết những vấn đề này, đã có nhiều kỹ thuật, giải pháp tính toán đƣợc
đƣa ra ví nhƣ tính toán lƣới, tính toán song song… Tuy nhiên trên phƣơng diện ngƣời sử
dụng, các giải pháp này có thể giải quyết đƣợc bài toán chuyên môn nhƣng lại nảy sinh hai
vấn đề chƣa đƣợc giải quyết thấu đáo. Thứ nhất, về kinh tế, để sở hữu và duy trì một hệ
thống tính toán nhƣ cần thiết thì phải chịu một chi phí quá lớn trong khi có thể nói là hiệu
quả sử dụng rất thấp về thời gian, công suất, tài nguyên và khả năng tính toán của hệ thống
đó. Thứ hai, với một hệ thống tính toán phức tạp bao gồm cả phần cứng, phần mềm, dữ liệu
lƣu trữ… đòi hỏi phải có trình độ và kỹ năng nhất định về chuyên môn công nghệ thông tin
thậm chí không chỉ là một ngƣời mà phải là một tổ chức của các chuyên gia công nghệ
thông tin mới đủ khả năng quản lý và điều khiển.
Đây rõ ràng là vấn đề lớn đặt ra cho ngành Công nghệ thông tin. Để giải quyết, một
số tổ chức đã đƣa ra một mô hình mà trong đó các công việc thuộc về chuyên môn công
nghệ thông tin đƣợc chuyển giao tối đa cho các chuyên gia công nghệ thông tin, các công
việc khác mà ứng dụng thành quả của công nghệ thông tin thì đƣợc cung cấp cho ngƣời sử
dụng nhƣ các dịch vụ.
Thuật ngữ “cloud computing” ra đời bắt nguồn từ một trong những hoàn cảnh nhƣ
vậy.
Điện toán đám mây (Cloud computing) có thể hiểu là một mô hình điện toán sử dụng
các công nghệ tiên tiến nhất về phần mềm, phần cứng máy tính, đƣợc phát triển trên hạ tầng
mạng máy tính và Internet, để tạo ra một “đám mây” cung cấp từ cơ sở hạ tầng, nơi lƣu trữ
dữ liệu cho đến các dịch vụ sẵn sàng, nhanh chóng cho mọi cơ quan, tổ chức, doanh nghiệp
và ngƣời dùng đầu cuối theo yêu cầu.
3
1.2. Tổng quan về điện toán đám mây
1.2.1 Các công nghệ nền tảng điện toán đám mây
1.2.1.1 Công nghệ ảo hóa trong điện toán đám mây.
a) Ảo hóa toàn phần - Full Virtualization
Ảo hóa toàn phần là một kỹ thuật mà trong đó toàn bộ một tiến trình cài đặt cho một
máy đƣợc chạy trên máy khác. Kết quả là một hệ thống trong đó tất cả các phần mềm đang
chạy trên một máy chủ thực chất là một máy ảo. Ảo hóa toàn phần đƣợc nhóm CP-40 của
IBM bắt đầu nghiên cứu từ năm 1967.
b) Ảo hóa cục bộ - Paravirtualization
Ảo hóa cục bộ cho phép nhiều hệ điều hành cùng chạy trên một thiết bị phần cứng
duy nhất trong cùng một lúc bằng cách sử dụng hiệu quả hơn các tài nguyên hệ thống, nhƣ
bộ vi xử lý và bộ nhớ.
1.2.1.2 Platform
): Cun
.
1.2.1.3 Mô hình cung cấp dịch vụ qua Internet
Hình 1.1: Mô hình dịch vụ điện toán đám mây
4
1.2.2 Các lớp dịch vụ điện toán đám mây
- Dịch vụ cung cấp cơ sở hạ tầng – IaaS
IaaS là hình thức dịch vụ có sẵn tiếp theo trong Cloud Computing. Dịch vụ SaaS và
PaaS cung cấp các ứng dụng cho khách hàng, IaaS thì không. Nó chỉ đơn giản là cung cấp
hệ thống cơ sở hạ tầng, các phần cứng để các khách hàng có thể sử dụng và đặt bất cứ điều
gì họ muốn lên đó.
Lợi ích của IaaS.
Mô hình IaaS làm cho việc sử dụng cơ sở hạ tầng, phần cứng của hệ thống tính toán
có thể đạt hiệu suất tối ƣu về nhiều mặt, do đó các chi phí có thể đạt mức tối thiểu, đây là lợi
ích đối với cả nhà cung cấp và khách hàng
Khó khăn và thách thức đối với IaaS.
Với hệ thống hạ tầng tính toán vật lý chạy đƣợc nhiều hệ thống ảo trên đó hiện nay
cần hoàn thiện hơn nữa các công cụ để quản lý, kiểm soát.
Một vấn đề hết sức đƣợc quan tâm nữa là bảo mật thông tin cho ngƣời sử dụng khi hệ
thống tính toán đƣợc quản lý và điều hành bên ngoài ngƣời sử dụng.
- Dịch vụ cung cấp nền tảng phát triển ứng dụng – PaaS
Tƣơng tự hình mẫu của SaaS, PaaS cũng áp dụng mô hình phân phối dịch vụ công
nghệ thông tin. Sản phẩm mà dịch vụ kiểu PaaS cung cấp là tất cả các nguồn tài nguyên,
công cụ, nền tảng cần thiết để xây dựng, phát triển ứng dụng và đƣợc cung cấp cho khách
hàng hoàn toàn thông qua Internet (từ trên đám mây), mà không cần phải tải về hay cài đặt
trên máy của ngƣời sử dụng.
Hệ thống cung cấp dịch vụ PaaS có thể có ba kiểu tùy chọn khác nhau nhƣ sau:
* Phát triển và mở rộng khả năng công việc: Cho phép các ứng dụng SaaS đã có sẵn
từ trƣớc có thể đƣợc tùy chỉnh.
* Môi trường độc lập: Môi trƣờng đƣợc cung cấp không bao gồm các vấn đề về cấp
phép, kỹ thuật, cũng không phụ thuộc tài chính vào một ứng dụng SaaS cụ thể nào đó,
chúng đƣợc sử dụng cho sự phát triển chung.
* Môi trường phát triển ứng dụng: Những môi trƣờng này hỗ trợ cho việc cung cấp
các mức dịch vụ, nhƣ là cung cấp khả năng an toàn bảo mật hay khả năng mở rộng theo nhu
cầu Nhƣng chúng không bao gồm việc phát triển, gỡ lỗi và khả năng kiểm tra.
Hướng tới khả năng kết nối hợp nhất
5
PaaS phải đối mặt với cùng một loại các vấn đề trong về khả năng chấp nhận lẫn
nhau trong toàn bộ hệ thống đám mây tƣơng tự nhƣ mô hình dịch vụ SaaS mà đã đƣợc xem
xét đến trong mục trên.
Lợi ích của PaaS
- Ngƣời sử dụng chỉ phải chi trả cho đúng những gì mà họ đã sử dụng theo hợp đồng
cung cấp và sử dụng dịch vụ với nhà cung cấp.
- Tạo ra nền tảng phát triển ứng dụng thống nhất, có thể là toàn cầu.
- Loại bỏ các phụ thuộc vào phần cứng và các vấn đề về chiếm dụng tài nguyên, từ đó
cho phép các nhà phát triển chỉ tập trung quan tâm đến mã ứng dụng.
- Khả năng co giãn hệ thống.
- Mô hình triển khai đơn giản.
Nhược điểm của PaaS
- Dịch vụ cung cấp phần mềm – SaaS
SaaS là mô hình trong đó một ứng dụng đƣợc cung cấp nhƣ là một dịch vụ theo yêu
cầu cho khách hàng truy cập nó thông qua Internet. Hình 1.1 cho thấy mô hình cung cấp
ứng dụng .
Hình 1.2. Mô hình cung cấp dịch vụ SaaS.
Khi ứng dụng đƣợc lƣu trữ trên đám mây nhƣ vậy, các nhà cung cấp dịch vụ nhận về
mình tất cả các công việc sửa lỗi, nâng cấp cũng nhƣ duy trì các hoạt động cho cơ sở hạ
tầng.
Tuy nhiên, đối với ngƣời sử dụng, vấn đề chi phí cũng có hai mặt. Một mặt nhƣ
chúng ta đã đề cập là ngƣời sử dụng chỉ phải chi trả cho chính xác những gì mà họ dùng.
Mặt khác, dịch vụ kiểu SaaS yêu cầu ngƣời sử dụng luôn phải trả phí cho tất cả những lúc
họ chạy ứng dụng của mình.
6
Lợi ích của SaaS
Hai lợi ích quan trọng nhất của SaaS chúng ta đã từng bàn đến ở trên là:
Cấp rẻ hơn, Có thể đáp ứng đƣợc những yêu cầu huy động năng lực tính toán lớn
một cách nhanh chóng, có nghĩa là ngƣời sử dụng có thể đạt đƣợc tốc độ xử lý công việc lớn
nhất có thể.
Cùng khả năng tính toán, tốc độ xử lý thì sử dụng dịch vụ SaaS chỉ phải chịu một
chi phí ít hơn nhiều. Các nhà cung cấp dịch vụ có thể cung đáng tin cậy hơn so với các ứng
dụng có thể tự tổ chức.
Trở ngại và những thách thức đối với SaaS
SaaS cũng có những nhƣợc điểm, gây trở ngại cho việc thực hiện và sử dụng nó. Một
vấn đề rất quan trọng đã đề cập trong mục trƣớc là việc an toàn và bảo mật dữ liệu của
ngƣời sử dụng. Khi dữ liệu của ngƣời sử dụng nằm trong sự kiểm soát của các nhà cung cấp
thì phải có một mô hình hay phƣơng thức nào đó nhằm đảm bảo tối đa sự an toàn và riêng
tƣ dữ liệu.
1.3 Phân loại các mô hình cung cấp điện toán đám mây
a) Đám mây công cộng – Public Cloud Computing
Cơ sở hạ tầng điện toán đám mây loại này đƣợc tạo sẵn cho số đông công chúng hoặc
một nhóm ngành công nghiệp lớn và đƣợc sở hữu bởi một tổ chức bán các dịch vụ đám
mây.
b) Đám mây cộng đồng – Community Cloud Computing
Mô hình cộng đồng là mô hình trong đó hạ tầng đám mây đƣợc chia sẻ bởi một số tổ
chức cho cộng đồng ngƣời dùng trong các tổ chức đó. Các tổ chức này do đặc thù không
tiếp cận với các dịch vụ đám mây công cộng và chia sẻ chung một hạ tầng điện toán đám
mây để nâng cao hiệu quả đầu tƣ sử dụng.
c) Đám mây riêng - Private Cloud Computing
Cơ sở hạ tầng điện toán đám mây đƣợc hoạt động chỉ phục vụ duy nhất cho một tổ
chức. Nó có thể đƣợc quản lý bởi chính tổ chức hoặc một bên thứ ba và có thể tồn tại trên
chính hệ thống của tổ chức đó hoặc không.
d) Đám mây lai - Hybrid Cloud Computing
Cơ sở hạ tầng điện toán đám mây mà thành phần đƣợc ghép từ hai hoặc nhiều đám
mây khác (có thể là đám mây riêng, cộng đồng, hoặc công cộng) mà vẫn hoạt động nhƣ một
7
thực thể duy nhất. Các đám mây thành phần này đƣợc ràng buộc với nhau bằng công nghệ
tiêu chuẩn hoặc độc quyền cho phép dữ liệu và ứng dụng có tính di động.
1.4. Xu hướng phát triển của điện toán đám mây
CHƯƠNG 2
NGHIÊN CỨU CÁC CÔNG NGHỆ ĐIỆN TOÁN ĐÁM MÂY LƯU TRỮ,
XỬ LÝ DỮ LIỆU ỨNG DỤNG TRONG THỐNG KẾ
I. GIỚI THIỆU CHƯƠNG
II. NỘI DUNG
2.1. Ứng dụng công nghệ lưu trữ điện toán đám mây cho dữ liệu Thống kê.
Hình 2.1: Tổng quát mô hình lƣu trữ đám mây
Một hệ thống đám mây lƣu trữ thông thƣờng đƣợc xây dựng từ một vài máy chủ dữ
liệu, nhiều hay ít máy chủ quyết định bởi mô hình đám mây đƣợc sử dụng. Một hệ thống
máy tính thƣờng yêu cầu bảo trì và sửa chữa, vì thế phải có cơ chế lƣu trữ cùng một dữ liệu
trên nhiều máy tính khác nhau. Cơ chế này đƣợc gọi là cơ chế Redundancy. Nếu không có
cơ chế Redundancy, các hệ thống đám mây lƣu trữ không thể đảm bảo chắc chắn rằng ngƣời
dùng luôn có thể truy cập dữ liệu của mình. Hệ thống đám mây lƣu trữ hiện nay hầu hết
8
đƣợc sử dụng nhằm mục đích sao lƣu và phục hồi dữ liệu hoặc để chia sẻ dữ liệu với mức
độ phân quyền đơn giản. Ngoài ra một số hệ thống đám mây lƣu trữ cá nhân phục vụ mục
đích của các doanh nghiệp, tổ chức có thể đƣợc tích hợp dữ liệu với các dịch vụ ứng dụng
khác để sử dụng thuận tiện hơn trong các hoạt động nghiệp vụ.
Cơ sở hạ tầng cho đám mây lƣu trữ
Các loại hình đám mây lƣu trữ
a) Mô hình dịch vụ đám mây lưu trữ
Thường có 3 loại mô hình đám mây lưu trữ:
2.1.1. Đám mây lưu trữ công cộng (public cloud storage)
Khi sử dụng đám mây lƣu trữ công cộng của các nhà cung cấp dịch vụ khác, doanh
nghiệp, tổ chức, cá nhân sẽ không phải xây dựng hệ thống nền tảng mà sẽ đƣợc sử dụng
chính nền tảng phần cứng, nền tảng quản lý có sẵn của nhà cung cấp. Các cá nhân hoặc các
tổ chức sẽ phải thuê hoặc mua gói dịch vụ tùy theo nhu cầu sử dụng của mình.
2.1.2 Đám mây lưu trữ riêng (private cloud storage):
Là môi trƣờng dành riêng đƣợc bảo vệ bên trong hệ thống tƣờng lửa của tổ chức,
doanh nghiệp. Mô hình này thích hợp nhất với những ngƣời dùng cần tối ƣu lại hệ thống
đám mây lƣu trữ và áp dụng những quy trình quản lý dữ liệu chi tiết của tổ chức, doanh
nghiệp. Đám mây lƣu trữ riêng có mô hình lƣu trữ và dịch vụ nằm bên trong các trung tâm
dữ liệu của tổ chức, hoặc một cơ sở hạ tầng IaaS mà tổ chức thuê để thực hiện lƣu trữ riêng.
2.1.3. Đám mây lưu trữ lai (hybrid cloud):
Là mô hình kết hợp bởi 2 mô hình đám mây lƣu trữ trên với một phần nền tảng nhƣ
của đám mây riêng và một phần nền tảng nhƣ của đám mây công cộng. Khi tổ chức, doanh
nghiệp triển khai theo mô hình này, dữ liệu của họ có thể đặt tại đám mây riêng và cũng có
thể đặt một phần ở bên ngoài (đám mây công cộng) nhằm phục vụ các mục tiêu, hoạt động
khác
b) Một số dịch vụ đám mây lưu trữ hiện nay
- Đám mây lƣu trữ của Amazon S3:
- Đám mây lƣu trữ của hãng Apple: iCloud
- Đám mây lƣu trữ của hãng Microsoft: Windows Live SkyDrive
c) Các tiêu chuẩn cho dịch vụ lưu trữ đám mây
- Khả năng co giãn
- Tự động
9
- Khả năng mở rộng
- Bảo mật dữ liệu
- Hiệu suất
- Tin cậy
Hinh 2.2: Mô hình mức độ tiêu chuẩn cho dịch vụ lƣu trữ đám mây
- Dễ quản trị
- Hiệu quả năng
2.2. Các mô hình thu thập, xử lỹ dữ liệu Thống kê
2.2.1. Thực trạng ứng dụng công nghệ thông tin trong ngành Thống kê.
a. Xử lý thông tin thống kê
b. Về cơ sở dữ liệu
c. Truyền số liệu
d. Phổ biến số liệu
e. Cơ sở hạ tầng công nghệ thông tin
2.2.2. Một số mô hình thu thập, xử lý dữ liệu đã và đang được áp dụng trong ngành
Thống kê hiện nay.
a. Quy trình xử lý tổng điều tra Dân số và nhà ở năm 2009
10
Hình 2.3: Quy trình xử lý tổng điều tra Dân số và nhà ở năm 2009
b. Mô hình thu thập, xử lý dữ liệu điều tra công nghiệp tháng và điều tra công nghiệp năm
áp dụng công nghệ EFORM
a. Kiến trúc hệ thống hiện tại
Hệ thống Điều tra Công nghiệp tháng và Điều tra Doanh nghiệp năm đƣợc xây dựng
trên nền giao diện web. Hệ thống đƣợc cài đặt trên Trụ sở văn phòng và triển khai đến các
đơn vị qua hệ thống mạng chia sẻ (mạng nội bộ hoặc kết nối ra ngoài có giới hạn) dựa trên
các chức năng đƣợc phân quyền theo nghiệp vụ của từng đơn vị.
1. Cấp tỉnh:
nhập file DS
ĐB và tổng hợp
sơ bộ
2. Giao
nhận phiếu
3. Chuẩn bị
phiếu
Phiếu xấu
4. Cắt phiếu
Phiếu xấu
5. Scan
Phiếu xấu
7. FormID /
ManualID
T.tin phiếu
bị xoá
6. Xác minh ĐB sai số
lƣợng sau scan
8. Mass Verify
9. Data Verify
T.tin phiếu
bị xoá
10. Exception
T.tin phiếu
bị xoá
11. Export
12. Group Output (ghép file ĐB)
14. Nhập tin phiếu xấu
13. Bới tìm
phiếu bị xoá
theo
15. Ghép file xã/huyện
16. Kiểm tra + Sửa ID phiếu
17. Công cụ hỗ trợ tìm
phiếu thiếu, nhập phiếu
thiếu, sai lô xã/huyện, bới
tìm phiếu
19. K.tra + Sửa logic
20. K.tra xác minh số lƣợng
phiếu, hộ của file xã.huyện
21. Hiệu chỉnh số liệu
18. Chuyển cấu trúc file DAT
23. Quản trị, giám sát,
công cụ hỗ trợ
22. Tích hợp CSDL
QL 3TT, Trang web
điều hành
11
Hình 2.4: Mô hình tổng quan chung sử dụng công nghệ EFROM
b) Mô hình phân rã chức năng
Hình 2.5: Mô hình phân rã chức năng của Điều tra Công nghiệp tháng và Doanh nghiệp
năm
c) Mô hình luồng dữ liệu
Kiến trúc hệ thống chung cho 2 thí điểm Điều tra Công nghiệp tháng và Điều tra
Doanh nghiệp năm đƣợc xây dựng cho 3 cấp: Doanh nghiệp, Cục thống kê Tỉnh/TP, Vụ
công nghiệp. Quá trình truyền dữ liệu trong hệ thống đƣợc mô tả nhƣ hình sau:
12
Hình 2.6: Mô hình luồng dữ liệu của Điều tra Công nghiệp tháng và Doanh nghiệp năm
Dữ liệu đƣợc đặt và lƣu tập trung tại Trụ sở văn phòng. Hệ thống đƣợc phân cấp theo
nghiệp vụ của từng đơn vị với các chức năng chuyên biệt.
d. Kiến trúc vật lý:
2.3. Dữ liệu lớn (Big Data) là gì ?
Về những công nghệ nổi trội trong năm 2012 vừa qua, có thể nói đến Dữ liệu
lớn (Big Data). Big data là các tập dữ liệu rất lớn và/hoặc rất phức tạp mà những
phƣơng pháp hiện đại của CNTT chƣa phân tích và xử lý tốt đƣợc chúng. Tên gọi
„Dữ liệu lớn‟ làm nhiều ngƣời không biết đến khía cạnh về độ phức tạp của dữ liệu.
Thật ra, hai tính chất này của dữ liệu lớn luôn đi cùng nhau, trong đó tính chất „rất
phức tạp‟ còn đặc trƣng và thách thức hơn „kích thƣớc lớn‟ của dữ liệu. Điều này
cũng có thể thấy ở chừng mực nào đấy trong định nghĩa của IBM về dữ liệu lớn với
ba chữ V: Variety, Velocity và Volume.
+ Volume: chỉ độ lớn của dữ liệu ở mức terabytes (10
12
), rồi petabytes (10
15
bytes),
và cả exabytes (10
18
bytes).
+ Velocity: chỉ tính chất chuyển động liên tục của dòng dữ liệu rất lớn cần xử lý,
khác với các cách truyền thống ta thu nhận và xử lý dữ liệu theo từng mẻ (batch).
+ Variety: chỉ sự đa dạng, sự liên kết chằng chịt của dữ liệu với nhiều cấu trúc khác
nhau, từ dữ liệu quan hệ, đến dữ liệu không cấu trúc nhƣ các văn bản thô…
- Dữ liệu lớn từ đâu ra?
13
Việc lƣợng dữ liệu lớn đang ngày càng rất nhiều quanh ta là một hiện thực khách
quan. Dữ liệu lớn có ở rất nhiều tổ chức, nhiều hoạt động xã hội, kinh doanh, khoa học và
tiềm ẩn nhiều giá trị to lớn.
Chìa khóa của dữ liệu lớn
Hình 2.8: Mô hình tổng quát về khai thác dữ liệu (nguồn WAMDM, Web Group)
Mặc dù đang còn phát triển, ba chìa khóa chính của khai thác dữ liệu lớn luôn đƣợc
xem là:
- Quản trị dữ liệu: tức là lƣu trữ, bảo trì và truy nhập các nguồn dữ liệu lớn.
- Phân tích dữ liệu: tức tìm cách hiểu đƣợc dữ liệu và tìm ra các thông tin hoặc tri
thức quý báu từ dữ liệu
- Hiển thị (visualization) dữ liệu và kết quả phân tích dữ liệu.
2.4. Đánh giá một số ưu, nhược điểm cho lưu trữ dữ liệu Thống kê trên điện
toán đám mây.
a) Một số ƣu điểm cho việc lƣu trữ dữ liệu Thống kê trên điện toán đám mây
- Tốc độ xử lý nhanh
- Khả năng lƣu trữ, mở rộng thì không bị giới hạn.
- Sao lƣu và phục hồi dữ liệu
- Chi phí thấp trong quá trình lƣu trữ dữ liệu.
- Không phụ thuộc vào thiết bị và vị trí địa lý
14
- Khả năng bảo mật đƣợc cải thiện do sự tập trung về dữ liệu.
b) Một số nhƣợc điểm cho việc lƣu trữ dữ liệu Thống kê trên điện toán đám mây
- Tính riêng tƣ
- Tính sẵn sàng của dữ liệu bị phụ thuộc
- Giao diện không tƣơng thích
- Mất dữ liệu
-
CHƯƠNG III
ĐỀ XUẤT GIẢI PHÁP LƯU TRỮ, XỬ LÝ VÀ TRÌNH DIỄN DỮ
LIỆU CHO NGÀNH THỐNG KÊ VÀO ĐIỆN TOÁN ĐÁM MÂY
(iDRAGON COULD )
GIỚI THIỆU CHƯƠNG
Trong chƣơng ba sẽ giới thiệu tổng quát về điện toán đám mây riêng iDragon
Clouds. Dựa trên nền tảng HTML5 để viết ứng dụng mẫu xử lý, trình diễn dữ liệu
Thống kê trên điện toán đám mây iDragon Clouds.
NỘI DUNG
3.1. Tìm hiểu về điện toán đám mây iDragon Clouds
3.1.1. Tổng quan
iDragon Clouds cung cấp giải pháp nền tảng xây dựng các mạng đám mây riêng, bao
gồm các đám mây cá nhân, đám mây chia sẻ nhóm và đám mây công cộng. Các đám mây
riêng dùng để lƣu trữ dữ liệu, cung cấp dịch vụ, phần mềm và nội dung số bên trong mạng
nội bộ của doanh nghiệp, trên mạng diện rộng và Internet. iDragon Clouds là giải pháp điện
toán đám mây riêng hoàn thiện và có đầy đủ chức năng, đƣợc đóng gói sẵn sàng để chuyển
giao cho khách hàng là các đối tác doanh nghiệp và ngƣời dùng cá nhân.
- Mô hình triển khai
15
Hình 3.1: Mô hình triển khai iDragon Clouds
Hạ tầng đám mây iDragon Clouds đƣợc xây dựng bởi các máy chủ đám mây
(DataBox) cung cấp dịch vụ quản lý và lƣu trữ dữ liệu, thiết bị mạng đám mây (CloudBox)
kết nối mạng nội bộ doanh nghiệp với các dịch vụ đám mây và phần mềm máy tính đám
mây (CloudPC), máy tính bảng đám mây (CloudTablet), điện thoại đám mây (CloudPhone),
trình duyệt Web truy cập đám mây (HTML5 WebBrowser). Các phần mềm trên máy chủ và
thiết bị kết nối mạng đƣợc thiết kế, đóng gói và cài đặt cung cấp cả 3 lớp dịch vụ chính của
điện toán đám mây là lớp hạ tầng (Infrastructure), lớp nền tảng (Platform) và lớp ứng dụng
(Software). Đối với máy tính trạm, máy tính xách tay, máy tính bảng, điện thoại thông minh
các phần mềm truy cập dịch vụ đám mây iDragon Clouds sử dụng hai phƣơng thức triên
khai chính là phần mềm sụn (firmware) và phần mềm cài đặt (software). Ngoài ra dịch vụ
điện toán đám mây iDragon Clouds còn có thể truy cập bằng trình duyệt Web hỗ trợ
HTML5.
3.1.2. Các dịch vụ đám mây iDragon Clouds
a) Các dịch vụ nền tảng
b) Các dịch vụ giá trị gia tăng
3.3.3. Các giải pháp phần mềm trên nền tảng đám mây iDragon Clouds
a) iDragon® Cloud Explorer (iDCE)
16
b) iDragon®Cloud Scanner (iDCS)
c) iDragon®Cloud Sensor Monitor (iDCSM)
d) iDragon®Cloud Customer Care (iD3C)
3.2. Quy trình tạo lập, lưu trữ dữ liệu và ứng dụng cho dữ liệu Thống kê trên
iDragon Clouds
3.2.1. Hệ thống quản lý Thống kê
3.2.2. Tổ chức lưu trữ dữ liệu
a) Metadata là gì?
Metadata dùng để mô tả một thông tin. Thuật ngữ "meta" xuất xứ là một từ Hy Lạp
dùng để chỉ một cái gì đó có bản chất cơ bản hơn hoặc cao hơn dữ liệu thông tin. Vì vậy
metadata là dữ liệu thông tin về những dữ liệu khác, hay còn gọi là siêu thông tin. Nó đƣợc
các thƣ viện truyền thống đặt vào trong các mục lục biên mục và đƣợc sử dụng thƣờng là để
mô tả thông tin về các tài nguyên Web.
Một bản ghi Metadata bao gồm một tập các thuộc tính hoặc tập các phần tử cần thiết
để mô tả các tài nguyên theo yêu cầu. Ví dụ, một hệ thống metadata thông thƣờng trong thƣ
viện, biên mục biểu ghi thƣ viện, chứa một tập các bản ghi metadata dùng để mô tả sách
hoặc các thƣ mục thƣ viện khác nhƣ: tác giả, tiêu đề, ngày xuất bản, đối tƣợng đề cập và số
gọi (call number) để chỉ vị trí của tài liệu trên giá sách.
Mối liên kết giữa các bản ghi metadata và việc mô tả tài nguyên có thể ở một trong
hai dạng :
Các phần tử của metadata đƣợc chứa trong một bản ghi tách rời với tài liệu
Metadata có thể đƣợc gắn vào trong tài liệu.
17
b) Dublin Core Metadata
Dublin Core Metadata là một chuẩn dùng cho nội dung của biểu ghi và dữ liệu mô tả.
Nó đơn giản hơn MARC vì chỉ có 15 phần tử chính. Mục đích thiết kế là để sử dụng trên
Internet, nó đƣa ra sự mô tả chung cho các tài liệu chuyên ngành trong các thƣ viện và tài
liệu không chuyên tại các Web site khác. Các phần tử dữ liệu MARC và Dublin Core có thể
trao đổi lẫn nhau theo các giản đồ (schema) phục vụ cho các mục đích hiển thị của ngƣời
dùng.
Dublin Core Metadata có những đặc tính sau :
Việc tạo lập và duy trì DC Metadata phải dễ dàng
Ngữ nghĩa được dùng trong DC Metadata phải thông dụng và dễ hiểu
DC Metadata có tính quốc tế và tính địa phương cao
DC Metadata có tính mở rộng cao
- Cú pháp của Dublin Core Metadata
+ dùng HTML/XHTML
Các tài liệu HTML/XHTML sử dụng nhãn "<META>" để lƣu trữ các Metadata. Nếu
có dữ liệu Metadata thì các thông tin này phải xuất hiện trong phần HEAD của tài liệu
HTML/XHTML.
Trình duyệt web hay bất cứ phần mền nào tƣơng tự có thể hiểu các dữ liệu metadata,
bắt đầu sau dòng "<HEAD>" và kết thúc trƣớc dòng "</HEAD>", và nhƣ thế có thể trích
lấy dữ liệu metadata một cách tự động. Metadata không xuất hiện trong phần định dạng và
xuất ra của tài liệu, các trình duyệt web có thể nhận metadata và không xử lý chúng, nhƣng
những máy tìm kiếm (search engine) hiện nay đều có khả năng sử dụng thông tin metadata
trong các tài liệu HTML/XHTML.
Trong trang XHTML, mỗi định nghĩa phần tử bản ghi bắt đầu với "<META" và kết
thúc với "/>". Bên trong nhãn META, hai cặp thuộc tính/gía trị đƣợc dùng để định nghĩa
metadata, cặp đầu tiên là tên (NAME), cặp thứ hai là nội dung (CONTENT):
<META NAME="DC.Creator" CONTENT="Browning, Elizabeth"/>
Bất kỳ phần tử metadata nào đều cũng có thể bỏ qua hoặc lặp lại. Khi có các phần tử
lặp lại, nó đƣợc định nghĩa một cách rời rạc nhƣ sau :
18
<META NAME="DC.Creator" CONTENT="Marx, Karl"/>
<META NAME="DC.Creator" CONTENT="Engels, Friedrich"/>
Có thể viết lại trƣờng hợp này bằng cách chỉ dùng một thuộc tính NAME với nhiều
dấu ";" để phân định các gía trị cho thuộc tính CONTENT nhƣ sau:
<META NAME="DC.Creator" CONTENT="Marx, Karl;Engels, Friedrich"/>
Theo quy ƣớc, tiền tố "DC" phải đƣợc viết hoa và các tên của phần tử phải viết hoa
ký tự đầu tiên.
Ví dụ META NAME="DC.Title" hay META NAME="DC.Creator". Không đƣợc viết nhƣ sau:
DC.CREATOR hoặc dc.CREATOR hoặc DC.creator
+ Dùng trong tài liệu RDF/XML: Có 2 cách sử dụng nhãn META trong dữ liệu
metadata độc lập và dữ liệu metadata gắn thêm.
3.2.3. Tích hợp với máy tìm kiếm Lucene Search Engine
Các thông tin về tài liệu dƣới dạng tập tin metadata định dạng theo XHTML khá
thuận tiện cho việc quản lý tài liệu. Và với mục đích tăng tốc độ xử lý, tận dụng hiệu quả tài
nguyên của máy chủ lƣu trữ, iDMS đƣợc kết hợp với một máy tìm kiếm mã nguồn mở khá
mạnh là Lucent Search Engine. Mỗi tài liệu khu đƣợc lƣu trữ vào hệ thống tập tin sẽ đƣợc
đánh chỉ mục và lƣu vào cơ sở dữ liệu của máy tìm kiếm này
Các định dạng của tập tin chỉ mục: Các khái niệm cơ bản của trong Lucene bao gồm:
Chỉ mục (index), tài liệu (document), trƣờng (field) và chủ chốt (term).
3.3. Viết ứng dụng mẫu trình diễn dữ liệu Thống kê trên điện toán đám mây
iDRAGON CLOUDS
Áp dụng thử nghiệm hệ thống thu thập xử lý dữ liệu điều tra Doanh nghiệp năm 2012
trên điện toán đám mây iDragon Clouds.
3.3.1. Cấu trúc dữ liệu của Điều tra Doanh nghiệp năm 2012 sau khi chuẩn hóa và được
lưu trữ trên điện toán đám mây có dạng như sau:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<VFPData>
<head>
<time>1349424284</time>
<tinh>31</tinh>
<macs>2076</macs>
19
<tencs>Công Ty Trách Nhiệm Hữu Hạn Gerbera Precision Việt Nam </tencs>
<ma_thue>0201123153</ma_thue>
<dchi>Nhà Xƣởng C3 -3, Lô C3, Kcn Tràng Duệ</dchi>
<lhdn>12</lhdn>
<tennganhkd>Sản Xuất Và Lắp Ráp Linh Kiện Đồng Hồ Đo Nƣớc </tennganhkd>
<nganh_kd>26520</nganh_kd>
</head>
<data>
<ld11>235</ld11>
<ld91>0</ld91>
<ld101>198</ld101>
<ld111>0</ld111>
<ld121>16</ld121>
<ld131>2</ld131>
<ld141>19</ld141>
<ld151>0</ld151>
<ld161>0</ld161>
</data>
</VFPData>
3.3.2. Cài đặt thử nghiệm
Hệ thống thử nghiệm sẽ yêu cầu các Cục Thống kê Tỉnh/Thành phố đăng ký theo kênh
riêng để có tài khoản đăng nhập hệ thống. Sau khi đã có tài khoản, ngƣời sử dụng sẽ đăng
nhập hệ thống băng trình duyệt Internet Explore hoặc Firefox thông thƣờng. Màn hình giao
diện chính có dạng nhƣ sau:
20
Một số thông tin cơ bản của Doanh nghiệp.
Biểu đồ so sánh trình độ lao động trong từng doanh nghiệp
Biều đồ so sánh trình độ chuyên mộn đào tạo lao động trong tinh.
21
Biều đồ so sánh tỷ lệ doanh nghiệp nhà nƣớc, doanh nghiệp ngoài nhà nƣớc và doanh
nghiệp nƣớc ngoài.
III. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Những kết quả đạt được
Sau một thời gian nghiên cứu, thực hiện, luận văn đã hoàn thành và đã thực hiện đƣợc
những vấn đề sau:
Tổng quan về điện toán đám mây cùng các vấn đề đặt ra xung quanh mô hình
dịch vụ đám mây.
22
Tìm hiểu vêc công nghệ lƣu trữ, xử lý dữ liệu lớn (Big Data). Cùng việc
nghiên cứu mô hình ứng dụng Điện toán đám mây iDragon Clouds trong việc
lƣu trữ và xử lý dữ liệu.
Vấn đề ứng dụng của điện toán đám mây nói chung cùng việc phân tích các ƣu
nhƣợc điểm của nó.
Nghiên cứu giải pháp ứng dụng Điện toán đám mây trong ngành Thống kê.
Hướng phát triển điện toán đám mây trong ngành Thống kê
Do thời gian và trình độ của tác giả còn hạn chế nên sau luận văn này, tác giả còn cẩn
phải bỏ nhiều thời gian nghiên cứu, học hỏi để hoàn thiện vấn đề lớn đã nêu ra trong luận
văn này. Cụ thể, tác giả có một số kiến nghị về hƣớng phát triển của luận văn nhƣ sau:
Với mục tiêu nâng cao năng lực công tác thống kê qua việc ứng dụng thành tựu của
công nghệ điện toán đám mây nhằm nâng cao chất lƣợng số liệu thống kê, phục vụ kịp thời,
thuận tiện các yêu cầu cảu các đối tƣợng sử dụng thông tin thống kê.
Kết luận
Căn cứ vào mục đích, Luận văn đã thực hiện đầy đủ các nội dung đặt ra theo trình
tự cần thiết, làm sáng tỏ mô hình điện toán đám mây đối với ngƣời sử dụng. Với những kết
quả đã đạt đƣợc, có thể khẳng định đây là một mô hình khả thi, phù hợp và mang lại nhiều
lợi ích trong điều kiện Việt Nam hiện nay. Cụ thể, một lớp lớn các bài toán, trƣớc đây khó
có khả năng công nghệ thông tin hóa ở nƣớc ta hoặc không triệt để vì lý do kinh tế, điều
kiện môi trƣờng hay trình độ tin học của ngƣời sử dụng… thì nay có thể giải quyết đƣợc
theo hƣớng mô hình này.
Do hạn chế về thời gian thực hiện, luận văn dừng lại ở đề xuất một mô hình triển
khai ứng dụng. Tác giả rất mong đƣợc sự góp ý chỉ bảo của các Thầy, các Cô.