LỜI CAM ĐOAN
Tôi xin cam đoan:
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng
dẫn trực tiếp của PGS. TS. Phan Huy Khánh.
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác
giả, tên công trình, thời gian, địa điểm công bố.
3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi
xin chịu hoàn toàn trách nhiệm.
Tác giả
Võ Phi Thanh
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT TIẾNG ANH IV
DANH MỤC CÁC HÌNH V
DANH MỤC CÁC BẢNG VI
MỞ ĐẦU 1
1. Lý do chọn đề tài 1
2. Mục tiêu và nhiệm vụ 2
3. Đối tượng và phạm vi nghiên cứu 3
4. Phương pháp nghiên cứu 3
5. Ý nghĩa khoa học và thực tiễn của đề tài 3
6. Bố cục của luận văn 3
CHƯƠNG 1 TÌM HIỂU KHO DỮ LIỆU VÀ ĐIỆN TOÁN ĐÁM MÂY 5
1.1. KHO DỮ LIỆU 5
!"#
$%&'()*+(",
1.2. ĐIỆN TOÁN ĐÁM MÂY 16
*#
!*-
./0*,
$1(234*
5(678(69578:#
#;<=>?@*,
AB&C( *
CHƯƠNG 2 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 34
2.1. GIỚI THIỆU 34
.DE$
5C@ F &G(H (2IJ(K0A
2.2. PHÂN TÍCH THỰC TRẠNG CÔNG TÁC ĐÀO TẠO TẠI TRƯỜNG TRUNG
CẤP KINH TẾ QUẢNG BÌNH 38
.DE-
LE)*+(&'( 0"$M
N2OJP$M
$( ($
2.3. PHÂN TÍCH NHU CẦU XÂY DỰNG KHO DỮ LIỆU 41
2.4. ĐỀ XUẤT GIẢI PHÁP ỨNG DỤNG ĐIỆN TOÁN ĐÁM MÂY 42
$./J>(4($
$5JQR4(*$
43
2.5. PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 45
%STU@QR4(9VQ6@Q6:$
.WX@/(Y
CHƯƠNG 3 XÂY DỰNG ỨNG DỤNG 58
3.1. CHỌN MÔI TRƯỜNG, CÔNG CỤ CÀI ĐẶT HỆ THỐNG 58
B*+(1'QD Z.*[I;-
[R4(/(4\ 0]@@^][%-
5(678(69578:,
3.2. THIẾT KẾ KHO DỮ LIỆU 59
H"",
H"T#
3.3. XÂY DỰNG VÀ TRIỂN KHO DỮ LIỆU TRÊN GOOGLE APP ENGINE 66
_("P"J?@5(678(69578:##
18Q65(6%(8Q6`#,
H% a6#,
$H "@>(4(" Z578A
3.4. ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM 77
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 79
TÀI LIỆU THAM KHẢO 80
PHỤ LỤC 82
DANH MỤC CÁC TỪ VIẾT TẮT TIẾNG VIỆT
CSDL Cơ sở dữ liệu
CBGV Cán bộ giáo viên
CNTT Công nghệ thông tin
CT Chương trình
DS Danh sách
ĐTĐM Điện toán đám mây
HP Học phần
HSSV Học sinh sinh viên
HT Hệ thống
KQ Kết quả
QL Quản lý
SXKD Sản xuất kinh doanh
TCCN Trung cấp chuyên nghiệp
TCKTQB Trung cấp kinh tế Quảng Bình
DANH MỤC CÁC TỪ VIẾT TẮT TIẾNG ANH
API Application Programming Interface
DW Data Warehouse
ETL Extract Transform Load
HTTP Hypertext Transfer Protocol
IaaS Infrastructure as a Service
IP Internet Protocol
IT Information Technology
LAN Local Area Network
OS Operating system
PaaS Platform as a Service
PC Personal computer
PDA Personal digital assistant
SaaS Software as a Service
SLA Service Level Agreement
SMTP Simple Mail Transfer Protocol
SOA Service oriented architecture
SOAP Simple Object Access Protocol
URL Uniform Resource Location
XML eXtensible Markup Language
DANH MỤC CÁC HÌNH
Số hiệu
hình
Tên hình Trang
1.1 Mô hình kiến trúc kho dữ liệu 7
1.2 Dòng dữ liệu trong kho 8
1.3 Mô hình hình sao 9
1.4 Mô hình bông tuyết 10
1.5 Mô hình lược đồ nhiều chiều 11
1.6 Quá trình tạo lập dữ liệu của kho dữ liệu 15
1.7 Sáu mô hình máy tính 16
1.8 Kiến trúc ĐTĐM 18
1.9 Mô hình dịch vụ ĐTĐM 20
1.10 Mô hình triển khai ĐTĐM 22
1.11
Top 10 lĩnh vực công nghệ chiến lược năm 2010 và
sự phát triển trong những năm gần đây
32
2.1 Mô hình giải pháp ĐTĐM 43
2.2 Quá trình tích hợp dữ liệu 44
2.3 Biểu đồ ca sử dụng người quản lý đào tạo 46
2.4 Biểu đồ ca sử dụng học sinh 47
2.5 Biểu đồ ca sử dụng giáo viên 47
2.6 Biểu đồ ca sử dụng người quản trị hệ thống 48
2.7 Biểu đồ ca sử dụng người dùng hệ thống 48
3.1 Sơ đồ kho dữ liệu đào tạo 59
3.2 Lược đồ quan hệ CSDL điểm học sinh 60
3.3 Đăng ký tài khoản GAE bước 1 65
3.4 Đăng ký tài khoản GAE bước 2 66
3.5 Đăng ký tài khoản GAE bước 3 66
3.6 Đăng ký tài khoản GAE bước 4 67
3.7 Giao diện ứng dụng GAE 68
3.8 Cấu trúc thư mục Project 69
3.9 Giao diện đăng nhập hệ thống 71
3.10 Giao diện chương trình quản lý đào tạo 71
3.11 Giao diện chương trình quản lý giáo viên 72
3.12 Giao diện chương trình quản lý học tập 73
3.13 Giao diện chương trình quản lý học phần 74
3.14 Giao diện chương trình quản ly thư viện 75
3.15 Giao diện chương trình quản lý phòng học 76
DANH MỤC CÁC BẢNG
Số hiệu
bảng
Tên bảng Trang
2.1 Số doanh nghiệp đang hoạt động SXKD 3 năm gần đây 35
2.2
Số trường học, GV, HS các cơ sở ĐT TCCN tỉnh
Quảng Bình trong 3 năm gần đây
36
2.3 Chất lượng đội ngũ giáo viên của trường 3 năm gần đây 37
2.4 Thống kê kinh phí của trường trong 3 năm gần đây 38
2.5
Số học sinh đăng ký dự thi vào trường, trúng tuyển và
nhập học.
39
2.6 Kết quả học tập của học sinh trong 3 năm gần đây 39
2.7 Dạng mã hóa hệ thống tổ chức 53
2.8 Bảng mã hóa đơn vị trực thuộc 53
2.9 Dạng mã hóa CBGV 54
2.10 Bảng mã hóa CBGV 54
2.11 Dạng mã hóa ngành nghề đào tạo 54
2.12 Bảng mã hóa ngành nghề đào tạo 55
2.13 Dạng mã hóa học phần 55
2.14 Bảng mã hóa học phần 55
2.15 Dạng mã hóa lớp học 55
2.16 Bảng mã hóa lớp học 56
2.17 Dạng mã hóa HSSV 56
2.18 Bảng mã hóa HSSV 56
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, sự bùng nổ thông tin, truyền thông đã có những bước phát
triển vượt bậc. Sự phát triển công nghệ của các thiết bị tính toán: Siêu máy
tính, máy chủ, máy tính cá nhân, các thiết bị di động thông minh, được kết
nối và sự bùng nổ ứng dụng Web. Với sự phát triển nhanh chóng của công
nghệ thông tin đòi hỏi sự đầu tư trang thiết bị cơ sở hạ tầng CNTT ngày càng
lớn, chi phí sử dụng các phần mềm, quản lý hệ thống cũng tăng. Trong khi
nhu cầu lưu trữ, xử lý thông tin nhanh chóng, chính xác nên các doanh
nghiệp, các tổ chức tăng cường ứng dụng CNTT. Do áp lực cạnh tranh, mong
muốn ứng dụng CNTT hiệu quả nhưng lại giảm chi phí luôn đặt ra.
Trong thời gian gần đây, chủ đề ĐTĐM được nhắc đến nhiều nhất trong
các sự kiện công nghệ, bất kỳ tạp chí công nghệ, các trang Web, blog về IT
đều đề cập đến ĐTĐM. Theo khảo sát mới đây của hãng nghiên cứu Gartner,
tốc độ phát triển ĐTĐM trên toàn thế giới đã đạt mức 17% hàng năm trong
khi hơn 50% doanh nghiệp, tổ chức tham gia đều triển khai điện toán đám
mây dưới hình thức này hay hình thức khác. [25]
Hiện nay, ĐTĐM được dự đoán là “cơn sóng thần công nghệ”. Không
nằm ngoài xu thế chung của thế giới, Việt Nam dần tiếp cần ĐTĐM thông
qua các nhà cung cấp như Google, IBM, Microsoft, Nhiều công ty tại Việt
Nam đã triển khai ĐTĐM như FPT, Sacombank, Misa,
Để giảm thiểu chi phí và tăng cường ứng dụng CNTT trong quản lý đào
tạo nhằm tăng hiệu quả đào tạo thì việc ứng dựng điện toán đám mây mang
lại nhiều lợi ích.
Mặt khác, quản lý dữ liệu đào tạo gồm nhiều dữ liệu không tương thích
với nhau, khi dữ liệu ngày càng khổng lồ thì việc truy xuất, thống kê, phân
1
loại càng khó khăn. Nhà quản lý còn mong muốn phân tích dữ liệu có khả
năng hỗ trợ các quyết định thì xây dựng kho dữ liệu giúp ích được điều đó.
Trong khi đó nhu cầu đào tạo của Trường Trung cấp Kinh tế Quảng Bình
ngày càng mở rộng, với chủ trương nhà trường mở nhiều mã ngành mới nhằm
đa dạng hóa ngành nghề đào tạo và đáp ứng nhu cầu xã hội. Hiện trạng quản
lý dữ liệu chưa đồng bộ, tính hệ thống chưa cao, việc tiếp cận nguồn dữ liệu
cần thiết đối với cán bộ, giáo viên, học sinh, người quản lý còn hạn chế.
Công tác lưu trữ dữ liệu chưa đảm bảo, chủ yếu lưu trữ trên từng máy do từng
cá nhân phụ trách. Chưa tiến hành phân tích dữ liệu để hỗ trợ các quyết định
của nhà quản lý. Thông qua mối quan hệ chương trình đào tạo, các khâu quản
lý, chất lượng giáo viên, ảnh hưởng đến chất lượng đào tạo để phân tích, so
sánh, đối chiếu hỗ trợ quá trình lãnh đạo.
Việc ứng dụng điện toán đám mây để xây dựng kho dữ liệu là cần thiết,
do đó tôi chọn đề tài “Ứng dụng điện toán đám mây xây dựng kho dữ liệu
phục vụ đào tạo tại trường Trung cấp Kinh tế Quảng Bình” .
2. Mục tiêu và nhiệm vụ
Trên cơ sở phân tích hiện trạng và nhu cầu phát triển hiệu quả đào tạo tại
trường Trung cấp Kinh tế Quảng Bình, đề tài tìm hiểu lĩnh vực ĐTĐM, các
công cụ phát triển khai thác ĐTĐM, xây dựng kho dữ liệu phục vụ đào tạo,
trợ giúp, phân tích, báo cáo, dự báo hoạt động đào tạo tại trường trong bối
cảnh phát triển kinh tế địa phương Quảng Bình và hội nhập quốc tế.
Từ thực trạng, sẽ đánh giá được ưu điểm, hạn chế của việc sử dụng mô
hình này. Từ đó đề xuất các giải pháp nhằm nâng cao hiệu quả đào tạo
tại trường.
2
3. Đối tượng và phạm vi nghiên cứu
Nghiên cứu nguồn dữ liệu phục vụ đào tạo tại trường Trung cấp Kinh tế
Quảng Bình
Tìm hiểu kho dữ liệu, ĐTĐM, các công cụ phát triển, khai thác Kho dữ
liệu và ĐTĐM.
4. Phương pháp nghiên cứu
- Phân tích hiện trạng và nhu cầu đào tạo tại trường Trung cấp Kinh tế
Quảng Bình
- Tìm hiểu ĐTĐM để đề xuất giải pháp.
- Lựa chọn mô típ công cụ, ngôn ngữ lập trình để xây dựng ứng dụng và
đánh giá kết quả thử nghiệm.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Về khoa học, đề tài tìm hiểu, nghiên cứu ứng dụng điện toán đám mây,
xây dựng kho dữ liệu, trên cơ sở đó có cách nhìn tổng quan để đề xuất giải
pháp xây dựng ứng dụng.
Về thực tiễn, đề tài xây dựng ứng dụng nhằm giảm chi phí nguồn lực
CNTT, quản lý dữ liệu đào tạo khoa học, hỗ trợ nhà quản lý đưa ra quyết định
kịp thời góp phần nâng cao hiệu quả đào tạo của nhà trường.
6. Bố cục của luận văn
Luận văn gồm có 3 chương:
Chương 1: Tìm hiểu kho dữ liệu và điện toán đám mây
Tìm hiểu, nghiên cứu về kho dữ liệu (Data Warehouse), một số khái
niệm cơ bản, đặc điểm, phân loại, sử dụng
Tìm hiểu, nghiên cứu tổng quan về điện toán đám mây (Cloud
Computing), một số khái niệm cơ bản, tìm hiểu về kiến trúc, mô hình chung
của điện toán đám mây, tìm hiểu một số sản phẩm ứng dụng công nghệ này.
3
Chương 2: Phân tích và thiết kế hệ thống
Phân tích hiện trạng công tác đào tạo tại Trường TCKTQB, nhu cầu cầu
xây dựng kho dữ liệu và đề xuất giải pháp ứng dụng ĐTĐM xây dựng kho
dữ liệu
Chương 3: Xây dựng ứng dụng
Thiết kế kho dữ liệu, thiết kế báo cáo, phân tích dữ liệu. Xây dựng và
triển khai kho dữ liệu trên nền tảng đám mây của Google
4
CHƯƠNG 1
TÌM HIỂU KHO DỮ LIỆU VÀ ĐIỆN TOÁN ĐÁM MÂY
1.1. KHO DỮ LIỆU
1.1.1. Khái niệm về Kho dữ liệu
Có nhiều cách định nghĩa về Kho dữ liệu (Data Warehouse - DW)
Kho dữ liệu là kho lưu trữ dữ liệu lưu trữ bằng thiết bị điện tử của một tổ
chức. Các kho dữ liệu được thiết kế để hỗ trợ việc phân tích dữ liệu và lập báo
cáo. [12]
Kho dữ liệu là tập hợp các CSDL tích hợp, hướng chủ đề, ổn định, gắn
với thời gian, được thiết kế để hỗ trợ cho chức năng ra quyết định trong công
tác quản lý.
1.1.2. Đặc điểm và phân loại
a. Đặc điểm
Tính tích hợp (integrated): Kho dữ liệu có khả năng thu thập dữ liệu từ
nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất. Dữ liệu tập
hợp từ nhiều nguồn khác nhau như CSDL quan hệ, tập tin flat, tập tin bảng
tính, tài liệu, các bảng ghi giao dịch trực tuyến Điều này sẽ dẫn đến việc quá
trình tập hợp phải thực hiện việc làm sạch, xắp xếp, rút gọn dữ liệu.
Hướng chủ đề (subject-oriented): Được tổ chức xung quanh chủ đề
chính như khách hàng, sản phẩm, bán hàng,
Biến thời gian (time-variant): Mỗi bản ghi của kho dữ liệu chứa một yếu
tố thời gian như một phần của khóa chính để bảo đảm tính duy nhất của mỗi
bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu. Toàn bộ dữ liệu
trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định. Yếu tố
thời gian được lưu trữ trong tập tin CSDL
5
Dữ liệu ổn định (non-volatile): Tính ổn định của kho dữ liệu được hiểu
theo nghĩa: dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ
liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xóa, điều đó cho
phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần
thiết cho các mô hình nghiệp vụ phân tích, dự báo.
b. Phân loại
Tùy thuộc vào quy mô tổ chức, cách tổ chức và vị trí của kho dữ liệu mà
người ta chia Kho dữ liệu thành hai loại là: Enterprise Data Warehouse và
Data Mart.
Enterprise Data Warehouse
Enterprise Data Warehouse là một cơ sở dữ liệu bao gồm dữ liệu về
nhiều đối tượng khác nhau, trên toàn bộ cơ quan và thường được xây dựng
tập trung.
Data Mart
Khái niệm: Data Mart cũng là một cơ sở dữ liệu có những đặc điểm
giống với kho dữ liệu nhưng quy mô của nó nhỏ hơn và lưu trữ dữ liệu
về một lĩnh vực, một chuyên ngành cụ thể.
Phân loại Data Mart: Gồm Data Mart phụ thuộc và Data Mart độc lập
Siêu dữ liệu (Metadata): Metadata là một loại “dữ liệu về dữ liệu”, nó
được xây dựng nhằm mục đích mô tả cấu trúc nội dung về dữ liệu bên trong
cơ sở dữ liệu. Metadata có ý nghĩa đặc biệt quan trọng trong việc xây dựng
và tổ chức lưu trữ dữ liệu của Data Warehouse.
1.1.3. Kiến trúc kho dữ liệu
a. Kiến trúc kho dữ liệu
Mô hình kiến trúc của kho dữ liệu cơ bản gồm có ba thành phần:
Nguồn dữ liệu, khu vực xử lý và kho dữ liệu.
6
Hình 1.1. Mô hình kiến trúc kho dữ liệu
- Nguồn dữ liệu: Nguồn dữ liệu của kho dữ liệu có thể từ rất nhiều
nguồn khác nhau và có cấu trúc dữ liệu khác nhau, bao gồm các hệ thống
trong và ngoài của một tổ chức, rất phong phú về chủng loại. Các hệ thống
nằm trong được coi như các hệ thống nguồn hoặc các hệ thống đã có sẵn. Dữ
liệu từ các hệ thống nguồn thường hỗn tạp và chứa nhiều cấu trúc khác nhau
ví dụ: các cơ sở dữ liệu, từ các file excel, các file thô, hay dạng XML Vì thế
trước khi đưa vào kho dữ liệu cần phải chuyển đổi và tích hợp dữ liệu.
- Vùng xử lý: Dữ liệu phát sinh từ các hoạt động hàng ngày được thu
thập, xử lý để phục vụ công việc cụ thể của một tổ chức thường được gọi là
dữ liệu tác nghiệp và hoạt động thu thập xử lý loại dữ liệu này được gọi là xử
lý giao dịch trực tuyến (OLTP). Dữ liệu tại các CSDL tác nghiệp được lấy
từ nhiều nguồn khác nhau nên dễ bị nhiễu, hỗn tạp dẫn đến dữ liệu không
sạch, không toàn vẹn. Do đó việc kiểm tra dữ liệu, làm sạch dữ liệu phải
được tiến hành ngay tại đây nhằm bảo đảm tính toàn vẹn, tính đúng đắn,
tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích. Thông thường
người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL).
Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu,
tải dữ liệu vào kho dữ liệu.
7
- Kho dữ liệu
- Cơ sở dữ liệu của kho dữ liệu
- Siêu dữ liệu (Metadata)
- Kho dữ liệu chủ đề (Datamart)
- Bảng sự kiện tổng hợp (Fact)
- Ứng dụng đầu cuối
Người sử dụng khai thác lợi ích từ kho dữ liệu như: Báo biểu, phân
tích, khai phá dữ liệu.
b. Dòng dữ liệu trong kho
Do kho dữ liệu chứa lượng dữ liệu lớn, đồng thời hạn chế thao tác sửa
đổi nên rất thích hợp cho việc phân tích và báo cáo. Các thao tác với dữ liệu
của kho dữ liệu chủ yếu dựa trên cơ sở là Mô hình dữ liệu đa chiều
(multidimensional data model) thường áp dụng cho các khối dữ liệu (data
cube). Khối dữ liệu là trung tâm của vấn đề cần phân tích, bao gồm một hay
nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ nhiều chiều (dimension)
dữ kiện khác nhau.
Hình 1.2. Dòng dữ liệu trong kho
8
1.1.4. Phương pháp xây dựng kho dữ liệu
a. Phương pháp xây dựng kho dữ liệu
Xây dựng kho dữ liệu vừa là một tiến trình công việc và cũng đồng
thời là một kiến trúc nhằm thực hiện các nội dung như: lựa chọn, chuyển
đổi, lưu chuyển, bảo toàn tính toàn vẹn, tích hợp, làm sạch dữ liệu, đưa dữ
liệu từ nhiều nguồn dữ liệu tác nghiệp vào hệ thống quản lý cơ sở dữ liệu để
phục vụ các quá trình ra quyết định.
Thiết kế CSDL cho kho dữ liệu theo các phương pháp:
- Lược đồ hình sao (Start schema): Lược đồ hình sao cho phép một hệ
thống đối tượng có thể kết nối với nhiều đối tượng khác. Mô hình này thể
hiện cách nhìn của người sử dụng về nhiều vấn đề trong tác nghiệp. Trong sơ
đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:
- Các sự kiện được tổ chức thành bảng sự kiện
- Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng
chiều.
Hình 1.3. Mô hình hình sao
9
Mô hình sao không hỗ trợ tốt cho các bảng chứa các thuộc tính phân
cấp. Mô hình bông tuyết (SnowFlake Schema) đưa ra giải pháp cho mô hình
sao khi bảng có thuộc tính phân cấp.
- Lược đồ hình tuyết rơi (Snowflake): Lược đồ này là mở rộng của lược
đồ hình sao. Khi một bảng chiều trở lên phức tạp hàm chức các quan hệ dữ
liệu thì có thể tách thành nhiều bảng. Các bảng được tách có quan hệ với bảng
chiều tạo lên hình dạng tuyết rơi. Công việc này cũng chính là chuẩn hóa dữ
liệu cho bảng chiều.
Hình 1.4. Mô hình bông tuyết
Tùy theo thực tế mà ta lựa chọn lược đồ hình sao hay hình tuyết rơi.
Việc lựa chọn được cân nhắc giữa hai yếu tố: thời gian đáp ứng truy vấn và
mức độ kiểm soát tính chặt chẽ dữ liệu. Mô hình bông tuyết có thể thích hợp
khi dữ liệu bảng chiều trở lên quá lớn và nhiều thuộc tính. Tuy sự khác nhau
10
thể hiện rất rõ về mặt lý thuyết nhưng khi thực hiện chúng trong thực tế có thể
dẫn tới các kết quả khác nhau.
- Mô hình dữ liệu nhiều chiều (lược đồ kết hợp: Là kết hợp giữa sơ đồ
hình sao dựa trên bảng sự kiện và những bảng chiều không chuẩn hóa theo
các chuẩn 1, 2, 3 và sơ đồ hình tuyết rơi trong đó tất cả các bảng chiều đều đã
được chuẩn hóa. Trong sơ đồ loại này chỉ những bảng chiều lớn là được
chuẩn hóa còn những bảng khác chứa một khối lượng lớn các cột dữ liệu
chưa được chuẩn hóa.
Hình 1.5. Mô hình lược đồ nhiều chiều
b. Quy trình xây dựng Kho dữ liệu
Để xây dựng kho dữ liệu gồm các bước sau: Lập kế hoạch, Xác định yêu
cầu, thiết kế, xây dựng, triển khai, bảo trì.
- Lập kế hoạch
Sau khi đã thống nhất xây dựng kho dữ liệu phục vụ quản lý của tổ chức,
đầu tiên phải lập kế hoạch bao gồm các bước sau:
11
Môn học
Sinh viên
Xác định chiến lược cài đặt: Đây là bước quan trọng, quyết định cơ cấu
tổ chức kho dữ liệu. Có ba cách tiếp cận chính: Thực hiện từ trên xuống (Top
– Down), thực hiện từ dưới lên (Bottom up), tổ hợp hai cách tiếp cận trên.
Tùy vào cách tổ chức dữ liệu tại tổ chức mà chọn cách tiếp cận phù hợp.
Lựa chọn phương pháp và mô hình phát triển kho dữ liệu: Để phát triển
hệ thống kho dữ liệu có hai phương pháp cơ bản: Phương pháp hướng chức
năng: tập trung vào chức năng là chính, dữ liệu là phụ. Phương pháp hướng
đối tượng: xem hệ thống là tập các đối tượng và do vậy tập trung chính vào
dữ liệu. Tuỳ vào sự hỗ trợ của công nghệ, của năng lực của đội ngũ cán bộ
tham gia dự án mà lựa chọn phương pháp phù hợp.
Xác định mục tiêu kho dữ liệu: Việc xác định kho dữ liệu là rất phức tạp
vì kho dữ liệu chính là một hệ thống các CSDL lớn, phức tạp với khối lượng
dữ liệu khổng lồ và thường là không thuần nhất, bao quát nhiều lĩnh vực khác
nhau.
Xác định phạm vi hệ thống: Trong hầu hết các tổ chức, lý do cần phát
triển kho dữ liệu là nhằm đáp ứng nhu cầu quản lý, khai thác thông tin để thực
hiện công việc hay trợ giúp quyết định trong quản lý, điều hành công việc của
một nhóm người, một bộ phận hay cả tổ chức đó.
Lựa chọn kiến trúc kho dữ liệu: Có thể xây dựng kho dữ liệu theo những
kiến trúc sau:
Chỉ xây dựng quầy dữ liệu (Data Mart). Kiến trúc này phù hợp cho các
Phòng, Ban trong tổ chức có nhu cầu riêng.
Chỉ xây dựng kho dữ liệu. Trong kiến trúc này, các phép xử lý đối với
các nguồn dữ liệu như: làm sạch, tích hợp, tổng hợp, v.v. sẽ được sử dụng
chung cho mọi ứng dụng.
12
Xây dựng kho dữ liệu và cả quầy dữ liệu. Mỗi bộ phận có tiểu kho,
được đặt trong một cơ cấu thống nhất được gọi là tổng kho, hay kho dữ liệu
liên hợp. Đây chính là kiến trúc ba tầng đã phân tích.
Kiến trúc Client/Server gồm hai lớp chình: lớp Server và lớp Client.
Server thực hiện các chương trình trong kho, quầy dữ liệu và lưu trữ dữ liệu
vào kho. Client thực hiện các chương trình khai thác, lập báo cáo, lưu trữ dữ
liệu cục bộ, v.v.
Xây dựng chương trình và dự kiến ngân sách
Xây dựng chương trình gồm: Chương trình hành động với chương trình
dự án. Chương trình hành động bao gồm các kế hoạch tổng hợp về các ứng
dụng kho dữ liệu và vai trò của nó trong tổ chức, xã hội. Chương trình dự án
là các kế hoạch thực hiện cụ thể kho dữ liệu, nó phải phù hợp với thứ tự ưu
tiên công việc mà chương trình hành động nêu trên đề ra.
Dự trù ngân sách tương xứng với chương trình phát triển hệ thống, bao
gồm tất cả các kinh phí hoạt động: Phân tích, thiết kế, cài đặt, duy trì, v.v.
- Phân tích các yêu cầu hệ thống
Yêu cầu về kiến trúc: Kiến trúc hệ thống là rất quan trọng, nó quyết định
nhiều tính chất và các khả năng của kho dữ liệu. Kiến trúc là cơ sở để thiết lập
các thành phần của một kho dữ liệu nhằm đáp ứng các nhu cầu hiện tại và
tương lai của một tổ chức. Khi xây dựng kho dữ liệu cần lưu ý tới ba loại kiến
trúc sau: Kiến trúc dữ liệu, kiến trúc chương trình ứng dụng, kiến trúc công
nghệ.
Yêu cầu người phát triển hệ thống: Những người xây dựng hệ thống
thường quan tâm đến những vấn đề cụ thể của kho dữ liệu. Họ có những yêu
cầu cơ bản như: Yêu cầu về công nghệ, yêu cầu về triển khai, các yêu cầu về
sản phẩm, các yêu cầu về người tham gia dự án, …
13
Yêu cầu của người sử dụng đầu cuối: Người sử dụng đầu cuối của kho
dữ liệu là các doanh nghiệp, các kỹ thuật viên, các nhà quản lý, các thương
gia, các chuyên viên của những lĩnh vực liên quan Mục đích là xử lý thông
tin từ kho dữ liệu phục vụ nhu cầu quản lý của họ.
- Thiết kế và xây dựng kho dữ liệu
Xây dựng kho dữ liệu là quá trình tích hợp dữ liệu từ các nguồn khác
nhau vào một kho. Các nhà phân tích nghiệp vụ có thể truy vấn kho dữ liệu và
sinh các báo cáo, biểu đồ để trợ giúp quá trình ra quyết định của họ. Một kho
dữ liệu có thể chứa CSDL lớn toàn xí nghiệp hoặc có thể kết hợp một số hệ
thống nhỏ (Data Mart).
Nguồn dữ liệu: Bao gồm các hệ thống dữ liệu bên trong hay bên ngoài
của tổ chức:
Dữ liệu bên trong (Internal Data): Là những thông tin có sẵn bao gồm
các hệ thống tác nghiệp hỗ trợ các hoạt động nghiệp vụ như sản xuất, kinh
doanh.
Dữ liệu bên ngoài (External Data): Là dữ liệu không nằm trong các hệ
thống tác nghiệp của tỏ chức đó, là những dữ liệu do người sử dụng đầu cuối
yêu cầu để phục vụ các nhu cầu công việc của họ.
Phân tích các nguồn dữ liệu: Các hệ thống thông tin có sẵn được phát
triển xung quanh các vùng nghiệp vụ của tổ chức cần xây dựng dự án. Các
ứng dụng được phát triển với dữ liệu mà các dữ liệu này phù hợp với các nhu
cầu khác nhau, với cùng một hệ thống dữ liệu nhưng với tên khác nhau, hoặc
với các hệ thống đo lường khác nhau, định nghĩa dữ liệu thậm chí chúng
có những yêu cầu về dữ liệu tương tự như nhau. Kết quả cuối cùng là các
nguồn dữ liệu cần được đánh giá.
Thu thập và tạo lập dữ liệu: Một phần quan trọng của việc cài đặt kho
dữ liệu là sử dụng những dữ liệu đã được tinh chế từ những hệ thống tác
14
nghiệp và đưa chúng vào một khuôn dạng thích hợp cho các ứng dụng thông
tin. Có nhiều công cụ có sẵn thường chỉ có ích cho việc tinh chế những dữ
liệu đơn giản. Do đó việc phát triển những thủ tục tinh chế cho một số lĩnh
vực ứng dụng là cần thiết cho việc tinh chế dữ liệu. Các công đoạn thực hiện
bao gồm: Bóc tách dữ liệu; lọc, làm sạch dữ liệu; thẩm định dữ liệu; gộp, kết
tập dữ liệu; tải dữ liệu vào kho; lưu trữ, phân tán, phân phối dữ liệu.
Quá trình này gồm các bước sau:
Hình 1.6. Quá trình tạo lập dữ liệu của kho dữ liệu
- Duy trì và triển khai kho dữ liệu
Triển khai liên quan đến ngoài kho dữ liệu, siêu dữ liệu còn liên quan
đến việc thực hiện, quản lí các nhu cầu về công cụ truy vấn của người sử
dụng đầu cuối, lưu trữ các dữ liệu cũ. Giai đoạn triển khai đưa những thành
phần phụ và cố định vào kho dữ liệu. Giai đoạn triển khai đưa vào các phần
trang trí và những bộ phận bất động vào kho dữ liệu. Tại giai đoạn này, công
cụ truy nhập và phân tích đã phải được lựa chọn để cung cấp tập kết quả. Việc
triển khai kho dữ liệu ảnh hưởng tới 3 vùng chính:
- Công ty.
- Toàn bộ thông tin trợ giúp.
15
- Những người sử dụng đầu cuối.
1.2. ĐIỆN TOÁN ĐÁM MÂY
1.2.1 Khái niệm về điện toán đám mây
a. Lịch sử phát triển
Hình 1.7. Sáu mô hình máy tính [3]
(Adapted from Voas and Zhang (2009))
16
Thuật ngữ điện toán đám mây xuất hiện bắt nguồn từ ứng dụng điện toán
lưới (grid computing) trong thập niên 1980, tiếp theo là điện toán theo nhu
cầu (utility computing) và phần mềm dịch vụ (SaaS).
Điện toán lưới đặt trọng tâm vào việc di chuyển một tải công
việc (workload) đến địa điểm của các tài nguyên điện toán cần thiết để sử
dụng. Một lưới là một nhóm máy chủ mà trên đó nhiệm vụ lớn được chia
thành những tác vụ nhỏ để chạy song song, được xem là một máy chủ ảo.
Với điện toán đám mây, các tài nguyên điện toán như máy chủ có thể
được định hình động hoặc cắt nhỏ từ cơ sở hạ tầng phần cứng nền và trở nên
sẵn sàng thực hiện nhiệm vụ, hỗ trợ những môi trường không phải là điện
toán lưới như Web ba lớp chạy các ứng dụng truyền thống hay ứng dụng
Web 2.0.
b. Khái niệm
Điện toán đám mây (tiếng Anh: cloud computing), còn gọi là điện toán
máy chủ ảo, là mô hình điện toán sử dụng các công nghệ máy tính và phát
triển dựa vào mạng Internet. Thuật ngữ "đám mây" ở đây là lối nói ẩn dụ chỉ
mạng Internet (dựa vào cách được bố trí của nó trong sơ đồ mạng máy tính)
và như một liên tưởng về độ phức tạp của các cơ sở hạ tầng chứa trong nó. Ở
mô hình điện toán này, mọi khả năng liên quan đến công nghệ thông tin đều
được cung cấp dưới dạng các "dịch vụ", cho phép người sử dụng truy cập các
dịch vụ công nghệ từ một nhà cung cấp nào đó "trong đám mây" mà không
cần phải có các kiến thức, kinh nghiệm về công nghệ đó, cũng như không cần
quan tâm đến các cơ sở hạ tầng phục vụ công nghệ đó. [17]
Điện toán đám mây là mô hình diện toán cho phép truy cập qua mạng để
lựa chọn và sử dụng tài nguyên tính toán (ví dụ: mạng, máy chủ, lưu trữ, ứng
dụng và dịch vụ) theo nhu cầu một cách thuận tiện và nhanh chóng, đồng thời
17
cho phép kết thúc sử dụng dịch vụ, giải phóng tài nguyên dễ dàng, giảm thiểu
các giao tiếp với nhà cung cấp. [10]
Như vậy, hiểu một cách đơn giản mô hình ĐTĐM cung cấp cho người
sử dụng, các tổ chức, doanh nghiệp sử dụng tài nguyên CNTT dưới dạng các
dịch vụ. Cho phép người sử dụng lựa chọn các dịch vụ linh hoạt, theo yêu
cầu, giảm thiểu chi phí đầu tư cơ sở hạ tầng. Người sử dụng không cần biết
bằng công nghệ, hình thức nào và phương thức quản lý như thế nào để tạo ra
và duy trì các dịch vụ đó, mà chỉ quan tâm làm thế nào để có thể truy cập sử
dụng dịch vụ và mức độ an toàn, tin cậy của dịch vụ được cung cấp có đáp
ứng được như cầu của mình hay không.
1.2.2. Kiến trúc điện toán đám mây
Kiến trúc mô hình ĐTĐM gồm bốn tầng như sau:
Tầng ứng dụng
(Aplication Layer)
Tầng nền tảng
(Platform Layer)
Tầng tài nguyên hợp nhất
(Unified Resource Layer)
Tầng thiết bị
(Fabric Layer)
Hình 1.8. Kiến trúc ĐTĐM [5]
Tầng kết cấu thiết bị (Fabric Layer): Tầng này chịu trách nhiệm cung cấp
các tài nguyên khác nhau như là sức mạnh tính toán, các kho lưu trữ, các tài
nguyên mạng và kho mã. Điều này có nghĩa là không giới hạ các nguồn tài
18