ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI THỊ LIÊN HƯƠNG
XÂY DỰNG HỆ THỐNG TRỢ GIÚP RA QUYẾT ĐỊNH PHỤC
VỤ CÔNG TÁC QUẢN LÝ CÁC ĐỀ TÀI NGHIÊN CỨU
KHOA HỌC VÀ CÔNG NGHỆ CỦA CÁC ĐƠN VỊ TRỰC
THUỘC BỘ KHOA HỌC VÀ CÔNG NGHỆ
LUẬN VĂN THẠC SĨ
Hà Nội - 2010
2
MỤC LỤC
LỜI CAM ĐOAN 1
DANH MỤC CÁC TỪ VIẾT TẮT 5
DANH MỤC CÁC BẢNG 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7
MỞ ĐẦU 8
1. Lý do chọn đề tài: 8
2. Tổng quan tình hình nghiên cứu: 9
3. Mục tiêu nghiên cứu: 11
4. Phạm vi nghiên cứu: 11
5. Mẫu khảo sát: 12
6. Vấn đề nghiên cứu: 12
7. Giả thuyết nghiên cứu: 12
8. Phƣơng pháp chứng minh giả thuyết: 13
9. Kết cấu luận văn: 14
CHƢƠNG 1. TỔNG QUAN 15
1.1. Hệ trợ giúp ra quyết định 15
1.1.1. Giới thiệu khái niệm hệ trợ giúp ra quyết định 15
1.1.2. Phân loại hệ trợ giúp ra quyết định 15
1.1.3. Các thành phần cơ bản của hệ hỗ trợ ra quyết định 16
1.2. Kho dữ liệu (DW) 17
1.2.1. Dữ liệu tác nghiệp 17
1.2.2. Khái niệm về kho dữ liệu 19
1.2.3. Đặc trưng của kho dữ liệu 20
1.2.4. Siêu dữ liệu (Meta Data) 21
1.2.5. Cấu trúc kho dữ liệu 21
1.2.6. Các mô hình kho dữ liệu 23
1.2.7. Các bước thiết kế kho dữ liệu 24
1.3. Xử lý dữ liệu trực tuyến (OLAP) 25
1.3.1. Lý do sử dụng OLAP 25
1.3.2. Kiến trúc vật lý 26
1.3.3. Phương pháp thiết kế 27
1.3.4. Thực hiện truy vấn và thiết kế khung nhìn (Materialized View) 28
1.3.5. Các phép toán OLAP trong mô hình dữ liệu nhiều chiều 29
1.4. Kết luận 31
3
&CN 32
2.1. Giới thiệu chung về hệ thống 32
2.2. Phƣơng pháp luận và công cụ 33
2.2.1. Phương pháp luận chung 33
2.2.2. Phân tích có cấu trúc 33
2.2.3. Hai mô hình phân tích hệ thống có cấu trúc 34
2.2.4. Phương pháp luận xây dựng kho dữ liệu 34
2.2.5. Công cụ thực hiện 35
2.2.6. Bộ công cụ Microsoft SQL Server 2005 36
2.3. Phân tích, thiết kế hệ thống 36
2.3.1. Những yêu cầu chung về hệ thống 36
2.3.2. Thiết kế cơ sở dữ liệu 37
2.3.3. Xây dựng mô hình cấu trúc cơ sở dữ liệu 40
2.3.4. 40
2.4. Kết luận 41
CHƢƠNG 3. XÂY DỰNG KHO DỮ LIỆU VÀ GIẢI PHÁP XỬ LÝ PHÂN
TÍCH TRỰC TUYẾN 42
3.1. 42
3.1.1. Phân tích hệ thống 42
3.1.2. Phân tích chức năng 42
3.1.3. Nội dung thông tin cần khai thác 44
3.1.4. Phân tích về dữ liệu 45
3.2. Xây dựng các khối và các chiều cho giải pháp OLAP 47
3.2.1. Xây dựng tiến trình trợ giúp cho bài toán 47
3.2.2. Xây dựng các khối và các chiều cho OLAP 49
3.3 Kết luận 51
52
4.1. 52
4.1.1. 52
4.1.2. 52
4.2. 53
4.2.1. Tạo lập cơ sở dữ liệu đa chiều 53
4.2.2. Phân tích và hiển thị dữ liệu 53
4.2.3. Tạo và thực hiện các truy vấn 54
4.3. Cài đặt minh họa 54
4.3.1. Chuẩn bị dữ liệu 54
4
4.3.2. Phân tích và hiển thị dữ liệu 66
4.4. Kết luận 70
KẾT LUẬN 71
TÀI LIỆU THAM KHẢO 73
5
DANH MỤC CÁC TỪ VIẾT TẮT
Tên khoa học
Tên viết tắt
Giải nghĩa
CNTT
Công nghệ thông tin
CNTT & TT
Công nghệ thông tin và
truyền thông
KH&CN
Khoa học và Công nghệ
Database
CSDL
Cơ sở dữ liệu
Data warehouse
DW
Kho dữ liệu
Decision Support System
DSS
Hệ trợ giúp ra quyết định
Metadata
Siêu dữ liệu
Online Analysis Processing
OLAP
Xử lý phân tích trực tuyến
Online Transaction Processing
OLTP
Xử lý giao dịch trực tuyến
6
DANH MỤC CÁC BẢNG
1. Bảng 3.1.1. Phân cấp dữ liệu trong bảng chiều
2. Bảng 3.1.2. Một số đơn vị đo đặc trưng của bảng sự kiện
3. Bảng 4.3.1. Chuẩn bị dữ liệu cho bảng Chủ nhiệm đề tài
4. Bảng 4.3.2. Chuyển dữ liệu tới bảng sự kiện
7
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
1. Hình 1.2.1. Cấu trúc kho dữ liệu
2. Hình 1.2.2. Sơ đồ hình sao
3. Hình 1.2.3. Sơ đồ tuyết rơi
4. Hình 1.3.1. Các phép toán OLAP
5. Hình 2.3.1. Sơ đồ quan hệ thông tin đề tài nghiên cứu khoa học
6. Hình 3.2.1. Tiến trình trợ giúp
7. Hình 3.2.2. Mô hình dữ liệu đa chiều
8. Hình 3.2.3. Mô hình dữ liệu khối
9. Hình 4.1.2. Sơ đồ chi tiết cài đặt hệ thống
10. Hình 4.3.1. Tạo một Analysis Services Project mới
11. Hình 4.3.2. Xác định dữ liệu nguồn
12. Hình 4.3.3. Chọn dữ liệu để xử lý
13. Hình 4.3.4. Xác định bảng sự kiện và bảng chiều
14. Hình 4.3.5. Lựa chọn đơn vị đo
15. Hình 4.3.6. Phân tích và hiển thị dữ liệu của khối
8
MỞ ĐẦU
1. Lý do chọn đề tài:
Sự phát triển vượt bậc và không ngừng đổi mới của ngành CNTT&TT đã
và đang tác động mạnh mẽ, sâu sắc và toàn diện đến mọi mặt trong đời sống
chính trị, kinh tế, văn hóa, xã hội trên toàn thế giới. Cuộc cách mạng KH&CN
này đã và đang tạo ra cơ hội cho những biến đổi cơ bản và những thành công to
lớn của các nước trên thế giới. Trong vài thập kỷ gần đây, nhiều nước trên thế
giới đã nắm bắt được cơ hội ứng dụng CNTT&TT, tận dụng thế mạnh của nó để
thúc đẩy phát triển kinh tế-xã hội, tạo ra những bước đột phá, đưa đất nước tiến
mạnh lên phía trước.
Để hội nhập với xu thế phát triển chung của thế giới và các nước trong
khu vực, Bộ Chính trị đã ban hành Chỉ thị số 58-CT/TW ngày 17/10/2000 về
đẩy mạnh ứng dụng và phát triển CNTT phục vụ sự nghiệp công nghiệp hóa,
hiện đại hóa đất nước, trong đó đã khẳng định: “Ứng dụng và phát triển CNTT ở
nước ta nhằm góp phần giải phóng sức mạnh vật chất, trí tuệ và tinh thần của
toàn dân tộc, thúc đẩy công cuộc đổi mới, phát triển nhanh và hiện đại hoá các
ngành kinh tế, tăng cường năng lực cạnh tranh của các doanh nghiệp, hỗ trợ có
hiệu quả cho quá trình chủ động hội nhập kinh tế quốc tế, nâng cao chất lượng
cuộc sống của nhân dân, đảm bảo an ninh, quốc phòng và tạo khả năng đi tắt
đón đầu để thực hiện thắng lợi sự nghiệp công nghiệp hoá, hiện đại hoá”. Đặc
biệt, Quốc hội khóa XI đã thông qua Luật giao dịch điện tử, Luật CNTT và
Chính phủ đã ban hành Nghị định số 64/2007/NĐ-CP ngày 10/4/2007 về ứng
dụng CNTT trong hoạt động của cơ quan nhà nước, tạo ra một cơ sở pháp lý
quan trọng để thúc đẩy phát triển ứng dụng CNTT nhằm nâng cao chất lượng,
hiệu quả trong hoạt động của cơ quan nhà nước và giữa các cơ quan nhà nước,
trong giao dịch điện tử của cơ quan nhà nước với các tổ chức và cá nhân; hỗ trợ
cải cách thủ tục hành chính và cung cấp dịch vụ công bảo đảm công khai, minh
bạch…
Trong những thập kỷ qua, sự phát triển nhanh chóng của các công nghệ
hiện đại trong lĩnh vực CNTT&TT, đặc biệt là mạng Internet, đang tạo ra những
thay đổi đáng kể trong việc tổ chức quản lý hoạt động nghiên cứu triển khai nói
riêng và trong hệ thống quản lý ngành KH&CN nói chung. Là một cơ quan của
Chính phủ thực hiện chức năng quản lý nhà nước về KH&CN, từ năm 1996 đến
nay, căn cứ vào các chủ trương, chính sách về phát triển ứng dụng CNTT-TT
của Đảng và Nhà nước, Bộ KH&CN đã tổ chức triển khai thực hiện một số dự
9
án phát triển ứng dụng CNTT theo hướng dẫn chung của Chương trình quốc gia
về CNTT (1996-2000), Chương trình Tin học hóa quản lý nhà nước (2001-
2005), Nghị định 64/2007/NĐ-CP về ứng dụng CNTT trong hoạt động của cơ
quan nhà nước, Quyết định số 43/2008/QĐ-TTg về việc phê duyệt kế hoạch ứng
dụng CNTT trong hoạt động của cơ quan nhà nước năm 2008 và gần đây nhất là
Quyết định số 48/2009/QĐ-TTg về việc phê duyệt kế hoạch ứng dụng CNTT
trong hoạt động của cơ quan nhà nước giai đoạn 2009-2010. Tuy đã đạt được
một số kết quả nhất định nhưng vẫn còn tồn tại nhiều vấn đề bất cập cần giải
quyết trong việc triển khai các ứng dụng CNTT phục vụ công tác quản lý nhà
nước của Bộ KH&CN, đặc biệt là tổ chức quản lý các chương trình, đề tài
nghiên cứu khoa học. Cho đến nay, Bộ KH&CN vẫn chưa xây dựng được “Hệ
thống trợ giúp ra quyết định hỗ trợ công tác quản lý các chương trình, đề tài
nghiên cứu khoa học” để tạo ra một công cụ đảm bảo việc cung cấp thông tin
đầy đủ, kịp thời và chính xác, nâng cao một bước hiệu quả công tác quản lý nhà
nước về hoạt động nghiên cứu KH&CN theo hướng hình thành Bộ KH&CN
điện tử (e-MOST), góp phần đưa KH&CN trở thành động lực thúc đẩy phát triển
kinh tế-xã hội. Do vậy, việc nghiên cứu xây dựng “Hệ thống trợ giúp ra quyết
định hỗ trợ công tác quản lý chương trình, đề tài nghiên cứu khoa học” để hỗ trợ
việc lựa chọn tổ chức và cá nhân chủ trì thực hiện các nhiệm vụ KH&CN phù
hợp, góp phần nâng cao năng lực quản lý các nhiệm vụ nghiên cứu triển khai
của Bộ và gắn kết hoạt động nghiên cứu khoa học với thực tiễn sản xuất đang là
một nhu cầu rất cấp thiết hiện nay.
2. Tổng quan tình hình nghiên cứu:
Chính phủ của nhiều nước trên thế giới đã triển khai xây dựng các hệ
thống thông tin điện tử phục vụ công tác quản lý từ những năm 1980. Từ những
năm 1990, mạng Internet phát triển thành xa lộ thông tin toàn cầu, nhiều nước
trên thế giới đang phát triển mạnh xu hướng tích hợp các cơ sở dữ liệu (CSDL)
để xây dựng các hệ thống hỗ trợ ra quyết định nhằm đáp ứng các yêu cầu thống
nhất nội dung thông tin và trao đổi dữ liệu trên diện rộng. Các hệ thống hỗ trợ ra
quyết định này đã và đang được áp dụng ở nhiều nước có nền công nghiệp
CNTT phát triển như: Mỹ, Canada, Đức, Anh, Pháp, Ấn Độ, Hàn Quốc,
Singapore và hoạt động rất hiệu quả trong các lĩnh vực an ninh quốc phòng,
quản lý đất đai, dân cư, y tế trên nền tảng của các hệ quản trị CSDL như: MS
SQL Server, Oracle, Sybase Đặc biệt, trong thập kỷ vừa qua, khi mà công
nghệ Internet tốc độ cao ngày càng phát triển và thâm nhập vào mọi mặt của đời
sống xã hội thì việc xây dựng các hệ thống hỗ trợ ra quyết định lại càng đóng vai
trò quan trọng hơn. Các thông tin trong CSDL tích hợp của hệ thống hỗ trợ ra
10
quyết định sẽ được sử dụng để nhanh chóng tạo ra các trang thông tin điện tử
động (Dynamic Web Page) phục vụ cho việc tra cứu, chia sẻ thông tin trên mạng
và xử lý dữ liệu theo các kịch bản để đưa ra các lựa chọn khách quan hỗ trợ
công tác quản lý theo các tùy chọn khác nhau. Do vậy, việc xây dựng các hệ
thống hỗ trợ ra quyết định theo hướng trí tuệ nhân tạo đã và đang được các nhà
khoa học trên thế giới quan tâm nghiên cứu và phát triển trong giai đoạn hiện
nay.
Từ sau năm 2000 đến nay, ở nước ta, mô hình CSDL tích hợp – phần lõi
của hệ thống hỗ trợ ra quyết định đã được triển khai ứng dụng tại các Trung tâm
Tin học của nhiều Bộ, ngành như: Bộ Tài chính, Bộ Nông nghiệp và Phát triển
nông thôn, Ngân hàng, Bộ Thương mại, Bộ Tài nguyên và Môi trường Tuy
nhiên, do trong thời gian qua sự chỉ đạo, điều hành và công tác quản lý nhà nước
về phát triển ứng dụng CNTT của nước ta có nhiều thay đổi đột xuất cho nên
việc hình thành các hệ thống hỗ trợ ra quyết định trên nền tảng tích hợp các
CSDL mới chỉ được các Bộ, ngành tiến hành nghiên cứu thử nghiệm, chưa xây
dựng được một hệ thống hoàn chỉnh để đưa vào sử dụng chính thức. Đã có nhiều
công trình nghiên cứu về kết quả thực hiện phát triển ứng dụng CNTT của nước
ta trong từng giai đoạn (từ năm 2000 đến nay) và qua đó có thể thấy mỗi giai
đoạn đều đạt được những thành tựu nhất định, song cũng nẩy sinh nhiều vấn đề
làm hạn chế kết quả của việc ứng dụng CNTT trong công tác quản lý nhà nước.
Theo kết quả điều tra sơ bộ, các CSDL hiện có của các đơn vị trực thuộc
Bộ KH&CN liên quan đến công tác quản lý các nhiệm vụ KH&CN phần lớn
được quản lý và lưu trữ trên phần mềm MS Access, chạy độc lập trên các máy
trạm theo nhu cầu của từng đơn vị và chưa thống nhất về cấu trúc dữ liệu cũng
như không có tiêu chuẩn về thông tin và không được cập nhật thường xuyên. Do
vậy, các thông tin của các CSDL này hầu như không được chia sẻ và hiệu quả
rất hạn chế.
Chính vì vậy, việc xây dựng hệ thống thông tin tích hợp phục vụ công tác
quản lý nhà nước về KH&CN đang là một trong các nhiệm vụ trọng tâm, ưu tiên
của Bộ KH&CN trong giai đoạn hiện nay. Đặc biệt là ứng dụng CNTT để xây
dựng hệ thống CSDL tích hợp phục vụ công tác quản lý, thống kê các nhiệm vụ
KH&CN của Bộ, hỗ trợ công tác xây dựng kế hoạch và quản lý hoạt động
nghiên cứu và phát triển KH&CN. Hệ thống thông tin này không những phải
đáp ứng tốt yêu cầu quản lý các nhiệm vụ KH&CN mà còn hỗ trợ công tác tư
vấn ra quyết định giao chỉ tiêu kế hoạch hàng năm, lựa chọn tổ chức và cá nhân
chủ trì thực hiện nhiệm vụ KH&CN đồng thời sẽ góp phần nâng cao năng lực
11
quản lý các nhiệm vụ nghiên cứu triển khai của Bộ KH&CN. Hệ thống trợ giúp
ra quyết định này cần được thiết kế và xây dựng dựa trên các công cụ phát triển
phần mềm tiên tiến, phù hợp với xu thế ứng dụng CNTT hiện nay trên thế giới;
sử dụng công cụ phát triển phần mềm trên web là ASP.NET và CSDL tích hợp
được quản lý, lưu trữ trên cơ sở hệ quản trị dữ liệu MS SQL Server với hệ thống
bảo mật thông tin cao. Hệ thống trợ giúp ra quyết định cần được xây dựng trên
cơ sở khai phá dữ liệu trong các CSDL quản lý các đề tài nghiên cứu KH&CN
đã có sẵn tại Bộ KH&CN. Hệ thống có khả năng phân tích dữ liệu theo yêu cầu
truy vấn trực tiếp hoặc theo các kịch bản có sẵn để cung cấp cho các nhà quản lý
các thông tin đầy đủ về cơ quan và cá nhân chủ trì, về quá trình phê duyệt nhiệm
vụ, về tiến độ triển khai thực hiện, về các kết quả và kinh phí… của các chương
trình, đề tài nghiên cứu KH&CN để cơ quan quản lý có thể nắm bắt được thực
trạng tình hình thực hiện; trên cơ sở đó sẽ đánh giá và quyết định việc cho phép
tiếp tục thực hiện hay buộc phải dừng lại đồng thời hệ thống sẽ hỗ trợ việc lựa
chọn triển khai các đề tài nghiên cứu mới mà không bị chồng chéo, trùng lặp với
các đề tài đã và đang thực hiện, tránh lãng phí thời gian và kinh phí.
3. Mục tiêu nghiên cứu:
Nghiên cứu trợ giúp
và xử lý dữ liệu trực
tuyến nhằm góp phần nâng cao năng lực quản lý và hiệu quả hoạt động
KH&CN, gắn các chương trình, đề tài nghiên cứu khoa học với thực tiễn sản
xuất và đời sống xã hội.
(Online Analytical Processing) cho hệ
thống trợ giúp ra quyết định nêu trên tại Bộ KH&CN.
4. Phạm vi nghiên cứu:
Phạm vi không gian:
Tại Bộ KH&CN và một số Bộ, ngành liên quan.
Phạm vi thời gian:
Nghiên cứu các ứng dụng CNTT trong quản lý các chương trình, đề tài
nghiên cứu khoa học từ năm 1996 cho đến thời điểm hiện nay.
Phạm vi nội dung:
Nghiên cứu, lựa chọn mô hình hệ thống hỗ trợ ra quyết định.
12
Nghiên cứu một số vấn đề về khai phá dữ liệu, áp dụng trên hệ thống cơ
sở dữ liệu quản lý các đề tài, chương trình nghiên cứu KH&CN đã được xây
dựng tại Bộ KH&CN.
Phân tích, thiết kế hệ thống trợ giúp ra quyết định với chức năng đánh giá
đề tài nghiên cứu, hỗ trợ cho các nhà quản lý ra quyết định trong quá trình triển
khai thực hiện các đề tài và lựa chọn đề tài nghiên cứu KH&CN hàng năm.
Cài đặt và đánh giá kết quả thử nghiệm chương trình hỗ trợ công tác quản
lý các chương trình, đề tài nghiên cứu khoa học tại Bộ KH&CN.
5. Mẫu khảo sát:
Các đơn vị trực thuộc Bộ KH&CN.
Kết quả triển khai dự án Tin học hóa quản lý nhà nước tại một số Bộ,
ngành Trung ương.
6. Vấn đề nghiên cứu:
Hiện trạng ứng dụng CNTT trong công tác quản lý các nhiệm vụ nghiên
cứu và phát triển của Bộ KH&CN hiện nay như thế nào?
H thống (Decision Support System) và các giải pháp
xây dựng CSDL tích hợp của hệ thống, hình thành kho dữ liệu, tối ưu hóa
như thế nào?
công tác
nghiên cứu khoa học &CN thế nào là phù hợp?
7. Giả thuyết nghiên cứu:
Hiện trạng phát triển ứng dụng CNTT phục vụ công tác quản lý tại Bộ
KH&CN:
Hạ tầng cơ sở kỹ thuật có khả năng đáp ứng cơ bản cho việc triển khai các
dự án ứng dụng CNTT phục vụ công tác quản lý. Một số ứng dụng CNTT đã
được triển khai thực hiện phục vụ công tác quản lý, chỉ đạo, điều hành của Lãnh
đạo Bộ cũng như chuyên môn, nghiệp vụ của chuyên viên. Một số dịch vụ công
đã được xây dựng tuy mới ở mức sơ khai. Nhận thức của cán bộ, công chức về
vai trò và tác dụng của CNTT được nâng cao Tuy nhiên, việc ứng dụng CNTT
để nâng cao năng lực điều hành, quản lý, phục vụ người dân và doanh nghiệp tại
Bộ KH&CN chưa thực sự hiệu quả, chưa đạt mục tiêu đề ra do Chính phủ quy
định.
H thống và các giải pháp xây dựng kho dữ liệu,
:
13
Hệ thống hỗ trợ ra quyết định là một công cụ hỗ trợ hiệu quả công tác
quản lý các nhiệm vụ nghiên cứu và phát triển KH&CN.
CSDL tích hợp từ các đơn vị quản lý. Trên CSDL quản lý và cấp chỉ tiêu kinh
phí cho thực hiện nhiệm vụ KH&CN tại các đơn vị là kho dữ liệu được lưu
trong máy chủ cơ sở dữ liệu đặt tại Trung tâm Tin học. CSDL sẽ đảm nhiệm
việc lưu trữ thông tin về tình hình cấp kinh phí và tiến độ thực hiện hàng năm
cho các nhiệm vụ tại các đơn vị chủ trì thực hiện đề tài nghiên cứu KH&CN và
thông qua các thông tin xử lý trực tuyến cơ quan quản lý có thể theo dõi tình
hình triển khai thực hiện cũng như chi tiêu kinh phí, từ đó đánh giá hiệu quả,
làm căn cứ cho việc cấp chỉ tiêu kinh phí và phê duyệt nhiệm vụ KH&CN cho
những năm tiếp theo.
công tác
nghiên cứu khoa học &CN:
Chức năng chính của hệ thống bao gồm: Quản lý các chương trình, đề tài,
nhiệm vụ cấp nhà nước, cấp bộ khác do các đơn vị trực thuộc Bộ chủ trì thực
hiện; Quản lý chỉ tiêu kế hoạch KH&CN hàng năm của các đơn vị; Truy vấn và
hỏi đáp nâng cao; Xử lý theo các kịch bản yêu cầu; Tạo báo cáo thống kê theo
các chỉ tiêu khác nhau.
Một số thông tin hỗ trợ ra quyết định: Kiểm tra đề tài/dự án như vậy hoặc
tương tự đã được đăng ký hay thực hiện chưa, từ đó quyết định cho phép/không
cho phép thực hiện đề tài/dự án đăng ký; Đánh giá hiệu quả thực hiện nhiệm vụ
trong những năm trước của một đơn vị để ra quyết định xét duyệt/loại bỏ nhiệm
vụ không hiệu quả/trùng lặp của những năm tiếp theo; Đánh giá hiệu quả triển
khai kinh phí cấp cho thực hiện nhiệm vụ tại đơn vị hàng năm, từ đó quyết định
mức kinh phí sẽ cấp những năm tiếp theo.
8. Phƣơng pháp chứng minh giả thuyết:
Đề thực hiện các nội dung nghiên cứu, các phương pháp nghiên cứu sau
sẽ được sử dụng:
Phương pháp nghiên cứu tài liệu: Thu thập và nghiên cứu các tài liệu liên
quan về kết quả triển khai ứng dụng CNTT vào công tác quản lý nhà nước, các
bài báo khoa học, các văn bản quy phạm pháp luật liên quan.
14
Phương pháp điều tra: Để xác định thực trạng việc ứng dụng CNTT trong
công tác quản lý nhà nước tại Bộ KH&CN, đề tài đã tiến hành điều tra khảo sát
29 đơn vị trực thuộc Bộ KH&CN thuộc các khối quản lý nhà nước và đơn vị sự
nghiệp.
Phương pháp thiết kế hệ thống: Thiết kế và xây dựng hệ thống trợ giúp ra
quyết định hỗ trợ công tác quản lý các chương trình, đề tài nghiên cứu khoa học
9. Kết cấu luận văn:
Kết cấu của bản Luận văn gồm những nội dung chính sau:
Mở đầu;
Chương 1: Tổng quan;
Chương 2: Phân tích, thiết kế hệ thống trợ giúp ra quyết định hỗ trợ quản
lý hoạt động KH&CN;
Chương 3: Xây dựng kho dữ liệu và giải pháp xử lý phân tích trực tuyến;
Chương 4: Trích, chọn, nạp và xử lý dữ liệu;
Kết luận;
Tài liệu tham khảo.
15
CHƢƠNG 1. TỔNG QUAN
1.1. Hệ trợ giúp ra quyết định
1.1.1. Giới thiệu khái niệm hệ trợ giúp ra quyết định
Hệ hỗ trợ ra quyết định cấu tạo từ một lớp các hệ thống thông tin dựa trên
máy tính bao gồm các hệ thống dựa trên tri thức để hỗ trợ cho các hoạt động ra
quyết định.
Hệ hỗ trợ quyết định là một lớp xác định các hệ thống thông tin được máy
tính hoá hỗ trợ cho các hoạt động ra quyết định của tổ chức và doanh nghiệp. Hệ
hỗ trợ quyết định được thiết kế hoàn hảo là hệ thống dựa trên phần mềm tương
tác với mong muốn giúp đỡ những người ra quyết định chuyển các thông tin
thông dụng từ các dữ liệu thô, các tài liệu, các tri thức cá nhân và/hoặc các mô
hình doanh nghiệp để xác định và giải quyết vấn đề từ đó ra quyết định.
Thông tin thông thường mà ứng dụng hỗ trợ ra quyết định có thể thu thập
và trình diễn là:
- Kho thông tin hiện thời (bao gồm các tài nguyên, các khối, các kho dữ liệu,
các siêu dữ liệu có liên quan và hợp pháp).
- Các kết quả của việc lựa chọn các quyết định khác nhau, những kinh
nghiệm đã có được mô tả trong ngữ cảnh nhất định.
- Hệ hỗ trợ quyết định phụ thuộc vào môi trường trên nền tảng đa phương
thức, bao gồm (nhưng không loại trừ) nghiên cứu cơ sở dữ liệu, trí tuệ nhân tạo,
tương tác người máy, các phương pháp mô phỏng, công nghệ phần mềm và
truyền thông.
1.1.2. Phân loại hệ trợ giúp ra quyết định
Các tác giả khác nhau đưa ra các cách phân loại khác nhau. Sử dụng mối
liên kết với người dùng như một tiêu chí đánh giá, Haettenschwiler đã phân tách
hệ hỗ trợ quyết định thành các loại: hệ hỗ trợ quyết định bị động, chủ động và
kết hợp. Hệ bị động là hệ thống trợ giúp cho tiến trình ra quyết định nhưng
không thể cung cấp giải pháp hay tư vấn rõ ràng cho quyết định. Hệ chủ động có
thể khắc phục được điều đó. Hệ kết hợp cho phép người ra quyết định sửa đổi,
hoàn thành hay cải tiến những tư vấn quyết định do hệ thống cung cấp trước khi
gửi đi kiểm tra. Sau khi hệ thống xem xét các thông tin của người ra quyết định
gửi đến sẽ sửa đổi, bổ sung và gửi lại để người ra quyết định kiểm tra lần nữa.
Quá trình trên sẽ lại được bắt đầu lại từ đầu cho tới khi đưa ra được các giải
pháp thống nhất.
16
Daniel Power cũng có cách phân loại khác cho hệ hỗ trợ quyết định. Sử
dụng mô hình trợ giúp như tiêu chuẩn phân loại, Power phân chia hệ hỗ trợ
quyết định thành hệ hỗ trợ quyết định hướng giao tiếp, hệ hỗ trợ quyết định
hướng tài liệu, hệ hỗ trợ quyết định hướng tri thức và hệ hỗ trợ quyết định
hướng mô hình:
- Hệ hỗ trợ quyết định hướng mô hình (Model-driven DSS) tập trung vào
truy nhập và thao tác trên mô hình thống kê, tài chính, tối ưu hoặc mô phỏng. Hệ
hỗ trợ quyết định hướng mô hình sử dụng dữ liệu và các tham số do người dùng
cung cấp để trợ giúp cho người ra quyết định trong việc phân tích tình huống, hệ
thống này không cần phải có nhiều dữ liệu.
- Hệ hỗ trợ quyết định hướng giao tiếp (Communication-driven DSS) hỗ trợ
trong trường hợp nhiều người cùng làm 1 công việc, trong đó sử dụng các công
cụ tích hợp như Microsoft's NetMeeting hay Groove.
- Hệ hỗ trợ quyết định hướng dữ liệu (Data-driven DSS hay Data-oriented
DSS) tập trung vào truy nhập và thao tác trên dẫy dữ liệu nội bộ của công ty
hoặc đôi khi là dữ liệu bên ngoài.
- Hệ hỗ trợ quyết định hướng tài liệu (Document-driven DSS) quản lý, hiển
thị và thao tác trên thông tin phi cấu trúc dưới các định dạng điện tử khác nhau
- Hệ hỗ trợ quyết định hướng tri thức (Knowledge-driven DSS) cung cấp
kinh nghiệp giải quyết vấn đề chuyên sâu đã được lưu trữ trong hệ thống như
các sự kiện, các luật, thủ tục hoặc các cấu trúc tương tự.
Sử dụng phạm vi như tiêu chuẩn phân loại, Power cũng phân hệ hỗ trợ quyết
định thành hệ hỗ trợ quyết định mở rộng cho doanh nghiệp và hệ hỗ trợ quyết
định thu gọn. Hệ hỗ trợ quyết định mở rộng cho doanh nghiệp liên kết đến
những kho dữ liệu lớn và phục vụ cho các nhà quản lý trong doanh nghiệp.
Trong khi khi đó hệ hỗ trợ quyết định cho người dùng đơn (thu gọn) là hệ thống
nhỏ hoạt động trong máy tính của từng người quản lý.
1.1.3. Các thành phần cơ bản của hệ hỗ trợ ra quyết định
Theo Power, qua lý thuyết chính thống và từ thực tế hệ hỗ trợ ra quyết
định được xây dựng từ 4 thành phần chính: (a) Giao diện người dùng, (b) Cơ sở
dữ liệu, (c) Các công cụ phân tích và xây dựng mô hình, (d) Cấu trúc hệ hỗ trợ
ra quyết định và mạng.
Còn Hättenschwiler định nghĩa 5 thành phần trong hệ hỗ trợ ra quyết định
bao gồm:
17
(a) người dùng với các vai trò hoặc chức năng khác nhau trong tiến trình
ra quyết định (người quyết định, người tư vấn, chuyên gia lĩnh vực,
chuyên gia hệ thống, người thu thập dữ liệu);
(b) một ngữ cảnh quyết định có thể định nghĩa và xác định;
(c) một hệ thống đích mô tả các điểm chính của thành phần liên quan;
(d) tri thức thu lượm từ các nguồn dữ liệu bên ngoài, các CSDL tri thức,
CSDL công việc, các kho dữ liệu và siêu cơ sở dữ liệu, các mô hình và
phương pháp tính toán, các thủ tục, các máy tìm kiếm, các chương trình
quản trị và hệ thống báo cáo;
(e) môi trường hoạt động để chuẩn bị, phân tích và xây dựng tài liệu cho
các phiên bản quyết định.
Theo Arakas dự kiến một cấu trúc chung có 5 thành phần
(a) Hệ thống quản lý dữ liệu
(b) Hệ thống quản lý mô hình
(c) Máy tri thức
(d) Giao diện người dùng
(e) Người dùng
1.2. Kho dữ liệu (DW)
1.2.1. Dữ liệu tác nghiệp
Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng (ví dụ
bằng các lệnh insert, update, delete, join ) trong quá trình xử lý. Hệ thống cho
phép nhiều ứng dụng truy cập dữ liệu cùng một thời gian.
Các ứng dụng trên client bao gồm tất cả các loại ứng dụng như ngân hàng,
bán vé trực tuyến, bán vé hàng không, thanh toán cước phí Sử dụng hệ thống
OLTP có các ưu điểm sau:
- Xử lý các tương tác.
- Dễ bảo trì và khống chế dữ liệu thừa.
- Thiết lập dữ liệu quan hệ trọn vẹn.
- Tính hiệu quả cao.
- Giảm thời gian của khách hàng.
Các CSDL trong các hệ OLTP thường được thiết kế thoả mãn 3NF (Third
Normal Form) hoặc tốt hơn. Đặc điểm của hệ thống OLTP là nó lưu trữ các dữ
liệu "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất thấp. Nói
cách khác OLPT rất có ích để tìm trả lời những câu truy vấn dạng: Tổng sản
18
lượng sản phẩm X do công ty bán được trong 6 tháng đầu năm, mặt hàng nào
bán chạy nhất tại địa phương Y trong tháng vừa qua Trong khi đó các nhà
quản lý ở mức cao của công ty rất ít khi quan tâm đến những câu hỏi loại đó.
Điều họ cần chú ý là những câu hỏi trừu tượng hơn như: Tiêu thụ A tại B đang
giảm, nếu thay đổi 3%-5% giá của sản phẩm A tại khu vực B, tình trạng tiêu thụ
sẽ thay đổi ra sao trong 6 tháng cuối năm và tại sao?
Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi 1 bằng các công cụ của hệ
CSDL quan hệ nhưng để tìm đáp án cho những câu hỏi dạng 2 là không đơn
giản. Những yếu tố căn bản cản trở việc sử dụng dữ liệu của các hệ thống OLPT
trong việc phân tích dữ liệu là:
- Các số liệu ở mức quá chi tiết
- Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục truy
cập khác nhau và ở những CSDL hoàn toàn khác nhau.
- Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng
bộ.
- Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng
xấu tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm
phục vụ các giao dịch trực tuyến.
Trong môi trường thừa thãi số liệu, nhà phân tích không thể tìm ra cho mình
thông tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình xảy ra
xung quanh. Tình trạng số liệu quá chi tiết và không có được sự liên kết với
nhau của các số liệu phản ánh các quá trình tương đối độc lập của một thực thể
là lý do trực tiếp dẫn đến sự khủng hoảng này.
Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra
một hệ thống chứa đầy đủ thông tin. Tuy nhiên giải pháp này có hai nhược điểm
lớn:
- Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần
mềm hệ thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu
cũng như phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối
với các hệ thống có thiết kế phân tích tốt và hoàn toàn không khả thi đối với
những hệ thống được mô tả kém.
- Khi thực hiện các truy vấn để tạo báo cáo thường xuyên phải khoá rất
nhiều bảng, cản trở sự truy xuất của nhân viên khai thác trong quá trình làm việc
hàng ngày và làm ảnh hưởng trực tiếp đến khách hàng.
19
1.2.2. Khái niệm về kho dữ liệu
Là một cách tiếp cận do B.Inmon đề xướng vào những năm 90 của thế kỷ
trước. Đây là sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data
Warehoushing - kỹ thuật xây dựng các kho dữ liệu. Kho dữ liệu được định nghĩa
như một tập hợp các phương tiện cho phép hình dung dữ liệu một cách tổng thể,
hướng đối tượng để giúp cho việc phân tích và ra quyết định.
Những người đầu tiên đưa ra ý tưởng về kho dữ liệu xác định rằng tiến hành
phân tích trực tiếp trên dữ liệu của các hệ xử lý giao dịch không hiệu quả. Các
dữ liệu từ một vài OLTP cần phải được biến đổi và sau đó đưa vào một nơi lưu
trữ dữ liệu duy nhất. Quá trình này được gọi là đưa dữ liệu vào kho dữ liệu, gồm
các công đoạn chính sau:
- Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)
- Liên kết các số liệu (tính trước số liệu tích, tổng, trung bình )
- Biến đổi dữ liệu: số liệu được biến đổi thành dạng thích hợp, tổ chức lại
phù hợp với kho dữ liệu
- Tích hợp số liệu từ các nguồn khác nhau.
- Đồng bộ hoá số liệu ở một thời điểm xác định.
Kho dữ liệu cũng là hệ thống dữ liệu đã được chuẩn bị để xây dựng hệ hỗ trợ
quyết định (DSS-Decision Support Systems) và hệ phân tích trực tuyến (OLAP-
Online Analysis Processing) do dữ liệu trong đó thoả mãn tính chất toàn vẹn và
có sự liên kết nội tại: Mặc dù dữ liệu được cung cấp từ nhiều OLTP, chúng được
liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vị đo, hệ thống các thuộc
tính chung Điều này có giá trị đặc biệt khi vận hành một lúc vài hệ thống,
trong đó các dữ liệu được biểu diễn bằng những đơn vị khác nhau (ví dụ như các
cách biểu diễn ngày, tháng khác nhau hoặc biểu diễn logic khác nhau). Các chỉ
số quan trọng như tổng số, giá trị trung bình trong các giai đoạn khác nhau,
trung bình cộng cũng được biểu diễn rất đa dạng ở các hệ khác nhau. Khi đưa
số liệu vào kho dữ liệu, mọi chỉ số không tương thích được chuyển đổi, tránh
các lỗi tiềm tàng trong hệ thống.
Kho dữ liệu cung cấp tiếp cận thay thế so với tiếp cận truyền thống đối với
cơ sở dữ liệu không đồng nhất. Thay vì dùng tiếp cận hướng câu hỏi, kho dữ
liệu dùng tiếp cận hướng cập nhật, trong đó thông tin từ nhiều nguồn, không
đồng nhất, được tích hợp trước và lưu trong kho để hỏi hay phân tích trực tiếp.
Không giống như cơ sở dữ liệu xử lí giao tác, kho dữ liệu không chứa dữ
liệu mới nhất. Tất nhiên, kho dữ liệu có hiệu quả cao trong việc tích hợp hệ
20
thống cơ sở dữ liệu không đồng nhất vì dữ liệu được sao chép, tiền xử lí, tích
hợp, chú giải, tóm tắt và cấu trúc lại vào một nơi chứa dữ liệu ngữ nghĩa. Hơn
nữa, xử lí câu hỏi trong kho dữ liệu không can thiệp việc xử lí tại nguồn cục bộ.
Mà kho dữ liệu lưu trữ và tích hợp thông tin lịch sử và trợ giúp các câu hỏi đa
chiều phức tạp.
1.2.3. Đặc trưng của kho dữ liệu
Xây dựng kho dữ liệu nhằm giải quyết các vấn đề sau trong quá khứ:
- Không có sự chia sẻ thông tin (Lack of Information Sharing)
- Các nhóm làm việc khác nhau đưa ra những báo cáo trái ngược nhau
- Tạo nên những báo cáo kém hiệu quả
- Tạo nên những báo cáo thiếu sự cập nhật, những báo cáo không hỗ trợ
cho các trường hợp không dự đoán trước
Không đưa ra được những báo cáo có dữ liệu mang tính lịch sử
Kho dữ liệu là sự tích hợp các dữ liệu từ các OLTP khác nhau nhằm tập hợp
dữ liệu phục vụ quá trình phân tích hoạt động kinh doanh nên dữ liệu trong một
hệ thống kho dữ liệu cần thoả mãn một số yêu cầu chính sau:
- Hướng chủ đề: Các hệ thống OLTP có thể chứa hàng trăm giga byte số
liệu, tuy nhiên những số liệu này có thể hoàn toàn vô ích trong việc phân tích
trực tuyến (VD: Địa chỉ, ID khách hàng ). Các dữ liệu kiểu này thường không
được đưa vào kho dữ liệu để hạn chế dữ liệu cần xem xét xuống mức tối thiểu
nhưng cũng bảo đảm các thông tin theo từng vùng chủ đề (Subject area).
- Số liệu có tính lịch sử: Dữ liệu của hàng chục năm được lưu trữ nhằm phát
hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần quan tâm
trong một thời gian dài.
- Số liệu chỉ đọc: Dữ liệu đưa vào kho dữ liệu chỉ để đọc, việc sửa dữ liệu
hầu như không được tiến hành do nó có thể dẫn đến phá vỡ sự toàn vẹn. Thông
thường người ta không yêu cầu giảm thời gian đưa dữ liệu vào kho dữ liệu tới
mức tối thiểu, nhưng cần tối ưu hoá kho dữ liệu sao cho các truy vấn phục vụ
cho việc phân tích đạt tốc độ tốt nhất. Các sơ đồ quan hệ sẽ tạo ra các Index hợp
lý cũng như tạo ra sẵn các dữ liệu kết hợp.
- Số liệu không biến động: Thông tin trong kho dữ liệu được tải vào sau khi
dữ liệu trong hệ thống điều hành được cho là quá cũ. Không biến động thể hiện
ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu
mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép
21
cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết
cho các mô hình nghiệp vụ phân tích, dự báo.
1.2.4. Siêu dữ liệu (Meta Data)
Dữ liệu meta là dữ liệu của dữ liệu. Dữ liệu meta sử dụng cho quản lý tên dữ
liệu, định nghĩa dữ liệu của kho dữ liệu. Thư mục về dữ liệu meta gồm có :
- Mô tả về cấu trúc của kho dữ liệu, gồm lược đồ kho dữ liệu, chiều, phân
cấp và định nghĩa dữ liệu, cũng như vị trí và nội dung kho dữ liệu chuyên đề;
- Dữ liệu meta tác nghiệp, gồm nguồn gốc dữ liệu, lịch sử dữ liệu di cư, dãy
các phép chuyển hóa…, dữ liệu hiện tại gồm dữ liệu động, tư liệu và thông tin
giám sát gồm các thống kê, báo cáo sai, dãy kiểm toán;
- Các thuật toán dùng để tóm tắt, gồm thuật toán đo và xác định chiều, phân
hạt dữ liệu, phân đoạn, miền chủ đề, gộp, tóm tắt, các câu hỏi và báo cáo xác
định.
- Việc chuyển hóa từ môi trường tác nghiệp đến kho dữ liệu, gồm cơ sở dữ
liệu nguồn và nội dung, miêu tả cổng, phân đoạn dữ liệu, các luật (i) làm sạch;
(ii) trích chọn; (iii) chuyển dữ liệu, luật thanh lọc, và luật an toàn;
- Dữ liệu liên quan đến hiệu năng hệ thống, đánh chỉ số tăng cường khả năng
truy cập và tìm kiếm dữ liệu, bổ sung cho các luật về thời gian và làm tươi lịch
trình, cập nhật và chu kì tạo bản sao;
- Dữ liệu meta nghiệp vụ, gồm các thuật ngữ và định nghĩa nghiệp vụ, thông
tin về người sử hữu dữ liệu, chính sách tải dữ liệu.
- Kho dữ liệu có các mức tóm tắt khác nhau, trong đó dữ liệu meta là một
dạng tóm tắt. Các dạng khác gồm dữ liệu chi tiết về hiện tại, được đặt trên đĩa,
dữ liệu chi tiết cũ, thường trên ổ đĩa mức thứ ba, dữ liệu tóm tắt ít và dữ liệu tóm
tắt cao, thường không được lưu trữ vật lí.
- Dữ liệu meta có vai trò khác với dữ liệu trong kho dữ liệu, nhằm (i) tra cứu
ra quyết định; (ii) hướng dẫn khớp dữ liệu; (iii) thông tin về thuật toán. Dữ liệu
meta được quản lí và lưu trên đĩa.
1.2.5. Cấu trúc kho dữ liệu
Cấu trúc của một kho dữ liệu cho phép người xây dựng và người khai thác
có cái nhìn tổng quát về các bộ phận cấu thành nên kho dữ liệu. Sau đây là kiến
trúc tham chiếu điển hình. Một kiến trúc tham chiếu điển hình bao gồm các lớp
và các khối, trong đó các thành phần của một khối nằm trong một hạ tầng máy
tính thống nhất. Các lớp cho phép tổ chức việc xây dựng kho dữ liệu được linh
hoạt với đội ngũ nhân viên ở các lĩnh vực hoạt động khác nhau.
22
Hình 1.2.1 Cấu trúc kho dữ liệu
Các khối bao gồm:
- Khối các nguồn dữ liệu
- Khối tạo dựng kho dữ liệu
- Khối tạo dựng kho dữ liệu cục bộ
- Khối truy nhập và sử dụng
Các lớp được chia thành
- Lớp quản lý dữ liệu
- Lớp quản lý siêu dữ liệu
- Lớp chuyển tải dữ liệu
- Lớp kết cấu hạ tầng
Việc nắm vững cấu trúc khối và lớp cho phép ta linh hoạt trong việc triển
khai các hệ thống kho dữ liệu trên thực tế. Tuỳ nhu cầu và khả năng tài chính,
chúng ta có thể xuất phát từ việc xây dựng các kho dữ liệu cục bộ (các
Datamart) trước để có thể khai thác ngay số liệu theo từng chủ đề. Một cách xây
dựng khác là tổ chức kho dữ liệu tổng thể trước, sau đó sẽ tổ chức các Datamart.
Mỗi phương án đều có những ưu điểm và nhược điểm riêng. Trên thực tế, tuỳ
điều kiện cụ thể, chúng ta có thể chọn giải pháp triển khai thích hợp.
Ngoài ra, các kho dữ liệu trên từng lĩnh vực khác nhau cũng có nhiều đặc
điểm riêng do mỗi lĩnh vực có đặc thù dữ liệu riêng.
23
1.2.6. Cỏc mụ hỡnh kho d liu
- Mụ hỡnh d liu nhiu chiu
Phõn loi d liu theo cỏc chiu hay phm vi. Phm vi l yu t xut hin t
nhiờn ca cụng vic nh: th hin ca thi gian, a lý, cỏc sn phm hay cỏc
kiu khỏch hng. Mụ hỡnh a phm vi cú th nghiờn cu nhiu phm vi cựng
mt lỳc. Phng thc phõn tớch a phm vi thng hng ti thụng tin mc
tng th.
- S hỡnh sao
L mt mụ hỡnh m tt c cỏc bng chiu cú th c kt ni trc tip ti
bng s kin. Trong gin hỡnh sao, d liu c xỏc nh v phõn loi theo 2
kiu: bng s kin (fact table) v bng chiu (dimension table). Bng s kin
cha thụng tin chi tit (gi l measure) cn c phõn tớch, cỏc s kin l cỏc i
lng s ca cụng vic. Bng chiu nm trung tõm ca mụ hỡnh v c bao
quanh bi cỏc chiu liờn quan, cỏc chiu l cỏc b lc hoc cỏc rng buc ca
cỏc s kin.
Trong ú kho d liu cú (i) bng trung tõm ln, tc bng s kin, cú cỏc bỳi d
liu, khụng d tha; (ii) tp cỏc bng nh, tc bng chiu, mi chiu mt bng.
Lc gm cỏc bng chiu, quanh bng trung tõm.
thời gian#
quí
ngày
chi nhánh#
tên
loại
Thời gian
Bảng chiều
Chi nhánh
Bảng chiều
hàng#
tên
loại
mác
cung cấp
Hàng
Bảng chiều
địa điểm#
tỉnh
huyện
Địa điểm
Bảng chiều
thời gian#
chi nhánh#
hàng#
địa điểm#
tiền
số l-ợng
Bán hàng
Bảng sự kiện
Hỡnh 1.2.2 S hỡnh sao
S hỡnh sao ci thin ỏng k thi gian truy vn, cho phộp thc hin mt
s tớnh nng a chiu, rt trc quan, d s dng.
Khoỏ ca bng s kin c to bi cỏc khoỏ ca cỏc bng chiu. Tt c cỏc
khoỏ u c xỏc nh vi cựng mt tiờu chun t tờn.
Trong gin hỡnh sao k c bng s kin v cỏc bng chiu u khụng bt
buc dng chun nh i vi phng phỏp thit k truyn thng nờn cú th cú
24
s d tha d liu. Tuy nhiờn s ny cú kh nng truy nhp nhanh phự hp
vi nhng cõu hi phõn tớch nhiu chiu, phc tp.
- S tuyt ri
L mụ hỡnh trong ú mt hoc nhiu bng chiu khụng ch kt ni trc tip
vi bng s kin m cũn kt ni vi cỏc bng chiu khỏc.
Khỏc nhau chớnh gia lc tuyt ri v lc sao l cỏc bng chiu ca mụ
hỡnh tuyt ri dng chun, gim d tha d liu. Cỏc bng nh vy d bo
trỡ trong b nh. Tuy nhiờn khụng trỏnh c dựng nhiu b nh. Ngoi ra, cu
trỳc tuyt ri cú th gim hiu qu duyt vỡ cn thc hin phộp ni khi hi d
liu. Do vy tuy gim d tha, lc tuyt ri khụng ph bin nh lc sao
trong thit k kho d liu.
thời gian#
quí
ngày
chi nhánh#
tên
loại
Thời gian
Bảng chiều
Chi nhánh
Bảng chiều
hàng#
tên
loại
mác
nhà cung cấp#
Hàng
Bảng chiều
địa điểm#
tỉnh#
Địa điểm
Bảng chiều
thời gian#
chi nhánh#
hàng#
địa điểm#
tiền
số l-ợng
Bán hàng
Bảng sự kiện
nhà cung cấp#
cung cấp
tỉnh#
huyện
xã
Nhà cung cấp
Bảng chiều
Tỉnh
Bảng chiều
Hỡnh 1.2.3 S tuyt ri
Theo dng s ny, mi bng chiu c chun hoỏ hn.
S tuyt ri ci thin nng sut truy vn, ti thiu khụng gian a cn
thit lu tr d liu v ci thin nng sut nh vic ch phi kt hp nhng
bng cú kớch thc nh hn thay vỡ bng cú kớch thc ln m cha chun hoỏ.
Tuy nhiờn nú lm tng s lng bng v tng tớnh phc tp ca mt vi truy vn
cn cú s tham chiu ti nhiu bng.
1.2.7. Cỏc bc thit k kho d liu
- 1: La chn mụ hỡnh thớch hp
- 2: Sau khi thit k c s cho kho d liu, kho d liu phi c
hỡnh thnh v hon thin qua nhiu giai on, thi gian. Kho d liu luụn phi
c gi tn ti cựng vi cỏc c s d liu ngun. D liu c trớch ra t cỏc
c s d liu tỏc nghip v cỏc ngun d liu bờn ngoi, sau ú c c lm
sch gim thiu ti a cỏc li v hon chnh cỏc thụng tin cũn thiu nu cú
25
thể, sau đó được biến đổi tương thích về mặt ngữ nghĩa trước khi đưa vào kho
dữ liệu để làm sạch. Dữ liệu trong kho dữ liệu được làm mới (refreshed) để cập
nhật dữ liệu mới theo định kỳ và cũng theo định kỳ được tinh lọc để xóa các
thông tin đã quá hạn. Quá trình biến đổi dữ liệu thông thường được thực hiện
bằng cách xác định khung nhìn quan hệ trên các bảng dữ liệu trong dữ liệu
nguồn (bao gồm các cơ sở dữ liệu tác nghiệp và các nguồn dữ liệu bên ngoài
khác). Tải dữ liệu là việc xây dựng các khung nhìn như vậy và lưu trữ chúng
trong kho dữ liệu. Không giống như các khung nhìn chuẩn trong hệ quản trị cơ
sở dữ liệu quan hệ, khung nhìn lưu trữ trong kho dữ liệu khác với cơ sở dữ liệu
chứa trong các bảng nó xác định trên đó.
Những quá trình tiền xử lý bổ sung như sắp xếp và sinh ra thông tin tóm tắt
cũng được thực hiện trong giai đoạn này. Dữ liệu được phân chia và đánh chỉ số
để tăng hiệu quả sử dụng.
- 3: Sau khi dữ liệu đã vào kho, cần xác định đơn vị đo để đảm bảo dữ
liệu trong kho thường xuyên được cập nhật so với dữ liệu nguồn. Ở đây cần phải
chú trọng vấn đề kết nối để đảm bảo các bảng dữ liệu trong kho luôn được làm
mới và duy trì các bản sao của các bảng dữ liệu không đồng bộ trong hệ quản trị
cơ sở dữ liệu phân tán. Duy trì các bản sao của các quan hệ nguồn là một phần
quan trọng trong kho dữ liệu và phạm vi ứng dụng là nhân tố quan trọng trong
tính phổ biến bản sao không đồng bộ mặc dù trong thực tế bản sao không đồng
bộ trái với nguyên tắc của dữ liệu phân tán độc lập.
- 4: Một việc quan trọng nữa trong quá trình duy trì kho dữ liệu là theo
dõi dữ liệu đang được lưu giữ trong kho dữ liệu. Vấn đề này được giải quyết
bằng cách lưu trữ thông tin dữ liệu trong kho thông qua các danh mục hệ thống.
Các danh mục hệ thống nếu lưu trữ cùng với kho dữ liệu thì rất lớn, do đó nó
được lưu trữ trong một cơ sở dữ liệu riêng gọi là metadata repository. Kích
thước và độ phức tạp của các danh mục chủ yếu phụ thuộc vào kích thước và độ
phức tạp của kho dữ liệu.
1.3. Xử lý dữ liệu trực tuyến (OLAP)
1.3.1. Lý do sử dụng OLAP
- Các ứng dụng OLAP chủ yếu tập trung vào các truy vấn phức tạp, đặc
biệt. Trong SQL đó là những truy vấn liên quan tới các toán tử nhóm (group-by)
và kết hợp. OLAP giải quyết các vấn đề trên mô hình dữ liệu đa chiều.
- OLAP có chức năng tạo báo cáo và phân tích dữ liệu. Kiến trúc chức
năng của OLAP bao gồm 3 phần: dịch vụ lưu trữ dữ liệu, các dịch vụ truy vấn
OLAP và các dịch vụ hiển thị đối với người dùng.