Tải bản đầy đủ (.pdf) (24 trang)

Tài liệu tiểu luận: “Áp dụng kỹ thuật phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và điều hành pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (560.06 KB, 24 trang )





TIỂU LUẬN

ĐỀ TÀI: “Áp dụng kỹ thuật phân tích dữ liệu
trực tuyến (OLAP) phục vụ công tác quản lý và
điều hành”














1





MỞ ĐẦU


Học viện Công nghệ Bưu chính viễn thông là một đơn vị
thành viên của Tập đoàn Bưu chính Viễn thông Việt Nam có chức
năng chính là đào tạo, nghiên cứu khoa học và chuyển giao công
nghệ trong lĩnh vực bưu chính, viễn thông, điện - điện tử và công
nghệ thông tin phục vụ sự phát triển của ngành Bưu chính Viễn
thông và của xã hội. Chính vì vậy việc quản lý, phân tích và đánh
giá thông tin về công tác quản lí, đào tạo dưới các góc độ khác
nhau là một trong nhưng vấn đề cần được quan tâm, tôi đã chọn đề
tài tốt nghiệp cao học ngành công nghệ thông tin của tôi với
hướng phục vụ công tác này.
Xuất phát từ thực tế đó, tôi đã chọn đề tài “Áp dụng kỹ thuật
phân tích dữ liệu trực tuyến (OLAP) phục vụ công tác quản lý và
điều hành”
Xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử
dụng phương pháp luận xử lý phân tích trực tuyến (OLAP). Trong
đó tập trung vào hai công việc chính là tập hợp dữ liệu để tổ chức
dữ liệu đa chiều, phân tích và hiển thị dữ liệu để trợ giúp ra quyết
định.
Luận văn gồm 3 chương:
Chương 1: Tổng quan các phương pháp khai thác dữ liệu
Chương 2: Hệ thống trợ giúp quyết định sử dụng phân tích đa
chiều trong xử lý phân tích trực tuyến


2



Chương 3: Xây dựng hệ thống trợ giúp quản lý với chức năng
OLAP




3



Chương 1
TỔNG QUAN CÁC PHƯƠNG PHÁP
KHAI THÁC DỮ LIỆU
1.1. GIỚI THIỆU CÁC PHƯƠNG PHÁP KHAI THÁC DỮ
LIỆU
Việc dùng các phương tiện tin học để tổ chức và khai thác các
CSDL đã được phát triển từ những năm 60, nhiều CSDL đã được
tổ chức, phát triển và khai thác ở mọi qui mô và khắp các lĩnh vực
hoạt động của xã hội.
Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu
thập và lưu trữ trong các CSDL lớn đã vượt ra ngoài khả năng của
con người có thể hiểu được chúng nếu không có những công cụ hỗ
trợ tốt. Tình huống này đã đặt chúng ta trong hoàn cảnh nhiều dữ
liệu nhưng thiếu thông tin, thiếu tri thức. Với một khối lượng lớn
dữ liệu như vậy rõ ràng là các phương pháp thủ công truyền thống
áp dụng để phân tích dữ liệu như chia bảng không còn là phù hợp
nữa Chính vì vậy, có một kỹ thuật mới ra đời đó là “Khai phá dữ
liệu”.
Khai phá dữ liệu là một ngữ tương đối mới, nó ra đời vào
khoảng những năm cuối của của thập kỷ 1980. Các nhà thống kê
xem "khai phá dữ liệu như là một quá trình phân tích được thiết kế
thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu
thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các

biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp
dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu".
Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát
hiện tri thức gồm có các thụât toán khai thác dữ liệu chuyên dùng


4



dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm
ra các mẫu hoặc các mô hình trong dữ liệu. Phát hiện tri thức trong
các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô
hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có
thể hiểu được.
1.1.1. Hình thành và định nghĩa bài toán
Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài
toán, bước này sẽ quyết định cho việc rút ra những tri thức hữu
ích, đồng thời lựa chọn các phương pháp khai phá dữ liệu thích
hợp với mục đích của ứng dụng và bản chất của dữ liệu.
1.1.2. Thu thập và tiền xử lý dữ liệu
Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ
liệu thu thập có thể là từ các kho dữ liệu hay nguồn thông tin
Internet).
1.1.3. Khai phá dữ liệu và rút ra các tri thức
Đây là bước quan trọng nhất trong tiến trình khám phá tri
thức. Kết quả của bước này là trích ra được các mẫu và/hoặc các
mô hình ẩn dưới các dữ liệu.
1.1.4. Phân tích và kiểm định kết quả
Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm

sáng tỏ các mô tả và dự đoán. Trong bước này, kết quả tìm được
sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụng và dễ
hiểu hơn cho người dùng.
1.1.5. Sử dụng các tri thức phát hiện được
Các tri thức khám phá được sẽ được củng cố, kết hợp lại
thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng
trong các tri thức đó. Các giai đoạn của quá trình khám phá tri


5



thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của
hệ thống.
1.2. QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám
phá tri thức. Thuật ngữ khai phá dữ liệu còn được một số nhà khoa
học gọi là phát hiện tri thức trong cơ sở dữ liệu.
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết
thúc với tri thức được chiết xuất ra.

Hình. Kiến trúc hệ thống khai phá dữ liệu
Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các
thành phần chính như trong hình.
1.3. CÁC PHƯƠNG PHÁP KHAI KHÁ DỮ LIỆU
1.3.1. Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các
mẫu dữ liệu. Quá trình gồm hai bước: xây dựng mô hình, sử dụng
mô hình để phân lớp dữ liệu (mỗi mẫu một lớp).

1.3.2. Phân cụm dữ liệu


6



Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương
tự nhau trong tập dữ liệu vào các cum, sao cho các đối tượng
thuộc cùng một lớp là tương đồng.
1.3.3. Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối
liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải
thuật luật kết hợp là tập luật kết hợp tìm được.
1.3.4. Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu.
Nhưng khác ở chỗ nó dùng để dự đoán các giá trị liên tục còn
phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc.
1.3.5. Giải thuật di truyền
Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng
chính của giải thuật là dựa vào quy luật di truyền trong biến đổi,
chọn lọc tự nhiên và tiến hoá trong sinh học.
1.3.6. Mạng nơron
Đây là một trong những kỹ thuật khai phá dữ liệu được ứng
dụng phổ biến hiện nay. Kỹ thuật này phát triển dựa trên một nền
tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này
dựa trên mô hình thần kinh trung ương của con người.
1.3.7. Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả
trong việc phân lớp và dự báo. Các đối tượng dữ liệu được phân

thành các lớp. Các giá trị của đối tượng dữ liệu chưa biết sẽ được
dự đoán, dự báo.


7



1.4. XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
1.4.1. Về xử lý phân tích trực tuyến
Xử lý phân tích trực tuyến (OLAP) là một kỹ thuật sử dụng
cách thể hiện dữ liệu đa chiều gọi là các khối nhằm cung cấp khả
năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Tạo khối cho dữ
liệu trong các bảng chiều và bảng sự kiện trong kho dữ liệu và
cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho
các ứng dụng khách.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng
dữ liệu rất lớn mà nếu cho thực thi các truy vấn này trong hệ thống
OLTP sẽ không thể cho kết quả hoặc sẽ mất rất nhiều thời gian.
1.4.2. Mô hình dữ liệu đa chiều
Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo
“nhiều chiều”. Ví dụ như họ có khuynh hướng mô tả những gì mà
công ty làm như sau:
 “Chúng tôi kinh doanh các sản phẩm trong nhiều thị
trường khác nhau, và chúng tôi đánh giá hiệu quả thực hiện
của chúng tôi qua thời gian”.
 Những người thiết kế kho dữ liệu thường lắng nghe cẩn
thận những từ đó và họ thêm vào những nhấn mạnh đặc
biệt của họ như:
 “Chúng tôi kinh doanh các sản phẩm trong nhiều thị

trường khác nhau, và chúng tôi đánh giá hiệu quả thực
hiện của chúng tôi qua thời gian”.
Suy nghĩ một cách trực giác, việc kinh doanh như một khối
dữ liệu, với các nhãn trên mỗi cạnh của khối. Các điểm bên trong
khối là các giao điểm của các cạnh. Với mô tả kinh doanh ở trên,
các cạnh của khối là Sản phẩm, Thị trường, và Thời gian. Hầu hết


8



mọi người đều có thể nhanh chóng hiểu và tưởng tượng rằng các
điểm bên trong khối là các độ đo hiệu quả kinh doanh mà được kết
hợp giữa các giá trị Sản phẩm, Thị trường và Thời gian. Các chiều
được phân cấp theo loại. Ví dụ như chiều Thời gian có thể được
mô tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày.
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có
thể được xem từ nhiều khung nhìn linh động khác nhau. Một số
thao tác điển hình của khối dữ liệu như roll-up (tăng mức độ trừu
tượng), drill-down (giảm mức độ trừu tượng hoặc tăng mức chi
tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại
khung nhìn đa chiều của dữ liệu), cho phép tương tác truy vấn và
phân tích dữ liệu rất tiện lợi. Những thao tác đó được biết như Xử
lý phân tích trực tuyến.
1.5. KẾT LUẬN CHƯƠNG
Chương trên đã tìm hiểu các phương pháp khai phá dữ liệu,
quá trình khai phá dữ liệu, giới thiệu về OLAP, một kỹ thuật sử
dụng cách thể hiện dữ liệu đa chiều nhằm cung cấp khả năng truy
xuất nhanh đến dữ liệu của kho dữ liệu. Định hình mô hình dữ liệu

đa chiều.



9



Chương 2
HỆ THỐNG TRỢ GIÚP QUYẾT ĐỊNH
SỬ DỤNG PHÂN TÍCH ĐA CHIỀU TRONG
XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
2.1. KIẾN TRÚC KHỐI OLAP
2.1.1. Giới thiệu dịch vụ OLAP của Microsoft SQL Server
Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích
xử lý trực tuyến. Hệ thống dịch vụ OLAP là một công cụ mạnh
trong việc xây dựng các khối đa chiều của dữ liệu cho phân tích và
cung cấp khả năng truy xuất nhanh đến thông tin khối cho các
khách.
Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server
(được đại diện bởi OLAP server) và phần khách (là dịch vụ
PivotTable).

Hình. Kiến trúc OLAP
Các đặc điểm của dịch vụ OLAP:


10




 Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và
các trợ giúp thực hiện.
 Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu
trữ.
 Các khối có thể ghi: Cho các kịch bản phân tích dạng “what
if”.
 Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch
bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ
dữ liệu” mà gây khó chịu cho các kỹ thuật OLAP.
 Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và
khách/server
 Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các
ứng dụng tuỳ ý.
2.1.2. So sánh OLAP với OLTP
Đặc trưng của các ứng dụng OLTP là các tác vụ xử lý tự
động ghi chép dữ liệu xử lý tác vụ của một tổ chức như ghi nhận
đơn đặt hàng và các giao dịch ngân hàng mà cần phải đọc hoặc
cập nhật một vài mẩu tin dựa trên khoá chính của chúng.
Kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản
lý. Tính chi tiết và riêng lẻ của các mẩu tin thì ít quan trọng hơn
tính lịch sử, tổng kết và hợp nhất của dữ liệu.
Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được xây dựng
để hỗ trợ tốt các tác vụ OLTP.
2.1.3. Các mô hình lưu trữ hỗ trợ OLAP
Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ dữ liệu khác
nhau, mỗi mô hình có các ưu và khuyết điểm riêng, chúng được sử
dụng tuỳ theo mục đích khai thác.
2.1.3.1. Mô hình OLAP nhiều chiều (MOLAP)



11



Mô hình OLAP nhiều chiều (MOLAP) lưu trữ dữ liệu cơ sở
và thông tin tổng hợp trong các cấu trúc đa chiều gọi là các khối.
Các cấu trúc này được lưu bên ngoài cơ sở dữ liệu data mart hoặc
kho dữ liệu.
2.1.3.2. Mô hình OLAP quan hệ (ROLAP)
Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và
thông tin tổng hợp trong các bảng quan hệ. Các bảng này được lưu
trữ trong cùng cơ sở dữ liệu như là các bảng của data mart hoặc
kho dữ liệu.
Lưu trữ các khối trong cấu trúc ROLAP là tốt nhất cho các
truy vấn dữ liệu không thường xuyên.
2.1.3.3. Mô hình lai OLAP (HOLAP)
Mô hình OLAP lai (HOLAP) là sự kết hợp giữa MOLAP và
ROLAP.
2.1.3.4. So sách các mô hình
Bảng sau so sánh tổng hợp ba mô hình lưu trữ hỗ trợ OLAP:
MOLAP ROLAP HOLAP
Lưu trữ dữ liệu cơ sở Khối
Bảng quan hệ

Bảng quan hệ

Lưu trữ thông tin tổ
ng
hợp

Khối Bảng quan hệ

Khối
Hiệu suất thực hiệ
n
truy vấn
Nhanh nhất Chậm nhất Nhanh
Tiêu thụ
không gian
lưu trữ
Nhiều Thấp Trung bình
Chi phí bảo trì
Cao Thấp Trung bình



12



2.1.4. Kiến trúc khối của OLAP
Đối tượng chính của OLAP là khối, một thể hiện đa chiều
của dữ liệu chi tiết và tổng hợp. Một khối bao gồm một nguồn dữ
liệu, các chiều, các độ đo và các phần dành riêng.
2.1.5. Mô hình kiến trúc dịch vụ OLAP
Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server và Khách

Hình. Kiến trúc dịch vụ OLAP
2.1.5.1. Kiến trúc thành phần Server
Dịch vụ OLAP của SQL Server cung cấp thành phần Server

có khả năng tạo và quản lý dữ liệu OLAP đa chiều, đồng thời cung
cấp dữ liệu cho khách qua dịch vụ PivotTable.
Các thao tác của thành phần Server bao gồm việc tạo các
khối dữ liệu đa chiều từ kho cơ sở dữ liệu quan hệ và lưu trữ


13



chúng trong các cấu trúc khối đa chiều (MOLAP), trong cơ sở dữ
liệu quan hệ (ROLAP) hoặc kết hợp cả hai (HOLAP).
2.1.5.2. Kiến trúc thành phần Khách
Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP
server và cung cấp giao diện cho các ứng dụng khách sử dụng truy
cập dữ liệu OLAP trên server. Các ứng dụng khách có thể sử dụng
dịch vụ PivotTable để lấy dữ liệu từ cơ sở dữ liệu OLAP.
2.2. HỆ THỐNG TRỢ GIÚP QUYẾT ĐỊNH
2.2.1. Một số định nghĩa về DSS
Khái niệm về Hệ trợ giúp quyết định, DSS (Decision
Support System), lần đầu tiên được Scott Morton đưa ra vào đầu
năm 1970, ông định nghĩa là “Các hệ thống dựa trên tương tác
máy tính, giúp người ra quyết định dùng dữ liệu và các mô hình để
giải quyết những bài toán không cấu trúc”.
Ba định nghĩa khác về DSS cùng được đưa ra vào năm 1980
bởi Moore và Chang; Bonczek, Holsapple và Whinston; Keen,
Moore và Chang chỉ ra rằng khái niệm “Cấu trúc”, “không cấu
trúc”, không đủ ý nghĩa trong trường hợp tổng quát. Một bài toán
có thể được mô tả như là có cấu trúc hoặc không cấu trúc chỉ liên
quan tới người ra quyết định, do vậy họ định nghĩa DSS là:

 Hệ thống có khả năng mở rộng;
 Có khả năng trợ giúp phân tích dữ liệu và mô hình hoá
quyết định;
 Hướng tới lập kế hoạch cho tương lai;
 Được sử dụng cho những hoàn cảnh và thời gian bất
thường;
2.2.2. Một số khái niệm


14



Một bài toán có cấu trúc là bài toán có thể giải quyết như một
công việc thường lệ. Điển hình, nếu phương pháp của giải pháp có
thể được bắt đầu như một thuật toán và được hợp nhất lại trong
một chương trình máy tính thì chúng ta nói rằng bài toán có cấu
trúc chặt.
Một bài toán nửa cấu trúc hoặc bài toán không cấu trúc là bài
toán có sự cần thiết ở vài mức độ yêu cầu thêm thông tin bổ sung,
tri thức địa phương hoặc sự hiểu biết sâu sắc bài toán. Do vậy
chúng ta không được đoán trước bằng một quá trình thuật toán.
Hai khái niệm nữa quan trọng trong hệ thống là phản hồi và
môi trường.
Phân tích nhạy cảm cố gắng giúp những nhà quản lý khi họ
không chắc chắn về độ chính xác, hoặc giá trị tương đối của thông
tin, hoặc khi họ muốn biết sự tác động của những sự thay đổi của
thông tin vào đến mô hình. Có hai kiểu phân tích sự nhạy cảm là
phân tích sự nhạy cảm tự động và phương pháp thử và sai. Phương
pháp phân tích thử và sai chứa phân tích “What- if” mà ta xem xét

sau đây.
2.2.3. Phân tích “What- if”
Một người làm mô hình tạo ra những dự đoán và những giả
định để đánh giá dữ liệu vào. Công việc này nhiều khi để đánh giá
tương lai không chắc chắn. Khi mô hình được giải quyết, các kết
quả tất nhiên phụ thuộc vào những dữ liệu này.
Phân tích nhạy cảm cố gắng kiểm tra sự tác động của những
sự thay đổi của dữ liệu vào trên những giải pháp được đề nghị
(Các biến kết quả). Kiểu này của phân tích nhạy cảm được gọi là
phân tích “ What – if”, bởi vì nó được cấu trúc như là “ Điều gì sẽ


15



xảy ra cho giải pháp nếu biến vào, giả thiết, hoặc giá trị các tham
số được thay đổi ”.
2.2.4. Những đặc tính và những khả năng của DSS
Những đặc tính và khả năng chính của DSS
1. Cung cấp trợ giúp chính cho người ra quyết định trong
những tình huống không cấu trúc hoặc nửa cấu trúc;
2. Sự trợ giúp được cung cấp cho các mức quản lý khác nhau
từ người thực thi đến các nhà quản lý;
3. Sự trợ giúp cho cá nhân và cho cả nhóm;
4. DSS trợ giúp cho các giai đoạn của quá trình ra quyết
định: Giai đoạn trí tuệ, thiết kế, lựa chọn và cài đặt;
5. DSS trợ giúp cho sự đa dạng của quá trình ra quyết định và
các kiểu quyết định;
6. DSS thích nghi và mềm dẻo;

7. DSS dễ sử dụng;
8. DSS cố gắng nâng cao hiệu quả của quá trình ra quyết
định;
9. Người ra quyết định điều khiển toàn bộ các bước của quá
trình ra quyết định trong việc giải quyết các bài toán;
10. DSS thường sử dụng các mô hình cho sự phân tích các
tình huống ra quyết định;
11. DSS ở mức cao được trang bị thành phần tri thức;
2.2.5. Các thành phần của DSS
DSS được tạo thành từ 4 hệ thống con sau:
1. Quản trị dữ liệu.
2. Quản trị mô hình.
3. Truyền thông.
4. Quản trị tri thức.


16



Mô hình khái niệm của DSS được cho trong hình dưới đây
cung cấp khả năng những hiểu biết cơ bản về cấu trúc chung và
các thành phần của DSS.
2.2.6. Hệ con quản trị dữ liệu
Hệ con quản trị dữ liệu bao gồm những thành phần sau:
1. Cơ sở dữ liệu về DSS
2. Hệ quản trị cơ sở dữ liệu.
3. Phương tiện hỏi đáp.
4. Danh mục dữ liệu.
2.2.7. Hệ con quản trị mô hình

Hệ con quản trị mô hình trong DSS bao gồm các thành phần
sau:
1. Cơ sở mô hình.
2. Hệ quản trị cơ sở mô hình.
3. Ngôn ngữ dùng trong mô hình.
4. Danh mục mô hình.
5. Thực hiện, tích hợp và điều khiển mô hình.
Các phần tử này và giao diện với những thành phần khác của
DSS được cho ở hình vẽ.
2.2.8. Hệ thống tri thức
Nhiều bài toán phi cấu trúc và bán cấu trúc rất phức tạp,
chúng yêu cầu những tri thức tinh thông, những tri thức này cần
thiết được bổ sung vào cho những khả năng bình thường của DSS,
những tri thức nâng cao được trang bị một thành phần được gọi là
quản trị tri thức.
2.2.9. Hệ thống giao diện người dùng


17



Thành phần hội thoại của DSS là phần mềm và phần cứng
cung cấp giao diện người dùng DSS.
2.2.10. Người dùng trong hệ thống DSS
DSS có hai lớp người dùng: Các nhà quản lý và các nhà
chuyên môn.
2.2.11. Sự phân lớp DSS và sự trợ giúp của chúng
Có nhiều cách phân loại DSS, sau đây là một số cách điển
hình:

 Kiểu của trợ giúp hướng dữ liệu so sánh với kiểu hướng
mô hình.
 Độ phi thủ tục.
Sự trợ giúp được cung cấp theo cách của DSS: DSS có thể cung
cấp nhiều kiểu cuả trợ giúp.
2.2.12. Các công nghệ về DSS
Sprague và Carlson đã xác định 3 mức công nghệ của DSS là (i)
DSS cụ thể; (ii) các bộ tạo sinh DSS; và (iii) các công cụ DSS.
2.3. KẾT LUẬN CHƯƠNG
Chương 2 đề cập chi tiết về công cụ OLAP, giới thiệu dịch
vụ OLAP của Microsoft SQL Server, kiến trúc khối của OLAP và
các dạng mô hình OLAP. Những kĩ thuật khai phá dữ liệu, phát
hiện tri thức có ý nghĩa đối với công tác quản lý và người quản lý,
trong việc ra các quyết định về đào tạo và nghiên cứu khoa học.


18



Chương 3
XÂY DỰNG HỆ THỐNG TRỢ GIÚP QUẢN LÝ
VỚI CHỨC NĂNG OLAP
3.1. MỤC TIÊU CỦA HỆ THỐNG
3.1.1. Giới thiệu về đơn vị
Học viện Công nghệ Bưu chính Viễn thông là đơn vị Trực
thuộc Tập đoàn Bưu chính Viễn thông Việt Nam, dẫn đầu trong
gắn kết Nghiên cứu - Đào tạo - Sản xuất Kinh doanh trong lĩnh
vực Công nghệ thông tin và Truyền thông.
3.1.1.1. Nguồn nhân lực

Là đơn vị Nghiên cứu, Đào tạo đầu Ngành Bưu chính Viễn
thông, Học viện xác định nguồn nhân lực chính là tài sản quý giá
nhất, là tài sản cần được đầu tư một cách bài bản, chuyên nghiệp
và có định hướng lâu dài . Với đội ngũ cán bộ trên 800 người, Học
viện là một trong các đơn vị có mật độ tri thức cao nhất trong
Ngành.
3.1.1.2. Công tác đào tạo
Học viện là đơn vị đào tạo đa ngành, đa nghề với nhiều loại
hình đào tạo (Chính qui, Tại chức, Từ xa, Liên thông, Văn bằng
2 ) và hệ đào tạo (Cao đẳng, Đại học, Cao học, Nghiên cứu sinh)
khác nhau
3.1.2. Đặt vấn đề
3.1.2.1. Về kho dữ liệu
Kho dữ liệu là kho lưu trữ dữ liệu lưu trữ bằng thiết bị điện tử
của một tổ chức. Các kho dữ liệu được thiết kế để hỗ trợ việc phân
tích dữ liệu và lập báo cáo


19



Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh
nghiệp phát sinh ngày càng nhiều. Người ta muốn tận dụng nguồn
dữ liệu này để sử dụng cho những mục đích hỗ trợ cho công việc
kinh doanh ví dụ như cho mục đích thống kê hay phân tích. Quá
trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm
sau:
1. Dữ liệu tích hợp.
2. Theo chủ đề.

3. Biến thời gian.
4. Dữ liệu cố định.
3.1.2.2. Cấu trúc dữ liệu cho kho dữ liệu
Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao
tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích
và báo cáo. Các thao tác với dữ liệu của kho dữ liệu dựa trên cơ sở
là Mô hình dữ liệu đa chiều, được mô hình vào đối tượng gọi là
khối dữ liệu.
3.1.2.3. Ngôn ngữ cho kho dữ liệu
Ngôn ngữ xử lý phân tích trực tuyến OLAP, rất phù hợp với
kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữ truy vấn SQL và
tập trung vào các câu lệnh sau:
1. Thu nhỏ: ví dụ nhóm dữ liệu theo năm thay vì theo quý.
2. Mở rộng: ví dụ mở rộng dữ liệu, nhìn theo tháng thay vì
theo quý.
3. Cắt lát : nhìn theo từng lớp một. Ví dụ: từ danh mục bán
hàng của Q1, Q2, Q3, Q4 chỉ xem của Q1.
4. Thu nhỏ: bỏ bớt một phần của dữ liệu (tương ứng thêm
điều kiện vào câu lệnh WHERE trong SQL).
3.1.2.4. Cấu trúc của một hệ thống kho dữ liệu


20



Người ta thiết kế kho dữ liệu có ba tầng:
1. Tầng đáy;
2. Tầng giữa;
3. Tầng trên cùng;

3.1.2.5. Nhiệm vụ khai phá dữ liệu của luận văn
Trong khuôn khổ luận văn này, tôi sử dụng kĩ thuật OLAP để
khai phá dữ liệu, trong kho dữ liệu nhiều chiều. Các dữ liệu về (i)
công tác quản lý sinh viên; (ii) kết quả học tập của sinh viên và
học viên; (iii) công trình nghiên cứu khoa học của thày cô giáo
trong Học viện Công nghệ Bưu chính Viễn thông…
Dựa trên dữ liệu cơ bản đó, để thực hiện công tác trợ giúp
quyết định, phục vụ quản lý, điều hành công tác đào tạo và nghiên
cứu khoa học trong Học viện Công nghệ Bưu chính Viễn thông,
luận văn sẽ:
1. Tổ chức dữ liệu, dưới dạng kho dữ liệu;
2. Thể hiện dữ liệu dưới dạng đồ hoạ, phục vụ quyết định
trực quan;
3. Sử dụng kĩ thuật OLAP, thể hiện dữ liệu dưới các dạng
bảng xoay khác nhau, tiện cho việc xử lí dữ liệu và ra
quyết định.
3.2. YÊU CẦU VỀ HỆ THỐNG, THIẾT KẾ HỆ THỐNG
3.2.1. Cơ sở dữ liệu về đào tạo và nghiên cứu khoa học
Hiện tại, Học viện chưa quản lý tác nghiệp rộng trên cơ sở dữ
liệu trực tuyến. Dữ liệu thường được tổ chức trong các cơ sở dữ
liệu đơn lẻ. Nhiệm vụ của đề tài luận văn là thiết kế cơ sở dữ liệu
tích hợp, cho phép lưu mọi thông tin về đào tạo và nghiên cứu
khoa học của cán bộ, học viên và sinh viên của Học viện.


21



Hệ quản trị cơ sở dữ liệu là SQL SERVER. Giao diện là

tương tác người dùng theo đồ họa, gắn với môi trường Windows.

Hình. Hệ quản trị cơ sở dữ liệu sử dụng trong đề tài luận văn
Nhiều bảng dữ liệu, liên quan đến đào tạo và nghiên cứu
khoa học được mô tả trong cơ sở dữ liệu “quản lý nguồn nhân
lực”.
3.2.2. Hạ tầng kĩ thuật
Đề tài thực hiện trên máy đơn. Mô hình tương lai yêu cầu cơ
sở dữ liệu đặt trên máy chủ cơ sở dữ liệu của Học viện. Các quyết
định liên quan đến quản lý nguồn nhân lực sẽ thực hiện trên mạng
Intranet, cho phép các người quản lý điều khiển tác nghiệp. Các
chức năng tìm kiếm, trích rút dữ liệu và xử lý dữ liệu, theo hệ
thống cơ sở dữ liệu truyền thống được hệ quản trị cơ sở dữ liệu
SQL SERVER đảm nhiệm.
Một số chức năng trợ giúp quyết định do khối OLAP đảm
nhiệm. Phần mềm với các chức năng OLAP gắn với hệ quản trị
SQL SERVER, và chức năng OLAP trong các bảng tính sẽ giúp
người quản lý tin học hóa quá trình của họ.
3.2.3. Hỏi dữ liệu nhờ chức năng của hệ quản trị cơ sở dữ liệu
Hệ quản trị SQL SERVER cho phép đặt các câu hỏi về dữ
liệu thông qua ngôn ngữ SQL. Tuy tiếp cận này hiệu quả, việc


22



dùng câu hỏi SQL không thuận tiện cho người dùng không chuyên
ICT. Một số câu hỏi đơn giản được thực hiện trong môi trường
SQL SERVER, rồi xuất dữ liệu ra tệp, dưới dạng tệp của MS

EXCEL, rồi được xử lý nhờ các chức năng OLAP của bảng tính.
Hệ quản trị cơ sở dữ liệu có thể giải thích kết quả trả lời câu
hỏi dữ liệu theo vết khai thác câu hỏi.
3.3. DỮ LIỆU TRỢ GIÚP QUYẾT ĐỊNH
Dữ liệu được mô tả, tổ chức và lưu trữ dưới dạng các bảng
quan hệ trong các cơ sở dữ liệu theo mô hình quan hệ.
Tuy nhiên, chúng được thể hiện lại trong các bảng tính, phù
hợp việc điều hành của cán bộ. Một số dữ liệu minh hoạ ở đây
được thể hiện dưới dạng bảng tính MS EXCEL.
3.4. THỬ NGHIỆM THỂ HIỆN DỮ LIỆU
3.4.1. Thể hiện đồ hoạ
3.4.2. Sử dụng bảng xoay của MS EXCEL
3.5. KẾT LUẬN CHƯƠNG
Dựa trên các kĩ thuật, phương pháp luận xử lý dữ liệu trực
tuyến, nhằm tăng cường công tác quản lý nguồn nhân lực tại Học
viện Công nghệ Bưu chính Viễn thông, đề tài luận văn đã tổ chức
cơ sở dữ liệu về đào tạo và nghiên cứu khoa học, sử dụng hệ quản
trị cơ sở dữ liệu SQL SERVER.



23



KẾT LUẬN
Một số vấn đề đã giải quyết:
Luận văn đã tìm hiểu các phương pháp khai phá dữ liệu, quá
trình khai phá dữ liệu, giới thiệu về OLAP, một kỹ thuật sử dụng
cách thể hiện dữ liệu đa chiều nhằm cung cấp khả năng truy xuất

nhanh đến dữ liệu của kho dữ liệu. Định hình mô hình dữ liệu đa
chiều.
Luận văn đã đề cập chi tiết về công cụ OLAP, giới thiệu dịch
vụ OLAP của Microsoft SQL Server, kiến trúc khối của OLAP và
các dạng mô hình OLAP. Những kĩ thuật khai phá dữ liệu, phát
hiện tri thức có ý nghĩa đối với công tác quản lý và người quản lý,
trong việc ra các quyết định về đào tạo và nghiên cứu khoa học.
Để tăng cường trợ giúp quyết định, chương này đã giới thiệu tổng
quan về hệ trợ giúp quyết định DSS, giới thiệu các thành phần cơ
bản của DSS, phân tích những đặc tính và những khả năng của
DSS.
Dựa trên các kĩ thuật, phương pháp luận xử lý dữ liệu trực
tuyến, nhằm tăng cường công tác quản lý nguồn nhân lực tại Học
viện, đề tài luận văn đã tổ chức cơ sở dữ liệu về đào tạo và nghiên
cứu khoa học, sử dụng hệ quản trị cơ sở dữ liệu SQL SERVER.
Tuy các dữ liệu đơn giản, đủ để thể hiện vai trò khai phá dữ liệu
của kĩ thuật OLAP.
Kiến nghị và hướng nghiên cứu tiếp theo
Đề tài cần tiếp tục với hệ thống thực, trên mạng Intranet của
Học viện. Một số cơ sở dữ liệu về đào tạo và nghiên cứu khoa học
cần được thiết kế chuẩn hóa, đảm bảo tính đúng đắn của dữ liệu và
kết quả xử lý.

×