Tải bản đầy đủ (.doc) (44 trang)

Tiểu luận môn Hệ hỗ trợ quyết định PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.13 MB, 44 trang )

Hệ hỗ trợ ra quyết định
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI THU HOẠCH MÔN
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
ĐỀ TÀI :
PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ
TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU
Giáo viên hướng dẫn : Học viên thực hiện :
PGS.TS.ĐỖ PHÚC Nguyễn Võ Thông Thái
MSHV : CH1301053
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 1
Hệ hỗ trợ ra quyết định
TPHCM, 06/2014
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI THU HOẠCH MÔN
HỆ HỖ TRỢ QUYẾT ĐỊNH
ĐỀ TÀI :
PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN (OLAP) XÂY DỰNG HỆ
TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU
TPHCM - 2014
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 2
Hệ hỗ trợ ra quyết định
CHƯƠNG 1: MỞ ĐẦU
1.1. Giới thiệu đề tài
Các hoạt động sản xuất, kinh doanh hiện nay luôn cần có sự đáp ứng nhanh nhạy,
tức thời đối với các thay đổi liên tục, vì vậy các nhà quả lý buộc phải thường xuyên ra
cùng lúc nhiều quyết định đúng đắn (mà chúng sẽ ảnh hưởng đáng kể đến xu hướng hoạt
động và sự cạnh tranh của doanh nghiệp) một cách nhanh chóng. Do đó vấn đề trợ giúp
quyết định trở nên rất cần thiết. Người ta cần phải thu thập, tổng hợp và phân tích dữ liệu


từ nhiều nguồn khác nhau một cách nhanh chóng và hiệu quả thì mới có thể ra được
những quyết định nhanh chóng và phù hợp. Điều này dẫn đến việc cần phát triển những
hệ thống thông tin biết cách làm thế nào để trích chọn và phân tích dữ liệu cho người sử
dụng.
Hiện nay có rất nhiều phần mềm cung cấp cho người sử dụng những khả năng truy
vấn và lập các báo cáo thông tin, đặc biệt là các hệ quản trị CSDL quan hệ. Tuy nhiên
CSDL quan hệ với cấu trúc hai chiều (dòng và cột) không được thiết kế để cung cấp các
quan điểm đa chiều trên dữ liệu đầu vào của các phân tích phức tạp. Sử dụng các hệ
thống này, chúng ta sẽ gặp rất nhiều khó khăn và bất tiện trong việc tổ chức dữ liệu đa
chiều và các bảng hai chiều, không thể triển khai dữ liệu phân tích với số lượng lớn, công
cụ phân tích để tạo ra các dữ liệu quyết định không mạnh, thuận tiện, linh hoạt, nhanh
chóng và nhất là không dễ dàng để sử dụng đối với các nhà quản lý, những người ra
quyết định.
Như vậy, việc xây dựng một hệ thống mới có khả năng tổ chức dữ liệu đa chiều và
có khả năng phân tích dữ liệu linh hoạt để trả lời được các truy vấn đa chiều một cách dễ
dàng, nhanh chóng nhằm hỗ trợ cho việc ra quyết định của các nhà quản lý là cần thiết.
1.2. Phạm vi của đề tài
Tìm hiều các khái niệm liên quan đến hệ hỗ trợ ra quyết định, cơ sở dữ liệu đa
chiều, xử lý phân tích trực tiếp (OLAP).
1.3. Phương pháp thực hiện.
Để thực hiện đề tài tôi đã tìm hiểu tổng quan về hệ hỗ trợ ra quyết định, cơ sở dữ
liệu đa chiều, xử lý phân tích trực tiếp (OLAP).
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 3
Hệ hỗ trợ ra quyết định
Về nghiên cứu tài liệu: tìm hiểu các khái niệm và các kiến thức có liên trên các
sách chuyên ngành, các bài báo đăng trên các tạp chí khoa học ,…
1.4. Bố cục bài thu hoạch
Nội dung của bài thu hoạch bao gồm 5 chương:
Chương 1: Mở đầu
Chương 2: Giới thiệu khai thác dữ liệu và xử lý phân tích trực tuyến.

Chương 3 : Lý thuyết về kho dữ liệu và mô hình kho dữ liệu
Chương 4: Giới thiệu Hệ trợ giúp quyết định dựa vào dữ liệu
Chương 5 : Xây dựng Demo.
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 4
Hệ hỗ trợ ra quyết định
CHƯƠNG 2: KHAI THÁC DỮ LIỆU VÀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
2.1. Giới thiệu
Khai thác dữ liệu là quá trình phát hiện ra những mối quan hệ liên thuộc, các mô
hình và các khuynh hướng mới (Patterns & Trends) bằng việc khảo sát một số lượng lớn
dữ liệu được lưu trữ trong các kho (Repository) sử dụng các công nghệ về nhận dạng mẫu
cũng như các kỹ thuật thống kê và toán học. Khai thác dữ liệu có thể hiểu là kỹ thuật
khoan dữ liệu theo chiều sâu và tổng hợp dữ liệu theo chiều ngược lại, là quá trình đào
xới xem xét dữ liệu dưới nhiều góc độ nhằm tìm ra các mối liên hệ giữa các thành phần
dữ liệu và phát hiện ra những xu hướng, hình mẫu, kinh nghiệm quá khứ tiềm ẩn trong
kho dữ liệu. Vì vậy nó rất phù hợp với mục đích phân tích dữ liệu hỗ trợ điều hành và ra
quyết định.
Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu thập và lưu trữ
trong các CSDL lớn đã vượt ra ngoài khả năng của con người có thể hiểu được chúng nếu
không có những công cụ hỗ trợ tốt. Tình huống này đã đặt chúng ta trong hoàn cảnh
nhiều dữ liệu nhưng thiếu thông tin, thiếu tri thức. Với một khối lượng lớn dữ liệu như
vậy rõ ràng là các phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu như
chia bảng không còn là phù hợp nữa. Chính vì vậy, có một kỹ thuật mới ra đời đó là
“Khai phá dữ liệu”.
Phần lớn các phương pháp khai thác dữ liệu đều dựa trên các lĩnh vực như máy
học, thống kê và các công cụ khác. Một số kỹ thuật thường dùng là mạng Nơ-ron
(Neuron Network), giải thuật di truyền (Genetic Algorithms) và xử lý phân tích trực
tuyến (OLAP).
OLAP là việc sử dụng kho dữ liệu cho mục đích trợ giúp quyết định. Ý tưởng mô
phỏng các chiều trong dữ liệu có thể được mở rộng; một bảng với n thuộc tính có thể
được xem như một không gian n chiều. Người quản lý thường đặt những câu hỏi mà có

thể phân tích trong những phân tích đa chiều. Các thông tin này không phải dễ phân tích
khi bảng được biểu diễn hai chiều và CSDL quan hệ chuẩn không thể đáp ứng tốt công
việc này. Trong trường hợp như vậy, sử dụng OLAP tỏ ra thích hợp.
Cũng có một sự khác nhau giữa công cụ OLAP và khai thác dữ liệu đó là công cụ
OLAP không thể “học”, chúng không thể tạo nên tri thức mới và không tìm kiếm được
giải pháp mới. Như vậy có sự khác nhau cơ bản giữa tri thức đa chiều và kiểu tri thức
mới mà một người có thể lấy ra được từ một CSDL thông qua khai thác dữ liệu.
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 5
Hệ hỗ trợ ra quyết định
Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có
các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán
chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Phát hiện tri thức
trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu
với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được.
2.2. Các phương pháp khai phá dữ liệu
2.1.1. Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá
trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu
một lớp).
2.1.2. Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ
liệu vào các cụm, sao cho các đối tượng thuộc cùng một lớp là tương đồng.
2.1.3. Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá
trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm
được.
2.1.4. Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở chỗ nó dùng
để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc.
2.1.5. Giải thuật di truyền

Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng chính của giải thuật là
dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh học.
2.1.6. Mạng nơron
Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện
nay. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn
luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người.
2.1.7. Cây quyết định
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 6
Hệ hỗ trợ ra quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và
dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ liệu
chưa biết sẽ được dự đoán, dự báo.
2.3. Xử lý phân tích trực tuyến (OLAP)
OLAP là một kỹ thuật sử dụng cách thể hiện dữ liệu đa chiều gọi là các khối
(cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Tạo khối
cho dữ liệu trong các bảng chiều (dimension table) và bảng sự kiện (fact table) trong kho
dữ liệu và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho các ứng
dụng khách.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà
nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ
mất rất nhiều thời gian.
OLAP là một công nghệ phân tích dữ liệu thực hiện những công việc sau :
• Đưa ra một khung nhìn Logic, nhiều chiều của dữ liệu trong kho dữ liệu.
Khung nhìn này hoàn toàn không phụ thuộc vào việc dữ liệu được lưu trữ như
thế nào (có thể được lưu trữ trong một kho dữ liệu nhiều chiều hay một kho dữ
liệu quan hệ).
• Thường liên quan tới những truy vấn phân tích tương tác dữ liệu. Sự tương tác
thường là phức tạp, liên quan tới việc khoan sâu xuống những mức dữ liệu chi
tiết hơn hoặc cuộn lên những mức dữ liệu cao hơn ở mức tổng hợp hoặc kết
hợp.

• Cung cấp khả năng thiết lập mô hình phân tích bao gồm tính toán tỉ lệ, những
biến đổi … liên quan tới những đại lượng số hoặc dữ liệu là con số qua nhiều
chiều.
• Hỗ trợ những mức mô hình chức năng cho việc dự báo, phân tích các xu hướng
và phân tích thống kê.
• Lấy và hiển thị dữ liệu theo những bảng 2 chiều hay 3 chiều, theo biểu đồ hay
đồ thị, dễ dàng xoay đổi các trục cho nhanh. Khả năng xoay là quan trọng vì
người sử dụng cần phân tích dữ liệu từ những các nhìn khác nhau và sự phân
tích mỗi cách nhìn sẽ dẫn đến một câu hỏi khác, câu hỏi sẽ được kiểm tra tính
đúng đắn dựa trên một cách nhìn khác về dữ liệu đó.
• Đáp ứng những câu trả lời nhanh vì vậy quá trình phân tích không bị cắt ngang
và thông tin không bị cũ.
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 7
Hệ hỗ trợ ra quyết định
• Sử dụng một kho dữ liệu đa chiều, lưu trũ dữ liệu theo các mảng (lưu ý là
mảng lưu trữ những phần tử cùng kiểu khác với bản ghi là các phần tử khác
kiểu nhau ). Những mảng này là sự biểu diễn Logic của các chiều công việc.
Hình 2.1 : Mô hình cấu trúc OLAP
2.4. Cấu trúc OLAP
Khối (Cube) : Khối là phần tử chính trong xử lý phân tích trực tuyến, là tập con
dữ liệu từ kho dữ liệu, được tổ chức và tổng hợp trong các cấu trúc đa chiều. Để xác định
một khối, em chọn một bảng Fact và các đơn vị đo lường đồng nhất (các cột số theo sự
quan tâm của người dùng khối) trong bảng Fact. Sau đó chọn các chiều, mỗi chiều gồm
một hay nhiều cột từ bảng liên quan khác. Các chiều cung cấp mô tả rõ ràng bởi các đơn
vị đo lường được chia ra của người dùng khối.
Chiều (Dimension) : Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu
số trong khối được phân chia để phân tích. Khi xác định một chiều, chọn một hoặc nhiều
cột của một trong các bảng liên kết (bảng chiều). Nếu chọn các cột phức tạp thì tất cả cần
có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống
phân cấp đơn. Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể

HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 8
Hệ hỗ trợ ra quyết định
nhất. Ví dụ: một chiều thời gian (Time) được tạo ra từ các cột Năm, Quý, Tháng, Ngày
(Year, Quarter, Month và Day). Mỗi cột trong chiều góp phần vào một cấp độ cho chiều.
Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà
nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down).
Chiều có phân cấp: Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách
khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được. Phần lớn
các chiều đều có một cấu trúc đa mức hay phân cấp. Nếu làm những quyết định về giá
sản phẩm để tối đa doanh thu thì cần quan sát ở những dữ liệu về doanh thu sản phẩm
được gộp theo giá sản phẩm, tức là đã thực hiện một cách gộp. Khi cần làm những quyết
định khác thì cần thực hiện những phép gộp tương ứng khác. Như vậy có thể có quá
nhiều tiến trình gộp. Thế nên các tiến trình gộp này cần phải được thực hiện một cách rất
dễ dàng, linh hoạt để có thể hỗ trợ những phân tích không hoạch định trước. Điều này có
thể được giải quyết trên cơ sở có sự trợ giúp của những phân cấp rộng và sâu.
Roll_up và Drill_down: Dựa trên phân cấp theo chiều, từ một mức dưới, chúng
có thể cuộn lên (Roll_up) các mức trên, thực hiện một phép gộp, để có được kết quả tổng
hợp hơn. Và từ một mức trên, có thể khoan sâu xuống (Drill_down) các mức dưới, để có
các kết quả chi tiết hơn.
Các đơn vị đo lường (Measures): Các đơn vị đo của khối là các cột trong bảng
Fact. Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phân
tích như định giá, trị giá, hoặc số lượng bán
2.5. Nguyên tắc của OLAP
2.5.1. Khung nhìn đa chiều
Đối với người thực hiện thì cách nhìn của họ với công việc là chiều về bản chất.
Vì vậy mô hình OLAP phải đa chiều về bản chất. Những người sử dụng có thể thao tác
dễ dàng trên những mô hình dữ liệu đa chiều như vậy.
Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều”. Ví dụ
như họ có khuynh hướng mô tả những gì mà công ty làm như sau:
• “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và

chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.
• Những người thiết kế kho dữ liệu thường lắng nghe cẩn thận những từ đó và họ
thêm vào những nhấn mạnh đặc biệt của họ như:
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 9
Hệ hỗ trợ ra quyết định
• “Chúng tôi kinh doanh các sản phẩm trong nhiều thị trường khác nhau, và
chúng tôi đánh giá hiệu quả thực hiện của chúng tôi qua thời gian”.
Suy nghĩ một cách trực giác, việc kinh doanh như một khối dữ liệu, với các nhãn
trên mỗi cạnh của khối. Các điểm bên trong khối là các giao điểm của các cạnh. Với mô
tả kinh doanh ở trên, các cạnh của khối là Sản phẩm, Thị trường, và Thời gian. Hầu hết
mọi người đều có thể nhanh chóng hiểu và tưởng tượng rằng các điểm bên trong khối là
các độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản phẩm, Thị trường và
Thời gian. Các chiều được phân cấp theo loại. Ví dụ như chiều Thời gian có thể được mô
tả bởi các thuộc tính như Năm, Quý, Tháng và Ngày.
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ
nhiều khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ liệu như
roll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng ức chi
tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại khung nhìn đa chiều của dữ
liệu), cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi. Những thao tác đó
được biết như Xử lý phân tích trực tuyến.
2.5.2. Tính trong suốt (Transparency)
Công cụ phân tích cần phải trong suốt đối với người sử dụng. OLAP nên tồn tại
trong một kiến trúc hệ thống mở, cho phép các công cụ phân tích có thể nhúng vào bất kỳ
nơi nào mà người sử dụng mong muốn mà không có một sự tác động ngược lại nào với
các chức năng của công cụ trên máy chủ.
2.5.3. Khả năng truy cập ngược
Công cụ OLAP phải ánh xạ được giản đồ Logic của chính nó tới kho dữ liệu vật lý
hỗn tạp, truy nhập tới dữ liệu và thực hiện mọi chuyển đổi cần thiết để đưa ra một khung
nhìn đơn giản, mạch lạc và đồng nhất cho người sử dụng. Dữ liệu vật lý của hệ thống
thuộc kiểu này trở nên trong suốt với người sử dụng và chỉ là mói quan tâm của công cụ.

2.5.4. Kiến trúc khách/chủ (Client/Server)
Thành phần Server của các công cụ OLAP cần phải đủ thông minh đến mức mà
nhiều Client có thể được truy cập tới một cách dễ dàng và có thể lập trình tích hợp.
Server thông minh phải có đủ khả năng để ánh xạ và xây dựng dữ liệu từ những cơ sở dữ
liệu vật lý và Logic khắc hẳn nhau. Điều đó rất cần thiết để đảm bảo tính trong suốt và
xây dựng một lược đồ mứ khái niệm, Logic, vật lý chung
2.5.5. Cấu trúc chung cho các chiều (Generic Dimensionality)
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 10
Hệ hỗ trợ ra quyết định
Mỗi chiều của dữ liệu phải cân bằng giữa cấu trúc và khả năng thực hiện của nó.
Thường chỉ tồn tại một cấu trúc chung cho tất cả các chiều. Mọi chức năng được áp dụng
cho một chiều cũng có thể áp dụng cho các chiều khác.
2.5.6. Hỗ trợ nhiều người sử dụng
Những công cụ của OLAP phải cung cấp truy cập đồng thời (lấy dữ liệu và cập
nhật), tính toàn vẹn và an toàn để hỗ trợ cho những người sử dụng làm việc đồng thời với
cùng một mô hình phân tích hoặc tạo ra những mô hình khác nhau từ cùng một dữ liệu.
2.5.7. Không hạn chế số chiều và các mức kết hợp dữ liệu
Một OLAP Server có thể chứa ít nhất 15 chiều trong một mô hình phân tích thông
thường nhất. Mỗi chiều cho phép một số lượng không giới hạn các mức tổng hợp và kết
hợp dữ liệu do người dùng định nghĩa và đưa ra cách xây dựng các mức đó.
2.6. Kiến trúc khối OLAP
2.6.1. Giới thiệu dịch vụ OLAP của Microsoft SQL Server
Dịch vụ OLAP là một server tầng giữa phục vụ cho phân tích xử lý trực tuyến. Hệ
thống dịch vụ OLAP là một công cụ mạnh trong việc xây dựng các khối đa chiều của dữ
liệu cho phân tích và cung cấp khả năng truy xuất nhanh đến thông tin khối cho các
khách.
Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện bởi
OLAP server) và phần khách (là dịch vụ PivotTable).
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 11
Hệ hỗ trợ ra quyết định

Hình 2.2 : Kiến trúc OLAP
Các đặc điểm của dịch vụ OLAP:
• Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực
hiện.
• Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ.
• Các khối có thể ghi: Cho các kịch bản phân tích dạng “what if”.
• Kiến trúc có thể co dãn: Cung cấp một sự đa dạng các kịch bản lưu trữ và giải
pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó chịu cho các kỹ
thuật OLAP.
• Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và khách/server
• Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tùy ý.
2.6.2. So sánh OLAP với OLTP
Đặc trưng của các ứng dụng OLTP là các tác vụ xử lý tự động ghi chép dữ liệu xử
lý tác vụ của một tổ chức như ghi nhận đơn đặt hàng và các giao dịch ngân hàng mà cần
phải đọc hoặc cập nhật một vài mẩu tin dựa trên khoá chính của chúng.
Kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản lý. Tính chi tiết và
riêng lẻ của các mẩu tin thì ít quan trọng hơn tính lịch sử, tổng kết và hợp nhất của dữ
liệu.
Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được xây dựng để hỗ trợ tốt các tác vụ
OLTP.
2.6.3. Các mô hình lưu trữ hỗ trợ OLAP
Dịch vụ OLAP hỗ trợ nhiều mô hình lưu trữ dữ liệu khác nhau, mỗi mô hình có
các ưu và khuyết điểm riêng, chúng được sử dụng tuỳ theo mục đích khai thác.
2.6.3.1. Mô hình OLAP nhiều chiều (MOLAP)
Mô hình OLAP nhiều chiều (MOLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp
trong các cấu trúc đa chiều gọi là các khối. Các cấu trúc này được lưu bên ngoài cơ sở dữ
liệu data mart hoặc kho dữ liệu.
MOLAP là một cấu trúc tối ưu cho việc lưu trữ các sự kiện đã phân loại và cùng
với nó là các chiều. Dữ liệu được tổ chức theo khung nhìn dữ liệu và được lưu trữ trong
một biểu mẫu được kết hợp và tổng hợp.

HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 12
Hệ hỗ trợ ra quyết định
Lợi ích của việc lưu trữ trong cấu trúc MOLAP là:
• Yêu cầu tốc độ truy vấn cao.
• Có khả năng phân tích dữ liệu phức hợp. MOLAP cung cấp môi trường phân
tích mạnh hơn ROLAP.
• Dễ sử dụng: bởi dữ liệu đã được tổng hợp từ trước và được lưu trong kho dữ
liệu đa chiều. Tất cả những gì người sử dụng cần làm là xác định các chiều và
các nhóm nằm trong các chiều đó. Trong khi đó ROLAP lại yêu cầu người sử
dụng phải hiểu được sự ánh xạ tới các CSDL tác nghiệp.
Hình 2.3 : Mô hình cấu trúc MOLAP
2.6.3.2. Mô hình OLAP quan hệ (ROLAP)
Mô hình OLAP quan hệ (ROLAP) lưu trữ dữ liệu cơ sở và thông tin tổng hợp
trong các bảng quan hệ. Các bảng này được lưu trữ trong cùng cơ sở dữ liệu như là các
bảng của data mart hoặc kho dữ liệu. Các dữ liệu được lưu trữ trong những bảng quan hệ
và có thể có kích thước hàng trăm Gigabyte
Lợi ích của việc lưu trữ trong cấu trúc ROLAP là:
• Dữ liệu thường xuyên thay đổi: trong một kho dữ liệu hay biến động và người
sử dụng lại đòi hỏi những tổng hợp gần như tức thời, ROLAP sẽ là sự lựa chọn
duy nhất. MOLAP phải trích lấy và tổng hợp dữ liệu ngoại tuyến (Offline), hơn
nữa hầu hết các cơ sở dữ liệu đa chiều đều yêu cầu tính toán lại toàn bộ CSDL
khi một chiều được thêm vào, khi một lược đồ tổng hợp thay đổi hoặc khi dữ
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 13
Hệ hỗ trợ ra quyết định
liệu mới được thêm vào. Những đặc điểm này khiến cho MOLAP không thích
hợp với những hệ hỗ trợ quyết định mà nguồn dữ liệu thường xuyên biến động.
• Khối lượng dữ liệu lớn: Đối với những kho dữ liệu có độ lớn cỡ Terabyte,
MOLAP đòi hỏi việc tính toán trước dữ liệu với hàng trăm Terabyte không
gian lưu trữ.
• Các dạng truy vấn không được biết trước: ROLAP cho phép truy vấn và tổng

hợp từ bất kỳ nguồn dữ liệu tác nghiệp nào. Tuy nhiên khả năng này lại dẫn tới
sự phức tạp khi sử dụng, trong việc ánh xạ tới các nguồn dữ liệu tác nghiệp.
Hình 2.4 : Mô hình cấu trúc ROLAP
2.6.3.3. Mô hình lai OLAP (HOLAP)
Mô hình OLAP lai (HOLAP) là sự kết hợp giữa MOLAP và ROLAP.
Lợi ích của việc lưu trữ trong cấu trúc HOLAP là:
• Lấy dữ liệu trong khối (cube) nhanh hơn bằng cách sử dụng xử lý truy vấn tốc
độ cao của MOLAP.
• Tiêu thụ ít không gian lưu trữ hơn MOLAP.
• Tránh trùng lặp dữ liệu.
2.6.4. Kiến trúc khối OLAP
Đối tượng chính của OLAP là khối, một thể hiện đa chiều của dữ liệu chi tiết và
tổng hợp. Một khối bao gồm một nguồn dữ liệu, các chiều, các độ đo và các phần dành
riêng.
Kiến trúc dịch vụ OLAP gồm 2 thành phần: Server và Khách :
• Kiến trúc thành phần Server
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 14
Hệ hỗ trợ ra quyết định
Dịch vụ OLAP của SQL Server cung cấp thành phần Server có khả năng tạo và
quản lý dữ liệu OLAP đa chiều, đồng thời cung cấp dữ liệu cho khách qua dịch vụ
PivotTable.
Các thao tác của thành phần Server bao gồm việc tạo các khối dữ liệu đa chiều từ
kho cơ sở dữ liệu quan hệ và lưu trữ chúng trong các cấu trúc khối đa chiều (MOLAP),
trong cơ sở dữ liệu quan hệ (ROLAP) hoặc kết hợp cả hai (HOLAP).
• Kiến trúc thành phần Khách
Thành phần khách là dịch vụ PivotTable giao tiếp với OLAP server và cung cấp
giao diện cho các ứng dụng khách sử dụng truy cập dữ liệu OLAP trên server. Các ứng
dụng khách có thể sử dụng dịch vụ PivotTable để lấy dữ liệu từ cơ sở dữ liệu OLAP.
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 15
Hệ hỗ trợ ra quyết định

CHƯƠNG 3: KHO DỮ LIỆU (DATA WAREHOUSE)
Hiện nay hầu hết các tổ chức đều đang phải đương đầu với sự thay đổi của thị
trường. Người ta thấy rằng để có thể đưa ra một quyết định đúng đắn, trước hết phải có
khả năng truy cập tới tất cả các loại thông tin nhanh chóng. Đối với một tổ chức nào đó,
để có thể quyết định đúng đắn, cần nghiên cứu cả những dữ liệu quá khứ, phân tích nhằm
định ra toàn bộ các xu hướng có thể. Trong bối cảnh công nghệ thông tin phát triển, dữ
liệu được tập trung trong những cơ sở dữ liệu khổng lồ, nhu cầu truy cập vào tất cả thông
tin là cần thiết. Cách hiệu quả nhất để trợ giúp nhu cầu truy cập thông tin là tổ chức kho
dữ liệu (Data Warehouse)
3.1. Khái niệm
Data warehouse - kho dữ liệu là một tập hợp thông tin cơ bản trên máy vi tính mà
chúng có tính quyết định đến việc thực hiện thành công bước đầu trong công việc kinh
doanh.
Một kho dữ liệu, gọi một cách chính xác hơn là kho thông tin (information
warehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế với việc tiếp cận các ý
kiến trong mọi lĩnh vực kinh doanh. Nó cung cấp các công cụ để đáp ứng thông tin cần
thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức - không những chỉ là những
yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiện nhất để đạt được việc lấy thông
tin nhanh, chính xác. Một kho dữ liệu được thiết kế để người sử dụng có thể nhận ra
thông tin mà họ muốn có và truy cập đến bằng những công cụ đơn giản .
Một kho dữ liệu là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữ
liệu đa chiều và mối quan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồ
họa và nhiều nữa. Dữ liệu trong kho dữ liệu không giống dữ liệu của hệ điều hành là loại
chỉ có thể đọc nhưng không chỉnh sửa được. Hệ điều hành tạo ra, chỉnh sửa và xóa những
dữ liệu sản xuất mà những dữ liệu này cung cấp cho kho dữ liệu. Nguyên nhân chính cho
sự phát triển một kho dữ liệu là hoạt động tích hợp dữ liệu từ nhiền nguồn khác nhau vào
một kho dữ liệu đơn lẻ và dày đặc mà kho này cung cấp cho việc phân tích và ra quyết
định trong công việc kinh doanh.
3.2. Các thành phần kho dữ liệu
Các thành phần cấu thành kho dữ liệu cung cấp một khung cơ bản để trao đồi về

kiến trúc, cấu trúc và các chiến lược của kho dữ liệu
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 16
Hệ hỗ trợ ra quyết định
Hình 3.1 : Mô hình kho dữ liệu
Hệ thống kho dữ liệu thường bao gồm 3 tầng như trong hình ….
Tầng đáy: là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn hóa,
lưu trữ tập trung.
Tầng giữa: thực hiện các thao tác với kho dữ liệu thông qua dịch vụ OLAP
(OLAP server). Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết
hợp cả hai mô hình trên thành mô hình Hybrid OLAP.
Tầng trên: thực hiện việc truy vấn, khai phá thông tin
3.2.1. Siêu dữ liệu (Metadata)
Trong việc tổ chức kho dữ liệu, không chỉ những người dùng đầu cuối mà ngay cả
những nhân viên quản trị đều cần truy cập toàn bộ thông tin trong bảng gồm các đối
tượng cũng như các thuộc tính. Do đó muốn biết một số vấn đề
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 17
Hệ hỗ trợ ra quyết định
• Có thể tìm thấy dữ liệu ở đâu ?
• Tồn tại những loại thông, dữ liệu nào ?
• Dữ liệu thuộc loại nào, có dạng ra sao ?
• Trong các CSDL khác nhau thì dữ liệu có liên quan với nhau như thế nào ?
• Dữ liệu được lấy từ đâu và nó thuộc ai quản lý ?
Vì vậy hình thành một dạng CSDL khác được gọi là Metadata nhằm mô tả cấu
trúc nội dung của CSDL chính. Trong môi trường CSDL phức hợp, một Metadata phù
hợp là không thể thiếu bởi nó định ra cấu trúc CSDL tác nghiệp và cấu trúc kho dữ liệu.
Một vấn đề xuất hiện thường xuyên là khả năng giao tiếp với người sử dụng về những
thông tin bên trong kho dữ liệu và cách thức chúng được truy cập. Chính Metadata là
cách để người sử dụng và các ứng dụng có thể tiếp cận được với những thông tin lưu trữ
trong kho dữ liệu. Nó có thể định nghĩa tất cả các phần tử dữ liệu và các thuộc tính của
chúng.

3.2.2. Các nguồn dữ liệu
Bao gồm các hệ thống trong và ngoài của một tổ chức, rất phong phú về chủng
loại. Các hệ thống nằm trong được coi như các hệ thống nguồn hoặc các hệ thống đã có
sẵn.
• Hệ thống đã có sẵn (Legacy System - LS) : là một hệ thống tác nghiệp. Hệ
thống này đã từng được phát triển, sử dụng các công nghệ có sẵn và phù hợp
với các nhu cầu. Các hệ thống nàu có thể được thực hiện trong nhiều năm và
có lẽ không có hoặc có rất ít minh chứng bằng tài liệu.
• Dữ liệu ngoài : là dữ liệu không nằm trong các hệ thống tác nghiệp của một tổ
chức, là những dữ liệu do người sử dụng đầu cuối yêu cầu.
Các LS được phát triển để phục vụ cho các dự án. Các ứng dụng được phát triển
cùng với dữ liệu mà các dữ liệu này lại đáp ứng nhiều nhu cầu khác nhau. Cùng là một
dữ liệu nhưng lại có tên khác nhay hoặc thuộc các hệ thống đo lường khác nhau. Kết quả
cuối cùng là các nguồn dữ liệu cần được đánh giá và các định nghĩa cần được đưa vào
Metadata để nhắm tới các vấn đề sau :
• Xác định các nguồn khác nhau, các cấu trúc file khác nhau, các nền (Platform)
khác nhau.
• Hiểu được dữ liệu nào có trong hệ thống nguồn đang tồn tại, các định nghĩa
của dữ liệu và bất kỳ các luật nào cho dữ liệu.
• Phát hiện sự giao nhau về thông tin của các hệ thống khác nhau.
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 18
Hệ hỗ trợ ra quyết định
• Quyết định dữ liệu tốt nhất trong các hệ thống. Mỗi hệ thống cần được đánh
giá đề quyết định hệ thống nào có dữ liệu rõ ràng và chính xác hơn.
3.3. Thiết kế kho dữ liệu
Một vài phương pháp và công cụ phục vụ tốt cho việc tạo ra các hệ thống tác
nghiệp gần như là không phù hợp với những yêu cầu khác nhau của kho dữ liệu. Một
lược đồ - mô hình là cách thực hiện tốt hơn nhưng không phù hợp lắm cho việc phân tích.
Khi phương pháp kho dữ liệu được tiếp tục phát triển thì những cách tiếp cận mới cho
việc thiết kế sơ đồ dữ liệu phù hợp hơn với việc phân tích được hình thành và đó là điều

cốt yếu dẫn đến thành công của phương pháp kho dữ liệu. Một lược đồ được chấp chấp
nhận sử dụng rộng rãi cho phương pháp kho dữ liệu là lược đồ hình sao.
3.3.1. Lược đồ hình sao (Star)
Được đưa ra lần đầu tiên bởi Raph Kimball như là một lựa chọn thiết kế CSDL
cho kho dữ liệu. Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu : sự
kiện (bảng Fact : đối tượng trung tâm) và phạm vi (các bảng Dimension : các bảng liên
kết). Trong lược đồ hình sao chỉ có một bảng liên quan trực tiếp tới hầu hết các bảng còn
lại đó là bảng Fact và là bảng chứa yếu tố cốt lõi cần được phân tích. Nó được gọi là hình
sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi
liên quan.
Với lược đồ hình sao, người thiết kế có thể dễ dàng mô phỏng những chức năng
của CSDL đa chiều. Được thiết kế là để khắc phục những hạn chế của mô hình quan hệ
hai chiều. Với CSDL được thiết kế theo lược đồ hình sao, những truy vấn với những câu
hỏi phức tạp liên quan tới nhiều bảng và số liệu tổng cộng trở nên đơn giản hơn và số
lượng công việc cần thực hiện để đưa được ra câu trả lời là ít nhất so với mô hình quan hệ
chuẩn. Lược đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của dữ liệu
dùng ngữ nghĩa của CSDL quan hệ.
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 19
Hệ hỗ trợ ra quyết định
Hình 3.2 : Lược đồ hình sao
Ưu điểm của lược đồ hình sao:
• Các sự kiện và chiều được mô tả rõ ràng, dễ hiểu.
• Các bảng chiều là dữ liệu tĩnh, tương đối, dữ liệu được nạp (bằng thao tác) vào
bảng sự kiện.
• Lược đồ hình sao còn giúp cải tiến hiệu suất cho các câu truy vấn kho dữ liệu.
• Lược đồ hình sao dễ sử dụng, trực quan.
• Khóa của bảng sự kiện được tạo bởi khóa của bảng chiều.
3.3.2. Lược đồ bông tuyết
Lược đồ bông tuyết là một sự mở rộng của lược đồ hình sao, tại đó mỗi cánh sao
không phải là một bảng Dimension mà là nhiều bảng.

Hình 3.3 : Lược đồ bông tuyết
Ưu điểm: Là dạng cải tiến của lược đồ hình sao. Số chiều được phân cấp thể hiện
dạng chuẩn của bảng Dim.
Khuyết điểm: Cấu trúc phi dạng chuẩn của lược đồ hình sao thích hợp hơn cho
việc duyệt các chiều.
Ví dụ: Với bảng Fact như lược đồ sao, còn bảng Dim được mở rộng như hình vẽ.
Bây giờ lấy ví dụ một nhánh Product như sau: Nhìn trên lược đồ sao ta biết được sản
phẩm nào với nhãn hàng nào. Nhưng nếu số lượng sản phẩm lên đến hàng nghìn sản
phẩm, hàng trăm loại hàng hoặc ông sếp muốn thay đổi hoặc tách, thêm loại hàng cho sản
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 20
Hệ hỗ trợ ra quyết định
phẩm cũ thì chuyện gì sẽ xảy ra? Không thể thay đổi trong cùng một bảng Product như
trước. Lúc này buộc phải tách Product và Product Category thôi. Và dữ liệu lúc này đã
được chuẩn hóa. Nếu muốn thay đổi chỉ cần thay đổi ở duy nhất một bảng, không ảnh
hưởng gì đến dữ liệu chung.
Tóm lại : Hai kỹ thuật mô hình hóa dữ liệu cho kho dữ liệu đôi khi trông rất khác
nhau, nhưng thực ra nó có rất nhiều điểm tương đồng, mô hình chiều có thể sử dụng
nhiều ký hiệu giống như là mô hình thực thể quan hệ, một bảng Fact có thể được coi là
một thực thể với khóa chính và các khóa ngoại, các khóa ngoại này liên kết đến một bảng
được coi như là các bảng chiều. Vì vậy chúng ta có thể nói mô hình chiều là một dạng
đặc biệt của mô hình thực thể quan hệ, nó có những điểm mạnh và điểm yếu riêng, và có
thể được sử dụng trong từng tình huống phù hợp nhất
3.4. Đặc tính của kho dữ liệu
Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm Gigabyte,
được tổ chức theo những chủ đề chính. Kho dữ liệu không chú trọng vào giao tác và việc
xử lý giao tác. Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu
nhằm hỗ trợ cho nhà quản lý ra quyết định. Do đó, các kho dữ liệu thường cung cấp một
khung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu không cần thiết trong
quá trình ra quyết định.
Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu từ

nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực tuyến hoặc
thậm chí là từ những file dữ liệu độc lập. Những dữ liệu này tiếp tục được làm sạch,
chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu.
Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi, chủ
yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao. Hai thao tác chủ yếu tác
động tới kho dữ liệu là nhập dữ liệu vào và truy xuất.
Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ liệu
của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mô hình nghiệp vụ,
dự báo, khảo sát những chỉ tiêu cần quan tâm.
3.5. Lợi ích của kho dữ liệu
Tạo ra những quyết định có ảnh hưởng lớn. Một kho dữ liệu cho phép trích rút tài
nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo
dựa vào cơ sở dữ liệu hoạt động và sản xuất. Điều này tạo ra sự tiết kiệm đáng kể. Có
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 21
Hệ hỗ trợ ra quyết định
kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một
chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp.
Công việc kinh doanh trở nên thông minh hơn. Tăng thêm chất lượng và tính linh
hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ
liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh
cho đến mức độ cao hơn - mức độ tổng quát. Đảm bảo được dữ liệu chính xác và đáng tin
cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và
ổn định (trusted Data).
Dịch vụ khách hàng được nâng cao. Một doanh nghiệp có thể giữ gìn mối quan hệ
với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một
kho dữ liệu riêng.
Tái sáng tạo những tiến trình kinh doanh. Sự cho phép phân tích không ngừng
thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh
do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại. Chỉ
khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp em đánh giá được những

hạn chế và mục tiêu kinh doanh một cách chính xác hơn.
Tái sáng tạo hệ thống thông tin. Một kho dữ liệu là nền tảng cho các yêu cầu dữ
liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra
thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều
hành theo chuẩn quốc tế.
3.6. Ứng dụng của kho dữ liệu
Kho dữ liệu được đưa vào ba mảng ứng dụng chính. Theo như cách khai thác
truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử dụng để khai thác thông tin bằng
các công cụ thực hiện truy vấn và báo cáo. Nhờ việc dữ liệu thô đã được chuyển sang
thành các dữ liệu ổn định, có chất lượng nên kho dữ liệu đã giúp nâng cao kỹ thuật biểu
diễn thông tin truyền thống. Dữ liệu đầu vào của các kỹ thuật này được đặt vào một
nguồn duy nhất, giúp loại bỏ nhiều lỗi sinh ra do phải thu thập và biểu diễn thông tin từ
nhiều nguồn khác nhau đồng thời giảm bớt sự chậm trễ do phải lấy dữ liệu từ những phân
đoạn khác nhau, tránh cho người dùng phải viết những truy vấn SQL quá phức tạp.
Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong
khi ngôn ngữ SQL và các công cụ xây dựng báo cáo truyền thống chỉ có thể mô tả những
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 22
Hệ hỗ trợ ra quyết định
gì có trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định
xem giả thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa
ra được các giả thuyết. Ngoài ra, sử dụng OLAP còn giúp phân tích tổng hợp dữ liệu, đưa
ra kết quả bằng các báo cáo hoặc bảng biểu trực quan.
Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu. Đây
là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học
cũng như yêu cầu trong thực tiễn. Các kết quả thu được mang nhiều tính dự báo, dự đoán,
dùng trong việc xây dựng kế hoạch, chiến lược. Các lĩnh vực hiện tại áp dụng kho dữ liệu
• Thương mại điện tử.
• Kế hoạch hóa nguồn lực doanh nghiệp (ERP - Enterprise Resource Planning).
• Quản lý quan hệ khách hàng (CRM - Customer Relationship Management)
• Chăm sóc sức khỏe.

• Viễn thông
CHƯƠNG 4: HỆ HỖ TRỢ RA QUYẾT ĐỊNH (DECISION SUPPORT SYSTEM)
4.1. Khái niệm
Ngay từ những năm 60 của thể kỷ trước, việc sử dụng các phương tiện tin học để
tổ chức và khai thác các CSDL đã được tập trung nghiên cứu phát triển. Kể từ đó rất
nhiều CSDL đã được tổ chức, phát triển và khai thác ở mọi qui mô và ở khắp các lĩnh
vực hoạt động của con người và xã hội. Nhiều hệ quản trị CSDL mạnh với các công cụ
phong phú và thuận tiện đã giúp cho con người khai thadc có hiệu quả các nguồn tài
nguyên dữ liệu. Mô hình CSDL quan hệ và SQL đã có vai trò hết sức quan trọng trong
việc tổ chức và khai thác CSDL đó.
Giai đoạn này là thời kỳ của kỹ thuật thu thập dữ liệu, tiếp đó là thời kỳ của kỹ
thuật truy nhập dữ liệu với những ứng dụng tập trung xử lý dũ liệu và thông tin theo các
thủ tục có cáu trúc nhằm hỗ trợ điều khiển, dự báo và giám sát công việc. Đầu thập kỷ 70
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 23
Hệ hỗ trợ ra quyết định
của thế kỷ trước một loại hình ứng dụng mới ra đời đó là Hệ hỗ trợ ra quyết định (DSS)
nhằm mục đích hõ trợ các nhà quản lý cấp cao và ra quyết định điều hành.
Khái niệm về Hệ hỗ trợ ra quyết định, DSS (Decision Support System), lần đầu
tiên được Scott Morton đưa ra vào đầu năm 1970, ông định nghĩa là “Các hệ thống dựa
trên tương tác máy tính, giúp người ra quyết định dùng dữ liệu và các mô hình để giải
quyết những bài toán không cấu trúc”.
Ba định nghĩa khác về DSS cùng được đưa ra vào năm 1980 bởi Moore và Chang;
Bonczek, Holsapple và Whinston; Keen, Moore và Chang chỉ ra rằng khái niệm “Cấu
trúc”, “không cấu trúc”, không đủ ý nghĩa trong trường hợp tổng quát. Một bài toán có
thể được mô tả như là có cấu trúc hoặc không cấu trúc chỉ liên quan tới người ra quyết
định, do vậy họ định nghĩa DSS là:
• Hệ thống có khả năng mở rộng;
• Có khả năng trợ giúp phân tích dữ liệu và mô hình hoá quyết định;
• Hướng tới lập kế hoạch cho tương lai;
• Được sử dụng cho những hoàn cảnh và thời gian bất thường;

Hệ hỗ trợ ra quyết định là những hệ ứng dụng xây dựng trên máy tính nhằm giải
quyết các bài toán, các vấn đề có cấu trúc kém. Vai trò chính của DSS là nhằm mục đích
giúp các nhà ra quyết định giải quyết những vấn đề trong những hoàn cảnh chưa được
định nghĩa rõ ràng, các nhà ra quyết định có thể chưa biết rõ vấn đề cũng như giải pháp,
tiêu chuẩn đánh giá thành công của lựa chọn.
Sự ra đời của DSS đánh dấu bước phát triển quan trọng trong lĩnh vực ứng dụng
tin học trong quản lý và điều hành công việc. Kể từ đó nó đã không ngừng được nghiên
cứu và phát triển cả về lý thuyết và thực tế triển khai ứng dụng. DSS tỏ ra có một thế
mạnh nổi trội, rất cần thiết cho lãnh đạo va quản ký khiến nhiều tổ chức quan tâm nghiên
cứu đầu tư xây dựng và phát triển
4.2. Hệ hỗ trợ ra quyết định
DSS ban đầu rất thô sơ, được phát triển từ các phần mềm bản tính. Các DSS sau
đó sử dụng các mô hình tối ưu của việc nghiên cứu các hoạt động nghiệp vụ và khoa học
quản lý, sử dụng các kỹ thuật qui hoạch tuyến tính. Phân tích “What-if” đã trở nên đặc
biệt phù hợp với các mô hình. DSS trở nên thông minh hơn khi sử dụng cá kỹ thuật trí tuệ
nhân tạo. Những hệ thống này có thể được xem như những hệ thống dựa trên tri thức
(Knowledege-Based Systems).
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 24
Hệ hỗ trợ ra quyết định
Với mục đích là làm như thế nào đó để có thể giúp người sử dụng thực hiện các
phân tích nhằm đề xuất được các quyết định cần thiết, chúng ta có thể quan niệm rằng bất
cứ loại hệ thống nào tuân thủ một mô hình tổ chức và xử lý riêng biệt của nó mà có thể
trợ giúp việc ra quyết định thì đều được xem là một DSS.
Các loại DSS truyền thống như sử dụng bảng tính, tối ưu toán học, phân tích số
hay mô phỏng sẽ vẫn tiếp tục phát huy được tác dụng trong việc giải quyết nhiều vấn đề.
Tuy nhiên những người làm những công việc sử dụng tri thức trong doanh nghiệp này
càng yêu cầu hệ thống phải biết nhiều hơn và phải làm được nhiều hơn trong việc truy
xuất, tổng hợp và phân tích thông tin. Họ sẽ càng ngày càng phụ thuộc nhiều hơn vào hệ
thống để có thể ra các quyết định nhanh chóng với độ tin cậy cao hơn. Đây là xu hướng
phát triển của hệ thốn thông tin nói chung và của DSS nói riêng.

4.2.1. Phân loại các DSS
Hình 4.1 : Phân loại các Hệ thông tin quản lý
Hệ xử lý tác vụ : mục đích chính của các Hệ xử lý tác vụ là giữ cho việc ghi nhận
các giao tác được chính xác. Hệ thống này được xây dựng chỉ có thể làm ra những quyết
định đơn giản trong việc xác định dữ liệu được ghi nhận là có hợp lệ hay không. Hệ xử lý
tác vụ làm công việc hợp lệ hóa trước khi ghi nhận giao tác để CSDL sạch hơn.
HVTH: Nguyễn Võ Thông Thái – CH1301053 Trang 25

×