Trang chủ
Trang tiêu đề
Mục lục
Trang 1 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
Bài giảng
Kho dữ liệu và Hệ hỗ trợ quyết định
Hoàng Thị Lan Giao - Đại học Khoa học Huế
Trang chủ
Trang tiêu đề
Mục lục
Trang 2 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
. Nội dung môn học
. Tổng quan
. Kho dữ liêu
. Hệ hỗ trợ quyết định
. Tổng kết
Trang chñ
Trang tiªu ®Ò
Môc lôc
Trang 3 / 48
Quay lui
Toµn mµn h×nh
§ãng File
§ãng PDF
2. Kho D÷ liÖu
2.1. Môc ®Ých x©y dùng kho d÷ liÖu
2.2. CÊu tróc kho d÷ liÖu
Trang chủ
Trang tiêu đề
Mục lục
Trang 4 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
3. Hệ hỗ trợ quyết định
3.1. Chức năng
3.2. Ưng dụng
Trang chủ
Trang tiêu đề
Mục lục
Trang 5 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
4. Mục đích xây dựng kho dữ liệu
4.1. Các nguồn thông tin đa tạp
- Sự bùng nỗ thông tin
- Nhiều hệ thống thông tin đợc xây dựng khác nhau về
nhiều mặt: Giao diện, cấu trúc biểu diễn, có thể chứa thông
tin trùng lặp; không nhất quán.
4.2. Truy cập dữ liệu một cách thống nhất
- Thu thập và kết hợp thông tin
- Khung nhìn tích hợp
- Hỗ trợ khả năng chia sẻ
1. Làm cho hệ thống trở nên dễ hiểu
2. Làm sạch dữ liệu thu thập từ nhiều nguồn
3. Dữ liệu dễ phân tích và tích hợp ,
4. Lu trữ dữ liệu đầy đủ và nhất quán, tổ chức sẵn cho
ngời dùng cuối
Trang chủ
Trang tiêu đề
Mục lục
Trang 6 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
5. Cấu trúc của kho dữ liệu
5.1. Tầng 1: Truy xuất dữ liệu
- Các hệ hỗ trợ quyết định
- Các báo cáo
- Các câu hỏi
5.2. Tầng 2: Bản thân dữ liệu
- OLAP: Phần mềm cho phép phân tích và quản lý.
- Dữ liệu đợc chuyển đổi từ mức thô sang cấu trúc đa
chiều.
- Mô hình đa chiều phù hợp trong các lĩnh vực kinh doanh.
- Kiến trúc khách - chủ
Trang chủ
Trang tiêu đề
Mục lục
Trang 7 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
5.3. Tầng 3: Tầng thu thập
- Các nguồn dữ liệu khác nhau: Các hệ thống tác nghiệp;
Hệ thống kế thừa; dữ liệu bên ngoài.
Dữ liệu từ các hệ thống tác nghiệp: Nguồn dữ liệu đợc
tích hợp để xây dựng kho dữ liệu; đợc sử dụng cho các
toàn tác hằng ngày; chứa dữ liệu chi tiết và thích hợp hiện
hành.
Hệ thống kế thừa: Các dữ liệu cũ, không dùng cho các mục
đích hoạt động;
Dữ liệu từ hệ thống bên ngoài: không phải dữ liệu đợc
tạo ra từ hệ thống quản lý (công ty); đợc yêu cầu cung
cấp cho các phân tích chi tiết, có thể có cấu trúc khác nhau
phụ thuộc vào nhà cung cấp
Trang chủ
Trang tiêu đề
Mục lục
Trang 8 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
5.4. Chiết dữ liệu - (Tầng 3)
- Dữ liệu đợc chiết từ nhiều nguồn với những kiểu dữ liệu
khác nhau: quan hệ, file, HTML, XML,v.v
- Làm sạch dữ liệu: Loại bỏ dữ liệu trùng nhau; xử lý dữ
liệu không nhất quán; thiếu.
- Chuyển đổi: Loại trừ dữ liệu gây nhiễu; chuyển dữ liệu
vào lợc đồ nhất quán; xây dựng tri thức từ dữ liệu
Trang chủ
Trang tiêu đề
Mục lục
Trang 9 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
6. Các biến thể của Kho dữ liệu
6.1. Kho dữ liệu vận hành (ODS)
Ap dụng kỹ thuật kho dữ liệu vào các hệ xử lý giao tác.
6.2. Siêu thị dữ liệu (Data mart)
Dạng thu nhỏ của nhà kho dữ liệu, hỗ trợ cho một đơn vị.
Siêu thị dữ liệu phụ thuộc: Phần bổ sung của nhà kho dữ
liệu.
Siêu thị dữ liệu độc lập: Không cần đến nhà kho dữ liệu.
6.3. Nhà kho dữ liệu (quy ớc)
Hỗ trợ toàn bộ tổ chức.
Trang chủ
Trang tiêu đề
Mục lục
Trang 10 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
7. Hệ hỗ trợ quyết định
7.1. Thống kê
7.2. Cây quyết định
7.3. Các hệ thống mờ
7.4. Các Hệ chuyên gia
7.5. Mạng nơron
. . .
Trang chủ
Trang tiêu đề
Mục lục
Trang 11 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
Phần 2: Cấu trúc Hệ hỗ trợ quyết định
Trang chủ
Trang tiêu đề
Mục lục
Trang 12 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
. Chức năng của Hệ hỗ trợ quyết định
1. Trợ giúp quyết định dựa trên kiến thức - giúp hỗ trợ các
bớc của quá trình quyết định không giải quyết đợc
banừg toán học.
2. Các hệ mô hình hoá quyết định thông minh- giúp ngời
dùng xây dựng, áp dụng và quản lý th viện các mô
hình.
3. Các hệ chuyên gia phân tích quyết định- tích hợp các
phơng pháp lý thuyết nghiêm ngặt về tính bất định
vào các cơ sở kiến thức của Hệ chuyên gia.
Có các tên gọi khác: Hệ HTQD thông minh; HHT
Chuyên gia; HHTQD tích cực,
Trang chủ
Trang tiêu đề
Mục lục
Trang 13 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
2. Quản lý dữ liệu
2.1. Bản chất và nguồn gốc dữ liệu
2.2. Thu thập và chất lợng dữ liệu
2.3. Cơ sở dữ liệu
2.4. Giải pháp dữ liệu hiện tại
Trang chủ
Trang tiêu đề
Mục lục
Trang 14 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
3. Bản chất và nguồn gốc dữ liệu
3.1. Phân biệt giữa dữ liệu, thông tin và kiến thức
1. Mô tả về sự vật, hiện tợng, giao tác đợc ghi nhận,
phân loại và lu trữ nhng cha đợc tổ chức để hội tụ
ý nghĩa nhất định.
2. Dữ liệu đợc tổ chức để có ý nghĩa đối với ngời nhận
3. Dữ liệu hay thông tin đợc tổ chức và xử lý để nắm
bắt sự hiểu biết , kinh nghiệm.
Kiến thức có thể là sự sử dụng dữ liệu và thông tin để
ra quyết định.
3.2. Các dạng dữ liệu
- Đa dạng: hình ảnh, âm thanh, khái niệm
- Lu trữ và tổ chức theo nhiều cách khác nhau.
- Có thể ở dạng thô hoặc qua xử lý.
Trang chủ
Trang tiêu đề
Mục lục
Trang 15 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
4. Thu thập và chất lợng dữ liệu
4.1. Thu thập
- Phơng pháp thu thập phổ biến: bằng câu hỏi, quan sát,
nghiên cứu thời gian, phỏng vấn,
- Dữ liệu cần hợp thức và lọc lại: chất lợng và tính toàn
vẹn của dữ liệu có ý nghĩa cho các hệ hỗ trợ quản lý, quyết
định.
4.2. Chất lợng dữ liệu
- Đặc biệt quan trọng
- Tính chính xác, khách quan, tin cậy đợc
- Dễ truy cập.
Trang chủ
Trang tiêu đề
Mục lục
Trang 16 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
5. Cơ sở dữ liệu
5.1. Các dạng mô hình của cơ sở dữ liêu
- Quan hệ
- Phân cấp
- Mạng lới
- Hớng đối tợng
5.2. Các dạng cơ sở dữ liệu đặc thù
- Đa môi trờng (Multimedia based)
- T liệu (Doccument based)
- Thông minh (Intelligent)
Trang chủ
Trang tiêu đề
Mục lục
Trang 17 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
5.3. Giải pháp dữ liệu hiên tại
Nhà kho dữ liệu:
- Vai trò: cung ứng dữ liệu để hỗ trợ ra quyết định .
- Ngời dùng (2 lớp): ngời dùng trực tiếp và ngời phát
triển ứng dụng.
Trang chñ
Trang tiªu ®Ò
Môc lôc
Trang 18 / 48
Quay lui
Toµn mµn h×nh
§ãng File
§ãng PDF
PhÇn 3: M« h×nh Håi quy tuyÕn tÝnh
Trang chñ
Trang tiªu ®Ò
Môc lôc
Trang 19 / 48
Quay lui
Toµn mµn h×nh
§ãng File
§ãng PDF
1. Nh¾c l¹i c¸c kh¸i niÖm
1.1. VÐct¬ ngÉu nhiªn
X
1
, · · · , X
n
lµ c¸c biÕn ngÉu nhiªn → X = [X
1
, · · · , X
n
]
lµ vÐct¬ ngÉu nhiªn.
X =
x
11
· · · x
1p
· · · · · · · · ·
x
n1
· · · x
np
Trang chủ
Trang tiêu đề
Mục lục
Trang 20 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
1.2. Véctơ trung bình
E(X) = [E(X
1
), ã ã ã , E(X
n
)]
T
= [à
1
, ã ã ã , à
n
]
T
là véctơ giá
trị trung bình
ii
= E(X
i
à
i
)
2
là phơng sai của X
i
và
ij
= E(X
i
à
i
)(X
j
à
j
) với à
i
= E(X
i
) đợc gọi là hiệp
phơng sai của X
i
và X
j
.
Ma trận hiệp phơng sai:
cov(X) = E(X à)(X à)
T
= [E(X
i
à
i
)(X
j
à
j
)]
Trang chñ
Trang tiªu ®Ò
Môc lôc
Trang 21 / 48
Quay lui
Toµn mµn h×nh
§ãng File
§ãng PDF
Cho X
1
, X
2
lµ hai biÕn ngÉu nhiªn rêi r¹c víi ma trËn x¸c
suÊt ®ång thêi nh− sau:
x
1
\x
2
0 1 p
1
(x
1
)
-1 0.24 0.06 0.3
0 0.16 0.14 0.3
1 0.40 0.00 0.4
p
2
(x
2
) 0.8 0.2 1.0
E(X
1
) = −1 × 0.3 + 0 × 0.3 + 1 × 0.4 = 0.1 = µ
1
E(X
2
) = 0.2 = µ
2
σ
11
= (−1 −0.1)
2
×0.3 +(0−0.1)
2
×0.3 +(1−0.1)
2
×0.4 =
0.69
σ
22
= 0.16
σ
12
= σ
21
= EX
1
X
2
− µ
1
µ
2
Trang chủ
Trang tiêu đề
Mục lục
Trang 22 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
Phân tích hồi quy là phơng pháp phân tích thống kê để dự
đoán các giá trị của các biến phụ thuộc.
2. Mô hình hồi quy tuyến tính cổ điển
Giả sử X
1
, X
2
, ã ã ã , X
k
là k biến độc lập dùng để dự báo
và Y là biến phụ thuộc cần dự báo.
Ví dụ: Y là giá nhà hiện hành. Khi đó Y phụ thuộc chủ
yếu vào các yếu tố sau:
1) X
1
là điện tích sử dụng (m
2
),
2) X
2
là vị trí vùng (thành phố, quận, huyện,. . .),
3) X
3
là giá của năm trớc (quí trớc, tháng trớc,. . .),
4) X
4
là chất lợng xây dựng (giá xây dựng trên một
m
2
).
Trang chủ
Trang tiêu đề
Mục lục
Trang 23 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
Sự phụ thuộc giữa biến Y theo các biến X
1
, X
2
, ã ã ã , X
k
nói chung là phức tạp. Mô hình hồi quy tuyến tính cổ điển
khẳng định Y phụ thuộc tuyến tính vào các X
i
:
Y =
0
+
1
X
1
+ ã ã ã +
k
X
k
+
trong đó là sai số ngẫu nhiên và
i
, i = 1, k là các hệ số
cha biết.
Trang chủ
Trang tiêu đề
Mục lục
Trang 24 / 48
Quay lui
Toàn màn hình
Đóng File
Đóng PDF
Giả sử ta có n mẫu (bản ghi) nhận đợc từ thực nghiệm
với các số liệu của các thuộc tính X
1
, ã ã ã , X
k
và Y tơng
ứng tuân theo mô hình sau:
y
1
=
0
+
1
x
11
+ ã ã ã +
k
x
1k
+
1
y
2
=
0
+
2
x
21
+ ã ã ã +
k
x
2k
+
2
. . .
y
n
=
0
+
n
x
11
+ ã ã ã +
k
x
nk
+
n
trong đó các sai số
1
, ã ã ã ,
n
thoả ba điều kiện:
1) E(
j
) = 0: việc đo đạc không chịu sai lệch hệ thống.
2) D(
j
) =
2
: Phơng sai không đổi hay độ chuẩn xác
đo đạc nh nhau.
3) cov(
i
,
j
) = 0 với i = j
Trang chñ
Trang tiªu ®Ò
Môc lôc
Trang 25 / 48
Quay lui
Toµn mµn h×nh
§ãng File
§ãng PDF
Sù phô thuéc trªn cã thÓ biÓu diÔn b»ng ma trËn:
y
1
y
2
.
.
.
y
n
=
1 x
11
x
12
· · · x
1k
1 x
21
x
22
· · · x
2k
1
.
.
.
.
.
.
.
.
.
.
.
.
1 x
n1
x
n2
· · · x
nk
β
0
β
1
.
.
.
β
k
+
1
2
.
.
.
n