CÂU HỎI MÔN HỌC NHẬP MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU CÓ ĐÁP ÁN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (793.14 KB, 25 trang )

CÂU HỎI MÔN HỌC “NHẬP MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU” HTTT
A. Phần trả lời (khoảng 40-60% điểm): mỗi câu trả lời có độ dài khoảng 1/2 -3/5 trang A4
==== Câu hỏi tập trung (Các câu hỏi trong đề thi chủ yếu chọn ở danh sách này )
1. Trình bày các nhiều càng tốt về các đặc điểm phân biệt giữa hệ thống Cơ sở dữ liệu và hệ thống Khai
phá dữ liệu (về tri thức miền, các câu hỏi, kích thước hệ thống ). Cho ví dụ.
2. Tiền xử lý dữ liệu bao gồm 5 bài toán chính là Làm sạch dữ liệu, Tích hợp dữ liệu, Chuyển dạng dữ
liệu, Rút gọn dữ liệu và Rời rạc hóa dữ liệu. Trình bày càng nhiều càng tốt về nội dung và các giải pháp
điển hình cho giải quyết hai 5 bài toán nói trên (chọn hai bài toán nào là do học viên).
3. Trình bày khái niệm luật kết hợp, bài toán phát hiện và thuật toán khai phá tập mục phổ biến Apriori.
Lập luận sơ bộ về tính đúng đắn của thuật toán, ước lượng số lần duyệt CSDL cực đai.
4. Trình bày về bài toán phân lớp (quá trình hai pha xây dựng mô hình và sử dụng mô hình); trình bày
thuật toán cây quyết định tìm luật phân lớp theo độ đo Information Gain hoặc độ đo GINI.
5. Trình bày thuật toán phân lớp Bayes bao gồm phát biểu định lý Bayes.
6. Trình bày thuật toán phân lớp k-NN bằng diễn giải và bằng giả mã.
7. Trình bày thuật toán phân lớp SVM.
8. Trình bày thuật toán phân cụm k-mean cứng.
9. Trình bày khái niệm kho dữ liệu do Inmon đề xuất và giới thiệu càng nhiều càng tốt về 4 đặc trưng của
kho dữ liệu. Cho ví dụ
10. Trình bày về 3 kiểu mô hình khái niệm kho dữ liệu (hình sao, bông tuyết, dải ngân hà). Cho ví dụ.
11. Trình bày về kiến trúc đa tầng của kho dữ liệu (nguồn dữ liệu, lưu dữ liệu, xử lý OLAP, tiện ích người
dùng). Thể hiện bằng hình vẽ.
12. Trình bày về siêu dữ liệu trong kho dữ liệu, các loại siêu dữ liệu và cho ví dụ.
13. Trình bày về các nhân sự quan trọng cần phải quan tâm khi xác định yêu cầu trong dự án kho dữ liệu.
Có điểm gì khác với xác định yêu cầu trong hệ CSDL?
14. Trình bày khái niệm chiều kinh doanh và các nội dung liên quan tới khái niệm này trong dự án kho dữ
liệu. Cho ví dụ
15. Trình bày và phân tích chức năng-nhiệm vụ của các vai trò sau đây của đội phát triển dự án kho dữ liệu:
(1) Nhà tài trợ điều hành, (2) Người quản lý dự án, (3) Người quản lý quan hệ người dùng, (4) Kiến
trúc sư chính, (5) Chuyên gia hạ tầng, (6) Người phân tích kinh doanh, (7) Người mô hình hóa dữ liệu.
16. Trình bày về các điểm trọng tâm cần quan tâm khi phỏng vấn bao gồm Tài nguyên thông tin hiện có,
Miền chủ đề, Độ đo hiệu năng chính yếu, Tần suất thông tin.

==== Câu hỏi tham khảo (có thể có không quá một câu ở danh sách này trong bài thi)
17. Trình bày các nội dung cơ bản về toán tử GROUP BY
18. Trình bày các nội dung chuyển đổi dữ liệu, tải dữ liệu và chất lượng dữ liệu trong thiết kế dữ liệu của
kho dữ liệu
19. Trình bày các nội dung về gói thông tin trong bước xác định yêu cầu của dự án kho dữ liệu
20. Trình bày các nội dung về nguồn thông tin hiện tại, miền chủ đề, độ đo hiệu năng chủ yếu, tần suất
thông tin trong quá trình phỏng vấn xác định yêu cầu xây dựng kho dữ liệu
21. Trình bày nội dung năm pha của phương pháp nắm bắt yêu cầu JAD (serious joint application
development) (xác định dự án, nghiên cứu khảo sát, chuẩn bị, các phiên làm việc, hoàn thiện tài liệu)
B. Phần trắc nghiệm (khoảng 40-60% điểm): Toàn bộ nội dung đã học
1
TRẢ LỜI
Câu 1: Các đặc điểm phân biệt giữa hệ thống Cơ sở dữ liệu và hệ thống Khai phá dữ liệu
Trả lời:
Đặc điểm phân biệt Hệ thống Cơ sở dữ liệu Hệ thống Khai phá dữ liệu
Tri thức miền Cần có một giả thiết “đầy đủ” về tri
thức miền phức tạp
Giả thiết tri thức “đầy đủ” không còn
có tính cốt lõi, cần bổ sung tri thức cho
hệ thống để cải tiến (nâng cấp) miền tri
thức
Câu hỏi
- Câu hỏi cụ thể, riêng biệt: “Hãy
hiển thị số tiền Ông Smith trong
ngày 5 tháng Giêng?” ghi nhận riêng
lẻ do xử lý giao dịch trực tuyến (on-
line transaction processing – OLTP).
- Câu hỏi thống kê: “Có bao nhiêu
nhà đầu tư nước ngoài mua cổ phiếu
X trong tháng trước?” ghi nhận

thống kê do hệ thống hỗ trợ quyết
định thống kê (stastical decision
suppport system - DSS)
- Câu hỏi OLAP: “Hiển thị mọi cổ
phiếu trong CSDL với mệnh giá
tăng?” ghi nhận dữ liệu đa chiều do
xử lý phân tích trực tuyến (on-line
analytic processing - OLAP).
- “Các cổ phiếu tăng giá có đặc trưng
gì ?”
- “Tỷ giá US$ - DMark có đặc trưng gì
?”
- “Hy vọng gì về cổ phiếu X trong tuần
tiếp theo ?”
- “Trong tháng tiếp theo, sẽ có bao
nhiêu đoàn viên công đoàn không trả
được nợ của họ ?”
- “Những người mua sản phẩm Y có
đặc trưng gì ?”
Kích thước hệ thống Kích thước bé hơn, thông tin lấy từ
cơ sở dữ liệu, kho dữ liệu, cơ sở dữ
liệu chuyên biệt
Kích thước lớn hơn, thông tin lấy từ
nhiều nguồn khác nhau như cơ sở dữ
liệu, kho dữ liệu, cơ sở dữ liệu chuyên
biệt, world wide web và các kiểu kho
chứa thông tin khác; ngoài ra còn bao
gồm các thành phần khai phá dữ liệu
và đánh giá các mẫu khai phá được.
Kỹ thuật Chủ yếu là các kỹ thuật xử lý

transaction, cập nhật
Chủ yếu là các kỹ thuật tiền xử lý dữ
liệu, phân tích dữ liệu bằng thống kê
hay học máy.
2
Câu 2: Tiền xử lý dữ liệu
Trả lời:
Làm sạch dữ liệu
 Là quá trình
3
o xác định tính không chính xác, không đầy đủ/tính bất hợp lý của dữ liệu
o chỉnh sửa các sai sót và thiếu sót được phát hiện
o nâng cao chất lượng dữ liệu.
o quan trọng, “một trong ba bài toán lớn nhất của kho dữ liệu”(Ralph Kimball)
 Quá trình bao gồm
o kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn,
o xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi trường) hoặc các lỗi
khác,
o đánh giá dữ liệu của các chuyên gia miền chủ đề.
 Quá trình thường dẫn đến
o loại bỏ, lập tài liệu, kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi nghi ngờ.
o Kiểm tra xác nhận có thể được tiến hành nhằm đạt tính phù hợp với các chuẩn áp dụng, các quy
luật, và quy tắc.
 Các bài toán thuộc làm sạch dữ liệu và giải pháp cho các bài toán đó
o Xử lý giá trị thiếu
 Bỏ qua bản ghi có giá trị thiếu (thường làm khi thiếu nhãn phân lớp và tỉ lệ số giá trị
thiếu không lớn)
 Điền giá trị thiếu bằng tay
 Điền giá trị thiếu tự động (điền giá trị khả năng nhất dựa trên suy luận sử dụng Naïve
Bayes, Decision Tree, điền trung bình giá trị thuộc tính các bản ghi hiện có hoặc các bản

ghi cùng lớp, điền hằng toàn cục…)
o Xử lý dữ liệu nhiễu: định danh ngoại lai và làm trơn.
 Phương pháp đóng thùng Binning
 Phương pháp phân cụm Clustering (phát hiện và loại bỏ ngoại lai - outliers)
 Phương pháp hồi quy (làm trơn dữ liệu theo các hàm hồi quy)
 Phương pháp kết hợp kiểm tra máy tính và con người
o Chỉnh sửa dữ liệu không nhất quán
o Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
Tích hợp dữ liệu
 Tích hợp dữ liệu (Data integration):
o Kết hợp dữ liệu từ nhiều nguồn thành một nguồn lưu trữ chung
 Tích hợp sơ đồ
o Tích hợp siêu dữ liệu từ các nguồn khác nhau
o Vấn đề định danh thực thế: xác định thực thể thực tế từ nguồn dữ liệu phức, chẳng hạn, A.cust-
id ≡ B.cust-#
 Phát hiện và giải quyết vấn đề thiếu nhất quán dữ liệu
o Cùng một thực thể thực sự: giá trị thuộc tính các nguồn khác nhau là khác nhau
o Nguyên nhân: trình bày khác nhau, cỡ khác nhau, chẳng hạn, đơn vị quốc tế khác với Anh quốc
 Nắm bắt dư thừa dữ liệu
o Một thuộc tính có nhiều tên khác nhau ở các CSDL khác nhau
o Dữ liệu dư thừa có thể được phát hiện khi phân tích tương quan
Chuyển dạng dữ liệu
 Làm trơn (Smoothing): loại bỏ nhiễu từ dữ liệu
4
 Tổng hợp (Aggregation): tóm tắt, xây dựng khối dữ liệu
 Tổng quát hóa (Generalization): leo kiến trúc khái niệm
 Chuẩn hóa (Normalization): thu nhỏ vào miền nhỏ, riêng
o Chuẩn hóa min-max
o Chuẩn hóa z-score
o Chuẩn hóa tỷ lệ thập phân

j : số nguyên nhỏ nhất mà Max(|v’|) < 1
 Xây dựng thuộc tính/đặc trưng
o Thuộc tính mới được xây dựng từ các thuộc tính đã có
Rút gọn dữ liệu
 Kho dữ liệu chứa tới hàng TB
o Phân tích/khai phá dữ liệu phức mất thời gian rất dài khi chạy trên tập toàn bộ dữ liệu
 Rút gọn dữ liệu
o Có được trình bày gọn của tập dữ liệu mà nhỏ hơn nhiều về khối lượng mà sinh ra cùng (hoặc
hầu như cùng) kết quả.
 Chiến lược rút gọn dữ liệu
o Kết hợp khối dữ liệu: Giảm thêm kích thước dữ liệu, sử dụng trình diễn nhỏ nhất đủ để giải bài
toán, nên sử dụng dữ liệu khối lập phương khi trả lời câu hỏi tổng hợp thông tin.
o Rút gọn chiều: Rút gọn đặc trưng, loại bỏ thuộc tính không quan trọng, sử dụng phương pháp
cây quyết định, heuristic,…
o Nén dữ liệu
o Giảm tính số hóa – dữ liệu thành mô hình
o Rời rạc hóa và sinh cây khái niệm
Rời rạc hóa dữ liệu.
Câu 3:Luật kết hợp
Trả lời:
Ví dụ luật kết hợp
 “98% khách hàng mà mua tạp chí thể thao thì đều mua các tạp chí về ôtô” ð sự kết hợp giữa
“tạp chí thể thao” với “tạp chí về ôtô”
Khái niệm
Cơ sở dữ liệu giao dịch
 Tập toàn bộ các mục I = {i
1
, i
2
, …, i

k
}: “tất cả các mặt hàng”.
 Giao dịch: danh sách các mặt hàng (mục: item) trong một phiếu mua hàng của khách hàng.
Giao dịch T là một tập mục.
5
AAA
AA
A
minnewminnewmaxnew
minmax
minv
v _)__(' +−
−
−
=
A
A
devstand
meanv
v
_
'
−
=
j
v
v
10
'=
 Một giao dịch T là một tập con của I: T ⊆ I. Mỗi giao dịch T có một định danh là T

ID
.
 A là một tập mục A ⊆ I và T là một giao dịch: Gọi T chứa A nếu A ⊆ T.
 Gọi A → B là một “luật kết hợp” nếu A ⊆ I, B ⊆ I và A∩B=∅.
Luật kết hợp
 Luật kết hợp A → B có độ hỗ trợ (support) s trong CSDL giao dịch D nếu trong D có s% các
giao dịch T chứa AB: chính là xác suất P(AB).
s = Support (A → B) = P(A∪B) : 1 ≥ s (A → B) ≥ 0
 Luật kết hợp A → B có độ tin cậy (confidence) c trong CSDL D nếu như trong D có c% các
giao dịch T chứa A thì cũng chứa B: chính là xác suất P(B|A).
c = Confidence (A → B) = P(B|A) : 1 ≥ c (A → B) ≥ 0
 Luật A → B được gọi là đảm bảo độ hỗ trợ s trong D nếu s(A → B) ≥ s.
 Luật A→B được gọi là đảm bảo độ tin cậy c trong D nếu c(A → B) ≥ c.
 Tập mục A có P(A) ≥ s>0 (với s cho trước, s còn gọi là độ hỗ trợ tối thiểu minsup) được gọi là
tập mục phổ biến
 Luật A → B được gọi là luật mạnh nếu A, B là các tập mục phổ biến và luật A → B đảm bảo
độ tin cậy tối thiểu minconf.
o P(A) ≥ minsup
o P(B) ≥ minsup
o confident(A→B) ≥ minconf
Bài toán
Cho trước CSDL giao dịch D và độ hỗ trợ tối thiểu minsup = s > 0, độ tin cậy tối
thiếu minconf = c > 0. Hãy tìm mọi luật kết hợp mạnh A → B.
Thuật toán khai phá tập mục phổ biến Apriori
- Khai phá luật kết hợp gồm 2 bước
Bước 1: Sinh tất cả tập mục phổ biến
Bước 2: Sinh tất cả luật kết hợp mạnh từ tập mục phổ biến
- Khai phá tập mục phổ biến Apriori hoạt động theo nguyên tắc Quy hoạch động
+ Từ các tập F
i

= {c
i
| c
i
tập phổ biến, |c
i
| = i} gồm mọi tập mục phổ biến có độ dài i
với 1 ≤ i ≤ k, đi tìm tập F
k+1
gồm mọi tập mục phổ biến có độ dài k+1.
+ Trong thuật toán: Các tên mục i
1
, i
2
, … i
n
(n = |I|) được sắp xếp theo một thứ tự cố định, thường được
đánh chỉ số 1, 2, , n.
Lập luận tính đúng đắn của thuật toán:
 Mọi tập con của tập mục phổ biến cũng là tập mục phổ biến
 Nguyên lý tỉa Apriori: Với mọi tập mục không phổ biến thì mọi tập bao không cần phải sinh ra/kiểm
tra.
Số lần duyệt cơ sở dữ liệu cực đại

Trong mỗi bước k, thuật toán Apriori đều phải duyệt CSDL D.

Khởi động, duyệt D để có được F
1
. Các bước k sau đó, duyệt D để tính số lượng giao dịch t thoả từng
ứng viên c của C

k
, mỗi giao dịch t chỉ xem xét một lần cho mọi ứng viên c thuộc C
k

Như vậy số lần duyệt cơ sở dữ liệu cực đại là n lần (với n là số giao dịch trong CSDL D)
6
Câu 4: Trình bày về bài toán phân lớp (quá trình hai pha xây dựng mô hình và sử dụng mô hình); trình
bày thuật toán cây quyết định tìm luật phân lớp theo độ đo Information Gain hoặc độ đo GINI.
Trả lời:
Bài toán phân lớp:
 Xây dựng mô hình: Tìm mô tả cho tập lớp đã có
o Cho trước tập lớp C = {C
1
, C
2
, …, C
k
}
o Cho ánh xạ (chưa biết) từ miền D sang tập lớp C
o Có tập ví dụ D
exam
=D
1
+D
2
+ …+ D
k
với D
i
={d∈D

exam
: d∈C
i
}D
exam
được gọi là tập ví dụ mẫu.
o Xây dựng ánh xạ (mô hình) phân lớp trên: Dạy bộ phân lớp.
o Mô hình: Luật phân lớp, cây quyết định, công thức toán học…
 Pha 1: Dạy bộ phân lớp
7
o Tách D
exam
thành D
train
(2/3) + D
test
(1/3). D
train
và D
test
“tính đại diện” cho miền ứng dụng
o D
train
: xây dựng mô hình phân lớp (xác định tham số mô hình)
o D
test
: đánh giá mô hình phân lớp (các độ đo hiệu quả)
o Chọn mô hình có chất lượng nhất
 Pha 2: Sử dụng bộ phân lớp
o d ∈ D \ D

exam
: xác định lớp của d.
Ví dụ phân lớp: Bài toán cho vay
Ti
d
Refund Marital Status Taxable Income Cheat
1 No Single 75K No
2 Yes Married 50K No
3 No Single 75K No
4 No Married 150K Yes
5 No Single 40K No
6 No Married 80K Yes
7 No Single 75K No
8 Yes Married 50K No
9 Yes Married 50K No
10 No Married 150K Yes
11 No Single 40K No
12 No Married 150K Yes
13 No Married 80K Yes
14 No Single 40K No
15 No Married 80K Yes
8
Thuật toán cây quyết định tìm luật phân lớp theo độ đo IG hoặc độ đo GINI
 Cây quyết định
o Gốc: tên thuộc tính; không có cung vào + không/một số cung ra
o Nút trong: tên thuộc tính; có chính xác một cung vào và một số cung ra (gắn với điều kiện kiểm
tra giá trị thuộc tính của nút)
o Lá hoặc nút kết thúc: giá trị lớp; có chính xác một cung vào + không có cung ra.
 Độ đo Gini
o Đo tính hỗn tạp của một tập ví dụ mẫu

o Công thức tính độ đo Gini cho nút t:
o Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t
o Gini (t) lớn nhất = 1-1/n
c
(với n
c
là số các lớp tại nút t): khi các bản ghi tại t phân bố đều cho n
c
lớp; tính hỗn tạp cao nhất, không có phân biệt giữa các lớp
o Gini (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất.
 Ví dụ: Bốn trường hợp
C1 0 C1 1 C1 2 C1 3
C2 6 C2 5 C2 4 C2 3
GINI=0.000 GINI=0.278 Gini=0.444 Gini=0.5
 Chia tập theo độ đo Gini
o Dùng trong các thuật toán CART, SLIQ, SPRINT
o Khi một nút t được phân hoạch thành k phần (k nút con của t) thì chất lượng của việc chia tính
bằng
9
[ ]
∑
=
−=
1
2
)|(1)(
j
tjptGini
trong đó
n là số bản ghi của tập bản ghi tại nút t,

n
i
là số lượng bản ghi tại nút con I (của nút t).
 Ví dụ:
o Tính toán GINI cho Refund (Yes, No), Marital Status (Single&Divorced, Married) và Taxable
Income (<80K, ≥ 80K).
o Refund: 3/10 * (0) + 7/10 * (1-(3/7)
2
– (4/7)
2
) = 7/10*(24/49) = 24/70
o Marital Status: 4/10 * 0 + 6/10 * (1- (3/6)
2
– (3/6)
2
) = 6/10 * ½ = 3/10
o Taxable Income: thuộc tính liên tục cần chia khoảng (tồn tại một số phương pháp theo Gini, kết
quả 2 thùng và 80K là mốc)
3/10 * (0) + 7/10 * (1-(3/7)
2
– (4/7)
2
) = 7/10*(24/49) = 24/70
o Như vậy, Gini của Refund và Taxable Income bằng nhau (24/70) và lớn hơn Gini của Marital
Status (3/10) nên chọn Refund cho gốc cây quyết định.
o
 Độ đo Information Gain
o Thông tin thu được sau khi phân hoạch tập ví dụ
o Dùng cho các thuật toán ID3, họ C4.5
 Entropy

o Công thức tính entropy nút t:
o Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t
o độ không đồng nhất tại nút t.
o Entropy (t) lớn nhất = log (n
c
) (với n
c
là số các lớp tại nút t): khi các bản ghi tại t phân bố đều
cho n
c
lớp; tính hỗn tạp cao nhất, không có phân biệt giữa các lớp
o Entropy (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất.
10
∑
=
=
k
i
i
split
iGINI
n
n
GINI
1
)(
∑
=
=
k

i
i
split
iGINI
n
n
GINI
1
)(
[ ]
∑
=
−=
1
2
)|(1)(
j
tjptGini
o Lấy loga cơ số 2 thay cho loga tự nhiên
 Tính toán entropy (t) cho một nút tương tự như Gini (t)
 Độ đo Information Gain
Trong đó, n là số lượng bản ghi tại nút t, k là số tập con trong phân hoạch, n
i
là số lượng bản ghi trong
tập con thứ i.
o Độ đo giảm entropy sau khi phân hoạch: chọn thuộc tính làm cho Gain đạt lớn nhất.
o C4.5 là một trong 10 thuật toán KPDL phố biến nhất.
 Hạn chế: Xu hướng chọn phân hoạch chia thành nhiều tập con
 Cải tiến: Dùng GainRatio để khắc phục xu hướng chọn phân hoạch nhiều tập con
Câu 5: Trình bày thuật toán phân lớp Bayes bao gồm phát biểu định lý Bayes.

Trả lời:
 Giới thiệu
o Xác suất có điều kiện
o Hai biến cố A và C
 Định lý Bayes:
P(c|x) = P(x|c).P(c)/P(x)
o P(x) bằng nhau cho tất cả các lớp
o Tìm c sao cho P(c|x) lớn nhất Tìm c sao cho P(x|c).P(c) lớn nhất
o P(c): tần suất xuất hiện của các tài liệu thuộc lớp c
o Vấn đề: làm thế nào để tính P(x|c)?
 Ví dụ
o Một bác sỹ biết
+ Bệnh nhân viêm màng não có triệu chứng cứng cổ S|M: 50%
+ Xác suất một bệnh nhân bị viêm màng não M là 1/50.000
+ Xác suất một bệnh nhân bị cứng cổ S là 1/20
o Một bệnh nhân bị cứng cổ hỏi xác suất anh/cô ta bị viêm màng não ?
Thuật toán Bayes
1. Giai đoạn học (training phase), sử dụng một tập học
Đối với mỗi phân lớp có thể (mỗi nhãn lớp) C
i
∈C
+ Tính giá trị xác suất trước: P(C
i
)
+ Đối với mỗi giá trị thuộc tính x
j
, tính giá trị xác suất xảy ra của giá trị thuộc tính đó đối với
một phân lớp C
i
: P(x

j
|C
i
)
2. Giai đoạn phân lớp (classification phase), đối với một ví dụ mới
11
∑
=
−=
k
i
i
chia
ientropy
n
n
tentropyGain
1
)()(
)(
),(
)|(
)(
),(
)|(
CP
CAP
CAP
AP
CAP

ACP
=
=
0002.0
20/1
50000/15.0
)(
)()|(
)|( =
×
==
SP
MPMSP
SMP
+ Đối với mỗi phân lớp Ci∈C, tính giá trị của biểu thức:
+ Xác định phân lớp của z là lớp có thể nhất c*
Câu 6: Trình bày thuật toán phân lớp k-NN bằng diễn giải và bằng giả mã.
Trả lời:
Thuật toán k-NN
 Cho trước
- Một tập D các tài liệu biểu diễn bản ghi các đặc trưng
- Một đo đo khoảng cách (Ơcơlit) hoặc tương tự:
- Một số k > 0 (láng giềng gần nhất)
 Phân lớp tài liệu mới Doc được biểu diễn
- Tính khoảng cách (độ tương tự) từ Doc tới tất cả tài liệu thuộc D
- Tìm k tài liệu thuộc D gần Doc nhất
- Dùng nhãn lớp của k-láng giềng gần nhất để xác định nhãn lớp của Doc: nhãn nhiều nhất trong
k-láng giềng gần nhất
Giả mã thuật toán K-NN
Câu 7: Trình bày thuật toán phân lớp SVM

Trả lời:
Thuật toán máy vector hỗ trợ (Support Vector Machine – SVM): được Corters và Vapnik giới thiệu vào năm
1995.
SVM rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn (như các vector biểu diễn văn bản).
* Các đặc trưng của thuật toán:
- Cho tập dữ liệu học: D = {(Xi, Ci), i=1,…n}
+ Ci Є {-1,1} xác định dữ liệu dương hay âm
- Tìm một siêu phẳng: αSVM .d + b phân chia dữ liệu thành hai miền.
- Phân lớp một tài liệu mới: xác định dấu của f(d) = αSVM .d + b
+ Thuộc lớp dương nếu f(d) > 0
+ Thuộc lớp âm nếu f(d) < 0
12
∑ ∑
∑
==
l l
ll
l
ll
ii
YX
YX
DDocCosDDocSm
22
*
),(),(
- Nếu dữ liệu học là tách rời tuyến tính:
+ Cực tiểu:
+ Thỏa mãn:
- Nếu dữ liệu học không tách rời tuyến tính: thêm biến {ξ1… ξn}:

+ Cực tiểu:
+ Thỏa mãn:
Câu 8: Trình bày thuật toán phân cụm K-means cứng
Trả lời:
Cho trước tập tài liệu (tập văn bản, tài liệu) S, cho trước giá trị k là số lượng cụm sẽ phân cụm cho tập tài liệu
trên.
Bước 1: Chọn ngẫu nhiên k tài liệu từ tập S làm các trung tâm c
i
(centroids) của k cụm.
Bước 2: Tính khoảng cách (sử dụng độ tương tự cosin hoặc khoảng cách Euclide) để tính khoảng cách giữa
các tài liệu trong tập S tới các trung tâm cụm c
i
của k cụm. Tìm trung tâm giống nhất để gán tài liệu đang xét
tới cụm tương ứng với trung tâm đó.
Bước 3: Đối với mỗi cụm k
i
, tính toán lại trung tâm cụm với các thành viên mới của cụm đó, và sử dụng công
thức tính trung tâm:
Bước 4: Lặp lại Bước 2 cho đến khi tiến trình đạt tới sự hội tụ, sự hội tụ đạt được khi:
- Các tài liệu giống nhau được gán lại tới cùng một cụm trong hai vòng lặp liên tiếp
- Các trung tâm cụm c
i
(centroids) không thay đổi
Điểm mấu chốt của thuật toán chính là Bước 2. Trong bước này các tài liệu được di chuyển giữa các cụm để
cực đại hóa độ tương tự trong mỗi cụm. Hàm đánh giá phân cụm được dựa trên trung tâm các cụm và độ tương
tự tới tổng khoảng cách bình phương (trong phân cụm dựa trên khoảng cách, và giá trị bình quân).
Trong trường hợp này, các trung tâm cụm và độ tương tự được sử dụng và để đánh giá. Bởi vậy, hàm số đặc
trưng là:
13
2

1 1
. =
2 2
(1)
αα α
 
 ÷
 ÷
 ÷
 
. 1 1, , (2)
i i
c d b i n
α
 
 ÷
 
+ ≥ ∀ =
=1
1
. + (3)
2
n
i
i
C
α α ξ
∑
( )
. 1 1, ,

i i i
c d b i n
α ξ
+ ≥ − ∀ =
0 1, , (4)
i
i n
ξ
≥ ∀ =
Trong đó, c
i
là trung tâm của cụm D
i
và sim (c
i
, d
j
) là đọ tương tự cosin giữa c
i
và d
j
. Việc phân cụm để cực đại
hóa giá trị hàm này được gọi là phân cụm đa dạng tối thiểu (sự đa dạng ở đây được định nghĩa là cực đại hóa
sự tương tự và cực tiểu hóa khoảng cách).
Câu 9. Trình bày khái niệm Kho dữ liệu do Inmon đề xuất và giới thiệu càng nhiều càng tốt về 4 đặc trưng
của kho dữ liệu. Cho ví dụ.
Trả lời:
Khái niệm Kho dữ liệu của W.H. Inmon: “Kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính
thời gian và không thay đổi để hỗ trợ quá trình tạo quyết định quản lý”.
Như vậy Kho dữ liệu có bốn “đặc trưng”: hướng chủ đề, tích hợp, có tính thời gian và không thay đổi

a) Đặc trưng hướng chủ đề
- Được tổ chức xung quanh các chủ đề chính, chẳng hạn như khách hàng, sản phẩm, bán hàng.
- Tập trung vào xây dựng mô hình và phân tích dữ liệu để tạo quyết định; không phái quá trình tác nghiệp hoặc
giao dịch hàng này.
- Cung cấp một khung nhìn đơn giản và ngắn gọn về các đề tài thuộc chủ đề cụ thể nhờ loại bỏ các dữ liệu vô
dụng trong quá trình ra quyết định.
Ví dụ:
b) Đặc trưng tích hợp
* KDL đươc xây dựng từ việc tích hợp các nguồn dữ liệu phức, không đồng nhất
- CSDL quan hệ
- CSDL file phẳng (flat files: mã hóa CSDL sang dạng đặc biệt như .txt hoặc .ini),
- Các bản ghi giao dịch trực tuyến
* Sử dụng các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu.
- Đảm bảo tính nhất quán quy ước đặt tên, cấu trúc mã hóa, đo lường thuộc tính, … giữa các nguồn dữ liệu
khác nhau
+ VD: giá khách sạn: tiền tệ, thuế, bao gói ăn sáng…
- Dữ liệu chuyển tới KDL thì nó được chuyển đổi.
Ví dụ:
c) Đặc trưng thời gian
14
* Chiều thời gian đối với KDL là đáng kể dài hơn so với hệ thống CSDL tác nghiệp
- CSDL tác nghiệp: dữ liệu giá trị hiện thời.
- Dữ liệu KDL: cung cấp thông tin theo “quan điểm” lịch sử (chẳng hạn, 5-10 năm quá khứ)
* Mọi cấu trúc cốt lõi trong KDL
- Chứa yếu tố thời gian, hiện hoặc ẩn
- Nhưng cốt lõi của dữ liệu tác nghiệp có thể chứa hoặc không chứa “yếu tố thời gian”.
Ví dụ:
d) Đặc trưng không thay đổi
* Lưu trữ vật lý riêng biệt các dữ liệu được chuyển từ môi trường tác nghiệp sang.
* Cập nhật tác nghiệp dữ liệu không xuất hiện trong môi trường KDL.

- Không có xử lý giao dịch, phục hồi và cơ chế điều khiển đồng thời.
- Chí có hai thao tác truy nhập dữ liệu, dữ liệu nguồn không biến đổi trong KDL:
+ Tải ban đầu dữ liệu
+ Truy cập dữ liệu
Ví dụ:
Câu 10: Trình bày về 3 kiểu mô hình khái niệm kho dữ liệu (hình sao, bông tuyết, dải ngân hà). Cho ví dụ.
Trả lời:
+ Sơ đồ hình sao (star schema): Một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều
15
+ Sơ đồ bông tuyết (snowflake schema): Một mở rộng của sơ đồ hình sao trong đó một vài cấu trúc chiều
được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình thức tương tự như bông tuyết.
+ Sơ đồ dải ngân hà (galaxy schema) còn gọi là chòm sao sự kiện (Fact constellations schema): Bảng sự kiện
phức chia sẻ các bảng chiều, tạo khung nhìn một tập các “ngôi sao”.
16
Câu 11: Trình bày về kiến trúc đa tầng của kho dữ liệu (nguồn dữ liệu, lưu dữ liệu, xử lý OLAP, tiện ích
người dùng). Thể hiện bằng hình vẽ.
Trả lời:
Kiến trúc đa tầng của kho dữ liệu (a multi-tiered Architecture)
- Nguồn dữ liệu: Được thu thập từ cơ sở dữ liệu hoạt động và các nguồn dữ liệu khác.
- Lưu trữ dữ liệu: Tại đây dữ liệu sẽ được tiền xử lý và chuyển tới kho dữ liệu. Dựa trên sự điều khiển và tích
hợp của siêu dữ liệu, dữ liệu trong kho sẽ được chia thành các kho dữ liệu theo chủ đề riêng.
- Xử lý OLAP (Online Analysis Processing – Xử lý phân tích trực tuyến):
+ Hệ thống quản lý dữ liệu giàu năng lực cho phép phân tích dữ liệu:
* Cắt lát dữ liệu theo nhiều khía cạnh khác nhau
* Khoan xuống (drill up) mức chi tiết hơn
* Cuộn lên (roll up) mức tổng hợp hơn
+ Bản chất cốt lõi của OLAP
* Dữ liệu được lấy ra từ kho dữ liệu hoặc kho dữ liệu chủ đề (Datamart)
* DL được chuyển thành mô hình đa chiều
* DL được lưu trữ trong một kho dữ liệu đa chiều.

- Tiện ích người dùng: Người dùng có thể phân tích, truy vấn, lập báo cáo và khai thác dữ liệu cần thiết.
+ Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám
phá dữ liệu.
+ Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối quan hệ
trong dữ liệu kinh doanh phức tạp.
+ Dữ liệu được tính toán trước đối với các truy vấn thường xuyên nhằm làm cho thời gian trả lời
rất nhanh đối với các truy vấn đặc biệt.
17
+ Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa trên một
tập các hàm tính toán đặc biệt.
Câu 12: Trình bày về siêu dữ liệu trong kho dữ liệu, các loại siêu dữ liệu và cho ví dụ.
Trả lời:(xem thêm slide 88 – chương 4)
Siêu dữ liệu (metadata) là dạng dữ liệu dùng để xác định hay mô tả các đối tượng trong kho dữ liệu. Nó được
chia thành 6 loại nhỏ sau:
- Loại mô tả cấu trúc của kho dữ liệu. Ví dụ như: lược đồ, khung nhìn (view), kích thước, sự phân cấp, định
nghĩa dữ liệu, vị trí và nội dung của dữ liệu chủ đề.
- Loại siêu dữ liệu hoạt động. Ví dụ dữ liệu dòng (lịch sử di chuyển dữ liệu và con đường chuyển nó); hoạt
động lưu trữ hoặc lọc dữ liệu; giám sát thông tin (sử dụng kho dữ liệu thống kê, báo cáo lỗi, lịch sử kiểm toán)
- Các thuật toán được sử dụng để tổng hợp dữ liệu. Ví dụ thuật toán khai phá tập mục Apriori, thuật toán phân
cụm k-mean, các luật kết hợp…
-Các ánh xạ xác định sự tương ứng dữ liệu từ môi trường tác nghiệp sang kho dữ liệu.
- Các dữ liệu liên quan đến hiệu năng của hệ thống. Ví dụ lược đồ kho dữ liệu, view, nguồn gốc dữ liệu.
- Các dữ liệu kinh doanh. Ví dụ các điều khỏan, định nghĩa, quyền sở hữu và chính sách thu phí.
Câu 13. Trình bày về các nhân sự quan trọng cần phải quan tâm khi xác định yêu cầu trong dự án kho dữ
liệu. Có điểm gì khác với xác định yêu cầu trong hệ CSDL?
Trả lời:
 Các nhân sự quan trọng cần phải quan tâm:
o Cách hiểu 1: Là các đại diện cho lớp người sử dụng DW ? (23- chương 6)
+ Nhà điều hành chính (cả nhà đầu tư): định hướng bản chất và phạm vi của DW; tương tác chính
+ Người quản lý bộ phận chính yếu: cung cấp mô tả miền định hướng

+ Nhà phân tích kinh doanh: chuẩn bị văn bản và phân tích cho điều hành chính và quản lý
+ Người quản trị CSDL hệ thống tác nghiệp: về dữ liệu nguồn
+ Người sử dụng
o Cách hiểu 2: Là “Các đối tượng cao cấp trong xác định yêu cầu” ?!
+ Phó chủ tịch tập đoàn về tiếp thị
+ Phụ trách quản lý tiếp thi
+ Quản lý tài chính
+ Người sử dụng
(Mọi người có cách hiểu khác/ tài liệu chuẩn không?)
 Điểm khác biệt: pha xác định yêu cầu với DW định hướng người dùng (tập trung vào người dùng cần
cái gì), tránh định hướng hệ thống (làm thế nào cung cấp thông tin đòi hỏi) do vậy người sử dụng cần
tham gia tích cực các cuộc họp để xác định yêu cầu, định danh mọi hệ thống nguồn, xác định độ đo để
18
đo lường thành công kinh doanh, và các chiều kinh doanh để phân tích, xác định thông tin cần thiết từ
kho dữ liệu.
Câu 14. Trình bày khái niệm chiều kinh doanh và các nội dung liên quan tới khái niệm này trong dự án
kho dữ liệu. Cho ví dụ
Trả lời:
 Khái niệm chiều kinh doanh:
Là thông tin tham chiếu qua đó các dữ liệu kinh doanh được cấu trúc sử dụng cho việc phân tích
o Chiều kinh doanh là mẫu nền tảng của phương pháp mới để xác định yêu cầu. Dữ liệu bắt buộc
phái lưu giữ để cung cấp cho chiều kinh doanh.
o Chiều kinh doanh và các mức của nó là mẫu của mọi pha tiếp theo.
o Nên định danh được các chiều kinh doanh và các mức kiến trúc của chúng. Bắt buộc chọn tập
ưu thế và tối ưu các chiều kinh doanh liên quan tới các độ đo
 Các nội dung liên quan đến khái niệm chiều dinh doanh trong dự án kho dữ liệu: xác định yêu cầu, thiết
kế, xây dựng, triển khai, bảo trì.
 Ví dụ về chiều kinh doanh:
o Khối lượng bán hàng của một công ty là một hàm của sản phẩm, tháng, và quận  Các chiều
kinh doanh là: Sản phẩm, Địa danh, Thời gian - Các thông tin tham chiếu được sử dụng cho

việc phân tích dữ liệu bán hang của công ty này.
o Hình dung đơn vị dữ liệu kinh doang dưới dạng một tập các khối. Trong hình vẽ là 3 chiều theo
tính tự nhiên của nó
o Nếu nhiều hơn 3 mở rộng khái niệm chiều phức và khối đa chiều ảo: siêu khối. Ví dụ:
19
•
Câu 15. Trình bày và phân tích chức năng-nhiệm vụ của các vai trò sau đây của đội phát triển dự án kho
dữ liệu: (1) Nhà tài trợ điều hành, (2) Người quản lý dự án, (3) Người quản lý quan hệ người dùng, (4)
Kiến trúc sư chính, (5) Chuyên gia hạ tầng, (6) Người phân tích kinh doanh, (7) Người mô hình hóa dữ
liệu.
Trả lời:
Các chức năng – nhiệm vụ của các vai trò trong đội phát triển dự án (slide 26 – chương 5)
1. Nhà tài trợ điều hành: Chỉ đạo, hỗ trợ, làm trọng tài. Đây là cấp điều hành cao cấp, có kiến thức kinh
doanh chuyên sâu, có nhiệt tình và năng lực để điều hành công việc và phân xử khi cần thiết.
2. Người quản lý dự án: Giao nhiệm vụ, giám sát, kiểm tra. Vị trí này yêu cầu năng lực thực tế và kỹ năng
con người, kinh nghiệm quản lý dự án, định hướng kinh doanh và người sử dụng từ đó tiến hành giao
nhiệm vụ cụ thể đến từng nhóm, từng thành viên cũng như giám sát, kiểm tra hoạt động của họ.
3. Người quản lý quan hệ người dùng: Phối hợp với các nhóm người dùng. Ở đây, kỹ năng con người đặc
biệt quan trọng, bên cạnh đó cần kỹ năng tổ chức, làm việc nhóm, kiến thức hệ thống từ quan điểm
người dùng.
4. Kiến trúc sư chính: Thiết kế kiến trúc. Vị trí này cần kỹ năng phân tích, năng lực nhìn khung cảnh lớn,
chuyên môn trong giao tiếp, kiến thức về khái niệm kho dữ liệu để lựa chọn thiết kế kiến trúc và các
công cụ, thiết kế trích xuất và chuyển đổi dữ liệu, xem xét thiết kế cung cấp thông tin…
5. Chuyên gia hạ tầng: Thiết kế / xây dựng cơ sở hạ tầng. Đây là các chuyên gia về phần cứng, hệ điều
hành, hạ tầng máy tính, kinh nghiệm như chuyên viên HĐH chịu trách nhiệm thiết kế và xây dựng cơ
sở hạ tầng cho dự án kho dữ liệu.
6. Người phân tích kinh doanh: Xác định yêu cầu. Để làm tốt nhiệm vụ quan trọng này, người phân tích
kinh doanh cần kỹ năng phân tích và khả năng tương tác với người dùng.
7. Người mô hình hóa DL (Data Modeler): Mô hình hóa quan hệ và chiều. Chuyên gia mô hình hóa quan
hệ và chiều với các công cụ trường hợp, kinh nghiệm như nhà phân tích dữ liệu.

Câu 16: Trình bày về các điểm trọng tâm cần quan tâm khi phỏng vấn bao gồm Tài nguyên thông tin hiện
có, Miền chủ đề, Độ đo hiệu năng chính yếu, Tần suất thông tin.
Trả lời:
Khi tiến hành phỏng vấn lấy thông tin nhằm xác định yêu cầu, cần quan tâm đến các nội dung sau:
 Tài nguyên thông tin hiện có
o Các hệ tác nghiệp sinh ra dữ liệu cho miền chủ đề kinh doanh quan trọng
o Các hệ thống máy tính nào hỗ trọ miền chủ đề quan trọng này
20
o Thông tin nào hiện được cung cấp trong các kết xuất và câu hỏi trực tuyến
o Mức độ chi tiết thông tin được cung cấp
 Miền chủ đề
o Các miền chủ đề có giá trị nhất để phân tích
o Có các chiều kinh doanh nào ? Chúng có cấu trúc tự nhiên hay không ?
o Các thành phần kinh doanh để hỗ trợ quyết định
o Thông tin toàn cục hay cục bộ để hỗ trợ quyết định hoặc kết hợp
o Các sản phẩm và dịch vụ thuộc miền chủ đề
 Độ đo hiệu năng chính yếu
o Cách thức đo hiệu năng của BU
o Các nhân tố chuẩn thành công và cách thức giám sát
o Cách thức độ đo chính yếu cuộn lên
o Mọi thị trường có dùng cách đo này ?
 Tần suất thông tin
o Tính thường xuyên bắt buộc cập nhật dữ liệu để ra quyết định ? Khung thời gian nào?
o Cách thức của mỗi kiểu phân tích theo thời gian
o Nhu cầu thời gian ra sao đối với thông tin trong DW
Câu 17: Trình bày các nội dung cơ bản về toán tử GROUP BY
Trả lời:
Quá trình phân tích dữ liệu bao gồm các bước sau:
• formulating truy vấn dữ liệu từ nguồn dữ liệu lớn
• extracting (trích rút) dữ liệu tổng hợp từ cơ sở dữ liệu ra file, bảng thông kê

• visualizing (mô hình hóa) kết quả thành các dạng hình ảnh (biểu đổ, mầu sắc …). Các công cụ mô hình
hóa dữ liệu mô tả hình dáng, phạm vi, và những sự khác biệt rõ rệt
• analyzing phân tích các kết quả truy vấn, đưa ra các truy vấn mới
Để hỗ trợ cho việc tổng hợp dữ liệu, SQL cung cấp 5 hàm chuẩn giúp tổng hợp dữ liệu trong bảng là:
• COUNT ( )
• SUM ( )
• MIN ( )
• MAX ( )
• AVG ( )
Ví dụ: SELECT AVG (Temp)
FROM Weather
Tuy nhiên, tổng hợp dữ liệu bằng các hàm trên chỉ trả về một giá trị đơn. Bằng việc sử dụng cấu trúc GROUP
BY, SQL sẽ tạo bảng tổng hợp dữ liệu của nhiều giá trị trong tập thuộc tính:
VD: SELECT Time, Altitude, AVG (Temp)
FROM Weather
GROUP BY Time, Altitude
21
GROUP BY là một toán tử không thường được dùng trong truy vấn dữ liệu.
Như đã nói ở trên, toán tử GROUP BY thường ít được sử dung trong truy vấn dữ liệu vì bản thân nó có một số
nhược điểm:
 Toán tử chuẩn GROUP BY trong SQL không cho phép trực tiếp khởi tạo các biểu đồ gộp (kết hợp tính
toán nhiều danh mục)
 Vấn đề thứ thứ hai liên quan đến Roll-up và Drill-down, người sử dụng phải lưu lại các mức độ kết
hợp.
Để khắc phục các nhược điểm trên, phải tiến hành các bước sau:
 Xây dựng các cột (column) mới cho mỗi tổ hợp các thuộc tính kết hợp, điều này tuy khả thi nhưng sẽ
gây lãng phí tài nguyên khi tiến hành lưu trữ, tính toán.
 Đưa vào giá trị “ALL”, giá trị “ALL” sẽ trình bày toàn bộ các giá trị tồn tại trong một cột nào đó mà
không lo mất dữ liệu khi Roll-up, Drill-down.
Câu 18: Trình bày các nội dung chuyển đổi dữ liệu, tải dữ liệu và chất lượng dữ liệu trong thiết kế dữ liệu

của kho dữ liệu
Trả lời:
 Chuyển đổi dữ liệu:
o Định nghĩa: là trích xuất, trích hợp, và chuyển dạng dữ liệu.
o Chuyên gia chuyển đổi dữ liệu yêu cầu phải có kiến thức về cấu trúc dữ liệu, kiến thức chuyên
sâu về các hệ thống nguồn, có kinh nghiêm như nhà phân tích thiết kế hệ thống.
 Tải dữ liệu:
o Định nghĩa: tải dữ liệu là chuyển dữ liệu tới đối tượng cuối (end target). Tùy thuộc vào các yêu
cầu ban đầu, quá trình tải dữ liệu sẽ thực hiện với khoảng cách thời gian khác nhau (theo tháng,
quí, năm, …).
 Chất lượng dữ liệu:
o Định nghĩa:Dữ liệu có chất lượng tốt là dữ liệu được xử dụng để thực thi, ra quyết định và lập
kế hoạch (Wiki).Một định nghĩa khác thì dữ liệu có chất lượng càng tốt thì mô tả cấu trúc thế
giới thực càng chính xác.
o Chuyên gia phân tích đảm bảo chất lượng: có kiến thức về kỹ thuật chất lượng dữ liệu, kiến
thức về hệ thống nguồn, có kinh nghiệm như nhà phân tích thiết kế.
Câu 19: Trình bày các nội dung về gói thông tin trong bước xác định yêu cầu của dự án kho dữ liệu
22
Gói thông tin :Là ý tưởng mới để xác định và ghi nhận yêu cầu thông tin đối với kho dữ liệu. Khái niệm
này cho một mẫu cụ thể để nhìn nhận đa dạng, suy nghĩ chưa tường minh, và các quan điểm suốt quá trình
tập hợp yêu cầu.
 Vì sao cần gói thông tin
o Nhu cầu không thể xác định một cách đầy đủ
o Cần khái niệm mới, sáng tạo để nắm bắt và ghi nhận được các yêu cầu
 Phương pháp mới:
o Dựa trên chiều kinh doanh
o Trên các chiều kinh doanh: nhu cầu của người dùng được phân tích, làm rõ
o Khái niệm mới sáp nhập các độ đo cơ sở và các chiều kinh doanh dựa theo phân tích độ đo cơ
sở này.
o Đi tới độ đo mới và các chiều liên quan buộc phải nắm giữ và trong DW

o Liên quan tới các chủ đề riêng
 Ví dụ về gói thông tin
o Mục tiêu nguyên thủy trong pha xác định yêu cầu là “biên dịch” các gói thông tin đối với mọi
chủ đề đối với kho dữ liệu
o Mỗi khi khẳng định được các gói thông tin nên gắn tới các pha khác
 Lợi ích của gói thông tin
o Xác định được các miền chủ đề chung
o Thiết kế được thước đo kinh doanh chủ chốt
o Quyết định cách thức dữ liệu được trình diễn
o Xác định cách thức người dùng tán thành / không tán thành
o Quyết định chất lượng dữ liệu mà người dùng phân tích và hỏi
o Quyết định cách truy nhập dữ liệu
o Thiết lập hạt nhân của dữ liệu
o Xác định tần suất làm tươi dữ liệu
o Xác định cách thông tin cần phải “gói”
Câu 20: Trình bày các nội dung về nguồn thông tin hiện tại, miền chủ đề, độ đo hiệu năng chủ yếu, tần
suất thông tin trong quá trình phỏng vấn xác định yêu cầu xây dựng kho dữ liệu
 Tài nguyên thông tin hiện có
o Các hệ tác nghiệp sinh ra dữ liệu cho miền chủ đề kinh doanh quan trọng
o Các hệ thống máy tính nào hỗ trọ miền chủ đề quan trọng này
o Thông tin nào hiện được cung cấp trong các kết xuất và câu hỏi trực tuyến
o Mức độ chi tiết thông tin được cung cấp
 Miền chủ đề
o Các miền chủ đề có giá trị nhất để phân tích
o Có các chiều kinh doanh nào ? Chúng có cấu trúc tự nhiên hay không ?
o Các thành phần kinh doanh để hỗ trợ quyết định
o Thông tin toàn cục hay cục bộ để hỗ trợ quyết định hoặc kết hợp
o Các sản phẩm và dịch vụ thuộc miền chủ đề
 Độ đo hiệu năng chính yếu
o Cách thức đo hiệu năng của BU

o Các nhân tố chuẩn thành công và cách thức giám sát
23
o Cách thức độ đo chính yếu cuộn lên
o Mọi thị trường có dùng cách đo này ?
 Tần suất thông tin
o Tính thường xuyên bắt buộc cập nhật dữ liệu để ra quyết định ? Khung thời gian nào?
o Cách thức của mỗi kiểu phân tích theo thời gian
o Nhu cầu thời gian ra sao đối với thông tin trong DW
Câu 21: Trình bày nội dung năm pha của phương pháp nắm bắt yêu cầu JAD (serious joint application
development) (xác định dự án, nghiên cứu khảo sát, chuẩn bị, các phiên làm việc, hoàn thiện tài liệu)
 Xác định dự án
o Hoàn thiện phỏng vấn cao cấp
o Tổ chức phỏng vấn quản lý
o Chuẩn bị xác đinh quản lý
 Nghiên cứu, khảo sát
o Tương đồng miền kinh doanh và hệ thống
o Làm tài liệu yêu cầu thông tin ngươpì dùng
o Làm tài liệu quá trình kinh doanh
o Nắm bắt thông tin gốc
o Chuẩn bị chương trình nghị sự cho phiên nhóm
 chuẩn bị
o Khởi tạo tài liệu làm việc từ các pha trước
o Huấn luyện thư ký
o Chuẩn bị hỗ trợ trực quan
o Chỉ đạo các cuộc họp trước phiên chung
o Chuẩn bị không gian cho phiên
o Chuẩn bi danh sách kiểm tra cho mục tiêu
 Các phiên làm việc JAD
o Thảo luận chương trình nghị sự và mục đích
o Giả thiết của phỏng vấn

o Phỏng vấn yêu cầu dữ liệu
o Phòng vấn độ đo và chiều kinh doanh
o Thảo luận kiến trúc chiều và cuộn lên
o Giải quyết lại những vấn đề còn mở
o Đóng phiên với danh sách các mục kết luận
 Hoàn thiện tài liệu
o Cải tiến tài liệu làm việc
o Sắp xếp các thông tin đã nắm bắt được
o Lên danh sách các nguồn dữ liệu
o Định danh moi độ đo kinh doanh
o Lên danh sách mọi chiều và kiến trúc kinh doanh
o Thiết kế và biên tập tài liệu
o Quản lý các kết luận phiên
o Đi đến chấp nhận
o Tiến hành thủ tục thay đổi nhu cầu
24
25

CÂU HỎI MÔN HỌC NHẬP MÔN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU CÓ ĐÁP ÁN

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về