Tải bản đầy đủ (.doc) (26 trang)

Ôn tập lý thuyết và bài tập Chuyên đề khai phá dữ liệu và nhà kho dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.33 MB, 26 trang )

Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
ÔN TẬP LÝ THUYẾT VÀ BÀI TẬP
BÀI 3: Episode và Luật Episode
1. Các khái niệm cơ bản về Episode
Episodes:
o Episode là cặp (V, ≤)
 V là tập hợp các loại sự kiện,ví dụ loại tín hiệu báo động
 ≤ là thứ tự riêng phần trên V
o Cho chuỗi S các tín hiệu báo động, episode
α
= (V,

) xảy ra trong phạm vi S nếu
có cách thỏa loại sự kiện (ví dụ loại tín hiệu báo động) trong V dùng các tín hiệu
báo động của S để thứ tự riêng phần ≤ được tôn trọng
o Nhận xét: episodes chứa các tín hiệu báo động có các tính chất nào đó và xày ra
theo một thứ tự riêng phần nào đó.
Các thứ tự riêng phần phổ dụng như:
o Thứ tự toàn phần
 Các vị từ của mỗi episode có thứ tự cố định
 Các episodes như vậy được gọi là tuần tự (hay “có thứ tự")
o Các thứ tự riêng phần hiển nhiên
 Không xét trật tự của các vị từ
 Các episodes này được gọi là song song (hay “không có thứ tự")
Ví dụ:
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 1/26
A
B
C
Episode vừa tuần
tự vừa song song


A
B
Episode
tuần tự
A
B
Episode
song song
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Thuật toán WINEPI
• Cho tập E các loại sự kiện, chuỗi sự kiện S = (s,Ts,Te) là một chuỗi có thứ tự các sự kiện eventi
sao cho eventi ≤ eventi+1 với mọi i=1, …, n-1, và Ts ≤ eventi < Te với mọi i=1, …, n
• Cửa sổ trên chuỗi sự kiện S là chuỗi sự kiện S=(w,ts,te), với ts < Te, te > Ts, và w chứa các cặp
(event, t) của s mà ts ≤ t < te
• Giá trị ts ≤ t < te được gọi là bề rộng cửa sổ W
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 2/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
• Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi vuơn ra ngoài chuỗi, do vậy cửa sổ đầu tiên chỉ
chứa thời điểm đầu và cửa sổ cuối cùng chỉ chứa thời điểm cuối
• Tần suất (độ hỗ trợ với luật kết hợp) của episode α là tỷ số giữa các cửa số có xuất hiện với
tổng sổ các cửa sổ khả dĩ.
Với W(S, W) là tập tất cả các cửa số Sw của chuỗi S sao cho bề rộng cửa sổ là W
• Khi tìm episodes cần sử dụng một ngưỡng tần suât min_fr
• Episode
α
là phổ biến nếu fr(
α
, s, win) ≥ min_fr, ví dụ, “nếu tần suất của
α
vượt quá nguỡng

tần suất nhỏ nhất trong phạm vi chuỗi dữ liệu s và với bề rộng cửa sổ win"
• F(s, win, min_fr): tập hợp các episodes phổ biến trong s ứng với win và min_fr
• Meo Apriori: Nếu episode
α
là phổ biến trong chuỗi sự kiện s, thì tất cả các episodes con
β
p
α
là phổ biến
• Luật episode rule là biểu thức β ⇒ γ, với β và γ là các episodes sao cho β là episode con của γ
• Episode β là episode con của γ (β p γ), nếu đồ thị biểu diễn β là đồ thị con của đồ thị biểu diễn γ
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 3/26
|Sw ∈ W(S, W) | α xuất hiện trong Sw |
fr(α, S, W) =
|W(S, W)|
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
• Nhận xét:
– Các luật WINEPI giống luật kết hợp nhưng có thêm yếu tố thời gian:
Nếu sự kiện (tín hiệu báo động) thỏa về trái của luật xuất hiện theo thứ tự bên phải trong phạm
vi W đơn vị thời gian, thì cũng xuất hiện trong phần kết luận (vế phải ) xuất hiện trong vị trí được
mô tả bởi quan hệ thứ tự ≤, trong phạm vi W đơn vị thời gian.
phần thân ⇒ kết luận [bề rộng cửa sổ ] (f, c)
Bài toán đầu tiên: cho chuỗi và episode, xác định episode có xuất hiện trong chuỗi.
• Tìm số các cửa sổ có episode xuất hiện
• Các cửa sổ liền nhau có nhiều phần chung
• Cách xử lý?
– Thuật toán tăng cường (incremental algorithm)
– Giống ý tưởng luật kết hợp
– Episode ứng viên là tổ hợp của hai episodes có kích thước nhỏ hơn
– Các episodes song song, episodes tuân tự

HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 4/26
Phân số
fr(γ, S, W) = tần suất của toàn bộ episode
fr(β, S, W) = tần suất của episode về trái
là độ tin cậy của luật WINEPI episode
Độ tin cậy được xem như xác suất điều kiện của toàn bộ của γ xảy ra trong cửa sổ khi cho trước β xảy
ra trong cửa sổ đó.
Thuật toán winEpi
• Input: Tập R các loại sự kiện/th báo động , chuỗi sự kiện s trên R, tập E các episodes, bề
rộng cửa sổ win, và nguỡng tần suất min_fr
• Output: Tập hợp F(s, win, min_fr)
• Method:
1. Tính C1 := {α ∈ E | |α| = 1};
2. i := 1;
3. while Ci≠ ∅ do
4.(* Tính F(s, win, min_fr) := {α ∈ Ci | fr(α, s, win) ≥ min_fr};
5. i := l+1;
6.(** Tính Ci:= {α ∈ E | |α| = I, and β ∈ F|β|(s, win, min_fr) for all β ∈ E, β p α};
(* = quét database , (** tạo ứng viên
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Bài tập 1 :
Ví dụ về WINEPI (slide 22 – tài liệu giảng của Thầy Phúc)
Cho chuỗi tín hiệu: D C A B D A B C
Chiều dài chuổi là 70 giây, bắt đầu từ giây 10, kết thúc giây 80.
Bề rộng cửa sổ là 40 giây, mỗi bước di chuyển khoảng cách 10 giây, cửa sổ đầu tiên chỉ chứa 1 sự kiện
đầu tiên và cửa sổ cuối cùng chỉ chứa 1 sự kiện cuối cùng.
Minfr=0.4
1. Tìm các cửa sổ trượt qua chuỗi tín hiệu
2. Tìm các Eps song song phổ biến và luật Eps
3. Tìm các Eps tuần tự phổ biến và luật Eps

Giải
1. Tìm các cửa sổ trượt qua chuỗi tín hiệu
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 5/26
-20
-10 0 10
20 30
40
50 60 70 80 90
D
C
A
B
D
A B
C
W1
W2
W3
W4
W5
W6
W7
W8
W9
W11
W10
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Bề rộng cửa số là 40 giây, bước dịch chuyển là 10 giây. Chiều dài của chuỗi sự kiện là 70 giây (10 đến
80). Bằng cách trượt cửa sổ, ta thu được 11 cửa sổ :
Cửa sổ Wi Khoảng thời gian/cửa sổ Nội dung của Wi

W1 [ -20, 20] [ _, _, _, D ]
W2 [ -10, 30] [ _, _, D, C ]
W3 [ 0, 40 ] [ _, D, C, A ]
W4 [ 10, 50 ] [ D, C, A, B ]
W5 [ 20, 60] [ C, A, B, D ]
W6 [ 30, 70] [ A, B, D, A ]
W7 [ 40, 80] [ B, D, A, B ]
W8 [ 50, 90] [ D, A, B, C ]
W9 [60, 100] [ A, B, C, _ ]
W10 [70, 110] [ B, C, _, _ ]
W11 [80, 120] [ C, _, _, _ ]
2. Tìm các Eps song song phổ biến và luật Eps
Cửa sổ Wi Khoảng thời gian/cửa sổ Nội dung của Wi
W1 [ -20, 20] [ _, _, _, D ] {D}
W2 [ -10, 30] [ _, _, D, C ] {C, D},{CD}
W3 [ 0, 40 ] [ _, D, C, A ] { A,C,D}, { AC, AD, CD},{ACD}
W4 [ 10, 50 ] [ D, C, A, B ] {A, B, C, D},{AB, AC, AD, BC, BD, CD},
{ABC, ABD, ACD, BCD}, {ABCD}
W5 [ 20, 60] [ C, A, B, D ] {A, B, C, D},{AB, AC, AD, BC, BD, CD},
{ABC, ABD, ACD, BCD}, {ABCD}
W6 [ 30, 70] [ A, B, D, A ] {A,B,D}, {AB, AD, BD}, {ABD}
W7 [ 40, 80] [ B, D, A, B ] {A,B,D}, {AB, AD, BD}, {ABD}
W8 [ 50, 90] [ D, A, B, C ] {A, B, C, D},{AB, AC, AD, BC, BD, CD},
{ABC, ABD, ACD, BCD}, {ABCD}
W9 [60, 100] [ A, B, C, _ ] {A,B,C}, {AB, AC, BC}, {ABC}
W10 [70, 110] [ B, C, _, _ ] {B,C},{BC}
W11 [80, 120] [ C, _, _, _ ] {C}
Để tìm các Episode phổ biến với minfr=0.4 thi các ứng viên phải xuất hiện trong 11 cửa sổ phải
bằng 0.4 *11 ≈ 5 cửa sổ trở lên.
Tìm các Eps phổ biến

Tập ứng viên C1 A B C D
Số lần xuất hiện trong cửa sổ 7 7 8 8
Dựa vào bảng trên ta thấy Eps một phần tử đều xuất hiện nhiều hơn 5 cửa sổ và thỏa minfr
 Tập các Eps phổ biến một phần tử L1 = {A,B,C,D}
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 6/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Tập cá Eps 2 phần tử được tạo ra từ tập Eps phổ biến 1 phần tử
Tập ứng viên C2 AB AC AD BC BD CD
Số lần xuất hiện trong cửa sổ 6 5 6 5 5 5
Dựa vào bảng trên thì các Eps 2 phần tử đều thỏa vì xuất hiện từ 5 cửa sổ trở lên thỏa minfr
 Tập các Eps phổ biến 2 phần tử L2 = {AB, AC, AD, BC,BD,CD}
Từ L2 ta có C3 = {ABC, ABD, ACD, BCD}
Tập ứng viên C3 ABC ABD ACD BCD
Số lần xuất hiện trong cửa sổ 3 5 4 3
Tương tự ta thấy chỉ có {ABD} xuất hiện trong 5 cửa số nên tập các Eps phổ biến 3 phần tử
là L3={ABD}
Tóm lại các tập Eps song song phổ biến là :
L1 = {A,B,C,D}
L2 = {AB, AC, AD, BC,BD,CD}
L3={ABD}
Tập các luật Eps
Ta không xét tập Eps 1 phần tử
Để tìm ra những luật có độ tin cậy là 100% thì ρ(vế trái) ⊆ ρ(vế phải) nghĩa là tập các cửa
sổ có chứa vế trái là tập con của các cửa sổ chứa vế phải
Luật Kết Hợp
ρ(S1) (vế trái) ρ(S2} (vế phải) ρ(S1) ⊆ ρ(S2)
Kết quả
{AB}
A ⇒ B
W

3,4,5,6,7,8,9
W
4,5,6,7,8,9,10
ρ(A) ⊄ ρ(B)
Loại
B ⇒ A
W
4,5,6,7,8,9,10
W
3,4,5,6,7,8,9
ρ(B) ⊄ ρ(A)
Loại
{AC}
A ⇒ C
W
3,4,5,6,7,8,9
W
2,3,4,5,8,9,10,11
ρ(A) ⊄ ρ(C)
Loại
C ⇒ A
W
2,3,4,5,8,9,10,11
W
3,4,5,6,7,8,9
ρ(C) ⊄ ρ(A)
Loại
{AD}
A ⇒ D
W

3,4,5,6,7,8,9
W
1,2,3,4,5,6,7,8
ρ(A) ⊄ ρ(D)
Loại
D ⇒ A
W
1,2,3,4,5,6,7,8
W
3,4,5,6,7,8,9
ρ(D) ⊄ ρ(A)
Loại
BC
B ⇒ C
W
4,5,6,7,8,9,10
W
2,3,4,5,8,9,10,11
ρ(B) ⊄ ρ(C)
Loại
C ⇒ B
W
2,3,4,5,8,9,10,11
W
4,5,6,7,8,9,10
ρ(C) ⊄ ρ(B)
Loại
BD
B ⇒ D
W

4,5,6,7,8,9,10
W
1,2,3,4,5,6,7,8
ρ(B) ⊄ ρ(D)
Loại
D⇒ B
W
1,2,3,4,5,6,7,8
W
4,5,6,7,8,9,10
ρ(D) ⊄ ρ(B)
Loại
CD
C ⇒ D
W
2,3,4,5,8,9,10,11
W
1,2,3,4,5,6,7,8
ρ(C) ⊄ ρ(D)
Loại
D⇒ C
W
1,2,3,4,5,6,7,8
W
2,3,4,5,8,9,10,11
ρ(D) ⊄ ρ(C)
Loại
{ABD}
A ⇒ BD
W

3,4,5,6,7,8,9
W
4,5,6,7,8
ρ(A) ⊄ ρ(BD)
Loại
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 7/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
BD ⇒ A
W
4,5,6,7,8
W
3,4,5,6,7,8,9
ρ(BD) ⊆ ρ(A)
Nhận
B ⇒ AD
W
4,5,6,7,8,9,10
W
3,4,5,6,7,8
ρ(B) ⊄ ρ(AD)
Loại
AD ⇒ B
W
3,4,5,6,7,8
W
4,5,6,7,8,9,10
ρ(AD) ⊄ ρ(B)
Loại
D ⇒ AB
W

1,2,3,4,5,6,7,8
W
4,5,6,7,8,9
ρ(D) ⊄ ρ(AB)
Loại
AB ⇒ D
W
4,5,6,7,8,9
W
1,2,3,4,5,6,7,8
ρ(AB) ⊄ ρ(D)
Loại
Chỉ có duy nhất một luật Eps song song thỏa minconf = 1 là : BD ⇒ A
3. Tìm các Eps tuần tự phổ biến và luật Eps (bài giải của Lâm Bình)
a. Tìm các Eps tuần tự
Tương tự cách tìm Eps song song, nhưng Eps tuần tự quan tâm đến thứ tự trước sau giữa các sự
kiện.
Ban đầu cũng có 4 Eps tuần tự phổ biến một phần tử giống như Eps phổ biến song song một phần
tử (đương nhiên vì một phần tử thì không phân biệt trước hay sau)
 Tập các Eps phổ biến tuần tự một phần tử L1 = {A,B,C,D}
Từ L1, ta có tập ứng viên 2 phần tử C2={AB,BA,AC,CA,AD,DA,BC,CB,BD,DB,CD,DC}
Tiếp tục vẽ các ứng viên lên hình 2, thấy hầu hết các ứng viên đều tham gia dưới 5 cửa sổ, không
thỏa minsupp.
 Vì vậy, tập các Eps phổ biến tuần tự hai phần tử chỉ còn lại L2 = {AB,DA} (Xem hình 2)
Từ L2, ta có tập ứng viên 3 phần tử C3 = {ABD,ADB,BAD,BDA,DAB,DBA}
Trong đó có 3 ứng viên ADB, BAD và DBA không xuất hện ở cửa sổ nào => loại.
Tiếp tục vẽ các ứng viên còn lại lên hình 2, ta có hình 3.
Hình 3 cho thấy tất cả các ứng viên đều tham gia ít hơn 5 cửa sổ, không thỏa minsupp.
(Xem hình 3)
 Không có Eps tuần tự phổ biến ba phần tử.

HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 8/26
A
7
B
7
C
8
D
8
Hình 1
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
b. Tìm luật Eps tuần tự
Từ các Eps tuần tự phổ biến tối đại, rút ra các luật dạng vế_trái => vế_phải
p(A)={W3, W4, W5, W6, W7, W8, W9} (1)
p(B)={W4, W5, W6, W7, W8, W9, W10} (2)
p(D)={W1, W2, W3, W4, W5, W6, W7, W8} (4)
Nhưng từ (1), (2) và (4) cho thấy không có luật nào có độ tin cậy là 100%.
 Tổng kết
- Có 11 cửa sổ duyệt qua chuỗi tín hiệu có 8 sự kiện.
- Tập các Eps song song phổ biến L={A, B, C, D, AB,AC,AD,BC,BD,CD, ABD} với {ABD} là
Eps song song phổ biên tối đại.
- Có duy nhất một luật BD => A được dẫn ra từ Eps song song phổ biến tối đại có độ tin cậy
là 100%.
- Tập các Eps tuần tự phổ biến L={A, B, C, D, AB,DA} với {AB} và {DA} là 2 Eps tuần tự phổ
biến tối đại. Không có luật nào được dẫn ra từ các Eps tuần tự phổ biến tối đại.
2. Đề xuất ứng dụng
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 9/26
Hình 2
Hình 2
A

7
B
7
C
8
D
8
AB
6
AC
2
AD
2
BC
3
BD
3
CD
1
BA
2
CA
3
DA
5
CB
2
DB
3
DC

4
AB
6
DA
5
ABD
2
DAB
3
BDA
1
Hình 3
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
BÀI 4: Phân lớp dữ liệu
1. Phân lớp là gì ?
Phân lớp dữ liệu là tiến trình có 2 bước
 Huấn luyện : Dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp ( có thuộc tính
nhãn lớp)
 Phân lớp : Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của bộ phân lớp. Nếu
độ chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu
mới.
 Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của
các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng
2. Phân lớp trên cây quyết định (ID3)
a. Cây quyết định là cấu trúc cây sao cho:
 Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính
 Mỗi nhánh biểu diễn kết quả phép kiểm tra
 Các nút lá biểu diễn các lớp hay các phân bố lớp
 Nút cao nhất trong cây là nút gốc.
ví dụ

HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 10/26
sampltest ofnumber total
sampletest classifiedcorrectly
Accuracy =
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 11/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc

Đặt
 P và N là hai lớp (P có n phần tử và N có n phần tử)
 S là tập học
Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác định bởi:
Giả sử thuộc tính A được chọn để phân hoạch S thành các tập hợp {S
1
, S
2
,… S
v
} . Nếu S
i
chứa p
i

mẫu của lớp P và n
i
mẫu của lớp N thì Entropy (E) cần để phâ loại các đối tượng trong cây con S
i

là :
Độ lợi thông tin của nhánh A là :

b. Thuật toán ID3
Ý nghĩa : thuật toán ID3 là một thuật toán học trên cây quyết định dược phát triển bởi Ross
Quilan(1983). Ý tưởng cơ bản của thuật toán ID3 là tạo cây quyết định bằng việc sử dụng cách tìm
kiếm từ trên xuống trên tập học. Độ lợi thông tin đựoc sử dụng để chọn thuộc tính có khả năng phân
loại tốt nhất. Thuật toán ID3 được trình bày sau đây :
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 12/26
Thuật toán tạo cây quyết định bao gồm các bước sau ( Sách Giáo trình khai thác dữ liệu)
Bước 1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia để trị
Bước 2: Ban đầu các mẫu học đều nằm ở gốc
Bước 3: Thuộc tính được phân loại (nếu là giá trị liên tục được rời rạc hóa )
Bước 4: Các mẫu học được phân chia đệ quy dựa trên thuộc tính chọn lựa
Bước 5: Kiểm tra những thuộc tính được chọn dựa trên Heristic hay của một tiêu chuẩn
thống kê
Điều kiện dừng để phân chia tập học :
a. Tất cả những mẫu học đối với một nút cho trước đều cùng một lớp
b. Không còn thuộc tính nào để phân chia tiếp
c. Không còn mẫu học
Độ lợi thông tin (information gain) :
Là đại lượng được dùng để chọn thuộc tính nhằm phân chia tập học. Thuộc tính được chọn
là thuộc tính có độ lợi thông tin lớn nhất.
np
n
np
p
npI
++

++
=
22

log
np
n
log
np
p
- ),(
),I(p
np
n p
)(
i
v
1i
ii
i
nAE

=
+
+
=
Gain(A) = I(p,n) – E(A)
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 13/26
Thuật toán ID3(S, D, A)
Vào : Tập học S ; Thuộc tính quyết định D, tập thuộc tính A
Ra : nút gốc cùa Cây_Quyết_định
Begin
 Tạo “nút gốc” cho cây quyết định

 if tất cả mẫu học của S đều có trị của D là P, trả về cây có một nút duy nhất là
Nút_gốc với nhãn “P”
 if tất cả mẫu học của S đều có trị của D là N, trả về cây có một nút duy nhất là
Nút_gốc với nhãn “N”
 if A là rỗng, trả về cây có nút duy nhất là Nút_gốc với nhãn là trị phổ biến nhất của
D trong tập mẫu.
 Else Begin
♦ Gọi X là thuộc tính của A phân lớp S tốt nhất //tính độ lợi
♦ Gán X vào thuộc tính quyết định D của Nút_gốc
♦ For each trị v của X
 Thêm một nhánh cây mới dưới Nút_gốc ứng với X = v
 Gọi S
v
là tập con của v trị của X là v
 if S
v
là rỗng
• Thêm dưới nhánh mới này, một nút lá có nhãn là trị phổ biến nhất
của thuộc tính quyết định trong S
 Else
•Thêm cây con vào dưới nhánh mới này
•ID3 (S
v
, D, A – {X} )
♦ End
 Return Nút_gốc
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Bài tập 1: Câu 2: Cho bảng quyết định sau (4 điểm) (đề thi khóa 1)
Vóc dáng Quốc tịch Gia cảnh Nhóm
O1 Nhỏ Đức Độc thân A

O2 Lớn Pháp Độc thân A
O3 Lớn Đức Độc thân A
O4 Nhỏ Ý Độc thân B
O5 Lớn Đức Có gia đình B
O6 Lớn Ý Độc thân B
O7 Lớn Ý Có gia đình B
O8 Nhỏ Đức Có gia đình B
Giải :
S={o1, o2, o3, o4, o5, o6, o7, o8}
Thuộc tính quyết định D là {A, B}
Tập thuộc Vóc dáng có miền giá trị {nhỏ, lớn}
Tập thuộc Quốc tịch có miền giá trị {Đức, Pháp, Ý}
Tập thuộc Gia cảnh có miền giá trị {Độc thân, Có gia đình}
Đặt P là lớp {A} , N là lớp {B}
P có 3 phần tử và N có 5 phần tử
Bước 1:
a. Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác định
bởi :
b. Tính Entropy cho thuộc tính
 Chọn thuộc tính có độ lợi thông tin lớn nhất đó là “Quốc tịch”
Cây quyết định cho thuật toán ID3 tạo ra : nútgốc là “Quốc tịch”
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 14/26
0.95 0.42 0.53
53
5
log
53
5

53

3
log
53
3
- )5,3(
22
=+=
++

++
=I
Vóc dáng p
i
n
i
I(p
i
, n
i
)
Nhỏ 1 2
0.92
Lớn 2 3
0.97
E(Vóc dáng) = 3/8 * I(1,2) + 5/8 * I(2,3) = 0.891
Gain(Vóc dáng) = I(3,5) - E(Vóc dáng) = 0.06
Gia cảnh p
i
n
i

I(p
i
, n
i
)
Độc thân 3 2
0.97
Có gia đình 0 3
0
E(Gia cảnh) = 5/8 * I(3,2) + 3/8 * I(0,3) = 0.61
Gain(Gia cảnh) = I(3,5) - E(Vóc dáng) = 0.34
Quốc tịch p
i
n
i
I(p
i
, n
i
)
Đức 2 2
1
Pháp 1 0
0
Ý 0 3
0
E(quốc tịch) = 4/8 * I(2,2) + 1/8 * I(1,0) + 3/8 *I(0,3) = 0.5
Gain(Quốc tịch) = I(3,5) - E(Quốc tịch) = 0.45
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Bước 2 : Bảng quyết định của thuộc tính “Vóc dáng” và “Gia cảnh” theo Quốc tịch có miền giá trị

{Đức} là :
Vóc dáng Gia cảnh Nhóm
O1 Nhỏ Độc thân A
O3 Lớn Độc thân A
O5 Lớn Có gia đình B
O8 Nhỏ Có gia đình B
a. Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác định
bởi :
b. Tính Entropy cho thuộc tính
 Chọn thuộc tính có độ lợi thông tin lớn nhất đó là “Gia cảnh”
Cây quyết định cho thuật toán ID3 tạo ra
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 15/26
Quốc tịch
{o1,o3, o5,o8}
[+2,-2]
Đức Pháp Ý
? A B
{o2}
[+1,-0]
{o4,o6, o7}
[+0,-3]
1
22
2
log
22
2

22
2

log
22
2
- )2,2(
22
=
++

++
=I
Vóc dáng p
i
n
i
I(p
i
, n
i
)
Nhỏ 1 1
1
Lớn 1 1
1
E(Vóc dáng) = 2/4* 1 + 2/4 * 1 = 1
Gain(Vóc dáng) = I(2,2) - E(Vóc dáng) = 0
Gia cảnh p
i
n
i
I(p

i
, n
i
)
Độc thân 2 0
0
Có gia đình 0 2
0
E(Gia cảnh) = 2/4 * 0 + 2/4 * 0 = 0
Gain(Gia cảnh) = I(2,2) - E(Vóc dáng) = 1
Quốc tịch
Đức Pháp Ý
Gia cảnh A B
A B
Độc Thân Có gia đình
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Rút luật từ cây quyết định :
a. IF Quốctịch Pháp THEN nhóm A
b. IF Quốctịch Ý THEN nhóm B
c. IF Quốctịch Đức và Giacảnh độc thân THEN nhóm A
d. IF Quốctịch Đức và Giacảnh có gia đình THEN nhóm B
Ta có thể rút gọn lại luật như sau :
a. IF Quốctịch Pháp THEN nhóm A
b. ELSE IF Quốctịch Ý THEN nhóm B
c. ELSE IF Giacảnh độc thân THEN nhóm A ELSE nhóm B
Bài tập 2:
Sử dụng cây định danh để tìm các luật phân lớp từ bảng quyết định sau đây:
# Trời Áp Suất Gió Kết quả
1 Trong Cao Bắc Không mưa
2 Mây Cao Nam Mưa

3 Mây Trung bình Bắc Mưa
4 Trong Thấp Bắc Không mưa
5 Mây Thấp Bắc Mưa
6 Mây Cao Bắc Mưa
7 Mây Thấp Nam Không mưa
8 Trong Cao Nam Không mưa
Bạn có suy nghĩ gì về việc dùng luật kết hợp để làm luật phân lớp.
Bảng dữ liệu lúc đó sẽ có các cột <Trời, Trong>, <Trời, mây>, < Ápsuất, Cao> <
Ápsuất,trungbình>, <Ápsuất, Thấp>
Giải :
S={1, 2, 3, 4, 5, 6, 7, 8}
Thuộc tính quyết định D là {Mưa, Không mưa}
Tập thuộc Trời có miền giá trị {Trong, Mây}
Tập thuộc Áp suất có miền giá trị {Cao, Trung bình, Thấp }
Tập thuộc Gió có miền giá trị {Bắc, Nam}
Đặt P là lớp {Mưa} , N là lớp {Không mưa}
P có 4 phần tử và N có 4 phần tử
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 16/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Bước 1:
a. Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác định
bởi :
b. Tính Entropy cho thuộc tính
 Chọn thuộc tính có độ lợi thông tin lớn nhất đó là “Trời”
Cây quyết định cho thuật toán ID3 tạo ra : nútgốc là “Trời”
Bước 2 : Bảng quyết định của thuộc tính “Áp suất” và “Gió” theo Trời có miền giá trị {mây} là :
# Áp Suất Gió Kết quả
2 Cao Nam Mưa
3 Trung bình Bắc Mưa
5 Thấp Bắc Mưa

6 Cao Bắc Mưa
7 Thấp Nam Không mưa
a. Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được xác
định bởi :
b. Tính Entropy cho thuộc tính
.Cả hai thuộc tính đều có độ lợi thông tin bằng nhau nên chọn ngẫu nhiên thuộc tính đó là “Gió”
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 17/26
1
44
4
log
44
4

44
4
log
44
4
- )4,4(
22
=
++

++
=I
Trời p
i
n
i

I(p
i
, n
i
)
Trong 0 3
0
Mây 4 1
0.74
E(Trời) = 3/8 * I(0,3) + 5/8 * I(4,1) = 0.74
Gain(Trời) = I(4,4) - E(Trời) = 0.26
Gió p
i
n
i
I(p
i
, n
i
)
Bắc 3 2
0.97
Nam 1 2
0.92
E(Gió) = 5/8 * I(3,2) + 3/8 * I(1,2) = 0.95
Gain(Gió) = I(4,4) - E(Gió) = 0.05
Áp suất p
i
n
i

I(p
i
, n
i
)
Cao 2 0
0
Trung Bình 1 0
0
Thấp 1 1
1
E(Áp suất) = 2/5 * I(2,0) + 1/5 * I(1,0) + 2/5 *I(1,1) 1=0.4
Gain(Áp suất) = I(4,4) - E(Áp suất) = 0.15
Trời
{1,4, 8}
[0,-3]
Trong
Mây
Không mưa
?
{2,3,5,6,7}
[4,1]
0.74
14
1
log
14
1

14

4
log
14
4
- )1,4(
22
=
++

++
=I
Gió p
i
n
i
I(p
i
, n
i
)
Bắc 3 0
0
Nam 1 1
1
E(Gió) = 3/5 * I(3,0) + 2/5 * I(1,1) = 0.4
Gain(Gió) = I(4,1) - E(Gió) = 0.34
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Cây quyết định cho thuật toán ID3 tạo ra : nútgốc là “Gió”
Tương tự ta còn 2 tập học đó là 2 và 7 nên ta dựa vào thuộc tính Áp suất  Do đó ta có cây quyết
định dựa vào thuật toán ID3 như sau :

Rút luật từ cây quyết định :
a. IF Trời trong THEN Không mưa
b. IF Trời mây và Gió Bắc THEN mưa
c. IF Trời mây và Gió Nam và Áp suất cao THEN mưa
d. IF Trời mây và Gió Nam và Áp suất thấp THEN không mưa
Ta có thể rút gọn lại luật như sau :
a. IF Trời mây AND (Gió Bắc OR Áp Suất cao) THEN Mưa
b. ELSE Không mưa

HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 18/26
Trời
Trong
Mây
Không mưa
Gió
Bắc Nam
Mưa
Áp suất
Cao Thấp
Mưa
Thấp Mưa
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
3. Phân lớp Bayes
a. Định lý Bayes
 X là mẫu dữ liệu chưa biết nhãn lớp
 H là giả thuyết sao cho X thuộc về lớp C
 Ấn định xác suất hậu nghiệm posterior probability P(H|X) sao cho H đúng khi cho trước
quan sát X (H conditioned on X)
 Giả sử thế giới các mẫu dữ liệu gồm trái cây, được mô tả bằng màu sắc và hình dáng.
- Giả sử X là màu đỏ và tròn

- H là gỉa thuyết mà X là quả táo
- Thì P(H|X) phản ánh độ tin cậy X là quả táo khi biết trước X có màu đỏ và tròn
Khi có n giả thuyết :
b. Phân lớp Naive Bayesian (NBC)
 Mỗi mẫu dữ liệu được biểu diễn bằng X = (x1, x2,…, xn) với các thuộc tính A1, A2,
…, An
 Các lớp C1, C2, …, Cm. Cho trước mẫu chưa biết X. NBC gán X vào Ci if P(Ci|X) >
P(Cj|X) với 1 ≤ j ≤ m, j ≠ i. Do vậy, chúng ta cực đại P(Ci|X). Lớp Ci sao cho P(Ci|X) là
cực đại được gọi là giả thuyết hậu nghiệm cực đại (maximum posterior hypothesis).
Theo định lý Bayes
 Do P(X) là hằng cho tất cả các lớp, chỉ cần cực đại P(X|Ci) P(Ci). Nếu chưa biết P(Ci)
cần giả định P(C1)=P(C2)=…= P(Cm) và chúng ta sẽ cực đại P(X|Ci). Ngược lại, ta cực
đại P(X|Ci) P(Ci)
 Nếu m là lớn, sẽ rất tốn kém khi tính P(X|Ci) P(Ci). NBC giả định độc lớp điều kiện lớp
 Có thể phỏng tính P(x1|Ci), …, P(xn|Ci) từ các mẫu huấn luyện
Nếu A
k
được phân lớp thì P(x
k
|C
i
) = s
ik
/s
i
với s
ik
là số mẫu huấn luyện của C
i
có trị x

k
cho A
k
và s
i
là số các mẫu thuộc về lớp C
i
Nếu Ak là liên tục thì nó được giả định có phân bố Gaussian
 Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho từng Ci. Sau đó mẫu X được
gán vào Ci if P(Ci|X) > P(Cj|X) for 1 ≤ j ≤ m, j ≠ i
 Nói cách khác, NBC gán X vào lớp Ci sao cho P(X|Ci) P(Ci) là cực đại
4. Đề xuất ứng dụng
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 19/26
P(X)
H)P(H)|P(X
X)|P(H =

=
=
n
1j
jj
ii
i
))P(HH|P(X
))P(HH|P(X
X)|P(H
P(X)
))P(CC|P(X
X)|P(C

ii
i
=
)C|P(x)C|P(X
i
n
1k
ki

=
=
2
i
C
2
i
Ck
i
ii

)μ(x
C
CCkik
e
2
1
)σ,μ,g(x)C|P(x


==

πσ
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
Bài tập 1: dùng thuật toán Bayes
Giải bài tập 2 đề thi khóa 1
Vóc dáng Quốc tịch Gia cảnh Nhóm
O1 Nhỏ Đức Độc thân A
O2 Lớn Pháp Độc thân A
O3 Lớn Đức Độc thân A
O4 Nhỏ Ý Độc thân B
O5 Lớn Đức Có gia đình B
O6 Lớn Ý Độc thân B
O7 Lớn Ý Có gia đình B
O8 Nhỏ Đức Có gia đình B
tìm các luật phân lớp của bảng quyết định trên với
- Tập thuộc tính điều kiện là {Vóc dáng, Quốc tịch, Gia cảnh}
- Thuộc tính phân lớp là {Nhóm}
Giải :
Đặt p=A và n=B
 P(p) =3/8
 P(n)=5/8
Ước lượng
Vóc dáng
P(X| p) P(X| n)
P(Nhỏ | p) = 1/3 P(Nhỏ | n) = 2/5
P(Lớn | p) = 2/3 P(Lớn | n) = 3/5
Quốc Tịch
P(Đức | p) = 2/3 P(Đức | n) = 2/5
P(Pháp | p) = 1/3 P(Pháp | n) = 0/5
P(Ý | p) = 0/3 P(Ý | n) = 3/5
Gia cảnh

P(Độc Thân | p) = 3/3 P(Độc thân | n) = 2/5
P(Có gia đình | p) = 0/3 P(Có Gia đình | n) = 3/5
Ta có các luật sau:
R1: IF Quốc tịch Pháp THEN nhóm A
R2: IF Quốc tịch Ý THEN nhóm B
R3: IF Gia cảnh có gia đình THEN nhóm B
Áp Dụng định lý bayes, Tính xác suất có điều kiện và lấy tổng các trở ngại các mẫu
X1= <Nhỏ, Đức, Độc Thân>
 P(X1|p) . P(p) = P(Nhỏ| p) . P(Đức | p) . P(Độc thân | p) .P(p) = 2/3 . 2/3 . 3/3 . 3/8 = 0.083
 P(X1|n) . P(n) = P(Nhỏ| n) . P(Đức | n) . P(Độc thân | n) .P(n) = 3/5 . 2/5 . 2/5 . 5/8 = 0.04
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 20/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
 Do P(X1|p) . P(p) > P(X1|n) . P(n) nên mẫu X1 được đưa vào nhóm A
X2= <Lớn , Đức, Độc Thân>
 P(X2|p) . P(p) = P(Lớn | p) . P(Đức | p) . P(Độc thân | p) .P(p) = 1/3 . 2/3 . 3/3 . 3/8 = 0.17
 P(X2|n) . P(n) = P(Lớn | n) . P(Đức | n) . P(Độc thân | n) .P(n) = 2/5 . 2/5 . 2/5 . 5/8 = 0.06
 Do P(X2 |p) . P(p) > P(X2 |n) . P(n) nên mẫu X2 được đưa vào nhóm A
Ta rút ra được các luật như sau :
R1: IF Quốc tịch Pháp THEN nhóm A
R2: IF Quốc tịch Ý THEN nhóm B
R3: IF Gia cảnh có gia đình THEN nhóm B
R4: IF Vóc dáng nhỏ AND Quốc tịch Đức AND Gia cảnh có gia đình THEN nhóm A
R5: IF Vóc dáng lớn AND Quốc tịch Đức AND Gia cảnh có gia đình THEN nhóm A
Bi tp 2: Naïve Bayes để tìm luật phân lớp trong bảng sau đây.
T
T
Màu
tóc
Chiều cao Cân nặng Dùng
thuốc?

Kết quả
1 Đen Tầm thước Nhẹ Không Bị rám
2 Đen Cao Vừa phải Có Không
3 Râm Thấp Vừa phải Có Không
4 Đen Thấp Vừa phải Không Bị rám
5 Bạc Tầm thước Nặng Không Bị rám
6 Râm Cao Nặng Không Không
7 Râm Tầm thước Nặng Không Không
8 Đen Thấp Nhẹ Có Không
Bi giải :của Lý Thnh _CH0601069
Ta có: P(p) = 5/8
P(n) = 3/8
Trong đó p là lớp Không bị rám, n là lớp bị rám.
Màu tóc
P(Đen | p) = 2/5 P(Đen | n) = 2/3
P(Râm | p) = 3/5 P(Râm | n) = 0/3
P(Bạc | p) = 0/5 P(Bạc | n) = 1/3
Chiều cao
P(Cao | p) = 2/5 P(Cao | n) = 0/3
P(Tầm thước | p) = 1/5 P(Tầm thước | n) = 2/3
P(Thấp | p) = 2/5 P(Thấp | n) = 1/3
Cân nặng
P(Nặng | p) = 2/5 P(Nặng | n) = 1/3
P(Vừa phải | p) = 2/5 P(Vừa phải | n) = 1/3
P(Nhẹ | p) = 1/5 P(Nhẹ | n) = 1/3
Dùng thuốc
P(Có | p) = 3/5 P(Có | n) = 0/3
P(Không | p) = 2/5 P(Không | n) = 3/3
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 21/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc

Xét các mẫu chưa thấy:
X1= <Đen, tầm thước, nh…, không dùng thuốc)
P(X1/rám).P(p)=P(đen/rám).P(tầm thước/rám).P(nhẹ/rám).P(không dùng thuốc/rám).P(rám)
= 2/3 * 2/3 * 1/3 * 3/3 * 3/8 = 0.55
P(đen/không rám).P(tầm thước/ không rám).P(nhẹ/không rám).P(không dùng thuốc/không
rám).P(không rám)
= 2/5 * 1/5 * 1/5 * 2/5 * 5/8 = 0.004
Mẫu X1 được phân vào lớp rám
X2= <Đen, tầm thước, nặng vừa, không dùng thuốc)
P(X1/rám).P(p)=P(đen/rám).P(tầm thước/rám).P(nặng vừa/rám).P(không dùng thuốc/rám).P(rám)
= 2/3 * 2/3 * 1/3 * 3/3 * 3/8 = 0.55
P(đen/không rám).P(tầm thước/ không rám).P(nặng vừa/không rám).P(không dùng thuốc/không
rám).P(không rám)
= 2/5 * 1/5 * 2/5 * 2/5 * 5/8 = 0.008
Mẫu X2 được phân vào lớp rám
X3= <Đen, tầm thước, nặng, không dùng thuốc)
P(X1/rám).P(p)=P(đen/rám).P(tầm thước/rám).P(nặng/rám).P(không dùng thuốc/rám).P(rám)
= 2/3 * 2/3 * 1/3 * 3/3 * 3/8 = 0.55
P(đen/không rám).P(tầm thước/ không rám).P(nặng /không rám).P(không dùng thuốc/không
rám).P(không rám)
= 2/5 * 1/5 * 2/5 * 2/5 * 5/8 = 0.008
Mẫu X3 được phân vào lớp rám
X4= <Đen, thấp, nh…, không dùng thuốc)
P(X1/rám).P(p)=P(đen/rám).P(thấp/rám).P(nhẹ/rám).P(không dùng thuốc/rám).P(rám)
= 2/3 x 1/3 x 1/3 x 3/3 x 3/8 = 0.027
P(đen/không rám).P(thấp/ không rám).P(nhẹ/không rám).P(không dùng thuốc/không rám).P(không
rám)
= 2/5 * 2/5 * 1/5 * 2/5 * 5/8 = 0.008
Mẫu X4 được phân vào lớp rám
X5= <Đen, thấp, nặng vừa, không dùng thuốc)

P(X1/rám).P(p)=
P(đen/rám).P(thấp/rám).P(nặng vừa/rám).P(không dùng thuốc/rám).P(rám)
= 2/3 * 1/3 * 1/3 * 3/3 * 3/8 = 0.02777
P(đen/không rám).P(thấp/ không rám).P(nặng vừa /không rám).P(không dùng thuốc/không
rám).P(không rám)
= 2/5 * 2/5 * 2/5 * 2/5 * 5/8 = 0.016
Mẫu X5 được phân vào lớp rám
X6= <Đen, thấp, nặng, không dùng thuốc)
P(X1/rám).P(p)=
P(đen/rám).P(thấp/rám).P(nặng/rám).P(không dùng thuốc/rám).P(rám)=
= 2/3 * 1/3 * 1/3 * 3/3 * 3/8 = 0.02777
P(đen/không rám).P(thấp/ không rám).P(nặng /không rám).P(không dùng thuốc/không rám).P(không
rám)
= 2/5 * 2/5 * 2/5 * 2/5 * 5/8 = 0.016
Mẫu X6 được phân vào lớp rám
• Rút ra các luật phân lớp:
1. Màu tóc râm thì không bị rám
2. Màu tóc bạc thì bị rám
3. Cao thì không bị rám
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 22/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
4. Có dùng thuốc → không rám
5. Màu tóc Đen, Tầm thước, Nhẹ, Không dùng thuốc thì bị rám
6. Màu tóc Đen, Tầm thước, Vừa, Không dùng thuốc thì bị rám
7. Màu tóc Đen, Tầm thước, Nặng, Không dùng thuốc thì bị rám
8. Màu tóc Đen, Thấp, Nhẹ, Không dùng thuốc thì bị rám
9. Màu tóc Đen, Thấp, Vừa, Không dùng thuốc thì bị rám
10. Màu tóc Đen, Thấp, Nặng, Không dùng thuốc thì bị rám
• Rút gọn các luật phân lớp:
1. Màu tóc râm thì không bị rám

2. Màu tóc bạc thì bị rám
3. Cao thì không bị rám
4. Có dùng thuốc → không rám
5. Màu tóc Đen, Tầm thước, Không dùng thuốc thì bị rám
6. Màu tóc Đen, Thấp, Không dùng thuốc thì bị rám
Kết luận: Sau khi dùng thuật toán ID3 và Naïve Bayes để tìm luật phân lớp. Nhận thấy kết quả các luật
phân lớp của 2 thuật toán không giống nhau.
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 23/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc
BÀI 5: Gom cụm
1. Gom cụm là gì ?

Gom cụm:
Gom cụm: gom các đối tượng dữ liệu
o Tương tự với một đối tượng khác trong cùng cụm
o Không tương tự với các đối tượng trong các cụm khác

Mục tiêu của gom cụm:
Mục tiêu của gom cụm: để gom tập các đối tượng thành các nhóm
2. Phương pháp gom cụm k-means
i)
i)
Điểm mạnh của phương pháp gom cụm k-means
Điểm mạnh của phương pháp gom cụm k-means


Scalable tương đối: trong khi xử lý các tập dữ liệu lớn
Scalable tương đối: trong khi xử lý các tập dữ liệu lớn

Hiệu suất tương đối

Hiệu suất tương đối: O(tkn), với n là số đối tượng, k là số cụm, và t là số lần lặp. Thông
thường k, t << n.
 Thường kết thúc ở điểm tối ưu cục bộ; có thể tìm được tối ưu toàn cục dùng các kỹ thuật
như thuật toán di truyền
ii)
ii)
Điểm yếu của phương pháp gom cụm k-means
Điểm yếu của phương pháp gom cụm k-means


Có thể áp dụng chỉ khi xác định được trị trung bình của các đối tượng
Có thể áp dụng chỉ khi xác định được trị trung bình của các đối tượng


Cần chỉ định trức k, số các cụm
Cần chỉ định trức k, số các cụm


Không thể xử lý dữ liệu chuỗi và outliers
Không thể xử lý dữ liệu chuỗi và outliers


Không phù hợp để khám phá các cụm với dạng không lồi hay cụm có kích thước khác
Không phù hợp để khám phá các cụm với dạng không lồi hay cụm có kích thước khác
nhau.
nhau.
iii)
iii)
Thuật toán K-Means
Thuật toán K-Means


Đầu vào của thuật toán
Đầu vào của thuật toán: số k cụm k, và CSDL có n đối tượng

Thuật toán gồm 4 bước
Thuật toán gồm 4 bước:
1. Phân hoạch đối tượng thành k tập con/cụm khác rỗng
2. Tính các điểm hạt giống làm
centroid
centroid (trung bình của các đối tượng của cụm) cho từng
cụm trong cụm hiện hành
3. Gán từng đối tượng vào cụm có centroid gần nhất
4. Quay về bước 2, chất dứt khi không còn phép gán mới
Thuật toán khác cũng gồm 4 bước
Thuật toán khác cũng gồm 4 bước :
1. Chọn bất kỳ k đối tượng làm các tâm (centroids) ban đầu
2. Gán hoặc gán lại từng đối tượng vào cụm với khoảng cách gần nhất
3. Cập nhật centroids
4. Quay về bước 2, dừng khi không còn phép gán mới
3. Phương pháp phân cấp dựa trên k-means

Phương pháp phân cấp:
Phương pháp phân cấp: tạo phân cấp cụm, chứ không phải là một phân hoạch đơn thuần
các đối tượng
 Không cần dữ liệu nhập là số cụm
k
k


Dùng ma trận làm tiêu chuẩn gom cụm

Dùng ma trận làm tiêu chuẩn gom cụm

Có thể có điều kiện kết thúc
Có thể có điều kiện kết thúc (ví dụ số cụm)
Cây các cụm


Phân cấp cụm thường tạo cây các cụm hay còn được gọi là
dendrogram
dendrogram
o Các lá của cây biểu diễn các đối tượng riêng lẻ
o Các nút trong của cây biểu diễn các cụm
4. Đề xuất ứng dụng
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 24/26
Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc

Tiếp thị:
Tiếp thị: khám phá các nhóm khác hàng phân biệt trong CSDL mua hàng

Sử dụng đất:
Sử dụng đất: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát CSDL quả đất

Bảo hiểm:
Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù
trung bình cao

Hoạch định thành phố:
Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị và vị trí địa lý.
HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 25/26

×