Tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (290.46 KB, 29 trang )

NỘI DUNG BÁO CÁO


Giới thiệu



Phân lớp dữ liệu và các thuật toán phân lớp dữ liệu



Luật kết hợp và các thuật toán tìm luật kết hợp

1

GIỚI THIỆU


Trong thời đại bùng nổ công nghệ thông tin, các công nghệ
lưu trữ dữ liệu ngày càng phát triển nhanh chóng tạo điều
kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn.
Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã
nhận thức được tầm quan trọng của việc nắm bắt và xử lý
thông tin.



Khai thác dữ liệu là quá trình trích xuất các thơng tin có giá
trị tiềm ẩn trong những kho dữ liệu. Khai thác dữ liệu chỉ là
một khâu trong qui trình Khám phá tri thức trong cơ sở dữ

liệu.



Hiện nay kỹ thuật khai thác dữ liệu đang được áp dụng một
cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và đời
sống khác nhau như: y tế, marketing, ngân hàng, viễn
thông, internet… Khơng ai có thể phủ định được những lợi
2
ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại.

GIỚI THIỆU








CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy
nhiên với tốc độ phát triển của công nghệ hiện nay, dữ liệu
phình lên với tốc độ rất lớn, trung bình là 10% - 15% một
năm, cá biệt có những CSDL lớn gấp đơi sau mỗi năm, điều
này gây khó khăn khơng nhỏ cho việc áp dụng các phương
thức khai thác dữ liệu kinh điển. Các thuật toán xử lý tuần
tự đôi khi không thể thực hiện trên những CSDL lớn.
Trong những năm gần đây, việc nghiên cứu cải tiến các
thuật toán tuần tự trong khai thác dữ liệu đang là hướng

được nhiều người quan tâm. Việc cải tiến được thực hiện
trên hai khía cạnh:
1. Cải tiến về cấu trúc nhằm lưu trữ dữ liệu thích hợp
cho các thuật toán.
2. Cải tiến về cách thực thi các thuật toán trên cơ sở
song song hóa dựa trên sự phát triển của công nghệ chế
tạo.

3

PHÂN LỚP DỮ LIỆU


Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các lớp C= {C1,
…,Cm}, bài toán phân lớp được phát biểu như sau: Xác định ánh
xạ f : DC sao cho với mỗi ti được quy về một lớp Cj.



Về mặt thực chất, bài toán phân lớp chính là chia D thành các lớp
tương đương.

4

THUẬT TOÁN PHÂN LỚP DỮ LIỆU


Phân lớp sử dụng khoảng cách



Phân lớp theo thống kê xác suất



Cây quyết định



Mạng Neural



Tập thô



Tập mờ



Thuật giải di truyền

5

THUẬT TOÁN K-MEANS


Do J.MacQueen giới thiệu năm 1967 trong tài
liệu “J. Some Methods for Classification and
Analysis of Multivariate Observations”






Được xếp vào 10 thuật toán tốt nhất trong Parallel Data Mining

K-means Clustering là một thuật toán dùng
trong các bài toán phân loại/nhóm n đối tượng
thành k nhóm dựa trên đặc tính/thuộc tính của
đối tượng (k ≤n ngun, dương).
Về ngun lý, có n đối tượng, mỗi đối tượng có
m thuộc tính, ta phân chia được các đối tượng
thành k nhóm dựa trên các thuộc tính của đối
tượng bằng việc áp dụng thuật toán này.
6

THUẬT TOÁN K-MEANS
Start
Data input:
- n objects
- k clusters
Initial k cluster centers
calculate

δ objects-centers
grouping based on
the δ min

F

No object
move group

T

End

recomput ci
7

VÍ DỤ K-MEANS






Số nhóm k=3
Số đối tượng cần phân chia n=9 (9 loại thuốc)
Số thuộc tính của mỗi loại thuốc là m=2
Cụ thể, danh mục các loại thuốc cần phân loại
như sau:

8

VÍ DU
Kết quả lần 1:


Với 3 điểm trung tâm ban đầu:



Ta được:

9

VÍ DU:
Kết quả lặp lần 2:


Tính toán lại điểm trung tâm từ lần lặp
trước:



Kết quả:

10

VÍ DU:
Kết quả lặp lần 3:


Tính toán lại điểm trung tâm từ lần lặp
trước:



Kết quả:

11

VÍ DU:
Kết quả lặp lần 4:


Tính toán lại điểm trung tâm từ lần lặp
trước:



Kết quả:

12

LUẬT KẾT HỢP
I.1. Luật kết hợp





Gọi I={I1, I2,…,Im} là tập m thuộc tính riêng
biệt, mỗi thuộc tính gọi là một item. Gọi D
là một CSDL, trong đó mỗi bản ghi T là một
giao dịch và chứa các tập item, T⊆I.
Định nghĩa 1: Một luật kết hợp là một quan
hệ có dạng X⇒Y, trong đó X, Y ⊂ I là các tập
item gọi là itemsets và X∩Y=φ. Ở đây X
được gọi là tiền đề, Y là mệnh đề kết quả.
13

LUẬT KẾT HỢP
I.1. Luật kết hợp








Hai thông số quan trọng của luật kết hợp là độ
hỗ trợ (s) và độ tin cậy (c).
Định nghĩa 2: Độ hỗ trợ (support) của luật kết
hợp X ⇒ Y là tỷ lệ % các giao dịch có chứa X, Y

với tổng số các giao dịch có trong cơ sở dữ liệu.
Định nghĩa 3: Độ tin cậy (confidence) của luật
là tỷ lệ % của số giao dịch có chứa X, Y với số
giao dịch có chứa X.
Việc tìm các luật kết hợp từ cơ sở dữ liệu chính
là việc tìm tất cả các ḷt có độ hỗ trợ và độ tin
cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy
do người sử dụng xác định trước. Các ngưỡng
của độ hỗ trợ và độ tin cậy được ký hiệu là
minsup và mincof.
14

LUẬT KẾT HỢP
I.1. Luật kết hợp

Ví dụ: Phân tích giỏ mua hàng
Example:

{Milk, Diaper} ⇒ Beer
σ (Milk, Diaper, Beer) 2
s=
= = 0.4
|T|
5
σ (Milk, Diaper, Beer) 2
c=
= = 0.67
σ (Milk, Diaper)
3

15

LUẬT KẾT HỢP
I.2. Một số khái niệm liên quan.






Tập k item là tập hợp có k item
Tập item phổ biến là tập hợp các item có
độ hỗ trợ lớn hơn hay bằng minsup.
Tập item dự kiến (tập ứng cử viên) là tập
hợp các item cần được xem xét có phải là
tập item phổ biến không.

16

THUẬT TOÁN TÌM LUẬT KẾT HỢP


Thuật toán AIS



Thuật toán SETM



Thuật toán Apriori



Thuật toán Eclat

17

THUẬT TOÁN APRIORI






Ý tưởng: Tạo ra các tập phổ biến có 1
item, tập 2 items tạo từ tập 1_item,……
tập k items tạo từ tập k-1 items. Xây
dựng luật từ tập phổ biến k items tìm
được.
Mỗi tập item được tạo ra phải được tính
toán độ hỗ trợ và độ tin cậy.
Tính chất: mọi tập item phổ biến thì tất
cả các tập item con của nó đều là phổ
biến.
18

THUẬT TOÁN APRIORI
Qua 2 bước:





Tạo tập item phổ biến: tạo tất cả các tập
item dự kiến, tính toán độ hỗ trợ, loại bỏ
các tập dự kiến không đạt minsupp.
Tạo luật kết hợp: Từ các tập con của tập
phổ biến xây dựng luật kết hợp và tính
độ tin cậy của luật.

19

THUẬT TOÁN APRIORI
1. Xác định các tập item phổ biến:
 Xác định các tập ứng cử viên (C k).


Xác định các tập phổ biến (Fk) dựa vào
các tập ứng cử viên.

20

THUẬT TOÁN APRIORI

1.1. Xác định Ck:



Tìm các tập ứng cử viên 1 item.
Quét CSDL để xác định độ hỗ trợ của các tập
ứng cử viên. Tại vòng thứ k (k>1), các tập
ứng cử viên được xác định dựa vào các tập
phổ biến đã xác định tại vòng (k-1) sử dụng
hàm Apriori_gen(). Sau khi xác định được các
tập ứng cử viên, thuật toán quét từng giao
dịch trong CSDL để xác định độ hỗ trợ của
các tập ứng cử viên. Quá trình xác định các
tập item phổ biến sẽ kết thúc khi không xác
định được thêm tập item phổ biến nào nữa. 21

THUẬT TOÁN APRIORI
1.2. Nội dung hàm Apriori_gen()
+ Fk-1 được kết nối với chính nó thu được C k
+ Apriori_gen() xoá tất cả các tập item từ kết quả kết
nối mà có 1 số tập con (k-1) khơng có trong F k-1. Sau
đó nó trả về tập item phổ biến kích thước k cịn lại.
Ví dụ:
F3 = {{1, 2, 3}, {1, 2, 4}, {1, 3, 4},




{1, 3, 5}, {2, 3, 4}}

After join
C4 = {{1, 2, 3, 4}, {1, 3, 4, 5}}
After pruning:
C4 = {{1, 2, 3, 4}}
because {1, 4, 5} is not in F3 ({1, 3, 4, 5} is removed)
22

THUẬT TOÁN APRIORI

Thấy tập
không phổ
biến

Không
phải làm

23

TḤT TOÁN APRIORI
Ví dụ tìm tập item phổ biến
Data base D
TID
10
20
30
40

Items

a, c, d
b, c, e
a, b, c, e
b, e

1-candidates
Scan D

Min_sup=2
3-candidates
Scan D

Itemset
bce

Freq 3-itemsets
Itemset
bce

Sup
2

Itemset
a
b
c
d
e

Freq 1-itemsets

Sup
2
3
3
1
3

Itemset
a
b
c

Sup
2
3
3

e

3

Freq 2-itemsets
Itemset
ac
bc
be
ce

Sup

2
2
3
2

2-candidates

Counting
Itemset
ab
ac
ae
bc
be
ce

Sup
1
2
1
2
3
2

Itemset
ab
ac
ae
bc
be

ce

Scan D

24

THUẬT TOÁN APRIORI
2. Sinh các luật kết hợp từ các item phổ
biến:




Tìm tất cả các tập con không rỗng h của
tập item phổ biến f∈ F
Với mỗi tập con h tìm được, ta xuất ra
luật
dạng
(h)
⇒(f-h)
nếu
tỉ
lệ
support(f)/support(h) ≥ mincof.

25

Tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về