ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (168.76 KB, 14 trang )

ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ
TRONG VIỆC PHÂN LOẠI HỌC SINH
HỌ TÊN:
MÃ SỐ:

TRẦN MINH HÙNG
CH1101087

1. GIỚI THIỆU
Khai phá dữ liệu (data mining), hiện nay đang được rất nhiều người
chú ý. Nó thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp
những thơng tin tiềm ẩn trong các cơ sở dữ liệu lớn. Ngày nay đang trong
tình trạng bùng nổ thơng tin, lượng thơng tin càng trở nên phong phú, đa
dạng và khổng lồ. Thế nhưng để có được những thơng tin q giá, đáng quan
tâm, chúng ta lại phải tốn rất nhiều công sức để tìm kiếm nó trong một khối
lượng thơng tin khổng lồ ấy. Xét về lĩnh vực này thì khối lượng thơng tin
càng lớn cơng việc càng trở nên khó khăn hơn. Những phương pháp thống
kê truyền thống, phần lớn đều đã được định trước mục đích của cơng việc,
và sau đó chỉ việc sử dụng những phương pháp thích hợp để có được những
thơng tin mà chúng ta cần. Đối với khai phá dữ liệu đúng nghĩa như tên gọi
của nó, chúng ta đi tìm “mỏ”, khơng biết “có mỏ hay khơng?”. nếu có thì
“mỏ đó là vàng hay bạc, hay chì...?”. Khai phá dữ liệu như là một cơng cụ,
giúp chúng ta tìm ra “mỏ” trong những “dãy núi khổng lồ”, núi càng lớn,
càng dài thì hy vọng tìm ra mỏ càng cao nhưng cũng hết sức khó khăn phức
tạp.
Tất nhiên khi tìm ra được những thơng tin cuối cùng thì việc ứng dụng
những thơng tin đó vào trong thực tế lại địi hỏi cả một q trình vận dụng từ

lý thuyết vào thực tiễn. Những luật kết hợp, những mẫu thông tin chưa từng
gặp... sẽ là tiền đề cho những dự đốn, để từ đó có được những hoạch định

đúng cho hướng phát triển trong tương lai, đây chính là những yếu tố mà cơ
quan đơn vị nào cũng cần tới nó, dù ở mức qui mơ lớn hay nhỏ.
Khai phá dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có
ý nghĩa, nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng
tin cậy, và đây cũng chính là những thơng tin q giá hỗ trợ rất nhiều trong
cơng tác quản lý giáo dục.
Hiện nay khai phá dữ liệu đã được ứng dụng rất nhiều trong thực tế,
nhất là trong lĩnh vực kinh doanh, công nghệ sinh học... Tuy nhiên trong lĩnh
vực Giáo dục và Đào tạo, quả thật còn rất ít.
Dữ liệu trong giáo dục có những đặc điểm riêng của nó, địi hỏi chúng
ta phải có những phương pháp khám phá phù hợp thì mới phát huy được tốc
độ, cũng như không gian bộ nhớ. Mặt khác để có được những thơng tin
mang tính xã hội và thực tế cao thì việc đưa khái niệm tập mờ để đánh giá
phân loại học sinh sẽ có tính thuyết phục hơn.
Trong báo cáo này, tác giả muốn giới thiệu phương pháp khai phá luật
kết hợp mờ trong cơ sở dữ liệu là kết quả thi tốt nghiệp THPT.
2. LUẬT KẾT HỢP MỜ
GIỚI THIỆU.
Khai phá những luật kết hợp là một trong những vấn đề nghiên cứu quan
trọng trong khai phá dữ liệu. Một ví dụ của một luật kết hợp xét trên các
thuộc tính tuyệt đối như sau:
(1)_Nếu Sử 7 thì Kết_quả Đậu , sup: 1126 (16.9%), conf: 80.8 %

(2)_Nếu Sử 9 thì Kết_quả Đậu , sup: 1240 (18.6%), conf: 94.1 %
(3)_Nếu Sử 8 thì Kết_quả Đậu , sup: 1532 (23.0%), conf: 88.4 %
Với thuộc tính định lượng thơng thường giá trị của nó thay đổi một
cách liện tục, và có rất nhiều giá trị khác nhau. Vì vậy chúng ta phải dùng
các kỷ thuật để phân chia miền thuộc tính.
Sử dụng tập mờ để phân chia miền thuộc tính, theo các hàm thành

viên sẽ có dạng như sau:
Vối hàm thành viên có dạng như sau:

Thì luật kết hợp mờ có dạng:
(1)_Nếu Sử Khá thì Kết_quả Đậu , sup: 4632 (69.5%), conf: 85.0 %
vớiự: Sử Khá (0.7) [5451 = 81.8%] trong đó 0.7 là giá trị mờ được xác
định bởi hàm thành viên đã cho.
Như vậy luật kết hợp mờ mang tính tổng qt hơn, theo đó độ hỗ trợ
(sup) và độ tin cậy (conf) cao hơn nhiều so với luật kết hợp chỉ xét trên các
thuộc tính tuyệt đối.
Với những tập hợp mờ, một học sinh có thể là cả hai, một là thành
viên của “sử khá” với 80% tham gia, và một là thành viên của “sử trung
bình” với 20% tham gia. Hàm thành viên xác định bao nhiêu đối tượng dữ

liệu thuộc về mỗi tập mờ xác định đặc điểm cho những thuộc tính số. Những
tập hợp mờ cung cấp một sự chuyển tiếp mịn giữa thành viên và không
thành viên của một tập hợp. Luật kết hợp mờ cũng có thể hiểu được dễ dàng
bởi vì thuật ngữ ngơn ngữ liên quan đến những tập hợp mờ.
MÃ HÓA DỮ LIỆU
Để nâng cao hiệu suất khai phá dữ liệu chúng ta tiến hành mã hoá dữ liệu
như sau:
Sau bước chuẩn bị dữ liệu (đã số hoá các items) là đọc dữ liệu để xử
lý. Tuy nhiên, sẽ có hiện tượng giá trị số trong mỗi cột giống nhau nhưng
thực tế nó lại là các items khác nhau. Ví dụ, cột TOAN có số điểm là 5, cột
LY cũng có số điểm là 5, hai số 5 này có ý nghĩa hoàn toàn khác nhau và
chúng là 2 items khác nhau. Như vậy chúng ta phải phân biệt được chúng.
Dùng số integer 16 bit để lưu giữ, trong đó 8 bit đầu để lưu số cột
(tổng số cột không quá 256), dùng 8 bit sau để lưu giữ giá trị của cột tương
ứng (giá trị khơng q 255). Ví dụ TOAN ở cột 3, điểm là 5; LY ở cột 4,

điểm là 5, hai items này sẽ được lưu vào hai số tương ứng là:
0000001100000101, 0000010000000101.
Với cách mã hố trên thì dữ liệu của chúng ta có tổng số cột khơng
q 256 cột, giá trị của các ô sau khi đã số hoá phải nằm trong khoảng từ 0
đến 255. Với yêu cầu này thì dữ liệu thực tế hiện nay trong các chương trình
quản lý thi đều khơng bị vi phạm.
Cách mã hố này sẽ giúp chúng ta khơng cần phải biến đổi hình thức
thể hiện của dữ liệu. Chúng ta vẫn giữ nguyên hình thức thể hiện theo chiều
ngang giống như hình thức chuẩn thường có của nó. Điều này cũng sẽ tiết
kiệm được khá nhiều thời gian chuyển đổi và xử lý.

Ví dụ

TOAN

LY

5

5

1

10

...

...

Một số chương trình đã thực hiện chuyển sang dạng sau:
T0

T1

...

T5

...

T10

L0

L1

...

L5

...

L10

No

No

No

Yes

No

No

No

No

No

Yes

No

No

No

Yes

No

No

No

No

No

No

No

No

No

Yes

Việc chuyển dữ liệu theo cách thức này sẽ tiêu tốn một thời gian đáng
kể nhất là đối với dữ liệu khổng lồ, với cách mã hoá trên chúng ta sẽ tránh
được cơng việc này.
TÌM CÁC ITEMSETS THƯỜNG XUN
Cấu trúc lưu giữ các items, itemsets
Như trên chúng ta đã trình bày, tuỳ vào điều kiện thực tế của cơ sở dữ
liệu mà chúng ta tìm chọn một phương pháp phù hợp. Cụ thể trong cơ sở dữ
liệu thi tốt nghiệp của ngành Giáo Dục Đào Tạo tại một tỉnh, chúng ta có thể
có ước định như sau:

Giới

Học

Hạnh

Điểm các

Kết

Tổng

tính
Số lượng

Mã
trường

lực

kiểm

mơn thi

quả

items

2

50

4

3

132

2

193

items
Với tổng số items vào khoảng gần 200, chúng ta sẽ thực hiện cấu trúc
lưu giữ item như sau:
Chúng ta xem item là trường hợp đặc biệt của itemset (itemset mà chỉ
có duy nhất một phần tử), do đó cấu trúc của item và itemset là như nhau.
Chúng ta sẽ gắn vào mỗi item một mảng có giá trị BOOLEAN một chiều để
lưu giữ vị trí (mảng ghi vị trí) của item trong cơ sở dữ liệu. Độ dài của mảng
này chính bằng tổng các transaction trong cơ sở dữ liệu. Giả sử cơ sở dữ liệu
có max transaction Như vậy số bytes cần để lưu giữ vị trí của một item là
(max DIV 8) + IF(max MOD 8 <> 0, 1, 0) bytes.
Cụ thể như sau:
Giả sử chúng ta có bảng dữ liệu:
TID (Transaction ID)

TOAN

LY

HOA

0

4

5

7

1

5

6

7

2

4

6

7

3

4

6

8

4

4

5

7

Chúng ta có các items:
0000000000000100 (TOAN – 4)

Chỉ số mảng

0

1

2

3

4

Giá trị

1

0

1

1

1

0000000000000101 (TOAN – 5)
Chỉ số mảng

0

1

2

3

4

Giá trị

0

1

0

0

0

0000000100000101

(LY – 5)

Chỉ số mảng

0

1

2

3

4

Giá trị

1

0

0

0

0

0000000100000110

(LY – 6)

Chỉ số mảng

0

1

2

3

4

Giá trị

0

1

1

1

1

0000001000000111

(HOA – 7)

Chỉ số mảng

0

1

2

3

4

Giá trị

1

1

1

0

1

0000001000001000

(HOA – 8)

Chỉ số mảng

0

1

2

3

4

Giá trị

0

0

0

1

0

Một vài itemsets:
{0000000100000110,0000001000001000} (LY – 6, HOA – 8)
Chỉ số mảng

0

1

2

3

4

Giá trị

0

0

0

1

0

{0000000000000100,0000000100000110

(TOAN – 4,

}

LY – 6)

Chỉ số mảng

0

1

2

3

4

Giá trị

0

0

1

1

0

Với cấu trúc này chúng ta chỉ cần duyệt qua cơ sở dữ liệu duy nhất chỉ
có một lần, khi duyệt chúng ta sẽ ghi vị trí của các item vào mảng một chiều
bằng cách truy cập trực tiếp (khơng dùng vịng lặp), cụ thể số định danh
transaction của item là chỉ số mảng mà tại đó giá trị của mảng sẽ là 1. Cịn
việc đếm support chính là tổng giá trị của mảng.
Cách thức kết hợp các items thành itemset.
Sự kết hợp giữ các items để trở thành itemset cũng như giữa các
itemsets với nhau cũng sẽ được xét trên các mảng ghi vị trí đã có trước đó
của chúng. Căn cứ vào đặc điểm dữ liệu để có thể chúng ta hạn chế những
mối kết hợp khơng thể có. Ví dụ như các items trong cùng một cột (8 bits

đầu bằng nhau) không kết hợp được với nhau, nếu chúng ta xét các items
theo một thứ tự của cột (8 bits đầu) thì chỉ có những item đứng trước mới kết
hợp với item đứng sau (khơng có trường hợp ngược lại). Có thể hình thức
hố như sau:
IF((x1 >> 8) > (x2 >> 8), có thể kết hợp, khơng thể kết hợp).
Trong đó x1, x2 là giá trị các items sau khi đã mã hoá thành số integer
16 bits. Với qui định này cũng sẽ giảm được thời gian thực hiện trong việc
tìm các itemsets thường xuyên.
Chọn và đưa các items vào tập mờ
Phương thức đưa các items vào tập mờ, chủ yếu thực hiện trên các
thuộc tính điểm số của học sinh. Cụ thể như sau: Chúng ta sẽ phân điểm số
của học sinh vào 3 tập mờ gọi là tập 0 (“YếU”), tập 5 (“TRUNG BìNH”),
tập 10 (“KHá”), với hàm thành viên có thể thay đổi được trong lúc chạy
chương trình (trong giới hạn cho phép). Hàm thành viên được sử dụng có
dạng hình thang “Hình 2.1”.
Sau đây là một vài dạng cụ thể cho bởi “Hình vẽ 2.1”

Hình 2.1: Dạng cụ thể của hàm hình thang

Như vậy chúng ta sẽ có ba tập mờ cho một cột điểm. Sau khi một item
được đưa vào tập mờ thì giá trị của tập mờ nó sẽ bị thay đổi, đó là giá trị mờ,

1 p
∑ ( itemi . fuzzy )
và mảng vị trí. Với giá trị mờ sẽ được tính theo cơng thức p i =1
,

(itemi.fuzzy sẽ được xác định bằng hàm thành viên), cịn mảng vị trí của tập
mờ sẽ được đánh dấu tại vị trí của chính vị trí của item. Một item có thể
được đưa vào hai tập mờ khác nhau với hai giá trị mờ có thể khác nhau như
“Hình vẽ 2.2” (tuỳ thuộc vào hàm thành viên).

Hình 2.2: Minh hoạ về tập mờ
Đối với mốt kết hợp mờ được hình hố bằng “Hình vẽ 2.3” như sau:
Giả sử cơ sở dữ liệu là:

TOAN

LY

2

4

4

5

5

6

6

7

Hình 2.3: Minh hoạ về mối kết hợp mờ

Xử lý mảng vị trí của tập mờ, chúng ta thực hiện bằng cách hội các
giá trị tương ứng của hai mảng lại với nhau. Kết quả của mảng ghi vị trí của
các tập mờ như sau:
YẾU TỐN

TB TỐN

Chỉ số mảng

0

1

2

3

Chỉ số mảng 0

1

2

3

Giá trị

1

1

0

0

Giá trị

1

1

1

YẾU LÝ
Chỉ số
mảng
Giá trị

TB LÝ
0 1 2 3
1 0 0 0

Chỉ số
mảng
Giá trị

0

KHÁ LÝ
0 1 2 3
0 1 1 1

Chỉ số
mảng
Giá trị

0 1 2 3
0 0 0 1

Với cách xử lý này chúng ta thấy rằng, với tập cổ điển ta có bốn mối
kết hợp 2 – 4, 4 – 5, 5 – 6, 6 – 7. Với tập mờ ta có tất cả bảy mối kết hợp, đó
là YếU – YếU (1), YếU – TB (2), TB – TB (3), TB – KHá (1).
Qua đây chúng ta nhận xét rằng: Sử dụng tập mờ có thể cho chúng ta
những luật tổng quát hơn và dễ tìm ra luật hơn. Những khái niệm mờ cũng
phù hợp với ý nghĩa thực tế hơn so với khái niệm tập cổ điển. Tập mờ đã
làm giảm thiểu đáng kể các ứng viên trong danh sách các ứng viên thường
xuyên và đây là một đặc điểm quan trọng để chúng ta có thể lưu giữ các ứng
viên trên bộ nhớ trong làm cho tốc độ chương trình tăng nhanh một cách
đáng kể. Tuy nhiên chúng ta phải trả giá lại cho việc tính tốn các giá trị mờ,
thế nhưng những giá trị mờ này lại cung cấp cho ta thêm những thơng tin về
chính nó.

Tìm các itemset thường xuyên. Sau lần duyệt duy mhất đầu tiên chúng
ta có được danh sách các items trong cơ sở dữ liệu, đếm support và chỉ giữ
lại những items thường xuyên (support ≥ minsup). Với cách lưu lại các vị trí
của item vào mảng ghi vị trí như đã nói ở trên, chúng ta có thể tìm được tất
cả các itemsets thường xuyên trên danh sách này (không cần duyệt thêm một

lần nào nữa trên cơ sở dữ liệu). Chúng ta sẽ thực hiện phép giao (tuyển) các
itemset với những items đã có lúc ban đầu thì chúng ta sẽ có được một
itemset mới có số items tăng lên một, sau đó đếm support nếu itemset mới
này là thường xun thì lưu lại.

TÌM LUẬT KẾT HỢP

Cơng việc địi hỏi nhiều cơng sức là tìm ra được các itemsets thường
xuyên. Sau đó từ những itemsets này chúng ta sẽ đưa những luật kết hợp có
độ tin cậy cao. Thơng thường giai đoạn này có ít người chú tâm tới, bởi vì
nó khơng phải là một vấn đề khó. Tuy nhiên như chúng ta đã đề cập ở trên,
việc đưa ra quá nhiều luật mà trong đó có nhiều luật không cần phải quan
tâm là một công việc không đưa lại hiệu quả cao. Riêng trong trường hợp dữ
liệu của ngành Giáo Dục, hiện nay còn nhiều điều mới mẻ, các qui luật chưa
được thể hiện rõ do có quá nhiều sự thay đổi về chủ trương chính sách cũng
như chương trình, sách giáo khoa… trong thời gian qua. Vì vậy chúng ta
chưa thể đưa ra những bộ luật mà khơng cần quan tâm. Với lý do đó, trong
báo cáo chưa đề cập đến vấn đề này.
Với đặc tính của cơ sở dữ liệu để có được luật có độ tin cậy 100% là
vơ cùng ít và hầu như đa phần là luật có độ tin cậy nhỏ hơn 100%. Với

những luật có độ tin cậy nhỏ hơn 100%, vấn đề luật thừa cũng cần phải được
xem lại. Lấy ví dụ, chúng ta đã có luật A → B như vậy luật (A,C) → B là luật
thừa. Nhưng trong thực tế thì (A,C) → B phần lớn có độ tin cậy cao hơn, và
chính những luật có độ tin cậy cao là những luật chúng ta cần quan tâm và
tin tưởng hơn. Những luật mà vế trái càng nhiều items thì càng q, cũng
giống như cơng việc điều tra mà có càng nhiều chứng cứ càng tốt.
Chúng ta có thể thực hiện tìm luật theo từng bước, ngay tại mỗi kitemsets chúng ta có thể xem luật ứng với mức này, hoặc chúng ta có thể
thực hiện ngay tại mức cuối cùng (itemsets có nhiều items nhất). Tại mỗi

mức chúng ta có thể thay đổi giá trị minsup và mincof để số luật ra chúng ta
có thể kiểm tra được. Cùng với việc thay đổi hàm thành viên chúng ta sẽ có
thể có được những luật phong phú hơn, cịn việc phân tích luật là cơng việc
của người dùng.
Theo ngun tắc từ một itemset thường xuyên chúng ta có thể tìm ra
được nhiều luật trên đó. Trong danh sách các itemsets thường xun sẽ
khơng có hiện tượng trùng lặp, như vậy về hình thức của các luật khi được
đưa ra cũng sẽ không bị trùng lặp.

3. KẾT LUẬN
Khai phá dữ liệu mở ra một hướng nghiên cứu mới trong công tác
giáo dục và đào tạo. Trước đây những báo cáo mang tính thống kê đơn
thuần, chưa có thể nói hết được những nhận định mang tính tiềm ẩn. Những
qui luật rút ra được từ chương trình trong thực tế chưa thể khẳng định ngay
được, bởi vì đây là những vấn đề mang tính nhạy cảm. Tuy nhiên nó mở cho
ta một cách nhìn mới, một phương pháp mới trong việc thống kê báo cáo,

cũng như những tư liệu quí để làm căn cứ cho những quyết định mang tính
đột phá sau này. Mặc dù phương pháp này quá mới mẻ, nhưng những kết
luận rút ra từ các luật kết hợp thực sự là những vấn đề đáng quan tâm như
vấn đề chất lượng học tập, đề thi, chấm thi, đạo đức học sinh...
Khái niệm mờ thật sự đã đưa lại nhiều điều thú vị. Nó khơng chỉ phù
hợp với thực tế, bởi vì trong thực tế hầu như những vấn đề được đưa ra đều
có tính chất mờ, mà nó cịn mang tính yển chuyển, linh hoạt từ đó dễ khám
phá ra các luật kết hợp, phân loại học sinh mang tính thuyết phục hơn.
Từ những luật kết hợp có được chúng ta sẽ có thêm một phương pháp
phân loại học sinh mới dựa trên các luật này. Chẳng hạn như có 82% học
sinh thi khá mơn Sử và học lực TB thì đậu tốt nghiệp THPT với độ tin cậy
91%.

ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về