Tải bản đầy đủ (.pdf) (58 trang)

Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường đại học sư phạm thể dục thể thao hà nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (995.03 KB, 58 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

HỒNG THU THỦY

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP
TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO
HÀ NỘI

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2016


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

HỒNG THU THỦY

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP
TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM THỂ DỤC THỂ THAO
HÀ NỘI
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ


HÀ NỘI - 2016


i

LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ cơng trình nào.
TÁC GIẢ

HỒNG THU THỦY


ii

LỜI CẢM ƠN
Trước tiên, cho em gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới thầy giáo
PGS.TS Trần Đình Quế, người đã trực tiếp hướng dẫn, tạo mọi điều kiện thuận lợi
và tận tình chỉ bảo cho em trong suốt quá trình thực hiện luận văn tốt nghiệp.
Em xin chân thành cảm ơn quý Thầy, Cô giáo Học viện Cơng nghệ Bưu
chính Viễn thơng đã tận tình chỉ bảo em trong suốt thời gian học tập tại nhà trường.
Bên cạnh đó, đề hồn thành luận văn này, em cũng đã nhận được rất nhiều sự
giúp đỡ, những lời động viên quý báu của bạn bè, gia đình và đồng nghiệp. Em xin
chân thành cảm ơn.
Tuy nhiên, do thời gian hạn hẹp, mặc dù đã nỗ lực hết sức mình, nhưng chắc
rằng luận văn khó tránh khỏi thiếu sót. Em rất mong nhận được sự thơng cảm và chỉ
bảo tận tình của q thầy cơ và các bạn.
TÁC GIẢ


HOÀNG THU THỦY


iii

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN .......................................................................................................... ii
MỤC LỤC
......................................................................................................... iii
DANH MỤC TỪ VIẾT TẮT....................................................................................v
DANH MỤC CÁC BẢNG ...................................................................................... vi
DANH MỤC CÁC HÌNH VẼ................................................................................ vii
MỞ ĐẦU
...........................................................................................................1
Tính cấp thiết của đề tài ..........................................................................................1
Tổng quan về vấn đề nghiên cứu ............................................................................2
Mục đích nghiên cứu ...............................................................................................3
Đối tượng và phạm vi nghiên cứu ...........................................................................3
CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ
LIỆU
...........................................................................................................5
1.1. Giới thiệu chung về khám phá tri thức và khai phá dữ liệu ...........................5
1.1.1. Khái niệm về khám phá tri thức và khai phá dữ liệu...............................5
1.1.2. Các hướng tiếp cận cơ bản trong khai phá dữ liệu ..................................6
1.1.3. Những vấn đề khó khăn trong khai phá dữ liệu ......................................7
1.2. Quá trình khám phá tri thức và khai phá dữ liệu ...........................................7
1.2.1. Quá trình khám phá tri thức.....................................................................7
1.2.2. Quá trình khai phá dữ liệu .......................................................................8
1.2.3. Các phương pháp khai phá dữ liệu ..........................................................8

1.3. Ứng dụng khai phá dữ liệu trong giáo dục.....................................................9
1.3.1. Khai phá dữ liệu giáo dục ........................................................................9
1.3.2. Mục tiêu của khai phá dữ liệu giáo dục.................................................10
1.3.3. Các giai đoạn của khai phá dữ liệu giáo dục .........................................10
1.3.4. Một số lĩnh vực ứng dụng của EDM .....................................................11
1.4. Kết luận chương ...........................................................................................11
CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU ............................12
2.1. Một số kỹ thuật phân cụm ..............................................................................12
2.1.1. Phương pháp phân hoạch (Partitioning Methods) .................................12
2.1.1.1. Thuật toán k-means ..........................................................................12
2.1.1.2. Thuật toán PAM (Partitioning Around Medoids) ............................13


iv

2.1.2. Phương pháp phân cấp (Hierarchical Methods)......................................15
2.1.2.1. Thuật toán BIRCH ...........................................................................16
2.1.2.2. Thuật toán CURE .............................................................................18
2.1.3. Phương pháp dựa trên mật độ (Density-Based Methods) .......................19
2.1.3.1. Thuật toán DBSCAN .......................................................................20
2.1.3.2. Thuật toán OPTICS (Ordering Points To Indentify the Clustering
Structure) .......................................................................................................22
2.1.3.3. Thuật toán DENCLUDE (DENsity – Base CLUstEring) ................23
2.1.4. Phương pháp dựa trên lưới (Grid-Based Methods).................................24
Thuật toán STING .........................................................................................25
2.2. Tổng hợp các thuật toán .................................................................................26
2.3. Kết luận chương .............................................................................................27
CHƯƠNG 3: TƯ VẤN HỌC TẬP CHO SINH VIÊN TRƯỜNG ĐẠI HỌC SƯ
PHẠM THỂ DỤC THỂ THAO HÀ NỘI..............................................................28
DỰA TRÊN KHAI PHÁ DỮ LIỆU .......................................................................28

3.1. Giới thiệu bài toán ..........................................................................................28
3.2. Lựa chọn thuật toán ........................................................................................30
3.3. Xây dựng hệ thống tư vấn học tập .................................................................30
3.3.1. Mục đích của hệ thống ............................................................................30
3.3.2. Yêu cầu hệ thống ...................................................................................30
3.3.3. Phân tích xây dựng hệ thống ...................................................................31
3.3.3.1. Cơ sở dữ liệu ....................................................................................31
3.3.3.2. Các chức năng chính của hệ thống ...................................................33
3.4. Kết luận chương ............................................................................................41
KẾT LUẬN .........................................................................................................42
TÀI LIỆU THAM KHẢO ......................................................................................43
PHỤ LỤC
.........................................................................................................44


v

DANH MỤC TỪ VIẾT TẮT
STT

Từ viết tắt

Ý nghĩa

1

CS

Chuyên sâu


2

CSDL

Cơ sở dữ liệu

3

KPTT

Khám phá tri thức

4

KPDL

Khai phá dữ liệu

5

SV

Sinh viên

6

TDTT

Thể dục Thể thao



vi

DANH MỤC CÁC BẢNG
Bảng 2.1: Đặc tính của các thuật toán ............................................................................ 27
Bảng 3.1: Bảng thống kê số lượng SV năm học 2013 – 2014 ........................................ 29
Bảng 3.2: Bảng thống kê số lượng SV năm học 2014 – 2015 ........................................ 29
Bảng 3.3: Bảng thống kê số lượng SV năm học 2015 – 2016 ........................................ 30


vii

DANH MỤC CÁC HÌNH VẼ
Hình 3.1: Các bảng CSDL .............................................................................................. 32
Hình 3.2: Bảng CSDL danh sách sinh viên .................................................................... 32
Hình 3.3: Bảng CSDL sinh viên đăng ký chuyên sâu Thể dục ...................................... 33
Hình 3.4: Giao diện chính của hệ thống ......................................................................... 34
Hình 3.5: Thơng tin sinh viên đăng ký chun sâu Điền kinh........................................ 35
Hình 3.6: Thơng tin của một sinh viên ........................................................................... 36
Hình 3.7: Lưu đồ thuật tốn k-means ............................................................................. 36
Hình 3.8: Phân cụm điểm của sinh viên ......................................................................... 40
Hình 3.9: Kết quả điểm các môn thi và đánh giá cho một sinh viên .............................. 40


1

MỞ ĐẦU
Tính cấp thiết của đề tài
Giáo dục và đào tạo giữ vai trò hết sức quan trọng đối với sự phát triển của
mỗi quốc gia, mỗi dân tộc. Thế hệ trẻ, những người đang ngày ngày học tập và làm

việc cần được định hướng đúng đắn để tránh mắc phải những sai lầm khơng đáng
có. Một trong những vấn đề chính mà các sinh viên phải đối mặt khi ngồi trên ghế
nhà trường là có một quyết định đúng đắn liên quan tới quá trình học tập của bản
thân để có thể đạt được thành tích học tập tốt nhất.
Vì vậy, việc tư vấn học tập để chọn chương trình học phù hợp nhằm đạt
được kết quả cao ln được quan tâm đặc biệt. Đây khơng chỉ là khó khăn của mỗi
sinh viên mà cịn là khó khăn của những giảng viên tham gia tư vấn, từ khối dữ liệu
khổng lồ để đưa ra những tư vấn tốt trong việc lựa chọn chuyên ngành học cho sinh
viên không phải là dễ dàng. Khai phá dữ liệu đã và đang được ứng dụng thành cơng
trong giáo dục, có thể giúp sinh viên có thể đưa ra lựa chọn tốt hơn cho quá trình
học tập của bản thân.
Trong giáo dục, giáo dục thể chất được xem là một trong những hoạt động
thu hút sự tham gia đông đảo của học sinh, sinh viên. Bởi lẽ, giáo dục thể chất mang
trong nó những vai trị hết sức quan trọng góp phần vào việc rèn luyện và đào tạo
một con người có sức khỏe, đạo đức và tri thức.
Giáo dục thể chất là một trong những mục tiêu giáo dục toàn diện của Đảng
và Nhà nước ta, nằm trong hệ thống giáo dục quốc dân. Trường Đại học Sư phạm
Thề dục Thể thao Hà Nội, nơi đào tạo ra đội ngũ giáo viên giáo dục thể chất tương
lai cho đất nước luôn cố gắng để hồn thành tốt cơng việc của mình. Để giúp các
em sinh viên chính quy có thể đưa ra quyết định lựa chọn đúng đắn theo học một
chuyên sâu phù hợp với năng lực, mong muốn của bản thân trong quá trình học tập
tại trường, tác giả đã lựa chọn đề tài luận văn “Ứng dụng khai phá dữ liệu để tư
vấn học tập tại trường Đại học Sư phạm Thể dục Thể thao Hà Nội”.


2

Tổng quan về vấn đề nghiên cứu
Trong những thập kỷ gần đây sự phát triển nhanh chóng của mạng Internet và
công nghệ đa phương tiện đã được áp dụng nhiều hơn trong giáo dục. Một loạt các

hội thảo về Educational Data Mining (EDM) đã được tổ chức từ năm 2000-2007,
như là một phần của một số hội nghị nghiên cứu quốc tế. Năm 2008, đã trở thành
hội nghị quốc tế hằng năm về EDM, diễn ra lần đầu tiên ở Montreal, Canada. Vì lợi
ích của EDM ngày càng tăng nên các nhà nghiên cứu EDM đã thành lập một tạp chí
khoa học vào năm 2009, “Tạp chí khai thác dữ liệu giáo dục”, để chia sẻ và phổ
biến kết quả nghiên cứu.
Bên cạnh đó, các hệ thống cơng nghệ thơng tin đã được xây dựng để đáp ứng
nhu cầu tìm hiểu kiến thức ngày càng cao của học sinh, sinh viên. Các kỹ thuật khai
phá dữ liệu đã được xem xét và sử dụng trong xây dựng hệ thống tư vấn môn học
cho sinh viên, giúp sinh viên đang theo học tại các trường đào tạo theo tín chỉ có thể
định hướng trong lựa chọn môn học hay chuyên ngành. Hay xây dựng mơ hình khai
phá dữ liệu dựa vào thông tin tuyển sinh đầu vào và kết quả thu thập được của sinh
viên, nhằm dự đoán kết quả học tập, từ đó giúp sinh viên có thể chọn lựa một lộ
trình học đạt kết quả tối ưu nhất phù hợp với điều kiện và năng lực của mình.
Học viện Cơng nghệ Bưu chính Viễn thơng đã có một số đề tài nghiên cứu như:
đề tài thạc sĩ kỹ thuật năm 2010 của Phạm Thị Phúc “Khai phá dữ liệu cho tư vấn
lựa chọn môn học”. Hay đề tài: “Phương pháp khai phá dữ liệu bằng cây quyết
định”, đề tài thạc sĩ của Phạm Duy An năm 2012 với mục đích xây dựng hệ thống
tư vấn mơn học cho sinh viên theo học bằng hình thức đào tạo tín chỉ.
Luận văn của tác giả tập trung vào nghiên cứu một số kỹ thuật phân cụm dữ
liệu, từ đó chọn kỹ thuật phù hợp để xây dựng hệ thống tư vấn học tập giúp sinh
viên trường Đại học Sư phạm Thể dục Thể thao Hà Nội đánh giá đúng về kỹ năng
và năng lực của bản thân trước khi đăng ký theo học một chuyên sâu phù hợp nhất
với bản thân.


3

Mục đích nghiên cứu
- Nghiên cứu, tìm hiểu các vấn đề cơ bản về khai phá dữ liệu, một số kỹ thuật

phân cụm dữ liệu để đưa ra một bản tổng hợp có thể giúp cho những nghiên cứu sau
này.
- Ứng dụng để xây dựng được hệ thống tư vấn học tập giúp sinh viên chính
quy lựa chọn theo học một chuyên sâu phù hợp với bản thân, dựa vào kết quả học
tập của sinh viên và dữ liệu thu thập được từ giảng viên trường Đại học Sư phạm
Thể dục Thể thao Hà Nội.
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Một số kỹ thuật phân cụm dữ liệu.
- Dữ liệu đào tạo chuyên ngành giáo dục thể chất.
Phạm vi nghiên cứu:
- Giới hạn trong một số kỹ thuật phân cụm dữ liệu.
- Dữ liệu thu thập được tại trường Đại học Sư phạm TDTT Hà Nội.
Cấu trúc luận văn:
Ngoài phần mở đầu và kết luận, luận văn được cấu trúc thành 3 chương như
sau:
Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu
Trình bày tổng quan về khám phá tri thức, khai phá dữ liệu và một số ứng
dụng của khai phá dữ liệu trong giáo dục.
Chương 2: Một số kỹ thuật phân cụm dữ liệu
Chương này trình bày khái quát về một số kỹ thuật phân cụm dữ liệu. Phân
tích, đánh giá các kỹ thuật để quyết định lựa chọn được thuật toán phù hợp cho việc
xây dựng hệ thống tư vấn mà luận văn đưa ra.
Chương 3: Tư vấn học tập cho sinh viên trường Đại học Sư phạm Thể
dục Thể thao Hà Nội dựa trên khai phá dữ liệu.
Giới thiệu về bài tốn thực tế trong chương trình đào tạo cho sinh viên tại
trường Đại học Sư phạm Thể dục Thể thao Hà Nội. Khó khăn cho các sinh viên khi


4


quyết định lựa chọn cho mình một chuyên sâu phù hợp tại trường. Dựa trên khai
phá dữ liệu và thuật toán lựa chọn được để xây dựng hệ thống tư vấn học tập cho
sinh viên, giúp sinh viên có thể đưa ra quyết định đúng đắn để kết quả học tập đạt
tối ưu.


5

CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ
KHAI PHÁ DỮ LIỆU
1.1.

Giới thiệu chung về khám phá tri thức và khai phá dữ liệu

1.1.1. Khái niệm về khám phá tri thức và khai phá dữ liệu
Khám phá tri thức (KPTT) là q trình tìm ra những tri thức, đó là những
mẫu tiềm ẩn, trước đó chưa biết và là thơng tin hữu ích đáng tin cậy. Cịn khai phá
dữ liệu (KPDL) là một bước quan trọng trong quá trình khám phá tri thức, sử dụng
các thuật toán KPDL chuyên dùng với một số quy định về hiệu quả tính toán chấp
nhận được để chiết xuất ra các mẫu hoặc mơ hình có ích trong dữ liệu.
Khám phá tri thức từ cơ sở dữ liệu (CSDL) là một quá trình sử dụng các
phương pháp và công cụ tin học, trong đó con người là trung tâm của q trình. Do
đó, con người cần phải có kiến thức cơ bản về lĩnh vực cần khám phá để có thể
chọn được tập con dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra.
Tuy nhiên, quá trình khám phá tri thức mang tính chất hướng nhiệm vụ vì khơng
phải mọi tri thức tìm được đều áp dụng được vào thực tế.
Dữ liệu là tập hợp những bộ thơng tin chính xác và q trình khám phá tri
thức được xem là sự lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu, chỉ để lại
các đặc trưng cơ bản cho dữ liệu. Tri thức được tìm thấy là các thơng tin tích hợp,

bao gồm các sự kiện và các mối quan hệ trong chúng. Các mối quan hệ này có thể
được hiểu ra, có thể được phát hiện, hoặc có thể được học.
Khai phá dữ liệu (KPDL) là một giai đoạn quan trọng trong quá trình khám
phá tri thức. Về bản chất nó là giai đoạn duy nhất tìm ra được thơng tin mới. KPDL
được định nghĩa là q trình trích lọc các thơng tin có giá trị ẩn trong lượng lớn dữ
liệu được lưu trữ trong các CSDL hoặc các kho dữ liệu,… KPDL còn được coi là
quá trình tìm kiếm, khám phá ở nhiều góc độ để tìm ra các mối tương quan, các mối
liên hệ dưới nhiều góc độ khác nhau nhằm tìm ra các mẫu hay các mơ hình tồn tại
bên trong cơ sở dữ liệu đang bị che khuất. Để trích rút các mẫu, mơ hình tiềm ẩn ta
phải tìm và áp dụng các phương pháp, kỹ thuật khai phá phù hợp với đặc trưng, tính


6

chất của dữ liệu và mục đích sử dụng. Các kỹ thuật chính được áp dụng trong lĩnh
vực KPDL phần lớn được thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, …
Có thể nói rằng hai thuật ngữ khám phá tri thức và khai phá dữ liệu là tương
đương nhau nếu ở khía cạnh tổng quan, cịn nếu xét ở một góc độ chi tiết thì khai
phá dữ liệu là một giai đoạn có vai trị quan trọng trong khám phá tri thức.

1.1.2. Các hướng tiếp cận cơ bản trong khai phá dữ liệu
Khai phá dữ liệu được chia nhỏ thành một số hướng chính như sau:
- Mô tả khái niệm (Concept description) : thiên về mô tả, tổng hợp và tóm
tắt khái niệm. Ví dụ: tóm tắt văn bản.
- Luật kết hợp (Association rules): là dạng luật biểu diễn tri thức ở dạng
khá đơn giản. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học,
tài chính, giáo dục, viễn thơng,…
- Phân lớp và dự đoán (Classification and prediction): xếp một đối tượng
vào một trong những lớp đã biết trước. Hướng tiếp cận này thường sử dụng một số
kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơron nhân

tạo (neural network),…Người ta cịn gọi phân lớp là học có giám sát – học có thầy
(supervised learning).
- Phân cụm (Clustering): xếp các đối tượng theo từng cụm dữ liệu tự nhiên,
(số lượng cũng như tên của cụm chưa được biết trước). Các đối tượng được gom
cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất
và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất.
Người ta cịn gọi phân cụm là học khơng có giám sát – học không thầy
(unsupervised learning).
- Khai phá chuỗi (Sequential/Temporal patterns): tương tự như khai phá
luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Một luật mơ tả mẫu tuần tự
có dạng tiêu biểu X->Y, phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất
hiện biến cố Y. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính
và thị trường chứng khốn bởi chúng có tính dự báo cao.


7

1.1.3. Những vấn đề khó khăn trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên ngành và được ứng dụng rộng rãi trên
nhiều lĩnh vực. Tuy nhiên với đặc điểm là việc xử lý các CSDL lớn nên khai phá dữ
liệu cũng có những vấn đề khó khăn riêng. Sau đây là một số vấn đề khó khăn:
- Các cơ sở dữ liệu lớn, các tập dữ liệu cần xử lý có kích thước rất lớn.
- Mức độ nhiễu cao hoặc dữ liệu bị thiếu.
- Số chiều lớn.
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện khơng cịn
phù hợp.
- Quan hệ giữa các trường phức tạp.

1.2.


Quá trình khám phá tri thức và khai phá dữ liệu

1.2.1. Quá trình khám phá tri thức
Quá trình khám phá tri thức là một chuỗi lặp gồm các bước sau:
Data Cleaning (Làm sạch dữ liệu): Loại bỏ dữ liệu nhiễu và dữ liệu khơng
nhất qn.
Data Intergation (Tích hợp dữ liệu): Dữ liệu của nhiều nguồn có thể tổ hợp
lại.
Data Selection (Lựa chọn dữ liệu): Lựa chọn những dữ liệu phù hợp với
nhiệm vụ phân tích trích rút từ cơ sở dữ liệu.
Data Transformation (Biến đổi dữ liệu): Dữ liệu được chuyển đổi hay được
hợp nhất về dạng thích hợp cho việc khai phá.
Data Mining (Khai phá dữ liệu): Đây là một tiến trình cốt yếu trong đó các
phương pháp được áp dụng nhằm trích rút ra mẫu dữ liệu.
Pattern Evaluation (Đánh giá mẫu): Dựa trên một độ đo nào đó xác định lợi
ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức.
Knowledge Presentation (Biểu diễn tri thức): Ở giai đoạn này các kỹ thuật
biểu diễn và hiển thị được sử dụng để đưa tri thức lấy ra cho người dùng.


8

1.2.2. Quá trình khai phá dữ liệu
KPDL là một giai đoạn quan trọng trong quá trình khám phá tri thức. Về bản
chất, nó là giai đoạn duy nhất tìm ra được thơng tin mới, thơng tin tiềm ẩn có trong
CSDL chủ yếu phục vụ cho dự đốn và mơ tả.
Mơ tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những
thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được.
Dự đốn là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được
phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất

ra các mẫu, dự đốn được những giá trị chưa biết hoặc những giá trị tương lai của
các biến quan tâm.
Quá trình khai phá dữ liệu bao gồm:
Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.
Xác định dữ liệu liên quan: Dùng để xây dựng giải pháp.
Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý
chính sao cho thuật tốn KPDL có thể hiểu được. Đây là một q trình rất khó khăn,
có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra thành nhiều
bản, quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần tồn bộ q trình (nếu mơ
hình dữ liệu thay đổi),…
Thuật toán KPDL: Lựa chọn thuật toán KPDL và thực hiện việc KPDL để
tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp,
cây quyết định,… tương ứng với ý nghĩa của nó.

1.2.3. Các phương pháp khai phá dữ liệu
Với mục đích mơ tả và dự đoán, thường sử dụng các phương pháp sau cho
khai phá dữ liệu:
+ Luật kết hợp (Association rules)
+ Phân lớp (Classfication)
+ Hồi quy (Regression)
+ Trực quan hóa (Visualiztion)
+ Phân cụm (Clustering)


9

+ Tổng hợp (Summarization)
+ Mơ hình phụ thuộc (Dependency modeling)
+ Đánh giá mơ hình (Model Evaluation)
+ Phương pháp tìm kiếm (Search Method)

Có ba phương pháp được sử dụng nhiều nhất là: Luật kết hợp, Phân lớp dữ
liệu và Phân cụm dữ liệu.

1.3.

Ứng dụng khai phá dữ liệu trong giáo dục

1.3.1. Khai phá dữ liệu giáo dục
Khai phá dữ liệu giáo dục (EDM) mô tả một lĩnh vực nghiên cứu liên quan
đến việc áp dụng khai thác dữ liệu, máy học và thống kê các thông tin được tạo ra
từ các thiết lập giáo dục (ví dụ, các trường đại học và các hệ thống thông minh). Ở
mức độ cao, lĩnh vực này tìm cách phát triển và cải tiến phương pháp để khám phá
dữ liệu, thường có nhiều cấp độ của hệ thống phân cấp có ý nghĩa. Khai phá dữ liệu
giáo dục đã đóng góp lý thuyết về nghiên cứu học tập của các nhà nghiên cứu tâm
lý giáo dục và các ngành khoa học học tập, các lĩnh vực liên quan chặt chẽ với các
phân tích học tập.
Khai phá dữ liệu giáo dục đề cập đến các kỹ thuật, công cụ, và nghiên cứu
thiết kế để tự động trích xuất thơng tin có ích từ các kho dữ liệu lớn được tạo bởi
người học, liên quan đến người học hoặc các hoạt động trong môi trường giáo dục.
Ứng dụng khai phá dữ liệu trong giáo dục là một lĩnh vực đang ngày càng
được quan tâm, đóng góp khơng nhỏ cho các hoạt động giáo dục. Cung cấp những
thông tin hữu ích để thiết kế mơi trường học tập, cho phép học sinh, sinh viên, giáo
viên, các nhà quản lý và hoạch định chính sách giáo dục đưa ra các quyết định phù
hợp.
Khai phá dữ liệu giáo dục đã trở thành hội nghị quốc tế diễn ra hằng năm từ
năm 2008. Thêm vào đó cịn các bài báo như: “Education Data Mining
Applycation” của S.Lakshmi Prabha và A.R.Mohamed Shanavas, “A survey of
education data mining research” của Richard A. Huebner, “Recommendation in
Higher Education Using Data Mining Techniques” của Vialardi et al.



10

1.3.2. Mục tiêu của khai phá dữ liệu giáo dục
Baker và Yacef xác định bốn mục tiêu sau đây của EDM:
Dự đoán hành vi học tập trong tương lai của sinh viên: với việc sử dụng các
mơ hình sinh viên, mục tiêu này có thể đạt được bằng cách tạo ra mơ hình sinh viên
có kết hợp các đặc điểm của người học, bao gồm thông tin chi tiết như: kiến thức,
hành vi và động lực học tập. Những kinh nghiệm sử dụng của người học và tổng thể
của họ hài lòng với việc học cũng được đo.
Khám phá hoặc cải thiện các mơ hình miền: thơng qua các phương pháp khác
nhau và các ứng dụng của EDM, phát hiện mới và cải tiến mơ hình hiện tại là có
thể. Ví dụ như minh họa các nội dung giáo dục để thu hút người học và xác định
trình tự giảng dạy tối ưu để hỗ trợ phương pháp học tập của học sinh.
Nghiên cứu ảnh hưởng của hỗ trợ giáo dục có thể được thực hiện thơng qua
hệ thống học tập.
Thúc đẩy sự hiểu biết khoa học về việc học tập bằng cách xây dựng và kết
hợp mơ hình sinh viên, các lĩnh vực nghiên cứu EDM và các công nghệ và phần
mềm sử dụng.

1.3.3. Các giai đoạn của khai phá dữ liệu giáo dục
Hiện nay, lĩnh vực nghiên cứu khai thác dữ liệu giáo dục đang tiếp tục phát
triển, vô số các kỹ thuật khai thác dữ liệu đã được áp dụng cho một loạt các phạm vi
giáo dục. Trong mỗi trường hợp, mục tiêu là để dịch dữ liệu thơ thành các thơng tin
có ý nghĩa về q trình học tập để đưa ra quyết định tốt hơn về thiết kế và quy trình
của một mơi trường học tập. Như vậy, EDM thường bao gồm bốn giai đoạn:
+ Giai đoạn đầu tiên của q trình EDM (khơng kể tiền xử lý) được khám
phá mối quan hệ trong dữ liệu. Điều này liên quan đến việc tìm kiếm thơng qua một
kho lưu trữ dữ liệu từ một môi trường giáo dục với mục tiêu tìm kiếm các mối quan
hệ phù hợp giữa các biến. Một số thuật toán để xác định các mối quan hệ đó đã

được sử dụng, bao gồm phân loại, hồi quy, phân nhóm, phân tích nhân tố, phân tích
mạng xã hội, khai thác luật kết hợp và khai thác mơ hình tuần tự .


11

+ Giai đoạn 2: Các mối quan hệ phát hiện ra sau đó phải được xác nhận để
tránh overfitting.
+ Giai đoạn 3: Mối quan hệ xác thực được áp dụng để làm các dự báo về các
sự kiện trong tương lai trong môi trường học tập.
+ Giai đoạn 4: Dự đốn được sử dụng để hỗ trợ q trình ra quyết định và
quyết định cách giải quyết.

1.3.4. Một số lĩnh vực ứng dụng của EDM
Một số lĩnh vực ứng dụng của EDM là:
- Phân tích và trực quan dữ liệu.
- Cung cấp thông tin phản hồi để hỗ trợ giáo viên.
- Dự đoán kết quả học tập.
- Kiến nghị cho sinh viên.
- Phát hiện hành vi sinh viên không mong muốn.
- Xây dựng chương trình học.
- Kế hoạch và lập kế hoạch.

1.4.

Kết luận chương
Nội dung chương đã tìm hiểu quá trình phát hiện tri thức và các vấn đề khai

phá dữ liệu. Phát hiện tri thức là một quá trình rút ra tri thức từ dữ liệu mà trong đó
khai phá dữ liệu là giai đoạn chủ yếu. Khai phá dữ liệu là nhiệm vụ khám phá các

mẫu có ích từ số lượng lớn dữ liệu, ở đó dữ liệu có thể được lưu trữ trong các
CSDL, kho dữ liệu hoặc kho lưu trữ thông tin khác. Chương này đã tóm tắt một số
phương pháp phổ biến dùng để khai phá dữ liệu và phân tích việc khai phá dữ liệu,
ứng dụng khai phá dữ liệu trong giáo dục.


12

CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU
2.1. Một số kỹ thuật phân cụm
Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực
tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá
được và tốc độ thực hiện của thuật toán. Hiện nay, các kỹ thuật phân cụm có thể
phân loại theo các phương pháp tiếp cận chính sau: phương pháp phân hoạch
(Partitioning Methods); phương pháp phân cấp (Hierarchical Methods); phương
pháp dựa trên mật độ (Density-Based Methods); phương pháp dựa trên lưới (GridBasesd Methods).

2.1.1. Phương pháp phân hoạch (Partitioning Methods)
Ý tưởng chính của phương pháp phân hoạch là phân một tập dữ liệu có n
phần tử cho trước thành k nhóm dữ liệu sao cho mỗi phần tử dữ liệu chỉ thuộc về
một nhóm dữ liệu và mỗi nhóm có ít nhất một phần tử dữ liệu. Phương pháp này tốt
cho việc tìm các cụm hình cầu trong khơng gian Euclidean. Tuy nhiên, phương
pháp này khơng thể xử lý các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ
các điểm dày đặc. Các thuật tốn phân hoạch có độ phức tạp rất lớn khi xác định
nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, vì nó phải tìm kiếm tất cả các
cách phân hoạch có thể được. Vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục
bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng
của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu.Vậy
nên, ý tưởng chính của thuật tốn phân cụm phân hoạch là sử dụng chiến lược tham
ăn (Greedy) để tìm kiếm nghiệm.

Điển hình trong phương pháp tiếp cận theo phương pháp phân hoạch là các
thuật toán như: k-means, PAM, CLARA (Clustering Large Applications),
CLARANS (Clustering Large Applications based on Randomized Search)…

2.1.1.1. Thuật toán k-means
Thuật toán k-means do MacQueen giới thiệu trong tài liệu “J. Some methods
for Classification and Analysis of Multivariate Observations” năm 1967. Mục đích


13

của thuật toán là sinh ra k cụm dữ liệu {C1, C2,…, Ck} từ một tập dữ liệu ban đầu
gồm n đối tượng trong không gian d chiều Xi= (xi1, xi2, …, xid) ( = 1, n), sao cho
hàm tiêu chuẩn

=∑





( −

) đạt giá trị cực tiểu. Trong đó mi là

trọng tâm của cụm Ci. D là khoảng cách giữa hai đối tượng. Thuật toán k-means
gồm các bước cơ bản sau:
Input: Số các cụm k, cơ sở dữ liệu gồm n đối tượng.
Output: Các cụm Ci (i=1,…, k) sao cho hàm tiêu chuẩn E đạt giá trị tối
thiểu.

Bước 1: Khởi tạo k điểm trọng tâm cụm bằng cách chọn k đối tượng tùy ý.
Bước 2: Lặp các bước
- Với mỗi đối tượng

(1 ≤ ≤ ), tính khoảng cách từ nó tới mỗi trọng

tâm mj với j=1,…,k. Sau đó tìm trọng tâm gần nhất đối với mỗi đối tượng.
- Với mỗi j=1,…,k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình
cộng của các vector đối tượng dữ liệu.
Bước 3: Thuật tốn dừng khi giá trị E khơng thay đổi.
Để khoảng cách giữa điểm tâm tới các điểm, dùng độ đo khoảng cách
Euclidean.
Thuật toán k-means chỉ áp dụng khi trung bình của một cụm được xác định.
Đánh giá thuật tốn k-means:
Ưu điểm:
+ k-means có độ phức tạp tính tốn O(Ikn), với I là số vịng lặp.
+ k-means phân tích cụm đơn giản nên có thể áp dụng với tập dữ liệu lớn.
Nhược điểm:
k-means phải chỉ ra số lượng cụm và yêu cầu cơ sở dữ liệu cần phân nhóm
phải xác định được tâm. Thuật tốn này khơng phù hợp với việc khai phá các dữ
liệu gồm các cụm có hình dạng khơng lồi hay các cụm có kích thước khác nhau.

2.1.1.2. Thuật toán PAM (Partitioning Around Medoids)
Thuật toán PAM là thuật tốn mở rộng của thuật tốn k-means, có khả năng
xử lý hiệu quả đối với dữ liệu nhiễu hoặc các phần tử ngoại lai. PAM sử dụng các


14

đối tượng medoid (lấy một đối tượng đại diện trong cụm gọi là medoid, nó là điểm

đại diện được định vị trung tâm nhất trong cụm) để biểu diễn cho các cụm dữ liệu.
Để xác định các medoid, PAM bắt đầu bằng cách lựa chọn k đối tượng
medoid bất kỳ. Sau mỗi bước thực hiện, PAM cố gắng hoán chuyển giữa đối tượng
medoid Om và đối tượng Op không phải medoid, miễn là sự hoán chuyển này nhằm
cải thiện chất lượng của phân cụm, quá trình này kết thúc khi chất lượng của phân
cụm không thay đổi. Chất lượng phân cụm được đánh giá thông qua hàm tiêu
chuẩn, chất lượng phân cụm tốt nhất khi hàm tiêu chuẩn đạt giá trị tối thiểu.
Để quyết định hoán chuyển hai đối tượng Om và Op hay khơng, thuật tốn
PAM sử dụng giá trị tổng chi phí hốn chuyển Cjmp làm căn cứ:
-

Om: là đối tượng medoid hiện thời cần thay thế.

-

Op: là đối tượng medoid mới thay thế cho Om.

-

Oj: là đối tượng khơng phải medoid, có thể được di chuyển sang cụm khác.

-

Om,2: là đối tượng medoid hiện thời khác với Om mà gần đối tượng Oj nhất.
Trong bốn trường hợp mơ tả như trên, PAM tính giá trị hốn đổi Cjmp cho tất

cả các đối tượng Oj. Trong mỗi trường hợp Cjmp được tính với bốn cách khác nhau
như sau:
+ Trường hợp 1: Giả sử Oj hiện thời thuộc về cụm có đại diện là Om và Oj
tương tự với Om,2 hơn Op, (d(Oj, Op)≥d(Oj,Om,2)). Trong trường hợp này, ta thay thế

Om bởi đối tượng medoid mới Op và Oj sẽ thuộc về cụm có đối tượng đại diện là
Om,2. Vì thế, giá trị hốn chuyển Cjmp = d(Oj, Om,2) – d(Oj, Om), giá trị Cjmp là không
âm.
+ Trường hợp 2: Oj hiện thời thuộc về cụm có đại diện là Om, nhưng Oj ít
tương tự với Om,2 so với Op (d(Oj, Op)thuộc về cụm có đại diện là Op. Vì thế, Cjmp= d(Oj, Op)-d(Oj, Om). Cjmp ở đây có thể
là âm hoặc dương.
+ Trường hợp 3: Giả sử Oj hiện thời khơng thuộc về cụm có đối tượng đại
diện là Om, mà thuộc về cụm có đối tượng đại diện là Om,2. Mặt khác, giả sử Oj


15

tương tự với Om,2 hơn so với Op, khi đó, nếu Om được thay thế bởi Op thì Oj vẫn sẽ ở
lại trong cụm có đại diện là Om,2. Do đó, Cjmp=0.
+ Trường hợp 4: Oj hiện thời thuộc về cụm có đối tượng đại diện là Om,2
nhưng Oj ít tương tự với Om,2 hơn so với Op. Vậy nên, nếu ta thay thế Om bởi Op thì
Oj sẽ chuyển từ cụm Om,2 sang cụm Op. Do đó, Cjmp= d(Oj, Op) - d(Oj, Om,2). Cjmp ở
đây luôn âm.
Kết hợp cả bốn trường hợp trên, tổng giá trị hoán chuyển Om bằng Op được
xác định như sau: TCmp= ∑
Các bước thực hiện thuật toán:
Input: Số nguyên k và CSDL gồm n đối tượng cần phân cụm.
Output: Một tập gồm k cụm mà tổng giá trị của sự khác nhau của tất cả các
đối tượng đến đối tượng tâm của nhóm chứa nó là nhỏ nhất.
Bước 1: Chọn k đối tượng medoid bất kỳ.
Bước 2: Tính TCmp cho tất cả các cặp đối tượng Om,, Op. Trong đó, Om là đối
tượng medoid và Op là đối tượng không phải medoid.
Bước 3: Với mỗi cặp đối tượng Om và Op. Tính minOm, minOp, TCmp. Nếu
TCmp là âm, thay thế Om bởi Op và quay lại bước 2. Nếu TCmp dương, chuyển sang

bước 4.
Bước 4: Với mỗi đối tượng không phải medoid, xác định đối tượng medoid
tương tự với nó nhất, đồng thời gán nhãn cụm cho chúng.
Đánh giá thuật toán PAM:
Trong bước 2 và bước 3, PAM phải duyệt tất cả k(n-k) cặp Om, Op. Với mỗi
cặp, việc tính tốn TCmp u cầu kiểm tra n-k đối tượng. Vì vậy độ phức tạp tính
tốn của PAM là O(Ik(n-k)2), trong đó I là số vịng lặp. Như vậy, thuật tốn PAM
kém hiệu quả về thời gian tính tốn khi giá trị của k và n lớn.

2.1.2. Phương pháp phân cấp (Hierarchical Methods)
Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu
đang xem xét. Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng


16

hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy. Có hai cách tiếp
cận phổ biến của kỹ thuật này là:
Tiếp cận “dưới lên” (Bottom - up): bắt đầu với mỗi đối tượng được khởi tạo
tương ứng với các cụm riêng biệt, sau đó nhóm các đối tượng theo một độ đo tương
tự (như khoảng cách giữa hai trung tâm của hai nhóm). Thuật tốn dừng khi tất cả
các nhóm được hợp thành một nhóm (nút gốc của cây) hoặc thỏa mãn điều kiện
dừng. Như vậy, cách tiếp cận này sử dụng chiến lược tham ăn trong quá trình phân
cụm.
Tiếp cận “trên xuống” (Top - Down): Bắt đầu với trạng thái là tất cả các đối
tượng được xếp trong cùng một cụm. Một vòng lặp thành công, một cụm được tách
thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi
mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn. Cách tiếp
cận này sử dụng chiến lược chia để trị trong quá trình phân cụm.
Điển hình trong phương pháp tiếp cận theo phương pháp phân cấp là các

thuật toán như: AGNES (Agglomerative Nesting), DIANA (Divisive Analysis),
BIRCH (Balance Iterative Reducing and Clustering Using Hierarchies), CURE
(Clustering Using Representatives), CHAMELEON,…
Trong áp dụng thực tế, có nhiều trường hợp kết hợp cả phương pháp phân
hoạch và phương pháp phân cấp, nghĩa là kết quả thu được của phương pháp phân
cấp có thể cải tiến thơng qua bước phân cụm phân hoạch.

2.1.2.1. Thuật toán BIRCH
Thuật toán BIRCH được đề xuất năm 1996 bởi Tian Zhang, Amakrishnan và
Livny, BIRCH là thuật toán phân cụm phân cấp sử dụng chiến lược Top-Down. Ý
tưởng của thuật tốn là khơng cần lưu toàn bộ các đối tượng dữ liệu của các cụm
trong bộ nhớ mà chỉ lưu các đại lượng thống kê. Đối với mỗi cụm dữ liệu, BIRCH
chỉ lưu một bộ ba (n, LS, SS), với n là số đối tượng trong cụm, LS là tổng các giá trị
thuộc tính của các đối tượng trong cụm và SS là tổng bình phương các giá trị thuộc
tính của các đối tượng trong cụm. Các bộ ba này được gọi là các đặc trưng của cụm
CF= (n, LS, SS) và được lưu giữ trong một cây được gọi là cây CF.


×