Tải bản đầy đủ (.pdf) (71 trang)

Tìm hiểu về khai phá dữ liệu trong giáo dục và ứng dụng trong đào tạo tại trường đại học đồng tháp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.11 MB, 71 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC VINH

NGUYỄN ĐỨC HUY

TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC
VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI
HỌC ĐỒNG THÁP

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

ĐỒNG THÁP, 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC VINH

NGUYỄN ĐỨC HUY

TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC
VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG ĐẠI
HỌC ĐỒNG THÁP
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
Mã số: 60480201

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: TS. Nguyễn Ngọc Hiếu

ĐỒNG THÁP, 2017



LỜI CAM ĐOAN

Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là
trung thực và chưa hề được sử dụng để bảo vệ một học vị nào. Mọi sự giúp đỡ
cho việc thực hiện luận văn này đã được cảm ơn và thơng tin trích dẫn trong
luận văn đã được chỉ rõ nguồn gốc rõ ràng và được phép công bố.

Đồng Tháp, ngày…tháng…năm
Học viên thực hiện luận văn

Nguyễn Đức Huy


LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới TS.
Nguyễn Ngọc Hiếu, Trường Đại học Vinh. Thầy đã dành nhiều thời gian tận
tình hướng dẫn, giúp đỡ tơi trong định hướng và thực hiện nội dung luận văn.
Tôi xin chân thành cảm ơn lãnh đạo cơ quan, bạn bè đồng nghiệp đã
cung cấp tài liệu và cho tôi những lời khuyên quý báu để thực hiện luận văn.
Tôi xin gửi lời cảm ơn tới các thầy/cô ở Trường Đại học Đồng Tháp
và Trường Đại Học Vinh đã giảng dạy chúng tôi trong suốt quá trình học tập.


MỤC LỤC
MỞ ĐẦU ............................................................................................................................................... 1
Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
TRONG GIÁO DỤC (EDM) ........................................................................ 4
1.1. Giới thiệu về EDM ........................................................................................ 4
1.2. Người dùng EDM / Bên liên quan ................................................................ 6

1.3. Một số công cụ dùng trong EDM.................................................................. 8
1.3.1. Sự quan trọng của các công cụ ..................................................................... 8
1.3.2. Giới thiệu một số công cụ ........................................................................... 9
1.3.2.1. Microsoft Excel/Google Sheets. ............................................................. 9
1.3.2.2. Structuresd Query Language (SQL). ....................................................... 10
1.3.2.3. Python and Jupyter notebook. .................................................................. 10
1.3.2.4. RapidMiner .............................................................................................. 11
1.3.2.5. KNIME ..................................................................................................... 12
1.3.2.6. Weka ........................................................................................................ 12
Chương 2: CÁC ỨNG DỤNG TRONG GIÁO DỤC VÀ KỸ THUẬT
KHAI PHÁ DỮ LIỆU ............................................................................................ 14
2.1. Giới thiệu........................................................................................................ 14
2.2. Khả năng phân tích và tính trực quan của dữ liệu.......................................... 14
2.3. Cung cấp thông tin phản hồi để hỗ trợ giáo viên hướng dẫn ......................... 15
2.4. Dự đoán kết quả học tập................................................................................. 18
2.5. Cơ sở lý thuyết của luật kết hợp..................................................................... 19
2.5.1. Lý thuyết về luật kết hợp............................................................................. 19
2.5.2. Một số tính chất của luật kết hợp ................................................................ 22
2.5.3. Phát biểu bài toán khai phá luật kết hợp ..................................................... 24
2.5.4. Một số hướng tiếp cận trong khai phá luật kết hợp .................................... 25
2.6. Các đặc trưng của luật kết hợp ....................................................................... 28
2.6.1. Khơng gian tìm kiếm của luật ...................................................................... 28
2.6.2. Độ hỗ trợ của luật ......................................................................................... 31


2.7. Cây quyết định ................................................................................................ 32
2.7.1. Định nghĩa cây quyết định ........................................................................... 32
2.7.2. Ưu điểm của cây quyết định......................................................................... 33
2.7.3. Vấn đề xây dựng cây quyết định .................................................................. 33
2.7.4. Các thuật toán khai phá dữ liệu bằng cây quyết định .................................. 33

2.8. Phân tích trực tuyến (OLAP) ......................................................................... 40
2.8.1. OLAP ........................................................................................................... 40
2.8.2. Kiến trúc các thành phần OLAP trong SSAS .............................................. 40
2.8.2.1. Cube .......................................................................................................... 41
2.8.2.2. Dimension ................................................................................................. 41
2.8.2.3. Measure ..................................................................................................... 41
2.8.3. Các mơ hình lưu trữ cho OLAP ................................................................... 41
2.8.3.1. Mơ hình Multidimensional OLAP (MOLAP): ......................................... 41
2.8.3.2. Mơ hình Relational OLAP (ROLAP): ...................................................... 43
2.8.3.3. Mơ hình Hybird OLAP (HOLAP): ........................................................... 44
2.9. Ứng dụng khai phá dữ liệu ở Đại học Đồng Tháp ......................................... 44
Chương 3: ỨNG DỤNG KHAI PHÁ LUẬT KẾT HỢP VÀ CÂY QUYẾT ĐỊNH
TRONG ĐÀO TẠO ............................................................................................... 46
3.1. Bài toán .......................................................................................................... 46
3.2. Xây dựng cơ sở dữ liệu:. ................................................................................ 46
3.3. Xây dựng kho dữ liệu từ cơ sở dữ liệu đã có ................................................. 51
3.4. Khai phá từ kho dữ liệu ................................................................................... 54
3.4.1. Phân tích OLAP ........................................................................................... 54
3.4.2. Xây dựng mơ hình khai phá ......................................................................... 55
3.4.3. Phân tích kết quả đạt được: .......................................................................... 60

KẾT LUẬN ................................................................................................... 62
TÀI LIỆU THAM KHẢO ............................................................................. 63


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
EDM

Educational Data Mining


DM

Data Mining

OLAP

On-Line Analytical Prosessing


DANH MỤC CÁC HÌNH VẼ
Bảng 2.5.1.1: Ví dụ về một cơ sở dữ liệu dạng giao dịch –D .................... 20
Bảng 2.5.1.2 : Các tập phổ biến trong cơ sở dữ liệu ở bảng 1với độ hỗ trợ tối
thiểu 50%..................................................................................................... 21
Hình 2.6.1.1: Dàn cho tập I = {1,2,3,4} ...................................................... 29
Hình 2.6.1.2: Cây cho tập I = {1, 2, 3, 4} ................................................... 30
Hình 3.1. Danh sách bảng điểm lớp CNTT08b .......................................... 42
Hình 3.2. Sơ đồ cơ sở dữ liệu quan hệ về điểm ở trường Đại Học Đồng Tháp
..................................................................................................................... 43
Hình 3.3. Bảng điểm sinh viên lớp CNTT08b…………………………….45


1

MỞ ĐẦU
1. Sự cần thiết của vấn đề nghiên cứu
Ngày nay công nghệ thông tin luôn luôn phát triển và khơng ngừng đổi
mới, cùng với sự phát triển đó là các hệ thống thơng tin phục vụ việc tự động
hố trong các lĩnh vực của con người cũng được triển khai vượt bậc. Điều đó
đã tạo ra những dịng dữ liệu khổng lồ. Nhiều hệ quản trị CSDL mạnh cũng
đã ra đời giúp chúng ta khai thác hiệu quả nguồn tài nguyên đã thu thập

được. Với lượng dữ liệu, thông tin thu thập được ngày càng nhiều như
vậy đòi hỏi chúng ta phải trích rút ra những thơng tin tiềm ẩn nhằm đưa ra
các quyết định đúng đắn trong công việc. Xuất phát từ thực tiễn đó, vào
những năm cuối của thế kỷ 20 khai phá dữ liệu ra đời. Đây là một lĩnh vực
nghiên cứu khá mới mẻ của ngành khoa học máy tính và khai phá tri thức
(KDD). Nó đã thu hút sự quan tâm của rất nhiều người ở các lĩnh vực khác
nhau như : các hệ CSDL, thống kê, nhận dạng, máy học, trí tuệ nhân tạo...
Khai phá dữ liệu sử dụng các công cụ phân tích dữ liệu như: truy vấn,
báo cáo, dịch vụ phân tích trực tuyến (OLAP, ROLAP, MOLAP) để tìm ra
các mẫu có giá trị trong kho dữ liệu. Khai phá dữ liệu đã và đang được ứng
dụng thành công vào các ngành thương mại, tài chính, kinh doanh, sinh học, y
học, giáo dục, viễn thông...
Trong việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của
đời sống, khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan
tâm đúng mức. Chúng ta cần phải nhìn nhận rằng giáo dục là nhân tố quyết
định sự phát triển của đất nước về nhiều mặt. Mục tiêu phát triển xã hội một
cách bền vững đang đặt ra cho giáo dục những yêu cầu mới. Giáo dục
đào tạo có nhiệm vụ định hướng và hoạch định chính sách cho đối tượng
chính của giáo dục là thế hệ trẻ, là lực lượng kế thừa của việc xây dựng, bảo
vệ và phát triển đất nước trong tương lai một cách đúng đắn và kịp thời.
Chính vì vậy,việc định hướng và xây dựng chính sách trong Giáo dục Đào tạo


2

cần phải được hỗ trợ bởi các công cụ khoa học để tránh những sai lầm đáng
tiếc. Trong số những cơng cụ đó, khai phá dữ liệu là một cơng cụ hữu ích và
có tính khoa học cao, giúp các nhà quản lý giáo dục có được những tri thức
quý giá phục vụ cho công tác quản lý và sinh viên cũng có thể sử dụng những
kết quả hữu ích từ quá trình chắt lọc dữ liệu trong khai phá dữ liệu.

Đã có nhiều nghiên cứu cũng như hội thảo cùng các tổ chức được thành
lập nhằm nâng cao khả năng của EDM như tổ chức Institute of Electrical and
Electronics Engineers. Bên cạnh đó là nhiều đề tài nghiên cứu của các Thạc sĩ
Tiến sĩ trong nước để từng bước nâng cao khả năng ứng dụng khai phá dữ liệu
vào giải quyết những công việc trong công tác giáo dục đạt hiệu quả cao,
bằng những kinh nghiệm thực tế và qua kiến thức thu thập được. Nhưng việc
ứng dụng nó vào trong việc giáo dục tại trường đại học Đồng Tháp vẫn chưa
rõ ràng, chính vì vậy tơi chọn đề tài “TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU
TRONG GIÁO DỤC VÀ ỨNG DỤNG TRONG ĐÀO TẠO TẠI TRƯỜNG
ĐẠI HỌC ĐỒNG THÁP”. Nội dung chính của đề tài là đi sâu vào tìm hiểu
một số thuật tốn khai phá luật kết hợp ứng dụng trong công tác đào tạo của
trường đại học Đồng Tháp.
Kết quả nghiên cứu sẽ cung cấp các thông tin hỗ trợ cho sinh viên lựa
chọn môn học,ngành học, hướng nghiên cứu, đồng thời hỗ trợ cán bộ làm
cơng tác tư vấn đào tạo, cán bộ phịng đào tạo được thuận lợi hơn trong công
tác đào tạo.
2. Mục tiêu nghiên cứu
 Nghiên cứu phương pháp khai phá tìm luật kết hợp dựa trên dữ liệu
giáo dục.
 Ứng dụng thực hiện nghiên cứu để xây dựng mơ hình khai phá dữ liệu
dựa vào chuẩn chất lượng của Bộ Giáo Dục và kết quả học tập đã thu thập
được của sinh viên trường Đại Học Đồng Tháp. Từ đó,triển khai xây dựng
ứng dụng thử nghiệm từ mơ hình đã được xây dựng nhằm xây dựng một lộ


3

trình học cho sinh viên có thể đạt kết quả tối ưu nhất khi ra trường phù hợp
với điều kiện và năng lực của mình.
3. Đối tượng và phạm vi nghiên cứu

3.1. Đối tượng nghiên cứu
- Kỹ thuật khai phá dữ liệu.
- Dữ liệu đào tạo.
3.2. Phạm vi nghiên cứu
- Ứng dụng của EDM ở trường Đại học Đồng Tháp
4. Nội dung nghiên cứu
Tìm hiểu về EDM và ứng dụng trong đào tạo tại trường Đại học Đồng Tháp
5. Kết cấu của luận văn
Chương 1: Tổng quan về khai phá dữ liệu trong giáo dục
Chương 2: Các nhiệm vụ giáo dục và kỹ thuật khai phá dữ liệu
Chương 3: Ứng dụng khai phá luật kết hợp và cây quyết định trong đào
tạo


4

Chương 1: TỔNG QUAN
VỀ KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC (EDM)
1.1 . Giới thiệu về EDM
Educational Data Mining (EDM) là việc áp dụng các kỹ thuật của Data
Mining (DM) trong giáo dục, vì vậy mục tiêu của nó là phân tích các loại dữ
liệu để giải quyết các vấn đề trong giáo dục.
EDM là việc phát triển các phương pháp để khám phá các dữ liệu
trong môi trường giáo dục, và sử dụng những phương pháp này, để hiểu rõ
hơn các sinh viên, hiệu quả của chương trình giáo dục và sinh viên có thể
nhận được gì từ nó. Một mặt sự gia tăng các phần mềm giáo dục và cơ sở dữ
liệu về sinh viên của nhà nước cho phép chúng ta có được một dữ liệu khổng
lồ về việc học của sinh viên. Mặt khác, việc sử dụng INTERNET trong giáo
dục cho đã tạo ra một cách dạy học mới được biết đến như là giáo dục trực
tuyến (E-Learning) nơi mà cung cấp cho học viên một lượng tri thức một cách

chủ động dù họ đang ở bất cứ đâu. Tất cả những thông tin và dữ liệu này là
một mỏ vàng cho dữ liệu của giáo dục. EDM cho phép sử dụng kho dữ liệu
đồ sộ đó một cách hiệu quả hơn. EDM đã nổi lên như là một lãnh vực mới
trong những năm gần đây cho những nhà nghiên cứu trên khắp thế giới ở các
lãnh vực khác nhau.
E-learning và các hệ thống quản lý học tập (LMS). Giáo dục điện tử
cung cấp hướng dẫn trực tuyến và LMS cũng cung cấp thông tin liên lạc, phối
hợp, điều hành và các công cụ báo cáo. Web Mining (WM) là kỹ thuật đã
được áp dụng cho dữ liệu học sinh được lưu trữ bởi các hệ thống này trong
các tập tin đăng nhập và cơ sở dữ liệu.
EDM thực hiện việc chuyển đổi dữ liệu thô từ hệ thống giáo dục thành
thơng tin hữu ích có tác động lớn vào việc nghiên cứu giáo dục và thực hành.
Q trình này khơng khác với nhiều lĩnh vực ứng dụng khác của khai thác dữ


5

liệu giống như kinh doanh, di truyền học, y học, vv vì nó theo các bước tương
tự như q trình khai thác tổng hợp dữ liệu: pre-processing, data mining and
post-processing. Tuy nhiên, điều quan trọng là phải nhận thấy rằng data
mining được sử dụng theo một ý nghĩa lớn hơn so với định nghĩa truyền
thống DM. Đó là, chúng ta sẽ mô tả các nghiên cứu EDM không chỉ sử dụng
kỹ thuật DM tiêu biểu như phân loại, phân nhóm khai thác luật kết hợp, khai
thác liên tục, khai thác văn bản,…Mà còn các cách tiếp cận khác như hồi qui,
tương quan, trực quan…
Từ một quan điểm thực tế EDM cho phép khám phá kiến thức mới dựa
trên dữ liệu sử dụng của học sinh để giúp xác nhận / đánh giá hệ thống giáo
dục, Một số ý tưởng tương tự đã được áp dụng thành công trong các hệ thống
thương mại điện tử, ứng dụng đầu tiên và phổ biến nhất của khai thác dữ liệu.
Tuy nhiên, có tương đối ít sự tiến bộ theo hướng Giáo dục cho đến nay, mặc

dù tình hình này đang thay đổi và hiện nay có sự quan tâm ngày càng tăng
trong việc áp dụng khai thác dữ liệu cho môi trường giáo dục. Mặc dù vậy, có
một số vấn đề quan trọng về sự khác biệt về cách ứng dụng của DM cho giáo
dục so với cách nó được áp dụng trong các lĩnh vực khác. (xem [6])


Mục tiêu. Mục tiêu của khai thác dữ liệu trong mỗi lĩnh vực ứng dụng

là khác nhau Ví dụ, trong kinh doanh là mục tiêu chính là để tăng lợi nhuận,
đó là dữ liệu hữu hình và có thể được đo bằng số tiền, số lượng khách hàng và
lòng trung thành của khách hàng. Nhưng EDM có cả mục tiêu nghiên cứu ứng
dụng, chẳng hạn như cải thiện quá trình học tập và hướng dẫn học tập của
sinh viên; cũng như mục tiêu nghiên cứu thuần túy, chẳng hạn như việc đạt
được một sự hiểu biết sâu sắc hơn về hiện tượng giáo dục.


Dữ liệu. Trong mơi trường giáo dục có nhiều loại dữ liệu khác nhau.

Có những dữ liệu cụ thể cho chuyên ngành khác nhau và do đó cónhững học
thuật riêng biệt.


Kỹ thuật. dữ liệu giáo dục và các vấn đề có một số đặc điểm đặc biệt


6

đòi hỏi các vấn đề khai thác được đối xử một cách khác nhau. Mặc dù hầu hết
các kỹ thuật DM truyền thống có thể được áp dụng trực tiếp, một số khác thì
khơng thể.

EDM liên quan đến các nhóm khác nhau của người dùng hoặc người
tham gia. Các nhóm khác nhau nhìn vào thơng tin giáo dục từ các góc độ khác
nhau tùy theo nhiệm vụ riêng, tầm nhìn và mục tiêu của họ cho việc sử dụng
khai thác dữ liệu.
1.2. Người dùng EDM / Bên liên quan (xem [6])
Users

Mục tiêu cho việc sử dụng khai thác
dữ liệu
Để tự chủ hơn trong việc học, giới
thiệu các hoạt động cho người học và
các nguồn lực và các nhiệm vụ học

Người học/ học sinh/sinh viên

tập mà có thể cải thiện hơn nữa việc
học tập của mình; chỉ ra kinh nghiệm
học tập thú vị cho học sinh; giới
thiệu các khóa học, thảo luận có liên
quan, các cuốn sách hay…
Để có được thơng tin phản hồi khách
quan về giảng dạy; để phân việc tích
học tập và hành vi của học sinh; để

Người làm sư phạm/ giáo viên/ người
hướng dẫn/ gia sư

phát hiện các sinh viên cần được hỗ
trợ; để dự đoán kết quả học tập; để
phân loại học viên thành các nhóm;

để xác định các sai sót thường gặp; để
xác định các hoạt động hiệu quả; để
cải thiện sự thích ứng và tùy biến của


7

các khóa học…
Để đánh giá và duy trì chương trình
học; để cải thiện việc học của học
sinh; để đánh giá cấu trúc của nội
dung khóa học và hiệu quả của nó
trong q trình học tập; để tự động
Các nhà nghiên cứu giáo dục

xây dựng mơ hình sinh viên và các
mơ hình gia sư; dùng kỹ thuật khai
phá dữ liệu để tìm ra các phần có hiệu
quả cao nhất; để phát triển các công
cụ khai thác dữ liệu cụ thể cho các
mục đích giáo dục…
Để tăng cường các q trình đưa ra
quyết định trong tổ chức các khóa học
tập cao hơn; tăng tính hiệu quả trong
q trình ra quyết định; để đạt được

Các tổ chức/ trường học/ các khóa mục tiêu cụ thể; cho thấy các khóa
đào tạo riêng cho các tập đồn.

học nhất định của người học nhất

định sẽ có giá trị; để tìm ra cách hiệu
quả nhất để cải thiện duy trì và cơng
việc; để chọn các ứng viên đủ điều
kiện nhất tốt nghiệp…
Để tận dụng nguồn lực sẵn có hiệu

Quản trị viên / người quản trị mạng /
quản trị hệ thống

quả hơn; để tăng cường sự hiệu quả
của chương trình giáo dục và xác định
hiệu quả của các phương pháp đào tạo
từ xa; để đánh giá giáo viên và


8

chương trình giảng dạy; để thiết lập
các thơng số cho việc cải thiện hiệu
suất trang web và thích nghi cho
người sử dụng (kích thước máy chủ
tối ưu, phân phối lưu lượng mạng, ...).

1.3. Một số công cụ dùng trong EDM
1.3.1. Sự quan trọng của các công cụ
Trong EDM, cũng như trong các lĩnh vực khác của khai thác dữ liệu thì
việc chuyển đổi dữ liệu thơ và dữ liệu chưa sắp xếp vào các biến có ý nghĩa
là thách thức lớn đầu tiên trong quá trình này.Thường thì dữ liệu ở trong các
hình thức (và các định dạng) khơng phải là sẵn sàng để phân tích; dữ liệu
khơng chỉ cần được chuyển đổi sang một định dạng có ý nghĩa hơn, mà cịn

cần thêm vào đó các biến có ý nghĩa cho việc thiết kế. Ngoài ra, dữ liệu cần
phải được thường xuyên kiểm tra lại để loại bỏ trường hợp và giá trị mà
không chỉ đơn giản là giá trị ngoại lai mà cịn thiếu chính xác.
Ngồi ra, dữ liệu cần phải thường được làm sạch để loại bỏ các trường
hợp và các giá trị mà không phải chỉ đơn giản là giá trị ngoại lai nhưng chủ
động không chính xác. Chúng ta sẽ bắt đầu với tổng quan về hai cơng cụ rất
thích hợp cho các thao tác, làm sạch, và định dạng của dữ liệu cũng như kỹ
thuật tính năng và tạo dữ liệu: Microsoft Excel, Google Sheets.
Sau khi làm sạch dữ liệu, và chuyển đổi sang một định dạng hoàn toàn
khả thi hơn, câu hỏi tiếp theo phải đối mặt với một nhà nghiên cứu EDM là
phân tích-những thí nghiệm có thể được thực hiện, những mơ hình có thể
được xây dựng, những mối quan hệ có thể được ánh xạ và khám phá, và làm
thế nào chúng ta có thể xác nhận những phát hiện là đúng.
Một khi một nhà nghiên cứu đã tiến hành được việc phân tích và có
hiệu quả, mơ hình hoạt động tốt, nghiên cứu này sau đó thường sẽ được chia


9

sẽ với các nhà nghiên cứu khác và các học viên trong các trường học và các
trường đại học hoặc phát triển chương trình giảng dạy.
Trước khi khai thác dữ liệu có thể được thực hiện, tập hợp dữ liệu trước
tiên phải được làm sạch và chuẩn bị từ trạng thái thơ của họ. Trong khi vấn đề
này thường có với bất kỳ dữ liệu, người khai thác dữ liệu thường làm việc với
các dữ liệu hỗn độn hơn thống kê và psychometricians; thay vì thử nghiệm
hoặc khảo sát dữ liệu có ý nghĩa ghi nhận, người khai thác dữ liệu thường
xuyên làm việc với các dữ liệu đăng nhập hoặc học hệ thống quản lý (LMS)
dữ liệu được ghi trong các hình thức mà khơng phải là ngay lập tức áp dụng
các nghiên cứu. Người nghiên cứu có kinh nghiệm làm việc với các loại dữ
liệu giáo dục biết rằng nó là lộn xộn; đơi khi khơng đầy đủ; đôi khi ở một số

bộ phận phải được sáp nhập; và đôi khi trong các định dạng quen thuộc, bất
tiện, hoặc rất bất thường và đáng ngạc nhiên. Một nhà nghiên cứu có thể quan
tâm đến việc phân tích các sinh viên, nhưng dữ liệu của họ có thể bao gồm
các hành động systemlogged.
Khi tính năng đã được thiết kế, biến kết quả và thực địa đã được dán
nhãn và dữ liệu đã được lấy mẫu và cấu trúc thích hợp để phân tích, bước tiếp
theo là bắt đầu phân tích và mơ hình hóa các tập dữ liệu và xác nhận các mơ
hình kết quả. Các cơng cụ được liệt kê trong phần sau đây cung cấp một loạt
các thuật tốn và các khn khổ mơ hình có thể được sử dụng để mơ hình hóa
và dự đốn các quá trình và các mối quan hệ trong dữ liệu giáo dục.
1.3.2. Giới thiệu một số công cụ(xem[5])
1.3.2.1. Microsoft Excel/Google Sheets
Microsoft Excel là công cụ dễ tiếp cận nhất cho các nhà nghiên cứu
quan tâm đến thao tác, và chúng có một khả năng tuyệt vời để làm làm cho
các dữ liệu có thể dễ dàng nhìn thấy cũng như là chỉnh sửa các dữ liệu. Gần
đây xuất hiện thêm Google Sheets. Những cơng cụ này khơng hữu ích cho các


10

biến kỹ thuật trong bộ dữ liệu rất lớn (như dữ liệu bộ hơn 1 triệu hàng), nhưng
chúng là những công cụ tuyệt vời cho các dữ liệu quy mô nhỏ hơn.
Một trong những lý do quan trọng cho tính hữu dụng của Excel và
Sheets để phân tích đợt đầu và tạo mẫu các tính năng dữ liệu mới bởi sự trình
bày dữ liệu rõ ràng trong một giao diện hoàn toàn trực quan. Điều này làm
cho người nghiên cứu dễ dàng để xác định các vấn đề về cấu trúc hoặc ngữ
nghĩa trong dữ liệu.
Những công cụ này cũng giúp thiết kế các tính năng mới, áp dụng
nhanh các tính năng này với tồn bộ bảng và kiểm tra trực quan các tính năng
trên một loạt các dữ liệu cho hoạt động thích hợp.

Tuy nhiên, Excel và Sheets khơng phải là lý tưởng cho tất cả các loại
tính năng sáng tạo. Tạo ra tính năng địi hỏi phải quy tụ các dữ liệu khác nhau
có liên quan đến việc phân loại và tái phân loại các dữ liệu nhiều lần, làm khó
theo dõi các việc đã được thực hiện. Và cũng là cho nó dễ dàng thay đổi ngữ
nghĩa của tính năng.
Quan trọng hơn, Excel và Sheets có giới hạn về số lượng dữ liệu và vận
hành để vẫn duy trì hiệu suất hợp lý.
1.3.2.2. Structured Query Language (SQL)
SQL được sử dụng để thiết lập một số cơ sở dữ liệu (nhưng khơng phải
tất cả). truy vấn SQL có thể là một phương pháp mạnh mẽ để trích xuất chính
xác các dữ liệu mong muốn, đơi khi được tích hợp trên nhiều bảng cơ sở dữ
liệu. Nhiều nhiệm vụ lọc cơ bản, chẳng hạn như lựa chọn một tập hợp cụ thể
của học sinh hoặc lấy dữ liệu từ một phạm vi ngày cụ thể, nhanh hơn đáng kể
trong SQL
Tuy nhiên, SQL có thể là một ngơn ngữ hơi phiền phức cho việc tạo ra
các tính năng phức tạp trong với các tính năng kỹ thuật. SQL có thể làm việc
hiệu quả trong việc kết hợp với các công cụ khác.
1.3.2.3. Python and Jupyter notebook


11

Đối với các nhà nghiên cứu dữ liệu có kiến thức lập trình, đây là một
trong số ít các ngơn ngữ mà đặc biệt phù hợp với các thao tác dữ liệu và tính
năng kỹ thuật. Python được nhiều người xem là một ngơn ngữ đặc biệt hữu
ích cho nhiều mục đích. Đặc biệt, các vấn đề về kỹ thuật phụ thuộc vào ngữ
cảnh hay thời gian đều được thực hiện dễ dàng hơn trong Python hơn là trong
Excel hoặc Google Sheets. Một tính năng hữu ích khác là Jupyter notebook,
nó lưa giữ kết quả của các phân tích được tiến hành và kết quả trung gian,
hiển thị mỗi hành động người dùng và kết quả của nó, theo thứ tự. Tuy nhiên,

bất chấp lợi thế này, thì vẫn dễ dàng hơn để kiểm tra trực quan dữ liệu và thiết
lập các tính năng bằng Excel hoặc Google Sheets. Dữ liệu bị mất, trường hợp
trùng lặp, hoặc các giá trị bất thường có thể đặc biệt khó khăn để xác định
trong tập hợp dữ liệu, và xác nhận các tính năng thiết kế có thể có nhiều thời
gian, đặc biệt là cho các lập trình viên mới làm quen. Ngồi ra, Python có thể
xử lý nhiều loại khác nhau của các định dạng dữ liệu khác thường hoặc
chuyên ngành. Mặc dù Python có khả năng tính tốn mạnh hơn so với các
cơng cụ khác, năng lực của nó trong các lĩnh vực này không phải là vô hạn.
1.3.2.4. RapidMiner
RapidMiner là một gói phần mềm dùng để tiến hành khai thác dữ liệu
phân tích và tạo ra các mơ hình. Những chức năng của nó có giới hạn tính
năng cho kỹ thuật mới ngồi các tính năng hiện có và khả năng lựa chọn tính
năng. Tuy nhiên, RapidMiner có một tập hợp vơ cùng phong phú của các
thuật tốn phân loại và hồi quy cũng như các thuật toán để phân nhóm, khai
thác luật kết hợp, và các ứng dụng khác.
Được viết trên ngơn ngữ lập trình Java. Cơng cụ này đã cung cấp mẫu
phân tích tiên tiến, thơng qua các khơngg mẫu. Một ưu điểm của chương trình
này là người dùng không cần phải nhập code nào cả. RapidMiner cũng có một
loạt các số liệu có sẵn để đánh giá mơ hình và có thể hiển thị trực quan như
đường cong thu-hành để giúp người dùng đánh giá mơ hình.


12

Ngoài việc khai thác dữ liệu, RapidMiner cũng cung cấp các chức năng
như tiền xử lý dữ liệu và hình ảnh, kiểu phân tích và mơ hình thống kê, đánh
giá và triển khai. Điều gì làm cho nó mạnh mẽ hơn nữa là nó cung cấp
chương trình học tập, mơ hình và các thuật tốn từ WEKA and R scripts.
1.3.2.5. KNIME
Dữ liệu được xử lý chủ yếu có ba phần: extraction, transformation and

loading. KNIME làm cả ba. Nó cung cấp cho bạn một giao diện người dùng
đồ họa để dùng cho việc xử lý dữ liệu các nút của thành phần.Nó là một mã
nguồn mở, tích hợp dữ liệu phân tích báo cáo và nền tảng.
Được xây dựng trên Eclipse IDE, KNIME là một phần mềm miễn phí
dành các nhà nghiên cứu. người sử dụng có tay nghề cũng có thể xây dựng
các phần mở rộng của riêng của họ, mặc dù có hàng trăm nút để xử lý dữ liệu,
mơ hình và phân tích, điều này thường khơng cần thiết.
Môi trường làm việc của KNIME chủ yếu kéo-và-thả, và rất trực quan.
Nó phục vụ cho người dùng mới làm quen những người có thể chỉ đơn giản là
muốn dữ liệu trực quan, thông qua các nhà khoa học dữ liệu, những người cần
để xây dựng quy trình cơng việc phức tạp và các mơ hình tiên đốn tinh vi.
KNIME là đã mở nền tảng phân tích nguồn vẫn đang được tích cực phát triển
- và có vẻ như nó sẽ ở lại như vậy.
1.3.2.6. WEKA
Dựa trên phiên bản Java, nên công cụ này rất phức tạp và sử dụng trong
nhiều ứng dụng khác nhau.
WEKA hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, bao gồm
dữ liệu tiền xử lý, cụm, phân loại, hồi qui, trực quan và tính năng. Người
dùng có thể gọi các thuật tốn khai thác dữ liệu từ dòng lệnh, giao diện người
dùng đồ họa, hoặc bằng cách gọi các thuật toán từ một API Java. Các giao
diện dòng lệnh và các API mạnh hơn so với giao diện đồ họa, mà không cho
người dùng truy cập vào tất cả các chức năng tiên tiến. WEKA có thể xuất ra


13

các mơ hình nó tạo ra hoặc trong điều khoản của mơ hình tốn học thực sự
hay về ngơn ngữ đánh dấu mơ hình dự đốn.



14

CHƯƠNG 2: CÁC ỨNG DỤNG TRONG GIÁO DỤC VÀ KỸ THUẬT
KHAI PHÁ DỮ LIỆU
2.1. Giới thiệu
Có rất nhiều ứng dụng hoặc các công việc trong các môi trường giáo
dục đã được giải quyết thơng qua DM. Có bốn lĩnh vực chính của ứng dụng
cho EDM: cải thiện mơ hình sinh viên, cải thiện các mơ hình miền, nghiên
cứu hỗ trợ sư phạm cung cấp bởi phần mềm học tập, nghiên cứu khoa học vào
học tập và học viên; và năm phương pháp: dự đoán, clustering, khai thác mối
quan hệ, chưng cất dữ liệu để xét đoán con người và khám phá với các mơ
hình. Castro gợi ý các đối tượng sau: ứng dụng đối phó với việc đánh giá hiệu
suất học tập của học sinh, ứng dụng cung cấp các khóa học thích ứng và học
tập khuyến nghị dựa trên hành vi của học sinh học tập, phương pháp tiếp cận
đối phó với việc đánh giá học tập tài liệu và các khóa học giáo dục dựa trên
web, ứng dụng liên quan đến thông tin phản hồi để giáo viên và học sinh
trong các khóa học e-learning, và phát triển để phát hiện khơng điển hình học
sinh học hành vi. Tuy nhiên, như chúng ta nghĩ rằng có có thể nhiều ứng dụng
hơn, chúng tôi đã thành lập chuyên mục riêng của chúng tơi cho các nhiệm vụ
giáo dục chính mà tôi đã sử dụng các kỹ thuật khai thác dữ liệu. Các loại này
đến từ các cộng đồng nghiên cứu khác nhau và họ cũng sử dụng các tác vụ
DM khác nhau và kỹ thuật. Một mặt, chúng ta có thể thấy là cộng đồng tích
cực nhất là e-learning / LMS và ITS / AEHS. Mặt khác, chúng ta sẽ thấy
trong phần phụ sau đó tác vụ DM áp dụng phổ biến nhất là hồi quy, phân
cụm, phân loại và luật kết hợp khai thác khoáng sản; và các kỹ thuật DM sử
dụng nhiều nhất / phương pháp cây quyết định, mạng nơron và mạng Bayes.
2.2. Khả năng phân tích và tính trực quan của dữ liệu
Mục tiêu của phân tích và hiển thị dữ liệu là để làm nổi bật thơng tin
hữu ích và hỗ trợ việc ra quyết định.Trong mơi trường giáo dục, nó có thể
giúp các nhà giáo dục và quản trị khóa học để phân tích các hoạt động học



15

của học sinh và thơng tin sử dụng để có được một cái nhìn tổng quát về việc
học tập của học sinh. Thống kê và thông tin trực quan là hai kỹ thuật chính đã
được sử dụng rộng rãi nhất cho nhiệm vụ này.
Thống kê là một mơn tốn học khoa học liên quan đến việc thu thập,
phân tích, hoặc giải thích, và trình bày dữ liệu. Nó là tương đối dễ dàng để có
được thống kê mơ tả cơ bản từ phần mềm thống kê như SPSS. Được sử dụng
với dữ liệu giáo dục, phân tích mơ tả này có thể cung cấp như đặc điểm dữ
liệu tồn cầu như tóm tắt và báo cáo về hành vi của người học. Phân tích
thống kê số liệu giáo dục có thể cho biết những thứ như: các trang phổ biến
nhất, các trình duyệt sinh viên có xu hướng sử dụng. Mặt khác, giáo viên tìm
thấy số liệu thống kê hạt mịn trong dữ liệu đăng nhập quá cồng kềnh để kiểm
tra hoặc quá tốn nhiều thời gian để giải thích. (xem [3])
Thông tin trực quan sử dụng kỹ thuật đồ họa để giúp mọi người hiểu và
phân tích dữ liệu. Hình ảnh đại diện và các kỹ thuật tương tác tận dụng lợi thế
của khả năng quan sát của con người để cho phép người dùng xem, khám phá và
hiểu được một lượng lớn các thông tin cùng một lúc. Có một số nghiên cứu hướng
tới việc hình dung dữ liệu giáo dục khác nhau như: mơ hình hành vi người dùng
hàng năm, theo mùa, từng ngày, từng giờ trên các diễn đàn trực tuyến.
2.3. Cung cấp thông tin phản hồi để hỗ trợ giáo viên hướng dẫn
Mục tiêu là để cung cấp thông tin phản hồi để hỗ trợ khóa học tác
giả/giáo viên/quản trị viên trong việc ra quyết định và cho phép họ thực hiện
hành động chủ động hoặc xử lý thích hợp. Điều quan trọng là biết rằng nhiệm
vụ này là khác hẳn so với việc phân tích dữ liệu, nó chỉ cung cấp thơng tin cơ
bản trực tiếp từ dữ liệu. Hơn nữa, cung cấp thông tin phản hồi hồn tồn mới,
thơng tin ẩn và thú vị được tìm thấy trong dữ liệu. Một số kỹ thuật DM đã
được sử dụng trong công việc này, mặc dù vậy khai phá luật kết hợp là phổ

biến nhất. khai thác luật kết hợp tiết lộ mối quan hệ thú vị giữa các biến trong


16

cơ sở dữ liệu lớn và trình bày chúng trong các hình thức quy tắc mạnh mẽ
theo các mức độ khác nhau của sự quan tâm họ có thể trình bày
Có nhiều nghiên cứu áp dụng / so sánh một số mơ hình khai thác dữ
liệu cung cấp thơng tin phản hồi. luật kết hợp, phân nhóm, phân loại, phân
tích mơ hình tuần tự, mơ hình phụ thuộc và dự đốn đã được sử dụng để nâng
cao mơi trường học tập dựa trên web để cải thiện mức độ mà các nhà giáo dục
có thể đánh giá q trình học tập. Phân tích liên kết, phân tích phân nhóm và
lập luận theo tình huống cũng đã được sử dụng để tổ chức các khóa học và
giao bài tập về nhà ở các cấp khó khác nhau. Phân loại và khai thác luật kết
hợp đã được áp dụng để phát triển một dịch vụ cho phép người đánh giá để
thu thập thơng tin phản hồi từ q trình học tập tự động và do đó đánh giá
hiệu quả khóa học trực tuyến. mơ hình Bayes và kỹ thuật dự báo khác đã
được đề xuất để giải quyết nhập học và quá trình tư vấn để hỗ trợ trong việc
cải thiện chất lượng giáo dục và kết quả học tập. Một số thuật toán phân loại
đã được áp dụng để dự đoán xem các giáo viên sẽ đề nghị một chiến lược can
thiệp cho các cấu hình động lực.
Quy tắc khai thác đã được sử dụng để đối đầu với những vấn đề của
thơng tin phản hồi liên tục trong q trình giáo dục; để phân tích dữ liệu học
tập và tìm hiểu xem học sinh sử dụng các nguồn lực và có thể sử dụng cho dù
họ có bất kỳ tác động (tích cực), để xác định mối quan hệ giữa mỗi mơ hình
học tập hành vi để các giáo viên có thể thúc đẩy hành vi học tập hợp tác trên
Web, để tìm thơng tin được nhúng, có thể được cung cấp cho giáo viên để
phân tích sâu hơn, tinh chỉnh hoặc sắp xếp lại các tài liệu giảng dạy, kiểm tra
trong mơi trường học tập thích nghi, để khám phá sự thú vị giữa các thuộc
tính sinh viên, vấn đề thuộc tính và các chiến lược giải pháp để cải thiện hệ

thống giáo dục trực tuyến cho cả giáo viên và học sinh. để phân tích các biện
pháp đánh giá quy tắc để khám phá các quy tắc thú vị nhất, để xác định các


17

mẫu học tập thú vị và bất ngờ do đó có thể cung cấp các dây chuyền quyết
định cho phép giáo viên để tổ chức hiệu quả hơn cơ cấu giảng dạy của họ
Các kỹ thuật DM khác nhau đã được áp dụng để cung cấp thông tin
phản hồi, chẳng hạn như: miền khai phá dữ liệu tương tác cụ thể để tìm ra mối
quan hệ giữa các dữ liệu đăng nhập và hành vi của sinh viên trong một hệ
thống giáo dục, thời gian khai thác dữ liệu để mơ tả, giải thích và dự đốn
hành vi của sinh viên, và đánh giá sự tiến bộ trong quan hệ với kết quả học
tập trong ITSS, cảnh báo kịp thời phát hiện các mơ hình giảng dạy và học tập
quan trọng và để giúp giáo viên có ý nghĩa của những gì đang xảy ra trong lớp
học, phân tích dữ liệu sử dụng để nâng cao hiệu quả của quá trình học tập
trong các hệ thống e-learning.
Một loại đặc biệt của thông tin phản hồi là khi dữ liệu đi cụ thể từ các
bài kiểm tra, các câu hỏi, đánh giá. Trong trường hợp này, mục tiêu là để phân
tích nó để cải thiện các câu hỏi và trả lời các câu. Một số phương pháp tiếp
cận DM andtechniques một số phương pháp tiếp cận DM và kỹ thuật đã được
đề xuất để sử dụng chung trong việc khai thác dữ liệu đánh giá học sinh. Phân
tích chung yếu tố và lọc cộng tác đã được sử dụng để khám phá các chủ đề cơ
bản của một khóa học từ lớp item-level. Quy tắc khai thác đã được áp dụng để
phân tích dữ liệu câu hỏi bằng cách khám phá các mơ hình quy tắc trong dữ
liệu câu hỏi.
Cuối cùng, một loại đặc biệt của thông tin phản hồi liên quan đến việc
sử dụng các dữ liệu văn bản. Trong trường hợp này, mục tiêu của việc áp
dụng khai thác văn bản / dữ liệu để dữ liệu giáo dục là để phân tích nội dung
giáo dục, để tóm tắt / phân tích các q trình thảo luận của học viên. để cung

cấp thông tin phản hồi người hướng dẫn. phân tích văn bản tự động, phân tích
nội dung và khai thác văn bản đã được sử dụng để trích xuất và xác định
những ý kiến được tìm thấy trên các trang web trong các hệ thống e-learning.


×