Tải bản đầy đủ (.pdf) (70 trang)

Biểu diễn trực quan dữ liệu liên quan học sinh dự tuyển lớp 10

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.43 MB, 70 trang )

UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT

TRƢƠNG THỊ NGA

BIỂU DIỄN TRỰC QUAN DỮ LIỆU LIÊN QUAN
HỌC SINH DỰ TUYỂN LỚP 10

LUẬN VĂN THẠC SĨ

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104

BÌNH DƢƠNG – 2019


UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT

TRƢƠNG THỊ NGA

BIỂU DIỄN TRỰC QUAN DỮ LIỆU LIÊN QUAN
HỌC SINH DỰ TUYỂN LỚP 10

LUẬN VĂN THẠC SĨ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104

NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. LÊ XUÂN TRƢỜNG


BÌNH DƢƠNG – 2019


LỜI CẢM ƠN
Trong thời gian học tập tại trƣờng Đại học Thủ Dầu Một nhiều ngƣời
đã giúp đỡ tôi. Nhân cơ hội này, tơi muốn bày tỏ lịng biết ơn sâu sắc nhất đến
tất cả những ngƣời đã hỗ trợ và giúp đỡ tôi trong công việc học tập và hồn
thành luận văn.
Đầu tiên, tơi muốn bày tỏ lịng biết ơn của mình đến Thầy TS. Lê Xn
Trƣờng đã khơng ngại hỗ trợ tơi trong suốt q trình nghiên cứu và thực hiện
luận văn này.
Tôi xin cảm ơn quý thầy cô giảng viên tại trƣờng Đại học Thủ Dầu Một
đã truyền đạt những kiến thức quý báu, hỗ trợ cho tôi trong suốt thời gian học
tập tại trƣờng vừa qua.
Tôi xin chân thành cảm ơn sâu sắc đến ban lãnh đạo trƣờng Trung học
Phổ thông Lê Lợi đã tạo điều kiện cho tôi về dữ liệu học sinh Trung học Cơ sở
cũng nhƣ đã tạo điều kiện cho tôi đi học và hồn thành khóa học.
Tơi muốn bày tỏ lịng biết ơn tới tất cả các bạn cùng lớp cao học 16 Hệ
Thống Thông Tin của tôi. Các bạn đã động viên, hỗ trợ tơi lúc khó khăn.
Cuối cùng tơi xin gửi lời cảm ơn đến gia đình, đồng nghiệp và ngƣời
chồng của tôi đã luôn bên cạnh hỗ trợ, động viên và tạo điều kiện thuận lợi cho
tơi hồn thành luận văn.

i


TĨM TẮT
Cùng với sự rộng mở của truyền thơng internet, phân tích dữ liệu đã và
đang phát triển nhƣ một khoa học nhằm khai phá tri thức hoặc rút trích thông tin
từ dữ liệu. Hiện nay, nhiều nhà khoa học đã và đang thực hiện nhiều bài tốn

phân tích dữ liệu trong nhiều lĩnh vực khác nhau nhƣ chính trị, kinh tế, quân sự,
giáo dục, y tế, v.v… Cả hai chiến lƣợc mơ hình tốn và trực quan hóa đều đƣợc
các nhà khoa học vừa sử dụng để thực hiện các bài tốn phân tích dữ liệu vừa
phát triển các thuật tốn, các qui trình, các phần mềm phân tích hoặc hỗ trợ phân
tích dữ liệu. Trong chiến lƣợc phân tích trực quan, ngƣời và máy hợp tác với
nhau để rút trích thơng tin, khai phá tri thức từ dữ liệu. Nói cách khác, trong một
hệ thống phân tích trực quan, con ngƣời (ngƣời dùng) là một hợp phần của hệ
thống.
Đề tài “Biểu diễn dữ liệu liên quan học sinh dự tuyển lớp 10” đặt ra cho
luận văn này là áp dụng phƣơng pháp phân tích trực quan dữ liệu học tập của học
sinh để giúp cho phụ huynh hiểu đƣợc năng lực và xu hƣớng phát triển của con
em mình. Bài tốn đƣợc đặt ra cho luận văn là phân tích bằng phƣơng pháp trực
quan để rút trích thơng tin từ dữ liệu kết quả học tập của học sinh. Luận văn đã
biểu diễn tập dữ liệu kết quả học tập của 52 học sinh từ lớp 6 đến lớp 9 trên khối
3D, mỗi khối biểu diễn kết quả học tập của một học sinh. Phụ huynh của mỗi học
sinh có thể nhìn vào khối 3D biểu diễn trực quan kết quả học tập của con em
mình để rút trích thơng tin về q trình học tập của chúng bằng cách tự đặt ra câu
hỏi (phân tích) và tự trả lời khi nhìn vào khối 3D.
Các khối 3D biểu diễn trực quan kết quả học tập của học sinh cung cấp
một công cụ hữu hiệu để phụ huynh nhận biết dễ dàng tình trạng học tập và xu
hƣớng phát triển của con em mình. Đối với tập dữ liệu áp dụng trong luận văn,
khối biểu diễn trực quan dữ liệu điểm của học sinh còn giúp phát hiện thêm một
số thông tin mới:

ii


-

Có khoảng 50% các em học sinh học yếu đồng thời mơn Ngoại ngữ và

mơn Văn.

-

Có khoảng 12% học sinh có học lực tăng nhảy vọt đều tất cả các mơn
từ lớp 7.

-

Có khoảng 25% học sinh có kết quả học tập đều đối với tất cả các
môn, 15% đều giỏi, 6% đều khá, và 4% đều trung bình.

Kết quả này cần đƣợc triển khai trên tập dữ liệu lớn hơn, nếu kết quả đƣợc
lặp lại thì có thể xem nhƣ đó là qui luật và những ngƣời quản lý giáo dục có thể
áp dụng để làm chính sách, tổ chức giảng dạy, hoặc nghiên cứu phƣơng pháp
giảng dạy phù hợp.

iii


MỤC LỤC
LỜI CẢM ƠN .................................................................................................................... i
TÓM TẮT ......................................................................................................................... ii
MỤC LỤC ....................................................................................................................... iv
DANH MỤC BẢNG ....................................................................................................... vi
DANH MỤC HÌNH, ĐỒ THỊ ........................................................................................ vii
DANH MỤC CHỮ VIẾT TẮT ..................................................................................... viii
Chương 1
GIỚI THIỆU ................................................................................................................... 1
1.1 Đặt vấn đề ............................................................................................................. 1

1.2 Mục tiêu nghiên cứu ............................................................................................. 3
1.3 Đối tƣợng nghiên cứu ........................................................................................... 3
1.4 Phạm vi nghiên cứu .............................................................................................. 3
1.5 Nhiệm vụ nghiên cứu ............................................................................................ 4
1.6 Phƣơng pháp nghiên cứu ...................................................................................... 4
1.7 Ý nghĩa của đề tài ................................................................................................. 5
1.8 Cấu trúc luận văn .................................................................................................. 5
Chương 2
TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP BIỂU DIỄN TRỰC QUAN DỮ LIỆU .. 7
2.1 Biểu diễn trực quan dữ liệu ................................................................................... 7
2.1.1 Dữ liệu ........................................................................................................... 7
2.1.2 Trực quan hóa ............................................................................................... 10
2.2 Tính trực quan ..................................................................................................... 10
2.3 Phân tích trực quan ............................................................................................. 11
2.3.1 Khái niệm ..................................................................................................... 11
2.3.2 Phân tích trực quan ...................................................................................... 12
2.4 Tiêu chuẩn xếp loại học lực của học sinh ........................................................... 15
2.5 Hình khối khơng gian – thời gian ....................................................................... 16
2.5.1 Giới thiệu ..................................................................................................... 16
2.5.2 Khối không gian – thời gian nhiều chiều ..................................................... 17
Chương 3
KHỐI TRỰC QUAN BIỂU DIỄN DỮ LIỆU HỌC SINH........................................ 18

iv


3.1 Giới thiệu ............................................................................................................ 18
3.2 Biến dữ liệu liên quan học sinh .......................................................................... 18
3.3 Biến trực quan ..................................................................................................... 21
3.4 Khối nhiều chiều biểu diễn dữ liệu học sinh ...................................................... 22

3.5 Kết luận ............................................................................................................... 25
Chương 4
PHÂN TÍCH DỮ LIỆU ................................................................................................ 26
HỌC TẬP CỦA HỌC SINH ...................................................................................... 26
4.1 Phân tích dữ liệu ................................................................................................. 26
4.1.1 Qui trình phân tích ....................................................................................... 26
4.1.2 Câu hỏi phân tích ......................................................................................... 27
4.1.3 Phân loại câu hỏi phân tích .......................................................................... 27
4.2 Phân tích dữ liệu học sinh ................................................................................... 28
4.2.1 Câu hỏi sơ cấp .............................................................................................. 28
4.2.2 Câu hỏi toàn cục .......................................................................................... 28
4.2.3 Câu hỏi quan hệ ........................................................................................... 28
4.3 Phân tích trực quan dữ liệu học sinh ................................................................... 29
Chương 5
KẾT LUẬN .................................................................................................................... 34
5.1 Kết luận ............................................................................................................... 34
5.2 Hƣớng phát triển ................................................................................................. 35
TÀI LIỆU THAM KHẢO .............................................................................................. 36
PHỤ LỤC ....................................................................................................................... 37

v


DANH MỤC BẢNG
Bảng 2.1 Bảng phân loại dữ liệu dựa vào thuộc tính............................................. 8
Bảng 2.2 Bảng xếp loại học lực của học sinh dựa theo điểm trung bình mơn học
................................................................................................................. 15
Bảng 3.3 Bảng dữ liệu thể hiện điểm trung bình của từng học sinh trong 4 năm
học sau khi loại bỏ một số dữ liệu ............................................................. 19
Bảng 4.4 Bảng điểm của học sinh Nguyễn Văn Thanh sau khi đã loại bỏ một số

dữ liệu không cần thiết dùng cho phân tích dữ liệu .................................. 29
Bảng Bảng dữ liệu kết quả học tập của một số học sinh THCS trƣờng THPT Lê
Lợi theo từng năm học sau khi đã loại bỏ một số dữ liệu ......................... 37

vi


DANH MỤC HÌNH, ĐỒ THỊ
Hình 1.1 Mơ hình phân tích dữ liệu: dữ liệu đƣợc chuyển đổi thành thông tin và
tri thức bằng phƣơng pháp mơ hình hoặc trực quan nhờ con ngƣời ........... 2
Hình 2.2 Mối quan hệ các thành phần dữ liệu của một đối tƣợng ........................ 7
Hình 2.3 Khung trực quan hóa ........................................................................... 12
Hình 2.4 Phân tích dữ liệu học sinh giúp phụ huynh định hƣớng cho con em ... 13
Hình 3.5 Hệ tọa độ 3 chiều Oxyz biểu diễn 3 biến dữ liệu ................................. 22
Hình 3.6 Biểu đồ 2D biểu diễn kết quả của một học sinh trong 4 năm học THCS
................................................................................................................... 24
Hình 3.7 Biểu đồ 3D biểu diễn kết quả của một học sinh trong 4 năm học THCS
................................................................................................................... 30
Hình Biểu đồ biểu diễn 52 học sinh THCS ........................................................ 43

vii


DANH MỤC CHỮ VIẾT TẮT
Chữ viết tắt

Diễn giải

L6


Lớp 6

L7

Lớp 7

L8

Lớp 8

L9

Lớp 9

THCS

Trung học Cơ sở

THPT

Trung học Phổ thông

Ng.ngữ

Ngoại ngữ

GDCD

Giáo dục công dân


C.Nghệ

Công nghệ

viii


Chương 1

GIỚI THIỆU
1.1 Đặt vấn đề
Học tập luôn là vấn đề đƣợc quan tâm hàng đầu của phụ huynh. Định
hƣớng tƣơng lai cho con em phù hợp với năng lực sẵn có để bồi dƣỡng thêm là
vấn đề đƣợc nhiều phụ huynh quan tâm từ lúc các em còn học cấp 2. Trên thực
tế, năng lực của học sinh bộc lộ theo nhiều cách và thay đổi theo thời gian. Trong
đó, kết quả học tập có thể là một nguồn dữ liệu để đánh giá năng lực nội tại của
mỗi học sinh. Kết quả học tập tại trƣờng là một bảng dữ liệu gồm nhiều cột thể
hiện dữ liệu về điểm số của các em trong quá trình học tập theo từng năm học.
Bảng dữ liệu kết quả học tập đƣợc thể hiện dữ liệu một cách rời rạc theo từng
năm học trong một cấp học. Khi nhìn vào bảng điểm không phải phụ huynh nào
cũng biết bảng điểm này có ý nghĩa ra sao? Biết đƣợc xu hƣớng phát triển của
các em nhƣ thế nào? Để từ đó đƣa ra định hƣớng giúp con mình phát triển một số
mơn học theo khả năng của con mình, giúp con có những kiến thức vững chắc
trên con đƣờng học tập.
Đánh giá năng lực của một học sinh Trung học Cơ sở (THCS), chúng ta
nên đánh giá cả bốn năm học THCS. Kết quả trong một bảng điểm của một năm
học chỉ đánh giá học sinh đó học giỏi, học khá, học trung bình hay học yếu mơn
học nào trong năm học đó. Nếu dựa vào bảng điểm trong một năm học để đánh
giá em học sinh đó giỏi mơn này khá mơn kia thì chƣa chính xác, trong cuộc
sống sẽ có nhiều vấn đề ảnh hƣởng đến kết quả học tập của các em nhƣ gia đình,

hồn cảnh, bạn bè, ……Nhƣ vậy để đánh giá chính xác về học lực các môn của
các em trong cấp 2 chúng ta cần đánh giá trong các năm học THCS. Mỗi học
sinh khi hoàn thành cấp 2 thì các em sẽ bƣớc tiếp chƣơng trình phổ thơng (cấp 3)
trừ trƣờng hợp khơng theo học cấp 3. Khi mới bắt đầu vào cấp 3, các em thƣờng

1


chƣa xác định đƣợc mình sẽ theo học ngành gì, cần ơn luyện mơn gì để sau khi
tốt nghiệp cấp 3 sẽ có đủ tự tin theo học các ngành nghề mình thích. Thực tế, nếu
các em đến năm lớp 11 hay năm lớp 12 mới xác định điều mình cần làm thì có
thể em đã bỏ qua một số năm ôn luyện kiến thức. Hiểu đƣợc dữ liệu để định
hƣớng cho con em mình là cần thiết vì khi các em tham gia thi tuyển các ngành
hay xét tuyển vào một trƣờng nào đó thì kiến thức khơng chỉ giới hạn ở năm cuối
cấp học mà liên quan cả một q trình học tập.
Mơ hình phân tích trực quan đƣợc áp dụng để hỗ trợ phân tích dữ liệu học
sinh dự tuyển lớp 10. Dữ liệu đƣợc rút trích thành thông tin và tri thức bằng
phƣơng pháp trực quan hóa. Phƣơng pháp mơ hình (model) là phƣơng pháp dùng
mơ hình tốn để rút trích thơng tin và tri thức từ dữ liệu. Phƣơng pháp trực quan
(visualization) là phƣơng pháp mà thơng tin và tri thức đƣợc trích xuất nhờ máy
tính và kết hợp sự hiểu biết của con ngƣời bằng cách nhìn và hiểu. Trong luận
văn này, phƣơng pháp đƣợc sử dụng là phƣơng pháp trực quan.

Hình 1.1 Mơ hình phân tích dữ liệu: dữ liệu được chuyển đổi thành thơng tin và tri
thức bằng phương pháp mơ hình hoặc trực quan nhờ con người [1]

Mỗi năm, mỗi học sinh nhận đƣợc một bảng điểm tổng hợp kết quả cuối
năm học. Bảng điểm đƣợc trƣờng phát về cho phụ huynh là bảng điểm đƣợc thể
hiện theo từng năm học, lớp 6, lớp 7, lớp 8, lớp 9. Khi nhìn vào từng bảng điểm
2



rời rạc, phụ huynh khó có thể nhận định đúng về năng lực của con mình. Phụ
huynh muốn đánh giá năng lực của con mình trong các năm học THCS một cách
đúng hơn nhƣ gợi ý các môn học mà con mình có khả năng để bồi dƣỡng nâng
cao kiến thức, đánh giá về học lực của các môn học giữa năm này so với năm
khác.
Đề tài “Biểu diễn trực quan dữ liệu liên quan học sinh dự tuyển lớp 10”
đƣợc nghiên cứu để đề xuất phƣơng pháp đánh giá xu hƣớng năng lực của học
sinh dựa trên đồ thị trực quan hóa bảng điểm. Đồ thị trực quan trình bày diễn
biến kết quả học tập của học sinh từng môn học, tƣơng quan kết quả học tập giữa
các môn học hay nhóm mơn học. Đồ thị trực quan giúp phụ huynh hiểu về con
em mình bằng cách tự đặt câu hỏi và tự trả lời những câu hỏi về năng lực, về xu
hƣớng phát triển của con em mình bằng cách nhìn-hiểu biểu đồ biểu diễn dữ liệu.
1.2 Mục tiêu nghiên cứu
Mục tiêu của luận văn “Biểu diễn dữ liệu liên quan học sinh dự tuyển lớp
10” là áp dụng phƣơng pháp phân tích trực quan trên dữ liệu học tập của học sinh
để giúp cho phụ huynh hiểu đƣợc năng lực và xu hƣớng phát triển của con em
mình bằng cách nhìn-hiểu đồ thị trực quan hóa dữ liệu.
1.3 Đối tƣợng nghiên cứu
- Bảng điểm của học sinh
- Đồ thị biểu diễn
1.4 Phạm vi nghiên cứu
Bảng điểm của 52 học sinh cấp 2 tại trƣờng Trung học Phổ thông (THPT)
Lê Lợi từ năm học 2014-2015 đến năm học 2017-2018.

3


1.5 Nhiệm vụ nghiên cứu

 Thu

thập

dữ

liệu:

dữ

liệu

đƣợc

/>
lấy

từ

(vnedu.vn)

trang
của

trƣờng THPT Lê Lợi huyện Bắc Tân Uyên, tỉnh Bình Dƣơng, từ năm
học 2014-2015 đến năm học 2017-2018 của học sinh THCS.
 Xác định các biến: biến mơn học gồm các phần tử tốn, vật lý, sinh
học, văn học, lịch sử, địa lý, ngoại ngữ, giáo dục công dân, công nghệ;
biến thời gian gồm các phần tử là năm học L6, L7, L8, L9; biến điểm
gồm các phần tử là điểm số của các môn học.

 Biểu diễn dữ liệu trên khối trực quan: khối trực quan gồm 3 trục:
trục biểu diễn biến môn học, trục biểu diễn biến thời gian, trục biểu
diễn biến điểm.
 Xây dựng các câu hỏi phân tích: với tƣ cách là phụ huynh, chúng tôi
xây dựng một số câu hỏi liên quan đến kết quả học tập của học sinh.
Khối trực quan biểu diễn dữ liệu học tập của học sinh hỗ trợ trả lời
những câu hỏi này.
1.6 Phƣơng pháp nghiên cứu
 Phương pháp thu thập dữ liệu: phƣơng pháp này đƣợc dùng để thu
thập kết quả học tập của học sinh lớp 6, 7, 8, 9 tại trƣờng Trung học
Phổ thơng Lê Lợi.
 Phương pháp hình học: phƣơng pháp này đƣợc dùng để biểu diễn
điểm số từng môn học nhƣ toán, vật lý, sinh học, văn học, lịch sử, địa
lý, ngoại ngữ, giáo dục công dân, công nghệ của học sinh Trung học
Cơ sở trên khối trực quan nhiều chiều.

4


 Phương pháp phân tích: phƣơng pháp này đƣợc dùng để trả lời các
câu hỏi đánh giá năng lực của học sinh.
 Phương pháp tra cứu tài liệu: phƣơng pháp này đƣợc dùng để nghiên
cứu các tài liệu liên quan.
1.7 Ý nghĩa của đề tài
Ý nghĩa về khoa học: luận văn “Biểu diễn trực quan dữ liệu liên quan học
sinh dự tuyển lớp 10” áp dụng phƣơng pháp phân tích trực quan dữ liệu học tập
để đánh giá xu hƣớng năng lực của từng học sinh và tìm ra những thông tin phục
vụ cho ngành giáo dục.
Ý nghĩa về mặt xã hội: luận văn giúp cho phụ huynh hiểu đƣợc ý nghĩa
của kết quả học tập và đánh giá xu hƣớng năng lực của từng học sinh. Khi nhìn

vào biểu đồ biểu diễn trực quan kết quả học tập, phụ huynh còn hiểu đƣợc diễn
biến xu hƣớng năng lực của học sinh, hiểu rõ hơn về kết quả học tập của con
mình. Kết quả phân tích trực quan cịn phát hiện một thơng tin mới là có đến
50% học sinh trong tập dữ liệu học yếu đều 2 môn Văn và Ngoại ngữ. Cần xác
định đây có phải là kết quả đúng cho mọi tập dữ liệu không. Nếu đúng vậy thì
ngành giáo dục nên nghiên cứu để có chính sách và phƣơng pháp giảng dạy thích
hợp.
Ý nghĩa thực tiễn: luận văn đáp ứng đƣợc nhu cầu thực tế cho phụ huynh
là đánh giá xu hƣớng phát triển môn học của con em họ và giúp phụ huynh nhìn
nhận rõ hơn về kết quả học tập.
1.8 Cấu trúc luận văn
Cấu trúc của luận văn biểu diễn trực quan dữ liệu liên quan học sinh dự
tuyển lớp 10 có cấu trúc nhƣ sau:

5


 Chương 1. Giới thiệu lý do lựa chọn đề tài, mục tiêu, đối tƣợng, phạm
vi nghiên cứu, nhiệm vụ nghiên cứu, phƣơng pháp nghiên cứu, ý
nghĩa khoa học, ý nghĩa xã hội, ý nghĩa thực tiễn và cấu trúc luận văn.
 Chương 2. Tổng quan về các phƣơng pháp biểu diễn trực quan dữ
liệu. Trong chƣơng này giới thiệu một số khái niệm về dữ liệu, về trực
quan, các tính chất về trực quan. Một số khái niệm về phân tích trực
quan và khung trực quan hóa.
 Chương 3. Khối trực quan biểu diễn dữ liệu học sinh. Trong chƣơng
này, chúng tôi giới thiệu các biến dữ liệu liên quan đến kết quả học tập
của học sinh. Xây dựng đƣợc biến trực quan, xây dựng khối nhiều
chiều biểu diễn dữ liệu học sinh bằng hình khối.
 Chương 4. Phân tích dữ liệu học sinh. Trình bày các qui trình phân
tích, đƣa ra câu hỏi phân tích và phân loại các câu hỏi. Từ các câu hỏi

phân tích trực quan dữ liệu học sinh, sau đó trả lời câu hỏi giúp ngƣời
phân tích (phụ huynh) hiểu đƣợc ý nghĩa kết quả học tập của học sinh
và có một số nhận xét khi quan sát bằng biểu đồ.
 Chương 5: Kết luận. Đánh giá kết quả đã thực hiện và đề xuất hƣớng
phát triển của đề tài.

6


Chương 2

TỔNG QUAN VỀ CÁC
PHƢƠNG PHÁP BIỂU DIỄN
TRỰC QUAN DỮ LIỆU
2.1 Biểu diễn trực quan dữ liệu
2.1.1 Dữ liệu
Dữ liệu là các giá trị đƣợc thu thập từ các cơ quan, tổ chức, doanh nghiệp.
Dữ liệu còn đƣợc thu thập, đo đạc, báo cáo, phân tích, trực quan bằng hình ảnh
hoặc cơng cụ phân tích khác. Tùy vào từng thuộc tính, ngƣời phân tích sẽ sử
dụng loại dữ liệu phù hợp với các thuộc tính đó. Mục đích của việc phân loại dữ
liệu là dùng để định hƣớng việc phân tích cũng nhƣ giúp cho việc thu thập dữ
liệu đƣợc rõ ràng hơn.
Các thành phần dữ liệu của một đối tƣợng gồm: đối tƣợng (What), không
gian (Where) và thời gian (When) đƣợc định nghĩa bởi Peuquet (1994) [2]. Mọi
sự vật, hiện tƣợng trong tự nhiên đều có thể đƣợc mơ tả dựa trên cơ sở bộ ba
thành phần what, when, where và mối quan hệ giữa chúng đƣợc thể hiện hình 2.2
Hình 2.2 Mối quan hệ các thành phần dữ liệu của một đối tượng [2]

Trên cơ sở bộ ba thành phần where, what, when của Peuquet (1994), ba
loại câu hỏi đƣợc đƣa ra là [2]:

 When + Where What: Mô tả đối tƣợng hoặc tập đối tƣợng tồn tại
ở 1 vị trí hoặc tập vị ví xác định tại 1 thời gian hoặc tập thời gian xác
định.

7


 When + What Where: Mơ tả vị trí hoặc tập vị trí hiện hữu của đối
tƣợng hoặc tập đối tƣợng tại thời gian hoặc tập thời gian xác định.
 Where + What 

When: Mô tả thời gian hoặc tập thời gian tại đó

một đối tƣợng hoặc một tập đối tƣợng hiện hữu ở tại một vị trí hoặc
tập vị trí xác định.
Phân loại dữ liệu dựa vào các thuộc tính đƣợc tóm tắt nhƣ sau:
Bảng 2.1 Bảng phân loại dữ liệu dựa vào thuộc tính [3,4]

Phép tốn
cơ bản

÷

Dữ liệu
định danh
(Nominal)



Dữ liệu

thứ tự
(Ordinal)

Dữ liệu

Dữ liệu

khoảng cách

tỉ lệ

(Inteval)

(Ratio)


























×
+



>



<
=




Trong phân tích dữ liệu, dữ liệu có nhiều cách để phân loại. Tuy nhiên, sử
dụng phân loại nào trong nghiên cứu là do dạng phân tích trong thực tiễn. Mỗi
loại dữ liệu đều gắn với các thuộc tính khác nhau, có mối quan hệ đối với mỗi
tình huống trong thực tế. Do đó, mỗi loại có ý nghĩa khơng giống nhau trong
quan sát và nghiên cứu. Các loại dữ liệu đƣợc sử dụng trong luận văn là dữ liệu
định danh, dữ liệu thứ tự, dữ liệu khoảng cách, dữ liệu tỉ lệ. Các dữ liệu có tính

chất nhƣ sau:

8


 Dữ liệu định danh (Nominal) là loại dữ liệu dựa vào các thuộc tính mà
dữ liệu khơng có sự hơn kém nhau, chỉ có khác biệt hay bằng nhau về thứ
bậc. Các con số trong dữ liệu định danh khơng có mối quan hệ hơn kém
nhau và khơng thực hiện đƣợc các phép tính tốn cơ bản nhƣ cộng, trừ,
nhân, chia. Trong luận văn, dữ liệu định danh đƣợc sử dụng để chỉ sự khác
biệt nhau về môn học và đƣợc áp dụng cho biến môn học.
 Dữ liệu thứ tự (Ordinal) là loại dữ liệu dựa vào các thuộc tính mà dữ liệu
có sự so sánh hơn kém nhau, khác biệt nhau, bằng nhau. Giống nhƣ dữ
liệu định danh, dữ liệu thứ tự không cho phép thực hiện các phép toán cơ
bản nhƣ cộng, trừ, nhân, chia. Dữ liệu thứ tự đƣợc dùng trong nghiên cứu
đo lƣờng thái độ, ý kiến, sở thích, nhận thức và quan điểm. Dữ liệu thứ tự
dùng để thể hiện thứ tự trƣớc sau về thời gian và đƣợc áp dụng cho biến
thời gian.
 Dữ liệu khoảng cách (Interval) là loại dữ liệu dựa vào các thuộc tính mà
dữ liệu có thể so sánh sự hơn kém nhau, khác biệt nhau, bằng nhau. Ngồi
ra, dữ liệu khoảng cách cịn thực hiện đƣợc một số phép tính tốn cơ bản
nhƣ cộng, trừ nhƣng khơng thực hiện đƣợc các phép tính nhân, chia.
 Dữ liệu tỉ lệ (Ratio) là loại dữ liệu mang đầy đủ các tính chất của loại dữ
liệu định danh, dữ liệu thứ tự, dữ liệu khoảng cách. Đây là loại dữ liệu
thực hiện đầy đủ đƣợc các phép tính tốn cơ bản nhƣ cộng, trừ, nhân, chia,
so sánh sự khác biệt, bằng nhau giữa các thuộc tính. Đối với loại dữ liệu
này, nó cho phép so sánh sự khác biệt về tỉ lệ giữa các giá trị của dữ liệu,
xác định xếp hạng thứ tự, so sánh khoảng cách. Dữ liệu tỉ lệ đƣợc sử dụng
để tính tốn cộng, trừ, nhân, chia, so sánh các điểm số với nhau và đƣợc
áp dụng trong biến điểm.


9


2.1.2 Trực quan hóa
Trực quan hóa là chuyển đổi dữ liệu thành dạng hình ảnh [1]. Trực quan
hóa là cơng cụ cần thiết để hiểu rõ về dữ liệu. Trực quan hóa với mục đích mơ tả,
phát triển các ý tƣởng chƣa biết trƣớc đó để giúp con ngƣời thu nhận các thơng
tin bổ ích, các thơng tin tiềm ẩn trong dữ liệu thông qua thị giác và bộ não con
ngƣời. Thị giác giúp chúng ta tiếp nhận thông tin từ những mơ hình trực quan, bộ
não sẽ xử lý giúp chúng ta có đƣợc thơng tin hữu ích từ những hình ảnh minh
họa.
Trực quan hóa dữ liệu là các kỹ thuật đƣợc sử dụng để chuyển đổi dữ liệu
thành các đối tƣợng trực quan trên màn hình nhƣ các điểm, đƣờng hoặc các thanh
đồ họa [5]. Mục tiêu chính của trực quan hóa dữ liệu là hỗ trợ ngƣời dùng rút
trích thơng tin hoặc khai phá tri thức từ dữ liệu bằng cách dùng thị giác cảm nhận
thông tin hoặc tri thức từ hình ảnh, đồ thị biểu diễn dữ liệu. Trong phân tích trực
quan, ngƣời dùng sử dụng các cơng cụ đồ họa để rút trích thơng tin cần thiết
bằng kiến thức và kỹ năng sẵn có của mình.
2.2 Tính trực quan
Một đồ thị có tính trực quan phải đảm bảo đƣợc 5 tính chất sau: tính thứ
tự, tính chọn lọc, tính phối hợp, tính định lƣợng, tính giá trị [6]. Trong đó:


Tính thứ tự: một đồ thị có tính thứ tự khi ngƣời sử dụng đồ thị trực
quan có thể biết đƣợc các giá trị trƣớc sau, trên dƣới, trái phải.



Tính chọn lọc: một đồ thị có tính chọn lọc khi ngƣời sử dụng đồ thị

trực quan có thể nhận biết sự khác nhau trên đồ thị, lấy ra đƣợc một
đặc trƣng nào đó.



Tính phối hợp: một đồ thị có tính phối hợp khi ngƣời sử dụng đồ thị
trực quan có thể nhóm những thơng tin có mối quan hệ giống nhau
một cách dễ dàng.

10




Tính định lượng: một đồ thị có tính định lƣợng khi ngƣời sử dụng đồ
thị trực quan có thể thấy đƣợc kích thƣớc, thời lƣợng của các phần tử
trong đồ thị.



Tính giá trị: một đồ thị có tính giá trị khi ngƣời sử dụng đồ thị trực
quan có thể nhận biết đƣợc các giá trị của đồ thị một cách dễ dàng.

2.3 Phân tích trực quan
2.3.1 Khái niệm
Phân tích trực quan là khoa học về lý luận phân tích thuận tiện bởi các
giao diện trực quan [7]. Ngƣời nghiên cứu sử dụng các kỹ thuật và cơng cụ phân
tích trực quan để rút trích thơng tin bằng cách nhìn hình ảnh/ đồ thị biểu diễn dữ
liệu; phát hiện dự kiến và khám phá những điều bất ngờ; cung cấp các đánh giá
kịp thời, dễ hiểu; và truyền đạt một cách có hiệu quả cho mục đích phân tích.

Phân tích trực quan là một lĩnh vực đa ngành bao gồm các lĩnh vực trọng
tâm sau [7]:
 Lý luận phân tích: cho phép ngƣời dùng có đƣợc những hiểu biết sâu
sắc trực tiếp hỗ trợ đánh giá, lập kế hoạch và ra quyết định
 Biểu diễn trực quan và kỹ thuật tương tác: lĩnh vực này tận dụng lợi
thế của mắt ngƣời để cho phép ngƣời dùng xem, khám phá và hiểu
một lƣợng lớn thông tin cùng một lúc.
 Biểu diễn và biến đổi dữ liệu: chuyển đổi tất cả các loại dữ liệu thành
đồ thị trực quan mà con ngƣời có thể cảm nhận và hiểu đƣợc bằng
phƣơng pháp nhìn-hiểu thơng qua hệ thống thị giác của con ngƣời.
 Trình bày và phổ biến kết quả phân tích: để truyền đạt thông tin trong
bối cảnh phù hợp tới nhiều đối tƣợng.
Phân tích trực quan khơng chỉ đơn giản là trình bày thông tin mà là một
cuộc đối thoại giữa ngƣời phân tích và đồ thị biểu diễn trực quan dữ liệu. Trong

11


phân tích trực quan, ngƣời phân tích quan sát đồ thị biểu diễn dữ liệu, diễn giải
và hiểu ý nghĩa của những gì họ nhìn thấy rồi sau đó triển khai câu hỏi tiếp theo.
Câu hỏi phân tích do những ngƣời phân tích dữ liệu đặt ra để tìm kiếm những
thông tin mới hoặc qui luật mới bằng phƣơng pháp nhìn–hiểu đồ thị trực quan
biểu diễn dữ liệu. Biểu hiện của cuộc đối thoại này là các tƣơng tác của ngƣời
phân tích với đồ thị biểu diễn trực quan dữ liệu [7]
2.3.2 Phân tích trực quan

Hình 2.3 Khung trực quan hóa [1]

Hình 2.3 là khung trực quan hóa. Khung trực quan hóa gồm hai phần, kỹ
thuật trực quan và cảm nhận trực quan [1]. Kỹ thuật trực quan là hiển thị dữ liệu

trên đồ thị và áp dụng các kỹ thuật trực quan trên máy tính làm cho ngƣời quan
sát cảm nhận đƣợc ý nghĩa của dữ liệu. Cảm nhận trực quan là sự cảm nhận của
con ngƣời qua các giác quan bằng hình ảnh trực quan để rút trích thông tin hoặc
tri thức. Kỹ thuật trực quan đƣợc áp dụng cho luận văn này.
Mục tiêu của phân tích dữ liệu là rút trích thơng tin từ dữ liệu, khám phá
những tri thức từ dữ liệu đƣợc thu thập. Phân tích dữ liệu đƣợc thực hiện bằng
các phƣơng pháp nhƣ phƣơng pháp mơ hình tốn và phƣơng pháp trực quan.
Trong phƣơng pháp mơ hình tốn, dữ liệu đƣợc cung cấp cho mơ hình để nhận

12


kết quả phân tích. Trong phƣơng pháp phân tích trực quan, dữ liệu đƣợc biểu
diễn trực quan, ngƣời dùng nhìn vào đồ thị trực quan hiển thị trên máy tính để rút
trích thơng tin và có thể là những qui luật mới. Điểm khác biệt cơ bản của
phƣơng pháp mô hình tốn và phƣơng pháp trực quan là vị trí của ngƣời dùng.
Trong phƣơng pháp trực quan, ngƣời dùng là một hợp phần của hệ thống phân
tích; trong phƣơng pháp mơ hình tốn, ngƣời dùng là ngƣời sử dụng kết quả
đƣợc cung cấp bởi mơ hình tốn.

Hình 2.4 Phân tích dữ liệu học sinh giúp phụ huynh định hướng cho con em

Hình 2.4 biểu diễn tác động của phân tích dữ liệu học sinh lên quyết định
của phụ huynh trong việc định hƣớng học tập của con em mình. Từ dữ liệu thô
cần thu thập, rồi lƣu trữ để phân tích. Từ kết quả phân tích, phụ huynh rút trích
đƣợc thơng tin hữu ích để cho quyết định đúng hơn đối với con mình, các chuyên
gia giáo dục nhận biết đƣợc những yếu tố tƣơng quan trong kết quả đào tạo.
Dữ liệu học sinh đƣợc thu thập từ trang vnedu.vn của trƣờng THPT Lê
Lợi gồm nhiều cột và nhiều hàng, thể hiện đầy đủ thông tin cần thiết đối với một
học sinh trong một năm học, đây là bộ dữ liệu thô. Mỗi cột là một môn học thể

13


hiện các mơn nhƣ tốn, vật lý, sinh học, văn học, lịch sử, địa lý, ngoại ngữ, giáo
dục công dân, cơng nghệ, tin, hóa, thể dục, nhạc, mỹ thuật; thơng tin của học sinh
nhƣ họ tên, ngày, tháng, năm sinh và một số thông tin khác. Mỗi hàng là một học
sinh chứa các giá trị của từng môn học và một số dữ liệu liên quan đến học sinh.
Sau khi dữ liệu đƣợc thu thập, dữ liệu đƣợc lƣu trữ dùng cho việc phân
tích dữ liệu. Bảng dữ liệu có nhiều cột khơng sử dụng cho việc phân tích do đó
ngƣời phân tích sẽ loại bỏ một số cột khơng cần cho việc phân tích dữ liệu. Cụ
thể, dữ liệu chỉ để lại những cột liên quan cho việc phân tích nhƣ là năm học lớp
6, lớp 7, lớp 8, lớp 9; các mơn học nhƣ tốn, vật lý, sinh học, văn học, lịch sử, địa
lý, ngoại ngữ, giáo dục công dân, công nghệ; điểm số các môn của từng học sinh.
Dữ liệu đƣợc phân tích sẽ trích xuất thơng tin đem đến sự hiểu biết cho
con ngƣời và đó là tiền đề đem đến mọi quyết định cho phụ huynh đối với học
sinh. Phân tích dữ liệu trích xuất đƣợc thơng tin hữu ích, thơng tin đó chính là
các xu hƣớng môn học hay ý nghĩa kết quả học tập của con họ nhƣ môn học nào
giỏi, môn học nào yếu, …bằng các phƣơng pháp trực quan. Khi phụ huynh đã
hiểu thơng tin rút trích đƣợc bằng phƣơng pháp trực quan, phụ huynh sẽ đƣa ra
các quyết định phù hợp hơn cho con của họ. Đó là những quyết định về môn học
bồi dƣỡng kế tiếp trong thời gian học tập tiếp theo giúp cho học sinh có đủ kiến
thức để dự tuyển hoặc xét tuyển các ngành học sau này.

14


2.4 Tiêu chuẩn xếp loại học lực của học sinh
Bảng 2. 2

Bảng xếp loại học lực của học sinh dựa theo điểm trung bình mơn học [8]


Xếp Loại

Điểm trung bình mơn

Giỏi

8.0 trở lên

Khá

6.5 trở lên

Trung bình

5.0 trở lên

Yếu

3.5 trở lên

Kém

Dƣới 3.5

Bảng 2.2 Bảng xếp loại học lực của học sinh dựa theo điểm trung bình
mơn học. Xếp loại đƣợc trích từ điều 13, thông tƣ số 58/2011/TT-BGDĐT ban
hành quy chế đánh giá, xếp loại học sinh Trung học Cơ sở và học sinh Trung học
Phổ thơng [8]. Điểm trung bình môn học đƣợc xếp loại nhƣ sau:
+ Nếu điểm trung bình mơn học có kết quả từ 8.0 đến 10.0 đƣợc xếp loại

mơn học đó là loại giỏi.
+ Nếu điểm trung bình mơn học có kết quả từ 6.5 đến 7.9 đƣợc xếp loại
mơn học đó là loại khá.
+ Nếu điểm trung bình mơn học có kết quả từ 5.0 đến 6.4 đƣợc xếp loại
mơn học đó là loại trung bình.
+ Nếu điểm trung bình mơn học có kết quả từ 3.5 đến 4.9 đƣợc xếp loại
mơn học đó là loại yếu.
+ Điểm trung bình mơn học dƣới 3.5 đƣợc xếp loại kém.

15


×