BỘ GIÁO DỤC VÀ ĐÀO TẠO
..
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------
NGUYỄN MINH PHƯƠNG
TRỰC QUAN HÓA, HỆ THỐNG VÀ PHÂN TÍCH ĐẶC
ĐIỂM TƯƠNG ĐỒNG CỦA HỌC SINH
(**Từ khóa: Data Visualization, Graph Database, GraphStreeam)
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS. ĐỖ PHÚC
TP. HỒ CHÍ MINH, tháng 03 năm 2017
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP. HCM
Cán bộ hướng dẫn khoa học : PGS.TS ĐỖ PHÚC
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 17 tháng 06 năm 2018
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
TT
Họ và tên
Chức danh Hội đồng
1
PGS.TS. Võ Đình Bảy
Chủ tịch
2
PGS.TS. Quản Thành Thơ
Phản biện 1
3
TS. Lê Thị Ngọc Thơ
Phản biện 2
4
TS. Văn Thiên Hoàng
Ủy viên
5
TS. Nguyễn Thị Thúy Loan
Ủy viên, Thư ký
Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV
PGS.TS. Võ Đình Bảy
TRƯỜNG ĐH CƠNG NGHỆ TP. HCM
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
VIỆN ĐÀO TẠO SAU ĐẠI HỌC
Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 31 tháng 03 năm 2017
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên:
NGUYỄN MINH PHƯƠNG
Giới tính:
Nam
Ngày, tháng, năm sinh:
13/06/1987
Nơi sinh:
TP. Hồ Chí Minh
Chuyên ngành:
Cơng nghệ thơng tin
MSHV:
1540860001
I- Tên đề tài:
TRỰC QUAN HĨA, HỆ THỐNG VÀ PHÂN TÍCH ĐẶC ĐIỂM TƯƠNG
ĐỒNG CỦA HỌC SINH
II- Nhiệm vụ và nội dung:
Đề tài luận văn bao gồm 3 nhiệm vụ chính với các nội dung như sau:
1. Thu thập dữ liệu
2. Tính khoảng cách giữa các đối tượng
3. Tạo đồ thị tương đồng dựa trên độ đo tương đồng
4. Dùng thuật toán khám phá cộng đồng để tìm các cộng đồng trên đồ thị
5. Trực quan hóa cộng đồng
6. Giải thích từng cộng đồng – tập các học sinh có tính chất giống nhau
III- Ngày giao nhiệm vụ: 24/07/2017
IV- Ngày hoàn thành nhiệm vụ: 17/03/2018
V- Cán bộ hướng dẫn: PGS.TS ĐỖ PHÚC
CÁN BỘ HƯỚNG DẪN
KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)
(Họ tên và chữ ký)
PGS.TS. Đỗ Phúc
PGS.TS. Võ Đình Bảy
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các số liệu, kết quả
nêu trong luận văn là trung thực và chưa từng được ai cơng bố trong bất kỳ cơng trình
nào khác.
Tơi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này
đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc.
Học viên thực hiện luận văn
(Ký và ghi rõ họ tên)
NGUYỄN MINH PHƯƠNG
LỜI CÁM ƠN
Đầu tiên cho tôi xin phép được gửi lời cám ơn vô cùng sâu sắc đến với PGS.TS
Đỗ Phúc, người thầy đã trực tiếp hướng dẫn, chỉ bảo cũng như tạo mọi điều kiện tốt nhất
cho tôi trong suốt q trình thực hiện luận văn này.
Ngồi ra tơi cũng xin được gửi lời cám ơn chân thành đến PGS.TS Võ Đình Bảy
cùng tồn thể đội ngũ cán bộ, thầy cô đang công tác tại ĐH Công Nghệ TP. HCM, những
người đã trực tiếp giảng dạy, các bạn đồng học trong lớp 15SCT11 đã hỗ trợ tơi trong q
trình học tập và thực hiện các nghiên cứu tại trường.
Cuối cùng tôi cũng xin được gửi lời cám ơn đến gia đình và người thân đã có
những ủng hộ về mặt tinh thần cũng như giúp đỡ đáng kể cho tơi trong q trình nghiên
cứu và hồn thành luận văn này.
NGUYỄN MINH PHƯƠNG
TÓM TẮT
Trong thực tế hiện nay cùng với sự phát triển mạnh mẽ của khoa học công
nghệ, kinh tế xã hội, việc phát triển các phương pháp, công cụ giáo dục là một việc
làm hết sức cần thiết. Đó là một trong những biện pháp nhằm phát triển giáo dục hiệu
quả nhất.
Ngồi những phương pháp giáo dục truyền thống thì phương pháp giáo dục cá
thể hóa đã được áp dụng và mang lại những hiệu quả to lớn. Để phát triển phương
pháp này, câu hỏi đặt ra là làm thế nào có thể phát hiện ra các nhóm, các cá thể tương
đồng nhau để điều chỉnh các nghiệp vụ, biện pháp giáo dục cá thể hóa cho phù hợp.
Đây là bài toán liên quan về đặc điểm tương đồng. Yêu cầu cụ thể cần giải quyết 3
vấn đề chính như sau:
- Thu thập dữ liệu.
- Chuẩn hóa dữ liệu cho phù hợp yêu cầu của bài toán.
- Thực hiện phân tích các đặc điểm tương đồng, mơ hình hóa và phân tích đồ
thị.
Để giải quyết yêu cầu đặt ra, chúng tôi đã sử dụng ngôn ngữ Java cùng với bộ
thư viện GraphStream để xây dựng ứng dụng phân nhóm những học sinh có đặc điểm
giống nhau, trực quan hóa trên đồ thị động và một số các giải thuật để phân tích đặc
điểm tương đồng đạt hiệu suất chính xác một cách tối ưu.
Luận văn bao gồm 5 chương, trong đó chúng tơi sẽ trình bày các ý tưởng, cơ sở lý
thuyết, phương pháp thực hiện, mơ hình thực nghiệm để đánh giá và kết luận về kết quả
đã đạt được cũng như hướng phát triển trong tương lai.
ABSTRACT
In recent years, thanks to the tremendous development of information science
and computing technology which have been leveraging the growth of multiple social
aspects as well as education. Therefore, the need of innovation in educational methods
as well as supporting tools is extremely necessary.
Along with the traditional approach of generalization and compulsory in highschool education, the approach of individualized education has also been applied and
proved to have positive effects on students. In order to develop this approach, there is
an important question of how to properly identify potential group of students who are
relevant to each other. Properly detecting group of relevant students can support to
apply appropriated educational services. This is a common problem of community
detection and similarity measurement. In order to answer this question, specific
requirements are needed to resolve, as following tasks:
- Proper students’ data collection, management and analyzing.
- Standardizing and organizing the input raw data to form the proper graphbased data structure.
- Applying proper community detection algorithm to support for student’s
graph analysis, students’ similarity evaluation as well as students’ data visualization.
In order to handle these tasks, we used the Java programming language and
GraphStream visualization tool to build the application which are used to evaluate the
students’ similarities as well as detect possible community of relevant students from
the given dataset. Our application also be able to dynamically visualize the students’
data as well as ensuring the output accuracy for detected student’s community.
This thesis includes five chapters, in which presents about our ideas, main
theoretical foundations, implementation, empirical studies for evaluating achieved
results, the conclusion and our next improvements in the future.
MỤC LỤC
DANH MỤC TỪ VIẾT TẮT ................................................................................... ix
DANH MỤC CÁC BẢNG ........................................................................................ x
DANH MỤC CÁC HÌNH ........................................................................................ xi
CHƯƠNG 1. GIỚI THIỆU VÀ TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN
CỨU........................................................................................................................... 1
1.1. Lý do và động lực thực hiện đề tài .................................................................... 1
1.2. Mục đích và phạm vi nghiên cứu của đề tài ...................................................... 4
1.3. Các điểm mới và đóng góp trong luận văn........................................................ 4
1.4. Tính khả thi của đề tài ...................................................................................... 4
1.5. Thống kê và nhu cầu phân nhóm học sinh trong công tác giảng dạy giáo dục ... 4
1.6. Mô hình hệ thống ............................................................................................ 8
1.7. Các phương pháp nghiên cứu được áp dụng ..................................................... 8
1.8. Kết luận chương 1 ............................................................................................ 9
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ....................................................................... 10
2.1. Các độ đo khoảng cách ................................................................................... 10
2.1.1. Khoảng cách Euclid ................................................................................. 10
2.1.2. Khoảng cách Minkowski.......................................................................... 10
2.1.3. Khoảng cách Jaccard................................................................................ 10
2.2. Thuật toán khám phá cộng đồng ..................................................................... 11
2.2.1. Khái quát về các thuật toán phát hiện cộng đồng ...................................... 11
2.2.2. Thuật toán Louvain .................................................................................. 13
2.3. Trực quan hóa dữ liệu..................................................................................... 16
2.3.1. Tổng quan ................................................................................................ 16
2.3.2. Kiến trúc và mơ hình trực quan hóa dữ liệu.............................................. 19
2.3.3. Thiết kế trực quan hóa dữ liệu .................................................................. 21
2.4. Thuật toán lan truyền nhãn ............................................................................. 25
2.4.1. Ký hiệu .................................................................................................... 25
2.4.2. Nội dung thuật toán.................................................................................. 26
2.4.3. Sự hội tụ của thuật toán............................................................................ 27
2.4.4. Phương pháp xác định siêu tham số của đồ thị ......................................... 28
2.4.5. Độ phức tạp của thuật toán ....................................................................... 29
2.5. Kết luận chương 2 .......................................................................................... 31
CHƯƠNG 3. CÁC BƯỚC XÂY DỰNG NỀN TẢNG HỆ THỐNG VÀ CÀI ĐẶT
................................................................................................................................. 32
3.1. Xây dựng mơ hình .......................................................................................... 32
3.2. Thu thập dữ liệu ............................................................................................. 32
3.3. Tiền xử lý, định dạng dữ liệu có cấu trúc ........................................................ 35
3.4. Mơ tả hệ thống ............................................................................................... 37
3.4.1. Xây dựng hệ thống ................................................................................... 37
3.4.2. Giao diện của chương trình ...................................................................... 39
3.5. Kết luận chương 3 .......................................................................................... 42
CHƯƠNG 4. THỰC NGHIỆM VÀ CÁC KẾT QUẢ ĐÁNH GIÁ....................... 43
4.1. Bộ dữ liệu thực nghiệm .................................................................................. 43
4.2. Giải thích cộng đồng ...................................................................................... 43
4.2.1. Giải thích cộng đồng thứ nhất .................................................................. 45
4.2.2. Giải thích cộng đồng thứ hai .................................................................... 46
4.2.3. Giải thích cộng đồng thứ ba ..................................................................... 47
4.2.4. Giải thích cộng đồng thứ tư ...................................................................... 48
4.3. Đánh giá ......................................................................................................... 48
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................... 51
TÀI LIỆU THAM KHẢO ...................................................................................... 52
DANH MỤC TỪ VIẾT TẮT
Viết tắt
Tiếng Anh
Tiếng Việt
DB
Database
Cơ sở dữ liệu
DBMS
Database Management System
Hệ quản trị cơ sở dữ liệu
Graph
Đồ thị
Graph DB
Graph Database
Cơ sở dữ liệu đồ thị
GDBMS
Graph Database Management
Hệ quản trị cơ sở dữ liệu đồ thị
System
Workspaces
Không gian làm việc
NoSql
Phi SQL hoặc Phi quan hệ
THPT
Trung học phổ thông
DANH MỤC CÁC BẢNG
Bảng 2.1. Khoảng cách giữa hai học sinh được tính theo độ đo Euclid ..................... 11
Bảng 4.1. Số lượng cộng đồng có được khi chọn ngưỡng σ=3 .................................. 44
DANH MỤC CÁC HÌNH
Hình 1.1. Tổng quan hệ thống phân nhóm học sinh dựa vào đặc điểm tương đồng. .... 8
Hình 2.1. Trực quan hóa khoa học mơ phỏng sự bất ổn định Raleigh-Taylor bởi sự hòa
trộn giữa 2 chất lưu ................................................................................................... 18
Hình 2.2. Mơ hình khái niệm của trực quan hóa ........................................................ 20
Hình 2.3. Vai trị của mơ hình dữ liệu trong phần mềm trực quan hóa....................... 21
Hình 2.4. Bản chất của trực quan hoá dựa vào đánh giá mối quan hệ giữa 3 thành phần
................................................................................................................................. 22
Hình 2.5. Đồ thị với trọng số trên cạnh ..................................................................... 25
Hình 3.1. Mơ hình hệ thống thực nghiệm .................................................................. 32
Hình 3.2. Dữ liệu ban đầu ......................................................................................... 34
Hình 3.3. Dữ liệu sau khi tiền xử lý .......................................................................... 36
Hình 3.4. Ma trận khoảng cách ................................................................................. 38
Hình 3.5. Giao diện chính của chương trình .............................................................. 39
Hình 3.6. Chọn File và nạp dữ liệu vào chương trình ................................................ 40
Hình 3.7. Chọn ngưỡng tùy ý để nhận diện cộng đồng và trực quan dữ liệu .............. 40
Hình 3.8. Tùy chọn hiển thị nhãn của các nút............................................................ 41
Hình 3.9. Màn hình hiển thị kết quả .......................................................................... 41
Hình 4.1. Các cộng đồng thu được từ chương trình ................................................... 45
Hình 4.2. Chi tiết cộng đồng thứ nhất thu được từ chương trình ................................ 45
Hình 4.3. Chi tiết cộng đồng thứ hai thu được từ chương trình.................................. 46
Hình 4.4. Chi tiết cộng đồng thứ ba thu được từ chương trình ................................... 47
Hình 4.5. Chi tiết cộng đồng thứ tư thu được từ chương trình ................................... 48
CHƯƠNG 1. GIỚI THIỆU VÀ TỔNG QUAN
VỀ CÁC VẤN ĐỀ NGHIÊN CỨU
1.1. Lý do và động lực thực hiện đề tài
Ngày 25 tháng 07 năm 2014 Bộ trưởng Bộ Giáo dục và Đào tạo đã ban hành
Quyết định số 2635/QĐ-BGDĐT về Triển khai chương trình hành động của Chính phủ
thực hiện Nghị quyết 29-NQ/TW về đổi mới căn bản, toàn diện giáo dục và đào tạo,
đáp ứng yêu cầu công nghiệp hóa, hiện đại hóa trong điều kiện kinh tế thị trường định
hướng xã hội chủ nghĩa và hội nhập quốc tế.
Kể từ khi có các văn bản chỉ đạo, ngành giáo dục đã tích cực triển khai mạnh
mẽ việc thực hiện đổi mới giáo dục. Từ địa phương cũng đã hưởng ứng, triển khai
thực hiện trong từng hoạt động của địa phương mình như việc đầu tư trường lớp, thực
hiện trang bị bổ sung các phương tiện phục vụ cho công tác giảng dạy của thầy cô
giáo, tăng cường các điều kiện phục vụ cho việc học của học sinh. Trong đó đã đặc
biệt quan tâm đến việc đổi mới từ phía người thầy với các yêu cầu cải tiến phương
pháp giảng dạy, phát huy ưu điểm của các phương pháp giảng dạy truyền thống, mạnh
dạn đổi mới các phương pháp, cách dạy nhằm phát huy tính tích cực, tự học tập của
học sinh.
Theo đó người thầy đã mạnh dạn đổi mới trong thiết kế bài giảng, tăng cường
các hoạt động tạo điều kiện cho học sinh trực tiếp tham gia trong việc lĩnh hội kiến
thức, khắc phục được nhược điểm của việc truyền thụ kiến thức một chiều (học sinh
đến lớp chỉ nghe giảng và ghi chép và học thuộc lịng là chính); hình thức lên lớp cũng
được thay đổi từ việc khi đến lớp với phấn trắng, bảng đen và gị bó trong bốn bức
tường, tiếp thu một cách thụ động sang hình thức hoạt động, tiếp thu một cách tích cực
hơn thơng qua các hoạt động như tăng tính thực hành, giúp các em trực tiếp tham gia
vào quá trình học, tăng cường sự giao tiếp lẫn nhau thơng qua việc tổ chức học tập
theo nhóm, học sinh được trao đổi và đưa ra những nhận xét, đưa ra ý kiến cá nhân của
mình. Học sinh được thay đổi môi trường học tập từ việc ngồi trong lớp chuyển sang
việc học tập thông qua thực tế tại các di tích lịch sử, nhà truyền thống, nhà máy, xí
1
nghiệp, ... tăng tính chủ động, khả năng quan sát, nhận xét và tính khái qt từ đó rút
ra bài học bổ ích cho bản thân.
Trong thời gian qua đã có những tiến bộ rõ nét, các phương pháp mới, hình
thức học tập mới được hình thành, tăng cường được tính chủ động sáng tạo của học
sinh; cơ sở vật chất của trường được cải thiện đáp ứng tốt hơn cho việc phục vụ các
hoạt động dạy và học; trang thiết bị cũng được nâng cấp, hiện đại hơn dần tiếp cận
được với sự phát triển của ngành công nghệ thông tin phát triển mạnh mẽ trên thế giới
cũng như trong nước. Phải khẳng định ngành giáo dục đã có bước chuyển mới, tích
cực hơn, đã đi đúng hướng theo tinh thần Nghị quyết của Đảng. Tuy nhiên cũng phải
nhìn nhận là còn nhiều vấn đề đòi hỏi ngành phải tích cực đẩy mạnh hơn nữa mới
mong đạt được mục tiêu mong muốn và phải kiên trì thực hiện đổi mới, mạnh dạn,
thận trọng trong triển khai, bền bỉ trong thực hiện, kịp thời sơ tổng kết, khẳng định
cách làm đúng, phương pháp giảng dạy hiệu quả để phát huy, nhân rộng trong tồn
ngành.
Là người làm cơng tác giảng dạy, cá nhân tơi cũng đã tích cực trong việc thực
hiện chỉ đạo của trường, của ngành trong việc đổi mới phương pháp giảng dạy với
mong muốn giúp cho học sinh học tập tích cực, chủ động sáng tạo và mỗi học sinh
được phát triển trên cơ sở chính năng lực của mình, phù hợp với sự phát triển thể chất,
năng lực cá nhân, có như thế mới tạo được động cơ, sự yêu thích học tập của học sinh
và quan trọng là giúp các em định hướng đúng, phát triển tốt khi học xong bậc học phổ
thông. Tuy nhiên trong thực tế vẫn cịn có sự bất cập, cá nhân tơi xin được trình bày
thêm một số thực trạng mà đơn vị còn mắc phải:
1. Thực hiện mục tiêu đảm bảo khơng có học sinh nào thất học, nhà trường đã
phải gồng mình nhận học sinh, đẩy sĩ số học sinh/lớp tăng cao. Đây cũng là tình hình
chung của nhiều quận nhất là nơi có tỉ lệ dân nhập cư đơng như Thủ Đức, Bình Tân,
Gị Vấp ...
2. Yếu tố cơ sở vật chất, trong đó có trường, lớp học là một ảnh hưởng rất lớn
vì chính yếu tố này đã đưa các trường đến vi phạm Quy định chuẩn ở bậc tiểu học là
35 học sinh/lớp, THCS là 45 em, ..., thực tế sĩ số lớp học tại trường thường rất cao
khiến cho giáo viên khơng có điều kiện quan tâm đến từng học sinh.
2
3. Trang thiết bị dạy học còn chưa đáp ứng cho việc thực hiện dạy học theo
hướng cá thể hóa. Hiện tại chỉ có phấn trắng, bảng đen; trường tốt thì có thêm máy
chiếu; bảng tương tác nhưng muốn sử dụng phải đăng ký vì rất ít; phịng lab thì cịn
q xa vời; phịng thực hành, vườn trường thì chưa có; thư viện thì diện tích q bé
chưa phục vụ rộng rãi cho bạn đọc.
4. Một yếu tố không kém phần quan trọng là đội ngũ giáo viên, đa số chưa nhận
thức đúng đắn về đổi mới nhà trường, đổi mới phương pháp dạy học nói chung và dạy
học theo hướng cá thể hóa học sinh nói riêng; ngại đổi mới; khơng ít giáo viên đã
thường dạy học theo thói quen, ít quan tâm đến tâm lý, thái độ, mức độ ham thích của
học sinh, thậm chí có giáo viên đã xử sự một cách thô thiển, phản sư phạm; còn giáo
viên đơn thuần chỉ dạy cho hết sách, cho hết ý tưởng của mình mà khơng chú ý đến
điều kiện và khả năng tiếp thu, sự ham thích học tập của học sinh.
5. Việc tổ chức cho học sinh học tập theo nhóm, việc giảng dạy sao cho sát đối
tượng học sinh thường cịn mang tính cảm tính, chưa có thức đo cụ thể, chưa thể sâu
sát được đến từng cá nhân cụ thể về tâm sinh lý, ý thức, mục đích, động cơ và năng lực
nên dẫn đến việc học sinh dễ nhàm chán, tham gia một cách thiếu tích cực, tham gia
cho có, lấy lệ, ...
6. Thực tế dạy học ở nhà trường hiện nay cho thấy số học sinh lười, chán học
khá đông; tỉ lệ học yếu kém của học sinh tương đối nhiều; tình trạng học khó nhớ, mau
qn trong học sinh có tính phổ biến cũng ảnh hưởng rất nhiều đến việc dạy và học.
Mỗi cá nhân là một đơn vị đặc thù, không ai giống ai, bởi vì bản thân của mỗi
người cũng chuyển biến liên tục trong dịng sống. Nhìn bề ngồi, mỗi người lúc nào
cũng có vẻ như là chính họ, nhưng thực chất sự thay đổi luôn diễn ra âm thầm, tiệm
tiến, khó thể nhận biết, và học sinh của chúng ta cũng khơng thốt khỏi dịng sống này.
Vậy để vận dụng có hiệu quả một hình thức hoạt động dạy học nói riêng, một phương
pháp dạy học nói chung, đòi hỏi người giáo viên phải nắm được năng lực tiếp nhận và
cả đặc điểm tâm sinh lý của từng em. Bởi vì mỗi con người khơng ai giống ai mà có
những đặc điểm khác nhau. Khi dạy đối tượng học sinh hiếu động thì chúng ta khơng
thể dạy giống như các em học sinh thụ động mà phải có một phương pháp riêng. Nói
cách khác là phương pháp phải phù hợp với đối tượng. Lớp có nhiều học sinh khá giỏi
thì giáo viên phải ra bài tập như thế nào để các em phát huy được năng lực của mình
3
và có cơ hội thi thố tài năng. Ngược lại, các em chưa giỏi thì thầy cơ phải đưa ra các
bài học vừa sức để các em có tinh thần nỗ lực và thêm tự tin vào bản thân.
Vì vậy, bài toán được đặt ra là xây dựng một đồ thị hệ thống đặc điểm tương
đồng của học sinh, dựa trên đồ thị có thể biết được mức độ tương tác phối hợp giữa
các học sinh trong nhóm, từ đó người dạy có thể áp dụng các phương pháp thích hợp
trên từng nhóm học sinh riêng biệt.
1.2. Mục đích và phạm vi nghiên cứu của đề tài
Để thực hiện được các mục tiêu và yêu cầu của đề tài đặt ra, các bước sẽ thực
hiện như sau:
-
Nghiên cứu các lý thuyết, phương pháp, giải thuật liên quan đến phân cụm.
-
Nghiên cứu các đặc trưng cơ bản về đặc điểm tương đồng.
-
Xây dựng mơ hình phân tích đặc điểm tương đồng.
-
Áp dụng mơ hình phân tích đặc điểm tương cho một nhóm học sinh cụ thể.
1.3. Các điểm mới và đóng góp trong luận văn
Từ ý tưởng ban đầu đến các bước triển khai ra thực tế, một số đóng góp và cải
tiến đã được đề xuất và mô tả trong trong luận văn và được trình bày trong 5 thành
phần chính sau:
1.4. Tính khả thi của đề tài
Trọng tâm của đề tài: Đề tài được xây dựng trên trọng tâm chính là xây dựng một hệ
thống hỗ trợ phân nhóm các học sinh dựa trên đặc điểm tương đồng một cách nhanh
chóng và chính xác nhất.
Tính khả thi: Vấn đề cốt lõi là làm thế nào để xây dựng độ đo các đặc điểm tương
đồng của học sinh và cụ thể hóa thành đồ thị.
1.5.Thống kê và nhu cầu phân nhóm học sinh trong cơng tác giảng dạy giáo dục
Luật Giáo dục đã quy định: “Phương pháp giáo dục phổ thơng phải phát huy
tính tích cực, tự giác, chủ động của học sinh, phù hợp với đặc điểm của từng lớp, môn
học, bồi dưỡng phương pháp tự học, rèn luyện kỹ năng vận dụng kiến thức vào thực
tiễn, tác động đến tình cảm, đem lại niềm vui hứng thú học tập cho học sinh”.
Trong quá trình dạy học việc gây hứng thú cho học sinh trong học tập là yếu tố
ảnh hưởng rất lớn đến chất lượng dạy học. Vì vậy vấn đề đặt ra đối với giáo viên là lựa
4
chọn, vận dụng và kết hợp các phương pháp dạy học trong một bài học như thế nào để
phát huy được tính tích cực của học sinh. Cụ thể phải có phương pháp sao cho đạt
được theo hướng phát huy tính tích cực của học sinh. Trong đó việc áp dụng thống kê
và phân nhóm học sinh trong giảng dạy là việc làm đòi hỏi người giáo viên cần phải
lưu ý.
Qua thống kê và phân nhóm, làm cho các nhóm học sinh có những sự tương
đồng cần thiết hịa vào một nhóm, bổ khuyết cho nhau, giúp nhau hoạt động có hiệu
quả trong hoạt động học tập và lĩnh hội kiến thức. Từ đó sẽ tạo ra cho học sinh tính
nhanh nhạy, chủ động sáng tạo góp phần nâng cao chất lượng dạy học, chất lượng tiếp
thu kiến thức bài học.
Theo khái niệm Thống kê: Thống kê là khoa học nghiên cứu mặt số lượng và
hiện tượng, những quy luật của đời sống xã hội trong mối quan hệ mật thiết về mặt
chất lượng trong điều kiện địa điểm thời gian nhất định. Những số liệu thống kê không
chỉ là số liệu đơn thuần biểu hiện về mặt lượng mà chúng cịn có mối quan hệ về mặt
chất của những hiện tượng kinh tế- xã hội. Thơng qua phân tích từng mối quan hệ số
liệu thống kê chúng ta có thể biết được bản chất các quy luật phát triển xã hội.
Trong hoạt động giảng dạy, giáo dục liên quan đến việc phân nhóm học sinh
chúng ta phải dựa vào phương pháp thống kê định tính. Dưa trên những tiêu chí nhất
định để phân chia số học sinh vào trong một nhóm tương đồng.
Để hoạt động nhóm thực sự có hiệu quả, ngay từ đầu giáo viên nên tìm hiểu
phân loại học sinh về nhận thức, năng lực, hoàn cảnh, phẩm chất làm tiền đề cho việc
chia nhóm. Để xác định chính xác, người giáo viên phải khảo sát, đánh giá học sinh
theo các tiêu chí đó và thống kê lại và từ đó phân chia các học sinh vào các nhóm để
học sinh có thể tương trợ, bổ khuyết cho nhau, phát huy có hiệu quả và nâng cao được
kết quả làm việc của nhóm. Khi chia nhóm, có thể chọn phương án 6 học sinh trong
một nhóm chia thành 3 cặp đôi cho phù hợp với điều kiện của lớp học; sắp xếp các
thành viên vào một nhóm, sao cho các thành viên theo thống kê phân loại trên vào một
nhóm nhóm. Nhóm hoạt động có hiệu quả là nhóm gồm các thành viên có năng lực đa
dạng: Khả năng nhận thức cao, trung bình và thấp, đa dạng về thành phần xuất thân,
điều kiện kinh tế, môi trường sống ... Với nhóm như vậy, mỗi một vấn đề cần giải
quyết sẽ chứa đựng sự cân nhắc toàn diện hơn. Giai đoạn đầu, giáo viên cố gắng để đạt
5
được các yêu cầu sau: Mỗi nhóm đều có 1 nhóm trưởng có năng lực điều hành (sau
này sẽ luân phiên thay đổi), có 1 thành viên trong ban học tập. Nếu có thể thì có đủ các
thành viên trong các ban, cân bằng lượng nam nữ trong nhóm; có 3 đơi bạn cùng bàn
có thể giúp nhau tiến bộ.
Những vấn đề cần lưu ý trong phân nhóm để nhóm hoạt động có hiệu quả.
Nhóm là một tập thể nhiều cá nhân, mỗi cá nhân lại có một suy nghĩ khác nhau. Nếu
phối hợp tốt sẽ có nhiều sáng tạo nhưng nếu không phối hợp tốt sẽ rất dễ xảy ra bất
đồng. Vì vậy, cần tuân thủ 5 nguyên tắc sau:
- Đầu tiên, tổ chức các nhóm phải chặt chẽ, có cơ cấu tổ chức hợp lý hợp thành
thể thống nhất, từng thành viên và nhóm trưởng phải phát huy tốt vai trị, trách nhiệm
của mình trong việc thực hiện quy trình học nhóm khi học tập các mơn học.
- Hai, cần tuân thủ các khâu, các bước của quy trình học nhóm; cần quản lý chặt
chẽ kế hoạch học nhóm của mỗi nhóm tránh tạo thành buổi trao đổi ngồi những nội
dung học tập.
- Ba, phân cơng nhiệm vụ phù hợp với khả năng, trình độ, sở trường của từng
thành viên, mỗi người phải nhận rõ trách nhiệm của mình trong quy trình học nhóm.
- Bốn, cần tạo ra bầu khơng khí trao đổi cởi mở, thân thiện, hợp tác, hỗ trợ nhau
cùng tiến bộ; không áp đặt lối suy nghĩ riêng của cá nhân trong quá trình trao đổi, khi
họp nhóm cần chú ý tính tốn thời gian bảo đảm mỗi cá nhân có đủ thời gian để tiến
hành ôn tập riêng trong học tập.
- Và cuối cùng, tiến hành rút kinh nghiệm sau mỗi lần học nhóm khi kết thúc
môn học kịp thời bổ sung, điều chỉnh cách thức phối hợp hoạt động trong nhóm để
nâng cao chất lượng học tập của học sinh hiện nay.
Theo nghiên cứu thống kê Dữ liệu định tính là dữ liệu phản ánh tính chất và sự
hơn kém về tính chất của đối tượng nghiên cứu. Dữ liệu định tính được thu thập dễ
hơn và người ta thường dùng các thang đo định danh hay thứ bậc để xác định. Dữ liệu
của phương pháp nghiên cứu định tính rất lớn và khơng có một hệ thống khn mẫu rõ
ràng như trong nghiên cứu định lượng. Nên cần phải hoàn thành quá trình thu thập
thơng tin đủ và thơng tin cần trước khi tiến hành phân tích. Khi phân tích dữ liệu,
thống kê cần: Mã hóa dữ liệu; Tìm kiếm các mơ hình/ trường hợp điển hình; Gán nhãn
cho các nhóm; Phát triển hệ thống dữ liệu; Thể hiện mối quan hệ giữa các nhóm vì vậy
6
rất cần sử dụng máy tính và các phần mềm hỗ trợ để tiết kiệm thời gian và công sức
trong việc xử lý thống kê dữ liệu.
Từ sự cần thiết trong việc thành lập nhóm để chuyển tải nội dung dạy học theo
hướng phát huy tính tích cực của học sinh và việc thống kê phân tích dữ liệu như trên
đã chứng tỏ rằng thống kê luôn cần thiết để giúp cho nhu cầu phân nhóm học sinh
trong giảng dạy được nhanh chóng, tiết kiệm thời gian và mang đến hiệu quả tốt nhất.
7
1.6. Mơ hình hệ thống
Hình 1.1. Tổng quan hệ thống phân nhóm học sinh dựa vào đặc điểm tương đồng.
Mơ hình trên bao gồm các khối xử lý chính như sau:
• Định dạng theo cấu trúc
• Phân nhóm
Đầu vào: Danh sách học sinh cần phân nhóm
Đầu ra: Danh sách học sinh đã được phân nhóm theo đặc điểm tương đồng
1.7. Các phương pháp nghiên cứu được áp dụng
Đối với đề tài nghiên cứu trên cần áp dụng các phương pháp nghiên cứu cụ thể như
sau. Bao gồm 5 vấn đề cần giải quyết trong bài tốn:
• Tính độ tương đồng của hai học sinh
• Tạo đồ thị tương đồng dựa trên độ đo tương đồng
• Dùng thuật tốn khám phá cộng đồng để tìm các cộng đồng trên đồ thị
• Giải thích từng cộng đồng – tập các học sinh có tính chất giống nhau
• Trực quan hóa cộng đồng.
8
1.8. Kết luận chương 1
Chương 1 đã trình bày một cách đầy đủ và có hệ thống về tồn bộ các lý do,
mục đích thực hiện đề tài đi kèm theo sơ lược về tình hình nghiên cứu cũng như các
cơng trình đã được cơng bố liên quan đến đề tài - nêu bật được các phạm vi cũng như
các đối tượng liên quan đến đề tài – để từ đó vạch ra được chính xác yếu tố quyết định
cũng như phương hướng để thực hiện đề tài đi kèm với các phương pháp luận, nghiên
cứu và đánh giá kết quả đạt được cho từng thành phần.
9
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.1. Các độ đo khoảng cách
2.1.1. Khoảng cách Euclid
Khoảng cách Euclid giữa hai điểm p và q là chiều dài đoạn thẳng 𝑝𝑞
%%%. Trong hệ
tọa độ Descartes, nếu p = (p1, p2,..., pn) và q = (q1, q2,..., qn) là hai điểm trong không
gian Euclid n chiều, thì khoảng cách từ p đến q bằng:
‖𝑝‖ = I𝑝:. +𝑝.. +. . . +𝑝8. = *𝑝. 𝑝
(2.1)
trong đó phương trình sau cùng là tích vơ hướng. Đây là chiều dài của p, khi ta xem nó
là một Véc-tơ Euclid có gốc nằm ở gốc tọa độ. Khoảng cách khi đó bằng
&|𝑝 − 𝑞|& = *(𝑝 − 𝑞 ). (𝑝 − 𝑞 ) = *||𝑝||. + ||𝑞||. − 2𝑝. 𝑞
(2.2)
2.1.2. Khoảng cách Minkowski
Khoảng cách Minkowski là một trường hợp tổng quát của khoảng cách
Euclid và khoảng cách Chebyshev, cho bởi công thức
;
𝑑 (𝑥, 𝑦) = (∑869:(|𝑥6 − 𝑦6 |)7 )<
(2.3)
trong đó r gọi là thành tố Minkowski, khi r =1 thì d tương đương với khoảng cách
Euclid, r=2 thì d trở thành khoảng cách Chebyshev. Với x,y là các vector đặc trưng
cùng có n chiều.
2.1.3. Khoảng cách Jaccard
Cho U là tập hợp hữu hạn các đối tượng và 𝑋, 𝑌𝜂 ⊆ 𝑈. Biểu thức 𝐷 (𝑋, 𝑌) = 1 −
|D∩F|
|D∪F|
được gọi là khoảng các Jaccard giữa X và Y.
Trong luận văn này chúng tôi áp dụng độ đo khoảng cách Euclid để tính khoảng
cách giữa hai học sinh.
Ở đây chúng tơi trích một phần trong dữ liệu với khoảng cách giữa hai học sinh
được tính theo độ đo Euclid.
10
Bảng 2.1. Khoảng cách giữa hai học sinh được tính theo độ đo Euclid
Mã
số
Tốn
Vật
lý
Hóa
học
Sinh
học
Tin
học
1
2
3
4
5
9.8
8.6
9.8
9.8
9.6
9.4
8.6
9.3
9.9
9.1
9.2
9.0
9.2
9.4
9.3
7.5
7.2
7.9
9.1
7.9
9.5
9.6
9.5
9.8
9.3
Ng
ữ
văn
7.5
6.7
6.6
7.8
7.4
6
9.8
9.1
9.0
8.3
9.8
7
8
9
10
9.4
9.2
9.4
9.4
9.0
8.8
9.1
8.9
8.9
8.9
9.0
8.4
8.6
8.5
7.9
8.5
9.6
9.3
9.5
9.5
Lịch
sử
Địa
lý
Tiếng
Anh
GDCD
Cơng
nghệ
GDQP
-AN
Khoảng
cách P
7.5
6.6
6.7
8.4
7.6
7.8
8.2
7.3
9.7
8.0
8.0
7.3
7.7
8.0
8.0
8.5
7.5
8.6
9.7
7.6
8.8
8.8
9.0
9.2
9.1
8.0
7.8
8.1
8.4
8.1
0
2.315167381
1.42126704
3.034798181
1.144552314
6.9
7.3
8.4
7.0
9.4
9.0
8.1
6.6
6.6
7.6
6.7
7.2
8.2
7.9
7.4
8.0
8.2
8.4
8.6
8.0
8.0
8.6
8.7
8.2
9.0
9.1
9.6
8.5
8.9
8.8
9.3
8.3
8.3
8.5
8.4
1.865475811
1.685229955
1.913112647
1.396424004
2.334523506
2.2.Thuật tốn khám phá cộng đồng
2.2.1. Khái quát về các thuật toán phát hiện cộng đồng
Santo Fortunato [2] đã tổng hợp các phương pháp/thuật toán phát hiện cộng
đồng trong mạng xã hội .
Theo tác giả, các nhóm phương pháp điển hình là:
− Các phương pháp truyền thống
− Các thuật toán chia
− Các phương pháp dựa trên mơ đun hóa
− Các thuật tốn dựa trên phổ
− Các thuật toán động
− Các phương pháp dựa trên suy luận thống kê
− Các phương pháp phát hiện chồng chéo cộng đồng
− Các phương pháp nhiều lời giải và hệ thống phân cụm phân cấp
− Các phương pháp phát hiện cộng đồng động
Các phương pháp truyền thống bao gồm 4 phương pháp, đó là phân vùng đồ thị,
phân cụm phân cấp, phân cụm theo vùng và phân cụm theo phổ. Nội dung tóm lược
của từng phương pháp như sau:
− Phương pháp phân vùng đồ thị có mục tiêu là tìm được một phép chia
đồ thị thành g nhóm với kích thước xác định trước, sao cho số lượng các cạnh nằm
11
giữa các nhóm là tối thiểu.Trong phương pháp này, việc xác định số cụm được phân
chia thành, cũng như kích thước của mỗi cụm đó là cần thiết. Phương pháp phân vùng
đồ thị được áp dụng chủ yếu trong tính toán song song, phân vùng mạch và một số các
giải thuật nối tiếp.
− Phương pháp phân cụm phân cấp thường được sử dụng khi mạng xã
hội có cấu trúc phân cấp ( tức một mạng chia làm nhiều cộng đồng con, mỗi cộng
đồng con chia ra làm nhiều cộng đồng con khác, cứ như vậy ...). Ý tưởng cơ bản của
thuật toán phân cụm phân cấp là xác định được sự tương tự của các đỉnh trong đồ thị
mạng bằng một độ đo tương tự, sau đó các đỉnh có độ tương tự cao được xếp vào cùng
một nhóm. Phương pháp phân cụm phân cấp được áp dụng phổ biến trong phân tích
mạng xã hội, sinh học, kỹ thuật, tiếp thị,...
− Phương pháp phân cụm theo vùng dựa trên ý tưởng như sau: định
nghĩa trước một số k là số lượng các cụm, ta biểu diễn đồ thị trong một không gian
metric sao cho mỗi đỉnh của đồ thị được biểu diễn bằng một điểm trong khơng gian
đó. Sau đó người ta tính tốn khoảng cách giữa các điểm trong khơng gian và lấy đó
làm độ đo sự khác nhau giữa các đỉnh trong đồ thị. Mục tiêu của phương pháp là phân
tách không gian trên thành k cụm các điểm sao cho một hàm chi phí dựa trên khoảng
cách của các điểm trong cụm đến tâm của cụm là lớn nhất / nhỏ nhất. Phương pháp
phân cụm theo vùng được áp dụng để xác định các cụm trong các tập điểm dữ liệu.
− Phương pháp phân cụm theo phổ bao gồm tất cả các phương pháp và
kỹ thuật chia tập đối tượng thành các cụm sử dụng vector riêng của ma trận được định
nghĩa từ tập đối tượng đó. Đối tượng ở đây có thể được hiểu là các đỉnh của đồ thị,
hoặc có thể là các điểm của khơng gian metric nào đó. Phương pháp phân cụm bao
gồm việc chuyển hóa các tập đối tượng thành các điểm trong một không gian, mà các
điểm này là các thành phần của vector đặc trưng, sau đó các điểm được phân cụm dựa
trên các phương pháp chuẩn, ví dụ phương pháp phân cụm k-Mean.
Các phương pháp áp dụng thuật toán phân chia đều dựa trên mục đích cơ bản là
tìm ra được các cạnh nối giữa các đỉnh của các cộng đồng khác nhau, sau đó loại bỏ
chúng khỏi đồ thị. Như vậy các cụm trong đồ thị sẽ bị ngắt kết nối với nhau, từ đó ta
có thể phân đồ thị thành các cộng đồng. Điểm mấu chốt của phương pháp này là xác
12
định được tính chất nào đó của các cạnh nối các cộng đồng trong đồ thị, từ đó có thế
phát hiện và loại bỏ chúng ra khỏi đồ thị. Phương pháp áp dụng thuật tốn chia có thể
coi là một kiểu thuật toán phân cụm phân cấp, chỉ khác là thay vì tìm các cạnh có độ
tương đồng cao để ghép các đỉnh của các cạnh đó thành cộng đồng, thì ở đây người ta
tìm cách loại bỏ các cạnh nối giữa các cộng đồng để thu được từng cộng đồng riêng
biệt. Vì vậy kết quả của các thuật tốn chia có thể biểu diễn dưới dạng các mơ hình
phân cấp dưới dạng cây.
2.2.2.Thuật toán Louvain
Phát hiện cộng đồng là cố gắng tìm một phân vùng "tốt" cho một đồ thị nhất
định. Nói cách khác, đầu vào là một số đồ thị G = (V,E) với n=|V| nút và m=|E| cạnh.
Mỗi nút có ki láng giềng được gọi là mức, mà trung bình là ⟨k⟩ =
.L
8
. Đầu ra là một số
phân vùng V = {V1,V2,...,Vr}, với Vc ⊆ V là một tập các nút mà chúng ta gọi là một
cộng đồng. Tác giả làm việc với các nút không chồng chéo nhau, như vậy Vc ∩ Vd =
∅ cho tất cả c ¹ d và tất cả các nút sẽ phải ở trong một cộng đồng, sao cho Vc = V .
Cách khác, tác giả biểu thị bằng σi cộng đồng của nút i, như vậy σi =c nếu i ∈Vc. Cả
hai σ và V có thể được sử dụng thay cho nhau để tham khảo phân vùng. Thuật toán
Louvain [12] phù hợp để tối ưu hóa một hàm mục tiêu duy nhất chỉ định một số chất
lượng của một phân vùng. Tác giả biểu thị một chức năng khách quan với H, cần tối
đa hóa. Tác giả dùng H(σ) và H(V) là như nhau. Có nhiều sự lựa chọn cho các chức
năng khách quan như mơ đun, mơ hình Potts, ngữ nghĩa, và nhiều hơn nữa.
Tóm lại, thuật tốn Louvain hoạt động như sau. Thuật toán ban đầu bắt đầu với
một phân vùng mà mỗi nút nằm trong cộng đồng của chính nó (tức là, σi = i), đó là
phân vùng ban đầu. Vì vậy, ban đầu có nhiều cộng đồng như các nút. Thuật toán di
chuyển xung quanh các nút từ một cộng đồng khác, để cố gắng để cải thiện H(σ). Tác
giả biểu thị bằng H(σi → c) sự khác biệt trong di chuyển nút i đến một cộng đồng khác
c. Đặc biệt, H(σi →c)=H(σ′)−H(σ), trong đó σj′ =σj cho tất cả j ¹ i và σi′ =c, ngụ ý
rằng nếu H(σi → c) > 0, chức năng mục tiêu H được cải thiện. Tại một số điểm, thuật
tốn khơng cịn có thể cải thiện H bằng cách di chuyển các nút riêng lẻ, tại thời điểm
13