Tải bản đầy đủ (.docx) (29 trang)

giải bài toán phân lớp không cân đối trên dữ liệu điểm của sinh viên cntt đại học bách khoa tphcm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (580.71 KB, 29 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN

----------

ĐỀ CƯƠNG NGHIÊN CỨU KHOA HỌC

GIẢI BÀI TỐN PHÂN LỚP KHƠNG CÂN ĐỐI
TRÊN DỮ LIỆU ĐIỂM CỦA SINH VIÊN CNTT ĐẠI
HỌC BÁCH KHOA TPHCM

Học viên thực hiện: Phạm Hồng Dũng
GVHD: TS. Nguyễn Ánh Hồng

Tp. Hồ Chí Minh, tháng 05, năm 2013

1


2

TĨM TẮT
Một trong những bài tốn khai phá dữ liệu hữu ích nhất trong lĩnh vực giáo dục là
bài tốn phân lớp (classification) áp dụng trên dữ liệu giáo dục để dự đoán kết quả cuối
cùng của sinh viên và giúp cải thiện kết quả của họ. Yêu cầu đối với một giải thuật phân
lớp tốt là mơ hình phân lớp thu được phải có độ chính xác dự đốn cao, có tính dễ hiểu
đối với người dùng khơng chun về khai phá dữ liệu.
Một thách thức nữa đối với bài toán phân lớp dữ liệu giáo dục là, các tập dữ liệu
giáo dục thường là loại tập dữ liệu khơng cân đối, bởi vì số sinh viên kém thường ít hơn
nhiều so với số sinh viên khá giỏi. Nhiều giải thuật phân lớp cổ điển thu được kết quả
không tốt đối với các tập dữ liệu không cân đối, bởi vì chúng có khuynh hướng khơng


chú ý đến các lớp thiểu số, chỉ chú ý đến các lớp đa số. Hậu quả là mơ hình phân lớp thu
được sẽ không phân loại đúng đắn những trường hợp dữ liệu tương ứng với các lớp có ít
đại diện.
Trong số các giải thuật thường dùng cho bài toán phân lớp, giải thuật Neural
Network có độ chính xác cao nhưng mơ hình khó hiểu đối với người dùng và thời gian
chạy thường lớn; giải thuật C4.5 có độ chính xác khá cao, chạy nhanh và dễ hiểu đối với
người dùng, nhưng nếu tập dữ liệu có nhiều thuộc tính thì cây quyết định thu được cũng
sẽ khó hiểu; giải thuật Nạve Bayes vừa có độ chính xác khơng cao vừa khó hiểu. Khi áp
dụng kết hợp các biện pháp tiền xử lý lấy mẫu dư (oversampling) đối với lớp thiểu số và
lấy mẫu thiếu (undersampling) đối với lớp đa số, kết quả phân lớp sẽ tốt hơn, nhưng việc
tiền xử lý này địi hỏi phải có kiến thức sâu, khơng phù hợp với người dùng không
chuyên.
Đề tài này đề xuất một cách tiếp cận phân lớp dữ liệu giáo dục không cân đối dựa
trên quy hoạch di truyền (GP), cho ra mô hình phân lớp là một tập luật dưới dạng cây rất
đơn giản và dễ hiểu, có độ chính xác khá cao và thời gian chạy chấp nhận được.

Bài toán Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


3

ABSTRACT
One of the most useful data mining tasks in education is the problem of classification on
educational data to predict final results of students and help them to improve their results. The
requirement for a good classification algorithm is that the discovered classification model must
have a great prediction accuracy and it must be comprehensive to users who are not specialists in
data mining.
Another challenge to the classification problem in education is that educational data sets usually

are imbalanced ones, since the number of failed students is usually less than that of
good/excellent students. Many traditional classification algorithms obtained bad results on
imbalance datasets, because they are more likely do not pay attention to minority classes and
favour majority ones instead. Consequently, resulting classification models discovered will not
appropriately classify new data instances corresponding to the classes having few
representations.
Among the mostly used algorithms for the classification task, Neural Networks have high
classification accuracy but cannot produce easy to understand classification models for users and
its running time is usually very long; C4.5 can provide decision trees which be easy to interpret,
yet their interpretability may diminish the more they become complex; Naïve Bayes networks
are both low accuracy and difficult to understand. When we combine oversampling the rare
classes and undersampling the majority ones, classification performance will be better, but this
preprocessing technique requires thorough knowledge, not suitable to non-professional users.
This project proposes a classification approach to imbalance educational data based on genetic
programming (GP) whose resulting classification models are sets of classification rules in the
form of trees which are very simple and easy to understand, with pretty high accuracy and
acceptable running time.

Bài toán Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hồng Dũng


4

Mở đầu
A. Tính cấp thiết của đề tài
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thơng tin cũng như
phần cứng máy tính đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống
thông tin tăng nhanh đáng kể. Bên cạnh đó, việc ứng dụng cơng nghệ thơng tin vào mọi

lĩnh vực sản xuất, kinh doanh, quản lý, … đã tạo ra một lượng dữ liệu lưu trữ khổng lồ.
Bên cạnh việc tổ chức lưu trữ và quản lý dữ liệu, nảy sinh nhu cầu cấp thiết là cần có
những kỹ thuật và công cụ mới để chuyển đổi lượng dữ liệu khổng lồ trên thành các tri
thức có ích. Nhu cầu này đã dẫn đến một khuynh hướng kỹ thuật mới là Khai phá dữ liệu
(Data Mining), đơi khi cịn được gọi là Khám phá Tri thức trong các Cơ sở dữ liệu
(Knowledge Discovery in Databases – KDD), với nhiều phương pháp, giải thuật và mức
độ hiệu quả khác nhau. Khai phá dữ liệu (KPDL) là lĩnh vực khám phá những thơng tin
hữu ích và tiềm tàng từ những lượng dữ liệu lớn.
KPDL đã được ứng dụng trong rất nhiều lĩnh vực, bao gồm cả những lĩnh vực như
bán lẻ (retail sales), sinh tin học (bioinformatics), và chống khủng bố (counter-terrorism).
Trong những năm gần đây, ngày càng nhiều người quan tâm đến việc sử dụng KPDL để
giải đáp các vấn đề khoa học bên trong việc nghiên cứu về giáo dục, một lĩnh vực nghiên
cứu gọi là Khai phá Dữ liệu Giáo dục (Educational Data Mining – EDM). EDM là q
trình chuyển đổi dữ liệu thơ được sưu tập bởi các hệ thống giáo dục ra thành những thông
tin hữu ích, có thể được dùng để trợ giúp việc đưa ra những quyết định sáng suốt và giải
đáp một số vấn đề nghiên cứu trong lĩnh vực giáo dục. Trào lưu nghiên cứu EDM này lên
đến đỉnh điểm vào năm 2008, với sự thành lập Tổ công tác về Khai phá Dữ liệu Giáo dục

Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


5

Quốc tế (International Working Group on Educational Data Mining 1), và Tạp chí Khai
phá Dữ liệu Giáo dục (Journal of Educational Data Mining – JEDM).
Một trong những bài toán KPDL hữu ích nhất (và có lẽ được nghiên cứu nhiều nhất)
trong lĩnh vực giáo dục là phân lớp hay phân loại (classification) [1]. Nhiều mục đích
giáo dục khác nhau cần sử dụng phân lớp, chẳng hạn như: để khám phá những nhóm sinh

viên tiềm năng, có những đặc điểm và phản ứng tương tự như nhau đối với một chiến
lược sư phạm đặc biệt nào đó, để phát hiện việc sử dụng sai mục đích hoặc lạm dụng hệ
thống học trực tuyến, để gom nhóm những sinh viên nào cần khun bảo hay có khuynh
hướng bị điểm kém và tìm xem sinh viên đó có những nhận thức sai gì về các mơn học,
để nhận diện những học viên có ít động lực học tập và tìm kiếm những biện pháp khắc
phục để hạ thấp tỷ lệ buộc thôi học, để dự đoán hay phân loại sinh viên khi sử dụng các
hệ thống trợ giáo thông minh, v.v… Hiện nay, các kỹ thuật khai phá dữ liệu giáo dục
(KPDLGD) đang được sử dụng trong các nghiên cứu về Hệ thống Trợ giáo Thơng minh
(Intelligent Tutoring System – ITS) và Trí tuệ Nhân tạo trong Giáo dục (Artificial
Intelligence in Education – AIED) trên khắp thế giới [6]. Ví dụ, các nhà nghiên cứu đã sử
dụng KPDLGD để:







Tìm ra những yếu tố ảnh hưởng đến việc bỏ học của học sinh
Phát hiện những toan tính nghịch phá hoặc lạm dụng hệ thống học trực tuyến
Định hướng học tập cho sinh viên
Xây dựng hoặc điều chỉnh các mơ hình sinh viên
Ước lượng ảnh hưởng của những can thiệp cá nhân vào quá trình học tập
Dự đoán kết quả học tập và cách hoạt động của sinh viên, v.v…

Hiện tại, nhiều loại phương pháp để phân lớp sinh viên cùng với những giải thuật trí
tuệ nhân tạo khác nhau đã được áp dụng để dự đoán kết quả học tập, điểm số hoặc xếp
hạng của sinh viên. Một số cơng trình ví dụ là: dự đốn kết quả cuối khóa bằng giải thuật
cây quyết định (decision tree) ID3 đơn thuần [4], hoặc bằng giải thuật C4.5 rồi so sánh
với ID3 [3]; phân tích dữ liệu năm học trước rồi dự đoán kết quả học tập của sinh viên

năm học mới bằng giải thuật mạng Bayes (Bayesian network), phân thành hai lớp

1 Tổ công tác này tổ chức các Hội nghị Quốc tế về Khai phá Dữ liệu Giáo dục (International Conference

on Educational Data Mining) hàng năm tại những quốc gia khác nhau, thành lập Hội Khai phá Dữ liệu
Giáo dục Quốc tế (International Educational Data Mining Society, là hội có Web site tại
), và hàng tháng xuất bản các số tạp chí JEDM.

Bài tốn Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


6

performer và underperformer [7]; dự đoán điểm số sinh viên (hai lớp: pass và fail) dùng
các kỹ thuật hồi quy (regression) trong dữ liệu của trường Hellenic Open University [8];
dự đoán điểm xếp hạng (grade) của sinh viên (phân thành các lớp low risk, medium risk
và high risk) bằng cách dùng các phương pháp phân loại khác nhau [7]; phân loại sinh
viên bằng các giải thuật di truyền để dự đốn điểm xếp hạng cuối khóa dựa trên dữ liệu
của hệ thống quản học qua Web [10].
Một trong những vấn đề thường gặp đối với bài toán phân lớp dữ liệu là, nhiều giải
thuật phân lớp cổ điển thu được kết quả khơng tốt (độ chính xác phân lớp khơng cao) đối
với những tập dữ liệu không cân đối (imbalance data set). Vấn đề đối với dữ liệu không
cân đối nảy sinh bởi vì các giải thuật học có khuynh hướng khơng chú ý đến các lớp ít
phổ biến (gọi là lớp thiểu số – minority class), chỉ chú ý đến các lớp phổ biến nhất (gọi là
lớp đa số – majority class). Hậu quả là mơ hình phân lớp thu được sẽ không phân loại
đúng đắn được những trường hợp dữ liệu tương ứng với các lớp có ít đại diện. Dữ liệu
kết quả xếp hạng cuối khóa, cuối năm, v.v… của sinh viên cũng thuộc loại dữ liệu khơng
cân đối, bởi vì số sinh viên bị đánh rớt (fail) thường ít hơn nhiều so với số sinh viên được

chấm đậu (pass), mà ta lại quan tâm đến các trường hợp bị đánh rớt hơn.
Với quốc sách tập trung cho giáo dục, số lượng cơ sở giáo dục bậc cao (từ cao đẳng
trở lên) và lượng sinh viên ở nước ta trong những năm gần đây đang gia tăng nhanh
chóng. Nhu cầu về những giải pháp KPDLGD nói chung và bài tốn phân lớp dữ liệu nói
riêng ngày càng trở nên cấp bách. Nhưng phân lớp trên dữ liệu điểm của sinh viên ắt phải
giải quyết vấn đề dữ liệu khơng cân đối, sao cho mơ hình phân lớp thu được ít bị ảnh
hưởng bởi tính chất khơng cân đối của dữ liệu. Mong muốn của chúng tôi khi thực hiện
đề tài này là góp một phần cơng sức nhỏ nhoi vào lĩnh vực cấp thiết và quan trọng ấy.

B. Mục tiêu nghiên cứu, giả thuyết khoa học, đối tượng
nghiên cứu, và phạm vi ứng dụng của đề tài
B.1. Mục tiêu nghiên cứu
Đề tài nghiên cứu ảnh hưởng của các kỹ thuật tái cân đối dữ liệu trên tập dữ liệu
khơng cân đối, sau đó xây dựng một giải pháp khả thi để giải quyết bài toán phân lớp đối
Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


7

với dữ liệu giáo dục, có độ chính xác và tính dễ hiểu so sánh được với các giải pháp phân
lớp giáo dục đã được thực hiện trong các công trình đã nêu bên trên.

B.2. Giả thuyết khoa học
Giải pháp được xây dựng sẽ áp dụng phương pháp lập trình di truyền (genetic
programming – GP). Lý do chọn loại giải thuật này là: nhiều cơng trình nghiên cứu đã
chứng tỏ rằng áp dụng các giải thuật tiến hóa (evolutionary algorithm – EA) bao gồm
giải thuật di truyền (genetic algorithm – GA) và GP trong bài toán phân lớp sẽ thu được
mơ hình có độ chính xác phân lớp cao (trên dưới 90%) và các luật phân lớp dạng IF–

THEN dễ hiểu đối với người dùng, và mơ hình thu được hầu như khơng bị ảnh hưởng bởi
tính khơng cân đối của dữ liệu.
Thời gian chạy của giải thuật không quá lâu để có thể chấp nhận được.

B.3. Đối tượng nghiên cứu
Việc nghiên cứu sẽ được tiến hành trên một tập dữ liệu cụ thể là tập dữ liệu kết quả
học tập các môn học của các lớp sinh viên đại học thuộc khoa Khoa học và Kỹ thuật Máy
tính Đại học Bách Khoa TpHCM trong 5 năm học từ 2005 đến 2009. Giải thuật sẽ được
tích hợp vào cơng cụ phổ biến WEKA để thuận tiện cho việc so sánh kết quả với các giải
thuật phân lớp khác và việc lưu trữ mơ hình thu được. Mơ hình thu được sau khi áp dụng
giải thuật nói trên sẽ được cho chạy thử trên một số bản ghi dữ liệu mới, khơng có trong
tập dữ liệu đã nghiên cứu, để đánh giá hiệu quả thực tiễn của giải thuật.

B.4. Phạm vi ứng dụng
Tuy đề tài chỉ nghiên cứu trên khách thể là dữ liệu điểm của sinh viên khoa Khoa
học và Kỹ thuật Máy tính Đại học Bách Khoa TpHCM, nhưng kết quả của nghiên cứu sẽ
áp dụng được cho dữ liệu điểm của mọi trường cao đẳng, đại học khác theo phương thức
đào tạo tín chỉ cũng như niên chế. Lý do là, các chương trình đào tạo theo hệ tín chỉ đều
có đặc điểm giống nhau về tính phức tạp là những sinh viên khác nhau có thể chọn học
những mơn học khác nhau, cịn chương trình đào tạo hệ niên chế thì mọi sinh viên đều
học một số môn học giống nhau nên dữ liệu điểm đơn giản hơn nhiều; nếu giải pháp đề

Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


8

xuất áp dụng được cho dữ liệu điểm phức tạp của hệ tín chỉ thì nó cũng hồn tồn có thể

áp dụng được cho dữ liệu điểm đơn giản của niên chế.

B.5. Ý nghĩa của đề tài
B.5.1. Ý nghĩa khoa học

Đề tài đóng góp một biện pháp dễ thực hiện (với sự trợ giúp của máy tính) để dự
đốn kết quả học tập của các sinh viên đại học theo hệ tín chỉ. Kết quả, kinh nghiệm thu
được khi thực hiện đề tài này sẽ giúp các tổ chức giáo dục, những người làm công tác
giáo dục (trước hết là ở Việt Nam) đoán trước được những sinh viên nào có nhiều khả
năng sẽ khơng đạt kết quả cuối cùng hoặc bị buộc thơi học. Vấn đề dự đốn kết quả này
khơng thể đạt được bằng việc phân tích dữ liệu hoặc truy vấn dữ liệu đơn giản.
Kết quả thu được của đề tài này áp dụng được cho các tập dữ liệu kết quả học tập
của các cơ sở giáo dục đại học và cao đẳng, cả các trường đã áp dụng hệ tín chỉ lẫn các
trường cịn duy trì hệ niên chế.
B.5.2. Ý nghĩa thực tiễn

Học đại học là một q trình dài và khó khăn, địi hỏi sinh viên phải đầu tư nhiều
công sức, tiền bạc của cá nhân cũng như của gia đình; nếu thất bại có thể sẽ dẫn đến
những tổn thất lớn về cả tinh thần lẫn vật chất cho sinh viên và gia đình họ. Việc phát
hiện sớm khả năng thất bại trong ngành học hoặc bậc học đang theo đuổi có thể giúp sinh
viên đưa ra những quyết định điều chỉnh thích hợp, ví dụ như: tăng thêm quyết tâm học
tập và nỗ lực hơn nhằm đạt kết quả tốt, hoặc chuyển sang một hướng đi khác phù hợp
hơn với năng lực của mình (học nghề, học ngành khác, trường khác, hoặc cấp học khác).
Việc phát hiện sớm những sinh viên có khả năng thất bại trong ngành học mình phụ
trách có thể giúp các giáo viên đưa ra những quyết định nhằm ngăn ngừa chuyện đó xảy
ra, ví dụ như tăng cường nhắc nhở, khuyến khích sinh viên, hoặc tìm tịi những cách
truyền đạt hay hơn, giúp sinh viên dễ tiếp thu hơn và đạt kết quả học tập cao hơn.
Biết trước những sinh viên có nguy cơ thất bại trong học tập, các tổ chức giáo dục
có thể đề ra những biện pháp thích hợp để tránh chuyện đó xảy ra, ví dụ như đề nghị
những lộ trình học mà sinh viên nên theo, những môn học mà sinh viên nên chọn (đối với

hệ tín chỉ) để có thể đạt kết quả tốt hơn.
Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


9

Việc học của các sinh viên đại học cũng cần sự đầu tư rất lớn của xã hội, cụ thể là
của bộ giáo dục và của các cơ quan cử tuyển (nếu có). Khả năng phát hiện những sinh
viên học kém để điều chỉnh sớm sẽ giúp xã hội đầu tư có hiệu quả hơn cho giáo dục.

Bài tốn Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


10

Chương 1: Cơ sở lý thuyết

1.1. Bài toán phân lớp trong KPDL
Phân lớp là một hình thức phân tích dữ liệu nhằm rút ra những mơ hình mơ tả
những lớp dữ liệu quan trọng. Những mơ hình này, gọi là mơ hình phân lớp (classifier
hoặc classification model), được dùng để dự đốn những nhãn lớp có tính phân loại
(categorical), rời rạc và khơng có thứ tự cho những đối tượng dữ liệu mới. Ví dụ, ta có
thể xây dựng một mơ hình phân lớp để phân loại những đơn xin vay tiền của ngân hàng
là an toàn hay rủi ro. Việc phân tích như thế giúp ta hiểu rõ hơn về hầu hết dữ liệu. Các
nhà nghiên cứu đã đề xuất nhiều phương pháp phân lớp trong học máy (machine
learning), nhận dạng mẫu (pattern recognition), và thống kê học (statistics). Phân lớp có

nhiều ứng dụng, bao gồm cả phát hiện lừa đảo, tiếp thị theo khách hàng mục tiêu (target
marketing), dự đoán hiệu năng làm việc (performance prediction), sản xuất, và chẩn đoán
bệnh trong y khoa, …

1.1.1. Các khái niệm cơ bản
Chúng tôi giới thiệu khái niệm về phân lớp trong tiểu mục 1.1.1.1. Tiểu mục 1.1.1.2
mô tả cách tiếp cận chung để phân lớp như một quy trình gồm hai bước: ở bước 1, ta xây
dựng một mơ hình phân lớp dựa trên những dữ liệu đã có từ trước; ở bước 2, ta xác định
xem độ chính xác của mơ hình có chấp nhận được hay khơng, và nếu chấp nhận được thì
ta sẽ dùng mơ hình ấy để phân lớp dữ liệu mới.
1.1.1.1. Phân lớp là gì?

Một viên chức ngân hàng phụ trách cho vay cần phân tích dữ liệu của khách hàng
để tìm hiểu xem những người xin vay nào là “an toàn” (safe) hoặc “rủi ro” (risk) cho
ngân hàng. Một giám đốc tiếp thị tại công ty AllElectronics cần xử lý dữ liệu để dự đoán
một khách hàng với tiểu sử sơ lược cho trước sẽ mua máy tính mới hay khơng. Một nhà
nghiên cứu y học muốn phân tích dữ liệu bệnh ung thư vú để dự đoán là nên áp dụng
Bài toán Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


11

cách nào trong số ba cách điều trị cụ thể cho một bệnh nhân. Trong mỗi ví dụ này, cơng
việc phân tích dữ liệu là phân lớp, trong đó một mơ hình phân lớp được xây dựng để dự
đốn các nhãn lớp (có tính phân loại), như “safe” hoặc “risk” đối với dữ liệu xin vay tiền;
“yes” hoặc “no” đối với dữ liệu tiếp thị; hoặc “treatment A”, “treatment B”, hay
“treatment C” đối với dữ liệu y học. Các nhãn lớp này có thể được biểu diễn bằng
những giá trị rời rạc, trong đó thứ tự giữa các giá trị khơng có ý nghĩa. Ví dụ, các giá trị

1, 2, và 3 có thể được dùng để biểu diễn các cách điều trị A, B, và C, ở đó khơng có hàm
ý gì về thứ tự trong nhóm các cách điều trị này.
Giả sử người giám đốc tiếp thị ở trên muốn dự đoán rằng một khách hàng cho trước
sẽ tiêu bao nhiêu tiền trong một lần mua hàng tại cơng ty AllElectronics. Cơng việc phân
tích dữ liệu này là một ví dụ về dự đốn số (numeric prediction), ở đó mơ hình xây dựng
được dùng để dự đốn một hàm có trị liên tục hay giá trị có thứ tự, trái ngược với các
nhãn lớp. Mơ hình này là một mơ hình dự đốn (predictor). Phân tích hồi quy
(regression analysis) là một phương pháp thống kê, thường được dùng cho dự đốn số; vì
thế hai thuật ngữ này thường được xem là đồng nghĩa với nhau, mặc dù vẫn có những
phương pháp dự đốn số khác. Phân lớp và dự đốn số là hai loại chính trong số các bài
toán dự đoán. Ở đây ta chỉ tập trung vào bài toán phân lớp.
1.1.1.2. Cách tiếp cận chung đối với bài toán phân lớp

Phân lớp dữ liệu là một quá trình gồm hai bước: một bước học (trong đó xây dựng
nên một mơ hình phân lớp) và một bước phân lớp (trong đó mơ hình vừa xây dựng được
sử dụng để dự đoán các nhãn lớp cho những dữ liệu nào đó). Hình 1.1 minh họa q trình
này cho trường hợp dữ liệu xin vay tiền. Dữ liệu ấy đã được đơn giản hóa để dễ minh
họa. Trong thực tế, có thể ta cần xem xét nhiều thuộc tính hơn.
Ở bước thứ nhất, ta xây dựng một mơ hình phân lớp mô tả một bộ xác định trước
các lớp dữ liệu hay khái niệm. Đây là bước học (hay giai đoạn huấn luyện), ở đó một giải
thuật phân lớp xây dựng nên mơ hình phân lớp bằng cách phân tích hoặc “học hỏi từ”
một tập huấn luyện (training set) hình thành từ các bản ghi trong cơ sở dữ liệu và các
nhãn lớp liên kết với chúng. Mỗi bản ghi X được biểu diễn bởi một vector thuộc tính
(attribute vector) gồm n-chiều, X = (x1, x2, …, xn), mô tả n giá trị đo đã thực hiện trên bản

Bài toán Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng



12

ghi đó từ n thuộc tính tương ứng của cơ sở dữ liệu A1, A2, …, An2. Mỗi bản ghi X được giả
định là thuộc về một lớp được quy định trước, như được xác định bởi một thuộc tính khác
của cơ sở dữ liệu gọi là thuộc tính nhãn lớp (class label attribute). Thuộc tính nhãn lớp
này có trị rời rạc và khơng có thứ tự. Nó có tính phân loại (categorical hay nominal) ở
chỗ mỗi giá trị của nó đóng vai trị một loại (category) hoặc lớp (class). Các bản ghi riêng
rẽ tạo thành tập huấn luyện được gọi là các bản ghi huấn luyện (training tuple) và được
lấy mẫu ngẫu nhiên từ cơ sở dữ liệu đang phân tích. Trong ngữ cảnh phân lớp, các bản
ghi của cơ sở dữ liệu có thể được các tài liệu khác nhau gọi là mẫu (sample), ví dụ
(example), thể hiện (instance), điểm dữ liệu (data point), hoặc đối tượng (object)3.

Hình 1.1a: Bước học/huấn luyện trong quá trình phân lớp hai bước [5].
Do nhãn lớp của mỗi bản ghi huấn luyện đều được cung cấp sẵn, nên bước này còn
được gọi là học có giám sát (supervised learning, tức là việc học của mơ hình phân lớp là
“có giám sát” ở chỗ nó được cho biết là mỗi bản ghi huấn luyện thuộc về lớp nào). Nó
trái với học khơng giám sát (unsupervised learning, hay còn gọi là gom cụm –
clustering), trong đó ta khơng biết nhãn lớp của mỗi bản ghi huấn luyện và có thể cả số
lượng hoặc tập hợp các lớp cần học nữa. Ví dụ, nếu như ta khơng có dữ liệu
loan_decision (tức quyết định cho vay) cho tập huấn luyện, ta có thể dùng kỹ thuật gom
2 Mỗi thuộc tính đại diện cho một “đặc điểm” (feature) của X. Do đó các tài liệu về nhận dạng mẫu dùng

thuật ngữ vector đặc điểm thay cho vector thuộc tính. Trong đề tài này, chúng tơi dùng thuật ngữ vector
thuộc tính, và trong cách ký hiệu của chúng tôi, bất kỳ biến nào đại diện cho một vector đều được trình
bày bằng kiểu chữ đậm và nghiêng, các giá trị đo mơ tả vector đó được trình bày bằng kiểu chữ nghiêng
(ví dụ: X = (x1, x2, x3)).
3 Trong các tài liệu về học máy, các bản ghi huấn luyện thường được gọi là mẫu huấn luyện (training

sample) hoặc ví dụ huấn luyện (training example).


Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hồng Dũng


13

cụm để cố gắng xác định các “nhóm các bản ghi giống nhau”, các nhóm này có thể tương
ứng với các nhóm nguy cơ bên trong dữ liệu xin vay tiền.
Bước thứ nhất của q trình phân lớp cịn có thể được xem như là việc học (hay tìm
kiếm) một ánh xạ hay hàm y = f(X) mà có thể dự đoán được nhãn lớp y liên kết với một
bản ghi X cho trước. Theo cách quan sát này, chúng ta muốn tìm ra một ánh xạ hay hàm
mà chia tách các lớp dữ liệu. Thông thường, ánh xạ này được biểu diễn dưới dạng các
luật phân lớp, các cây quyết định, hoặc các cơng thức tốn học. Trong ví dụ dữ liệu xin
vay ngân hàng bên trên, ánh xạ này được biểu diễn dưới dạng các luật phân lớp giúp
nhận diện những đơn xin vay tiền nào là an tồn hoặc rủi ro (Hình 1.1a). Các luật này có
thể được dùng để phân loại các bản ghi dữ liệu trong tương lai cũng như giúp ta hiểu biết
sâu hơn về những gì hàm súc trong dữ liệu. Chúng cũng cung cấp một cách biểu diễn dữ
liệu ngắn gọn, cô đọng.

Hình 1.1b: Bước phân lớp trong quá trình phân lớp hai bước [5].
Ở bước thứ hai (Hình 1.1b), mơ hình tìm được ở bước thứ nhất sẽ được dùng cho
việc phân loại những dữ liệu mới. Trước hết, ta đánh giá độ chính xác dự đốn
(predictive accuracy) của mơ hình phân loại ấy. Nếu như ta dùng tập huấn luyện để đánh
giá độ chính xác của mơ hình phân lớp thì việc đánh giá này nhiều khả năng là quá lạc
quan, bởi vì mơ hình ấy có khuynh hướng q khớp (overfit) dữ liệu (tức là trong q
trình học, nó có thể sáp nhập ln một số trường hợp bất thường của dữ liệu huấn luyện,
vốn không hiện diện trong tổng thể tập dữ liệu nói chung). Vì thế, ta dùng một tập kiểm
tra (test set), bao gồm các bản ghi kiểm tra (test tuple) và các nhãn lớp liên kết với
chúng, để thực hiện việc đánh giá này. Các bản ghi kiểm tra này độc lập với các bản ghi

huấn luyện, nghĩa là chúng không được dùng để xây dựng mơ hình phân lớp.
Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


14

Độ chính xác (accuracy) của một mơ hình phân lớp trên một tập kiểm tra xác định
là tỷ lệ các bản ghi của tập kiểm tra được phân loại đúng đắn bởi mơ hình phân lớp ấy.
Nhãn lớp liên kết của mỗi bản ghi kiểm tra được so sánh với sự dự đốn lớp của mơ hình
phân lớp học ứng với bản ghi đó. Mục 1.3.1 bên dưới mơ tả vài phương pháp để đánh giá
độ chính xác của mơ hình phân lớp. Nếu độ chính xác của mơ hình phân lớp được xem
là chấp nhận được, thì mơ hình phân lớp có thể được dùng để phân loại những bản ghi dữ
liệu trong tương lai mà nhãn lớp chưa biết. (Trong các tài liệu học máy, loại dữ liệu như
vậy còn được gọi là dữ liệu “unknown” hoặc “previously unseen”). Ví dụ, các luật phân
lớp học được trong Hình 1.1a từ việc phân tích dữ liệu của những đơn xin vay tiền lúc
trước, nếu có độ chính xác cao khi phân lớp tập kiểm tra, thì có thể được dùng để chuẩn
thuận hoặc bác những đơn xin vay tiền mới hoặc sẽ có trong tương lai, như được minh
họa trong Hình 1.1b.
Sau đây là vài phương pháp thơng dụng nhất để xây dựng mơ hình phân lớp: quy
nạp cây quyết định, mạng Nạve Bayes, và mạng nơ-rơn (Neural Network).

1.1.2. Phân lớp bằng cách quy nạp cây quyết định
1.1.2.1. Các giải thuật quy nạp cây quyết định
 Ưu điểm
 Nhược điểm
1.1.2.2 Ưu và nhược điểm của các giải thuật quy nạp cây quyết định
 Ưu điểm
 Nhược điểm


1.1.3 Phân lớp dữ liệu bằng mạng Naïve Bayes
 Ưu điểm
 Nhược điểm

1.1.4 Phân lớp dữ liệu với các mạng nơrôn
 Nhược điểm
 Ưu điểm
Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


15

1.2 Giải thuật tiến hóa trong phân lớp
1.2.1 Cơ sở lý thuyết của GA và GP
1.2.1.1 Nền tảng sinh học của GA và GP
1.2.1.2 Các đặc điểm cơ bản của GA và GP
1.2.1.3 Giải thuật Di truyền Chuẩn

1.2.2 GP và ứng dụng GP để giải bài toán phân lớp
1.2.2.1 Sơ lược về GP

Sau đây là những bước chính cần tiến hành để dùng GP giải bất kỳ bài toán nào:
 Biểu diễn cá thể
Các cách biểu diễn cá thể được dùng trong GP đại khái có thể được chia ra thành những
loại sau đây:

Binary-Tree Based GP

Constrained Syntax GP
Cellular GP
Linear GP
Graph based GP
Grammar based GP
 Tạo quần thể ban đầu

Phương pháp Full
Phương pháp Grow
Phương pháp Ramped Half and Half
 Lựa chọn các cá thể cha mẹ để sinh sản

Fitness-Proportionate Selection
Tournament Selection
Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


16

Linear-rank Selection
Random Selection
 Các phép toán di truyền

Crossover
Mutation
_ Biến dị điểm (point mutation)
_ Biến dị thu nhỏ (shrink mutation)
_ Biến dị phóng to (grow mutation)

Reproduction
 Độ khỏe mạnh (fitness) của cá thể
 Điều kiện kết thúc tiến hóa
1.2.2.2 Phân lớp dùng GP
 Tiến hóa các giải thuật phân lớp
 Tiến hóa các luật phân lớp
 Tiến hóa các biểu thức phân lớp

1.2.2.3 Hàm fitness cho phân lớp bằng GP
2.2.2.4 Ưu và nhược điểm của phân lớp dùng GP
 Ưu điểm
 Nhược điểm

1.3 Đánh giá hiệu quả phân lớp
1.3.1 Các độ đo để đánh giá hiệu quả của mơ hình phân lớp

Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


17
Các độ đo đánh giá mơ hình phân lớp bao gồm độ chính xác (accuracy, hay cịn gọi là tỷ lệ
nhận diện – recognition rate), độ nhạy (sensitive, hay còn gọi là độ bao quát – recall), độ đặc
hiệu (specificity), độ xác đáng (precision). Chú ý rằng, tuy độ chính xác là một độ đo cụ thể,
nhưng từ ngữ “độ chính xác” cịn được dùng như một thuật ngữ tổng qt để chỉ các khả năng dự
đốn của mơ hình phân lớp.
Bảng 1.1: Các độ đo đánh giá mơ hình phân lớp [5].

Việc dùng dữ liệu huấn luyện để rút ra một mơ hình phân lớp rồi lại dùng chính dữ liệu đó

để đánh giá độ chính xác của mơ hình kết quả học được có thể dẫn tới những đánh giá quá lạc
quan đến mức sai lầm về giải thuật học đối với dữ liệu. Thay vì vậy, ta nên đo độ chính xác của
mơ hình phân lớp học được trên một tập kiểm tra (test set), bao gồm các bản ghi đã có nhãn lớp
nhưng chưa được dùng để huấn luyện mơ hình đó.
Các thuật ngữ cơ bản (đối với trường hợp thuộc tính lớp chỉ có 2 giá trị):
o Bản ghi dương tính (positive tuple): loại bản ghi thuộc lớp quan tâm chính.
o Bản ghi âm tính (positive tuple): tất cả các bản ghi không thuộc loại trên.
Ký hiệu:

P: số lượng bản ghi dương tính;
N: số lượng bản ghi âm tính.

Với mỗi bản ghi, ta so sánh giá trị nhãn lớp mà mơ hình dự đốn được với nhãn lớp đã biết
của bản ghi đó. Có vài thuật ngữ khác cần cho việc tính tốn nhiều độ đo đánh giá, việc hiểu
chúng sẽ giúp dễ nắm bắt ý nghĩa của các độ đo khác nhau.
o Số dương tính đúng (True Positives – TP): là số bản ghi dương tính được mơ hình dự
đốn nhãn đúng.
o Số âm tính đúng (True Negatives – TF): là số bản ghi âm tính được mơ hình dự đốn
nhãn đúng.
Bài tốn Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


18
o Số dương tính sai (False Positives – FP): là các bản ghi âm tính nhưng bị dự đốn
nhãn sai là dương tính.
o Số âm tính sai (False Negatives – FN): là các bản ghi dương tính nhưng bị dự đốn
nhãn sai là âm tính.


1.3.2 Ý nghĩa các độ đo
Độ chính xác (accuracy).
Tỷ lệ sai (error rate).
Độ nhạy (sensitivity).
Độ xác đáng (precision) và độ bao quát (recall).
Tốc độ (speed).
Tính khả diễn dịch hay tính dễ hiểu (interpretability).

1.4 Vấn đề mất cân đối lớp trong bài toán phân lớp dữ liệu
1.4.1 Độ chính xác phân lớp với dữ liệu khơng cân đối
 Tỷ số không cân đối (imbalance ratio)

1.4.2 Các giải pháp giải quyết vấn đề mất cân đối lớp
1.4.2.1 Các phương pháp ở mức dữ liệu để giải quyết mất cân đối
 Undersampling
 Oversampling:
1.4.2.2 Các phương pháp ở mức giải thuật để xử lý mất cân đối
 Dời giá trị ngưỡng (threshold moving):
 Học bằng chỉ một lớp (one-class learning):
 Học nhạy cảm với phí tổn (Cost-sensitive learning):

Bài tốn Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


19

Chương 2: Các cơng trình nghiên
cứu liên quan

Chương này trình bày các cơng trình nghiên cứu giải pháp phân lớp dữ liệu giáo
dục đã được thực hiện cho đến nay.

2.1 Các cơng trình về Phân lớp với Dữ liệu Giáo dục
2.2 Các cơng trình về Tái cân đối Dữ liệu Giáo dục
2.3 Các cơng trình về Ứng dụng Giải thuật Tiến hóa cho Phân
lớp Dữ liệu Giáo dục
2.4 Khác biệt giữa đề tài đang nghiên cứu với các cơng trình
nói trên

Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


20

Chương 3: Hướng tiếp cận đề tài và
giải pháp đề xuất

3.1 Hướng tiếp cận đề tài
Như đã trình bày trong các chương trước, vì bài tốn phân lớp là bài tốn được
nghiên cứu nhiều nhất nên có rất nhiều phương pháp hay giải thuật đã được đề xuất. Nhìn
chung, mỗi phương pháp đều có những ưu và nhược điểm riêng, tuy nhiên giới nghiên
cứu đều thống nhất một nhận định là: khơng có giải thuật nào tốt nhất cho mọi tập dữ liệu
và mọi lãnh vực ứng dụng. Nói cách khác, giải thuật A có hiệu năng tốt hơn giải thuật B
đối với tập dữ liệu này, nhưng nếu xét trên tập dữ liệu khác thì hồn tồn có thể giải thuật
B lại có hiệu năng tốt hơn giải thuật A. Mặt khác, như đã nói qua trong Chương 1, các tập
dữ liệu kết quả thi/kiểm tra trong ngành giáo dục là loại tập dữ liệu không cân đối, mà
các biện pháp để xử lý tình trạng này nói chung vẫn cịn đang được nghiên cứu, những

cơng trình nghiên cứu gần đây cho thấy hiệu quả của chúng cũng còn tùy thuộc vào giải
thuật phân lớp và mức độ mất cân đối của tập dữ liệu cụ thể.
Vì lý do đó, trước hết chúng tơi sẽ cho chạy 3 giải thuật phổ biến là C4.5, Naïve
Bayes và Neural Network trên tập dữ liệu hiện có như đã nêu trong Chương 1, trước và
sau khi tiến hành một vài thủ tục tiền xử lý và tái cân đối dữ liệu, để xem xét hiệu năng
của mỗi giải thuật trên tập dữ liệu giáo dục cụ thể đang có và ảnh hưởng của việc tái cân
đối dữ liệu đối với hiệu năng của chúng. Sau đó, chúng tơi sẽ hiện thực một giải thuật
phân lớp mà theo các nghiên cứu đã được thực hiện thì khơng bị ảnh hưởng bởi sự khơng
cân đối lớp của dữ liệu và cho ra mơ hình dễ hiểu, rồi sẽ thực nghiệm giải thuật đó cũng
trên tập dữ liệu hiện có và so sánh hiệu năng phân lớp của giải thuật này với 3 giải thuật
phổ biến đã nêu bên trên.
Các bước cần tiến hành để thực hiện các cơng việc của đề tài có thể được mơ tả như
trong Hình 3.1 dưới đây:
Bài tốn Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


21
Bước 1: Tiền xử lý tập dữ liệu ban đầu, biến đổi thành 2 tập dữ liệu 5 lớp rời rạc và liên
tục có chuẩn hóa để phục vụ cho việc thực nghiệm với các giải thuật
Bước 2: Thực nghiệm phân lớp bằng các giải thuật phổ biến C4.5, Naïve Bayes và
Neural Network trên 2 tập dữ liệu vừa được tạo ở Bước 1; so sánh kết quả thực
nghiệm, rút ra nhận xét và lý giải
Bước 3: Thu gọn lớp để 2 tập dữ liệu rời rạc và liên tục 5 lớp ở Bước 1 trở thành 2 tập
dữ liệu rời rạc và liên tục 3 lớp, sau đó lại chạy các giải thuật phổ biến trên 2 tập dữ liệu
3 lớp này, so sánh kết quả, nhận xét và lý giải
Bước 4: Thực hiện tái cân đối dữ liệu để biến các tập dữ liệu ở Bước 3 thành các tập
dữ liệu cân đối, sau đó lại chạy các giải thuật phổ biến trên các tập dữ liệu này, so sánh
kết quả, nhận xét và lý giải

Bước 5: Hiện thực một giải thuật phân lớp dùng GP, sau đó thực nghiệm giải thuật này
với các tập dữ liệu được tạo ở các Bước 3 và 4, so sánh kết quả với các kết quả ở các
Bước 3 và 4, nhận xét và kết luận

Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


22

Hình 3.1: Các bước cần tiến hành để thực hiện công việc của đề tài.

3.2 Giải pháp thực hiện
3.2.1 Tiền xử lý tập dữ liệu học tập của sinh viên
3.2.1.1 Biến đổi sang dữ liệu rời rạc
3.2.1.2 Biến đổi sang dữ liệu liên tục chuẩn hóa

3.2.2 Thực hiện phân lớp bằng các giải thuật phân lớp phổ biến
3.2.2.1 Phân lớp trên các tập dữ liệu 5 lớp
3.2.2.2 Phân lớp trên các tập dữ liệu rút gọn còn 3 lớp
3.2.2.3 Phân lớp trên các tập dữ liệu đã được tái cân đối

3.2.3 Giải pháp phân lớp dùng GP được đề xuất
3.2.3.1 Thiết kế của giải thuật
 Cách biểu diễn cá thể
 Các phép toán di truyền
 Hàm fitness
 Phân lớp các bản ghi mới
3.2.3.2 Việc hiện thực giải thuật

3.2.3.3 Cách sử dụng giải thuật để phân lớp dữ liệu

Bài toán Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


23

Chương 4: Kết quả thực nghiệm và
đánh giá
Trong chương này, trước hết chúng tơi trình bày mơi trường thực nghiệm và các tập
dữ liệu thực nghiệm. Sau đó, các kết quả thực nghiệm từ việc chạy các giải thuật phổ
biến J48 (tức C4.5), Naïve Bayes và MultilayerPerceptron trong WEKA trên các tập dữ
liệu rời rạc và liên tục có chuẩn hóa, 5 lớp và 3 lớp, chưa tái cân đối và đã tái cân đối
được trình bày cùng với những nhận xét và lý giải về chúng. Kế tiếp, chúng tơi trình bày
các kết quả thực nghiệm từ giải thuật GP đã đề xuất và hiện thực trên các tập dữ liệu 3
lớp, rồi tiến hành so sánh với các kết quả bên trên để rút ra kết luận.

4.1 Môi trường và các tập dữ liệu thực nghiệm
4.2 Kết quả thực nghiệm các giải thuật thông dụng
4.2.1 Trên các tập dữ liệu 5 lớp không cân đối
4.2.2 Trên các tập dữ liệu thu gọn còn 3 lớp
4.2.3 Trên các tập dữ liệu 3 lớp đã được tái cân đối
4.2.3.1 Trên các tập 3 lớp rời rạc tái cân đối
4.2.3.2 Trên các tập 3 lớp liên tục tái cân đối
4.2.3.3 Nhận xét

4.3 Kết quả thực nghiệm với giải thuật GP vừa hiện thực
4.3.1 Kết quả chạy giải thuật

4.3.2 Nhận xét
Bài toán Phân lớp không cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


24
 So sánh giữa CST và J48 (giải thuật cũng sinh được cây phân lớp)
 So sánh CST trên các tập dữ liệu trước và sau khi tái cân đối


Nhìn chung, độ chính xác phân lớp của CST trước và sau khi tái cân đối không thay
đổi mấy. Độ chênh lệch giữa độ nhạy và độ đặc hiệu của CST trước sau đều không
lớn. Điều này chứng tỏ CST hầu như khơng phụ thuộc vào tình trạng mất cân đối
của dữ liệu, phù hợp với nhận định trong [37]. Như vậy, ta có thể sử dụng CST
ngay trên tập dữ liệu không cân đối, không cần tốn thời gian và cơng sức để tái cân
đối dữ liệu.



Nhưng tính dễ hiểu của mơ hình thu được từ CST tốt hơn nhiều so với tính dễ hiểu
của mơ hình thu được từ J48. Hình 5.2 cho thấy mơ hình phân lớp thu được từ CST
trên tập dữ liệu Disc3cIM1 (trích từ màn hình kết quả phân lớp của WEKA) chỉ bao
gồm 4 luật phân lớp đơn giản, được ghép chung với nhau thành một luật duy nhất.
Chú ý rằng, mơ hình đó cũng gần giống và dễ hiểu tương đương với mô hình thu
được cũng từ CST nhưng trên tập dữ liệu Disc3cDS trong Hình 5.3. So với Hình
5.1, rõ ràng 2 mơ hình thu được từ CST dễ hiểu hơn nhiều so với mơ hình thu được
từ J48.

Hình 4.2: Mơ hình (tập luật) phân lớp thu được từ CST trên Disc3cIM1.


Hình 4.3: Mơ hình (tập luật) phân lớp thu được từ CST trên Disc3cDS.
Thử xem xét tính hợp lý của hai mơ hình trên:


Rule1: IF(c_500303≠CH) THEN (status=TN)

Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


25
Môn c500303 là Luận văn Tốt nghiệp, sinh viên nào đủ điều kiện làm luận văn và đã làm


luận văn thường đều tốt nghiệp, cho nên Rule 1 rất hữu lý.
Rule 2: ELSE IF((c_503001=KE)OR(c_503001=CH)) THEN (status=BTH)
Môn 503001 là Cấu trúc Dữ liệu và Giải thuật, đây là mơn khó nhưng cung cấp kiến thức
cơ bản để học nhiều môn khác trong chuyên ngành Khoa học Máy tính; sinh viên nào
chưa làm luận văn đồng thời kém hoặc chưa học môn đó thường khơng hồn thành nổi



khóa học; như vậy Rule 2 cũng rất hợp lý.
Rule 3 và 4:
ELSE
IF((c_006023≠CH)AND(c_004011≠CH) THEN (status=CTN)
ELSE (status=CTN)
Mơn 006023 là Phương pháp tính, một mơn học quan trọng, cịn 004011 là Cơng tác giáo

dục quốc phịng, mơn tuy khơng có tín chỉ nhưng là mơn bắt buộc; sinh viên nào không
phải kém môn Cấu trúc dữ liệu nhưng chưa học hai mơn đó thì chắc chắn chưa thể nào tốt
nghiệp, như vậy Rule 4 hợp lý; nhưng cho dù đã học hai mơn đó mà chưa làm luận văn
thì cũng chưa thể tốt nghiệp, như vậy Rule 3 cũng hợp lý. Tuy nhiên, Rule 3 có thể bỏ đi
cũng được.

Bài tốn Phân lớp khơng cân đối trên dữ liệu điểm sinh viên

Phạm Hoàng Dũng


×