Tải bản đầy đủ (.pdf) (18 trang)

đồ án tốt nghiệp đại học đề tài khai phá dữ liệu trong giáo dục

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.81 MB, 18 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

BỘ CÔNG THƯƠNG

<b>TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI</b>

<b>ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC</b>

<b>Chuyên ngành: CNTT</b>

<i>ĐỀ TÀI</i>

<b>KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC</b>

Sinh viên: Nguyễn Thị MayMã sinh viên: 2018123456

Hà Nội – 2020

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>THUYẾT MINH</b>...

Ngày giao đề tài: ...Ngày hoàn thành:...

<i>Hà Nội, ngày……tháng …… năm ……</i>

<b>GIÁO VIÊN HƯỚNG DẪN</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI NĨI ĐẦU </b>

Trường Đại học Cơng nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉbắt đầu từ năm học 2008 – 2009. Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tựquản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các mơn họctheo từng kỳ.

Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theođúng quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mớivào trường, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín chỉ cịnrất mới mẻ. Đó cũng là khó khăn chung khơng chỉ của sinh viên, mà cịn của các cốvấn học tập, giáo viên chủ nhiệm và các tổ chức quản lý trong trường.

Xuất phát từ thực tế đó, việc tư vấn lựa chọn lộ trình học cho sinh viên theongành học đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa. Vì vậy em xinchọn đề tài " KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC" làm đồ án tốt nghiệpchuyên ngành CNTT.

Đề tài này được trình bày qua 3 phần chính: Chương I Giới thiệu tổng quanChương II Các kiến thức cơ sở liên quanChương III Xây dựng hệ thống hỗ trợ học tập

Do thời gian và kiến thức có hạn nên khóa luận này của em cịn nhiều thiếu sót,kính mong được sự góp ý và chỉ bảo từ các thầy cô và các bạn.

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>MUC LUC</b>

LỜI NĨI ĐẦU... 4

MUC LUC... 6

CHUONG I. GIỚI THIỆU TỔNG QUAN...8

1.1. Bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn...8

1.2. Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục...8

1.3. Hướng tiếp cận của luận văn...9

CHUONG II. CÁC KIẾN THỨC CƠ SỞ LIÊN QUAN...11

2.2.2. Phân lớp Nạve Bayes...14

2.2.3. Mạng nơ ron nhân tạo...14

CHUONG III. XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP...15

3.1. Lựa chọn mơ hình...15

3.2. Sơ đồ hoạt động của hệ thống:...15

3.3. Kết quả đạt được:...16

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH MUC HINH ANH</b>

<i>hinh 2-1: hinh thu nhat...11hinh 2-2: hinh thu hai...13hinh 3-1... 16</i>

<b>DANH MUC BANG BIEU</b>

<i>bang 1-1: bang thu nhat... 9bang 2-1: bang thu hai... 14</i>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>CHUONG 1. GIỚI THIỆU TỔNG QUAN </b>

<b>1.1. Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn </b>

Một thực tế đặt ra đối với trường đại học là làm sao thu hút được nhiều sinh viêndựa trên “thương hiệu” của nhà trường, để đáp ứng chỉ tiêu đào tạo. Tuy nhiên, yêucầu đặt ra về số lượng cũng phải kèm theo yêu cầu về chất lượng đào tạo. Vấn đề nângcao chất lượng đào tạo là một vấn đề luôn được nhà trường quan tâm.

Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục và Đào tạo đã yêu cầuchuyển đổi từ việc thực hiện chương trình đào tạo theo hệ thống niên chế thành đào tạotheo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và địi hỏi phải hồntất việc chuyển đổi này trước năm 2012.

Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉbắt đầu từ năm học 2008 – 2009. Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tựquản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các mơn họctheo từng kỳ. Vì vậy, việc tư vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình họcphù hợp nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quantâm. Các giảng viên chuyên trách, cố vấn học tập khơng thể tiếp cận tồn bộ dữ liệu vềđiểm của sinh viên.

<b>1.2. Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục </b>

Hiện đã có rất nhiều nghiên cứu về ứng dụng KPDL cho giáo dục. Những khaiphá dữ liệu trong giáo dục đã nổi bật lên như là một lĩnh vực nghiên cứu độc lập trongnhững năm gần đây, mà cao điểm là năm 2008 với sự thành lập hội nghị quốc tế vềkhai phá dữ liệu giáo dục, và những bài báo về khai phá dữ liệu giáo dục. Đó là“Applying Data Mining Techniques to e-Learning Problems” của Félix Castrol,…

Các nhà nghiên cứu về việc KPDL trong giáo dục tập trung vào nhiều vấn đề baogồm việc học của cá nhân từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máytính, kiểm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tố được kết hợp vớicác sinh viên khơng có khả năng hoặc thiếu định hướng trong quá trình học tập. Mỗi

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

lĩnh vực chính của việc ứng dụng khai phá dữ liệu vào giáo dục là phát triển các mơhình hướng đối tượng sinh viên. Các mơ hình sinh viên thể hiện thông tin về một nétđặc trưng hay tình trạng của sinh viên, như kiến thức hiện tại của sinh viên, động cơthúc đẩy học tập, quan điểm nguyện vọng của sinh viên…

Ở Việt Nam, KPDL cũng đã được nghiên cứu và ứng dụng trong nhiều tổ chức,doanh nghiệp và đem lại hiệu quả cao trong các lĩnh vực như giáo dục, y tế, thươngmại, tài chính. Nhiều cơng trình khoa học đã và đang được nghiên cứu để áp dụng vàothực tế. Song bên cạnh đó, việc khai thác các thơng tin có giá trị ở một số đơn vị chưathực sự hiệu quả, việc áp dụng trong thực tế còn hạn chế.

<b>1.3. Hướng tiếp cận của luận văn </b>

Luận văn tập trung nghiên cứu lý thuyết khai phá dữ liểu, sử dụng công cụ khaiphá dữ liệu BIDS của Microsoft, KPDL điểm thực tế của sinh viên trường ĐHCNHN.

Bên cạnh đó, luận văn sử dụng một số thuật tốn điển hình trong khai phá dữ liệuđược hỗ trợ sẵn trong SQL Server nhằm giải quyết bài toán dự báo, dự đoán kết quảhọc tập của sinh viên.

<i>bang 1-1: bang thu nhat</i>

<b>Nhiệm vụThuật toán Microsoft sử dụng</b>

Dự đoán một thuộc tính rờirạc

Microsoft Decision Trees AlgorithmMicrosoft Naive Bayes Algorithm

Microsoft Clustering AlgorithmMicrosoft Neural Network AlgorithmDự đốn một thc tính liên

Microsoft Decision Trees AlgorithmMicrosoft Time Series AlgorithmDự đốn một trình tự Microsoft Sequence Clustering AlgorithmTìm nhóm của những mục

chọn trong các giao dịch

Microsoft Association Rules AlgorithmMicrosoft Decision Trees AlgorithmTìm những mục giống nhau <sub>Microsoft Clustering Algorithm</sub>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Microsoft Sequence Clustering AlgorithmSau khi đánh giá mơ hình dự đốn tốt nhất, tác giả xây dựng chương trình thựcnghiệm để hỗ trợ tư vấn học tập cho sinh viên năm đầu.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>CHUONG 2. CÁC KIẾN THỨC CƠ SỞ LIÊN QUAN </b>

<b>2.1. Khai phá dữ liệu </b>

<i>2.1.1. Khái niệm khai phá dữ liệu (KPDL )</i>

"KPDL là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệuđược lưu trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thơngtin quan trọng, có giá trị tiềm ẩn bên trong". Do nhu cầu nghiệp vụ cần có cách nhìnthơng tin trên quy mơ toàn đơn vị.

Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụnhư: phần mềm tài chính, kế tốn, các hệ thống quản lý tài nguyên doanh nghiệp, cáchệ thống quản lý khách hang hay từ tác công cụ lưu trữ thông tin trên web…

Đây là những khối dữ liệu khổng lồ nhưng những thơng tin mà nó thể hiện ra thìlộn xộn và “nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng lồ đó cũngtăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ. KPDL liệu sẽ giúp tríchxuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích. Qtrình này gồm một số bước được thể hiện trong hình sau.

<i>hinh 2-1: hinh thu nhat</i>

Ý nghĩa cụ thể của các bước như sau:

- Lựa chọn dữ liệu liên quan đến bài toán quan tâm.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

- Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực. - Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá. - KPDL, trích xuất ra các mẫu dữ liệu (mơ hình).

Tư vấn lựa chọn môn học

Cho một kho dữ liệu các thông tin về kết quả học tập của sinh viên. Hãy tư vấncho sinh viên lựa chọn các môn học cho học kỳ sau dựa trên kết quả của các học kỳtrước sao cho kết quả học tập của kỳ sao là cao nhất. Để thực hiện việc này, chúng tacần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định,mạng Naive Bayes, Neural Network hay luật kết hợp.

Tư vấn lựa chọn lộ trình học

Cho một kho dữ liệu đào tạo (theo hình thức tín chỉ) bao gồm các mơn học (họcphần) tương ứng với các ngành học và các học kỳ (gọi là chương trình đào tạo), cùngvới các thơng tin về kết quả học tập của các sinh viên đã tốt nghiệp. Hãy tư vấn chocác sinh viên mới vào trường cách lựa chọn một lộ trình học phù hợp nhất cho ngànhhọc mà sinh viên đã đăng ký sao cho kết quả tốt nghiệp ra trường của sinh viên là caonhất. Đây chính là bài tốn mà luận văn hướng đến. Để thực hiện việc này, chúng ta

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

cần sử dụng các thuật tốn KPDL ở dạng phân lớp và dự đốn như Cây quyết định,mạng Naive Bayes, Neural Network hay luật kết hợp.

<b>2.2. Một số kỹ thuật KPDL trong phân lớp, dự báo </b>

<i>2.2.1. Cây quyết định </i>

Cây quyết định là một cấu trúc biễu diễn dưới dạng cây. Trong đĩ, mỗi nút trong(internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị cĩ thể cĩcủa thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng củacây gọi là gốc (root).

<i>hinh 2-2: hinh thu hai</i>

[1]Cây quyết định (Decision Tree) là một cây phân cấp cĩ cấu trúc được dùng đểphân lớp các đối tượng dựa vào dãy các luật (series of rules). Các thuộc tính của đốitượng (ngoại trừ thuộc tính phân lớp – Category attribute) cĩ thể thuộc các kiểu dữ liệukhác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đĩ thuộc tính phânlớp phải cĩ kiểu dữ liệu là Binary hoặc Ordinal.

<i>2.2.2. Phân lớp Nạve Bayes </i>

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khibiết sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là "xácsuất của A nếu cĩ B". Đại lượng này được gọi xác suất cĩ điều kiện vì nĩ được rút ratừ giá trị được cho của B hoặc phụ thuộc vào giá trị đĩ.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Phương pháp Naive Bayes phù hợp các bài tốn có yêu cầu về chi phí xuất hiệncủa các giá trị thuộc tính.

<i>bang 2-2: bang thu hai<small>i</small></i>

d4 saigon hutiu banhbopho

<i>2.2.3. Mạng nơ ron nhân tạo </i>

Neural nhân tạo là sự mô phỏng đơn giản của neural sinh học. Mỗi neural nhântạo thực hiện hai chức năng: chức năng tổng hợp đầu vào và chức năng tạo đầu ra.Chức năng đầu vào chính là tổng có trọng số các tín hiệu vào kết hợp với ngưỡng đểtạo ra tín hiều đầu vào. Chức năng tạo đầu ra được thực hiện bằng hàm truyền đạt.

Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bào thầnkinh. Các lớp này là một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Trong một mạngNeural, mỗi neural nhận được một hoặc nhiều đầu vào và sản xuất một hoặc nhiều kếtquả đầu ra. Mỗi đầu ra là một hàm phi tuyến đơn giản của tổng các đầu vào.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<i>2.2.4. Sơ đồ hoạt động của hệ thống: </i>

Để sử dụng hệ thống, người dùng nhập vào các thơng tin như: ngành học, điểmthi tuyển sinh, giới tính và lựa chọn mơ hình sử dụng để dự báo (nếu khơng lựa chọnthì mặc định hệ thống sẽ sử dụng mơ hình Nạve Bayes). Trong phạm vi thử nghiệm,chương trình vẫn cho hiển thị kết quả dự đốn của cả 03 mơ hình khơng được lựa chọnlà Luật kết hợp, Neural Network và Decision Tree để mang tính chất tham khảo cũngnhư đánh giá lại các mơ hình trong dự đốn thực tế. Tuy nhiên, như đã phân tích ởtrên, người dùng cần tin tưởng ở mơ hình Nạve Bayes hơn do nĩ được đánh giá là dựđốn kết quả học tập với độ chính xác tốt nhất.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

phép người dùng chọn các mơ hình khác nhau (trong 04 mơ hình đã xây dựng) đểkiểm tra và so sánh kết quả.

Hệ thống được xây dựng bằng ngơn ngữ Visual C#.NET với hệ quản trị CSDLMS SQL Server 2008 trên nền Windows Forms (việc xây dựng trên nền Web cũng<small>1</small>tương tự).

<b>3.2. Kết quả đạt được: </b>

Theo đánh giá mơ hình từ trước thì mơ hình Nạve Bayes cho kết quả dự báo tốtnhất nên sinh viên cần lấy kết quả của mơ hình này để tham khảo chính. Cũng theocảm tính, vì sinh viên thi điểm đầu vào cao và là học sinh nữ, học ngành kế tốn nên tỷlệ sinh viên này học đạt kết quả giỏi là cao (sinh viên nữ thường chăm chỉ hơn sinhviên nam và ngành kế tốn hợp với sinh viên nữ hơn).

<small>1</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>DANH MUC TAI LIEU THAM KHAOBibliography</b>

[2] D. Wilson, Machine Learning, Singapore: The RAM Institite, 1999.

[1] D. Phuc, Giao trinh khai thac giu lieu, Ha Noi: NXB KHKT, 2006.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

KẾT LUẬN

Sau một thời gian nghiên cứu và làm việc nghiêm túc, từ việc nghiên cứu nhữngyêu cầu cấp thiết đặt ra trong công tác quản lý vào đào tạo của trường ĐHCNHN, luậnvăn đã đạt được một số kết quả chính sau đây:

Xây dựng hệ thống tư vấn học tập với đầu vào là các thông tin cá nhân của sinhviên như: ngành học, điểm thi tuyển sinh, giới tính, sử dụng mơ hình dự báo NaiveBayes.

Hệ thống cũng có chức năng cho phép người quản trị cập nhật cơ sở dữ liệu vàcập nhật lại mô hình khi kết thúc năm học với các khóa đã tốt nghiệp, qua đó giúp hệthống ngày càng đạt độ chính xác cao và khách quan.

Với việc triển khai hệ thống thử nghiệm cho thấy khả năng ứng dụng kết quả nàytrong việc dự đoán kết quả học tập của sinh viên. Hệ thống không chỉ hỗ trợ cho sinhviên mà còn hỗ trợ cho giáo viên chủ nhiệm, các khoa chuyên ngành, phòng đào tạo vànhững ai quan tâm.

+ Đối với sinh viên: giúp lựa chọn lộ trình học phù hợp với điều kiện và năng lựccủa bản thân để đạt được kết quả học tập tối ưu.

+ Đối với cố vấn học tập: có thể tư vấn cho sinh viên trong việc chọn một lộ trìnhhọc phù hợp.

+ Đối với các khoa chuyên ngành và phòng đào tạo: hỗ trợ trong việc đánh giáchất lượng cho từng lộ trình học nhằm nâng cao, cải thiện hơn nữa trong việc xây dựngcác lộ trình học để phù hợp với mọi điều kiện và năng lực của sinh viên.

Cuối cùng, em xin chân thành cảm ơn thầy Hoàng Quang Huy và các thầy cơkhác đã tận tình giúp đỡ em hồn thành đề tài này. Do thời gian và kiến thức có hạn

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

nên cịn nhiều thiếu sót, kính mong được sự góp ý và chỉ bảo từ các thầy cô và cácbạn.

</div>

×