Tải bản đầy đủ (.pdf) (6 trang)

Nghiên cứu, khai thác kho dữ liệu điểm tại trường đại học SPKT hưng yên dựa trên bộ công cụ BI của hệ quản trị CSDL SQL server 2008

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (310.97 KB, 6 trang )

Nghiên cứu, khai thác kho dữ liệu điểm tại
trường Đại học SPKT Hưng Yên dựa trên bộ
công cụ BI của Hệ quản trị CSDL SQL Server
2008

Trịnh Thị Nhị

Trường Đại học Công nghệ
Luận văn ThS Chuyên ngành: Hệ thống thông tin; Mã số 60 48 05
Người hướng dẫn: TS. Nguyễn Hà Nam
Năm bảo vệ: 2011


Abstract. Giới thiệu: trình bày về nhu cầu xây dựng kho dữ liệu về điểm của sinh
viên, một số hướng nghiên cứu của kho dữ liệu, mô tả ngắn gọn hướng nghiên cứu của
luận văn. Kho dữ liệu và các vấn đề liên quan: trình bày cơ sở lý thuyết về kho dữ liệu,
khai phá dữ liệu, giới thiệu bộ công cụ sử dụng để làm thực nghiệm. Xây dựng kho dữ
liệu về điểm của sinh viên: trình bày về việc xây dựng kho dữ liệu về điểm của trường
Đại học SPKT Hưng yên, thiết kế báo cáo đa chiều phục vụ cho việc ra quyết định.
Khai thác dữ liệu từ kho dữ liệu: trình bày ứng dụng của một số thuật toán khai phá dữ
liệu trong kho dữ liệu điểm của bộ công cụ BI.
Keywords. Công nghệ thông tin; Khai thác dữ liệu; Quản trị dữ liệu; Hưng Yên.

Content
LỜI MỞ ĐẦU
Trong nhiều năm gần đây, CNTT đã được ứng dụng rất rộng rãi trong nhiều lĩnh vực
khác nhau như kinh doanh, giáo dục, nông nghiệp, y học…Trong lĩnh vực giáo dục, phần lớn
các trường đã xây dựng được CSDL sinh viên để lưu trữ hồ sơ lý lịch, quá trình học tập, rèn
luyện của HSSV. Trên CSDL đó đã có nhiều nghiên cứu, đánh giá về kết quả thi tuyển sinh,
kết quả học tập, rèn luyện của HSSV nhưng mới chỉ dừng lại ở mức độ đơn giản, việc sinh ra
các báo báo vẫn hoàn toàn thực hiện một các thủ công, thống kê kết quả học tập của HSSV


mới chỉ thực hiện ở phần mềm excel tốn rất nhiều công sức nhưng chưa có nhiều nghiên cứu
về sự ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với kết quả
học tập của HSSV.Thông qua đó dự báo, dự đoán kết quả học tập của HSSV. Nhằm góp phần
trợ giúp các nhà quản lý có những quyết định nhanh, phù hợp để phát huy cái mới tích cực,
hạn chế, ngăn chặn những sai sót trong công tác quản lý đào tạo. Do đó, việc nghiên cứu vấn
đề nêu trên có vai trò rất quan trọng.
Trường Đại học SPKT Hưng Yên nằm trong hệ thống các trường đại học thuộc
GD&ĐT, đào tạo nhiều ngành nghề với nhiều hình thức đào tạo và nhiều hệ đào tạo khác
nhau. Trường được phát triển trên cơ sở từ trường Cao đẳng SPKT Hưng Yên với bề dày hơn
35 năm. Kết quả học tập của HSSV là cơ sở để phòng Đào tạo phối hợp với các phòng, ban,
khoa tổ chức năng đánh giá chất lượng người dạy và người học, báo cáo trình bộ giáo dục, từ
đó trợ giúp cho Ban Giám hiệu nhà trường về định hướng đào tạo, kế hoạch chuyên môn, chỉ
tiêu tuyển sinh các khóa tiếp theo…Hai năm gần đây, bộ giáo dục đã triển khai cho nhiều
trường đại học sử dụng đồng bộ nhiều phần mềm cho công tác đào tạo như Edusoft: lập thời
khóa biểu, quản lý hồ sơ sinh viên, quản lý điểm,…bước đầu đã thống nhất được các biểu
mẫu, bảng điểm. Bên cạnh, trường cũng đã có nhiều phần mềm tiện ích khác: Quản lý vật tư,
quản lý thực tập của sinh viên…Tuy nhiên những phần mềm này vẫn chưa giải quyết được
câu trả lời về sự ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với
kết quả học tập của HSSV. Đây là một nhiệm vụ quan trọng trong công tác quản lý đào tạo,
thu hút nhân tài. Hơn nữa, lượng HSSV thi vào trường ngày một đông, trường có 3 cơ sở với
tổng diện tích sàn trên 30 ha, đây là thuận lợi và cũng là vấn đề lo lắng của trường trong việc
lưu trữ dữ liệu, sinh ra các báo cáo nhiều chiều và đưa ra chiến lược đào tạo hàng năm. Do đó,
đòi hỏi phải có nghiên cứu về vấn đề này để cải thiện tình hình quản lý đào tạo của trường
cũng như giúp cho trường ngày một phát triển và thích ứng với trào lưu tin học hóa, và ngang
tầm với các trường có bề dày lịch sử trong nước và quốc tế.
Xuất phát từ vấn đề trên, chúng tôi thực hiện đề tài luận văn “Nghiên cứu, khai thác
kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của Hệ quản trị
CSDL SQL Server 2008”. Với mong muốn góp phần trợ giúp, ra quyết định cho công tác quản
lý đào tạo của trường Đại học SPKT Hưng Yên nói riêng và các trường chuyên nghiệp nói
chung.

Chương 1 - GIỚI THIỆU

1.1. Nhu cầu xây dựng kho dữ liệu về điểm.
1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên:
Theo báo cáo kế hoạch năm 2011 và 5 năm 2011- 2015, Về tốc độ tăng trưởng quy mô
học sinh, sinh viên 5 năm 2006 – 2010, dựa trên kế hoạch tuyển sinh bộ GD&ĐT giao hàng
năm, nhà trường đã thực hiện tuyển sinh các trình độ, loại hình đào tạo đảm bảo chi tiêu chất
lượng, tỷ lệ bình quân các năm tăng ~16,5 %, quy mô học sinh sinh viên tăng nhanh vào
những năm cuối của kế hoạch 5 năm 2006-2010. Trong 5 năm qua Nhà trường đã xin phép để
mở mới được 06 ngành đào tạo ở trình độ đại học: Công nghệ Cơ điện tử, Công nghệ kỹ thuật
hóa học, Công nghệ kỹ thuật môi trường, Kế toán, Tiếng Anh và Công nghệ cơ điện. Xây
dựng và thực hiện đào tạo nhiều chuyên ngành mới đưa tổng số chuyên ngành đào tạo của
trường lên là 29, Tính đến tháng 6/2010 tổng số CBVC của trường là hơn 600. Trường còn
mở thêm nhiều ngành mới ở trình độ đại học: Công nghệ vật liệu, Tài chính – Ngân hàng,
Tiếng Trung Quốc, Hàn Quốc. Quy mô đào tạo: tăng nhanh cả về số lượng lẫn chất lượng,
năm 2010 số lượng sinh viên trên toàn trường là hơn 16000 sinh viên, dự kiến năm 2011, số
lượng sinh viên sẽ tăng lên gần 18000 sinh viên với tất cả các hệ đào tạo và ngành nghề khác
nhau trong toàn trường.
- Đầu tư trang thiết bị: Trong giai đoạn 2011-2015 tập trung các nguồn vốn: Ngân sách Nhà
nước, vốn hợp pháp của Trường và các nguồn vốn khác đầu tư từ 25 tỷ35 tỷ mua sắm trang
thiết bị phục vụ đào tạo cho các khoa: Công nghệ thông tin, Công nghệ Hoá học và Môi
trường, Kinh tế, May và Thiết kế thời trang, Cơ khí, cơ khí động lực, Cơ điện tử, Điện - Điện
tử, Sư phạm kỹ thuật và đặc biệt ngành Công nghệ vật liệu.
Tính trung bình, số lượng máy tính sử dụng tốt trong toàn trường là hơn 600 máy tính.
Tuy nhiên, số máy tính này vẫn khai thác chưa triệt để, chủ yếu vẫn là phục vụ cho công tác
dạy học, soạn thảo văn bản đơn giản, chưa lưu trữ các phần mềm quản lý, các tiện ích. Hiện
tại, việc lưu trữ dữ liệu về sinh viên mới chỉ ở mức đơn giản trên excel, các mẫu biểu giữa các
khoa chưa được thống nhất dẫn đến việc tổng hợp và báo cáo chưa được thuận lợi và chính
xác. Để khắc phục nhược điểm này, nhà trường đã có chiến lược chuẩn bị cho việc tổ chức và
lưu trữ dữ liệu được tốt, bằng các quy định về các mẫu biểu, thống nhất các quy trình, bước

đầu, đã triển khai các phần mềm xếp thời khóa biểu, quản lý sinh viên, quản lý điểm sinh
viên. Nên việc quản lý, lưu trữ các thông tin có nhiều bất cập, nguy cơ thất lạc và mất mát cao
dẫn đến việc xử lý các thông tin liên quan gặp nhiều khó khăn.
Như vậy, với sự phát triển nhanh chóng về số lượng sinh viên qua các năm, một vấn đề
quan tâm là việc lưu trữ dữ liệu về chương trình đào tạo, thời khóa biểu, thông tin sinh viên và
các thông tin về điểm của sinh viên để việc tìm kiếm nhanh và có hiệu quả. Và quan trọng
hơn là việc tìm ra những dữ liệu tiềm ẩn qua các năm, định ra hướng mở rộng và phân bổ số
lượng sinh viên hợp lý ở các ngành nghề khác nhau, phục vụ cho việc tổng hợp, báo cáo, dự
đoán. Do đó, nhu cầu chuẩn bị xây dựng một kho dữ liệu là cần thiết và cấp bách. [5]
1.1.2. Phạm vi dự kiến của luận văn:
Trong khuôn khổ giới hạn của luận văn, chúng tôi xin trình bày:
 Tìm hiểu cơ sở lý thuyết kho dữ liệu, một số thuật toán KPDL.
 Xây dựng kho dữ liệu điểm trường Đại học SPKT Hưng Yên.
 Thiết kế báo cáo đa chiều.
 Sử dụng một số thuật toán KPDL để giải quyết bài toán dự đoán.
1.2. Một số hướng nghiên cứu về kho dữ liệu trên thế giới và ở tại Việt Nam
1.2.1. Một số hướng nghiên cứu về kho dữ liệu trên Thế giới
Về các hướng nghiên cứu kho dữ liệu trên Thế giới thì về cơ bản vẫn là để phục vụ
cho mục tiêu xây dựng báo cáo của công ty. Tuy nhiên, mức độ khó dễ có thể khác nhau, do
đó độ phức tạp của kho dữ liệu cũng khác nhau. Một số nơi có thế có các ứng dụng cao cấp
hơn chẳng hạn KPDL hoặc tích hợp hệ thống. Ngày nay, thế giới đang quan tâm đến: kho dữ
liệu thời gian thực, OLAP mining, mobile OLAP, thông qua những bài toán khai phá dữ liệu:
phân lớp, gom cụm, dự báo để để tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính
dự đoán trong các khối dữ liệu lớn. Những công cụ khai phá dữ liệu có thể phát hiện những
xu hướng trong tương lai, các tri thức mà khai phá dữ liệu mang lại cho các doanh nghiệp có
thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây
tốn nhiều thời gian để xử lý [18].
1.2.2. Một số hướng nghiên cứu về kho dữ liệu ở Việt Nam
Ở Việt nam đa phần cũng là xây dựng các báo cáo. [11]
Khai phá dữ liệu trong kho dữ liệu ở môi trường kinh doanh đầy tính cạnh tranh ngày

nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo
dục, viễn thông,…[6]
Hệ hỗ trợ quyết định - Đây có thể nói là mục tiêu quan trọng nhất của doanh nghiệp
khi xây dựng kho dữ liệu. Một doanh nghiệp trước khi xây dựng kho dữ liệu, nên tự đặt câu
hỏi liệu kho dữ liệu đó có giúp ích gì trong việc ra quyết định kinh doanh của doanh nghiệp
không. [11]
Kho dữ liệu nên được xây dựng từ trên yêu cầu nghiệp vụ. Một số các nhà lãnh đạo
doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu. Điều này có được là do sử dụng báo
cáo và OLAP. Báo cáo được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong kho dữ
liệu tới những người kinh doanh [6]. Thường thì các yêu cầu này liên quan đến việc sử dụng
các số liệu tổng hợp, chẳng hạn count, sum, max, min, average Thường thì người ta sử dụng
các số liệu kiểu này để phân tích xu hướng. [11]
Sacombank là ngân hàng TMCP Việt Nam đầu tiên vừa chính thức công bố triển khai
thành công dự án kho dữ liệu– giải pháp kho dữ liệu tập trung hỗ trợ công tác dự báo, phân
tích và ra quyết định kinh doanh trong thời gian nhanh nhất được xây dựng dựa trên nền tảng
công nghệ Oracle - lần đầu tiên triển khai thành công tại Việt Nam. Điều này là minh chứng
cho tầm quan trọng của việc xây dựng một kho dữ liệu trong hiện tại và tương lai với những
lợi ích.[12]
Nhiều đề tài nghiên cứu khoa học, luận văn,…đã và đang được tiến hành về kho dữ
liệu.
1.3. Hướng tiếp cận của luận văn và dự kiến kết quả đạt được
1.3.1. Hướng tiếp cận của luận văn
 Luận văn trình bày về vấn đề xây dựng kho dữ liệu về điểm và khai khác dữ liệu từ
kho dữ liệu đã xây dựng.
1.3.2. Dự kiến kết quả đạt được
 Hiểu được các kiến thức về kho dữ liệu, KPDL, một số thuật toán KPDL trong bộ
công cụ BI của hệ quản trị SQL Server 2008.
 Xây dựng kho dữ liệu về điểm sinh viên phục vụ một mục tiêu cụ thể.
 Thiết kế các báo cáo theo yêu cầu.
 Sử dụng một số thuật toán khai phá để dự đoán, ra quyết định nghiệp vụ cho trường sở

tại.
1.4. Cấu trúc của luận văn
Nội dung chính của luân văn gồm 4 chương, cụ thể như sau:
Chương 1 - Giới thiệu
Chương này trình bày về nhu cầu xây dựng kho dữ liệu về điểm của sinh viên, một số
hướng nghiên cứu của kho dữ liệu, mô tả ngắn gọn hướng nghiên cứu của luận văn.
Chương 2 - Kho dữ liệu và các vấn đề liên quan
Chương này trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới thiệu bộ
công cụ sử dụng để làm thực nghiệm.
Chương 3 - Xây dựng kho dữ liệu về điểm của sinh viên
Chương này trình bày về việc xây dựng kho dữ liệu về điểm của trường Đại học SPKT
Hưng yên, thiết kế báo cáo đa chiều phục vụ cho việc ra quyết định.
Chương 4 - Khai thác dữ liệu từ kho dữ liệu
Chương này trình bày ứng dụng của một số thuật toán khai phá dữ liệu trong kho dữ
liệu điểm của bộ công cụ BI.

Reference
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Hà Quang Thụy (2010), Bài giảng “kho dữ liệu và khai phá dữ liệu”.
[2] Hà Quang Thụy (chủ biên), Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn
Thu Trang, Nguyễn Cẩm Tú (2010) , Giáo trình khai phá dữ liệu Web, Nhà xuất bản
giáo dục, tr 35.
[3] Phạm Văn Quang, Đỗ Thị Luân – Lớp K16T5 (2010), tiểu luận ”Datamining và Olap”,
môn học “Cơ sở dữ liệu nâng cao”, thầy giáo hướng dẫn Nguyễn Hà Nam, tr10-13.
[4] T.S Nguyễn Trí Thành (2009), chương 1, bài giảng Web mining, slide 12.
[5] Trường Đại học SPKT Hưng Yên (2010), Báo cáo kế hoạch 2011 và 5 năm 2011-2015.
[6] />tng-quan-v-data-warehouse?lang=
[7] Trường đại học sư phạm Hà nội, bài giảng kho dữ liệu, tr 46 -70.
[8] Phạm Thị Thu, nghiên cứu KPDL trong Microsoft Server 2005 với thuật toán

MICROSOFT ASSOCIATION RULES và MICROSOFT DECISION TREE, , khóa
luận tốt nghiệp, nguồn: , tr 47 – 51.
[9] SQL Server tutorials, SQL Server 2008 Books Online
[10] Hoàng Đình Thắng (2010), tiểu luận môn học “Các vấn đề hiện đại về hệ thống thông
tin”,lớp k15HTTT, giáo viên hướng dẫn Nguyễn Ngọc Hóa, tr 3- 16.
[11] Http://www.fotech.org/forum/index.php?s=1631c11479599b3dc50889f83ab 205b3&
showtopic=25068&st=20
[12] Http://dddn.com.vn/20110423122943803cat187/sacombank-trien-khai-thanh-cong-
data-warehouse-voi-giai-phap-oracle-exadata.htm
Tiếng anh:
[13] McGraw-Hill (2008), Delivering Business Intelligence with Microsoft SQL Server 2008.
[14] Wiley.Data.Mining.with.SQL.Server.2005.Sep.2005.eBook-DDU
[15] Apress (2008) - Building a Data Warehouse, With Examples In Sql Server.
[16] Wrox (2008) - Professional Microsoft SQL Server 2008 Reporting Services.
[17] Wiley (2008) – Data mining with Microsoft SQL Server 2008.
[18]
[19] Ralph Kimball, The data warehouse ETL toolkit, Wiley Publishing,Inc, 2004, pp. 29-
51.

×