Tải bản đầy đủ (.pdf) (13 trang)

Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (778.2 KB, 13 trang )

1

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

TRẦN THỊ BÍCH THỦY

PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN PHỤC VỤ
GIẢNG DẠY TẠI
TRƯỜNG ĐẠI HỌC CHU VĂN AN, HƯNG YÊN

CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15

Người hướng dẫn khoa học: PGS. TS Đỗ Trung Tuấn
TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2010


2

MỞ ĐẦU
Trong xu thế xã hội hóa giáo dục, ngày càng nhiều các trường Đại học, Cao đằng và Trung học
chuyên nghiệp được mở ra để đáp ứng nhu cầu tri thức ngày càng cao của con người dẫn đến việc cạnh tranh
gay gắt giữa các Trường trong việc thu hút người học. Để làm được điều này, việc nâng cao chất lượng đội
ngũ cán bộ, giảng viên, và xây dựng cơ sở vật chất hiện đại là việc cần quan tâm hàng đầu đối với các
Trường; đặc biệt là đối với các trường ngồi cơng lập. Do đó, họ cần phải có giải pháp tốt cho chiến lược
phát triển giáo dục của mình.
Trường Đại học Chu Văn An là trường Đại học Tư thục, chất lượng đầu vào của sinh viên không
cao, nên vấn đề là làm thế nào để thu hút được sinh viên là một bài toán khó đối với Hội đồng quản trị và
Ban giám hiệu nhà trường. Hiện tại, việc quản lý điểm của Phòng Đào tạo thực hiện trên bảng tính MS


Excel, mặc dù MS Excel là phần mềm hỗ trợ một số công cụ mạnh trong việc tạo báo cáo, thống kê,
…nhưng trên thực tế vẫn chưa đáp ứng được nhu cầu phân tích dữ liệu ngày càng cao của lãnh đạo nhà
Trường. Vậy làm thế nào để phân tích được dữ liệu đó và lấy ra các thơng tin hữu ích để phục vụ cho công
tác đào tạo, đưa ra được chiến lược tồn diện và đúng đắn cho bài tốn phát triển nhà Trường. Như vậy cần
phải có một cơng cụ tốt để khai thác dữ liệu hiệu quả. Xuất phát từ những đặc điểm của nhà trường và nhu
cầu cấp bách trong việc ứng dụng CNTT, tác giả thực hiện đề tài “Phân tích dữ liệu trực tuyến phục vụ
giảng dạy tại trường Đại học Chu Văn An, Hưng Yên” với mong muốn tạo ra một công cụ hữu hiệu phục
vụ, hỗ trợ cơng tác quản lý đào tạo có hiệu quả, trợ giúp cho các cán bộ quản lý, ban lãnh đạo đưa ra những
quyết định đúng đắn kịp thời cho chiến lược nâng cao chất lượng đào tạo trong nhà trường.
Đối tượng và phương pháp nghiên cứu: Bằng phương pháp nghiên cứu tài liệu, tác giả tìm hiểu lý
thuyết về hệ trợ giúp quyết định dựa trên dữ liệu và các cơng cụ phục vụ cho tiến trình trợ giúp quyết định đó
là cơng cụ OLAP trên kho dữ liệu, thuật tốn Apriori tìm kiếm luật kết hợp để xây dựng cơ sở lý luận cho đề
tài. Từ cơ sở lý luận này, mơ hình OLAP được xây dựng để giải quyết bài toán và thuật toán Apriori được cài
đặt để tìm luật kết hợp.
Bố cục của luận văn: Luận văn gồm 3 chương:
Phần mở đầu là các phân tích nhu cầu ứng dụng CNTT trong trường Đại học Chu Văn An và tính
cấp thiết của đề tài.
Chương 1: Chương này tác giả trình bày lý thuyết tổng quan nhất về hệ trợ giúp quyết định. Tổng
quan về kho dữ liệu và xử lý phân tích trực tuyến là các cơng cụ trợ giúp cho tiến trình ra quyết định, các
bước để xây dựng mơ hình OLAP.
Chương 2: Xử lý phân tích trực tuyến. Chương này tác giả nghiên cứu sâu hơn về công cụ OLAP,
công cụ hữu hiệu cho việc phân tích dữ liệu, đưa ra kiến trúc khối của OLAP, các mơ hình OLAP, mơ hình
dữ liệu đa chiều.
Chương 3: Ứng dụng xử lý phân tích trực tuyến trong bài toán phân loại sinh viên Trường Đại học
Chu Văn An. Trong chương này, tác giả tìm hiểu mơ hình quản lý điểm thực tế của trường Đại học Chu Văn
An, xây dựng hệ thống OLAP với Bộ quản trị phân tích của SQL server. Mơ phỏng thuật toán Apriori để đưa
ra một số luật kết hợp. Ứng dụng này nhằm đưa ra dự báo hỗ trợ cho công tác ra quyết định.
Phần kết luận sẽ tổng kết những kết quả nghiên cứu lý luận và thực tiễn đạt được và chưa đạt của đề
tài. Từ đó đưa ra kiến nghị và hướng nghiên cứu tiếp theo.



3

Chương 1: TỔNG QUAN
1.1 Tổng quan về hệ trợ giúp quyết định
Khái niệm hệ trợ giúp quyết định được Scott Norton đưa ra năm 1971 với thuật ngữ Hệ thống hỗ trợ
quản lý: “Hệ thống dựa trên sự tương tác máy tính, giúp người ra quyết định dùng các dữ liệu và mơ hình để
giải các bài tốn khơng có cấu trúc – những bài toán mờ, phức tạp với lời giải khơng hồn chỉnh”
Hệ trợ giúp quyết định có vai trò quan trọng trong việc hỗ trợ giúp các nhà ra quyết định giải quyết
các vấn đề trong các hoàn cảnh chưa được định nghĩa rõ ràng, các nhà ra quyết định chưa biết rõ vấn đề cũng
như giải pháp, tiêu chuẩn để đánh giá sự thành công của lựa chọn. Cơ chế hoạt động của các hệ thống trợ
giúp quyết định là sự tương tác giữa người dùng và các thành phần của hệ thống. Thông thường các hệ thống
trợ giúp quyết định được xây dựng để hỗ trợ các giải pháp hoặc đánh giá cơ hội.
Nhiệm vụ ra quyết định cần đến quá trình thu thập và chuẩn bị dữ liệu (i) trích dữ liệu từ nhiều
nguồn, (ii) làm sạch dữ liệu thơ, (iii) chuyển hố và hợp lại, (iv) tải dữ liệu từ CSDL trợ giúp khác và thường
xuyên làm tươi dữ liệu:
i. Trích dữ liệu là quá trình thu lượm dữ liệu trong các cơ sở dữ liệu tác nghiệp và các nguồn dữ liệu
khác.
ii. Làm sạch dữ liệu là quá trình tinh chế dữ liệu thô, điền các dữ liệu thiếu theo xu thế trước khi lưu
trữ chúng trong cơ sở dữ liệu
iii. Chuyển hoá dữ liệu trong hệ thống trợ giúp quyết định là quá trình chuyển dữ liệu từ nhiều nguồn
khác nhau về dạng thức phù hợp với yêu cầu của việc ra quyết định.
iv. Tải dữ liệu gồm các thao tác chuyển hoá và tập hợp dữ liệu vào cơ sở dữ liệu, kiểm tra tính tồn
vẹn dữ liệu rồi thiết lập các bảng chỉ số
v. Làm tươi dữ liệu là quá trình thường kỳ tải dữ liệu, thường là từng phần của dữ liệu vào cơ sở dữ
liệu ra quyết định để các dữ liệu ln mang tính thời sự.
Kho dữ liệu và xử lý phân tích trực tuyến có thể được xem như là các yếu tố cốt lõi của hệ hỗ trợ
quyết định, lĩnh vực ngày càng trở thành trọng tâm của nền công nghiệp cơ sở dữ liệu. Trong đó, kho dữ liệu
đóng vai trị cung cấp dữ liệu và OLAP đóng vai trị phân tích, khai thác các dữ liệu này. Nói một cách khác,
để có thể trợ giúp quyết định dựa vào dữ liệu cần xây dựng hai thành phần quan trọng là kho dữ liệu và

OLAP.

1.2 Kho dữ liệu
Theo W.H.Inmon, người ta thấy: “Một kho dữ liệu là một tập hợp cơ sở dữ liệu tích hợp hướng chủ
đề, dữ liệu thay đổi theo thời gian, không cho phép cập nhật, được thiết kế để hỗ trợ ra quyết định của các
nhà quản lý”.
Một kho dữ liệu có thể xem như là một hệ thống thông tin với các đặc điểm sau:
i. Cung cấp một cái nhìn tích hợp và tổng quan về các doanh nghiệp
ii. Kho dữ liệu là một cơ sở dữ liệu được thiết kế cho các tác vụ phân tích, bằng cách sử dụng dữ liệu
từ nhiều ứng dụng.
iii. Kho dữ liệu hỗ trợ một lượng tương đối nhỏ người dùng với những tương tác khá dài.
iv. Kho dữ liệu sử dụng theo chiều sâu.
v. Nội dung của kho dữ liệu được cập nhật định kỳ.
vi. Kho dữ liệu lưu trữ dữ liệu hiện tại và dữ liệu lịch sử để cung cấp một cái nhìn tồn diện về thơng
tin.


4
vii. Kho dữ liệu lưu trữ một số lượng lớn các bảng.

1.3 Xử lý phân tích trực tuyến
Xử lý phân tích trực tuyến chính là việc sử dụng kho dữ liệu cho mục đích trợ giúp quyết định. Ý
tưởng mơ phỏng các chiều trong dữ liệu có thể được mở rộng: một bảng với n thuộc tính có thể được xem
như một không gian n chiều. Người quản lý thường đặt những câu hỏi mà có thể phân tích trong những phân
tích đa chiều. Các thơng tin này khơng phải dễ phân tích khi bảng được biểu diễn hai chiều và cơ sở dữ liệu
quan hệ chuẩn không thể đáp ứng tốt công việc này. Trong trường hợp như vậy, việc sử dụng OLAP tỏ ra
thích hợp.

1.4 Tiến trình trợ giúp quyết định dựa vào kho dữ liệu và xử lý phân tích trực tuyến
Kho dữ liệu và xử lý phân tích trực tuyến cho chúng ta khám phá dữ liệu để hướng đến việc ra quyết

định. Nó cho phép chúng ta truy xuất và xem dữ liệu từ nhiều khía cạnh khác nhau. Nhưng quan trọng hơn là
hệ thống sẽ cho chúng ta những lối vào bên trong dữ liệu để tìm hiểu, dựa trên chính những đặc tính của dữ
liệu. Hệ thống cũng sẽ cho chúng ta khoan sâu vào trong dữ liệu để truy xuất được những thông tin chi tiết ở
những mức độ khác nhau mà chúng ta có thể cần đến.

Hình 1.8: Tiến trình trợ giúp quyết định cho một bài tốn cụ thể
Trong hình vẽ, các tiến trình được xây dựng một cách tuần tự. Trước khi thiết kế mơ hình OLAP cho
một bài toán, người ta cần xác định rõ yêu cầu của bài toán. Các vấn đề được nêu ra căn cứ vào việc tìm hiểu
tình huống thực tế một cách khách quan và tồn diện. Xây dựng mơ hình OLAP cho bài toán thực chất là
việc xác định các khối dữ liệu, định nghĩa cấu trúc các chiều và xây dựng các cơng thức luật cho tính tốn.
Trên cơ sở đó, chúng ta sẽ đặt ra những mục tiêu cần đạt tới để ra quyết định ví dụ như: khắc phục hoặc giảm
thiểu hạn chế, cải tiến hiệu quả ...


5

Chương 2: XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
2.1 Định nghĩa
Xử lý phân tích trực tuyến là một loại cơng nghệ phần mềm cho phép các nhà phân tích, quản lý và
điều hành có một cái nhìn sâu sắc về dữ liệu một cách nhanh chóng, nhất quán, truy cập tương tác phù hợp
với nhiều quan điểm có thể có của thông tin đã được chuyển đổi từ dữ liệu thô để phản ánh các chiều thực
của doanh nghiệp mà được hiểu bởi người dùng. OLAP là việc sử dụng tập các công cụ đồ hoạ đề người
dùng thấy được nhiều chiều của dữ liệu, cho phép phân tích các dữ liệu bằng các kỹ thuật cửa sổ.
Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ kho dữ liệu hoặc kho dữ liệu chủ đề sau đó được
chuyển thành mơ hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều. Các công cụ OLAP lấy dữ
liệu trong kho dữ liệu để thực hiện các cơng việc phân tích đặc biệt, phức tạp theo nhiều chiều để hỗ trợ
cho việc ra quyết định.

2.2 Kiến trúc khối OLAP
Thành phần cốt lõi của bất kỳ một hệ thống OLAP nào là khối gọi là khối OLAP. Để mơ tả dữ liệu

hình khối, người ta thử tưởng tượng dữ liệu trong bảng sự kiện được phân bố như sau: Đối tượng chính của
OLAP là khối, một sự biểu diễn đa chiều của dữ liệu ở mức chi tiết và tổng thể. Một khối bao gồm (i) một
bảng sự kiện, (ii) một hoặc nhiều bảng chiều, (iii) các đơn vị đo và (iv) các phân hoạch. Khối siêu dữ liệu
thường được tạo từ một lược đồ hình sao hoặc lược đồ hình hoa tuyết của các bảng trong một cơ sở dữ liệu
quan hệ. Các đơn vị đo có nguồn gốc từ các bản ghi trong bảng sự kiện và các chiều được bắt nguồn từ các
bảng chiều. Mỗi đơn vị đo có thể coi như là có một tập các nhãn hoặc các siêu dữ liệu liên kết với nó. Một
chiều là những gì mơ tả cho các nhãn này; nó cung cấp thơng tin về đơn vị đo.

Hình 2.1: Kiến trúc OLAP


6

2.3 Phân loại OLAP
Có nhiều cách để phân loại OLAP. Các loại OLAP điển hình là: (i) OLAP quan hệ, gọi là ROLAP;
(ii) OLAP nhiều chiều, gọi là MOLAP, và (iii) OLAP kết hợp, gọi là HOLAP. Từ kiến trúc và dịch vụ của
các loại OLAP ta có bảng so sánh sau:
Bảng 2.1: So sánh các loại hình OLAP
MOLAP

ROLAP

HOLAP

Lưu trữ dữ liệu cơ sở

Khối

Bảng quan hệ


Bảng quan hệ

Lưu trữ thông tin tổng hợp

Khối

Bảng quan hệ

Khối

Hiệu suất thực hiện truy vấn

Nhanh nhất

Chậm nhất

Nhanh

Tiêu thụ khơng gian lưu trữ

Nhiều

Thấp

Trung bình

Chi phí bảo trì

Cao


Thấp

Trung bình

2.4 Mơ hình dữ liệu đa chiều
Có nhiều cách tiếp cận khác nhau tới việc biểu diễn OLAP, nhưng chung nhất là tiếp cận lưu trữ dữ
liệu đa chiều. Mơ hình dữ liệu đa chiều là một mơ hình khái niệm phổ biến ảnh hưởng đến các công cụ đầu
cuối trong thiết kế cơ sở dữ liệu, và các cơng cụ truy vấn cho OLAP. Trong một mơ hình dữ liệu đa chiều,
một tập hợp các đơn vị đo lường là các đối tượng phân tích. Mỗi phần trong số các đơn vị đo phụ thuộc vào
tập hợp các chiều. Các chiều cùng nhau được giả định là duy nhất để xác định các đơn vị đo. Do đó, dữ liệu
đa chiều hiển thị một đơn vị đo như là một giá trị trong không gian đa chiều của các chiều. Mỗi chiều được
mô tả bằng một tập các thuộc tính. Khối OLAP chính là việc xem dữ liệu được chuyển vào cơ sở dữ liệu
OLAP xuất phát từ việc truy vấn dữ liệu từ nhiều bảng sự kiện và những bảng chiều. Nói cách khác, báo cáo
cuối cùng của việc phân tích dữ liệu được kết xuất từ các loại bảng dữ liệu trên, cùng với việc ứng dụng một
số hàm tính tốn như tính tổng, max, min,….

Chương 3: ỨNG DỤNG XỬ LÝ PHÂN TÍCH TRỰC TUYẾN ĐỂ
PHÂN LOẠI SINH VIÊN
Thực trạng vấn đề quản lý điểm sinh viên và nhu cầu ứng dụng CNTT của Trường Đại học Chu Văn
An:
Hiện nay, trường Đại học Chu Văn An vẫn thực hiện chương trình đào tạo theo niên chế, nên phòng
Đào tạo sẽ quản lý trực tiếp việc dạy và học, điểm tổng kết của sinh viên. Đầu mỗi kỳ học, phòng Đào tạo
lên danh sách các lớp học kèm theo thời khóa biểu của từng kỳ. Cuối kỳ học, sinh viên sẽ được tham dự kỳ
thi kết thúc học phần đó. Kết quả học tập của từng học phần sẽ được xác định bởi các yếu tố: điểm trung
bình kiểm tra, điểm thi kết thúc học phần lần 1, điểm thi kết thúc học phần lần 2 (nếu có).
Theo quy chế, sinh viên chỉ được phép thi 2 lần /1môn học. Sau lần thi thứ 1, điểm trung bình tạm
thời của sinh viên sẽ được tính theo cơng thức:


7

Điểm trung bình mơn = 30% điểm trung bình kiểm tra + 70% điểm thi lần 1. Nếu điểm trung bình
mơn này < 5 thì sinh viên sẽ phải thi lại lần 2. Vì vậy, mỗi sinh viên có thể có ít nhất là một điểm thi và có
nhiều nhất là 2 điểm thi, điểm thi cao nhất trong hai lần thi sẽ là điểm thi được chọn để tính điểm trung bình
cho học phần đó. Điểm trung bình mơn học của sinh viên được tính theo cơng thức sau:
Điểm trung bình mơn học = 30%* trung bình kiểm tra + 70%* (max(điểm thi1, điểm thi 2))
Nếu điểm trung bình mơn học của sinh viên dưới 5 thì sinh viên phải học lại mơn học đó. Ngồi ra,
điểm tổng kết tồn khóa của sinh viên được tính như sau:

Điểm tổng kết tồn khóa =

 (diemtbmon * sodvht )
 sodvht

Trên thực tế có rất nhiều cơng cụ đáp ứng được u cầu của người dùng trong việc phân tích, hiển
thị dữ liệu ở các mức độ chi tiết hay tổng hợp khác nhau như bảng xoay, hay bảng đồ thị xoay trong phần
mềm MS Excel, Matlab, ... Nhưng nhu cầu thể hiện dữ liệu rất đa dạng, phong phú và vô cùng, nên chúng ta
có thể sử dụng nhiều cơng cụ mạnh khác để đáp ứng các nhu cầu đó.

Phân tích dữ liệu: Kết quả học tập của mỗi sinh viên được đánh giá bằng điểm tổng kết các môn
học và điểm trung bình chung của tồn khóa. Trường Đại học Chu Văn An có nhiều ngành học, ứng với mỗi
ngành học có nhiều lớp học khác nhau và có các môn học thuộc các khối kiến thức khác nhau như khối kiến
thức đại cương, khối kiến thức cơ sở ngành và khối kiến thức chuyên ngành. Các môn học này ứng với từng
ngành học cụ thể và trực tiếp do các khoa quản lý.

Hình 3.2: Sơ đồ quan hệ CSDL DIEM
Khái niệm về kho dữ liệu là một khái niệm tương đối đầy đủ và khá lớn. Trong cơ sở dữ liệu đơn
giản như trên chưa đủ để có thể nói tới khái niệm kho dữ liệu, nên trong khn khổ của luận văn tác giả chỉ
phân tích trên dựa trên kết quả học tập của sinh viên khóa 1 (2006 – 2010) của Trường trong cơ sở dữ liệu
Điểm sinh viên. Có thể nói đây chỉ là khía cạnh nhỏ trong kho dữ liệu.


3.1 Xác định các bảng sự kiện và bảng chiều


8
Để xây dựng thành công một kho dữ liệu chủ đề thì việc xác định các bảng sự kiện và các bảng chiều
rất quan trọng. Việc này phụ thuộc vào thông tin được lưu trữ và nhu cầu khai thác thông tin của người sử
dụng.
1. Tạo các bảng chiều: Bảng chiều gồm có: (i) Bảng nhóm mơn học gồm các thơng tin: mã nhóm,
tên nhóm; (ii) Bảng mơn học gồm các thơng tin: Mã nhóm, mã mơn, tên mơn, số đơn vị học trình, kỳ học;
(iii) Bảng ngành học gồm các thông tin: mã ngành, tên ngành; (iv) Bảng lớp học: mã ngành, tên lớp, khóa;
(v) Bảng hời gian gồm mã thời gian, khóa học, kỳ học, năm học; (vi) Bảng sinh viên gồm các thông tin: số
hiệu, họ tên, ngày sinh, lớp, mã giới tính; (vii) Bảng giới tính gồm các thơng tin: mã giới tinht, giới tính;
và (viii) Bảng xếp loại học lực gồm các thông tin: mã xếp loại, tên loại học lực. Các bảng chiều này sẽ
quan hệ với các bảng sự kiện thông qua các trường khóa.
2. Tạo các bảng sự kiện: Sau khi các bảng chiều được tạo, ta tạo bảng sự kiện. Bảng sự kiện chứa
tất cả các khóa chính của các bảng chiều và được sử dụng như là khóa ngoại trong bảng sự kiện để tạo mối
liên kết giữa các bảng chiều. Bảng sự kiện khơng có khố chính của nó mà lấy tập khố chính của các bảng
chiều làm khóa chính để phân biệt các bản ghi trong nó.
Ở đây, các bảng sự kiện sẽ là (i) Bảng sự kiện lưu kết quả học tập của sinh viên; (ii) Bảng sự kiện
lưu thông tin sinh viên thi lại; (iii) Bảng sự kiện lưu thông tin sinh viên học lại; (iv) Bảng sự kiện lưu thông
tin về kết quả tốt nghiệp của sinh viên; (v) Bảng sự kiện phân loại sinh viên theo từng ngành, từng nhóm
mơn học…

3.2 Xây dựng các khối OLAP
1. Khối: Một khối bao gồm (i) một bảng sự kiện, (ii) một hoặc nhiều bảng chiều, (iii) các đơn vị
đo và (iv) các phân hoạch. Việc xác định các khối dựa trên yêu cầu phân tích của người sử dụng. Đối với
công việc quản lý điểm, một số yêu cầu có thể đặt ra là:
-

Có bao nhiêu sinh viên trượt tốt nghiệp lần 1 của từng ngành cụ thể


-

Có bao nhiêu sinh viên phải thi lại trong từng học kỳ theo từng ngành, từng lớp.

-

Có bao nhiêu sinh viên cịn nợ mơn học trong từng học kỳ theo từng ngành, từng lớp.

-

Có bao nhiêu sinh viên có kết quả học tập từ loại khá trở lên trong từng ngành, từng lớp.

Với mỗi thông tin được yêu cầu, ta tạo một khối tương ứng để thực hiện công việc tính tốn trước.
Dữ liệu tổng hợp sẽ được xử lý và lưu sẵn trong các khối, khi cần ta thực hiện truy vấn và trả lời các yêu cầu
được nhanh chóng hơn.
2. Chiều: Trên thực tế, dữ liệu của một khối OLAP được tổ chức hoặc nhóm lại theo thơng tin
trong một chiều. Ví dụ, chúng ta muốn xem kết quả học tập của sinh viên trong từng năm hoặc theo từng
ngành cụ thể thì yếu tố thời gian hay ngành học chính là các chiều của một khối OLAP.
3. Các độ đo: Các độ đo là các trường số liệu đặc thù của các bảng sự kiện. Đó chính là số liệu
tổng hợp hoặc chi tiết theo các chiều khác nhau. Trong khối phân tích thống kê kết quả học tập, trường Điểm
trung bình từng mơn học, điểm trung bình theo kỳ học và điểm tổng kết cuối khóa thường được sử dụng làm
đơn vị đo. Trong khối phanloaisv, trường Tổng số sinh viên là trường đơn vị đo.
4. Các phân hoạch: Các phân hoạch đóng vai trị quan trọng trong các bảng khai thác khi khối
lượng dữ liệu lớn. Nó cho phép phân chia dữ liệu theo một số tiêu thức nào đó. Trong các khối dữ liệu của hệ
thống điểm của sinh viên, chúng ta có thể thiết kế các phân hoạch dựa vào chiều thời gian. Cụ thể, một khối
có thể chứa trong mỗi phân hoạch dữ liệu của mỗi năm trước đó và các phân hoạch cho mỗi kỳ của năm hiện


9

tại. Cuối năm các bảng phân hoạch của hai kỳ học có thể được hợp nhất trong một phân hoạch đơn cho năm
học đó.

3.3 Xây dựng các cơng thức luật
Một công việc rất quan trọng không thể thiếu được khi phân tích luật là việc chuẩn hóa và rời rạc
hóa dữ liệu.
-

Chuẩn hóa dữ liệu: là q trình loại bỏ các thuộc tính dư thừa

-

Rời rạc hóa: Chuyển đổi các thuộc tính chưa ở dạng logic về dạng logic (0 hoặc 1).

Bảng dưới đây sẽ cho một ví dụ về một số thuộc tính đã được rời rạc hóa và chuẩn hóa trong CSDL
điểm sinh viên Trường Đại học Chu Văn An.

Bảng 3.11: Một số thuộc tính đã được rời rạc hóa và chuẩn hóa ở dạng logic
Sau khi chuẩn hóa và rời rạc hóa dữ liệu, ta tiến hành cài đặt thuật tốn Apriori để tìm ra các luật dựa
trên cơ sở nghiên cứu lý thuyết đã được trình bày.

3.4 Cài đặt minh họa
Với mong muốn là tìm ra một công cụ để đáp ứng được nhu cầu phân tích thơng tin của lãnh đạo nhà
Trường, tác giả đã tìm hiểu một số cơng cụ và lựa chon được một công cụ được coi là phù hợp để thực hiện
điều này. Tác giả xây dựng hệ thống OLAP với Bộ quản trị phân tích của Microsoft SQL Server 2000, đồng
thời biểu diễn dữ liệu bằng công cụ OLAP Browser Pro; đây là công cụ cho phép hiển thị dữ liệu bằng đồ
họa, và cuối cùng tác giả thực hiện demo thuật tốn Apriori trên ngơn ngữ Visual Basic 2008 để khai thác
một số luật kết hợp cho bài toán.



10

Hình 3.5: Tạo khối và chiều cho các khối phanloaisv

Hình 3.9: Tiến trình xử lý khối phanloaisv

Hình 3.10: Kết quả hiển thị dữ liệu


11

Hình 3.13: Kết quả biểu diễn dữ liệu trong OLAP Browser bằng biểu đồ hình trịn

Hình 3.14: Kết quả biểu diễn dữ liệu trong OLAP Browser bằng biểu đồ hình cột


12

Hình 3.15: Thuật tốn Apriori thể hiện mối quan hệ giữa sinh viên
và các khối kiến thức

STT
1
2
3
4
5
6

Luật

TB môn đại cương: trung bìnhTB mơn cơ sở: trung bình và TB mơn chun
ngành: trung bình
TB mơn đại cương: trung bình và TB mơn cơ sở: trung bình  TB mơn
chun ngành: trung bình
TB mơn đại cương: trung bình và TB mơn chun ngành: trung bình  TB
mơn cơ sở: trung bình
TB mơn cơ sở: trung bình TB mơn đại cương: trung bình và TB mơnchun
ngành: trung bình
TB mơn cơ sở: trung bình và TB mơn chun ngành: trung bình  TBmơn
đại cương:trung bình
TB mơn chun ngành: trung bình  TB mơn đại cương:trung bình và TB
mơn cơ sở:trung bình

Bảng 3.12: Một số luật tìm được khi chạy chương trình

Độ hỗ
trợ

Độ tin
cậy

70%

75%

70%

81%

70%


96%

70%

77%

70%

96%

70%

92%


13

KẾT LUẬN
Sau một thời gian nghiên cứu và thực hiện, luận văn đã trình bày những nét chính của hệ trợ giúp
quyết định, tìm hiểu kho dữ liệu và xử lý phân tích trực tuyến là hai nhân tố cơ bản để giải bài toán ra quyết
định. Luận văn đã đạt được một số kết quả sau:
(i) Dựa trên lý thuyết về kho dữ liệu, tác giả đã hiểu một cách khá sâu sắc về kho dữ liệu, có thể nói
kho dữ liệu là nơi lưu trữ đầy đủ và nhất quán dữ liệu với khối lượng lớn lên tới hàng Tera Byte từ nhiều
nguồn dữ liệu khác nhau. Nhưng trong khuôn khổ của nội dung luận văn, tác giả khơng thể đi sâu khai thác
một kho dữ liệu hồn chỉnh, nên tác giả chỉ xin trình bày ở một khía cạnh rất nhỏ đó là cơ sở dữ liệu điểm
sinh viên của Trường Đại học Chu Văn An.
(ii) Luận văn đã sử dụng công cụ Analysis service của Microsoft SQL Server 2000 cung cấp một khả
năng khá mạnh cho phép tạo lập và quản lý kho dữ liệu; xây dựng các khối OLAP đa chiều phân tích và tổng
hợp các thông tin theo các chủ đề yêu cầu của người quản lý, đồng thời, cũng cho phép truy vấn thông tin

trên các khối bằng ngôn ngữ truy vấn đa chiều MDX và hiển thị kết quả thu được dưới dạng lưới.
Tác giả rất mong có thể xây dựng được một chương trình hồn chỉnh và có thể ứng dụng được với
lượng dữ liệu đủ lớn. Song do điều kiện về thời gian và khả năng của bản thân còn hạn chế, tác giả bước đầu
tiếp cận hệ thống OLAP dưới khía cạnh đơn giản và mới chỉ dừng ở việc cài đặt thuật tốn Apriori để mơ
phỏng việc tạo ra các luật kết hợp trong bài toán. Hướng phát triển tiếp theo của luận văn:
-

Xây dựng một chương trình hồn chỉnh có tính ứng dụng cao để hỗ trợ cho việc trợ giúp quyết

định, thực hiện với một lượng lớn dữ liệu và phân tán tại nhiều vị trí khác nhau.
-

Cài đặt một số thuật toán khác nữa để sinh ra các luật kết hợp. Khai thác trên nhiều thuộc tính để

đưa ra các luật có ý nghĩa hơn. Từ đó có sự so sánh khách quan về các phương pháp khác nhau và đưa ra một
phương pháp hữu hiệu nhất.



×