Tải bản đầy đủ (.doc) (23 trang)

Bài tiểu luận môn Công nghệ tri thức và ứng dụng Khai thác dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (448.02 KB, 23 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


KHAI THÁC DỮ LIỆU
(DATA MINING)
(Bài tiểu luận môn Công nghệ tri thức và ứng dụng)
Họ tên MSSV
Vũ Công Tâm CH.11.01129
Nguyễn Võ Thanh Sang CH.11.01036
Lớp : Cao học
Khóa : K6-2011
GVHD : GS.TSKH. Hoàng Kiếm
TP.Hồ Chí Minh, tháng 05 năm 2012
Khóa luận Công nghệ tri thức
MỤC LỤC
LỜI NÓI ĐẦU 1
Phần MỘT: Đại cương về khai thác dữ liệu
I. Giới thiệu 4
II. Luật kết hợp trong khai thác dữ liệu 5
III. Thuật toán Apriori 7
IV. Thuật toán Apriori nhị phân 8
Phần HAI: Giới thiệu chương trình demo
I. Chức năng chính của website 11
1. Thống kê về thông tin 1 ngành trong 1 trường 11
2. Thống kê các chỉ số của 1 ngành nào đó giữa nhiều trường trong 1 năm 14
3. Tỉ lệ phần trăm giữa các ngành trong 1 trường: 16
4. Thống kê tỉ lệ phần trăm của 1 ngành giữa các trường trong 1 năm 17
5. Thống kê tỉ lệ phần trăm của các khối giữa các trường trong 1 năm 18
II. Thiết kế hệ thống 19
III. Lời kết 20


IV. Tài liệu tham khảo 21

Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6
Khóa luận Công nghệ tri thức
LỜI NÓI ĐẦU
“We are drowning in data, but starving for knowledge”
(Tạm dịch: Chúng ta đang chết chìm trong dữ liệu nhưng chết đói vì tri thức)
Hằng năm có trên một triệu thí sinh tham dự kỳ thi tuyển sinh ĐH, CĐ và qua
ba đợt xét tuyển, trung bình khoảng 35% thí sinh trúng tuyển nhưng đa số lựa chọn các
nhóm ngành được xem là “hot” trong khi nhiều ngành khác tuyển không đủ chỉ tiêu,
thậm chí không có sinh viên. Nhiều chuyên gia cho rằng sự mất cân đối trong tuyển
sinh là do công tác dự báo nguồn nhân lực và hướng nghiệp còn nhiều bất cập. Kết quả
từ một đề tài khoa học cấp Nhà nước mới đây về khảo sát học sinh, giáo viên, phụ
huynh, cán bộ quản lý trên phạm vi 8 tỉnh, TP cho thấy có tới 70% học sinh tốt nghiệp
THPT bước vào đời không được giáo dục hướng nghiệp đầy đủ; 60% giáo viên chưa
coi trọng hoặc thiếu khả năng tổ chức các hoạt động giáo dục hướng nghiệp; 89% số
giáo viên được khảo sát thừa nhận các trường phổ thông chưa quan tâm đến công tác
hướng nghiệp hoặc có hướng nghiệp nhưng chưa chú ý phát triễn nguồn nhân lực cho
công nghiệp hóa…
Theo TS. Lê Đông Phương, Giám đốc Trung tâm nghiên cứu giáo dục ĐH và
nghề nghiệp – Viện nghiên cứu giáo dục Việt Nam: “Thực tế cho thấy chúng ta vẫn
còn yếu và thiếu trong việc đánh giá, nghiên cứu, cũng như việc cảnh báo ngành học
nào cần thiết trước mắt, ngành nào cần thiết trong tương lai lâu dài để từ đó cảnh báo
cho các em học sinh và các bậc phụ huynh lựa chọn cho phù hợp… Chúng ta vẫn còn
thiếu và yếu kênh thông tin đầy đủ cho các thí sinh chọn nghề nghiệp trong dài hạn
chứ không phải chỉ là vấn đề như trước mắt hiện nay. Tránh tình trạng như vài năm
trước, các trường thi nhau mở các khối ngành như kinh tế, kế toán, tài chính – ngân
hàng, chứng khoán… Thời điểm đó, đúng là “hot” thật nhưng đến khi sinh viên ra
trường, nhu cầu thực của xã hội lại không nhiều như vậy”.
Theo ThS Trần Đình Lý, Giám đốc trung tâm hỗ trợ sinh viên và Quan hệ

doanh nghiệp của Trường Đại học Nông Lâm TPHCM, hiện chưa có thống kê khả
năng đáp ứng của các lĩnh vực và việc cân đối thừa, thiếu trong các ngành nghề ra sao.
Ông cũng đề xuất các cơ quan quản lý nên tăng cường khảo sát điều tra, dự báo xu
hướng biến động về nhu cầu của từng lĩnh vực ngành nghề và công bố rộng rãi. Các
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 1
Khóa luận Công nghệ tri thức
thông tin quan trọng này sẽ được nhà trường biết, thí sinh biết, cả xã hội biết và như
thế sẽ góp phần điều chỉnh sự mất cân đối ngành nghề hiện nay.
Trong phạm vi bài khóa luận môn học Công nghệ tri thức, chúng em đã phát
triễn một ứng dụng nhỏ nhằm tổng hợp và thống kê số liệu tuyển sinh hằng năm của
các trường thành một thể thống nhất hơn, nhằm giúp các em học sinh có cái nhìn khái
quát về số lượng đăng ký, chỉ tiêu tuyển sinh, so sánh giữa các trường… hỗ trợ ra
quyết định chọn cho mình một ngành nghề. Ứng dụng này có thể được phát triễn mở
rộng thêm theo hướng phân tích dữ liệu về số lượng sinh viên tốt nghiệp, số lượng sinh
viên tìm được việc làm thích hợp sau khi ra trường hằng năm… để tìm ra nhu cầu
nhân lực của xã hội, góp phần định hướng nghề nghiệp cho học sinh. Ứng dụng được
đăng tải trên Internet với tên miền: tạo thuận lợi cho học sinh,
phụ huynh và các nhà quản lý giáo dục truy cập sử dụng.
Chúng em xin chân thành cảm ơn GS. TSKH. Hoàng Kiếm đã tận tình giảng
dạy, cung cấp những kiến thức mới mẻ trong lĩnh vực khám phá tri thức, xây dựng
những hệ thống thông minh hơn để phục vụ cho con người ngày càng tốt hơn. Tuy thời
gian học tập không được nhiều nhưng thầy đã cho chúng em những cái nhìn khái quát,
những ý tưởng và hướng tiếp cận mới trong lĩnh vực máy học, khám phá tri thức. Đó
thực sự là những hành trang quý giá để chúng em tiếp tục nghiên cứu và phát triễn.
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 2
Khóa luận Công nghệ tri thức
Bài khóa luận này gồm hai phần chính:
Phần một: Cơ sở lý thuyết của ngành khai thác dữ liệu (Data mining) – Giới thiệu
thuật toán Apriori nhị phân.
Nguyễn Võ Thanh Sang – CH1101036

Phần hai: Chương trình demo phân tích, thống kê, so sánh số liệu đăng ký tuyển sinh
hằng năm của các trường đại học, hỗ trợ ra quyết định đăng ký dự thi.
Vũ Công Tâm – CH1101129
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN



















Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 3
Khóa luận Công nghệ tri thức
Phần MỘT: ĐẠI CƯƠNG VỀ KHAI THÁC DỮ LIỆU (DATA MINING)
I. Giới thiệu:
Trong thời đại ngày nay, với sự phát triễn vượt bật của công nghệ thông tin, các
hệ thống thông tin có thể tạo ra và lưu trữ một khối lượng lớn dữ liệu về hoạt động
hằng ngày của chúng. Các ví dụ có thể thấy là dữ liệu hóa đơn mua hàng trong siêu thị,

dữ liệu giao dịch chứng khoán, dữ liệu giao dịch qua thẻ ATM, dữ liệu đăng kí thi
tuyển đại học… Khối lượng dữ liệu này là rất lớn với hàng triệu bảng ghi thông tin. Có
thể nói là chúng ta “chết ngộp” trong biển thông tin này. Vấn đề là làm sao từ khối
lượng thông tin khổng lồ đó có thể tìm ra những tri thức quý báu cần thiết để cải thiện
hiệu quả hoạt động của hệ thống thông tin ban đầu. Từ nhu cầu bức thiết trên, các kĩ
thuật về khai thác dữ liệu và máy học ra đời và ngày càng được cải tiến để có thể giải
quyết những bài toán hóc búa của con người như lập mô hình, dự báo, hỗ trợ ra quyết
định, xây dựng những hệ thống ngày càng thông minh hơn.
Các công đoạn của quá trình khai thác tri thức từ cơ sở dữ liệu bao gồm 6 bước:
1. Chọn lọc dữ liệu (data selection).
2. Xóa bỏ dữ liệu không cần thiết (cleaning).
3. Làm giàu dữ liệu (enrichment).
4. Mã hóa (coding).
5. Khám phá tri thức (data mining).
6. Báo cáo kết quả (reporting).
Quá trình này có thể được lặp lại nhiều lần, qua một hay nhiều giai đoạn dựa
trên phản hồi từ kết quả của các giai đoạn sau.
Một số phương pháp khai thác dữ liệu phổ biến:
1. Phương pháp quy nạp
2. Cây quyết định và luật
3. Phát hiện các luật kết hợp
4. Các phương pháp phân lớp và hồi quy phi tuyến
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 4
Khóa luận Công nghệ tri thức
5. Phân nhóm và phân đoạn
6. Các phương pháp dựa trên mẫu
7. Mô hình phụ thuộc dựa trên đồ thị xác suất
8. Khai phá dữ liệu dạng văn bản
9. Mạng Neuron
10.Giải thuật di truyền

Trong phạm vi bài khóa luận này, em chỉ xin trình bày về một thuật toán phổ
biến trong khai mỏ tìm luật kết hợp đó là thuật toán Apriori nhị phân.
II. Luật kết hợp trong khai thác dữ liệu (Association Rule in Data Mining)
Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule) là
tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ
bản của luật kết hợp được tóm tắt như dưới đây.
Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t
1
, t
2
, …, t
n
.
T = {t
1
, t
2
, …, t
n
}. T gọi là cơ sở dữ liệu giao dịch (Transaction Database)
Mỗi giao dịch t
i
bao gồm tập các đối tượng I (gọi là itemset):
I = {i
1
, i
2
, …, i
m
}

Một itemset gồm k items gọi là k-itemset
Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan
(correlation) giữa các items. Những luật kết hợp này có dạng X => Y
Trong bài toán mua hàng siêu thị, luật kết hợp X =>Y có thể hiểu rằng những
người mua các mặt hàng trong tập X cũng thường mua các mặt hàng trong tập Y. (X
và Y là các itemset).
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 5
Khóa luận Công nghệ tri thức
Ví dụ, nếu X = {Apple, Banana} và Y = {Cherry, Durian} và ta có luật kết hợp
X => Y thì chúng ta có thể nói rằng những người mua Apple và Banana thì cũng
thường mua Cherry và Durian.
Theo quan điểm thống kê, X được xem là biến độc lập (Independent variable)
còn Y được xem là biến phụ thuộc (Dependent variable)
 Độ hỗ trợ (Support) và độ tin cây (Confidence) là hai tham số dùng để đo lường
luật kết hợp.
Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất cả
các items trong cả hai tập X và Y. Ví dụ, support của luật X =>Y là 5% có nghĩa là
5% các giao dịch X và Y được mua cùng nhau.
Công thức để tính support của luật X =>Y như sau:
Trong đó: N là tổng số giao dịch.
Độ tin cậy (Confidence) của luật kết hợp X =>Y là xác suất xảy ra Y khi đã biết
X. Ví dụ độ tin cậy của luật kết hợp {Apple} =>Banana} là 80% có nghĩa là 80%
khách hàng mua Apple cũng mua Banana.
Công thức để tính độ tin cậy của luật kết hợp X => Y là xác suất có điều kiện Y
khi đã biết X như sau:
Trong đó: n(X) là số giao dịch chứa X
Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum
support (min_sup) và minimum confidence (min_conf)
Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả
Minimum support và Minimum confidence gọi là các luật mạnh (Strong Rle)

Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 6
Khóa luận Công nghệ tri thức
Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold)
và phải xác định trước khi sinh các luật kết hợp.
Một itemsets mà tần suất xuất hiện của nó >= min_sup gọi là frequent itemsets
 Một số loại luật kết hợp
- Luật kết hợp nhị phân (Binary association rules):
Ví dụ: Khách hàng mua Apple thì thường cũng sẽ mua Banana
- Luật kết hợp định lượng (Quantitative association rules):
Ví dụ: Nếu Trọng lượng trong khoãng [70kg – 90kg] thì Chiều cao sẽ nằm trong
khoãng [170cm – 190cm]
- Luật kết hợp mờ (Fuzzy association rules):
Ví dụ: Nếu Trọng lượng là NẶNG thì Chiều cao thường là CAO.
 Thuật toán phổ biến nhất tìm các luật kết hợp là Apriori sử dụng Binary
association rules.
III. Thuật toán Apriori
Thuật toán do Agrawal đề xuất năm 1994, dựa trên một nhận xét khá đơn giản
là bất kỳ tập hợp con nào của tập xuất hiện σ – thường xuyên cũng là tập xuất hiện σ
– thường xuyên. Do đó, trong quá trình đi tìm các tập ứng cử viên, nó chỉ cần dùng
đến các tập ứng cử viên vừa xuất hiện ở bước ngay trước đó, chứ không cần dùng đến
tất cả các tập ứng cử viên (cho đến thời điểm đó). Nhờ vậy, bộ nhớ được giải phóng
đáng kể.
1/ Bước 1: cho trước ngưỡng độ hỗ trợ 0 ≤ σ ≤ 1. Tìm tất cả các đối tượng
xuất hiện σ – thường xuyên.
Tập hợp tìm được ký hiệu là L
1
.
2/ Bước 2: Tiến hành ghép đôi các phần tử của L
1
(không cần để ý đến thứ

tự), được tập C2, gọi là tập các ứng cử viên có 2 phần tử. Sở dĩ chỉ gọi là “ứng cử
viên”, vì chưa chắc chúng đã là σ – thường xuyên. Sau khi kiểm tra (dùng định
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 7
Khóa luận Công nghệ tri thức
nghĩa), ta lọc ra được các tập hợp σ – thường xuyên có 2 phần tử. Ký hiệu tập hợp
này là L
2
.
3/ Bước 3: Với chú ý đã nêu (về tính chất tăng dần của các tập hợp
σ

thường xuyên), ta tiến hành tìm các ứng cử viên có 3 phần tử (lấy từ L
1
). Gọi nó là
tập C
3
. Lưu ý là nếu {A, B, C} muốn là “ứng cử viên” thì các tập 2 phần tử {A, B},
{B,C},{C, A } đều phải là σ – thường xuyên, tức là chúng đều là phần tử của tập
L
2
. Ta đi kiểm tra trong tập C
3
và lọc ra được tập các tập hợp σ – thường xuyên có
3 phần tử. Tập hợp này được ký hiệu là L
3
.
4/ Bước 4: Tiến hành tìm các ứng cử viên có n phần tử. Gọi tập của chúng là
tập C
n
và từ đây, lọc ra L

n
là tập tập các tập hợp σ – thường xuyên có n phẩn tử.
Thuật toán Apriori có nhiều cải tiến: Apriori-TID, Apriori-Hybrid, Apriori
nhị phân
IV. Thuật toán Apriori nhị phân:
Thuật toán Apriori nhị phân sử dụng các vector bit cho các thuộc tính, vector
nhị phân n chiều ứng với n giao tác trong cơ sở dữ liệu. Có thể biểu diễn cơ sở dữ
liệu bằng một ma trận nhị phân trong đó dòng thứ I tương ứng với giao tác (bản ghi)
t
i
và cột thứ j tương ứng với mục (thuộc tính) i
j
. Ma trận biểu diễn cơ sở dữ liệu ví
dụ cho bảng dưới:
TID
A B C D E
1 1 1 0 1 1
2 0 1 1 0 1
3 1 1 0 1 1
4 1 1 1 0 1
5 1 1 1 1 1
6 0 1 1 1 0
Ma trận biểu diễn cơ sở dữ liệu
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 8
Khóa luận Công nghệ tri thức
Các vector biểu diễn nhị phân cho các tập 1 thuộc tính có dạng sau:
{A} {B} {C} {D} {E}
1 1 0 1 1
0 1 1 0 1
1 1 0 1 1

1 1 1 0 1
1 1 1 1 1
0 1 1 1 0
Vector biểu diễn nhị phân cho tập 1 thuộc tính
Các vector biểu diễn nhị phân cho các tập 2 thuộc tính có dạng sau:
{A,B} {A,C} {A,D} {A,E} {B,C} {B,D} {B,E} {C,D} {C,E} {D,E}
1 0 1 1 0 1 1 0 0 1
0 0 0 0 1 0 1 0 1 0
1 0 1 1 0 1 1 0 0 1
1 1 0 0 1 0 1 0 1 0
1 1 1 1 1 1 1 1 1 1
0 0 0 0 1 1 0 1 0 0
Vector biểu diễn nhị phân cho các tập 2 thuộc tính
Các vector biểu diễn cho thấy tập {A, C}, {C, D} có độ hỗ trợ <33% (2/6) nên bị loại.
Các vector biểu diễn nhị phân cho các tập 3 thuộc tính có dạng:
{A,B,C}{A,B,D}{A,B,E}{A,C,D}{A,C,E}{A,D,E}{B,C,D}{B,C,E}{B,D,E}{C,D,E}
0 1 1
0 0
1 0 0 1 0
0 0 0
0 0
0 0 1 0 0
0 1 1
0 0
1 0 0 1 0
1 0 1
0 1
0 0 1 0 0
1 1 1
1 1

1 1 1 1 1
0 0 0
0 0
0 0 0 0 0
Vector biểu diễn nhị phân cho các tập 3 thuộc tính
Các vector biểu diễn cho thấy tập {A,B,C}, {A,C,D}, {A,C,E}, {B,C,D}, {C,D,E} có
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 9
Khóa luận Công nghệ tri thức
độ hỗ trợ <50% nên bị loại.
Các vector biểu diễn nhị phân cho các tập 4 thuộc tính có dạng:
{A,B,C,D} {A,B,C,E} {A,C,D,E} {A,B,D,E} {B,C,D,E}
0 0 0 1 0
0 0 0 0 0
0 0 0 1 0
0 1 0 0 0
1 1 1 1 1
0 0 0 0 0
Vector biểu diễn nhị phân cho các tập 4 thuộc tính
Các vector biểu diễn cho thấy tập {A,B,C,D}, {A,B,C,E}, {A,C,D,E}, {B,C,D,E} có
độ hỗ trợ <50% nên bị loại.
Các vector biểu diễn nhị phân cho các tập 5 thuộc tính có dạng:
{A,B,C,D,E}
0
0
0
0
1
0
Các vector biểu diễn cho thấy tập 5 thuộc tính có độ hỗ trợ 17% (1/6).
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 10

Khóa luận Công nghệ tri thức
Phần HAI: Chương trình demo
Website thống kê các chỉ số của thông tin tuyển sinh đại học cao đẳng cho các
em chuẩn bị cho kì thi tuyển sinh.
Hằng năm theo thống kê của Bộ giáo dục có khoảng một triệu học sinh thi
tuyển sinh vào các trường đại học và cao đẳng trong cả nước, và cả nước có khoảng
trên dưới năm trăm các trường đại học, cao đẳng, TCCN với hàng trăm ngành khác
nhau. Các học sinh sẽ bị chìm trong biển thông tin tuyển sinh của các trường công bố.
Nhận thấy nhu cầu cần có một chương trình tổng hợp và thống kê các số liệu đó thành
một thể thống nhất hơn, nhằm giúp các em dễ dàng hơn để chọn cho mình một ngành.
Tên miền truy cập:
I. Chức năng chính của website
Website thống kê trên 4 chỉ số chính là: Số lượng thí sinh đăng kí, chỉ tiêu, điểm
chuẩn và tỉ lệ chọi
1. Thống kê về thông tin của một ngành trong một trường :
Một ngành A nào đó trong trường B có các thông số: số lượng đăng kí tuyển
sinh, chỉ tiêu, điểm chuẩn và tỉ lệ chọi qua các năm có sự thay đổi như thế nào sẽ
được phản ánh rõ qua các sơ đồ:
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 11
Khóa luận Công nghệ tri thức
Sơ đồ 1: Số lượng đăng kí dự thi và chỉ tiêu của 1 ngành trong 1 trường qua các năm
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 12
Khóa luận Công nghệ tri thức
Sơ đồ 2: Điểm chuẩn và tỉ lệ chọi của 1 ngành trong 1 trường qua các năm
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 13
Khóa luận Công nghệ tri thức
2. Thống kê các chỉ số của 1 ngành nào đó giữa nhiều trường trong 1 năm
Thí sinh muốn so sánh các chỉ số trên của một ngành nào đó giữa các trường
khác nhau trong 1 năm: Ví dụ: So sánh các chỉ số trên của ngành công nghệ thông tin
giữa các trường ĐH Bách khoa TPHCM, ĐH Khoa học tự nhiên TPHCM, ĐH Công

nghệ thông tin TPHCM… trong năm 2011.
Sơ đồ 3: Số lượng đăng kí và chỉ tiêu của ngành CNTT giữa các trường trong 1 năm
(2011)
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 14
Khóa luận Công nghệ tri thức
Sơ đồ 4: Điểm chuẩn và tỉ lệ chọi của ngành CNTT giữa các trường trong 1 năm
(2011)
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 15
Khóa luận Công nghệ tri thức
3. Tỉ lệ phần trăm giữa các ngành trong 1 trường:
Chức năng này cung cấp cho thí sinh thông tin về tỉ lệ phần trăm của các ngành trong 1
trường nào đó trong 1 năm
Sơ đồ 5: Tỉ lệ phần trăm giữa các ngành trong 1 trường của 1 năm
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 16
Khóa luận Công nghệ tri thức
4. Thống kê tỉ lệ phần trăm của 1 ngành giữa các trường trong 1 năm
Chức năng này cung cấp thông tin về tỉ lệ phần trăm thí sinh đăng kí vào 1 ngành nào
đó của một năm.
Ví dụ: năm 2001 ngành CNTT có thông kê về tỉ lệ thí sinh đăng kí dự thi vào các
trường như sau:
ĐH BK TPHCM: 20%
ĐH KHTN TPHCM 25 %
ĐH CNTT 10%.
Các trường còn lại : 45%.
Sơ đồ 6: Thống kê tỉ lệ các thí sinh đăng kí dự thi của 1 ngành giữa các trường trong 1
năm.
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 17
Khóa luận Công nghệ tri thức
5. Thống kê tỉ lệ phần trăm của các khối giữa các trường trong 1 năm
Chức năng cung cấp cho thí sinh thông tin về phần trăm các thí sinh đăng kí giữa cáck

khối giữa các trường trong 1 năm nào đó
Ví dụ: năm 2011
Khối A: 40%
Khối B: 10%
Khối C: 30%
Khối còn lại: 20%
Sơ đồ 7: Tỉ lệ phần trăm thí sinh đăng kí dự thi giữa các khối trong 1 năm của tát cả
các trường trong cả nước.
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 18
Khóa luận Công nghệ tri thức
II. Thiết kế hệ thống
Để đạt kết quả trên, hệ thống được thiết kế như sau:
Cơ sở dữ liệu của website
Trong đó:
School: Lưu trữ thông tin về một trường .
ShoolType: Mỗi trường sẽ thuộc loại nào (ĐH, CD, TH…)
SchoolGroup: Mỗi trường sẽ thuộc nhóm nào (ĐH Quốc gia, Công lập, dân lập, tư
thục, bán công…)
Region: Lưu trữ vùng miền của đất nước (Bắc, Trung, Nam)
Major: Lưu trữ thông tin về một ngành của một trường
Section: Loại của ngành đó (Tự nhiên, xã hội, loại khác)
Field: Khối thi của ngành (A,B,C,…)
GroupMajor: Ngành đó thuộc nhóm nào
Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 19
Khóa luận Công nghệ tri thức
Nhóm Sư phạm: sư phạm toán, sư phạm văn, sư phạm lý…
Nhóm Điện tử: điện tử, cơ điện tử, điều khiển tự động….
Nhóm CNTT :CN Phần mềm, khoa học máy tính, mạng….
DetailEnrolling: Lưu trữ thông tin về các chỉ số (số lượng đăng kí, chỉ tiêu, điểm
chuẩn, tỉ lệ chọi…) của một ngành.

III. Lời kết:
Trên đây là những chức năng chính của website đã cung cấp. Tuy nhiên do được
thực hiện trong thời gian ngắn ngủi nên website vẫn còn những nhược điểm sau đây:
• Chưa có thông tin đầy đủ của tất cả các trường trong cả nước, chỉ mới dừng lại
ở mức demo những trường đại diện cho 3 khu vực chính của nước.
• Số lượng ngành trong 1 trường cũng không đầy đủ
• Thông tin của các ngành chưa có tính chính xác cao, vì rất khó để có được
thông tin chính xác của từng ngành trong từng trường của một năm nào đó, nên
các số liệu trên đây có tính chất tham khảo.
• Giao diện website không đẹp mắt
Tuy nhiên, những hạn chế chỉ là hạn chế về mặt số liệu. Khi số liệu đã nhập
đúng, thì chương trình sẽ cho ra kết quả chuẩn xác. Hy vọng trong thời gian tới, nhóm
phát triển sẽ khắc phục những hạn chế trên và sẽ phục vụ các em vào mùa tuyển sinh
năm sau 2013.

Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 20
Khóa luận Công nghệ tri thức
IV. Tài liệu tham khảo
[1] Slide bài giảng môn: “Công nghệ tri thức và ứng dụng”
Giảng viên: GS.TSKH Hoàng Kiếm
[2] Krzysztof J. Cios, Witold Pedrycz, Roman W. Swiniarski. Data Mining Methods
for Knowledge Discovery. Kluwer Academic Publishers, 1998
[3] Khai phá dữ liệu (Data Mining) - Nguyễn Văn Chức – 2010
/>[4] Slide bài giảng “Khai phá dữ liệu” – Cao học Ngành Khoa học máy tính -
TS. Võ Thị Ngọc Châu - />[6] Data Mining - />[7] Data Mining Technology Note prepared for Management 274A – Spring 1996
/>[8] Fuzzy Association Rules – Bakk. Lucas Helm – Master thesis – Vienna University of
Economic and Business Administration – 2007

[9] Apriori – Finding Frequent Item sets and Association Rules with the Apriori
Algorithm – Christian Borgelt - European Centre for Soft Computing

- />Nguyễn Võ Thanh Sang – Vũ Công Tâm – CH6 Trang 21

×