Tải bản đầy đủ (.pdf) (92 trang)

XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH TẠI TRƯỜNG CAO ĐẲNG CỘNG ĐỒNG VĨNH LONG. LUẬN VĂN THẠC SỸ KỸ THUẬT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.35 MB, 92 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN HOÀNG HẢI

XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH TẠI
TRƯỜNG CAO ĐẲNG CỘNG ĐỒNG VĨNH LONG

LUẬN VĂN THẠC SỸ KỸ THUẬT

Đà Nẵng, Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN HOÀNG HẢI

XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH TẠI
TRƯỜNG CAO ĐẲNG CỘNG ĐỒNG VĨNH LONG

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

LUẬN VĂN THẠC SỸ KỸ THUẬT

Người hướng dẫn khoa học: TS. TRƯƠNG NGỌC CHÂU

Đà Nẵng, Năm 2017



i

LỜI CAM ĐOAN
Tôi xin cam đoan đề tài khoa học “Xây dựng hệ hỗ trợ tư vấn tuyển sinh tại
Trường Cao đẳng Cộng đồng Vĩnh Long” này là bài nghiên cứu của chính bản thân
tơi. Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tơi cam
đoan toàn phần hay từng phần nhỏ của luận văn này chưa từng công bố hay được sử
dụng để nhận bằng cấp ở nơi khác, các số liệu và kết quả trong luận văn này là trung
thực. Tôi xin chịu trách nhiệm về luận văn của mình.

Tác giả

Nguyễn Hồng Hải


ii

TÓM TẮT LUÂN VĂN
XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH TẠI TRƯỜNG CAO
ĐẲNG CỘNG ĐỒNG VĨNH LONG
Học viên: Nguyễn Hồng Hải
Chun ngành: Khoa học máy tính
Mã số: 64.08.01
Trường Đại học Bách khoa
Tóm tắt:
Ngành giáo dục ln là vấn đề sống còn của bất kỳ quốc gia nào trên thế giới.
Trong những năm gần đây, chính phủ Việt Nam đặc biệt đầu tư cho ngành mũi nhọn
này thông qua các chính sách, nguồn vốn dành cho trang thiết bị, cơ sở hạ tầng và
nghiên cứu khoa học. Trong lĩnh vực nghiên cứu khoa học, càng ngày càng có nhiều
cơng trình khoa học về giáo dục. Với sự phát triển không ngừng của xã hội và việc

ứng dụng công nghệ thông tin vào nhiều lĩnh vực là rất cần thiết. Trong cơng tác
tuyển sinh của trường có một hệ thống hỗ trợ tư vấn là rất cần thiết. Chính vì vậy đề
tài của tôi nghiên cứu về các qui chế tuyển sinh, khai phá dữ liệu với luật kết hợp và
cây quyết định để xây dựng hệ thống tư vấn cho thí sinh mới tốt nghiệp trung học
phổ thơng, dự đốn kết quả học tập của thí sinh sau khi ra trường, dựa vào kết quả
đầu vào và kết quả đầu ra của sinh viên đã học.
Nghiên cứu tiến hành theo 4 bước chính: (1) Tìm hiểu cơng tác liên quan đến
công tác tuyển sinh của trường Cao đẳng; (2) Thu thập và tiền xử lý dữ liệu tuyển
sinh và kết quả học tập của Sinh viên; (3) Tìm hiểu về luật kết hợp và cây quyết
định trong khai phá dữ liệu, lựa chọn thuật toán phù hợp với yêu cầu bài toán đặt ra
và dữ liệu thu thập được; (4) Thực nghiệm chương trình trên máy tính và đánh giá
kết quả thực tiễn.
Ngoài ra, đề tài cũng xây dựng mơ hình hỗ trợ tư vấn kết quả học tập cho các ngành
khác nhau nhằm hỗ trợ cho các thí sinh lựa chọn ngành phù hợp với năng lực của
bản thân và có thể thay thế cho cách tư vẫn thủ công của trường.
BUILDING SUPPORT SYSTEMS TO SUPPORT CONSULTANCY IN VINH
LONG COMMUNE COLLEGE
Abstract:
Education is always playing an important role of any countries all over the
world. In the recent years, Vietnamese Government has been investing especially
for that one via policies and capital intended for equipment, infrastructures and
scientific researches. In the field of scientific research, there are more and more
scientific research works for education.
Society is always developing and the application of information technology on
many fields that is essential. On the admission of universities or colleges, an


iii

consultant supporting system is very important. Therefore, my research object is

about admission regulations, mining databases with combining rules and decision
tree so that structuring consulting system for new graduates from high school,
predicting study results for new graduate students, that is based on student’s income
and outcome results.
Research was implemented through four main steps: (1) comprehending any
issues related to admission at the college; (2) collecting and pre-processing
databases for admission and study results of students; (3) comprehending about
combining rules and decision tree in databases mining , selecting appropriate
algorithm that best fits the requirements and collected databases; (4) experimenting the
computer program and evaluating results on the real application.
Moreover, research has also structured the model of consultant supporting for
student results of different majors which aim to support candidates selecting their
suitable major to abilities themselves and can replace for the college’s manual
consulting.


iv

MỤC LỤC
LỜI CAM ĐOAN ................................................................................................................ i
TÓM TẮT LUÂN VĂN .....................................................................................................ii
MỤC LỤC .......................................................................................................................... iv
DANH MỤC TỪ VIẾT TẮT ...........................................................................................vii
DANH MỤC CÁC BẢNG.............................................................................................. viii
DANH MỤC CÁC HÌNH ................................................................................................. ix
MỞ ĐẦU .............................................................................................................................. 1
1. Lý do chọn đề tài ..................................................................................................... 1
2. Mục tiêu và nội dung nghiên cứu ............................................................................ 1
3. Đối tượng và phạm vi nghiên cứu ........................................................................... 2
4. Phuơng pháp nghiên cứu ......................................................................................... 2

5. Ý nghĩa khoa học và thực tiễn của đề tài ................................................................. 3
6. Bố cục luận văn........................................................................................................ 3
CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ................................................. 5
1.1. Khai phá dữ liệu ............................................................................................................ 5
1.2. Một số định nghĩa mang tính mô tả về khai phá dữ liệu ............................................... 5
1.3. Các bước trong quá trình phát hiện tri thức [2] ............................................................. 5
1.4. Mơ hình khai phá dữ liệu ............................................................................................... 6
1.5. Các phương pháp khai phá dữ liệu ................................................................................ 7
1.5.1. Các thành phần của giải thuật khai phá dữ liệu ................................................. 7
1.5.2. Một số phương pháp khai thác dữ liệu phổ biến ............................................... 8
1.5.2.1. Phương pháp quy nạp (Induction). ..................................................... 8
1.5.2.2. Cây quyết định và luật ......................................................................... 8
1.5.2.3. Phát hiện các luật kết hợp ................................................................... 9
1.6. Các giai đoạn của quá trình khai phá dữ liệu [1]: ....................................................... 10
1.6.1. Tìm hiểu nghiệp vụ và dữ liệu ......................................................................... 10
1.6.2. Chuẩn bị dữ liệu ............................................................................................... 10
1.6.3. Mơ hình hóa dữ liệu ......................................................................................... 10
1.6.4. Hậu xử lý và đánh giá mơ hình ........................................................................ 10
1.6.5. Triển khai mơ hình ........................................................................................... 10
1.7. Ứng dụng trong khai phá dữ liệu ................................................................................. 11
1.8. Kết chương 1 ............................................................................................................... 12


v

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT VỀ LUẬT KẾT HỢP .......................................... 13
2.1. Lý thuyết về luật và luật kết hợp.................................................................................. 13
2.1.1. Luật kết hợp ..................................................................................................... 13
2.1.2. Luật thừa .......................................................................................................... 15
2.1.3. Một số tính chất của luật kết hợp[10] .............................................................. 16

2.1.4. Phát biểu bài toán khai phá luật kết hợp[11] ................................................... 18
2.1.5. Một số dạng luật trong khai phá luật kết hợp ................................................... 18
2.1.6. Các đặc trưng của luật kết hợp......................................................................... 20
2.1.6.1. Khơng gian tìm kiếm của luật ........................................................... 20
2.1.6.2. Độ hỗ trợ của luật ............................................................................. 22
2.2. Một số giải thuật cơ bản khai phá các tập mục phổ biến ............................................ 23
2.2.1. Phân loại các giải thuật .................................................................................... 23
2.2.2. Kỹ thuật BFS với thuật toán Apriori ............................................................... 23
2.3. Cây quyết định ............................................................................................................. 31
2.3.1. Định nghĩa........................................................................................................ 31
2.3.2. Giới thiệu cây quyết định ................................................................................. 31
2.3.3. Các kiểu cây quyết định ................................................................................... 32
2.3.4. Cấu trúc cây quyết định ................................................................................... 32
2.3.5. Sử dụng cây quyết định trong dự đoán lớp các dữ liệu chưa biết ................... 33
2.3.6. Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu: .............................. 35
2.3.7. Các thuật toán của cây quyết định: .................................................................. 35
2.3.8. Đánh giá hiệu quả phân lớp ............................................................................. 35
2.4. Thuật toán C4.5 xây dựng cây quyết định................................................................... 37
2.4.1. Tổng quan ........................................................................................................ 37
2.4.2. Mã giả của thuật toán C4.5 .............................................................................. 38
2.2.3. Thuật toán C4.5 dùng Gain-entropy ................................................................ 39
2.5. Kết chương 2 ............................................................................................................... 41
CHƯƠNG 3. XÂY DỰNG HỆ HỖ TRỢ TƯ VẤN TUYỂN SINH ............................. 42
3.1. Giới thiệu về trường CĐCĐ Vĩnh Long ...................................................................... 42
3.2. Giới thiệu về cơng cụ khai phá dữ liệu ........................................................................ 44
3.3. Mơ hình và bài toán xậy dựng hệ hỗ trợ tư vấn tuyển sinh ......................................... 45
3.3.1. Mơ hình ............................................................................................................ 45
3.3.2. Giới thiệu bài tốn ........................................................................................... 46
3.4. Phân tích và thiết kế hệ thống...................................................................................... 46
3.4.1. Biểu đồ ca sử dụng........................................................................................... 46



vi

3.4.2. Biểu đồ tương tác ............................................................................................. 47
3.4.3. Biểu đồ lớp ....................................................................................................... 48
3.4.4. Biểu đồ tuần tự ................................................................................................. 48
3.4.5. Biểu đồ trạng thái ............................................................................................. 49
3.5. Xây dựng cơ sở dữ liệu................................................................................................ 49
3.6. Mô tả việc tổng hợp dữ liệu cho bài tốn .................................................................... 50
3.7. Chuẩn hóa dữ liệu đầu vào cho thuật tốn .................................................................. 52
3.7.1. Lọc thuộc tính (Filtering Attributes)................................................................ 53
3.7.2. Rời rạc hóa dữ liệu (Discretization) ................................................................ 54
3.8. Phân tích cơ sở dữ liệu dữ ........................................................................................... 56
3.8.1. Tìm hiểu và chuẩn bị dữ liệu ........................................................................... 56
3.8.2. Mơ hình hóa dữ liệu ......................................................................................... 57
3.8.3. Đánh giá mơ hình ............................................................................................. 57
3.9. Khai phá dữ liệu rút ra tri thức .................................................................................... 59
3.10. Kết chương 3 ............................................................................................................. 63
CHƯƠNG 4. TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ ...................... 64
4.1. Biểu đồ triển khai hệ thống ......................................................................................... 64
4.2. Triển khai chương trình ............................................................................................... 64
4.2.1. Cài đặt chương trình ........................................................................................ 64
4.2.2. Hướng dẫn sử dụng .......................................................................................... 64
4.3. Hình ảnh trích ra từ chương trình demo ...................................................................... 65
4.3.1. Giao diện cài đặt chương trình......................................................................... 65
4.3.2. Giao diện trước khi chọn ngành ...................................................................... 66
4.3.3. Giao diện sau khi chọn ngành .......................................................................... 66
4.4. Đánh giá kết quả .......................................................................................................... 68
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................................................... 69

DANH MỤC TÀI LIỆU THAM KHẢO ........................................................................ 70
PHỤ LỤC
QUYẾT ĐỊNH GIAO ĐỀ TÀI
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN.


vii

DANH MỤC TỪ VIẾT TẮT
Tiếng Việt
KPDL

Khai phá dữ liệu

CSDL

Cơ sở dữ liệu

SQL

Ngơn ngữ truy vấn mang tính cấu trúc (Structured Query Language)

Tiếng Anh
KDD
K-mean
TID
OLAP

Knowledge Discovery Database

K-mean clustering
Transaction IDentifier
Online Analysis Processing

MOLAP

multidimensional OLAP

ROLAP

Relational OLAP

ADO

Active X Data Object

BFS

Breadth First Search

ID3

Decision tree

Cart

Classification and Regression Trees

SLIQ


Supervised Learning In Quest

Sprint

Scalable PaRallelization INduction of decision Trees

Weka

Waikato Environment for Knowledge Analysis


viii

DANH MỤC CÁC BẢNG
Số hiệu

Tên bảng

bảng
2.1.
2.2.

Ví dụ về một cơ sở dữ liệu dạng giao dịch – D
Các tập phổ biến trong CSDL ở bảng 1 với độ hỗ trợ
tối thiểu 50%

Trang
13
14


2.3.

Ví dụ thuật tốn Apriori.

29

2.4.

Bảng dữ liệu về thời tiết [9].

33

2.5.

Ví dụ về thời tiết trong 3 ngày

34

2.6

Kết quả phân lớp dữ liệu cho bảng 2.5 [9].

34

2.7.

Huấn luyện với thuộc tính phân lớp là buys computer
[14] .

40


3.1.

Danh sách các bảng trong CSDL

49

3.2.

Cấu trúc bảng dữ liệu mẫu

50

3.3.

Cấu trúc bảng kết quả luật suy diễn

50

3.4.

Cấu trúc file dữ liệu của luận văn

52

3.5.

Kết quả sau khi rời rạc thuộc tính TongDiemThi.

55


3.6.

Mức độ quan trọng của thuộc tính

56

3.7.

Giải thuật và các thuộc tính sử dụng cho hệ thống

57

3.8.

Độ chính xác của các mơ hình dự đốn

57

3.9.

Confusion matrix trên kết quả dự đốn 4 lớp.

58


ix

DANH MỤC CÁC HÌNH
Số hiệu


Tên bảng

hình

Trang

1.1

Các bước trong q trình phát hiện tri thức.

6

2.1.

Minh họa luật kết hợp khơng có tính tách.

17

2.2.

Biểu diễn thơng tin tìm kiếm dạng lới cho tập I =
{1,2,3,4}.

21

2.3.

Biểu diễn cây cho tập I = {1, 2, 3, 4}.


22

2.4.

Hệ thống hóa các giải thuật.

23

2.5.

Mơ hình cây quyết định trong phân lớp dữ liệu về thời tiết
[9].

33

2.6.

Quá trình train và test của classisfier.

36

2.7

Mơ tả cơng việc của 3-fold.

37

2.8

Mơ tả q trình tính lỗi của 3-fold.


37

3.1

Trường Cao đẳng Cộng đồng Vĩnh Long - Khu 1.

42

3.2

Giao diện phần mềm Weka.

45

3.3

Mơ hình giải pháp xây dựng hệ hỗ trợ tư vấn tuyển sinh.

45

3.4

Biểu đồ ca sử dụng người dùng

46

3.5

Biểu đồ ca sử dụng quản lý dữ liệu mẫu


47

3.6

Biểu đồ tương tác

47

3.7

Biểu đồ lớp các đối tượng

48

3.8

Biểu đồ chọn tư vấn

48

3.9.

Biểu đồ tạo dữ liệu mẫu

49

3.10

Biểu đồ trạng thái


49

3.11

Cơ sở dữ liệu chưa chuẩn hóa.

51

3.12

Giao diện lọc thuộc tính với bộ lọc remove.

53

3.13

Cấu trúc dữ liệu sau khi lọc bỏ các thuộc tính thừa.

54

3.14

Giao diện chọn bộ lọc và thuộc tính rời rạc dữ liệu.

55

3.15

Giao diện trích chọn thuộc tính và xếp hạng thuộc tính.


56

3.16

Kết quả phân tích AUC.

58

4.1.

Mơ hình tổng thể của hệ thống.

64

4.2.

Giao diện cài đặt chương trình.

65

4.3.

Giao diện trước khi chọn ngành.

66


x


Số hiệu
hình

Tên bảng

Trang

4.4.

Giao diện khi chọn ngành tổng điểm nhỏ hơn 13.

66

4.5.

Giao diện khi chọn ngành tổng điểm nhỏ hơn 15.

67

4.6.

Giao diện khi chọn ngành tổng điểm nhỏ hơn 21.

67

4.7.

Giao diện khi chọn ngành tổng điểm nhỏ hơn 26.

68



1

MỞ ĐẦU

1. Lý do chọn đề tài
Trải qua rất nhiều năm, phương thức tuyển sinh và đào tạo theo kiểu truyền
thống cho thấy sự đóng góp rất lớn trong việc định hướng và phát triển của trường.
Cùng với xu hướng phát triển của công nghệ thông tin và các phương tiện truyền thông,
việc ứng dụng công nghệ thông tin vào công tác quản lý hiện đang là một nhu cầu cấp
thiết nhằm tiết kiệm công sức và thời gian, nâng cao chất lượng đào tạo của trường.
Theo đó là việc áp dụng nhiều cách thức tuyển sinh và đào tạo mới, cũng như liên kết
đào tạo với các trường đại học và cao đẳng trong và ngồi nước địi hỏi cơng tác quản
lý phải thường xun có sự thay đổi, như quản lý đào tạo, quản lý tuyển sinh, quản lý
điểm Đặc biệt, công tác tuyển sinh đã và đang là một vấn đề cấp thiết đến việc tồn tại và
phát triển của các trường Đại học - Cao đẳng.
Với thực trạng trong những năm gần đây công tác tuyển sinh của một số trường
Đại học - Cao đẳng trong cả nước điều gặp nhiều khó khăn đặc biệt là các trường ở
tốp dưới, Trường Cao đẳng Cộng đồng Vĩnh Long là một trong số đó. Có rất nhiều
phương pháp đặt ra để giải quyết khó khăn trong cơng tác tư vấn tuyển sinh nhưng
hiệu quả chưa cao.
Hơn nữa với sự phát triển của xã hội như hiện nay, trong quá trình hoạt động,
con người tạo ra nhiều dữ liệu nghiệp vụ. Các tập dữ liệu được tích lũy có kích thước
ngày càng lớn và có thể chứa nhiều thơng tin ẩn dạng những quy luật chưa được khám
phá. Chính vì vậy, một nhu cầu đặt ra là tìm cách trích rút từ tập dữ liệu đó với các
luật về phân lớp dữ liệu hay dự đoán những xu hướng dữ liệu tương lai. Những quy
tắc nghiệp vụ thông minh được tạo ra sẽ phục vụ đắc lực cho các hoạt động thực tiễn,
cũng như phục vụ đắc lực cho q trình nghiên cứu khoa học. Cơng nghệ phân lớp và
dự đoán dữ liệu ra đời để đáp ứng mong muốn đó.

Việc hỗ trợ tư vấn chọn ngành phù hợp với năng lực và nhu cầu của học sinh là
rất cần thiết giúp cho các em định hướng được tương lai của mình. Nhận thấy được
những thực trạng như trên, tôi quyết định chọn đề tài: "Xây dựng hệ hỗ trợ tư vấn
tuyển sinh tại Trường Cao đẳng Cộng đồng Vĩnh Long", với mục đích áp dụng
cơng nghệ thơng tin, giảm tải chi phí và tiết kiệm thời gian trong công tác tuyển sinh
nhằm nâng cao hiệu quả trong đào tạo và phát triển của trường.
Đề tài nghiên cứu về công cụ khai phá dữ liệu, các luật kết hợp và thuật toán
cây quyết định trong việc khai phá dữ liệu để xây dựng hệ hỗ trợ tư vấn tuyển sinh.
Tôi hy vọng đề tài sẽ đáp ứng được nhu cầu thực tế cấp thiết của trường.
2. Mục tiêu và nội dung nghiên cứu
2.1. Mục tiêu của đề tài


2

Mục tiêu chung: xây dựng hệ hỗ trợ tư vấn tuyển sinh của các trường theo mơ
hình Cao đẳng Cộng đồng.
Mục tiêu cụ thể:
+ Tìm hiểu sơ lượt khái quát về công tác tuyển sinh Trường Cao đẳng Cộng
đồng Vĩnh Long.
+ Nghiên cứa ứng dụng luật kết hợp và thuât toán cây quyết định vào tập dữ
liệu mẫu để xây dựng chương trình hệ hỗ trợ tư vấn tuyển sinh tại Trường Cao đẳng
Cộng đồng Vĩnh Long.
2.2. Nội dung nghiên cứu
- Quy trình tuyển sinh
- Tổng quan về khai phá dữ liệu, tập dữ liệu mẫu, luật kết hợp và cây quyết
định
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu của đề tài gồm
+ Học sinh và Sinh viên: họ và tên, giới tính, ngày sinh, địa chỉ, điểm từng

mơn, điểm trung bình học kì, điểm trung bình năm, điểm tốt nghiệp trung học phổ
thơng, điểm tốt nghiệp Cao đẳng.
+ Quy trình tuyển sinh và quy chế xét tuyển: hồ sơ xét tuyển, đợt xét tuyển,
năng khiếu để xét tuyển…
+ Kỹ thuật khai phá dữ liệu cụ thể là luật kết hợp và cây quyết định.
3.2. Phạm vi nghiên cứu
+ Kỹ thuật phân lớp: cây quyết định và luật kết hợp.
+ Công cụ khai phá dữ liệu, SQL server và ngơn ngữ lập trình ASP.NET
+ Cơng tác tư vấn tuyển sinh Trường Cao đẳng Cộng đồng Vĩnh Long.
Đề tài thuộc loại hình nghiên cứu ứng dụng, phạm vi áp dụng của đề tài triển
khai tại trường Cao đẳng Cộng đồng Vĩnh Long tỉnh Vĩnh Long
4. Phuơng pháp nghiên cứu
4.1. Nghiên cứu lý thuyết
- Thu thập và nghiên cứu các tài liệu liên quan đến đề tài.
- Nghiên cứu thực trạng tuyển sinh tại trường Cao đẳng Cộng đồng Vĩnh Long,
tìm hiểu nhu cầu thực tế của người học và nhu cầu việc làm ngoài xã hội.
4.2. Nghiên cứu thực nghiệm


3

- Tiến hành xây dựng các giải pháp và xây dựng ứng dụng đánh giá.
- Phân tích thiết kế cơ sở dữ liệu tuyển sinh và kết quả học tập của Sinh viên từ
đó so sánh và dự đốn kết quả học tập của từng ngành, xây dựng hệ thống chương
trình ứng dụng, triển khai xây dựng chương trình ứng dụng, kiểm tra, thử nghiệm và
đánh giá kết quả.
5. Ý nghĩa khoa học và thực tiễn của đề tài
5.1. Ý nghĩa khoa học
- Tìm hiểu luật kết hợp và cây quyết định trong khai phá dữ liệu.
- Đề tài xây dưng ra một hệ thống tư vấn hỗ trợ tư vấn tuyển sinh của trường.

5.2. Ý nghĩa thực tiễn
- Thu thập và thiết kế được kho cơ sở dữ liệu phục vụ q trình tư vấn tuyển
sinh.
- Góp phần nâng cao hiệu quả trong tuyển sinh cũng như sự phát triển trong
việc dạy và học của trường.
6. Bố cục luận văn
Chương 1: Tổng quan về khai phá dữ liệu và phát hiện tri thức.
Chương này đề cập đến các giai đoạn của quy trình phát hiện tri thức, các vấn
đề chính của khai phá dữ liệu, các phương pháp, các nhiệm vụ trong khai phá dữ liệu
Chương 2: Cơ sở lý thuyết về luật kết hợp và cây quyết định.
Chương này trình bày một số vấn đề chính của khai phá luật kết hợp: lý thuyết
luật kết hợp, bài toán khai phá và phát hiện luật kết hợp, các phương pháp phát hiện
luật kết hợp, một số thuật toán điển hình giải quyết vấn đề, phân tích độ phức tạp của
bài toán.
Chương 3: Xây dựng hệ hỗ trợ tư vấn tuyển sinh.
Nội dung của chương là áp dụng kỹ thuật khai phá luật kết hợp và cây quyết
định vào trong đào tạo của trường Cao đẳng Cộng đồng Vĩnh Long. Ứng dụng này
nhằm đưa ra dự báo hỗ trợ cho công tác tuyển sinh và đào tạo của trường.
Chương 4: Triển khai hệ thống và đánh giá kết quả.
Nội dung chương 4 tập trung phân tích yêu cầu của hệ thống, xác định các
chức năng chính, xây dựng sơ đồ các hoạt động chính của ứng dụng, tiến hành cài
đặt ứng dụng, thực nghiệm và đánh giá kết quả.


4

Phần phụ lục đưa ra một số modul của chương trình ứng dụng. Cuối cùng là kết
luận lại những kết quả đạt được của đề tài và hướng phát triển trong tương lai.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.
TÀI LIỆU THAM KHẢO.

QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN
PHỤ LỤC


5

CHƯƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
VÀ PHÁT HIỆN TRI THỨC
1.1. Khai phá dữ liệu
KPDL thu hút sự chú ý của nền công nghiệp thông tin và xã hội trong những năm
gần đây. Với sự phát triển của công nghệ thông tin, dữ liệu lưu trữ mỗi ngày trở thành
một cơ sở dữ liệu rất lớn. Dựa vào khối lượng dữ liệu này, ta dùng những kỹ thuật
KPDL để chuyển dữ liệu đó thành những thơng tin có ích hoặc rút ra những tri thức
mới từ dữ liệu thu thập được[9]. Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ
liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, ... Khai phá dữ
liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ
như phương pháp thống kê).
1.2. Một số định nghĩa mang tính mơ tả về khai phá dữ liệu
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp được
dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các
mẫu chưa biết bên trong dữ liệu”.
Định nghĩa của Parsaye: “Khai phá dữ liệu là q trình trợ giúp quyết định, trong
đó chúng ta tìm kiếm các mẫu thơng tin chưa biết và bất ngờ trong CSDL lớn”.
Định nghĩa của Fayyad: “Khai phá tri thức là một q trình khơng tầm thường
nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”.
1.3. Các bước trong quá trình phát hiện tri thức [2]
Phát hiện tri thức bao gồm nhiều giai đoạn được lặp đi lặp lại nhiều lần mà không
cần phân biệt từng bước trong quá trình thực hiện.
Giai đoạn 1: Hình thành, xác định và định nghĩa bài tốn. Là việc tìm hiểu lĩnh

vực ứng dụng từ đó hình thành bài tốn, xác định các nhiệm vụ cần phải hoàn thành.
Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn
các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng cùng với bản chất
của dữ liệu.
Giai đoạn 2: Thu thập và tiền xử lý (xử lý thơ). Bước này cịn được gọi là tiền xử
lý dữ liệu nhằm loại bỏ nhiễu (dữ liệu dư thừa), làm sạch dữ liệu, xử lý và khắc phục
vấn đề thiếu hoặc thừa dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết. Bước
này thường chiếm nhiều thời gian nhất (bước quan trọng) trong tồn bộ quy trình phát
hiện tri thức.
Giai đoạn 3: Biến đổi dữ liệu, chọn lựa một số phương pháp. Phân loại
(Classification), hồi quy (Regression), phân nhóm (Clustering), quy nạp, tổng hợp kết
quả (Summarization).


6

Hình 1.1. Các bước trong quá trình phát hiện tri thức.
Giai đoạn 4: Khai phá dữ liệu, hay nói cách khác là trích chọn, chiết xuất ra các
mẫu hay các mơ hình tiềm ẩn dưới các dữ liệu có ý nghĩa, hiểu được. Giai đoạn này rất
quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích khai phá
dữ liệu, dùng phương pháp khai phá nào là thích hợp?.
Giai đoạn 5: Giải thích kết quả và đánh giá các mẫu hay mơ hình. Các mẫu và mơ
hình này là kết quả của giai đoạn 3 trong quy trình. Đây là cơng đoạn khơng thể thiếu
trong q trình khai phá tri thức.
Giai đoạn 6: Hiểu và sử dụng tri thức đã tìm được, đặc biệt là làm sáng tỏ các mơ
tả và dự đốn. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể
được lấy trên tất cả các lần thực hiện.
Tóm lại: Q trình phát hiện tri thức từ trong kho dữ liệu (KDD – Knowledge
Discovery Database) là quá trình chiết xuất ra tri thức từ kho dữ liệu mà trong đó khai
phá dữ liệu là cơng đoạn quan trọng nhất.

1.4. Mơ hình khai phá dữ liệu
Mơ hình khai phá dữ liệu là một mô tả về một khía cạnh cụ thể của một tập dữ
liệu. Nó tạo ra các giá trị đầu ra cho tập các giá trị đầu vào.
Ví dụ: Mơ hình hồi qui tuyến tính, mơ hình phân lớp, mơ hình phân nhóm.
Một mơ hình khai phá dữ liệu có thể được mơ tả 2 mức:


7

- Mức chức năng (Function level): Mơ tả mơ hình bằng những thuật ngữ về dự
định sử dụng. Ví dụ: phân lớp, phân nhóm.
- Mức biểu diễn (representation level): Biểu diễn cụ thể một mơ hình.
Ví dụ: Mơ hình log-linear, cây phân lớp, phương pháp láng giềng gần nhất. Các
mô hình khai phá dữ liệu dựa trên 2 kiểu học: Có giám sát và khơng giám sát (đơi khi
được nói đến như là học trực tiếp và không trực tiếp – directed and undirected
learning).
Các hàm học có giám sát (Supervised learning functions) được sử dụng để dự
đoán giá trị. Các hàm học khơng giám sát được dùng để tìm ra cấu trúc bên trong, các
quan hệ hoặc tính giống nhau trong nội dung dữ liệu nhưng khơng có lớp hay nhãn
nào được gán ưu tiên. Ví dụ của các thuật tốn học khơng giám sát gồm phân nhóm kmean (k-mean clustering) và các luật kết hợp Apriori. Một ví dụ của thuật tốn học có
giám sát bao gồm Nạve Bayes cho phân lớp (classification).
Tương ứng có 2 loại mơ hình khai phá dữ liệu:
- Các mơ hình dự báo (học có giám sát):
+ Phân lớp: Nhóm các mục thành các lớp riêng biệt và dự đoán một mục sẽ
thuộc vào lớp nào.
+ Hồi qui (Regression): Xấp xỉ hàm và dự báo các giá trị liên tục.
+ Độ quan trọng của thuộc tính: Xác định các thuộc tính là quan trọng nhất
trong các kết quả dự báo.
- Các mơ hình mơ tả (học khơng giám sát):
+ Phấn nhóm (Clusterning): Tìm các nhóm tự nhiên trong dữ liệu.

+ Các mơ hình luật kết hợp (Association models): Phân tích “giỏ hàng”.
+ Trích chọn đặc trưng (Feature extraction): Tạo các thuộc tính (đặc trưng)
mới như là kết hợp của các thuộc tính ban đầu.
1.5. Các phương pháp khai phá dữ liệu
Quá trình khai phá dữ liệu là q trình phát hiện mẫu, trong đó, giải thuật khai phá
dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân
lớp, hồi quy, gom nhóm,...
1.5.1. Các thành phần của giải thuật khai phá dữ liệu
Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn mơ
hình, đánh giá mơ hình, tìm kiếm mơ hình.
• Biểu diễn mơ hình: Mơ hình được biểu diễn bằng một ngơn ngữ L để mơ tả
các mẫu có thể khai thác được. Tức là người phân tích dữ liệu cần phải hiểu đầy đủ
các giả thiết mô tả và cần phải diễn tả được các giả thiết mô tả nào được tạo ra bởi giải
thuật. Mơ hình đó sẽ được đánh giá bằng cách đưa các dữ liệu thử vào mơ hình và
thay đổi lại các tham số cho phù hợp nếu cần.


8

• Đánh giá mơ hình: Đánh giá xem một mẫu có đáp ứng được các tiêu chuẩn
của q trình phát hiện tri thức hay khơng. Việc đánh giá độ chính xác dự đoán dựa
trên đánh giá chéo (Cross Validation). Đánh giá chất lượng mơ tả liên quan đến độ
chính xác dự đoán, độ mới, khả năng sử dụng, khả năng hiểu được của mơ hình. Cả
hai chuẩn thống kê và chuẩn logic đều có thể được sử dụng để đánh giá mơ hình.
• Phương pháp tìm kiếm: Phương pháp tìm kiếm bao gồm hai thành phần: tìm
kiếm tham số và tìm kiếm mơ hình.
- Tìm kiếm tham số: Để tối ưu hóa các tiêu chuẩn đánh giá mơ hình với các
dữ liệu quan sát được và với một mô tả mơ hình đã định.
- Tìm kiếm mơ hình: Xảy ra giống như một vịng lặp qua phương pháp tìm
kiếm tham số: Mơ tả mơ hình bị thay đổi tạo nên một họ các mơ hình.

= > Với mỗi một mơ tả mơ hình, phương pháp tìm kiếm tham số được áp
dụng để đánh giá chất lượng mơ hình. Các phương pháp tìm kiếm mơ hình thường sử
dụng các kỹ thuật tìm kiếm heuristic vì kích thước của khơng gian các mơ hình có thể
thường ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản không dễ đạt
được.
1.5.2. Một số phương pháp khai thác dữ liệu phổ biến
1.5.2.1. Phương pháp quy nạp (Induction).
Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn
cũng có thể được suy diễn từ kho thơng tin đó. Có hai kỹ thuật chính để thực hiện việc
này là suy diễn và quy nạp.
• Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông
tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra
các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương
pháp này thường là các luật suy diễn.
• Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh
ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không
phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại
là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu.
Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL. Trong khai phá
dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật.
1.5.2.2. Cây quyết định và luật
• Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm
phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn
là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mơ
tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua
các cạnh tương ứng với các giá trị, thuộc tính của đối tượng tới lá.


9


• Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa
về mặt thống kê. Các luật có dạng Nếu P thì Q, với P là mệnh đề đúng với một phần
trong CSDL, Q là mệnh đề dự đoán.
Cây quyết định và luật có ưu điểm là hình thức mơ tả đơn giản, mơ hình suy
diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là mơ tả cây và
luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ
chính xác của mơ hình.
1.5.2.3. Phát hiện các luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ
liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp
tìm được. Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa
hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất
hiện của B trong cùng bản ghi đó: A = > B.
Việc phát triển một thuật toán phải phát hiện luật này trong cơ sở dữ liệu lớn
là khơng khó. Tuy nhiên, vấn đề là ở chỗ có thể có rất nhiều luật kiểu này hoặc là ta
chỉ biết một tập nhỏ dữ liệu trong cơ sở dữ liệu lớn thoả mãn tiền đề của luật. Ví dụ
chỉ có số ít người mua sách tiếng anh mà mua thêm đĩa CD. Số lượng các luật kết hợp
trong một số cơ sở dữ liệu lớn gần như vơ hạn. Do vậy thuật tốn sẽ khơng thể phát
hiện hết các luật và không phân biệt được luật nào là thơng tin thực sự có giá trị và thú
vị.
Vậy chúng ta đặt ra câu hỏi là luật kết hợp nào là thực sự có giá trị? Chẳng
hạn ta có luật: Âm nhạc, ngoại ngữ, thể thao = > CD, nghĩa là những người mua sách
âm nhạc, ngoại ngữ, thể thao thì cũng mua đĩa CD. Lúc đó ta quan tâm đến số lượng
trường hơp khách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ cho luật
này. Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc, ngoại ngữ,
thể thao và đĩa CD hay tất cả những người thích cả ba loại sách trên.
Tuy nhiên giá trị hỗ trợ là khơng đủ. Có thể có trường hợp ta có một nhóm
tương đối những người đọc cả ba loại sách trên nhưng lại có một nhóm với lượng lớn
hơn những người thích sách thể thao, âm nhạc, ngoại ngữ mà khơng thích mua đĩa
CD. Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối cao. Như

vậy chúng ta cần thêm một độ đo thứ hai đó là độ tin cây (confidence). Độ tin cậy là
phần trăm các bản ghi có đĩa CD trong số các bản ghi có sách âm nhạc, thể thao,…
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật dạng X
=> B sao cho tần số của luật không nhỏ hơn ngưỡng Minsup cho trước và độ tin cậy
của luật không nhỏ hơn ngưỡng Minconfi cho trước. Từ một cơ sở dữ liệu ta có thể
tìm được hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp.


10

1.6. Các giai đoạn của quá trình khai phá dữ liệu [1]:
1.6.1. Tìm hiểu nghiệp vụ và dữ liệu
Giai đoạn này ta cần xác định vấn đề cần giải quyết, tìm hiểu kiến thức về bài
tốn đang thực hiện bao gồm các tri thức của các chuyên gia trong lĩnh vực cần
nghiên cứu từ đó xác định chính xác nguồn dữ liệu để thu thập đồng thời phải hiểu
được cấu trúc dữ liệu, ý nghĩa và tầm quan trọng của nó để từ đó ta đưa ra bài tốn cụ
thể để giải quyết vấn đề.
1.6.2. Chuẩn bị dữ liệu
Giai đoạn này ta dùng các kỹ thuật tiền xử lý dữ liệu để xử lý dữ liệu đã thu
thập được sao cho các giải thuật KPDL có thể hiểu được. Tiền xử lý dữ liệu bao gồm:
+ Xử lý dữ liệu bị thiếu hoặc mất: Các giá trị bị thiếu hoặc mất sẽ được
thay thế bằng các giá trị thích hợp hơn hoặc xóa những dữ liệu sai miền giá trị và giải
quyết sự không nhất quán.
+ Khử sự trùng lắp dữ liệu: Loại bỏ những dữ liệu bị trùng.
+ Giảm nhiễu dữ liệu: Các dữ liệu bị nhiễu sẽ được điều chỉnh hoặc loại ra
khỏi cơ sở dữ liệu.
+ Rời rạc hóa dữ liệu: Các dữ liệu số sẽ được rời rạc hóa ra dạng phù hợp
cho khai phá dữ liệu.
+ Giảm chiều: Loại bớt các thuộc tính chứa ít thông tin để tiết kiệm thời
gian và tài nguyên của máy tính.

1.6.3. Mơ hình hóa dữ liệu
Dùng các giải thuật của KPDL để tìm ra các qui luật của dữ liệu, quan trọng
nhất trong giai đoạn này là tìm được giải thuật phù hợp để giải quyết vấn đề đã đặt ra.
1.6.4. Hậu xử lý và đánh giá mơ hình
Đây là giai đoạn biến đổi từ những luật rút ra được (của giai đoạn trước) từ
tập huấn luyện sang dạng phù hợp với nghiệp vụ của bài toán đang nghiên cứu. Đồng
thời cũng sẽ là giai đoạn đánh giá của các chuyên gia tư vấn dựa trên tập dữ liệu thử.
Dựa vào nhận xét và hỗ trợ của các chuyên gia khi đó sẽ điều chỉnh kịp thời các mơ
hình của các giai đoạn trước. Các mơ hình đạt u cầu với các chuyên gia sẽ được sử
dụng.
1.6.5. Triển khai mơ hình
Các mơ hình đạt u cầu sẽ được xây dựng thành chương trình ứng dụng thực
tế nhằm hỗ trợ đưa ra quyết định theo yêu cầu của người dùng.


11

1.7. Ứng dụng trong khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như: Hệ
CSDL, thống kê, trực quan hoá.v.v. Hơn nữa, tuỳ vào cách tiếp cận được sử dụng,
khai phá dữ liệu cịn có thể áp dụng một số kỹ thuật như mạng nơron, lý thuyết tập
thô, tập mờ, biểu diễn tri thức, v.v. So với các phương pháp này, khai phá dữ liệu có
một số ưu thế rõ rệt.
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá
dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu khơng đầy đủ hoặc
biến đổi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các
CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn.
Phương pháp hệ chuyên gia: Phương pháp này khác với khai phá dữ liệu ở
chỗ các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trong
CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn nữa các

chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.
Phương pháp thống kê là một trong những nên tảng lý thuyết của khai phá dữ
liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp
thống kê cịn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được.
Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu
trúc trong rất nhiều CSDL.
Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó khơng sử
dụng tri thức có sẵn về lĩnh vực.
Kết quả phân tích của hệ thống sẽ rất nhiều và khó có thể làm rõ ra được.
Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân
tích dữ liệu như thế nào và ở đâu.
Với nhưng ưu điểm đó, khai phá dữ liệu hiện đang được áp dụng một cách
rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau như: Marketing, tài
chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet.v.v.rất nhiều tổ chức
và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động
sản xuất kinh doanh của mình và thu được những lợi ích to lớn.
Một số ứng dụng của khai phá dữ liệu trong lĩnh vực kinh doanh:
- Brandaid: Mơ hình Marketing linh hoạt tập chung vào hàng tiêu dùng.
- Callpla: Giúp nhân viên bán hàng xác định số lần viếng thăm của khách
hàng triển vọng và khách hàng hiện có.
- Detailer: Xác định khách hàng nào nên viếng thăm và sản phẩm nào nên giới
thiệu trong từng chuyến viếng thăm.
- Geoline: Mơ hình thiết kế địa bàn tiêu thụ và dịch vụ.


12

- Mediac: Giúp người quảng cáo mua phương tiện trong một năm, lập kế
hoạch sử dụng phương tiện bao gồm phác hoạ khúc thị trường, ước tính tiềm năng.
1.8. Kết chương 1

Chương 1 trình bày các nội dung chính như sau:
Một số khái niệm, các bước, mơ hình, các phương pháp, các giai đoạn và ứng
dụng trong khai phá dữ liệu.
Chương tiếp theo sẽ trình bày tổng quan về luật kết hợp và cây quyết định
và thuật toán xây dựng cây quyết định.


13

CHƯƠNG 2
CƠ SỞ LÝ THUYẾT VỀ LUẬT KẾT HỢP
VÀ CÂY QUYẾT ĐỊNH
2.1. Lý thuyết về luật và luật kết hợp
2.1.1. Luật kết hợp
Cho một tập I = {I1, I2,...,Im} là tập gồm m khoản mục (item), còn được gọi là
các thuộc tính (attribute). Các phần tử trong I là phân biệt nhau. X I được gọi là tập
mục. Nếu lực lượng của X bằng k (tức là |X| = k) thì X được gọi là k-itemset.
Một giao dịch (transaction) T được định nghĩa như một tập con (subset) của
các khoản mục trong I (T I). Tương tự như khái niệm tập hợp, các giao dịch khơng
được trùng lặp, nhưng có thể nới rộng tính chất này của tập hợp và trong các thuật
toán sau này, người ta giả thiết rằng các khoản mục trong một giao dịch và trong tất
cả các tập mục (itemset) khác, có thể coi chúng đã được sắp xếp theo thứ tự từ điển
của các item.
Gọi D là CSDL của n giao dịch và mỗi giao dịch được đánh nhãn với một
định danh duy nhất (Unique Transasction IDentifier-TID). Nói rằng, một giao dịch T
D hỗ trợ (support) cho một tập X I nếu nó chứa tất cả các item của X, nghĩa là X
T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉ tập các giao dịch hỗ
trợ cho X. Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần trăm của các giao dịch
hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:
|{𝑇 ∈ 𝐷|𝑋 ⊆ 𝑇}|

sup(𝑋 ) =
(𝟐. 𝟏)
|𝐷 |
Ví dụ về cơ sở dữ liệu D (dạng giao dịch): I = {A, B, C, D, E}, T = {1, 2, 3,
4, 5, 6}. Thông tin về các giao dịch cho ở bảng sau:
Bảng 2.1. Ví dụ về một cơ sở dữ liệu dạng giao dịch – D
Định danh giao dịch (TID)

Tập mục (itemset)

1

ABDE

2

BCE

3

ABDE

4

ABCE

5

ABCDE


6

BCD


×