ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ THANH HƢƠNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP
TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ THANH HƢƠNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC TẬP
TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM
Hà Nội - 2015
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS.Nguyễn Hà Nam, Trƣờng Đại học
Công nghệ - Đại học Quốc gia Hà Nội, ngƣời thầy đã dành nhiều thời gian tận tình
chỉ bảo, hƣớng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu.Thầy là
ngƣời đinh
̣ hƣớng và đƣa ra nhiều góp ý quý báu trong quá trình tôi thƣ̣c hiện luâ ̣n
văn.
Tôi xin chân thành cảm ơn các thầy, cô ở khoa Công nghệ thông tin – Trƣờng Đại
học Công nghệ - ĐHQGHN đã cung cấp cho tôi những kiến thức và tạo cho tôi những
điều kiện thuận lợi trong suốt quá trình tôi học tập tại trƣờng.
Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã
cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu. Tôi xin cảm ơn gia đình,
ngƣời thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và tạo mọi
điều kiện tốt nhất cho tôi.
Tôi xin chân thành cảm ơn!
Hà Nội, tháng 1 năm 2016
Họ và tên
Nguyễn Thị Thanh Hƣơng
1
LỜI CAM ĐOAN
Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dƣới sự hƣớng
dẫn của PGS.TS. Nguyễn Hà Nam.
Các kết quả nêu trong luận văn là trung thực và chƣa đƣợc ai công bố trong bất cứ
công trình nào khác.
Hà Nội, tháng 1 năm 2016
Họ và tên
Nguyễn Thị Thanh Hƣơng
2
MỤC LỤC
LỜI CẢM ƠN ...................................................................................................................... 1
LỜI CAM ĐOAN ................................................................................................................ 2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................................... 5
DANH MỤC CÁC BẢNG .................................................................................................. 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................................. 6
Chƣơng 1. Giới thiệu tổng quan ........................................................................................ 9
1.1.Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng ĐHCNHN ......... 9
1.2. Một số hƣớng nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục hiện nay... 10
1.3. Hƣớng tiếp cận của luận văn ................................................................................... 11
1.4. Kết luận chƣơng 1 ................................................................................................... 11
Chƣơng 2. Các kiến thức cơ sở liên quan ....................................................................... 12
2.1. Khai phá dữ liệu ...................................................................................................... 12
2.1.1. Khái niệm KPDL .............................................................................................. 12
2.1.2. Những nhóm bài toán của KPDL ..................................................................... 13
2.1.3. Các bƣớc xây dựng một giải pháp về KPDL .................................................... 14
2.1.4. Ứng dụng KPDL trong giáo dục ....................................................................... 15
2.2. Một số kỹ thuật KPDL trong phân lớp, dự báo....................................................... 16
2.2.1 Cây quyết định ................................................................................................... 16
2.2.2 Phân lớp Naïve Bayes ........................................................................................ 18
2.2.3 Mạng nơ ron nhân tạo ........................................................................................ 19
2.2.4 Luật kết hợp ....................................................................................................... 21
2.3. KPDL với hệ quản trị CSDL SQL Server ............................................................... 23
2.3.1. Giới thiệu chung ............................................................................................... 23
2.3.2. Ngôn ngữ truy vấn KPDL DMX (Data Mining Extensions)............................ 25
2.3.3. Bộ công cụ SQL Server Business Intelligence Development Studio ............... 29
2.3.4. Lập trình KPDL với Analysis Services APIs ................................................... 29
2.3.5 Đánh giá hiệu quả của các mô hình KPDL ....................................................... 30
2.4. Kết luận chƣơng 2 ................................................................................................... 30
Chƣơng 3. Phƣơng pháp giải quyết bài toán ................................................................... 31
3.1.
Tìm hiểu và thu thập dữ liệu điểm ....................................................................... 31
3
3.2. Xây dựng mô hình ................................................................................................... 37
3.3. Lập trình KPDL với Analysis Services APIs.......................................................... 42
3.4.
Đánh giá mô hình ................................................................................................. 44
3.4.1 Đánh giá các mô hình dự báo với Lift Chart ..................................................... 44
3.4.2 Đánh giá các mô hình dự báo với Classification Matrix ................................... 48
3.5. Kết luận chƣơng 3 .................................................................................................. 50
Chƣơng 4. Xây dựng hệ thống tƣ vấn học tập tại trƣờng ĐHCNHN ............................. 51
KẾT LUẬN ....................................................................................................................... 59
HƢỚNG PHÁT TRIỂN .................................................................................................... 59
TÀI LIỆU THAM KHẢO ................................................................................................. 60
4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt
Ý nghĩa
BIDS
Bussiness Intelligence Development Studio
CSDL
Cơ sở dữ liệu
DMX
Data Mining Extensions
DMM
Data Mining Model
KPDL
Khai phá dữ liệu
SOM
Self-Organizing Map
MS
ĐHCNHN
Microsoft
Đại học Công Nghiệp Hà Nội
5
DANH MỤC CÁC BẢNG
Bảng 2.4: Lựa chọn các thuật toán khai phá dữ liệu theo mục đích.................................. 23
Bảng 3.1: Bảng dữ liệu xây dựng hệ thống tƣ vấn học tập ............................................... 34
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Các bƣớc xây dựng một hệ thống KPDL .......................................................... 12
Hình 2. 1: Biểu diễn cây quyết định cơ bản ...................................................................... 17
Hình 2. 2: Cây quyết định cho việc chơi Tennis ............................................................... 17
Hình 2. 3: Mô hình mạng nơron nhiều lớp ........................................................................ 19
Hình 2. 4: Tiến trình học ................................................................................................... 20
Hình 2. 5: Hình ảnh tổng quan về KPDL với SQL 2008 .................................................. 23
Hình 3. 1: Mô hình CSDL quan hệ đƣợc thu thập để xây dựng hệ thống ......................... 32
Hình 3. 2: Một phần bảng các lộ trình học theo ngành ..................................................... 34
Hình 3. 3: Một phần dữ liệu xây dựng hệ thống ............................................................... 36
Hình 3. 4: Tạo 04 Mining Models cho một Mining Structure .......................................... 37
Hình 3. 5: Kết quả tạo viewer cho mô hình Cây quyết định ............................................. 38
Hình 3. 6: Kết quả tạo viewer cho mô hình Luật kết hợp ................................................. 38
Hình 3. 7: Kết quả tạo viewer cho mô hình Naïve Bayes ................................................. 39
Hình 3. 8: Kết quả tạo viewer cho mô hình mạng nơ ron nhân tạo .................................. 39
Hình 3. 9: Biểu đồ Lift Chart cho 04 mô hình .................................................................. 40
Hình 3. 10: Kết quả của ma trận Classification Matrix của 04 mô hình ........................... 40
Hình 3. 11: Thiết kế một truy vấn DMX với mô hình đƣợc chọn..................................... 41
Hình 3. 12: Kết quả truy vấn với mô hình đƣợc chọn ....................................................... 42
Hình 3. 13: Sự phụ thuộc của thuộc tính dự đoán vào các thuộc tính khác ...................... 44
Hình 3. 14: Lựa chọn Lift Chart với Predict Value=”K” .................................................. 45
Hình 3. 15: Kết quả Lift Chart không xác định giá trị thuộc tính dự đoán ....................... 47
Hình 3. 16: Classification Matrix của 04 mô hình ............................................................ 49
Hình 3. 17: Biểu đồ so sánh mức độ chính xác các mô hình ............................................ 50
Hình 4. 1: Sơ đồ hoạt động của hệ thống .......................................................................... 52
Hình 4. 2: Kết quả tƣ vấn học tập với mô hình Naïve Bayes ............................................ 53
Hình 4. 3: Kết quả tƣ vấn học tập với mô hình Cây quyết định ........................................ 54
Hình 4. 4: Kết quả tƣ vấn học tập với mô hình Luật kết hợp ............................................ 54
Hình 4. 5: Kết quả tƣ vấn học tập với mô hình Neural Network ...................................... 55
Hình 4. 6: Kết quả tƣ vấn học tập với sinh viên nam ........................................................ 56
Hình 4. 7: Kết quả tƣ vấn học tập với sinh viên nữ ........................................................... 57
Hình 4. 8: Xem chi tiết một lộ trình học............................................................................ 57
6
7
LỜI MỞ ĐẦU
Trƣờng ĐHCNHN là một trƣờng nằm trong hệ thống các trƣờng chuyên nghiệp
trực thuộc Bộ công thƣơng. Một vấn đề cấp thiết đặt ra trong công tác quản lý và đào tạo
của nhà trƣờng là xây dựng các mục tiêu, chiến lƣợc nhằm mở rộng quy mô đào tạo, thu
hút đƣợc nhiều sinh viên, bên cạnh đó là việc nâng cao chất lƣợng giảng dạy, đảm bảo
đào tạo những sinh viên ra trƣờng đáp ứng đƣợc yêu cầu công việc. Công nghệ thông tin
đã đƣợc ứng dụng trong công tác quản lý của nhà trƣờng, song việc khai thác vẫn còn
nhiều hạn chế.
Xuất phát từ yêu cầu đặt ra đối với đơn vị mình, tôi đã thực hiện đề tài luận văn
“ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ THỐNG TƢ VẤN HỌC
TẬP TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI”. Luận văn đi sâu vào việc
khai phá dữ liệu từ thông tin cá nhân, điểm tuyển sinh đầu vào kết hợp với lộ trình học để
dự đoán kết quả học tập của sinh viên, hỗ trợ tƣ vấn cho sinh viên lựa chọn lộ trình học
phù hợp để đạt đƣợc kết quả học tập cao nhất.
Luận văn gồm có phần mở đầu, kết luận và 04 chƣơng, cụ thể nhƣ sau:
Chƣơng 1: Giới thiệu tổng quan
Giới thiệu bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng
ĐHCNHN, trình bày một số hƣớng nghiên cứu về KPDL trong giáo dục và hƣớng tiếp
cận của luận văn.
Chƣơng 2: Các kiến thức cơ sở liên quan
Nghiên cứu các cơ sở lý thuyết KPDL, các vấn đề liên quan đến KPDL trong lĩnh
vực giáo dục. Tìm hiểu các kỹ thuật khai phá dữ liệu sử dụng trong bài toán phân lớp, dự
báo (cây quyết định, phân lớp Naïve Bayes, mạng nơ ron nhân tạo, luật kết hợp) và kỹ
thuật KPDL trên hệ quản trị CSDL MS SQL Server.
Chƣơng 3. Phƣơng pháp giải quyết bài toán
Mô tả ứng dụng, xây dựng bài toán liệt kê lộ trình học cho từng ngành học để tƣ
vấn cho sinh viên chọn lộ trình phù hợp với ngành mình đang theo học. Thu thập và xử lý
các dữ liệu liên quan để phát triển hệ thống. Xây dựng 4 mô hình: Cây quyết định, Naïve
Bayes, Neural Networks, Luật kết hợp và đƣa ra đánh giá các mô hình tƣơng ứng.
Chƣơng 4: Xây dựng hệ thống tƣ vấn học tập tại trƣờng ĐHCNHN
Dựa trên những đánh giá về mô hình, lựa chọn mô hình cho kết quả tốt nhất. Xây
dựng chƣơng trình thực nghiệm để tƣ vấn cho sinh viên.
8
Chƣơng 1.Giới thiệu tổng quan
1.1. Bài toán ứng dụng KPDL để xây dựng hệ thống tƣ vấn tại trƣờng ĐHCNHN
Trƣờng Đại học Công nghiệp Hà Nội cung cấp dịch vụ giáo dục - đào tạo nhiều
ngành, nhiều trình độ, chất lƣợng cao, đáp ứng nguồn nhân lực cho công nghiệp hóa, hiện
đại hóa đất nƣớc và xuất khẩu lao động, tạo cơ hội học tập thuận lợi cho mọi đối tƣợng.
Về ngành, nghề đào tạo: Trong những năm qua nhà trƣờng đã xây dựng đƣợc chƣơng
trình và triển khai đào tạo 21 chuyên ngành đại học chính quy, 18 chuyên ngành đào tạo
cao đẳng chính quy, 14 chuyên ngành Trung cấp chuyên nghiệp và nhiều chƣơng trình
đào tạo trình độ khác nhau.
Về qui mô đào tạo: Trên 50.000 học sinh, sinh viên.
Các lĩnh vực đào tạo: Công nghệ, kỹ thuật, Kinh tế, May, Thời trang, Sƣ phạm, Du lịch
Các loại hình đào tạo: Chính qui, Vừa làm vừa học, Liên thông, Liên kết nƣớc ngoài,
Nâng bậc thợ, Đào tạo lao động xuất khẩu, Bồi dƣỡng ngắn hạn và dài hạn theo nhu cầu
xã hội quan tâm.
Một thực tế đặt ra đối với trƣờng ĐHCNHN là làm sao thu hút đƣợc nhiều sinh
viên dựa trên “thƣơng hiệu” của nhà trƣờng, để đáp ứng chỉ tiêu đào tạo. Tuy nhiên, yêu
cầu đặt ra về số lƣợng cũng phải kèm theo yêu cầu về chất lƣợng đào tạo. Vấn đề nâng
cao chất lƣợng đào tạo là một vấn đề luôn đƣợc nhà trƣờng quan tâm.
Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục và Đào tạo đã yêu cầu
chuyển đổi từ việc thực hiện chƣơng trình đào tạo theo hệ thống niên chế thành đào tạo
theo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và đòi hỏi phải hoàn tất
việc chuyển đổi này trƣớc năm 2012.
Trƣờng Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt
đầu từ năm học 2008 – 2009. Đào tạo tín chỉ có ƣu điểm giúp sinh viên có thể tự quản lý
quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ.
Vì vậy, việc tƣ vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình học phù hợp nhằm
đạt đƣợc kết quả học tập cao nhất cho mỗi sinh viên đƣợc đặc biệt quan tâm. Đó cũng là
khó khăn chung không chỉ của sinh viên, mà còn của các cố vấn học tập, giáo viên chủ
nhiệm và các tổ chức quản lý trong trƣờng. Các giảng viên chuyên trách, cố vấn học tập
không thể tiếp cận toàn bộ dữ liệu về điểm của sinh viên.
Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng
quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào
trƣờng, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín chỉ còn rất mới
mẻ. Xuất phát từ thực tế đó, việc tƣ vấn lựa chọn lộ trình học cho sinh viên theo ngành
học đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa.
9
Bài toán tƣ vấn lựa chọn lộ trình học cho sinh viên gồm hai bƣớc:
Bƣớc 1: Liệt kê toàn bộ lộ trình học có thể của một sinh viên theo ngành học mà
sinh viên đó đã chọn.
Bƣớc 2: Dự đoán kết quả học tập cuối khóa của sinh viên theo tất cả các lộ trình ở
trên. Chọn ra lộ trình với kết quả dự đoán cho ra kết quả học tập tốt nhất để tƣ vấn cho
sinh viên. Nếu có nhiều lộ trình có cùng kết quả thì sinh viên có thể tự chọn một trong số
các lộ trình học đó sao cho phù hợp nhất với năng lực, sở thích và các điều kiện khác của
bản thân.
Trên cơ sở những lộ trình học đã liệt kê cho một sinh viên, công đoạn quan trọng nhất
chính là dự đoán kết quả học tập toàn khóa của sinh viên tƣơng ứng với các lộ trình học ở
trên và tƣ vấn cho sinh viên lộ trình học phù hợp nhất.
Việc dự đoán đƣợc sử dụng kỹ thuật khai phá dữ liệu trên SQL Server với việc áp
dụng các mô hình khác nhau nhƣ: cây quyết định, luật kết hợp, mạng Naïve Bayes và
mạng nơ ron nhân tạo. Qua đánh giá độ chính xác của các mô hình sẽ lựa chọn mô hình
cho kết quả tốt nhất, áp dụng vào hệ thống để tƣ vấn lựa chọn lộ trình học cho sinh viên.
1.2. Một số hƣớng nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục hiện nay
Hiện đã có rất nhiều nghiên cứu về ứng dụng KPDL cho giáo dục. Những khai phá
dữ liệu trong giáo dục đã nổi bật lên nhƣ là một lĩnh vực nghiên cứu độc lập trong những
năm gần đây, mà cao điểm là năm 2008 với sự thành lập hội nghị quốc tế về khai phá dữ
liệu giáo dục, và những bài báo về khai phá dữ liệu giáo dục. Đó là “Applying Data
Mining Techniques to e-Learning Problems” của Félix Castrol, Alfredo Vellido1, Àngela
Nebotl, và Francisco Mugica3, “Recommendation in Higher Education Using Data
Mining Techniques” của César Vialardi, Javier Bravo, Leila Shafti, Álvaro Ortigosa,
“Using Association Rules for Course Recommendation” của Narimel Bendakir và Esma
A¨ımeur.
Các nhà nghiên cứu về việc KPDL trong giáo dục tập trung vào nhiều vấn đề bao
gồm việc học của cá nhân từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máy
tính, kiểm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tố đƣợc kết hợp với
các sinh viên không có khả năng hoặc thiếu định hƣớng trong quá trình học tập. Mỗi lĩnh
vực chính của việc ứng dụng khai phá dữ liệu vào giáo dục là phát triển các mô hình
hƣớng đối tƣợng sinh viên. Các mô hình sinh viên thể hiện thông tin về một nét đặc trƣng
hay tình trạng của sinh viên, nhƣ kiến thức hiện tại của sinh viên, động cơ thúc đẩy học
tập, quan điểm nguyện vọng của sinh viên… Một số bài toán ứng dụng KPDL nhƣ: Tƣ
vấn chọn ngành học, Tƣ vấn lựa chọn môn học, Tƣ vấn lựa chọn lộ trình học...
Ở Việt Nam, KPDL cũng đã đƣợc nghiên cứu và ứng dụng trong nhiều tổ chức,
doanh nghiệp và đem lại hiệu quả cao trong các lĩnh vực nhƣ giáo dục, y tế, thƣơng mại,
10
tài chính. Nhiều công trình khoa học đã và đang đƣợc nghiên cứu để áp dụng vào thực tế.
Song bên cạnh đó, việc khai thác các thông tin có giá trị ở một số đơn vị chƣa thực sự
hiệu quả, việc áp dụng trong thực tế còn hạn chế.
1.3. Hƣớng tiếp cận của luận văn
Luận văn tập trung nghiên cứu lý thuyết KPDL, sử dụng công cụ khai phá dữ liệu
BIDS của Microsoft, KPDL điểm thực tế của sinh viên trƣờng ĐHCNHN.
Bên cạnh đó, luận văn sử dụng một số thuật toán điển hình trong khai phá dữ liệu
đƣợc hỗ trợ sẵn trong SQL Server nhằm giải quyết bài toán dự báo, dự đoán kết quả học
tập của sinh viên.
Sau khi đánh giá mô hình dự đoán tốt nhất, tác giả xây dựng chƣơng trình thực
nghiệm để hỗ trợ tƣ vấn học tập cho sinh viên năm đầu.
1.4. Kết luận chƣơng 1
Chƣơng này giới thiệu về bài toán, những yêu cầu đặt ra cần giải quyết đối với bài
toán đồng thời trình bày một số hƣớng nghiên cứu về KPDL trong giáo dục hiện nay,
hƣớng tiếp cận của luận văn.
11
Chƣơng 2.Các kiến thức cơ sở liên quan
2.1. Khai phá dữ liệu
2.1.1. Khái niệm KPDL
KPDL là quá trình khảo sát và phân tích một khối lƣợng lớn các dữ liệu đƣợc lƣu
trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thông tin quan trọng,
có giá trị tiềm ẩn bên trong. Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy
mô toàn đơn vị.
Các dữ liệu này đƣợc thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ
nhƣ: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp, các hệ
thống quản lý khách hàng hay từ tác công cụ lƣu trữ thông tin trên web…
Đây là những khối dữ liệu khổng lồ nhƣng những thông tin mà nó thể hiện ra thì
lộn xộn và “nghèo” đối với ngƣời dùng. Kích thƣớc của khối dữ liệu khổng lồ đó cũng
tăng với tốc độ rất nhanh chiếm nhiều dung lƣợng lƣu trữ. KPDL liệu sẽ giúp trích xuất
ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích. Quá trình này
gồm một số bƣớc đƣợc thể hiện trong hình sau.
Hình 1.1: Các bƣớc xây dựng một hệ thống KPDL
Ý nghĩa cụ thể của các bƣớc nhƣ sau:
- Lựa chọn dữ liệu liên quan đến bài toán quan tâm.
12
- Tiền xử lý dữ liệu, làm sạch dữ liệu
- Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá.
- KPDL, trích xuất ra các mẫu dữ liệu (mô hình).
- Đánh giá mẫu.
- Sử dụng tri thức khai phá đƣợc.
2.1.2. Những nhóm bài toán của KPDL
KPDL có thể đƣợc dùng để giải quyết hàng trăm bài toán với những mục đích và
nhiệm vụ khác nhau. Dựa trên bản chất tự nhiên của các bài toán đó, ngƣời ta có thể
nhóm các bài toán đó thành những nhóm sau:
Phân loại
Bài toán phân loại là một trong những bài toán phổ biến nhất của KPDL, ví dụ
nhƣ: phân tích xem loại khách hàng nào có khả năng cao nhất sẽ chuyển sang dùng sản
phẩm dịch vụ của đối thủ cạnh tranh của công ty (churn analysis), quản lý rủi ro hay lựa
chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi loại khách hàng…
Phân loại là tổ chức dữ liệu trong các lớp cho trƣớc, còn đƣợc gọi là học có quan
sát. Phân loại sử dụng các nhãn lớp cho trƣớc để sắp xếp các đối tƣợng. Trong đó, có một
tập huấn luyện gồm các đối tƣợng đã đƣợc kết hợp với các nhãn đã biết. Những thuật
toán học có quan sát sẽ đƣợc áp dụng cho tập các đối tƣợng cần phân loại để từ đó mô
hình phân loại chúng.
Một số thuật toán dùng trong bài toán phân loại nhƣ: cây quyết định, mạng nơ ron,
mạng Naïve Bayes.
Phân cụm
Bài toán phân cụm hay còn gọi là phân đoạn. Điểm khác với bài toán phân loại là
ở đây các nhãn lớp chƣa biết và không có huấn luyện. Các đối tƣợng đƣợc phân loại dựa
trên các thuộc tính tƣơng đồng giữa chúng. Bài toán phân lớp hay còn gọi là học không
có giám sát.
Bài toán phân tích luật kết hợp
Bài toán này đôi khi còn gọi là bài toán phân tích giỏ hàng bởi vì nó đƣợc sử dụng
rộng rãi trong phân tích các giao dịch dữ liệu, các bài toán lựa chọn hàng hóa đi kèm…
Phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ giữa các
thuộc tính dữ liệu thƣờng xuất hiện cùng nhau trong các tập dữ liệu.
13
Hồi quy
Bài toán hồi quy cũng tƣơng tự nhƣ bài toán phân loại. Điểm khác biệt là hồi quy
dự đoán cho các dữ liệu liên tục
Dự đoán
Dự đoán là một mảng quan trọng của KPDL. Dự đoán có hai loại chính: một loại
là dự đoán về một số giá trị dữ liệu chƣa biết hay có xu hƣớng sắp xảy ra, còn loại kia là
dự đoán để phân lớp dựa trên một tập huấn luyện và giá trị thuộc tính của đối tƣợng.
Trong phạm vi luận văn, tác giả sẽ sử dụng loại dự đoán thứ hai.
Phân tích chuỗi
Phân tích chuỗi đƣợc sử dụng để tìm ra các mẫu trong một loạt các giá trị hay
trạng thái rời rạc. Ví dụ nhƣ việc chọn mua hàng của khách hàng có thể mô hình là một
chuỗi dữ liệu. Hành động chọn mặt hàng A, sau đó chọn mặt hàng B, C… là một chuỗi
các trạng thái rời rạc. Trong khi đó thời gian lại là chuỗi số liên tục.
Phân tích chuỗi và phân tích luật kết hợp giống nhau ở chỗ đều phân tích tập hợp
các đối tƣợng hay trạng thái. Điểm khác nhau là mô hình chuỗi phân tích sự chuyển của
các trạng thái, trong khi mô hình luật kết hợp thì coi mỗi một mặt hàng trong giỏ hàng là
nhƣ nhau và độc lập. Với mô hình chuỗi, việc chọn mặt hàng A trƣớc mặt hàng B hay
chọn mặt hàng B trƣớc A sau là khác nhau. Còn ở mô hình kết hợp thì cả hai trƣờng hợp
là nhƣ nhau.
Phân tích độ lệch
Bài toán này còn đƣợc gọi là phát hiện điểm biên. Điểm biên là những đối tƣợng
dữ liệu mà không tuân theo các đặc tính, hành vi chung. Bài toán phát hiện điểm biên ứng
dụng rất nhiều trong các ứng dụng. Ứng dụng quan trọng nhất của bài toán phát hiện
điểm biên là bài toán kiểm tra xác nhận thẻ tín dụng…
2.1.3. Các bƣớc xây dựng một giải pháp về KPDL
Có rất nhiều tác giả đƣa ra các bƣớc của một hệ thống KPDL, mọi sự phân chia
chỉ mang tính chất tƣơng đối và tƣ tƣởng chủ đạo của nó là nhƣ sau:
- Bƣớc 1: Xác định mục tiêu bài toán.
- Bƣớc 2: Thu thập dữ liệu.
- Bƣớc 3: Làm sạch dữ liệu và chuyển đổi dữ liệu.
- Bƣớc 4: Xây dựng mô hình.
- Bƣớc 5: Đánh giá mô hình hay đánh giá mẫu.
14
- Bƣớc 6: Báo cáo.
- Bƣớc 7: Dự đoán.
- Bƣớc 8: Tích hợp vào ứng dụng
- Bƣớc 9: Quản lý mô hình
2.1.4. Ứng dụng KPDL trong giáo dục
2.1.4.1 Các ứng dụng hƣớng đến học sinh, sinh viên
Tƣ vấn lựa chọn ngành học: Cho một kho dữ liệu lƣu giữ các thông tin về kết
quả học tập của sinh viên đã tốt nghiệp. Hãy tìm ra những quy luật lựa chọn các chuyên
ngành một cách hợp lý sao cho đạt đƣợc kết quả tốt nhất. Nhằm mục đích này ngƣời ta
mong muốn nhận đƣợc từ dữ liệu những phát biểu nhƣ: “80% sinh viên học tốt môn Kinh
tế chính trị và Tiếng Anh khá thì tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”,
… Để đạt đƣợc những phát biểu nhƣ trên, chúng ta sử dụng các thuật toán Khai phá luật
kết hợp từ cơ sở dữ liệu.
Tƣ vấn lựa chọn môn học: Cho một kho dữ liệu các thông tin về kết quả học tập
của sinh viên. Hãy tƣ vấn cho sinh viên lựa chọn các môn học cho học kỳ sau dựa trên
kết quả của các học kỳ trƣớc sao cho kết quả học tập của kỳ sao là cao nhất. Để thực hiện
việc này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán nhƣ
Cây quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp.
Tƣ vấn lựa chọn lộ trình học: Cho một kho dữ liệu đào tạo (theo hình thức tín
chỉ) bao gồm các môn học (học phần) tƣơng ứng với các ngành học và các học kỳ (gọi là
chƣơng trình đào tạo), cùng với các thông tin về kết quả học tập của các sinh viên đã tốt
nghiệp. Hãy tƣ vấn cho các sinh viên mới vào trƣờng cách lựa chọn một lộ trình học phù
hợp nhất cho ngành học mà sinh viên đã đăng ký sao cho kết quả tốt nghiệp ra trƣờng của
sinh viên là cao nhất. Đây chính là bài toán mà luận văn hƣớng đến. Để thực hiện việc
này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán nhƣ Cây
quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp.
2.1.4.2 Các ứng dụng hƣớng đến giáo viên
Phân loại học sinh, sinh viên: Đánh giá, phân loại học sinh, sinh viên để đƣa ra
những phƣơng pháp và hình thức dạy học thích hợp là việc thƣờng xuyên phải làm trong
quá trình giáo dục. Đánh giá từng mặt, đánh giá một số mặt và đánh giá toàn thể phẩm
chất, năng lực của học sinh đều có ý nghĩa vô cùng quan trọng và đều có ảnh hƣởng lớn
tới kết quả giáo dục. Đánh giá đúng sẽ dẫn đến những quyết định đúng đắn. Đánh giá sai
hậu quả sẽ khôn lƣờng. Tuy nhiên đánh giá là một việc rất khó. Vấn đề càng khó khi
thông tin về đối tƣợng đƣợc đánh giá là rất lớn và dàn trải.
15
Việc phân nhóm các học sinh, sinh viên (theo năng lực một cách đúng đắn) vào
các lớp học khác nhau để đào tạo sẽ nâng cao chất lƣợng giáo dục. Đối với các học sinh
giỏi, chƣơng trình đào tạo có thể khác, dạy phần cơ sở nhanh hơn, tập trung vào các phần
nâng cao để bồi dƣỡng học sinh giỏi, các học sinh yếu, kém phải dạy thật chậm, giảng
giải chi tiết và hƣớng đến các kiến thức căn bản, cơ sở…Nếu trong lớp học các học sinh
giỏi và yếu kém học cùng nhau sẽ dễ xảy ra tình trạng ngƣời học giỏi thiếu hứng thú với
việc học khi giáo viên ra đề quá dễ và dạy quá chậm, hoặc ngƣời học yếu, kém không thể
theo đƣợc chƣơng trình khi giáo viên dạy quá nhanh và ra đề quá khó…
Để thực hiện việc phân loại học sinh, sinh viên nhƣ trên, một phƣơng pháp tốt nhất
đó chính là sử dụng các kỹ thuật KPDL với các thuật toán phân cụm, phân lớp nhƣ Cây
quyết định, K-mean, mạng SOM (Kohonen) với thông tin đầu vào là dữ liệu về các học
sinh, sinh viên nhƣ điểm tổng kết các năm trƣớc, điểm thi tuyển sinh, điểm ƣu tiên, vùng,
miền, giới tính …
2.1.4.3 Các ứng dụng hƣớng đến nhà quản lý giáo dục
Tƣ vấn hoạch địch các chiến lƣợc, chính sách giáo dục: việc KPDL giáo dục có
thể đƣa ra cho những nhà quản lý giáo dục các thông tin hữu ích nhƣ:
- Xu hƣớng sinh viên đăng ký học các ngành nghề nào đó tăng hay giảm: với
thông tin này, nhà quản lý có thể đƣa ra những kế hoạch đào tạo, đầu tƣ cho từng ngành
phù hợp hơn theo từng giai đoạn.
- Tỷ lệ nghỉ học, bỏ học và khả năng xuống khóa, bị đuổi học có chiều hƣớng gia
tăng: nhà quản lý sẽ có những biện pháp để cảnh báo và chấn chỉnh lại hoạt động đào tạo
một cách kịp thời.
- Kết quả học tập của các khóa có xu hƣớng giảm xuống hoặc tốt lên: nếu kết quả
giảm thì nhà quản lý cần xem lại các chính sách và chƣơng trình đào tạo để xem đã thực
sự phù hợp với sinh viên hay chƣa và điều chỉnh kịp thời nếu cần, còn kết quả tốt thì sẽ
tiếp tục duy trì vì chính sách đào tạo đang đi đúng hƣớng...
2.2. Một số kỹ thuật KPDL trong phân lớp, dự báo
2.2.1 Cây quyết định
Cây quyết định là một cấu trúc biễu diễn dƣới dạng cây. Trong đó, mỗi nút trong
(internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể có
của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây
gọi là gốc (root).
16
Hình 2. 1: Biểu diễn cây quyết định cơ bản
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tƣợng tới các kết luận về
giá trị mục tiêu của sự vật/hiện tƣợng. Mỗi nút trong (internal node) tƣơng ứng với một
biến, đƣờng nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá
đại diện cho giá trị dự đoán của biến mục tiêu, cho trƣớc các giá trị dự đoán của các biến
đƣợc biểu diễn bởi đƣờng đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây
quyết định đƣợc gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây
quyết định.
Ví dụ 2.1: Một ngƣời có chơi tennis hay không?
Hình 2. 2: Cây quyết định cho việc chơi Tennis
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc đƣợc dùng để
phân lớp các đối tƣợng dựa vào dãy các luật (series of rules). Các thuộc tính của đối
tƣợng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu
17
khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân
lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.
Tóm lại, cho dữ liệu về các đối tƣợng gồm các thuộc tính cùng với lớp (classes)
của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tƣợng chƣa biết
(unseen data).
So với các phƣơng pháp KPDL khác, cây quyết định là một trong những hình thức
mô tả dữ liệu tƣơng đối đơn giản, trực quan, dễ hiểu đối với ngƣời dùng nhƣng lại hiệu
quả nên đƣợc sử dụng nhiều. Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã
đƣợc các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất nhƣ mạng notron, mô hình
thống kê tuyến tính /bậc 2, cây quyết định, mô hình di truyền... Trong số những mô hình
đó, cây quyết định đƣợc đánh giá là một công cụ mạnh, phổ biến đặt biệt là thích hợp cho
DM nói chung và cho phân lớp dữ liệu nói riêng.
Có rất nhiều giải thuật sẵn dùng: CART (Breiman et al., 1984), C4.5 (Quinlan,
1993...
2.2.2 Phân lớp Naïve Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết
sự kiện liên quan B đã xảy ra. Xác suất này đƣợc ký hiệu là P(A|B), và đọc là "xác suất
của A nếu có B". Đại lƣợng này đƣợc gọi xác suất có điều kiện vì nó đƣợc rút ra từ giá trị
đƣợc cho của B hoặc phụ thuộc vào giá trị đó.
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
Xác suất xảy ra A của riêng nó, không quan tâm đến B, kí hiệu là P(A) và đọc là
xác suất của A. Đây đƣợc gọi là xác suất biên duyên hay xác suất tiên nghiệm
(prior), nó là "tiên nghiệm" theo nghĩa rằng nó không quan tâm đến bất kỳ thông
tin nào về B.
Xác suất xảy ra B của riêng nó, không quan tâm đến A, kí hiệu là P(B) và đọc là
"xác suất của B". Đại lƣợng này còn gọi là hằng số chuẩn hóa (normalising
constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện A đang muốn biết.
Xác suất xảy ra B khi biết A xảy ra, kí hiệu là P(B|A) và đọc là "xác suất của B
nếu có A". Đại lƣợng này gọi là khả năng (likelihood) xảy ra B khi biết A đã xảy
ra. Chú ý không nhầm lẫn giữa khả năng xảy ra A khi biết B và xác suất xảy ra A
khi biết B.
Khi biết ba đại lƣợng trên, xác suất của A khi biết B cho bởi công thức:
18
Từ đó dẫn tới:
(2)
Khi có n giả thuyết thì:
(3)
Phƣơng pháp Naive Bayes phù hợp các bài toán có yêu cầu về chi phí xuất hiện của các
giá trị thuộc tính.
- Thiết kế hệ thống phân lớp thƣờng dễ dàng hơn so với các phƣơng pháp khác.
- Các thuộc tính trong tập mẫu học phải độc lập với điều kiện.
- Độ chính xác thuật toán phân lớp phụ thuộc nhiều vào tập dữ liệu học ban đầu.
2.2.3 Mạng nơ ron nhân tạo
Neural nhân tạo là sự mô phỏng đơn giản của neural sinh học. Mỗi neural nhân tạo
thực hiện hai chức năng: chức năng tổng hợp đầu vào và chức năng tạo đầu ra. Mỗi
neural có một giá trị ngƣỡng, chức năng đầu vào chính là tổng có trọng số các tín hiệu
vào kết hợp với ngƣỡng để tạo ra tín hiều đầu vào. Chức năng tạo đầu ra đƣợc thực hiện
bằng hàm truyền đạt. Hàm này sẽ nhận tín hiệu đầu vào và tạo tín hiệu đầu ra của neural.
Mạng neural là một hệ thống gồm nhiều phần tử xử lý hoạt động song song. Chức
năng của nó đƣợc xác định bởi cấu trúc mạng, độ lớn của các liên kết và quá trình xử lý
tại mỗi nút hoặc đơn vị tính toán.
Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bào thần kinh.
Các lớp này là một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Trong một mạng Neural,
mỗi neural nhận đƣợc một hoặc nhiều đầu vào và sản xuất một hoặc nhiều kết quả đầu ra.
Mỗi đầu ra là một hàm phi tuyến đơn giản của tổng các đầu vào cho các neural.
Hình 2. 3: Mô hình mạng nơron nhiều lớp
19
Có ba loại neural trong một mạng Neural đƣợc tạo ra với thuật toán Microsoft
Neural Network:
Neural đầu vào: Neural đầu vào cung cấp các giá trị thuộc tính đầu vào cho các
mô hình khai thác dữ liệu. Đối với thuộc tính đầu vào rời rạc, một neural đầu vào thƣờng
đại diện cho một trạng thái đơn nhất từ các thuộc tính đầu vào. Một thuộc tính đầu vào
liên tục tạo ra hai neural đầu vào: một neural cho một trạng thái bị thiếu, một neural cho
giá trị của chính thuộc tính liên tục đó. Neural đầu vào cung cấp đầu vào cho một hoặc
nhiều neural ẩn.
Neural ẩn: neural ẩn nhận đầu vào từ các neural đầu vào và cung cấp đầu ra cho
các neural đầu ra.
Neural đầu ra: Neural đầu ra đại diện cho các giá trị của thuộc tính dự đoán của
mô hình KPDL. Đối với các thuộc tính đầu ra là rời rạc, một neural đầu ra đại diện duy
nhất cho một trạng thái dự đoán của thuộc tính dự đoán, bao gồm cả giá trị thiếu. Nếu các
thuộc tính dự đoán liên tục tạo ra hai neural đầu ra: một neural cho một trạng thái bị
thiếu, một neural cho chính các giá trị của thuộc tính liên tục đó.
Mỗi đầu vào có một giá trị đƣợc gán cho nó có trọng số là w, mô tả sự liên quan
giữa đầu vào đến các neural ẩn hoặc các neural đầu ra.
Mạng Neural xây dựng lại cấu trúc bộ não có khả năng nhận biết dữ liệu thông
qua tiến trình học, với các thông số tự do của mạng có thể thay đổi liên tục bởi những
thay đổi của môi trƣờng và mạng neural ghi nhớ giá trị đó.
Hình 2. 4: Tiến trình học
Trong quá trình học, giá trị đầu vào đƣợc đƣa vào mạng và theo dòng chảy trong
mạng tạo thành giá trị ở đầu ra.
Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng Neural với giá trị ra mong
muốn. Nếu hai giá trị này giống nhau thì không thay đổi gì cả. Tuy nhiên, nếu có một sai
lệch giữa hai giá trị này vƣợt quá giá trị sai số mong muốn thì đi ngƣợc mạng từ đầu ra về
đầu vào để thay đổi một số kết nối.
20
Đây là một quá trình lặp liên tục và có thể không dừng khi không tìm các giá trị w
sao cho đầu ra tạo bởi mạng Neural bằng đúng đầu ra mong muốn. Do đó trong thực tế
ngƣời ta phải thiết lập tiêu chuẩn dựa trên một giá trị sai số nào đó của hai giá trị này, hay
dựa trên một số lần lặp xác định.
2.2.4 Luật kết hợp
Khai phá luật kết hợp: Là tìm các mẫu phổ biến, sự kết hợp, sự tƣơng quan, hay
các cấu trúc nhân quả giữa các tập đối tƣợng trong các cơ sở dữ liệu giao tác, cơ sở dữ
liệu quan hệ, và những kho thông tin khác.
Các ứng dụng: Luật kết hợp có ứng dụng trong nhiều lĩnh vực khác nhau của đời
sống nhƣ: khoa học, hoạt động kinh doanh, tiếp thị, thƣơng mại, phân tích thị trƣờng
chứng khoán, tài chính và đầu tƣ,...
Ví dụ về luật kết hợp:
Bia => Lạc [0,5% ; 60%]
Luật này có nghĩa: Nếu mua bia thì mua lạc trong 60% trƣờng hợp. Bia và lạc
đƣợc mua chung trong 0.5% tổng giao dịch.
Thu nhập= 60.000.000_max => Tài khoản tiết kiệm= yes [20% ; 100%]
Luật này có nghĩa: Nếu thu nhập lớn hơn hoặc bằng 60 triệu một năm thì khách
hàng có tài khoản tiết kiệm với độ tin cậy là 100%.
Từ các luật kết hợp đƣợc trích rút từ chính các cơ sở dữ liệu giao dịch, cơ sở dữ
liệu khách hàng mà các siêu thị, các ngân hàng sẽ có chiến lƣợc kinh doanh (sắp xếp các
mặt hàng, số lƣợng các mặt hàng,..), chiến lƣợc tiếp thị, quảng cáo,… để từ đó thúc đẩy
hoạt động kinh doanh của mình.
Một số định nghĩa, khái niệm cơ bản:
Cho I = {i1, i2, i3,… ,in} là tập bao gồm n mục (Item – còn gọi là thuộc tính attribute). X I đƣợc gọi là tập mục (itemset).
T = {t1, t2, …, tm} là tập gồm m giao tác (Transaction – còn gọi là bản ghi record).
R là một quan hệ nhị phân trên I và T (hay R IxT). Nếu giao tác t có chứa mục i
thì ta viết (i,t) R (hoặc iRt). Ta sẽ ký hiệu D = (T,I,R) là dữ liệu để khai thác. Về mặt
hình thức, D chính là một quan hệ dạng bảng. Về ý nghĩa, một cơ sở dữ liệu là một tập
các giao tác (hay giao dịch), mỗi giao dịch t chứa một tập mục X I.
21
Độ hỗ trợ của tập mục X
Cho dữ liệu D = ( T, I, R); X I. Gọi T(X) là tập giao tác chứa X.
Độ hỗ trợ (support) của tập mục X, ký hiệu support(X ) là tỷ số của số lƣợng giao tác
trong cơ sở dữ liệu D chứa X trên tổng số các giao tác trong cơ sơ dữ liệu D. Hay
Support(X) = Card (T(X)) / Card (T) =
T(X )
T
(4)
Tập phổ biến
Cho D = ( T, I, R); minsup (0,1].
Tập mục X I đƣợc gọi là một tập phổ biến theo ngƣỡng minsup ( gọi tắt là tập phổ
biến) nếu support(X) >= minsup.
Ký hiệu FX(T, I, R, minsup) là tập hợp các tập phổ biến theo ngƣỡng minsup:
FX(T, I, R, minsup) = { X I | support(X) ≥ minsup}
Luật kết hợp X => Y
Cho D = ( T, I, R) là dữ liệu để khai thác. X , Y I là các tập mục thỏa mãn điều
kiện X Y .
Luật kết hợp của X và Y, ký hiệu X=>Y , đây là luật chỉ khả năng xuất hiện Y khi X xuất
hiện. Luật kết hợp có hai độ đo gắn với nó là: độ hỗ trợ và độ tin cậy (confidence) của
luật.
Độ hỗ trợ của luật kết hợp X => Y
Độ hỗ trợ của luật kết hợp X => Y, ký hiệu support( X => Y) là tỷ số của số các
giao tác trong D có chứa X Y trên số tất cả giao tác trong D.
Hay
Support( X => Y) = card (T(X Y))/card(T) =
T(X Y)
T
; (5)
Trong đó T(X) là tập giao tác chứa tập mục X.
Độ tin cậy của luật kết hợp X => Y
Độ tin cậy (confidence) của luật X => Y, ký hiệu: confidence(X => Y) là tỷ số các giao
tác trong D có chứa X Y trên số các giao tác chứa X. Hay
22
Confidence(X => Y) = card(T(X Y))/card(T(X)) =
T(X Y)
T(X )
; (6)
Về mặt xác suất, độ tin cậy confidence(X => Y) của một luật là xác suất (có điều
kiện) xảy ra Y với điều kiện đã xảy ra X.
Confidence(X => Y) = P(Y X) (7)
Luật kết hợp tin cậy: Một luật đƣợc xem là tin cậy nếu độ tin cậy confidence của nó lớn
hơn hoặc bằng một ngƣỡng minconf (0,1] nào đó do ngƣời dùng xác định. Ngƣỡng
minconf phản ánh mức độ xuất hiện của Y khi cho trƣớc X.
Luật kết hợp cần tìm là luật kết hợp thỏa minsup và minconf cho trƣớc. Chúng ta
chỉ quan tâm đến các luật có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu và độ tin cậy lớn hơn
độ tin cậy tối thiểu.
Hầu hết các thuật toán khai phá luật kết hợp thƣờng chia thành hai pha:
- Pha 1: Tìm tất cả các tập mục phổ biến từ cơ sở dữ liệu D tức là tìm tất cả các
tập mục X thỏa mãn support(X) >= minsup.
- Pha 2: Sinh các luật tin cậy từ các tập phổ biến đã tìm thấy ở pha 1.
Cho minconf; X,Y là các tập mục phổ biến tìm thấy trong pha 1 luật kết hợp đƣợc sinh từ
X, Y có dạng: X => Y và confidence(X=>Y) >= minconf.
2.3. KPDL với hệ quản trị CSDL SQL Server
2.3.1. Giới thiệu chung
Dƣới đây là hình ảnh tổng quan về KPDL với hệ quản trị CSDL SQL Server:
Hình 2. 5: Hình ảnh tổng quan về KPDL với SQL 2008
23