ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NHƢ TRANG
KHAI PHÁ DỮ LIỆU ĐIỂM
ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
TRƢỜNG CAO ĐẲNG SƢ PHẠM HÀ NỘI
LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ NHƢ TRANG
KHAI PHÁ DỮ LIỆU ĐIỂM
ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN
TRƢỜNG CAO ĐẲNG SƢ PHẠM HÀ NỘI
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
CÁN BỘ HƢỚNG DẪN: GS.TS. VŨ ĐỨC THI
HÀ NỘI - 2013
LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới GS.TS. Vũ
Đức Thi, Viện Công nghệ thông tin, Viện Khoa học và Công nghệ Việt Nam. Thầy
đã dành nhiều thời gian tận tình hướng dẫn, giúp đỡ tơi trong đinh hướng và thực
̣
hiê ̣n nô ̣i dung luâ ̣n văn.
Tôi xin gửi lời c ảm ơn tới các thầy/cô ở khoa Công nghệ thông tin –
Trường Đại học Công nghệ đã giảng dạy chúng tơi trong suốt q trình học tập.
Tơi xin chân thành cảm ơn lãnh đạo cơ quan, bạn bè đồng nghiệp đã cung
cấp tài liệu và cho tôi những lời khuyên quý báu để thực hiện luận văn.
Tôi gửi lời cảm ơn tới các bạn trong lớp K16HTT2 đã ủng hộ, khích lệ,
giúp đỡ và ln sát cánh bên tơi trong suốt q trình học tập, rèn luyện tại trường.
Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn
bè đã ở bên tơi những lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi trong
cuộc sống cũng như học tập, công việc.
Tôi xin chân thành cảm ơn!
Hà nội, tháng 12 năm 2013
Học viên
Phạm Thị Nhƣ Trang
1
LỜI CAM ĐOAN
Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dưới sự
hướng dẫn của GS.TS. Vũ Đức Thi.
Các kết quả thực nghiệm của đề tài đều được tiến hành thực nghiệm và chưa
từng được ai cơng bố trong bất cứ cơng trình nào khác.
Hà nội, tháng 12 năm 2013
Học viên
Phạm Thị Nhƣ Trang
2
LỜI MỞ ĐẦU
Ngày nay, các trường Đại học và Cao đẳng đang dần chuyển sang đào tạo
theo học chế tín chỉ. Việc tư vấn học tập nhằm đạt được kết quả học tập cao nhất
cho mỗi sinh viên được đặc biệt quan tâm. Đó là một khó khăn chung cho các cấp
quản lý. Bằng cảm tính hoặc suy luận thủ công từ khối dữ liệu khổng lồ, việc đưa
ra những tư vấn tốt cho mỗi sinh viên trong quá trình học không phải là khả thi.
Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn
chưa được quan tâm đúng mức. Phần lớn các trường sử dụng Excel hoặc các phần
mềm quản lý đào tạo theo khuyến cáo của Bộ như Edusoft để quản lý Sinh viên,
quản lý kết quả học tập của Sinh viên. Việc các nhà quản lý muốn có cái nhìn tồn
cảnh để thống kê kết quả học tập nhằm đưa ra những phương hướng, đường lối,
chính sách đối với chương trình đào tạo, phương pháp giảng dạy v.v… gặp rất
nhiều khó khăn. Thơng thường việc sinh ra báo cáo rất thủ công, hầu như đều thực
hiện trên excel.
Trường Cao đẳng Sư phạm Hà Nội với bề dầy gần 55 năm, đã đào tạo số
lượng lớn cho thủ đô đội ngũ Giáo viên THCS và Tiểu học. Hàng năm, Phòng Đào
tạo cũng tư vấn và thay đổi chương trình đào tạo cho phù hợp với thực tế. Nhưng
việc thay đổi cũng chỉ mang tính chất chủ quan, cảm tính. Dữ liệu đào tạo được lưu
trữ và sử dụng với mục đích tra cứu, và các báo cáo đơn giản. Các phần mềm quản
lý nhà trường đang sử dụng chưa trả lời được mối quan hệ giữa kết quả tuyển sinh
đầu vào, kết quả của từng mơn học, giới tính v.v… với kết quả học tập của Sinh
viên. Các phần mềm cũng chưa sinh ra được các báo cáo đa chiều để giúp các nhà
quản lý đưa ra được các chiến lược hàng năm.
Vì vậy, đề tài luận văn “Khai phá dữ liệu điểm để dự đoán kết quả học tập
của Sinh viên trường Cao đẳng Sư phạm Hà Nội” đi sâu vào việc tiến hành khai
thác dữ liệu điểm nhằm đưa ra được các báo cáo đa chiều, và dự đoán được kết quả
học tập của Sinh viên dựa trên các điểm môn học của các học kỳ trước. Đề tài tiến
hành nghiên cứu xây dựng lại hệ thống dữ liệu điểm mới dựa theo dữ liệu điểm đã
có sẵn, nghiên cứu các kỹ thuật phân lớp trong khai phá dữ liệu, ứng dụng các kỹ
thuật đó để xây dựng các mơ hình dự đốn kết quả học tập của Sinh viên bằng công
cụ SQL Server Business Intelligence Development Studio. Từ đó, đánh giá và lựa
chọn mơ hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng dự báo
kết quả học tập cho mỗi Sinh viên.
3
Nội dung của luận văn bao gồm có 4 chương:
Chƣơng 1: Giới thiệu
Chương này giới thiệu về quá trình quản lý đào tạo của trường Cao đẳng Sư
phạm Hà Nội, đối tượng, phạm vi và phương pháp nghiên cứu của luận văn.
Chƣơng 2: Cơ sở lý thuyết
Chương này trình bày cơ sở lý thuyết về Kho dữ liệu, Mơ hình phân tích trực
tuyến OLAP, Khai phá dữ liệu, Cơng cụ Business Intelligence Development Studio
của SQL Server 2008.
Chƣơng 3: Ứng dụng
Chương này sẽ tiến hành xây dựng cơ sở dữ liệu điểm của Sinh viên khoa Tự
nhiên, trường Cao đẳng Sư phạm Hà Nội. Từ cơ sở dữ liệu đó chuyển thành kho dữ
liệu điểm. Sau đó sẽ tiến hành phân tích báo cáo đa chiều và xây dựng các mơ hình
dự đốn dựa trên cơng cụ Business Intelligence Development Studio của SQL
Server 2008, đánh giá các mơ hình.
Chƣơng 4: Kết luận và định hướng phát triển
Chương này tóm lược những kết quả đạt được của luận văn. Đồng thời đưa
ra định hướng nghiên cứu trong thời gian tới.
4
MỤC LỤC
DANH SÁCH CÁC HÌNH VẼ................................................................................ 7
DANH SÁCH CÁC BẢNG ..................................................................................... 8
BẢNG CÁC KÝ HIỆU VIẾT TẮT ........................................................................ 9
Chƣơng 1: GIỚI THIỆU ....................................................................................... 10
1.1. Quản lý đào tạo tại trƣờng Cao đẳng Sƣ phạm Hà Nội .................................. 10
1.1.1.
Thực tiễn quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội .......... 10
1.1.2.
Nhu cầu khai thác dữ liệu điểm ................................................................ 11
1.1.3.
Một số hướng nghiên cứu về khai thác kho dữ liệu điểm để dự đoán kết
quả học tập của Sinh viên ......................................................................................... 11
1.2. Đối tƣợng và phạm vi nghiên cứu của luận văn............................................... 11
1.2.1.
Đối tượng.................................................................................................... 11
1.2.2.
Phạm vi nghiên cứu ................................................................................... 11
1.3. Phƣơng pháp nghiên cứu và dự kiến kết quả đạt đƣợc .................................. 11
1.3.1.
Phương pháp nghiên cứu .......................................................................... 11
1.3.2.
Dự kiến kết quả đạt được .......................................................................... 12
1.4. Kết luận chƣơng 1 ............................................................................................... 12
Chƣơng 2: CƠ SỞ LÝ THUYẾT ......................................................................... 13
2.1. Kho dữ liệu .......................................................................................................... 13
2.1.1. Khái niệm về kho dữ liệu.................................................................................. 13
2.1.2. Các đặc tính của kho dữ liệu ........................................................................... 13
2.1.3. Cấu trúc hệ thống của kho dữ liệu .................................................................. 14
2.1.4. Dòng dữ liệu của kho dữ liệu........................................................................... 15
2.1.5. Ứng dụng của kho dữ liệu................................................................................ 15
2.1.6. Mơ hình dữ liệu sử dụng trong kho dữ liệu .................................................... 16
2.1.7. Các bước xây dựng kho dữ liệu ....................................................................... 17
2.2. Phân tích trực tuyến (OLAP)............................................................................. 17
2.2.1.
OLAP .......................................................................................................... 17
2.2.2.
Mơ hình dữ liệu đa chiều .......................................................................... 17
2.2.3.
Mô phỏng các chiều trong kinh doanh ..................................................... 18
5
2.2.4.
Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server: . 19
2.3. Khai phá dữ liệu .................................................................................................. 20
2.3.1.
Khái niệm về khai phá dữ liệu .................................................................. 20
2.3.2.
Ứng dụng của khai phá dữ liệu ................................................................ 20
2.3.3.
Nhiệm vụ chính trong khai phá dữ liệu.................................................... 21
2.3.4.
Các phương pháp trong khai phá dữ liệu................................................. 21
2.4. Giới thiệu công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008 ................... 22
2.4.1
Business Intelligent (BI) ............................................................................... 22
2.4.2.
Các thành phần chính của hệ thống BI ................................................... 22
2.4.3.
Dịch vụ phân tích ....................................................................................... 25
2.4.4.
Giới thiệu một số thuật tốn sử dụng trong BIDS ................................... 25
2.4.5.
Quy trình xây dựng mơ hình khai phá dữ liệu với BIDS như sau: ........ 31
2.5. Kết luận chƣơng 2 ............................................................................................... 31
Chƣơng 3: ỨNG DỤNG ........................................................................................ 33
3.1. Phân tích và phát biểu bài tốn ......................................................................... 33
3.2. Xây dựng cơ sở dữ liệu ....................................................................................... 33
3.2.1.
Nguồn dữ liệu: ........................................................................................... 33
3.2.2.
Xây dựng cơ sở dữ liệu trong SQL Server 2008 ....................................... 35
3.3. Xây dựng kho dữ liệu từ cơ sở dữ liệu đã có .................................................... 39
3.4. Khai phá từ kho dữ liệu...................................................................................... 42
3.4.1.
Phân tích OLAP ......................................................................................... 42
3.4.2.
Xây dựng mơ hình khai phá ...................................................................... 43
3.4.3.
Phân tích kết quả đạt được: ...................................................................... 51
3.5. Kết luận chƣơng 3 ............................................................................................... 51
Chƣơng 4: KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN............................. 52
TÀI LIỆU THAM KHẢO ..................................................................................... 53
6
DANH SÁCH CÁC HÌNH VẼ
Hình 2.1: Cấu trúc hệ thống kho dữ liệu ........................................................................... 14
Hình 2.2: Dịng dữ liệu trong kho dữ liệu ......................................................................... 15
Hình 2.3: Mơ hình đa chiều .............................................................................................. 18
Hình 2.4: Kiến trúc dịch vụ OLAP ................................................................................... 19
Hình 2.5. Các thành phần chính của hệ thống Business Intelligence ............................... 23
Hình 2.6. Hệ thống BI đơn giản ........................................................................................ 24
Hình 3.1. Danh sách bảng điểm tồn khóa lớp SP Tốn K33 (Khóa 2007-2010)34
Hình 3.2. Danh sách sinh viên của các lớp ........................................................................ 34
Hình 3.3. Sơ đồ cơ sở dữ liệu quan hệ .............................................................................. 35
Hình 3.4. Chọn nguồn dữ liệu là Microsoft Excel ............................................................ 38
Hình 3.5. Chọn đích là kho dữ liệu ................................................................................... 39
Hình 3.6. Sử dụng Analysis Services Project .................................................................... 39
Hình 3.7. Kết nối DataSource............................................................................................ 40
Hình 3.8. Kho dữ liệu ........................................................................................................ 41
Hình 3.9. Khối dữ liệu và các chiều .................................................................................. 42
Hình 3.10. Ví dụ 1 về OLAP ............................................................................................. 42
Hình 3.11. Ví dụ 2 về OLAP ............................................................................................. 43
Hình 3.12. Tạo mới một mơ hình khai phá ....................................................................... 43
Hình 3.13.Lựa chọn các thuộc tính ................................................................................... 44
Hình 3.14: Kết quả tính Entropy ....................................................................................... 45
Hình 3.15: Các mơ hình được xây dựng............................................................................ 46
Hình 3.16: Cây phân nhánh khi dùng thuật toán Decision Tree ....................................... 46
Hình 3.17: Mạng phụ thuộc khi dùng thuật tốn Decision Tree ....................................... 47
Hình 3.18:Thuật tốn Neural Network .............................................................................. 47
Hình 3.19: Lift Chart ......................................................................................................... 48
Hình 3.20: Ma trận phân lớp khi dùng 2 thuật tốn .......................................................... 49
Hình 3.21: Kết quả khi sử dụng mơ hình Decision Tree .................................................. 50
7
DANH SÁCH CÁC BẢNG
Bảng 1. Ví dụ phân lớp ................................................................................................... 19
Bảng 2. Ví dụ Entropy thuộc tính Quê quán .................................................................. 20
Bảng 3. Ví dụ Entropy thuộc tính Điểm vào .................................................................. 20
Bảng 4. Ví dụ Entropy thuộc tính Điểm năm 1 .............................................................. 20
Bảng 5. Ví dụ Entropy thuộc tính Giới tính ................................................................... 21
8
BẢNG CÁC KÝ HIỆU VIẾT TẮT
Từ hoặc cụm từ
Kí hiệu viết tắt
Business Intelligence
BI
Cơ sở dữ liệu
CSDL
On-Line Analytical Prosessing
OLAP
Business Intelligence Development Studio
BIDS
9
Chƣơng 1: GIỚI THIỆU
1.1.Quản lý đào tạo tại trƣờng Cao đẳng Sƣ phạm Hà Nội
1.1.1.Thực tiễn quản lý đào tạo tại trường Cao đẳng Sư phạm Hà Nội
Trường Cao đẳng Sư phạm Hà Nội với bề dày hơn 55 năm đã đào tạo được hàng
nghìn thế hệ giáo viên các trường Tiểu học, Trung học cơ sở cho Thủ đô Hà Nội. Đến
nay, số ngành trường đang đào tạo là 22 ngành, với số lượng Sinh viên ngành càng tăng.
Năm học 2010-2011, nhà trưởng tuyển sinh được 569 Sinh viên. Nhưng đến năm học
2012-2013, con số này đã tăng gấp đôi với hơn 1000 sinh viên.
Về cơ sở vật chất, nhà trường đã đầu tư khoảng 82 phòng học được trang bị các
máy móc phục vụ học tập, 09 phịng máy tính, 09 phịng ngoại ngữ, 09 phịng nghiệp vụ.
Số giảng viên cơ hữu, thỉnh giảng tăng tỉ lệ so với số sinh viên tuyển sinh trong nhà
trường. Tỉ lệ sinh viên ra trường có việc làm trong năm học 2011-2012 chiếm 83,37%.
Hàng năm, chương trình đào tạo đều được thay đổi phù hợp với thực tế ở các
trường phổ thơng. Ví dụ như bắt đầu từ năm học 2012-2013, nhà trường tuyển sinh thêm
một số ngành hai như thay đổi ngành Sư phạm Sử thành ngành Sử - Công tác Đội, hoặc
ngành Sư phạm Văn thành Văn – Giáo dục cơng dân. Thậm chí, chương trình cắt giảm đi
một số học phần lý thuyết, tăng một số học phần thực hành giúp nâng cao các kỹ năng
cho người học.
Phương thức đào tạo cũng dần được thay đổi cho phù hợp. 2010-2011 là năm
học đánh dấu sự chuyển đổi từ hình thức đào tạo niên chế sang hình thức đào tạo theo học
chế tín chỉ của nhà trường. Điều đó đòi hỏi các cấp quản lý, các cán bộ chuyên viên, các
giảng viên phải có sự phối hợp đồng bộ thì mới đạt được mục đích của hình thức đào tạo
mới này. Phòng Đào tạo cũng đã tham mưu cho nhà trường và đề xuất nhiều giải pháp
thích hợp trong quản lý đào tạo theo học chế tín chỉ, nhất là khâu Quản lý Điểm. Tuy
nhiên, trong điều kiện chưa có phần mềm chuyên trách, việc chuyển thang điểm hệ 10
sang thang điểm hệ 4, việc xét lên lớp với các lớp tín chỉ, xét nợ học phần … là rất khó
khăn. Và đặc biệt, khâu tư vấn cho sinh viên lựa chọn môn học, rút bớt học phần cũng gặp
rất nhiều trở ngại không chỉ đối với các giảng viên cố vấn học tập mà còn đối với các nhà
quản lý.
Bài toán đặt ra là dựa vào kết quả tuyển sinh, dựa vào kết quả học tập của các
học kỳ 1 và học kỳ 2 là các học kỳ chủ yếu có các mơn học cơ bản như Anh văn 1 và 2,
Tâm lý học đại cương, Những nguyên lý của Chủ nghĩa Mác Lênin 1, bộ phận cố vấn học
tập có thể hướng Sinh viên lựa chọn phù hợp một lịch trình học tập cho mình và đạt được
một kết quả học tập tốt nhất. Để làm được điều đó, địi hỏi bộ phận cố vấn học tập phải
căn cứ vào kết quả kỳ 1, kỳ 2 đã có, phải dự báo được kết quả học tập của Sinh viên cuối
khóa. Mục đích khơng chỉ có thể đưa ra được những phương hướng giúp Sinh viên nâng
10
cao kết quả học tập mà còn giúp các nhà quản lý thay đổi được Chương trình đào tạo sao
cho phù hợp.
1.1.2.Nhu cầu khai thác dữ liệu điểm
Trong những năm gần đây, trường Cao đẳng Sư phạm Hà Nội đã sử dụng phần
mềm quản lý đào tạo Edusoft trong việc quản lý sinh viên, xây dựng chương trình đào
tạo, xếp thời khóa biểu, quản lý điểm. Hệ thống phần mềm cũng đã thống nhất được các
biểu mẫu chung trong toàn trường, quy trình các phân hệ, và cũng xuất ra được các báo
cáo cơ bản. Nhưng tất cả đều phải thông qua việc xuất ra Excel và thao tác thủ cơng mới
có được báo cáo mong muốn.
Với số lượng Sinh viên ngày càng tăng, cùng với nhu cầu xã hội ngày càng
nhiều, hệ thống đa ngành, đa nghề ngày càng phát triển, một vấn đề quan tâm là việc lưu
trữ dữ liệu về chương trình đào tạo, thời khóa biểu, thông tin sinh viên và các thông tin về
điểm của sinh viên. Hệ thống quản lý đào tạo đòi hỏi khơng chỉ tìm kiếm, thống kê mà
cịn phải đưa ra được các dự báo từ các dữ liệu sẵn có một cách nhanh chóng, nhằm định
hướng, thay đổi chương trình đào tạo cho phù hợp với thực tế.
Vì vậy việc xây dựng một kho dữ liệu điểm của trường Cao đẳng Sư phạm Hà
Nội và khai thác dữ liệu từ kho là rất cần thiêt.
1.1.3.Một số hướng nghiên cứu về khai thác kho dữ liệu điểm để dự đoán kết
quả học tập của Sinh viên
Tính đến thời điểm hiện tại, rất nhiều bài báo, cơng trình đã tiến hành nghiên
cứu về khai phá dữ liệu để dự báo kết quả học tập của Sinh viên (student’s performance).
Các cơng trình hầu như sử dụng kỹ thuật phân lớp (the classification task) trong việc khai
phá và ứng dụng cụ thể bằng các phương pháp khác nhau như Cây quyết định (the
decision tree method) [11], Smooth Support Vector Machine (SSVM) [12]. Thậm chí kỹ
thuật phân cụm cũng được sử dụng như K-means [12].
Tại Việt Nam, đã có một số cơng trình được cơng bố sử dụng hồ sơ cá nhân
cũng như điểm đầu vào hoặc sử dụng điểm trung bình trung tích lũy ở cuối năm thứ hai
để dự đoán kết quả học tập cho năm thứ ba [5].
1.2.Đối tƣợng và phạm vi nghiên cứu của luận văn
1.2.1.Đối tượng
Luận văn nghiên cứu cách xây dựng kho dữ liệu, khai phá dữ liệu và các kỹ
thuật phân lớp trong khai phá dữ liệu.
1.2.2.Phạm vi nghiên cứu
Dữ liệu điểm của Sinh viên trường Cao đẳng sư phạm Hà Nội, và sử dụng các
phương pháp phân lớp trong khai phá dữ liệu điểm trên.
1.3.Phƣơng pháp nghiên cứu và dự kiến kết quả đạt đƣợc
1.3.1.Phương pháp nghiên cứu
11
Nghiên cứu lý thuyết xây dựng Kho dữ liệu, Khai phá dữ liệu, các kỹ thuật phân
lớp và ứng dụng khai phá với dữ liệu điểm của trường Cao đẳng Sư phạm Hà Nội.
Sử dụng công cụ SQL Server 2008 để xây dựng kho, khai phá và xây dựng mơ
hình dự đoán.
1.3.2.Dự kiến kết quả đạt được
Hiểu được các kiến thức lý thuyết về xây dựng kho dữ liệu, về khai phá dữ liệu,
tiền xử lý dữ liệu, một số kỹ thuật phân lớp trong khai phá dữ liệu.
Ứng dụng SQL Server 2008 trong việc xây dựng kho dữ liệu điểm của trường
Cao đẳng Sư phạm Hà Nội.
Ứng dụng công cụ BI trong SQL Server 2008 để xây dựng các báo cáo và các
mơ hình dự đốn kết quả học tập của Sinh viên.
So sánh hiệu quả đạt được giữa các mơ hình trong khai phá dữ liệu.
1.4.Kết luận chƣơng 1
Chương 1 trình bày về:
- Quản lý đào tạo của trường Cao đẳng sư phạm Hà nội: Thực tế, nhu cầu và
một số hướng giải quyết.
- Đối tượng và phạm vi nghiên cứu của luận văn
- Phương pháp nghiên cứu và dự kiến kết quả đạt được
12
Chƣơng 2: CƠ SỞ LÝ THUYẾT
2.1.Kho dữ liệu
2.1.1.Khái niệm về kho dữ liệu
Theo William Inmon [12], kho dữ liệu là một bộ dữ liệu có các đặc tính: hướng
chủ đề, có tính tích hợp, ổn định, dữ liệu gắn với thời gian, thường được sử dụng trong
các hệ thống hỗ trợ quyết định.
Kho dữ liệu thường bao gồm:
-Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác
nhau.
-Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập
các bảng dữ liệu.
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính
sau:
-Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các
dữ liệu từ các ứng dụng khác nhau.
-Hỗ trợ một số người dùng có liên quan, có sử dụng tới các thơng tin liên quan.
-Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thơng
tin.
-Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu hướng thơng
tin.
-Chứa các bảng dữ liệu có kích thước lớn.
-Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các
liên kết nhiều bảng.
2.1.2.Các đặc tính của kho dữ liệu
Hƣớng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm
Gigabyte, được tổ chức theo những chủ đề chính. Kho dữ liệu không chú trọng vào giao
tác và việc xử lý giao tác. Thay vào đó, kho dữ liệu tập trung vào việc mơ hình hóa, phân
tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định. Do đó, các kho dữ liệu thường
cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu khơng cần
thiết trong q trình ra quyết định.
Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu
từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi thao tác trực tuyến hoặc
thậm chí là những file dữ liệu độc lập. Những dữ liệu này tiếp tục được làm sạch, chuẩn
hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu.
13
Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi,
chủ yếu dùng cho việc truy xuất thơng tin nên có độ ổn định cao. Hai thao tác chủ yếu tác
động tới kho dữ liệu là: nhập dữ liệu vào và truy xuất.
Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ
liệu của hệ thống trong khoảng thời gian dài, cung cấp đủ
2.1.3.Cấu trúc hệ thống của kho dữ liệu
Hệ thống kho dữ liệu thường bao gồm 3 tầng:
Hình 2.1: Cấu trúc hệ thống kho dữ liệu
Tầng đáy: Là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn
hóa, lưu trữ tập trung.
Tầng giữa: Thực hiện các thao tác với kho dữ liệu thơng qua dịch vụ OLAP
(OLAP Server). Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết
hợp cả 2 mơ hình trên thành mơ hình Hybrid OLAP.
Tầng trên: thực hiện việc truy vấn, khai phá thông tin.
14
2.1.4.Dòng dữ liệu của kho dữ liệu
Do kho dữ liệu chứa lượng dữ liệu lớn, đồng thời hạn chế thao tác sửa đổi nên
rất thích hợp cho việc phân tích dài hạn và báo cáo. Các thao tác với dữ liệu của kho dữ
liệu chủ yếu dựa trên cơ sở là Mơ hình dữ liệu đa chiều (MultiDimensional data model),
thường áp dụng cho các khối dữ liệu (Data cube). Khối dữ liệu là trung tâm của vấn đề
cần phân tích, bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ
nhiều chiều (dimension) dữ kiện khác nhau.
Hình 2.2: Dịng dữ liệu trong kho dữ liệu
Đầu tiên, dữ liệu được lấy trong các hệ cơ sở dữ liệu tác nghiệp, có thể ở nhiều
dạng khác nhau, dữ liệu được làm sạch, chuẩn hóa rồi đưa vào kho dữ liệu, cuối cùng dữ
liệu được lấy từ kho dữ liệu phục vụ cho các phân tích khác nhau.
2.1.5.Ứng dụng của kho dữ liệu
Kho dữ liệu được đưa vào ba mảng ứng dụng chính.
Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử
dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo. Nhờ việc dữ
liệu thô đã được chuyển sang thành các dữ liệu ổn đinh, có chất lượng nên kho dữ liệu đã
giúp nâng cao kỹ thuật biểu diễn thông tin truyền thông. Dữ liệu đầu vào của các kỹ thuật
này được đặt vào một nguồn duy nhất, giúp loại bỏ nhiều lỗi sinh ra do phải thu thập và
biểu diễn thông tin từ nhiều nguồn khác nhau đồng thời giảm bớt sự chậm trễ do phải lấy
15
dữ liệu từ những phân đoạn khác nhau, tránh cho người dùng phải viết những truy vấn
SQL quá phức tạp.
Với cách thứ hai, các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực
tuyến (OLAP). Trong khi ngôn ngữ SQL và các công cụ xây dựng báo cáo truyền thống
chỉ có thể mơ tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân
tích dữ liệu, xác định xem giả thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại
khơng có khả năng đưa ra các giả thuyết. Ngồi ra, sử dụng OLAP cịn giúp phân tích
tổng hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặc bảng biểu trực quan.
Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá. Đây là
một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cũng
như yêu cầu trong thực tiễn. Các kết quả thu được mang nhiều tính dự báo, dự đốn, dùng
trong việc xây dựng kế hoạch, chiến lược.
Các lĩnh vực hiện tại áp dụng kho dữ liệu:
-Thương mại điện tử.
-Kế hoạch hóa nguồn lực doanh nghiệp (ERP – Enterprise Resource Planning).
-Quản lý quan hệ khách hàng (CRM – Customer Relationship Management).
-Chăm sóc sức khỏe.
-Viễn thơng.
2.1.6.Mơ hình dữ liệu sử dụng trong kho dữ liệu
Dữ liệu trong kho được thiết kế theo mơ hình dữ liệu đa chiều (Dimensional
Modeling). Mơ hình dữ liệu đa chiều sử dụng ba khái niệm cơ bản: Khối (Cubes), Sự kiện
(Facts), Chiều (Dimensions). Mơ hình khơng phù hợp với hệ thống OLTP và dữ liệu được
thao tác bởi các công cụ OLAP.
Cơ sở dữ liệu đa chiều thường quan tâm đến hai mức tổng hợp và chi tiết nên
kích thước thường rất lớn. Đồng thời, chúng thường quan tâm đến yếu tố thời gian, dùng
để theo dõi biến động thực tế theo thời gian. Do đó, chiều thời gian được dùng làm bản lề
cho mọi phân tích.
Bảng chiều: Chứa dữ liệu miêu tả về một cơng việc, đối tượng. Kích thước
tương đối nhỏ so với bảng Sự kiện. Đây là bộ lọc hoặc các ràng buộc của những sự kiện ở
bảng sự kiện.
Bảng sự kiện: Kích thước lớn, chứa dữ liệu định lượng hoặc sự kiện (có độ đo
số học)
Khối: Một khối có thể có nhiều chiều.
Mơ hình dữ liệu của kho dữ liệu có thể thiết lập theo:
-Sơ đồ hình sao (star schema): Một bảng sự kiện ở trung tâm được kết nối với
một tập các bảng chiều.
16
-Sơ đồ bông tuyết (Snowflake schema): Một mở rộng của sơ đồ hình sao trong
đó một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình
thức tương tự như bơng tuyết.
2.1.7.Các bước xây dựng kho dữ liệu
Các bước xây dựng kho dữ liệu:
-Lập kế hoạch tổng thể.
-Xác định yêu cầu.
-Thiết kế.
-Xây dựng.
-Triển khai.
-Mở rộng và duy trì.
2.2.Phân tích trực tuyến (OLAP)
2.2.1. OLAP
OLAP là một kỹ thuật sử dụng các thể hiện dữ liệu đa chiều gọi là các khối
(cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. Tạo khối
(cube) cho dữ liệu trong các bảng chiều (dimension table) và bảng sự kiện (fact table)
trong kho dữ liệu và cung cấp khả năng thực hiện các truy vấn tinh vi và phân tích cho
các ứng dụng client.
Trong khi kho dữ liệu và data mart lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ
thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này. OLAP cung cấp nhiều
lợi ích cho người phân tích, cho ví dụ như:
Cung cấp mơ hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định
hướng và khám phá dữ liệu.
Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các
mối quan hệ trong dữ liệu kinh doanh phức tạp.
Dữ liệu được tính tốn trước đối với các truy vấn thường xuyên nhằm làm cho
thời gian trả lời rất nhanh đối với các truy vấn đặc biệt.
Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ
liệu dựa trên một tập các hàm tính tốn đặc biệt.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà
nếu cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ
mất rất nhiều thời gian.
2.2.2.Mơ hình dữ liệu đa chiều
Các nhà quản lý kinh doanh có khuynh hướng suy nghĩ theo “nhiều chiều”
(multidimensionally). Suy nghĩ một cách trực giác, việc kinh doanh như một khối (cube)
dữ liệu, với các nhãn trên mỗi cạnh của khối (xem hình bên dưới). Các điểm bên trong
khối là các giao điểm của các cạnh. Các cạnh của khối là Sản phẩm, Thị trường, và Thời
17
gian. Hầu hết mọi người đều có thể nhanh chóng hiểu và tưởng tượng rằng các điểm bên
trong khối là các độ đo hiệu quả kinh doanh mà được kết hợp giữa các giá trị Sản phẩm,
Thị trường và Thời gian.
Sản phẩm
Thời gian
Thị trường
Hình 2.3: Mơ hình đa chiều
2.2.3. Mơ phỏng các chiều trong kinh doanh
Một khối dữ liệu (datacube) thì khơng nhất thiết phải có cấu trúc 3 chiều (3-D),
nhưng về cơ bản là có thể có N chiều (N-D). Những cạnh của khối được gọi là các chiều
(dimensions), mà đó là các mặt hoặc các thực thể ứng với những khía cạnh mà tổ chức
muốn ghi nhận. Mỗi chiều có thể kết hợp với một bảng chiều (dimension table) nhằm mơ
tả cho chiều đó. Ví dụ, một bảng chiều của Sản phẩm có thể chứa những thuộc tính như
Ma_sanpham, Mo_ta, Ten_sanpham, Loai_SP,… mà có thể được chỉ ra bởi nhà quản trị
hoặc các nhà phân tích dữ liệu. Với những chiều không được phân loại, như là Thời gian,
hệ thống kho dữ liệu sẽ có thể tự động phát sinh tương ứng với bảng chiều (dimension
table) dựa trên loại dữ liệu. Cần nói thêm rằng, chiều Thời gian trên thực tế có ý nghĩa
đặc biệt đối với việc hỗ trợ quyết định cho các khuynh hướng phân tích. Thường thì nó
được mong muốn có một vài tri thức gắn liền với lịch và những mặt khác của chiều thời
gian.
Hơn nữa, một khối dữ liệu trong kho dữ liệu phần lớn được xây dựng để đo hiệu
quả của công ty. Do đó một mơ hình dữ liệu đa chiều đặc thù được tổ chức xung quanh một
chủ đề mà được thể hiện bởi một bảng sự kiện (fact table) của nhiều độ đo số học (là các đối
tượng của phân tích). Ví dụ, một bảng sự kiện có thể chứa số mặt hàng bán, thu nhập, tồn
kho, ngân sách,… Mỗi độ đo số học phụ thuộc vào một tập các chiều cung cấp ngữ cảnh cho
độ đo đó. Vì thế, các chiều kết hợp với nhau được xem như xác định duy nhất độ đo, là một
giá trị trong khơng gian đa chiều. Ví dụ như một kết hợp của Sản phẩm, Thời gian, Thị
trường vào 1 thời điểm là một độ đo duy nhất so với các kết hợp khác.
Các chiều được phân cấp theo loại. Ví dụ như chiều Thời gian có thể được mơ tả
bởi các thuộc tính như Năm, Quý, Tháng và Ngày. Mặt khác, các thuộc tính của một
chiều có thể được tổ chức vào một lưới mà chỉ ra một phần trật tự của chiều. Vì thế, cũng
với chiều Thời gian có thể được tổ chức thành Năm, Quý, Tháng, Tuần và Ngày. Với sự
sắp xếp này, chiều Thời gian khơng cịn phân cấp vì có những tuần trong năm có thể
thuộc về nhiều tháng khác nhau.
18
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tượng, dữ liệu có thể được xem từ
nhiều khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ liệu như
roll-up (tăng mức độ trừu tượng), drill-down (giảm mức độ trừu tượng hoặc tăng mức chi
tiết), slice and dice (chọn và chiếu), và pivot (định hướng lại khung nhìn đa chiều của dữ
liệu), cho phép tương tác truy vấn và phân tích dữ liệu rất tiện lợi. Những thao tác đó
được biết như Xử lý phân tích trực tuyến (On-Line Analytical Processing – OLAP).
Những nhà ra quyết định thường có những câu hỏi có dạng như “tính toán và
xếp hạng tổng số lượng hàng hoá bán được theo mỗi quốc gia (hoặc theo mỗi năm)”. Họ
cũng muốn so sánh hai độ đo số học như số lượng hàng bán và ngân sách được tổng hợp
bởi cùng các chiều. Như vậy, một đặc tính để phân biệt của mơ hình dữ liệu đa chiều là nó
nhấn mạnh sự tổng hợp của các độ đo bởi một hoặc nhiều chiều, mà đó là một trong
những thao tác chính yếu để tăng tốc độ xử lý truy vấn.
2.2.4.Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server:
Dịch vụ OLAP là một server tầng giữa (midle-tier server) phục vụ cho phân tích
xử lý trực tuyến (OLAP). Hệ thống dịch vụ OLAP là một công cụ mạnh trong việc xây
dựng các khối đa chiều của dữ liệu cho phân tích và cung cấp khả năng truy xuất nhanh
đến thông tin khối cho các client.
Kiến trúc dịch vụ OLAP được chia thành 2 phần: Phần server (được đại diện bởi
OLAP server) và phần client (là dịch vụ PivotTable). Cả dịch vụ OLAP và dịch vụ PivotTable
đều cho phép thiết kế, tạo mới và quản lý các khối (cube) từ kho dữ liệu (data warehouse) và
cho phép các client truy xuất đến dữ liệu OLAP. Có thể hiểu rằng OLAP server quản lý dữ liệu
còn dịch vụ PivotTable làm việc với server để cho client truy xuất dữ liệu.
Hình 2.4: Kiến trúc dịch vụ OLAP
19
Các đặc điểm của dịch vụ OLAP:
Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp
thực hiện (wizard).
Linh động: Mơ hình dữ liệu mạnh cho định nghĩa khối (cube) và lưu trữ.
Các khối có thể ghi (Write-enable): Cho các kịch bản phân tích dạng “what if”.
Kiến trúc có thể co dãn (scalable architecture): Cung cấp một sự đa dạng các
kịch bản lưu trữ và giải pháp tự động đối với “hội chứng bùng nổ dữ liệu” mà gây khó
chịu cho các kỹ thuật OLAP.
Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu và client/server
caching.
Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý.
2.3.Khai phá dữ liệu
2.3.1. Khái niệm về khai phá dữ liệu
Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL.
Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh
doanh, các hoạt động sản xuất, ... Khai phá dữ liệu làm giảm chi phí về thời gian so với
phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê).
2.3.2.Ứng dụng của khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực:
thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật tốn, tính tốn song song và tốc độ cao, thu
thập tri thức cho các hệ chuyên gia, quan sát dữ liệu... Đặc biệt phát hiện tri thức và khai
phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mơ
hình dữ liệu và phát hiện các mẫu, luật ...
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:
- Bảo hiểm, tài chính và thị trường chứng khốn: phân tích tình hình tài chính
và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn và giá,
lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, ...
- Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.
- Điều trị y học và chăm sóc y tế: một số thơng tin về chuẩn đoán bệnh lưu
trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh,
chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, ...)
- Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố.
- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt
văn bản,...
20
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm
kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di
truyền, ...
- Mạng viễn thơng: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi,
sự cố, chất lượng dịch vụ, ...
2.3.3.Nhiệm vụ chính trong khai phá dữ liệu
Phân lớp (phân loại - classification): Là việc xác định một hàm ánh xạ từ một
mẫu dữ liệu vào một trong số các lớp đã được biết trước đó. Mục tiêu của thuật tốn phân
lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp. Như thế
q trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới. Các kiến
thức được phát hiện biểu diễn dưới dạng các luật theo cách sau: “Nếu các thuộc tính dự
báo của một mục thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong
kết luận”.
Hồi qui (regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành
một biến dự đốn có giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác
nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ khơng phải rời rạc.
Phân nhóm (clustering): Là việc mơ tả chung để tìm ra các tập hay các nhóm,
loại mơ tả dữ liệu. Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa
là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác.
Tổng hợp (summarization): Là cơng việc liên quan đến các phương pháp tìm
kiếm một mơ tả tập con dữ liệu [1, 2, 5]. Kỹ thuật tổng hợp thường áp dụng trong việc
phân tích dữ liệu có tính thăm dị và báo cáo tự động. Nhiệm vụ chính là sản sinh ra các
mơ tả đặc trưng cho một lớp. Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính
chung của tất cả hay hầu hết các mục của một lớp. Các mô tả đặc trưng thể hiện theo luật
có dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong tiền đề thì mục đó có tất cả các
thuộc tính đã nêu trong kết luận”. Lưu ý rằng luật dạng này có các khác biệt so với luật
phân lớp. Luật phát hiện đặc trưng cho lớp chỉ sản sinh khi các mục đã thuộc về lớp đó.
2.3.4.Các phương pháp trong khai phá dữ liệu
Các phương pháp sinh cây quyết định.
Các phương pháp thống kê.
Các mạng Noron
Các mạng xác suất Bayes
Các thuật toán di truyền
Phương pháp láng giềng gần nhất.
v.v…
21
2.4.Giới thiệu công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008
2.4.1Business Intelligent (BI)
Các cơ sở dữ liệu lưu trữ dữ liệu thật sự hiệu quả như là một công cụ nghiệp vụ
khi được sử dụng để hỗ trợ các quyết định kinh doanh. Những quyết định này có thể
mang tính chiến lược (có nên tăng điểm tuyển sinh đầu vào trong năm học tới khơng?) có
tính chiến thuật (chiến lược thay đổi khung chương trình nào thì tốt nhất?),... Tuy nhiên,
tất cả các quyết định này đòi hỏi đúng dữ liệu, vào đúng thời điểm, bằng đúng định dạng.
BI là một tập hợp các hoạt động để hiểu biết một cách sâu sắc về doanh nghiệp
bằng việc thực hiện các loại phân tích khác nhau trên dữ liệu của công ty cũng như trên
dữ liệu để đề ra chiến lược, sách lược và điều hành các quyết định kinh doanh, thực hiện
các hành động cần thiết để cải thiện tình hình kinh doanh. Một vài ví dụ phổ biến nhất của
việc triển khai BI là phân tích khả năng sinh lợi, nghiên cứu sở thích của sinh viên, năng
lực của sinh viên, nghiên cứu sản phẩm lợi nhuận, đánh giá con số bán hàng trên các sản
phẩm khác nhau và các khu vực,…
Tóm lại: BI là qui trình và cơng nghệ mà các doanh nghiệp dùng để kiểm soát
khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các
các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình. Cơng nghệ BI (BI
technology) cung cấp một cách nhìn tồn cảnh hoạt động của doanh nghiệp từ quá khứ,
hiện tại và các dự đoán tương lai. Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết
định tốt hơn. Vì vậy một hệ thống BI (BI system) còn được gọi là hệ thống hỗ trợ quyết
đinh (Decision Support System -DSS)
2.4.2.Các thành phần chính của hệ thống BI
Các thành phần chính của hệ thống BI được mơ tả như hình dưới đây:
22
Hình 2.5. Các thành phần chính của hệ thống Business Intelligence
Vấn đề cốt lõi trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá
dữ liệu (Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều
định dạng, phân tán và có tính lịch sử) đó là đặc trung của kho dữ liệu. Đồng thời việc
phân tích dữ liệu trong BI khơng phải là những phân tích đơn giản (query, Filtering) mà là
những kỹ thuật trong khai phá dữ liệu (Data Mining) dùng để phân loại (classification)
phân cụm (clustering), hay dự đoán (Prediction). Vì vậy BI có mối quan hệ rất chặt chẽ
với Data Warehouse và Data mining.
Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính
như sau:
23