Tải bản đầy đủ (.pdf) (69 trang)

phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.49 MB, 69 trang )

Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i
MỤC LỤC
MỤC LỤC i
LỜI CAM ĐOAN iii
LỜI CẢM ƠN iv
DANH MỤC TỪ VIẾT TẮT v
DANH MỤC HÌNH BẢNG vi
MỞ ĐẦU 1
CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3
1.1 Khai phá dữ liệu 3
1.1.1 Hình thành và định nghĩa bài toán 4
1.1.2 Thu thập và tiền xử lý dữ liệu 4
1.1.3 Khai phá dữ liệu và rút ra các tri thức 5
1.1.4 Phân tích và kiểm định kết quả 6
1.1.5. Sử dụng các tri thức phát hiện đƣợc 6
1. 2 Quá trình khai phá dữ liệu 7
1.3 Các phƣơng pháp khai phá dữ liệu 10
1.3.1. Phân lớp dữ liệu 10
1.3.2. Phân cụm dữ liệu 10
1.3.3 Khai phá luật kết hợp 11
1.3.4 Hồi quy 11
1.3.5 Giải thuật di truyền 11
1.3.6 Mạng nơron 11
1.3.7 Cây quyết định 12
1.4 Nhu cầu khai phá dữ liệu 13
1.5. Kết luận 13
CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ 14


2.1 Phƣơng pháp thống kê toán học 14
2.1.1 Biến ngẫu nhiên 14
2.1.2 Các ví dụ 15
2.1.3 Các số đặc trƣng 16
2.2. Khai phá dữ liệu với phƣơng pháp thống kê 17
2.3. Tri thức nền tảng 18
2.3.1. Các phƣơng pháp quan tâm 19
2.3.2. Trình diễn và trực quan của các mẫu đƣợc khai phá 19
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ii
2.4. Dữ liệu liên quan tới nhiệm vụ 19
2.4.1. Dữ liệu thích hợp với nhiệm vụ 19
2.4.2. Kiểu tri thức đƣợc khai phá 20
2.4.3. Kiến thức nền tảng 20
2.4.4. Các phép đo sự hấp dẫn của mẫu 20
2.4.5. Hình ảnh hóa của các mẫu đƣợc khai phá 20
2.5. Các loại tri thức đƣợc khai phá 22
2.5.1. Phân cấp khái niệm 23
2.5.2. Phân cấp lƣợc đồ 26
2.5.3. Phân cấp theo nhóm 26
2.5.4. Phân cấp theo thao tác 27
2.5.5. Phân cấp theo luật 28
2.5.6. Độ đo về tiêu chí quan tâm 28
2.6. Thể hiện và trực quan của các mẫu đƣợc phát hiện 32
2.7. Phân tích thành phần chính 34
2.8. Kết luận 39
CHƢƠNG 3. KHAI PHÁ DỮ LIỆU TẠI TRUNG TÂM 40

3.1. Về cơ sở đào tạo 40
3.2. Công cụ OLAP 43
3.2.1 Về OLAP 43
3.2.2. Mô hình dữ liệu đa chiều 43
3.2.3 Giới thiệu dịch vụ OLAP của Microsoft SQL Server 46
3.2.4 So sánh OLAP với OLTP 47
3.2.5 Các mô hình lƣu trữ hỗ trợ OLAP 48
3.2.6.Kiến trúc khối của OLAP 52
3.2.7. Mô hình kiến trúc dịch vụ OLAP 53
3.3. Dữ liệu về đào tạo 56
3.3.1. Dữ liệu 56
3.3.2. Khai phá dữ liệu 57
3.4. Kết luận 58
KẾT LUẬN 59
Một số vấn đề đã giải quyết 59
Phƣơng hƣớng tiếp tục nghiên cứu 60
TÀI LIỆU THAM KHẢO 61

Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iii
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là kết quả tìm hiểu, nghiên cứu của tôi. Các
số liệu, kết quả trong luận văn là trung thực. Tài liệu sử dụng, trích dẫn trong luận
văn là trung thực chƣa từng công bố trong công trình nghiên cứu khác.
Học viên

Lƣơng Thị Thúy Nga

Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iv
LỜI CẢM ƠN
Trƣớc tiên tôi xin đƣợc trân trọng gửi lời cảm ơn chân thành tới các thầy cô
đã giảng dạy chúng tôi trong các môn chuyên đề sau đại học, cũng nhƣ trong quá
trình thực tập và viết, hoàn thiện luận văn. Đặc biệt, xin cảm ơn thầy Đỗ Trung
Tuấn, đã giúp đỡ, chỉ bảo đối với luận văn này.
Nhân dịp này, xin gửi lời cám ơn đến Trung tâm Giáo dục thƣờng xuyên tỉnh
Yên Bái. Xin chân thành cảm ơn lãnh đạo và đồng nghiệp trong Trung tâm, đã giúp
đỡ tạo mọi điều kiện cho tôi trong quá trình học tập, công tác để tôi có thể làm luận
văn tốt nghiệp, và hoàn thành đề tài nghiên cứu khoa học này.
Trong thời gian vừa qua mặc dù tôi đã cố gắng rất nhiều để hoàn thành tốt đề
tài nghiên cứu này. Song chắc chắn kết quả nghiên cứu không tránh khỏi còn nhiều
thiếu sót, vì vậy tôi rất mong nhận đƣợc sự chỉ bảo góp ý của quý thầy cô và bạn bè
đồng nghiệp để nghiên cứu này đƣợc hoàn thiện hơn.
Chân thành cám ơn chồng tôi và ngƣời thân trong gia đình, đã động viên và
tạo điều kiện tài chính, thời gian, cho tôi có thể học tập sau đại học.

Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

v
DANH MỤC TỪ VIẾT TẮT

ADO
Microsoft ActiveX Data Objects

API
Giao diện cổng chung
City
Thành phố
CNTT
Công nghệ Thông tin
Country
Vùng
CSDL
Cơ sở dữ liệu
IT
Công nghệ Thông tin
ITEM
Mặt hàng
KDD
Khai phá tri thức
MOLAP
OLAP nhiều chiều
OLAP
Xử lí phân tích dữ liệu trực tuyến
OLTP
Phân tích trực tuyến
PCA
Phân tích thành phần chính
Province
Tỉnh
ROLAP
OLAP quan hệ
SERVER
Máy chủ

State
Bang
SV
Sinh viên
TV
Vô tuyến truyền hình
URL
Vị trí tài nguyên Internet
VCR
Đầu đọc băng video
Web
Trang tin
WWW
World Wide Web


Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

vi
DANH MỤC HÌNH BẢNG
Hình 1.1 . Khai phá dữ liệu 3
Hình 1.2. Xử lí dữ liệu 5
Hình 1.3. Tri thức 6
Hình 1.4. Quá trình khai phá dữ liệu 8
Hình 1.5. Kiến trúc hệ thống khai phá dữ liệu 9
Hình 1.6. Phân lớp dữ liệu 10
Hình 1.7. Phân cụm dữ liệu 10
Hình 1.8. Mạng Nơron 12

Hình 1.9. Cây quyết định 12
Hình 2.1 . Dữ liệu liên quan đến nhiệm vụ 18
Hình 2.2 . Thí dụ về phân phối hàng 24
Hình 2.3. Các mẫu thể hiện 33
Hình 2.4. Dữ liệu thí dụ cho PCA 36
Hình 2.5. Đƣờng dữ liệu chuẩn hoá (đã trừ trung bình) 38
Hình 3.1. Trang tin của Trung tâm 41
Hình 3.2. Kế hoạch dạy và học của Trung tâm 42
Hình 3.3. Địa bàn tổ chức đào tạo của Trung tâm 42
Hình 3.4. Mô phỏng các chiều trong kinh doanh 44
Hình 3.5. Kiến trúc OLAP 46
Hình 3.6. Mô hình dữ liệu MOLAP 48
Hinh 3.7 Mô hình dữ liệu ROLAP 50
Hình 3.8. Mô hình dữ liệu HOLAP 51
Hình 3.9. Kiến trúc dịch vụ OLAP 54
Hình 3.10. Kiến trúc thành phần Server 54
Hình 3.11. Kiến trúc thành phần Khách 55
Hình 3.12. Dữ liệu gốc 57
Hình 3.13. Thí dụ sử dụng OLAP với bảng xoay 57
Hình 3.14. Thí dụ sử dụng nhiều tham số cột xoay 58



Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

vii




Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

viii
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

1
MỞ ĐẦU
Ngày nay, xã hội con ngƣời thực hiện cuộc cách mạng về thông tin. Tri thức
đƣợc đánh giá nhƣ là quyền lực và tiền bạc. Xã hội cũng dần chuyển sang xã hội tri
thức, tức các sản phẩm quốc dân có hàm lƣợng tri thức cao. Công nghệ thông tin
đáp ứng nhu cầu xử lý dữ liệu và tri thức. Bên cạnh công nghệ phần mềm là công
nghệ tri thức. Công nghệ tri thức đƣợc nghiên cứu nhằm tích lũy tri thức của chuyên
gia, làm máy tính thực hiện những chức năng thông minh nhƣ ngƣời, đồng thời làm
con ngƣời cũng tự nâng cao bản thân.
Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc
trong xã hội và trong cuộc sống của chúng ta. Những thuận lợi mà thông tin kỹ
thuật số mang lại cũng sinh ra những thách thức và cơ hội mới cho quá trình đổi
mới. Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi diễn ra quá trình trao
đổi thông tin trong mọi lĩnh vực chính trị, quân sự, quốc phòng, kinh tế, thƣơng
mại…Trong hệ thống đào tạo Đại học và sau Đại học về Công nghệ thông tin, các
chủ đề về Trí tuệ nhân tạo, hệ chuyên gia, dịch tự động…đều liên quan đến tri thức.
Nhiều ứng dụng về Công nghệ thông tin đã và đang sử dụng tri thức nhƣ dữ liệu
Meta, điều khiển quá trình xử lý dữ liệu.
Hiện nay trong nhiều cơ sở đào tạo có nhiều phần mềm cho phép xử lý dữ
liệu. Những dữ liệu liên quan đến công tác đào tạo gồm: Các kết quả dạy và học,

những học liệu điện tử, các giáo trình số hóa…ngày càng nhiều, cần đƣợc xử lý một
cách khoa học. Vấn đề khai phá các dữ liệu có áp dụng công nghệ ngày càng đƣợc
sử dụng nhiều hơn trên nhiều lĩnh vực và ngay cả trong lĩnh vực giáo dục. Chính vì
vậy, tôi chọn đề tài: “Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo”.
Vấn đề nghiên cứu và ứng dụng thuộc phạm vi mã ngành Khoa học máy tính, mã số
60.48.01 về khai phá dữ liệu. Trong phạm vi nghiên cứu này tôi xin trình bày các
nội dung sau:

Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2
 Chƣơng 1: Tổng quan về kĩ thuật khai phá dữ liệu
Chƣơng này đề cập đến kĩ thuật khai phá dữ liệu, các phƣơng pháp
khai phá dữ liệu và nhu cầu của khai phá dữ liệu.
 Chƣơng 2: Một số phƣơng pháp xử lí dữ liệu nhờ thống kê
Chƣơng này trình bày các phƣơng pháp thống kê, các thành phần đặc
trƣng của dữ liệu và cách chọn, phân tích và đánh giá thành phần dữ
liệu chính.
 Chƣơng 3: Phân tích dữ liệu phục vụ công tác đào tạo
Chƣơng này xây dựng, phân tích thiết kế và mô phỏng chƣơng trình
thử nghiệm.
Kết luận sẽ là đánh giá kết quả đạt đƣợc và các vấn đề tồn tại cần khắc phục
tiếp. Phần cuối luận văn là danh sách các tài liệu tham khảo, sử dụng trong quá trình
chuẩn bị luận văn.
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


3
CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 Khai phá dữ liệu
Việc dùng các phƣơng tiện tin học để tổ chức và khai thác các CSDL đã
đƣợc phát triển từ những năm 60, nhiều CSDL đã đƣợc tổ chức, phát triển và khai
thác ở mọi qui mô và khắp các lĩnh vực hoạt động của xã hội. Với sự phát triển
mạnh mẽ của máy tính và các mạng viễn thông, ngƣời ta đã xây dựng đƣợc nhiều hệ
CSDL lớn tập trung hoặc phân tán, nhiều hệ quản trị CSDL mạnh với các công cụ
phong phú và thuận tiện giúp con ngƣời khai thác có hiệu quả các nguồn tài nguyên
dữ liệu trong các hoạt động kinh tế xã hội. Sự phát triển nhanh chóng của một lƣợng
lớn dữ liệu đƣợc thu thập và lƣu trữ trong các CSDL lớn đã vƣợt ra ngoài khả năng
của con ngƣời có thể hiểu đƣợc chúng nếu không có những công cụ hỗ trợ tốt. Kết
quả là, dữ liệu thu thập đƣợc trong một lƣợng lớn CSDL đã trở thành những đống
dữ liệu mà ít khi đƣợc xem xét đến. Do vậy, việc đƣa ra những quyết định thƣờng
không dựa vào những thông tin hoặc dữ liệu thu thập đƣợc mà chỉ dựa vào nhận
thức, suy đoán của ngƣời đƣa ra quyết định. Đơn giản là vì họ không có những công
cụ giúp cho việc lấy ra những tri thức từ lƣợng lớn dữ liệu. Tình huống này đã đặt
chúng ta trong hoàn cảnh nhiều dữ liệu nhƣng thiếu thông tin, thiếu tri thức. Với
một khối lƣợng lớn dữ liệu nhƣ vậy rõ ràng là các phƣơng pháp thủ công truyền
thống áp dụng để phân tích dữ liệu nhƣ chia bảng không còn là phù hợp nữa Chính
vì vậy, có một kỹ thuật mới ra đời đó là “Khai phá dữ liệu”.

Hình 1.1 . Khai phá dữ liệu
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4
Khai phá dữ liệu là một ngữ tƣơng đối mới, nó ra đời vào khoảng những năm
cuối của của thập kỷ 1980. Có rất nhiều định nghĩa khác nhau về khai phá dữ liệu.

Giáo sƣ Tom Mitchell đã đƣa ra định nghĩa của khai phá dữ liệu nhƣ sau: “Khai phá
dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện
những quyết định trong tƣơng lai.”. Với một cách tiếp cận ứng dụng hơn, tiến sĩ
Fayyad đã phát biểu: ”Khai phá dữ liệu thƣờng đƣợc xem là việc khám phá tri thức
trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trƣớc đây
chƣa biết và có khả năng hữu ích, dƣới dạng các quy luật, ràng buộc, qui tắc trong
cơ sở dữ liệu.”. Còn các nhà thống kê thì xem " khai phá dữ liệu nhƣ là một quá
trình phân tích đƣợc thiết kế thăm dò một lƣợng cực lớn các dữ liệu nhằm phát hiện
ra các mẫu thích hợp và / hoặc các mối quan hệ mang tính hệ thống giữa các biến và
sau đó sẽ hợp thức hoá các kết quả tìm đƣợc bằng cách áp dụng các mẫu đã phát
hiện đƣợc cho tập con mới của dữ liệu".
Nói tóm lại: khai phá dữ liệu là một bƣớc trong quy trình phát hiện tri thức
gồm có các thụât toán khai thác dữ liệu chuyên dùng dƣới một số quy định về hiệu
quả tính toán chấp nhận đƣợc để tìm ra các mẫu hoặc các mô hình trong dữ liệu.
Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc
các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu
đƣợc.
1.1.1 Hình thành và định nghĩa bài toán
Đây là bƣớc tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bƣớc này sẽ
quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phƣơng
pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu.
1.1.2 Thu thập và tiền xử lý dữ liệu
Trong bƣớc này dữ liệu đƣợc thu thập ở dạng thô (nguồn dữ liệu thu thập có
thể là từ các kho dữ liệu hay nguồn thông tin Internet). Trong giai đoạn này dữ liệu
cũng đƣợc tiền xử lý để biến đổi và cải thiện chất lƣợng dữ liệu cho phù hợp với
phƣơng pháp khai phá dữ liệu đƣợc chọn lựa trong bƣớc trên.
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


5

Hình 1.2. Xử lí dữ liệu
Bƣớc này thƣờng chiếm nhiều thời gian nhất trong quá trình khám phá tri
thức. Các giải thuật tiền xử lý dữ liệu bao gồm :
 Xử lý dữ liệu bị mất/ thiếu: Các dạng dữ liệu bị thiếu sẽ đƣợc thay thế
bởi các giá trị thích hợp.
 Khử sự trùng lắp: các đối tƣợng dữ liệu trùng lắp sẽ bị loại bỏ đi. Kỹ
thuật này không đƣợc sử dụng cho các tác vụ có quan tâm đến phân
bố dữ liệu.
 Giảm nhiễu: nhiễu và các đối tƣợng tách rời khỏi phân bố chung sẽ bị
loại đi khỏi dữ liệu.
 Chuẩn hoá: miền giá trị của dữ liệu sẽ đƣợc chuẩn hoá.
 Rời rạc hoá: các dạng dữ liệu số sẽ đƣợc biến đổi ra các giá trị rời rạc.
 Rút trích và xây dựng đặc trƣng mới từ các thuộc tính đã có.
 Giảm chiều: các thuộc tính chứa ít thông tin sẽ đƣợc loại bỏ bớt.
1.1.3 Khai phá dữ liệu và rút ra các tri thức
Đây là bƣớc quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của
bƣớc này là trích ra đƣợc các mẫu và/hoặc các mô hình ẩn dƣới các dữ liệu. Một mô
hình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

6
hệ thống trong cơ sở dữ liệu, hay miêu tả cách dữ liệu đƣợc nảy sinh. Còn một mẫu
là một cấu trúc cục bộ có liên quan đến vài biến và vài trƣờng hợp trong cơ sở dữ
liệu.
1.1.4 Phân tích và kiểm định kết quả
Bƣớc thứ tƣ là hiểu các tri thức đã tìm đƣợc, đặc biệt là làm sáng tỏ các mô

tả và dự đoán. Trong bƣớc này, kết quả tìm đƣợc sẽ đƣợc biến đổi sang dạng phù
hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho ngƣời dùng.

Hình 1.3. Tri thức

1.1.5. Sử dụng các tri thức phát hiện được
Trong bƣớc này, các tri thức khám phá đƣợc sẽ đƣợc củng cố, kết hợp lại
thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức
đó. Các mô hình rút ra đƣợc đƣa vào những hệ thống thông tin thực tế dƣới dạng
các modul hỗ trợ việc đƣa ra quyết định. Các giai đoạn của quá trình khám phá tri
thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ
thuật đƣợc sử dụng trong giai đoạn trƣớc có thể ảnh hƣởng đến hiệu quả của các
giải thuật đƣợc sử dụng trong các giai đoạn tiếp theo. Các bƣớc của quá trình khám
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

7
phá tri thức có thể đƣợc lặp đi lặp lại một số lần, kết quả thu đƣợc có thể đƣợc lấy
trung bình trên tất cả các lần thực hiện.
1. 2 Quá trình khai phá dữ liệu
Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức.
Thuật ngữ khai phá dữ liệu còn đƣợc một số nhà khoa học gọi là phát hiện tri thức
trong cơ sở dữ liệu.
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức
đƣợc chiết xuất ra. Nội dung của quá trình nhƣ sau:
1. Gom dữ liệu : Tập hợp dữ liệu là bƣớc đầu tiên trong khai phá dữ liệu.
Bƣớc này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm
chí dữ liệu từ những nguồn cung ứng web.
2. Trích lọc dữ liệu : Ở giai đoạn này dữ liệu đƣợc lựa chọn và phân chia

theo một số tiêu chuẩn nào đó.
3. Làm sạch và tiền xử lý dữ liệu : Giai đoạn thứ ba này là giai đoạn hay bị
sao nhãng, nhƣng thực tế nó là một bƣớc rất quan trọng trong quá trình
khai phá dữ liệu. Một số lỗi thƣờng mắc phải trong khi gom dữ liệu là dữ
liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu
thƣờng chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Ví
dụ Sinh viên có tuổi = 200. Giai đoạn thứ ba này nhằm xử lý các dữ liệu
nhƣ trên (dữ liệu vô nghĩa, dữ liệu không có khả năng kết nối). Những dữ
liệu dạng này thƣờng đƣợc xem là thông tin dƣ thừa, không có giá trị.
Bởi vậy đây là một quá trình rất quan trọng. Nếu dữ liệu không đƣợc làm
sạch- tiền xử lý - chuẩn bị trƣớc thì sẽ gây nên những kết quả sai lệch
nghiêm trọng về sau.
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

8

Hình 1.4. Quá trình khai phá dữ liệu
4. Chuyển đổi dữ liệu : Trong giai đoạn này, dữ liệu có thể đƣợc tổ chức và
sử dụng lại. Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù
hợp hơn với mục đích khai phá dữ liệu.
5. Phát hiện và trích mẫu dữ liệu : Đây là bƣớc tƣ duy trong khai phá dữ
liệu. Ở trong giai đoạn này nhiều thuật toán khác nhau đã đƣợc sử dụng
để trích ra các mẫu từ dữ liệu. Thuật toán thƣờng dùng để trích mẫu dữ
liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình
hoá dữ liệu tuần tự.
6. Đánh giá kết quả mẫu : đây là giai đoạn cuối cùng trong quá trình khai
phá dữ liệu, ở giai đoạn này các mẫu dữ liệu đƣợc chiết xuất ra bởi phần
mềm khai phá dữ liệu. Không phải mẫu dữ liệu nào cũng hữu ích, đôi khi

nó còn bị sai lệch. Vì vậy cần phải đƣa ra những tiêu chuẩn đánh giá độ
ƣu tiên cho các mẫu dữ liệu để rút ra đƣợc những tri thức cần thiêt.
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

9

Hình 1.5. Kiến trúc hệ thống khai phá dữ liệu
Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần
chính nhƣ trong hình.
 Kho dữ liệu: là một tập các cơ sở dữ liệu, các công cụ làm sạch dữ
liệu và tích hợp dữ liệu có thể thực hiện trên chúng.
 Cơ sở tri thức: là yếu tố tri thức đƣợc dùng để đánh giá các mẫu kết
quả khai phá đƣợc.
 Kỹ thuật khai phá: là các công cụ để thực hiện các nhiệm vụ: mô tả,
kết hợp, phân lớp, phân nhóm dữ liệu.
 Công cụ đánh giá mẫu: gồm một số modul sử dụng các độ đo và
tƣơng tác với các modul khai phá dữ liệu để tập trung vào các thuộc
tính cần quan tâm.
 Biểu diễn dạng đồ hoạ: modul này giao tiếp giữa ngƣời dùng và hệ
thống khai phá dữ liệu.
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

10
1.3 Các phương pháp khai phá dữ liệu
1.3.1. Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu.

Quá trình gồm hai bƣớc: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu
(mỗi mẫu một lớp). Mô hình đƣợc sử dụng để dự đoán nhãn lớp khi mà độ chính
xác của mô hình chấp nhận đƣợc.

Hình 1.6. Phân lớp dữ liệu
1.3.2. Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tƣợng tƣơng tự nhau trong
tập dữ liệu vào các cum, sao cho các đối tƣợng thuộc cùng một lớp là tƣơng đồng.

Hình 1.7. Phân cụm dữ liệu
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

11
1.3.3 Khai phá luật kết hợp
Mục tiêu của phƣơng pháp này là phát hiện và đƣa ra các mối liên hệ giữa
các giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật
kết hợp tìm đƣợc. Phƣơng pháp khai phá luật kết hợp gồm có hai bƣớc:
1. Bƣớc 1: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến
đƣợc xác định thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực
tiểu.
2. Bƣớc 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật
phải thoả mãn độ hỗ trợ và độ tin cậy cực tiểu.
1.3.4 Hồi quy
Phƣơng pháp hồi quy tƣơng tự nhƣ là phân lớp dữ liệu. Nhƣng khác ở chỗ
nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các
giá trị rời rạc.
1.3.5 Giải thuật di truyền
Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tƣởng chính của giải

thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá
trong sinh học.
1.3.6 Mạng nơron
Đây là một trong những kỹ thuật khai phá dữ liệu đƣợc ứng dụng phổ biến
hiện nay. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả
năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ƣơng của con
ngƣời.
Kết quả mà mạng nơron học đƣợc có khả năng tạo ra các mô hình dự báo,
dự đoán với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra đƣợc các
xu hƣớng phức tạp mà kỹ thuật thông thƣờng khác khó có thể phát hiện ra đƣợc.
Tuy nhiên phƣơng pháp mạng nơ ron rất phức tạp và quá trình tiến hành nó gặp rất
nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử
nghiệm.
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

12

Hình 1.8. Mạng Nơron
1.3.7 Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân
lớp và dự báo. Các đối tƣợng dữ liệu đƣợc phân thành các lớp. Các giá trị của đối
tƣợng dữ liệu chƣa biết sẽ đƣợc dự đoán, dự báo. Tri thức đƣợc rút ra trong kỹ thuật
này thƣờng đƣợc mô tả dƣới dạng tƣờng minh, đơn giản, trực quan, dễ hiểu đối với
ngƣời sử dụng.

Hình 1.9. Cây quyết định
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

13
1.4 Nhu cầu khai phá dữ liệu
Hiện nay nhu cầu khai phá thông tin từ các cơ sở dữ liệu lớn ngày càng
nhiều. Phát hiện tri thức và khai phá dữ liệu đƣợc ứng dụng trong nhiều ngành và
lĩnh vực khác nhau nhƣ: tài chính ngân hàng, thƣơng mại, y tế, giáo dục, thống kê,
máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán toán học, tính toán song song với
tốc độ cao, thu thập cơ sở tri thức cho hệ chuyên gia,… Chính từ nhu cầu khai phá
dữ liệu mạnh mẽ trong nhiều lĩnh vực đời sống xã hội đã tạo ra các phƣơng pháp
khai phá dữ liệu linh động, uyển chuyển để xử lý số lƣợng dữ liệu lớn một cách
hiệu quả. Tạo ra tƣơng tác ngƣời sử dụng tốt, giúp ngƣời sử dụng tham gia điều
khiển quá trình khai phá dữ liệu, định hƣớng hệ thống khai phá dữ liệu trong việc
phát hiện các mẫu đáng quan tâm. Tích hợp khai phá dữ liệu vào trong các hệ cơ sở
dữ liệu. Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến. Một vấn đề
quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề
an toàn và bảo mật thông tin trong khai phá dữ liệu.
1.5. Kết luận
Chƣơng đầu đã trình bày một số phƣơng pháp khai phá dữ liệu, một số kĩ
thuật đã sử dụng trong nhiều ngành để chỉ ra tri thức hay dữ liệu mới. Khai phá dữ
liệu có nhu cầu trong công tác xử lí dữ liệu, cũng nhƣ trong công tác quản lý nói
chung. Việc sử dụng các phƣơng pháp khai phá dữ liệu có ý nghĩa trong quản lý đào
tạo, đặc biệt cho Trung tâm đào tạo tại tỉnh miền núi của đất nƣớc.
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

14
CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ
2.1 Phương pháp thống kê toán học

Trong thống kê toán học chủ yếu tìm hiểu về một số phƣơng pháp thống kê
cơ bản nhƣ: Biến (mẫu) ngẫu nhiên và các số đặc trƣng, ƣớc lƣợng tham số, kiểm
định giả thiết, phân tích phƣơng sai và phân tích hồi quy
2.1.1 Biến ngẫu nhiên
Biến ngẫu nhiên (thực) là biến nhận giá trị là các số thực phụ thuộc vào kết
quả của các phép thử ngẫu nhiên. Ta thƣờng dùng các chữ cái in hoa X, Y, Z … để
chỉ các biến ngẫu nhiên và các chữ cái thƣờng x,y,z…hoặc x
i
, y
j
…để chỉ các giá trị
ngẫu nhiên mà các biến đó nhận.
 Ví dụ 1: Tung đồng thời hai con xúc xắc. Gọi X là tổng số chấm ở hai
mặt trên, X là biến ngẫu nhiên có thể nhận giá trị từ 2 đến 12.
 Ví dụ 2: Một ngƣời nhắm bắn vào bia cho tới khi nào trúng bia thì
ngừng, Gọi Y là số đạn cần dùng. Y là một biến ngẫu nhiên nhận các
giá trị từ 1,2, ,n…
 Ví dụ 3: Thắp sáng liên tục một bóng đèn điện cho tới khi dây tóc của
bóng đèn bị cháy, gọi Z là thời gian bóng đèn sáng, Z là một biến
ngẫu nhiên.
Qua ví dụ trên ta nhận thấy có hai loại biến ngẫu nhiên:
1. Loại thứ nhất là biến ngẫu nhiên chỉ nhận một số hữu hạn hay vô hạn
đếm đƣợc các giá trị. (Một tập đƣợc gọi là hữu hạn nếu tồn tại một phép
tƣơng ứng một – một tới tập các số tự nhiên N).
2. Loại thứ hai là biến ngẫu nhiên mà nó có thể nhận giá trị trong một
khoảng hoặc một số khoảng thực nào đó. Loại biến ngẫu nhiên thứ nhất
gọi là biến ngẫu nhiên rời rạc. Loại biến ngẫu nhiên thứ hai gọi là biến
ngẫu nhiên liên tục.
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

15
Bảng phân phối xác suất của biến ngẫu nhiên rời rạc: Bảng phân phối xác
suất của một biến ngẫu nhiên X là một bảng gồm 2 dòng: Dòng trên ghi các giá trị
có thể có của biến ngẫu nhiên X, dòng dƣới ghi các xác suất tƣơng ứng. Nếu X nhận
một số hữu hạn các giá trị thì bảng phân phối xác suất của X là:



Nếu X nhận một số vô hạn đếm các giá trị thì bảng phân phối xác suất của X
là:

P
i
=P (X = x
i
) là xác suất để X nhận giá trị là x
i

Do X nhận và chỉ nhận một trong các giá trị x
i
nên ta có ∑ pi =1 đối vói bảng
thứ nhất và ∑ pi = 1 đối với bảng thứ 2.
2.1.2 Các ví dụ
Ví dụ 1: Một ngƣời chơi trò chơi ăn tiền bằng cách tung đồng thời 2 đồng
tiền cân đối và đồng chất. Nếu cả hai xuất hiện mặt sấp anh ta đƣợc 100 đồng, nếu
cả hai xuất hiện mặt ngửa anh ta mất 40 đồng còn xuất hiện một sấp một ngửa anh
ta mất 30 đồng. Gọi X là số tiền anh ta nhận đƣợc sau một ván chơi. Lập bảng phân
phối xác suất của X

Nhận thấy X có thể nhận các giá trị - 40, -30, 100 tƣơng ứng với việc mất 40
đồng, mất 30 đồng và nhận đƣợc 100 đồng.
Vậy bảng phân phối xác suất của X là:

Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

16

Ví dụ 2: Một ngƣời nhắm bắn vào một mục tiêu cho tới khi trúng đích thì
dừng. Các lần bắn độc lập, xác suất trúng đích của mỗi lần bắn là p (0 < p< 1). Gọi
Z là số đạn phải dùng. Lập bảng phân phối xác suất của Z.

Nhận thấy Z có thể nhận các giá trị 1,2 …,n,…
P (Z=n)= q
n-1
p (q=1-p). Vậy bảng phân phối xác suất của Z là


2.1.3 Các số đặc trưng
Kì vọng : Nếu biến ngẫu nhiên X có bảng phân phối xác suất


Thì kì vọng toán (hoặc vọng số) của X là số kí hiệu là M (X) hya E (X) cho
bởi

Nếu biến ngẫu nhiên X nhận vô hạn đếm đƣợc các giá trị có bảng phân phối
xác suất:
Lương Thị Thúy Nga Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

17

Và nếu hội tụ thì kì vọng toán của X là M (X) hoặc E (X)
cho bởi


Nếu biến ngẫu nhiên X có hàm mật độ xác suất f(x) và nếu
hội tụ thì kì vọng toán của X là số

Từ các định nghĩa ta nhận thấy:
1. Định nghĩa chỉ ra cách tính kì vọng toán của biến ngẫu nhiên.
2. Các biến ngẫu nhiên rời rạc nhận một số hữu hạn các giá trị luôn có kì
vọng toán.
3. Các biến ngẫu nhiên rời rạc nhận một số vô hạn đếm đƣợc hoặc
không đếm đƣợc các giá trị có thể không có giá trị kì vọng.
4. Kì vọng của biến ngẫu nhiên X là giá trị đặc trƣng cho vị trí (trọng
tâm hoặc trung tâm) của biến ngẫu nhiên.
5. Kì vọng còn đƣợc gọi là trung bình số học của biến ngẫu nhiên.
2.2. Khai phá dữ liệu với phương pháp thống kê
Nhiệm vụ của khai phá dữ liệu là mỗi một ngƣời dùng sẽ có một chức năng,
nhiệm vụ khai phá dữ liệu trong đầu. Thí dụ ngƣời ta có dạng phân tích dữ liệu
muốn thể hiện. Một nhiệm vụ khai phá dữ liệu có thể đƣợc đặc tả theo dạng ngôn
ngữ hỏi khai phá dữ liệu, xác định đầu vào, đầu ra của hệ thống.
Ngôn ngữ hỏi khai phá dữ liệu đƣợc định nghĩa theo các thuật ngữ sau :

×