Tải bản đầy đủ (.pdf) (69 trang)

Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 69 trang )

Lương Thị Thúy Nga

Phân
i tích thành phần chính phục vụ xử lý dữ liệu đào tạo

..

MỤC LỤC
MỤC LỤC .............................................................................................................................. i
LỜI CAM ĐOAN ................................................................................................................. iii
LỜI CẢM ƠN ....................................................................................................................... iv
DANH MỤC TỪ VIẾT TẮT .................................................................................................v
DANH MỤC HÌNH BẢNG ................................................................................................. vi
MỞ ĐẦU ................................................................................................................................1
CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .......................................................3
1.1 Khai phá dữ liệu ........................................................................................................... 3
1.1.1 Hình thành và định nghĩa bài toán ........................................................................ 4
1.1.2 Thu thập và tiền xử lý dữ liệu ............................................................................... 4
1.1.3 Khai phá dữ liệu và rút ra các tri thức .................................................................. 5
1.1.4 Phân tích và kiểm định kết quả ............................................................................. 6
1.1.5. Sử dụng các tri thức phát hiện đƣợc .................................................................... 6
1. 2 Quá trình khai phá dữ liệu .......................................................................................... 7
1.3 Các phƣơng pháp khai phá dữ liệu ............................................................................ 10
1.3.1. Phân lớp dữ liệu ................................................................................................. 10
1.3.2. Phân cụm dữ liệu ............................................................................................... 10
1.3.3 Khai phá luật kết hợp .......................................................................................... 11
1.3.4 Hồi quy ............................................................................................................... 11
1.3.5 Giải thuật di truyền ............................................................................................. 11
1.3.6 Mạng nơron ......................................................................................................... 11
1.3.7 Cây quyết định .................................................................................................... 12
1.4 Nhu cầu khai phá dữ liệu ........................................................................................... 13


1.5. Kết luận ..................................................................................................................... 13
CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ ...............14
2.1 Phƣơng pháp thống kê toán học ................................................................................. 14
2.1.1 Biến ngẫu nhiên .................................................................................................. 14
2.1.2 Các ví dụ ............................................................................................................. 15
2.1.3 Các số đặc trƣng ................................................................................................. 16
2.2. Khai phá dữ liệu với phƣơng pháp thống kê............................................................. 17
2.3. Tri thức nền tảng ....................................................................................................... 18
2.3.1. Các phƣơng pháp quan tâm ............................................................................... 19
2.3.2. Trình diễn và trực quan của các mẫu đƣợc khai phá ......................................... 19

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
ii tích thành phần chính phục vụ xử lý dữ liệu đào tạo

2.4. Dữ liệu liên quan tới nhiệm vụ ................................................................................. 19
2.4.1. Dữ liệu thích hợp với nhiệm vụ ......................................................................... 19
2.4.2. Kiểu tri thức đƣợc khai phá ............................................................................... 20
2.4.3. Kiến thức nền tảng ............................................................................................. 20
2.4.4. Các phép đo sự hấp dẫn của mẫu ....................................................................... 20
2.4.5. Hình ảnh hóa của các mẫu đƣợc khai phá ......................................................... 20
2.5. Các loại tri thức đƣợc khai phá ................................................................................. 22
2.5.1. Phân cấp khái niệm ............................................................................................ 23
2.5.2. Phân cấp lƣợc đồ ................................................................................................ 26

2.5.3. Phân cấp theo nhóm ........................................................................................... 26
2.5.4. Phân cấp theo thao tác ....................................................................................... 27
2.5.5. Phân cấp theo luật .............................................................................................. 28
2.5.6. Độ đo về tiêu chí quan tâm ................................................................................ 28
2.6. Thể hiện và trực quan của các mẫu đƣợc phát hiện .................................................. 32
2.7. Phân tích thành phần chính ....................................................................................... 34
2.8. Kết luận ..................................................................................................................... 39
CHƢƠNG 3. KHAI PHÁ DỮ LIỆU TẠI TRUNG TÂM ....................................................40
3.1. Về cơ sở đào tạo........................................................................................................ 40
3.2. Công cụ OLAP.......................................................................................................... 43
3.2.1 Về OLAP ............................................................................................................ 43
3.2.2. Mơ hình dữ liệu đa chiều ................................................................................... 43
3.2.3 Giới thiệu dịch vụ OLAP của Microsoft SQL Server......................................... 46
3.2.4 So sánh OLAP với OLTP ................................................................................... 47
3.2.5 Các mơ hình lƣu trữ hỗ trợ OLAP ...................................................................... 48
3.2.6.Kiến trúc khối của OLAP ................................................................................... 52
3.2.7. Mơ hình kiến trúc dịch vụ OLAP ...................................................................... 53
3.3. Dữ liệu về đào tạo ..................................................................................................... 56
3.3.1. Dữ liệu ............................................................................................................... 56
3.3.2. Khai phá dữ liệu ................................................................................................. 57
3.4. Kết luận ..................................................................................................................... 58
KẾT LUẬN...........................................................................................................................59
Một số vấn đề đã giải quyết ......................................................................................... 59
Phƣơng hƣớng tiếp tục nghiên cứu .............................................................................. 60
TÀI LIỆU THAM KHẢO ....................................................................................................61

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Lương Thị Thúy Nga

Phân
iii tích thành phần chính phục vụ xử lý dữ liệu đào tạo

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là kết quả tìm hiểu, nghiên cứu của tôi. Các
số liệu, kết quả trong luận văn là trung thực. Tài liệu sử dụng, trích dẫn trong luận
văn là trung thực chƣa từng công bố trong công trình nghiên cứu khác.
Học viên

Lƣơng Thị Thúy Nga

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
iv tích thành phần chính phục vụ xử lý dữ liệu đào tạo

LỜI CẢM ƠN
Trƣớc tiên tôi xin đƣợc trân trọng gửi lời cảm ơn chân thành tới các thầy cô
đã giảng dạy chúng tôi trong các mơn chun đề sau đại học, cũng nhƣ trong q
trình thực tập và viết, hoàn thiện luận văn. Đặc biệt, xin cảm ơn thầy Đỗ Trung
Tuấn, đã giúp đỡ, chỉ bảo đối với luận văn này.
Nhân dịp này, xin gửi lời cám ơn đến Trung tâm Giáo dục thƣờng xuyên tỉnh

Yên Bái. Xin chân thành cảm ơn lãnh đạo và đồng nghiệp trong Trung tâm, đã giúp
đỡ tạo mọi điều kiện cho tơi trong q trình học tập, cơng tác để tơi có thể làm luận
văn tốt nghiệp, và hồn thành đề tài nghiên cứu khoa học này.
Trong thời gian vừa qua mặc dù tôi đã cố gắng rất nhiều để hoàn thành tốt đề
tài nghiên cứu này. Song chắc chắn kết quả nghiên cứu khơng tránh khỏi cịn nhiều
thiếu sót, vì vậy tơi rất mong nhận đƣợc sự chỉ bảo góp ý của q thầy cơ và bạn bè
đồng nghiệp để nghiên cứu này đƣợc hoàn thiện hơn.
Chân thành cám ơn chồng tơi và ngƣời thân trong gia đình, đã động viên và
tạo điều kiện tài chính, thời gian, cho tơi có thể học tập sau đại học.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
v tích thành phần chính phục vụ xử lý dữ liệu đào tạo

DANH MỤC TỪ VIẾT TẮT

ADO

Microsoft ActiveX Data Objects

API

Giao diện cổng chung


City

Thành phố

CNTT

Công nghệ Thông tin

Country

Vùng

CSDL

Cơ sở dữ liệu

IT

Công nghệ Thông tin

ITEM

Mặt hàng

KDD

Khai phá tri thức

MOLAP


OLAP nhiều chiều

OLAP

Xử lí phân tích dữ liệu trực tuyến

OLTP

Phân tích trực tuyến

PCA

Phân tích thành phần chính

Province

Tỉnh

ROLAP

OLAP quan hệ

SERVER

Máy chủ

State

Bang


SV

Sinh viên

TV

Vơ tuyến truyền hình

URL

Vị trí tài ngun Internet

VCR

Đầu đọc băng video

Web

Trang tin

WWW

World Wide Web

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga


Phân
vi tích thành phần chính phục vụ xử lý dữ liệu đào tạo

DANH MỤC HÌNH BẢNG
Hình 1.1 . Khai phá dữ liệu ......................................................................................... 3
Hình 1.2. Xử lí dữ liệu ................................................................................................ 5
Hình 1.3. Tri thức ........................................................................................................ 6
Hình 1.4. Quá trình khai phá dữ liệu ........................................................................... 8
Hình 1.5. Kiến trúc hệ thống khai phá dữ liệu ............................................................ 9
Hình 1.6. Phân lớp dữ liệu ........................................................................................ 10
Hình 1.7. Phân cụm dữ liệu ....................................................................................... 10
Hình 1.8. Mạng Nơron .............................................................................................. 12
Hình 1.9. Cây quyết định .......................................................................................... 12
Hình 2.1 . Dữ liệu liên quan đến nhiệm vụ ............................................................... 18
Hình 2.2 . Thí dụ về phân phối hàng ......................................................................... 24
Hình 2.3. Các mẫu thể hiện ....................................................................................... 33
Hình 2.4. Dữ liệu thí dụ cho PCA ............................................................................. 36
Hình 2.5. Đƣờng dữ liệu chuẩn hố (đã trừ trung bình) ........................................... 38
Hình 3.1. Trang tin của Trung tâm ............................................................................ 41
Hình 3.2. Kế hoạch dạy và học của Trung tâm ......................................................... 42
Hình 3.3. Địa bàn tổ chức đào tạo của Trung tâm .................................................... 42
Hình 3.4. Mơ phỏng các chiều trong kinh doanh ...................................................... 44
Hình 3.5. Kiến trúc OLAP ........................................................................................ 46
Hình 3.6. Mơ hình dữ liệu MOLAP .......................................................................... 48
Hinh 3.7 Mơ hình dữ liệu ROLAP ............................................................................ 50
Hình 3.8. Mơ hình dữ liệu HOLAP........................................................................... 51
Hình 3.9. Kiến trúc dịch vụ OLAP ........................................................................... 54
Hình 3.10. Kiến trúc thành phần Server .................................................................... 54
Hình 3.11. Kiến trúc thành phần Khách .................................................................... 55

Hình 3.12. Dữ liệu gốc .............................................................................................. 57
Hình 3.13. Thí dụ sử dụng OLAP với bảng xoay ..................................................... 57
Hình 3.14. Thí dụ sử dụng nhiều tham số cột xoay .................................................. 58

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
vii tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
viiitích thành phần chính phục vụ xử lý dữ liệu đào tạo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga


Phân
1 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

MỞ ĐẦU
Ngày nay, xã hội con ngƣời thực hiện cuộc cách mạng về thông tin. Tri thức
đƣợc đánh giá nhƣ là quyền lực và tiền bạc. Xã hội cũng dần chuyển sang xã hội tri
thức, tức các sản phẩm quốc dân có hàm lƣợng tri thức cao. Công nghệ thông tin
đáp ứng nhu cầu xử lý dữ liệu và tri thức. Bên cạnh công nghệ phần mềm là công
nghệ tri thức. Công nghệ tri thức đƣợc nghiên cứu nhằm tích lũy tri thức của chuyên
gia, làm máy tính thực hiện những chức năng thơng minh nhƣ ngƣời, đồng thời làm
con ngƣời cũng tự nâng cao bản thân.
Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc
trong xã hội và trong cuộc sống của chúng ta. Những thuận lợi mà thông tin kỹ
thuật số mang lại cũng sinh ra những thách thức và cơ hội mới cho quá trình đổi
mới. Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi diễn ra q trình trao
đổi thơng tin trong mọi lĩnh vực chính trị, qn sự, quốc phịng, kinh tế, thƣơng
mại…Trong hệ thống đào tạo Đại học và sau Đại học về Công nghệ thông tin, các
chủ đề về Trí tuệ nhân tạo, hệ chuyên gia, dịch tự động…đều liên quan đến tri thức.
Nhiều ứng dụng về Công nghệ thông tin đã và đang sử dụng tri thức nhƣ dữ liệu
Meta, điều khiển quá trình xử lý dữ liệu.
Hiện nay trong nhiều cơ sở đào tạo có nhiều phần mềm cho phép xử lý dữ
liệu. Những dữ liệu liên quan đến công tác đào tạo gồm: Các kết quả dạy và học,
những học liệu điện tử, các giáo trình số hóa…ngày càng nhiều, cần đƣợc xử lý một
cách khoa học. Vấn đề khai phá các dữ liệu có áp dụng công nghệ ngày càng đƣợc
sử dụng nhiều hơn trên nhiều lĩnh vực và ngay cả trong lĩnh vực giáo dục. Chính vì
vậy, tơi chọn đề tài: “Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo”.
Vấn đề nghiên cứu và ứng dụng thuộc phạm vi mã ngành Khoa học máy tính, mã số
60.48.01 về khai phá dữ liệu. Trong phạm vi nghiên cứu này tôi xin trình bày các
nội dung sau:


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
2 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

 Chƣơng 1: Tổng quan về kĩ thuật khai phá dữ liệu
Chƣơng này đề cập đến kĩ thuật khai phá dữ liệu, các phƣơng pháp
khai phá dữ liệu và nhu cầu của khai phá dữ liệu.
 Chƣơng 2: Một số phƣơng pháp xử lí dữ liệu nhờ thống kê
Chƣơng này trình bày các phƣơng pháp thống kê, các thành phần đặc
trƣng của dữ liệu và cách chọn, phân tích và đánh giá thành phần dữ
liệu chính.
 Chƣơng 3: Phân tích dữ liệu phục vụ cơng tác đào tạo
Chƣơng này xây dựng, phân tích thiết kế và mơ phỏng chƣơng trình
thử nghiệm.
Kết luận sẽ là đánh giá kết quả đạt đƣợc và các vấn đề tồn tại cần khắc phục
tiếp. Phần cuối luận văn là danh sách các tài liệu tham khảo, sử dụng trong quá trình
chuẩn bị luận văn.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Lương Thị Thúy Nga

Phân
3 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 Khai phá dữ liệu
Việc dùng các phƣơng tiện tin học để tổ chức và khai thác các CSDL đã
đƣợc phát triển từ những năm 60, nhiều CSDL đã đƣợc tổ chức, phát triển và khai
thác ở mọi qui mô và khắp các lĩnh vực hoạt động của xã hội. Với sự phát triển
mạnh mẽ của máy tính và các mạng viễn thơng, ngƣời ta đã xây dựng đƣợc nhiều hệ
CSDL lớn tập trung hoặc phân tán, nhiều hệ quản trị CSDL mạnh với các công cụ
phong phú và thuận tiện giúp con ngƣời khai thác có hiệu quả các nguồn tài nguyên
dữ liệu trong các hoạt động kinh tế xã hội. Sự phát triển nhanh chóng của một lƣợng
lớn dữ liệu đƣợc thu thập và lƣu trữ trong các CSDL lớn đã vƣợt ra ngoài khả năng
của con ngƣời có thể hiểu đƣợc chúng nếu khơng có những cơng cụ hỗ trợ tốt. Kết
quả là, dữ liệu thu thập đƣợc trong một lƣợng lớn CSDL đã trở thành những đống
dữ liệu mà ít khi đƣợc xem xét đến. Do vậy, việc đƣa ra những quyết định thƣờng
không dựa vào những thông tin hoặc dữ liệu thu thập đƣợc mà chỉ dựa vào nhận
thức, suy đoán của ngƣời đƣa ra quyết định. Đơn giản là vì họ khơng có những cơng
cụ giúp cho việc lấy ra những tri thức từ lƣợng lớn dữ liệu. Tình huống này đã đặt
chúng ta trong hoàn cảnh nhiều dữ liệu nhƣng thiếu thông tin, thiếu tri thức. Với
một khối lƣợng lớn dữ liệu nhƣ vậy rõ ràng là các phƣơng pháp thủ cơng truyền
thống áp dụng để phân tích dữ liệu nhƣ chia bảng khơng cịn là phù hợp nữa Chính
vì vậy, có một kỹ thuật mới ra đời đó là “Khai phá dữ liệu”.

Hình 1.1 . Khai phá dữ liệu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Lương Thị Thúy Nga

Phân
4 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Khai phá dữ liệu là một ngữ tƣơng đối mới, nó ra đời vào khoảng những năm
cuối của của thập kỷ 1980. Có rất nhiều định nghĩa khác nhau về khai phá dữ liệu.
Giáo sƣ Tom Mitchell đã đƣa ra định nghĩa của khai phá dữ liệu nhƣ sau: “Khai phá
dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện
những quyết định trong tƣơng lai.”. Với một cách tiếp cận ứng dụng hơn, tiến sĩ
Fayyad đã phát biểu: ”Khai phá dữ liệu thƣờng đƣợc xem là việc khám phá tri thức
trong các cơ sở dữ liệu, là một q trình trích xuất những thơng tin ẩn, trƣớc đây
chƣa biết và có khả năng hữu ích, dƣới dạng các quy luật, ràng buộc, qui tắc trong
cơ sở dữ liệu.”. Cịn các nhà thống kê thì xem " khai phá dữ liệu nhƣ là một q
trình phân tích đƣợc thiết kế thăm dò một lƣợng cực lớn các dữ liệu nhằm phát hiện
ra các mẫu thích hợp và / hoặc các mối quan hệ mang tính hệ thống giữa các biến và
sau đó sẽ hợp thức hố các kết quả tìm đƣợc bằng cách áp dụng các mẫu đã phát
hiện đƣợc cho tập con mới của dữ liệu".
Nói tóm lại: khai phá dữ liệu là một bƣớc trong quy trình phát hiện tri thức
gồm có các thụât tốn khai thác dữ liệu chuyên dùng dƣới một số quy định về hiệu
quả tính tốn chấp nhận đƣợc để tìm ra các mẫu hoặc các mơ hình trong dữ liệu.
Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc
các mơ hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu
đƣợc.
1.1.1 Hình thành và định nghĩa bài tốn
Đây là bƣớc tìm hiểu lĩnh vực ứng dụng và hình thành bài tốn, bƣớc này sẽ
quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phƣơng
pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu.

1.1.2 Thu thập và tiền xử lý dữ liệu
Trong bƣớc này dữ liệu đƣợc thu thập ở dạng thơ (nguồn dữ liệu thu thập có
thể là từ các kho dữ liệu hay nguồn thông tin Internet). Trong giai đoạn này dữ liệu
cũng đƣợc tiền xử lý để biến đổi và cải thiện chất lƣợng dữ liệu cho phù hợp với
phƣơng pháp khai phá dữ liệu đƣợc chọn lựa trong bƣớc trên.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
5 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Hình 1.2. Xử lí dữ liệu
Bƣớc này thƣờng chiếm nhiều thời gian nhất trong quá trình khám phá tri
thức. Các giải thuật tiền xử lý dữ liệu bao gồm :
 Xử lý dữ liệu bị mất/ thiếu: Các dạng dữ liệu bị thiếu sẽ đƣợc thay thế
bởi các giá trị thích hợp.
 Khử sự trùng lắp: các đối tƣợng dữ liệu trùng lắp sẽ bị loại bỏ đi. Kỹ
thuật này không đƣợc sử dụng cho các tác vụ có quan tâm đến phân
bố dữ liệu.
 Giảm nhiễu: nhiễu và các đối tƣợng tách rời khỏi phân bố chung sẽ bị
loại đi khỏi dữ liệu.
 Chuẩn hoá: miền giá trị của dữ liệu sẽ đƣợc chuẩn hoá.
 Rời rạc hoá: các dạng dữ liệu số sẽ đƣợc biến đổi ra các giá trị rời rạc.
 Rút trích và xây dựng đặc trƣng mới từ các thuộc tính đã có.
 Giảm chiều: các thuộc tính chứa ít thông tin sẽ đƣợc loại bỏ bớt.

1.1.3 Khai phá dữ liệu và rút ra các tri thức
Đây là bƣớc quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của
bƣớc này là trích ra đƣợc các mẫu và/hoặc các mơ hình ẩn dƣới các dữ liệu. Một mơ
hình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
6 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

hệ thống trong cơ sở dữ liệu, hay miêu tả cách dữ liệu đƣợc nảy sinh. Cịn một mẫu
là một cấu trúc cục bộ có liên quan đến vài biến và vài trƣờng hợp trong cơ sở dữ
liệu.
1.1.4 Phân tích và kiểm định kết quả
Bƣớc thứ tƣ là hiểu các tri thức đã tìm đƣợc, đặc biệt là làm sáng tỏ các mô
tả và dự đốn. Trong bƣớc này, kết quả tìm đƣợc sẽ đƣợc biến đổi sang dạng phù
hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho ngƣời dùng.

Hình 1.3. Tri thức
1.1.5. Sử dụng các tri thức phát hiện được
Trong bƣớc này, các tri thức khám phá đƣợc sẽ đƣợc củng cố, kết hợp lại
thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức
đó. Các mơ hình rút ra đƣợc đƣa vào những hệ thống thông tin thực tế dƣới dạng
các modul hỗ trợ việc đƣa ra quyết định. Các giai đoạn của quá trình khám phá tri
thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ
thuật đƣợc sử dụng trong giai đoạn trƣớc có thể ảnh hƣởng đến hiệu quả của các

giải thuật đƣợc sử dụng trong các giai đoạn tiếp theo. Các bƣớc của quá trình khám

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
7 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

phá tri thức có thể đƣợc lặp đi lặp lại một số lần, kết quả thu đƣợc có thể đƣợc lấy
trung bình trên tất cả các lần thực hiện.
1. 2 Quá trình khai phá dữ liệu
Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức.
Thuật ngữ khai phá dữ liệu còn đƣợc một số nhà khoa học gọi là phát hiện tri thức
trong cơ sở dữ liệu.
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức
đƣợc chiết xuất ra. Nội dung của quá trình nhƣ sau:
1. Gom dữ liệu : Tập hợp dữ liệu là bƣớc đầu tiên trong khai phá dữ liệu.
Bƣớc này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm
chí dữ liệu từ những nguồn cung ứng web.
2. Trích lọc dữ liệu : Ở giai đoạn này dữ liệu đƣợc lựa chọn và phân chia
theo một số tiêu chuẩn nào đó.
3. Làm sạch và tiền xử lý dữ liệu : Giai đoạn thứ ba này là giai đoạn hay bị
sao nhãng, nhƣng thực tế nó là một bƣớc rất quan trọng trong quá trình
khai phá dữ liệu. Một số lỗi thƣờng mắc phải trong khi gom dữ liệu là dữ
liệu không đầy đủ hoặc khơng thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu
thƣờng chứa các giá trị vô nghĩa và khơng có khả năng kết nối dữ liệu. Ví

dụ Sinh viên có tuổi = 200. Giai đoạn thứ ba này nhằm xử lý các dữ liệu
nhƣ trên (dữ liệu vô nghĩa, dữ liệu khơng có khả năng kết nối). Những dữ
liệu dạng này thƣờng đƣợc xem là thông tin dƣ thừa, khơng có giá trị.
Bởi vậy đây là một q trình rất quan trọng. Nếu dữ liệu khơng đƣợc làm
sạch- tiền xử lý - chuẩn bị trƣớc thì sẽ gây nên những kết quả sai lệch
nghiêm trọng về sau.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
8 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Hình 1.4. Quá trình khai phá dữ liệu
4. Chuyển đổi dữ liệu : Trong giai đoạn này, dữ liệu có thể đƣợc tổ chức và
sử dụng lại. Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù
hợp hơn với mục đích khai phá dữ liệu.
5. Phát hiện và trích mẫu dữ liệu : Đây là bƣớc tƣ duy trong khai phá dữ
liệu. Ở trong giai đoạn này nhiều thuật toán khác nhau đã đƣợc sử dụng
để trích ra các mẫu từ dữ liệu. Thuật tốn thƣờng dùng để trích mẫu dữ
liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật tốn mơ hình
hố dữ liệu tuần tự.
6. Đánh giá kết quả mẫu : đây là giai đoạn cuối cùng trong quá trình khai
phá dữ liệu, ở giai đoạn này các mẫu dữ liệu đƣợc chiết xuất ra bởi phần
mềm khai phá dữ liệu. Không phải mẫu dữ liệu nào cũng hữu ích, đơi khi
nó cịn bị sai lệch. Vì vậy cần phải đƣa ra những tiêu chuẩn đánh giá độ

ƣu tiên cho các mẫu dữ liệu để rút ra đƣợc những tri thức cần thiêt.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
9 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Hình 1.5. Kiến trúc hệ thống khai phá dữ liệu
Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần
chính nhƣ trong hình.
 Kho dữ liệu: là một tập các cơ sở dữ liệu, các công cụ làm sạch dữ
liệu và tích hợp dữ liệu có thể thực hiện trên chúng.
 Cơ sở tri thức: là yếu tố tri thức đƣợc dùng để đánh giá các mẫu kết
quả khai phá đƣợc.
 Kỹ thuật khai phá: là các công cụ để thực hiện các nhiệm vụ: mô tả,
kết hợp, phân lớp, phân nhóm dữ liệu.
 Cơng cụ đánh giá mẫu: gồm một số modul sử dụng các độ đo và
tƣơng tác với các modul khai phá dữ liệu để tập trung vào các thuộc
tính cần quan tâm.
 Biểu diễn dạng đồ hoạ: modul này giao tiếp giữa ngƣời dùng và hệ
thống khai phá dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Lương Thị Thúy Nga

Phân
10 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

1.3 Các phương pháp khai phá dữ liệu
1.3.1. Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đốn nhãn lớp cho các mẫu dữ liệu.
Quá trình gồm hai bƣớc: xây dựng mơ hình, sử dụng mơ hình để phân lớp dữ liệu
(mỗi mẫu một lớp). Mơ hình đƣợc sử dụng để dự đốn nhãn lớp khi mà độ chính
xác của mơ hình chấp nhận đƣợc.

Hình 1.6. Phân lớp dữ liệu
1.3.2. Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tƣợng tƣơng tự nhau trong
tập dữ liệu vào các cum, sao cho các đối tƣợng thuộc cùng một lớp là tƣơng đồng.

Hình 1.7. Phân cụm dữ liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
11 tích thành phần chính phục vụ xử lý dữ liệu đào tạo


1.3.3 Khai phá luật kết hợp
Mục tiêu của phƣơng pháp này là phát hiện và đƣa ra các mối liên hệ giữa
các giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật
kết hợp tìm đƣợc. Phƣơng pháp khai phá luật kết hợp gồm có hai bƣớc:
1. Bƣớc 1: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến
đƣợc xác định thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực
tiểu.
2. Bƣớc 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật
phải thoả mãn độ hỗ trợ và độ tin cậy cực tiểu.
1.3.4 Hồi quy
Phƣơng pháp hồi quy tƣơng tự nhƣ là phân lớp dữ liệu. Nhƣng khác ở chỗ
nó dùng để dự đốn các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các
giá trị rời rạc.
1.3.5 Giải thuật di truyền
Là q trình mơ phỏng theo tiến hố của tự nhiên. Ý tƣởng chính của giải
thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá
trong sinh học.
1.3.6 Mạng nơron
Đây là một trong những kỹ thuật khai phá dữ liệu đƣợc ứng dụng phổ biến
hiện nay. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả
năng huấn luyện trong kỹ thuật này dựa trên mơ hình thần kinh trung ƣơng của con
ngƣời.
Kết quả mà mạng nơron học đƣợc có khả năng tạo ra các mơ hình dự báo,
dự đốn với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra đƣợc các
xu hƣớng phức tạp mà kỹ thuật thơng thƣờng khác khó có thể phát hiện ra đƣợc.
Tuy nhiên phƣơng pháp mạng nơ ron rất phức tạp và quá trình tiến hành nó gặp rất
nhiều khó khăn: địi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử
nghiệm.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Lương Thị Thúy Nga

Phân
12 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Hình 1.8. Mạng Nơron
1.3.7 Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân
lớp và dự báo. Các đối tƣợng dữ liệu đƣợc phân thành các lớp. Các giá trị của đối
tƣợng dữ liệu chƣa biết sẽ đƣợc dự đoán, dự báo. Tri thức đƣợc rút ra trong kỹ thuật
này thƣờng đƣợc mô tả dƣới dạng tƣờng minh, đơn giản, trực quan, dễ hiểu đối với
ngƣời sử dụng.

Hình 1.9. Cây quyết định

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
13 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

1.4 Nhu cầu khai phá dữ liệu

Hiện nay nhu cầu khai phá thông tin từ các cơ sở dữ liệu lớn ngày càng
nhiều. Phát hiện tri thức và khai phá dữ liệu đƣợc ứng dụng trong nhiều ngành và
lĩnh vực khác nhau nhƣ: tài chính ngân hàng, thƣơng mại, y tế, giáo dục, thống kê,
máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật tốn tốn học, tính tốn song song với
tốc độ cao, thu thập cơ sở tri thức cho hệ chuyên gia,… Chính từ nhu cầu khai phá
dữ liệu mạnh mẽ trong nhiều lĩnh vực đời sống xã hội đã tạo ra các phƣơng pháp
khai phá dữ liệu linh động, uyển chuyển để xử lý số lƣợng dữ liệu lớn một cách
hiệu quả. Tạo ra tƣơng tác ngƣời sử dụng tốt, giúp ngƣời sử dụng tham gia điều
khiển quá trình khai phá dữ liệu, định hƣớng hệ thống khai phá dữ liệu trong việc
phát hiện các mẫu đáng quan tâm. Tích hợp khai phá dữ liệu vào trong các hệ cơ sở
dữ liệu. Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến. Một vấn đề
quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề
an tồn và bảo mật thông tin trong khai phá dữ liệu.
1.5. Kết luận
Chƣơng đầu đã trình bày một số phƣơng pháp khai phá dữ liệu, một số kĩ
thuật đã sử dụng trong nhiều ngành để chỉ ra tri thức hay dữ liệu mới. Khai phá dữ
liệu có nhu cầu trong cơng tác xử lí dữ liệu, cũng nhƣ trong cơng tác quản lý nói
chung. Việc sử dụng các phƣơng pháp khai phá dữ liệu có ý nghĩa trong quản lý đào
tạo, đặc biệt cho Trung tâm đào tạo tại tỉnh miền núi của đất nƣớc.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga

Phân
14 tích thành phần chính phục vụ xử lý dữ liệu đào tạo


CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ
2.1 Phương pháp thống kê toán học
Trong thống kê toán học chủ yếu tìm hiểu về một số phƣơng pháp thống kê
cơ bản nhƣ: Biến (mẫu) ngẫu nhiên và các số đặc trƣng, ƣớc lƣợng tham số, kiểm
định giả thiết, phân tích phƣơng sai và phân tích hồi quy...
2.1.1 Biến ngẫu nhiên
Biến ngẫu nhiên (thực) là biến nhận giá trị là các số thực phụ thuộc vào kết
quả của các phép thử ngẫu nhiên. Ta thƣờng dùng các chữ cái in hoa X, Y, Z … để
chỉ các biến ngẫu nhiên và các chữ cái thƣờng x,y,z…hoặc xi, yj…để chỉ các giá trị
ngẫu nhiên mà các biến đó nhận.
 Ví dụ 1: Tung đồng thời hai con xúc xắc. Gọi X là tổng số chấm ở hai
mặt trên, X là biến ngẫu nhiên có thể nhận giá trị từ 2 đến 12.
 Ví dụ 2: Một ngƣời nhắm bắn vào bia cho tới khi nào trúng bia thì
ngừng, Gọi Y là số đạn cần dùng. Y là một biến ngẫu nhiên nhận các
giá trị từ 1,2,..,n…
 Ví dụ 3: Thắp sáng liên tục một bóng đèn điện cho tới khi dây tóc của
bóng đèn bị cháy, gọi Z là thời gian bóng đèn sáng, Z là một biến
ngẫu nhiên.
Qua ví dụ trên ta nhận thấy có hai loại biến ngẫu nhiên:
1. Loại thứ nhất là biến ngẫu nhiên chỉ nhận một số hữu hạn hay vô hạn
đếm đƣợc các giá trị. (Một tập đƣợc gọi là hữu hạn nếu tồn tại một phép
tƣơng ứng một – một tới tập các số tự nhiên N).
2. Loại thứ hai là biến ngẫu nhiên mà nó có thể nhận giá trị trong một
khoảng hoặc một số khoảng thực nào đó. Loại biến ngẫu nhiên thứ nhất
gọi là biến ngẫu nhiên rời rạc. Loại biến ngẫu nhiên thứ hai gọi là biến
ngẫu nhiên liên tục.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Lương Thị Thúy Nga

Phân
15 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Bảng phân phối xác suất của biến ngẫu nhiên rời rạc: Bảng phân phối xác
suất của một biến ngẫu nhiên X là một bảng gồm 2 dịng: Dịng trên ghi các giá trị
có thể có của biến ngẫu nhiên X, dòng dƣới ghi các xác suất tƣơng ứng. Nếu X nhận
một số hữu hạn các giá trị thì bảng phân phối xác suất của X là:

Nếu X nhận một số vô hạn đếm các giá trị thì bảng phân phối xác suất của X
là:

Pi=P (X = xi) là xác suất để X nhận giá trị là xi
Do X nhận và chỉ nhận một trong các giá trị xi nên ta có ∑ pi =1 đối vói bảng
thứ nhất và ∑ pi = 1 đối với bảng thứ 2.
2.1.2 Các ví dụ
Ví dụ 1: Một ngƣời chơi trò chơi ăn tiền bằng cách tung đồng thời 2 đồng
tiền cân đối và đồng chất. Nếu cả hai xuất hiện mặt sấp anh ta đƣợc 100 đồng, nếu
cả hai xuất hiện mặt ngửa anh ta mất 40 đồng còn xuất hiện một sấp một ngửa anh
ta mất 30 đồng. Gọi X là số tiền anh ta nhận đƣợc sau một ván chơi. Lập bảng phân
phối xác suất của X
Nhận thấy X có thể nhận các giá trị - 40, -30, 100 tƣơng ứng với việc mất 40
đồng, mất 30 đồng và nhận đƣợc 100 đồng.
Vậy bảng phân phối xác suất của X là:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Lương Thị Thúy Nga

Phân
16 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

Ví dụ 2: Một ngƣời nhắm bắn vào một mục tiêu cho tới khi trúng đích thì
dừng. Các lần bắn độc lập, xác suất trúng đích của mỗi lần bắn là p (0 < p< 1). Gọi
Z là số đạn phải dùng. Lập bảng phân phối xác suất của Z.

Nhận thấy Z có thể nhận các giá trị 1,2 …,n,…
P (Z=n)= qn-1p (q=1-p). Vậy bảng phân phối xác suất của Z là

2.1.3 Các số đặc trưng
Kì vọng : Nếu biến ngẫu nhiên X có bảng phân phối xác suất

Thì kì vọng tốn (hoặc vọng số) của X là số kí hiệu là M (X) hya E (X) cho
bởi

Nếu biến ngẫu nhiên X nhận vô hạn đếm đƣợc các giá trị có bảng phân phối
xác suất:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Lương Thị Thúy Nga


Phân
17 tích thành phần chính phục vụ xử lý dữ liệu đào tạo

nếu hội tụ thì kì vọng toán của X là M (X) hoặc E (X)


cho bởi

Nếu biến ngẫu nhiên X có hàm mật độ xác suất f(x)

và nếu

hội tụ thì kì vọng tốn của X là số

Từ các định nghĩa ta nhận thấy:
1. Định nghĩa chỉ ra cách tính kì vọng tốn của biến ngẫu nhiên.
2. Các biến ngẫu nhiên rời rạc nhận một số hữu hạn các giá trị ln có kì
vọng tốn.
3. Các biến ngẫu nhiên rời rạc nhận một số vô hạn đếm đƣợc hoặc
khơng đếm đƣợc các giá trị có thể khơng có giá trị kì vọng.
4. Kì vọng của biến ngẫu nhiên X là giá trị đặc trƣng cho vị trí (trọng
tâm hoặc trung tâm) của biến ngẫu nhiên.
5. Kì vọng cịn đƣợc gọi là trung bình số học của biến ngẫu nhiên.
2.2. Khai phá dữ liệu với phương pháp thống kê
Nhiệm vụ của khai phá dữ liệu là mỗi một ngƣời dùng sẽ có một chức năng,
nhiệm vụ khai phá dữ liệu trong đầu. Thí dụ ngƣời ta có dạng phân tích dữ liệu
muốn thể hiện. Một nhiệm vụ khai phá dữ liệu có thể đƣợc đặc tả theo dạng ngôn
ngữ hỏi khai phá dữ liệu, xác định đầu vào, đầu ra của hệ thống.
Ngôn ngữ hỏi khai phá dữ liệu đƣợc định nghĩa theo các thuật ngữ sau :


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




×