Đ IăH CăĐĨăN NG
TR
NGăĐ IăH CăS ăPH M
PHANăTỄăĐỌNG
NGăD NGăKHAIăPHỄăD ăLI U
Đ ăPHỂNăTệCHă NHăH
NGăC AăFACEBOOK
Đ NăK TăQU ăH CăT PăH CăSINHăTHPT
LU NăVĔNăTH CăS
H ăTH NGăTHỌNGăTIN
ĐƠăN ng - Nĕmă2020
Đ IăH CăĐĨăN NG
TR
NGăĐ IăH CăS ăPH M
PHANăTỄăĐỌNG
NGăD NGăKHAIăPHỄăD ăLI U
Đ ăPHỂNăTệCHă NHăH
NGăC AăFACEBOOK
Đ NăK TăQU ăH CăT PăH CăSINHăTHPT
ChuyênăngƠnh:ăH ăth ngăthôngătin
Mƣăs :ăă848.01.04
LU NăVĔNăTH CăSƾ
NG
IăH
NGăD NăKHOAăH C
TS.ăNGUY NăTR NăQU CăVINH
ĐƠăN ngă- Nĕmă2020
iv
M CL C
L IăCAMăĐOAN .......................................................................................................... i
TRANGăTHỌNGăTINăLU NăVĔNăTH CăSƾ .......................................................... ii
M CăL C .................................................................................................................... iv
DANHăM CăT ăVI TăT T ...................................................................................... vi
DANHăM CăCỄCăB NG.......................................................................................... vii
DANHăM CăCỄCăHỊNH ......................................................................................... viii
M ăĐ U .........................................................................................................................1
1. Lý do chọn đề tài .........................................................................................................1
2. Mục tiêu nghiên c u ....................................................................................................2
3. Đối t ợng và ph m vi nghiên c u ...............................................................................2
3.1. Đối t ợng nghiên c u...........................................................................................2
3.2. Ph m vi nghiên c u ..............................................................................................2
4. Ph ơng pháp nghiên c u .............................................................................................3
4.1. Nghiên c u lý thuyết ............................................................................................3
4.2. Nghiên c u thực nghiệm ......................................................................................3
5. Dự kiến kết qu ............................................................................................................3
5.1. Kết qu về lý thuyết .............................................................................................3
5.2. Kết qu thực tiễn ..................................................................................................3
6. Ý nghĩa khoa học và thực tiễn c a luận văn ................................................................3
7. Bố cục c a luận văn .....................................................................................................3
CH
NGă1. T NGăQUANăV ăKHAIăPHỄăD ăLI U ............................................5
1.1. Tổng quan khai phá dữ liệu ......................................................................................5
1.1.1. Giới thiệu chung về khám phá tri th c và khai phá dữ liệu ..............................5
1.1.2. Quá trình khám phá tri th c ..............................................................................6
1.1.3. Quy trình khai phá dữ liệu ................................................................................7
1.1.4. Một số kỹ thuật khai phá dữ liệu .......................................................................8
1.1.5. Các ph ơng pháp khai phá dữ liệu....................................................................8
1.1.6. ng dụng c a khai phá dữ liệu .........................................................................9
1.1.7. Dự báo dựa vào khai phá dữ liệu ......................................................................9
1.2. Phân lớp dữ liệu và một số kỹ thuật trong phân lớp dữ liệu ..................................11
1.2.1. Phân lớp dữ liệu (classification)......................................................................11
1.2.2. Quá trình phân lớp...........................................................................................11
1.2.3. Một số kỹ thuật phân lớp dữ liệu ....................................................................14
1.3. Cây quyết định và luật kết hợp trong khai phá dữ liệu ..........................................15
1.3.1. Cây quyết định (Decision Tree) ......................................................................15
1.3.2. Luật kết hợp (Association Rule) .....................................................................24
1.4. Tiểu kết ch ơng 1 ...................................................................................................27
v
CH
NGă2. PHỂNăTệCHă NHăH
NGăC AăFACEBOOKăBẰNGăMỌăHỊNHăă
CỂYăQUY TăĐ NHăVĨăLU TăK TăH P ..............................................................28
2.1. Thực tr ng sử dụng Facebook c a học sinh THPT Tp. Kon Tum ......................28
2.1.1. Thực tr ng sử dụng Facebook c a học sinh THPT hiện nay ..........................28
2.1.2. nh h ng c a Facebook đến kết qu học tập c a học sinh ..........................29
2.2. Tìm hiểu cơng cụ xây dựng mơ hình khai phá dữ liệu ...........................................31
2.2.1. Giới thiệu công cụ BIDS trong MicroSoft SQL Server 2008 R2 ...................31
2.2.2. Ngôn ngữ truy vấn khai phá dữ liệu................................................................31
2.3. ng dụng kỹ thuật cây quyết định và luật kết hợp để xây dựng mơ hình .............33
2.3.1. u cầu bài tốn ..............................................................................................33
2.3.2. Quy trình xây dựng mơ hình khai phá dữ liệu ................................................34
2.4. Tiểu kết ch ơng 2 ...................................................................................................50
CH
NGă3. XỂYăD NGăH ăTH NGăVĨăTH CăNGHI M .............................51
3.1. Xây dựng hệ thống .................................................................................................51
3.1.1. Mô t hệ thống ................................................................................................51
3.1.2. Kịch b n triển khai hệ thống dự đoán kết qu học tập ....................................53
3.1.3. Thiết kế hệ thống .............................................................................................53
3.2. Thực nghiệm ...........................................................................................................58
3.2.1. Dữ liệu thực nghiệm ........................................................................................58
3.2.2. Môi tr ng thực nghiệm .................................................................................58
3.2.3. Demo hệ thống ................................................................................................59
3.2.4. Kết qu thực nghiệm .......................................................................................59
3.3. Tiểu kết ch ơng 3 ...................................................................................................59
K TăLU N ..................................................................................................................60
TÀI LI U THAM KH O
PH L C
QUY TăĐ NHăGIAOăĐ TÀI (b n sao)
B NăT
NG TRÌNH CH NH S A LU NăVĔN
BIÊN B N B O V H P H IăĐ NG
NH N XÉT C A HAI PH N BI N
vi
DANH M C T
VI T T T
BIDS:
CLI:
CLR:
Business Intelligence Development Studio
Common Language Infrastructure
Common Language Runtime
CNTT:
CQĐ:
Công nghệ thông tin
Cây quyết định
CSDL:
Cơ s dữ liệu
DMX:
FB:
Data Mining eXtensions
Facebook
GDTX:
HS:
LKH:
Giáo dục th ng xuyên
Học sinh
Luật kết hợp
KPDL :
KPTT:
KQHT:
Khai phá dữ liệu
Khám phá tri th c
Kết qu học tập
LKH:
Luật kết hợp
PLDL:
CQĐ:
THPT:
Phân lớp dữ liệu
Cây quyết định
Trung học phổ thông
vii
DANH M C CÁC B NG
S ăhi uă
Tênăb ng
b ng
Trang
1.1
Một số ph ơng pháp dự báo
10
1.2
Ma trận Confusion matrix để đánh giá mơ hình
11
1.3
Dữ liệu minh họa xây dựng cây quyết định
18
1.4
Dữ liệu để phân lớp nhánh [SLOLHT = 0]
20
1.5
Dữ liệu để phân lớp nhánh [SLOLHT = 2]
20
1.6
Dữ liệu để phân lớp nhánh [SLOLHT = 3]
1.7
Dữ liệu để phân lớp nhánh [SLOLHT MucdoOL]
22
1.8
Dữ liệu minh họa xây dựng mô hình luật kết hợp
26
1.9
Tập luật rút ra từ mơ hình luật kết hợp
27
2.1
Sự khác biệt về giới tính c a học sinh khi sử dụng Facebook
28
2.2
Sự khác biệt về trình độ c a học sinh khi sử dụng Facebook
29
2.3
Cấu trúc cơ s dữ liệu để xây dựng mơ hình phân lớp
35
2.4
Dữ liệu huấn luyện xây dựng mơ hình khai phá dữ liệu
35
2.5
M c độ nh h
ng các thuộc tính trong mơ hình cây quyết định
43
2.6
M c độ nh h
ng các thuộc tính trong mơ hình luật kết hợp
45
2.7
B ng Confusion matrix đánh giá mơ hình cây quyết định
47
2.8
B ng Confusion matrix đánh giá mơ hình luật kết hợp
47
2.9
Dữ liệu dự đoán kết qu học tập sau khi thực hiện câu truy vấn
49
3.1
B ng cơ s dữ liệu LOP
55
3.2
Gi i thích b ng cơ s dữ liệu LOP
55
3.3
B ng cơ s dữ liệu HOCSINH
56
3.4
Gi i thích b ng cơ s dữ liệu HOCSINH
56
3.5
B ng tổng hợp phiếu kh o sát thực nghiệm
58
3.6
Kết qu dự đoán dữ liệu thực nghiệm
59
23
viii
DANH M C CÁC HÌNH
S ăhi uă
Tên hình
hình
Trang
1.1
Q trình khám phá tri th c
6
1.2
Quá trình khai phá dữ liệu
7
1.3
Quá trình xây dựng mơ hình phân lớp
12
1.4
Q trình phân lớp dữ liệu ( ớc l ợng độ chính xác)
13
1.5
Q trình phân lớp dữ liệu mới
13
1.6
Mơ hình tổng qt cây quyết định
16
1.7
Cây quyết định phân lớp nút [SLOLHT]
20
1.8
Mơ hình cây quyết định hồn chỉnh sau q trình phân lớp
23
1.9
Q trình xây dựng mơ hình luật kết hợp
27
2.1
Màn hình t o Project cho các mơ hình
36
2.2
Cửa sổ Sulution Explore để t o CSDL nguồn và mơ hình
36
2.3
Lựa chọn server name, mật khẩu, CSDL cho mơ hình
37
2.4
Đặt tên và l u dữ liệu nguồn Data Source
37
2.5
Chọn b ng dữ liệu để t o Data Source View
38
2.6
Đặt tên và l u dữ liệu nguồn Data Source View
38
2.7
Lựa chọn mơ hình cây quyết định
39
2.8
Lựa chọn các thuộc tính đầu vào cho mơ hình
39
2.9
Kết qu tính Entropy cho các thuộc tính
40
2.10
Chọn kiểu dữ liệu cho mơ hình
40
2.11
Phân chia dữ liệu để huấn luyện và test mơ hình
41
2.12
Đặt tên cho mơ hình cây quyết định
41
2.13
Xây dựng mơ hình luật kết hợp trên cấu trúc có sẵn
42
2.14
Hiển thị mơ hình cây quyết định
42
2.15
M ng phụ thuộc c a mơ hình cây quyết định
43
2.16
Hiển thị mơ hình luật kết hợp
44
2.17
M ng phụ thuộc c a mơ hình luật kết hợp
45
2.18
Biểu đồ Lift Chart (có chọn giá trị c a thuộc tính dự đốn)
46
2.19
Ma trận Confusion matrix
47
2.20
Thiết kế Prediction Query để dự đốn kết qu học tập
48
2.21
Màn hình dự đốn kết qu học tập
50
2.22
Hiển thị kết qu dự đốn
50
hình 2.21
ix
S ăhi uă
hình
Tên hình
Trang
3.1
Mơ hình cấu trúc hệ thống dự đốn kết qu học tập
51
3.2
Mơ hình CQĐ và LKH đ ợc xây dựng và thực thi thành công
52
3.3
Sơ đồ ch c năng dự đoán kết qu học tập
52
3.4
Kịch b n triển khai hệ thống dự đoán kết qu học tập
53
3.5
Kiến trúc .Net Framework
55
3.6
Sơ đồ cơ s dữ liệu quan hệ
57
3.7
Giao diện chính c a hệ thống
57
3.8
Giao diện dự đốn kết qu học tập
57
3.9
Giao diện thống kê kết qu học tập c a học sinh theo lớp
58
1
M
Đ U
1. Lý do ch năđ tài
Ngày nay sự phát triển nh vũ bưo c a khoa học công nghệ nói chung và ngành
cơng nghệ thơng tin nói riêng đư có những b ớc tiến m nh mẽ, CNTT đ ợc ng dụng
rộng rưi trong tất c các lĩnh vực c a đ i sống xư hội đư t o ra một l ợng dữ liệu
khổng lồ. Do đó, việc khai thác và chọn lọc những dữ liệu có ích từ l ợng dữ liệu đó là
rất cần thiết, đóng vai trị quyết định thành cơng trong mọi lĩnh vực ho t động. Những
dữ liệu này sau một quá trình tiền xử lý và ng dụng một số kỹ thuật trong khai phá dữ
liệu (KPDL) chúng ta có thể xây dựng mơ hình dự đốn, đ a ra những quyết định
chính xác trong t ơng lai.
Nhiều ng dụng thành cơng trong khám phá tri th c cho thấy khai phá dữ liệu là
một lĩnh vực phát triển bền vững, mang l i nhiều lợi ích to lớn, chiếm u thế hơn hẵn
so với các công cụ xử lý dữ liệu truyền thống. Trong KPDL, cây quyết định và luật kết
hợp là những kỹ thuật khai thác dữ liệu hiệu qu và đ ợc ng dụng trong các lĩnh vực
nh : kinh tế, y tế, b o hiểm, quy ho ch đô thị, du lịch, giao thông…
Hiện nay, cùng với nhịp sống hiện đ i, sự phát triển nhanh chóng c a m ng xư
hội Facebook đư giúp con ng i kết nối l i gần nhau hơn. Facebook có những tính
năng phổ biến nh : kết b n, tìm kiếm thơng tin, t o nhóm, chia sẽ, gi i trí... Facebook
có nh h ng nhất định đến cuộc sống c a mỗi cá nhân, gia đình, xư hội và đặc biệt là
kết qu học tập c a học sinh. Theo số liệu thống kê mới nhất c a trang Facebook thì
Việt Nam là quốc gia có hơn 1/3 dân số đang s hữu tài kho n Facebook [11], hàng
tháng l ợng ng i trung bình truy cập Facebook gần 30 triệu thành viên, trong đó
phần lớn nằm l a tuổi học sinh THPT. Có thể nói, Facebook đư tr nên phổ biến khi
đồng hành cùng giới trẻ mọi lúc mọi nơi, kể c khi các em sinh ho t, ăn uống, ng
nghỉ, gi i trí, học tập nhà… và tr thành ph ơng tiện khơng thể thiếu, có tầm nh
h ng không nhỏ đến mọi mặt c a đ i sống.[13]
Thực tế cho thấy những năm gần đây, kết qu học tập c a đ i đa số học sinh
các cơ s giáo dục phổ thông trên địa bàn thành phố Kon Tum nói chung nhiều học
sinh sử dụng Facebook nh ng kết qu học tập vẫn khá giỏi, nh ng cũng khơng ít học
sinh kết qu học tập l i có phần sa sút, thậm chí có nhiều em ph i thi l i. Có lẽ phần
lớn học sinh không nghĩ rằng một phần nguyên nhân là do các em sử dụng Facebook
trong một th i gian dài và ch a đúng mục đích. Nếu học sinh sử dụng Facebook đúng
mục đích, có chừng mực thì sẽ đem l i kết qu tích cực cho việc học tập, ng ợc l i nếu
quá l m dụng Facebook thì sẽ mang đến nhiều hệ lụy nh h ng đến đ i sống, s c
khỏe tinh thần có thể dẫn đến kết qu học tập sa sút, điều này gây tổn thất khơng nhỏ
cho b n thân, gia đình, nếu khơng c nh báo nhiều kh năng dẫn đến hội ch ng
“nghiện” Facebook l a tuổi này. Với những cám dỗ ngày càng nhiều và tinh vi trên
2
m ng xư hội, vậy làm thế nào để học sinh biết đ ợc mình dùng Fcaebook đúng mục
đích hay ch a, làm thế nào để các em thấy đ ợc Facebook nh h ng đến đ i sống,
s c khỏe, kết qu học tập c a mình. Đây cũng là câu hỏi khiến nhiều học sinh băn
khoăn. Đ ng tr ớc thực tế này, cần có một hệ thống t vấn giúp học sinh thấy đ ợc
Facebook nh h ng trực tiếp kết qu học tập cuối năm c a mình, từ đó có kế ho ch
tự phân bổ th i gian học tập nhà hợp lý, chỉ sử dụng Facebook khi thật sự cần thiết,
không nên quá l m dụng Facebook quá m c làm nh h ng đến kết qu học tập.
Khi tìm hiểu các cơng trình nghiên c u có liên quan, b n thân nhận thấy cũng có
nhiều cơng trình đư nghiên c u nh : “Tác động c a m ng xã hội ạacebook đối với
học sinh, sinh viên hiện nay” c a tác gi Nguyễn Thị Kim Thoa - T p chí Khoa học
ĐHQG Hà Nội hoặc “Nghiên c u về hành vi sử dụng ạacebook c a con ng ời - một
thách th c mới cho tâm lý học hiện đ i” c a tác gi Đào Lê Hòa An - T p chí Khoa
học ĐHSP Tp. Hồ Chí Minh. Tuy nhiên, các cơng trình nghiên c u này chỉ thể hiện
góc độ phân tích, đánh giá vấn đề theo quan điểm c a các nhà tâm lý giáo dục. Bằng
c m tính hoặc suy luận th cơng từ một l ợng dữ liệu khổng lồ tác gi phân tích, đánh
giá tác động c a Facebook đến kết qu học tập, điều này có thể sẽ khơng chính xác.
Qua kết qu nghiên c u thực nghiệm cho thấy vấn đề phân tích nh h ng c a
Facebook đến kết qu học tập học sinh THPT là rất kh thi và hết s c cần thiết.
Xuất phát từ những lý do trên và đ ợc sự đồng ý c a cán bộ h ớng dẫn khoa học
TS. Nguyễn Trần Quốc Vinh, tôi chọn đề tài:“ ng dụng khai phá dữ liệu để phân tích
nh h ởng c a ạacebook đến kết qu học tập học sinh THPT” làm luận văn tốt nghiệp
th c sỹ c a mình.
2. M c tiêu nghiên c u
- ng dụng kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu để
phân tích hành vi sử dụng Facebook c a học sinh THPT có nh h ng nh thế nào đến
kết qu học tập.
- Xây dựng ng dụng nhằm hỗ trợ học sinh dự đoán đ ợc kết qu học tập cuối
năm c a mình có căn c khoa học, tránh sự phán đốn, nhận biết bằng c m tính.
3. Đ iăt ng và ph m vi nghiên c u
3.1. Đối tượng nghiên c u
- Nghiên c u kỹ thuật cây quyết định, luật kết hợp trong khai phá dữ liệu.
- Nghiên c u các đặc tr ng c a tập dữ liệu thử nghiệm và các lo i hồ sơ học sinh
nh : học b , sổ gọi tên ghi điểm đ ợc l u trữ t i hai tr ng THPT Phan Bội Châu và
THPT Duy Tân.
- Các dữ liệu khác đ ợc thu thập từ giáo viên ch nhiệm, cán bộ làm công tác
giáo vụ, cán bộ qu n lý hai tr ng THPT Phan Bội Châu và THPT Duy Tân.
3.2. Ph m vi nghiên c u
- Kỹ thuật cây quyết định (thuật toán ID3) và luật kết hợp (thuật toán Apriori).
3
- Sử dụng công cụ hỗ trợ khai phá dữ liệu Business Intelligence Development
Studio (BIDS) đ ợc tích hợp trong MicroSoft SQL Server 2008 R2, ngơn ngữ lập
trình Visual C# và hệ qu n trị cơ s dữ liệu SQL.
- Tập dữ liệu huấn luyện gần 730 b n ghi, đ ợc thu thập từ học sinh hai tr ng
THPT Phan Bội Châu và THPT Duy Tân trên địa bàn thành phố Kon Tum, tỉnh Kon
Tum trong năm học 2018-2019 và 2019-2020.
4. Ph ngăphápănghiênăc u
4.1. Nghiên c u lý thuyết
- Nghiên c u thuật toán ID3 xây dựng cây quyết định và thuật toán Apriori khai
phá luật kết hợp trong dự báo và phân lo i thơng tin.
- Tìm hiểu, thu thập thơng tin, phân tích số liệu từ phiếu kh o sát c a học sinh,
nghiên c u các tài liệu, giáo trình có liên quan đến khai phá dữ liệu và tham kh o ý
kiến từ các giáo viên ch nhiệm, giáo viên t vấn học đ ng, cán bộ làm công tác
giáo vụ.
4.2. Nghiên c u thực nghiệm
- ng dụng kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu để xây
dựng mô hình và hệ thống dự đốn kết qu học tập c a học sinh THPT.
- Phân tích, xây dựng mơ hình, thiết kế phát triển hệ thống và thử nghiệm.
5. D ki n k t qu
5.1. Kết qu về lý thuyết
- Hiểu rõ hơn về kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu.
- ng dụng kỹ thuật cây quyết định và luật kết hợp trong KPDL vào dự báo kết
qu học tập c a học sinh, nhằm giúp học sinh h n chế việc l m dụng Facebook làm
nh h ng đến đ i sống tâm sinh lý, s c khỏe và kết qu học tập.
5.2. Kết qu thực tiễn
- Xây dựng hệ thống dự đoán giúp học sinh các tr ng THPT trên địa bàn thành
phố Kon Tum dự đoán kết qu học tập cuối năm.
- Hệ thống dự đoán đ ợc xây dựng trên mơi tr ng web có ch c năng cơ b n và
dễ dàng sử dụng.
6. ụănghƿaăkhoaăh c và th c ti n c a lu năvĕn
- Về mặt khoa học, luận văn đư áp dụng lý thuyết về kỹ thuật cây quyết định và
luật kết hợp trong khai phá dữ liệu cho bài toán dự đoán kết qu học tập c a học sinh
THPT trong t ơng lai và có thể nhân rộng cho các cơ s giáo dục phổ thông khác.
- Về mặt thực tiễn, ng dụng có kh năng dự báo, phân tích nh h ng c a
Facebook đến kết qu học tập c a học sinh THPT t ơng đối chính xác, tránh sự phán
đốn, nhận biết bằng c m tính hoặc suy luận th cơng.
7. B c c c a lu năvĕn
Ngồi các phần m đầu, mục lục, danh mục các từ viết tắt, danh mục hình, danh
4
mục b ng và kết luận, luận văn chia làm 3 ch ơng:
Ch ơng 1: Cung cấp cái nhìn tổng quan về quá trình khám phá tri th c và khai
phá dữ liệu. Nghiên c u một số kỹ thuật phân lớp dựa trên cây quyết định và luật kết
hợp làm cơ s cho việc xây dựng các mơ hình khai phá dữ liệu.
Ch ơng 2: Tập trung phân tích tác động c a bối c nh xư hội dẫn đến nh h ng
c a Facebook đến kết qu học tập c a học sinh THPT. Sử dụng công cụ hỗ trợ khai
phá dữ liệu Business Intelligence Development Studio c a MicroSoft SQL Server để
xây dựng mơ hình khai phá dữ liệu bằng các kỹ thuật cây quyết định và luật kết hợp.
Từ đó đánh giá, kiểm định tính chính xác c a từng mơ hình và lựa chọn mơ hình tối u
nhất để xây dựng ng dụng dự đốn.
Ch ơng 3: Dựa vào những tri th c phát hiện đ ợc từ mơ hình cây quyết định và
luật kết hợp tác gi phân tích thiết kế ng dụng dựa trên nền web cho phép học sinh dự
đoán kết qu học tập cuối năm. Trình bày quá trình thử nghiệm hệ thống với mơ hình
phân lớp bằng kỹ thuật cây quyết định trên tập dữ liệu thực, đ ợc kh o sát và lấy
phiếu thăm dò học sinh các tr ng THPT trên địa bàn thành phố Kon Tum. Từ đó đề
xuất h ớng phát triển c a đề tài nghiên c u.
5
CH
NGă1
T NG QUAN V KHAI PHÁ D
LI U
1.1. T ng quan khai phá d li u
1.1.1. Giới thiệu chung về khám phá tri th c và khai phá dữ liệu
Khám phá tri th c hay phát hiện tri th c là một quá trình tìm ra những tri th c
mới, đó là những mẫu tìm ẩn tr ớc đó ch a biết và là một thơng tin hữu ích đáng tin
cậy. Còn khai phá dữ liệu là một b ớc quan trọng trong q trình khám phá tri th c,
nó sử dụng các thuật toán KPDL để đ a ra các mẫu hoặc các mơ hình trong dữ liệu
nhằm trợ giúp nhanh cho ng i ra quyết định hoặc dự báo. Dữ liệu là tập hợp những
thơng tin chính xác và quá trình khám phá tri th c đ ợc xem nh là sự sàn lọc các dữ
liệu d thừa, đ ợc rút gọn tới m c tối thiểu chỉ để l i các đặc tr ng cơ b n cho dữ liệu.
Tri th c đ ợc tìm thấy là các thơng tin tích hợp, bao gồm các sự kiện và các mối quan
hệ trong chúng. Các mối quan hệ này có thể đ ợc hiểu ra, có thể đ ợc phát hiện hoặc
có thể đ ợc học.
Nếu khám phá tri th c là tồn bộ q trình chiết xuất tri th c từ các CSDL thì
KPDL là giai đo n ch yếu c a q trình đó. KPDL là một quá trình phát hiện các mẫu
mới, th ng bao gồm việc thử tìm mơ hình phù hợp với tập dữ liệu đư có và tìm kiếm
các mẫu từ tập dữ liệu theo mơ hình đó. Sử dụng các kỹ thuật và các khái niệm c a các
lĩnh vực đư đ ợc nghiên c u từ tr ớc nh : học máy, nhận d ng, thống kê, hồi quy,
phân cụm, phân lớp, các mơ hình đồ thị, các m ng Bayes,… KPDL đ ợc sử dụng để
t o ra gi thuyết. Thí dụ: để xác định các yếu tố r i ro khi cho khách hàng vay tín
dụng, kỹ thuật KPDL ph i phát hiện đ ợc những ng i có thu nhập thấp và nợ nhiều
là những ng i sẽ có m c r i ro cao. Ngồi ra, kỹ thuật KPDL cũng có thể phát hiện
ra những quy luật mà nhà phân tích có thể ch a tìm ra, thí dụ nh tỉ lệ giữa thu nhập
trên nợ và tuổi cũng là các yếu tố xác định m c r i ro. Để làm đ ợc điều này, KPDL
sử dụng các thông tin trong quá kh để học. Nó sẽ tìm kiếm các thơng tin này trong
các CSDL và sử dụng chúng để tìm ra các mẫu đáng quan tâm.
Nếu xét về mặt ý t ng và mục đích ng dụng KPDL là một nhu cầu tất yếu, một
sự nh y c m đáp l i sự mong mỏi c a giới kinh doanh thì về mặt kỹ thuật, đó thực sự
là một khó khăn và thách th c đối với các nhà khoa học. KPDL đ ợc xây dựng dựa
trên việc sử dụng các gi i thuật mới, đ ợc định h ớng theo nhu cầu kinh doanh để có
thể gi i quyết tự động các bài toán kinh doanh bằng các kỹ thuật dễ dùng và có thể
hiểu đ ợc. Các kỹ thuật đang đ ợc nghiên c u và sử dụng hiện nay bao gồm cây quyết
định, ph ơng pháp K láng giềng, luật kết hợp, m ng neuron, các luật suy diễn,…
KPDL không thuộc một ngành cơng nghiệp nào. Nó sử dụng các kỹ thuật thông
minh để khai phá các tri th c tiềm ẩn trong kho dữ liệu. Có thể coi KPDL ngày nay
6
đang tr ng thái giống nh việc qu n trị dữ liệu vào những năm 60 c a thế kỷ XX,
khi mà các ng dụng qu n trị dữ liệu đều không tuân theo một nguyên tắc chung nào
cho đến khi mơ hình dữ liệu quan hệ ra đ i cùng với s c m nh c a ngôn ngữ vấn đáp
đư thúc đẩy việc phát triển các ng dụng qu n trị dữ liệu lên nhanh chóng. Tuy vậy,
hiện nay trên thế giới đư có rất nhiều ngành cơng nghiệp sử dụng kỹ thuật KPDL để
phục vụ cho ho t động kinh doanh c a mình và đư b ớc đầu thành cơng nh ngành tài
chính, y học, hóa học, b o hiểm, giao thông, hàng không,… Các kết qu đ t đ ợc cho
thấy mặc dù kỹ thuật KPDL hiện nay vẫn còn nhiều vấn đề nổi cộm, nh ng với những
tri th c mà chuyên gia con ng i cũng ch a cung cấp đ ợc thì KPDL có một tiềm
năng to lớn trong việc t o ra những lợi nhuận đáng kể trong nền kinh tế. [5]
1.1.2. Quá trình khám phá tri th c
Quá trình khám phá tri th c đ ợc tiến hành qua 6 giai đo n nh sau:
Hình 1.1 - Quá trình khám phá tri th c
Bắt đầu c a quá trình là kho dữ liệu thô và kết thúc với tri th c dữ liệu đ ợc phát
hiện. Về lý thuyết thì có vẻ rất đơn gi n, nh ng thực sự đây là một q trình rất khó
khăn, gặp ph i nhiều v ớng mắc nh : qu n lý các tập dữ liệu, ph i lặp đi lặp l i tồn
bộ q trình,… sáu giai đo n c a q trình khám phá tri th c là:
Ảom dữ liệu: Gom dữ liệu hay tập hợp dữ liệu là b ớc đầu tiên trong quá trình
khai phá dữ liệu. Đây là b ớc đ ợc khai thác trong một CSDL, một kho dữ liệu và
thậm chí các dữ liệu từ các nguồn ng dụng web.
Trích lọc dữ liệu: giai đo n này dữ liệu đ ợc lựa chọn hoặc phân chia theo
một số tiêu chuẩn nào đó phục vụ mục đích khai thác, thí dụ chọn tất c những em học
sinh có giới tính nữ và có độ tuổi nhỏ hơn 18.
Làm s ch, tiền xử lý dữ liệu: Giai đo n này là giai đo n hay bị sao lưng, nh ng
thực tế nó là một b ớc rất quan trọng trong quá trình KPDL. Một số lỗi th ng mắc
ph i trong khi gom dữ liệu là tính khơng chặt chẽ. Vì vậy, dữ liệu th ng ch a các giá
7
trị vơ nghĩa và khơng có kh năng kết nối. Thí dụ tập dữ liệu vừa có cột ngày sinh và
cột độ tuổi. Giai đo n này sẽ tiến hành xử lý những d ng dữ liệu không chặt chẽ nh
vậy. Những d ng dữ liệu này đ ợc xem nh thơng tin d thừa, khơng có giá trị. B i
vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không đ ợc “làm s ch tiền xử lý - chuẩn bị tr ớc” thì sẽ gây nên những kết qu sai lệch.
Chuyển đổi dữ liệu: Giai đo n này dữ liệu sẽ đ ợc chuyển đổi về d ng phù
hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp.
Khai phá dữ liệu: Đây là một tiến trình cốt yếu, mang tính t duy trong
KPDL. giai đo n này nhiều thuật toán khác nhau đư đ ợc sử dụng một cách phù hợp
để trích xuất thơng tin có ích hoặc các mẫu điển hình trong dữ liệu.
Đánh giá các luật và biểu diễn tri th c: Giai đo n này các mẫu dữ liệu đ ợc
chiết xuất ra, không ph i bất c mẫu dữ liệu nào cũng đều hữu ích, đơi khi nó cịn bị
sai lệch. Vì vậy, cần u tiên những tiêu chuẩn đánh giá để tách ra các tri th c cần thiết.
Nh vậy, sự khác biệt giữa khám phá tri th c và khai phá dữ liệu là: KPTT nói
đến q trình tổng thể phát hiện tri th c hữu ích từ dữ liệu, cịn KPDL chỉ là một b ớc
trong q trình KPTT, các công việc ch yếu là xác định đ ợc bài toán khai phá, tiến
hành lựa chọn ph ơng pháp KPDL phù hợp với dữ liệu có đ ợc và tách ra các tri th c
cần thiết.[8]
1.1.3. Quy trình khai phá dữ liệu
Khai phá dữ liệu là một giai đo n quan trọng trong quá trình khám phá tri th c.
Về b n chất là giai đo n duy nhất tìm ra đ ợc thơng tin mới, thơng tin tiềm ẩn có trong
CSDL ch yếu phục vụ cho mơ t và dự đốn.
Mơ t dữ liệu là tổng kết hoặc diễn t những đặc điểm chung c a những thuộc
tính dữ liệu trong kho dữ liệu mà con ng i có thể hiểu đ ợc.
Dự đốn là dựa trên những dữ liệu hiện th i để dự đoán những quy luật đ ợc
phát hiện từ các mối liên hệ giữa các thuộc tính c a dữ liệu trên cơ s đó chiết xuất ra
các mẫu, dự đốn đ ợc những giá trị ch a biết hoặc những giá trị t ơng lai c a các
biến quan tâm.
Hình 1.2 - Quá trình khai phá dữ liệu
8
Quá trình khai phá dữ liệu bao gồm các b ớc chính nh sau:
Xác định nhiệm vụ: Xác định chính xác các vấn đề cần gi i quyết.
Xác định các dữ liệu liên quan: Dùng để xây dựng gi i pháp.
Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý
chúng sao cho thuật tốn KPDL có thể hiểu đ ợc. Đây là một q trình rất khó khăn,
có thể gặp ph i rất nhiều các v ớng mắc nh : dữ liệu ph i đ ợc sao ra nhiều b n, qu n
lý các tập dữ liệu, ph i lặp đi lặp l i nhiều lần toàn bộ q trình,…
Thuật tốn khai phá dữ liệu: Lựa chọn thuật tốn KPDL và thực hiện việc
KPDL để tìm đ ợc các mẫu có ý nghĩa, các mẫu này đ ợc biểu diễn d ới d ng luật kết
hợp, cây quyết định,... t ơng ng với ý nghĩa c a nó.
1.1.4. Một số kỹ thuật khai phá dữ liệu
1.1.4.1. Kỹ thuật khai phá dữ liệu mơ t
Có nhiệm vụ mơ t về các tính chất hoặc các đặc tính chung c a dữ liệu trong
CSDL hiện có. Nhóm kỹ thuật này gồm các ph ơng pháp: phân nhóm (Clustering),
tổng hợp hóa (Summerization), phát hiện sự biến đổi và độ lệch (Change and deviation
detection), khai phá luật kết hợp (Association Rules), ...
1.1.4.2. Kỹ thuật khai phá dữ liệu dự đoán
Kỹ thuật này có nhiệm vụ đ a ra các dự đốn dựa vào các suy diễn trên dữ liệu
hiện có. Nhóm kỹ thuật này gồm các ph ơng pháp: Phân lớp (Classfication), Hồi qui
(Regression), Trực quan hóa (Visualiztion)…
Có nhiều ph ơng pháp khai phá dữ liệu đ ợc các nhà khoa học sử dụng nghiên
c u, trong đó ba ph ơng pháp đ ợc sử dụng nhiều nhất đó là: Khai phá luật kết hợp,
phân lớp và phân cụm dữ liệu. [3]
1.1.5. Các phương pháp khai phá dữ liệu
1.1.5.1. Ph ơng pháp phân lớp (classification & prediction)
Phân lớp là quá trình xây dựng mơ hình mơ phỏng bằng cách gán các đối t ợng
dữ liệu vào các lớp đư xác định. Mục tiêu c a thuật tốn phân lớp là tìm ra mối quan
hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp. Nh thế q trình phân lớp
có thể sử dụng mối quan hệ này để dự báo cho các mục mới. [3]
Phân lớp dữ liệu dựa trên bốn thành phần cơ b n là: Lớp, dự đoán, tập dữ liệu
đ ợc huấn luyện, tập dữ liệu kiểm thử.
Đặc tr ng c a tiến trình phân lớp gồm những điểm sau:
Đầu vào: Dữ liệu huấn luyện ch a những đối t ợng với thuộc tính c a nó, với
một số thuộc tính đư đ ợc gán nhưn.
Đầu ra: Mơ hình đ ợc gán b i những nhưn cụ thể cho mỗi đối t ợng dựa trên
những thuộc tính khác.
1.1.5.2. Ph ơng pháp phân cụm (Clustering)
Là việc mơ t chung để chia một tập dữ liệu thành các cụm (nhóm), lo i mơ t dữ
9
liệu. Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ liệu
có thể vừa thuộc nhóm này l i vừa thuộc nhóm khác nh ng ph i đ m b o các đối
t ợng thuộc một cụm là t ơng tự nhau, đối t ợng cụm này sẽ ít t ơng tự với đối
t ợng cụm khác.
1.1.5.3. Ph ơng pháp hồi quy (Regression)
Là việc học một hàm ánh x từ một mẫu dữ liệu thành một biến dự đốn có giá
trị thực. Phân tích hồi quy sẽ xác định đ ợc định l ợng quan hệ giữa các biến và biến
phụ thuộc vào giá trị c a những biến khác. Nhiệm vụ c a hồi quy t ơng tự nh phân
lớp, điểm khác nhau chính là chỗ thuộc tính để dự báo là liên tục cịn phân lớp dữ
liệu là dự đốn các giá trị r i r c.
1.1.5.4. Ph ơng pháp phân tích luật kết hợp(Association Rule)
Là tiến trình xác định những luật phụ thuộc giữa những nhóm khác nhau, là việc
phát hiện và đ a ra các mối liên hệ giữa các giá trị dữ liệu trong cơ s dữ liệu. Là công
việc khám phá các luật kết hợp từ những mẫu th ng xuyên hoặc dựa trên ràng buộc.
Mục đích c a luật kết hợp là tìm ra sự kết hợp hay t ơng quan giữa các đối t ợng
(items). Những luật kết hợp này có d ng X Y.
1.1.5.5. Ph ơng pháp mẫu tuần tự (Sequential Pattern mining)
Là việc xác định những mẫu mà sự xuất hiện c a chúng trong CSDL thỏa mưn
ng ỡng tối thiểu. Luật tuần tự đ ợc sinh ra từ mẫu tuần tự, biểu diễn mối quan hệ giữa
hai lo i sự kiện này sẽ x y ra sau lo t sự kiện kia.
1.1.6. ng dụng c a khai phá dữ liệu
Lĩnh vực khai phá dữ liệu có nhiều ng dụng trong thực tế, một số ng dụng điển
hình nh : [2]
B o hiểm, tài chính và thị tr ờng ch ng khốn: phân tích tình hình tài chính
và dự báo giá c a các lo i cổ phiếu trong thị tr ng ch ng khoán. Danh mục vốn và
giá, lưi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,…
Điều trị y học và chăm sóc y tế: một số thơng tin về chẩn đốn bệnh l u trong
các hệ thống qu n lý bệnh viện. Phân tích mối liên hệ giữa triệu ch ng bệnh, chẩn
đoán và ph ơng pháp điều trị (chế độ dinh d ỡng, thuốc,…).
S n xuất và chế biến: qui trình, ph ơng pháp chế biến và xử lý sự cố
Text & Web mining: phân lớp văn b n và các trang web, tóm tắt văn b n.
Lĩnh vực khoa học: quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm
kiếm, so sánh các hệ gene và thơng tin di truyền, mối liên hệ gene và các bệnh di
truyền,…
Lĩnh vực khác: viễn thông, môi tr ng, thể thao, âm nh c, giáo dục,…
1.1.7. Dự báo dựa vào khai phá dữ liệu
1.1.7.1. Khái niệm
Dự báo là một môn khoa học nghiên c u và tiên đoán những sự việc sẽ x y ra
10
trong t ơng lai trên cơ s phân tích khoa học về các dữ liệu thu thập đ ợc. Khi tiến
hành dự báo cần căn c vào việc thu thập và xử lý số liệu trong quá kh và hiện t i để
xác định xu h ớng vận động c a các hiện t ợng trong t ơng lai nh vào một số mơ
hình tốn học.
Dự báo nói chung th ng tuân theo 5 quy trình nh sau:
- Xác định mục tiêu dự báo
- Xác định lo i dự báo
- Lựa chọn mơ hình dự báo
- Thu thập số liệu, tiến hành dự báo
- ng dụng và theo dõi kết qu dự báo.
1.1.7.2. Các ph ơng pháp dự báo, đánh giá độ chính xác c a mơ hình KPDL
Các ph ơng pháp dự báo
- Ph ơng pháp dự báo định tính: Ph ơng pháp này là những dự đốn ch quan
hoặc trực giác về t ơng lai bằng cách dựa vào suy đoán, c m nhận.
- Ph ơng pháp dự báo định l ợng: Ph ơng pháp này dựa vào các số liệu thống
kê và thông qua các công th c toán học đ ợc thiết lập để dự báo nhu cầu cho t ơng
lai. Khi dự báo nhu cầu t ơng lai, nếu không xét đến các nhân tố nh h ng khác có
thể dùng các ph ơng pháp dự báo theo dưy số th i gian. Nếu cần nh h ng c a các
nhân tố khác đến nhu cầu có thể dùng các mơ hình hồi quy t ơng quan.
Tuy nhiên, trên thực tế có một số tr ng hợp cụ thể ng i ta sẽ sử dụng kết hợp
c hai ph ơng pháp nói trên bằng ph ơng pháp tổng hợp.
B ng 1.1 - Một số ph ơng pháp dự báo
Ph ngăphápăd ăbáoăđ nhătính
Ph ngăphápăd ăbáoăđ nhăl ng
Tiên đoán (Genius forcasting)
Hệ số đàn hồi
Chuyên gia (Consensus methods) Nội suy xu h ớng (Trens interpolation)
Kịch b n (Scenario)
Ngo i suy xu h ớng (Trens extrapolation)
Mơ phỏng, mơ hình hóa (Stimulation)
Cây quyết định (Decisison trees)
Tổng hợp (Combining methods)
Trong các ph ơng pháp dự báo nói trên thì ph ơng pháp: ngo i suy xu h ớng;
mơ phỏng, mơ hình hóa; cây quyết định là kết qu c a việc ng dụng kỹ thuật KPDL.
Ph ơng pháp đánh giá độ chính xác mơ hình phân lớp
Trong những bài tốn phân lớp, sau khi đư xử lý dữ liệu và đ a vào mơ hình học
máy, đầu ra c a mơ hình sẽ là một vector xác suất t ơng ng c a từng lớp. Ta có thể
đánh giá m c độ dự đốn chính xác c a mơ hình khai phá dữ liệu bằng ph ơng pháp
ma trận Confusion matrix nh
B ng 1.2
11
B ng 1.2 – Ma trận Confusion matrix để đánh giá mơ hình
Actual (thực tế)
Yes
No
Predicted
Yes
TP (True Positive) FP (False Positive)
(dự đốn)
No
FN (False Negative) TN (True Positive)
Để đánh giá mơ hình dự đoán ho t động tốt thế nào ng i ta th ng dựa vào các
tham số Precision và Recall nh sau:
TP
TP FP
TP
Recall =
TP FN
Precision =
TP: mẫu mang nhưn d ơng đ ợc phân lớp đúng vào lớp d ơng
FN: mẫu mang nhưn d ơng bị phân lớp sai vào lớp âm
FP: mẫu mang nhưn âm bị phân lớp sai vào lớp d ơng
TN: mẫu mang nhưn âm đ ợc phân lớp đúng vào lớp âm
1.2. Phân l p d li u và m t s k thu t trong phân l p d li u
1.2.1. Phân lớp dữ liệu (classification)
Phân lớp dữ liệu là một trong những h ớng nghiên c u chính c a KPDL. Thực tế
đặt ra nhu cầu là từ một cơ s dữ liệu với nhiều thơng tin ẩn con ng i có thể trích rút
ra các quyết định nghiệp vụ thơng minh. Phân lớp và dự đoán là hai d ng c a phân
tích dữ liệu nhằm trích rút ra một mơ hình mơ t các lớp dữ liệu quan trọng hay dự
đoán xu h ớng dữ liệu t ơng lai. Phân lớp dự đoán giá trị c a những nhưn xác định
(categorical label) hay những giá trị r i r c (discrete value), có nghĩa là phân lớp thao
tác với những đối t ợng dữ liệu mà có bộ giá trị là biết tr ớc. Trong khi đó, dự đốn
l i xây dựng mơ hình với các hàm nhận giá trị liên tục. Ví dụ mơ hình phân lớp dự báo
th i tiết có thể cho biết th i tiết ngày mai là m a, hay nắng dựa vào những thông số về
độ ẩm, s c gió, nhiệt độ,… c a ngày hơm nay và các ngày tr ớc đó. Hay nh các luật
về xu h ớng mua hàng c a khách hàng trong siêu thị, các nhân viên kinh doanh có thể
ra những quyết sách đúng đắn về l ợng mặt hàng cũng nh ch ng lo i bày bán… Một
mơ hình dự đốn có thể dự đốn đ ợc l ợng tiền tiêu dùng c a các khách hàng tiềm
năng dựa trên những thông tin về thu nhập và nghề nghiệp c a khách hàng. Trong
những năm qua, phân lớp dữ liệu đư thu hút sự quan tâm các nhà nghiên c u trong
nhiều lĩnh vực khác nhau nh học máy (machine learning), hệ chuyên gia (expert
system), thống kê (statistics)... Công nghệ này cũng ng dụng trong nhiều lĩnh vực
khác nhau nh : th ơng m i, ngân hàng, maketing, nghiên c u thị tr ng, b o hiểm, y
tế, giáo dục...
1.2.2. Quá trình phân lớp
Quá trình phân lớp là đặt các mẫu vào các lớp đư đ ợc xác định tr ớc. Nhiệm vụ
Trong đó:
12
chính là tìm các hàm ánh x các mẫu dữ liệu một cách chính xác vào trong các lớp.Ví
dụ một ngân hàng muốn phân lo i các khách hành c a họ vào trong hai nhóm có nợ
hay khơng nợ, từ đó giúp họ ra quyết định cho vay hay khơng cho vay. Q trình phân
lớp dữ liệu th ng gồm 2 b ớc: [14] xây dựng mơ hình (q trình học) và sử dụng mơ
hình để phân lớp dữ liệu (quá trình phân lớp).
1.2.2.1. Quá trình học (learning)
Quá trình học nhằm xây dựng một mơ hình mơ t một tập các lớp dữ liệu hay các
khái niệm định tr ớc. Đầu vào c a quá trình này là một tập dữ liệu có cấu trúc đ ợc
mơ t bằng các thuộc tính và đ ợc t o ra từ tập các bộ giá trị c a các thuộc tính đó.
Mỗi bộ giá trị đ ợc gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu
(sample), ví dụ (example), đối t ợng (object), b n ghi (record)… Luận văn sử dụng
các thuật ngữ này với nghĩa t ơng đ ơng. Trong tập dữ liệu này, mỗi phần tử dữ liệu
đ ợc gi sử thuộc về một lớp định tr ớc, lớp đây là giá trị c a một thuộc tính đ ợc
chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute). Đầu
ra c a b ớc này th ng là các quy tắc phân lớp d ới d ng luật d ng if-then, cây quyết
định, công th c logic, hay m ng nơron. Q trình này đ ợc mơ t nh hình 1.3.
Hình 1.3 - Q trình xây dựng mơ hình phân lớp
1.2.2.2. Quá trình phân lớp (classification)
B ớc th hai dùng mơ hình đư xây dựng b ớc tr ớc để phân lớp dữ liệu mới.
Tr ớc tiên độ chính xác mang tính chất dự đốn c a mơ hình phân lớp vừa t o ra đ ợc
ớc l ợng. Holdout là một kỹ thuật đơn gi n để ớc l ợng độ chính xác đó. Kỹ thuật
này sử dụng một tập dữ liệu kiểm tra với các mẫu đư đ ợc gán nhưn lớp. Các mẫu này
đ ợc chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào t o. Độ chính xác
c a mơ hình trên tập dữ liệu kiểm tra đư đ a là tỉ lệ phần trăm các các mẫu trong tập
13
dữ liệu kiểm tra đ ợc mơ hình phân lớp đúng (so với thực tế). Nếu độ chính xác c a
mơ hình đ ợc ớc l ợng dựa trên tập dữ liệu đào t o thì kết qu thu đ ợc là rất kh
quan vì mơ hình ln có xu h ớng “quá vừa” dữ liệu. Quá vừa dữ liệu là hiện t ợng
kết qu phân lớp trùng khít với dữ liệu thực tế vì q trình xây dựng mơ hình phân lớp
từ tập dữ liệu huấn luyện có thể đư kết hợp những đặc điểm riêng biệt c a tập dữ liệu
đó. Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu huấn luyện.
Nếu độ chính xác c a mơ hình là chấp nhận đ ợc, thì mơ hình đ ợc sử dụng để phân
lớp dữ liệu t ơng lai.
Hình 1.4 - Quá trình phân lớp dữ liệu ( ớc l ợng độ chính xác)
Hình 1.5 - Q trình phân lớp dữ liệu mới
Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trị trung tâm, quyết định tới
sự thành cơng c a mơ hình phân lớp. Do vậy, chìa khóa c a vấn đề phân lớp dữ liệu là
tìm ra đ ợc một thuật toán phân lớp nhanh, hiệu qu , có độ chính xác cao và có kh
năng m rộng đ ợc. Trong đó kh năng m rộng c a thuật toán đ ợc đặc biệt chú
trọng và phát triển. [14]
14
1.2.3. Một số kỹ thuật phân lớp dữ liệu
1.2.3.1. Cây quyết định (Decision Tree)
Các kỹ thuật phân lớp sử dụng cây quyết định để phân tách các dữ liệu cho đến
khi mỗi phần ch a đựng hầu hết các mẫu từ một lớp đặc tr ng, kết qu c a quá trình
sẽ cho ra một cây quyết định. Điểm phân tách trong cây quyết định là một nút (không
ph i là nút lá) sẽ sử dụng một số điều kiện để quyết định dữ liệu sẽ đ ợc phân tách
nh thế nào. Các nút cuối cùng trong cây quyết định ch a đựng các bộ mẫu giống
nhau. Lợi thế c a cây quyết định là các thuật toán ch y khá nhanh, với kết qu khá tốt
và có thể gi i thích đ ợc rõ ràng. Tuy nhiên, bất lợi mà các thuật tốn c a cây quyết
định có thể gặp ph i đó là chúng có thể tìm ra các điểm tới h n cục bộ, đ a ra các kết
qu không đúng.
1.2.3.2. K-láng giềng gần nhất (k-Nearest Neighbor)
Thuật tốn này tìm ra các láng giềng gần nhất c a mẫu thử nghiệm và quy về các
nhưn lớp c a chúng dựa trên các nhưn đa số, điều đó có nghĩa là các mẫu đ ợc quy về
cùng lớp khi chúng là lân cận c a nhau. Kỹ thuật này cho rằng vị trí trong khơng gian
đặc tr ng hàm ý một quan hệ họ hàng gần gũi giữa các nhưn lớp.
Lợi thế c a các thuật toán K-láng giềng gần nhất là dễ thực thi, và kết qu mà nó
đem l i kh năng dễ dàng gi i thích. Nh ng một điểm bất lợi là các thuật tốn này đ a
ra các mơ hình rất lớn với một tập dữ liệu nhỏ.
1.2.3.3. M ng nơron (Neural networks)
M ng nơron là m ng đ ợc mô phỏng theo bộ nưo c a con ng i. Đó là một cấu
trúc dữ liệu c a các hàm với một hoặc nhiều trọng số đầu vào, với kết qu đầu ra là
một nhưn các lớp. Từng phần riêng biệt c a dữ liệu đ ợc đ a vào m ng nơron và các
hàm - các trọng số trong m ng nơron bị thay đổi (học - huấn luyện) tùy theo tỷ lệ lỗi
c a đầu ra. Ph ơng pháp này th ng đ a đến một kho ng th i gian huấn luyện dài
ngay c khi tập dữ liệu nhỏ.
Lợi thế c a m ng nơron là đ a đến các kết qu khá chính xác, nh ng bất lợi c a
nó là th ng địi hỏi th i gian huấn luyện dài và đ a ra các kết qu khó hiểu, c ng
nhắc, bị bao bọc trong một hộp đen, khó gi i thích t ng minh.
1.2.3.4. Gi i thuật di truyền (Genetic algorithms)
Các gi i thuật di truyền đ ợc sử dụng để đ a ra công th c gi thuyết về sự phụ
thuộc giữa các biến. Đối với một gi i thuật di truyền ph i sử dụng các gi i pháp nh
c nh tranh, lựa chọn và kết hợp giữa các tập hợp cá thể.
Lợi thế c a gi i thuật di truyền là th ng đ a đến các kết qu kiểm tra khá chính
xác, nh ng bất lợi c a nó là kết qu có đ ợc thơng qua việc lập trình tiến hóa và các
kết qu cũng th ng c ng nhắc, khó hiểu.
1.2.3.5. M ng Bayesian (Bayesian networks)
M ng Bayesian sử dụng các đồ thị có h ớng, khơng có chu trình để miêu t sự