Tải bản đầy đủ (.pdf) (82 trang)

Khai thác dữ liệu văn bản trên thiết bị di động sử dụng các dịch vụ đám

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.68 MB, 82 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
──────── * ───────

LUẬN VĂN TỐT NGHIỆP THẠC SĨ
NGÀNH KỸ THUẬT PHẦN MỀM

ĐỀ TÀI:

KHAI PHÁ DỮ LIỆU VĂN BẢN TRÊN THIẾT BỊ DI ĐỘNG
SỬ DỤNG CÁC DỊCH VỤ ĐÁM MÂY

HỌC VIÊN THỰC HIỆN

: NGUYỄN THỊ THÚY HẰNG

LỚP

: 2014B-KTPM

SỐ HIỆU HỌC VIÊN

: CB140147

GIẢNG VIÊN HƯỚNG DẪN

: PGS.TS. CAO TUẤN DŨNG

HÀ NỘI 11-2017



MỤC LỤC

LỜI CAM ĐOAN ……………………………………………………….4
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ

……………...6

DANH MỤC CÁC HÌNH ẢNH

…………………………………..7

DANH MỤC CÁC BẢNG BIỂU

…………………………………..8

CHƯƠNG 1: KHAI PHÁ DỮ LIỆU …………………………………11
1.1. Khái niệm về khai phá dữ liệu

…………………………..11

1.2. Quy trình khai phá dữ liệu …………………………………13
1.3. Các kỹ thuật khai phá dữ liệu

…………………………..16

1.4. Các công cụ khai phá dữ liệu

…………………………..22

CHƯƠNG 2: ĐIỆN TOÁN ĐÁM MÂY


…………………………..25

2.1. Sự ra đời của điện toán đám mây …………………………..25
2.2. Kiến trúc mơ hình điện tốn đám mây
2.3. Các dịch vụ điện tốn đám mây

…………………...28

…………………………..28

2.4. Các mơ hình triển khai điện toán đám mây

…………….34

2.5. Khai phá dữ liệu trong điện toán đám mây

…………….35

CHƯƠNG 3: KHAI THÁC Ý KIẾN VÀ PHÂN TÍCH CẢM XÚC
3.1. Định nghĩa

.38

……………………………………………….38

3.2 Các định nghĩa liên quan

…………………………………40


3.3. Các tác vụ của phân tích cảm xúc …………………………..42
3.4. Các cấp phân tích khác nhau

…………………………..44

3.5. Bài tốn phân lớp cảm xúc …………………………………45
CHƯƠNG 4: CƠNG CỤ PHÂN TÍCH Ý KIẾN, CẢM XÚC CỦA
KHÁCH HÀNG TRÊN THIẾT BỊ DI ĐỘNG
…………………..57
4.1. Hoàn cảnh ra đời

………...……………………………...57

4.2. Bài toán phản hồi của khách hàng …………………………..58
4.3. Chức năng của công cụ

…………………………………59

4.4. Kết quả xây dựng hệ thống …………………………………64
4.5. Đánh giá ưu điểm, nhược điểm của hệ thống

…………….77

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

2


CHƯƠNG 5: KẾT LUẬN VÀ ĐỀ XUẤT
5.1. Hệ thống


…………………………..78

……………………………………………………...78

5.1.1. Đánh giá chung

………………………………………..78

5.1.2. Công việc đã làm được

…………………………………78

5.1.3. Những vấn đề chưa giải quyết

…………………………..78

5.1.4. Định hướng phát triển đề tài

…………………………..79

5.2. Công cụ sử dụng ……………………………………………….79
5.2.1. Đánh giá chung

………………………………………..79

5.2.2. Khả năng áp dụng

………………………………………..79


TÀI LIỆU THAM KHẢO

………………………………………..81

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

3


LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Những nội dung trong luận văn này là cơng trình nghiên cứu của tơi dưới sự hướng
dẫn trực tiếp của TS. Cao Tuấn Dũng.
2. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên cơng
trình, thời gian, địa điểm công bố.
3. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai cơng bố
trong bất kỳ cơng trình nào khác.
4. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn
tồn trách nhiệm.
Hà Nô ̣i, ngày 15 tháng 10 năm 2017
Tác giả luâ ̣n văn

Nguyễn Thị Thúy Hằng

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

4


LỜI CẢM ƠN

Trong quá trình học tập, nghiên cứu và thực hiện luận văn thạc sỹ, tôi đã nhận
được nhiều sự hỗ trợ, đóng góp nhiệt tình của các cá nhân và tổ chức tạo điều kiện cho
tơi hồn thành luận văn này. Qua đây tôi cũng xin gửi lời cảm ơn chân thành, sâu sắc
tới các cá nhân và tập thể đã giúp đỡ tôi trong thời gian vừa qua.
Trước hết, tôi xin chân thành cảm ơn thầy giáo PGS.TS Cao Tuấn Dũng, Viện
Công Nghệ Thông Tin, Trường Đại Học Bách Khoa Hà Nội là người đã trực tiếp
hướng dẫn, nhận xét và giúp đỡ tôi trong suốt quá trình thực hiện luận văn này.
Tơi xin chân thành cảm ơn các thầy cô trong Viện Công Nghệ Thông Tin, các
thầy cô trong Viện Đào Tạo Sau Đại Học đã giúp đỡ, tạo điều kiện và hướng dẫn tôi
trong suốt thời gian học tập tại trường.
Cuối cùng, tôi xin chân thành cảm ơn gia đình, bạn bè và đồng nghiệp, những
người đã gắn bó cùng tơi trong suốt thời gian học tập và thực hiện luận văn và tạo điều
kiện cho tôi thực hiện tốt luận văn này.
Do thời gian thực hiện có hạn và hạn chế về kiến thức chun ngành nên luận
văn của tơi cịn nhiều thiếu sót. Mong nhận được các ý kiến đóng góp của các thầy cơ
để luận văn của tơi được hồn thiện hơn.
Tơi xin chân thành cảm ơn!
Hà Nội, ngày 01 tháng 11 năm 2017
Học viên
Nguyễn Thị Thúy Hằng

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

5


DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
STT
1
2

3

4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Ý nghĩa
Cross-Industry Standard Process (Quy trình xử lý dữ
liệu cơng nghiệp chuẩn)
SEMMA Sample, Explore, Modify, Model, and Assess
CRISPCross-Industry Standard Process for Data Mining
DM
(Quy trình xử lý dữ liệu cơng nghiệp chuẩn cho khai
phá dữ liệu)
ANN
Artificial Neural Networks (Mạng nơ ron nhân tạo)

SAS
Statistical Analysis System (Hệ thống phân tích thống
kê)
PE
Processing Element (Yếu tố xử lý)
IaaS
Infrastructure as a Service (Dịch vụ cơ sở hạ tầng)
PaaS
Platform as a Service (Dịch vụ nền tảng)
SaaS
Software as a Service (Dịch vụ phần mềm)
ASP
Application Service Provider (Nhà cung cấp dịch vụ
ứng dụng)
EC2
Elastic Compute Cloud (Đám mây tính tốn đàn hồi)
SLA
Service-Level Agreement (Thỏa thuận mức dịch vụ)
NER
Named Entity Recognition (Nhận dạng tên thực thể)
POS
Part of Speech (Từ loại)
SVM
Support Vector Machine (Máy vector hỗ trợ)
HMM
Hidden Markov Model (Mơ hình Markov ẩn)
CRF
Conditional random Fields (Trường điều kiện ngẫu
nhiên)
pLSA

Probabilistic Latent Semantic Analysis (Phân tích xác
suất ngữ nghĩa tiềm ẩn)
LDA
Latent Dirichlet allocation (Phân bổ Dirichlet tiềm ẩn)
Amazon S3 Amazon Simple Storage Service (Dịch vụ lưu trữ của
Amazon)
Từ viết tắt
CRISP

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

6


DANH MỤC CÁC HÌNH ẢNH

Hình 1: Quy trình khai phá dữ liệu ...................................................................... 14
Hình 2: Mạng nơ ron nhân tạo ............................................................................. 16
Hình 3: Kỹ thuật học có giám sát trong mạng nơ ron nhân tạo ........................... 17
Hình 4: Kỹ thuật học không giám sát trong mạng nơ ron nhân tạo ..................... 18
Hình 5: Kỹ thuật học tăng cường trong mạng nơ ron nhân tạo ........................... 18
Hình 6: Mơ hình mạng nơ ron đơn giản .............................................................. 19
Hình 7: Entropy .................................................................................................... 20
Hình 8: Điện tốn lưới ......................................................................................... 26
Hình 9: Điện tốn theo u cầu ............................................................................ 27
Hình 10: Điện tốn tự trị ...................................................................................... 27
Hình 11: Kiến trúc điện tốn đám mây ................................................................ 28
Hình 12: Dịch vụ cơ sở hạ tầng............................................................................ 29
Hình 13: Dịch vụ nền tảng ................................................................................... 31
Hình 14: Dịch vụ phần mềm ................................................................................ 32

Hình 15: Mơ hình của hệ thống phân tích cảm xúc khách hàng.......................... 63
Hình 16: Các chức năng chính của hệ thống ....................................................... 64
Hình 17: Chức năng thu thập dữ liệu ................................................................... 65
Hình 18: Chức năng trích xuất thực thể ............................................................... 66
Hình 19: Chức năng phân tích cảm xúc ............................................................... 68

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

7


DANH MỤC CÁC BẢNG BIỂU

Bảng 1: Đánh giá kết quả của hệ thống. .................................................... 73
Bảng 2: So sánh kết quả giữa dịch vụ của Google và IBM. ...................... 76

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

8


LỜI MỞ ĐẦU
Trong hồn cảnh ngành cơng nghệ thơng tin phát triển mạnh mẽ như hiện nay,
các thiết bị thông tin trở thành một phần quan trọng trong đời sống cũng như giao tiếp
của con người. Việc sử dụng rộng rãi các thiết bị thông tin trong đời sống và giao tiếp
khiến cho lượng dữ liệu mà con người tạo ra ngày càng lớn. Với lượng dữ liệu khổng
lồ đó, việc tìm kiếm thơng tin trở nên khó khăn hơn. Vì vậy nhu cầu của việc khai phá
dữ liệu để trích xuất được các thơng tin hữu ích của người dùng từ một lượng dữ liệu
khổng lồ là vô cùng cần thiết. Khai phá dữ liệu là một khái niệm trong đó bao gồm
nhiều lĩnh vực khác nhau, khai thác ý kiến và phân tích cảm xúc là một trong số các

lĩnh vực của khai phá dữ liệu. Việc khai thác ý kiến và phân tích cảm xúc đã được
nghiên cứu và triển khai trên máy tính bởi một số các doanh nghiệp nhằm mục đích thu
thập phản hồi từ khách hàng. Tuy nhiên, việc triển khai trên thiết bị di động cịn gặp
khó khăn do hạn chế về tài nguyên của thiết bị di động. Với sự phát triển công nghệ
như hiện nay, việc triển khai khai thác ý kiến và phân tích cảm xúc trên thiết bị di động
trở nên dễ dàng hơn dưới sự hỗ trợ của các dịch vụ đám mây. Do đó, sau thời gian
nghiên cứu, em đã được nhận đề tài luận văn tốt nghiệp rất thực tế đó là:
“Khai phá dữ liệu văn bản trên thiết bị di động sử dụng các dịch vụ đám
mây”
Lĩnh vực khai phá dữ liệu là một lĩnh vực rộng lớn và phức tạp, do giới hạn về
thời gian và năng lực nên em xin tập trung vào bài tốn khai thác ý kiến và phân tích
cảm xúc trong khai phá dữ liệu văn bản. Luận văn đề xuất phương pháp khai phá dữ
liệu sử dụng dịch vụ đám mây áp dụng cho các thiết bị di động nhằm khắc phục các
hạn chế về bộ nhớ và tài nguyên. Để tiện theo dõi em xin trình bày đề tài theo 5 phần
chính như sau:
-

Phần đầu là giới thiệu tổng quan về khai phá dữ liệu

-

Phần thứ hai là giới thiệu lý thuyết điện toán đám mây

-

Phần thứ ba là giới thiệu lý thuyết của khai thác ý kiến và phân tích cảm xúc

-

Phần thứ tư bao gồm bài toán đề xuất, cơ sở xây dựng và kết quả đạt được


Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

9


-

Phần cuối cùng là kết luận sau khi làm luận văn và định hướng phát triển

Trong quá trình thực hiện, tuy được sự giúp đỡ nhiệt tình của thầy PGS.TS Cao
Tuấn Dũng là giảng viên Viện công nghệ thông tin và truyền thơng – giáo viên hướng
dẫn nhưng với trình độ, thời gian có hạn, tài liệu tham khảo hạn chế nên có thể có
nhiều thiếu sót, rất mong được các thầy cơ và bạn bè góp ý để luận văn của em được
tốt hơn.

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

10


CHƯƠNG 1: KHAI PHÁ DỮ LIỆU
1.1.

Khái niệm về khai phá dữ liệu

1.1.1. Tiền đề cho sự phát triển của khai phá dữ liệu
Khai phá dữ liệu đã thu hút rất nhiều sự chú ý trong ngành công nghệ thông tin
và trong xã hội những năm gần đây, do số lượng dữ liệu khổng lồ trên nhiều lĩnh vực,
yêu cầu cấp thiết là chuyển đổi những dữ liệu đó thành các thơng tin hay tri thức hữu

ích. Những thơng tin và tri thức đó có thể được sử dụng trong các ứng dụng từ phân
tích thị trường, phát hiện lỗi đến điều khiển sản xuất và trong các ngành khoa học.
Khai phá dữ liệu có thể được xem như một kết quả của sự phát triển tự nhiên
của ngành công nghệ thơng tin. Chuỗi chức năng chính trong ngành cơng nghệ thông
tin hiện nay: tổng hợp dữ liệu và kiến tạo cơ sở dữ liệu, quản lý dữ liệu (bao gồm nhận
và lưu trữ dữ liệu, cơ sở dữ liệu cho xử lý các giao dịch), và phân tích dữ liệu nâng cao
(bao gồm lưu trữ dữ liệu và khai phá dữ liệu). Ví dụ: sự phát triển của cơ chế tổng hợp
dữ liệu và kiến tạo cơ sở dữ liệu có vai trị như một u cầu cho sự phát triển của cơ
chế hiệu năng cho việc nhận và lưu trữ dữ liệu, xử lý truy vấn, giao dịch. Với nhiều hệ
thống cơ sở dữ liệu cho phép xử lý truy vấn và giao dịch. Phân tích dữ liệu nâng cao là
bước tiếp theo quá trình xử lý và truy vấn.
Sự phát triển của cơng nghệ phần cứng máy tính trong vài thập niên gần đây đã
tạo ra những máy tính, thiết bị tổng hợp dữ liệu, thiết bị lưu trữ đa phương tiện mạnh
mẽ. Điều này cung cấp một lợi thế lớn cho công nghệ thông tin, tạo ra một số lượng
lớn các kho dữ liệu và thông tin có sẵn cho quản lý ứng dụng.
Sự phong phú của dữ liệu cũng đi đôi với nhu cầu về các cơng cụ phân tích dữ
liệu mạnh mẽ để tránh tình trạng nghèo nàn về thông tin. Sự tăng trưởng nhanh chóng
về kích thước của các kho dữ liệu đã vượt q khả năng của con người nếu khơng có
sự hỗ trợ của các công cụ khác. Kết quả là dữ liệu được lưu trữ trong các kho dữ liệu sẽ
bị lãng quên. Do đó, những quyết định quan trọng thường được tạo ra mà không dựa
trên thông tin được lưu trữ trong cơ sở dữ liệu, chỉ dự trên cảm tính chủ quan của
Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

11


người đưa ra quyết định. Đơn giản là do người đưa ra quyết định khơng có cơng cụ để
chiết xuất những tri thức cần thiết từ thơng tin có được. Ngoài ra, các hệ thống điều tra
thường dựa vào tri thức đầu vào do người dùng tự nhập vào cơ sở dữ liệu. Điều này dễ
gây ra lỗi do sự chủ quan của người dùng và gây mất thời gian, chi phí. Các cơng cụ

khai phá dữ liệu thực hiện phân tích dữ liệu, có thể phát hiện ra một số mơ hình dữ liệu
quan trọng đóng góp to lớn vào các chiến lược kinh doanh, cơ sở tri thức và các lĩnh
vực y học, nghiên cứu khoa học. Khoảng trống giữa thông tin và tri thức ngày càng lớn
yêu cầu sự phát triển mang tính hệ thống của các cơng cụ khai phá dữ liệu có thể biến
dữ liệu thành tri thức.
1.1.2. Định nghĩa
Khai phá dữ liệu được định nghĩa là một quá trình chắt lọc hay khai phá tri thức
từ một lượng lớn dữ liệu [1].
Thuật ngữ khai phá dữ liệu chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một
số lượng lớn các dữ liệu thơ. Có nhiều thuật ngữ hiện tại được dùng cũng có nghĩa
tương tự với Data Mining như Knowledge Mining, Knowledge Extraction,
Data/Pattern Analysis đều được dùng để nhắc đến việc khai phá dữ liệu.
Khai phá dữ liệu là một bước trong quy trình khai phá tri thức được mơ tả dưới
đây [1]:
-

Làm sạch dữ liệu: loại bỏ những dữ liệu nhiễu, thừa và không đồng nhất.

-

Kết hợp dữ liệu: nhiều nguồn dữ liệu có thể được kết hợp với nhau.

-

Chọn lọc dữ liệu: những dữ liệu liên quan đến các tác vụ phân tích được lấy
ra từ cơ sở dữ liệu.

-

Chuyển đổi dữ liệu: dữ liệu có thể được chuyển đổi hay hợp nhất trong một

dạng thích hợp cho việc khai phá dữ liệu dựa trên hoạt động tóm tắt hay kết
hợp.

-

Khai phá dữ liệu: một quy trình cần thiết tại đó các phương thức khác nhau
được áp dụng nhằm mục đích chiết xuất các mơ hình dữ liệu.

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

12


-

Đánh giá mơ hình: xác định mơ hình có thực sự phù hợp biểu diễn tri thức
dựa trên một vài chuẩn cho trước hay không.

-

Biểu diễn tri thức: các công nghệ trình bày giả lập và tri thức được sử dụng
để biểu diễn tri thức đã khai phá được cho người dùng.

1.2.

Quy trình khai phá dữ liệu
Nhằm mục đích hệ thống hóa việc phân tích khai phá dữ liệu, một quy trình

chung thường được sử dụng. Có một vài quy trình chuẩn được đưa ra, 2 trong số đó là
CRISP và SEMMA. CRISP là một quy trình cơng nghiệp chuẩn bao gồm một chuỗi

các bước được sử dụng trong việc nghiên cứu khai phá dữ liệu. SEMMA là một quy
trình riêng cho SAS, trong đó mỗi bước của cách tiếp cận khơng bắt buộc trong mỗi
lần phân tích, quy trình này cung cấp một tập các bước cần thiết, bắt đầu từ khai thác
dữ liệu, sưu tập dữ liệu, xử lý dữ liệu, phân tích, rút ra suy luận và thực thi.
CRISP-DM được sử dụng rộng rãi bởi các nhân tố cơng nghiệp. Mơ hình này
bao gồm 6 pha riêng biệt như hình vẽ dưới đây [1].

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

13


Tìm hiểu cơng
việc

Tìm hiểu dữ liệu

Chuẩn bị dữ liệu
Triển khai

Nguồn dữ liệu

Xây dựng mơ
hình

Kiểm thử
đánh giá




Hình 1: Quy trình khai phá dữ liệu CRISP-DM với 6 pha riêng
biệt: tìm hiểu cơng việc, tìm hiểu dữ liệu, chuẩn bị dữ liệu, xây dựng
mơ hình, kiểm thử và đánh giá, triển khai được thực hiện lần lượt
trên một nguồn dữ liệu có sẵn.
-

Pha đầu tiên - Tìm hiểu cơng việc (Business Understanding) [1] bao gồm
xác định đối tượng của công việc, đánh giá tình hình hiện tại, đề xuất mục
đích của khai phá dữ liệu và xây dựng kế hoạch dự án.

-

Pha thứ hai - Tìm hiểu dữ liệu (Data Understanding) [1]: khi các đối tượng
của công việc và kế hoạch dự án được thiết lập, xem xét các yêu cầu dữ liệu.
Pha này bao gồm: sưu tập dữ liệu ban đầu, mô tả dữ liệu, khai thác dữ liệu
và đánh giá chất lượng dữ liệu. Khai phá dữ liệu được ví như việc xem xét
bảng thống kê tóm tắt (trong đó bao gồm các biểu diễn ảo của các biến) có
thể xảy ra vào cuối giai đoạn này. Mơ hình phân tích cụm (Cluster analysis)
cũng có thể được áp dụng trong giai đoạn này với mục đích xác định các
mẫu trong dữ liệu.

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

14


-

Pha thứ ba – Chuẩn bị dữ liệu (Data Preparation) [1]: khi nguồn dữ liệu có
sẵn được xác định, nó cần phải được chọn lựa, làm sạch, kết hợp vào những

hình thức mong muốn và định dạng lại. Làm sạch dữ liệu và chuyển đổi dữ
liệu trong việc chuẩn bị mơ hình dữ liệu cần phải được thực hiện trong bước
này. Khai phá dữ liệu sâu hơn có thể được áp dụng trong giai đoạn này, và
những mơ hình khác được sử dụng để cung cấp cơ hội tìm thấy các mẫu dữ
liệu dựa trên sự hiểu biết về công việc.

-

Pha thứ tư – Xây dựng mơ hình (Modeling) [1]: các công cụ phần mềm khai
phá dữ liệu như giả lập (biểu diễn thông tin và thiết lập các mối quan hệ) và
phân tích cụm (để xác định những biến nào có thể đi cùng nhau) rất hữu ích
cho việc phân tích ban đầu. Những cơng cụ như Generalized rule induction
có thể phát triển những luật kết hợp ban đầu. Sau khi có được sự hiểu biết về
những dữ liệu lớn hơn (thường qua các mơ hình nhận được từ việc quan sát
các mơ hình đầu ra), những mơ hình chi tiết hơn thích hợp cho các kiểu dữ
liệu sẽ được áp dụng. Việc phân chia dữ liệu thành các tập training và test
cũng cần thiết cho việc mơ hình hóa.

-

Pha thứ năm – Đánh giá (Evaluation) [1]: các kết quả mơ hình sẽ được đánh
giá bởi các mục tiêu công việc được đưa ra ở giai đoạn đầu tiên. Điều này sẽ
dẫn đến việc xác định các yêu cầu khác (thường qua việc xác nhận mơ hình),
và quay trở lại giai đoạn trước của mơ hình CRISP-DM. Tìm hiểu công việc
là một công việc được lặp đi lặp lại trong khai phá dữ liệu, sao cho các kết
quả trực quan, thống kê và cơng cụ trí tuệ nhân tạo khác nhau biểu diễn cho
người dùng các mối quan hệ mới cung cấp một sự hiểu biết sâu hơn về tổ
chức của các hoạt động.

-


Pha cuối cùng – Triển khai (Deployment) [1]: khai phá dữ liệu có thể được
sử dụng cho cả việc xác minh giả thiết trước đó hay khám phá tri thức mới
(xác định các mối quan hệ bất ngờ và hữu ích). Qua việc tri thức được khám
phá trong các giai đoạn trước của quy trình CRISP-DM, các mơ hình có thể
thu được sau đó áp dụng trong các hoạt động với mục đích khác nhau, bao

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

15


gồm dự đốn hay xác định các tình huống quan trọng. Những mơ hình này
cần phải được theo dõi thay đổi trong điều kiện hoạt động, do nó có thể là
đúng trong hôm nay nhưng chưa đúng trong năm nay. Nếu một vài thay đổi
xảy ra, mơ hình cần được xây dựng lại.
1.3.

Các kỹ thuật khai phá dữ liệu
Có 3 kỹ thuật chính được sử dụng trong việc khai phá dữ liệu là: Mạng nơ ron

nhân tạo ANN, cây quyết và giải thuật người hàng xóm gần nhất. Mỗi kỹ thuật thực
hiện việc phân tích dữ liệu theo một cách khác nhau được mô tả như sau:
1.3.1. Mạng nơ ron nhân tạo
Mạng nơ ron nhân tạo hay còn được gọi là mạng nơ ron là một mơ hình tốn
học hay mơ hình tính tốn dựa trên mạng nơ ron sinh học, nói cách khác nó là một mơ
phỏng của hệ thống thần kinh [5]. Nó bao gồm một nhóm các nơ ron kết nối với nhau
và thông tin về quy trình sử dụng cách tiếp cận kết nối để tính toán. Trong hầu hết các
trường hợp, một mạng nơ ron là một hệ thống thích ứng với các thay đổi cấu trúc của
nó dựa trên các thơng tin bên trong hoặc bên ngồi chảy qua mạng trong suốt q trình

học tập. Trong nhiều thuật ngữ thực nghiệm các mạng nơ ron là các cơng cụ mơ hình
hóa dữ liệu thống kê phi tuyến tính. Nó có thể được sử dụng để mơ hình hóa các mối
quan hệ phức tạp giữa đầu vào và đầu ra hay để tìm các mẫu trong dữ liệu. Một mạng
nơ ron là một nhóm kết nối bởi các nút, mô phỏng mạng nơ ron trong não bộ con
người.

Hình 2: Mạng nơ ron nhân tạo. Trong đó (A) là mơ phỏng một nơ ron của
con người, (B) là mơ hình một nơ ron nhân tạo, (C) mô phỏng các kết nối sinh học
Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

16


giữa các nơ ron trong não bộ con người, (D) thể hiện các kết nối trong mạng nơ
ron nhân tạo.
Việc huấn luyện trong mạng nơ ron nhân tạo: một mạng nơ ron phải được cấu
hình sao cho việc áp dụng một bộ đầu vào sẽ tạo ra một bộ đầu ra theo đúng mong
muốn. Các phương pháp khác nhau được sử dụng để xác định độ mạnh của các kết nối
tồn tại. Một cách là đặt trọng số một cách rõ ràng, sử dụng các kiến thức tiên nghiệm.
Một cách khác là đào tạo mạng nơ ron bằng cách cho nó các mơ hình giảng dạy và để
cho nó thay đổi trọng số theo các quy định huấn luyện. Chúng ta có thể phân loại các
tình huống học tập như sau:
-

Học có giám sát: hay học có liên kết trong đó mạng nơ ron được huấn luyện
bằng cách cung cấp cho nó các đầu vào và các mẫu đầu ra phù hợp. Những
cặp đầu vào – đầu ra này có thể được cung cấp bởi một giáo viên bên ngoài
hoặc bởi một hệ thống mà chứa các mạng thần kinh (tự giám sát).

Hình 3: Kỹ thuật học có giám sát trong mạng nơ ron nhân tạo. Trong đó

các mẫu đầu vào và đầu ra đã được cung cấp bởi một giáo viên hay một hệ thống.
-

Học không giám sát: hay tự tổ chức trong đó một đơn vị đầu ra được đào tạo
để đáp ứng các nhóm mẫu của đầu vào. Trong mơ hình này, hệ thống được
dùng để khám phá các đặc điểm nổi bật về mặt thống kê của đầu vào. Khơng
giống như mơ hình học tập có giám sát, khơng có một tập hợp tiên đề các
loại mà trong đó các mơ hình được phân loại, thay vào đó hệ thống phải phát
triển các đại diện của nó đáp ứng các đầu vào.

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

17


Hình 4: Kỹ thuật học khơng giám sát trong mạng nơ ron nhân tạo. Trong
đó hệ thống sẽ dựa vào thông tin từ môi trường mà đưa ra các đầu ra phù hợp.
-

Học tăng cường: loại học này có thể được xem như một mơ hình trung gian
giữa 2 loại trên. Ở đó các máy học thực hiện một vài hành động trên môi
trường và nhận được các phản hồi từ môi trường. Hệ thống học tập đánh giá
hoạt động tốt (khen thưởng) hoặc xấu (phê phán) dựa trên các đáp ứng của
môi trường và điều chỉnh các thông số của nó.

Hình 5: Kỹ thuật học tăng cường trong mạng nơ ron nhân tạo. Là mơ hình
trung gian giữa học có giám sát và học khơng giám sát.
Mơ hình mạng nơ-ron đơn giản: một trong những mơ hình mạng nơ-ron đơn
giản nhất được mơ tả trong hình gồm 3 tầng: tầng đầu vào, tầng ẩn và tầng đầu ra.
Trong mỗi tầng có 1 hay nhiều yếu tố xử lý (PE). PE có nghĩa là để mơ phỏng các tế

bào nơ-ron trong não và đây là lý do tại sao nó thường được gọi là các nơ-ron hay các
nút.

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

18


Hình 6: Mơ hình mạng nơ ron đơn giản gồm 3 tầng là tầng đầu vào, tầng
ẩn để xử lý và tầng đầu ra. Trong tầng ẩn có nhiều yếu tố xử lý hay các nơ ron để
thực hiện nhiệm vụ.
Một PE nhận các đầu vào từ thế giới bên ngồi. Quy trình xử lý của mạng nơron như sau:
-

Dữ liệu đầu vào được trình bày cho mạng và được truyền qua mạng cho đến
khi nó đến tầng đầu ra. Quá trình chuyển tiếp này tạo ra một đầu ra dự đoán.

-

Đầu ra dự đoán này được loại ra khỏi đầu ra thực tế và một giá trị lỗi cho
mạng được tính tốn.

-

Mạng nơ-ron sau đó sử dụng phương pháp học có giám sát, trong nhiều
trường hợp là sự truyền lại, để đào tạo cho mạng. Truyền lại là một thuật
toán học tập dành cho việc điều chỉnh trọng số. Nó bắt đầu bằng trọng số
giữa tầng PE đầu ra và tầng PE ẩn cuối cùng và hoạt động ngược trở lại
thơng qua mạng.


-

Khi q trình truyền trở lại hồn thành, quá trình chuyển tiếp bắt đầu và
điều này được lặp lại cho đến khi lỗi giữa đầu ra dự đoán và thực tế là nhỏ
nhất.

1.3.2. Cây quyết định
Cây quyết định [6] xây dựng các mơ hình phân loại hoặc hồi quy dưới hình thức
cấu trúc cây. Nó chia nhỏ tập dữ liệu thành các tập con nhỏ hơn trong khi tại cùng thời
điểm một cây kết hợp cũng được phát triển. Kết quả cuối cùng là một cây với các nút
quyết định và các nút lá. Nút quyết định có 2 hoặc nhiều nhánh. Nút lá đại diện cho
một phân lớp hay một quyết định. Nút quyết định trên cùng của một ây tương ứng với

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

19


dự đoán tốt nhất được gọi là nút gốc. Các cây quyết định có thể xử lý cả dữ liệu phân
loại và dữ liệu số.
Giải thuật để xây dựng một cây quyết định được gọi là ID3 được tạo bởi J.R.
Quinlan. Giải thuật này thực hiện việc tìm kiếm vét cạn từ trên xuống qua các nhánh có
thể. ID3 sử dụng một Entropy và một Information Gain để xây dựng một cây quyết
định.
-

Entropy: một cây quyết định được xây dựng từ trên xuống từ một nút gốc và
liên quan đến việc phân chia dữ liệu thành các tập con chứa các thể hiện với
các giá trị tương tự. Giải thuật ID3 sử dụng entropy để tính tốn tính đồng
nhất của một mẫu. Nếu mẫu là hồn tồn đồng nhất thì entropy của nó bằng

0 và nếu mẫu được chia đều thì nó có entropy bằng 1.

Hình 7: Entropy. Entropy thể hiện tính đồng nhất của một mẫu. Nếu mẫu
hồn tồn đồng nhất thì entropy của nó nhỏ nhất bằng 0. Nếu mẫu được chia đều
thì entropy của nó đạt giá trị lớn nhất bằng 1.
Để xây dựng một cây quyết định, chúng ta cần tính tốn 2 loại entropy sử dụng
các bảng tần suất như sau:
 Entropy sử dụng bảng tần suất của một thuộc tính:
E(S) = ∑𝑐𝑖=1

- pilog2pi

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

20


 Entropy sử dụng bảng tần suất của 2 thuộc tính
E(T,X) = ∑𝑐∈𝑋 𝑃(𝑐 )𝐸 (𝑐 )
-

Information gain: dựa trên sự tăng dần của entropy sau khi một tập dữ liệu
được chia trên một thuộc tính. Việc xây dựng một cây quyết định là tất cả về
việc tìm kiếm thuộc tính trả về information gain cao nhất.
 Bước 1: tính toán entropy của mục tiêu
 Bước 2: tập dữ liệu sau đó được chia thành các thuộc tính khác
nhau. Entropy của mỗi nhánh sẽ được tính. Sau đó nó được thêm
vào theo tỉ lệ để có được entropy tổng cho việc chia này. Entropy
kết quả được trừ đi khỏi entropy trước khi chia. Kết quả là
Information Gain hay sự tăng dần của entropy.

 Bước 3: chọn thuộc tính với giá trị information gain lớn nhất là
nút quyết định, chia tập dữ liệu theo các nhánh của nó và lặp lại
quy trình tương tự trên mỗi nhánh.
 Bước 4: một nhánh có entropy bằng 0 là một nút lá
 Bước 5: một nhánh với entropy lớn hơn 0 cần phải được phân chia
tiếp
 Bước 6: Giải thuật ID3 được thực hiện hồi quy trên các nút không
phải nút lá cho đến khi tập dữ liệu được phân lớp hoàn toàn.

1.3.3. Người hàng xóm gần nhất
Người hàng xóm gần nhất [11] là một trong những thuật tốn học có giám sát
đơn giản nhất trong khai phá dữ liệu. Nó cịn được gọi với các tên gọi khác như Lazy
learning, Example-based learning, Instance-based learning hay nhiều tên khác nhau tùy
theo hồn cảnh. Nó khơng học từ tập dữ liệu huấn luyện mà nó chỉ lưu trữ dữ liệu huấn
luyện và phân loại các dữ liệu mới dựa trên sự tính tốn về độ tương đồng. Với phương
pháp này, tất cả các công việc được thực hiện là phân loại dữ liệu mới chứ không phải
xử lý tập dữ liệu huấn luyện. Trong một ý nghĩa nào đó, sự khác biệt của phương pháp
này với các phương pháp khác chúng ta đã thấy là thời gian ở đó việc học diễn ra.
Trong phương pháp này, mỗi dữ liệu mới sẽ được so sánh với các dữ liệu hiện tại sử
Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

21


dụng một ma trận khoảng cách và dữ liệu có sẵn có khoảng cách gần nhất sẽ được sử
dụng để gán lớp cho dữ liệu mới. Dữ liệu có sẵn này được gọi là hàng xóm. Đây được
gọi là phương pháp phân loại hàng xóm gần nhất. Đơi khi có nhiều hơn 1 hàng xóm có
khoảng cách gần được sử dụng và lớp lớn nhất của k hàng xóm gần nhất hoặc trung
bình trọng số khoảng cách được gán cho dữ liệu mới. Đây được gọi là phương pháp K
người hàng xóm gần nhất. Với phương pháp K người hàng xóm gần nhất, nếu các điểm

dữ liệu trong những điểm gần nhất được chọn là dư liệu nhiễu, kết quả có thể xuất hiện
sai lệch. Các nhà nghiên cứu đã tìm ra rằng với K = 5 cho hiệu quả tốt nhất qua nhiều
thực nghiệm.
K người hàng xóm gần nhất có thể được áp dụng cho bài tốn phân lớp hay bài
toán hồi quy như sau:
-

Trong bài toán phân lớp, lớp của một điểm dữ liệu mới sẽ được suy ra trực
tiếp từ K điểm dữ liệu gần nhất trong tập dữ liệu huấn luyện.

-

Trong bài toán hồi quy, đầu ra của một điểm dữ liệu sẽ bằng chính đầu ra
của điểm dữ liệu đã biết gần nhất trong trường hợp K = 1. Trong trường hợp
K > 1, đầu ra của điểm dữ liệu sẽ là trung bình có trọng số của đầu ra của
những điểm gần nhất hoặc một mối quan hệ dựa trên khoảng cách tới các
điểm gần nhất đó.

Điều quan trọng trong phương pháp người hàng xóm gần nhất là giải quyết
được bài tốn xác định khoảng cách. Mặc dù có nhiều giải thuật có thể giải quyết bài
toán này, tuy nhiên hầu hết các nhà nghiên cứu đều chọn khoảng cách Euclide. Khoảng
cách giữa một đối tượng với các giá trị thuộc tính (a11, a21, …, ak1) trong đó k là số các
thuộc tính và một đối tượng khác của các giá trị thuộc tính (a12, a22, …, ak2) được xác
định như sau:
√(a11 − a12)2 + (𝑎21 − 𝑎22)2 + ⋯ + (𝑎𝑘1 − 𝑎𝑘2)2
1.4.

Các công cụ khai phá dữ liệu
Khai phá dữ liệu không chỉ đơn thuần là các phần mềm công cụ và cơ sở dữ liệu


mà bạn đang sử dụng. Bạn có thể thực hiện khai phá dữ liệu với các hệ thống cơ sở dữ
Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

22


liệu tương đối nhỏ và các công cụ đơn giản, bao gồm cả việc tạo ra và lập trình riêng
của bạn, hoặc sử dụng gói phần mềm dịch vụ. Việc khai phá dữ liệu phức tạp chiếm
được lợi từ kinh nghiệm trong quá khứ và các giải thuật được định nghĩa với các gói
phần mềm đang tồn tại, với những công cụ nhất định hay sự nhân bản với các kỹ thuật
khác nhau.
Do hiện nay tồn tại nhiều loại dữ liệu khác nhau nên tương ứng cũng có các
cơng cụ khai phá dữ liệu khác nhau. Mỗi loại công cụ có từng ưu và nhược điểm riêng.
Tùy thuộc vào loại dữ liệu cần được khai phá mà ta có thể chọn loại công cụ nào cho
phù hợp. Hiện nay các công cụ khai phá dữ liệu được chia thành 3 loại chính là: các
cơng cụ khai phá dữ liệu truyền thống, bảng điều khiển, và công cụ khai phá văn bản.
-

Các công cụ khai phá dữ liệu truyền thống: các chương trình khai phá dữ
liệu truyền thống cho phép thành lập các mẫu và các xu hướng cho dữ liệu
bằng việc sử dụng một vài giải thuật và kỹ thuật phức tạp. Một vài công cụ
được cài đặt trên máy tính để giám sát các dữ liệu và nhấn mạnh các xu
hướng và một số khác nắm giữ các thông tin lưu trú bên ngoài cơ sở dữ liệu.
Điều quan trọng là chúng đều có sẵn các phiên bản cho cả hệ điều hành
Windows và UNIX, chỉ một số ít được phát triển trên một loại hệ điều hành.
Ngoài ra, chỉ có một số cơng cụ tập trung vào một loại cơ sở dữ liệu, hầu hết
các công cụ đều có thể xử lý bất kỳ dữ liệu nào sử dụng phương pháp phân
tích trực tuyến hoặc một kỹ thuật tương tự.

-


Bảng điều khiển: được cài đặt trên các máy tính đề giám sát các thơng tin
trong một cơ sở dữ liệu, bảng điều khiển phản ánh các thay đổi và cập nhật
dữ liệu trên màn hình – thường ở dạng biểu đồ hoặc dạng bảng- cho phép
người dùng xem cách hoạt động của các doanh nghiệp. Các dữ liệu lịch sử
dụng có thể được tham chiếu, cho phép người dùng xem nơi thay đổi xảy ra
(ví dụ: tăng doanh thu so với cùng kỳ năm ngoái). Chức năng này làm cho
bảng điều khiển dễ dàng sử dụng và đặc biệt hấp dẫn với các nhà quản lý
muốn có một cái nhìn tổng quan về hoạt động của doanh nghiệp mình.

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

23


-

Công cụ khai phá văn bản: loại thứ 3 của công cụ khai phá dữ liệu đôi khi
được gọi là cơng cụ khai phá văn bản vì nó có thể khai phá dữ liệu từ các
loại văn bản khác nhau – từ các văn bản định dạng Microsoft Word và
Acrobat PDF tới các tệp văn bản đơn giản. Những công cụ này quét các nội
dung và chuyển đổi các dữ liệu được chọn thành một định dạng tương thích
với cơ sở dữ liệu của nó, do đó làm cho người dùng dễ dàng và thuận tiện
hơn khi truy nhập dữ liệu mà không cần phải mở các ứng dụng khác. Các nội
dung đã được qt có thể khơng có cấu trúc (tức là thông tin rải rác ngẫu
nhiên trong tài liệu, bao gồm các email, trang internet, các dữ liệu âm thanh
và hình ảnh) hoặc có cấu trúc (tức là định dạng và mục đích của dữ liệu đã
biết, như các nội dung được tìm thấy trong cơ sở dữ liệu). Việc thu thập
những đầu vào này có thể cung cấp cho các tổ chức một lượng thơng tin có
thể được khai thác để khám phá xu hướng, khái niệm và thái độ.


Bên cạnh các công cụ trên, các ứng dụng và chương trình khác cũng có thể được
sử dụng với mục đích khai phá dữ liệu. Ví dụ, các cơng cụ được sử dụng cho kiểm tốn
có thể làm nổi bật các mẫu và dữ liệu gian lận, khác thường. Ngồi ra, các kiểm tốn
viên nội bộ có thể sử dụng bảng tính để thực hiện các hành động khai phá dữ liệu đơn
giản hoặc tạo các bảng tóm tắt. Một số máy tính để bàn, máy tính xách tay và máy chủ
chạy các hệ điều hành như Windows, Linux và Macintosh có thể được nhập trực tiếp
vào Excel. Việc sử dụng các bảng quan trọng trong bảng tính, các kiểm tốn viên có
thể xem lại các dữ liệu phức tạp trong một định dạng đơn giản và đi sâu vào nơi cần
thiết để tìm ra các giả định hoặc các thông tin cơ bản.

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

24


CHƯƠNG 2: ĐIỆN TOÁN ĐÁM MÂY
2.1.

Sự ra đời của điện tốn đám mây
Điện tốn đám mây hay cloud computing, cịn gọi là điện tốn máy chủ ảo, là

mơ hình điện tốn sử dụng các cơng nghệ máy tính và phát triển dựa vào mạng
internet. Thuật ngữ “đám mây” ở đây là lối nói ẩn dụ chỉ mạng internet và như một liên
tưởng về độ phức tạp của các cơ sở hạ tầng chứa trong nó. Theo IBM, điện tốn đám
mây là việc cung cấp tài nguyên máy tính cho người dùng tùy theo mục đích sử dụng
thơng qua kết nối internet. Nguồn tài ngun đó có thể là bất kì thứ gì liên quan đến
điện tốn và máy tính, ví dụ như phần mềm, phần cứng, cơ sở hạ tầng mạng hay các
máy chủ và mạng lưới máy chủ. Ở mơ hình điện tốn này, các tài ngun máy tính
được cung cấp cho người dùng dưới dạng các “dịch vụ”, cho phép người sử dụng truy

cập các dịch vụ công nghệ từ một nhà cung cấp nào đó trong đám mây mà khơng cần
phải có các kiến thức, kinh nghiệm về cơng nghệ đó, cũng như khơng cần quan tâm
đến các cơ sở hạ tầng phục vụ cơng nghệ đó.
Lịch sử phát triển của điện toán đám mây: điện toán đám mây xuất hiện bắt
nguồn từ ứng dụng điện toán lưới, đến điện toán theo nhu cầu, đến điện toán tự trị và
phần mềm dịch vụ.
-

Điện toán lưới – Grid computing [8]: là sự kết hợp của nhiều tài nguyên máy
tính từ nhiều khu vực khác nhau để thực hiện một nhiệm vụ chung. Điện
toán lưới là một dạng của hệ thống phân tán với các công việc không tương
tác với nhau và bao gồm một lượng lớn các tệp tin. Nó đặt trọng tâm vào
việc di chuyển các cơng việc này đến địa điểm của các tài nguyên điện toán
cần thiết để sử dụng. Trong điện toán lưới tồn tại một siêu máy tính ảo, là sự
kết hợp của một tập các máy tính đơn liên kết với nhau và hoạt động phối
hợp để thực hiện các tác vụ lớn. Các tác vụ này có thể được chia nhỏ để thực
hiện song song trên những máy tính đơn của tập máy tính đó. Kích thước
của một mạng lưới có thể thay đổi từ nhỏ - chỉ vài máy tính đến lớn là một
mạng lưới các máy trạm trong một công ty.

Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM

25


×