Tải bản đầy đủ (.pdf) (21 trang)

Tiểu luận môn Điện toán lưới và đám mây NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG THỐNG KÊ PHẢN HỒI CỦA NHÂN VIÊN TRÊN CLOUD COMPUTING

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (484.65 KB, 21 trang )

Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH

MÔN HỌC: ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY

ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG THỐNG KÊ PHẢN HỒI
CỦA NHÂN VIÊN TRÊN CLOUD COMPUTING




CBHD: PGS. TS. NGUYỄN PHI KHỨ
HỌC VIÊN: TRẦN MẠNH TƯỞNG CH1301070




TP HCM 05-2014
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 2

Mục Lục
I. ĐẶT VẤN ĐỀ 3
II. KHÁI NIỆM VỀ CLOUD COMPUTING 5
1. Định nghĩa 5
2. Các ưu điểm 6
3. Các khuyết điểm 7
4. Mô hình các lớp dịch vụ 8


5. Mô hình triển khai 9
III. KHÁI NIỆM VỀ DATA MINING 11
1. Khái niệm về Data Mining 11
2. Các giai đoạn của quá trình khai phá dữ liệu 13
3. Các kỹ thuật khai phá dữ liệu 14
3.1 Kết hợp 14
3.2 Phân cụm 14
3.3 Phân loại 15
3.4 Hồi quy 16
4. Ứng dụng của Data Mining 16
IV. NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG THỐNG KÊ PHẢN HỒI NHÂN VIÊN TRÊN
CLOUD COMPUTING 17
1. Thu thập dữ liệu 17
2. Tìm thuật toán để khai phá dữ liệu đã thu thập ở bước 1 17
3. Xây dựng ứng dụng: chọn ngôn ngữ lập trình, môi trường, kiểu phần mềm ứng dụng 18
4. Làm sao để ứng dụng trở thành một SaaS 19
V. KẾT LUẬN, HƯỚNG PHÁT TRIỂN 20
TÀI LIỆU THAM KHẢO 21


Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 3

I. ĐẶT VẤN ĐỀ
Hơn 10 năm qua, công nghệ thông tin (CNTT) đã trở thành ngành kinh tế mũi nhọn
có tốc độ tăng trưởng và hiệu quả cao, đóng góp trực tiếp gần 7% GDP của đất nước,
đồng thời có tác động lan tỏa thúc đẩy phát triển nhiều ngành, nhiều lĩnh vực kinh tế-
xã hội.
Để có sự phát triển mạnh mẽ đó, các công ty, doanh nghiệp đã được thành lập với tốc
độ khá nhanh. Trong khi nhu cầu nguồn lực công nghệ thông tin, nhất là nguồn lực

chất lượng cao thì lại chưa thể đáp ứng kịp. Do vậy các công ty phần mềm ngoài vấn
đề cạnh tranh tìm khách hàng trong nước cũng như ngoài nước, thì vấn đề nguồn lực
cũng là một vấn đề cạnh tranh rất nóng bỏng. Các công ty luôn đưa ra các chính sách
cao cho việc chiêu mộ nhân viên mới, cũng như chính sách đãi ngộ cho các nhân
viên đang làm việc. Hàng năm FPT Software chi cả chục tỷ đồng cho việc trả hoa
hồng cho việc chiêu mộ nhân viên mới cũng như các đãi ngộ cho nhân viên: nghỉ mát,
FPT care, các chương trình đào tạo… Tất cả những việc làm đó đều mục đích là kích
thích tinh thần, động lực của nhân viên, để giữ chân nhân viên ở lại.
Một đội ngũ nhân viên được động viên tốt sẽ đem lại những sản phẩm và dịch vụ ưu
việt, làm hài lòng khách hàng và tăng kết quả bán hàng.
Vì vậy, ngày càng có nhiều doanh nghiệp quan tâm đến động viên nhân viên và thực
hiện các cuộc khảo sát để tìm hiểu phản hồi của nhân viên về động cơ làm việc và sự
gắn bó của họ đối với tổ chức, từ đó định hướng cho các mục tiêu, các đề xuất về vấn
đề nhân sự…FPT Software hàng năm thường định kỳ tổ chức khảo sat hai lần, ngoài
những câu hỏi có lựa chọn đáp án, thì có phần ghi cảm nghĩ của bản thân nhân viên
của công ty là khá quan trọng, nhưng công ty với quy mô lớn, làm sao có thể tổng
hợp hết được nội dung, ý nghĩa bao quát những cảm nghĩ đó, làm sao biết được đa số
nhân viên đang nghĩ gì về công ty, mong muốn của họ là gì? Từ đó tôi đã có ý tưởng
xây dựng ứng dụng để thống kê những ý kiến phản hồi của nhân viên FPT Software
nói riêng và các công ty khác nói chung. Mục tiêu của ứng dụng là với đầu vào là các
dữ liệu của khảo sát, cho ra kết quả là bao nhiêu phần trăm nhân viên có cùng suy
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 4

nghĩ, và suy nghĩ đó là gì? Hiện tại ý tưởng chỉ là thống kế phản hồi nhân viên, nếu
xây dựng thành công với độ chính xác chấp nhận được, ứng dụng sẽ được dùng cho
thống kê các tin tức của trang web, nội dung của siêu văn bản, thống kê comment của
các trang mạng xã hội.

Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây

Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 5


II. KHÁI NIỆM VỀ CLOUD COMPUTING
1. Định nghĩa
Theo Wikipedia: “Điện toán đám mây (cloud computing) là một mô hình điện toán
có khả năng co giãn (scalable) linh động và các tài nguyên thường được ảo hóa
được cung cấp như một dịch vụ trên mạng Internet”.

Hình 1: Minh họa về Cloud Computing
Điện toán máy chủ ảo, còn gọi là điện toán đám mây (cloud computing), là mô hình
điện toán sử dụng các công nghệ máy tính và phát triển dựa vào mạng Internet.
Thuật ngữ "đám mây" ở đây là lối nói ẩn dụ chỉ mạng Internet (dựa vào cách được
bố trí của nó trong sơ đồ mạng máy tính) và như một liên tưởng về độ phức tạp của
các cơ sở hạ tầng chứa trong nó. Ở mô hình điện toán này, mọi khả năng liên quan
đến công nghệ thông tin đều được cung cấp dưới dạng các "dịch vụ", cho phép
người sử dụng truy cập các dịch vụ công nghệ từ một nhà cung cấp nào đó "trong
đám mây" mà không cần phải có các kiến thức, kinh nghiệm về công nghệ đó, cũng
như không cần quan tâm đến các cơ sở hạ tầng phục vụ công nghệ đó.
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 6

2. Các ưu điểm
1. Miễn phí
Rất nhiều ứng dụng trực tuyến có chất lượng rất tốt nhưng lại hoàn toàn miễn phí,
ví dụ như các gói văn phòng của Zoho hay của Google. Ngoài sự thiếu vắng một vài
tính năng cao cấp (soạn thảo đồng thời nhiều thư theo một mẫu định sẵn chẳng hạn),
thì những dịch vụ này có thể thực hiện phần lớn các công việc mà chúng ta cần.
2. Dễ tiếp cận
Vì trang web "đỡ" hộ phần lớn công việc của chúng ta, nên chúng ta khôngg cần

phải có một máy tính với cấu hình quá “khủng” khi sử dụng những ứng dụng kiểu
này. Chẳng hạn, chúng ta hoàn toàn có thể tiếp cận những dịch vụ điện toán đám
mây chỉ với một chiếc netbook, phiên bản thu nhỏ của laptop, với mức giá không
quá 250 USD.
3. Di động
Chúng ta muốn cho bạn bè của mình xem một văn bản trong máy tính của mình?
Điều này không hề khó. Họ chỉ cần đăng nhập và nhận văn bản này qua dịch vụ điện
toán đám mây. Nếu cần một tài liệu trình chiếu và sử dụng trong một hội thảo quan
trọng, nhưng không may là chiếc laptop của chúng ta lại đột ngột dở chứng trên
đường ra sân bay? Điều này sẻ không thành vấn đề khi sử dụng điện toán đám mây,
vì bất kỳ máy tính nào cũng có thể truy cập tài liệu trình chiếu này.
4. Linh hoạt
Khi sử dụng dịch vụ điện toán đám mây, chúng ta sẽ không còn chịu cảnh gò bó khi
chỉ có thể thao tác các tài liệu số trên các thiết bị thông dụng như desktop hay laptop
nữa. Có rất nhiều thiết bị có khả năng truy cập Internet hiện đã có thể sử dụng được
các dịch này, và chúng ta có thể thoải mái tải xuống các bức ảnh từ Flickr với chú
dế Blackberry, hay sử dụng ứng dụng trên iPhone để “quảng cáo” cuốn tiểu thuyết
đang viết dở cho bạn bè mình xem.
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 7

5. Yên tâm tuyệt đối
Chắn chắn không ít lần chúng ta đã để mất những dữ liệu quý giá chỉ bởi đã lỡ tay
xóa nó đi mất, hay chiếc máy tính thân yêu bất ngờ bị cháy ổ cứng? Một điểm rất
tuyệt khi sử dụng các dịch vụ điện toán đám mây là nó sẽ trở thành một mạng lưới
thực sự an toàn. Nếu chúng ta tải một ảnh của mình lên trang Flickr, chúng ta hãy cứ
yên tâm răng dù ổ cứng của chúng ta có bị cháy nổ bao nhiêu lần đi nữa, thì bức ảnh
mà chúng ta tải lên sẽ vẫn an toàn tuyệt đối. (Tất nhiên là cho đến khi nào Flickr còn
tồn tại.).
3. Các khuyết điểm

Điều lo ngại đầu tiên từ mô hình điện toán đám mây chính là vấn đề tuân thủ luật lệ
của các công ty. Bằng cách tự lưu trữ ứng dụng của mình, một công ty có thể dễ
dàng xác định những mục tiêu kiểm soát và duy trì tình trạng toàn vẹn của dữ liệu
theo yêu cầu của luật lệ. Tuy nhiên, nếu công ty này muốn đưa những ứng dụng tài
chính của mình lên “đám mây”, họ chắc chắn sẽ phải đánh giá lại những mục tiêu
kiểm soát để bảo đảm không vi phạm vấn đề tuân thủ luật lệ.
Mối lo ngại thứ hai là vấn đề trộn lẫn dữ liệu. Các nhà cung cấp dịch vụ điện toán
đám mây thường lưu trữ dữ liệu của nhiều khách hàng khác nhau lên cùng một phần
cứng. Trong khi đó, các công ty muốn dữ liệu của họ được tách biệt rõ ràng so với
dữ liệu của đối thủ cạnh tranh.Một câu hỏi được đặt ra là khi nhà cung cấp dịch vụ
sao lưu dữ liệu, liệu dữ liệu giữa các công ty có bị trộn lẫn với nhau hay không. Khi
một công ty nào đó chấm dứt hợp đồng, liệu nhà cung cấp dịch vụ có chắc chắn là
mình chỉ lấy dữ liệu của mỗi công ty đó ra khỏi ổ tape hay không ? Một số công ty
lo ngại dữ liệu của họ có thể rơi vào tay đối thủ cạnh tranh bằng cách này.
Mối lo ngại thứ ba đến từ công nghệ ảo hóa. Lấy ví dụ như công ty VMware cung
cấp một tính năng gọi là Lịch trình tài nguyên phân bổ (Distributed Resource
Scheduler). Tính năng này liên tục giám sát việc sử dụng tài nguyên của các hệ điều
hành hoạt động trên một máy ảo và phân bổ tài nguyên có sẵn giữa các máy ảo khác.
Khi những tài nguyên máy ảo trở nên hạn hẹp, năng lực của nó sẽ được bổ sung
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 8

bằng cách đưa những máy chủ ảo còn hoạt động sang một máy chủ vật lý khác.Điều
này nghe rất tuyệt, nhưng chuyện gì sẽ xảy ra nếu máy chủ vật lý này nằm ở cách rất
xa công ty chúng ta, chẳng hạn như ở Nga hay Nhật? Khi đó, liệu chúng ta có thể
bảo đảm được tính toàn vẹn của dữ liệu mình hay không?
4. Mô hình các lớp dịch vụ
Dịch vụ Cloud Computing rất đa dạng và bao gồm tất cả các lớp dịch vụ điện toán
từ cung cấp năng lực tính toán trên dưới máy chủ hiệu suất cao hay các máy chủ ảo,
không gian lưu trữ dữ liệu, hay một hệ điều hành, một công cụ lập trình, hay một

ứng dụng kế toán … Các dịch vụ cũng được phân loại khá da dạng, nhưng các mô
hình dịch vụ Cloud Computing phổ biến nhất có thể được phân thành 3 nhóm: Dịch
vụ hạ tầng (IaaS), Dịch vụ nền tảng (PaaS) và Dịch vụ phần mềm (SaaS).
Dịch vụ hạ tầng IaaS (Infrastructure as a Service)
Dịch vụ IaaS cung cấp dịch vụ cơ bản bao gồm năng lực tính toán, không gian lưu
trữ, kết nối mạng tới khách hàng. Khách hàng (cá nhân hoặc tổ chức) có thể sử dụng
tài nguyên hạ tầng này để đáp ứng nhu cầu tính toán hoặc cài đặt ứng dụng riêng
cho người sử dụng. Với dịch vụ này khách hàng làm chủ hệ điều hành, lưu trữ và
các ứng dụng do khách hàng cài đặt. Khách hàng điển hình của dịch vụ IaaS có thể
là mọi đối tượng cần tới một máy tính và tự cài đặt ứng dụng của mình.
Ví dụ điển hình về dịch vụ này là dịch vụ EC2 của Amazon. Khách hàng có thể
đăng ký sử dụng một máy tính ảo trê dịch vụ của Amazon và lựa chọn một hệ thống
điều hành (ví dụ, Windows hoặc Linux) và tự cài đặt ứng dụng của mình.
Dịch vụ nền tảng PaaS (Platform as a Service)
Dịch vụ PaaS cung cấp nền tảng điện toán cho phép khách hàng phát triển các phần
mềm, phục vụ nhu cầu tính toán hoặc xây dựng thành dịch vụ trên nền tảng Cloud
dó. Dịch vụ PaaS có thể được cung cấp dưới dạng các ứng dụng lớp giữa
(middleware), các ứng dụng chủ (application server) cùng các công cụ lập trình với
ngôn ngữ lập trình nhất định để xây dựng ứng dụng. Dịch vụ PaaS cũng có thể được
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 9

xây dựng riêng và cung cấp cho khách hàng thông qua một API riêng. Khách hàng
xây dựng ứng dụng và tương tác với hạ tầng Cloud Computing thông qua API đó. Ở
mức PaaS, khách hàng không quản lý nền tảng Cloud hay các tài nguyên lớp như hệ
điều hành, lưu giữ ở lớp dưới. Khách hàng điển hình của dịch vụ PaaS chính là các
nhà phát triển ứng dụng (ISV).
Dịch vụ App Engine của Google là một dịch vụ PaaS điển hình, cho phép khách
hàng xây dựng các ứng dụng web với môi trường chạy ứng dụng và phát triển dựa
trên ngôn ngữ lập trình Java hoặc Python.

Dịch vụ phần mềm SaaS (Software as a Service)
Dịch vụ SaaS cung cấp các ưng dụng hoàn chỉnh như một dịch vụ theo yêu cầu cho
nhiều khách hàng với chỉ một phiên bản cài đặt.
SaaS là một giải pháp phần mềm ứng dụng công nghệ điện toán đám mây, cho phép
dữ liệu được truy cập từ bất kỳ thiết bị có kết nối Internet qua trình duyệt Web.
Trong mô hình phần mềm trên nền web này, nhà cung cấp SaaS sẽ đảm trách lưu trữ
và sao lưu cơ sở dữ liệu, phát triển ứng dụng phần mềm (apps) và duy trì hệ thống
máy chủ. Đây là sự chuyển hướng mang tính cách mạng từ mô hình truyền thống là
phần mềm lưu trữ dữ liệu tại chỗ (on-premise PC installed). Với mô hình SaaS, các
công ty ứng dụng SaaS thay vì phải đầu tư tốn kém vào các thiết bị phần cứng để
lưu trữ phần mềm, họ sẽ đi thuê ngoài toàn bộ hạ tầng và dịch vụ CNTT. Nhà cung
cấp dịch vụ phần mềm SaaS sẽ đảm trách mọi vấn đề liên quan đó.
Dịch vụ SaaS nổi tiếng nhất phải kể đến Salesforce.com với các ứng dụng cho
doanh nghiệp mà nổi bật nhất là CRM. Các ứng dụng SaaS cho người dùng cuối phổ
biến là các ứng dụng office Online của Microsoft hay Google Docs của Google.
5. Mô hình triển khai
Từ “đám mây” (cloud) xuất phát từ hình ảnh minh họa mạng Internet đã được sử
dụng rộng rãi trong các hình vẽ về hệ thống mạng máy tính của giới CNTT. Một
cách nôm na, điện toán đám mây là mô hình điện toán Internet. Tuy nhiên, khi mô
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 10

hình Cloud Computing dần định hình, các ưu điểm của nó đã được vận dụng để áp
dụng trong các môi trường có quy mô và phạm vi riêng, hình thành các mô hình
triển khai khác nhau.
Đám mây “công cộng”
Mô hình đầu tiên được nói đến khi đề cập tới Cloud Computing chính là mô hình
Public Cloud. Đây là mô hình mà hạ tầng Cloud Computing được một tổ chức sỡ
hữu và cung cấp dịch vụ rộng rãi cho tất cả các khách hàng thông qua hạ tầng mạng
Internet hoặc các mạng công cộng diện rộng. Các ứng dụng khác nhau chia sẻ chung

tài nguyên tính toán, mạng và lưu trữ. Do vậy, hạ tầng Cloud Computing được tiết
kế để đảm bảo cô lập về dữ liệu giữa các khách hàng và tách biệt về truy cập.
Đám mây “doanh nghiệp”
Đám mây doanh nghiệp (Private Cloud) là mô hình trong đó hạ tầng đám mây được
sở hữu bởi một tổ chức và phục vụ cho người dùng của tôt chức đó. Private Cloud
có thể được vận hành bởi một bên thứ ba và hạ tầng đám mây có thể được đặt bên
trong hoặc bên ngoài tổ chức sở hữu (tại bên thứ ba kiêm vận hành hoặc thậm chí là
một bên thứ tư).
Đám mây “chung”
Đám mây chung (Community Cloud) là mô hình trong đó hạ tầng đám mây được
chia sẻ bởi một số tổ chức cho cộng đồng người dùng trong các tổ chức đó. Các tổ
chức này do đặc thù không tiếp cận với các dịch vụ Public Cloud và chia sẻ chung
một hạ tầng Cloud Computing để nâng cao hiệu quả đầu tư và sử dụng.
Đám mây “lai”
Mô hình đám mây lai (Hybrid Cloud) là mô hình bao gồm hai hoặc nhiều hơn các
đám mây trên tích hợp với nhau. Mô hình Hybrid Cloud cho phép chia sẻ hạ tầng
hoặc đáp ứng nhu cầu trao đổi dữ liệu.
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 11


III. KHÁI NIỆM VỀ DATA MINING
1. Khái niệm về Data Mining
Khái niệm về khai phá dữ liệu (Data Mining) hay phát hiện tri thức (Knowledge
Discovery) có rất nhiều cách diễn đạt khác nhau nhưng về bản chất đó là quá trình
tự động trích xuất thông tin có giá trị (thông tin dự đoán – Predictive Information)
ẩn chứa trong khối lượng dữ liệu khổng lồ trong thực tế ) nhằm mục đích dự đoán
các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích
mà bình thường không thể nhận diện được.
Khai thác dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri

thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có.
Về cơ bản, khai phá dữ liệu là về xử lý dữ liệu và nhận biết các mẫu và các xu
hướng trong thông tin đó để chúng ta có thể quyết định hoặc đánh giá. Các nguyên
tắc khai phá dữ liệu đã được dùng nhiều năm rồi, nhưng với sự ra đời của big data
(dữ liệu lớn), nó lại càng phổ biến hơn.
Quá trình phân tích dữ liệu, khám phá dữ liệu và xây dựng mô hình dữ liệu thường
lặp lại khi chúng ta tập trung vào và nhận ra các thông tin khác nhau để chúng ta có
thể trích ra. Chúng ta cũng phải hiểu cách thiết lập quan hệ, ánh xạ, kết hợp và phân
cụm thông tin đó với dữ liệu khác để tạo ra kết quả. Quá trình nhận ra dữ liệu nguồn
và các định dạng nguồn, rồi ánh xạ thông tin đó tới kết quả đã cho của chúng ta có
thể thay đổi sau khi chúng ta phát hiện ra các yếu tố và các khía cạnh khác nhau của
dữ liệu.
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 12


Hình 2: Minh họa Data Mining
Data mining nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin có ích
Tự động (Automated) và thông tin mang tính dự đoán (Predictive).
Để đánh giá mô hình dự đoán hoạt động tốt thế nào người ta dựa vào các tham số
sau: Recall, Accuracy, Precision, F-Measure, các công thứ tính như sau:

Hình 3: Đánh giá mô hình dự đoán
Data Mining liên quan chặt chẽ đến các lĩnh vực sau:
Statistics : Thống kê
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 13

Machine Learning : Máy học
Databases: Cơ sở dữ liệu

Visualization: Trực quan hóa (giúp dữ liệu dễ hiểu, dễ sử dụng)
2. Các giai đoạn của quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu được bắt đầu bằng việc hiểu được ứng dụng chúng ta
đang chuẩn bị khai phá. Bên dưới là hình ảnh phác họa các giai đoạn của quá trình
khai phá dữ liệu:

Hình 4: Các giai đoạn trong quá trinh khai phá dữ liệu.
Giai đoạn tìm hiểu lĩnh vực áp dụng: Giai đoạn này là giai đoạn quan trọng, quyết
định cho việc trích rút tri thức và lựa chọn Phương pháp khai phá dữ liệu hợp lý phù
hợp bản chất của dữ liệu. Ví dụ như Đề tài đang tìm hiểu lĩnh vực công nghệ phần
mềm.
Giai đoạn thu thập và tiền xử lý dữ liệu: Giai đoạn này thu thập và tiền xử lý dữ liệu,
chọn lọc dữ liệu nguồn, loại bỏ các dữ liệu không cần thiết, xử lý dữ liệu lỗi, giai
đoạn này chiếm nhiều thời gian nhất của khai phá dữ liệu.
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 14

Giai đoạn khai phá dữ liệu, trích rút tri thức: Giai đoạn này sẽ sử dụng các kỹ thuật
khai phá để trích rút ra các mẫu, các mô hình ẩn dấu trong dữ liệu, hoặc tích lũy các
thông tin thống kê.
Giai đoạn phân tích và kiểm định kết quả: Giai đoạn này làm sáng tỏ các tri thức,
đặc biệt làm sáng tỏ phạm vi mô tả và dự báo, một cách chuẩn để đánh giá là chia
dữ liệu thành hai tập: một tập để nghiên cứu, một tập để kiểm thử. Một tập có thể
trải qua các quá trình phân tách khác nhau và kết quả trung bình sẽ dùng làm ước
lượng luật thực thi.
Giai đoạn cuối là giai đoạn sử dụng các tri thức được phát hiện: Giai đoạn này sẽ
đưa các tri thức khai phá được vào thực tế. Giai đoạn này có thể sử dụng các tri thức
khám phá được mà chưa cần đưa vào máy tính, việc đưa kết quả vào thực tế là cái
đích cuối cùng của quá trình khai phá dữ liệu.
3. Các kỹ thuật khai phá dữ liệu

3.1 Kết hợp
Thuộc loại khai phá dữ liệu mô tả. Kỹ thuật này có nhiệm vụ mô tả về các tính chất
hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có.
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị
dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là luật kết
hợp tìm được.
3.2 Phân cụm
Thuộc loại khai phá dữ liệu mô tả. Mục tiêu chính của phương pháp phân cụm dữ
liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các
đối tượng thuộc cùng một một cụm là tương đồng còn các đối tượng thuộc các cụm
khác nhau sẽ không tương đồng.
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 15


Hình 5: Ví dụ minh họa về kỹ thuật phân cụm
3.3 Phân loại
Thuộc loại khai phá dữ liệu dự đoán. Nhiệm vụ của khai phá dữ liệu dự đoán là đưa
ra các dự đoán dựa vào các suy diễn trên cơ sở dữ liệu hiện thời.
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dữ
liệu.
Quá trình phân loại dữ liệu thường gồm hai bước : xây dựng mô hình và sử dụng mô
hình để phân loại dữ liệu.
ớc 1 : Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước.
ớc 2 : Sử dụng mô hình để phân loại dữ liệu.
Hay nói các khác, phân loại là học một hàm ánh xạ một mục dữ liệu vào trong số
các lớp cho trước
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 16


3.4 Hồi quy
Thuộc loại khai phá dữ liệu dự đoán. Phương pháp hồi quy khác với phương pháp
phân loại dữ liệu ở chỗ, hồi qui dùng để
dự đoán về các giá trị liên tục còn phân loại dữ liệu chỉ dùng để dự đoán về các giá
trị rời rạc.
Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực.
4. Ứng dụng của Data Mining
Các lĩnh vực hiện tại có ứng dụng Khai thác dữ liệu bao gồm:
Thiên văn học: dự báo thời tiết, thiên tai hiểm họa.
Tin sinh học: phát triển các giải thuật, lý thuyết và các kĩ thuật thống kê và tính toán
để giải quyết các bài toán bắt nguồn từ nhu cầu quản lí và phân tích dữ liệu sinh học.
Bào chế thuốc: trong y học bào chế các loại thuốc đặc trị
Thương mại điện tử: buôn bán qua mạng, tìm hiểu tâm lý tiêu dùng: Amazon.
Phát hiện lừa đảo: xây dựng chương trình phát hiện lừa đảo qua mạng
Quảng cáo: hệ thống quảng cáo
Marketing: quảng bá thương hiệu của các sản phẩm
Quản lý quan hệ khách hàng: phân tích tâm lý, thị hiếu khách hàng.
Chăm sóc sức khỏe: tư vấn, hướng dẫn chăm sóc sức khỏe.
Viễn thông
Thể thao, giải trí
Đầu tư
Máy tìm kiếm (web)
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 17

IV. NGHIÊN CỨU XÂY DỰNG ỨNG DỤNG THỐNG KÊ
PHẢN HỒI NHÂN VIÊN TRÊN CLOUD COMPUTING

Để xây dựng ứng dụng này cần trải qua các bước, giai đoạn như bên dưới:
1. Thu thập dữ liệu

Với dữ liệu của cuộc khảo sát là khá lớn vì nó đã trải qua nhiều năm. Hơn nữa cần
chắt lọc, vì với những câu hỏi có đáp án lựa chọn thì không cần xử lý. Chỉ quan tâm
đến dữ liệu mà nhân viên tự điền trên form của web mà thôi. Nhưng cũng rất là khó
để thuyết phục được công ty cung cấp dữ liệu này vì nó liên quan đến bảo mật thông
tin. Tôi hiện tại đang làm việc tại FPT Software, tôi sẽ cố liên lạc với bộ phận nhân
sự xem có thể xin được dữ liệu khảo sát này hay không? Trong trường hợp xấu nhất
không được thì phải kiếm trên mạng dữ liệu tạm. Hiện nay trên mạng cũng có một
số site cung cấp dữ liệu kiểu này.
Khi đã có dữ liệu rồi cần qua bước tiền xử lý để sao cho dữ liệu được thống nhất về
định dạng, ngôn ngữ, cũng như có thể thiết kế dữ liệu vào table sao cho phù hợp với
cách implement của ứng dụng.
2. Tìm thuật toán để khai phá dữ liệu đã thu thập ở bước 1
Mục đích của bước này là tìm ra giải pháp để làm sao máy tính hiểu được trong
hàng ngàn câu phản hồi đó, có bao nhiêu câu ý nghĩa giống nhau, và ý nghĩa đó là gì.
Cũng thật là khó để chính xác tuyệt đối. nhưng kết quả vẫn phải đảm bảo chấp nhận
được.
Để máy tính có thể hiểu được ngữ nghĩa thì cần phải qua bước xử lý ngôn ngữ tự
nhiên của máy tính. Để xử lý ngôn ngữ tự nhiên cần qua các bước:
Phân tích hình thái - Trong bước này từng từ sẽ được phân tích và các ký tự không
phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều
ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Tuy nhiên trong
tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ.
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 18

Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn,tiếng Nhật, phân tách từ trong
tiếng Việt là một công việc không hề đơn giản.
Phân tích cú pháp - Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự liên
kết giữa các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm.
Phân tích ngữ nghĩa - Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ phân tích

cú pháp.
Tích hợp văn bản - Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những
câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau.
Phân tích thực nghĩa - Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại
để xác định nó thật sự có nghĩa là gì.
Tiếp theo dùng luật kết hợp để khai phá dữ liệu, kết quả là đưa ra các dạng luật.
Thuật toán dùng để khai phá luật kết hợp là Apriori-Tid.
3. Xây dựng ứng dụng: chọn ngôn ngữ lập trình, môi trường, kiểu phần
mềm ứng dụng
Khi đã có dữ liệu, có ý tưởng là dùng phương pháp nào để khai phá dữ liệu thì
chúng ta bắt đầu vào lập trình để xây dựng ứng dụng. Ứng dụng có thể xây dựng là
một website và cho phép nhân viên công ty đăng nhập để làm khảo sát. Hoặc ứng
dụng có thể là một phần mềm nhúng vào nền web. Phần mềm này nhận dữ liệu là
kết quả của cuộc khảo sát, có thể là một bảng dữ liệu, một file dữ liệu…Sau đó phần
mềm sẽ tiến hành xử lý và trả ra kết quả là bao nhiêu phản hồi của nhân viên trùng
lặp, và những phản hồi riêng lẻ, và nội dung chính của phản hồi đó là gì.
Về ngôn ngữ lập trình thì không quá quan trọng, khi đã kết luận cuối cùng về ý
tưởng, cách xây dựng chúng ta tiến hành chọn ngôn ngữ lập trình. Nhưng ngôn ngữ
lập trình cũng cần xem xét đến việc kế thừa các services đã có, cũng như thế mạnh
khi xử lý với dữ liệu lớn.
Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 19

4. Làm sao để ứng dụng trở thành một SaaS
Sau khi có ứng dụng, câu hỏi là làm sao đưa nó lên Cloud Computing. Vì ứng dụng
có thể cung cấp cho nhiều công ty, vì ứng dụng chỉ quan tâm đến input đầu vào là
dữ liệu mà thôi. Đa phần các công ty thường quan tâm đến vấn đề bảo mật, do vậy
có thể mua các services của các nhà cung cấp lớn như Microsoft hoặc Google.




Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 20


V. KẾT LUẬN, HƯỚNG PHÁT TRIỂN
Đề tài đã tìm hiểu và tham khảo quá trình khảo sát nhân viên hằng năm tại FPT-
Software.
Đề tài đã tìm hiểu các khái niệm cơ bản về Cloud Computing, các mô hình ứng
dụng, đông thời cũng tìm hiểu các khái niệm của Data Mining, các định nghĩa, quy
trình khai phá dữ liệu, các phương pháp khai phá dữ liệu, phạm vi ảnh hưởng thực tế
của Data Mining. Nghiên cứu tìm hiểu khai phá luật kết hợp trong dữ liệu, thuật
toán Apriori và thuật toán cải tiến Apriori-Tid.
Xây dựng ý tưởng áp dụng khai phá luật kết hợp vào xử lý ngôn ngữ tự nhiên để từ
đó có hướng xây dựng ứng dụng thống kê phản hồi của nhân viên, hoặc cũng có thể
phân tích, truy xuất kết quả của bất kỳ một nhóm dữ liệu nào, ví dụ như nội dung
của các trang web, văn bản, hay tin tức được nhắc đến nhiều trong ngày, trong tháng
của cá trang mạng xã hội. Tuy nhiên do thời gian nghiên cứu, phạm vi của môn học
nên đề tài chỉ dừng lại ở mức độ xây dựng ý tưởng, thu thập dữ liệu. Chưa xây dựng
phát triển ra một chương trình ứng dụng.








Khoa Khoa Học Máy Tính Môn học Điện Toán Lưới Và Đám Mây
Nghiên cứu xây dựng ứng dụng Thống kê phản hồi nhân viên trên Cloud Computing Trang 21


TÀI LIỆU THAM KHẢO

1. Tài liệu môn học Điện toán lưới và đám mây của Thầy PGS. TS. NGUYỄN PHI
KHỨ
2. Data Mining:Practical Machine Learning Tools and Techniques. Mark Hall, Ian
Witten, Eibe Frank
3. Data Mining:Concepts and Techniques. Jiawei Han and Micheline Kamber
4. Data Mining and Analysis: Fundamental Concepts and Algorithms. Mohammed
Zaki and Wagner Meira Jr.
5. />pha-du-lieu-voi-co-so-so-du-lieu-nganh-thue-viet-nam-6231/
6.
7. />hybrid.html
8. />techniques/
9. />saas.html
10.
11.



×