Tải bản đầy đủ (.doc) (78 trang)

Ứng dụng VBA trong excel vào sử lý dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.47 MB, 78 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN ĐIỆN
BỘ MÔN KỸ THUẬT ĐO VÀ TIN HỌC CÔNG NGHIỆP

---------***--------

ĐỒ ÁN TỐT NGHIỆP
(HỆ ĐẠI HỌC CHÍNH QUY)
ĐỀ TÀI:
ỨNG DỤNG EXCEL TRONG PHÂN TÍCH VÀ XỬ LÍ SỐ LIỆU

Sinh viên thực hiện

: PHÙNG VĂN TOÀN

Lớp

: DK&TDH 05 K59

MSSV

: 20144555

Giảng viên hướng dẫn : TS. NGUYỄN CÔNG PHƯƠNG

HÀ NỘI, THÁNG 06 NĂM 2019


LỜI NĨI ĐẦU
Trong suốt q trình học tập tại trường Đại học Bách Khoa Hà Nội, em đã học hỏi được rất
nhiều kiến thức và kinh nghiệm học tập từ phía thầy cơ và bạn bè. Những kinh nghiệm q báu


này sẽ giúp em rất nhiều trong công việc cũng như cuộc sống sau này.
Là sinh viên chuyên ngành Kỹ thuật đo và Tin học công nghiệp, sau khi được học tập, tích
lũy kiến thức đã có đủ khả năng và đăng ký đồ án tốt nghiệp tại trường Trường Đại Học Bách
Khoa Hà Nội, em được giao tìm hiểu và hoàn thành đồ án: “Ứng dụng Excel trong phân tích và
xử lí số liệu”.
Đồ án tốt nghiệp của em gồm 3 Chương:
Chương 1. TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU
Chương 2. PHẦN MỀM PHÂN TÍCH DỮ LIỆU VÀ EXCEL
Chương 3: ỨNG DỤNG EXCEL TRONG PHÂN TÍCH VÀ XỬ LÍ DỮ LIỆU
Em xin chân thành gửi lời cảm ơn sâu sắc đến thầy cô tại trường Đại học Bách Khoa Hà
Nội, đặc biệt là các thầy cô Viện Điện, chuyên ngành Kỹ thuật đo và Tin học công nghiệp đã
nhiệt tình dạy dỗ em trong suốt 5 năm vừa qua. Đặc biệt, em xin chân thành cám ơn Thầy
Nguyễn Công Phương đã nhiệt tình, chu đáo hướng dẫn em hồn thành đồ án tốt nghiệp. Đồng
thời, tôi xin cảm ơn các bạn Khóa K59, trường Đại học Bách Khoa Hà Nội đã cùng đồng hành,
giúp đỡ tơi có được những kinh nghiệm, kiến thức q báu để tơi có thể hồn thành đồ án tốt
nghiệp.
Trong q trình làm đồ án tốt nghiệp, em nhận thấy bản thân mình đã cố gắng hết sức.
Tuy nhiên, kiến thức cũng như kinh nghiệm thực tế cịn nhiều hạn chế nên đồ án khơng thể tránh
khỏi những thiếu sót, em rất mong nhận được ý kiến đóng góp thầy, cơ, bạn bè.
Cuối cùng em kính chúc q thầy, cơ dồi dào sức khỏe và thành công.
Hà Nội, ngày 31 tháng 5 năm 2019
Sinh viên thực hiện
Phùng Văn Toàn

MỤC LỤC


CHƯƠNG I: TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU.........................................1
1.1.


Lí do cần phải phân tích dữ liệu.....................................................................................................1

1.1.1.

Dữ liệu.......................................................................................................................................1

1.1.2.

Phân tích dữ liệu.......................................................................................................................4

1.2.

Tầm quan trọng của phân tích dữ liệu...........................................................................................6

1.2.1.

Tầm quan trọng của phân tích dữ liệu......................................................................................6

1.2.2.

Ứng dụng của phân tích dữ liệu...............................................................................................7

1.2.3.

Khó khăn trong việc phân tích dữ liệu...................................................................................11

CHƯƠNG II: PHẦN MỀM PHÂN TÍCH DỮ LIỆU VÀ EXCEL....................13
2.1.

Những cơng cụ được sử dụng để phân tích dữ liệu hiện nay....................................................13


2.1.1. SAS................................................................................................................................................13
2.1.2. IBM SPSS Statistics......................................................................................................................14
2.1.3. Stata: Software for Statistics and Data Science...........................................................................15
2.1.4. R (The R Project for Statistical Computing)................................................................................16
2.1.5. Eviews 6........................................................................................................................................16
2.1.6. Skytree...........................................................................................................................................17
2.1.7. Talend............................................................................................................................................17
2.2.

Giới thiệu về Excel và lí do sử dụng phần mềm Excel để phân tích dữ liệu.............................18

2.2.1.

Giới thiệu chung về Excel......................................................................................................18

2.2.2.

Các thao tác cơ bản trong Excel.............................................................................................18

2.2.3.

Phiên bản Excel trong Office 365 mới nhất hiện nay............................................................19

2.2.4.

Lí do lựa chọn Excel để phân tích dữ liệu.............................................................................27

CHƯƠNG III: ỨNG DỤNG EXCEL TRONG PHÂN TÍCH VÀ XỬ LÍ DỮ
LIỆU........................................................................................................................29

3.1.

Nhập liệu/ nhập dữ liệu tự động cho dãy biến đổi đều...............................................................29

3.2.

Định dạng bảng..............................................................................................................................29

3.3.

Tách/ Gộp dữ liệu..........................................................................................................................30

3.4.

Sử dụng các hàm trong Excel.......................................................................................................31

3.5.

Vẽ biểu đồ.......................................................................................................................................33

3.6

Dùng VBA để xử lý dữ liệu...........................................................................................................34

3.6.1. Dùng VBA tính tốn tìm cơng thức xấp xỉ của độ rọi lux và điện trở của quang trở.................35
3.6.2. Dùng VBA tự động phân tích dữ liệu về nhiệt độ của các ngày trong tháng..............................43

KẾT LUẬN..............................................................................................................52
DANH MỤC VIẾT TẮT



CTTT

Cơng nghệ thơng tin

ATTT

An tồn thơng tin

SEO

Search Engine Optimization

EDA

Phân tích dữ liệu khám phá

CDA

Phân tích dữ liệu xác nhận


DANH MỤC HÌNH ẢNH
Hình 1.1. Business 2 Community…………………………………………………………………3
Hình 2.1. Biểu thị dân số của các quốc gia trên thế giới…………………………………………20
Hình 2.2. Biểu thị số khách mua hàng tiềm năng ở từng giai đoạn trong một quy trình bán
hàng………………………………………………………………………………………………20
Hình 2.3. Bút chì số để viết/phác thảo ý tưởng bằng bút chì mới………………………………..21
Hình 2.4. Bộ bút linh động có thể tùy chỉnh trong Excel 365……………………………………21
Hình 2.5. Ứng dụng cách viết tay phương trình…………………………………………….........22

Hình 2.6. Biểu thị bộ kiểm tra Trợ năng trong Execl office 365………………………………....23
Hình 2.7. Chức năng bật gợi ý bằng âm thanh……………………………………………......... 23
Hình 2.8. Cách chèn liên kết đến các website hay các tệp trên nền điện toán đám mây……….. 23
Hình 2.9. Cải thiện về khả năng sử dụng……………………………………………………….. 25
Hình 2.10. Slicer có thể chọn nhiều mục……………………………………………………….. 26
Hình 2.11. Biểu thị người dùng có thể thêm hoặc chỉnh sửa mối quan hệ bảng…………………27
Hình 3.1. Nhập liệu/ nhập dữ liệu tự động cho dãy biến đổi đều………………………………...29
Hình 3.2. Số liệu thơ ban đầu trước khi tạo bảng………………………………………………...29
Hình 3.3. Số liệu sau khi tạo bảng………………………………………………………………..28
Hình 3.4. Số liệu thơ ban đầu trước khi gộp dữ liệu……………………………………………..30
Hình 3.5. Số liệu thơ sau khi gộp dữ liệu………………………………………………………...31
Hình 3.6. Sử dụng hàm SUM để tính tổng đối tượng tham gia nghiên cứu……………………...31
Hình 3.7. Sử dụng hàm AVERAGE để tính giá trị trung bình thu nhập của các đối tượng tham gia
nghiên cứu………………………………………………………………………………..............32
Hình 3.8. Sử dụng lệnh Sort để để sắp xếp tuổi từ thấp đến cao, thống kê được người có độ tuổi
thấp nhất và cao nhất……………………………………………………………………………..32
Hình 3.9. Sau khi sử dụng lệnh Sort để để sắp xếp tuổi từ thấp đến cao, thống kê được người có
độ tuổi thấp nhất và cao nhất……………………………………………………………………..33
Hình 3.10. Biểu đồ thể hiện các loại chấn thương của người bệnh liên quan đến
chất lượng cuộc sống của những đối tượng………………………………………………………33


Hình 3.11. Vẽ biểu đồ thể hiện các loại chấn thương của người bệnh liên quan đến
chất lượng cuộc sống của những đối tượng………………………………………………………34
Hình 3.12. Cửa sổ Excel Options ………………………………………………..........................34
Hình 3.13. Thanh cơng cụ thẻ Developer ………………………………………………………..35
Hình 3.14. Cửa sổ Visual Basic for Applications………………………………………………...35
Hình 3.15. Mối quan hệ giữa điện trở (R) và độ rọi (lux)………………………………………..37
Hình 3.16. Mối quan hệ giữa log(lux) và log(R)…………………………………………………37
Hình 3.17. Lưu đồ thuật tốn …………………………………………………………………….38

Hình 3.18. Kết quả phân tích dữ liệu độ rọi lux và điện trở của quang trở ……………………...41
Hình 3.19. Dữ liệu nhiệt độ………………………………………………………………………43
Hình 3.20. Import dữ liệu vào excel từ file CSV………………………………………………...44
Hình 3.21. Load dữ liệu vào excel………………………………………………………………..44
Hình 3.22. Lưu đồ thuật tốn dự báo nhiệt độ……………………………………………………45
Hình 3.23. Kết quả dự báo nhiệt độ………………………………………………………………47
Hình 3.24. Workbooks chứa kết quả phân tích và dự báo………………………………………..48
Hình 3.25. Kết quả loại bỏ dupliactes ở cột date…………………………………………………48
Hình 3.26. Kết quả dự báo nhiệt độ trung bình…………………………………………………..49
Hình 3.27. Kết quả dự báo nhiệt độ lớn nhất trong ngày………………………………………...50
Hình 3.28. Kết quả dự báo nhiệt độ nhỏ nhất trong ngày………………………………………..50


DANH MỤC BẢNG
Bảng 1.1. Các loại dữ liệu được lưu trữ trong Exel và DAX ……………………………………..1
Bảng 1.2. Thông tin khảo sát người bệnh do bị tai nạn giao thông khoa chấn thương – bệnh viện
đa khoa Thái Bình……………………………………………………………………………........2
Bảng 3.1. Giá trị điện trở của quang trở phụ thuộc vào ánh sáng………………………………..36
Bảng 3.2. Giá trị lux tính theo cơng thức và sai số tương đối……………………………………42
Bảng 3.3. Giá trị nhiệt độ trung bình, nhiệt độ lớn nhất, nhỏ nhất thực tế và dự báo……………51


CHƯƠNG I: TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU
I.1. Lí do cần phải phân tích dữ liệu
I.1.1.

Dữ liệu

Dữ liệu là thông tin dưới dạng dữ kiện hoặc dạng số, được thu thập để kiểm tra, đánh giá và
sử dụng để giúp ra quyết định; hoặc dưới dạng phiếu điện tử mà máy tính có thể lưu trữ và sử

dụng được.
Trước đây, dữ liệu được lưu trữ bằng băng từ, hiện nay có nhiều cơng cụ để lưu trữ dữ liệu,
ví dụ như ổ đĩa cứng, phương tiện lưu trữ có thể tháo rời, điện toán đám mây….
(Nguồn: Từ điển Cambridge)
Dữ liệu có nhiều hình thức khác nhau: hình ảnh, âm thanh, chữ viết, con số…tùy thuộc vào
cách thức lưu trữ và mục đích sử dụng dữ liệu của người dùng. Bảng 1.1 và bảng 1.2 là một số ví
dụ về dữ liệu.
Bảng 1.1. Các loại dữ liệu được lưu trữ trong Exel và DAX1

Loại dữ liệu
trong Excel

Loại dữ liệu
trong DAX

Mô tả

Các số khơng có dấu phẩy thập phân. Số ngun có thể là số
Số nguyên
dương hoặc âm, nhưng phải là số nguyên từ
Số Nguyên
64 bit (tám
-9,223,372,036,854,775,808
(-2^63)
đến
byte) 1, 2
9,223,372,036,854,775,807 (2^63-1).
Số
Thập Số thực 64 Số thực là số có thể có dấu phẩy thập phân. Số thực trải trên một
phân

bit
(tám phạm vi rộng các giá trị:
byte) 1, 2
Giá trị âm từ -1.79E +308 đến -2.23E -308
Không (0)
Các giá trị dương từ 2,23E -308 tới 1,79E + 308

ĐÚNG/SAI
Văn bản

Boolean
Chuỗi

Tuy nhiên, số chữ số có nghĩa được giới hạn đến 15 chữ số thập
phân.
Giá trị phải là Đúng hoặc Sai.
Chuỗi dữ liệu ký tự Unicode. Có thể là chuỗi, số và ngày được
biểu diễn ở định dạng văn bản.

1

Các loại dữ liệu trong mẫu dữ liệu Excel for Office 365 Excel 2019 Excel 2016 Excel 2013;
/>%E1%BA%ABu-d%E1%BB%AF-li%E1%BB%87u-e2388f62-6122-4e2b-bcad-053e3da9ba90

1


Loại dữ liệu
trong Excel


Ngày

Loại dữ liệu
trong DAX

Ngày/giờ

Tiền tệ

Không
dụng

Tiền tệ

áp

Giá trị trống

Mô tả
Độ dài chuỗi tối đa là 268.435.456 ký tự Unicode (256 mega ký
tự) hoặc 536.870.912 byte.
Ngày và giờ ở dạng biểu thị ngày-giờ được chấp nhận.
Ngày hợp lệ là tất cả các ngày sau ngày 1 tháng 1 năm 1900.
Loại dữ liệu tiền tệ cho phép các giá trị từ
-922.337.203.685.477,5808 đến 922.337.203.685.477,5807 với
bốn chữ số thập phân có độ chính xác cố định.
Giá trị trống là kiểu dữ liệu của DAX đại diện và thay thế giá trị
null của SQL. Bạn có thể tạo giá trị trống bằng cách dùng hàm
BLANK và kiểm tra giá trị trống bằng cách dùng hàm logic
ISBLANK.

(Nguồn: Support.office.com)

Bảng 1.2. Thông tin khảo sát người bệnh do bị tai nạn giao thông khoa chấn thương – bệnh viện đa
khoa Thái Bình

STT
1
2
3
4
5
6
7
8
9
10

Nghề
Bảo hiểm
Nơi ở
nghiệp
y tế
Nguyễn Văn Lịch 28
Nam THPT
Cơng nhân Nơng thơn

Vũ Đức Hạnh
47
Nữ
Đại học

Cơng nhân Thành thị

Vũ Bá Ngọc
61
Nam THPT
Tự do
Thành thị

Tạ Xn Cảnh
30
Nam THPT
Cơng nhân Nơng thơn

Trần Văn Hiến
54
Nam THPT
Cơng nhân Thành thị
Khơng
Vũ Xn Anh
25
Nam Đại học
Tự do
Thành thị

Giang Văn Hùng
47
Nam THPT
Cơng nhân Nơng thơn
Khơng
Nguyễn Văn Điền 55

Nữ
Dưới THPT Cơng nhân Nơng thơn

Đỗ Ngọc Cường
61
Nữ
Dưới THPT Khác
Nơng thơn

Đào Trọng Phạm
65
Nữ
Đại học
Khác
Nơng thơn

(Nguồn: Kết quả khảo sát bệnh nhân – Bệnh viện đa khoa Thái Bình năm 2018)
Họ và tên

Tuổi

Giới

Học vấn

Như vậy, với sự phát triển như hiện nay, khối lượng dữ liệu tạo ra ngày càng lớn. Có hai
nguồn dữ liệu chính là phương tiện truyền thông xã hội và thông tin liên lạc.
Các phương tiện truyền thông xã hội
Theo báo cáo Data Never Sleeps 5.0 của Domo, dưới đây là lượng dữ liệu được tạo ra mỗi
phút trong ngày trên các phương tiện truyền thông xã hội:2



Người dùng Snapchat chia sẻ 527.760 bức ảnh.



Hơn 120 người có cơng ăn việc làm tham gia LinkedIn.

2

Người dùng tạo ra bao nhiêu dữ liệu mỗi ngày? />
2




Người dùng xem 4.146.600 video YouTube.



456.000 tweet được gửi lên Twitter.



Người dùng Instagram đăng 46.740 bức ảnh.

Với 2 tỷ người dùng hoạt động, Facebook vẫn là nền tảng truyền thông xã hội lớn nhất
hành tinh. Và đây là các số liệu liên quan Facebook:



2 tỷ người hoạt động trên Facebook mỗi ngày.



Châu Âu có hơn 307 triệu người trên Facebook.



Cứ mỗi giây lại có 5 tài khoản Facebook mới được tạo nên.



Hơn 300 triệu bức ảnh được tải lên mỗi ngày.



Mỗi phút có 510.000 bình luận được đăng lên, và 293.000 trạng thái được cập
nhật.

Instagram - Cũng thuộc sở hữu của Facebook - chứng kiến mức tăng trưởng ấn tượng:


Có 600 triệu người dùng Instagram, trong đó có 400 triệu người hoạt động mỗi
ngày.



Mỗi ngày có 95 triệu hình ảnh và video được chia sẻ trên Instagram.




100 triệu người dùng tính năng Stories của Instagram mỗi ngày.

Hình 1.1. Business 2 Community

Thông tin liên lạc
Mọi người đều tạo ra dữ liệu mỗi khi sử dụng các phương thức liên lạc, từ gửi tin nhắn văn
bản đến email. Dưới đây là thống kê lượng dữ liệu thông tin liên lạc được gửi đi mỗi phút:3
3

Người dùng tạo ra bao nhiêu dữ liệu mỗi ngày? />
3




Người dùng gửi đi 16 triệu tin nhắn văn bản.



Có 990.000 lượt vuốt trên Tinder.



156 triệu email được gửi đi; trên tồn cầu, ước tính sẽ có 9 tỷ người dùng email vào năm
2019.



15.000 ảnh GIF được gửi thông qua Facebook Messenger.




Mỗi phút có 103.447.520 email spam được gửi đi.



Có 154.200 cuộc gọi Skype.

Hiện nay, nhiều lĩnh vực trên thế giới đang dần được số hố và dữ liệu hóa. Trên cơ sở dữ
liệu hóa đó giúp cho người dùng dễ dàng tiếp cận, theo dõi, quản lí, phân tích và đánh giá vấn đề
đang quan tâm, tìm hiểu trong suốt q trình nghiên cứu, khảo sát.
I.1.2.

Phân tích dữ liệu

Phân tích dữ liệu (tiếng Anh: analytics) là q trình phát hiện, giải thích và truyền đạt các
mơ hình có ý nghĩa trong dữ liệu. Đặc biệt có giá trị trong các lĩnh vực có nhiều thơng tin được
ghi lại, phân tích dựa vào sự ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và
nghiên cứu hoạt động để định lượng hiệu suất.
Phương pháp phân tích dữ liệu thống kê được chia thành hai loại: các phương pháp thăm dò
và các phương pháp khẳng định. Các phương pháp thăm dị được dùng để tìm hiểu ý nghĩa của
dữ liệu bằng các phép tính số học đơn giản và các biểu đồ đơn giản tóm tắt dữ liệu (thống kê mô
tả). Các phương pháp khẳng định dùng các ý tưởng trong lý thuyết xác suất để trả lời các vấn để
nghiên cứu cụ thể. Xác suất có vai trị quan trọng trong việc đưa ra quyết định vì nó cung cấp một
cơ chế đo lường, biểu diễn và phân tích trong những tình huống khơng đủ thơng tin (khơng biết
hết tồn bộ tổng thể) liên quan đến các vấn đề kinh tế xã hội trong tương lai.
Khai thác dữ liệu là một kỹ thuật phân tích dữ liệu cụ thể tập trung vào mơ hình hóa và
khám phá kiến thức cho mục đích dự đốn thay vì hồn tồn mơ tả. Trong các ứng dụng thống kê,
phân tích dữ liệu có thể được chia thành thống kê mơ tả, phân tích dữ liệu khám phá (EDA) và

phân tích dữ liệu xác nhận (CDA). EDA tập trung vào việc khám phá các tính năng mới trong dữ
liệu trong khi CDA tập trung vào xác nhận hoặc làm sai lệch các giả thuyết hiện có. Phân tích dự
đốn tập trung vào việc áp dụng các mơ hình thống kê để dự báo hoặc phân loại dự báo, trong khi
phân tích văn bản áp dụng các kỹ thuật thống kê, ngôn ngữ và cấu trúc để trích xuất và phân loại
thơng tin từ các nguồn văn bản, một loại dữ liệu phi cấu trúc.
Phân tích dữ liệu chỉ là một giai đoạn của cả một q trình nghiên cứu, do đó khơng thể có
phân tích tốt mà khơng nắm vững tồn bộ quá trình nghiên cứu từ mục tiêu đến kết quả cuối cùng
muốn đạt được. Khơng thể có phân tích dữ liệu tốt nếu cơ sở dữ liệu để phân tích khơng được
thiết kế để thu thập tốt, khơng được xử lí chuẩn bị cho phân tích. Phân tích dữ liệu khơng phải chỉ
là sử dụng một cách máy móc các kỹ thuật thống kê đơn thuần để có kết luận là chấp nhận hay
4


bác bỏ một giả thuyết, hay xây dựng được mô hình diễn tả mối liên hệ giữa các yếu tố đang
nghiên cứu mà là một “nghệ thuật” làm cho dữ liệu trở thành những chứng cứ thống kê có cơ sở
cho việc hiểu biết, gia tăng tri thức và ra quyết định. Phân tích dữ liệu phải được vận dụng trong
mối liên hệ chặt chẽ với các giai đoạn khác của q trình nghiên cứu ở chỗ người phân tích dữ
liệu phải tham gia ngay từ đầu vào quá trình thiết kế nghiên cứu, triển khai thu thập dữ liệu và
ngay cả tham gia viết báo cáo kết quả. Hoặc người nghiên cứu ngay khi thiết kế nghiên cứu phải
hình dung trước những vấn đề quan trọng của phân tích dữ liệu.


Bản chất của phân tích dữ liệu

Dữ liệu ban đầu chỉ là những dữ liệu thô và bản thân chúng khơng phải là tri thức. Trình tự
đi từ dữ liệu đến tri thức là: từ dữ liệu đến thông tin, từ thông tin đến sự kiện và cuối cùng là từ
sự kiện đến tri thức. Dữ liệu trở thành thơng tin khi nó liên quan đến vấn đề nhận thức, kết luận
và quyết định của người nghiên cứu. Thông tin trở thành sự kiện khi thông tin hỗ trợ cho việc ra
quyết định. Sự kiện trở thành tri thức khi thông tin hỗ trợ cho việc ra quyết định trong hồn cảnh
khơng có đầy đủ thơng tin như mong muốn.

Đó là lí do tại sao chúng ta cần phải phân tích dữ liệu thống kê. Thống kê xuất phát từ nhu
cầu đặt tri thức trên nền tảng chứng cứ có hệ thống. Điều này địi hỏi phải nghiên cứu các quy
luật xác suất, sự phát triển của các thang đo lường các đặc tính của dữ liệu và mối liên hệ.
Các tổ chức có thể áp dụng phân tích dữ liệu kinh doanh để mơ tả, dự đốn và cải thiện
hiệu suất kinh doanh. Cụ thể, các khu vực trong phân tích bao gồm phân tích dự đốn, phân tích
theo quy tắc, quản lý quyết định doanh nghiệp, phân tích mơ tả, phân tích nhận thức, phân tích
bán lẻ, phân loại cửa hàng và tối ưu hoá lưu trữ đơn vị hàng hóa tồn kho, tối ưu hố tiếp thị và
các mơ hình tiếp thị kết hợp, phân tích web, phân tích cuộc gọi, phân tích giọng nói, nhân lực bán
hàng và tối ưu hố, mơ hình định giá bán và khuyến mãi, khoa học dự đốn, phân tích rủi ro tín
dụng và phân tích gian lận. Vì phân tích có thể u cầu tính tốn rộng (xem dữ liệu lớn), các thuật
toán và phần mềm được sử dụng cho phân tích khai thác các phương pháp hiện đại nhất trong
khoa học máy tính, thống kê và tốn học.


Q trình phân tích dữ liệu gồm các bước:


Bước 1: Ch̉n bị dữ liệu



Bước 2: Xác định đơn vị phân tích



Bước 3: Sắp xếp và phân loại thông tin



Bước 4: Xác định mơ hình & liên kết chủ đề




Bước 5: Giải thích dữ liệu



Bước 6: Rút ra kết luận



Bước 7: Báo cáo kết quả nghiên cứu
5


Phân tích dữ liệu mang tính đa ngành. Các phương pháp tốn học, thống kê, kỹ thuật mơ tả
và mơ hình dự báo được sử dụng rộng rãi nhằm thu thập những hiểu biết có giá trị từ dữ liệu.
Những hiểu biết sâu sắc từ dữ liệu được sử dụng để đề xuất hành động hoặc hướng dẫn ra quyết
định trong các lĩnh vực. Vì vậy, phân tích dữ liệu (analytics) khơng q tập trung vào các bước
phân tích đơn lẻ nói chung (analysis) mà tập trung vào tồn bộ phương pháp.
I.2. Tầm quan trọng của phân tích dữ liệu.
I.2.1.

Tầm quan trọng của phân tích dữ liệu

a) Tạo văn hóa đo lường
Tạo thói quen đo lường kỹ càng là điều rất quan trọng. Những số liệu đo lường được sẽ rất
có ích cho sự phát triển chung của cá nhân, cơ quan, tổ chức, đơn vị. Những chiến dịch marketing
mỗi khi hồn thành đều phải có những số lượng cụ thể về số lượng kênh đã tham gia, ngân sách,
số lượng user nhắm đến, tỷ lệ chuyển đổi v.v ... Những điều này phải được làm một cách đầy đủ

và là một phần khơng thể thiếu, trên hết, nó phải trở thành một văn hóa khi làm việc.
Nếu như tất cả những nhóm làm việc đều có số liệu đo lường cụ thể sẽ nhanh chóng đánh
giá được hiệu quả cơng việc, những điểm yếu, thế mạnh sẽ được nhìn ra và có những điều chỉnh
kịp thời trong những kế hoạch tiếp theo. Ngược lại, hiệu quả công việc sẽ bị đẩy lùi khi khơng thể
đo lường chính xác, số liệu sẽ rất mơ hồ và công ty sẽ gặp khó khăn trong những chiến lược tiếp
theo.
b) Ln làm việc dựa trên số liệu
Phân tích và làm việc dựa trên những số liệu đã có sau khi đo lường sẽ giúp công việc trở
nên minh bạch và rõ ràng hơn. Ngồi ra, những số liệu có thể cho người ra biết tình trạng của
cơng việc và có phương pháp làm hiệu quả chứ khơng hồn tồn dựa vào trực giác, kinh nghiệm
q khứ, …
Ví dụ, đối với cơng việc SEO (Search Engine Optimization), tổng hợp số liệu và phân tích
là việc rất cần thiết. Nếu không thực hiện tốt điều này, những người làm SEO sẽ không thể thống
kê được mình đã đi bao nhiều link, từ những nguồn nào, chất lượng đến đâu, bị mất link trong
khoảng thời gian nào v.v… để rồi sẽ gặp khó khăn khi có những biến đổi bất thường về từ khóa,
thứ hạng mà không biết nguyên nhân và cách giải quyết. Do vậy, làm việc dựa trên số liệu chứ
không phải bằng cảm tính là điều cần thiết với mọi cơng việc trong cơng ty.
Nâng cao q trình giải thích dữ liệu: bao gồm việc rút ra kết quả nghiên cứu từ dữ liệu
được sắp xếp vào trong mỗi chủ đề; Liên kết các chủ đề liên quan để có giải thích chung; So
sánh, đối chiếu, kết hợp kết quả nghiên cứu giữa các chủ đề có liên hệ chặt chẽ với nhau; Giải
thích dữ liệu nhằm trả lời các câu hỏi: chúng ta học được gì mới mẻ? Ứng dụng vào trong môi
trường khác như thế nào? những người khác sẽ muốn biết điều gì khi sử dụng kết quả nghiên cứu.
c) Phân tích dữ liệu được sử dụng phổ biến ở nhiều lĩnh vực, nhiều đối tượng khác nhau
6


Tùy vào từng nhu cầu và mục đích cụ thể mà người dùng có thể sử dụng dữ liệu để phân
tích, dự báo tình hình, phân tích dữ liệu, đưa ra quyết định trong các vấn đề. Việc truy xuất dữ
liệu cần được phổ biến và bất cứ ai trong tổ chức cũng có thể làm được điều này. Mỗi cơng việc
của cá nhân đều được mã hóa và dựa trên những số liệu đã có. Ngồi ra, việc truy suất dữ liệu dễ

dàng cũng tạo điều kiện thuận lợi cho những thử nghiệm, cải tiến nhỏ trong công việc để nâng
cao hiệu suất chung của tổ chức.
Phân tích dữ liệu giúp việc xem và hiểu những gì đang diễn ra nhanh hơn và dễ dàng hơn,
thường trong khoảng thời gian gần. Khi mà tổ chức nhận ra một vấn đề nhanh hơn, tổ chức càng
có thể phản ứng nhanh hơn để giải quyết và tiết kiệm nguồn lực cho tổ chức.
I.2.2.

Ứng dụng của phân tích dữ liệu

Hiện nay, hầu hết tất cả các lĩnh vực đều ứng dụng phân tích dữ liệu để quản lí, phân tích
dự báo, để đưa ra quyết định chính xác và hiệu quả dựa trên dữ liệu đã có. Một số lĩnh vực ứng
dụng phân tích dữ liệu như:


Ứng dụng phân tích dữ liệu trong giao thông

Sử dụng số liệu CDR (call duration record) trong q khứ để ước lượng các dịng giao
thơng trong thành phố vào các giờ cao điểm, từ đó có những kế hoạch phân luồng giao thông chi
tiết, hợp lý giúp giảm thiểu kẹt xe. Ngồi ra cịn đưa ra thông tin cho người tham gia giao thông
được biết nếu muốn đi từ nơi này đến nơi khác thì nên đi vào giờ nào để tránh kẹt xe, hoặc đi
đường nào ngắt nhất… Ngồi ra dữ liệu cịn giúp phân tích định vị người dùng thiết bị di động,
ghi nhận chi tiết cuộc gọi trong thời gian thực và giảm thiểu tình trạng ùn tắc giao thơng.


Ứng dụng trong cơng nghệ

Dịch đa ngôn ngữ (Google Translate), bằng việc thu thâp dữ liệu về các loại ngơn ngữ khác
nhau trên tồn thế giới thơng qua xử lý tính tốn có thể dịch một cách nhanh chóng từ ngơn ngữ
này xang ngơn ngữ khác. Việc này giúp cho việc đọc và xem một nội dung từ các ngôn ngữ khác
nhau trở nên dễ dàng hơn.



Ứng dụng phân tích dữ liệu trong y tế

Trong y học các bác sĩ dựa vào số liệu trong các bệnh án để đưa ra dự đoán về nguy cơ mắc
bệnh. Đồng thời cũng đưa ra được xu hướng lây lan của bệnh. Ví dụ ứng dụng Google Flu Trend
là một trong những ứng dụng thành công của Google. Ứng dụng này dựa trên từ khóa tìm kiếm ở
một khu vực nào đó, sau đó sẽ phân tích và đối chiếu kết quả tìm kiếm đó, sau cùng là đưa ra dự
báo về xu hướng dịch cúm tại khu vực đó. Qua đó cho biết tình hình cúm tại khu vực đó sẽ diễn
ra như thế nào để đưa ra các giải pháp phòng tránh. Những kết quả mà Google Flu Trend đưa ra
hoàn toan phù hợp với báo cáo của tổ chức y tế thớ giới WHO về tình hình bệnh cúm tại các khu
vực đó.


Ứng dụng phân tích dữ liệu để đảm bảo an tồn thơng tin (ATTT)
7


Trong những năm gần đây, các công nghệ như tường lửa, hệ thống giám sát an ninh mạng,
hệ thống phát hiện và ngăn chặn xâm nhập… đã góp phần đáng kể trong việc gia tăng khả năng
phòng thủ cho hệ thống CNTT của các tổ chức. Cùng với đó, các thách thức về lượng dữ liệu
sinh ra mỗi ngày đang trở thành một vấn đề lớn. Việc kết hợp ứng dụng Dữ liệu lớn (Big Data)
với các giải pháp bảo mật đã mở ra một hướng tiếp cận mới trong nghiên cứu và phát triển các
giải pháp đảm bảo ATTT.
Việc phân tích các bản ghi dữ liệu tạo ra từ các thiết bị mạng, ứng dụng, gói tin mạng và
các sự kiện hệ thống được phục vụ cho mục đích điều tra và phát hiện xâm nhập trong ATTT. Tuy
nhiên, các cơng nghệ truyền thống rất khó khăn trong việc cung cấp các cơng cụ phân tích dài
hạn, quy mơ lớn, vì việc lưu trữ số lượng lớn dữ liệu là không khả thi về mặt kinh tế. Kết quả là,
hầu hết các bản ghi nhật ký sự kiện trên các hệ thống, thiết bị thường được xóa sau một thời gian
duy trì cố định.

Sự ra đời của Dữ liệu lớn sẽ chuyển đổi phân tích an tồn bằng cách thu thập dữ liệu ở một
quy mô lớn từ nhiều nguồn, từ các bản ghi nhật ký hệ thống đến các cơ sở dữ liệu về lỗ hổng bảo
mật, dữ liệu về tấn công mạng, dữ liệu mã độc… Sau đó sẽ phân tích sâu hơn trên dữ liệu đã có,
cung cấp một cái nhìn hợp nhất các thơng tin liên quan đến an toàn và đảm bảo được việc phân
tích thực hiện theo thời gian thực của luồng dữ liệu. Chính vì thế, Dữ liệu lớn được sử dụng với
các ứng dụng chính sau: Theo dõi và phát hiện Botnet; Phát hiện tấn công APT; Phát hiện tấn
công Zero-day và điều tra tội phạm công nghệ cao.
Công việc điều tra phải đối mặt với những thách thức mới khi lượng dữ liệu lớn cần thu
thập, phân tích và xử lý nhanh trong khoảng thời gian nhất định, đáp ứng việc truy vết cũng như
phát hiện những dấu hiệu tấn cơng. Chương trình PRISM của cơ quan tình báo Mỹ NSA đã ứng
dụng công nghệ Dữ liệu lớn để xây dựng nhằm thu thập lượng thông tin khổng lồ trên khắp thế
giới (dữ liệu điện thoại, email, hình ảnh, video, trạng thái trên các trang mạng xã hội…). Từ đó,
phân tích và đưa ra các cảnh báo về các dấu hiệu khủng bố có thể xảy ra. Với sự trợ giúp của
những gã khổng lồ CNTT như Microsoft, Yahoo, Google, Facebook, PalTalk, AOL, Skype,
YouTube, và Apple, cùng với việc hợp tác với FBI để thu thập dữ liệu điện thoại (cuộc gọi, tin
nhắn, danh bạ...) thì NSA đang giám sát dữ liệu thơng qua PRISM.


Phân tích dữ liệu con người

Ứng dụng này của phân tích dữ liệu hỗ trợ các công ty quản lý về mặt nhân sự, với mục
tiêu là lựa chọn những nhân viên nào để tuyển dụng, khen thưởng hoặc thăng cấp, giao nhiệm vụ
gì và các vấn đề nhân sự khác. Ví dụ, một phân tích có thể cho thấy rằng những cá nhân với một
kiểu lý lịch nhất định sẽ có nhiều khả năng thành cơng ở một vị trí cụ thể nào đó, do đó họ là
những người phù hợp nhất nên được tuyển dụng. Phân tích nhân sự đang trở nên ngày càng quan
trọng để hiểu rõ những hồ sơ với kiểu hành vi nào sẽ thành công hay thất bại. Trong khi phân tích
con người được áp dụng cho các nhân viên trong một tổ chức, các kỹ thuật xác định phân khúc

8



khách hàng lại được sử dụng để nghiên cứu hồ sơ khách hàng và phát hiện những khách hàng
tiềm năng nhất của thị trường.


Phân tích dữ liệu danh mục

Một ứng dụng phổ biến của phân tích dữ liệu kinh doanh là phân tích danh mục. Trong đó,
một ngân hàng hoặc tổ chức cho vay có một tập hợp các tài khoản khách hàng với nhiều biến số
về giá trị và rủi ro. Các khách hàng này có thể khác nhau về địa vị xã hội (giàu có, trung lưu hoặc
nghèo, v.v...), vị trí địa lý, giá trị rịng và các yếu tố khác. Người cho vay phải cân bằng giữa lợi
nhuận thu được trên khoản vay với rủi ro vỡ nợ cho từng khoản vay. Câu hỏi đặt ra là làm thế nào
để đánh giá được danh mục một cách tổng thể. Khoản vay ít rủi ro nhất có thể là cho những đối
tượng rất giàu có, nhưng có rất ít đối tượng thuộc loại này. Mặt khác, có rất nhiều người nghèo có
thể cho vay, tất nhiên là với rủi ro lớn hơn. Một vài số dư cần phải giới hạn nhằm tối ưu hóa lợi
nhuận và tối thiểu hóa rủi ro. Giải pháp phân tích dữ liệu có thể kết hợp phân tích chuỗi thời gian
với nhiều vấn đề khác để đưa ra quyết định về việc khi nào nên cho vay với từng nhóm phân
khúc khách hàng, hoặc quyết định về mức lãi suất cho từng đối tượng trong phân khúc danh mục
để bù đắp tổn thất từ tồn thể đối tượng trong danh mục đó.


Phân tích dữ liệu rủi ro

Các mơ hình dự báo trong ngành ngân hàng được phát triển nhằm đưa ra sự chắc chắn cho
chỉ số rủi ro của từng khách hàng riêng lẻ. Chỉ số tín dụng được xây dựng để dự báo hành vi
phạm pháp của các cá nhân và được sử dụng rộng rãi để đánh giá mức tín dụng xứng đáng của
người nộp hồ sơ vay vốn.
Bên cạnh đó, phân tích rủi ro được thực hiện trong khoa học và lĩnh vực bảo hiểm. Nó cũng
được dùng rộng rãi trong các tổ chức tài chính như các cơng ty về cổng thanh tốn trực tuyến để
phân tích xem một giao dịch là có thực hay gian lận bằng việc sử dụng lịch sử giao dịch của

khách hàng. Ứng dụng này được dùng rộng rãi hơn trong mua hàng thanh tốn bằng thẻ tín dụng,
ví dụ khi có sự tăng đột biến trong khối lượng giao dịch của một khách hàng, khách hàng đó sẽ
nhận được cuộc gọi để xác nhận giao dịch đó có phải được khởi tạo bởi họ hay không. Ứng dụng
này sẽ giúp giảm thiểu tổn thất trong những trường hợp kể trên.


Ứng dụng phân tích dữ liệu trong kinh doanh thương mại

Marketing đã tiến hóa từ một quy trình sáng tạo thành một quy trình phụ thuộc chặt chẽ với
dữ liệu. Các tổ chức marketing sử dụng phân tích dữ liệu nhằm xác định kết quả của các chiến
dịch và nỗ lực marketing và hướng dẫn quyết định đầu tư cũng như định vị mục tiêu khách hàng.
Nghiên cứu nhân khẩu học, xác định phân khúc khách hàng, phân tích kết hợp và các kỹ thuật
khác cho phép người làm marketing sử dụng những khối lượng dữ liệu lớn về mua hàng tiêu
dùng, khảo sát và nhóm để hiểu và truyền đạt chiến lược marketing.
Phân tích web cho phép những người làm marketing thu thập thông tin về phiên truy cập và
tương tác trên các trang web. Google Analytics là một ví dụ điển hình của cơng cụ miễn phí và
9


phổ thơng của mục đích này. Các tương tác này cung cấp cho hệ thống phân tích dữ liệu web
những thông tin cần thiết để theo dõi nguồn giới thiệu, tìm kiếm từ khóa, xác định địa chỉ IP, theo
dõi hoạt động của khách tới thăm. Với những thông tin này, người làm marketing có thể cải thiện
các chiến dịch marketing, nội dung sáng tạo trên website và kiến trúc thơng tin của trang web.
Các kỹ thuật phân tích thường sử dụng trong marketing bao gồm mơ hình marketing hỗn
hợp, phân tích định giá và chiết khấu, tối ưu hóa lực lượng bán hàng và phân tích khách hàng
(như xác định phân khúc). Phân tích web và tối ưu hóa trang web và các chiến dịch trực tuyến
ngày nay thường kết hợp chặt chẽ với các kỹ thuật phân tích marketing truyền thống. Ảnh hưởng
của truyền thông kỹ thuật số cũng tạo ra một số thay đổi về các thuật ngữ, do đó mơ hình
marketing hỗn hợp cũng thường được tham chiếu tới mơ hình phân phối trong ngữ cảnh kỹ thuật
số hoặc marketing hỗn hợp.

Các công cụ và kỹ thuật này hỗ trợ cả về các quyết định chiến lược marketing (như dành
tổng cộng bao nhiêu ngân sách cho marketing, phân bố ngân sách cho các nhãn hàng và
marketing hỗn hợp như thế nào) và về các chiến thuật để định vị khách hàng tiềm năng nhất với
thông điệp tối ưu, bằng phương pháp hiệu quả chi phí nhất trong một thời gian lý tưởng.


Phân tích dữ liệu kỹ thuật số

Phân tích dữ liệu kỹ thuật số là một nhóm các hoạt động kinh doanh và kỹ thuật nhằm xác
định, khởi tạo, thu thập, xác minh hay chuyển đổi dữ liệu kỹ thuật số thành báo cáo, nghiên cứu,
phân tích, đề xuất, tối ưu hóa, dự báo hoặc tự động hóa. Ứng dụng này cũng bao gồm SEO
(Search Engine Optimization - Tối ưu hóa cơng cụ tìm kiếm) trong đó các tìm kiếm từ khóa được
theo dõi và trở thành dữ liệu được sử dụng cho mục đích marketing. Thậm chí các banner quảng
cáo và lần nhấp chuột cũng thuộc phân tích dữ liệu kỹ thuật số. Ngày càng có nhiều cơng ty về
marketing và thương hiệu phụ thuộc vào phân tích dữ liệu kỹ thuật số cho cơng việc marketing
kỹ thuật số của họ, trong đó MROI (Marketing Return On Investment - lợi nhuận marketing từ
đầu tư) là một chỉ số hoạt động quan trọng.


Phân tích dữ liệu an ninh

Phân tích dữ liệu an ninh có liên quan đến công nghệ thông tin, nhằm thu thập và phân tích
các sự kiện an ninh để tìm ra những yếu tố nào mang tới rủi ro lớn nhất. Sản phẩm trong lĩnh vực
này bao gồm quản lý bảo mật thông tin - sự kiện và phân tích dữ liệu hành vi người dùng.
I.2.3.

Khó khăn trong việc phân tích dữ liệu

Trong lĩnh vực phần mềm phân tích dữ liệu đang tập trung giải quyết những thách thức
trong phân tích những tập dữ liệu cực lớn và phức tạp, thường khi dữ liệu này ở trong trạng thái

thay đổi liên tục. Những tập dữ liệu như thế thường được đề cập đến dưới dạng dữ liệu lớn. Trong
khi trước đây những vấn đề phát sinh bởi dữ liệu lớn chỉ xuất hiện trong cộng đồng khoa học, dữ
liệu lớn ngày nay đã trở thành một vấn đề cho nhiều doanh nghiệp vận hành hệ thống giao dịch
trực tuyến sản sinh ra khối lượng dữ liệu lớn một cách nhanh chóng.
10


Phân tích các loại dữ liệu phi cấu trúc là một thách thức khác đang thu hút sự chú ý. Dữ liệu
phi cấu trúc khác với dữ liệu có cấu trúc ở chỗ định dạng của nó biến đổi đa dạng và không thể
lưu trữ được trong các cơ sở dữ liệu quan hệ thơng thường nếu khơng có sự nỗ lực lớn trong việc
chuyển hóa dữ liệu. Các nguồn dữ liệu phi cấu trúc, như thư điện tử, nội dung văn bản, file PDF,
không gian địa lý dữ liệu, ... đang trở thành nguồn phù hợp cho phân tích kinh doanh (business
intelligence) của các doanh nghiệp, chính phủ và trường đại học. Ví dụ, ở Anh một phát hiện ra
một công ty buôn bán trái phép ghi chú gian lận của bác sĩ để tiếp tay cho nhân viên gian lận với
chủ doanh nghiệp và công ty bảo hiểm của họ đã giúp các công ty bảo hiểm nâng cao cảnh giác
cho việc phân tích dữ liệu phi cấu trúc. Viện nghiên cứu tồn cầu của McKinsey ước tính việc
phân tích dữ liệu lớn có thể giúp hệ thống y tế của nước Mỹ tiết kiệm được khoảng 300 tỷ USD
mỗi năm và khu vực công châu Âu khoảng 250 tỷ Euro mỗi năm.
Những khó khăn đang là động lực cho việc đổi mởi hệ thống thông tin phân tích dữ liệu
hiện đại, cho ra đời nhiều khái niệm phân tích máy mới như xử lý sự kiện phức tạp (complex
event processing), tìm kiếm và phân tích văn bản tồn bộ, và nhiều ý tưởng mới về cách thức
trình bày. Một trong những đổi mới đó là mở đầu của kiến trúc dạng lưới trong phân tích máy,
cho phép tăng tốc độ khả năng xử lý song song ồ ạt bằng cách phân phối khối lượng công việc
cho nhiều máy tính với quyền truy cập bình đẳng tới tồn bộ tập dữ liệu.
Phân tích dữ liệu đang được sử dụng ngày càng nhiều trong giáo dục, đặc biệt ở các văn
phòng cấp huyện và trung ương. Mặc dù vậy, mức độ phức tạp trong việc theo dõi kết quả của
học sinh đưa ra những thách thức khi các nhà giáo dục cố gắng hiểu và sử dụng phân tích dữ liệu
để phân biệt các kiểu mẫu kết quả, dự báo khả năng tốt nghiệp, nâng khả năng thành công của
học sinh...Ví dụ, trong một nghiên cứu của các quận mạnh về sử dụng dữ liệu, 48% giáo viên gặp
phải khó khăn trong việc đưa ra câu hỏi được thúc đẩy bằng dữ liệu, 36% không hiểu dữ liệu

được cung cấp, và 52% hiểu và dịch sai về dữ liệu. Để đối phó với vấn đề này, một số cơng cụ
phân tích dữ liệu cho các nhà giáo dục tuân theo định dạng dữ liệu trực tiếp (tài liệu ghi chép bổ
sung, và một hệ thống trợ giúp, tạo ra hiện thị và các quyết định nội dung quan trọng) để cải thiện
hiểu biết và khả năng sử dụng công cụ phân tích được hiển thị của các nhà giáo dục.
Như vậy, phân tích dữ liệu có vai trị quan trọng trong mọi lĩnh vực đời sống xã hội. Nhờ có
phân tích dữ liệu, trên cơ sở những dữ liệu thơ được thu thập, qua q trình phân tích phát hiện,
giải thích và truyền đạt các mơ hình có ý nghĩa trong dữ liệu. Từ đó, việc quản lí, định hướng hay
dự báo tình hình, vấn đề của người sử dụng được hiệu quả, chính xác. Đặc biệt có giá trị trong
các lĩnh vực có nhiều thơng tin được ghi lại, phân tích dựa vào sự ứng dụng đồng thời của số liệu
thống kê, lập trình máy tính và nghiên cứu hoạt động để định lượng hiệu suất.

11


CHƯƠNG II: PHẦN MỀM PHÂN TÍCH DỮ LIỆU VÀ EXCEL
2.1.

Những cơng cụ được sử dụng để phân tích dữ liệu hiện nay

Phần mềm phân tích số liệu là một cơng cụ không thể thiếu đối với các nhà thống kê ở
nhiều lĩnh vực. Hiện nay, có rất nhiều phần mềm chuyên dụng phục vụ cho việc xử lý và phân
tích số liệu thống kê. Ví dụ như: SAS, SPSS, STATA, R…
Mỗi phần mềm có đặc trưng, điểm mạnh, điểm yếu riêng. Vai trị của các phần mềm phân
tích dữ liệu:
Phần mềm phân tích chỉ là cơng cụ hỗ trợ cho việc thực hiện các ước lượng, tính tốn
nhanh chóng trong q trình phân tích dữ liệu.
Các phần mềm này đều dựa trên các cơng thức tốn học, thống kê chung. Chính vì thế kết
quả các phân tích dữ liệu trên các phần mềm khác nhau đều cho ra kết quả giống nhau, nếu có sự
khác biệt thì sự khác biệt này rất nhỏ.
Một số phần mềm phân tích dữ liệu phổ biến hiện nay:

2.1.1. SAS4

SAS là bộ chương trình mà nhiều người sử dụng có trình độ cao ưa thích bởi khả năng lập
trình của nó. Do SAS là một bộ chương trình mạnh nên khó học, u cầu địi hỏi nghiên cứu
chuyên sâu. Để sử dụng SAS, ta phải viết chương trình để thao tác dữ liệu và thực hiện các phân
tích dữ liệu của mình. Nếu chương trình mắc lỗi, cái khó là phải biết tìm lỗi ở đâu và cách sửa thế
nào.
Ưu điểm:
– SAS rất mạnh trong lĩnh vực quản lý dữ liệu, cho phép người sử dụng thao tác dữ liệu hầu như
với mọi cách có thể
– SAS có thể làm việc với nhiều file dữ liệu cùng một lúc; điều này giảm đi tính phức tạp trong
chuẩn bị dữ liệu đối với những nhiệm vụ phân tích địi hỏi phải làm việc với nhiều file dữ liệu
cùng một lúc.
– SAS có thể quản lý những file dữ liệu khổng lồ lên đến 32.768 biến và số lượng bản ghi là rất
lớn chỉ phụ thuộc vào kích cỡ của đĩa cứng.
– Đối với phân tích thống kê, sức mạnh lớn nhất của SAS có thể tìm thấy trong phân tích
ANOVA, phân tích mơ hình hỗn hợp và phân tích nhiều chiều.
– SAS có các cơng cụ vẽ đồ thị mạnh nhất (SAS/Graph) so với hai bộ chương trình cịn lại.
4

/>
12


Nhược điểm:
– Mất nhiều thời gian để học và hiểu được cách quản lý dữ liệu của SAS và nhiều nhiệm vụ quản
lý phức tạp của nó lại được thực hiện bằng những lệnh đơn giản trong SPSS và STATA
– Yếu đối với hồi qui logistic kiểu thứ tự và kiểu phạm trù (vì các lệnh này là đặc biệt khó) và các
phương pháp ước lượng mạnh.
– Nó cũng có hỗ trợ một ít cho phân tích dữ liệu theo lược đồ mẫu, nhưng lại hạn chế hơn so với

STATA.
2.1.2. IBM SPSS Statistics5

SPSS là một bộ chương trình mà nhiều người sử dụng ưa thích do nó rất dễ sử dụng. SPSS
có một giao diện giữa người và máy cho phép sử dụng các menu thả xuống để chọn các lệnh thực
hiện. Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích
và bấm OK là có kết quả ngay trên màn hình để xem xét. SPSS cũng có một ngơn ngữ cú pháp có
thể học bằng cách dán cú pháp lệnh vào cửa sổ cú pháp từ một lệnh vừa chọn và thực hiện, nhưng
nói chung khá phức tạp và khơng trực giác.
Ưu điểm:
– SPSS có một bộ soạn thảo dữ liệu tương tự như Excel, bộ soạn thảo cho phép vào các dữ liệu
và mơ tả các thuộc tính của chúng, chính vì vậy SPSS khá dễ sử dụng.
–SPSS là lĩnh vực phân tích phương sai (SPSS cho phép thực hiện nhiều loại kiểm định tác động
riêng biệt) và phân tích nhiều chiều (thí dụ phân tích phương sai nhiều chiều, phân tích nhân tố,
phân tích nhóm tổ).
– SPSS có một giao diện giữa người và máy rất đơn giản để tạo ra các đồ thị và khi đã tạo được
một đồ thị, nhờ giao diện này mà người sử dụng có thể tuỳ ý hiệu chỉnh đồ thị cũng như hồn
thiện chúng. Các đồ thị có chất lượng rất cao và có thể dán vào các tài liệu khác, thí dụ như Word
hoặc Powerpoint.
Nhược điểm:
– Cái yếu nhất của SPSS là khả năng xử lý đối với những vấn đề ước lượng phức tạp và do đó
khó đưa ra được các ước lượng sai số đối với các ước lượng này.
– SPSS cũng không hỗ trợ các công cụ phân tích dữ liệu theo lược đồ mẫu.
– SPSS khơng có cơng cụ quản lý dữ liệu thật mạnh
– SPSS xử lý mỗi file dữ liệu ở một thời điểm và không phải là rất mạnh khi thực hiện các nhiệm
vụ phân tích cần làm việc với nhiều file dữ liệu cùng một lúc. Các file dữ liệu có thể có đến 4096
biến và số lượng bản ghi chỉ bị giới hạn trong dung lượng của đĩa cứng.
5

/>

13


– Ngôn ngữ cú pháp của SPSS phức tạp hơn so với STATA, nhưng lại có phần đơn giản hơn, ít
mạnh hơn SAS.
2.1.3. Stata (Software for Statistics and Data Science)6

STATA là một bộ chương trình mà nhiều người mới bắt đầu và sử dụng mạnh đều ưa thích
vì nó vừa dễ học có nhiều khả năng. STATA sử dụng các lệnh trực tiếp, có thể vào mỗi lệnh ở một
thời điểm để thực hiện (chế độ này được người mới bắt đầu ưa thích) hoặc có thể soạn thảo thành
một chương trình bao gồm nhiều lệnh cho một nhiệm vụ và thực hiện cùng một lúc. Thậm chí
nếu mắc lỗi trong chương trình thì có thể nhận biết và sửa chữa dễ dàng.
Ưu điểm:
– Cho phép thực hiện các thao tác phức tạp về dữ liệu một cách dễ dàng.
– Sức mạnh lớn nhất của STATA là hồi qui (rất dễ sử dụng các cơng cụ đốn nhận hồi qui), hồi
qui logistic (những bổ sung mới làm đơn giản hoá việc giải thích kết quả hồi qui logistic, cịn hồi
qui logistic thứ tự và hồi qui logistic phạm trù là rất dễ thực hiện).
– STATA cũng có nhiều phương pháp ước lượng mạnh rất dễ sử dụng, bao gồm cả hồi qui mạnh
và hồi qui với sai số chuẩn mạnh, và nhiều lệnh ước lượng khác kèm theo sai số chuẩn mạnh.
– STATA cũng trội hơn về lĩnh vực phân tích dữ liệu theo lược đồ mẫu, cho khả năng áp dụng
chúng trong phân tích số liệu điều tra bởi các công cụ hồi qui, hồi qui logistic, hồi qui poisson,
hồi qui probit, …
– Các đồ thị STATA cịn có chức năng bổ sung cho phân tích thống kê, thí dụ như có nhiều lệnh
làm đơn giản hố việc tạo ra các đồ thị chẩn đoán hồi qui.
– Cú pháp của các lệnh đồ thị là dễ sử dụng nhất trong số ba bộ chương trình và cũng là mạnh
nhất. Các đồ thị STATA có chất lượng cao và chất lượng xuất bản cũng cao.
Nhược điểm:
– STATA hồn tồn khơng có khả năng quản lý dữ liệu mạnh như SAS, nhưng các lệnh quản lý
dữ liệu của nó vẫn có nhiều sức mạnh, lại rất đơn giản.
– Tuy nhiên, mỗi thời điểm STATA chỉ làm việc được với một file dữ liệu, vì vậy những nhiệm

vụ xử lý cần nhiều file dữ liệu cùng một lúc đối với STATA là phức tạp hơn.
– Điểm yếu nhất là khả năng phân tích phương sai và phân tích nhiều chiều truyền thống như
phân tích phương sai nhiều chiều, phân tích nhóm tổ.
– Các đồ thị của STATA khơng thể hiệu đính bằng bộ hiệu đính đồ thị.

6

/>
14


2.1.4. R (The R Project for Statistical Computing)7

R là phần mềm (cũng gọi là ngơn ngữ lập trình R) để phân tích dữ liệu. Khác với các phần
mềm trên R là một phần mềm hồn tồn miễn phí. Tuy miễn phí, nhưng chức năng của R khơng
thua kém các phần mềm thương mại. Tất cả những phương pháp, mơ hình mà các phần mềm
thương mại có thể làm được thì R cũng có thể làm được. R có lợi thế là khả năng phân tích biểu
đồ tuyệt vời.
Ưu điểm:
– R có lợi thế là khả năng phân tích biểu đồ tuyệt vời. Khơng một phần mềm nào có thể sánh với
R về phần biểu đồ
– R gắn liền với giới học thuật, hầu hết những mơ hình thống kê mới nhất đều được hỗ trợ bởi R.
– Chạy được trên nhiều hệ điều hành
– Số 1 trong các phần mềm miễn phí
Nhược điểm:
– R có bất lợi là dùng lệnh chứ khơng dùng menu như Excel. Điều này có nghĩa là đối với người
“lười biếng” thì sẽ thấy R bất tiện. Nhưng với người muốn nắm lấy những cơ chế căn bản của
tốn học, thì sẽ thích ngơn ngữ này ngay.
– Người dùng phải có hiểu biết cao về kinh tế lượng, thống kê và khả năng lập trình vì trong phân
tích địi hỏi người dùng phải dùng các mã code để thực hiện các bước ước lượng và kiểm định

hay phân tích các vấn đề cần thiết trong dữ liệu.
2.1.5. Eviews 68

Điểm mới ở Eviews 6
+ Giao diện mới
+ Cơng cụ phân tích cực mạnh
+ Quản lí dữ liệu tinh vi
+ Dùng để thuyết trình rất hiệu quả
+ Dịng lệnh truyền thống và giao diện lập trình
+ Dung lượng và các yêu cầu về hệ thống để có thể cài đặt.

7

/>
8

/>
15


Phần mềm EViews kết hợp các bảng tính và cơng nghệ cơ sở dữ liệu liên quan với những
nhiệm vụ được lập trình sẵn trong phần mềm số liệu, và sử dụng một giao diện đồ hoạ 'chỉ chuộtvà-nhấn' (point-and-click GUI). Chương trình được kết hợp với một ngơn ngữ lập trình rất mạnh.
EViews có thể được sử dụng để phân tích các số liệu chung, nhưng nó thường rất hữu dụng
trong phân tích các thuật tốn kinh tế, ví dụ phân tích cross-section, phân tích nhóm dữ liệu, và
dự đốn chuỗi thời gian (time series). Nó hỗ trợ các định dạng file từ Excel, SPSS, SAS, Stata,
RATS, TSP, và truy cập vào cơ sở dữ liệu ODBC.
2.1.6. Skytree9

Skytree là một cơng cụ phân tích dữ liệu lớn, trao quyền cho các nhà khoa học dữ liệu để
xây dựng các mơ hình chính xác hơn nhanh hơn. Nó cung cấp các mơ hình học máy dự đốn

chính xác, dễ sử dụng.
Tính năng, đặc điểm:


Các thuật tốn có khả năng mở rộng cao



Trí tuệ nhân tạo cho các nhà khoa học dữ liệu


ML

Nó cho phép các nhà khoa học dữ liệu hình dung và hiểu logic đằng sau các quyết định



Skytree thơng qua GUI dễ chấp nhận hoặc lập trình trong Java



Giải thích mơ hình



Nó được thiết kế để giải quyết các vấn đề dự đoán mạnh mẽ với khả năng ch̉n bị dữ liệu



Truy cập lập trình và GUI


2.1.7. Talend10

Talend là một công cụ dữ liệu lớn giúp đơn giản hóa và tự động hóa tích hợp dữ liệu lớn.
Trình hướng dẫn đồ họa của nó tạo mã riêng. Nó cũng cho phép tích hợp dữ liệu lớn, quản lý dữ
liệu chủ và kiểm tra chất lượng dữ liệu.
Tính năng, đặc điểm:


Tăng tốc thời gian để giá trị cho các dự án dữ liệu lớn



Đơn giản hóa ETL & ELT cho dữ liệu lớn


Nền tảng dữ liệu lớn Talend đơn giản hóa bằng cách sử dụng MapReduce và Spark bằng
cách tạo mã gốc
9

/>
10

/>
16




Chất lượng dữ liệu thông minh hơn với máy học và xử lý ngơn ngữ tự nhiên




Agile DevOps để tăng tốc các dự án dữ liệu lớn



Hợp lý hóa tất cả các quy trình DevOps

Ngồi ra, cịn một số phần mềm được sử dụng để phân tích số liệu lớn (Big data) như:
Azure HDInsight, Elaticsearch, Lumify, Apache SAMOA, Plotly, Apache Spark, Splice Machine,
… cung cấp các mơ hình phân tích, giúp cho các cá nhân, nhóm, hệ thống và doanh nghiệp có hệ
thống các thuật tốn và kỹ thuật phân tích tiên tiến, khoa học.
Dựa vào mục đích phân tích dữ liệu, mà người sử dụng có thể lựa chọn các cơng cụ, phần
mềm phân tích phù hợp. Do đó lựa chọn phần mềm nào phụ thuộc vào sự quen thuộc của người
phân tích và khả năng hiểu rõ mơ hình để thực hiện chính xác trong phần mềm.
2.2.

Giới thiệu về Excel và lí do sử dụng phần mềm Excel để phân tích dữ liệu

2.2.1. Giới thiệu chung về Excel
Phần mềm bảng tính dung để trợ giúp tính tốn được sử dụng rộng rãi trong nhiều lĩnh vực
nghiên cứu khoa học, phân tích tài chính, kế tốn – thống kê, ... Có rất nhiều chương trình phần
mềm bảng tính khác nhau ví dụ như Excel, Google trang tính, …Trong số đó, đồ án tập trung vào
nghiên cứu ứng dụng Excel.
Microsoft Excel là một chương trình ứng dụng thuộc bộ Microsoft Office, là một công cụ
mạnh để thực hiện các bảng tính chun nghiệp. Cũng như các chương trình bảng tính Lotus,
Quattro, … bảng tính của Excel cũng bao gồm nhiều ô được tạo bởi các dòng và cột, việc nhập
dữ liệu và tính tốn trong Excel cũng có những điểm tương tự. Microsoft Excel là một ứng dụng
bảng tính khá phổ biến hiện nay và chắc không ai quá xa lạ với tệp đuôi .XLS. Đây là định dạng

mới nhất của Microsoft Excel. Microsoft Excel phù hợp với nhiều đối tượng từ doanh nhân, sinh
viên, chuyên gia hay bất kỳ ai muốn thu thập và phân tích dữ liệu, nâng cao, tạo lập và khai thác
cơ sở dữ liệu, phân tích và đốn, dự báo kinh tế, vẽ đồ thị, …. Người dùng có thể sử dụng bảng
tính trong Excel để giải quyết các bài toán kinh tế, kế toán, tài chính và các cơ sở dữ liệu trong
q trình học tập, nghiên cứu cũng như làm việc sau này.
Trong nhiều thập kỷ, Excel là chương trình xây dựng cơ sở dữ liệu và phân tích số liệu của
hàng triệu doanh nghiệp trên thế giới. Trẻ em cũng được học sử dụng ở trường. Excel, với nhiều
tính năng mới trong phiên bản cập nhật gần đây, xứng đáng giữ vững vị trí phần mềm xử lý dữ
liệu hàng đầu thế giới.
2.2.2. Các thao tác cơ bản trong Excel
Thao tác ban đầu: Khởi động, trang bảng tính, thốt khỏi Excel, lưu giữ và đóng bảng tính.
Nhập dữ liệu trong bảng tính:
+ Địa chỉ (Đặt tên cho các ơ hoặc nhóm ơ; đặt tên cho hằng, công thức)
17


+ Thao tác nhập dữ liệu, các kiểu dữ liệu nhập (kí tự, số, ngày tháng, cơng thức,…), nhập
dữ liệu tự động cho dãy biến đổi đều.
Hiệu chỉnh và định dạng bảng tính:
+ Lựa chọn khối ơ, hiệu chỉnh (cấu trúc bảng, dữ liệu trong ơ)
+ Định dạng bảng tính (theo mẫu, dạng kí tự, dạng số, dạng lề,…)
Các hàm cơ bản trong Excel: Hàm số học, hàm thống kê, hàm về ngày tháng, hàm kí tự,
hàm Logic, hàm điều kiện, các hàm tìm kiếm, …
Đồ thị trong Excel: vẽ, hiệu chỉnh và định dạng đồ thị.
2.2.3. Phiên bản Excel trong Office 365 mới nhất hiện nay
Với phiên bản Excel mới nhất hiện nay, sử dụng office 365 với nhiều tính năng vượt trội so
với các phiên bản office 2003, 2007, 2010, 2013, 2016 trước đây.


Thêm các hàm mới

CONCAT

Hàm mới này giống với hàm CONCATENATE nhưng tốt hơn. Trước hết, hàm này ngắn
hơn và dễ nhập hơn. Ngoài tham chiếu ô, hàm còn hỗ trợ tham chiếu dải ô.
IFS
Người dùng chán việc phải nhập các hàm IF lồng nhau phức tạp? Hàm IFS chính là giải
pháp. Với hàm này, các điều kiện được kiểm tra theo thứ tự mà người dùng chỉ định. Nếu đạt điều
kiện, kết quả sẽ được trả về. Người dùng cũng có thể chỉ định yếu tố "bao gồm mọi trường hợp"
khác nếu khơng có điều kiện nào được đáp ứng.
MAXIFS
Hàm này trả về số lớn nhất trong một dải ơ, đáp ứng một tiêu chí đơn lẻ hoặc nhiều tiêu chí.
MINIFS
Hàm này giống với hàm MAXIFS nhưng trả về số nhỏ nhất trong một dải ô, đáp ứng một
tiêu chí đơn lẻ hoặc nhiều tiêu chí.
SWITCH
Hàm này đánh giá một biểu thức với danh sách giá trị theo thứ tự và trả về kết quả trùng
khớp đầu tiên. Nếu khơng có kết quả nào trùng khớp, yếu tố "khác" sẽ được trả về.
TEXTJOIN
Hàm này kết hợp văn bản từ nhiều dải ô và mỗi mục được phân tách bởi dấu tách mà người
dùng chỉ định.

18


×