Tải bản đầy đủ (.doc) (32 trang)

ĐỒ ÁN CƠ SỞ: Phân tích và quản trị dữ liệu (Data Management and Analytics)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1011.61 KB, 32 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CƠNG NGHỆ THƠNG TIN

ĐỒ ÁN CƠ SỞ

Phân tích và quản trị dữ liệu
(Data Management and Analytics)

Giảng viên hướng dẫn: Vương Xuân Chí
Sinh viên thực hiện: Trần Nguyễn Thanh Ngân
MSSV:
2000006329
Chuyên ngành:
Khoa học dữ liệu
Môn học:
Đồ án cơ sở khoa học dữ liệu
Khóa:
2020

Tp.HCM, tháng 9 năm 2022


BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CƠNG NGHỆ THƠNG TIN

ĐỒ ÁN CƠ SỞ


Phân tích và quản trị dữ liệu
(Data Management and Analytics)

Giảng viên hướng dẫn: Vương Xuân Chí
Sinh viên thực hiện: Trần Nguyễn Thanh Ngân
MSSV:
2000006329
Chuyên ngành:
Khoa học dữ liệu
Môn học:
Đồ án cơ sở khoa học dữ liệu
Khóa:
2020

Tp.HCM, tháng 9 năm 2022

2


Trường Đại học Nguyễn Tất Thành
Khoa Công Nghệ Thông Tin
   

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
   

NHIỆM VỤ ĐỒ ÁN CHUYÊN NGÀNH/CƠ SỞ
(Sinh viên phải đóng tờ này vào báo cáo)
Họ và tên: TRẦN NGUYỄN THANH NGÂN..............MSSV: 2000006329...............


Chuyên ngành: CÔNG NGHỆ THÔNG TIN.....................Lớp: 20DTH1D......................
Email: ĐT: 11111111........................
Tên đề tài: Phân tích và quản trị dữ liệu (Data Management and Analytics)
.........................................................................................................................................
Gíao viên hướng dẫn: Vương Xuân Chí
.........................................................................................................................................
Thời gian thực hiện: 20 /6 /2022 đến 20 /9 /2022
MÔ TẢ ĐỀ TÀI:
Quản trị và phân tích dữ liệu là một nhánh rẽ quan trọng trong lĩnh vực cơng nghệ. Phân tích
dữ liệu mang tính đa ngành. Các phương pháp tốn học, thống kê, kỹ thuật, dự báo, học máy,
trí tuệ nhân tạo được sử dụng rộng rãi nhằm thu thập giá trị từ dữ liệu.
NỘI DUNG VÀ PHƯƠNG PHÁP:
-

Giới thiệu tầm quan trọng của quản lý dữ liệu, nhu cầu thị trường làm việc.

-

Quản lý dữ liệu cần có những quy trình, thực hiện, minh họa dữ liệu.

-

Kết luận.

U CẦU:

-

Có kiến thức, đam mê, hiểu biết về công nghệ mới như Mạng neural, Machine Learning,

Deep Learning…. Đọc hiểu tài liệu tiếng Anh, kỹ năng trình bày văn bản trên máy tính tốt.

-

Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả năng làm việc độc lập
hoặc làm việc trong nhóm tốt.

Nội dung và yêu cầu đã được thông qua Bộ môn.
3


TP.HCM, ngày
TRƯỞNG BỘ MÔN
(Ký và ghi rõ họ tên)
Trường Đại học Nguyễn Tất Thành
Khoa Công Nghệ Thông Tin
   

tháng

năm

GIÁO VIÊN HƯỚNG DẪN
(Ký và ghi rõ họ tên)

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
   

LỜI CẢM ƠN

Trong thời gian thực hiện đồ án cơ sở khoa học dữ liệu em đã được sự giúp đỡ nhiệt tình,
những lời khuyên bổ ích, và sự đóng góp nhiệt tình của thầy cô và bạn bè. Em xin chân
thành cảm ơn sự hướng dẫn trực tiếp của giảng viên thầy Vương Xuân Chí đã giảng dạy và
chỉ bảo em tận tâm trong q trình học tập. Thầy ln giải đáp thắc mắc và đưa ra lời
khuyên giúp em hiểu được vấn đề của mơn học. Và thầy Vương Xn Chí đã tận tình
giảng dạy, trang bị cho em những kiến thức quý báu trong học kỳ vừa qua.
Với điều kiện thời gian và cịn ít kinh nghiệm và kiến thức của một sinh viên cho nên
khơng thể tránh được những thiếu sót và nhiều điểm chưa hợp lý. Em rất mong nhận
được sự thơng cảm và góp ý các thầy cơ trong khoa để em có thể bổ sung và hồn thiện
hơn, nâng cao kiến thức và rút kinh nghiệm cho các đề tài về sau.
Em Xin chân thành cảm ơn!..................................................................

.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
4


Sinh viên thực hiện
Trần Tấn Phong
Trường Đại học Nguyễn Tất Thành
Khoa Cơng Nghệ Thơng Tin
   

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
   


LỜI MỞ ĐẦU
Trong q trình hồn thành đồ án, chắc chắc không tránh khỏi những thiếu sót. Vì vậy,
nhóm em rất mong nhận được lời góp ý đến từ thầy để đồ án cơ sở của chúng em được
hoàn thiện hơn.
Lý do em chọn đề tài này là vì quản trị và phân tích dữ liệu là một nhánh rẽ quan trọng
trong lĩnh vực Công nghệ thơng tin. Phân tích dữ liệu mang tính đa ngành. Các phương
pháp tốn học, thống kê, kỹ thuật mơ tả, mơ hình dự báo, học máy, trí tuệ nhân tạo được
sử dụng rộng rãi nhằm thu thập những hiểu biết có giá trị từ dữ liệu......................

.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
5


TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KỲ THI KẾT THÚC HỌC PHẦN
TRUNG TÂM KHẢO THÍ
HỌC KỲ 3 NĂM HỌC 2021-2022

PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN
Môn thi: Đồ án cơ sở Khoa Học Dữ Liệu
Nhóm sinh viên thực hiện :

1. Trần Nguyễn Thanh Ngân
2. Trần Tấn Phong

Lớp học phần:20DTH1D

Ngày thi: Phòng thi:
Đề tài tiểu luận/báo cáo của sinh viên:
Phần đánh giá của giảng viên (căn cứ trên thang rubrics của môn học):
Tiêu chí (theo CĐR HP)
Đánh giá của GV Điểm tối đa Điểm đạt được
Cấu trúc của báo cáo
Nội dung

Các nội dung thành
phần

Lập luận


Kết luận

Trình bày
TỔNG ĐIỂM

Giảng viên chấm thi
(ký, ghi rõ họ tên)

MỤC LỤC
6



MỤC LỤC HÌNH / ẢNH.................................................................................................8
Chương I: Tầm quan trọng của quản lý dữ liệu............................................................9
1.Giới thiệu.....................................................................................................................9
1.1.Quản lý dữ liệu là gì?.............................................................................................9
1.2.Các loại quản lý dữ liệu.......................................................................................10
2.Tầm quan trọng của quản lý dữ liệu...........................................................................11
2.1. Lợi ích cải thiện hiệu quả hoạt động và làm việc bên trong tổ chức...................11
2.2. Lợi ích giúp tổ chức đạt được mục tiêu hoạt động, kinh doanh..........................13
3.Nhu cầu thị trường làm việc.......................................................................................16
Chương II: Quản lý dữ liệu cần có những gì?..............................................................18
1.Ngun tắc quản lý dữ liệu........................................................................................18
2. Thành phần/ chức năng có trong Data management..................................................20
2.1. Data access.........................................................................................................20
2.2. Data integration..................................................................................................21
2.3. Data governance.................................................................................................22
2.4. Data quality........................................................................................................23
2.5. Data federation...................................................................................................24
2.6. Data preparation.................................................................................................25
2.7. Data architecture management............................................................................26
2.8.Data modelling and design..................................................................................27
2.9.Data storage and operations.................................................................................27
2.10. Data security.....................................................................................................28
2.11. Data warehousing and Business Intelligence....................................................29
3. Chiến lược quản lý dữ liệu........................................................................................29
Chương III: Kết luận.....................................................................................................30
DANH MỤC TÀI LIỆU KHAM KHẢO......................................................................31

7



MỤC LỤC HÌNH / ẢNH
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình

1.1: Qui trình khai phá dữ liệu
1.2: Một số lợi ích khác của quản lý dữ liệu
1.3: Khảo sát mức độ cần thiết của phân tích dữ liệu
1.4: Nhu cầu nhân lực ngành phân tích dữ liệu
2.1: Data access
2.2: Data integration
2.3: Data governance
2.4: Data quality
2.5: Data federation
2.6: Data preparation
2.7: Data architecture management
2.8: Data modelling and design

2.9: Data storage and operations
2.10: Data security
2.11: Data warehousing and Business Intelligence

8


CHƯƠNG I: TẦM QUAN TRỌNG CỦA QUẢN LÝ DỮ LIỆU
1.Giới thiệu
1.1.Quản lý dữ liệu là gì?
Dữ liệu rất quan trọng đối với bất kỳ tổ chức nào, bất kể ngành nào. Trong lĩnh vực
chăm sóc sức khỏe, nó cung cấp thơng tin chi tiết về chăm sóc bệnh nhân. Và trong các
doanh nghiệp khác, nó có thể thơng báo các quyết định và cải thiện trải nghiệm của khách
hàng. Quản lý và phân tích dữ liệu là q trình quản lý và phân tích dữ liệu quan trọng
đó.
Hiểu đơn giản “Data management best practices = better Data analytics” có nghĩa là
khi chúng ta quản lý dữ liệu hiệu quả thì việc phân tích cũng sẽ diễn ra tốt hơn, kết quả
chính xác hơn. Data management có thể là bước ban đầu chuẩn bị dữ liệu để phân tích
hoặc bước xử lý kết quả (xử lý dữ liệu) sau giai đoạn phân tích. Nhiều cơng ty thường
thất bại trong các dự án lớm về Big data hay Data analytics chỉ bởi nguyên nhân xuất
phát từ khâu quản lý dữ liệu không hợp lý. Điển hình là việc dữ liệu khơng trong trạng
thái ‘sẵn sàng’, chưa được hoàn chỉnh lại được đem đi phân tích một cách vội vã. Dữ liệu
khơng ‘sẵn sàng’ có thể là dữ liệu khơng được chọn lọc, không được chuyển đổi đúng
cách, các loại dữ liệu bị trùng lặp, định dạng dữ liệu khơng tương thích với phần mềm
phân tích,…
Như vậy Data management là việc xây dựng, tổ chức, bảo trì, kiểm sốt các hệ
thống, q trình xử lý dữ liệu như thu thập, lưu trữ, chọn lọc, làm sạch, chuyển đổi, phân
tích,… việc kiểm sốt các hoạt động có trong vịng đời dữ liệu từ xác định mục tiêu kinh
doanh đến trực quan hóa dữ liệu và áp dụng kết quả phân tích vào thực tế.
Nói cách khác, Data management là một tập hợp các công việc thực tiễn, quy trình,

kết hợp với một loạt các hệ thống, công cụ cho phép tổ chức ‘giành quyền kiểm soát’ và
quản lý nguồn tài nguyên dữ liệu của mình. Data management có thể xuất hiện trong mỗi
một giai đoạn của vịng đời dữ liệu. Ví dụ: Khi xem xét trong một tập dữ liệu, Data
management tác động từ điểm bắt đầu của việc thu thập, hình thành tập dữ liệu cho đến
điểm kết thúc là lưu trữ hay loại bỏ tập dữ liệu sau khi đã phân tích.

9


Hình 1.1: Qui trình khai phá dữ liệu.

1.2.Các loại quản lý dữ liệu
Quản lý dữ liệu đóng một vai trị quan trọng trong môi trường dữ liệu của tổ chức,
làm cho các chức năng thiết yếu trở nên dễ dàng hơn và ít tốn thời gian hơn. Các kỹ thuật
quản lý dữ liệu này bao gồm:
 Chuẩn bị dữ liệu được sử dụng để làm sạch và chuyển đổi dữ liệu thơ thành hình
dạng và định dạng phù hợp để phân tích, bao gồm thực hiện hiệu chỉnh và kết hợp các tập
dữ liệu.
 Đường ống dữ liệu cho phép chuyển dữ liệu tự động từ hệ thống này sang hệ thống
khác.
 ETL (Trích xuất, Chuyển đổi, Tải) được xây dựng để lấy dữ liệu từ một hệ thống,
chuyển đổi và tải dữ liệu đó vào kho dữ liệu của tổ chức.
 Danh mục dữ liệu giúp quản lý siêu dữ liệu để tạo ra một bức tranh toàn cảnh về
dữ liệu, cung cấp bản tóm tắt về các thay đổi, vị trí và chất lượng của siêu dữ liệu đồng
thời giúp dễ dàng tìm thấy dữ liệu.
 Kho dữ liệu là nơi hợp nhất các nguồn dữ liệu khác nhau, cạnh tranh với nhiều loại
dữ liệu mà doanh nghiệp lưu trữ và cung cấp một lộ trình rõ ràng để phân tích dữ liệu.
 Quản trị dữ liệu xác định các tiêu chuẩn, quy trình và chính sách để duy trì tính
tồn vẹn và bảo mật của dữ liệu.
 Kiến trúc dữ liệu cung cấp một cách tiếp cận chính thức để tạo và quản lý luồng

dữ liệu.
 Bảo mật dữ liệu bảo vệ dữ liệu khỏi bị truy cập trái phép và tham nhũng.
 Mơ hình hóa dữ liệu ghi lại luồng dữ liệu thông qua một ứng dụng hoặc tổ chức.

10


2.Tầm quan trọng của quản lý dữ liệu
Dữ liệu là tài sản của công ty được sử dụng để đưa ra quyết định kinh doanh chính
xác, cải thiện chiến dịch tiếp thị, tối ưu hóa hoạt động kinh doanh. Tất cả nhằm hướng tới
mục tiêu tăng doanh thu và giảm chi phí. QLDL khơng phù hợp có thể khiến các silo dữ
liệu của tổ chức (tập hợp thông tin trong một tổ chức được cách ly và không thể truy cập
bởi các bộ phận khác) khơng tương thích. Nếu bộ dữ liệu không nhất quán sẽ làm hạn chế
khả năng chạy các ứng dụng phân tích thơng minh (BI) và tệ hơn là dẫn đến các kết quả
bị lỗi, sai lệch.

Hình 1.2: Một số lợi ích khác của quản lý dữ liệu

2.1. Lợi ích cải thiện hiệu quả hoạt động và làm việc bên trong tổ chức
 Giảm việc di chuyển dữ liệu nhiều lần
Dữ liệu sau khi thu thập từ nhiều nguồn khác nhau có thể phải luân chuyển
đến nơi khác ví dụ nguyên nhân là theo nhu cầu sử dụng của các phòng ban trong
tổ chức. Điều này dẫn đến việc sao chép dữ liệu, phát sinh các vấn đề về bảo mật,
tạo nên sự cồng kềnh trong cách thức hoạt động, có thể làm chậm tiến độ khai thác
dữ liệu,… Hệ thống Data management hoàn hảo cho phép tổ chức lưu trữ dữ liệu
vào những nơi thống nhất, tạo điều kiện tiếp cận và cấp quyền truy cập cho các
nhân viên từ phòng ban khác, tăng mức độ bảo mật hơn.
 Nâng cao năng suất hoạt động của tổ chức
11



Khi dữ liệu không phải di chuyển nhiều trước khi được quản lý, nó sẽ đem lại
lợi ích đầu tiên cho tổ chức chính là nâng cao năng suất hoạt động, chẳng hạn như
nhân viên IT có thể làm việc hiệu quả hơn khi được giảm bớt gánh nặng từ các
nhiệm vụ cung cấp dữ liệu lặp đi lặp lại hàng ngày. Dữ liệu được lưu trữ sẵn tại
những vị trí cố định, nhân viên từ các phịng ban khác sẽ dễ dàng làm quen với
việc truy cập, nhanh chóng tiếp cận dữ liệu, tìm hiểu các thơng tin cần cho cơng
việc, đặc biệt khi họ khơng có nhiều kiến thức về kỹ thuật, cơng nghệ, qua đó có
thể giảm thời gian, chi phí đào tạo liên quan. Hệ thống Data management cũng
cung cấp một cấu trúc, quy trình rõ ràng để hỗ trợ nhân viên dễ dàng chia sẻ thông
tin với người khác và cách thức lưu trữ để truy xuất, tham khảo trong tương lai.
 Truy cập thông tin cần thiết nhanh hơn
Như đã nói ở trên mặc dù dữ liệu thu thập được lưu trữ vào những nơi thống
nhất, hạn chế việc di chuyển dữ liệu, nhưng nếu một bộ phận, phịng ban hay nhân
viên trong cơng ty bất chợt cần một số dữ liệu, thông tin ví dụ để nghiên cứu phát
triển sản phẩm mới thì phải tìm chúng như thế nào? Thậm chí có thể cơng ty chưa
thu thập những thơng tin ấy, thì phải làm thế nào? Hệ thống Data management hiệu
quả khắc phục vấn đề trên ví dụ như thơng qua các q trình quản lý master data,
reference data, metadata, nhân viên từ các phịng ban sẽ giảm được thời gian tìm
kiếm, nhanh chóng xác định những thơng tin, dữ liệu nào cơng ty đang có hoặc đã
thu thập, để truy cập, sử dụng cho các mục đích khác nhau.
 Dữ liệu mới được cập nhật thường xuyên và hiệu quả
Một hệ thống Data management tối ưu không chỉ áp dụng các công cụ, phần
mềm kỹ thuật tiên tiến mà còn được vận hàng bởi đội ngũ chuyên gia IT, chuyên
gia dữ liệu. Do đó, các vấn đề phát sinh khi cập nhật dữ liệu mới hàng ngày sẽ
được giải quyết, và tạo khả năng tiếp cận, sử dụng dữ liệu mới cho nhân viên từ tất
cả các bộ phận khác.
 Nhân viên hiểu hơn về dữ liệu
Khơng chỉ có thể tiếp cận dữ liệu dễ dàng hơn thông qua Data management,
nhân viên có thể hiểu rõ hơn về dữ liệu mình đang xử lý, hay phân tích. Các mơ tả

chi tiết về dữ liệu như nguồn gốc dữ liệu, loại dữ liệu, thơng tin dữ liệu cung cấp là
gì,… được kiểm sốt và quản lý chặt chẽ, cung cấp cho nhân viên những cái nhìn,
khía cạnh khác nhau của dữ liệu. Qua đó, nhân viên sẽ xác định, đánh giá mức độ
phù hợp, sự liên quan của mỗi tập dữ liệu cho các dự án, nghiên cứu,…
 Kiểm soát dữ liệu, giảm trường hợp mất dữ liệu
Mặc dù dữ liệu được lưu trữ vào những nơi thống nhất, cố định nhằm hạn chế
việc di chuyển dữ liệu, nhưng vẫn có trường hợp dữ liệu được chia sẻ hay luân
chuyển từ hệ thống này sang hệ thống khác, từ file này sang file khác, dẫn đến dữ
12


liệu giá trị có thể bị mất dấu, thất lạc. Các công cụ Data management sẽ giúp nhân
viên biết rõ dữ liệu đang nằm ở đâu để kiểm sốt. Ngồi ra, các quy tắc, kế hoạch
đề ra trong quản lý dữ liệu, được tuân thủ bởi các nhân viên trong tổ chức cũng
góp phần hạn chế vấn đề trên. Việc dữ liệu bị mất cịn có thể xảy ra khi hệ thống,
máy móc,…gặp sự cố bất ngờ, hay bị lỗi. Data management sẽ hỗ trợ back up (sao
lưu) dữ liệu, do đó dữ liệu bị mất sẽ được tìm lạị dễ dàng.
 Sử dụng lại các kỹ thuật, phương pháp quản lý dữ liệu
Một hệ thống Data management hoàn chỉnh sẽ bao gồm một tập hợp các kỹ
thuật, phương pháp được thiết lập một cách chuẩn tắc để sử dụng cho những dự án
khác trong tương lai, qua đó giảm thiểu chi phí nghiên cứu, xây dựng lại, cải thiện
các quy trình trong Data management.
 Hỗ trợ quản lý dữ liệu lớn, Big data
Dữ liệu lớn đem lại nhiều khó khăn và thách thức khác nhau cho mỗi tổ chức,
đặc biệt là cách thức quản lý. Nhưng khi triển khai Data management, dữ liệu lớn
sẽ được lưu trữ, sử dụng hiệu quả hơn, đảm bảo chất lượng dữ liệu, an tồn, bảo
mật dữ liệu, hạn chế vấn đề bỏ sót, thất lạc dữ liệu giá trị, tăng tốc quá trình xử lý
và phân tích, nhanh chóng đạt được giá trị, thơng tin hữu ích từ Big data.

2.2. Lợi ích giúp tổ chức đạt được mục tiêu hoạt động, kinh doanh

 Tìm hiểu được insight của khách hàng hiện tại và khách hàng tiềm năng
Customer insights, những suy nghĩ, mong muốn, nhu cầu thực sự tiềm ẩn bên
trong khách hàng, ngày nay chính là lợi thế, chìa khóa cạnh tranh mà mỗi cơng ty
phải có. Nhưng để thực sự nắm bắt được customer insights là điều không dễ dàng
mặc dù nhiều chun gia cho rằng: thơng qua phân tích dữ liệu khách hàng các cơng
ty sẽ tìm ra. Chúng ta có thể suy ra nếu khơng có Data management, dữ liệu sẽ
không thể sẵn sàng để khai thác những thông tin hữu ích từ khách hàng. Nói cách
khác, một hệ thống Data management hoàn hảo cho phép thu thập, lưu trữ, quản lý,
bảo đảm chất lượng dữ liệu để đem vào phân tích, và từ kết quả phân tích cơng ty sẽ
có một bức tranh chi tiết về khách hàng hiện tại và khách hàng tiềm năng, qua đó
tiến hành phân khúc, phát triển các chiến lược marketing, chiến lược bán hàng nhắm
đúng đối tượng, sản phẩm mới, dịch vụ mới hiệu quả hơn.
 Kiểm sốt tình hình tiêu thụ sản phẩm, sử dụng dịch vụ
Hệ thống Data management có thể hỗ trợ cập nhật thông tin, dữ liệu liên tục
hàng ngày, các cơng ty sẽ tiến hàng phân tích và qua đó xác định sản phẩm, dịch vụ
có đang tạo hiệu ứng tốt trên thị trường hay không, doanh số ra sao, cảm nhận của
13


khách hàng về sản phẩm, dịch vụ (dựa vào dữ liệu trên website, social media,..), sản
phẩm, dịch vụ nào đang được ưa chuộng,…
 Tiết kiệm chi phí, thời gian
Ở một số lợi ích được bàn luận ở trên, cũng đã đề cập đến tính hiệu quả về chi
phí khi triển khai một hệ thống Data management hợp lý như giảm chi phí đào tạo
nhân viên khi dữ liệu được lưu trữ tại những nơi cố định dễ dàng tiếp cận, làm quen
với việc truy cập; giảm chi phí nghiên cứu, xây dựng lại hệ thống, phương pháp, kỹ
thuật quản lý, khắc phục sự cố,.. đối với các dự án trong tương lai.
Để đạt được mục tiêu kinh doanh thì việc tối ưu chi phí nên được đưa lên hàng
đầu. Thời gian xử lý công việc kéo dài hơn, hiệu suất hoạt động nhân viên thấp, dẫn
đến chi phí sẽ tăng. Như đã nói ở trên, Data management ngăn chặn triệt để vấn đề

mất dữ liệu, bỏ sót dữ liệu, tăng kiểm soát dữ liệu, tạo cho tất cả nhân viên tại các
phịng ban khả năng truy cập thơng tin, dữ liệu cần thiết cho cơng việc của mình,
tiết kiệm thời gian, qua đó làm giảm được chi phí. Mặt khác, các quy trình được
chuẩn hóa cho phép hạn chế những công việc liên quan đến dữ liệu bị trùng lập,
đảm bảo nhân viên khơng tiến hành nghiên cứu, phân tích hoặc làm các cơng việc
tương tự đã được hồn thành từ trước đó.
 Tăng khả năng thích ứng nhanh chóng với thị trường kinh doanh biến động
Trong kinh doanh, tốc độ mà một cơng ty có thể đưa ra quyết định và tiến hành
thay đổi là yếu tố chính để xác định mức độ thành công của một công ty. Nếu một
công ty mất quá nhiều thời gian để phản ứng với thị trường, xu hướng tiêu dùng của
khách hàng hoặc chiến lược của các đối thủ cạnh tranh, thì đó là thất bại. Với một
hệ thống quản lý dữ liệu tốt, nhân viên có thể truy cập thơng tin, dữ liệu được cập
nhật liên tục và thông báo về sự thay đổi của thị trường hoặc đối thủ cạnh tranh
nhanh hơn. Kết quả, công ty sẽ đưa ra các quyết định và hành động phù hợp, đi
trước đối thủ hiệu quả hơn so với các cơng ty có hệ thống quản lý dữ liệu và chia sẻ
dữ liệu kém.
 Tăng khả năng thích ứng nhanh chóng với thị trường kinh doanh biến động
Vấn đề bảo mật thông tin cá nhân của khách hàng (địa chỉ, số điện thoại,
email, số tài khoản ngân hàng, số thẻ thanh toán,..) trước sự tấn công của tội phạm,
tin tặc, hay sử dụng thông tin cá nhân khách hàng trái phép để đạt được lợi ích kinh
doanh ngày nay càng được quan tâm nhiều hơn. Bộ luật GDPR (General Data
Protection Regulation) bộ luật bảo vệ dữ liệu chung ra đời tại các nước trong khối
liên minh châu Âu EU năm 2018, hay tại nước ta luật An ninh mạng cũng chính
thức có hiệu lực trong năm 2019, tất cả là minh chứng tầm quan trọng của bảo mật
thông tin, các công ty luôn phải tuân thủ những quy tắc, điều luật để tạo niềm tin nơi
khách hàng. Hơn nữa, không chỉ dữ liệu khách hàng, mà dữ liệu quan trọng như
thông tin kinh doanh bí mật của cơng ty cũng rất quan trọng và phải luôn được bảo
14



vệ. Một hệ thống Data management chặt chẽ, có các công cụ, phần mềm bảo mật tối
tân được cung cấp bởi các tập đồn, cơng ty uy tín sẽ giúp các công ty giảm bớt
gánh nặng về bảo mật, an tồn thơng tin, dữ liệu.
 Tăng khả năng thích ứng nhanh chóng với thị trường kinh doanh biến động
Như đã đề cấp ở phần 1 bài viết, các chức năng, quy trình có trong Data
management giúp cơng ty thu thập, lưu trữ, làm sạch, chuyển đổi, tích hợp, đảm bảo
tính toàn vẹn, chất lượng dữ liệu để phục vụ cho giai đoạn phân tích, khai thác
những thơng tin hữu ích có giá trị từ dữ liệu. Mức độ thành cơng của bất kỳ quyết
định, chiến lược hay giải pháp nào được đề xuất đều phải phụ thuộc vào mức độ
chính xác của kết quả phân tích. Do đó, nếu khơng có Data management, dữ liệu
khơng được kiểm tra kỹ càng, dữ liệu bị sai sót, bị nhiễu, khơng đầy đủ, khơng liên
quan đến mục tiêu nghiên cứu và phân tích,… sẽ ảnh hưởng đến độ chính xác của
kết quả phân tích, và cơng ty sẽ gặp thất bại nếu căn cứ vào dữ liệu mà hành động.
 Tăng khả năng thích ứng nhanh chóng với thị trường kinh doanh biến động
Các dữ liệu, thông tin kinh doanh được lưu trữ trong q khứ một lúc nào đó
sẽ đóng vai trị hữu ích đối với cơng ty, ví dụ các phương pháp, bí quyết kinh doanh,
dữ liệu về những lần cơng ty thất bại cũng được xem là bài học kinh nghiệm để vận
dụng vào thực tại, hay ví dụ khác như dữ liệu về tình hình hoạt động kinh doanh của
công ty qua các năm được khai thác để đánh giá mức độ phát triển, tham khảo để
thiết lập các dự báo trong tương lai, hoặc thế hệ nhân viên mới có thể dựa vào dữ
liệu những quy trình, phương pháp, kỹ thuật được lưu trữ trước đó để hồn thành tốt
cơng việc của mình. Một hệ thống Data management hoàn chỉnh sẽ quản lý, lưu trữ
dữ liệu hiệu quả trong khoảng thời gian dài, và hỗ trợ nhân viên tìm kiếm, truy cập
lại những dữ liệu ấy khi cần một cách nhanh chóng hơn.
 Tăng khả năng thích ứng nhanh chóng với thị trường kinh doanh biến động
Khơng chỉ vừa lưu trữ dữ liệu cũ như đã nói ở trên, mà cịn cập nhật, phân tích
dữ liệu mới, hệ thống Data management giúp cơng ty ln có những bước đi đúng
đắn, vừa kết hợp kinh nghiệm, bài học trong quá khứ vừa thay đổi, thích ứng với
những xu hướng tiêu dùng mới của khách hàng, xu hướng công nghệ, kỹ thuật tiên
tiến ví dụ như Big data, Machine learning,…của thời đại ngày nay để đề xuất các

chiến lược phát triển, cải cách bền vững, hiệu quả hơn. Đây chính là lợi ích sau
cùng mà chúng tơi cho rằng là quan trọng nhất nếu coi nó là cơ sở, là chìa khóa
thành cơng để một cơng ty xem xét, quyết định có triển khai Data management hay
khơng.

15


Hình 1.3: Khảo sát mức độ cần thiết của phân tích dữ liệu

3.Nhu cầu thị trường làm việc
Quản lý và phân tích dữ liệu là một lĩnh vực rộng mở đầy cơ hội nghề nghiệp. Một
số vai trò tập trung vào dữ liệu bao gồm:
 Quản trị cơ sở dữ liệu
 Nhà phân tích dữ liệu
 Kỹ sư dữ liệu
 Phân tích hệ thống
 Nhà khoa học dữ liệu
Quản lý dữ liệu cũng là một lĩnh vực đang phát triển, đặc biệt là khi các tổ chức
nhận ra tầm quan trọng của dữ liệu. Theo Cục Thống kê Lao động , vai trò quản trị cơ sở
dữ liệu và kiến trúc sư dự kiến sẽ tăng 8%, đây là mức tăng trưởng tuyệt vời cho bất kỳ
con đường sự nghiệp nào.

16


Thị trường toàn cầu về quản lý dữ liệu đạt giá trị 73.1 tỷ đô la vào năm 2021 và dự
kiến sẽ tăng lên 150.6 tỷ đô la vào năm 2027, theo Expert Market Research.
Các công ty thuộc mọi quy mô và ngành công nghiệp đang triển khai phần mềm
quản lý dữ liệu, nhưng có sự khác biệt khi triển khai. Một số công ty, đặc biệt là những

công ty có cơng nghệ kế thừa chun biệt cho ngành của họ, đã chọn các giải pháp quản
lý dữ liệu tại chỗ.
Nhiều cơng ty khác đang chọn tìm các giải pháp quản lý dữ liệu phần mềm dưới
dạng dịch vụ (SaaS) dựa trên đám mây để mở rộng quy mô linh hoạt hơn và khả năng từ
xa. Các giải pháp dựa trên đám mây sẽ tiếp tục phát triển thị phần của họ khi nhiều công
ty chuyển khối lượng công việc của họ lên đám mây.

Hình 1.4: Nhu cầu nhân lực ngành phân tích dữ liệu

17


CHƯƠNG II: QUẢN LÝ DỮ LIỆU CẦN CĨ NHỮNG GÌ?
1.Ngun tắc quản lý dữ liệu
Quản lý dữ liệu chia sẻ các đặc điểm với các hình thức quản lý tài sản khác, như
được thấy trong Hình 1. Nó liên quan đến việc biết tổ chức có dữ liệu gì và những gì có
thể đạt được với nó, sau đó xác định cách tốt nhất để sử dụng tài sản dữ liệu để đạt được
các mục tiêu của tổ chức.
Giống như các quy trình quản lý khác, nó phải cân bằng giữa nhu cầu chiến lược và
hoạt động. Sự cân bằng này có thể đạt được tốt nhất bằng cách tuân theo một loạt các
nguyên tắc ghi nhận các đặc điểm nổi bật của quản lý dữ liệu và hướng dẫn thực hành
quản lý dữ liệu.
Dữ liệu là một tài sản có các thuộc tính duy nhất: Dữ liệu là một tài sản, nhưng nó
khác với các tài sản khác ở chỗ các tổ chức cũng cần dữ liệu chất lượng cao để hướng dẫn
các hoạt động điều hành, chiến thuật và chiến lược của họ. Khi các tổ chức ngày càng
phụ thuộc vào dữ liệu, giá trị của tài sản dữ liệu có thể được xác lập rõ ràng hơn. những
cách ảnh hưởng đến cách nó được quản lý. Rõ ràng nhất của những đặc tính này là dữ
liệu khơng bị tiêu hao khi nó được sử dụng, cũng như các tài sản tài chính và vật chất.

 Giá trị của dữ liệu có thể và nên được thể hiện bằng các thuật ngữ kinh tế:

Gọi dữ liệu là tài sản ngụ ý rằng nó có giá trị. Mặc dù có các kỹ thuật để đo lường
giá trị định tính và định lượng của dữ liệu, nhưng vẫn chưa có tiêu chuẩn để làm
như vậy. Các tổ chức muốn đưa ra quyết định tốt hơn về dữ liệu của họ nên phát
triển các cách nhất quán để định lượng giá trị đó. Họ cũng nên đo lường cả chi phí
của dữ liệu chất lượng thấp và lợi ích của dữ liệu chất lượng cao.
 Quản lý dữ liệu có nghĩa là quản lý chất lượng của dữ liệu: Đảm bảo rằng
dữ liệu phù hợp với mục đích là mục tiêu chính của quản lý dữ liệu. Để quản lý chất
lượng, các tổ chức phải đảm bảo họ hiểu các yêu cầu của các bên liên quan về chất
lượng và đo lường dữ liệu so với các yêu cầu này.
 Cần Siêu dữ liệu để quản lý dữ liệu: Quản lý bất kỳ tài sản nào cũng yêu
cầu phải có dữ liệu về tài sản đó (số lượng nhân viên, mã kế toán, v.v.). Dữ liệu
dùng để quản lý và sử dụng dữ liệu được gọi là Siêu dữ liệu. Bởi vì dữ liệu khơng
thể được giữ hoặc chạm vào, để hiểu nó là gì và cách sử dụng nó địi hỏi phải có
định nghĩa và kiến thức ở dạng Siêu dữ liệu. Siêu dữ liệu bắt nguồn từ một loạt các
quy trình liên quan đến tạo, xử lý và sử dụng dữ liệu, bao gồm kiến trúc, mơ hình
hóa, quản lý, quản trị, quản lý Chất lượng dữ liệu, phát triển hệ thống, CNTT và
hoạt động kinh doanh cũng như phân tích.
18


 Cần lập kế hoạch để quản lý dữ liệu: Ngay cả các tổ chức nhỏ cũng có thể
có bối cảnh quy trình kinh doanh và kỹ thuật phức tạp. Dữ liệu được tạo ra ở nhiều
nơi và được di chuyển giữa các nơi để sử dụng. Để điều phối công việc và giữ cho
kết quả cuối cùng phù hợp với yêu cầu lập kế hoạch từ quan điểm kiến trúc và quy
trình.
 Quản lý dữ liệu là chức năng chéo; nó địi hỏi một loạt các kỹ năng và
chun mơn: Một nhóm đơn lẻ khơng thể quản lý tất cả dữ liệu của một tổ chức.
Quản lý dữ liệu đòi hỏi cả kỹ năng kỹ thuật và phi kỹ thuật và khả năng cộng tác.
 Quản lý dữ liệu yêu cầu quan điểm của doanh nghiệp: Quản lý dữ liệu có
các ứng dụng cục bộ, nhưng nó phải được áp dụng trong tồn doanh nghiệp để có

hiệu quả nhất có thể. Đây là một lý do tại sao quản lý dữ liệu và quản trị dữ liệu
được gắn liền với nhau.
 Quản lý dữ liệu phải tính đến một loạt các quan điểm: Dữ liệu là linh hoạt.
Quản lý dữ liệu phải liên tục phát triển để theo kịp cách dữ liệu được tạo ra và sử
dụng cũng như người tiêu dùng dữ liệu sử dụng nó.
 Quản lý dữ liệu là quản lý vịng đời: Dữ liệu có một vòng đời và việc quản
lý dữ liệu đòi hỏi phải quản lý vịng đời của nó. Bởi vì dữ liệu sinh ra nhiều dữ liệu
hơn, bản thân vòng đời dữ liệu có thể rất phức tạp. Thực tiễn quản lý dữ liệu cần
tính đến vịng đời dữ liệu.
 Các loại dữ liệu khác nhau có các đặc điểm vịng đời khác nhau: Và vì lý do
này, chúng có các yêu cầu quản lý khác nhau. Thực tiễn quản lý dữ liệu phải nhận ra
những khác biệt này và đủ linh hoạt để đáp ứng các loại yêu cầu khác nhau của
vòng đời dữ liệu.
 Quản lý dữ liệu bao gồm quản lý các rủi ro liên quan đến dữ liệu: Ngoài
việc là một tài sản, dữ liệu cũng đại diện cho rủi ro đối với một tổ chức. Dữ liệu có
thể bị mất, bị đánh cắp hoặc bị sử dụng sai mục đích. Các tổ chức phải xem xét các
tác động đạo đức của việc sử dụng dữ liệu của họ. Các rủi ro liên quan đến dữ liệu
phải được quản lý như một phần của vòng đời dữ liệu.
 Yêu cầu quản lý dữ liệu phải định hướng các quyết định Công nghệ thông
tin: Dữ liệu và quản lý dữ liệu gắn bó sâu sắc với cơng nghệ thông tin và quản lý
công nghệ thông tin. Quản lý dữ liệu yêu cầu một cách tiếp cận đảm bảo cơng nghệ
phục vụ, thay vì thúc đẩy, nhu cầu dữ liệu chiến lược của tổ chức.
 Quản lý dữ liệu hiệu quả đòi hỏi sự cam kết của lãnh đạo: Quản lý dữ liệu
bao gồm một tập hợp các quy trình phức tạp, để có hiệu quả, cần có sự phối hợp,
cộng tác và cam kết. Để đạt được điều đó, khơng chỉ địi hỏi kỹ năng quản lý mà
cịn phải có tầm nhìn và mục đích đến từ sự lãnh đạo tận tâm.

19



2. Thành phần/ chức năng có trong Data management.
2.1. Data access

Hình 2.1: Data access

Dữ liệu mới trở thành tài sản của một tổ chức khi và chỉ khi tổ chức ấy có thể lấy
được dữ liệu theo yêu cầu, mục tiêu đề ra. Data access – tiếp cận dữ liệu – liên quan đến
khả năng tiếp cận, thu thập thông tin từ, dữ liệu từ bất kỳ nguồn nào. Dữ liệu mà mỗi tổ
chức, cơng ty phải thu thập có thể đến từ nhiều nơi khác nhau như các bảng tính Excel,
các tệp văn bản, từ các cơ sở dữ liệu, từ các email, các ứng dụng kinh doanh, bán hàng
thông minh, từ các website, các trang mạng xã hội, và dữ liệu truyền về từ các thiết bị
I.o.T (Internet of things – Internet vạn vật).
Do đó nếu khơng có một biện pháp hiệu quả trong Data access, thì quá trình thu
thập sẽ rất khó khăn ảnh hưởng đến tồn bộ hệ thống Data management. Chưa xét đến
việc một tổ chức đã xây dựng một chiến lược cụ thể cho Data management, nhưng việc
đầu tiên cần quan tâm sau khi đã xác định các mục tiêu kinh doanh, đó chính là xác định
dữ liệu, nguồn dữ liệu hợp lý và cách thức tiếp cận và thu thập sao cho hiệu quả. Các
công cụ, phần mềm tiên tiến được sử dụng, kế hoạch chi tiết được đề ra trong Data access
sẽ hỗ trợ tổ chức thu thập, trích xuất dữ liệu tốt hơn.

20


2.2. Data integration

Hình 2.2: Data integration
Data integration hay cịn gọi là tổng hợp, tích hợp dữ liệu. Dữ liệu mà mỗi tổ chức,
công ty phải thu thập đến từ nhiều nguồn khác, khơng đồng nhất, và có nhiều định dạng
khác nhau. Sau khi thu thập dữ liệu từ các nguồn khác nhau thì thơng thường mỗi cơng ty,
tổ chức phải tiến hành tích hợp tất cả dữ liệu khác nhau, cụ thể là kết hợp các dữ liệu

khác nhau vào chung một cấu trúc, format, tính chất nhất định,…(hoặc chuyển đổi dữ liệu
này về cùng với dữ liệu kia để tổng hợp vào những tập dữ liệu thống nhất).

Nói cách khác, Data integration mục tiêu là lưu trữ dữ liệu từ nhiều nguồn khác
nhau trong một hệ cơ sở dữ liệu, một nguồn dữ liệu nhất định, dưới dạng các bảng tính,
tệp dữ liệu,..để hỗ trợ quản lý và phân tích trong tương lai. Mặc dù q trình tích hợp có
thể gặp khó khăn, nhưng lợi ích nó đem lại, khơng chỉ quyết định đến tính hiệu quả của
hệ thống Data management, mà cịn cung cấp những thơng tin hữu ích trong lúc tích hợp.

Ví dụ cơng ty có một tập dữ liệu về thông tin cá nhân khách hàng như số điện thoại,
nghề nghiệp, tuổi,.. và một tập dữ liệu về số lần giao dịch khách hàng, sản phẩm giao
dịch, mức giao dịch, lần cuối giao dịch,…Kết hợp 2 tập dữ liệu cơng ty có thể xác định
được những phân khúc khách hàng “thú vị”, “đâu là nhóm khách hàng tiềm năng nhất”,
“đâu là sản phẩm được quan tâm theo nhóm tuổi/ thu nhập/…?”
21


Để giúp các công ty giảm bớt các thách thức Data integration, nhiều tập đồn cơng
nghệ IBM, Microsoft hay các tổ chức đi đầu lĩnh vực phần mềm phân tích, giải pháp dữ
liệu như Oracle, SAS đã cho ra mắt nhiều công cụ hỗ trợ Data integration tốt hơn.
2.3. Data governance

Hình 2.3: Data governance

Data governance – quản trị dữ liệu – là chức năng cốt lõi của hệ thống Data
management. Nhiều người thường nhầm lẫn giữa Data governance và Data management,
nhưng thực chất không phải, như các bạn thấy trong bài viết này, ở đây Data governance
là một phần, một chức năng của Data management mà thôi.
Ở bài viết sắp tới INDA sẽ giới thiệu về Data governance nhiều hơn, vì Data
governance cũng đóng vai trị quan trọng trong việc hỗ trợ khai thác dữ liệu hiệu quả.

Data governance là một bộ các quy tắc, chính sách, quy trình, chiến lược, bao gồm các
quyết định về nhân lực và công nghệ áp dụng. Data governance là “kim chỉ nam”, định
hình cách thức mỗi công ty quản lý, bảo vệ dữ liệu của họ như thế nào, đảm bảo các mục
tiêu khai thác, quản lý dữ liệu luôn đi đôi với các mục tiêu kinh doanh.
Nói cách khác, Data governance là việc lập kế hoạch, thực thi, giám sát tất cả các
hoạt động quản lý dữ liệu, tức là tất cả các quy trình, chức năng có trong Data
22


management được kể ở trên và sắp tới đây được kiểm soát, định hướng và điều kiển bởi
Data governance. Đây chính là nguyên nhân khiến nhiều người nhầm lẫn giữa 2 khái
niệm.
Nếu Data management là tập hợp các chức năng, quy trình mà một cơng ty triển
khai để quản lý dữ liệu, thì Data governance lại có vai trị liên kết và quản lý tất cả các
chức năng, quy trình ấy.

2.4. Data quality

Hình 2.4: Data quality

Data quality liên quan đến các công việc xem xét và đảm bảo dữ liệu thu thập là
chính xác, phù hợp, có thể được dùng cho các mục đích phân tích sau này. Theo SAS,
cũng giống như quy chuẩn chất lượng ISO trong sản xuất, thì các cơng ty cần triển khai
kiểm sốt Data quality tại bất cứ giai đoạn có trong Data management.
Điều quan tâm sau cùng khi chúng ta triển khai bất kỳ dự án về dữ liệu nào đó chính
là giá trị của dữ liệu, thơng tin hữu ích chúng ta có sau khi phân tích dữ liệu. Tất cả đều bị
ảnh hưởng bởi chất lượng dữ liệu hay gọi là Data quality.

23



Giả sử nếu không tiến hành kiểm tra chất lượng dữ liệu trong Data access, trong
bước đầu tiên là thu thập dữ liệu, thì các q trình, chức năng cịn lại trong Data
management sẽ gặp thất bại, dẫn đến kết quả phân tích cuối cùng khơng cịn giá trị. Tuy
nhiên không chỉ phải tiến hành thực hiện Data quality tại Data access mà còn song song ở
tất cả các chức năng khác, xuyên suốt toàn bộ hệ thống Data management từ điểm bắt đầu
thu thập dữ liệu, tích hợp dữ liệu đến điểm kết thúc là trước khi bàn luận về kết quả phân
tích (trước khi xuất các báo cáo trực quan hóa, các đồ thị, bảng biểu cần kiểm tra lại dữ
liệu và kết quả).

2.5. Data federation

Hình 2.5: Data federation

Data federation nếu dịch chính xác theo tiếng Việt có nghĩa là “liên đồn dữ liệu”,
nghe có vẻ khơng “hợp tai” nhưng có nghĩa bao qt là cơng cụ liên kết dữ liệu. Data
federation là loại hình đặc biệt khác của Data integration. Data integration hỗ trợ chuyển
đổi, tích hợp tất cả các dữ liệu khác nhau vào một nơi lưu trữ thống nhất có u cầu về
cùng tính chất, đặc điểm, điều kiện nào đó,… tức là có việc di chuyển và lưu trữ dữ liệu
để dùng cho việc phân tích sau này.
Trong q khứ, các cơng ty lưu trữ trong các kho dữ liệu gọi là Data warehouse, cịn
hiện nay có xu hướng lưu trữ trong Data lake (hồ dữ liệu). Sự khác biệt giữa Data lake và
Data warehouse: Data warehouse biến đổi, lưu trữ dữ liệu từ các nguồn khác nhau, và
những dữ liệu này có cấu trúc rõ ràng, Data lake lưu trữ dữ liệu chưa qua phân tích hay
24


cịn gọi là dữ liệu thơ. Data federation là một dạng tích hợp ảo tức là các chun gia có
thể thơng qua đó có thể nhìn vào và thấy được các dữ liệu kết hợp khi nào cần mà không
cần phải di chuyển và lưu trữ chúng vào một nơi.

Các phần mềm Data federation tạo ra các virtual database (cơ sở dữ liệu ảo) cho
phép chúng ta tham chiếu dữ liệu, xử lý trực tiếp dữ liệu, thực hiện các phân tích kinh
doanh thơng minh (Business Intelligence) hay các phân tích thơng thường mà khơng cần
phải sao chép, ln chuyển, lưu trữ qua đó tăng mức độ bảo mật, an tồn thơng tin, đặc
biệt có chức năng như cung cấp quyền truy cập, mã hóa dữ liệu,.

2.6. Data preparation

Hình 2.6: Data preparation

Chuẩn bị dữ liệu cho các mục đích phân tích, mục đích sử dụng khác nau này cũng
là chức năng quan trọng trong Data management. Data preparation nhiệm vụ tổng hợp,
tích hợp dữ liệu từ nhiều nguồn khác nhau (có thể cho rằng bao gồm cả Data integration),
chọn lọc, chuyển đổi, dữ liệu trước khi được phân tích và sử dụng trong các quy trình
kinh doanh. Data preparation cịn được gọi là quá trình chuẩn bị và đưa dữ liệu vào sử
dụng sau khi đã thu thập, lưu trữ, quản lý.
Khơng có một cơng việc, kế hoạch nào diễn ra thành cơng nếu khơng có sự chuẩn bị
từ trước, phân tích dữ liệu cũng vậy, trước khi phân tích mỗi công ty phải tiến hành các
bước chuẩn bị dữ liệu một cách hoàn chỉnh. Dữ liệu thu thập thường rất lớn, trong đó lại
chứa nhiều dữ liệu khơng liên quan, dữ liệu bị hỏng, dữ liệu không đầy đủ, dữ liệu không
chứa thông tin, giá trị (missing value hay null value),.. cần được xử lý trước. Theo các
chuyên gia IBM, thời gian thực hiện quá trình chuẩn bị dữ liệu là nhiều nhất, chiếm gần
90% tổng thời gian dành cho mỗi dự án phân tích dữ liệu.
25


×