Tải bản đầy đủ (.docx) (28 trang)

Bài tập lớn tìm hiểu về Big Data.docx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (637.96 KB, 28 trang )

ĐẠI HỌC CÔNG NGHỆ GIAO THÔNG VẬN TẢI
KHOA CÔNG NGHỆ THƠNG TIN
----------------------------------------

BÁO CÁO NHĨM MƠN HỌC THƯƠNG MẠI ĐIỆN TỬ

TÌM HIỂU BIG DATA
Cán bộ hướng dẫn:
Nhóm:
Lớp:

Hà Nội, tháng 8 năm 2023
1


MỤC LỤC
BẢNG PHÂN CÔNG CÔNG VIỆC......................................................................2
Chương 1: GIỚI THIỆU ĐỀ TÀI..........................................................................3
Chương 2: NỘI DUNG ĐỀ TÀI.............................................................................4
I. Tổng quan về Big Data..................................................................................4
II.

Cơ sở lý thuyết của Big Data......................................................................6

III. Kỹ thuật của Big Data................................................................................8
IV.

Vai trị của Big Data trong doanh nghiệp.................................................9

V.


Khó khăn khi làm việc với Big Data..........................................................9

VI.

Quy trình hoạt động của Big Data...........................................................10

VII. Các ứng dụng phổ biến của Big Data......................................................12
VIII.

Các cơng nghệ dành cho Big Data........................................................14

Chương 3: PHÂN TÍCH VÀ TRỰC QUAN HỐ DỮ LIỆU DOANH
NGHIỆP ADVENTUREWORKS2014 VỚI NHĨM SẢN PHẨM BIKE BẰNG
PHƯƠNG PHÁP RFM.........................................................................................16
1. Cơ sở lý thuyết..............................................................................................16
2. Giới thiệu về bộ dữ liệu và thực hành........................................................17
KẾT LUẬN............................................................................................................26
TÀI LIỆU THAM KHẢO.....................................................................................27

2


Chương 1: GIỚI THIỆU ĐỀ TÀI
Big Data, một khái niệm đã trở nên rất quen thuộc trong thời đại số hóa,
mang trong mình sức mạnh biến đổi đáng kể cách chúng ta nắm bắt, xử lý và tận
dụng thông tin. Đã từ lâu, dữ liệu đã không chỉ đơn thuần là những con số và thông
tin thô mà đã trở thành một tài sản vô giá, là nguồn cung cấp thông tin quan trọng,
thúc đẩy sự phát triển và thay đổi tồn diện nhiều khía cạnh của cuộc sống và kinh
tế.
Chính sự gia tăng vượt bậc về khả năng lưu trữ, truyền tải và xử lý dữ liệu đã

đánh dấu sự ra đời của Big Data. Khái niệm này không chỉ dừng lại ở lượng dữ liệu
khổng lồ mà còn đề cập đến tốc độ nhanh chóng của việc tạo ra dữ liệu, cũng như
đa dạng về các nguồn dữ liệu từ cấu trúc đến phi cấu trúc.
Sự kết hợp của Big Data và các cơng nghệ như trí tuệ nhân tạo và học máy
đã mở ra cánh cửa cho việc khám phá thông tin tiềm ẩn, tạo ra dự đoán, và hiểu sâu
hơn về thế giới xung quanh chúng ta. Các lĩnh vực từ y tế, tài chính, quản lý đô thị,
sản xuất đến bán lẻ và nông nghiệp đều tận dụng Big Data để tạo ra giá trị, tối ưu
hóa hoạt động và định hình tương lai.
Tuy nhiên, với quy mô và phức tạp của Big Data cũng đặt ra những thách
thức về bảo mật, quyền riêng tư và khả năng xử lý. Hiểu biết về cách làm việc với
Big Data, từ việc thu thập, lưu trữ, xử lý đến phân tích, đang trở thành một phần
quan trọng của sự phát triển trong thế giới số hóa.
Trong bối cảnh mọi thứ đang dần trở nên kết nối và thông tin ngày càng
thâm nhập vào cuộc sống hàng ngày, Big Data khơng chỉ là một khái niệm mà cịn

3


là một cuộc cách mạng trong cách chúng ta hiểu và tận dụng thông tin để hướng tới
sự tiến bộ và phát triển bền vững.

Chương 2: NỘI DUNG ĐỀ TÀI
I. Tổng quan về Big Data.
1. Định nghĩa.
Big Data là một thuật ngữ được sử dụng để miêu tả việc xử lý và phân tích
lượng lớn dữ liệu có quy mơ khổng lồ, đa dạng và phức tạp, mà các công cụ và
phương pháp truyền thống không thể xử lý hiệu quả. Khái niệm này thường được
liên kết với ba yếu tố chính: 3V - Volume (lượng), Velocity (tốc độ), và Variety
(đa dạng).
2. Đặc điểm.

-Volume (Lượng): Big Data ám chỉ khả năng thu thập và lưu trữ lượng dữ
liệu rất lớn, vượt quá khả năng của hệ thống thông thường. Dữ liệu này có thể bao
gồm thơng tin từ các nguồn như máy chủ, thiết bị cảm biến, mạng xã hội, hoạt động
trực tuyến, v.v.
-Velocity (Tốc độ): Dữ liệu Big Data thường được tạo ra và thu thập với tốc
độ nhanh chóng, địi hỏi khả năng xử lý và phân tích dữ liệu trong thời gian thực.
Ví dụ, các ứng dụng Internet of Things (IoT) có thể tạo ra dữ liệu liên tục từ các
thiết bị cảm biến.
-Variety (Đa dạng): Dữ liệu trong môi trường Big Data không chỉ đến từ một
nguồn duy nhất, mà đa dạng về định dạng, cấu trúc và nguồn gốc. Điều này bao

4


gồm dữ liệu cấu trúc (như cơ sở dữ liệu SQL), dữ liệu bán cấu trúc (như tệp CSV),
và dữ liệu phi cấu trúc (như văn bản, hình ảnh, video).
=>Để xử lý và tận dụng dữ liệu Big Data, các công cụ và kỹ thuật đặc biệt
được phát triển. Các hệ thống xử lý dữ liệu lớn như Hadoop, Spark, và công nghệ
cơ sở dữ liệu NoSQL đã được phát triển để giúp lưu trữ, xử lý và phân tích dữ liệu
trong quy mô lớn. Các kỹ thuật Machine Learning và Data Mining cũng thường
được sử dụng để khai thác thông tin ẩn chứa trong dữ liệu Big Data, để đưa ra dự
đoán, phân loại, và hiểu rõ hơn về xu hướng và mơ hình.
Tổng cộng, khái niệm Big Data là một phản ánh của thực tế mà chúng ta
đang sống trong một thế giới mà dữ liệu ngày càng trở nên phong phú, đa dạng và
tăng về quy mô, và việc quản lý và sử dụng hiệu quả dữ liệu này đang là một thách
thức quan trọng trong nhiều lĩnh vực.
3. Các giai đoạn hình thành.
Dữ liệu lớn là thuật ngữ được sử dụng để chỉ xử lý và quản lý dữ liệu lớn,
phức tạp mà không thể xử lý bằng các công cụ truyền thông. Sự phát triển của Big
Data đã được chia thành các giai đoạn từ 1.0 đến 4.0 để mơ tả sự tiến hóa của nó

qua thời gian. Dưới đây là bản tóm tắt về các giai đoạn này:
-Big Data 1.0: Điểm khởi động
Giai đoạn đầu của Big Data bắt đầu khi các công ty và tổ chức bắt đầu nhận
ra giá trị của việc lưu trữ và xử lý dữ liệu lớn. Các công nghệ như cơ sở dữ liệu
phân tán (cơ sở dữ liệu phân tán) và khung Hadoop xuất hiện, cho phép lý dữ liệu
có quy định lớn hơn bằng cách tận dụng sức mạnh xử lý của nhiều máy tính kết nối
với nhau.
-Big Data 2.0: Phân tích và Insight
5


Giai đoạn thứ hai tập trung vào việc phân tích dữ liệu để trích xuất thơng tin
và hiểu rõ hơn về khách hàng, xu hướng thị trường và các mô hình hành vi. Các
cơng nghệ và phương pháp phân tích dữ liệu phức tạp hơn như Machine Learning
và Data Mining bắt đầu được áp dụng để tạo thông tin hữu ích từ dữ liệu lớn.
-Big Data 3.0: Thời đại kết nối và tương tác
Giai đoạn này tập trung vào việc kết hợp dữ liệu từ nhiều nguồn khác nhau
và tạo ra các mơ hình phức tạp để dự đốn và đưa ra quyết định. Internet of Things
(IoT) đóng một vai trò quan trọng trong việc cung cấp lượng dữ liệu lớn từ các thiết
bị và cảm biến khác nhau, và các ứng dụng như Thành phố thông minh và hệ thống
tự động hóa được phát triển dựa trên kết nối nối và tương tác giữa các nguồn dữ
liệu.

-Big Data 4.0: Trí tuệ nhân tạo và Tự động hóa cao cấp
Giai đoạn hiện tại, Big Data 4.0, tập trung vào việc sử dụng trí tuệ nhân tạo
(AI) để tự động hóa và tối ưu hóa các quyết định dựa trên dữ liệu thay vì. Các hệ
thống tự động hóa thơng minh, như hệ thống sản xuất tự động, giao thông thông
minh và quản lý tài nguyên, dựa trên dữ liệu lớn và trí tuệ nhân tạo để hoạt động
hiệu quả hơn và đáp ứng nhu cầu ngày càng cao sự phát triển của xã hội.


=>Sự phát triển của Dữ liệu lớn từ 1.0 đến 4.0 có thể hiện sự tiến hóa của
công việc lý và sử dụng dữ liệu lớn trong các lĩnh vực khác nhau, xử lý từ phân tích
cơ bản đến sự tương tác phức tạp và cuối cùng là sự kết hợp giữa trí tuệ nhân tạo và
tự động hóa cao cấp.

II. Cơ sở lý thuyết của Big Data.
6


Cơ sở lý thuyết của Big Data dựa trên một số khái niệm và nguyên tắc từ các lĩnh
vực như khoa học máy tính, xử lý dữ liệu, thống kê và hệ thống thơng tin. Dưới đây
là một số khía cạnh cơ sở lý thuyết quan trọng liên quan đến Big Data:
1. Thống kê và Xác xuất.
Cơ sở lý thuyết của thống kê và xác suất là cực kỳ quan trọng trong việc hiểu
và xử lý Big Data. Các phương pháp thống kê giúp phân tích dữ liệu, xác định mẫu,
đo lường sự không chắc chắn trong dữ liệu và tạo ra dự đốn dựa trên mơ hình. Các
ngun tắc xác suất giúp định lượng khả năng xảy ra của các sự kiện trong dữ liệu,
đặc biệt là khi dữ liệu rất lớn và phức tạp.
2. Xử lý dữ liệu lớn (Big Data Processing).
Đây là lĩnh vực tập trung vào việc xử lý dữ liệu có quy mơ lớn. Các cơng nghệ như
Hadoop và Apache Spark là những ví dụ điển hình của hệ thống xử lý dữ liệu lớn.
Các nguyên tắc xử lý song song, phân tán và cân bằng tải là cơ sở lý thuyết quan
trọng ở đây.
3. Cơ sở dữ liệu.
Trong Big Data, việc lưu trữ và truy cập dữ liệu có quy mơ lớn địi hỏi các
cơ sở dữ liệu có hiệu suất cao và khả năng mở rộng. Các cơ sở dữ liệu NoSQL như
MongoDB, Cassandra, và hệ thống cơ sở dữ liệu cụ thể cho dữ liệu lớn (Big Data
databases) đã được phát triển để đáp ứng các yêu cầu này.
4. Mạng xã hội và Phân tích ngữ nghĩa.
Trong thời đại số hóa, dữ liệu xã hội và dữ liệu từ các nguồn như mạng xã

hội, diễn đàn trực tuyến đang trở nên ngày càng quan trọng. Phân tích ngữ nghĩa,
khai phá dữ liệu xã hội và xử lý dữ liệu văn bản đòi hỏi kiến thức về xử lý ngôn
ngữ tự nhiên (NLP) và các kỹ thuật khai thác thơng tin.
5. Trí tuệ nhân tạo và học máy.
Big Data thường đi kèm với việc sử dụng trí tuệ nhân tạo và học máy để tìm
kiếm mẫu, tạo ra dự đốn và hiểu sâu hơn về dữ liệu. Cơ sở lý thuyết của học máy,
7


bao gồm các thuật toán phân loại, gom cụm, và học sâu (deep learning), cung cấp
khả năng hiểu dữ liệu và tạo ra giá trị từ nó.
6. Nhìn chung
Cơ sở lý thuyết của Big Data liên quan đến sự kết hợp của nhiều lĩnh vực
khác nhau, đặc biệt là khoa học máy tính, tốn học, thống kê, và xử lý dữ liệu.
III. Kỹ thuật của Big Data.
1.

Hadoop: Hadoop là một framework mã nguồn mở dựa trên

nguyên tắc xử lý phân tán. Nó bao gồm hai thành phần chính là Hadoop Distributed
File System (HDFS) để lưu trữ dữ liệu phân tán và MapReduce để xử lý dữ liệu
phân tán. Hadoop cho phép xử lý dữ liệu lớn trên các cụm máy tính thơng qua phân
tán và song song.
2. Apache Spark: Spark là một framework xử lý dữ liệu lớn khác,
nhanh hơn và linh hoạt hơn so với MapReduce. Nó hỗ trợ nhiều loại công việc xử
lý dữ liệu như xử lý batch, xử lý dựa trên luồng (streaming), xử lý đồ đạc và học
máy.
3. Cơ sở dữ liệu NoSQL: Các cơ sở dữ liệu NoSQL (Not Only
SQL) như MongoDB, Cassandra, và Redis được thiết kế để xử lý dữ liệu phi cấu
trúc và có khả năng mở rộng tốt. Chúng thích hợp cho việc lưu trữ và truy vấn dữ

liệu có quy mơ lớn và đa dạng.
4. Phân tích dữ liệu thời gian thực (Real-time Data Analytics):
Các hệ thống xử lý dữ liệu thời gian thực như Apache Kafka và Apache Flink cho
phép xử lý và phân tích dữ liệu ngay lập tức khi nó được tạo ra. Điều này hữu ích
trong việc theo dõi sự kiện trực tiếp, phát hiện sự cố và đưa ra quyết định nhanh
chóng.
5. Học máy và Khai thác dữ liệu (Data Mining): Các thuật toán
học máy và khai thác dữ liệu giúp tìm kiếm mẫu và thông tin tiềm ẩn trong dữ liệu
8


lớn. Điều này có thể bao gồm việc dự đốn xu hướng, phân loại dữ liệu, gom cụm
dữ liệu và hơn thế nữa.
6. Trích xuất thơng tin từ dữ liệu văn bản (Text Mining): Trích
xuất thơng tin từ dữ liệu văn bản, cịn gọi là phân tích ngữ nghĩa, là một kỹ thuật
quan trọng để hiểu và khai thác dữ liệu văn bản. Các kỹ thuật NLP (Natural
Language Processing) và xử lý ngôn ngữ tự nhiên được sử dụng để phân tích, phân
loại và trích xuất thơng tin từ văn bản.
7. Trực quan hoá dữ liệu (Data Visualization): Trực quan hóa dữ
liệu là kỹ thuật biến dữ liệu thành các biểu đồ, đồ thị và hình ảnh dễ hiểu. Cơng cụ
như Tableau, Power BI và D3.js giúp biểu diễn dữ liệu một cách trực quan để tạo ra
hiểu biết từ dữ liệu lớn.
=>Nhìn chung, các kỹ thuật Big Data bao gồm một loạt công cụ và phương
pháp giúp xử lý, lưu trữ và phân tích dữ liệu lớn một cách hiệu quả, đáp ứng nhu
cầu ngày càng tăng về việc làm cho dữ liệu trở nên hữu ích và thơng tin.
IV. Vai trò của Big Data trong doanh nghiệp.
- Hiểu và nhắm đúng khách hàng mục tiêu: dữ liệu của Big Data được thu
thập từ nhiều nguồn khác nhau, gồm cả lịch sử trình duyệt, mạng xã hội,... Đây là
những kênh người dùng sử dụng rất thường xuyên. Vì vậy, doanh nghiệp phân tích
Big Data sẽ hiểu được hành vi, sở thích, nhu cầu của khách hàng đồng thời phân

loại và lựa chọn đúng đối tượng khách hàng phù hợp với sản phẩm, dịch vụ của
doanh nghiệp.
- Định lượng và tối ưu hóa hiệu suất cá nhân: nhờ các thiết bị di động thông
minh như smartphone, smartwatch mà thông tin, dữ liệu cá nhân có thể được thu
thập dễ dàng. Những dữ liệu cá nhân từ mỗi người dùng sẽ giúp doanh nghiệp có
cái nhìn rõ nét về xu hướng hành vi mới nhất của khách hàng. Từ đó, các nhà quản
lý có thể định hướng cho chiến lược, kế hoạch mới trong tương lai gần.
9


- Phòng chống an ninh, giảm thiểu rủi ro: Big Data được các doanh nghiệp
sử dụng để thăm dò, phát hiện và ngăn chặn các nguy cơ, rủi ro về gian lận, xâm
nhập hệ thống, đánh cắp thông tin mật. Ví dụ như các ngân hàng và cơng ty thẻ tín
dụng dùng Big Data để ngăn chặn các giao dịch gian lận.
- Tối ưu hóa giá cả: việc định giá sản phẩm, dịch vụ luôn là điều rất quan
trọng và cũng rất khó khăn đối với các doanh nghiệp. Bởi vì doanh nghiệp cần
nghiên cứu rất kỹ về mong muốn khách hàng và mức giá hiện tại của đối thủ cạnh
tranh. Nhờ có Big Data mà cơng cuộc nghiên cứu, thu thập dữ liệu trên trở nên dễ
dàng, nhanh chóng, giúp doanh nghiệp định giá một cách chính xác, hiệu quả hơn.
- Nắm bắt các giao dịch tài chính: thương mại điện tử đã và đang phát triển
mạnh mẽ trên tồn thế giới, trong đó có cả Việt Nam. Do đó, các giao dịch tài
chính trên website hay các app thương mại điện tử ngày càng tăng lên và thể hiện
rõ hành vi mua của khách hàng. Các thuật toán Big Data được doanh nghiệp sử
dụng để gợi ý, đưa ra quyết định giao dịch cho khách hàng, tăng tỷ lệ chốt đơn cho
doanh nghiệp.
V. Khó khăn khi làm việc với Big Data.
1. Thác thức đến từ Bg Data.
Thách thức lớn nhất khi sử dụng Big Data đó là khối lượng quá lớn và tăng
nhanh. Khối lượng dữ liệu được cho là tăng gấp 2 lần sau mỗi 2 năm khiến việc lưu
trữ gặp khó khăn. Các doanh nghiệp, tổ chức vẫn luôn cố gắng để bắt kịp với sự

tăng nhanh của dữ liệu và tìm cách lưu trữ đủ Big Data cần thiết. Một thách thức
nữa là về thời gian xử lý Big Data. Các nhà khoa học dữ liệu cho biết họ thường
dành 50% - 80% thời gian để quản lý và chuẩn bị dữ liệu trước khi có thể thực sự
sử dụng nó. Ngồi ra, lượng dữ liệu lớn nên đôi khi chất lượng dữ liệu không được
đảm bảo, nhiều dữ liệu lỗi gây khó khăn trong việc xử lý và lọc dữ liệu.
2. Chỉ trích về cách sử dụng Big Data.
10


Tuy lợi ích mà Big Data đem lại cho doanh nghiệp là rất lớn nhưng chi phí
đầu tư cho nó cũng khơng hề nhỏ và khơng có nhiều người biết tận dụng nó. Một số
doanh nghiệp lớn đã đầu tư hàng tỷ đơ cho Big Data để có được thơng tin quan
trọng nhưng chỉ có dưới 40% nhân viên thật sự hiểu và tận dụng được lượng dữ
liệu này, dẫn đến việc lãng phí tài ngun. Ngồi ra, việc sử dụng Big Data cũng bị
chỉ trích vì có trường hợp xâm phạm đến quyền riêng tư của người dùng. Tại một
số quốc gia thì đây là một việc vi phạm pháp luật.
3. Chỉ trích về việc lấy thơng tin từ Big Data.
Một số nhà nghiên cứu như Danah Boyd đã bày tỏ niềm quan ngại khi các
nhà quản lý doanh nghiệp quá phụ thuộc vào dữ liệu từ Big Data để chọn mẫu
thống kê. Họ cho rằng việc này có thể gây ra sự chủ quan, trong một số trường hợp
có thể ảnh hưởng đến kết quả cuối cùng của chiến lược khi thực thi trong tương lai.

VI. Quy trình hoạt động của Big Data.
1. Xây dựng chiến lược Big Data.
Ở cấp độ cao, chiến lược Big Data là một kế hoạch được thiết kế để giúp bạn
giám sát và cải thiện cách thu thập, lưu trữ, quản lý, chia sẻ và sử dụng dữ liệu cho
doanh nghiệp. Khi phát triển chiến lược Big Data, điều quan trọng là phải xem xét
các mục tiêu và sáng kiến trong hiện tại, tương lai của doanh nghiệp. Điều này đòi
hỏi việc doanh nghiệp phải coi Big Data giống như là một tài sản kinh doanh có giá
trị thay vì chỉ là một công cụ thông thường.


2. Xác định các nguồn Big Data.
- Dữ liệu truyền trực tiếp: dữ liệu từ Internet of Things (IoT) và các thiết bị
được kết nối truyền vào hệ thống công nghệ thông tin từ thiết bị như điện thoại
11


thơng minh, ơ tơ thơng minh. Bạn có thể phân tích Big Data khi nó được truyền
đến, quyết định dữ liệu nào nên giữ hoặc không giữ và dữ liệu nào cần phân tích
thêm.
- Social Media (Facebook, YouTube, Instagram,...): Big Data ở dạng hình
ảnh, video, giọng nói, văn bản và âm thanh, rất hữu ích cho chức năng tiếp thị, bán
hàng và hỗ trợ. Dữ liệu này thường ở dạng phi cấu trúc hoặc bán cấu trúc, vì vậy nó
đặt ra một thách th ức riêng cho việc tiêu thụ và phân tích.
- Dữ liệu có sẵn được cơng bố: là các thông tin, dữ liệu được công bố rộng
rãi và cơng khai như các trang web chính thức của Chính phủ các nước.
- Khác: một số nguồn dữ liệu khác đến từ khách hàng, nhà cung cấp hoặc dữ
liệu đám mây.
3. Truy cập, quản lý và lưu trữ Big Data.
Các hệ thống máy tính hiện đại cung cấp tốc độ, sức mạnh và tính linh hoạt
cần thiết để nhanh chóng truy cập số lượng lớn và các loại dữ liệu lớn. Cùng với
khả năng truy cập đáng tin cậy, các cơng ty cũng cần có các phương pháp tích hợp
dữ liệu, xây dựng đường ống dẫn dữ liệu, đảm bảo chất lượng dữ liệu, cung cấp khả
năng quản lý và lưu trữ dữ liệu cũng như chuẩn bị dữ liệu để phân tích. Một số dữ
liệu lớn có thể được lưu trữ tại chỗ trong kho dữ liệu truyền thống nhưng cũng có
các tùy chọn linh hoạt, chi phí thấp để lưu trữ và xử lý dữ liệu lớn thông qua các
giải pháp đám mây, hồ dữ liệu, đường ống dữ liệu và Hadoop.
4. Tiến hành phân tích dữ liệu.
Với các cơng nghệ hiệu suất cao như điện tốn lưới hoặc phân tích trong bộ
nhớ, các tổ chức, doanh nghiệp có thể chọn sử dụng tất cả dữ liệu lớn của họ để

phân tích. Một cách tiếp cận khác là xác định trước dữ liệu nào có liên quan trước
khi phân tích. Dù bằng cách nào, phân tích dữ liệu lớn là cách các công ty thu được
giá trị và thông tin chi tiết từ dữ liệu. Ngày nay, nguồn cấp dữ liệu lớn cung cấp các
nỗ lực phân tích nâng cao như trí tuệ nhân tạo (AI) và máy học.
12


5. Dựa trên dữ liệu, đưa ra quyết định.
Dữ liệu đáng tin cậy, được quản lý tốt dẫn đến các phân tích đáng tin cậy và
các quyết định sáng suốt. Để duy trì tính cạnh tranh, các doanh nghiệp cần nắm bắt
toàn bộ giá trị của dữ liệu lớn và hoạt động theo hướng dữ liệu để đưa ra quyết định
dựa trên dữ liệu đã được chứng minh rõ ràng. Các tổ chức, doanh nghiệp dựa trên dữ
liệu sẽ hoạt động tốt hơn, dễ dự đoán hơn và sinh nhiều lợi nhuận hơn.
VII. Các ứng dụng phổ biến của Big Data.
1. Ngành tài chính-ngân hàng.
Trong ngành tài chính ngân hàng, Big Data được sử dụng để phân tích và xác
định các địa điểm tập trung nhiều nhu cầu của khách hàng tiềm năng để đề xuất lập
chi nhánh mới, dự đoán lượng tiền mặt cần thiết sẵn sàng cung ứng ở một chi
nhánh tại thời điểm cụ thể, nâng cao hệ thống ngân hàng kĩ thuật số, phát hiện các
hoạt động gian lận và báo cáo cho các chuyên viên liên quan giúp đảm bảo an ninh
cho ngân hàng
2. Y tế, chăm sóc sức khoẻ.
Trong ngành y tế, Big Data không chỉ được ứng dụng để xác định phương
hướng điều trị mà cịn giúp cải thiện q trình chăm sóc sức khỏe. Big Data giúp
dự đoán thời điểm cần sự có mặt của bác sĩ, giúp theo dõi tình trạng bệnh nhân
bằng để theo dõi hồ sơ sức khỏe điện tử, theo dõi bệnh nhân và gửi báo cáo cho các
bác sĩ liên quan. Ngồi ra, Big Data cịn có thể đánh giá các triệu chứng và xác
định nhiều bệnh ở giai đoạn đầu, lưu giữ các hồ sơ nhạy cảm được bảo mật và lưu
trữ lượng dữ liệu khổng lồ một cách hiệu quả. Đặc biệt, nó cũng có thể dự báo
trước các khu vực có nguy cơ bùng phát dịch bệnh nguy hiểm.

3. Thương mại điện tử.
Đối với ngành thương mại điện tử, doanh nghiệp nào sở hữu và ứng dụng tốt
Big Data sẽ tạo ra lợi thế cạnh tranh lớn trên thị trường. Big Data giúp nhà quản lý
13


xác định được sản phẩm nào được xem nhiều nhất để tối ưu thời gian hiển thị, tự
gửi mã ưu đãi cho những sản phẩm khách hàng bỏ vào giỏ hàng nhưng khơng mua.
Đặc biệt, Big Data có thể phân tích hành vi, sở thích, sự quan tâm của khách hàng,
giúp nhà quản lý hiểu hơn về khách hàng để cung cấp các sản phẩm theo đúng xu
hướng, nhu cầu thị trường.
4. Ngành bán lẻ.
Ngành bán lẻ ứng dụng Big Data trong việc xây dựng mơ hình chi tiêu của
khách hàng, trợ giúp dự đoán cung - cầu cho các sản phẩm. Kết hợp với các dữ liệu
về thời điểm giao dịch, dữ liệu truyền thông xã hội, dự báo thời tiết để xác định
chính xác nhất sản phẩm phù hợp để luôn sẵn sàng cung ứng cho khách hàng. Nhà
quản lý có thể dựa vào dữ liệu về thói quen mua hàng, sở thích của khách hàng để
xác định vị trí, cách bố trí sản phẩm trên kệ hàng và đưa ra các chiến lược kinh
doanh mới để cải thiện.
5. Digital Marketing.
Digital Marketing ngày càng trở thành một công cụ quan trọng cho các
doanh nghiệp hiện nay. Khi ứng dụng Big Data, doanh nghiệp sử dụng Digital
Marketing có thể xác định đối tượng mục tiêu trên các trang mạng xã hội dựa trên
thơng tin nhân khẩu học, giới tính, tuổi tác, sở thích. Bên cạnh đó, có thể cá nhân
hóa các hoạt động tìm kiếm trên Google, Email Marketing, hiển thị quảng cáo phù
hợp và tạo báo cáo chi tiết sau mỗi chiến dịch quảng cáo.
6. Ngành công nghiệp.
- Phát triển phần mềm sản phẩm: Các công ty sử dụng Big Data để xây dựng
các mơ hình dự đốn cho các sản phẩm và dịch vụ mới. Họ phân loại các thuộc tính
chính của sản phẩm/dịch vụ trong quá khứ và hiện tại, sau đó mơ hình hóa mối

quan hệ giữa các thuộc tính và phát triển thành phần mềm hoàn chỉnh.
14


- Tăng trải nghiệm khách hàng: Big Data cho phép bạn thu thập dữ liệu từ
các phương tiện truyền thông xã hội, lịch sử web, nhật ký cuộc gọi và các nguồn
khác. Nhờ đó, doanh nghiệp hiểu rõ khách hàng của mình hơn qua chính hành vi
thực tế của khách hàng.
- Máy học (Machine Learning): Máy học là một bước tiến của cơng nghệ
hiện đại và Big Data góp phần lớn trong sự phát triển của máy học. Hiện nay máy
móc có thể tự học từ dữ liệu lịch sử thay vì con người phải lập trình, các dữ liệu
lịch sử này được thu thập đầy đủ vào Big Data.
- Thúc đẩy sự cải tiến mới: Big data cung cấp dữ liệu về thông tin sản phẩm,
lịch sử phát triển của mọi lĩnh vực, ngành nghề. Qua đó, nhà quản lý có thể xác
định được những điểm cần cải tiến, phát triển để công nghệ mới đem lại sự sáng
tạo, mới mẻ, hữu ích cho các ngành cơng nghiệp.

7. Lĩnh vực giáo dục & đào tạo.
Ngành giáo dục sử dụng Big Data để ước tính số lượng học sinh, sinh viên
tuyển sinh hằng năm, quản lý hồ sơ học sinh, sinh viên, truy xuất nhanh thông tin
cần thiết khi gặp các vấn đề phát sinh. Ngoài ra, Big Data cũng giúp ước tính được
nhu cầu tuyển dụng cho các ngành nghề hàng năm để đề ra các phương án đào tạo
nhằm đáp ứng nguồn nhân lực cho xã hội.

8. Cơ sở hạ tầng IT hỗ trợ Big Data.
Đặc điểm của Big Data là lượng dữ liệu khổng lồ và tăng cao qua nhiều năm,
do đó cần có hệ thống lưu trữ và máy chủ được thiết kế đặc biệt cho Big Data.
Ngồi ra cịn có phần mềm thu thập, quản lý và tích hợp dữ liệu. Doanh nghiệp nếu
sử dụng Big Data lâu dài thì nên đầu tư cơ sở hạ tầng IT vững vàng, chất lượng để
đảm bảo nguồn dữ liệu không bị mất đi hoặc không cập nhật kịp. Phần lớn các cơ

15


sở hạ tầng này sẽ tập trung một chỗ, vì các công ty muốn tiếp tục tận dụng các
khoản đầu tư vào trung tâm dữ liệu của mình. Nhưng ngày càng có nhiều tổ chức
dựa vào các dịch vụ điện toán đám mây để xử lý nhiều yêu cầu big data của họ

VIII. Các công nghệ dành cho Big Data.
1. Hệ sinh thái Hadoop: Hadoop là một Apache framework mã
nguồn mở được viết bằng Java, cho phép xử lý phân tán các tập dữ liệu lớn trên các
cụm máy tính (clusters of computers) thơng qua mơ hình lập trình đơn giản.
Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn sang hàng ngàn máy
tính khác có tính tốn và lưu trữ cục bộ (local computation and storage).
2. Apache Spark: Đây là một cơng cụ tính tốn nhanh và có mục
đích chung để xử lý quy mơ lớn dữ liệu. Nó có thể xử lý dữ liệu nhanh hơn 100 lần
so với MapReduce.

3.

Apache Kafka: Apache Kafka là một hệ thống nhắn tin phân tán

lượng thông tin cao thường được sử dụng với Hadoop. Nó bổ sung cho hệ sinh thái
Big Data.

4. Data lakes: Data lakes là các kho lưu trữ chứa khối lượng dữ
liệu thô rất lớn ở định dạng gốc, được thiết kế để giúp người dùng dễ dàng truy cập
vào một lượng lớn dữ liệu khi có nhu cầu. Các yếu tố giúp tăng trưởng data lakes là
những phong trào kỹ thuật số và sự phát triển của IoT.

16



5. NoSQL Databases: Các cơ sở dữ liệu SQL thông thường được
thiết kế cho các transaction đáng tin cậy và các truy vấn ngẫu nhiên. Cơ sở dữ liệu
NoSQL nêu ra những hạn chế, và lưu trữ và quản lý dữ liệu theo những cách cho
phép tốc độ hoạt động cao và sự linh hoạt tuyệt vời. Không giống như các cơ sở dữ
liệu SQL, nhiều cơ sở dữ liệu NoSQL có thể được mở rộng theo chiều ngang trên
hàng trăm hoặc hàng ngàn máy chủ.

6.

In-memory databases: Cơ sở dữ liệu trong bộ nhớ

(IMDB) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính
(Ram), thay vì HDD. Cơ sở dữ liệu trong bộ nhớ nhanh hơn các cơ sở dữ liệu được
tối ưu hóa trong đĩa, một điểm quan trọng để sử dụng phân tích big data và tạo ra
các kho dữ liệu và các siêu dữ liệu.
7. Máy tính lượng tử:
Máy tính lượng tử có mối liên hệ với big data trong một số khía cạnh. Dưới
đây là một số điểm bạn có thể quan tâm:
Xử lý dữ liệu lớn nhanh hơn: Big data bao gồm việc xử lý và phân tích lượng
lớn dữ liệu. Máy tính lượng tử có sức mạnh tính tốn rất lớn, vượt trội hơn so với
máy tính truyền thống, cho phép xử lý các tác vụ liên quan đến big data một cách
nhanh chóng và hiệu quả hơn.
Giải quyết vấn đề phân tích dữ liệu phức tạp: Máy tính lượng tử có khả năng
giải quyết các vấn đề tính tốn phức tạp và khó khăn, bao gồm các thuật tốn tối ưu
hóa và phân tích dữ liệu phức tạp trong big data. Điều này có thể giúp tìm ra thơng
tin quan trọng và giá trị từ các kho dữ liệu lớn.
Khai thác dữ liệu một cách linh hoạt: Máy tính lượng tử có khả năng xử lý
dữ liệu khơng cấu trúc và phân tích các mẫu khơng rõ ràng, giúp khai thác thông tin

17


từ dữ liệu khơng có cấu trúc trong big data. Điều này có thể giúp đưa ra các hiểu
biết mới và phát triển các mơ hình dữ liệu tốt hơn.
Bảo mật dữ liệu: Big data thường chứa thông tin nhạy cảm và quan trọng.
Máy tính lượng tử cung cấp một cách tiếp cận phân tích và mã hóa dữ liệu mới.
Cơng nghệ lượng tử có thể giúp tăng cường bảo mật dữ liệu trong big data bằng
cách sử dụng các thuật tốn mã hóa và xử lý thơng tin lượng tử.
Tuy nhiên, cần lưu ý rằng máy tính lượng tử vẫn đang trong giai đoạn phát
triển và chưa được sử dụng rộng rãi trong thực tế. Việc ứng dụng máy tính lượng tử
cho big data cịn địi hỏi nhiều nghiên cứu và phát triển thêm trước khi được áp
dụng phổ biến.
Chương 3: PHÂN TÍCH VÀ TRỰC QUAN HỐ DỮ LIỆU DOANH
NGHIỆP ADVENTUREWORKS2014 VỚI NHÓM SẢN PHẨM BIKE BẰNG
PHƯƠNG PHÁP RFM.
1. Cơ sở lý thuyết
a. RFM là gì ?
RFM (Recency – Frequency – Monetary): là một phần của Marketing Analysis
và được sử dụng để phân tích giá trị khách hàng (Customer Value), từ đó giúp
doanh nghiệp có thể phân tích ra từng nhóm khách hàng mà mình đang có, từ đó có
những chiến dịch marketing hoặc chăm sóc đặc biệt.
b. Cấu trúc mơ hình RFM
RFM được tạo nên bởi ba yếu tố (điểm cho mỗi chỉ số từ 1 đến 5) nhưng thông
thường một doanh nghiệp sẽ sử dụng 2 trên 3 yếu tố này. Ví dụ RF, RM, FM.
 R (Recency)
Khoảng thời gian mà khách hàng mua hàng gần đây nhất. Chúng ta sẽ đặt
điểm cho nhóm khách có thời gian mua gần đây nhất là 5 điểm cho đến
18



nhóm rất lâu r chưa mua hàng là 1 điểm.*Lưu ý: Tùy mỗi loại business mà


thể

sắp

xếp

thang

điểm

cho

phù

hợp.

Ví dụ:
- Lần mua hàng gần nhất trong khoảng 3 ngày trước: 5đ
- Lần mua hàng gần nhất trong khoảng 1 tuần trước: 4đ
- Lần mua hàng gần nhất trong khoảng 2 tuần trước: 3đ
- Lần mua hàng gần nhất trong khoảng 1 tháng trước: 2đ
- Lần mua hàng gần nhất trong khoảng 3 tháng trước: 1đ
 F (Frequency)
Tần suất mua hàng của khách hàng. Chỉ số này thường được các doanh
nghiệp có dịch vụ, sản phẩm có giá trị lợi nhuận thấp (M) quan tâm, vì họ
chỉ có thể tồn tại nếu khách hàng sử dụng dịch vụ của họ một cách thường

xuyên, VD: đặt xe Grab, mua một chai nước uống. Tương tự ở trên, ta sẽ
chia tần suất mua hàng, sử dụng dịch vụ của khách hàng ra các nhóm, rồi đặt
điểm số cho từng nhóm. Ví dụ: (Như ở trên, mỗi business sẽ có cách chia và
tính điểm khác nhau)
* 2 lần/ tuần: 5đ
* 1 lần/ tuần: 4đ
* 1 lần/ 2 tuần: 3đ
* 1 lần/ 1 tháng: 2đ
* 1 lần/ 6 tháng: 1đ
 M (monetary)

19


Giá trị mỗi lần mua hàng là gì. Chỉ số này dùng để tính tốn được giá trị
về vật chất mà doanh nghiệp có được mỗi khi khách hàng sử dụng dịch vụ.
Các loại hình kinh doanh quan tâm nhiều đến chỉ số này là những công ty về
dịch vụ mà khách hàng không sử dụng thường xuyên, nhưng mỗi lần sử
dụng thì phải chi tiền một mức kha khá. VD: Dịch vụ du lịch, khách sạn, bất
động sản,..
2. Giới thiệu về bộ dữ liệu và thực hành
a. Giới thiệu về bộ dữ liệu
Đây là bộ dữ liệu của một doanh nghiệp ảo AventureWorks2014 chuyên bán các
sản phẩm về thể thao, bộ dữ liệu này thuộc loại Data Warehouse bao gồm những
bảng Fact và Dim cùng với đó là mơ hình đa chiều Star Schema.

20




×