LƯU TRỮ PHÂN TÍCH DỮ
LIỆU
1
GIỚI THIỆU MƠN HỌC-PHÂN BỔ CHƯƠNG TRÌNH
Tên học phần:
Lưu trữ và phân tích dữ liệu
Tổng lượng kiến thức/ Số tín chỉ: 45 tiết/ 03 tín chỉ
Phân bổ chương trình:
Lý thuyết:
32 tiết
Tiểu luận/ Bài tập:
08 tiết
Thực hành:
04 tiết
Tự học:
01 tiết
Đánh giá
Chuyên cần (thực hành + lên lớp): 10%
Bài tập/ tiểu luận:
20%
Kiểm tra giữa kỳ:
20%
Thi kết thúc học phần (Thi tự luận): 60%
2
GIỚI THIỆU MƠN HỌC-PHÂN BỔ CHƯƠNG TRÌNH
Những vấn đề cần lưu ý:
Chuyên cần: lên lớp và tham gia thực hành đầy đủ, nghỉ quá
20% (9 tiết = 4,5 kíp) không được thi cuối kỳ
Tiểu luận/ Bài tập lớn:
Nhóm tối đa 5 sinh viên
Đăng ký bài tập lớn trong 04 tuần đầu tiên
Thời gian làm bài tập lớn trong 06 tuần tiếp theo
Hình thức báo cáo: nộp quyển bài tập lớn và thuyết trình
Khuyến khích sinh viên báo cáo bài tập lớn sớm, trong thời
gian 10 tuần đầu tiên.
Thi giữa kỳ, cuối kỳ:
Hình thức thi: viết
3
NỘI DUNG HỌC PHẦN
Chương 1: Tổng quan về lưu trữ và phân tích dữ liệu
Chương 2: Cấu trúc dữ liệu hướng đối tượng
Chương 3: Khai phá và xử lý dữ liệu thô
Chương 4: Kiến trúc cơ sở dữ liệu lớn
Chương 5: Phân tích dữ liệu truyền thống
Chương 6: Phân tích dữ liệu thông minh
4
Chương 1: Tổng quan về lưu trữ và phân tích dữ liệu
1.1 Tiến hóa của hệ thống lưu trữ dữ liệu
Các
hệ
thống
lưu
trữ
dữ
liệu
hiện
nay
1.2
.2
Khái
niệm
về
phân
tích
dữ
liệu
1.3
5
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
6
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
Các mạng xã hội phổ biến nhất trên toàn thế giới tính đến
tháng 1 năm 2022, được xếp hạng theo số lượng người dùng
hoạt động hàng tháng (đơn vị tính bằng triệu người)
7
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
Số lượng người dùng Internet tháng 7/2022
8
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
• Dữ liệu là thông tin, đặc biệt là các dữ kiện hoặc con số,
được thu thập để kiểm tra và xem xét và sử dụng để giúp ra
quyết định hoặc thơng tin ở dạng điện tử có thể được lưu trữ
và sử dụng bởi máy tính.
• Dữ liệu lớn là một tập hợp dữ liệu có khối lượng khổng lồ,
nhưng đang phát triển theo cấp số nhân theo thời gian. Đây
là một dữ liệu có kích thước lớn và độ phức tạp đến nỗi
không một công cụ quản lý dữ liệu truyền thồng nào có thể
lưu trữ hoặc xử lý nó một cách hiệu quả.
9
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
• Các loại dữ liệu
10
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
Đặc tính của dữ liệu lớn
11
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
Cấu trúc dữ liệu có thể được phân thành như sau:
•
Dữ liệu có cấu trúc: Dữ liệu có định dạng và cấu trúc xác
định, chẳng hạn như tệp CSV, bảng tính, cơ sở dữ liệu quan hệ
truyền thống và khối dữ liệu OLAP.
•
Dữ liệu bán cấu trúc: Các tệp dữ liệu dạng văn bản có cấu
trúc linh hoạt có thể được phân tích cú pháp. Ví dụ phổ biến về
loại dữ liệu này là tệp dữ liệu Ngôn ngữ đánh dấu mở rộng
(XML) với thông tin tự mô tả của nó.
•
Dữ liệu phi cấu trúc: Dữ liệu khơng có cấu trúc vốn có như tài
liệu văn bản, hình ảnh, tệp PDF và video.
12
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
• Sự phát triển của dữ liệu phi cấu trúc. Dữ liệu phi cấu
trúc chiếm 95% tổng số thông tin số.
13
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
14
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
15
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
Dữ liệu bán cấu trúc
•
Hầu hết dữ liệu đều có cấu trúc
− Văn bản: câu, đoạn, mục,...
− Sách: chương
− Các trang web: HTML
•
Ý tưởng về dữ liệu bán cấu trúc: Thực thi dữ liệu “được định
dạng tốt” => Luôn biết cách đọc/phân tích/thao tác nó. Tùy
chọn, cũng thực thi dữ liệu “có cấu trúc tốt” => Tn theo lược
đồ ít nghiêm ngặt hơn
•
Ưu điểm: tính di động cao
•
Nhược điểm: dài dòng/dư thừa
16
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
Dữ liệu bán cấu trúc: JSON
17
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
Dữ liệu bán cấu trúc: XML
18
Chương 1: Tổng quan về lưu trữ và phân tích dữ liệu
1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
2011s
(Data Lake)
19
1.2. Các hệ thống lưu trữ dữ liệu hiện nay
Data warehouse
20
1.2. Các hệ thống lưu trữ dữ liệu hiện nay
Data warehouse
Data Warehouse là một hệ thống tập hợp và lưu trữ thông tin từ
nhiều nguồn khác nhau trong một tổ chức.
Nó được thiết kế để phân tích, báo cáo, tích hợp dữ liệu giao dịch
từ các nguồn khác nhau.
Data Warehouse lưu trữ dữ liệu lịch sử về doanh nghiệp để có thể
phân tích và trích xuất thơng tin chi tiết từ đó. Nó khơng lưu trữ
thơng tin hiện tại, cũng như không được cập nhật theo thời gian
thực.
21
1.2. Các hệ thống lưu trữ dữ liệu hiện nay
Data lake
22
1.2. Các hệ thống lưu trữ dữ liệu hiện nay
Data Lake (hay Hồ dữ liệu) là một kho lưu trữ tập trung được thiết kế để lưu trữ,
xử lý và bảo mật một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc. Nó
có thể lưu trữ dữ liệu ở định dạng gốc và xử lý mọi loại dữ liệu khác nhau, bỏ qua
các giới hạn về kích thước. Nó cung cấp số lượng dữ liệu cao để tăng hiệu suất
phân tích và tích hợp gốc.
23
1.2. Các hệ thống lưu trữ dữ liệu hiện nay
NoSQL
24
1.2. Các hệ thống lưu trữ dữ liệu hiện nay
Cơ sở dữ liệu No SQL
Cơ sở dữ liệu thế hệ tiếp theo chủ yếu giải quyết một số điểm:
• Non-relational,
• Phân tán,
• Nguồn mở
• Có thể mở rộng theo chiều ngang.
Mục đích ban đầu là cơ sở dữ liệu quy mô web hiện đại. Phong trào
bắt đầu từ đầu năm 2009 và đang phát triển nhanh chóng. Thơng
thường, nhiều đặc điểm hơn được áp dụng như:
• Lược đồ miễn phí,
• Hỗ trợ sao chép dễ dàng,
• API đơn giản,
25
• Cuối cùng là nhất quán, lượng dữ liệu khổng lồ,..