Tải bản đầy đủ (.pdf) (479 trang)

Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu ( combo full slide 6 chương )

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.75 MB, 479 trang )

LƯU TRỮ PHÂN TÍCH DỮ
LIỆU

1


GIỚI THIỆU MƠN HỌC-PHÂN BỔ CHƯƠNG TRÌNH

Tên học phần:

Lưu trữ và phân tích dữ liệu
 Tổng lượng kiến thức/ Số tín chỉ: 45 tiết/ 03 tín chỉ
 Phân bổ chương trình:
 Lý thuyết:
32 tiết
 Tiểu luận/ Bài tập:
08 tiết
 Thực hành:
04 tiết
 Tự học:
01 tiết
 Đánh giá
 Chuyên cần (thực hành + lên lớp): 10%
 Bài tập/ tiểu luận:
20%
 Kiểm tra giữa kỳ:
20%
 Thi kết thúc học phần (Thi tự luận): 60%
2



GIỚI THIỆU MƠN HỌC-PHÂN BỔ CHƯƠNG TRÌNH

Những vấn đề cần lưu ý:
 Chuyên cần: lên lớp và tham gia thực hành đầy đủ, nghỉ quá
20% (9 tiết = 4,5 kíp) không được thi cuối kỳ
 Tiểu luận/ Bài tập lớn:
 Nhóm tối đa 5 sinh viên
 Đăng ký bài tập lớn trong 04 tuần đầu tiên
 Thời gian làm bài tập lớn trong 06 tuần tiếp theo

 Hình thức báo cáo: nộp quyển bài tập lớn và thuyết trình
 Khuyến khích sinh viên báo cáo bài tập lớn sớm, trong thời
gian 10 tuần đầu tiên.
 Thi giữa kỳ, cuối kỳ:
 Hình thức thi: viết
3


NỘI DUNG HỌC PHẦN
Chương 1: Tổng quan về lưu trữ và phân tích dữ liệu
Chương 2: Cấu trúc dữ liệu hướng đối tượng
Chương 3: Khai phá và xử lý dữ liệu thô
Chương 4: Kiến trúc cơ sở dữ liệu lớn
Chương 5: Phân tích dữ liệu truyền thống
Chương 6: Phân tích dữ liệu thông minh

4


Chương 1: Tổng quan về lưu trữ và phân tích dữ liệu


1.1 Tiến hóa của hệ thống lưu trữ dữ liệu
Các
hệ
thống
lưu
trữ
dữ
liệu
hiện
nay
1.2
.2
Khái
niệm
về
phân
tích
dữ
liệu
1.3

5


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

6



1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

Các mạng xã hội phổ biến nhất trên toàn thế giới tính đến
tháng 1 năm 2022, được xếp hạng theo số lượng người dùng
hoạt động hàng tháng (đơn vị tính bằng triệu người)
7


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

Số lượng người dùng Internet tháng 7/2022
8


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
• Dữ liệu là thông tin, đặc biệt là các dữ kiện hoặc con số,
được thu thập để kiểm tra và xem xét và sử dụng để giúp ra
quyết định hoặc thơng tin ở dạng điện tử có thể được lưu trữ
và sử dụng bởi máy tính.
• Dữ liệu lớn là một tập hợp dữ liệu có khối lượng khổng lồ,
nhưng đang phát triển theo cấp số nhân theo thời gian. Đây
là một dữ liệu có kích thước lớn và độ phức tạp đến nỗi
không một công cụ quản lý dữ liệu truyền thồng nào có thể
lưu trữ hoặc xử lý nó một cách hiệu quả.
9


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
• Các loại dữ liệu


10


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

 Đặc tính của dữ liệu lớn

11


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
 Cấu trúc dữ liệu có thể được phân thành như sau:


Dữ liệu có cấu trúc: Dữ liệu có định dạng và cấu trúc xác
định, chẳng hạn như tệp CSV, bảng tính, cơ sở dữ liệu quan hệ
truyền thống và khối dữ liệu OLAP.



Dữ liệu bán cấu trúc: Các tệp dữ liệu dạng văn bản có cấu
trúc linh hoạt có thể được phân tích cú pháp. Ví dụ phổ biến về
loại dữ liệu này là tệp dữ liệu Ngôn ngữ đánh dấu mở rộng
(XML) với thông tin tự mô tả của nó.



Dữ liệu phi cấu trúc: Dữ liệu khơng có cấu trúc vốn có như tài
liệu văn bản, hình ảnh, tệp PDF và video.
12



1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

• Sự phát triển của dữ liệu phi cấu trúc. Dữ liệu phi cấu
trúc chiếm 95% tổng số thông tin số.
13


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

14


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

15


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu
 Dữ liệu bán cấu trúc


Hầu hết dữ liệu đều có cấu trúc
− Văn bản: câu, đoạn, mục,...
− Sách: chương
− Các trang web: HTML




Ý tưởng về dữ liệu bán cấu trúc: Thực thi dữ liệu “được định
dạng tốt” => Luôn biết cách đọc/phân tích/thao tác nó. Tùy
chọn, cũng thực thi dữ liệu “có cấu trúc tốt” => Tn theo lược
đồ ít nghiêm ngặt hơn



Ưu điểm: tính di động cao



Nhược điểm: dài dòng/dư thừa
16


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

 Dữ liệu bán cấu trúc: JSON

17


1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

 Dữ liệu bán cấu trúc: XML

18


Chương 1: Tổng quan về lưu trữ và phân tích dữ liệu

1.1. Tiến hóa của hệ thống lưu trữ dữ liệu

2011s
(Data Lake)

19


1.2. Các hệ thống lưu trữ dữ liệu hiện nay

Data warehouse

20


1.2. Các hệ thống lưu trữ dữ liệu hiện nay
 Data warehouse
 Data Warehouse là một hệ thống tập hợp và lưu trữ thông tin từ
nhiều nguồn khác nhau trong một tổ chức.
 Nó được thiết kế để phân tích, báo cáo, tích hợp dữ liệu giao dịch
từ các nguồn khác nhau.
 Data Warehouse lưu trữ dữ liệu lịch sử về doanh nghiệp để có thể
phân tích và trích xuất thơng tin chi tiết từ đó. Nó khơng lưu trữ
thơng tin hiện tại, cũng như không được cập nhật theo thời gian
thực.

21


1.2. Các hệ thống lưu trữ dữ liệu hiện nay


Data lake

22


1.2. Các hệ thống lưu trữ dữ liệu hiện nay
 Data Lake (hay Hồ dữ liệu) là một kho lưu trữ tập trung được thiết kế để lưu trữ,
xử lý và bảo mật một lượng lớn dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc. Nó
có thể lưu trữ dữ liệu ở định dạng gốc và xử lý mọi loại dữ liệu khác nhau, bỏ qua
các giới hạn về kích thước. Nó cung cấp số lượng dữ liệu cao để tăng hiệu suất
phân tích và tích hợp gốc.

23


1.2. Các hệ thống lưu trữ dữ liệu hiện nay

NoSQL

24


1.2. Các hệ thống lưu trữ dữ liệu hiện nay
 Cơ sở dữ liệu No SQL
Cơ sở dữ liệu thế hệ tiếp theo chủ yếu giải quyết một số điểm:
• Non-relational,
• Phân tán,
• Nguồn mở
• Có thể mở rộng theo chiều ngang.

Mục đích ban đầu là cơ sở dữ liệu quy mô web hiện đại. Phong trào
bắt đầu từ đầu năm 2009 và đang phát triển nhanh chóng. Thơng
thường, nhiều đặc điểm hơn được áp dụng như:
• Lược đồ miễn phí,
• Hỗ trợ sao chép dễ dàng,
• API đơn giản,
25
• Cuối cùng là nhất quán, lượng dữ liệu khổng lồ,..


×