Tải bản đầy đủ (.docx) (11 trang)

Bài 1 Tổng quan về dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (390.28 KB, 11 trang )

Lưu trữ dữ liệu (data)
Máy tính :
Đơn vi lưu trữ : Memory (RAM,ROM): Run in time và HDD ( hoặc SSD)
RAM/ROM
+ ROM được ni bằng pin, chứa rất ít , thơng tin liên quan đến cấu hình
+ Khi chạy dữ liệu push vào RAM  CPU
HDD: lưu dữ liệu lớn (500gb - 1tb)
+ Đơn vị lưu trữ trên HDD: tập tin (file)
- Tập tin
+ Tập tin văn bản: dưới dạng kí tự
+ Tập tin nhị phân: 010101
 Tập tin: cách để lưu trữ dữ liệu trên máy tính
- Ứng dụng : Zalo, PPT, Games, MP3 Players
Cấu thành ứng dụng gồm : Thuật giải + Cấu Trúc Dữ liệu
+ Thuật Giải: Cách giải quyết vấn đê
+ Cấu trúc dữ liệu: Cách lưu trữ dữ liệu
 Cách tổ chức dữ liệu , phát triển dữ liệu
- Môn học : Tập trung Dữ liệu có cấu trúc và đơn giản ( đơn giản nhưng nhiều) và lưu trữ
Sinh Viên
trong cơ sở dữ liệu
Giáo Viên
Dữ liệu có cấu trúc đơn giản và nhiều là gì :
+ Đơn giản rõ ràng cụ thể
+ Nhiều về số lượng
Giáo vụ
Big Data ( Dữ liệu lớn ) :
+ Bán cấu trúc : có một số có cấu trúc , một số khơng có cấu trúc
Ví dụ: Thơng tin dân số
Trong dân số có người làm bác sĩ, cơng nhân , ….. mỗi loại người có cấu trúc khác
nhau, linh động biến động không cố định
+ Lượng dữ liệu cực nhiều: biến động tăng trưởng liên tục


Ví dụ: dữ liệu ô nhiễm , dữ liệuHDD3
thời tiết HDD2
-

F1
F3

HDD1

Applicati

Lưu trữ CSDL và lưu trữ FILE khác nhau như thế nào ?
-

Tính ứng dụng:


-

Với lưu trữ bằng tập tin
App 1 sử dụng File 1 và File 2
App 2 sử dụng File 2 và File 3
App 3 sử dụng File 1 và File 3
File 1,2,3 được lưu trữ xuống ổ cứng HDD

-

Khi một bên muốn sử dụng file của bên kia , phải copy ra
 Bất cập và bất đồng bộ : nếu thay đổi dữ liệu  Tiến hành cập nhật (tạo , sửa , xóa ) ở
các chỗ liên quan

 Có thể sai sót và thiếu sót và trùng lắp
Có cách nào để lưu trữ tập trung các dữ liệu không ?  Ra đời cơ sở dữ liệu

-

Với lưu trữ bằng CSDL
Server DB
APP1

APP3

DATABASE

APP2

-

Tất cả các ứng dụng truy cập đến DATABASE  Dữ liệu tập trung
Không nhất thiết phải cùng chạy trên 1 máy tính


-

Nhiệm vụ DATABASE SERVER : Phục vụ cho các ứng dụng của máy tính khác
Lợi : tiết kiệm , chống trùng lắp  khơng có bất đồng bộ

Bất cập của dữ liệu tập trung lại so với lưu trữ trên tập tin rời rạc ?
-

Liên quan đến an toàn dữ liệu

Liên quan đến tranh chập dữ liệu

Cách giải quyết bất cập ?
-

Thay vì truy cập trực tiếp Database  Thì truy cập qua DBMS ( Database Management
System – DBMS )
Database Management System – DBMS – Hệ quản trị CSDL là 1 ứng dụng đặc biệt : lấy
và ghi dữ liệu từ DATABASE
Thường đề cập Hệ quản trị CSDL là đề cập đến DATABASE + DBMS
Các Apps thông qua DBMS để truy xuất, ghi , lấy dữ liệu
APP1
Giáo Viên

APP3
Giáo Vụ

DATABASE
DBMS

APP2
Sinh Viên


-

Ví dụ về tranh chấp dữ liệu:
+Điểm sinh viên là 2
+Giáo vụ cập nhật điểm 5 cho sinh viên
+Giáo viên cập nhật điểm 7 cho sinh viên


 Trong DBMS đã có sẵn thuật tốn an tồn d ữ liệu và chống tranh chấp dữ liệu, khôi

phục dữ liệu và đồng bộ dữ liệu nhiều nơi ( dữ liệu phân tán).

Dữ liệu phân tán là gì ? Tại sao cần ?
-

Các dữ liệu giống nhau được đặt trong những server ở những vị trí địa lý khác nhau
Các dữ liệu ở những server phải được đồng bộ với nhau

Môn học :
-

Tổ chức dữ liệu có cấu trúc ( tạo dữ liệu )
Truy vấn dữ liệu ( chỉnh sửa, lấy dữ liệu )

Các công ty cung cấp DBMS
-

-

Microsoft
+ MS Access  file .asdb  CSDL Quan Hệ
+ MS SQL Server  mdf, ldf  CSDL Quan Hệ
Fox Pro
+ FoxBase  dãy tập tin
Oracle
+ Oracle DB  dãy tập tin  CSDL Quan Hệ
+ MySQL  dãy tập tin  CSDL Quan Hệ

PostgreSQL  dãy tập tin
IBM
+ DB2


CSDL Quan hệ và CSDL Big Data ?
CSDL Quan hệ có kiến trúc ,mục tiêu khác với CSDL BigData
CSDL Quan hệ:
-

Oracle
MS SQL
MySQL

CSDL BigData:


-

MongoDB
Hadoop

CSDL Lai :
-

PostgreSQL

Cơ chế backup dữ liệu khi chạy đồng thời:
-


Thao tác đọc ghi dữ liệu
Đọc thì nhiều ghi thì ít
Làm sao giảm tải  Dùng kĩ thuật của hệ quản trị ( công cụ tăng hiệu năng ứng dụng)
+ Tạo pools: cho connections
+ Xử lý queue: hàng đợi cho request
+ n DB giống nhau song song cùng 1 địa chỉ:
+ x cái dùng đọc
+ y cái dùng để ghi
+ sau mỗi thao tác phải được đồng bộ

Azure hay AmazonWS hay GG Cloud: dịch vụ trên cloud
-

Các dịch vụ hệ quản trị trên cloud
Cung cấp phần cứng

Cơ sở dữ liệu là gì ?
-

Là 1 Tập các dữ liệu
Các dữ liệu phải tổ chức , sắp xếp có cấu trúc ( theo nhóm ), chọn lọc
Đồng thời phục vụ cho 1 ứng dụng cụ thể vd : cho ứng dụng bệnh viện thì cần tuổi ,tiền
sử;

Information Data: Tháp dữ liệu thơng tin và tri thức?

Tri Thức
Thông Tin

Dữ liệu

Raw Data
Dữ liệu thô
Chưa được chọn lọc xử lí


-

Dữ liệu: được nhập vào CSDL
Thông tin : Dữ liệu được suy ra từ dữ liệu khác ( ví dụ xếp loại , điểm trung bình )
Tri thức : Trường A có điểm trung bình mơn X rất cao  Đưa ra quyết định

Mơ hình dữ liệu và Mơ hình CSDL Quan Hệ
-

Gồm nhiều mơ hình nhưng chỉ quan tâm CSDL Quan Hệ

Nghề Nghiệp về CSDL
-

-

DBA: Database administrator – Quản trị CSDL  Môn học
Hệ Quản Trị CSDL
DBD: Database designer – Thiết kết DL  Môn Học
Cách thiết kế dữ liệu
+ Khái niệm thiết kế
+ Chiến lược thiết kế ( đạt cấu trúc tối ưu hiệu quả )
DBE: Database End-User: Người lập trình sử dụng DL  Mơn học
Học cách viết lệnh SQL








×