Tải bản đầy đủ (.pdf) (12 trang)

BÁO cáo bài tập NHÓM học PHẦN TIN học văn PHÒNG đề tài EXTRACT – TRANSFORM – LOAD (ELT)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (338.76 KB, 12 trang )

TRƯỜNG ĐẠI HỌC KINH TẾ

BỘ TIN HỌC QUẢN LÝ
…..…..

BÁO CÁO BÀI TẬP NHĨM
HỌC PHẦN TIN HỌC VĂN PHỊNG
Đề tài

EXTRACT – TRANSFORM – LOAD (ELT)
Sinh viên

: Huỳnh Thị Diệu Trinh

Lớp tín chỉ

: 46K12.2

Giáo viên hướng dẫn : Phan Đình Vấn

Đà Nẵng, 2020


MỤC LỤC
Chương 1. Tổng quan về ETL..............................................................................................................4
1.1 Định nghĩa ETL là gì?.................................................................................................................4
1.1.1

Extract............................................................................................................................4

1.1.2



Transform.......................................................................................................................4

1.1.3

Load................................................................................................................................4

1.2 Cách thức hoạt động của ETL....................................................................................................5
1.2.1 Giai đoạn trích xuất - Extract..............................................................................................5
1.2.2 Giai đoạn chuyển đổi - Transform.......................................................................................6
1.2.3 Giai đoạn Tải - Load............................................................................................................7
1.3 Tại sao chúng ta cần các công cụ ETL.......................................................................................8
Chương 2. Một số thông tin hữu ích khác về ETL..............................................................................9
2.1 Lịch sử phát triển của ETL........................................................................................................9
2.2 So sánh sự khác biệt giữa ETL và ELT....................................................................................10

I


DANH MỤC CÁC BẢNG BIỂU
Bảng 1. Các quy trình trong q trình chuyển đổi dữ liệu..............................................6

DANH MỤC CÁC HÌNH ẢNH
Hình 1. Cách thức hoạt động của ETL...........................................................................5
Hình 2. Cách thức hoạt động của ETL.........................................................................10

II


Chương 1. Tổng quan về ETL

1.1 Định nghĩa ETL là gì?
ETL là viết tắt của Extract - Transform - Load (tạm dịch: Trích xuất - biến đổi tải). Trong điện tốn, trích xuất - biến đổi - tải (ETL) là quy trình chung sao chép dữ
liệu từ một hoặc nhiều nguồn vào hệ thống đích đại diện cho dữ liệu khác với nguồn.
Quá trình ETL đã trở thành một khái niệm phổ biến trong những năm 1970 và thường
được sử dụng trong kho dữ liệu [1].
1.1.1 Extract
Extract (Trích xuất) là quá trình đọc dữ liệu từ cơ sở dữ liệu. Trong giai đoạn
này, dữ liệu được thu thập, thường là từ nhiều loại nguồn khác nhau.
1.1.2 Transform
Transform (Biến đổi) là q trình chuyển đổi dữ liệu được trích xuất từ biểu
mẫu trước đó thành biểu mẫu cần có để có thể được đặt vào cơ sở dữ liệu khác. Chuyển
đổi xảy ra bằng cách sử dụng các quy tắc hoặc bảng tra cứu hoặc bằng cách kết hợp dữ
liệu này với dữ liệu khác.
1.1.3 Load
Load (Tải) là quá trình ghi chép dữ liệu vào cơ sở dữ liệu đích.
Một hệ thống ETL được thiết kế phù hợp sẽ trích xuất dữ liệu từ các hệ thống
nguồn, thực thi các tiêu chuẩn về tính nhất quán và chất lượng dữ liệu, tuân thủ dữ liệu
để các nguồn riêng biệt có thể được sử dụng cùng nhau và cuối cùng cung cấp dữ liệu
ở định dạng sẵn sàng để các nhà phát triển ứng dụng có thể xây dựng ứng dụng và
người dùng cuối có thể đưa ra quyết định.
Vì việc trích xuất dữ liệu cần có thời gian, nên thường thực hiện song song ba
giai đoạn. Trong khi dữ liệu đang được trích xuất (extract), một q trình chuyển đổi
(Transform) khác sẽ thực thi trong khi xử lý dữ liệu đã nhận và chuẩn bị để tải trong
khi quá trình tải dữ liệu bắt đầu mà khơng cần chờ hồn thành các giai đoạn trước.
III


1.2 Cách thức hoạt động của ETL
Trong phần này, chúng ta sẽ xem xét sâu về từng bước trong ba bước của quy
trình ETL [2].


Hình 1. Cách thức hoạt động của ETL
1.2.1 Giai đoạn trích xuất - Extract
Đây là phần đầu tiên của quy trình ETL, liên quan đến việc trích xuất dữ liệu từ
các hệ thống nguồn. Rất ít doanh nghiệp chỉ sử dụng một loại dữ liệu hoặc hệ thống.
Hầu hết doanh nghiệp quản lý dữ liệu từ nhiều nguồn khác nhau và sử dụng một số
công cụ phân tích dữ liệu để tối ưu hóa q trình quản trị. Để dữ liệu được chuyển đến
một đích mới, trước tiên nó phải được trích xuất từ các nguồn.
Trong bước đầu tiên của quy trình ETL, dữ liệu có cấu trúc và không cấu trúc
được nhập và hợp nhất vào một kho lưu trữ duy nhất. Dữ liệu thô có thể được trích
xuất từ nhiều nguồn khác nhau, bao gồm:
- Cơ sở dữ liệu hiện có
- Ứng dụng bán hàng và tiếp thị
- Ứng dụng và thiết bị di động
- Hệ thống quản lý khách hàng CRM
- Nền tảng lưu trữ dữ liệu

IV


- Kho dữ liệu
- Cơng cụ phân tích
Mặc dù các dữ liệu này có thể xử lý thủ cơng, nhưng việc trích xuất dữ liệu
được mã hóa bằng tay có thể tốn nhiều thời gian và dễ bị lỗi. Các cơng cụ ETL tự động
hóa q trình trích xuất và tạo ra một quy trình làm việc hiệu quả và đáng tin cậy hơn.
1.2.2 Giai đoạn chuyển đổi - Transform
Trong giai đoạn này của quy trình ETL, các quy tắc và quy định có thể được áp
dụng để đảm bảo chất lượng dữ liệu và khả năng truy cập. Quá trình chuyển đổi dữ liệu
bao gồm một số quy trình phụ:
Bảng 1. Các quy trình trong quá trình chuyển đổi dữ liệu

STT
1

Quy trình
Data cleansing

Ý nghĩa
Nhằm mục đích chỉ truyền
dữ liệu "đúng" cho mục
tiêu

2

Tiêu chuẩn hóa

Quy tắc định dạng được
áp dụng cho tập dữ liệu

3

Loại bỏ dữ liệu trùng lặp

Dữ liệu giống nhau được
loại trừ hoặc loại bỏ

4

Xác minh

Dữ liệu không thể sử dụng

được xóa và dữ liệu dị
thường được gắn cờ cảnh
báo

5

Sắp xếp

Dữ liệu được sắp xếp theo
từng loại

6

Các tác vụ khác

Mọi quy tắc bổ sung / tùy
chọn có thể được áp dụng
để cải thiện chất lượng dữ
liệu

V


Chuyển đổi thường được coi là phần quan trọng nhất của quy trình ETL.
Chuyển đổi dữ liệu cải thiện tính toàn vẹn dữ liệu và đảm bảo dữ liệu đến đích mới
hồn tồn tương thích và sẵn sàng để sử dụng.

1.2.3 Giai đoạn Tải - Load
Bước cuối cùng trong quy trình ETL là tải dữ liệu mới được chuyển đổi vào một
đích mới. Dữ liệu có thể được tải tất cả cùng một lúc (tải đầy đủ) hoặc theo các khoảng

thời gian theo lịch trình (tải tăng dần).
Tải tồn bộ: Trong q trình tải tồn bộ ETL, dữ liệu đều đi vào các bản ghi
mới, duy nhất trong kho dữ liệu. Mặc dù điều này hữu ích cho mục đích nghiên cứu,
nhưng cách tải toàn bộ tạo ra các tập dữ liệu tăng theo cấp số nhân và có thể nhanh
chóng trở nên khó bảo trì.
Tải tăng dần: Một cách tiếp cận ít tồn diện hơn nhưng dễ quản lý hơn là tải
tăng dần. Tải tăng dần so sánh dữ liệu đến với những gì đã có trước đó và chỉ tạo ra các
bản ghi bổ sung nếu tìm thấy thơng tin mới và duy nhất. Kiểu tải này ít gây tốn kém
hơn và giúp quản lý kinh doanh thông minh.
1.3 Tại sao chúng ta cần các công cụ ETL
Các doanh nghiệp đã dựa vào quy trình ETL trong nhiều năm để có được cái
nhìn tổng qt về dữ liệu thúc đẩy các quyết định kinh doanh tốt hơn. Bằng cách cung
cấp một cái nhìn tổng hợp, ETL giúp người dùng doanh nghiệp dễ dàng phân tích và
báo cáo về dữ liệu liên quan đến các sáng kiến của họ.
ETL có thể cải thiện năng suất của các chuyên gia dữ liệu vì nó mã hóa và tái sử
dụng các quy trình di chuyển dữ liệu mà khơng u cầu các kỹ năng kỹ thuật để viết
mã hoặc tập lệnh. Các tổ chức cần cả ETL và ELT để kết nối dữ liệu lại với nhau, đảm
bảo độ chính xác cho dữ liệu để làm báo cáo. Nói tóm lại, các công cụ ETL là bước
thiết yếu đầu tiên trong quy trình lưu trữ dữ liệu, nó cho phép bạn đưa ra quyết định
sáng suốt hơn trong thời gian ngắn hơn.

VI


Các loại cơng cụ ETL hiện nay:
- Mã hóa tay
- Công cụ xử lý hàng loạt
- Các công cụ nguồn mở
- Các công cụ dựa trên đám mây
- Công cụ thời gian thực

- Công cụ ETL nào phù hợp với tổ chức của bạn?
Mỗi loại công cụ ETL khác nhau sẽ phù hợp cho các nhu cầu khác nhau. Tùy
theo nhu cầu
- Công cụ ETL xử lý hàng loạt:
Nếu xử lý dữ liệu thời gian thực không phải là ưu tiên cao, thì xử lý dữ liệu
hàng loạt ETL có thể vừa nhanh và hiệu quả.
- Các công cụ mã nguồn mở:
Là một giải pháp thay thế có chi phí thấp, dành cho các gói phần mềm thương
mại, ETL nguồn mở hoạt động tốt cho các tổ chức vận hành và bảo trì phần mềm,
muốn tránh phần mềm độc quyền và không cần thực hiện chuyển đổi dữ liệu phức tạp.
- Các cơng cụ ELT dựa trên điện tốn đám mây:
Nếu doanh nghiệp của bạn thích các cơng cụ quản lý trên điện tốn đám mây thì
bạn nên lựa chọn ETL điện tốn đám mây. Các cơng cụ dựa trên điện tốn đám mây có
thể được lưu trữ trên đám mây dưới dạng SaaS hoặc được triển khai trực tiếp vào cơ sở
hạ tầng đám mây của riêng bạn.
- Công cụ thời gian thực:

VII


Nếu bạn cần chuyển đổi và quản lý dữ liệu lớn hoặc truyền dữ liệu theo thời gian thực,
thì cơng cụ ETL thời gian thực là dành cho bạn. Tuy nhiên, hãy nhớ rằng không phải
tất cả dữ liệu cần được xử lý trong thời gian thực.
Chương 2. Một số thơng tin hữu ích khác về ETL
2.1 Lịch sử phát triển của ETL
ETL trở nên phổ biến vào những năm 1970 khi các tổ chức bắt đầu sử dụng
nhiều kho dữ liệu hoặc cơ sở dữ liệu để lưu trữ các loại thơng tin kinh doanh khác
nhau. Nhu cầu tích hợp dữ liệu được lan truyền trên các cơ sở dữ liệu này tăng lên
nhanh chóng. ETL trở thành phương pháp tiêu chuẩn để lấy dữ liệu từ các nguồn khác
nhau và chuyển đổi nó trước khi tải nó vào nguồn đích.


Vào cuối những năm 1980 và đầu những năm 1990, kho dữ liệu đã xuất hiện.
Một loại cơ sở dữ liệu riêng biệt, kho dữ liệu cung cấp quyền truy cập tích hợp vào dữ
liệu từ nhiều hệ thống - máy tính lớn, máy tính mini, máy tính cá nhân và bảng tính.
Nhưng các bộ phận khác nhau thường chọn các công cụ ETL khác nhau để sử dụng với
các kho dữ liệu khác nhau. Cùng với việc sáp nhập và mua lại, nhiều tổ chức đã kết
hợp với một số giải pháp ETL khác nhau khơng được tích hợp.

VIII


Hình 2. Cách thức hoạt động của ETL
Theo thời gian, số lượng định dạng dữ liệu, nguồn và hệ thống đã mở rộng rất
nhiều. Trích xuất, chuyển đổi, tải giờ chỉ là một trong một số phương thức mà các tổ
chức sử dụng để thu thập, nhập và xử lý dữ liệu. ETL và ELT đều là những phần quan
trọng trong chiến lược tích hợp dữ liệu rộng hơn của một tổ chức. Tuy nhiên, ETL và
ELT là hai khái niệm dễ bị nhầm lẫn, cùng BizFly Cloud tìm hiểu những thông tin dưới
đây để phân biệt.
2.2 So sánh sự khác biệt giữa ETL và ELT
- ETL là quá trình trích xuất, chuyển đổi và tải dữ liệu. ELT là q trình trích
xuất, tải và chuyển đổi dữ liệu.
- Trong ETL, dữ liệu chuyển từ nguồn dữ liệu sang phân tầng vào kho dữ liệu.
- ELT tận dụng kho dữ liệu để thực hiện các biến đổi cơ bản. Không cần dàn
dựng dữ liệu.
- ETL có thể giúp bảo mật và tuân thủ dữ liệu bằng cách làm sạch dữ liệu nhạy
cảm và an toàn ngay cả trước khi tải vào kho dữ liệu.
IX


- ETL có thể thực hiện các phép biến đổi dữ liệu tinh vi và có thể hiệu quả hơn

về chi phí so với ELT.
- ETL có thể giúp bảo mật và tuân thủ dữ liệu, làm sạch dữ liệu xấu trước khi tải
vào đích dữ liệu, trong khi ELT đơn giản hơn và dành cho các cơng ty có nhu cầu dữ
liệu nhỏ.
TÀI LIỆU THAM KHẢO

[1] B. Clould, "ELT là gì? Cách thức hoạt động của ETL và tại sao cần sử dụng elt?,"
31 07 2020. [Online]. Available: https://bixzzflycloud.n/tin-tuc/etl-la-gi-cach-thuchoat-dong-cua-elt-va-tai-sao-can-su-dung-elt-20200731175234501.htm. [Accessed
13 12 2020].
[2] P. Vassiliadis, A. Simitisis and S. Spiros, "Conceptual modeling for ETL
processes," in Proceedings of the 5th ACM international workshop on Data
Warehousing and OLAP, 2002.

X


XI



×