Tải bản đầy đủ (.pdf) (80 trang)

TÌM HIỂU PENTAHO SOLUTIONS VÀ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 80 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HCM
KHOA CÔNG NGHỆ THÔNG TIN

LUẬN VĂN TỐT NGHIỆP
TÌM HIỂU PENTAHO SOLUTIONS
VÀ ỨNG DỤNG

Ngành

: Công Nghệ Thông Tin

Niên khoá

: 2006-2010

Lớp

: DH06DTM

Sinh viên thực hiện : Quảng Trí Nguyên
06130057

TP.HỒ CHÍ MINH, tháng 9 năm 2010


BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HCM
KHOA CÔNG NGHỆ THÔNG TIN


TÌM HIỂU PENTAHO SOLUTIONS
VÀ ỨNG DỤNG

Giáo viên hướng dẫn:

Sinh viên thực hiện:

Ths. Nguyễn Đức Công Song

Quảng

Trí

06130057

TP.HỒ CHÍ MINH, tháng 9 năm 2010

Nguyên 

­ 


LỜI CẢM ƠN
Lời đầu tiên em xin chân thành bày tỏ lòng cảm ơn và kính trọng sâu sắc đối với
thầy, thạc sĩ Nguyễn Đức Công Song, người đã tận tình hướng dẫn em trong suốt
quá trình hoàn thành Luận văn này. Thầy đã mở ra cho em những vấn đề khoa học
rất lý thú, hướng em vào nghiên cứu các lĩnh vực hết sức thiết thực và vô cùng bổ
ích, đồng thời tạo điều kiện thuận lợi cho em học tập và nghiên cứu. Em đã học hỏi
được rất nhiều ở Thầy phong cách làm việc, cũng như phương pháp nghiên cứu
khoa học… Em luôn được Thầy cung cấp các tài liệu, các chỉ dẫn hết sức quý báu

khi cần thiết trong suốt thời gian thực hiện luận văn. Có những lúc cần thiết bị để
thực hành thầy luôn sẵn sàng giúp đỡ.
Em cũng xin thể hiện sự kính trọng và lòng biết ơn đến Quý Thầy Cô trong khoa
Công Nghệ Thông Tin, những người đã trang bị cho em rất nhiều kiến thức chuyên
ngành, cũng như sự chỉ bảo, giúp đỡ tận tình của quý Thầy Cô đối với em trong suốt
quá trình học tập. Tất cả các kiến thức mà em lĩnh hội được từ bài giảng của các
Thầy Cô là vô cùng quý giá.
Nhân đây, con xin gửi lời cảm ơn sâu sắc đến Bố, Mẹ và những người thân trong
gia đình, cảm ơn những tình cảm và những lời động viên con trong suốt quá trình
hoàn thành luận văn này.
Tôi cũng xin được cảm ơn tất cả các bạn học, những người đã cung cấp và chia sẻ
những tài liệu, thông tin quý báu trong suốt quá trình học tập, nghiên cứu, hoàn
thành luận văn này.
Tp.HCM, tháng 9-2010
Quảng Trí Nguyên


DANH SÁCH CHỮ VIẾT TẮT
BI

:

Business Intelligence
Kinh doanh thông minh

DBMS:

Database Management System
Hệ thống quản lý cơ sở dữ liệu


ETL :

Extract Transform and Load
Quá trình chiết xuất chuyển đổi và lưu trữ

ERP :

Enterprise Resource Planning
Tài nguyên kế hoạch

OLAP :

OnLine Analytical Processing
Quá trình phân tích trực tiếp

EUL :

End User Layer
Lớp người dùng cuối

CSV :

Comma Separated Variable
Biến ngăn cách tạm

MQL :

Metadata Query Language
Ngôn ngữ truy vấn metadata


MDX :

Multidimensional Expressions
Biểu thức đa chiều


MỤC LỤC
TÓM TẮT ...................................................................................................................... 1 
TỔNG QUAN ................................................................................................................ 3 
NỘI DUNG BÁO CÁO ................................................................................................. 3 
Cơ sở lí luận ................................................................................................................ 3 
Nội dung nghiên cứu .................................................................................................. 4 
1.1.1 

Dimensional Modeling and Data Warehouse Design ...................................... 4 
1.1.1.1 

Data Warehouse .................................................................................. 4 

1.1.1.2 

The Central Data Warehouse .............................................................. 6 

1.1.1.3 

Data Marts........................................................................................... 7 

1.1.1.4 

Những vấn đề khi dùng Data Warehouse ........................................... 8 


1.1.1.4.1  Chất lượng dữ liệu........................................................................... 8 
1.1.1.4.2  Khối lượng và việc trình bày dữ liệu .............................................. 9 
1.1.1.4.3  Cập nhật sự thay đổi của dữ liệu ..................................................... 9 
1.1.1.4.4  Thay đổi yêu cầu của việc phân tích ............................................... 9 
1.1.2 

ETL và Data Integration ................................................................................. 10 
1.1.2.1 

Khái niệm .......................................................................................... 10 

1.1.2.2 

Hoạt động Data Integration............................................................... 10 

1.1.2.3 

Quá trình Chiết xuất (Extraction) ..................................................... 10 

1.1.2.4 

Quá trình Chuyển đổi (Transformation) ........................................... 10 

1.1.2.5 

Quá trình Lưu trữ tạm(Loading) ....................................................... 11 

1.1.2.6 


Khái niệm và thành phần của tích hợp dữ liệu (Data Integration) .. 11 

1.1.2.6.1  Công cụ và Tiện ích ...................................................................... 11 
1.1.2.6.2  Engine chính cho tích hợp dữ liệu .............................................. 11 
1.1.2.6.3  Kho lưu trữ (Repository ).............................................................. 11 
1.1.2.6.4  Jobs and Transformations ............................................................. 12 
1.1.2.7 

Giới thiệu và hướng dẫn sử dụng công cụ Pentaho Data Integration14 

1.1.2.7.1  Pentaho Data Integration............................................................... 14 
1.1.2.7.2  Lợi ích chính ................................................................................. 14 
1.1.2.7.3  Downloading Pentaho Data Integration ........................................ 14 


1.1.2.7.4  Cài đặt Pentaho Data Integration .................................................. 15 
1.1.2.7.5  Pentaho tích hợp dữ liệu và các thư mục Scripts .......................... 15 
1.1.2.7.6  Hướng Dẫn sử dụng các chức năng chính của PDI ...................... 16 
1.1.3 

Business Intelligence Applications(Ứng dụng Kinh doanh thông minh) ...... 20 
1.1.3.1 

Lớp Metadata .................................................................................... 20 

1.1.3.1.1  Những thuận lợi của lớp Metadata................................................ 20 
1.1.3.1.2  Phạm vi dùng và cách sử dụng của lớp Metadata ......................... 21 
1.1.3.1.3  Thuộc tính, concept, và tính thừa kế trong lớp Metadata ............. 23 
1.1.3.1.3.2  Concepts ................................................................................... 23 
1.1.3.1.4  Tạo và quản lý Metadata bằng Metadata Editor ........................... 23 

1.1.3.1.5  Metadata Repository ..................................................................... 25 
1.1.3.1.6  Các lớp con của lớp Metadata ....................................................... 26 
1.1.3.1.7  Triển khai và Sử dụng Metadata ................................................... 26 
1.1.3.2 

Sử dụng công cụ báo cáo Pentaho .................................................... 27 

1.1.3.2.1  Kiến trúc ........................................................................................ 27 
1.1.3.2.2  Báo cáo trên nền tảng Web ........................................................ 27 
1.1.3.2.3  Giới thiệu và hướng dẫn sử dụng công cụ Pentaho Report
Designer 28 
1.1.3.3 

Giải pháp OLAP trong sử dụng phân tích Pentaho ......................... 35 

1.1.3.3.1  Pentaho Analysis Services (PAS) ................................................. 36 
1.1.3.3.2  Kiến trúc ........................................................................................ 36 
1.1.3.3.3  Schema .......................................................................................... 38 
1.1.3.3.4  MDX Primer ................................................................................. 38 
1.1.3.3.5  Cubes và Dimensions ................................................................... 38 
1.1.3.4 

Khai thác dữ liệu với Weka .............................................................. 42 

1.1.3.4.1  Data Mining .................................................................................. 42 
1.1.3.4.2  Weka Workbench .......................................................................... 42 
1.1.3.4.3  Sử dụng Weka với Pentaho ........................................................... 44 
1.1.3.5 

Xây dựng Dashboards ....................................................................... 45 


1.1.3.5.1  The Community Dashboard Framework ...................................... 45 
1.1.3.5.2  Các khái niệm và Kiến trúc CDF .................................................. 45 


1.1.4 

Pentaho BI Platform ....................................................................................... 47 
1.1.4.1 

Prerequisites ...................................................................................... 48 

1.1.4.2 

Server Installation and Configuration ............................................... 48 

1.1.4.2.1  Cấu hình Tomcat ........................................................................... 49 
1.1.4.2.2  Tự khởi động trong Windows ....................................................... 49 
1.1.4.2.3  Quản lý Database Drivers ............................................................. 50 
1.1.4.2.4  Cấu hình bảo mật JDBC ............................................................... 50 
1.1.4.2.5  Chỉnh sửa tên các Pentaho Startup Scripts ................................... 51 
1.1.4.2.6  E-mail ............................................................................................ 51 
1.1.4.2.7  Các nhiệm vụ của người quản trị .................................................. 52 
1.1.4.3 

The Pentaho BI Stack ....................................................................... 55 

1.1.4.3.1  Pentaho BI Stack Perspectives ...................................................... 56 
1.1.4.3.2  The Pentaho Business Intelligence Server .................................... 56 
1.1.4.3.3  Creating Action Sequences with Pentaho Design Studio ............. 59 

Ứng dụng Pentaho vào nghiên cứu dự báo khả năng học ngành công nghệ thông
tin của học sinh phổ thông ........................................................................................ 60 
1.1.4.4 

Giới thiệu .......................................................................................... 60 

1.1.4.5 

Bảng câu hỏi ..................................................................................... 60 

KẾT QỦA ĐẠT ĐƯỢC .............................................................................................. 61 
HẠN CHẾ .................................................................................................................... 61 
HƯỚNG PHÁT TRIỄN ............................................................................................... 61 
TÀI LIỆU THAM KHẢO............................................................................................ 62 
PHỤ LỤC ..................................................................................................................... 63 
1.1.4.6 

Thông Tin cá nhân ............................................................................ 63 

1.1.4.7 

Thông tin học vấn ............................................................................. 64 

1.1.4.8 

Câu hỏi test IQ .................................................................................. 64 


DANH MỤC CÁC HÌNH
Data warehouse - Position1 ............................................................................................ 4 

Data warehouse - Architecture 2 .................................................................................... 5 
Data warehouse – Independent Data Mart 3 .................................................................. 6 
Data warehouse – Data Mart Bus 4 ................................................................................ 6 
Data warehouse – Hub and Spoke 5 ............................................................................... 7 
Data warehouse - Centralized data warehouse 6 ............................................................ 7 
Data warehouse - Federated 7 ........................................................................................ 7 
Data warehouse - Data Mart 8 ........................................................................................ 8 

ETL 1 : Steps, Hops and Record stream ......................................................................13 

BI Application 1 :Scope and usage of Pentaho Metadata ............................................22 
BI Application 2 : Giao Diện Metada Editor ...............................................................26 
BI Application 3 : Report Ảchitecture .........................................................................27 
BI Application 4 : OLAP components .........................................................................37 
BI Application 5 : A cube as start schema ...................................................................39 
BI Application 6 : Datamining method ........................................................................42 
BI Application 7 : Dashboard Flow .............................................................................46 

Pentaho BI - Platform 1 ................................................................................................48 
Pentaho BI - User manager 2 .......................................................................................54 
Pentaho BI - Data source 3 ...........................................................................................54 
Pentaho BI – Chức năng 4 ............................................................................................55 
Pentaho BI - Architecture 5 ..........................................................................................55 


Pentaho BI - User console 6 .........................................................................................58 
Pentaho BI - Desktop tools and Server components 7 ..............................................59 
Pentaho BI - Eclipse 8 ..................................................................................................59 



Tìm hi u gi i pháp Pentaho và  ng d ng 

TÓM TẮT
Luận văn được tổ chức thành 5 phần:
Phần 1 :Giới thiệu về Data warehouse, là nền tảng lưu trữ giúp xây dựng nên
kho dữ liệu của Pentaho BI . Data warehouse là 1 cơ sở dữ liệu có cấu trúc đa
chiều, gồm Data Warehouse trung tâm và nhiều Data Mart liên kết với nhau và
có các đặc điểm là hướng chủ đề,dữ liệu được tổng hợp sẽ không bao giờ bị thay
đổi và tất cả hoạt động trên đó đều được ghi nhận lại.Data Mart là 1 góc nhìn
trong cái nhìn đa chiều về dữ liệu ,được lưu trữ thành những OLAP cube giúp
tăng tính linh hoạt trong sử dụng và giúp truy xuất nhanh tới dữ liệu. Data
Warehouse thu thập dữ liệu từ nhiều nguồn ,dữ liệu đó được làm sạch và biến
đổi để phù hợp cho việc lưu trữ ,bằng công cụ ETL của Pentaho.Sau đó dữ liệu
này được lưu trữ trong Data warehouse để dùng làm nguồn dữ liệu đầu vào cho
các phần khác của Pentaho như báo cáo ,phân tích,.. Tìm hiểu phần này giúp
hiểu được các khái niệm,kiến trúc xây dựng, cung cấp 1 hình ảnh tổng quan
cũng như những ưu khuyết của Data warehouse .
Phần 2: Giới thiệu về ETLvà Data Intergration ,là hệ thống quản lý dữ liệu
đầu vào của data warehouse.Có chức năng thu thập dữ liệu từ nhiều nguồn ,chọn
lọc và biến đổi dữ liệu trước khi đưa vào lưu trữ ở kho dữ liệu. ETL gồm có 3
phần là Quá trình Chiết xuất (Extraction), Quá trình Chuyển đổi
(Transformation), Quá trình Lưu trữ (Loading).Pentaho sử dụng 1 công cụ cho
quá trình data intergration này là Spoon.Quá trình chiếc xuất thu thập dữ liệu từ
nhiều nguồn và lưu trữ tạm.Quá trình chuyển đổi thực hiện xác minh dữ liệu
,làm sạch, giải mã đổi tên,.. để phù hợp với với những chi tiết trong kho lưu
trữ.Cuối cùng là quá trình lưu trữ sẽ đưa dữ liệu vào các fact table và demention
table trong OLAP cube. Trong phần này cũng giới thiệu nhiều khái niệm và
engine chính của quá trình ETL giúp hiểu về các bước xây dựng quy trình ETL.
Phần 3 :Giới thiệu về các ứng dụng dựa trên kho dữ liệu , Các ứng dụng này
nằm trong gói Pentaho BI suite.Các ứng dụng giúp theo dõi công việc ,hỗ trợ ra

quyết định ,cảnh báo và giúp đưa ra dự đoán cho nhà quản trị dựa dữ liệu lịch sử
đã tích lũy .Ứng dụng Pentaho BI gồm lớp Metadata,công cụ Report,công cụ
Analysis ,công cụ Data Mining,công cụ Dashboard.Lớp Metadata giúp tạo thuận
lợi trong việc quản lý dữ liệu ,giúp tăng tốc độ truy xuất thông tin của người
dùng,metadata được xây dựng và quản lý bằng công cụ Metadata Editor.Công cụ
Report giúp tạo ra 1 bản báo cáo từ kho lưu trữ hay metadata ,và xây dụng trên
nền tảng Web.Công cụ Analysis thực hiện việc phân tích dựa trên giải pháp
OLAP.Công cụ data mining được dùng là Weka, một công cụ khai thác dữ liệu

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 1 


Tìm hi u gi i pháp Pentaho và  ng d ng 
mạnh mẽ giúp tìm thấy những mối quan hệ ,những công thức từ tập hợp những
dữ liệu rời rạc.Cuối cùng là công cụ dashboard như là 1 bẳng điều khiển tập
trung tất cả thông tin ,giúp cho nhà quản lý có cái nhìn tổng quát nhất về tổ chức
và công việc.
Phần 4 :Giới thiệu về Pentaho BI platform,phần này giới thiệu các khái niệm,
kiến trúc ,chức năng của Pentaho server.Ở phần này cũng tìm hiểu về phần cấu
hình, cài đặt BI platform trên giao diện web.Đồng thời cũng hướng dẫn về lập
schedule, thiết lập service ,quản lý người dùng và phân quyền trên đó.
Phần 5 : Dựa vào kiến thức các phần trên , xây dựng ứng dụng thể hiện các
chức năng của Pentaho như Report ,Analysis ,Dashboard .Dựa trên dữ liệu về
sinh viên khoa công nghệ thông tin :
Ứng dụng lập báo báo về tất cả thông tin của 1 sinh viên cụ thể theo mã số.
Tìm top 10 sinh viên giỏi nhất theo các chuyên ngành
Lập các biểu đồ về tỉ lệ sinh viên theo nơi sinh.

So sánh học lực sinh viên theo quê ,từ đó đưa ra dự báo về sinh viên tương tự.

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 2 


Tìm hi u gi i pháp Pentaho và  ng d ng 

TỔNG QUAN
Pentaho là 1 gói giải pháp khá hoàn thiện trong kinh doanh thông minh ,giúp hỗ
trợ lập biểu báo, phân tích, quản lý thông tin ,khai thác dữ liệu, theo dõi quy
trình và nhiều nữa. Do đó việc tìm hiểu và ứng dụng vào thực tế sẽ giúp ích rất
nhiều cho công việc ,giúp rút ngắn thời gian và nâng cao hiệu suất cho công
việc.
Mục đích :
• Tìm hiểu về giải pháp Pentaho BI ,các lợi ích cũng khuyết điểm của giải
pháp .
• Tìm hiểu các công cụ hỗ trợ của Pentaho.
• Quy trình xây dựng nên giải pháp để ứng dụng cho doanh nghiệp.
Đối tượng và phạm vi nghiên cứu : sinh viên đại học Nông Lâm

NỘI DUNG BÁO CÁO
I. Cơ sở lí luận
Các CIO trong những năm gần đây luôn đặt giải pháp BI đứng đầu trong thứ tự
ưu tiên về nhu cầu đầu tư công nghệ trong doanh nghiệp .Ngày nay hệ thống BI
đã dần trở nên hoàn thiện và có xu hướng đáp ứng bốn nhu cầu quan trọng mà
người quản trị luôn mong đợi đó là:
Data Warehouse - Khai thác dữ liệu tập trung.

Analysis -Báo cáo phân tích cao cấp.
Monitoring - Giám sát và cảnh báo tự động.
Planning and Forecasting - Dự đoán và lên kế hoạch.
Những dữ liệu có cấu trúc được lưu trong các CSDL chỉ chiếm khoảng 20%.
Còn lại là những dữ liệu phi cấu trúc chiếm tới 80% tổng số thông tin trong các
doanh nghiệp
BI cần cho mọi doanh nghiệp có nhu cầu tích hợp dữ liệu và phân tích thông tin.
đặc biệt trong những doanh nghiệp vừa và nhỏ , chưa có điều kiện sử dụng một
phần mềm quản lý nào đó ,thì đây là hệ thống phân tích hoạt động doanh nghiệp

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 3 


Tìm hi u gi i pháp Pentaho và  ng d ng 
một cách chính xác và toàn diện nhất do thông tin được tổng hợp từ nhiều nguồn
trong doanh nghiệp và tiết kiệm được chi phí cho việc khảo sát, nghiên cứu.
Trước đây , khi muốn quản trị thông tin hay muốn sử dụng các thông tin rải rác
trong cơ sở dữ liệu của công ty thì đã có các phần mềm nổi tiếng như Business
Objects (SAP) hoặc Cognos (IBM). Nay ,với Pentaho BI với nhiều ưu điểm rất
thích hợp với các doanh nghiệp Việt Nam:

Mã nguồn mở

Có cả cộng đồng hỗ trợ .

Chạy tốt với nhiều platform (Windows, Linux, Macintosh , Unix, …)


Có các gói hoàn chỉnh :Reporting , ETL for warehousing data
Management , OLAP server data mining , Dashboard.

II. Nội dung nghiên cứu
1.1.1
Dimensional Modeling and Data Warehouse
Design
1.1.1.1

Data Warehouse

Khái niệm Data warehouse:

Data warehouse - Position1

Một datawarehouse được định nghĩa có các đặc điểm:
Hướng chủ đề—Tất cả các thực thể và sự kiện liên quan đều được liên kết với
nhau.

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 4 


Tìm hi u gi i pháp Pentaho và  ng d ng 
Được theo dõi —Tất cả thay đổi đều được theo dõi và được ghi báo cáo lại cho
thấy những thay đổi theo thời gian .
Dữ liệu không bị thay đổi—Khi dữ liệu được nhập vào data warehouse ,nó
không bao giờ bị ghi đè hay xóa đi.

Được tổng hợp—The data warehouse chứa dữ liệu từ nhiều nguồn sau khi
clean and conform
Đảm bảo rằng hiệu suất của hệ thống không bị giảm bởi các truy vấn hoặc việc
phân tích.
Đảm bảo rằng các thông tin bởi người dùng không thay đổi trong khi sử dụng
chúng .
Kiến trúc tổng quát của data warehouse:

Data warehouse - Architecture 2

1 hay nhiều source systems (files, DBMS, ERP);
1 quá trình Extracting, Transforming, và Loading dữ liệu (ETL).
Thường quá trình này chứa những vùng staging, được dùng làm nơi extract dữ
liệu để chuẩn bị cho việc transform và cleaning.
Mỗi staging bao gồm 1 database và các flat file .Trong nhiều trường hợp sử dụng
flat file làm quá trình trên nhanh hơn.

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 5 


Tìm hi u gi i pháp Pentaho và  ng d ng 
Một data warehouse gồm 1 central warehouse database và từ 0 tới nhiều data
mart.
The end user layer (EUL) sử dụng nhiều công cụ khác nhau để làm việc với dữ
liệu , (reports, dashboards, spreadsheets, and published documents).

1.1.1.2


The Central Data Warehouse

Independent data marts—Mỗi data mart được built và load 1 cách độc lập;
không chia sẻ metadata với nhau. Đó được gọi là 1 giải pháp stovepipe.
Data mart bus—Giải pháp của Kimball trong việc chuyển đổi định dạng đa
chiều để liên kết các data mart .
Hub and spoke—Giải pháp tổng hợp thông tin của Inmon với 1 central data
warehouse và nhiều data mart độc lập .
Centralized data warehouse—tương tự như hub and spoke, nhưng không có
phần spoke; ví dụ :tất cả end user truy cập trực tiếp vào data warehouse.
Federated—Là 1 kiến trúc nơi mà các data mart hay data warehouses đã có
trước được tích hợp với phần afterwards.Có một cách là xây dựng một dataware
house ảo, nơi tất cả dữ liệu vẫn nằm ở gốc và hệ thống sẽ tích hợp logic bằng
cách sử dụng những giải pháp phần mềm đặc biệt.

Data warehouse – Independent Data Mart 3

Data warehouse – Data Mart Bus 4

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 6 


Tìm hi u gi i pháp Pentaho và  ng d ng 

Data warehouse – Hub and Spoke 5


Data warehouse - Centralized data warehouse 6

Data warehouse - Federated 7

1.1.1.3

Data Marts

Là 1 góc nhìn của central warehouse ,và chỉ chứa 1 set of data
OLAP Cubes
Cơ sở dữ liệu OLAP dùng 1 định dạng lưu trữ tối ưu hóa cho việc phân tích dữ
liệu trong 1 định dạng đa chiều , để cung cấp tính linh hoạt sử dụng và truy xuất
nhanh chóng
Các định dạng lưu trữ
Có 3 loại cơ sở dữ liệu OLAP ,được đặt tên dựa trên định dạng lưu trữ:

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 7 


Tìm hi u gi i pháp Pentaho và  ng d ng 
MOLAP (Multidimensional OLAP)—là định dạng OLAP mà dữ liệu đc lưu ở
dạng proprietary multidimensional.
ROLAP (Relational OLAP)— tất cả dữ liệu vả các aggregate data được lưu
trong 1 standard relational database.
HOLAP (Hybrid OLAP)—Trong HOLAP, tất cả các dữ liệu aggregate và dữ
liệu navigational được lưu trữ trong 1 cấu trúc MOLAP nhưng chi tiết dữ liệu thì
được giữ ở the relational database.

Thông tin của OLAP engines : />
Data warehouse - Data Mart 8

1.1.1.4

Những vấn đề khi dùng Data Warehouse

Chất lượng dữ liệu
Khối lượng và việc trình bày của dữ liệu
Cập nhật sự thay đổi của dữ liệu
Thay đổi yêu cầu của việc phân tích.
1.1.1.4.1 Chất lượng dữ liệu
Trùng lập dữ liệu
Dữ liệu không hoàn chỉnh
Dữ liệu không đúng
Dữ liệu mâu thuẫn với nhau
Unclear metadata
Mất dữ liệu
Giá trị null

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 8 


Tìm hi u gi i pháp Pentaho và  ng d ng 
Data Vault và chất lượng của dữ liệu

1.1.1.4.2 Khối lượng và việc trình bày dữ liệu

Danh sách dưới giúp việc xác định kỹ thuật giúp cải thiện query của
datawareouse:
Đánh chỉ mục (Indexing)
Đánh chỉ mục dạng Bitmap (Bitmap indexing)
Phân vùng(Partitioning)
Tập hợp dữ liệu(Aggregation )
Materialized views
Dùng các hàm hỗ trợ (Window functions)
Nén dữ liệu(Archiving)

1.1.1.4.3 Cập nhật sự thay đổi của dữ liệu
Quá trình xác định sự thay đổi của dữ liệu lấy từ các record và dữ liệu đã được
đưa và dataware house ,gọi là Changed Data Capture hay CDC..
Quá trình CDC có 2 loại cơ bản : intrusive và non-intrusive
Source Data-Based CDC
Đọc trực tiếp dựa trên timestamps
Dùng database sequences
Trigger-Based CDC
Snapshot-Based CDC
Log-Based CDC
1.1.1.4.4 Thay đổi yêu cầu của việc phân tích
Một Datawarehouse là 1 quá trinh ,không phải là 1 project .Vì vậy hãy chuẩn bị
cho những thay đổi theo những quy luật sau:

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 9 



Tìm hi u gi i pháp Pentaho và  ng d ng 

Thiết kết datawarehouse như 1 phần độc lập và có thể thay thế bởi những
giải pháp khác.

Hiểu vả sử dụng đúng công cụ .

Chuẩn hóa .

1.1.2

ETL và Data Integration

1.1.2.1

Khái niệm

Từ '' integration'' biểu thị một quá trình tạo thành một thể từ nhiều phần. Thuật
ngữ ‘‘data integration’’ thường được hiểu là quá trình kết hợp dữ liệu từ các
nguồn khác nhau để cung cấp một cái nhìn dễ hiểu và duy nhất về tất cả các dữ
liệu .

1.1.2.2

Hoạt động Data Integration

bao gồm các phần:
Extraction -Thu thập dữ liệu từ một hoặc nhiều nguồn. Ví dụ: thu thập tất cả hồ
sơ khách hàng có cấu trúc khác nhau từ nhiều nguồn.
Transformation -Thay đổi định dạng và nội dung của dữ liệu để phù hợp với cấu

trúc của kho dữ liệu.Ví dụ, từ quận và tên nước chuyển thành giá trị số là mã
nước .
Loading- lưu trữ dữ liệu vào kho dữ liệu cuối.

1.1.2.3

Quá trình Chiết xuất (Extraction)

có thể chia thành các bước:
- Thay đổi dữ liệu : trong nhiều trường hợp được thay đổi giới hạn trong các
phần
dữ liệu. Quá trình xác định các dữ liệu thay đổi được gọi là thay đổi dữ liệu
chụp.
- Lưu trữ tạm : thường không phải lúc nào cũng có thể hay hiệu quả khi chuyển
đổi ngay dữ liệu đã chiết xuất ,mà thường dữ liệu được lưu ra nơi tạm khác cho
quá trình chuyển đổi.

1.1.2.4

Quá trình Chuyển đổi (Transformation)

là một quá trình mở và đa dạng. Không thể để cung cấp tất cả các hoạt động chi
tiết, nhưng có một vài hoạt động tiêu biểu là:
- Xác minh dữ liệu : là quá trình xác minh nguồn gốc dữ liệu là chính xác, và có
thể lọc ra những dữ liệu không hợp lệ.
- Làm sạch dữ liệu : là quá trình sửa chữa dữ liệu không hợp lệ.
- Giải mã và đổi tên : trong nhiều trường hợp, dữ liệu từ nguồn không phù hợp
cho mục đích báo cáo bởi vì nó có chứa các tên đồng nghĩa và mã số. Phần chính
của quá trình chuyển đổi xảy ra ở giai đoạn này để thêm những mô tả và sửa lại
tên để thân thiện với người dùng hơn.


SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 10 


Tìm hi u gi i pháp Pentaho và  ng d ng 
- Tập hợp : thông thường, các ứng dụng BI chỉ trình bày nhừng dữ liệu đã được
tổng hợp cho người dùng cuối cùng. Vì thế, tập hợp được xem như một phần
của quá trình chuyển đổi.
- Việc tạo và quản lý khóa : các hàng trong kho dữ liệu được quản lý và được
xác định duy nhất bởi các khóa ,vì thế các khóa cần được tạo và lưu giữ.

1.1.2.5

Quá trình Lưu trữ tạm(Loading)

có thể phân thành hai hoạt động chính:
- Load FactTable : Thông thường, các FactTable phát triển bằng cách thêm các
hàng mới. Nhưng đôi khi các hàng cần được cập nhật để phản ánh một trạng thái
mới.
- Load và quản lý các DemensionTable : Những hàng mới trong factTable có thể
phát triễn thêm tạo ra các hàng mới trong DemensionTable.

1.1.2.6
Khái niệm và thành phần của tích hợp dữ liệu
(Data Integration)
Trong Pentaho các giải pháp tích hợp được xây dựng dựa trên hai loại đối tượng:
- Transformations

- Jobs
1.1.2.6.1 Công cụ và Tiện ích
Pentaho tích hợp dữ liệu sau đây bao gồm các bộ công cụ và tiện ích:
- Spoon : một công cụ đồ hoạ tạo các Transformation ,Job
- Kitchen : Một công cụ dòng lệnh để chạy các Job
- Pan : Một công cụ dòng lệnh để chạy các Transformation
- Carte : một máy chủ nhẹ để các chạy các Transformation ,Job từ xa
1.1.2.6.2 Engine chính cho tích hợp dữ liệu
- Có trách nhiệm dịch và thực thi các Job và Transformation ,được xử lý bởi các
phần khác nhau của engine.
- Một Job có thể chứa nhiều Transformation và vì thế , thực hiện Job có nghĩa là
thực hiện một hoặc nhiều Transformation. Để thuận tiện hơn thì có thêm các
Job engine và Transformation engine nhưng gọi chung là Integration engine .
- Integration engine được hiện thực dùng các thư viện Java. Còn phần Front-End
sử dụng các public API để thực thi các Job và Transformation .
1.1.2.6.3 Kho lưu trữ (Repository )
- Job và Transformation có thể được lưu trữ trong một Kho lưu trữ . Front-end
của công cụ có thể kết nối cơ sở dữ liệu và chuyển dữ liệu của Job và
transformation vào Kho lưu trữ.
-Khi không làm việc với các Repository, transformations and jobs được lưu trữ

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 11 


Tìm hi u gi i pháp Pentaho và  ng d ng 
trong các file tạm trong ở dạng XML.
1.1.2.6.4 Jobs and Transformations

- Integration engine dịch và thực thi các Job và transformation
- Integration engine có metadata-driven: chứa thông tin về dữ liệu, hệ thống
nguồn và hệ thống đích.Khi thực hiện một công Job hay transformation, thông
tin này được sử dụng cho các tính toán cần thiết .
1.1.2.6.4.1 Transformations
-Một Pentaho transformation đại diện cho một nhiệm vụ ETL theo nghĩa hẹp.
Các transformation theo dạng data-oriented, và mục đích dùng để chiết
xuất(extract), chuyển đổi(transform), và truyền tải (load) dữ liệu.
-Một quá trình transformation bao gồm các bước .Mỗi bước biểu thị một phép
toán cụ thể trên một hoặc nhiều record stream. Các bước này có thể được kết
nối bằng hops. Mỗi hops giống như một đường ống thông qua đó các record có
thể chảy từ bước này sang bước khác .Một record là tập hợp các giá trị có cấu
trúc theo cách mà mỗi giá trị có liên quan thuộc về 1 lĩnh vực(field) nào đó.
-Mỗi lĩnh vực(field) là tên duy nhất trong record stream. Mỗi lĩnh vực xác định
những thuộc tính như là loại dữ liệu và định dạng miêu tả bản chất của những
giá trị nào liên hệ với lĩnh vực này. Những dạng thuộc tính này chính là
metadata (dữ liệu về dữ liệu).
- Một điều quan trọng trong hiện thực là các bước job đồng thời phải được
đồng bộ hóa.

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 12 


Tìm hi u gi i pháp Pentaho và  ng d ng 

 


ETL 1 : Steps, Hops and Record stream

1.1.2.6.4.2 Job
- Các job bao gồm một hoặc nhiều transformation.
- Job được sử dụng để đặt tất cả những transformation trong trình tự đúng (đầu
tiên là giải nén, sau đó tải tất cả các dimension table, và sau đó tải fact table).
-Các Job được thủ tục hóa và định hướng theo nhiệm vụ hơn là định hướng
theo dữ liệu.
- Các thành phần xuất hiện trong các job được gọi là các job enty , và biểu thị
một nhiệm vụ cụ thể.

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 13 


Tìm hi u gi i pháp Pentaho và  ng d ng 

1.1.2.7
Giới thiệu và hướng dẫn sử dụng công cụ Pentaho
Data Integration
1.1.2.7.1 Pentaho Data Integration
là một công cụ cực kỳ linh hoạt được sử dụngtrong các trường hợp :
• Những kho dữ liệu được sự hỗ trợ cho sự thay đổi các chiều đến thay thế khóa
chính .
• Dữ liệu di chuyển giữa các cơ sở dữ liệu và các ứng dụng khác nhau
• Tải lượng dữ liệu rất lớn vào cơ sở dữ liệu ,tập hợp dữ liệu một cách thuận lợi
từ các cloud, clustered và massively parallel.
• Dữ liệu được làm sạch với các bước khác nhau, từ biến đổi rất đơn giản đến

rất phức tạp .
• Tích hợp dữ liệu bao gồm khả năng thực hiện thời gian thực, như một nguồn
dữ liệu cho phần Báo cáo.
1.1.2.7.2 Lợi ích chính
Pentaho Data Integration gồm các lợi ích:
• Cài đặt trong vài phút, bạn có thể có được ứng dụng trong một buổi chiều.
• 100% với sự hỗ trợ nền tảng Java qua cho Windows, Linux và Macintosh
• Dễ sử dụng, thiết kế đồ họa với hơn 100 đối tượng thao tác gồm cả đầu vào,
biến đổi, và đầu ra .
• kiến trúc plug-in cho việc thêm phần mở rộng riêng của bạn
• Máy chủ cung cấp tích hợp bảo mật, lập kế hoạch và quản lý mạnh mẽ bao
gồm cả sửa đổi lịch sử cho các transform và các job .
• Tích hợp thiết kế (Spoon) kết hợp với metadata model tăng tính trực quan cho
dữ liệu, cung cấp môi trường hoàn hảo cho phát triển nhanh các giải pháp BI
mới .
• Kiến trúc streaming cung cấp khả năng để làm việc với khối lượng dữ liệu cực
lớn .
• Enterprise-class tăng hiệu suất và khả năng mở rộng với một loạt các lựa chọn
triển khai bao gồm cả chuyên dụng, quần tụ, và đám mây dựa trên các máy chủ
ETL.
1.1.2.7.3 Downloading Pentaho Data Integration
Trước khi bạn bắt đầu để tải về Pentaho tích hợp dữ liệu, bạn phải có Java 6.0 đã
được cài đặt.
1. Chuyển đến trang download Pentaho tích hợp dữ liệu.
2. Điền vào mẫu liên hệ.
Bạn sẽ nhận được một email xác nhận rằng cung cấp cho bạn các thông tin để
truy cập vào Pentaho

SVTH:QuảngTríNguyên   


GVHD:Nguyễn Đức Công Song
 14 


Tìm hi u gi i pháp Pentaho và  ng d ng 
3. Nhấp vào nút Tải về Enterprise Edition.
1.1.2.7.4 Cài đặt Pentaho Data Integration
Giả định rằng bạn sẽ thực hiện theo các hướng dẫn cài đặt mặc định và bạn đang
cài đặt vào localhost .
1. Tìm hiểu và chấp nhận License Agreement
2. Xác định vị trí bạn muốn cài đặt tích hợp dữ liệu Pentaho hoặc bấm Next để
chấp nhận mặc định.
3. Đặt tên người dùng và mật khẩu cho tài khoản Administrator. Với mục đích
của đánh giá này,chấp nhận tên người sử dụng mặc định, "admin", và gõ "mật
khẩu" trong Password và Confirm Passwordlĩnh vực.
4. Click Next để chấp nhận các tùy chọn cài đặt mặc định trên trang Tóm lược.
5. Click Next để bắt đầu cài đặt.
Pentaho tích hợp dữ liệu được cài đặt như một dịch vụ của Windows
1.1.2.7.5 Pentaho tích hợp dữ liệu và các thư mục Scripts
Sau khi cài đặt, thư mục Pentaho của bạn có chứa các tập tin và thư mục sau
đây:
\design-tools\data-integration : chứa thiết kế Spoon và lệnh đường dây tiện ích.
\server: chứa máy chủ tích hợp dữ liệu bao gồm cả script cá nhân .
\documentation : chứa tài liệu
\server\data-integration-server\ start-pentaho.bat: Script tập tin để bắt đầu hội
nhập dữ liệu server trên Windows.
\server\data-integration-server\ start-pentaho.sh: Script tập tin để bắt đầu hội
nhập dữ liệu server trên Linux và Macintosh
\server\data-integration-server\ stop-pentaho.bat: Script file ngừng tích hợp dữ
liệu

server trên Windows
\server\data-integration-server\ stop-pentaho.sh: Script file for stopping the Data
Integration server on Linux and Macintosh.
\design-tools\data-integration\Spoon.bat: Script tập tin để bắt đầu các thiết kế
Spoon

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 15 


Tìm hi u gi i pháp Pentaho và  ng d ng 
\design-tools\data-integration\spoon.sh : Script tập tin để bắt đầu các thiết kế
Spoon ngày Linux và Macintosh .
1.1.2.7.6 Hướng Dẫn sử dụng các chức năng chính của PDI
1.1.2.7.6.1 Kết nối với Repository
Tạo ra một kết nối đến các Repository mà là một phần của hội nhập dữ liệu
Server. Các Repository Doanh nghiệp được sử dụng để lưu trữ và lịch trình
chuyển đổi ví dụ và công việc mà bạn sẽ tạo ra khi thực hiện các bài tập trong tài
liệu này.
Để tạo kết nối đến các Repository:
1. Trong hộp thoại Repository Connection, nhấp chuột (Thêm).
2. Chọn Doanh nghiệp Repository: Doanh nghiệp Repository và nhấn OK.Các
Repository Configuration hộp thoại xuất hiện.
3.Giữ URL mặc định.Các URL được sử dụng để kết nối đến máy chủ tích hợp
dữ liệu được cung cấp theo mặc định.
4. Click Test để đảm bảo kết nối của bạn được cấu hình đúng. Nếu bạn nhận
được một lỗi, chắc chắn bạn bắt đầu Server tích hợp dữ liệu của bạn.
5. Click OK để thoát hộp thoại thành công.

6. Nhập ID và tên cho kho lưu trữ của bạn.
7. Click OK để thoát khỏi hộp thoại Repository Configuration.kết nối mới của
bạn xuất hiện trong danh sách các kho phần mềm có sẵn.
8. Đăng nhập vào các Repository doanh nghiệp bằng cách nhập các thông tin
sau: tên người dùng = joe, mật khẩu =mật khẩu.
Việc tích hợp dữ liệu Server được cấu hình ra khỏi hộp để sử dụng các nhà cung
cấp Pentaho bảo mật mặc định.

1.1.2.7.6.2 Tạo một transformation
Lấy dữ liệu từ một file (Text File)
Thực hiện theo các hướng dẫn dưới đây để lấy dữ liệu từ một Text File.

SVTH:QuảngTríNguyên   

GVHD:Nguyễn Đức Công Song
 16 


×