Tải bản đầy đủ (.docx) (55 trang)

XÂY DỰNG DATA WAREHOUSE & GIẢI PHÁP BUSSINESS INTELLIGENT DỰA TRÊN NỀN TẢNG MÁY HỌC CHO CÁC DOANH NGHIỆP

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 55 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT
Đề Tài : XÂY DỰNG DATA WAREHOUSE
& GIẢI PHÁP BUSSINESS INTELLIGENT
DỰA TRÊN NỀN TẢNG MÁY HỌC CHO
CÁC DOANH NGHIỆP
TP.HCM 17/05/2012
Giảng viên hướng dẫn : GS TSKH Hoàng Kiếm
Học viên thực hiện : Đoàn Vũ Ngọc Duy
MSSV : CH1101010
Mục lục
Trang 2
I. Giới thiệu
Công nghệ tri thức (CNTT) là một lĩnh vực liên quan đến việc phát triển các kĩ thuật cho
phép các máy tính có thể "học". Cụ thể hơn, CNTT là một phương pháp để tạo ra các
chương trình máy tính bằng việc phân tích các tập dữ liệu. có liên quan lớn đến thống kê, vì
cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, CNTT tập
trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy
luận được xếp vào loại bài toán khó, vì thế CNTT ngày nay là nghiên cứu sự phát triển các
giải thuật suy luận xấp xỉ mà có thể xử lí được.
CNTT có tính ứng dụng rất cao bao gồm truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ
tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng
nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt. Ngoài ra công nghệ giúp máy
tương tác với con người một cách linh hoạt và mềm dẻo hơn. Một số hệ thống CNTT sau
này đã loại bỏ nhu cầu trực giác của con người trong việc phân tích dữ liệu, trong khi các hệ
thống khác hướng đến việc tăng sự cộng tác giữa người và máy. có thể xem đây như là một
nỗ lực để tự động hóa một số phần của phương pháp khoa học. CNTT có ứng dụng rộng
khắp trong các ngành khoa học, sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ
liệu khổng lồ. Một số ứng dụng mà ta thường thấy như :
• Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản, giao tiếp
người – máy, …


• Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác
máy (Computer Vision) …
• Tìm kiếm (Search Engine)
• Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn đoán tự động.
• Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein
• Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt …
• Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tỉn dụng
• Phân tích thị trường chứng khoán (stock market analysis)
• Chơi trò chơi: tự động chơi cờ, hành động của các nhân vật ảo
Trang 3
• Rôbốt: là tổng hợp của rất nhiều ngành khoa học, trong đó học máy tạo nên hệ thần
kinh/bộ não của người máy.
Trước những yêu cầu cấp bách đó, em và cùng một số đồng nghiệp trong công ty cổ phẩn
tin học Lạc Việt đã xây dựng giải pháp BI (Business intelligent) trên nền tảng công nghệ
sharepoint & Data Warehouse. Nhằm mục đích hổ trợ ra quyết định nhanh cho ban lãnh
đạo, phân tích thống kê các số liệu có sẳn của hệ thống với nhiều nguồn dữ liệu khác nhau
trong những môi trường khác nhau. Trong quá trình phát triển sản phẩm, ngoài việc nghiên
cứu lựa chọn công nghệ phù hợp để triển khai nhóm chúng em đã gặp thách thức rất nhiều
về giải thuật, cách làm cho máy có thể phân tích khai phá dữ liệu một cách hiệu quả, mỗi
ứng dụng phân tích là một bài toán khác nhau với các giải thuật và công nghệ phù hợp cho
mục tiêu đặt ra. Một số ứng dụng mà em đã phát triển có sử dụng đến một số thuật giải như
“Cây quyết định” “Mạng Neural”…, sau khi được học bài bản về môn công nghệ tri thức và
ứng dụng, em vô tình được gặp lại các khái niệm này, một lần nữa giúp em hiểu rõ hơn về
tầm quan trọng của máy học và khai phá dữ liệu trong thế giới công nghệ ngày nay. Cho
nên thông qua đề tài lần này em mong muốn áp dụng những gì học được trên trường vào
thực tiễn của cuộc sống, góp phần nâng cao sự phát triển của nghành tin học nói chung và
sự phát triển CNTT trong nước nói riêng, mang lại giá trị lợi nhuận cao cho các doanh
nghiệp, tổ chức.
Trang 4
II. Kho dữ liệu - Data Warehouse

1. Khái niệm kho dữ liệu
Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết kế để
hỗ trợ cho chức năng trợ giúp quyết định.Theo John Ladley, Công nghệ kho dữ liệu (Data
Warehouse Technology) là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ
trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ
liệu, nhiều môi trường khác nhau. Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm
chí hàng Terabyte.
Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày
càng nhiều. Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích hỗ
trợ cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích. Quá trình tập
hợp và thao tác trên các dữ liệu này có những đặc điểm sau :
• Dữ liệu tích hợp (Atomicity):Dữ liệu tập hợp từ nhiều nguồn khác nhau. Điều này sẽ
dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, xắp xếp, rút gọn dữ liệu.
• Theo chủ đề (Consistency): Không phải tất cả các dữ liệu đều được tập hợp, người ta
chỉ lấy những dữ liệu có ích.
• Biến thời gian (Isolation): Các dữ liệu truy suất không bị ảnh hưởng bởi các dữ liệu
khác hoặc tác động lên nhau.
• Dữ liệu cố định (Durable): Khi một Transaction hoàn chỉnh, dữ liệu không thể tạo
thêm hay sửa đổi.
• Kho dữ liệu là một tập các dữ liệu có những đặc điểm sau: tập trung vào một chủ đề,
tổng hợp từ nhiều nguồn dữ liệu khác nhau, từ nhiều thời gian, và không sửa đổi.
Được dùng trong việc hỗ trợ ra quyết định trong công tác quản lý. Kho dữ liệu DWH
2. Mục đích của kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản sau:
• Phải có khả năng đáp ứng mọi yêu cầu về thông tin của NSD
Trang 5
• Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình, như
có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng suất cao hơn,
thu được lợi nhuận cao hơn, v.v.
• Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách

hiệu quả và chính xác.
• Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau
3. Đặc tính của kho dữ liệu
Những đặc điểm cơ bản của Kho dữ liệu (DW) là một tập hợp dữ liệu có tính chất sau:
• Tính tích hợp (Integration)
• Hướng chủ đề
• Dữ liệu gắn thời gian và có tính lịch sử
• Dữ liệu có tính ổn định (nonvolatility)
• Dữ liệu tổng hợp
4. Kho dữ liệu cục bộ (Data Mart - DM)
Kho dữ liệu cục bộ (Data Mart - DM) là CSDL có những đặc điểm giống với kho dữ
liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành.
Datamart là kho dữ liệu hướng chủ đề. Các DM có thể được hình thành từ một tập con dữ
liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các
DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây dựng
kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước
sau đó tạo ra các DM.
Data mart phụ thuộc (Dependent Data Mart): Chứa những dữ liệu được lấy từ DW và
những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một
chủ đề nhất định của Datamart
Trang 6
5. Data mart độc lập (Independent Data Marts)
Không giống như Data Mart phụ thuộc, Data mart độc lập được xây dựng trước DW và dữ
liệu được trực tiếp lấy từ các nguồn khác nhau
6. Cấu trúc dữ liệu cho kho dữ liệu
Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao tác như sửa đổi hay tạo
mới nên nó được tối ưu cho việc phân tích và báo cáo. Các thao tác với dữ liệu của kho dữ
liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều ( multidimensional data model), được mô
hình vào đối tượng gọi là data cube. Data cube là nơi trung tâm của vấn đề cần phân tích, nó
bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ nhiều chiều dữ kiện

khác nhau (dimention).
Ví dụ: Một thống kê doanh số bán hàng dựa trên ba yếu tố là: địa điểm, thời gian và chủng
loại hàng. Data cube là vấn đề “Thống kê bán hàng” với ba chiều là ba yếu tố: địa điểm, thời
Trang 7
gian và chủng loại hàng . Bảng fact là bảng tổng hợp dữ liệu của mối liên quan của doanh số
với 3 yếu tố.
7. Ngôn ngữ cho kho dữ liệu
Ngôn ngữ xử lý phân tích trực tuyến (OLAP - On-Line Analytical Prosessing), rất
phù hợp với kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữ truy vấn SQL và tập trung
vào các câu lệnh sau
• Thu nhỏ (roll-up) : ví dụ: nhóm dữ liệu theo năm thay vì theo quý.
• Mở rộng (drill-down) : ví dụ: mở rộng dữ liệu, nhìn theo tháng thay vì theo quý.
• Cắt lát (slice) : nhìn theo từng lớp một. Ví dụ: từ danh mục bán hàng của Q1, Q2,
Q3, Q4 chỉ xem của Q1.
• Thu nhỏ (dice) : bỏ bớt một phần của dữ liệu ( tương ứng thêm điều kiện vào câu
lệnh WHERE trong SQL).
8. Cấu trúc của một hệ thống kho dữ liệu
Bao gồm ba tầng :
• Tầng đáy: Là nơi cung cấp dịch vụ lấy dữ liệu từ nhiều nguồn khác sau đó chuẩn
hóa, làm sạch và lưu trữ dữ liệu đã tập tung
• Tầng giữa: cung cấp các dịch vụ để thực hiện các thao tác với kho dữ liệu gọi là dịch
vụ OLAP (OLAP server). Có thể cài đặt bằng Relational OLAP, Multidimensional
OLAP hay kết hợp cả hai mô hình trên Hybrid OLAP
• Tầng trên cùng: nơi chứa các câu truy vấn, báo cáo, phân tích
9. Giải pháp Data Warehouse
Ngày nay,với sự phát triển của công nghệ thông tin, lượng thông tin rất phong phú và
dồi dào được lấy từ nhiều nguồn dữ liệu khác nhau, dưới các định dạng khác nhau, phương
thức tiếp cận nguồn thông tin cũng rất đa dạng. Với thực tế như vậy, các doanh nghiệp cần
phải có giải pháp để quản lý nguồn thông tin trong doanh nghiệp. Bên cạnh đó, ngày càng
nhiều những yêu cầu về kiểm toán nội bộ hay tuân thủ quy chế được đặt ra khiến việc quản

lý thông tin càng trở nên quan trọng hơn.
Trang 8
Giải pháp Data Warehouse của SAVIS là một lựa chọn tối ưu để doanh nghiệp có thể
giải quyết vấn đề trên một cách hiệu quả nhất. Với giải pháp của SAVIS, các thông tin được
sắp xếp hợp lý, dễ tìm, tạo điều kiện tối đa cho doanh nghiệp khách hàng quản lý nguồn tài
nguyên thông tin.


10. Những thành phần chính của giải pháp Data Warehouse:
Các chương trình Java: Các chương trình vendor-specific Java sẽ tải và xử lý thông
tin trong khi các chương trình Java standard framework được sử dụng để cập nhật.
• Trình bày, kiểm tra và phân bổ thông tin.
• Thiết kế Internet thân thiện: Thông tin có thể được truy cập, giám sát, phân tích, sử
dụng bất kỳ trình duyệt web tiêu chuẩn nào. Giao diện người sử dụng hỗ trợ khách
hàng trong việc giám sát vòng lưu chuyển của thông tin và hỗ trợ việc cập nhật cũng
như tạo ra những thông tin mới.
• Lập kế hoạch và điều khiển thông tin: Người quản lý warehouse có thể toàn quyền
kiểm soát hệ thống với những công cụ quản lý và phân tích toàn bộ quá trình xử lý
thông tin, cũng như có thể tự động hóa các pha của một vòng lưu chuyển thông tin.
Trang 9
Source
Load
Archive
Target
(DW)
Extract
Filter
ValidateAggregate
• Đảm bảo chất lượng: Hàng ngày, một quy trình đảm bảo chất lượng sẽ được thực
hiện để kiểm tra hàng triệu điểm thông tin, cung cấp một bộ lọc thông tin được thiết

kế theo yêu cầu riêng của khách hàng.
• Bộ nhớ dư: một chức năng off-site có chỗ trống dư, đảm bảo quy trình xử lý thông
tin được bảo vệ và có thể phục hồi khi có sự cố xảy ra.
• Hoạt động hiệu suất cao: công nghệ cơ sở dữ liệu cung cấp khả năng lưu trữ không
giới hạn và tốc độ phục hồi thông tin rất nhanh và chính xác.
• Với một giải pháp quản lý Data Warehouse toàn diện như trên, khách hàng có thể
hoàn toàn an tâm về tính ổn định, linh hoạt và dễ dàng tìm kiếm của nguồn thông tin
trong doanh nghiệp mình.
11. Qui trình xây dựng kho dữ liệu
12. Mô hình kho dữ liệu
Trang 10
Kiến trúc kho dữ liệu phân tán bao gồm sự kết hợp của hai khái niệm cơ bản là sự
tích hợp(Intergration) các thành phần dữ liệu và sự phân tán (Distribution) thông qua các
thành phần của mạng như hình sau
1) Kho dữ liệu phân tán thuần
Trang 11
Kiến trúc phân tán thuần nhất có một số ưu điểm sau:
• Do tất cả các DM đều dùng chung DBMS nên công tác quản trị dễ dàng hơn. Người
quản trị không cần biết kỹ năng quản trị trong tất cả các DBMS khác nhau như DB2,
SQL SERVER,…
• Công tác chuyển đổi dữ liệu không đòi hỏi cao vì tất tất cả các DM dùng chung cấu
trúc dữ liệu và các ràng buộc dữ liệu.
• Nhiệm vụ tích hợp dữ liệu từ các nguồn trở nên đơn giản và dễ quản lý
• Thời gian đáp ứng các truy vấn nhanh (rapid response times)
• Tuy nhiên, kho dữ liệu phân tán thuần nhất thích hợp nhất đối với những hệ thống
xây dựng mới và có chiến lược từ trước, đối với các hệ thống kế thừa dữ liệu từ các
nguồn đã có công việc chuyển đối và tích hợp dữ
2) Kho dữ liệu phân tán không thuần nhất
Kho dữ liệu phân tán không thuần nhất là kho dữ liệu mà trong đó các kho dữ liệu
cục bộ (DM) ở các nơi (Site) trong mạng có thể không cùng chung hệ quản trị CSDL [11]

Kiến trúc phân tán không thuần nhất có một số ưu điểm sau:
• Kế thừa được các nguồn dữ liệu từ các DM đã tồn tại
Trang 12
• Thích hợp cho các hệ thống xây dựng trên cơ sở mở rộng hệ thống đã có vì trên thực
tế các đơn vị thường bắt đầu với các DM nhỏ cho các phòng ban, sau đó phát triển
thành kho dữ liệu lớn hơn cho toàn công ty.
• Tính tự trị CSDL cao
Tuy nhiên, hệ thống phân tán không thuần nhất gặp khó khăn trong việc tích hợp,
chuyển đổi dữ liệu cũng như công tác quản trị dữ liệu vì mỗi DBMS có cấu trúc dữ liệu,
ràng buộc, cách thức truy vấn, bảo mật dữ liệu khác nhau
• Chuyển đổi dữ liệu: Chuyển đổi dữ liệu giữa các định dạng MS Excel, MS Access,
SQL SERVER, XML, Oracle
• Tích hợp dữ liệu: Trao đổi dữ liệu giữa các Data Mart
• Đồng bộ dữ liệu: So sánh, làm sạch dữ liệu để dữ liệu giữa các Data Mart thống
nhất với nhau
• Phân tán dữ liệu: Phân tán ngang, phân tán dọc
• Hợp nhất dữ liệu: Hợp nhất dữ liệu sau khi đã phân tán dọc
• Lọc dữ liệu: Trích xuất dữ liệu theo điều kiện
Trang 13
III. BUSSINESS INTELLIGENT
1 Bussiness Intelligent là gì ?
Business Inteligence – BI (tạm dịch là giải pháp quản trị doanh nghiệp thông minh)
là một hệ thống báo cáo cho phép tổ chức/doanh nghiệp (TC/DN) khai thác dữ liệu từ nhiều
nguồn khác nhau về khách hàng (KH), thị trường, nhà cung cấp, đối tác, nhân sự và phân
tích/sử dụng các dữ liệu đó thành các nguồn thông tin có ý nghĩa nhằm hỗ trợ việc ra quyết
định. Thông thường cấu trúc một bộ giải pháp BI đầy đủ gồm một kho dữ liệu , hiệu năng
TC/DN (Key Perfomance Indicators – KPIs), các dự báo và phân tích giả lập (Balance
Scorecards, Simulation and Forecasting ).
Thông thường, đầu ra trong mỗi hệ thống ERP, CRM, HCM là các dữ liệu đã sẵn
sàng phục vụ việc phân tích. Tuy nhiên, đối với nhiều TC/DN, việc khai thác các dữ liệu

này chưa được chú trọng nên chỉ dừng ở các yêu cầu kết xuất báo cáo nghiệp vụ đơn thuần
của các phòng ban. Khá nhiều thông tin quan trọng cho người ra quyết định và lập kế hoạch
chiến lược đã bị bỏ qua do thiếu công cụ tổng hợp, phân tích, “móc nối” các dữ liệu này,
hoặc do người lãnh đạo không nhìn nhận khả năng này nên không đặt ra yêu cầu với hệ
thống CNTT. Xét ở góc độ đầu tư thì đây là sự lãng phí lớn.
Trên thực tế, BI cần cho mọi TC/DN có nhu cầu tích hợp dữ liệu và phân tích thông
tin. Đối với nhà quản lý, đây là hệ thống phân tích hoạt động DN chính xác và toàn diện
nhất do thông tin được sử dụng BI, TC/DN sẽ không có được các kết quả ngay, thậm chí có
thể tốn kém một khoản chi phí cho việc khảo sát, nghiên cứu, tìm tòi mới có được kết quả.
Với BI, DN dễ dàng có ngay thông tin phân tích quản lý, để trả lời các câu hỏi như: “KH
quan trọng nhất của DN hiện nay là ai?”; “Thị trường nào đang mang lại tỷ trọng lợi nhuận
chính?”
13. Ứng dụng BI thế nào?
Trang 14
Ở mức hệ thống, BI là khâu cuối cùng của các giải pháp ERP, CRM, HCM Nghĩa
là chỉ khi các hệ thống quản trị thông tin này đi vào vận hành, khai thác thì BI mới phát huy
được công việc của mình. Ở mức đơn giản, BI, là các yêu cầu đặt ra của nhà lãnh đạo với
mỗi hệ thống PM quản lý. Ví dụ, nhiều công ty hiện nay khai thác các báo cáo tài chính
hoặc yêu cầu đơn vị triển khai xây dựng thêm phân hệ báo cáo cho hội đồng quản trị song
song với hệ thống ERP trong DN. Vừa là đầu ra cuối cùng của các hệ thống ERP, CRM
vừa là đầu vào cho chính các hệ thống này. Vì nếu xây dựng DN từ các kết quả đánh giá của
BI, tức là từ các chỉ số đánh giá hiệu năng DN thì DN sẽ có thông tin đầu vào phản ánh
chính xác kết quả đầu ra đó”. Ông Ngọc cho rằng: “Khi một TC/DN đã ứng dụng ERP thì
việc áp dụng BI là phần liên kết rất nên phát triển và tận dụng. Điều đó sẽ giúp TC/DN hoàn
thiện hệ thống ứng dụng CNTT của mình để thúc đẩy phát triển và nâng cao khả năng cạnh
tranh”.
Ví dụ như DN trong lĩnh vực viễn thông hoặc ngân hàng sử dụng hệ thống contact
center. Bình thường, hệ thống này chỉ kết nối và trả lời tự động yêu cầu của KH. Tuy nhiên,
khi được khai thác cùng BI, BI sẽ đưa ra các chỉ số cho biết tỷ lệ KH trung niên, KH trên
đại học sử dụng hệ thống này trong tháng. Đây chính là đầu vào cho hệ contact center ,

có tác động ngược lại cho contact center, khiến hệ thống này, từ chỗ chỉ là một trung tâm
thông tin đa kênh. Những thông tin này sẽ được hệ BI chia sẻ tới nhiều bộ phận trong
DN, giúp DN đảm bảo phương châm kinh doanh “lấy KH làm trọng tâm” của mình.
Hiện ở Việt Nam, thị trường cung cấp giải pháp BI còn khá sơ khai nhưng cũng
đã quy tụ khá nhiều tên tuổi như: Business Objects, Cognos, Hyperion, SAP, Oracle Mỗi
giải pháp đều có sự khác nhau về tính năng, khả năng tích hợp, phân tích và xử lý thông
tin. Như bất cứ giải pháp/phần mềm nào, BI chỉ là một công cụ, do vậy khi TC/DN lựa
chọn và sử dụng, cần cân nhắc tới tính khả dụng và khả năng tích hợp của nó với các
hệ thống khác trong DN. Đồng thời luôn đảm bảo trong khi vận hành, thông tin đầu vào
cho BI phải luôn là thông tin xác thực.
Có câu “biết người biết ta trăm trận trăm thắng”, giải pháp Business Intelligence
(BI) ra đời cũng nhằm đáp ứng phần nào nhu cầu “biết người biết ta” của doanh nghiệp.
Trang 15
Khảo sát của Gartner đối với các CIO trong ba năm trở lại đây cho thấy giải pháp BI
luôn đứng đầu trong thứ tự ưu tiên về nhu cầu đầu tư công nghệ của doanh nghiệp (DN).
Trải qua hai mươi năm phát triển, ngày nay hệ thống BI đã dần trở nên hoàn thiện và có xu
hướng đáp ứng bốn nhu cầu quan trọng mà người quản trị luôn mong đợi đó là:
• Data Warehouse - Khai thác dữ liệu tập trung.
• Analysis -Báo cáo phân tích cao cấp.
• Monitoring - Giám sát và cảnh báo tự động.
• Planning and Forecasting - Dự đoán và lên kế hoạch.
Bài viết tập trung phân tích các tính năng quan trọng và giá trị nhất của một số giải
pháp BI hàng đầu hiện nay mà tác giả có dịp trải nghiệm là SAP và Business Objects. Một
số hệ thống BI của các hãng có thể chỉ tập trung giải quyết một hoặc một số nhu cầu dưới
đây.
1 Khai thác dữ liệu tập trung
Khi DN hoạt động hiệu quả thì việc mở rộng phạm vi trên nhiều tỉnh thành, hay
nhiều quốc gia là nhu cầu tất yếu. Song song với việc phát triển như thế, thì ban quản trị
cũng vấp phải rất nhiều khó khăn trong quản lý. Dữ liệu của công ty, tập đoàn nằm rải rác
ở nhiều nơi và dưới nhiều hình thức khác nhau. Do đó, bất cứ nhu cầu truy vấn, phân tích

hay so sánh giữa các vùng với nhau đều tiêu tốn rất nhiều thời gian và công sức. Với Data
Warehouse (Kho dữ liệu) của BI, những dữ liệu quan trọng nằm rải rác nhiều nơi, dưới
nhiều định dạng khác nhau của DN sẽ được trích xuất đều đặn và được tập hợp lại thành
một cấu trúc thống nhất. Qua đó những báo cáo từ chi tiết đến tổng quát của toàn DN đều
Trang 16
luôn đảm bảo được tính chính xác và kịp thời. “Kho dữ liệu” đã được rất nhiều tập đoàn
lớn nhìn nhận là một phần quan trọng trên bước đường toàn cầu hóa của họ.
3) Báo cáo phân tích cao cấp
Một trong những nỗi sợ hãi lớn nhất của quản trị DN là bị chìm ngập trong một rừng
dữ liệu. Sắp xếp quản lý cánh rừng đó đã là quá khó khăn nói chi đến việc khai thác giá trị
từ đó. Nhưng thực tế trong quá trình đưa ra quyết định vẫn luôn đòi hỏi những nhu cầu truy
vấn phức tạp. Hiện nay giải pháp báo cáo phân tích cao cấp của BI đã tương đối hoàn thiện
với những tính năng nổi bật như: Đào sâu dữ liệu đến mức tối đa: Giúp ta có thể giải quyết
những yêu cầu phức tạp như “cung cấp thông tin về doanh thu và số lượng mặt hàng bán
được của 3 năm gần nhất, theo tất cả các vùng, ứng với tất cả các nhóm sản phẩm và từng
sản phẩm, và nhân viên thực hiện
giao

dịch”.
Với những dạng câu hỏi như trên người quản
trị chỉ mất vài giây tương tác với hệ thống OLAP là đã có được câu trả lời.
K

h ả

n ă

ng t

ùy b


i ế

n c

h i ề

u t

h ô

ng t

in : Song song với tính năng đào sâu dữ liệu là khả
năng tùy chỉnh thứ tự của các chiều thông tin. Ví dụ cũng với những chiều thông tin như
yêu cầu trên ta có góc nhìn khác như “cung cấp thông tin về doanh thu và số lượng mặt
hàng bán được, ứng với các nhân viên bán hàng, của toàn bộ các vùng, trên tất cả các nhóm
sản phẩm và từng sản phẩm, trong 3 năm gần nhất”.
4) Giám sát và cảnh báo tự động
Để khẳng định tên tuổi của mình hơn nữa trên thị phần BI, các nhà cung cấp giải
pháp lớn như BusinessObjects, Cognos, Hyperion, SAS liên tục đầu tư vào phần giao
diện người dùng. Các khái niệm về Dashboards - bảng điều khiển, Scorecards - bảng chỉ
số đã được áp dụng vào quản lý DN. Nhờ vào bảng điều khiển mà các chỉ số thể hiện tình
trạng phát triển của công ty (KPIs) luôn được tự động tổng hợp và cập nhật thường xuyên.
Ngoài chức năng cảnh báo tự động qua màu sắc, hình ảnh, hệ thống BI còn có chức
năng tự động gửi email thông báo đến người có thẩm quyền, giúp người quản lý luôn có
được thông tin về những gì đang xảy ra.
Trang 17
( Bảng thứ tự ưu tiên về nhu cầu công nghệ của DN trên thế
giới )

5) Dự đoán và lên kế hoạch
Trong môi trường thực tế, để tổng hợp được một bảng kế hoạch cho quí tới, năm tới
hay phương hướng của công ty trong nhiều năm tới sẽ rất phức tạp. Hầu như các bảng kế
hoạch và dự báo của DN đều phụ thuộc vào nhận định chủ quan của một số người có kinh
nghiệm. Tất cả những người quản lý, chắc hẳn ai cũng muốn có được sự hỗ trợ đáng tin cậy
và mang tính khoa học nhằm giúp họ đưa ra được những dự báo vững chắc hơn. Nắm bắt
nhu cầu này, các tên tuổi hàng đầu về hệ thống BI như: Business Objects, Cognos, SAP
Business Intelligence,BI, đều hỗ trợ khá tốt khả năng dự báo.và lên kế hoạch của DN. Kết
hợp với kinh nghiệm của người sử dụng những bảng kế hoạch cho tương lai được tổng hợp
khá nhanh và có độ chính xác cao. Ngoài hai tính năng trên, hệ thống BI còn giúp cho
người sử dụng khả năng phân tích giả định - what-if analysis and simulation. Chức năng
này giúp cho người sử dụng có thể giả lập một số biến cố, qua đó đánh giá được xu thế thay
đổi của các chỉ số KPIs mà họ quan tâm.
Trang 18
Tuy là một giải pháp cao cấp nhưng BI không chỉ dành riêng cho các tập
đoàn lớn mà là giải pháp hỗ trợ quyết định cho tất cả các DN ở mọi qui mô và
nhiều lĩnh vực hoạt động khác nhau. Trong thực tế, BI mang lại lợi ích rõ nét
nhất cho các DN ngành hàng tiêu dùng, giải khát, thực phẩm khi mà yếu tố về
thời gian được đặt lên hàng đầu. Trên thế giới, BI đã trở thành công cụ quản trị
quen thuộc của nhiều tên tuổi lớn như: BMW, Coca-Cola,Unilever Còn tại
Việt Nam, một số công ty lớn đã và đang triển khai BI và coi đó như vũ khí bí
mật của mình. Hy vọng, trong thời gian tới, ngày càng nhiều DN VN sẽ sát cánh
với giải pháp BI.
14. Thách thức của dữ liệu phân tán đối với việc ra
quyết định
Có nhiều yếu tố ảnh hưởng đến hoạt động kinh doanh của doanh nghiệp,
trong đó yếu tố quan trọng nhất là việc "ra quyết định" bởi nó cần có ở mọi cấp,
mọi bộ phận của doanh nghiệp. Các chuyên gia biết rõ tầm quan trọng của việc
lên kế hoạch, dự báo, phân tích, đưa ra các đánh giá về tài chính và vận hành.
Tuy nhiên, họ thiếu những công cụ có thể giúp đưa ra những phân tích và quyết

định chính xác. Theo một nghiên cứu về giám đốc tài chính (Chief Financial
Officer - CFO) toàn cầu của IBM năm 2010, việc ra quyết định nhanh và tích
hợp thông tin trên toàn doanh nghiệp là thách thức lớn nhất đối với các CFO chứ
không phải áp lực giảm chi phí hoạt động cơ bản. Các CFO cũng bị CEO "ép"
phải cung cấp được dữ liệu chính xác nhanh hơn để kiểm soát rủi ro và dự báo
quyết định. Do vậy CFO cần đúng người và công cụ để thực hiện phân tích kinh
doanh.
Thông thường, với các tổ chức lớn, các thông tin sản xuất kinh doanh
thường xuyên bị phân tán ở các hệ thống cũng như các ứng dụng riêng lẻ được sử
dụng trong các phòng ban, bộ phận sản xuất kinh doanh khác nhau. Nếu không
có một giải pháp phân tích hoạt động doanh nghiệp để thu thập, hợp nhất và định
dạng dữ liệu - sau đó khai thác ,hỗ trợ việc lập kế hoạch và ra quyết định, thì ban
lãnh đạo doanh nghiệp sẽ khó khăn hơn để có được các thông tin mang tính sống
còn cần thiết nhằm hỗ trợ phân tích các hoạt động sản xuất kinh doanh của doanh
nghiệp
Ứng dụng BI cho phép các doanh nghiệp thực hiện các báo cáo và các
phân tích có chiều sâu dựa trên thông tin chi tiết về tất cả các hoạt động trên qui
mô toàn tổ chức. Dữ liệu được chiết suất từ nhiều hệ thống, nhiều ứng dụng khác
nhau, được chuẩn hóa, tổng hợp, phân tích, định dạng và đưa đến người dùng
cuối nhanh hơn, thuận tiện và thân thiện hơn. Bên cạnh đó, hệ thống cũng hỗ trợ
quản lý hiệu quả hơn việc ra quyết định bằng cách cung cấp cho lãnh đạo những
thống kê chính xác và mang tính sống còn.
15. Dùng BI để tối ưu hóa lợi nhuận
Giải pháp BI trở nến cấp thiết hơn bao giờ hết để các nhà quản trị có thể
đưa ra những quyết định phù hợp và nhanh chóng dựa trên những báo cáo phân
tích tổng hợp với những chỉ tiêu đánh giá (KPI) liên quan. Cụ thể hơn, BI có thể
giúp doanh nghiệp ở những điểm như sau nhằm đạt mục tiêu tối ưu hóa lợi nhuận
của mình:
• Tiết kiệm chi phí, nâng cao hiệu quả của các hoạt động hằng ngày
• Loại bỏ những mặt hàng kém hiệu quả

• Tập trung những khách hàng có giá trị cao
• Phân tích hiệu quả của chương trình khuyến mãi, quảng cáo
• Nâng cao năng lực của nhân viên kinh doanh
• Cũng cố và làm tăng sự hài lòng, lòng trung thành của khách hàng
• Đo lường và phân tích ảnh hưởng của các hoạt độngđến sự hài lòng của
khách hàng
• Đánh giá đối thủ cạnh tranh trong ngành, mở rộng thị phần
Tính chính xác, quyết đoán và kịp thời là kết quả rõ rệt nhất mà hệ thống BI cung
cấp. Kết quả là doanh nghiệp sẽ dễ dàng có được ngay lập tức các thông tin phân
tích quản lý, để trả lời các câu hỏi như: "3 khách hàng quan trọng nhất của doanh
nghiệp hiện nay là ai?" hoặc "Thị trường nào đang mang lại tỷ trọng lợi nhuận
chính" hoặc "Ngày x thu được bao nhiêu tiền?" Với các doanh nghiệp, tổ chức
đã triển khai các hệ thống ERP và các hệ quản lý thông tin tác nghiệp đặc thù
khác như Ngân hàng, Bảo hiểm, Chứng khoán, Bệnh viện thì BI sẽ tự động
móc nối vào các hệ quản lý tác nghiệp nói trên để tự động cung cấp các báo cáo
thống kê phân tích phục vụ quá trình quản lý và ra quyết định tức thời.
Ngoài ra, BI giúp còn giúp doanh nghiệp dễ dàng xác lập những báo cáo động
(ad-hoc report) theo bất cứ chiều thông tin nào mà không cần kiến thức chuyên
môn cao về cơ sở dữ liệu. BI giúp tích hợp các phương tiện phân tích, so sánh, và
đánh giá rõ ràng, tiện lợi như các khung quản lý chỉ tiêu (dashboard), hệ thống
các biểu đồ động (graphical chart), bộ chỉ tiêu quản lý hiệu năng DN/tổ chức
(key performance indicators - KPIs), hệ thống báo cáo phân tích giả lập
(Simulation and Forecasting Reports)
16. Doanh nghiệp và BI
Trong một nghiên cứu gần đây tại Anh của Trung tâm Máy tính Quốc gia (UK
National Computer Centre), 53% số công ty được hỏi phản hồi là mức độ khai
thác và thể hiện dữ liệu BI chỉ ở mức trung bình, có 13% số lượng được hỏi cho
biết hiệu quả hệ thống là tốt, và 6% đánh giá ở mức rất tốt. Một tỉ lệ tương ứng
với 16% cho biết là hệ thống vận hành tồi và 6% đánh giá mức rất tồi.
Mặc dù có tới 61% doanh nghiệp muốn tăng cường ứng dụng các giải pháp Data

Warehouse và BI, nhưng nhiều doanh nghiệp vẫn rất băn khoăn các giải pháp đó
đáp ứng các mục tiêu kinh doanh ở mức nào.Trên thực tế, các nghiên cứu chỉ ra
rằng việc hoạt động không hiệu quả chủ yếu do tác động của các yếu tố như:
Thông tin bị phân bố trên quá nhiều hệ thống và chưa tập hợp được đầy đủ do
gặp khó khăn trong việc tìm kiếm và truy cập. Việc này dẫn đến các số liệu,
thông tin không được cập nhật đủ nhanh, Chất lượng dữ liệu đã được cải thiện
trong những năm gần đây nhưng việc quản lý dữ liệu cần được nâng cao.
Quá tập trung vào yếu tố kỹ thuật dựa vào công nghệ trong khi thực tế chỉ ra rằng
việc kết hợp tốt nhất giữa công nghệ và con người mới đem lại hiệu quả. Đối tác
triển khai không có nhiều hiểu biết về các hoạt động nghiệp vụ của doanh
nghiệp/công ty do đó không triển khai đúng như yêu cầu.
Để lựa chọn việc phát triển mới hệ thống DW và BI, tổ chức/doanh nghiệp cần
chú trọng tới, Nguồn dữ liệu của mình có tốt không, tập hợp từ bao nhiêu nguồn,
tần suất cập nhật dữ liệu, mức độ trùng lặp dữ liệu. Nguồn dữ liệu cần luôn được
cập nhật và sàng lọc để đảm bảo tính chính xác.
Mức độ phát triển và liên kết của dữ liệu, nên đầu tư một hệ thống phục vụ cho
nhu cầu doanh nghiệp (ví dụ như dễ thiết kế chỉnh sửa hay giao diện thân
thiện ) thay vì đầu tư một hệ thống lớn mà không khai thác hết, Các quy trình
doanh nghiệp, các chiều thông tin cần phân tích/dự báo phải được xác định rõ từ
đầu để lựa chọn giải pháp thích hợp.
Năng lực của con người trong hệ thống đối với việc sử dụng, khai thác và vận
hành, Cần xác định rõ nguồn vốn đầu tư (bao gồm cả các chi phí ban đầu, chi phí
đào tạo, chi phí vận hành ) để lựa chọn giải pháp và hình thức xây dựng giải
pháp một cách hợp lý. Liên kết và làm việc với các đối tác nhiều kinh nghiệm
trong lĩnh vực của mình, tài chính, ERP và CRM để có thể triển khai giải pháp
thành công và bền vững, BI cũng như ERP khó để triển khai do đó việc lựa chọn
đúng đối tác là một việc rất quan trọng
Ứng dụng công cụ BI sẽ là một bước phát triển tiếp theo của DN sau khi đã ứng
dụng hiệu quả hệ thống quản trị doanh nghiệp ERP. Trong khi nhu cầu ứng dụng
ERP đang ngày càng phát triển ở các doanh nghiệp trong và ngoài nước, dự báo

sẽ có thêm nhiều doanh nghiệp quan tâm đến mở rộng ứng dụng BI cho lãnh đạo
doanh nghiệp, nhằm nâng cao hơn nữa năng lực cạnh tranh của doanh nghiệp
trên thị trường.
IV. Cây quyết định
1 Các khái niệm cơ bản:
Cây quyết định là công cụ mạnh mẽ cho việc phân loại và tiên đoán.Sự hấp dẫn
của của phương pháp thiết lập cây này là vì nó thích hợp với một lượng lớn sự
kiện , ngược lại với mạng Neutral cây quyết định thể hiện những luật.Những luật
này có thể dễ dàng diễn tả mà con người có thể hiểu chúng.Việc tạo quyết định
có rất nhiều ứng dụng ví dụ như hệ thống thư tín của công ty chứa đựng một mô
hình mà có thể chính xát tiên đoán thành viên nào của nhóm trực sẽ trả lời cho
một yêu cầu nhất định mà họ không cần quan tâm mô hình này hoạt động như thế
nào.Trong một số những trường hợp khác khả năng giải thích cho việc đưa ra
quyết định là vấn đề chính yếu.Trong một số ứng dụng , sự phân loại hay sự tiên
đoán là vấn đề hết sức quan trọng.
1 Học cây quyết định
Là phương pháp xấp xỉ giá trị rời rạc bởi những hàm mục tiêu ( target
function), trong đó hàm được biểu diễn bởi một cây quyết định.Những cây học
( learned trees) có thể cũng được biểu diễn như là tập hợp của những luật if then
để tăng tính dễ đọc cho con người . Những phương pháp học này thể hiện trong
những giải thuật suy diễn quy nạp thông dụng nhất và được ứng dụng thành công
trong những nhiệm vụ từ việc học để chuẩn đoán bệnh trong y học đến việc định
giá rủi ro trong tài chính về kinh tế .
6) Cây quyết định
Cây quyết định là cây trong đó mỗi nút nhánh thể hiện một sự lựa chọn
trong số nhiều sự lựa chọn và mỗi nút lá là sự thể hiện của một quyết định.Cây
quyết định thông thường được sử dụng cho việc đạt được thông tin cho mục đính
tạo quyết định.Cây quyết định bắt đầu với một nút gốc từ đó user nhận được
những hành động.Từ nút này , user chia ra mỗi nút theo cách đệ qui theo giải
thuật học cây quyết định .Kết quả cuối cùng là một cây quyết định trong đó mỗi

nhánh thể hiện một trường hợp có thể của quyết định và hệ quả của quyết định
đó.
7) Sự thể hiện của cây quyết định
Cây quyết định phân chia những trường hợp bằng việc xắp xếp từ nút gốc
đến những nút lá . Điều đó đã đưa ra sự phân loại cho từng trường hợp .Mỗi nút
trong cây diễn tả một sự kiểm tra cho một số thuộc tính của trường hợp và mỗi
nhánh đi xuống từ nút đó đại diện cho một trong những giá trị có thể cho thuộc
tính này . Một trường hợp được phân loại bằng việc bắt đầu tại nút gốc của cây ,
kiểm tra những thuộc tính xát định của nút này sau đó chuyển xuống những
nhánh tương ứng với việc đánh giá thuộc tính .Quá trình này được lặp lại cho
những cây con lúc đó nút gốc mới được xát định.
8) Giải thuật học cây quyết định
Cây quyết định là phương pháp xấp xỉ hóa bằng hàm mục tiêu những giá
trị rời ,rạc trong đó những hàm được học được thể hiện bằng cây quyết định .
Học cây quyết định là một trong những phương pháp thực dụng và được sử dụng
rộng rãi nhất cho phương pháp suy diễn qui nạp.
Giải thuật học cây quyết định được sử dụng thành công trong hệ chuyên
gia trong việc nằm bắt kiến thức.Công việc chính sử dụng trong các hệ thống
này là việc sử dụng phương pháp qui nạp cho những giá trị cho trước của những
thuộc tính của một đối tượng chưa biết để xát định sự phân loại xấp xỉ theo
những luật của cây quyết định.Cây quyết định sẽ phân loại các trường hợp bằng
cách duyệt từ nút gốc đến những nút lá.Chúng ta sẽ bắt đầu từ nút gốc của cây
quyết định , kiểm tra thuộc tính xát định bởi nút này sau đó chuyển xuống những
nhánh của cây theo giá trị thuộc tính trong tập hợp cho trước.Quá trình này được
lặp lại tại những cây con .Giải thuật cây quyết định thích hợp cho những điều
dưới đây:
• Mỗi trường hợp được biểu diễn bởi cặp những giá trị thuộc tính.Ví dụ
thuộc tính “nhiệt độ“ có những giá trị “nóng”,”mát”, “lạnh”.Chúng cũng
đồng thời liên quan đến thuộc tính mở rộng , giá trị tiếp theo, dữ liệu
được tính toán ( giá trị thuộc tính bằng số) trong dự án của chúng ta.

• Hàm mục tiêu có giá trị đầu ra là những giá trị rời rạc.Nó dễ dàng liên hệ
đến trường hợp mà được gán vào một quyết định đúng hoặc sai.Nó cũng
có thể mở rộng hàm mục tiêu đến giá trị đầu ra là những giá trị thực .
• Những dữ liệu đưa vào có thể chứa đựng nhiều lỗi điều này liên quan đến
kĩ thuật giản lược những dữ liệu thừa.
9) Cây quyết định là một phương pháp học qui nạp hấp dẫn
Những phương pháp học qui nạp tạo thành những công thức cho không
gian giả thuyết tổng quát bằng việc tìm ra tính qui tắc bằng kinh nghiệm dựa trên
những dữ liệu ví dụ.
Với học qui nạp , học cây quyết định hấp dẫn vì 3 nguyên nhân:
Cây quyết định là một sự tổng quát tốt cho những trường hợp ta không để ý đến ,
chỉ những trường hợp được mô tả trong những giới hạn của những đặc tính mà
liên quan đến những khái niệm mục tiêu.
Những phương pháp hiệu quả trong tính toán là số hạng của tỉ lệ thức đến số của
những trường hợp của dữ liệu đưa vào tính toán.
Kết quả của cây quyết định đưa ra một sự biểu diễn của ý niệm mà dễ dàng cho
con người bởi vì nó đưa ra quá trình phân loại hiển nhiên
17. Thuật toán ID3
1 Giới thiệu về giải thuật ID3
ID3 là một giải thuật học cây quyết định được phát triển bởi Ross
Quinlan (1983). Ý tưởng cơ bản của giải thuật ID3 là để xây dựng cây quyết định
bằng việc sử dụng một cách tìm kiếm từ trên xuống trên những tập hợp cho trước
để kiểm tra mỗi thuộc tính tại mỗi nút của cây . Để chọn ra thuộc tính mà hữu ích

×