Tải bản đầy đủ (.docx) (33 trang)

Tiểu luận môn Hệ hỗ trợ quyết định Tìm hiểu về business intelligent và các công cụ thực hiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 33 trang )

HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
Mục lục
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
Giới thiệu
Các doanh nghiệp luôn nỗ lực thu thập khối lượng lớn các dữ liệu khác nhau từ sự
biến động, hành vi tiêu dùng và mức độ trung thành của khách hàng để phục vụ cho mục
tiêu kinh doanh hiệu quả. Điều đáng tiếc là thực tế dữ liệu thường rời rạc, phục vụ cho một
số ứng dụng nghiệp vụ cụ thể, không hỗ trợ nhiều cho việc ra quyết định và trình diễn thông
tin một cách có ý nghĩa.
Để có thể biến dữ liệu thành thông tin hữu ích, các doanh nghiệp cần phải lựa chọn
công cụ thích hợp để tập hợp, xử lí và trình diễn dữ liệu một cách có liên quan và đúng lúc.
Với sự đa dạng các công cụ sẵn có trên thị trường hiện nay, rất dễ làm cho bạn khó lựa chọn
và đôi khi gây sự nhầm lẫn.
Business Intelligence (BI) không chỉ là một khuynh hướng đang thu hút sự chú ý của
nhiều doanh nghiệp khắp mọi nơi. Đó là công nghê tiên tiến nhất giúp chúng ta quản lý và
vận hành doanh nghiệp của mình một cách có hiệu quả nhất thông qua hệ thống xử lý dữ
liệu thô thành thông tin chất lượng cao.
Tại Việt Nam, BI không chỉ là xu thế của phát triển mà hơn nữa nó đã và đang trở
thành nhân tố vô cùng quan trọng, ảnh hưởng đến sự thành công của doanh nghiệp.
Bài tiểu luận này chủ yếu tập trung đi vào tìm hiểu về BI, các lợi ích cũng như khó
khăn nó mang lại khi thực hiện và giới thiệu một vài công cụ BI hiệu quả hiện nay đang
được rất nhiều người sử dụng.
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
Danh mục hình ảnh
HỆ HỖ TRỢ RA QUYẾT ĐỊNH


CH1301016 - Vũ Quốc Hưng
Tr. 3
I. Business Intelligent
1. Khái niệm
Business Intelligence (BI - giải pháp quản trị doanh nghiệp thông minh) là một quy
trình, công nghệ cho phép tổ chức, doanh nghiệp khai thác dữ liệu từ nhiều nguồn khác
nhau về khách hàng, thị trường, nhà cung cấp, đối tác, nhân sự và phân tích, sử dụng các
dữ liệu đó thành các nguồn thông tin có ý nghĩa nhằm hỗ trợ việc ra quyết định. Công nghệ
BI cung cấp một cách nhìn toàn cảnh về hoạt động của doanh nghiệp từ quá khứ, hiện tại và
các dự đoán tương lai. Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết định tốt hơn, vì
yậy một hệ thống BI còn có thể được coi là hệ thống hỗ trợ quyết đinh.
Thông thường đầu ra trong mỗi hệ thống ERP, CRM… là các dữ liệu đã sẵn sàng
phục vụ việc phân tích. Tuy nhiên, đối với nhiều tổ chức/doanh nghiệp, việc khai thác các
dữ liệu này chưa được chú trọng nên chỉ cừng ở các yêu cầu kết xuất báo cáo nghiệp vụ đơn
thuần của các phòng ban. Khá nhiều thông tin quan trọng cho người ra quyết định và lập kế
hoạch chiến lược đã bị bỏ qua do thiếu công cụ tổng hợp, phân tích,”móc nối” các dữ liệu
này, hoặc do người lãnh đạo không nhìn nhận khả năng này nên không đặt ra yêu cầu với hệ
thống công nghệ thông tin. Xét ở góc độ đầu tư thì đây là sự lãnh phí lớn.
Trên thực tế, BI cần cho mọi tổ chức/doanh nghiệp có nhu cầu tích hợp dữ liệu và
phân tích thông tin. Đối với nhà quản lý, đây là hệ thống phân tích hoạt động doanh nghiệp
chính xác và toàn diện nhất do thông tin được tổng hợp từ nhiều nguồn trong doanh nghiệp.
Trong nhiều trường hợp, nếu không sử dụng BI, tổ chức/doanh nghiệp sẽ không có được kết
quả ngay, thậm chí có thể tốn kém một khoản chi phí cho việc khảo sát, nghiên cứu, tìm tòi
mới có được kết quả. Với BI, doanh nghiệp dễ dàng có ngay thông tin phân tích quản lý, để
trả lời các câu hỏi như: “khách hàng quan trọng nhất của doanh nghiệp hiện nay là ai?; “Thị
trường nào đang mang lại tỷ trọng lợi nhuận chính?”
Khảo sát của Gartner đối với các CIO trong năm năm trở lại đây cho thấy giải pháp
BI luôn đứng đầu trong thứ tự ưu tiên về nhu cầu đầu tư công nghệ của doanh nghiệp. Trải
qua hai mươi năm phát triển, ngày nay hệ thống BI đã dần trở nên hoàn thiện và có xu
hướng đáp ứng bốn nhu cầu quan trọng mà người quản trị luôn mong đợi đó là:

• Data Warehouse - Khai thác dữ liệu tập trung.
• Analysis -Báo cáo phân tích cao cấp.
• Monitoring - Giám sát và cảnh báo tự động.
• Planning and Forecasting - Dự đoán và lên kế hoạch.
2. Các thành phần chính của BI
Các thành phần chính của hệ thống BI được mô tả như hình dưới đây
Increasing potential to support business decisions
End User
Business Analyst
Data Analyst
DBA
Making
Decisions
Making
Decisions
Data Presentaon
Visualizaon Techniques
Data Presentaon
Visualizaon Techniques
Data Mining
Informaon Discovery
Data Mining
Informaon Discovery
Data Exploraon
Stascal Analysis, Querying and Reporng
Data Exploraon
Stascal Analysis, Querying and Reporng
Data Warehouses/Data Marts
OLAP, MDA
Data Warehouses/Data Marts

OLAP, MDA
Data Sources
Paper, Files, Informaon Providers, Database Systems, OLTP
Data Sources
Paper, Files, Informaon Providers, Database Systems, OLTP
Business Intelligent
Business Analyst
Data Mining
Data
Warehouse
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
Hình 1.1. Các thành phần của hệ thống BI
Vấn đề cốt lõi trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá dữ liệu
(Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng,
phân tán và có tính lịch sử) đó là đặc trưng của kho dữ liệu. Đồng thời việc phân tích dữ liệu
trong BI không phải là những phân tích đơn giản (query, Filtering) mà là những kỹ thuật
trong khai phá dữ liệu (Data Mining) dùng để phân loại (classification) phân cụm
(clustering), hay dự đoán (Prediction). Vì vậy BI có mối quan hệ rất chặt chẽ với Data
Warehouse và Data mining.
Về cơ bản, Hệ thống BI đơn
giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:
Hình 1.2. 3 thành phần cơ bản của BI
Trong đó:
• Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp của doanh nghiệp
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
• Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và phát hiện

tri thức như phân loại (Classification), phân nhóm (clustering), phát hiện luật kết hợp
(Association Rule), Dự đoán (Predcition),…
• Business Analyst (Phân tích kinh Doanh: Các nhà lãnh đạo Doanh nghiệp đưa ra
những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp.
3. Lợi ích của BI đối với doanh nghiệp
 Tiết kiệm chi phí: Thông thường để biết được lí do vì sao kết quả kinh doanh tháng
này giảm so với tháng trước, nhà quản lý thường phải tìm hiểu qua nhiều kênh thông
tin khác nhau từ phòng kế toán tới phòng kinh doanh , nhiều khi tiêu tốn khá nhiều
thời gian, nguồn lực. Còn với giải pháp BI, tận dụng ưu thế có thể phân tích sâu theo
nhiều chiều, nhà quản lý có thể tìm ngay được nguyên nhân bị giảm doanh thu là do
đâu, cụ thể vùng miền nào mà hầu như không cần nhờ đến bất cứ ai. Trong bối cảnh
hiện nay, việc giúp doanh nghiệp truy xuất nhanh gọn thông tin được coi như một
giải pháp giúp tiết kiệm chi phí, nâng cao hiệu quả hoạt động.
 Chọn lọc mặt hàng kinh doanh: Bằng cách đo lường các chỉ số đánh giá hiệu quả
hoạt động chủ chốt về số lần bảo hành, các mặt hàng bán chậm nhất hay số khách
hàng mua và tổng doanh thu bán được từ những mặt hàng đó, BI giúp nhà quản lý
biết được những mặt hàng kém hiệu quả, làm tiêu tốn nhiều chi phí cho các hoạt
động hỗ trợ, tồn kho để từ đó ra quyết định loại bỏ hay cải tiến thành một sản phẩm
mới.
 Phân tích hiệu quả của các chưong trình khuyến mãi, quảng cáo: Thông qua việc
thu thập thông tin về số lượng hàng bán, doanh thu, chi phí, số khách hàng mới, số
sản phẩm bán được của các chương trình khuyến mãi, quảng cáo hệ thống BI sẽ
đưa ra báo cáo phân tích về mức độ hiệu quả của chương trình, từ đó nhà quản lý sẽ
biết được chương trình dạng nào mang lại hiệu quả cao nhất để áp dụng lại cho
những lần sau. Ngoài ra, dựa trên những bảng khảo sát, dữ liệu về bán hàng, BI có
thể cho biết tác động của những hoạt động đó như thế nào sau mỗi kỳ quảng cáo,
tung ra sản phẩm, dịch vụ mới.
 Nâng cao năng lực của nhân viên kinh doanh: Trong doanh nghiệp có nhiều kênh
phân phối, nhiều chi nhánh đại lý, nhân viên kinh doanh được tổ chức thành nhiều
cấp nên việc đo lường và đánh giá hiệu quả làm việc của nhân viên một cách chính

xác thường khó khăn và tốn nhiều thời gian. Đe đánh giá đúng phải dựa trên nhiều
tiêu chí: doanh số, số khách hàng mới tìm được, và phải có trọng số riêng cho từng
kênh bán hàng Với sự hỗ trợ của hệ thống BI, nhà quản lý có thể đo lường nhiều
tiêu chí đánh giá, từ đó có những quyết định thưởng phạt, điều chỉnh nhân sự chính
xác.
 Nâng cao hiệu quả phục vụ khách hàng : Nắm bắt thông tin khách hàng ở nhiều
góc độ khác nhau sẽ giúp doanh nghiệp phục vụ khách hàng tốt hơn. Hệ thống BI
cung cấp cho doanh nghiệp cái nhìn tổng thể về khách hàng bằng cách phân loại
khách hàng theo nhiều tiêu chí khác nhau: độ tuổi, giới tính, nơi sinh sống, thu nhập,
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
doanh thu để doanh nghiệp có thể cung cấp những sản phẩm phù hợp với nhu cầu
của họ hay có thể thiết kế những chương trình khuyến mãi, quảng cáo riêng cho
những khu vực mà những đối tượng đó tập trung đông nhất.
 Đánh giá đối thủ cạnh tranh, mở rộng thị trường: Đối với thị trường cạnh tranh
gay gắt như hiện nay, nhà quản lý không những phải nắm rõ tình hình của doanh
nghiệp mình mà cần phải đánh giá được tiềm lực của đối thủ cạnh tranh trong ngành,
nắm được danh sách những khách hàng tiềm năng để mở rộng thị phần, tìm kiếm
thêm khách hàng mới. Thông qua việc thu thập thông tin từ bên ngoài doanh nghiệp,
BI có thể đưa ra báo cáo so sánh doanh thu, số lượng khách hàng của doanh nghiệp
so với các đối thủ khác trong ngành. Hoặc khi đối thủ tung ra một chương trình
khuyến mãi nào đó, doanh nghiệp sử dụng hệ thống BI để đo lường doanh thu và số
khách hàng của mình, từ đó đối chiếu với mức độ lôi cuốn của chương trình, nếu số
khách hàng giảm đáng kể nhưng doanh thu vẫn không giảm nhiều chứng tỏ chương
trình của đối thủ chỉ thu hút những khách hàng có giá trị thấp, và ngược lại là chương
trình thành công. Từ đó doanh nghiệp có thể học được ở đối thủ và có những hành
động để kéo những khách hàng có giá trị cao về phía mình.
 Khai thác dữ liệu tập trung: Khi doanh nghiệp hoạt động hiệu quả thì việc mở rộng
phạm vi trên nhiều tỉnh thành, hay nhiều quốc gia là nhu cầu tất yếu. Song song với

việc phát triển như thế, thì ban quản trị cũng vấp phải rất nhiều khó khăn trong quản
lý. Dữ liệu của công ty, tập đoàn nằm rải rác ở nhiều nơi và dưới nhiều hình thức
khác nhau. Do đó, bất cứ nhu cầu truy vấn, phân tích hay so sánh giữa các vùng với
nhau đều tiêu tốn rất nhiều thời gian và công sức. Với Data Warehouse (Kho dữ liệu)
của BI, những dữ liệu quan trọng nằm rải rác nhiều nơi, dưới nhiều định dạng khác
nhau của doanh nghiệp sẽ được trích xuất đều đặn và được tập hợp lại thành một cấu
trúc thống nhất. Qua đó những báo cáo từ chi tiết đến tổng quát của toàn doanh
nghiệp đều luôn đảm bảo được tính chính xác và kịp thời. “Kho dữ liệu” đã được rất
nhiều tập đoàn lớn nhìn nhận là một phần quan trọng trên bước đường toàn cầu hóa
của họ.
 Báo cáo phân tích cao cấp: Một trong những nỗi sợ hãi lớn nhất của quản trị doanh
nghiệp là bị chìm ngập trong một rừng dữ liệu. Sắp xếp quản lý cánh rừng đó đã là
quá khó khăn nói chi đến việc khai thác giá trị từ đó. Nhưng thực tế trong quá trình
đưa ra quyết định vẫn luôn đòi hỏi những nhu cầu truy vấn phức tạp. Hiện nay giải
pháp báo cáo phân tích cao cấp của BI đã tương đối hoàn thiện với những tính năng
nổi bật như:
o Đào sâu dữ liệu đến mức tối đa: Giúp ta có thể giải quyết những yêu cầu
phức tạp như “cung cấp thông tin về doanh thu và số lượng mặt hàng bán
được của 3 năm gần nhất, theo tất cả các vùng, ứng với tất cả các nhóm sản
phẩm và từng sản phẩm, và nhân viên thực hiện giao dịch”. Với những dạng
câu hỏi như trên người quản trị chỉ mất vài giây tương tác hệ thống OLAP là
đã có được câu trả lời.
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
o Khả năng tùy biến chiều thông tin: Song song với tính năng đào sâu dữ liệu
là khả năng tùy chỉnh thứ tự của các chiều thông tin. Ví dụ cũng với những
chiều thông tin như yêu cầu trên ta có góc nhìn khác như “cung cấp thông tin
về doanh thu và số lượng mặt hàng bán được, ứng với các nhân viên bán
hàng, của toàn bộ các vùng, trên tất cả các nhóm sản phẩm và từng sản phẩm,

trong 3 năm gần nhất”.
 Giám sát và cảnh báo tự động: Để khẳng định tên tuổi của mình hơn nữa trên thị
phần BI, các nhà cung cấp giải pháp lớn như BusinessObjects, Cognos, Hyperion,
SAS liên tục đầu tư vào phần giao diện người dùng. Các khái niệm về Dashboards
- bảng điều khiển, Scorecards - bảng chỉ số đã được áp dụng vào quản lý doanh
nghiệp. Nhờ vào bảng điều khiển mà các chỉ số thể hiện tình trạng phát triển của
công ty (KPIs) luôn được tự động tổng hợp và cập nhật thường xuyên. Ngoài chức
năng cảnh báo tự động qua màu sắc, hình ảnh, hệ thống BI còn có chức năng tự động
gửi email thông báo đến người có thẩm quyền, giúp người quản lý luôn có được
thông tin về những gì đang xảy ra.
 Dự đoán và lên kế hoạch: Trong môi trường thực tế, để tổng hợp được một bảng kế
hoạch cho quí tới, năm tới hay phương hướng của công ty trong nhiều năm tới sẽ rất
phức tạp. Hầu như các bảng kế hoạch và dự báo của DN đều phụ thuộc vào nhận
định chủ quan của một số người có kinh nghiệm. Tất cả những người quản lý chắc
hẳn ai cũng muốn có được sự hỗ trợ đáng tin cậy và mang tính khoa học nhằm giúp
họ đưa ra được những dự báo vững chắc hơn. Nắm bắt nhu cầu này, các tên tuổi
hàng đầu về hệ thống BI như: Business Objects, Cognos, SAP Business Intelligence,
BI, đều hỗ trợ khá tốt khả năng dự báo và lên kế hoạch của doanh nghiệp. Kết hợp
với kinh nghiệm của người sử dụng, những bảng kế hoạch cho tương lai được tổng
hợp khá nhanh và có độ chính xác cao. Ngoài hai tính năng trên, hệ thống BI còn
giúp cho người sử dụng khả năng phân tích giả định - what-if analysis and
simulation. Chức năng này giúp cho người sử dụng có thể giả lập một số biến cố, qua
đó đánh giá được xu thế thay đổi của các chỉ số KPIs mà họ quan tâm.
4. Những nhược điểm của BI
Các lợi ích của BI đối với doanh nghiệp rất rõ ràng và không thể phủ nhận, BI giúp
các doanh nghiệp khẳng định vị thế của mình trên trường quốc tế. Tuy nhiên khi xem xét ở
nhiều góc độ ta có thể tìm ra được vài nhược điểm của BI như sau:
 Sự chồng chất lịch sử dữ liệu: Mục đích chỉnh của BI là lưu trữ dữ liệu giao dịch
quá khứ của công ty và từ đó xuất báo cáo và giúp các chuyên gia quyết định đến
hướng đi tiếp theo của doanh nghiệp, xét theo khía cạnh này, các lịch sử này chỉ

chiếm một phần nhỏ những gì các công ty cần để hoạt động, nhưng theo khía cạnh
khác, người dùng có thể không quan tâm đến vấn đề lịch sử như trong thị trường có
nhiều công ty thay đổi thường xuyên.
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
 Chi phí: Việc xử dụng BI trong một vài thời điểm có thể là quá tốn kém cho các
công ty vừa và nhỏ, chẳng hạn như việc sử dụng BI trong các giao dịch kinh doanh
cơ bản.
 Phức tạp: Một bất lợi nữa của BI là việc thực hiện các thao tác trên dữ liệu rất phức
tạp để đối phó với các kỹ thuật kinh doanh cứng nhắc. theo quan điểm này, nhiều
chuyên gia dự đoán rằng sự phức tạp này là tiền để để tối ưu một vài hoạt động kinh
doanh nào đó.
 Bừa bộn: BI có thể là nguyên nhân gây ra nhiều sự lộn xộn trong các thiết lập về
kinh doanh.
 Hạn chế sử dụng: Cũng giống như các kỹ thuật đang được hoàn thiện, ban đầu BI
được tạo ra để đánh giá tình hình hoạt động của các doanh nghiệp lớn. mặc dù ngày
nay, hệ thống BI đã được phát triển để dùng trong các doanh nghiệp vừa và nhỏ
nhưng thực tế là có nhiều công ty không coi BI là cần thiết vì độ phức tạp của nó.
 Thời gian thực hiện: Để tương tác hoàn thiện với hệ thống kho dữ liệu thì phải mất
khoảng 18 tháng. Nhiều công ty phải cạnh tranh gay gắt với đối thủ của họ, họ không
đủ kiên nhẫn để ngồi chờ quá trình phân tích hoàn chỉnh để xuất báo cáo tài chính.
5. Cách ứng dụng BI
 Ở mức hệ thống, BI là khâu cuối cùng của các giải pháp ERP, CRM… nghĩa là chỉ
khi các hệ thống quản trị thông tin này đi vào vận hành, khai thác thì BI mới phát
huy được công việc của mình. Ở mức đơn giản, BI là các yêu cầu đặt ra của nhà lãnh
đạo với mỗi hệ thống phần mềm quản lý.
Ví dụ, nhiều công ty hiện nay khai thác báo cáo tài chính hoặc yêu cầu đơn vị triển
khai xây dựng thêm phân hệ báo cáo tài chính hoặc yêu cầu đơn vị triển khai xây
dựng thêm phân hệ báo cáo cho hội đồng quản trị song song với hệ thống ERP trong

doanh nghiệp.
 BI vừa là đầu ra cuối cùng của các hệ thống ERP, CRM… vừa là đầu vào cho chính
các hệ thống này. Vì nếu xây dựng doanh nghiệp từ các kết quả đánh giá của BI, tức
là từ các chỉ số đánh giá hiệu năng doanh nghiệp thì doanh nghiệp sẽ có thông tin
đầu vào phản án chính xác kết quả đầu ra đó. Khi một doanh nghiệp ứng dụng ERP
thì việc áp dụng BI là phần liên kết rất nên phát triển và tận dụng. Điều đó sẽ giúp tổ
chức/doanh nghiệp hoàn thiện hệ thống ứng dụng công nghệ thông tin của mình để
thúc đẩy phát triển và nâng cao khả năng cạnh tranh.
 BI có thể triển khai trên những dữ liệu phi cấu trúc được tồn tại ở nhiều loại như
những tờ trình, báo cáo tổng kết của một cá nhân , một bộ phận, các email chào hàng
hay phàn nàn của khách hàng… tích hợp chúng lại và gộp với dữ liệu có cấu trúc để
phân tích. Đây là khả năng có thể đứng độc lập của BI, nghĩa là những doanh nghiệp
chưa có điều kiện sử dụng hệ thống ERP hay phần mềm nào đó, chỉ sử dụng Excel,
Access mà có nhu cầu phân tích thì BI là giải pháp tối ưu cho họ
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
6. Kỹ thuật OLAP
6.1. Giới thiệu OLAP
Khi nói đến BI thì phải nhắc đến kỹ thuật OLAP (Online Analitical Proccessing) là
phương pháp để trả lời những truy vấn đa chiều một cách nhanh chóng. OLAP là một phần
của hệ Business Intelligence, cùng với báo cáo quan hệ và khai phá dữ liệu. Nó cho phép
người sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khác
nhau, khoan xuống (drill down) mức chi tiết hơn hay cuộn lên (roll up) mức tổng hợp hơn
của dữ liệu. Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ kho dữ liệu hoặc từ Data
mart (kho dữ liệu chủ đề) sau đó được chuyển thành mô hình đa chiều và được lưu trữ trong
một kho dữ liệu đa chiều. Đối tượng chính của OLAP là khối, một sự biểu diễn đa chiều của
dữ liệu chi tiết và tổng thể. Một khối bao gồm một bảng sự kiện (Fact), một hoặc nhiều
bảng chiều (Dimensions), các đơn vị đo (Measures) và các phân hoạch (Partitions). Những
ứng dụng tiêu biểu của OLAP : báo cáo bán hàng, báo cáo marketing, báo cáo quản lý, dự

thảo ngân sách, báo cáo tài chính, Thuật ngữ OLAP có thể coi là một biến thể nhỏ của
thuật ngữ cơ sở dữ liệu truyền thống OLTP (Xử lý giao tác trực tuyến).
Trong khi Data warehouse và data mart lưu trữ dữ liệu cho phân tích, thì OLAP là kỹ
thuật cho phép các ứng dụng client truy xuất hiệu quả dữ liệu này. OLAP cung cấp nhiều lợi
ích cho người phân tích, ví dụ:
 Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng
và khám phá dữ liệu.
 Cung cấp một ngôn ngữ truy vấn phân tích, cung cấp sức mạnh để khám phá các mối
quan hệ trong dữ liệu kinh doanh phức tạp. Dữ liệu được tính toán trước đối với các
truy vấn thường xuyên nhằm làm cho thời gian trả lời rất nhanh đối với các truy vấn
đặc biệt.
 Cung cấp các công cụ mạnh giúp người dùng tạo các khung nhìn mới của dữ liệu dựa
trên một tập các hàm tính toán đặc biệt.
OLAP được đặt ra để xử lý các truy vấn liên quan đến lượng dữ liệu rất lớn mà nếu
cho thực thi các truy vấn này trong hệ thống OLTP sẽ không thể cho kết quả hoặc sẽ mất rất
nhiều thời gian.
6.2. Các thành phần trong hệ thống OLAP
 Khối (Cube) : Khối là phần tử chính trong xử lý phân tích trực tuyến, là tập con dữ
liệu từ kho dữ liệu, được tổ chức và tống hợp trong các cấu trúc đa chiều. Để xác
định một khối, ta chọn một bảng Fact và các đơn vị đo lường đồng nhất (các cột số
theo sự quan tâm của người dùng khối) trong bảng Fact. Sau đó chọn các chiều, mỗi
chiều gồm một hay nhiều cột từ bảng liên quan khác. Các chiều cung cấp mô tả rõ
ràng bởi các đơn vị đo lường được chia ra của người dùng khối.
 Chiều (Dimension): Các chiều là cách mô tả chủng loại mà theo đó các dừ liệu số
trong khối được phân chia để phân tích. Khi xác định một chiều, chọn một hoặc
nhiều cột của một trong các bảng liên kết (bảng chiều). Nếu ta chọn các cột phức tạp
thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ
chức theo hệ thống phân cấp đơn. Để xác định hệ thống phân cấp, sắp xếp các cột từ
chung nhất tới cụ thể nhất. Ví dụ: một chiều thời gian (Time) được tạo ra từ các cột
Năm, Qúy, Tháng, Ngày (Year, Quarter, Month và Day). Mỗi cột trong chiều góp

phần vào một cấp độ cho chiều. Các cấp độ được sắp đặt theo nét riêng biệt và được
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việc
đào sâu (drill down).
 Chiều có phân cấp: Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách
khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được. Phần
lớn các chiều đều có một cấu trúc đa mức hay phân cấp. Nếu chúng ta làm những
quyết định về giá sản phẩm để tối đa doanh thu thì chúng ta cần quan sát ở những dữ
liệu về doanh thu sản phẩm được gộp theo giá sản phẩm, tức là chúng ta đã thực hiện
một cách gộp. Khi cần làm những quyết định khác thì chúng ta cần thực hiện những
phép gộp tương ứng khác. Như vậy có thể có quá nhiều tiến trình gộp. Thế nên các
tiến trình gộp này cần phải được thực hiện một cách rất dễ dàng, linh hoạt để có thể
hỗ trợ những phân tích không hoạch định trước. Điều này có thể được giải quyết trên
cơ sở có sự trợ giúp của những phân cấp rộng và sâu.
 Roll_up và Drill_down: Dựa trên phân cấp theo chiều, từ một mức dưới, chúng ta
có thể cuộn lên (Roll_up) các mức trên, thực hiện một phép gộp, để có được kết qủa
tổng hợp hơn. Và từ một mức trên, có thể khoan sâu xuống (Drill_down) các mức
dưới, để có các kết quả chi tiết hơn.
 Các đơn vị đo lưòng (Measures): Các đơn vị đo của khối là các cột trong bảng Fact.
Các đơn vị đo lường xác định những giá trị số từ bảng Fact mà được tổng hợp phân
tích như định giá, trị giá, hoặc số lượng bán.
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
7. Tương lai của BI
BI đang thay đổi rất nhanh do sự phát triển của những công nghệ then chốt trong nó -
việc sử dụng các hệ thống phần mềm BI trên bộ nhớ chính (in-memory), sự phát triển của
các ứng dụng phân tích di động cũng như việc triển khai các phần cứng và phần mềm đóng

gói tương thích và tối ưu cho việc phân tích kinh doanh. Tiến tới, chắc chắn sẽ có thêm các
hệ thống phân tích dữ liệu dựa trên các ứng dụng điện toán đám mây.
Theo đánh giá của Gartner, thị trường các trang thiết bị BI của thế giới đã tăng
trưởng hơn 10% và đạt hơn 10,8 tỷ USD. Các nhà phân tích lưu ý rằng, thị trường BI đang
phát triển năng động với sự khai phá công nghệ của các nhà phát triển phần mềm độc lập
như TIBCO, Sportfire và QlikTech. Các đấu thủ chính của thị trường BI đang đáp lại sự
bành trướng của các nhà sản xuất thiết bị khai thác dữ liệu bằng việc đưa ra các giải pháp
"dễ sử dụng". Chẳng hạn, đó là các hãng Microsoft PowerPivot, SAP BusinessObject
Explorer, IBM Cognos Express và Information Builders WebFocus Visual Discovery.
Một thời gian dài, giải pháp BI được định hướng chủ yếu vào phục vụ các tổ chức
lớn có đủ nguồn lực tài chính và con người để thực việc phân tích dữ liệu một cách có hệ
thống. Chỉ có những phân tích viên chuyên tạo các báo cáo cần thiết mới tiếp cận được hệ
thống này. Người đặt hàng các báo cáo đó là các nhà quản lý cấp cao.
Gần đây, đã xuất hiện các giải pháp định hướng đến người dùng doanh nghiệp, đặc
biệt là các nhà quản lý trung và cao cấp. Nhờ những giải pháp này mà họ đã có được các
công cụ cho phép tự nhận báo cáo không cần qua các phân tích viên hay chuyên gia công
nghệ thông tin: Họ tự do lựa chọn các báo cáo, kể cả cách trình bày các báo cáo đó (theo đồ
thị, biểu đồ ).
Những giải pháp BI hiện đại ngày càng hướng đến đáp ứng nhu cầu sử dụng đại trà
trong việc phân tích tác nghiệp, phục vụ lãnh đạo và chuyên gia ở nhiều cấp độ khác nhau
và phạm vi hoạt động rất rộng lớn. Đặc điểm chính của những giải pháp này là dễ sử dụng,
có hàng loạt chức năng hướng tới các ứng dụng kinh doanh cụ thể cũng như hiệu suất cao,
cùng khả năng triển khai trên các cấu hình máy tính không được cao cho lắm của người
dùng phổ thông.
Diện ứng dụng của BI thường xuyên được mở rộng: Hỗ trợ việc ra quyết định chiến
lược; phân tích hoạt động kinh doanh và quản lý hiệu suất; phân tích quản lý quan hệ khách
hàng (trước hết dùng cho khối ngân hàng thương mại và các đơn vị bán lẻ); quản lý rủi ro
trong kinh doanh (chủ yếu trong mảng tài chính); phân tích thông tin doanh nghiệp trên các
mạng xã hội; BI di động; nhúng các hệ thống BI vào các trung tâm xử lý tình huống v.v
Hiện đã có hàng loạt ngành nghề tích cực ứng dụng các hệ thống BI hoặc ít nhất là

chuẩn bị áp dụng, gồm mảng tài chính (trước hết là các ngân hàng và các quỹ đầu tư), các
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
công ty truyền thông, các hệ thống bán lẻ, các cơ quan nhà nước, các cơ sở y tế, công
nghiệp năng lượng và tiện ích công cộng, giao thông vận tải và logistics
Khuynh hướng phát triển các hệ thống BI phần lớn được xác định không chỉ bởi nhu
cầu của các doanh nghiệp đặt hàng mà cả ở các khả năng của kiến trúc điện toán mà các hệ
thống BI xây dựng trên đó. Trong vòng mười năm gần đây, các nhà phát triển BI đã cố gắng
nối kết chúng với những sáng tạo lớn về công nghệ và kiến trúc, từ SOA, kiến trúc cổng
thông tin và công nghệ ảo hoá, các giải pháp di động Hiện nay, các nhà sản xuất các hệ
thống BI đang cố gắng tích hợp chúng vào môi trường và kiến trúc đám mây. Làm cho BI
tương thích với điện toán đám mây là vấn đề đang được nhiều nhà cung cấp thử sức. Tuy
nhiên, những giải pháp đó sẽ chiếm vị trí nào trên "đám mây" thì mọi người chưa hình dung
hết. Hoạt động BI luôn đòi hỏi những lượng dữ liệu lớn nên việc truyền tải dữ liệu trên các
đám mây sẽ gây cho các nhà cung cấp dịch vụ không ít khó khăn.
Có thể coi việc sử dụng tích cực năng lực tính toán trên bộ nhớ chính (in-memory) là
phát hiện thành công của các nhà phát triển hệ thống BI. Việc xử lý dữ liệu trong bộ nhớ
phân tích cho phép nâng cao năng suất của hệ thống BI rất nhiều, tới hàng trăm lần, nhờ
giảm đến tối thiểu nhu cầu kết nối với dữ liệu được triển khai trên các ổ cứng (việc trao đổi
dữ liệu với các đĩa cứng chậm hơn rất nhiều so với trao đổi dữ liệu nằm trên bộ nhớ).
Cuối cùng, những giải pháp BI không cần đến các đĩa lưu trữ dữ liệu đang tỏ ra rẻ
hơn nhiều lần so với các hệ thống BI được xây dựng theo các sơ đồ cũ với kho lưu trữ dữ
liệu. Nhờ có chi phí tổng sở hữu thấp, chúng đang trở nên dễ tiếp cận hơn và vì thế dễ triển
khai đại trà hơn. Việc triển khai BI dựa trên tính toán của bộ nhớ cho đến nay đã nằm trong
tay hầu hết các đấu thủ chính của thị trường như IBM, Oracle, Microsoft, SAP. Trong số
các nhà cung cấp, QlikTech là công ty tập trung nhiều vào khả năng phân tích dữ liệu trên
bộ nhớ chính.
Training Set
Set

Learn
Classifier
Test
Set
Model
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
II. Một số công cụ thực hiện BI
Các công cụ hỗ trợ BI hiện nay đang có rất nhiều và hầu hết đều đáp ứng đủ những yêu cầu
cần thiết của các nhà quản lý. Nội dung bài nảy chỉ đề cập đến công cụ của Microsoft là
phần mềm Business Intelligence Development Studio (BIDS) và Weka để ứng dụng vào mô
hình phân lớp.
1. Định nghĩa phân lớp
Trong lĩnh vực máy học (machine Learning) và nhận dạng (pattern recognition), bài
toán phân lớp (classification) đề cập đến các thuật toán (algorithms) nhằm xác định lớp
(class) của đối tượng đã cho sẽ thuộc về lớp nào trong các lớp đã cho trước (Given
Categories). Một điều cần chú ý là khác với bài toán phân cụm (clustering), dữ liệu dùng để
xây dựng mô hình (Training Data) trong bài toán phân lớp phải được xác định lớp trước
(pre-Labeled). Ví dụ, xác định một email thuộc “spam” hoặc “non-spam”, hay xác định loại
bệnh của bệnh nhân dựa vào các triệu chứng của họ. Một thuật toán thực hiện việc phân lớp
được gọi là bộ phân lớp (classifier). Hình sau mô tả qui trình xây dựng mô hình phân lớp
các đối tượng.
Tid
Refu
nd
Marit
al
Statu
s

Taxa
ble
inco
me
Che
at
1 Yes Singl
e
125K No
2 No Marri
ed
100K No
3 No Singl
e
70K No
4 Yes Marri
ed
120K No
5 No Divor
ce
95K Yes
Hình 2.1. Quy trình xây dựng mô hình phân lớp
1.1. Qui trình Train và Test một classifier
 Dữ liệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải có
thuộc tính phân lớp gọi là categorical attribute
 Dữ liệu gốc sẽ được chia thành 2 phần là Training Set (để xây dựng model) và
Testing Set (để kiểm định Model)
Original
Dataset
Split

Dataset
Test
Set
Training
Set
Train
Classifier
Test
Classifier
Calculate
Error Rate
~ 2/3 Original Dataset
~ 1/3 Original Dataset
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
 Cuối cùng là tính toán lỗi để đánh giá Model
Hình 2.2. Quy trình Train và test một Classifier
1.2. Cross Validation (CV) trong Training and Testing Phase
Đây là kỹ thuật chủ yếu được sử dụng trong xây dựng predictive Model. Trong đó dữ
liệu gốc sẽ được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thực
hiện lặp lại n lần. Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và (n-1) phần
còn lại dùng để Train.
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
Hình 2.3. CV với 3-fold
2. Phân lớp với công cụ Weka
Ví dụ dưới đây sử dụng cơ sở dữ liệu Iris dataset (là bộ dữ liệu về hoa dung để kiểm
tra các classification models). Iris Dataset gồm 150 samples (instances), thuộc 3 lớp

(classes| categories) là setosa, vesicolor và virginica, mỗi lớp có 50 samples
Cấu trúc của Iris dataset như sau:
o Attributes x Instances = 5 x150
o Number of classes : 3
o Distribution for each class : 50 (mỗi lớp có 50 instances)
o Số thuộc tính là 5, trong đó có 1 thuộc tính phân loại có tên class (categorical
Attribute)
o Sepallength: Độ dài đài hoa
o Sepalwidth: Độ rộng đài hoa
o Petallength: Độ dài cánh hoa
o Petalwidth: Độ rộng cánh hoa
o Class: thuộc tính phân loại hoa (setosa, vesicolor và virginica)
Iris dataset có thể download tại đây
Công cụ Weka có thể download tại đây: x86 x64
 Sau khi download và cài đặt giao diện chương trình như sau, ta click nút Explorer để
bắt đầu
 Chọn tab: Prerprocess để thực hiện các bước tiền xử lý trong data Mining như (Load
data, Filter, …)
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
 Sau khi nạp dữ liệu, chọn Tab classify để chọn các mô hình phân loại. Ở đây sẽ sử
dụng và so sánh hiệu quả của 2 mô hình phân lớp của cây quyết định (Decision tree)
là J48 và mô hình MultilayerPerceptron của mạng Neuron (Neural network)
 Sau khi phân lớp xong ta có thể xem các mô hình bằng cách click chuột phải vào mô
hình trong ô Result list và chọn mô hình cần xem
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
Việc lựa chọn thuật toán nào để có một model tốt phụ thuộc rất nhiều yếu tố, trong

đó cấu trúc của dataset có ý nghĩa quan trọng đến việc lựa chọn thuật toán. Ví dụ thuật toán
cây hồi qui phân loại (CART – Classification And Regression Tree) và J48 cho kết quả tốt
trên các dữ liệu kiểu số (Numerical Data), trong khi đó thuật toán ID3 cho kết quả tốt đối
với dữ liệu định danh (nominal Data).
3. Ứng dụng BIDS trong Text mining
3.1. Giới thiệu bộ công cụ BIDS
BIDS là công cụ cho phép tổ chức quản lý và khai thác kho dữ liệu (Xử lý phân tích trực
tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ sử dụng và hiệu quả của
Microsoft.
BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:
 Micorosft Decision Tree (Cây quyết định)
 Microsoft Clustering (Phân cụm)
 Micorosoft Naive Bayes(Phân lớp với Bayes Rules)
 Micorosoft Time Series (Chuỗi thời gian)
 Micorosoft Association (Luật kết hợp)
 Micorsoft Sequence Clustering (Phân tích chuỗi)
 Microsoft Neural Network (Mạng Neural)
 Micorsoft Linear Regression(Hồi qui tuyến tính)
 Micorsoft Logistics Regression(Hồi qui logistics)
Qui trình Xây dựng mô hình khai phá dữ liệu với BIDS như sau :
 Tạo mới 1 project (Analysis Services Project)
 Tạo một Data Source
 Tạo một Data Source View
 Tạo một Mining model structure.
 Tạo các Mining models.
 Khai thác Mining models.
 Kiểm tra độ chính xác của Mining Models.
 Sử dụng Mining Models để dự đoán.
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng

Tr. 3
Dữ liệu sử dụng trong phần này này được lấy từ flat file NGArticles.txt chứa các bài viết
thảo luận (Article) được đưa lên trên 1 forum. Các bài viết này thuộc về 5 chủ đề
(NewsGroup) là comp.graphics, comp.os.ms-windows.misc, comp.windows.x,
comp.sys.mac.hardware và comp.sys.ibm.pc.hardware.
Link down tập tin NGArticles
Mỗi tin tức (News Article) được Post lên gồm 3 phần là ID, NewsGroup và ArticleText.
Yêu cầu bài toán là xây dựng Data Mining Model để phân lớp cho các Tin tức vào các
nhóm chủ đề đã biết.
3.2. Chuẩn bị dữ liệu
Vì file NGArticles.txt là file Flat nên ta phải chuyển đổi nội dung file này vào trong
Database, cách thực hiện như sau:
 Tạo Cơ sở dữ liệu tên NGA
 Import nội dung Flat file NGArticles.txt vào NGA như sau:
 Chuột phải vào Database NGA, chọn Task -> Import data.
 Data Source: chọn Flat File Source
 File name: chọn tập tin NGArticles.txt
 Header row delimiter: @@@@
 Click chọn ô “Column names in the first data row”
 Chọn Tab Column:
• Row delimiter: @@@@
• Column delimiter: &&&&
 Chọn tab Advanced
• Chọn mục Article Text
• Chỉnh Column property thành: DT_NTEXT
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3

Tiếp đó chỉ việc click nút Next đến khi hoàn thành công việc. Hình sau cho thấy cơ sở dữ

liệu sau khi import xong 5000 dòng dữ liệu

3.3. Tạo một từ điển (Dictionary) cho Model
 Khởi động BIDS và tạo một Integration Services project mới đặt tên
“TextDataMining”.
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
 Để thuận lợi, ta đổi tên của Integration Services project thành “PrepareArticles”
 Tạo mới một SSIS package
 Đổi tên thành BuildDictionary.dtsx
 Trong Data Flow tab thêm một Data Flow task mới
 Trong Data Flow task
o thêm một “OLE DB Source”
o Connection: Tạo một Connection mới localhost.NGA
o Table chọn : NGArticles
o Columns chỉ lấy: ArticleText
 Thêm một “Term Extraction” mới và connect từ OLE DB Source
o Term Type: Noun and Noun Phrase
o Score Type: TFIDF (Term Frequency–Inverse Document Frequency- cho biết
độ quan trọng của từ hay thuật ngữ (term) trong documents. Ví dụ trong 1
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
document có 100 từ và từ "cow" xuất hiện 3 lần, vậy TF(Term Frequency) của
từ "cow" là 3/100= 0.03. Bây giờ giả sử ta có 10 triệu tài liệu và số lần từ
"cow" xuất hiện trong 10 triệu tài liệu đó là 1000. Vậy ta có IDF (Inverse
Document Frequency) = log(10 000 000/1000)=4. Khi đó TFIDF của từ
"cow" được tính = 0.03x4= 0.12
o Parameters: Frequency=10, Length=2

 Thêm bộ “Sort” và connect từ “Term Extraction”.
o Click chọn “Term” và chọn ascending tại mục Sort Type
o Bỏ chọn Pass Through tại dòng Score
 Thêm một “OLE DB Destination” mới và connect từ “Sort”.
o Connection: Chọn localhost.NGA
o Click nút “New” tạo table tên “Dictionary”
o Chọn mục Mappings và kết nối các cột Term, Score
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
 Bấm F5 để thực hiện, trong Database NGA có thêm table “Dictionary”
3.4. Tạo một term vectors
 Tạo mới một SSIS package
 Đổi tên lại thành:BuildTermVectors.dtsx
 Trong Data Flow tab tạo một Data Flow task mới
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
 Tạo một “OLE DB Source”
o Connection: localhost.NGA
o Table: NGArticles
o Columns: ID, ArticleText
 Thêm “Term Lookup” và connect từ OLE DB Source
o Reference table: Dictionary
o PassThru column: ID
o Lookup input column: ArticleText

 Thêm một “Sort” và connect từ “Term Lookup”.
o Sort “ID” chọn ascending, “Term” chọn ascending, và chọn no duplicates
 Thêm một “OLE DB Destination” và connect từ “Sort”.

o Connection: localhost.NGA
o Click “New” và đặt tên “TermVectors”
o Trong mục Mappings, connect tất cả các cột , “Term”, “Frequency”, “ID”
HỆ HỖ TRỢ RA QUYẾT ĐỊNH
CH1301016 - Vũ Quốc Hưng
Tr. 3
 Bấm F5 hoặc nút Debug để chạy, khi đó trong cơ sở dữ liệu NGA sẽ xuất hiện thêm
bảng TermVectors với các dòng dữ liệu sau
3.5. Chuẩn bị dữ liệu để train và Test Model
 Tạo mới một SSIS package
 Đổi tên lại thành PrepareSamples.dtsx
 Trong Data Flow tab tạo mới một Data Flow task
 Trong data flow task, thêm một “OLE DB Source”
o Connection: localhost.NGA
o Table: NGArticles
o Columns: ID, NewsGroup
 Thêm một “Percentage Sampling” và connect từ OLE DB Source
o Sampling rate: 70%
o Selected rows: Train sample (70%)
o Unselected rows: Test sample (30%)

×