Tải bản đầy đủ (.pdf) (66 trang)

Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.83 MB, 66 trang )




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ







NGUYỄN THỊ THỦY








ỨNG DỤNG BUSINESS INTELLIGENCE SQL SERVER 2008
TRONG THƢƠNG MẠI ĐIỆN TỬ









LUẬN VĂN THẠC SĨ











Hà Nội - 2014




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
o0o






NGUYỄN THỊ THỦY









ỨNG DỤNG BUSINESS INTELLIGENCE SQL SERVER 2008
TRONG THƢƠNG MẠI ĐIỆN TỬ

Ngành : Công nghệ thông tin
Chuyên ngành : Kỹ thuật phần mềm
Mã số : 60480103



LUẬN VĂN THẠC SĨ



NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS.NGUYỄN HÀ NAM









Hà Nội - 2014





LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân
tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều
đã trình bày là của cá nhân tôi hoặc là được tôi tổng hợp từ nhiều nguồn tài liệu. Tất cả
các nguồn tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin chịu toàn bộ trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho
lời cam đoan của tôi.
Hà Nội, tháng 10 năm 2014


Nguyễn Thị Thủy





LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành nhất tới PGS.TS.Nguyễn Hà Nam,
Đại học Công Nghệ, Đại học Quốc Gia Hà Nội - đã dành rất nhiều thời gian quý báu để
tận tình hướng dẫn, chỉ bảo và định hướng cho tôi trong suốt thời gian hoàn thành luận
văn.
Tôi xin bày tỏ lòng biết ơn tới các thầy cô giáo Khoa Công nghệ thông tin -
Trường Đại học Công nghệ- ĐHQGHN đã truyền đạt cho tôi những kiến thức, kinh
nghiệm quý báu trong suốt thời gian học tập tại trường.
Tôi xin chân thành cảm ơn bạn bè và gia đình tôi, những người thân yêu luôn luôn
ở bên khuyến khích, động viên và ủng hộ tôi trong học tập cũng như trong cuộc sống.
Do thời gian có hạn nên luận văn này không thể tránh khỏi những thiếu sót. Rất

mong nhận được sự đóng góp ý kiến của các thầy cô giáo, bạn bè, các quý vị quan tâm tới
vấn đề này để luận văn được hoàn thiện hơn.
Trân trọng cảm ơn!
Hà Nội, tháng 10 năm 2014


Nguyễn Thị Thủy





MỤC LỤC
DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ x
BẢNG CÁC CHỮ VIẾT TẮT xii
LỜI MỞ ĐẦU 1
Chƣơng 1. Giới thiệu 3
1.1. Tổng quan về Business Intelligence 3
1.2. Một số hệ thống BI đang đƣợc ứng dụng 5
1.3. Hƣớng tiếp cận 6
1.3.1. Ứng dụng Business Intellegence trong thương mại điện tử 6
1.3.2. Hướng nghiên cứu của đề tài 8
1.3.3. Đề tài đã thực hiện được một số nội dung sau 8
Chƣơng 2. Các khái niệm liên quan đến Business Intelligence 9
2.1. Cơ sở lý thuyết 9
2.1.1. Kho dữ liệu 9
2.1.2. Tổng quan về khai phá dữ liệu 14
2.2. Giới thiệu bộ công cụ BI trong hệ quản trị Ms Sql Server 2008 16
2.3.1. Dịch vụ tích hợp (Integration services) 17
2.3.2. Dịch vụ báo cáo (Reporting service) 17

2.3.3. Dịch vụ phân tích (Analysis Services) 18
2.3. Một số kỹ thuật khai phá dữ liệu 18
2.3.1. Thuật toán hồi quy tự động (Auto Regression Algorithm) 20
2.3.2. Luật kết hợp (Association Rule) 21
Chƣơng 3. Ứng dụng BI Sql Server trong bài toán thƣơng mại điện tử 25
3.1. Bài toán thực tế và giải pháp giải quyết 25
3.2. Mô tả và chuyển đổi dữ liệu 25
3.3. Xây dựng kho dữ liệu 26
3.4. Xây dựng các báo cáo biểu diễn dữ liệu bằng Ms Reporting Service 28
3.4.1. Báo cáo tổng hợp kinh doanh 29
3.4.2. Một vài dạng báo cáo động khác 34
3.5. Xây dựng các mô hình khai phá dữ liệu 40




3.5.1. Mô hình khai phá dữ liệu dự đoán xu hướng 40
3.5.2. Mô hình khai phá dữ liệu phân tích giỏ hàng 46
Kết luận – Hƣớng nghiên cứu 55
Tài liệu tham khảo 56







DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ
Hình 1.1. Mô hình chung của BI 3
Hình 1.2. Thành phần chính hệ thống BI 5

Hình 2.1. Kiến trúc kho dữ liệu 9
Hình 2.2. Sơ đồ hình sao 11
Hình 2.3. Sơ đồ bông tuyết 12
Hình 2.4. Ví dụ về mô hình dữ liệu 3 chiều 13
Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức 15
Bảng 2.6. Ứng dụng của các giải thuật khai phá trong Sql Server 2008 19
Hình 3.1. Cơ sở dữ liệu thương mại điện tử 26
Bảng 3.2. Mô tả cơ sở dữ liệu thương mại điện tử 27
Hình 3.3. Kho dữ liệu giao dịch mua bán 27
Hình 3.4. Báo cáo tổng hợp kinh doanh 29
Hình 3.5. Biểu đồ báo cáo tổng hợp doanh thu 30
Hình 3.6. Thay đổi group, series trong Reporting service 30
Hình 3.7. Biểu đồ báo cáo tổng hợp theo các quý của năm 31
Hình 3.8. Biểu đồ báo cáo tổng hợp giao dịch mua bán theo độ tuổi và giới tính 32
Hình 3.9. Biểu đồ báo cáo doanh số bán hàng theo đặc tính khách hàng 33
Hình 3.10. Biểu đồ mối liên hệ giữa sở thích và độ tuổi 34
Hình 3.11. Báo cáo số lượng sản phẩm đã bán theo danh mục sản phẩm 35
Hình 3.12. So sánh số lượng khách hàng theo tuần của 2 tháng 36
Hình 3.13. Biểu đồ so sánh số lượng khách hàng theo tháng của năm 36
Hình 3.14. Các tham số trong báo cáo 37
Hình 3.15. Báo cáo kinh doanh theo khu vực 37
Hình 3.16. Biểu đồ số lượng khách hàng theo loại sản phẩm và giới tính 38
Hình 3.17. Báo cáo số lượng tiêu thụ theo thể loại sản phẩm trên từng quốc gia 39
Hình 3.18. Dữ liệu huấn luyện mô hình dự đoán xu hướng kinh doanh 41
Hình 3.19. Biểu đồ dự đoán xu hướng kinh doanh 41
Hình 3.20. Biểu đồ doanh số kinh doanh 42
Hình 3.21. So sánh kết quả dự báo và giá trị thật sự 43
Hình 3.22. Dữ liệu huấn luyện dự đoán xu hướng theo thể loại và vùng 43
Hình 3.23. Biểu đồ dự đoán xu hướng năm tiếp theo theo thể loại và khu vực 44
Hình 3.24 : Kết quả dự báo Time Series dưới dạng bảng 45

Hình 3.25. So sánh kết quả dự đoán và thực tế cho thể loại Action 46
Hình 3.26. Dữ liệu huấn luyện 1 cho mô hình dự đoán phân tích giỏ hàng 47
Hình 3.27. Dữ liệu huấn luyện 2 cho mô hình dự đoán phân tích giỏ hàng 47
Hình 3.28. Mô hình khai phá Microsoft Association Rules 48
Bảng 3.3. Thống kê một số luật từ mô hình 49




Hình 3.29. Rule Tab trong mô hình khai phá Microsoft Association Rules 50
Hình 3.30. Mạng phụ thuộc trong mô hình khai phá Microsoft Association Rules 51
Hình 3.31. Mạng phụ thuộc-2 trong mô hình khai phá Microsoft Association Rules 51
Hình 3.32. Dữ liệu test cho mô hình phân tích giỏ hàng 52
Hình 3.33. Dữ liệu test cho mô hình phân tích giỏ hàng 53
Hình 3.34. Kết quả chạy dữ liệu test qua mô hình phân tích giỏ hàng 53
Hình 3.35. Dữ liệu test mô hình phân tích giỏ hàng 54






BẢNG CÁC CHỮ VIẾT TẮT
Viết tắt
Tên đầy đủ
BI
Business Intelligence
CSDL
Cơ sở dữ liệu
KPDL

Khai phá dữ liệu
OLAP
Online Analytical Processing
SQL
Structured Query Language
T - SQL
Transact - Structured Query Language
TMĐT
Thương mại điện tử
C2C
Consumer-to-Consumer
ARTXP
Auto Regression Trees with Cross Predict
ARIMA
Auto Regressive Integrated Moving Average


1

LỜI MỞ ĐẦU
Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vô
cùng to lớn cho nhân loại. Cùng với sự phát triển của công nghệ thông tin và ứng dụng
của nó trong đời sống- kinh tế- xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo
thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn.
Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong kinh
doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệu khổng lồ ngày càng
trở nên mục tiêu quan trọng của các doanh nghiệp và khai phá dữ liệu dần trở thành thành
phần chính để thực thi nhiệm vụ khai phá tri thức. Được đánh giá sẽ tạo ra cuộc cách
mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các
lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo, … Theo thống kê năm 2013,

tỉ lệ dân số dùng Internet là 36%, trong đó 57% sử dụng thương mại điện tử để mua sắm
online. Nếu chỉ tính riêng số liệu của Việt Nam, năm 2011, tỉ trọng thương mại điện tử
chiếm 0.25% thị trường, đạt 154 triệu USD. Đến cuối 2016, dự kiến tỉ trọng này tăng gần
gấp 3 lần, đạt 0.71% với giá trị vốn hoá tăng gấp 6 lần đạt trên 900 triệu USD (tương
đương 18,000 tỷ VNĐ). Con số này hoàn toàn trùng khớp với sự phát triển của xu thế bán
lẻ trực tuyến khi Nguyễn Kim đặt kế hoạch doanh số eCommerce năm 2014 là trên 200
tỷ, thegioididong.com là trên 1000 tỷ, FPT Retail là trên 500 tỷ… Bên cạnh đó, sàn
TMĐT Sendo.vn vừa tuyên bố sẽ chiếm lĩnh vị trí số 1 trong mảng C2C, hiện tại giao
dịch qua hệ thống của họ (nếu giữ ở mức hiện tại) trên dưới 500 tỷ trong năm 2014 [3].
Có thể thấy thương mại điện tử phát triển nhanh theo xu thế toàn cầu hóa. Việc giao dịch
thông qua các website thương mại đện tử tạo ra lượng dữ liệu vô cùng lớn. Dữ liệu chính
là thông tin về khách hàng cũng như các sản phẩm giao dịch. Nếu có thể khai thác nguồn
dữ liệu này thì chúng ta sẽ có một hệ thống thông tin rất giá trị phục vụ cho phát triển
thương mại điện tử. Do đó nhu cầu xây dựng kho dữ liệu, mô hình khai phá dữ liệu là
thiết yếu cho việc tổng hợp, báo cáo và đưa ra quyết định kinh doanh.
Nhằm xác lập chỗ đứng trong thị trường giải pháp thông tin doanh nghiệp
(Business Intelligence - BI), Microsoft SQL Server 2008 cung cấp các công cụ có khả
năng quản lý báo cáo và phân tích đủ mọi cấp độ, tích hợp chặt chẽ với Microsoft Office,
cho phép đưa thông tin doanh nghiệp đến tất cả nhân viên, giúp ra quyết định nhanh hơn
và tốt hơn. Với cơ sở hạ tầng mạnh, linh hoạt và có thể mở mở rộng, tích hợp chặt chẽ với
Microsoft Office, giải pháp BI trong SQL Server 2008 trở nên linh động và tin cậy đối với
những khách hàng lựa chọn Microsoft.
Với lý do trên, luận văn tìm hiểu về các vấn đề, kỹ thuật trong Business Intelligence
và ứng dụng trong thương mại điện tử bằng công cụ Microsoft Sql Server 2008.


2

Nội dung chính của luận văn trình bày những tìm hiểu của mình về Business
Intelligence trong thương mại điện tử và đưa ra phương pháp xây dựng mô hình dự báo

xu hướng, phân tích giỏ hàng để nhận biết hành vi mua bán của khách hàng với các kỹ
thuật khai phá dữ liệu Microsoft Time Series, Microsoft Association Rule. Cấu trúc của
luận văn được chia thành 3 chương như sau:
Chương 1. Giới thiệu
Chương này giới thiệu về BI, hướng tiếp cận của BI và mô tả ngắn gọn hướng
nghiên cứu của luận văn.
Chương 2. Các khái niệm liên quan đến Business Intelligence
Chương này trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới thiệu
bộ công cụ BI Sql Server.
Chương 3. Ứng dụng BI Sql Server trong bài toán thương mại điện tử
Chương này trình bày về bài toán thực tế thương mại điện tử, xây dựng kho dữ liệu, xây
dựng các báo cáo tổng hợp, báo cáo động, xây dựng mô hình khai phá dữ liệu.
Kết luận. Tóm tắt các kết quả đạt được




3

Chƣơng 1. Giới thiệu
1.1. Tổng quan về Business Intelligence
Việc tổng hợp, phân tích thông tin từ những nguồn dữ liệu khác nhau luôn là vấn
đề đáng quan tâm đối với các tổ chức có khối lượng dữ liệu lớn. Trong lĩnh vực kinh
doanh, lượng dữ liệu về khách hàng, quá trình kinh doanh, biến động thị trường chứa
đựng nhiều thông tin hữu ích cho các công ty. Nhiều giải pháp khai thác nguồn thông tin
này đã được đưa ra. Trong đó, Business Intelligence (BI) là một giải pháp mới với nhiều
bộ công cụ hỗ trợ.
BI, được hình thành vào giữa những năm 1990, là qui trình và công nghệ mà các
doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho
các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh

của mình. Công nghệ BI cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp
từ quá khứ, hiện tại và các dự đoán tương lai. Dựa trên các thông tin thu thập được từ
khách hàng, với sự hỗ trợ của các công cụ phân tích, BI hỗ trợ phân tích nhằm đưa ra các
quyết định, chiến lược kinh doanh tốt hơn. Vì vậy một hệ thống BI (BI system) còn được
gọi là hệ hỗ trợ quyết đinh (Decision Support System).
Mô hình chung của BI:

Hình 1.1. Mô hình chung của BI
Vậy một hệ thống BI có những lợi ích nào?
 Dễ dàng truy cập vào các dữ liệu
BI có thể thu thập thông tin từ nhiều hệ thống khác nhau từ nhiều vị trí trí địa lý
khác nhau trong một tổ chức thông qua quản lý dữ liệu tập trung tại kho dữ liệu, giúp các
nhà quản lý truy cập dễ dàng hơn cho báo cáo, kiểm toán và phân tích dự báo, tăng khả


4

năng quản lý công ty. Các dữ liệu được thu thập và được thể hiện trong định dạng dễ hiểu,
cho phép ngay cả những người không rành về kỹ thuật vẫn hiểu được việc kinh doanh và
xác định các yếu tố thúc đẩy hoạt động hằng ngày.
 Thông tin chính xác hơn
Giải pháp BI có thể loại bỏ những dữ liệu lỗi, thiếu sót hoặc trùng lặp thông tin.
Các báo cáo được tạo ra tự động, chính xác và được cập nhật.
 Cải thiện việc ra quyết định
Khi phân tích dữ liệu luôn sẵn có và dễ hiểu, các nhà quản lý có thể đưa ra quyết định
kinh doanh với thông tin nhanh, sâu sắc và hiệu quả hơn. Khi các nhà quản lý có thể truy cập
các báo cáo, biểu đồ, đồ thị và phân tích, họ cũng cảm thấy được trao quyền để có biện pháp
chủ động để cải thiện hiệu suất và đảm bảo rằng lợi nhuận kỳ vọng được đáp ứng.
 Xác định các vấn đề trong kinh doanh
BI có thể giúp khám phá ra vấn đề trong doanh nghiệp mà trước đây không được

kiểm soát, chẳng hạn như hiệu suất kém, dễ dàng hơn. Ví dụ, nếu người quản lý thấy có
sự suy giảm của một mục hàng tồn kho đặc biệt, nhưng không thể tìm được điểm trùng
khớp với doanh số bán hàng của mục đó. Giải pháp BI có thể cho phép anh ta xem xét, đối
chiếu việc mua hàng so với doanh thu để quyết định các điều chỉnh cần thiết trong tổ chức.
 Cải thiện phân tích marketing, quan hệ khách hàng
Với giải pháp BI bạn có thể xác định tỷ lệ thành công của quảng cáo, chiến dịch
gửi thư trực tiếp và các chương trình khuyến mãi thông qua email. Dựa trên hồ sơ của
khách hàng bao gồm lịch sử mua bán, hành trình, mối quan tâm và sở thích BI giúp dự
đoán nhu cầu của khách hàng và cung cấp các dịch vụ, làm tăng sự hài lòng.
Các hoạt động chính của BI (BI Activities)
 Hệ thống hỗ trợ quyết định (Decision support systems)
 Dự báo (Forecasting)
 Báo cáo kho dữ liệu (Reporting data warehouse)
 Lưu trữ dữ liệu (Data store)
 Khai phá dữ liệu (Data mining)
 Phân tích thống kê (Statistical analysis)
 Extract, Transform, and Load (ETL)
 Phân tích xử lý trực tuyến (Online Analytical Processing - OLAP)
 Portal


5

Các thành phần chính trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai
phá dữ liệu (Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn,
nhiều định dạng, phân tán và có tính lịch sử) đó là đặc trưng của kho dữ liệu. Đồng thời
việc phân tích dữ liệu trong BI không phải là những phân tích đơn giản (query, filtering)
mà là những kỹ thuật trong khai phá dữ liệu (data mining) dùng để phân loại
(classification) phân cụm (clustering), hay dự đoán (prediction). Vì vậy BI có mối quan
hệ rất chặt chẽ với kho dữ liệu và khai phá dữ liệu.

Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:









Hình 1.2. Thành phần chính hệ thống BI
Trong đó:
Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp của doanh nghiệp
Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và phát
hiện tri thức như phân loại (classification), phân nhóm (clustering), phát hiện luật kết hợp
(association rule), dự đoán (prediction), …
Business Analyst (Phân tích kinh Doanh): Các nhà lãnh đạo doanh nghiệp đưa ra
những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp.
Chúng ta sẽ đi vào tìm hiểu chi tiết các khái niệm kho dữ liệu, khai phá ở chương 2
1.2. Một số hệ thống BI đang đƣợc ứng dụng
Hệ thống BI trong những năm gần đây đã và đang được ứng dụng rộng rãi trong
nhiều lĩnh vực như: ngân hàng, tài chính và thị trường chứng khoán, thương mại, giáo
dục, y tế, sinh học, bưu chính viễn thông,


Data Warehouse

ta Mini
Data Mining
Business Analyst


Business
Intelligence


6

Những sản phẩm dưới đây được kiểm tra thông qua 70 tiêu chí quan trọng để nâng
cao năng suất và khả năng hỗ trợ kinh doanh thông minh của doanh nghiệp (được xếp
theo thứ tự giảm dần của khả năng hỗ trợ của sản phẩm) (The second edition of the
independent Business Intelligence Tools Survey, published in October 2008)
 Oracle Enterprise BI Server - Oracle
 Excel, Performance Point, Analysis Server – Microsoft
 Business Objects Enterprise - Business Objects (now SAP)
 SAP NetWeaver BI - SAP
 SAS Enterprise BI Server - SAS Institute
 TM/1 & Executive Viewer - Applix (now IBM)
 BizzScore Suite - EFM Software
 WebFocus - Information Builders
 QlikView - QlikTech
 Microstrategy - Microstrategy
 Hyperion System - Hyperion (now Oracle)
 Actuate - Actuate
 Cognos Series 8 - Cognos (now IBM)
Trong luận văn này chúng tôi lựa chọn hệ thống BI của Microsoft vì các cơ sở dữ
liệu thương mại điện tử đa phần lưu trữ trên hệ quản trị cơ sở dữ liệu Microsoft Sql Server
cũng như Microsoft đã và đang là công cụ mà tôi vẫn thường dùng trong công việc của
mình và về cơ bản đáp ứng đầy đủ các yêu cầu của luận văn.
1.3. Hƣớng tiếp cận
1.3.1. Ứng dụng Business Intellegence trong thương mại điện tử

 Tiết kiệm chi phí
Thông thường để biết được lý do vì sao kết quả kinh doanh tháng này giảm so với
tháng trước, nhà quản lý thường phải tìm hiểu qua nhiều kênh thông tin khác nhau từ
phòng kế toán tới phòng kinh doanh, … nhiều khi tiêu tốn khá nhiều thời gian, nguồn lực.
Còn với giải pháp BI, tận dụng ưu thế có thể phân tích sâu theo nhiều chiều, nhà quản lý
có thể tìm được nguyên nhân bị giảm doanh thu là do đâu, cụ thể vùng miền nào mà hầu
như không cần nhờ đến bất cứ ai. Trong bối cảnh hiện nay, việc giúp doanh nghiệp truy


7

xuất nhanh gọn thông tin được coi như là một giải pháp giúp tiết kiệm chi phí, nâng cao
hiệu quả hoạt động.
 Chọn lọc mặt hàng kinh doanh
Bằng cách phân tích các chỉ số đánh giá hiệu quả hoạt động chính về số lần bảo
hành, các mặt hàng bán chậm nhất hay số khách hàng mua và tổng doanh thu bán được từ
những mặt hàng đó, BI giúp nhà quản lý biết được những mặt hàng kém hiệu quả, làm
tiêu tốn nhiều chi phí cho các hoạt động hỗ trợ, tồn kho để từ đó ra quyết định loại bỏ hay
cải tiến thành một sản phẩm mới.
 Phân tích hiệu quả của các chương trình khuyến mãi, quảng cáo
Thông qua việc thu thập thông tin về số lượng hàng bán, doanh thu, chi phí, số
khách hàng mới, số sản phẩm bán được … của các chương trình khuyến mại, từ đó nhà
quản lý sẽ biết được chương trình dạng nào mang lại hiệu quả cao nhất để áp dụng lại cho
những lần sau. Ngoài ra, dựa trên những bản khảo sát, dữ liệu về bán hàng, BI có thể cho
biết tác động của những hoạt động đó như thế nào sau mỗi kỳ quảng cáo, tung ra sản
phẩm, dịch vụ mới.
 Nâng cao năng lực của nhân viên kinh doanh
Trong doanh nghiệp có nhiều kênh phân phối, nhiều chi nhánh đại lý, nhân viên
kinh doanh được tổ chức thành nhiều cấp nên việc đo lường và đánh giá hiệu quả làm việc
của nhân viên một cách chính xác thường khó khăn và tốn thời gian. Để đánh giá đúng

thường phải dựa vào nhiều tiêu chí: doanh số, số khách hàng mới tìm được, và phải có
trọng số riêng cho từng kênh bán hàng… Với sự hỗ trợ của hệ thống BI, nhà quản lý có
thể đo lường nhiều tiêu chí đánh giá, từ đó có những quyết định thưởng phạt, điều chỉnh
nhân sự chính xác
 Tăng khả năng kiểm soát thông tin của doanh nghiệp
BI làm tăng khả năng kiểm soát thông tin của doanh nghiệp một cách chính xác,
hiệu quả từ đó có thể phân tích, khai phá tri thức giúp doanh nghiệp có thể dự đoán về xu
hướng của giá cả dịch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để đề ra
các chiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp.
 Giúp sử dụng thông tin một cách hiệu quả
BI giúp cho các doanh nghiệp sử dụng thông tin một cách hiệu quả, chính xác để
thích ứng với môi trường thay đổi liên tục và cạnh tranh khốc liệt trong kinh doanh. Từ đó
ra các quyết định kinh doanh hiệu quả hơn:
 Xác định được vị trí và sức cạnh tranh của doanh nghiệp


8

 Phân tích hành vi khách hàng
 Xác định mục đích và chiến lược Marketing
 Dự đoán tương lai của doanh nghiệp
 Xây dựng chiến lược kinh doanh
 Giữ được khách hàng có giá trị và dự đoán khách hành tiềm năng
1.3.2. Hướng nghiên cứu của đề tài
Đề tài phân tích dữ liệu mua bán trực tuyến nhằm nhận diện được những hành vi
mua bán của khách hàng và thông qua đó có thể đưa ra các chính sách chăm sóc khách
hàng thích hợp dựa trên dự đoán hoặc có một chiến lược tiếp thị hiệu quả. Dựa vào kết
quả phân tích mà người quản lý của các công ty/tổ chức các website thương mại điện tử
nắm bắt được những nhóm dịch vụ nào có liên quan tới nhau, phục vụ cho mục đích quản
lý và xây dựng chiến lược phát triển hệ thống và tìm những khách hàng tiềm năng cho các

gói sản phẩm khác nhau. Ngoài ra đề tài cũng đưa ra một số dự đoán về xu hướng kinh
doanh trong tương lai.
1.3.3. Đề tài đã thực hiện được một số nội dung sau
 Hiểu được các kiến thức về BI, kho dữ liệu, khai phá dữ liệu, một số thuật toán
khai phá dữ liệu trong bộ công cụ BI của hệ quản trị SQL Server 2008.
 Xây dựng kho dữ liệu về mua bán trong thương mại điện tử.
 Thiết kế các báo cáo tổng hợp và báo cáo động theo yêu cầu.
 Sử dụng một số thuật toán khai phá để dự đoán, ra quyết định cho việc kinh doanh,
có thể trả lời cho các vấn đề bên dưới:
 Doanh số bán hàng cho năm tới như thế nào?
 Số lượng bán các loại sản phẩm khách nhau như thế nào theo thời gian trên
mỗi quốc gia tăng hay giảm trong tương lai?
 Nâng cấp website của công ty để thúc đẩy bán chéo (cross-selling). Khả
năng dự đoán những sản phẩm có thể khách hàng muốn mua dựa vào lịch sử
mua bán những khách hàng khác, dự đoán sản phẩm tiếp theo có thể sẽ
được mua



9

Chƣơng 2. Các khái niệm liên quan đến Business Intelligence
2.1. Cơ sở lý thuyết
2.1.1. Kho dữ liệu
Khái niệm kho dữ liệu
Theo William Inmon [4] “kho dữ liệu là một bộ dữ liệu có các đặc tính: hướng chủ
đề, có tính tích hợp, ổn định, dữ liệu gắn với thời gian thường được sử dụng trong các hệ
thống hỗ trợ quyết định”.
Kho dữ liệu thường bao gồm:
 Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác

nhau.
 Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập
các bảng dữ liệu.
 Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính
sau: Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng
các dữ liệu từ các ứng dụng khác nhau. Hỗ trợ cho một số người dùng có liên
quan, có sử dụng tới các thông tin liên quan. Nội dung được cập nhật thường
xuyên, chủ yếu theo hình thức bổ sung thông tin. Chứa các dữ liệu trong lịch sử
và hiện tại nhằm cung cấp các xu hướng thông tin. Chứa các bảng dữ liệu có
kích thước lớn. Một câu hỏi thường trả về một tập kết quả liên quan đến toàn
bộ bảng và các liên kết nhiều bảng.
Kiến trúc kho dữ liệu

Hình 2.1. Kiến trúc kho dữ liệu


10

Kiến trúc này gồm ba tầng:
Tầng đáy: Là nơi cung cấp các dịch vụ lấy dữ liệu từ nhiều nguồn khác nhau, sau
đó chuẩn hóa, làm sạch và lưu trữ dữ liệu tập trung.
Tầng giữa: Cung cấp các dịch vụ để thực hiện các thao tác với kho dữ liệu gọi là
máy chủ OLAP. Có thể cài đặt bằng ROLAP, MOLAP hay kết hợp cả hai mô hình trên
gọi là HOLAP. Ngoài ra, hệ thống còn có thể có thêm một số kho dữ liệu chủ đề (Data
mart) đây là một tập con được chuyên biệt hóa của kho dữ liệu diện rộng, có giá trị đối
với một nhóm người dùng đặc trưng, phạm vi được giới hạn bởi các chủ đề đặc biệt nào
đó. Dữ liệu trong kho dữ liệu và trong kho dữ liệu chủ đề được lưu trữ và quản lý bởi một
hoặc nhiều máy chủ.
Tầng trên cùng: tầng này cho phép thực hiện các truy vấn, tạo các báo cáo, phân
tích dữ liệu.

Các đặc tính của kho dữ liệu
 Hƣớng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm Gigabyte,
được tổ chức theo những chủ đề chính. Kho dữ liệu không chú trọng vào giao tác
và việc xử lý giao tác. Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa,
phân tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định. Do đó, các kho dữ
liệu thường cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những
dữ liệu không cần thiết trong quá trình ra quyết định và hướng vào một hoặc một
số chủ đề cụ thể.
 Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu từ
nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực tuyến
hoặc thậm chí là từ những file dữ liệu độc lập. Những dữ liệu này tiếp tục được
làm sạch, chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu.
 Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi, chủ
yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao.
 Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ liệu
của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mô hình
nghiệp vụ, dự báo, khảo sát những chỉ tiêu cần quan tâm.
Ứng dụng của kho dữ liệu [4]
Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử
dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo. Nhờ việc dữ
liệu thô đã được chuyển sang thành các dữ liệu ổn định, có chất lượng nên kho dữ liệu đã
giúp nâng cao kỹ thuật biểu diễn thông tin truyền thống. Các kho dữ liệu được sử dụng để
hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ SQL và các công cụ xây


11

dựng báo cáo truyền thống chỉ có thể mô tả những gì có trong cơ sở dữ liệu thì phân tích
trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai. Tuy
nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết. Ngoài ra, sử

dụng OLAP còn giúp phân tích tổng hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặc
bảng biểu trực quan. Khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu. Đây
là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học
cũng như yêu cầu trong thực tiễn. Các kết quả thu được mang nhiều tính dự báo, dự đoán,
dùng trong việc xây dựng kế hoạch, chiến lược.
Mô hình xây dựng kho dữ liệu
Xây dựng lược đồ mô hình dữ liệu là không có câu trả lời đúng cho mọi tình
huống. Mô hình dữ liệu kho dữ liệu có tính chủ đề, phụ thuộc vào công việc nghiệp vụ và
các vấn đề nảy sinh.
Các lược đồ xây dựng mô hình kho:
 Sơ đồ hình sao
Sơ đồ hình sao được đưa ra lần đầu tiên bởi Dr. Ralph Kimball [25] như là một lựa
chọn thiết kế cơ sở dữ liệu cho kho dữ liệu. Nó được gọi là sơ đồ hình sao bởi vì các sự
kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất
giống với các điểm của một ngôi sao. Sơ đồ hình sao cho phép một hệ thống đối tượng có
thể kết nối với nhiều đối tượng khác. Mô hình này thể hiện cách nhìn của người sử dụng
về nhiều vấn đề trong nghiệp vụ.
Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:
 Các sự kiện được tổ chức thành bảng sự kiện.
 Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng chiều.
Hình 2.2 mô tả về một ví dụ sơ đồ hình sao.


Hình 2.2. Sơ đồ hình sao


12

Ƣu điểm của lƣợc đồ hình sao:
 Trực quan, đơn giản, phù hợp với cách mà người sử dụng nhìn nhận và sử

dụng dữ liệu.
 Dễ dàng truy vấn dữ liệu và hỗ trợ tối đa các loại truy vấn.
 Khi sử dụng lược đồ hình sao có thể dẫn đến việc dư thừa dữ liệu, chính việc
phi chuẩn hóa này đã tránh được việc phải nối nhiều bảng trong quá trình xử
lý, điều này giúp làm giảm thời gian thực hiện truy vấn.
 Lƣợc đồ dữ liệu bông tuyết
Lược đồ này là mở rộng của lược đồ hình sao. Khi một bảng chiều trở lên phức tạp
chứa các quan hệ dữ liệu thì có thể tách thành nhiều bảng. Các bảng được tách có quan hệ
với bảng chiều tạo lên hình dạng bông tuyết. Công việc này cũng chính là chuẩn hóa dữ
liệu cho bảng chiều để giảm sự dư thừa dữ liệu. Bảng đã được chuẩn hóa thì sẽ dễ quản lý
và tiết kiệm không gian lưu trữ. Tuy nhiên, sơ đồ bông tuyết có thể giảm hiệu quả khi truy
vấn dữ liệu, vì có thể sẽ phải sử dụng nhiều phép kết nối hơn khi thực thi một truy vấn.
Do vậy, khả năng hoạt động của hệ thống có thể bị giảm sút.

Hình 2.3. Sơ đồ bông tuyết
Tùy theo thực tế mà ta lựa chọn lược đồ hình sao hay bông tuyết. Việc lựa chọn được
cân nhắc giữa hai yếu tố: thời gian đáp ứng truy vấn và mức độ kiểm soát tính chặt chẽ dữ
liệu. Lược đồ dạng bong tuyết có thể thích hợp khi dữ liệu bảng chiều trở lên quá lớn và
nhiều thuộc tính. Tuy sự khác nhau thể hiện rất rõ về mặt lý thuyết nhưng khi thực hiện
chúng trong thực tế có thể dẫn tới các kết quả khác hẳn nhau.
 Sơ đồ kết hợp.
Đối với các ứng dụng phức tạp có thể cần nhiều bảng sự kiện, các bảng sự kiện này
dùng chung các bảng chiều. Sơ đồ kết hợp giữa sơ đồ hình sao dựa trên bảng sự kiện và
những bảng chiều không chuẩn hóa theo các chuẩn 1, 2, 3 và sơ đồ hình bông tuyết trong
đó tất cả các bảng chiều đều đã được chuẩn hóa. Với sơ đồ loại này chỉ những bảng chiều
lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa


13


được chuẩn hóa. Trong thực tế sơ đồ này được dùng nhiều hơn vì cơ sở dữ liệu là đa
dạng, rất lớn và nhiều chủ đề. Sơ đồ này có thể mô hình hóa các chủ đề liên quan với
nhau, trong khi kho dữ liệu theo chủ đề là một bộ phận con của kho dữ liệu, chỉ tập trung
vào các chủ đề đã chọn
Thiết kế và xây dựng kho dữ liệu
Các nhà quản lý thường có khuynh hướng suy nghĩ theo “nhiều chiều”. Ví dụ một
giao dịch mua bán :
“Sản phẩm thể loại Action được bán nhiều nhất tại thời điểm nào trong năm, đạt
doanh số cao nhất ở quốc gia nào”.
Ta có thể hình dung đánh giá xu hướng doanh số của cửa hàng như một khối dữ
liệu với các chiều của khối là sản phẩm, khách hàng và thời gian. Giao điểm bên trong
khối là giao điểm của các cạnh. Với mô tả của một sự kiện đánh giá như trên thì độ đo
doanh số bán hàng được kết hợp bởi sản phẩm, khách hàng và thời điểm bán (thời gian)
Ví dụ xét trong cùng khoảng tháng 11 sản phẩm ABC có doanh số cao hơn thể loại XYZ
Nếu nhìn từ chiều thời gian làm mốc, sau đó tổng hợp thêm dữ liệu từ các chiều khách
hàng và sản phẩm sẽ có thể đưa ra kết quả đánh giá doanh số kinh doanh.
Một khối dữ liệu không bắt buộc phải có 3 chiều mà có thể có N chiều, phụ thuộc
vào yêu cầu của công việc. Các chiều của khối, mà ở đó các mặt hoặc các thực thể tương
ứng với những khía cạnh mà công việc ghi nhận. Mỗi chiều kết hợp với một bảng chiều
để mô tả cho chiều đó. Ví dụ bảng chiều khách hàng thì mô tả về khách hàng đó gồm tên
khách hàng, năm sinh, giới tính, thu nhập… Với những chiều đặc biệt như chiều thời
gian, hệ thống kho dữ liệu có thể phát sinh tương ứng với bảng chiều dựa trên loại dữ
liệu. Chiều thời gian trong thực tế có ý nghĩa đặc biệt đối với việc hỗ trợ cho các khuynh
hướng phân tích.

Hình 2.4. Ví dụ về mô hình dữ liệu 3 chiều


14


2.1.2. Tổng quan về khai phá dữ liệu
Khái niệm về khai phá dữ liệu
Công nghệ khai phá dữ liệu được coi là dạng tiến hóa mới của công nghệ cơ sở dữ liệu
bắt đầu từ cuối những năm 1980 và không ngừng được phát triển về bề rộng và chiều sâu. Khai
phá dữ liệu là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan
nhất định từ một kho dữ liệu lớn nhằm mục đích dự đoán các xu thế, các hành vi trong
tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện
được. Trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri
thức trong cơ sở dữ liệu. Quá trình này bao gồm các bước sau [4]:
 Bước 1: Làm sạch dữ liệu. Loại bỏ nhiễu hoặc các dữ liệu không thích hợp;
 Bước 2: Tích hợp dữ liệu: Tích hợp dữ liệu từ các nguồn khác nhau như: Cơ sở
dữ liệu, kho dữ liệu, file văn bản ;
 Bước 3: Chọn dữ liệu: Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm
vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu;
 Bước 4: Chuyển đổi dữ liệu: Trong bước này, dữ liệu sẽ được chuyển đổi về dạng
phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp;
 Bước 5: Khai phá dữ liệu: Là giai đoạn thiết yếu, trong đó các phương pháp thông
minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu;
 Bước 6: Đánh giá mẫu: Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa
vào một số phép đo;
 Bước 7: Mô tả tri thức: Sử dụng các kĩ thuật trình diễn và trực quan hoá dữ liệu
để biểu diễn tri thức khai phá được cho người sử dụng.



15


Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức
Khuynh hƣớng phát triển của lĩnh vực khai phá dữ liệu

Trang web do Piatetsky – Shapiro chủ trì là trong
những trang web điển hình về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong CSDL.
Nhiều thông tin cập nhật nhất về lĩnh vực được thông báo tại trang web này, đặc biệt là
các kết quả thăm dò, cung cấp một số thông tin hữu ích liên quan tới khuynh hướng phát
triển của lĩnh vực khai phá dữ liệu. Một số nội dung cụ thể về khuynh hướng nghiên cứu
của khai phá dữ liệu được đề cập dưới dạng bài toán thách thức trong các hội nghị khoa
học về khai phá dữ liệu[4]. Xu hướng phát triển khai phá dữ liệu đã và đang là các nội
dung nghiên cứu có tính thời sự, rất đa dạng và phong phú.
Vì sao cần khai phá dữ liệu
 Vấn đề bùng nổ dữ liệu
 Sự phát triển của các công cụ lấy dữ liệu tự động và sự phát triển của công
nghệ cơ sở dữ liệu.
 Sự phát triển của các ứng dụng.
 Sự đa dạng của các loại dữ liệu: Số lượng bản ghi lớn (thiên văn học, viễn
thông, đào tạo…), số lượng thuộc tính lớn, …
Một số hƣớng tiếp cận chính của khai phá dữ liệu
Hiện nay, ứng dụng của KPDL rất đa dạng và rộng lớn, từ kinh doanh, chống gian
lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dụng người dùng
internet để mục tiêu đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định,
nhiều lĩnh vực khác nhau v.v Trong đó thương mại điện tử không phải ngoại lệ.
Một số hướng tiếp cận chính của khai phá dữ liệu là:


16

 Phân lớp và dự đoán (classification & prediction) : xếp đối tượng vào một trong
các lớp đã biết trước. Ví dụ : phân lớp loại cước hoặc loại dịch vụ dựa trên số máy bị gọi
của cuộc gọi, phân lớp khu vực dựa trên số máy chủ gọi, phân lớp giờ cao điểm, thấp
điểm dựa trên giờ bắt đầu đàm thọai.v.v
Hướng tiếp cận phân lớp có giám sát (supervised learning) thường sử dụng một số

kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural
network) .v.v
 Luật kết hợp (association rules) : là dạng luật biểu diễn tri thức ở dạng tương đối
đơn giản. Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau trong đó có
lĩnh vực viễn thông.
 Khai thác mẫu tuần tự (sequential/temporal patterns): Tương tự như khai thác luật
kết hợp nhưng có thêm tính thứ tự và tính thời gian. Một luật mô tả mẫu tuần tự có dạng
tiêu biểu X -> Y, phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố
Y. Hướng tiếp cận này có tính dự báo cao.
 Phân cụm (clustering/segmentation) : Sắp xếp các đối tượng theo từng cụm (số
lượng và tên của cụm chưa được biết trước). Các đối tượng được gom cụm sao cho mức
độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa
các đối tượng nằm trong các cụm khác nhau là nhỏ nhất. Phân cụm còn được gọi là học
không có giám sát (unsupervised learing).
Trong phạm vi luận văn này, chúng tôi đã sử dụng kho dữ liệu giao dịch bán hàng
trực tuyến để thực hiện một số bài toán về khai phá dữ liệu. Một số vấn đề được đưa ra
cần giải quyết bằng các mô hình khai phá dữ liệu như: Dự đoán xu hướng doanh số bán
hàng của năm tiếp theo, dự đoán xu hướng doanh số của loại sản phẩm trong một thị
trường nào đó từ đó có thể biết thời điểm nào trong năm khách hàng có xu hướng mua
nhiều, phân tích giỏ hàng dựa vào lịch sử mua bán của những khách hàng trước để đưa ra
gợi ý nên mua gì cho những khách hàng mới, hoặc tìm ra luật về hành vi mua hàng nếu
mua thể loại A thì có thể sẽ nên mua thể loại B
2.2. Giới thiệu bộ công cụ BI trong hệ quản trị Ms Sql Server 2008
Nhằm xác lập chỗ đứng trong thị trường giải pháp thông tin doanh nghiệp
(Business Intelligence - BI), Microsoft SQL Server 2008 cung cấp các công cụ có khả
năng quản lý báo cáo và phân tích đủ mọi cấp độ, tích hợp chặt chẽ với Microsoft Office
cùng với cơ sở hạ tầng mạnh, linh hoạt và có thể mở mở rộng, cho phép đưa thông tin
doanh nghiệp đến tất cả nhân viên, giúp ra quyết định nhanh hơn và tốt hơn. Giải pháp BI

×