Tải bản đầy đủ (.docx) (26 trang)

Các vấn đề kinh doanh và nhiệm vụ của khai thác dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (331.32 KB, 26 trang )

Mục lục

1.Các vấn đề trong kinh doanh và nhiệm vụ của khai thác dữ liệu
1.1. Các vấn đề trong kinh doanh
Tình hình kinh tế nhiều biến động, sự cạnh tranh gay gắt, những mục tiêu tối ưu hóa và
phát triển… đã đặt các tổ chức kinh tế/ doanh nghiệp trước không ít thách thức và đòi hỏi
sự nhạy bén, linh hoạt trong quản lý, đưa ra quyết định.
Cùng với sự phát triển của CNTT, sự ra đời của các phần mềm nghiệp vụ quan trọng như:


Hệ thống phần mềm Quản trị nguồn lực doanh nghiệp (ERP – Enterprise Resource







Planning)
Hệ thống Core Banking đối với lĩnh vực Ngân hàng Tài chính
Quản trị Quan hệ khách hàng (CRM – Customer Relationship Management)
Quản trị Nhà phân phối (DMS – Distribution Management System)
Quản trị Chuỗi cung ứng (SCM - Supply Chain Management)
Quản trị Nguồn nhân lực (HRM - Human Resource Management)

Các phần mềm trên đã giải quyết một phần những vấn đề cơ bản của doanh nghiệp trong
công tác quản lý hoạt động. Tuy nhiên, thị trường cạnh tranh gay gắt với những biến động
nhanh chóng đòi hỏi doanh nghiệp phải giải quyết những bài toán khó hơn trong kinh
doanh, có những phân tích rõ hơn về khách hàng để đưa ra chiến lược phù hợp như:
 Đưa ra các phân tích về thị trường: xác định thị trường tiềm năng, đưa ra những


thống kê – dự đoán về biến động thị trường.
 Phân loại khách hàng (Nhóm các khách hàng theo các biến dữ liệu khác nhau:
theo sản phẩm, theo khu vực địa lý, thói quen mua sắm, sở thích, mức thu nhập,…
)
 Giúp nhận diện và giữ lại khách hàng tiềm năng (nhận diện những khách hàng
tiềm năng, đưa ra các thống kê, gợi ý giúp doanh nghiệp có các chính sách nhằm
đảm bảo duy trì mối quan hệ với khách hàng.
 Nghiên cứu những quan hệ giữa chất lượng sản phẩm và những vấn đề khách
hàng đề cập; đưa ra khuyến cáo về sản phẩm, dịch vụ,…
 Nghiên cứu hiệu quả của các kênh quảng bá đối với từng nhóm khách hàng.
 Những yêu cầu về phân tích, thống kê trong thời gian thực.
1


 Phân tích rủi ro trước khi ra quyết định quan trọng đối với các hoạt động kinh

doanh, sản xuất.
 V.v

Để có những quyết định kinh doanh đúng đắn, không chỉ đòi hỏi sự sáng tạo, linh hoạt
kiến thức kinh doanh, và những hiểu biết về thị trường, khách hàng các chuyên gia kinh
tế mà còn đòi hỏi cơ sở vững chắc và có dữ liệu, thông tin hỗ trợ. Tránh việc bị động
trong công tác hoạch định, giám sát tiến trình kinh doanh nhờ có góc nhìn toàn cảnh về
hiện trạng hoạt động. Khai phá dữ liệu chính là một chìa khóa quan trọng giúp hỗ trợ giải
quyết các vấn đề kinh doanh nói trên.
1.2. Nhiệm vụ của khai phá dữ liệu
Sự phát triển của các công cụ thu thập dữ liệu cùng với sự bùng nổ của Internet đã giúp
những nhà kinh doanh có thể thu được những dữ liệu khổng lồ về thị trường, khách hàng,
… Khai phá dữ liệu giúp khảo sát, phân tích khối dữ liệu của doanh nghiệp nhằm tìm ra
những dữ liệu giàu thông tin tiềm ẩn, trích xuất ra các thông tin quan trọng.

Như đã nói ở trên, các quyết định trong kinh doanh phải dựa trên những thông tin, dữ liệu
kết hợp với kinh nghiệm, mục tiêu, khó khăn, và thậm chí cả tính cách của các nhà quản
lý. Các nhà khoa học dữ liệu phân chia một vấn đề kinh doanh thành các nhiệm vụ nhỏ.
Các giải pháp cho các nhiệm vụ nhỏ sau đó có thể được cấu trúc để giải quyết các vấn đề
chung. Một số nhiệm vụ giải quyết các vấn đề kinh doanh cụ thể, nhưng một số khác là
những nhiệm vụ khai thác dữ liệu thông thường.
Mặc dù một số lượng lớn các thuật toán khai thác dữ liệu cụ thể được phát triển trong
những năm qua, nhưng trong đó chỉ có một số ít các thuật toán giải quyết được những
nhiệm vụ cơ bản. Dưới đây, chúng ta cùng tìm hiểu một số kỹ thuật khai phá dữ liệu trong
kinh doanh hiện nay.
1.2.1 Phân loại và lớp xác suất ước tính (Classification and class probability
estimation)
Phương pháp phân loại (Classification) là dự đoán xem đối với mỗi cá thể trong một tập
dữ liệu sẽ thuộc lớp nào. Thông thường các lớp phân loại sẽ loại trừ lẫn nhau. Ví dụ, câu
hỏi phân loại sẽ được đưa ra là “Trong một tập khách hàng, những khách hàng nào sẽ
hứng thú với sản phẩm mới?" Trong ví dụ này, hai lớp có thể được gọi là sẽ hứng thúvà
không hứng thú.

2


Một phương pháp tương tự với phân loại là đưa ra các lớp và xác suất ước tính của mỗi
lớp (Class probability estimation). Đưa ra xác suất một cá thể nhất định có thể thuộc về
một loại nào đó. Ví dụ, thay vì trả lời câu hỏi như trên, ta sẽ đi trả lời câu hỏi: “Đối với
sản phẩm mới này thì xác suất bao nhiêu phần trăm khách hàng A sẽ cảm thấy hứng
thú?“
Quá trình gồm hai bước:
 Bước xây dựng bộ phân loại (classifier) bằng việc phân tích, ý kiến chuyên
gia
 Bước phân loại (classification): phân loại dữ liệu/đối tượng mới nếu độ

chính xác của bộ phân loại được đánh giá là có thể chấp nhận được.
Các giải thuật phân loại dữ liệu:
o Phân loại dữ liệu với cây quyết định (decision tree).
o Phân loại dữ liệu với mạng Bayesian.
o Phân loại dữ liệu với mạng neural.
o Phân loại dữ liệu với k phần tử gần nhất (k-nearest neighbor).
o Phân loại dữ liệu với suy diễn dữa trên tình huống (case-based reasoning).
o Phân loại dữ liệu dựa trên tiến hóa gen (genetic algorithms).
o Phân loại dữ liệu với lý thuyết tập thô (rough sets).
o

Phân loại dữ liệu với lý thuyết tập mờ (fuzzy sets).

1.2.2 Hồi quy – “Ước tính giá trị” ( Regression - “value estimation”)
Hồi quy cũng giải quyết bài toán tương tự như đối với kỹ thuật phân loại, nhằm đưa ra
dự đoán về giá trị biến thuộc tính đối với một hay nhiều đối tượng. Điểm khác biệt hồi
quy dự đoán cho các dự liệu liên tục. Kỹ thuật phân loại dự đoán xem “điều gì sẽ xảy
ra”, trong khi hồi quy dự đoán “bao nhiêu cái gì đó” sẽ xảy ra.
Ví dụ một câu hỏi hồi quy: "Bao nhiêu khách hàng nhất định sẽ sử dụng dịch vụ?" Các
thuộc tính (biến) được dự đoán ở đây là sử dụng dịch vụ, và một mô hình có thể được tạo
ra bằng cách nhìn vào các cá nhân khác tương tự trong cộng đồng và lịch sử dụng dịch vụ
của họ.
1.2.3. Tìm điểm chung (Similarity matching)
Kỹ thuật tìm điểm chung nhằm đánh giá hoặc xác định xem với các đặc điểm của cá thể A
thì có những cá thể nào tương tự với A. Kỹ thuật tìm điểm chung là một trong những
3


phương pháp cơ bản nhất trong việc xây dựng hệ thống gợi ý sản phẩm trên các trang
thương mại điện tử (tìm những sản phẩm tương đồng với sản phẩn X bằng việc phân tích

lịch sử mua bán của những khách hàng đó để có thể gợi ý cho khách hàng Y những sản
phẩm mà anh ta có thể thích mua hoặc quan tâm đến.)
Kết quả tính toán của phương pháp này thường được sử dụng làm nền tảng để thực hiện
các phương pháp khác: classification, regression và clustering.

1.2.4 Phân nhóm (Clustering)
Phân nhóm là kỹ thuật đánh giá các cá nhân trong một tập dữ liệu và gộp các cá nhân có
đặc tính tương tự vào một nhóm, nhưng không có mục đích cụ thể. Kỹ thuật phân nhóm
sử dụng để trả lời các câu hỏi như “Các khách hàng mua sản phẩm X thuộc phân khúc
người dùng nào?”
Mặc dùng việc phân nhóm không không thực hiện tác vụ gì trên nhóm các cá thể được tạo
ra, nhưng nó có tác dụng trong việc thăm dò sơ bộ miền để xem những nhóm ngẫu nhiên
nào tồn tại bởi vì từ nhóm này lần lượt có thể đề xuất các nhiệm vụ khai thác dữ liệu hoặc
các phương pháp khác. Phân nhóm cũng được sử dụng làm đầu vào cho quá trình ra quyết
định, tập trung vào những câu hỏi như: Những sản phẩm nào doanh nghiệp nên cung cấp
hay phát triển? Làm thế nào nên các đội chăm sóc khách hàng của doanh nghiệp tiếp cận
tốt với từng nhóm khách hàng?

4


Hình 1.1

Hình 1 là một ví dụ mẫu về dữ liệu kinh doanh so sánh tuổi của khách hàng với số lượng
tiền chi tiêu. Thật hợp lý khi thấy rằng những người ở độ tuổi hai mươi (trước khi kết hôn
và còn nhỏ), ở độ tuổi năm mươi và sáu mươi (khi không còn con cái ở nhà), có nhiều
tiền tiêu hơn. Trong ví dụ này, chúng ta có thể nhận ra hai cụm, một cụm xung quanh
nhóm 2.000 Đô la Mỹ/ 20-30 tuổi và một cụm ở nhóm 7.000-8.000 Đô la Mỹ/ 50-65 tuổi.
1.2.5 Nhóm đồng thời (Co-occurrence grouping)
Nhóm đồng thời (còn được gọi là khai thác tập phổ biến, phát hiện luật kết hợp, và quy

luật phân tích thị trường) cố gắng để tìm mối liên hệ giữa các thực thể dựa trên các giao
dịch liên quan đến họ. Một câu hỏi ví dụ ngẫu nhiên: Những sản phẩm thường được mua
cùng với nhau?
Trong khi phân nhóm tìm sự giống nhau giữa các đối tượng dựa trên các thuộc tính của
các đối tượng, nhóm đồng thời xem xét sự tương tự của các đối tượng dựa trên số lần xuất
hiện cùng nhau trong các giao dịch. Ví dụ, phân tích hồ sơ mua từ một siêu thị có thể phát
hiện ra rằng thịt xay được mua cùng với nước sốt nóng thường xuyên hơn.

5


Kết quả của nhóm đồng thời là một mô tả của các thực thể thường xuất hiện cùng nhau.
Những mô tả này thường bao gồm các số liệu thống kê về tần số xảy ra đồng thời và một
ước tính cách nó xảy ra.
Việc sử dụng các kết quả có được từ kỹ thuật phân nhóm đồng thời giúp đưa ra các gợi ý
khuyến mại đặc biệt, trưng bày sản phẩm, hoặc sự kết hợp phục vụ hoặc đưa vào các hệ
thống khuyến nghị sản phẩm cho khách hàng.
1.2.6 Lập hồ sơ – mô tả hành vi (Profiling)
Lập hồ sơ (còn được gọi là mô tả hành vi) là kỹ thuật sử dụng để mô tả hành vi điển hình
của một cá nhân, nhóm, hoặc cộng đồng. Một ví dụ câu hỏi về hành vi người dùng sẽ là:
"Phân khúc khách hàng này sử dụng điện thoại di động như thế nào”. Hành vi có thể là
một mô tả đơn giản; có thể yêu cầu một mô tả phức tạp như thời gian sử dụng vào buổi
tối, thời gian gọi trung bình trong tuần, sử dụng quốc tế, cước chuyển vùng, phút văn bản,
…. Hành vi có thể được mô tả chung trong toàn bộ cộng đồng, cho các nhóm nhỏ hoặc
thậm chí cá nhân.
Lập hồ sơ thường được sử dụng để thiết lập các hành vi chuẩn mực cho các ứng dụng
phát hiện bất thường như phát hiện gian lận và giám sát đối với sự xâm nhập vào hệ thống
máy tính (chẳng hạn như ai đó đột nhập vào tài khoản iTunes của bạn). Ví dụ, nếu chúng
ta biết những sản phẩn, dịch vụ, thói quan mua sắm của người dùng trên một thẻ tín dụng,
chúng ta có thể xác định liệu một khoản phí mới trên thẻ phù hợp mà hồ sơ hay không.

Từ đó có thể sử dụng mức độ không phù hợp như một số điểm nghi ngờ và ban hành một
cảnh báo nếu cần thiết.
Phương pháp này cũng được sử dụng phổ biến trong các ứng dụng phát hiện các hành vi
hoặc hiện tượng bất bình thường như: truy cập trái phép (fraud detection), spam email. Ví
dụ, hệ thống sẽ dựa vào hồ sơ để đưa ra một mẫu các hoạt động trên tài khoản Google của
bạn, khi có một hành động hoặc truy cập lạ từ tài khoản của bạn, Google có thể phân tích
và dựa vào đó xác định rằng hoạt động này có thể là truy cập trái phép và thông báo cho
chủ tài khoản.
1.2.7. Dự đoán liên kết (Link prediction)
Dự đoán liên kết là kỹ thuật tiên đoán các kết nối giữa các hạng mục dữ liệu, thường
bằng cách gợi ý rằng một liên kết nên tồn tại và có thể cũng ước lượng sức mạnh của liên
kết. Dự đoán liên kết là phổ biến trong các hệ thống mạng xã hội: "Bạn và Karen chia sẻ
10 người bạn, có thể bạn của bạn cũng là bạn của Karen?".
6


Dự đoán liên kết cũng có thể ước lượng sức mạnh của một liên kết. Ví dụ, để giới thiệu
phim cho khách hàng có thể xây dựng một đồ thị giữa khách hàng và các bộ phim họ đã
theo dõi hoặc đánh giá. Trong đồ thị, chúng tôi tìm kiếm các liên kết không tồn tại giữa
khách hàng và phim ảnh, nhưng mà chúng ta dự đoán nên tồn tại và cần phải mạnh mẽ.
Các liên kết này tạo thành cơ sở cho các khuyến nghị.
1.2.8. Cắt giảm dữ liệu (Data reduction)
Cắt giảm dữ liệu là kỹ thuật để từ một bộ dữ liệu lớn có thể thay thế nó bằng một tập hợp
các dữ liệu nhỏ có chứa nhiều thông tin quan trọng. Các tập dữ liệu nhỏ hơn có thể được
xử lý, phân tính và đánh giá dễ dàng hơn trong các quy trình. Hơn nữa, các tập dữ liệu
nhỏ hơn có thể tiết lộ thông tin tốt hơn. Ví dụ, một tập dữ liệu lớn của người tiêu dùng
thích phim xem có thể được giảm đến một tập dữ liệu nhỏ hơn nhiều tiết lộ sở thích hành
vi của người tiêu dùng mà là tiềm ẩn trong dữ liệu xem (ví dụ, sở thích người xem). Tuy
nhiên, cắt giảm dữ liệu thường bao gồm việc mất mát thông tin.
1.2.9. Mô hình nhân quả (Causal modeling)

Mô hình quan hệ nhân quả giúp chúng tôi hiểu những sự kiện hoặc hành động thực sự ảnh
hưởng đến những thực thể khác. Ví dụ, sử dụng mô hình dự báo để nhắm mục tiêu quảng
cáo đến người tiêu dùng, và chúng tôi nhận thấy rằng thực sự là tỷ lệ khách hàng mục tiêu
mua cao hơn so với dự đoán. Được điều này bởi vì các quảng cáo ảnh hưởng đến người
tiêu dùng? Hay các mô hình dự báo đã có hiệu quả trong việc xác định những người tiêu
dùng đã có thể mua hoặc không? Kỹ thuật cho mô hình nhân quả cần sự đầu tư đáng kể
trong dữ liệu, chẳng hạn như các thí nghiệm đối chứng ngẫu nhiên (ví dụ như, quá trình
"thử nghiệm A / B"), đưa dữ liệu ngẫu nhiên vào một hệ thống để kiểm thử và xem với
mỗi tập dữ liệu ngẫu nhiên sẽ có tác động thế nào tới kết quả, cũng như các phương pháp
tinh vi để rút ra kết luận nguyên nhân từ dữ liệu quan sát. Cả hai phương pháp thí nghiệm
và quan sát cho mô hình nhân quả nói chung có thể được xem như là phân tích "đối
chứng”.
1.3. Phương pháp có giám sát và không giám sát
Xem xét hai câu hỏi tương tự mà chúng ta có thể hỏi về một tập hợp khách hàng. Việc
đầu tiên là: khách hàng của chúng tôi rơi vào các nhóm ngẫu nhiên khác nhau nào? Ở đây
không có mục đích hoặc mục tiêu cụ thể đã được chỉ định cho các nhóm. Khi không có
mục tiêu như vậy, vấn đề khai thác dữ liệu được gọi là không giám sát. Ngược lại điều
này, với một câu hỏi khác: "Chúng ta có thể tìm thấy những nhóm khách hàng có khả
7


năng xảy hủy bỏ dịch vụ của họ ngay sau khi hợp đồng hết hạn cao?" Ở đây có một mục
tiêu cụ thể được xác định: khách hàng ngừng sử dụng khi hợp đồng hết hạn? Trong
trường hợp này, phân khúc đang được thực hiện cho một lý do cụ thể: để có hành động
dựa trên khả năng thay đổi. Điều này được gọi là một vấn đề khai thác dữ liệu giám sát.
Các điều khoản giám sát và không giám sát được kế thừa từ các lĩnh vực học máy. Theo
nghĩa ẩn dụ, một giáo viên "giám sát" người học bằng cách cung cấp thông tin mục tiêu
rõ ràng cùng với một tập hợp các ví dụ. Một nhiệm vụ học không giám sát có thể liên
quan đến cùng một tập các ví dụ nhưng sẽ không bao gồm các thông tin mục tiêu.
Sự khác biệt giữa những câu hỏi trong phương pháp có giám sát và không giám sát là nhỏ

nhưng quan trọng. Nếu một mục tiêu cụ thể được cung cấp, vấn đề có thể được đặt như là
một giám sát. Nhiệm vụ giám sát yêu cầu kỹ thuật khác nhau hơn so với nhiệm vụ không
được giám sát, và kết quả thường là hữu ích hơn nhiều. Một kỹ thuật giám sát có một mục
đích cụ thể cho các nhóm-dự đoán mục tiêu. Trong kỹ thuật phân nhóm, một nhiệm vụ
không được giám sát, cung cấp các nhóm dựa trên sự tương tự, nhưng không có gì đảm
bảo rằng những điểm tương đồng có ý nghĩa hoặc sẽ hữu ích cho bất kỳ mục đích cụ thể.
Về mặt kỹ thuật, điều kiện cần được đáp ứng để khai thác dữ liệu giám sát: phải có dữ
liệu về mục tiêu. Các thông tin mục tiêu tồn tại theo nguyên tắc, cũng phải tồn tại trong
dữ liệu. Ví dụ, nó có thể là hữu ích để biết liệu một khách hàng sẽ sử dụng dịch vụ ít nhất
trong 6 tháng, nhưng nếu trong dữ liệu lịch sử thông tin lưu giữ này đã mất hoặc không
đầy đủ (nếu, các dữ liệu chỉ được giữ lại trong hai tháng) thì các giá trị đích không thể
cung cấp.
Thu thập dữ liệu về các mục tiêu thường là một sự đầu tư quan trọng trong khoa học dữ
liệu. Các giá trị cho các biến mục tiêu cho một cá nhân thường được gọi là nhãn của cá
nhân, nhấn mạnh rằng thường (không phải luôn luôn) người ta phải gánh chịu chi phí để
chủ động gắn nhãn cho dữ liệu.
Phân loại, hồi quy, và mô hình nhân quả thường được giải quyết bằng các phương pháp
giám sát. Tìm điểm chung, dự đoán liên kết, và cắt giảm dữ liệu có thể là một trong hai
phương pháp. Phân nhóm, nhóm đồng thời và lập hồ sơ nói chung là phương pháp không
có giám sát.
Hai phân lớp chính của khai thác dữ liệu giám sát, phân loại và hồi qui, được phân biệt
bởi loại mục tiêu. Hồi quy liên quan đến một số mục tiêu trong khi phân loại liên quan

8


đến một mục tiêu phân loại (thường là nhị phân). Xem xét những câu hỏi tương tự như
chúng tôi có thể giải quyết với khai thác dữ liệu giám sát
“Khách hàng này sẽ mua dịch vụ s1 nếu được tôi khuyến khích?”. Đây là một vấn đề
phân loại bởi vì nó có một mục tiêu nhị phân (khách hàng mua hoặc không).

"Gói dịch vụ (s1, s2, hoặc không có) sẽ là một khả năng mua của khách hàng nếu được
tôi khuyến khích?". Đây cũng là một vấn đề phân loại, với một mục tiêu ba giá trị.
“Có bao nhiêu khách hàng này sẽ sử dụng dịch vụ?”. Đây là một vấn đề hồi quy vì nó có
một mục tiêu số. Biến mục tiêu là lượng sử dụng (thực tế hoặc dự đoán) cho mỗi khách
hàng
Có sự tinh tế trong số những câu hỏi cần được đưa ra. Đối với các ứng dụng kinh doanh,
chúng ta thường muốn có một số dự đoán hơn một mục tiêu phân loại.
Một phần quan trọng trong giai đoạn đầu của quá trình khai thác dữ liệu là để quyết định
luồng dữ liệu sẽ được giám sát hoặc không có giám sát. Nếu là phương pháp giám sát,
cần cung cấp một định nghĩa chính xác biến mục tiêu. Biến này phải có một số lượng cụ
thể, đó sẽ là trọng tâm của việc khai thác dữ liệu.
1.4. Khai phá dữ liệu và việc sử dụng kết quả của khai phá dữ liệu
Có một khác biệt quan trọng liên quan đến khai thác dữ liệu: Sự khác nhau giữa (1) khai
phá dữ liệu để tìm mẫu và xây dựng mô hình, và (2) sử dụng kết quả của khai phá dữ liệu.
Thường có sự nhầm lẫn giữa hai quá trình này khi nghiên cứu khoa học dữ liệu, và các
nhà quản lý đôi khi nhầm lẫn giữa chúng khi thảo luận về phân tích kinh doanh.
Ví dụ về xem xét kịch bản về việc dừng sử dụng sóng viễn thông của khác hàng. Chúng
ta sử dụng các mô hình để dự đoán các khách hàng sẽ dừng sử dụng dịch vụ.
Cụ thể, giả định rằng khai phá dữ liệu đã tạo ra một mô hình ước lượng xác suất lớp M.
Với mỗi khách hàng hiện có, mô tả bằng một tập hợp các đặc điểm, M có những đặc điểm
như đầu vào và tạo ra một số điểm hoặc xác suất ước tính hao mòn. Đây là việc sử dụng
các kết quả của khai thác dữ liệu. Việc khai thác dữ liệu sản xuất các mô hình M từ một
số khác, thường là lịch sử dữ liệu.

9


Hình 2-1. Khai thác dữ liệu so với việc sử dụng các kết quả khai phá dữ liệu. Nửa trên
của hình minh họa việc khai phá dữ liệu lịch sử để tạo ra một mô hình. Quan trọng hơn,
các dữ liệu lịch sử có mục tiêu ("class") giá trị quy định. Nửa dưới cho thấy kết quả của

việc khai phá dữ liệu sử dụng, nơi mà các mô hình được áp dụng cho dữ liệu mới mà
chúng tôi không biết giá trị lớp. Mô hình dự báo cả giá trị lớp và xác suất mà biến của
lớp sẽ đưa vào giá trị đó.
Hình 2-1 minh họa hai giai đoạn này. Khai phá dữ liệu cung cấp các mô hình dự toán xác
suất, như thể hiện trong nửa đầu của hình. Trong giai đoạn sử dụng (nửa dưới), các mô
hình được áp dụng cho một trường hợp mới và nó tạo ra một ước tính xác suất cho nó.
1.5 Một số ứng dụng khai phá dữ liệu trong kinh doanh
Việc sử dụng kết quả của khai phá dữ liệu đã cho ra đời các hệ thống kinh doanh thông
minh (Business Intelligence - BI)- hệ thống đề cập đến các kỹ năng, qui trình, công nghệ,
ứng dụng được sử dụng để hỗ trợ ra quyết định , giúp chuyển đổi những dữ liệu thô thành
những thông tin có nghĩa và có ích cho mục mục phân tích kinh doanh.
BI làm tăng khả năng kiểm soát thông tin của doanh nghiệp một cách chính xác, hiệu quả
từ đó có thể phân tích, khai phá tri thức giúp doanh nghiệp có thể dự đoán về xu hướng
của giá cả dịch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để đề ra các
chiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp.
10


Về cốt lõi trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá dữ liệu (Data
Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng,
phân tán và có tính lịch sử) đó là đặc trung của kho dữ liệu. Đồng thời việc phân tích dữ
liệu trong BI không phải là những phân tích đơn giản (query, Filtering) mà là những kỹ
thuật trong khai phá dữ liệu (Data Mining) dùng để phân loại (classification) phân cụm
(clustering), hay dự đoán (Prediction). Vì vậy BI có mối quan hệ rất chặt chẽ với Data
Warehouse và Data mining.

Các thành phần chính của hệ thống BI
Ứng dụng khai phá dữ liệu trong một số các hệ thống BI đã mạng lại những hiệu
quả
 China Merchants Bank (CMB) áp dụng khai phá dữ liệu trong việc xây dựng hệ


thống cảnh báo khách hàng ngưng sử dụng dịch vụ giúp giảm 15% tỷ lệ khách
ngưng sử dụng thẻ Gold Cards, giảm 7% khách hàng ngưng sử dụng thẻ
Sunflower.
 Amazon: xây dựng hệ tư vấn, sử dụng thuật toán item – to – item collaborative

filtering match (Thuật toán xây dựng một ma trận các sản phẩm tương đồng bằng
cách tìm kiếm những sản phẩm thường được mua cùng với nhau để tư vấn cho
người dùng những sản phẩm đi kèm phù hợp nhất đối với sản phẩm họ lựa chọn)
giúp doanh thu bán hàng của công ty tăng 29% từ USD 9.9 tỷ đô la (quý
2, 2011) lên $12.83 tỷ (quý 2, 2012)
 Các hệ tư vấn cho doanh nghiệp, từ nhu cầu của Khách hàng để từ đó đưa ra các
11


kiến nghị về bán chéo (Cross-selling: là một thuật ngữ để chỉ cách thức giới thiệu
những sản phẩm hoặc dịch vụ có liên quan đến sản phẩm khách hàng đang hoặc
đã mua. Ví dụ, nếu khá ch hàng đã mua điện thoại, thì thuyết phục khách hàng
mua thêm vỏ điện thoại.), bán thêm (Up-selling: là một thuật ngữ để chỉ cách
thức giới thiệu những sản phẩm hoặc dịch vụ có giá cao hơn, hay nâng cấp sản
phẩm, dịch vụ với những tính năng bổ sung) hoặc cung cấp các dịch vụ, tốt
hơn cho khách hàng. Thông qua việc phân tích dữ liệu khách hàng ở cấp độ tinh
vi hơn, các tổ chức còn có thể tạo ra những cơ hội mới từ việc tạo ra những sản
phẩm mục tiêu mới.
 Các phân tích trên lượng dữ liệu lớn còn góp phần cải tiến và tối ưu hóa quá trình

ra quyết định, giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho doanh nghiệp.
Bằng việc khai thác nền tảng phân tích dữ liệu lớn, các doanh nghiệp có thể khám
phá các giá trị tiềm ẩn to lớn, thông qua các khung nhìn tổng hợp về hành vi mua
hàng của khách hàng. Chẳng hạn, các công ty kinh doanh qua mạng chẳng những

có thể theo dõi để biết được không chỉ những thông tin như khách hàng mua gì,
mà còn biết được họ xem những mặt hàng nào, họ xem những gì, làm gì mỗi lần
họ truy cập vào trang web, hay mức độ khách hàng bị tác động bởi những chính
sách khuyến mãi hay bình luận từ những khách hàng khác; từ đó phát hiện
ra được những điểm chung của những nhóm khách hàng.

12


2. Quy trình khai phá dữ liệu
Khai thác dữ liệu được ví như một nghề thủ công. Nó liên quan đến việc áp dụng khoa
học và công nghệ, nhưng cũng yêu cầu sự khéo léo, tỉ mỉ, cần phản hiểu rõ quá trình, đưa
ra một cấu trúc cho vấn đề một cách hợp lý nhất quán, lặp lại và khách quan.
2.1 Mô hình quy trình CRISP-DM (Cross-Industry Standard Process for Data
Mining)

Hình 2.1
Quy trình CRISP-DM là một quy trình lặp, có khả năng quay lui (backtracking) gồm 6
giai đoạn. Quy trình chỉ bắt đầu khi có sự hiểu biết về kinh doanh, hiểu được bài toán
trong kinh doanh và đưa ra được đánh giá. Các pha tiếp theo của quá trình CRISP – DM
là sự hiểu biết về dữ liệu, chuẩn bị dữ liệu, mô hình hóa, đánh giá và phát triển.

Thường thì toàn bộ quá trình là một thăm dò của dữ liệu, và sau pha đầu tiên nhóm khoa
học dữ liệu sẽ nhận biết được các thông tin nhiều hơn. Các pha kế tiếp có thể đưa ra được
nhiều hơn những thông tin giá trị.
2.1.1 Sự hiểu biết kinh doanh (Business Understanding)
Đây là bước đầu tiên và rất quan trọng trong quá trình khai phá dữ liệu phục vụ kinh
13



doanh. Điều này có vẻ hiển nhiên, nhưng thực tế các dự án kinh doanh hiếm khi rõ ràng
cho đến trước khi kết thúc và đây rõ ràng là vấn đề đối với khai thác dữ liệu. Thường viết
lại vấn đề và thiết kế một giải pháp là một quá trình lặp đi lặp lại của sự khám phá. Biểu
đồ hiển thị trong hình 2-1 đại diện cho điều này là chu kỳ trong một chu kỳ, chứ không
phải là một quá trình tuyến tính đơn giản. Việc xây dựng ban đầu có thể không được hoàn
thành hoặc tối ưu do đó việc lặp đi lặp lại nhiều có thể là điều cần thiết cho một giải pháp
chấp nhận được.
Giai đoạn sự hiểu biết kinh doanh tập trung vào sự hiểu biết các mục tiêu và yêu cầu từ
góc độ kinh doanh, trong đó, các nhà phân tích, chuyên gia kinh tế đóng một vai trò lớn.
Từ đó định nghĩa bài toán khai thác dữ liệu và lên kế hoạch thiết kế sơ bộ để đạt được
những mục tiêu. Điều này có nghĩa là phân tích, cấu trúc các vấn đề trong kinh doanh
thành một hoặc nhiều bài toán liên quan đến việc xây dựng mô hình để phân loại, hồi quy,
ước lượng xác suất,…
Trong giai đoạn đầu tiên này, đội ngũ thiết kế nên suy nghĩ cẩn thận về các kịch bản sử
dụng. Đây chính là một trong những khái niệm quan trọng nhất của khoa học dữ liệu, mà
chúng ta sẽ tìm hiểu trong hai chương (Chương 7 và Chương 11). Xác định những điều
chúng ta muốn làm chính xác là gì? Làm thế nào để xác định được chính xác chúng ta sẽ
làm điều đó? Những phần của kịch bản sử dụng có thể này tạo thành mô hình khai thác
dữ liệu hay không?
Sau vòng lặp hay các pha, các kịch bản sử dụng sẽ được điều chihnr để phản ánh tốt hơn
nhu cầu kinh doanh thực tế.
2.1.2 Sự hiểu biết dữ liệu (Data Understanding)
Nếu như giai đoạn sự hiểu biết kinh doanh nhằm xác định mục tiêu và lên kế hoạc sơ bộ.
Giai đoạn sự hiểu biết về dữ liệu giúp là hiểu được những điểm mạnh và hạn chế của dữ
liệu và kết hợp chính xác với các vấn đề mà pha hiểu biết kinh doanh đưa ra.
Do dữ liệu lịch sử thường được thu thập cho mục đích không liên quan đến các vấn đề
kinh doanh hiện tại, hoặc không có mục đích rõ ràng. Nó xuất phát từ một cơ sở dữ liệu
khách hàng, một cơ sở dữ liệu giao dịch, và một cơ sở dữ liệu phản ứng tiếp thị chứa các
thông tin khác nhau, có thể bao gồm các quần thể giao nhau và mức độ tin cậy khác nhau.
Giai đoạn này giúp khám phá những hiểu biết đầu tiên về tập dữ liệu nhằm phát hiện các

tập con dữ liệu mang thông tin quan trọng nhằm hình thành giải thuyết cho thông tin ẩn
trong đó. Từ đó có thể đưa ra phản hồi, phối hợp với tri trức kinh doanh để hiểu rõ bài
toán khai phá dữ liệu, lên mục tiêu và kế hoạch thực hiện.
14


Một phần quan trọng của giai đoạn hiểu biết dữ liệu là xác định chi phí thay đổi dữ liệu.
Dữ liệu đầu vào có thể là miễn phí nhưng một số dữ liệu có thể không tồn tại, đòi hỏi
nguồn nhân lực để tìm hiểu hoặc cần phải mua lại. Giai đoạn dữ liệu cần ước tính chi phí
và lợi ích của mỗi nguồn dữ liệu và quyết định có đầu tư xứng đáng. Ngay cả sau khi tất
cả các bộ dữ liệu được mua lại, cần phải xác định chi phí, nhân lực cho quá trình đối
chiếu, xác minh.
Ví dụ, hiện nay dữ liệu về hồ sơ khách hàng và định danh sản phẩm nổi tiếng rất đa dạng .
Làm sạch và phù hợp hồ sơ khách hàng để đảm bảo chỉ có một hồ sơ cho mỗi khách hàng
chính là một vấn đề phân tích phức tạp (Hernandez & Stolfo, 1995; Elmagarmid,
Ipeirotis, & Verykios, 2007).
1.2.3 Chuẩn bị dữ liệu (Data Preparation)
Các công nghệ phân tích hiện nay thường đưa ra một số yêu cầu đối với dữ liệu mà chúng
sử dụng. Các dữ liệu yêu cầu được trình bày với hình thức khác nhau từ các dữ liệu tự
nhiên ban đầu, đo đó việc chuyển đổi dữ liệu là cần thiết.
Do đó một giai đoạn chuẩn bị dữ liệu thường xuyên tiến hành cùng với sự hiểu biết dữ
liệu, dữ liệu được chế tác và chuyển đổi thành các hình thức giúp mang lại kết quả tốt
hơn.
Việc chuẩn bị dữ liệu bao gồm tất cả các hoạt động nhằm xây dựng các tập dữ liệu cuối
cùng làm đầu vào cho công cụ mô hình hóa như: lập bảng, ghi lại và lựa chọn thuộc tính
cũng như chuyển đổi, và làm sạch dữ liệu. Pha chuẩn bị dữ liệu có thể được thực hiện
nhiều lần và không theo thứ tự quy định.
Ví dụ điển hình của việc chuẩn bị dữ liệu là chuyển đổi dữ liệu định dạng bảng, loại bỏ
hoặc suy diễn các giá trị bị mất tích, và chuyển đổi dữ liệu với các loại khác nhau. Một số
kỹ thuật khai thác dữ liệu được thiết kế cho các dữ liệu mang tính biểu tượng và phân

loại, trong khi số khác chỉ xử lý các giá trị số. Ngoài ra, giá trị số thường phải được chuẩn
hóa hoặc thu nhỏ để họ có thể so sánh. Chương 3 thảo luận về các định dạng điển hình
nhất cho dữ liệu khai thác ở mức chi tiết hơn.
Một mối quan tâm rất quan trọng trong quá trình chuẩn bị dữ liệu là hãy cẩn thận những
“lỗ thủng”(Kaufman et al. 2012). Một lỗ thủng là một tình huống mà một biến dữ liệu thu
thập thông tin đã xuất hiện trong lịch sự, nhưng không sẵn sàng tại thời điểm thực hiện.
Ví dụ, tại một điểm cụ thể trong thời gian một người truy cập trang web sẽ kết thúc phiên
giao dịch của mình hoặc tiếp tục lướt đến một trang khác, biến "tổng số lượng của các
trang web truy cập trong phiên giao dịch" là dự đoán. Tuy nhiên, tổng số các trang web
15


truy cập trong phiên giao dịch sẽ không được biết đến sau khi phiên giao dịch kết thúc
-Tại thời điểm đó người ta sẽ biết được giá trị cho các biến mục tiêu (Kohavi et al., 2000).
1.2.4. Mô hính hóa (Modeling)
Pha mô hình hóa là nơi kỹ thuật khai thác được áp dụng cho dữ liệu. Quá trình xacsdidnjh
tham số mô hình nhằm cả các loại kỹ thuật và thuật toán đạt giá trị tối ưu. Pha mô hình
hóa và chuẩn bị dữ liệu có thể được thực hiện lặp một số lần nhằm đạt được mô hình có
kết quả tối ưu.
1.2.5 Đánh giá (Evaluation)
Mục đích của giai đoạn đánh giá là đánh giá kết quả khai thác dữ liệu một cách chính xác
để xác định mức độ tin cậy của kết quả. Giai đoạn đánh giá cũng phục vụ để đánh giá mô
hình kết quả kỹ lưỡng hơn và xem xét các bước đã được thực hiện để xây dựng mô hình
nhằm có được niềm tin chắc chắn rằng mô hình kết quả đạt được các mục tiêu kinh doanh
theo đúng cách thức.
Mục tiêu chính của khoa học dữ liệu cho doanh nghiệp là để hỗ trợ việc ra quyết định, do
đó chúng ta bắt đầu quá trình đánh giá bằng cách tập trung vào các vấn đề kinh doanh
đang cần giải quyết. Thông thường, một giải pháp khai thác dữ liệu chỉ là một phần của
giải pháp lớn hơn, do đó cần phải có những quy trình đánh giá trong khai thác dữ liệu.
Hơn nữa, ngay cả khi một mô hình qua các bài kiểm tra đánh giá nghiêm ngặt trong với

các mô hình dữ liệu thử nghiệm, có thể cần cân nhắc khi đưa vào thực tế.
Ví dụ, một lỗ hổng phổ biến với các giải pháp phát hiện (chẳng hạn như phát hiện gian
lận, phát hiện thư rác, và giám sát xâm nhập) là họ đưa ra quá nhiều các cảnh báo sai. Một
mô hình có thể rất chính xác (> 99%) theo tiêu chuẩn khi thử nghiệm, nhưng đánh giá
trong bối cảnh kinh doanh thực tế có thể cho thấy rằng nó vẫn tạo ra các cảnh báo nhầm.
Đánh giá kết quả của khai thác dữ liệu bao gồm cả đánh giá định lượng và định tính.
1.2.6 Triển khai (Deployment)
Trong việc triển khai, ngày càng nhiều kỹ thuật khai phá dữ liệu được đưa vào sử dụng
thực tế thu được lợi nhuận trong đầu tư. Các trường hợp rõ ràng nhất của việc triển khai
liên quan đến việc thực hiện một mô hình dự đoán trong một số hệ thống thông tin hoặc
quy trình nghiệp vụ. Trong ví dụ thuê bao rời mạng của chúng tôi, một mô hình để dự
đoán khả năng các thuê bao rời nhà mạng có thể được tích hợp với các quy trình kinh
doanh để quản lý các thuê bao rời nhà mạng.
Ví dụ, trong một dự án khai phá dữ liệu một mô hình đã được tạo ra để chuẩn đoán các
16


vấn đề trong các mạng điện thoại cục bộ, và cử các chuyên gia kỹ thuật đến nhưng nơi có
vấn đề. Trước khi triển khai, một nhóm các bên liên quan của công ty điện thoại yêu cầu
các mô hình được tinh chỉnh.
Ví dụ, bằng cách gửi khuyến mại đặc biệt cho các khách hàng được cho là có khả năng
rời nhà mạng để chuyển sang dùng một mạng khác. Một mô hình phát hiện gian lận mới
có thể được xây dựng thành một hệ thống thông tin quản lý lực lượng lao động, để theo
dõi các tài khoản và tạo ra "các trường hợp" cho các nhà phân tích để kiểm tra gian lận.
Càng ngày, các kỹ thuật khai phá dữ liệu được triển khai càng nhiều. Ví dụ, với mục tiêu
quảng cáo trực tuyến, các hệ thống được triển khai xây dựng tự động (và kiểm thử) các
mô hình sản xuất trong khi một chiến dịch quảng cáo mới được trình bày. Hai lý do chính
cho việc triển khai hệ thống khai phá dữ liệu chính nó chứ không phải là mô hình được
sản xuất bởi một hệ thống khai phá dữ liệu là (i) trên thế giới có thể thay đổi nhanh hơn
so với các nhóm khoa học dữ liệu có thể thích ứng, như với gian lận và phát hiện xâm

nhập, và (ii) một doanh nghiệp có quá nhiều mô hình nhiệm vụ cho đội ngũ khoa học dữ
liệu của họ để tự đối phó mỗi mô hình một cách riêng lẻ. Trong những trường hợp này, nó
có thể là tốt nhất để triển khai giai đoạn khai phá dữ liệu vào sản xuất. Khi làm như vậy,
nó là công cụ phê bình để cảnh báo cho đội ngũ khoa khi có bất kỳ bất thường và để cung
cấp các hoạt động không an toàn (Raeder et al, 2012.).
Triển khai cũng có thể là "kỹ thuật" hơn. Trong một trường hợp đặc biệt, khai phá dữ liệu
phát hiện ra một tập hợp các quy tắc mà có thể giúp nhanh chóng chuẩn đoán và sửa chữa
một lỗi phổ biến trong công nghiệp in ấn. Việc triển khai thành công đơn giản chỉ bằng
cách vỗ nhẹ một tờ giấy có chứa các quy tắc để các bên của máy in (Evans & Fisher,
2002). Triển khai cũng có thể tinh tế hơn nhiều, chẳng hạn như là một sự thay đổi để làm
thủ tục thu thập dữ liệu, hoặc một sự thay đổi chiến lược, tiếp thị, hoặc các hoạt động phát
sinh từ cái nhìn sâu sắc thu được từ khai phá dữ liệu.
Triển khai một mô hình thành một hệ thống sản xuất thường đòi hỏi rằng các mô hình
được mã hóa lại cho các môi trường sản xuất, thường cho tốc độ cao hơn hoặc khả năng
tương thích với các hệ thống hiện tại. Điều này có thể phải chịu chi phí và đầu tư lớn.
Trong nhiều trường hợp, nhóm nghiên cứu khoa học dữ liệu chịu trách nhiệm sản xuất
một mẫu thử nghiệm làm việc, cùng với đánh giá của nó. Nó được thông qua với một đội
ngũ phát triển.

17


Thực tế, có những rủi ro với "vượt tường" chuyển từ dữ liệu khoa học để phát triển. Nó
có thể hữu ích để nhớ câu châm ngôn: "Mô hình của bạn không phải là những nhà khoa
học dữ liệu thiết kế, đó là những gì mà các kỹ sư xây dựng làm" Từ góc độ quản lý, nó
được khuyến khích để các thành viên của nhóm phát triển tham gia sớm trong các dự án
dữ liệu khoa học. Họ có thể bắt đầu như những cố vấn, cung cấp cái nhìn sâu sắc quan
trọng đối với đội ngũ khoa học dữ liệu. Thực tế, các nhà phát triển đặc biệt là "kỹ sư khoa
học dữ liệu" kỹ sư phần mền người có chuyên môn đặc biệt cả trong các hệ thống sản
xuất và trong dữ liệu khoa học. Những nhà phát triển dần dần đảm nhiệm nhiều trách

nhiệm hơn khi dự án đến thời hạn hoàn thành. Tại một số điểm các nhà phát triển sẽ đi
đầu và nắm quyền sở hữu sản phẩm. Nói chung, các nhà khoa học dữ liệu vẫn còn nên
tham gia vào các dự án vào triển khai cuối cùng, như là cố vấn hoặc như các nhà phát
triển tùy thuộc vào kỹ năng của họ.
Bất kể việc triển khai là thành công, quá trình này thường xuyên quay lại pha tìm hiểu
nghiệp vụ kinh doanh. Quá trình khai phá dữ liệu đưa ra cái nhìn sâu sắc vào các vấn đề
kinh doanh và những giải pháp khó khăn. Lần lặp thứ hai có thể mang lại một giải pháp
cải thiện. Chỉ là kinh nghiệm tư duy về kinh doanh, dữ liệu, và các mục tiêu hiệu suất
thường dẫn đến những ý tưởng mới để cải thiện hiệu quả kinh doanh, và thậm chí cả dây
chuyền mới của kinh doanh hoặc công ty liên doanh mới.
Lưu ý rằng thất bại trong triển khai để bắt đầu chu kỳ lại là không cần thiết. Giai đoạn
đánh giá có thể cho thấy rằng kết quả này là không đủ tốt để triển khai, và chúng ta cần
phải điều chỉnh xác định vấn đề hoặc lấy dữ liệu khác nhau. Điều này được thể hiện bởi
các liên kết "shortcut" từ đánh giá lại để hiểu về nghiệp vụ kinh doanh trong sơ đồ quy
trình. Trong thực tế, cần có các "shortcut" để có thể quay lại mỗi giai đoạn trước bởi vì
quá trình luôn luôn giữ lại một số khía cạnh thăm dò, và một dự án phải đủ linh hoạt để
xem lại các bước trước dựa trên những khám phá cơ bản đã thực hiện.
Chuyên gia phần mềm có thể nhận ra sự tương đồng với triết lý của "thất bại nhanh hơn
để thành công sớm hơn" (Muoio, 1997).

3. Các kỹ thuật phân tích và công nghệ khác
Phân tích kinh doanh liên quan đến việc áp dụng các công nghệ khác nhau để phân tích
dữ liệu. Nhiều người có thể nghĩ xa hơn nhưng cuốn sách này tập trung vào tư duy phân
tích dữ liệu và các nguyên tắc trích xuất các mẫu hữu ích từ dữ liệu. Tuy nhiên, điều quan
18


trọng để tiếp cận và hiểu các kỹ thuật liên quan, để hiểu mục tiêu của họ là gì, vai trò gì,
và khi nó có thể có lợi ích để tham khảo ý kiến các chuyên gia.
Để kết thúc này, chúng tôi trình bày sáu nhóm các kỹ thuật phân tích có liên quan. Khi

thích hợp, chúng tôi rút ra so sánh và đối chiếu với khai phá dữ liệu. Sự khác biệt chính là
khai phá dữ liệu tập trung vào việc tìm kiếm tự động tri thức, các mẫu, từ dữ liệu. Một kỹ
năng quan trọng đối với một nhà phân tích kinh doanh là để có thể nhận ra những gì và
sắp xếp các kỹ thuật phân tích thích hợp để giải quyết một vấn đề cụ thể.
3.1 Thống kê (Statistics)
Các kỳ hạn "số liệu thống kê" có hai sử dụng khác nhau trong phân tích kinh doanh. Đầu
tiên, nó được sử dụng như một thuật ngữ catchall kỳ hạn cho việc tính toán các giá trị số
đặc biệt quan tâm từ các dữ liệu (ví dụ, "Chúng tôi cần phải tập hợp một số liệu thống kê
về việc sử dụng của khách hàng để xác định những gì đang sai ở đây.") Những giá trị này
thường bao gồm các khoản tiền, trung bình, tỷ giá,... Hãy gọi những "số liệu thống kê tóm
tắt." Thường thì chúng ta muốn đào sâu hơn, và tính toán thống kê tóm tắt điều kiện trên
một hoặc nhiều tập hợp con của dân số (ví dụ: "Liệu các tỷ lệ rời mạng khác nhau giữa
khách hàng nam và nữ?" Và "Điều gì về thu nhập cao của các khách hàng ở vùng Đông
Bắc (biểu thị một khu vực của Mỹ)? ") Thống kê tóm tắt là các khối xây dựng cơ bản của
lý thuyết khoa học được nhiều dữ liệu và thực hành.
Thống kê tóm tắt nên được lựa chọn chú ý hết sức tới các vấn đề kinh doanh để được giải
quyết (một trong những nguyên tắc cơ bản, chúng tôi sẽ trình bày sau), và cũng chú ý đến
sự phân bố của dữ liệu mà chúng được tổng kết. Ví dụ, với mức thu nhập trung bình (có
nghĩa) tại Hoa Kỳ theo Điều tra kinh tế Cục điều tra dân năm 2004 là hơn $ 60,000. Nếu
chúng ta sử dụng như là một biện pháp của thu nhập trung bình để đưa ra quyết định
chính sách, chúng tôi sẽ gây hiểu lầm. Phân phối thu nhập ở Mỹ là rất chênh lệch nhau,
với nhiều người làm tương đối ít và một số người làm rất tuyệt vời. Trong trường hợp như
vậy, trung bình số học cho chúng ta biết tương đối ít về nhiều người đang làm việc thế
nào. Thay vào đó, chúng ta nên sử dụng một biện pháp khác của thu nhập "trung bình,
chẳng hạn như trung vị. Mức trung bình thu nhập mà số tiền mà một nửa dân số làm cho
hơn một nửa và làm cho ít ở Mỹ trong nghiên cứu điều tra dân số năm 2004 là chỉ có $
44,389 –đáng kể là ít hơn so với trung bình. Ví dụ này có vẻ hiển nhiên bởi vì chúng ta
quá quen với việc nghe về "thu nhập trung bình", nhưng cùng một lý do áp dụng đối với
bất kỳ tính toán thống kê tóm tắt: bạn có nghĩ về các vấn đề bạn muốn giải quyết hoặc
19



những câu hỏi mà bạn muốn trả lời ? Bạn đã xem là sự phân phối của dữ liệu, và liệu
thống kê được lựa chọn là phù hợp?
Việc sử dụng khác của kỳ hạn "thống kê" là để biểu thị các lĩnh vực nghiên cứu nào tbởi
tên, mà chúng ta có thể phân biệt bằng cách sử dụng tên riêng, Thống kê. Các lĩnh vực
thống kê cho chúng ta một số tiền rất lớn của tri thức làm nền tảng cho phân tích, và có
thể được dùng như một thành phần của lĩnh vực lớn của khoa học dữ liệu. Ví dụ, thống kê
giúp chúng ta hiểu được phân phối dữ liệu khác nhau và những số liệu thống kê thích hợp
để tóm tắt. Thống kê giúp chúng ta hiểu được làm thế nào để sử dụng dữ liệu để kiểm tra
giả thuyết và để ước tính không chắc chắn của kết luận. Liên quan đến khai phá dữ liệu,
kiểm tra giả thuyết có thể giúp xác định xem một mô hình quan sát có khả năng là hợp lệ.
Phù hợp nhất với cuốn sách này, nhiều kỹ thuật để chiết xuất các mô hình hay mô hình từ
dữ liệu có nguồn gốc trong thống kê.
Ví dụ, một nghiên cứu sơ bộ có thể thấy rằng khách hàng ở vùng Đông Bắc có tỷ lệ rời
mạng của 22,5%, trong khi tỷ lệ trung bình toàn quốc là chỉ 15%. Điều này có thể chỉ là
một cơ hội biến động vì tỷ lệ rời mạng là không liên tục; nó thay đổi qua các vùng và theo
thời gian, do đó, sự khác biệt là được mong đợi. Nhưng tỷ lệ Đông Bắc là 1,5 mức trung
bình của Mỹ, trong đó có vẻ cao bất thường. Cơ hội rằng điều này là do sự thay đổi ngẫu
nhiên là gì? Thử nghiệm giả thuyết thống kê được sử dụng để trả lời các câu hỏi như vậy
Liên quan chặt chẽ là sự định lượng của sự không chắc chắn vào khoảng tin cậy. Tỷ lệ
thuê bao rời mạng tổng thể là 15%, nhưng có một số sự thay đổi; phân tích thống kê
truyền thống có thể cho thấy rằng 95% thời gian tỷ lệ rời mạng dự kiến sẽ giảm từ 13%
và 17%.
Điều này trái ngược với (bổ sung) quá trình khai phá dữ liệu, trong đó có thể được xem
như thế hệ giả thuyết. Chúng ta có thể tìm thấy các mẫu trong dữ liệu ở nơi đầu tiên? Thế
hệ giả thuyết sau đó có thể đi theo giả thuyết thử nghiệm một cách cẩn thận (thường trên
dữ liệu khác nhau, xem Chương 5). Ngoài ra, thủ tục khai phá dữ liệu có thể sản xuất ước
tính số học, và chúng tôi thường cũng muốn cung cấp khoảng tin cậy vào những ước tính
này.

Trong cuốn sách này, chúng tôi sẽ không dành nhiều thời gian thảo luận về những khái
niệm thống kê cơ bản. Có rất nhiều cuốn sách giới thiệu về thống kê và thống kê cho
doanh nghiệp. chúng tôi sẽ cố gắng để siết chặt hoặc rất hẹp hoặc hời hợt.
20


Điều đó nói rằng, một trong những thuật ngữ thống kê thường được nghe trong bối cảnh
phân tích kinh doanh là "tương quan." Ví dụ, "Có bất kỳ chỉ số tương quan với việc rời
của khách hàng sau này?" Cũng như với các số liệu thống kê kỳ hạn, "tương quan" có cả
một ý nghĩa mục đích chung (biến thể trong một số lượng cho chúng ta biết điều gì đó về
các biến thể khác), và một ý nghĩa kỹ thuật cụ thể (ví dụ, tương quan tuyến tính dựa trên
một công thức toán học đặc biệt). Các khái niệm về mối tương quan sẽ là điểm nhảy ra
cho phần còn lại của cuộc thảo luận của chúng ta về khoa học dữ liệu cho doanh nghiệp,
bắt đầu trong chương tiếp theo.
3.2. Truy vấn cơ sở dữ liệu(Database Querying)
Một truy vấn được chỉ định yêu cầu đối với một tập dữ liệu hoặc cho thống kê dữ liệu,
được xây dựng trên một ngôn ngữ kỹ thuật và đặt trong một hệ thống cơ sở dữ liệu. Nhiều
công cụ có sẵn để trả lời các truy vấn được lặp đi lặp lại bởi nhà phân tích. Nhưng công
cụ này thường sử dụng giao diện để truy cập đến cơ sở dữ liệu, dưa trên ngôn ngũ
SQL(on Structured Query Language) hoặc một công cụ với giao diện đô họa để giúp cho
việc truy vấn. Ví dụ nếu các nhà phân tích có thể xác đinh “lợi nhuận” trong điều kiện
tính toán từ các bản ghi trong cơ sở dữ liệu, sau đó một công cụ truy vấn có thể trả lời
“Ai là khách hang tiềm năng nhất ở vùng đông bắc?”. Nhưng nhà phân tích có thể chạy
nhưng câu lệnh truy vấn để lấy một danh sách những khách hang tiềm năng nhất, có thể
được xếp hạng theo lơi nhuận. Hoạt động này về cơ bản khác với khai phá dữ liệu trong
đó không có phát hiện mẫu hay mô hình nào.
Truy vấn cơ sở dữ liệu là thích hợp khi một nhà phân tích đã có một ý tưởng về thú vị về
dữ liệu, và muốn điều tra dân số này hoặc xác nhận một giả thuyết. Ví dụ, nếu một nhà
phân tích nghi ngờ rằng những người đàn ông trung niên sống ở vùng Đông Bắc có một
số hành vi đặc biệt thú vị, cô ấy có thể viết một truy vấn SQL như sau:

SELECT * FROM CUSTOMERS WHERE AGE > 45 and SEX='M' and DOMICILE =
'NE’
Nếu người nào muốn lấy toàn bộ thông tin, công cụ truy vấn có thể được sử dụng để lấy
tất cả các thông tin về họ ("*") từ bảng CUSTOMERS trong cơ sở dữ liệu.
Các công cụ truy vấn thường có khả năng thực thi logic phức tạp, bao gồm cả tính toán
tóm tắt số liệu thống kê, phân loại, kết nối nhiều bảng có liên quan đến nhau, và nhiều

21


hơn nữa. Các nhà khoa học dữ liệu thường khá giỏi trong việc viết các truy vấn để trích
xuất dữ liệu mà họ cần.
Phân tích data hướng online (OLAP) cung cấp một giao diện dễ sử dụng để truy vấn các
tập dữ liệu lớn, với mục đích khai thác dữ liệu. Ý tưởng "online" là được thực hiện trong
thời gian thực, vì vậy các nhà phân tích và các nhà sản xuất quyết định có thể tìm câu trả
lời cho truy vấn của họ một cách nhanh chóng và hiệu quả. Không giống như các "ad
hoc" truy vấn được kích hoạt bởi các công cụ như SQL, OLAP kích thước của phân tích
phải được lập trình vào hệ thống OLAP. Nếu chúng ta đã thấy rằng, chúng tôi muốn khai
phá khối lượng bán hàng theo khu vực và thời gian, chúng ta có thể có những ba hướng
được lập trình trong hệ thống, và đi sâu vào tập dữ liệu, thường chỉ đơn giản bằng cách
kéo thả và thao tác các biểu đồ động.
Hệ thống OLAP được thiết kế để tạo thuận lợi cho thao tác bằng tay hoặc thị giác thăm dò
của các dữ liệu của các nhà phân tích. OLAP không thực hiện mô hình hoặc phát hiện mô
hình tự động. Như một phần bổ sung, không giống như OLAP, công cụ khai phá dữ liệu
thường có thể kết hợp với kỹ thuật mới phân tích một cách dễ dàng như là một phần của
việc thăm dò. Công cụ OLAP có thể là một bổ sung hữu ích cho các công cụ khai phá dữ
liệu để phát hiện từ dữ liệu kinh doanh.
3.3. Kho dữ liệu(Data Warehousing)
Thu thập kho dữ liệu và hợp nhất dữ liệu từ trên một doanh nghiệp, thường xuyên từ
nhiều hệ thống xử lý giao dịch, với mỗi cơ sở dữ liệu. Hệ thống phân tích có thể truy cập

vào kho dữ liệu. Kho dữ liệu có thể được xem như là một công nghệ tạo điều kiện khai
phá dữ liệu. Nó không phải là luôn luôn cần thiết, phần lớn khai phá dữ liệu không truy
cập vào một kho dữ liệu, nhưng các doanh nghiệp mà quyết định đầu tư vào kho dữ liệu
thường có thể áp dụng khai thác dữ liệu rộng và sâu hơn trong tổ chức. Ví dụ, nếu một
kho dữ liệu tích hợp các bản ghi từ việc bán hàng và thanh toán cũng như từ các nguồn
lực con người, nó có thể được sử dụng để tìm các mẫu đặc trưng của nhân viên bán hàng
hiệu quả.
3.4. Phân tích hồi quy(Regression Analysis)
Hồi qui (Phân tích hồi qui) là kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu và xây
dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa được khám phá được
dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã
tạo ra dữ liệu.
22


Mô hình hồi qui (regression model): mô hình mô tả mối liên kết (relationship) giữa một
tập các biến dự báo (predictor variables/independent variables) và một hay nhiều đáp ứng
(responses/dependent variables).
Phân loại
+ Hồi qui tuyến tính (linear) và phi tuyến (nonlinear)
+ Hồi qui đơn biến (single) và đa biến (multiple)
+ Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp
(semiparametric)
+ Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric)
Phân tích hồi quy được ap dụng trong giai đoạn tiền xử lý dữ liệu và giai đoạn khai phá
dữ liệu: khai phá dữ liệu có tính mô tả (Predictive data mining) và dự báo (Descriptive
data mining)
3.5. Học máy và khai phá dữ liệu
Tập các phương pháp để trích xuất (dự đoán) các mô hình từ dữ liệu, ngày nay được gọi
là phương pháp học máy, đã được phát triển đồng thời trong nhiều lĩnh vực, đáng chú ý

nhất máy học, thống kê ứng dụng, nhận dạng mẫu. Học máy (Machine Learning) là một
ngành khoa học nghiên cứu các thuật toán cho phép máy tính có thể học được các khái
niệm (concept). Học máy là một lĩnh vực nghiên cứu của trí tuệ nhân tạo, được quan tâm
với các phương pháp phát hiện tri thức. Trong những năm gần đây, học máy đóng một vài
trò quan trọng. Phương pháp học máy đã được triển khai rộng rãi, các môn khoa học của
học máy, Thống kê ứng dụng, và nhận dạng mẫu phát triển gần gũi với nhau.
Các lĩnh vực khai phá dữ liệu (hoặc KDD: kỹ thuật phát hiện tri thức - Knowledge
Discovery and Data Mining) được bắt đầu như một nhánh của học máy, và chúng gắn kết
chặt chẽ với nhau. Cả hai lĩnh vực có liên quan với việc phân tích các dữ liệu để tìm các
mẫu thông tin hữu ích Kỹ thuật này đã và đang được nghiên cứu, ứng dụng vào nhiều
ngành nghề, lĩnh vực khác nhau trên thế giới.
Nói chung, vì học máy là có liên quan với nhiều loại cải tiến hiệu suất, nó bao gồm các
lĩnh vực con như người máy và thị giác máy tính và nó không phải là một phần của khai
phá tri thức.
23


Trong lịch sử, KDD tách ra từ Học máy là một lĩnh vực tập trung nghiên cứu vào mối
quan tâm lớn lên bằng cách kiểm tra các ứng dụng thế giới thực, và một thập kỷ rưỡi sau
đó cộng đồng KDD vẫn quan tâm nhiều hơn với các ứng dụng hơn Học máy là. Như vậy,
nghiên cứu tập trung vào các ứng dụng thương mại và các vấn đề kinh doanh của phân
tích dữ liệu có xu hướng nghiêng về các cộng đồng KDD hơn là học máy. KDD cũng có
xu hướng được quan tâm nhiều hơn với toàn bộ quá trình phân tích dữ liệu: chuẩn bị dữ
liệu, học tập mô hình, đánh giá, và hơn nữa.
Trả lời câu hỏi kinh doanh qua những kỹ thuật
Để minh họa cách các kỹ thuật áp dụng cho phân tích kinh doanh, xem xét một loạt các
câu hỏi có thể phát sinh và các công nghệ có thể thích hợp để trả lời chúng. Những câu
hỏi này đều liên quan với nhau nhưng sự tinh tế của chúng là khác nhau. Điều quan trọng
là phải hiểu những khác biệt để hiểủ là sử dụng công nghệ gì và mọi người có thể thảo
luận về cái gì.

1. Khách hàng tiềm năng là ai?
Nếu "tiềm năng" có thể được xác định rõ ràng dựa trên dữ liệu hiện tại, đây là một
cơ sở dữ liệu truy vấn đơn giản. Một công cụ truy vấn chuẩn có thể được sử dụng
để lấy ra một tập hồ sơ khách hàng từ một cơ sở dữ liệu. Kết quả có thể được sắp
xếp theo số lượng giao dịch tích lũy, hay một vài chỉ số hoạt động khác của lợi
nhuận.
2. Có thực sự là một sự khác biệt giữa các khách hàng tiềm năng và khách hàng
trung bình?
Đây là một câu hỏi về một sự phỏng đoán và giả thuyết (trong trường hợp này,
"Có một sự khác biệt về giá trị cho công ty giữa các khách hàng tiềm năng và
khách hàng trung bình"), và kiểm tra giả thuyết thống kê sẽ được sử dụng để xác
nhận hoặc không xác nhận. Phân tích thống kê cũng có thể lấy được một xác suất
hoặc sự tự tin ràng buộc rằng sự khác biệt là có thật. Thông thường, kết quả sẽ
như thế nào: "Giá trị của những khách hàng tiềm năng là khác đáng kể với khách
hàng trung bình, với xác suất <5% đây là do cơ hội ngẫu nhiên."
3. Nhưng ai thực sự là những khách hàng? Tôi có thể mô tả họ?

24


Chúng ta thường muốn làm nhiều hơn là chỉ ra khỏi danh sách các khách hàng
tiềm năng. Chúng tôi muốn mô tả đặc điểm chung của khách hàng tiềm năng. Các
đặc điểm của khách hàng cá nhân có thể được chiết xuất từ một cơ sở dữ liệu bằng
cách sử dụng các kỹ thuật như truy vấn cơ sở dữ liệu, mà cũng có thể được sử
dụng để tạo ra số liệu thống kê tóm tắt. Một phân tích sâu hơn nên liên quan đến
việc xác định những đặc điểm phân biệt khách hàng tiềm năng từ những người
không tiềm năng. Đây là lĩnh vực của khoa học dữ liệu, sử dụng các kỹ thuật khai
phá dữ liệu cho mô hình tự động tìm kiếm mà chúng tôi thảo luận sâu hơn trong
các chương tiếp theo.
4. Một số khách hàng mới đặc biệt sẽ có tiềm năng?

Doanh thu là bao nhiêu tôi nên mong đợi của khách hàng này có thể tạo ra?
Những câu hỏi này có thể được giải quyết bằng các kỹ thuật khai phá dữ liệu kiểm
tra hồ sơ lịch sử khách hàng và sản xuất các mô hình dự báo lợi nhuận. Các kỹ
thuật như vậy sẽ tạo ra các mô hình từ dữ liệu lịch sử mà sau đó có thể được áp
dụng cho các khách hàng mới để tạo ra các dự đoán.
Lưu ý rằng cặp câu hỏi cuối này là những câu hỏi khai phá dữ liệu với sự tinh tế khác
nhau. Đầu tiên, một câu hỏi phân loại, có thể được đặt ra như một dự đoán về việc liệu
một khách háng mới có tiềm năng (có / không, hay xác suất của chúng). Thứ hai có thể
được đặt ra như một dự đoán về giá trị (bằng số) mà khách hàng sẽ mang lại cho công ty.
Tóm lược
Khai phá dữ liệu là một ngành kỹ thuật. Cũng như nhiều ngành kỹ thuật, có một quá trình
cũng xác định rằng có thể giúp tăng khả năng thành công. Quá trình này là một công cụ
khái niệm rất quan trọng để suy nghĩ về các dự án khoa học dữ liệu. Chúng tôi sẽ xem lại
quá trình khai phá dữ liệu liên tục trong suốt cuốn sách, cho thấy làm thế nào mỗi khái
niệm cơ bản phù hợp. Đổi lại, sự hiểu biết cơ bản về khoa học dữ liệu được cải thiện đáng
kể cơ hội thành công như là một doanh nghiệp gọi quá trình khai phá dữ liệu.
Các lĩnh vực khác nhau của các nghiên cứu khoa học liên quan đến dữ liệu đã phát triển
một tập các loại công việc như phân lớp, hồi quy và phân cụm. Mỗi loại công việc phục
vụ một mục đích khác nhau và có liên quan đến các giải pháp kỹ thuật. Một nhà khoa học
dữ liệu thường bắt tay vào một dự án mới bằng cách phân rã nó như vậy một hay nhiều
hơn các nhiệm vụ, việc lựa chọn một giải pháp cho từng kỹ thuật, sau đó soạn thảo các
25


×