Tải bản đầy đủ (.pdf) (82 trang)

XÁC ĐỊNH ĐẶC TRƯNG KHÁCH HÀNG DỰA TRÊN TẬP THÔ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.96 MB, 82 trang )


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH



BÀI LUẬN CUỐI KHÓA
XÁC ĐỊNH ĐẶC TRƯNG KHÁCH HÀNG DỰA TRÊN
TẬP THÔ


Giảng viên hướng dẫn: PGS. TS. ĐỖ PHÚC
Học viên thực hiện: NGUYỄN HỮU VIỆT LONG
Mã số: CH1101101
Lớp: CAO HỌC KHÓA 06-2011





TP. Hồ Chí Minh, tháng 11 năm 2012



Mở đầu

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 1

MỞ ĐẦU


Nhận biết và thấu hiểu đặc trưng khách hàng từ lâu đã luôn là nhu cầu không thể
thiếu của các nhà hoạt động kinh doanh. Đặc trưng khách hàng (Customer Characteristics)
như tuổi tác (age), thu nhập (income), nghề nghiệp (job), trình độ (education level)… ảnh
hưởng không nhỏ tới quyết định mua hàng hoặc sử dụng dịch vụ. Dự đoán các đặc trưng của
khách hàng để đưa ra các chiến lược kinh doanh phù hợp trong hoàn cảnh thị trường có mức
độ rủi ro cao thường là điều không hề dễ dàng đối với doanh nghiệp.
Nhà quản lý thường phải bỏ ra một chi phí khá lớn hàng năm để phân loại khách hàng
phục vụ mục đích kinh doanh. Kỹ thuật Minimize Expected Opportunity Loss là một trong
các cách thông dụng mà nhà quản lý doanh nghiệp thường hay sử dụng để hoạch định các
chính sách, chiến lược kinh doanh tối ưu, hạn chế rủi ro ở mức thấp.
Sự phát triển mạnh mẽ của Công Nghệ Thông Tin và những lợi ích thấy rõ của nó đã
thúc đẩy các doanh nghiệp không ngừng đầu tư áp dụng các thành tựu của Khoa học máy
tính mà đặc biệt là Khai thác dữ liệu vào hoạt động sản xuất kinh doanh. Kỹ thuật phân tích
đặc trưng khách hàng cũng theo đó mà phát triển.
Mục tiêu của đề tài là giới thiệu mô hình áp dụng một số giải pháp Khai thác dữ liệu
nhằm tối ưu cách thức phân loại khách hàng. Dựa trên các thông tin về thuộc tính khách
hàng, mô hình sử dụng phương thức phân lớp Bayes để phân loại dữ liệu các khách hàng
trong quá khứ và dự đoán loại của khách hàng mới theo lý thuyết Tập thô, đồng thời xác
định các đặc trưng khách hàng quan trọng đối với quá trình phân tích. Kỹ thuật Minimize
Expected Opportunity Loss được cải tiến cho phù hợp hơn với mô hình. Từ đó, đưa ra
phương án tối ưu cho từng khách hàng, nâng cao lợi nhuận và giảm thiểu rủi ro cho doanh
nghiệp.

Bài luận được chia thành 4 chương và 3 phần phụ lục:
Chương 1: Giới thiệu hướng nghiên cứu phân tích đặc trưng khách hàng và trình bày
tổng quan về tình hình nghiên cứu hiện nay
Chương 2: Giới thiệu bài toán phân tích đặc trưng khách hàng và cơ sở lý thuyết
được sử dụng để giải quyết bài toán này.
Mở đầu


Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 2

Chương 3: Trình bày mô hình phân tích đặc trưng G(m,n), các chứng minh lý thuyết
và kết quả thực nghiệm của mô hình này.
Chương 4: Tóm tắt các kết quả đạt được, những điểm tích cực và một số vấn đề còn
tồn đọng. Giới thiệu những hướng phát triển tiếp theo của mô hình phân tích đặc trưng
G(m,n).
Phụ lục A: Tóm tắt mô hình phân tích đặc trưng của Paul E. Green. Mô hình nền tảng
của mô hình G(m,n)
Phụ lục B: Giới thiệu các lớp bài toán P và NP.
Phục lục C: Chứng minh tính đúng đắn của chiến lược sử dụng tập hợp tối đại ngẫu
nhiên ưu tiên trong rút gọn thuộc tính.

Bài luận cũng là tổng hợp kết quả của hai bài báo khoa học vừa được đăng tải năm
2012 trên những tạp chí khoa học quốc tế:
1. Thanh-Trung Nguyen, Viet-Long Huu Nguyen, and Phi-Khu Nguyen –
Identifying Customer Characteristics By Using Rough Set Theory With A New
Algorithm And Posterior Probabilities – 2012 Fourth International Conference on
Computational and Information Sciences. Link web:
/>contentType=Conference+Publications
2. Thanh-Trung Nguyen, Viet-Long Huu Nguyen and Phi-Khu Nguyen – A Bit-
Chain Based Algorithm for Problem of Attribute Reduction – Intelligent
Information and Database Systems, Lecture Notes in Computer Science, 2012.
Link web:

Học viên viên thực hiện
Nguyễn Hữu Việt Long

Mục lục


Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 3

MỤC LỤC


MỞ ĐẦU 1
MỤC LỤC 3
DANH MỤC 5
CHƯƠNG 1: TỔNG QUAN 10
1.1 XU HƯỚNG NGHIÊN CỨU ĐẶC TRƯNG KHÁCH HÀNG 10
1.1.1 Giới thiệu về Đặc trưng khách hàng 10
1.1.2 Các phương pháp phân tích đặc trưng khách hàng hiện nay 10
1.2 NỘI DUNG NGHIÊN CỨU 13
1.3 PHƯƠNG PHÁP NGHIÊN CỨU 14
CHƯƠNG 2: BÀI TOÁN PHÂN TÍCH ĐẶC TRƯNG 15
2.1 BÀI TOÁN 15
2.2 CƠ SỞ LÝ THUYẾT 16
2.2.1 Expected Opportunity Loss 16
2.2.1.1 Opportunity Loss 16
2.2.1.2 Minimize Expected Opportunity Loss 17
2.2.1.3 Ví dụ về Minimize EOL 17
2.2.2 Khai thác dữ liệu 18
2.2.2.1 Tổng quan về Khai thác dữ liệu 19
2.2.2.2 Công thức Bayes 21
2.2.2.3 Lý thuyết tập thô 23
Mục lục

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 4

CHƯƠNG 3: MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG 33

3.1 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG CỦA GREEN 33
3.2 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG G(M,N) 34
3.2.1 Bộ phận tiền xử lý dữ liệu 34
3.2.2 Bộ phận phân tích dữ liệu 38
3.2.3 Bộ phận khuyến nghị 41
3.2.4 Bộ phận xử lý các mẫu khách hàng không xác định 42
3.2.5 Kiểm chứng kết quả thu được 43
3.3 VÍ DỤ MINH HỌA 44
3.4 THỰC NGHIỆM 53
3.4.1 Dữ liệu thực nghiệm 53
3.4.2 Chương trình mô phỏng 55
3.5 KẾT QUẢ 60
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61
4.1 KẾT LUẬN 61
4.2 HƯỚNG PHÁT TRIỂN 62
Phụ lục A: Mô hình phân tích đặc trưng Paul E. Green 63
Phục lục B: Các lớp bài toán P và NP 69
Phụ lục C: Tập hợp tối đại ngẫu nhiên ưu tiên trong rút gọn thuộc tính 72
TÀI LIỆU THAM KHẢO 79

Danh mục

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 5

DANH MỤC


1. Thuật ngữ
Đặc trưng khách hàng 10
Opportunity Loss (OL) 16

Expected Opportunity Loss (EOL) 17
Minimize Expected Opportunity Loss 17
Khai thác dữ liệu 18
Công thức Bayes 21
Lý thuyết tập thô 23
Rút gọn thuộc tính 28
Bài toán NP-khó 29
Mô hình G(m,n) 34
Tập hợp tối đại ngẫu nhiên ưu tiên 38
Weighted Opportunity Loss (WOL) 43







Danh mục

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 6

2. Công thức
2.1 – Opportunity Loss 17
2.2 – Expected Opportunity Loss 17
2.3 – Công thức Bayes 21
2.4 – Xấp xỉ R-dưới của X 25
2.5 – Xấp xỉ R-trên của X 25
2.6 – Vùng R-biên của X 25
2.7 – Ma trận phân biệt của hệ quyết định 25
2.8 – Hàm phân biệt 26

2.9 – Giá trị Support 30
2.10 – Certainty factor 31
3.1 – Posterior Expected Opportunity Loss 41
3.2 – Expected Opportunity Loss 42
3.3 – Weighted Opportunity Loss 43










Danh mục

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 7

3. Bảng
2.1 – Bảng khảo sát lợi nhuận 18
2.2 – Bảng lợi nhuận tối ưu 18
2.3 – Ma trận chi phí: Opportunity Loss 18
2.4 – Một hệ quyết định trong “chuẩn đoán bệnh Cảm cúm” 24
2.5 – Ma trận phân biệt của hệ quyết định “Cảm cúm” 26
2.6 – Hệ quyết định rút gọn thuộc tính Đau cơ 27
2.7 – Hệ quyết định rút gọn thuộc tính Đau đầu 27
2.8 – Bảng chuẩn đoán kết quả Bệnh tật 30
3.1 – Bảng dữ liệu khách hàng 44
3.2 – Bảng ước lượng lợi nhuận 45

3.3 – Danh sách khách hàng cần xác định 45
3.4 – Các xác suất hậu nghiệm 46
3.5 – Các xác suất lề 46
3.6 – Ma trận chi phí Opportunity Loss 47
3.7 – Ma trận phân biệt 47
3.8 – Các vector khách hàng sau khi rút gọn thuộc tính 49
3.9 – Các mẫu khách hàng mục tiêu sau khi rút gọn thuộc tính 50
3.10 – Các xác suất của các mẫu khách hàng thường và ẩn 50
3.11 – Giá trị Posterior EOL của các mẫu khách hàng tập RH 51
3.12 – Kết quả lựa chọn phương án của các mẫu thuộc tập RH 51
3.13 – Giá trị EOL của các phương án đề xuất 51
3.14 – Kết quả phương án áp dụng cho các khách hàng 52
3.15 – Giá trị Weighted Opportunity Loss của các khách hàng tập RH 52
Danh mục

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 8

A.1 – Mẫu thuộc tính cho 3 đặc trưng khách hàng và các xác suất có điều kiện 63
A.2 – Bảng Opportunity Losses 64
A.3 – Các xác suất hậu nghiệm của khách hàng 65
A.4 – Các giá trị Critical Probability và Likelihood ratio 66
A.5 – Bảng Expected Opportunity Loss 66
C.1 – Một hệ quyết định “Chơi tennis” 76
C.2 – Ma trận phân biệt của hệ quyết định “Chơi tennis” 76


















Danh mục

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 9


4. Hình ảnh
2.1 – Mô hình DFD bài toán phân tích đặc trưng khách hàng 15
2.2 – Các công đoạn trong khám phá tri thức 19
2.3 – Kiến trúc một hệ Khai thác dữ liệu 20
2.4 – Minh họa tập thô 24
3.1 – Kiến trúc mô hình G(m,n) 35
3.2 – Các đặc trưng của học viên 53
3.3 – Các loại khách hàng (học viên) 53
3.4 – Các phương án tư vấn đề xuất 54
3.5 – Giao diện của chương trình mô phỏng mô hình G(m,n) 55
3.6 – Một bộ thông số sinh dữ liệu ngẫu nhiên 56
3.7 – Dữ liệu thực nghiệm được nạp vào chương trình 58
3.8 – Cách nạp các vector khách hàng mục tiêu vào chương trình mô phỏng 59
3.9 – File lưu trữ một số mẫu khách hàng mục tiêu 59

A.1 – Đồ thị xu hướng của chỉ số EOL và mức chi phí tính toán 68
B.1 – Mô hình các lớp bài toán 70
C.1 – Đồ thị thời gian chạy của 2 giải thuật Johnson và chuỗi bit 78

Chương 1: Tổng quan

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 10

CHƯƠNG 1: TỔNG QUAN

1.1 XU HƯỚNG NGHIÊN CỨU ĐẶC TRƯNG KHÁCH HÀNG
1.1.1 Giới thiệu về Đặc trưng khách hàng
Đặc trưng khách hàng (Customer Characteristics) là một trong các tiêu chí giúp xác
định loại khách hàng và tiềm năng của khách hàng. Các đặc trưng khách hàng có thể kể ra là
tuổi tác (age), giới tính (gender), nghề nghiệp (job), thu nhập (income), trình độ học vấn
(education level), tình trạng hôn nhân (marital status)…
Cùng với Category Characteristics và Customer Activities, đặc trưng khách hàng là
nhân tố quan trọng ảnh hưởng tới tâm lý và quyết định chọn lựa sản phẩm của khách hàng
[8][4]. Nó cũng làm tác động tới giá trị nhận thức (perceived value) và niềm tin của khách
hàng (customer loyalty) vào doanh nghiệp [6]. Một số nhà nghiên cứu đã sử dụng các đặc
trưng khách hàng nhằm dự đoán quyết định mua vé máy bay [9], mức độ tin tưởng của
khách hàng vào các dịch vụ trực tuyến [5]…
Dựa vào một số thông tin mà doanh nghiệp có thể dễ dàng có được như các giá trị
RFM (recency, frequency and monetary) và một số giá trị socio-demographics như: tuổi tác,
địa chỉ khách hàng, người quản lý hoàn toàn có thể dự đoán khả năng tiêu dùng, kích thước
túi tiền của khách hàng [7]. Dữ liệu về thông tin, thuộc tính khách hàng có thể thu được từ
nhiều nguồn như Internet, các cuộc khảo sát (surveys), các phản hồi của khách hàng
(feedbacks)… và chúng thường tốn một số chi phí để tìm kiếm, thu thập [23].
Sự phát triển của Internet kéo theo sự ra đời của các hệ thống khuyến nghị
Recommender System. Các hệ thống khuyến nghị tích hợp tính năng thu thập thông tin

khách hàng trực tuyến để phân tích, đánh giá và đưa ra các khuyến nghị mua hàng, sử dụng
sản phẩm, dịch vụ phù hợp với khách hàng [14].

1.1.2 Các phương pháp phân tích đặc trưng khách hàng hiện nay
Các phương pháp phân tích đặc trưng khách hàng hiện nay đều phát triển dựa trên các
kỹ thuật của Xác suất thống kê và Khai thác dữ liệu. Việc khảo sát bản chất và ảnh hưởng
của từng loại thông tin khách hàng lên quyết định chọn mua hàng và sử dụng dịch vụ được
quan tâm nghiên cứu nhiều [8][5][6]. Generalized Binomial Model được giới thiệu để dự
Chương 1: Tổng quan

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 11

đoán Size-of-Wallet, Share-of-Wallet và Potential-of-Wallet. Qua đó, xác định được khả
năng tiêu dùng của khách hàng [7].
Xác suất thống kê được xem như là một trong những nền tảng lý thuyết của Khai thác
dữ liệu nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống
kê còn tồn tại một số điểm yếu mà Khai thác dữ liệu đã khắc phục được: Các phương pháp
thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều các Cơ sở dữ
liệu. Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức
sẵn có về lĩnh vực. Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ
được. Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ
liệu như thế nào và ở đâu… (nguồn
Hầu hết các nghiên cứu về đặc trưng khách hàng đều nhằm mục tiêu đáp ứng được tốt
nhất nhu cầu của khách hàng và nâng cao lợi nhuận. Ý thức được tầm quan trọng của các
hoạt động hướng khách hàng (customer orientation), ngày càng nhiều doanh nghiệp quan
tâm hơn đến các ứng dụng quản trị quan hệ khách hàng (Customer Relationship
Management – CRM) mà bài toán phân tích đặc trưng khách hàng là một cốt lõi không thể
thiếu. CRM là một phương pháp giúp tiếp cận và giao tiếp với khách hàng một cách có hệ
thống và hiệu quả, quản lý các thông tin của khách hàng như thông tin về tài khoản, nhu cầu,
liên lạc… nhằm phục vụ khách hàng tốt hơn. Thông qua các kỹ thuật, công cụ máy tính, các

thông tin khách hàng sẽ được lưu trữ và xử lý. Doanh nghiệp có thể phân tích, hình thành
danh sách khách hàng tiềm năng và lâu năm để đề ra những chiến lược chăm sóc khách hàng
hợp lý. Ngoài ra, doanh nghiệp còn có thể xử lý các vấn đề vướng mắc của khách hàng một
cách nhanh chóng và hiệu quả. Kỹ thuật thường được áp dụng trong các hệ thống CRM
chính là Khai thác dữ liệu [21][7].
Khai thác dữ liệu (data mining) là một khái niệm phổ biến của ngành Khoa học máy
tính. Ra đời vào khoảng thập niên 60 của thế kỷ XX cùng với sự phát triển của máy tính, Trí
tuệ nhân tạo và các mô hình cơ sở dữ liệu. Khai thác dữ liệu được xem như là quá trình khai
thác ra tri thức mới từ một lượng lớn dữ liệu [13]. Khai thác dữ liệu hiện nay được áp dụng
vào rất nhiều lĩnh vực và giúp cải thiện đáng kể hiệu suất tính toán phân tích dữ liệu. Trong
phân tích đặc trưng khách hàng, Khai thác dữ liệu cũng có nhiều đóng góp đáng kể. Lý
thuyết tập thô – một kỹ thuật trong Khai thác dữ liệu – được nhiều nhóm nghiên cứu sử dụng
để dự đoán phương án mà khách hàng chọn [4][9][10]. Kỹ thuật Thuật giải di truyền còn
cho phép nhận diện những khách hàng mới và đưa ra các khuyến nghị cho họ [14]. Bên cạnh
đó, kỹ thuật phân lớp Bayes của Khai thác dữ liệu được xem là kỹ thuật đơn giản nhưng rất
hiệu quả để xác định, phân tích đặc trưng khách hàng [23].
Chương 1: Tổng quan

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 12

Các ứng dụng phân tích đặc trưng khách hàng tạo ra các dịch vụ hướng khách hàng
và nó cũng là cơ sở để các nhà quản lý xây dựng, phát triển các chiến lược kinh doanh phù
hợp. Tuy nhiên, phân loại khách hàng cũng chỉ đưa ra các thông tin tương đối, thậm chí là
không chính xác về quyết định chọn mua sản phẩm, sử dụng dịch vụ của người tiêu dùng.
Không ai thực sự biết bộ não con người ra những quyết định như thế nào [4]. Các quyết định
dựa trên những thông tin về loại khách hàng thường sử dụng kỹ thuật xác suất mang mức độ
rủi ro cao. Trong những hoàn cảnh rủi ro, kỹ thuật Minimize Expected Opportunity Loss là
một trong các cách thường được sử dụng. Kỹ thuật này chọn ra phương án có phí tổn thấp
nhất làm phương án tối ưu [3].
Minimize Expected Opportunity Loss cơ bản dựa vào bảng ma trận ước lượng chi phí

để dự đoán ra phương án có phí tổn thấp. Ma trận chi phí được nhà phân tích thu thập từ
thực tế thị trường, nó thể hiện sự tác động của phương án đề xuất lên từng loại khách hàng.
Loại khách hàng (Customer types) được phân tích dựa trên các đặc trưng của khách
hàng và thái độ của khách hàng trong giao thiệp với doanh nghiệp. Tùy theo tiêu chí của
doanh nghiệp mà có các loại khách hàng khác nhau. Một số loại khách hàng có thể kể ra
như: khách hàng thanh thiếu niên, khách hàng tiềm năng của sản phẩm X, khách hàng hứng
thú với chiến lược Y của doanh nghiệp, khách hàng quan trọng … Hai khách hàng có cùng
đặc trưng cũng có thể có quan niệm khác nhau về sản phẩm, dịch vụ của doanh nghiệp và có
thể thuộc hai loại khách hàng khác nhau.
Như đã nói ở trên, loại khách hàng chỉ phản ánh được phần nào quyết định chọn mua
sản phẩm, dịch vụ của khách hàng. Sử dụng trực tiếp các thông tin về thuộc tính khách hàng
để tìm kiếm phương án áp dụng tối ưu đã từng được nghiên cứu và thử nghiệm. Kỹ thuật
phân lớp Bayes được sử dụng làm phương pháp phân tích hậu nghiệm các dữ liệu khách
hàng quá khứ khá hiệu quả [23].
Kỹ thuật phân lớp Bayes (Bayesian Classification) dựa trên Công thức Bayes để tính
toán, phân loại sự phân bố của các xác suất hậu nghiệm (Posterior Distributions) [12]. Xác
suất hậu nghiệm giúp ta dự đoán khả năng xuất hiện của sự kiện khi một sự kiện khác đã xảy
ra. Kỹ thuật Bayes là cách tiếp cận đơn giản nhất như vô cùng hiệu quả để phân lớp và xác
định loại của khách hàng [23].
Bayes tiếp cận trực tiếp lên tập dữ liệu, giả định tính độc lập giữa các thông tin, đặc
trưng khách hàng (trên thực tế, các đặc trưng khách hàng có thể có mối liên hệ qua lại với
nhau) nên nó bộc lộ nhiều hạn chế trong phân tích dữ liệu. Bên cạnh đó, chắc chắn là hầu hết
các cơ sở dữ liệu sử dụng cho việc khai thác dữ liệu và phân tích đặc trưng khách hàng trong
thực tế đều không hoàn thiện về dữ liệu do nhiễu, các giá trị không xác định hoặc lỗi do các
thiết bị đo đạc không chính xác. Lý thuyết Tập thô (Rough Set Theory) được phát triển
Chương 1: Tổng quan

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 13

nhằm khắc phục ít nhiều những hạn chế của phân lớp Bayes, áp dụng vào giải quyết sự gần

đúng và các trường hợp quyết định mang tính rủi ro cao.
Tập thô (Rough set) được Zdzisław Pawlak, nhà toán học người Ba Lan, phát triển
vào những năm đầu thập niên 1980s [22]. Nó mở ra một cách tiếp cận dữ liệu mới khác với
cách tiếp cận xác suất của phân lớp Bayes. Tập thô cung cấp những giải thuật khá hiệu quả
giúp tìm ra được những mẫu ẩn (hidden patterns) suy ra từ dữ liệu, đồng thời loại bỏ những
thông tin không thật sự cần thiết, phát triển những thông tin quan trọng và xác định đặc
trưng của dữ liệu. Đây là một kỹ thuật rất hiệu quả trong Khai thác dữ liệu. Tập thô cũng rất
dễ hiểu nên được rất nhiều nhà nghiên cứu hiện nay sử dụng. Nhiều mô hình lý thuyết tập
thô được áp dụng trong lựa chọn sản phẩm của khách hàng [4], trong việc dự đoán khả năng
mua vé máy bay [9] hay trong dự đoán thị trường chứng khoán [10]…

1.2 NỘI DUNG NGHIÊN CỨU
Nắm được nhu cầu thiết yếu của việc phân tích đặc trưng khách hàng và xu hướng
phát triển hiện nay, đề tài này tiếp tục đào sâu nghiên cứu với mong muốn tìm ra một mô
hình phân tích đặc trưng khách hàng hiệu quả dựa trên những phương pháp phân tích đặc
trưng truyền thống kết hợp với những phương pháp hiện đại.
Để đáp ứng mục tiêu nghiên cứu đó, đề tài đề xuất một mô hình áp dụng Tập thô kết
hợp với Công thức Bayes và kỹ thuật Minimize Expected Opportunity Loss để giải quyết bài
toán tối ưu trong phân tích đặc trưng khách hàng. Mô hình sẽ gồm các thành phần:
- Bộ phận tiền xử lý dữ liệu (Data Preprocessor Module): có nhiệm vụ chuẩn bị dữ
liệu; chọn lọc, làm sạch, làm giàu và mã hóa dữ liệu cho phù hợp với mô hình.
- Bộ phận phân tích dữ liệu (Data Analyzer Module): sử dụng Tập thô kết hợp với
công thức Bayes để phân loại khách hàng và đưa ra các luật của dữ liệu.
- Bộ phận khuyến nghị (Recommendation Module): áp dụng kỹ thuật Minimize
Expected Opportunity Loss được cải tiến lại cho phù hợp với mô hình để tìm các
phương án tối ưu cho các một số mẫu khách hàng.
- Bộ phận xử lý mẫu không xác định (Unknown Patterns Processor Module): xác
định phương án tối ưu cho các mẫu khách hàng không xác định được dựa trên dữ
liệu bằng phương pháp Minimize Expected Opportunity Loss truyền thống.
Cùng với đó, mô hình cũng cung cấp một phương thức kiểm chứng tính tối ưu của

các phương án dựa trên giá trị Weighted Opportunity Loss.

Chương 1: Tổng quan

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 14

1.3 PHƯƠNG PHÁP NGHIÊN CỨU
Mô hình đề xuất được xây dựng dựa trên một mô hình phân tích đặc trưng có sẵn. Kết
hợp với việc sử dụng các kỹ thuật tiên tiến của Khai thác dữ liệu là lý thuyết tập thô và công
thức Bayes, mô hình phân tích đặc trưng mới đã được kiểm chứng là hoàn chỉnh và hiệu quả
về mặt lý thuyết.
Chương trinh mô phỏng mô hình phân tích đặc trưng khách hàng được phát triển và
cài đặt thử nghiệm trên máy tính cá nhân để kiểm chứng hiệu quả thực sự:
- Dữ liệu đầu vào của chương trình là cơ sở dữ liệu khách hàng, bảng ước lượng lợi
nhuận của các phương án đề xuất và danh sách các khách hàng cần xác định
phương án áp dụng tối ưu.
- Dữ liệu đầu ra là danh sách khách hàng và các phương án hiệu quả áp dụng cho
khách hàng.
Kết quả thực nghiệm cùng những chứng minh lý thuyết đã cho thấy tính chính xác và
hiệu quả của mô hinh phân tích đặc trưng khách hàng mà nghiên cứu này mới đề xuất.
Chương 2: Bài toán phân tích đặc trưng

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 15

CHƯƠNG 2: BÀI TOÁN PHÂN TÍCH ĐẶC TRƯNG
2.1 BÀI TOÁN
Một chủ doanh nghiệp đứng trước một bài toán ra quyết định. Một loạt các phương án
được đưa ra: chiến lược kinh doanh một sản phẩm mới, triển khai một loại hình dịch vụ mới,
khuyến mãi sản phẩm…















Hình 2.1: Mô hình DFD bài toán phân tích đặc trưng khách hàng

Bảng khảo sát về lợi nhuận thu được của từng phương án khi áp dụng trên các loại
khách hàng được thu thập và trình lên. Mỗi phương án sẽ có một tác động khác nhau lên
từng loại khách hàng. Phương án phù hợp với khách hàng sẽ đem lại lợi nhuận cao. Ngược
Customer DB
Some Target Attribute
Pattern Vectors
Proposed solutions
and Profit Matrix
Recommendations
Analyzing Customer
Characteristics
Input
Output
Chương 2: Bài toán phân tích đặc trưng


Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 16

lại, phương án không tốt sẽ gây thiệt hại cho doanh nghiệp, thậm chí làm mất lòng tin của
khách hàng vào doanh nghiệp.
Tập dữ liệu đặc trưng khách hàng của doanh nghiệp được lưu giữ làm cơ sở cho việc
phân tích. Các dữ liệu khách hàng có thể được lấy từ hoạt động kinh doanh của chính doanh
nghiệp, từ Internet hoặc từ trao đổi, mua bán…
Vấn đề đặt ra là chủ doanh nghiệp sẽ làm cách nào để có thể tìm ra những chính sách,
chiến lược tối ưu áp dụng cho khách hàng nhằm thỏa mãn được thị hiếu và nhu cầu của họ,
đồng thời nâng cao lợi nhuận, giảm thiểu rủi ro thất bại cho doanh nghiệp.

2.2 CƠ SỞ LÝ THUYẾT
Phân tích và xác định đặc trưng của khách hàng chính là một trong những cách hữu
hiệu để lựa chọn ra được các phương án và giải pháp tối ưu nhằm đạt mục tiêu lợi nhuận của
doanh nghiệp.
Việc tìm kiếm chiến lược, ra các quyết định trong điều kiện chỉ biết được những
thông tin tương đối trong quá khứ luôn chứa đựng mức độ rủi ro rất cao [3]. Trong những
hoàn cảnh như vậy, người ta thường sử dụng một số giá trị kỳ vọng để ước lượng rủi ro và
dự đoán lợi nhuận trước khi ra quyết định [3][15][24]:
- Expected monetary value (EMV): giá trị kỳ vọng lợi nhuận được tính bằng đơn vị
tiền tệ.
- Expected opportunity loss (EOL): giá trị kỳ vọng về mức thiệt hại.
- Expected value of perfect information (EVPI): giá trị kỳ vọng của thông tin hoàn
hảo.
Trong đó, chỉ số EOL đã từng được sử dụng trong bài toán phân tích đặc trưng khách
hàng và chứng tỏ được hiệu quả của mình [23].

2.2.1 Expected Opportunity Loss

2.2.1.1 Opportunity Loss

Opportunity Loss là giá trị phản ánh chi phí phải chịu khi lựa chọn thực hiện một
phương án không phải tối ưu.
Chương 2: Bài toán phân tích đặc trưng

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 17

Công thức tính giá trị Opportunity Loss:
{
1




;
1




;

,


|


=
max











}

(2.1)


 là số lượng các phương án đề xuất.
 là số lượng các sự kiện có thể xảy ra trong thực tế.


là ước lượng lợi nhuận áp dụng phương án  khi sự kiện xảy ra là . Đơn vị tính:
đơn vị tiền tệ

Giá trị Opportunity Loss luôn lớn hơn hoặc bằng 0. Trường hợp max



=


→ 


= 0 tức là đã chọn được phương án tốt nhất trong các phương án với mức thiệt
hại Opportunity Loss bằng 0.

2.2.1.2 Minimize Expected Opportunity Loss
Giá trị Expected Opportunity Loss chính là mức kỳ vọng chi phí trung bình khi thực
hiện một phương án.

(

)
=











(2.2)




là xác suất xuất hiện của sự kiện 

Giá trị EOL càng nhỏ chứng tỏ phương án đang xem xét có mức thiệt hại trung bình

do rủi ro thấp. Phương án có giá trị EOL thấp nhất thường được chọn làm phương án tối ưu
trong bài toán ra quyết định[23][3][15][24].

2.2.1.3 Ví dụ về Minimize EOL
Một doanh nghiệp kinh doanh thực phẩm muốn ra quyết định nên bán Nước giải khát
hay Bánh mì xúc xích.
Chương 2: Bài toán phân tích đặc trưng

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 18

Hành động (A
i
)
Sự kiện (E
j
)
Thời tiết lạnh (E
1
)

Thời tiết ấm (E
2
)

Bán Nước giải khát (A
1
) I
11
=$50 I
12

=$100
Bán Bánh mì xúc xích (A
2
)

I
21
=$200 I
22
=$125
B

ng 2.1
: Bảng khảo sát lợi nhuận

I
ij
là lợi nhuận thực hiện hành động i khi sự kiện xảy ra là j.
Dựa vào bảng khảo sát trên, ta có bảng lợi nhuận tối ưu như sau:
Thời tiết lạnh Thời tiết ấm
Hành động tối ưu

Bán Bánh mì xúc xích

Bán Nước giải khát

Lợi nhuận tối ưu $100 $200
B

ng 2.2

: Bảng lợi nhuận tối ưu

Giá trị Opportunity Loss sẽ được tính như sau:
OL
ij
= Lợi nhuận tối ưu của sự kiện E
i
– Lợi nhuận thực của hành động A
j
.
Thời tiết lạnh (E1)

Thời tiết ấm (E2)

Bán Nước giải khát (A1) 100 – 50 = 50 200 – 200 = 0
Bán Bánh mì xúc xích (A2)

100 – 100 = 0 200 – 125 = 0
B

ng 2.3
: Ma trận chi phí: Opportunity Loss

Giả sử xác suất xảy ra của hai sự kiện E
1
và E
2
là như nhau: p(E
1
) = p(E

2
) = 0.5.
EOL
1
= 50*0.5+0*0.5 = 25 (Bán Nước giải khát)
EOL
2
= 0*0.5 + 75*0.5 =37.5 (Bán Bánh mì xúc xích)
EOL
1
< EOL
2
. Vậy, hành động bán Nước giải khát tốt hơn.

2.2.2 Khai thác dữ liệu
Ngày nay, với sự phát triển không ngừng của khoa học và công nghệ, máy tính ngày
càng đóng vai trò quan trọng vào giải quyết những vấn đề khó khăn trong tính toán, phân
tích hay ra quyết định. Khai thác dữ liệu là kỹ thuật được sử dụng rất nhiều trong bài toán
phân tích đặc trưng khách hàng. Mục tiêu chính của việc áp dụng kỹ thuật này là nhằm xây
dựng mô hình phân lớp các khách hàng và xử lý các dữ liệu lớn, không hoàn chỉnh hay
không chắc chắn.
Chương 2: Bài toán phân tích đặc trưng

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 19

2.2.2.1 Tổng quan về Khai thác dữ liệu
Khai thác dữ liệu được xem như là quá trình khai thác ra tri thức mới từ một lượng
lớn dữ liệu. Thực ra, Khai thác dữ liệu chỉ là một công đoạn trong một tiến trình lớn hơn là
Khám phá tri thức từ Cơ sở dữ liệu (Knowledge Discovery in Databases – KDD). Khám phá
tri thức gồm nhiều công đoạn:


Hình 2.2: Các công đoạn trong khám phá tri thức

- Làm sạch dữ liệu (data cleaning): loại bỏ dữ liệu thừa, trùng lặp, mâu thuẫn; giới hạn
vùng giá trị dữ liệu
- Tích hợp dữ liệu (data integration): làm giàu dữ liệu, kết hợp nhiều nguồn dữ liệu
- Chọn lọc dữ liệu (data selection): loại bỏ những thông tin, dữ liệu không phù hợp với
công việc phân tích.
- Biển đổi, mã hóa dữ liệu (data transformation): chuyển đổi kiểu dữ liệu thành những
dạng phù hợp, thuận tiện để tiến hành các thuật toán khai thác dữ liệu.
- Khai thác dữ liệu (data mining): là tiến trình cần thiết, sử dụng các giải pháp thông
minh, trí tuệ nhân tạo để khai thác các mẫu dữ liệu.
Chương 2: Bài toán phân tích đặc trưng

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 20

- Đánh giá mẫu (Pattern evaluation): xác định những mẫu được quan tâm biểu diễn tri
thức theo một số độ đo (interesting measures)
- Biểu diễn tri thức (Knowledge Representaion): giải thích, hiển thị trực quan kết quả
Khai thác dữ liệu đối với người dùng.


Hình 2.3: Kiến trúc một hệ Khai thác dữ liệu.

Khai thác dữ liệu là tiến trình quan trọng nhất trong KDD. Một hệ Khai thác dữ liệu
thông thường có các thành phần sau:
- Cơ sở dữ liệu (Database), Kho dữ liệu (Data Warehouse) hay một kho chứa thông tin:
là nguồn dữ liệu, thông tin sẽ được khai thác. Trong những tình huống cụ thể, thành
phần này là nguồn nhập (input) của các kỹ thuật tích hợp và làm sạch dữ liệu.
- Database hay Data Warehouse server: chịu trách nhiệm chuẩn bị dữ liệu phù hợp với

quá trình Khai thác dữ liệu.
- Hệ Cơ sở tri thức (Knowledge base): chứa các tri thức miền (domain knowledge)
được dùng để hướng dẫn quá trình tìm kiếm, đánh giá các mẫu kết quả tìm được. Tri
thức miền có thể là các hệ phân cấp khái niệm (concept hierarchies), niềm tin của
người dùng (user beliefs), các ràng buộc (constraints) hay các ngưỡng giá trị
(thresholds), siêu dữ liệu (metadata) …
Chương 2: Bài toán phân tích đặc trưng

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 21

- Bộ Khai thác dữ liệu (Data mining engine): chứa các khối chức năng thực hiện các
tác vụ Khai thác dữ liệu.
- Bộ phát triển mẫu (Pattern evaluation module): làm việc với các độ đo (và các
ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy
là những mẫu được quan tâm bởi người sử dụng; có thể được tích hợp vào thành phần
Bộ Khai thác dữ liệu.
- Giao diện người dùng (Graphical user interface): hỗ trợ sự tương tác giữa người sử
dụng và hệ thống Khai thác dữ liệu:
o Người sử dụng có thể chỉ định câu truy vấn hay tác vụ Khai thác dữ liệu.
o Người sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm, thực hiện
Khai thác dữ liệu sâu hơn thông qua các kết quả khai phá trung gian.
o Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, các cấu
trúc dữ liệu; đánh giá các mẫu khai thác được; trực quan hóa các mẫu này ở
các dạng khác nhau.
Khai thác dữ liệu là sự tích hợp kỹ thuật của rất nhiều ngành như Công Nghệ Cơ sở
dữ liệu, Xác suất – Thống kê, Máy học, Tính toán hiệu năng cao, Nhận diện mẫu, Mạng
neuron….[13] [25]
Hai kỹ thuật Khai thác dữ liệu chính được giới thiệu trong khóa luận này để giải
quyết bài toán phân tích đặc trưng khách hàng là công thức Bayes và lý thuyết tập thô.


2.2.2.2 Công thức Bayes
Công thức Bayes do Thomas Bayes (1702 – 1761) – một nhà toán học người Anh –
đề xuất. Công thức Bayes tính toán sự phân bố của các xác suất hậu nghiệm (Posterior
Probability) để từ đó, giúp dự đoán sự xuất hiện của một sự kiện. Công thức Bayes được
chính thức công bố vào năm 1763 sau khi cha đẻ của nó đã qua đời.
Công thức Bayes [11][12]:

(


|

)
=

(


)


(

|


)


(



)


(

|


)




,











=
1
,

2
,

,

(2.3)


Chương 2: Bài toán phân tích đặc trưng

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 22

Các xác suất (

) và 
(

|


)
thường được biết trước khi thực hiện phép toán và
được gọi là các xác suất tiên nghiệm (Prior Probabilities). Xác suất (

|)cho biết khả
năng tham gia của sự kiện 

vào việc xảy ra biến cố . 
(



|

)
được gọi là xác suất hậu
nghiệm (Posterior Probability).
Nói cách khác, xác suất hậu nghiệm giúp ta dự đoán khả năng xuất hiện của sự kiện


khi một sự kiện  đã xảy ra. Kỹ thuật Bayes chính là cách tiếp cận đơn giản nhất nhưng
vô cùng hiệu quả trong việc phân lớp và khai thác dữ liệu.
Xem xét một ví dụ sau:
Trong nhà máy có 4 phân xưởng. Phân xưởng I sản xuất chiếm 1/3 tổng sản lượng
của nhà máy; Phân xưởng II chiếm 1/4; Phân xưởng III chiếm 1/4; Phân xưởng IV chiếm 1/6.
Tỷ lệ phế phẩm tương ứng với các phân xưởng là 0.15; 0.08; 0.05; 0.01.
Tìm xác suất để lấy một sản phẩm của phân xưởng I biết nó là một phế phẩm.

Gọi 

, 

, 

, 

là biến cố lấy đúng một sản phẩm của phân xưởng I, II, III, IV.
Gọi A là biến cố lấy được một phế phẩm.
Ta phải tìm (

|)

Theo đề bài, ta có:

(


)
=


; 
(


)
=


; 
(


)
=


; 
(


)

=




(
|

)
= 0.15; 
(
|

)
= 0.08; 
(
|

)
= 0.05; 
(
|

)
= 0.01
Áp dụng Công thức Bayes:

(



|

)
=

(


)
∗(|

)


(


)
∗(|

)


=
1
3
∗ 0.15
1
3
∗0.15 +

1
4
∗ 0.08 +
1
4
∗0.05 +
1
6
∗0.01
= 0.61
Vậy, xác suất để lấy một sản phẩm của phân xưởng I biết nó là một phế phẩm là 0.61.


Chương 2: Bài toán phân tích đặc trưng

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 23

2.2.2.3 Lý thuyết tập thô

2.2.2.3.1 Lý thuyết tập hợp
Trong lý thuyết tập hợp truyền thống, các phần tử được xác định một cách rõ ràng là
có thuộc một tập hợp hay không. Tuy nhiên, trong thực tế, nhiều khi việc xác định một phần
tử có thuộc một tập hợp hay không là một việc làm khá mơ hồ. Ví dụ một tập hợp các “bức
tranh đẹp”. Rõ ràng, ta không thể phân lớp một cách chính xác là một bức tranh “đẹp” hay là
“không đẹp”. Điều đó phụ thuộc vào quan điểm và thị hiếu của người xem. Khái niệm “đẹp”
trở nên khá mơ hồ và không thể biểu diễn được trên lý thuyết tập hợp truyền thống. Hai lý
thuyết được giới thiệu nhằm khắc phục vấn đề này là tập mờ và tập thô đã chứng tỏ được
tính hiệu quả trong việc phân loại các dữ liệu không rõ ràng.
Lý thuyết tập mờ do Lotfi Zadeh phát triển vào khoảng năm 1965. Tập mờ sử dụng
khái niệm hàm mờ để thể hiện mức độ, tư cách thành viên của một phần tử trong một tập mờ.

Bên cạnh tập mờ, thì tập thô cũng là một cách tiếp cận khác nhằm giải quyết bài toán
có dữ liệu mơ hồ, không chắc chắn. Với nền tảng toán học vững chắc, cung cấp cho người
dung những công cụ hữu ích để giải quyết những bài toán phân lớp dữ liệu, phát hiện luật…,
lý thuyết tập thô được rất nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu. Tập thô
(Rough Set) do Zdzisław Pawlak, nhà toán học người Ba Lan, phát triển vào những năm đầu
thập niên 1980s. [22][25]

2.2.2.3.2 Hệ thông tin và hệ quyết định
Hệ thông tin là tập hợp dữ liệu được biểu diễn theo dạng bảng, trong đó mỗi dòng
biểu diễn một trường hợp, một sự kiện, một khách hàng… hoặc đơn giản là một đối tượng.
Mỗi cột biểu diễn một thuộc tính và có thể đo đạc được với từng đối tượng.
Hệ thông tin thường được ký hiệu là cặp (U, A) trong đó U là tập hữu hạn khác rỗng
các đối tượng (tập phổ quát) và A là tập hữu hạn khác rỗng các thuộc tính.
Một hệ thông tin có dạng (U; A⋃{d}), trong đó d∉A là thuộc tính quyết định và A là
các thuộc tính điều kiện, gọi là hệ quyết định.


×