Tải bản đầy đủ (.docx) (36 trang)

TIỂU LUẬN môn học TRÍ TUỆ NHÂN tạo đề tài nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng phân tích doanh số bán hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.94 MB, 36 trang )

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN
VIỆN CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ
__________

BÀI TIỂU LUẬN MƠN HỌC:
TRÍ TUỆ NHÂN TẠO
Đề tài: Nghiên cứu khai phá dữ liệu lớn data mining và ứng dụng
phân tích doanh số bán hàng

GVHD
Họ và tên
Mã sinh viên
Mã lớp HP

TIEU LUAN MOI download :


Mục lục
1. Đặt vấn đề............................................................................................................................................

1.1. Lý do chọn đề tài..............................................................................

1.2. Mụụ̣c tiêu nghiên cứu........................................................................

1.3. Phạm vi nghiên cứu..........................................................................
2. Tổng quan về khai phá dữ liệu.............................................................................................................

2.1. Khai phá dữ liệu là gì?.....................................................................

2.2. Ứng dụụ̣ng thực tiễn của Data Mining...............................................


2.3. Các bước của qua trình khai phá dữ liệu..........................................

2.4. Các phương pháp khai phá dữ liệu...................................................

2.4.1. Phân lớp, phân loại........................

2.4.2. Hồi quy..........................................

2.4.3. Phân cụụ̣m (Clustering)..................

2.4.4. Tổng hợp (Summarization)...........

2.5. Các hệ thống khai phá dữ liệu..........................................................
3. Các kỹ thuật trong khai phá dữ liệu...................................................................................................

3.1. Kỹ thuật phân lớp.............................................................................

3.1.1. Cây quyết định..............................

3.1.2. Thuật toán microsoft naïve bayes.

3.2. Kỹ thuật kết hợp...............................................................................

3.3. Kỹ thuật phân cụụ̣m...........................................................................

3.3.1. Phân cụụ̣m tuần tự...........................

3.3.2. Phân cụụ̣m.......................................

3.4. Kỹ thuật hồi quy...............................................................................


3.4.1. Hồi quy tuyến tính.........................

3.4.2. Hồi quy logic.................................
4. Ứng dụụ̣ng thử nghiệm........................................................................................................................

4.1. Thuật tốn Clustering KMeans và mơ hình RFM............................

4.1.1. Thuật tốn K-means......................

4.1.2. Mơ hình RFM................................

4.2. Ứng dụụ̣ng và lập trình......................................................................

2

TIEU LUAN MOI download :


Danh mục hình ảnh
Figure 1. Khai phá dữ liệu là gì?..................................................................................................... 6
Figure 2. Quá trình khai phá dữ liệu................................................................................................8
Figure 3. Ví dụụ̣ về cây quyết định................................................................................................... 8
Figure 4. Ví dụụ̣ hồi quy đơn biến.....................................................................................................9
Figure 5. Phân cụụ̣m dữ liệu kinh doanh so sánh tuổi của khách hàng với quy mô bán hàng........10
Figure 6. Ví dụụ̣ về giải thuật Kmean, với n = 10 và k = 2.............................................................11
Figure 7.Ví dụụ̣ về biểu đồ thể hiện lượng nước của sông Nile thay đổi theo các mốc thời gian...11
Figure 8.Ma trận nhầm lẫn ( Confusion Matrix)...........................................................................12
Figure 9. Công thức hồi quy đơn biến...........................................................................................18
Figure 10. Công thức hồi quy đa biến........................................................................................... 18

Figure 11. Khai báo thư viện......................................................................................................... 20
Figure 12. Đọc dataset...................................................................................................................21
Figure 13. Bộ dữ liệu OnlineRetail............................................................................................... 21
Figure 14. Thông tin về tập dữ liệu 1............................................................................................ 21
Figure 15. Thông tin về tập dữ liệu 2............................................................................................ 22
Figure 16. Thông tin về sơ lượng dữ liệu trống.............................................................................22
Figure 17. Bộ dữ liệu ban đầu sau khi loại bỏ dữ liệu trống......................................................... 23
Figure 18. Bảng mô tả dữ liệu sau khi xố dữ liệu trống.............................................................. 23
Figure 19. Mơ tả dữ liệu ban đầu sau khi xoá dữ liệu trống bằng biểu đồ.................................... 24
Figure 20. Kiểm tra outlier1..........................................................................................................24
Figure 21. Kiểm tra dữ liệu khách hàng 12346............................................................................. 24
Figure 22. Kiểm tra dữ liệu khách hàng 16446............................................................................. 25
Figure 23. Kiểm tra outlier 2.........................................................................................................25
Figure 24. Kiểm tra dữ liệu có Quantity < 0................................................................................. 25
Figure 25. Chuẩn bị dữ liệu cho mơ hình RFM.............................................................................26
Figure 26. Bộ dữ liệu cho mơ hình RFM...................................................................................... 26
Figure 27. Mô tả dữ liệu RFM bằng câu lệnh............................................................................... 27
Figure 28. Mô tả dữ liệu RFM bằng biểu đồ.................................................................................28
Figure 29. Xử lý outlier.................................................................................................................28
Figure 30. Mô tả dữ liệu RFM sau xử lý outlier bằng biểu đồ......................................................30
Figure 31. Scale dữ liệu ngày........................................................................................................30
Figure 32. Dữ liệu sau khi chuẩn hố............................................................................................30
Figure 33. Tìm k trong thuật toán KMean.....................................................................................31
Figure 34. Dán nhãn cho từng cụụ̣m............................................................................................... 31
Figure 35. Biểu đồ TotalRevenue theo từng cụụ̣m..........................................................................32
Figure 36. Biểu đồ Frequency theo từng cụụ̣m............................................................................... 32
Figure 37. Biểu đô Recency theo từng cụụ̣m.................................................................................. 32

3


TIEU LUAN MOI download :


LỜI MỞ ĐẦU
Bước sang thế kỷ 21, toàn cầu bước vào một giai đoạn mới trong quá trình phát
triển. Nhiều công nghệ mới được giới thiệu, nhiều ứng dụụ̣ng của khoa học kĩ thuật đã ảnh
hưởng sâu rộng đến đời sống của con người. Chúng ta đã và đang bước vào cuộc cách
mạng công nghiệp lần 4 trong lịch sử nhân loại: Nếu cuộc cách mạng công nghiệp lần 1
là sử dụụ̣ng năng lượng hơi nước, lần 2 là sử dụụ̣ng năng lượng điện vào trong sản xuất, lần
3 là sử dụụ̣ng công nghệ thông tin, điện tử để tự động hóa sản xuất, thì lần cách mạng cơng
nghiệp lần 4 này ( có thể gọi là IoT - Internet of Thing) là việc kết nối mọi thứ với nhau,
kết hợp sản xuất và vận hành thực tế với công nghệ kỹ thuật số thông minh, máy học và
dữ liệu lớn để tạo hệ sinh thái được kết nối tốt hơn và tổng thể hơn cho các công ty tập
trung vào sản xuất và quản lý.
Và để có thể kết nối, kết hợp và vận hành khối lượng công việc, thông tin khổng
lồ như vậy mà không xảy ra vấn đề gì, thì xử lý dữ liệu - là một công việc thiết yếu, vô
cùng quan trọng. Nhận thấy sự cấp thiết đó, Data Mining (Khai phá dữ liệu) đã được hình
thành và phát triển để phụụ̣c vụụ̣ cơng việc. Bài báo cáo này sẽ giới thiệu một cách khái
quát nhất định nghĩa, ứng dụụ̣ng, các phương pháp của khai phá dữ liệu.
Bài tiểu luận bao gồm những nội dung sau:
1. Đặt vấn đề
2. Tổng quan về khai phá dữ liệu
3. Các kỹ thuật trong khai phá dữ liệu
4. Ứng dụụ̣ng và thử nghiệm
Bài viết còn mang nhiều quan điểm chủ quan, tính cá nhân nên có thể có nhiều sai
sót. Em hi vọng sẽ được thầy góp ý sửa chữa giúp cho bản báo cáo được hoàn thiện và
chỉnh chu hơn. Em xin chân thành cảm ơn!

4


TIEU LUAN MOI download :


1. Đặt vấn đề
1.1. Lý do chọn đề tài
Ứng dụụ̣ng công nghệ thông tin vào việc lưu trũ và xử lý dữ liệu ngày nay được áp
dụụ̣ng hàu hết trong lĩnh vực, điều này đã tạo ra một lượng lớn dữ liệu được lưu trữ với
kích thước tăng lên khơng ngừng. Đây chính là điều kiện tốt cho việc khai thác kho dữ
liệu để đem lại tri thức có ích với các công cụụ̣ truy vấn, lập bảng biểu và khai phá dữ liệu.
Khai phá dữ liệu là một kỹ thuật dựa trên nên tảng của nhiều lý thuyết như xác xuất,
thống kê, máy học nhằm tìm kiếm các tri thức tiềm ẩn trong các kho dữ liệu có kích
thước lớn mà người dùng khó có thể nhận biết bằng những kỹ thuật thông thường. Trong
lĩnh vực kinh tế, những cơng ty hàng đầu có vị trí vững chắc nư Amazon, Walmart… hay
Vinamilk, Viettel… đều có những điểm chung đó là họ đều chú trọng và tập trung tối đa
tới việc tạo ra các giá trị cho khách hàng và cũng cố niềm tin cho khách hàng của mình
qua hàng loạt những chiến dịch quảng bá hiệu quả. Trong đó, thơng tin và dữ liệu đóng
một vai trị quan trọng giúp những doanh nghiệp bán lẻ đó thu thập được hành vi của
khách hàng, nhu cầu của từng khách hàng, từng khu vực. Từ đó đưa ra dự đốn nhu cầu
cảu khách hàng trong tương lai, cá nhân hoá trải nghiệm của khách hàng. Khai phá dữ
liệu đã nổi lên như là một cơng cụụ̣ hữu ích giúp các doanh nghiệp có cái nhìn tồn diện
hơn về khách hàng của mình. Có thể nói, khai phá dữ liệu như là một bộ máy giúp cho
doanh nghiệp sàng lọc nguồn dữ liệu khổng lồ mà họ đang nắm giữu nhưng chưa biết
cách tận dụụ̣ng để tìm ra những thơng tin có ích, những khám phá mới về khách hàng, từ
đó tạo điều kiện cho doanh nghiệp có những hành động phù hợp mang lại nhiều giá trị
cho khách hàng hơn nữa.
1.2. Mụụ̣c tiêu nghiên cứu
Bài tiểu luận giúp sinh viên có cái nhìn cụụ̣ thể về các quy trình khám phá tri thức và
khai phá dữ liệu và quá trình tiễn xử lý dữ liệu và không cảm thấy đây là một khái niệm
xa lạ. Đồng thời giúp sinh biên hiểu rõ về cách hoạt động của các giải thuật và kỹ thuật
khai phá dữ liệu và cách nó ứng dụụ̣ng vào thực tế. Cùng với đó là việc áp dụụ̣ng khai phá

dữ liệu để nghiên cứu, phân tích hành vi khách hàng để đưa ra một số giải pháp cho các
doanh nhiệp bán lẻ.
1.3. Phạm vi nghiên cứu
Phạm vi nghiên cứu của bài tiểu luận là áp dụụ̣ng quy trình khai phá dữ liệu trong phân
tích doanh số bán hàng của một hãng bán lẻ online bằng kỹ thuật phân cụụ̣m (Clustering)
và xây dựng mơ hình RFM. Bài tiểu luận sử dụụ̣ng bộ dữ liệu thử nghiệm từ trang web
Kaggle.

5

TIEU LUAN MOI download :


2. Tổng quan về khai phá dữ liệu
2.1. Khai phá dữ liệu là gì?

Figure 1. Khai phá dữ liệu là gì?

Khai phá dữ liệu (data mining) là một bước của tiến trình KDD (Knowledge
Discovery in Database), được định nghĩa như là một quá trình chắt lọc hay khai phá tri
thức từ một lượng lớn dữ liệu.
Khai phá dữ liệu sử dụụ̣ng các nguyên tắc thống kê được nghiên cứu kỹ lưỡng để
khám phá các mẫu trong dữ liệu của bạn. Bằng cách áp dụụ̣ng các thuật toán khai thác dữ
liệu trong dịch vụụ̣ phân tích cho dữ liệu, ta có thể dự báo xu hướng, xác định các mẫu, tạo
quy tắc và đề xuất, phân tích chuỗi sự kiện trong các tập dữ liệu phức tạp và có được
thơng tin chi tiết mới.
Các tên gọi khác:
Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in
databases KDD).
Trích rút tri thức (knowledge extraction).

Phân tích mẫu/dữ liệu (data/pattern analysis).
v.v…
Ví dụụ̣ hay được sử dụụ̣ng là việc khai thác vàng từ đá và cát, Data Mining được ví
như cơng việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ
Data Mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ
liệu thô.
2.2. Ứng dụụ̣ng thực tiễn của Data Mining
Phân tích dữ liệu tài chính:

6

TIEU LUAN MOI download :


Ứng dụụ̣ng của Data Mining trong lĩnh vực này được dùng để tăng độ trung thành
của khách hàng bằng cách thu thập và phân tích dữ liệu hành vi của khách hàng, để dự
đoán hành vi của khách hàng để tung ra các dịch vụụ̣ và sản phẩm thích hợp.
Ngành công nghiệp bán lẻ (Retail Industry)
Ứng dụụ̣ng khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mơ
hình giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất
lượng sản phẩm dịch vụụ̣ nhằm nâng cao sự hài lòng của khách hàng và giữ chân khách
hàng tốt.
Ngành công nghiệp viễn thông (Telecommunication Industry)
Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mơ hình
viễn thơng, phát hiện các hoạt động gian lận trong viễn thông, sử dụụ̣ng tốt hơn nguồn tài
nguyên và cải thiện chất lượng dịch vụụ̣ viễn thơng.
Phân tích dữ liệu sinh học (Biological Data Analysis)
Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học
(Bioinformatics)
Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)

Với sự phát triển của internet và sự sẵn có của các cơng cụụ̣, thủ thuật trợ giúp cho
xâm nhập và tấn công mạng, yêu cầu kiểm soát truy cập bất hợp pháp là yếu tố rất
quan trọng đảm bảo cho sự ổn định của hệ thống.
Y học:
Dựa vào mối liên hệ giữa các triệu chứng để chuẩn đốn bệnh và hướng điều
trị. Mạng viễn thơng:
Phân tích các cuộc gọi điện thoại để dự đốn hành vi người dung nhằm nâng cao
chất lượng,..
2.3. Các bước của qua trình khai phá dữ liệu
Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải
quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng phương pháp.
Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho
giải thuật khai phá dữ liệu có thể hiểu được.
Tiếp theo là công việc thu thập và tiền xử lý dữ liệu.
Bước tiếp là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ
liệu để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý
nghĩa đó (thường được biểu diễn dưới dạng các luật xếp loại, cây quyết định, luật sản
xuất, biểu thức hồi quy, …)

7

TIEU LUAN MOI download :


Figure 2. Quá trình khai phá dữ liệu

2.4. Các phương pháp khai phá dữ liệu
Người ta thường sử dụụ̣ng các phương pháp sau cho khai phá dữ
liệu 2.4.1. Phân lớp, phân loại
Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp

cho trước.

Figure 3. Ví dụ về cây quyết định

2.4.2. Hồi quy

8

TIEU LUAN MOI download :


Là phương pháp khám phá chức năng học dự đoán, ánh xạ một mực dữ liệu thành
biến dự đoán giá trị thực

Figure 4. Ví dụ hồi quy đơn biến

2.4.3. Phân cụụ̣m (Clustering)
Là một nhiệm vụụ̣ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp
hữu hạn các cụụ̣m để mô tả dữ liệu

9

TIEU LUAN MOI download :


Figure 5. Phân cụm dữ liệu kinh doanh so sánh tuổi của khách hàng với quy mơ bán hàng

Trong ví dụụ̣ này, chúng ta có thể nhận ra hai cụụ̣m, một cụụ̣m xung quanh nhóm
2.000 Đơ la Mỹ/ 20-30 tuổi và một cụụ̣m ở nhóm 7.000-8.000 Đơ la Mỹ/ 50-65 tuổi.


10

TIEU LUAN MOI download :


Figure 6. Ví dụ về giải thuật Kmean, với n = 10 và k = 2

2.4.4. Tổng hợp (Summarization)
Mơ hình ràng buộc (Dependency modeling)

Figure 7.Ví dụ về biểu đồ thể hiện lượng nước của sông Nile thay đổi theo các mốc thời gian

Biểu diễn mơ hình (Model Representation)
Kiểm định mơ hình (Model Evaluation)

11

TIEU LUAN MOI download :


Figure 8.Ma trận nhầm lẫn ( Confusion Matrix)

Phương pháp tìm kiếm (Search Method)
2.5. Các hệ thống khai phá dữ liệu
Các thành phần trong hệ thống Khai phá dữ liệu
Database, data warehouse, World Wide Web, và information repositories
Thành phần này là các nguồn dữ liệu/thông tin sẽ được khai phá.
Knowledge base
Thành phần chứa tri thức miền, được dùng để hướng dẫn quá trình tìm kiếm, đánh
giá các mẫu kết quả được tìm thấy.

Tri thức miền có thể là các phân cấp khái niệm, niềm tin của người sử dụụ̣ng, các
ràng buộc hay các ngưỡng giá trị, siêu dữ liệu, …
Data mining engine
Thành phần chứa các khối chức năng thực hiện các tác vụụ̣ khai phá dữ liệu Pattern
evaluation module.
User interface
Thành phần hỗ trợ sự tương tác giữa người sử dụụ̣ng và hệ thống khai phá dữ liệu.
3. Các kỹ thuật trong khai phá dữ
liệu 3.1. Kỹ thuật phân lớp
Đây là kỹ thuật cho phép phân loại đối tượng vào một hoặc một số lớp cho trước.
Ta có thể sử dụụ̣ng kỹ thuật này để phân loại khách hàng, mặt hàng, … bằng cách mơ tả
nhiều thuộc tính để phân loại đối tượng vào một lớp cụụ̣ thể.
Chúng ta thường sử dụụ̣ng kỹ thuật khai thác dữ liệu này để lấy các thông tin quan
trọng từ dữ liệu và siêu dữ liệu. Vì vậy, trong phân tích, phân loại, chúng ta cần áp dụụ̣ng
các thuật toán khác nhau tùy thuộc vào mụụ̣c tiêu sử dụụ̣ng.
12

TIEU LUAN MOI download :


Chẳng hạn, Email Outlook sử dụụ̣ng các thuật toán nhất định để mô tả email là hợp
pháp hoặc spam. Hay các doanh nghiệp có thể áp dụụ̣ng kỹ thuật này để phân loại khách
hàng theo đối tượng hay độ tuổi.
Kỹ thuật phân lớp được tiến hành bao gồm 2 bước: Xây dựng mơ hình và sử dụụ̣ng
mơ hình:
Xây dựng mơ hình: là mơ tả tập những lớp được định nghĩa trước trong đó: mỗi bộ
hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xác định
bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụụ̣ng trong mơ hình gọi là
tập huấn luyện. Mơ hình được biểu diễn là những luật phân lớp, cây quyết định và
những cơng thức tốn học.

Sử dụụ̣ng mơ hình: Việc sử dụụ̣ng mơ hình phụụ̣c vụụ̣ cho mụụ̣c đích phân lớp dữ liệu
trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến. Trước khi sử
dụụ̣ng mơ hình, người ta thường đánh giá tính chính xác của mơ hình trong đó:
nhãn được biết của mẫu kiểm tra được so sánh với kết quả phân lớp của mơ hình,
độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loại đúng mơ hình,
tập kiểm tra là độc lập với tập huấn luyện.
Các thuật toán thường dùng trong phân lớp:
3.1.1. Cây quyết định
Thuật toán Cây quyết định (Decision Tree) là một thuật toán phân loại và hồi quy
để sử dụụ̣ng trong mơ hình dự đốn của cả thuộc tính rời rạc và liên tụụ̣c.
Đối với các thuộc tính rời rạc, thuật tốn đưa ra dự đoán dựa trên mối quan hệ giữa
các cột đầu vào trong tập dữ liệu. Nó sử dụụ̣ng các giá trị, được gọi là trạng thái, của các
cột đó để dự đoán các trạng thái của cột mà bạn chỉ định là có thể dự đốn được. Cụụ̣ thể,
thuật tốn xác định các cột đầu vào có tương quan với cột có thể dự đốn.
Cách thức hoạt động của thuật tốn:
Thuật tốn cây quyết định của Microsoft xây dựng một mơ hình khai thác dữ liệu
bằng cách tạo ra những “nhánh cây” (hay cịn gọi là node). Thuật tốn sẽ them node mỗi
lần tìm thấy được cột đầu vào có tương quan với cột cần dự đoán. Cách thuật toán xác
định một node phụụ̣ thuộc vào việc dự đoán dữ liệu kiểu rời rạc hay kiểu liên tụụ̣c.
Dự đoán các cột dữ liệu rời rạc: Khi thuật toán thêm các nút mới vào một mơ
hình, cấu trúc cây hình thành. Nút trên cùng của cây mơ tả sự phân tích của cột
có thể dự đốn cho tổng thể khách hàng. Khi đó, mơ hình tiếp tụụ̣c phát triển,
thuật tốn sẽ xem xét tất cả các cột.
Dự đoán các cột dữ liệu liên tụụ̣c: Khi thuật toán Cây Quyết định của Microsoft
xây dựng một cây dựa trên một cột có thể dự đốn liên tụụ̣c, mỗi nút chứa một
cơng thức hồi quy. Sự phân tách xảy ra tại một điểm không tuyến tính trong
cơng thức hồi quy.
13

TIEU LUAN MOI download :



Cây quyết định được sử dụụ̣ng rất phổ biến bởi một số lí do sau:
Việc xây dựng cây quyết định khơng địi hỏi bất cứ kiến thức chun ngành hay
thiết lập tham số ban đầu nào cả. Vì vậy, nó phù hợp với việc khám phá tri thức.
Cây quyết định có thể quản lý dữ liệu có số chiều lớn.
Việc biểu đạt tri thức dưới dạng cây có thể được diễn đạt dễ dàng.
Quá trình học và phân lớp (sử dụụ̣ng) của cây quyết định được thực hiện
nhanh chóng.
Nhìn chung, cây quyết định cho độ chính xác cao. Tuy nhiên điều này còn phụụ̣
thuộc vào dữ liệu của chúng ta.
3.1.2. Thuật tốn microsoft nạve bayes

Thuật tốn Microsoft Nạve Bayes là một thuật toán phân loại dựa trên các định lý
Bayes và có thế được sử dụụ̣ng cho cả mơ hình khám phá và dự đoán. Thuật toán sử dụụ̣ng
các kỹ thuật Bayes nhưng khơng tính đến các phụụ̣ thuộc có thể tồn tại.
Thuật tốn này ít phức tạp hơn về mặt tính tốn co với các thuật tốn khác của
Microsoft và do đó rất hữu ích để nhanh chóng tạo ra các mơ hình khai thác để khám phá
mối quan hệ giữa các cột đầu vào và cột có thể dự đốn. Ta có thể sử dụụ̣ng thuật tốn này
để khám phá dữ liệu ban đầu và sau đó, ta có thể áp dụụ̣ng kết quả để tạo các mơ hình khai
thác bổ sung với các thuật tốn khác có cường độ tính tốn cao hơn và chính xác hơn.
Cách thức hoạt động của thuật toán:
Thuật toán Microsoft Naive Bayes tính tốn xác suất của mọi trạng thái của mỗi
cột đầu vào, với mỗi trạng thái có thể có của cột có thể dự đốn.
3.2. Kỹ thuật kết hợp
Kỹ thuật Association trong khai phá dữ liệu được sử dụụ̣ng để xác định mối quan hệ
giữa các biến khác nhau trong cơ sở dữ liệu. Ngồi ra, nó cịn được sử dụụ̣ng để “giải nén”
các mẫu ẩn trong dữ liệu. Association Rule rất hữu ích để kiểm tra, dự đốn hành vi và
thường được áp dụụ̣ng trong ngành bán lẻ.
Thêm vào đó, các doanh nghiệp sử dụụ̣ng kỹ thuật này để xác định hành vi mua sắm,

phân tích dữ liệu trong giỏ hàng của khách hàng tiềm năng. Trong lĩnh vực Cơng nghệ
Thơng tin, các lập trình viên sử dụụ̣ng kỹ thuật này để xây dựng các chương trình Machine
Learning.
Trong lĩnh vực Data Mining, mụụ̣c đích của luật kết hợp (Association Rule - AR) là tìm
ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu.
Một số loại luật kết hợp:

14

TIEU LUAN MOI download :


Luật kết hợp nhị phân
Luật kết hợp định
hướng Luật kết hợp mờ
3.3. Kỹ thuật phân cụụ̣m
Kỹ thuật phân cụụ̣m là kĩ thuật nhận diện các cụụ̣m tiềm ẩn trong tập các đối tượng chưa
được xếp lớp.
Tiến trình phân cụụ̣m dựa trên mức độ tương tự giữa các đối tượng. Các đối tượng
được gom cụụ̣m sao cho mức độ tương tự giữa các đối tượng trong cùng một cụụ̣m là cực
đại và mức độ tương tự giữa các đối tượng nằm trong các cụụ̣m khác nhau là cực tiểu.
Các cụụ̣m được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụụ̣m.
Do vậy, khảo sát các cụụ̣m sẽ giúp khái quát, toongt kết nhanh chóng nội dung của khối dữ
liệu lớn.
Những Loại Dữ Liệu Cần Phân Cụm:
Dữ Liệu Browse Website của khách hàng
Dữ Liệu Lịch sử các giao dịch của khách Hàng
Dữ Liệu về hành vi của khách hàng ở các kênh thương mại điện tử
Các thuật toán dùng trong phân cụụ̣m
3.3.1. Phân cụụ̣m tuần tự

Thuật Toán phân cụụ̣m tuần tự là một thuật toán đặc biệt có thể kết hợp việc gom
cụụ̣m và việc phân tích trình tự với nhau. Ta có thể dùng thuật tốn này để tìm ra dữ liệu
chứa những sự kiện có thể nối với nhau thành một chuỗi liên tụụ̣c. Thuật tốn tìm những
chuỗi chung nhất rồi thực hiện q trình gom cụụ̣m để tìm ra những chuỗi giống nhau.
Một trình tự (Sequence) là 1 chuỗi các sự kiện (State) rời rạc, riêng biệt. Thường
số lượng các state là giới hạn. Trong thực tế, chuỗi dữ liệu rất phổ biến, rất nhiều thơng
tin được mã hóa dưới dạng chuỗi trình tự.
Cách hoạt động của thuật toán:
Thuật toán Microsoft Sequence Clustering là một thuật toán kết hợp kết hợp các
kỹ thuật phân cụụ̣m với phân tích chuỗi Markov để xác định các cụụ̣m và trình tự của
chúng. Một trong những điểm nổi bật của thuật tốn là sử dụụ̣ng dữ liệu trình tự.
Dữ liệu này thường đại diện cho một loạt các sự kiện hoặc chuyển đổi giữa các
trạng thái trong tập dữ liệu, chẳng hạn như một loạt các giao dịch mua sản phẩm hoặc các
nhấp chuột trên Web cho một người dùng cụụ̣ thể. Thuật toán kiểm tra tất cả các xác suất
chuyển đổi và đo lường sự khác biệt hoặc khoảng cách giữa tất cả các trình tự có thể có
15

TIEU LUAN MOI download :


trong tập dữ liệu để xác định trình tự nào là tốt nhất để sử dụụ̣ng làm đầu vào cho phân
nhóm. Sau khi thuật tốn đã tạo danh sách các trình tự ứng viên, nó sử dụụ̣ng thơng tin
trình tự làm đầu vào để phân nhóm bằng cách sử dụụ̣ng Tối đa hóa kỳ vọng (EM).
Các thơng số trong thuật tốn:
Cluster_count: số lượng nhóm trong mơ hình. Cluster_count=0: cho phép thuật
tốn tự động chọn số lượng nhóm tốt nhất cho mụụ̣c đích dự đốn
Minimum support (kiểu int): Xác định số lượng trường hợp nhỏ nhất trong mỗi
nhóm để tránh mỗi nhóm có q ít trường hợp. Giá trị mặc định là 10.
Maximum_states: (int) Xác định số lượng tối đa của những trạng thái cho thuộc
tính khơng tuần tự.

Một số hàm:
Cluster(): Trả về cluster ID trong từng trường hợp
ClusterDistance(): tính khoảng cách giữa các cụụ̣m
PredictProbability(): Trả về xác suất cho mỗi trạng thái trình tự được dự đốn
PredictHistogram(): Trả về biểu đồ xác suất cho mỗi trạng thái trình tự mỗi bước
3.3.2. Phân cụụ̣m
Thuật toán Microsoft Clustering là một thuật toán phân đoạn hoặc phân cụm lặp
lại các trường hợp trong tập dữ liệu để nhóm chúng thành các cụụ̣m có chứa các đặc điểm
giống nhau. Các nhóm này hữu ích để khám phá dữ liệu, xác định các điểm bất thường
trong dữ liệu và tạo dự đốn.
Các mơ hình phân cụụ̣m xác định các mối quan hệ trong một tập dữ liệu mà bạn có
thể khơng thu được một cách hợp lý thơng qua quan sát thơng thường. Ví dụụ̣, ta có thể dễ
dàng đốn được rằng những người đi làm bằng xe đạp thường không sống xa nơi họ làm
việc. Tuy nhiên, thuật tốn có thể tìm thấy các đặc điểm khác về người đi xe đạp mà
không rõ ràng bằng. Trong sơ đồ sau, cụụ̣m A đại diện cho dữ liệu về những người có xu
hướng lái xe đi làm, trong khi cụụ̣m B đại diện cho dữ liệu về những người có xu hướng đi
xe đạp để đi làm.
Thuật toán phân cụụ̣m khác với các thuật toán khai thác dữ liệu khác, chẳng hạn
như thuật toán Cây quyết định, ở chỗ bạn không phải chỉ định một cột có thể dự đốn để
có thể xây dựng mơ hình phân nhóm. Thuật tốn phân cụụ̣m đào tạo mơ hình một cách
chặt chẽ từ các mối quan hệ tồn tại trong dữ liệu và từ các cụụ̣m mà thuật toán xác định.
Cách hoạt động của thuật toán:
Thuật toán Microsoft Clustering trước tiên xác định các mối quan hệ trong một tập
dữ liệu và tạo ra một loạt các cụụ̣m dựa trên các mối quan hệ đó. Biểu đồ phân tán là một
cách hữu ích để biểu diễn trực quan cách thuật tốn nhóm dữ liệu, như thể hiện trong sơ
16

TIEU LUAN MOI download :



đồ sau. Biểu đồ phân tán đại diện cho tất cả các trường hợp trong tập dữ liệu và mỗi
trường hợp là một điểm trên biểu đồ. Các nhóm điểm trên biểu đồ và minh họa các mối
quan hệ mà thuật toán xác định.
Sau lần đầu tiên xác định các cụụ̣m, thuật tốn sẽ tính tốn mức độ tốt của các cụụ̣m
đại diện cho các nhóm điểm và sau đó cố gắng xác định lại các nhóm để tạo ra các cụụ̣m
đại diện tốt hơn cho dữ liệu. Thuật toán lặp đi lặp lại quá trình này cho đến khi nó khơng
thể cải thiện kết quả nhiều hơn bằng cách xác định lại các cụụ̣m.
3.4. Kỹ thuật hồi quy
Hồi quy (Regression) là phương pháp nghiên cứu mối quan hệ giữa 2 biến: một
biến độc lập (ảnh hưởng đến mụụ̣c tiêu), và biến mụụ̣c tiêu (bi ảnh hưởng bởi 20 biến độc
lập), mơ hình hóa, đinh lượng hóa mối quan hệ này để có thể xác đinh được giá tri của
biến mụụ̣c tiêu nếu các biến độc lập thây đổi ra sao. Kết quả của phân tích hồi quy có thể
được đem ra dư báo.
Hệ Số Tương quan > 0 => 2 biến có quan hệ thuận chiều
Hệ Số Tương Quan < 0 => 2 biến có quan hệ nghịch

Hệ số tương quan = 0 => 2 biến khơng có quan hệ tuyến tính với
nhau Hệ số càng gần 1 thì mối quan hệ thuận càng chắc chắn
Hệ số càng gần -1 thì mối quan hệ nghịch càng chắc chắn
Các thuật tốn thường dùng trong hồi quy
3.4.1. Hồi quy tuyến tính
Hồi quy tuyến tính (Linear Regression) được xem là mơ hình hồi quy đơn bội, phổ
biến nhất và chỉ nghiên cứu mối quan hệ tuyến tính giữa một biến độc lập và biến phụụ̣
thuộc, áp dụụ̣ng cho biến đinh lượng và đồ thi là ở dạng đường thẳng.
Ta có phương trình tổng quát: = 0 + 1 +

Trong đó:
y là biến phụụ̣ thuộc hay là biến chúng ta sẽ dư báo.
x là biến độc lập.
0 là giá tri ước lượng của y khi x đạt giá tri 0.

1 là độ dốc của đường hồi quy tuyến tính, nói một cách khác là mức độ thay đổi của y
khi x thay đổi 1 đơn vi.

17

TIEU LUAN MOI download :


là sai số, thể hiện giá tri của các yếu tố khác không thể nghiên cứu hết và các yếu tố này
vẫn tác động lên giá tri của y.
3.4.2. Hồi quy logic
Hồi Quy Logic là phương pháp thông dụụ̣ng nhất áp dụụ̣ng cho các biến phụụ̣ thuộc
không phải là dữ liệu liên tụụ̣c .
Hồi quy Logistic hướng đến dự báo xác suất, khả năng biến phụụ̣ thuộc đạt được
một trong 2 giá trị theo các biến độc lập.
Được ứng dụụ̣ng trong nhiều lĩnh vực khác nhau :
Khả năng khách hàng có/khơng sử dụụ̣ng dịch vụụ̣, mua hàng…
Có phải là spam mail hay không?
Khả năng trả nợ của khách hàng?
Công thức hồi quy đơn biến

Figure 9. Công thức hồi quy đơn biến

Công thức hồi quy đa biến:

Figure 10. Công thức hồi quy đa biến

Trong đó:
y là biến phụụ̣ thuộc hay là biến chúng ta sẽ dư báo.
x là biến độc lập.

0 là giá tri ước lượng của y khi x đạt giá tri 0.

18

TIEU LUAN MOI download :


1 là độ dốc của đường hồi quy tuyến tính, nói một cách khác là mức độ thay đổi
của y khi x thay đổi 1 đơn vi.

là sai số, thể hiện giá tri của các yếu tố khác không thể nghiên cứu hết và các
yếu tố này vẫn tác động lên giá tri của y.
Phần 0 + 1 chính là phần dư báo
4. Ứng dụụ̣ng thử nghiệm

4.1. Thuật toán Clustering KMeans và mơ hình
RFM 4.1.1. Thuật tốn K-means
Thuật tốn phân cụụ̣m k-means là một phương pháp được sử dụụ̣ng trong phân tích tính
chất cụụ̣m của dữ liệu, đặc biệt được sử dụụ̣ng nhiều trong khai phá dữ liệu và thống kê. Nó
phân vùng dữ liệu thành k cụụ̣m khác nhau, giúp chúng ta xác định được dữ liệu của
chúng ta nó thực sử thuộc về nhóm nào.
Thuật tốn k-means sử dụụ̣ng phương pháp tạo và cập nhật trung tâm để phân nhóm
các điểm dữ liệu cho trước vào các nhóm khác nhau. Đầu tiên chúng sẽ tạo ra các điểm
trung tâm ngẫu nhiên. Sau đó gán mỗi điểm trong tập dữ liệu vào trung tâm gần nó nhất.
Sau đó chúng sẽ cập nhật lại trung tâm và tiếp tụụ̣c lặp lại các bước đã kể trên. Điều kiện
dừng của thuật tốn: Khi các trung tâm khơng thay đổi trong 2 vòng lặp kế tiếp nhau. Tuy
nhiên, việc đạt được 1 kết quả hồn hảo là rất khó và rất tốn thời gian, vậy nên thường
người ta sẽ cho dừng thuật toán khi đạt được 1 kết quả gần đúng và chấp nhận được
Ý


tưởng của thuật toán k-means
1. Khởi tạo K điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của các
cụụ̣m dữ liệu của chúng ta.
2. Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụụ̣m của nó sẽ được xác định
là 1 trong K tâm cụụ̣m gần nó nhất.
3. Sau khi tất cả các điểm dữ liệu đã có tâm, tính tốn lại vị trí của tâm
cụụ̣m để đảm bảo tâm của cụụ̣m nằm ở chính giữa cụụ̣m.
4. Bước 2 và bước 3 sẽ được lặp đi lặp lại cho tới khi vị trí của tâm cụụ̣m
khơng
thay đổi hoặc tâm của tất cả các điểm dữ liệu khơng thay đổi.

4.1.2. Mơ hình RFM

“RFM là một phương pháp được sử dụụ̣ng để phân tích giá trị khách hàng. Nó thường
được sử dụụ̣ng trong marketing cơ sở dữ liệu (kiểu như dựa vào dữ liệu về khách hàng để
tiếp thị sản phẩm) và marketing trực tiếp và đã nhận được sự chú ý đặc biệt trong ngành
bán lẻ và dịch vụụ̣.”
RFM định lượng giá trị của một khách hàng dựa trên 3 thơng tin chính:
Recency: Khoảng thời gian mua hàng gần đây nhất là bao lâu. Cho biết khách
hàng có đang thực sự hoạt động gần thời điểm đánh giá. Chỉ số này càng lớn càng
19


TIEU LUAN MOI download :


cho thấy xu hướng rời bỏ của khách hàng càng cao. Đó là một cảnh báo cho doanh
nghiệp nên thay đổi sản phẩm để đáp ứng thị hiếu khách hàng hoặc thay đổi chính
sách để nâng cao chất lượng phụụ̣c vụụ̣.
Frequency: Tần suất mua hàng của khách hàng. Nếu khách hàng mua càng nhiều

đơn thì giá trị về doanh số mang lại cho công ty càng cao và tất nhiên giá trị của
họ càng lớn. Tuy nhiên nếu chỉ xét dựa trên tần suất mua hàng thì cũng chưa đánh
giá được đầy đủ mức độ tác động lên doanh thu bởi bên cạnh đó, giá trị đơn hàng
cũng là yếu tố trực tiếp cho thấy khách hàng tiềm năng như thế nào.
Monetary: Là số tiền chi tiêu của khách hàng. Đây là yếu tố trực quan nhất ảnh
hưởng tới doanh số. Hay nói cách khác, doanh nghiệp quan tâm nhất là khách
hàng đã dành bao nhiêu tiền để mua sắm sản phẩm của công ty? Monetary sẽ tác
động trực tiếp tới doanh thu và bị tác động gián tiếp thông qua 2 yếu tố còn lại là
Recency và Frequency.
4.2. Ứng dụụ̣ng và lập trình
Trước tiên, ta cần khai báo các thư viện cần dùng:
Thư viện pandas dùng để xử lý dữ liệu thông qua các cấu trức dữ
liệu dataframe
Thư viện numpy: xử lý dữ liệu số
Thư viện matplotlib, seaborn: trực quan hoá dữ liệu bằng các biểu đồ
Thư viện StandardScale: chuẩn hoá dữ liệu
Thư viện Kmeans

Figure 11. Khai báo thư viện

Tiếp theo, ta cần đọc dữ liệu từ bộ dữ liệu có sẵn

20

TIEU LUAN MOI download :


Figure 12. Đọc dataset

Figure 13. Bộ dữ liệu OnlineRetail


Sử dụụ̣ng một số câu lệnh info(), describe() để xem một số thông tin về bộ dữ liệu
trước khi xử lý

Figure 14. Thông tin về tập dữ liệu 1

21

TIEU LUAN MOI download :


Figure 15. Thông tin về tập dữ liệu 2

Figure 16. Thơng tin về sơ lượng dữ liệu trống

Sau khi có các thông tin cơ bản về bộ dữ liệu ta tiến hành làm sạch và tiền xử lý dữ liệu.
Từ bảng mô tả dữ liệu ban đầu ta cần phải quan tâm đến một vài số liệu:
Quantity: Giá trị trung bình ~9.55, phân phối gần vị trí trung vị thứ
3, giá trị min = -80995, max = 80995
UnitPrice: min = -11062 < 0
Ta thấy có 1454 dữ liệu 'Description' và 135080 dữ liệu 'CustomerID' có giá trị null.
Trong mơ hình RFM, dữ liệu CustomerID- định danh khách hàng đóng vai trị quan trọng
vì thế khơng thể xử lý bằng thay thế giá trị trung bình hay các phương pháp khác. Vì vậy,
làm sạch dữ liệu bằng phương phấp xố giá trị null: dropna() được lựa chọn trong trường
hợp này.

22

TIEU LUAN MOI download :



Figure 17. Bộ dữ liệu ban đầu sau khi loại bỏ dữ liệu trống

Sau khi loại bỏ dữ liệu trống ta được một bộ dữ liệu mới vì vậy tiếp tụụ̣c kiểm tra thông
tin về bộ dữ liệu mới.

Figure 18. Bảng mơ tả dữ liệu sau khi xố dữ liệu trống

Bảng mô tả dữ liệu mới cho thấy giá trị min âm trong UnitPrice đã được xử lý.
Sau khi có dữ liệu mới, ta có thể mơ tả dữ liệu trực quan thông qua các biểu đồ để xử
lý các outlier

23

TIEU LUAN MOI download :


Figure 19. Mô tả dữ liệu ban đầu sau khi xoá dữ liệu trống bằng biểu đồ

Một số kết luận có thể rút ra từ biểu đồ:
Dữ liệu tập trung chủ yếu trong khoảng -20000 dến 20000.
Có một vài điểm outlier nằm ở 80000 và -80000 trong cột Quantity và khoảng
40000 trong cột UnitPrice

Figure 20. Kiểm tra outlier1

Figure 21. Kiểm tra dữ liệu khách hàng 12346

Ta thấy 2 dòng dữ liệu triệt tiêu nhau, nguyên nhân có thể do của hàng thửa nghiệm hoặc
do nhân viên nhập sai vì thế dữ liệu khơng có ảnh hưởng đến kết quả phân tích, ta có thể

loại bỏ hoặc khơng
Tương tự với các outlier khác

24

TIEU LUAN MOI download :


×