Tải bản đầy đủ (.pdf) (81 trang)

Phân khúc khách hàng tronglĩnh vực bán lẻ xe đạp ứng dụng môhình rfm kết hợp phương pháp học máyphân cụm k means

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.91 MB, 81 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT (ĐHQG-HCM)KHOA HỆ THỐNG THÔNG TIN</b>

<b>BÁO CÁO ĐỒ ÁN CUỐI KỲ</b>

<b>MÔN: PHƯƠNG PHÁP NGHIÊN CỨU LIÊN NGÀNH</b>

<b>ĐỀ TÀI: PHÂN KHÚC KHÁCH HÀNG TRONG</b>

<b>3. Nguyễn Thiên Huy4. Phan Anh Thư5. Dương Văn Nhựt Duy</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>TP. Hồ Chí Minh, tháng 11, 2022</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

3 Nguyễn Thiên Huy K214060396 10

5 Dương Văn Nhựt Duy K214060391 10

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CẢM ƠN</b>

Đầu tiên, nhóm tác giả xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh tế - Luật đã đưa môn học Phương pháp nghiên cứu liên ngành vào chương trình giảng dạy. Đặc biệt hơn cả, nhóm tác giả xin dành một lời tri ân sâu sắc nhất đến GVC.TS. Hồ Trung Thành đã tạo điều kiện, hướng dẫn giúp cho bài nghiên cứu đạt được kết quả và thành cơng tốt đẹp.

Nhóm cũng đặc biệt gửi lời cảm ơn đến các tác giả, nhóm tác giả đã có những cơng trình nghiên cứu, bài báo, luận văn đóng góp những mơ hình, kiến thức, phương pháp của những lĩnh vực liên quan đến nghiên cứu này giúp cho quá trình nghiên cứu trở nên thuận lợi, hoàn chỉnh hơn.

Tuy nhiên, trong quá trình nghiên cứu, mặc dù đã cố gắng nhưng nhóm vẫn khơng thể tránh khỏi một số sai sót trong quá trình thực hiện.

Hi vọng sẽ nhận được những góp ý từ q thầy cơ cùng độc giả. Xin trân trọng cảm ơn!

<b>Nhóm 1</b>

<b>Too long to read onyour phone? Save to</b>

read later on your computer

Save to a Studylist

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>LỜI CAM ĐOAN</b>

Nhóm tác giả xin cam đoan đề tài "Phân khúc khách hàng trong lĩnh vực học bán lẻ xe đạp ứng dụng mơ hình RFM kết phương pháp học máy phân cụm K-means" là một cơng trình nghiên cứu do nhóm tác giả thực hiện, khơng sao chép bất kỳ cơng trình nghiên cứu nào khác. Nghiên cứu được hướng dẫn bởi giáng viên GVC.TS. Hồ Trung Thành. Các thông tin tham khảo trong bài nghiên cứu đều được nhóm tác giả trích dẫn một cách đầy đủ và cẩn thận. Nếu khơng đúng sự thật nhóm tác giả xin chịu mọi trách nhiệm về sự cam đoan này.

TP. Hồ Chí Minh, tháng 11, năm 2022

<b>Nhóm 1MỤC LỤ</b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

1.2. <b>Mục tiêu nghiên cứu...13</b>

1.3. <b>Phương pháp nghiên cứu...14</b>

1.4. <b>Quy trình nghiên cứu...15</b>

1.5. <b>Cấu trúc bài nghiên cứu...16</b>

<b>CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MỘT SỐ NGHIÊN CỨU LIÊN QUAN</b> 18 2.1. <b>Cơ sở lý thuyết...18</b>

2.1.1. Hành vi khách hàng...18

2.1.2. Phân tích phân khúc khách hàng...19

2.1.3. Các phương pháp phân khúc khách hàng trước đó...20

2.2. <b>Một số nghiên cứu trước đây...21</b>

<b>CHƯƠNG 3: PHƯƠNG PHÁP THỰC NGHIỆM...</b>...2525 <b>3.1. Thu thập dữ liệu...26</b>

3.1.1. Về công ty AdventureWorks Cycles...26

3.1.2. Mô tả bộ dữ liệu...27

<b>3.2. Tiền xử lý dữ liệu...30</b>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN...</b>...40..40

4.1. <b>Kết quả nghiên cứu...40</b>

4.2. <b>Thảo luận...42</b>

4.2.1. Phân tích nhóm khách hàng hứa hẹn (Promising)...42

4.2.2. Phân tích nhóm khách hàng mới (New Customers)...44

4.2.3. Phân tích nhóm khách hàng sắp ngủ (About to sleep)...46

4.2.4. Phân tích nhóm khách hàng ngủ đơng (Hibernating)...47

<b>CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN...</b>...4949 5.1. <b>Khuyến nghị...49</b>

5.2. <b>Kết luận và hướng phát triển...50</b>

<b>PHỤ LỤC...</b>...

52 1. <b>Chuẩn hoá dữ liệu...52</b>

2. <b>Tìm số cụm với phương pháp Elbow...55</b>

3. <b>Kiểm định chất lượng cụm với thuật toán Silhoutte...57</b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>TÀI LIỆU THAM KHẢO...</b>...6565

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>DANH MỤC BẢNG BIỂU</b>

Bảng 3. 1: Bảng mô tả dữ liệu của Sales...28 Bảng 3. 2: Bảng mô tả dữ liệu của Sales Order...29 Bảng 3. 3: Bảng mơ tả dữ liệu của Customer...29

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Hình 3. 6: Giá trị Recency (Nguồn: Nhóm tác giả)...34

Hình 3. 7: Giá trị Frequency (Nguồn: Nhóm tác giả)...34

Hình 3. 8: Giá trị Monetary (Nguồn: Nhóm tác giả)...35

Hình 3. 9: Tổng hợp các giá trị RFM (Nguồn: Nhóm tác giả)...35

Hình 3. 10: Giá trị các mốc của R, F, M (Nguồn: Nhóm tác giả)...36

Hình 3. 11: Nối điểm RFM (Nguồn: Nhóm tác giả)...36

Hình 3. 12 : Dữ liệu sau khi được dán nhãn (Nguồn: Nhóm tác giả)...39

YHình 4. 1 Biểu đồ thể hiện độ phân tán của Recency (Nguồn: Nhóm

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Hình 4. 6: Tỷ lệ chi tiêu của từng nhóm khách hàng (Nguồn: Nhóm tác

Hình 2: Mơ tả dữ liệu lên đồ thị...53

Hình 3: Trực quan hố các kết quả biến đổi...54

Hình 4: Độ lệch qua các phép biến đổi...54

Hình 5: Dữ liệu sau khi biến đổi...55

Hình 6: Kết quả đồ thị đường SSE trong phương pháp Elbow (khuỷu tay) ...55

Hình 7: Đường Distortion...56

Hình 8: Kết quả điểm Silhouette với số cụm từ 2 đến 5...58

Hình 9: Phân tích bằng biểu đồ Silhouette cho 2,3,4,5 cụm...58

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>DANH MỤC TỪ VIẾT TẮT</b>

RFM Recency, Frequency, Monetary CLV Customer Lifetime Value LTV Lifetime Value NPS Net Promoter Score

RR Retention Rate

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>SƠ ĐỒ GANTT</b>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>TÓM TẮT</b>

Thấu hiểu khách hàng là mục tiêu hàng đầu của hầu hết các doanh nghiệp trong lĩnh vực kinh doanh sản phẩm, dịch vụ nói chung và lĩnh vực bán lẻ nói riêng. Muốn đạt được điều đó, nhà quản trị phải có khả năng phân chia khách hàng của mình vào từng nhóm riêng biệt và đưa ra chính sách chăm sóc phù hợp với nhu cầu của từng nhóm, cụ thể hơn là từng khách hàng, việc làm này được gọi là phân khúc khách hàng (Customer Segmentation). Ngày nay, khoa học dữ liệu cũng như các công cụ, kỹ thuật phân tích dữ liệu đã và đang phát triển rất nhanh chóng. Việc tận dụng được nguồn dữ liệu khổng lồ từ hành vi mua hàng và nhân khẩu học của khách hàng và ứng dụng các thuật tốn, mơ hình nhằm phân tích các dữ liệu ấy là điều hết sức quan trọng mà bất kỳ doanh nghiệp bán lẻ nào cũng phải nắm bắt nếu muốn đạt được thành công trong thời đại số. Bài báo này đề xuất một mơ hình kết hợp giữa phương pháp tính tốn các giá trị RFM (Recency, Frequency, Monetary) và phân cụm bằng thuật toán học máy K-means (Machine Learning) để phân nhóm khách hàng trong lĩnh vực bán lẻ. Ngồi ra, nghiên cứu đã chứng minh sự hữu ích của phương pháp này bằng cách tiến hành thực nghiệm trên tập dữ liệu (dataset) thực tế với 121,254 giao dịch của một cửa hàng bán lẻ trực tuyến xe đạp

(AdventureWorks), qua kiểm định chất lượng đã cho thấy tính hiệu quả và khả năng ứng dụng của nghiên cứu vào thực tiễn. Khơng chỉ đóng góp về mặt lý thuyết, thơng qua mơ hình này cịn giúp các doanh nghiệp, nhà quản trị có thể có những quyết định chính xác hơn dựa trên dữ liệu, từ đó đưa ra các chiến dịch tiếp thị phù hợp cho từng phân khúc khách hàng, mang lại hiệu quả kinh tế và giữ chân được khách hàng.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>Từ khóa: Phân khúc khách hàng, RFM, học máy, phân cụm, dán </b>

nhãn.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI1.1. Lý do chọn đề tài</b>

Phương pháp phân khúc khách hàng khơng cịn là một phương pháp mới lạ trong kinh doanh, hầu hết các doanh nghiệp hiện nay đều sử dụng phương pháp này để tiếp cận khách hàng một cách hiệu quả. RFM là một trong những mô hình được các cơng ty sử dụng rộng rãi, mơ hình này giúp các cơng ty biết khách hàng trung thành của họ, những khách hàng không hài lòng với dịch vụ và sản phẩm của họ và những khách hàng cũ đã rời bỏ họ. Tuy nhiên việc áp dụng mơ hình RFM vào lĩnh vực bán lẻ sẽ tồn tại nhiều đặc điểm riêng biệt cần được nghiên cứu, Tuy nhiên, việc áp dụng mơ hình này cho lĩnh vực bán lẻ xe đạp chưa được phát triển rộng rãi, trong khi đó mơ hình RFM có thể giúp nhà bán lẻ tối đa hóa lợi tức đầu tư và hoạch định nguồn lực họ đã bỏ vào chiến dịch marketing một cách hiệu quả hơn. Ngoài ra, việc kết hợp mơ hình RFM với thuật tốn học máy K-means được mong đợi mang lại hiệu quả lớn cho các doanh nghiệp trong việc phân khúc khách hàng. Vấn đề lớn nhất của ngành bán lẻ xe đạp là các nhà bán lẻ vẫn còn sử dụng mơ hình phân khúc khách hàng truyền thống, vì vậy họ gặp khó khăn trong việc đáp ứng nhu cầu khách hàng và tìm ra nguồn khách hàng tiềm năng. Đối với ngành bán lẻ, việc sử dụng mơ hình RFM cùng thuật tốn K-means được kỳ vọng sẽ cung cấp sự hiểu biết khách hàng tốt hơn nhằm đưa ra quyết định hiệu quả hơn. Đó là lý do mà bài nghiên cứu này được thực hiện. Bài nghiên cứu này sẽ hướng đến việc tạo lập mơ hình phân khúc khách hàng hiệu quả kết hợp phương pháp học máy cho lĩnh vực bán lẻ xe đạp của Công ty AdventureWorks đồng thời so sánh mơ hình RFM truyền thống với mơ hình RFM khi kết hợp với thuật tốn phân cụm K-Means.

<b>1.2. Mục tiêu nghiên cứu</b>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Mục tiêu tổng quát: Nghiên cứu này đề xuất phương pháp và xây dựng mơ hình phân khúc khách hàng dựa trên phương pháp RFM kết hợp với thuật tốn học máy phân cụm K-means để phân tích phân khúc khách hàng trong lĩnh vực bán lẻ. Từ đó hồn thiện mơ hình phân khúc khách hàng hiệu quả, đồng thời đánh giá hiệu quả phương pháp RFM truyền thống so với RFM kết hợp thuật toán học máy. Điều này giúp các nhà quản lý doanh nghiệp đưa ra các chiến dịch marketing phù hợp với

- Trình bày về việc thu thập, xử lý dữ liệu để đưa ra phân khúc khách hàng dựa trên mô hình RFM, phương pháp K-means.

- Đưa ra những phân tích định tính và định lượng tương ứng với từng phân khúc khách hàng. Từ đó hồn thiện mơ hình phân khúc khách hàng hiệu quả sử dụng RFM kết hợp phương pháp học máy.

- Đề xuất/khuyến nghị chiến lược marketing hiệu quả cho từng phân khúc khách hàng.

<b>Đối tượng và phạm vị nghiên cứu</b>

Đối tượng: Phân khúc khách hàng bằng cách ứng dụng mơ hình RFM và thuật toán học máy phân cụm K-mean

Phạm vi nghiên cứu:

- Không gian: Nghiên cứu dựa trên dữ liệu về thị trường hoạt động bán lẻ xe đạp của công ty AdventureWorks ( Từ năm 2017 - 2020)

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

- Thời gian: nghiên cứu này thực hiện trong 2 tháng (từ tháng 9/2022 đến tháng 11/2022)

<b>1.3. Phương pháp nghiên cứu</b>

Nghiên cứu lý thuyết:

- Phương pháp phân tích và tổng hợp lý thuyết: Tổng hợp và đưa ra luận điểm chính thu được từ q trình phân tích, tổng hợp từ các lý thuyết nền tảng và các nghiên cứu trước.

- Phương pháp phân loại và hệ thống hóa lý thuyết: dựa vào các thông tin thu thập được tiến hành hệ thống hóa và phân thành các mục vấn đề với hướng đi cụ thể, thống nhất, từ đó đưa ra kết luận cuối cùng.

- Phương pháp chuyên gia: tham khảo, phỏng vấn những chuyên gia có hiểu biết sâu rộng về lĩnh vực tiếp thị cũng như học máy, từ đó tổng hợp được những thơng tin quan trọng về đối tượng nghiên cứu.

- Phương pháp nghiên cứu tài liệu: Nghiên cứu bài nghiên cứu khoa học được cơng bố trước đó về lĩnh vực tiếp thị, kỹ phân khúc khách hàng, cụ thể là các mơ hình RFM và phương thức kết hợp với các phương pháp máy học để tối ưu hiệu quả mơ hình.

Nghiên cứu thực nghiệm:

- Phương pháp thu thập thông tin: Xây dựng bộ dữ liệu dựa trên các ghi nhận của hệ thống bán lẻ, bao gồm các dữ liệu định lượng chủ chốt như số lần mua, tổng tiền, thời điểm giao dịch,…

- Phương pháp định tính: Diễn giải cách phân chia và đặc trưng của từng nhóm khách hàng dựa trên kết quả phân cụm có được từ thực nghiệm.

- Phương pháp định lượng: tìm ra các chỉ số Recency, Frequency, Monetary và xây dựng thang đo giá trị áp dụng với từng

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

khách hàng. Kết hợp kết quả từ mơ hình RFM với thuật tốn K-means để tăng độ chính xác và tối ưu kết quả phân cụm, phân đoạn khách hàng.

<b>1.4. Quy trình nghiên cứu</b>

Nghiên cứu được thực hiện theo sơ đồ như hình:

<small>Hình 1. 1: Quy trình nghiên cứu</small>

<b>1.5. Cấu trúc bài nghiên cứu</b>

Bài báo cáo nghiên cứu này có cấu trúc gồm 5 chương, chi tiết như sau:

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Chương 1: Tổng quan tình hình nghiên cứu

Ở chương này nghiên cứu sẽ trình bày về tổng quan đề tài bao gồm lý do chọn đề tài, mục tiêu nghiên cứu, đối tượng, phạm vi, phương pháp nghiên cứu.

Chương 2: Cơ sở lý thuyết

Trong chương 2 sẽ có các nội dung về những lý thuyết nền tảng liên quan tới đề tài bao gồm Hành vi khách hàng, Phân tích phân khúc khách hàng, RFM,… và các cơng trình nghiên cứu, đóng góp học thuật có liên quan.

Chương 3: Thực nghiệm trên mơ hình RFM

Chương 3 trình bày nội dung chi tiết về triển khai mơ hình thực nghiệm, bao gồm các bước chuẩn bị, tối ưu dữ liệu và áp dụng mơ hình RFM nhằm đưa ra kết quả thực nghiệm cho nghiên cứu này.

Chương 4: Kết quả thực nghiệm và thảo luận

Ở chương 4 sẽ trình bày kết quả của việc triển khai các mơ hình, thuật tốn và nhận xét đánh giá về kết quả có được.

Chương 5: Kết luận và hướng phát triển

Tổng kết lại thu hoạch của quá trình mà cuộc nghiên cứu này đã nhận được cũng như đưa ra hướng phát triển, đề ra hướng đi, giải pháp để có thể cải thiện nghiên cứu trong tương lai.

Phụ lục: Phân cụm khách hàng với thuật tốn K-means Phần này sẽ trình bày phương pháp phân khúc khách hàng kết hợp mơ hình RFM và thuật toán phân cụm K-means, bao gồm đưa ra mơ hình thực nghiệm và kết quả thực nghiệm, đánh giá và nhận xét về hiệu quả của mơ hình đồng thời đưa ra các khuyến nghị khi áp dụng phương pháp này vào phân khúc khách hàng.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MỘT SỐ NGHIÊN CỨU LIÊNQUAN</b>

Chương 2 trình bày về các lý thuyết và đề cập đến mơ hình, phương pháp mà nhóm nghiên cứu sử dụng trong quá trình thực hiện đề tài, đồng thời nêu ra một vài nghiên cứu liên quan trong quá khứ nhằm làm rõ tình hình nghiên cứu và phân tích khoảng trống nghiên cứu.

<b>2.1. Cơ sở lý thuyết</b>

2.1.1. Hành vi khách hàng

Hành vi khách hàng là một lĩnh vực nghiên cứu có nguồn gốc từ các khoa học như tâm lý học, xã hội học, tâm lý xã hội học, nhân văn học và kinh tế học. Hành vi khách hàng chú trọng đến việc nghiên cứu tâm lý cá nhân, nghiên cứu những niềm tin cốt yếu, những giá trị, những phong tục, tập quán ảnh hưởng đến hành vi con người và những ảnh hưởng lẫn nhau giữa các cá nhân trong quá trình mua sắm tiêu dùng. Đặc biệt, việc nghiên cứu hành vi khách hàng là một phần quan trọng trong nghiên cứu kinh tế học với mục đích tìm hiểu xem bằng cách nào (how) và tại sao (why) những người tiêu dùng mua (hoặc không mua) các sản phẩm và dịch vụ, và quá trình mua sắm của khách hàng diễn ra như thế nào.<small>1</small>

Sự hiểu biết về hành vi khách hàng sẽ cung cấp nền tảng cho những chiến lược marketing, như việc định vị sản phẩm, phân khúc thị trường, phát triển sản phẩm mới, những áp dụng thị trường mới, marketing toàn cầu, những quyết định marketing mix,... Những hoạt động marketing chủ yếu này sẽ hiệu quả hơn khi được đặt trên cơ sở một sự hiểu biết về hành vi khách hàng.

Có nhiều định nghĩa về hành vi khách hàng, sau đây là một số định nghĩa tiêu biểu:

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

- Theo Hiệp hội Marketing Hoa Kỳ, hành vi khách hàng chính là sự tác động qua lại giữa các yếu tố kích thích của mơi trường với nhận thức và hành vi của con người mà qua sự tương tác đó, con người thay đổi cuộc sống của họ. Hay nói cách khác, hành vi khách hàng bao gồm những suy nghĩ và cảm nhận mà con người có được và những hành động mà họ thực hiện trong quá trình tiêu dùng. Những yếu tố như ý kiến từ những người tiêu dùng khác, quảng cáo, thơng tin về giá cả, bao bì, bề ngồi sản phẩm,… đều có thể tác động đến cảm nhận, suy nghĩ và hành vi của khách hàng.<small>2</small>

- Theo Kotler & Levy, hành vi khách hàng là những hành vi cụ thể của một cá nhân khi thực hiện các quyết định mua sắm, sử dụng

- Hành vi khách hàng là năng động và tương tác vì nó chịu tác động bởi những yếu tố từ mơi trường bên ngồi và có sự tác động trở lại đối với môi trường ấy.

- Hành vi khách hàng bao gồm các hoạt động: mua sắm, sử dụng và xử lý sản phẩm dịch vụ.

2.1.2. Phân tích phân khúc khách hàng

Việc doanh nghiệp áp dụng một phương thức marketing chung cho các khách hàng của họ có thể khơng mang lại cho họ những lợi ích mong muốn, bởi mỗi khách hàng là một cá thể khác nhau có những lối sống, trải nghiệm khác nhau do đó ta cần phải phân khúc khách hàng thành từng nhóm theo một hoặc một vài thuộc tính nào đó. Phân khúc khách hàng là q trình phân chia các khách hàng khơng đồng nhất

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

thành các nhóm đồng nhất trên cơ sở tương đồng về một hoặc một vài thuộc tính chung nào đó và là điều cần thiết để xử lý nhiều loại khách hàng với nhiều nhóm sở thích đa dạng khác nhau một cách hiệu quả hơn. Việc phân khúc khách hàng thường dựa trên một số tiêu chí, như dựa trên dữ liệu nhân khẩu học, ví dụ: giới tính, độ tuổi, tình trạng hơn nhân, quy mơ hộ gia đình,...; Dữ liệu địa lý, ví dụ: khu vực cư trú hoặc làm việc,...; Dữ liệu tâm lý học, ví dụ: các đặc điểm về tầng lớp xã hội, lối sống và nhân cách,...; Dữ liệu bán hàng, cho biết các hành vi mua sắm, ví dụ: khối lượng bán hàng, số lượt truy cập, tần suất truy cập, khối lượng tiền tệ, lượt truy cập gần đây,...; Dữ liệu hành vi, tức là dữ liệu chỉ ra các hành vi khác ngoài mua sắm, ví dụ: dữ liệu thu được từ các giỏ hàng hỗ trợ RFID thể hiện những gì người mua sắm bỏ vào giỏ hàng của họ. Việc phân khúc khách hàng có thể áp dụng nhiều mơ hình khai thác dữ liệu như: mơ hình dựa trên liên kết (ví dụ: quy tắc liên kết, chuỗi Markov), phân loại (ví dụ: cây quyết định), phân cụm, khám phá trình tự, dự báo (ví dụ: mạng thần kinh). Dữ liệu bán hàng ở cấp độ khách hàng thường được sử dụng để phân khúc người mua hàng và kiểm tra hành vi mua hàng của họ. Nói cách khác, họ kiểm tra hành vi mua sắm (ví dụ: khối lượng bán hàng, tần suất ghé thăm,...) hoặc sự kết hợp của các sản phẩm hoặc danh mục sản phẩm mà người mua hàng đã mua trong toàn bộ lịch sử mua hàng của họ, tức là trong tất cả các lần truy cập của họ trong một cửa hàng vật lý hoặc cửa hàng trực tuyến của một nhà bán lẻ. Sau khi áp dụng các phương pháp để gom nhóm khách hàng, các nhóm khách hàng sẽ được gán nhãn tương ứng với các chỉ số đặc trưng của nhóm đó (ví dụ như: nhóm khách hàng tiềm năng, nhóm khách hàng trung thành, nhóm khách hàng V.I.P, nhóm khách hàng có khả năng rời bỏ,...). Sau khi có các phân khúc khách hàng riêng biệt, doanh nghiệp có thể tùy chỉnh kế hoạch

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

tiếp thị, xác định xu hướng, lập kế hoạch phát triển sản phẩm, chiến dịch quảng cáo và cung cấp các sản phẩm phù hợp với từng phân khúc khách hàng tương ứng từ đó nâng cao doanh số cho doanh nghiệp. Việc phân khúc khách hàng rất quan trọng bởi đây doanh nghiệp nào có được cái nhìn chính xác về đặc trưng của từng phân khúc khách hàng sẽ có thể phân chia ngân sách quảng cáo hợp lý hơn và tiết kiệm được nhiều hơn, khơng những thế cịn đem lại hiệu quả to lớn. Đối với người làm marketing, đặc biệt là trong lĩnh vực bán lẻ, việc xác định đúng phân khúc khách hàng giúp cho họ hiểu khách hàng mình hơn. Khi thấu hiểu khách hàng, nhà bán lẻ có thể điều chỉnh và cải thiện chất lượng dịch vụ mà họ cung cấp để khách hàng có trải nghiệm tốt hơn và đồng hành cùng doanh nghiệp lâu dài, giúp tăng doanh số ổn định, tạo sự bền vững cho doanh nghiệp.

2.1.3. Các phương pháp phân khúc khách hàng trước đó

Trước khi có đủ khả năng để ứng dụng các tiến bộ khoa học công nghệ trong việc phân khúc khách hàng, những nhà bán lẻ thường phân nhóm khách hàng của họ dựa trên việc quan sát và ghi nhận một cách thủ công. Phương pháp này tuy gần gũi, dễ dàng thực hiện song lại vơ cùng kém hiệu quả vì người thường không thể nào nắm hết một lượng lớn thơng tin khách hàng chỉ dựa trên việc nhìn, nghe, đánh giá cá nhân và ghi chép, chưa kể thông tin ở đây không chỉ bao gồm thông tin định danh cá nhân mà còn là nhân khẩu học, hành vi và đôi khi là cả tâm lý học. Điều này gây ra những rủi ro cực kỳ lớn cho các nhà bán lẻ khi họ có nguy cơ đánh mất lượng khách hàng đáng kể nếu vơ tình “nhớ nhầm” thơng tin của một khách hàng thân quen nào đó, giới thiệu sai sản phẩm cho sai người hay đánh giá sai tính cách và hành vi khách hàng do chỉ dựa vào quan điểm cá nhân. Vì vậy, xu hướng tất yếu lúc

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

bấy giờ là cần một sự đổi mới trong việc phân tích phân khúc khách hàng.

Ngày nay, khi công nghệ đã phát triển vượt bậc kéo theo sự ra đời của những kỹ thuật mới như nhãn nhóm khách hàng (Customer Quintiles) và các phương pháp học máy (Machine Learning) đã giúp cho việc phân khúc khách hàng trở nên hiệu quả và chính xác hơn bao giờ hết. Bằng cách tính toán và chấm điểm (scoring) những chỉ số khách hàng (RFM, CLV, LTV, NPS…) theo dữ liệu đã thu thập được, nhà phân tích và bán lẻ có thể “dán nhãn” (labelling) các nhóm khách hàng theo từng thuộc tính cụ thể tùy thuộc vào mục đích phân tích. VD: phân khúc thành các nhóm Champions, Loyal cho đến Hibernating, Lost customers. Trong đó, mơ hình RFM là một trong những phương pháp được sử dụng rộng rãi nhất. Ưu điểm lớn nhất của phương pháp này chính là cung cấp được thơng tin chi tiết về khách hàng chỉ với 3 tiêu chí (Lần truy cập gần đây, Tần suất, Tiền tệ) giúp làm giảm độ phức tạp của mơ hình phân tích mà khơng ảnh hưởng đến độ chính xác của nó. Ngồi ra, để mơ hình có thể hồn thiện và phân nhóm một cách phù hợp hơn đối với từng bộ dữ liệu, các nghiên cứu gần đây còn kết hợp RFM với phương pháp học máy, điển hình là Onur DOĞAN và cộng sự (2018) đã sử dụng thuật toán K-means giúp phân chia khách <small>4</small>

hàng thành các cụm (cluster) dựa trên những tính chất chung của khách hàng.

<b>2.2. Một số nghiên cứu trước đây</b>

Nghiên cứu phân khúc khách hàng (Customer Segmentation) rất quan trọng. Đây là một bài toán được rất nhiều sự quan tâm của các doanh nghiệp. Để đạt được hiểu quả tối ưu khi kinh doanh, doanh nghiệp luôn cần xác định phân khúc khách hàng phù hợp với sản phẩm của mình, từ đó chuẩn bị nội dung, thông điệp, chiến lược tiếp thị phù

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

hợp với đối tượng khách hàng mà doanh nghiệp hướng tới. RFM là phương pháp thường được sử dụng để phân chia nhóm khách hàng. Cho đến hiện tại đã có rất nhiều bài nghiên cứu khoa học, cơng trình nghiên cứu liên quan đến vấn đề này. Trong đó có những nhóm tác giả đến phân khúc khách hàng thơng qua mơ hình RFM, thuật tốn K-means và yếu tố nhân khẩu học,...

Dữ liệu khách hàng có thể được phân tích dựa trên nhiều góc nhìn như nhân khẩu học, tâm lý học, đặc điểm tích cách xoay quanh hành vi mua hàng, rủi ro cũng như khả năng sinh lời. Một trong những phương pháp phân chia nhóm khách hàng được nhiều nhà nghiên cứu thực hiện nhất đó là dựa trên mơ hình RFM, tiêu biểu là You-Shyang Chen và cộng sự (2009) . Các giá trị này có thể được kết hợp với nhiều phương <small>5</small>

pháp hay đặc điểm khác nhằm cho ra kết quả dựa trên góc nhìn đa chiều và chính xác hơn. Nhiều nghiên cứu đã thực nghiệm việc ứng dụng khai thác dữ liệu vào phân khúc khách hàng, tuy nhiên nhiều trong số đó phân tích dữ liệu khách hàng từ một góc nhìn chủ quan, thiếu hệ thống thay vì cân nhắc tất cả giai đoạn của mơ hình CRM. Vì vậy Morteza Namvar và cộng sự (2011) đã xây dựng một phương pháp<small>6</small>

phân khúc khách hàng hệ thống hơn, dựa trên các mơ hình RFM, LTV và các tham số nhân khẩu học. Tương tự, Daqing Chen và cộng sự (2012)<small>7</small> đã dựa trên mơ hình RFM, phân chia khách hàng thành nhiều cụm bằng thuật tốn K-means, sau đó sử dụng thuật tốn Decision Tree để ra lọc các cụm và cho ra phân khúc khách hàng, với mục tiêu cung cấp phương pháp tổng quan cho việc sắp xếp và phân khúc khách hàng dựa trên phân tích dữ liệu. Abdulkadir Hiziroglu (2013) nhận ra <small>8</small>

với sự thay đổi nhanh chóng của thị trường, việc đưa ra các chiến lược dựa trên thay đổi hành vi của khách hàng đối với các vấn đề theo thời gian là một thách thức. Monireh Hosseini (2015) đã chỉ ra phân tích <small>9</small>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

quan trọng cho thấy việc sử dụng soft-computing trong bài toán phân cụm vẫn đang ở giai đoạn đầu và chưa đủ để khai thác dữ liệu khách hàng. Với những phát hiện đó, có thể thấy soft-computing là một phương pháp tiềm năng nhưng vẫn còn nhiều điều cần thực nghiệm để chứng minh tính hiệu quả của nó. Để khắc phục, Aryuni và cộng sự (2018)<small>10</small> đã xây dựng mơ hình phân nhóm trên dữ liệu hồ sơ khách hàng dựa trên việc họ sử dụng ngân hàng trực tuyến, hai phương pháp phân nhóm được sử dụng là K-means và K-Medoids. Hai phương pháp này được sử dụng dựa trên điểm RFM của các giao dịch trực tuyến của khách hàng. Với việc so sánh giữa hai phương pháp về hiệu năng đã cho kết quả phương pháp K-means vượt qua phương pháp K-Medoids ở hai tiêu chí (AWC và chỉ số Davies-Bouldin). Cùng vấn đề đó, Onur DOĞAN và cộng sự (2018) sau khi tiến hành thử nghiệm trong lĩnh <small>11</small>

vực bán lẻ tại Thổ Nhĩ Kỳ đã phát hiện ra rằng phân loại khách hàng chỉ dựa trên chi phí là khơng đủ. Vì vậy, họ đã đề xuất 2 mơ hình phân cụm sử dụng RFM (phân cụm hai bước và phân cụm K-means) được kỳ vọng sẽ cung cấp sự hiểu biết khách hàng tốt hơn nhằm đưa ra quyết định hiệu quả hơn. Ngoài các nghiên cứu về RFM, Anastasia Griva và cộng sự (2018) đã đề xuất một mơ hình mơ tả lượt ghé thăm của <small>12</small>

khách hàng theo danh mục sản phẩm đã mua trong giỏ hàng và xác định ý định mua sắm đằng sau chuyến thăm đó. Theo Rodrigo Heldt và cộng sự (2019) , các mơ hình RFM được sử dụng rộng rãi trước đó để <small>13</small>

ước tính giá trị của khách hàng chỉ dựa trên quan điểm của khách hàng mà bỏ qua quan điểm sản phẩm từ đó nhóm tác giả đã đề xuất mơ hình RFM trên mỗi sản phẩm (RFM / P). Hiện nay có những cơng ty tin rằng giảm giá hay khuyến mãi sẽ giữ chân được khách hàng nhưng điều này lại hoàn toàn ngược lại. Siti Monalisa và cộng sự (2019) đã <small>14</small>

tiến hành nghiên cứu để chứng minh dựa trên danh mục đầu tư (CPA)

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

và dựa trên giá trị cuộc sống của khách hàng (CLV); RFM, nhân khẩu học và thuật toán gom cụm Fuzzy C-Means (FCM) là mơ hình dùng để phân tích. Vì vậy, cũng trong năm đó nhiều nhà nghiên cứu đã thực hiện việc kết hợp RFM cùng các thuật toán khác và thực nghiệm để đánh giá tính hiệu quả của chúng, điển hình là Anitha và Patil (2019) <small>15</small>

với việc triển khai các nguyên tắc phân khúc tập dữ liệu bằng cách sử dụng Thuật toán K-Means trong việc xác định khách hàng tiềm năng ngành bán lẻ. Một phương pháp khác đã được Hansi Chen và cộng sự (2019)<small>16</small> sử dụng chính là dựa trên hình thức sử dụng điện thoại thông minh của khách hàng để đạt được sự thỏa mãn chính xác hơn đối với nhu cầu của khách hàng trong các phân khúc thị trường khác nhau. Ngoài ra Jun Wu, Li Shi và cộng sự (2020) cũng đã phân hành vi của <small>17</small>

khách hàng ln thay đổi do đó doanh nghiệp cần có một chiến lược tiếp cận khách hàng để dự đốn các hành vi dựa trên phân tích dữ liệu, do đó phương pháp RFM, thuật tốn K-means và phương pháp PCA được kết hợp để tiến hành phân cụm khách hàng và phân tích giá trị. Một nghiên cứu khác trong nước của Đinh Tiên Minh và Lê Vũ Lan Oanh (2020)<small>18</small> cũng đã sử dụng mơ hình RFM, K-means và các yếu tố nhân khẩu học, tâm lý học để phân khúc khách hàng mua sắm ở các trung tâm thương mại. Gần đây Hồng Anh Dũng (2020) đã ứng dụng mơ <small>19</small>

hình phân cụm và phân nhóm PRF (Parallel Random Forest) cùng với kỹ thuật tối ưu hóa song song dữ liệu và xử lý đồng thời để đưa ra khuyến nghị theo phân khúc khách hàng. Quá trình này được thực hiện thông qua khai thác Big Data, kết hợp thuật toán học máy K-means và Random Forest, ứng dụng hệ khuyến nghị và kỹ thuật phân tích hành vi khách hàng để cho ra kết quả phù hợp nhất. Hồ Trung Thành và Nguyễn Đăng Sơn (2021) cũng đã kết hợp mơ hình RFM cùng phương <small>20</small>

pháp K-means để phân khúc khách hàng và gom cụm được 5 phân

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

khúc khách hàng đặc trưng thông qua thực nghiệm, sau kiểm định cho thấy tính hiệu quả khá cao. Tương tự, Christy và cộng sự (2021) cũng <small>21</small>

đã đề cập đến sử dụng các thuật tốn khơng giám sát như K-Means và Fuzzy C-Means trong nghiên cứu của mình. Cùng với đó,

Dr.B.Arivazhagan và Dr.G.Vijaiprabhu (2022) đã kết hợp các giá trị <small>22</small>

RFM này với dữ liệu nhân khẩu học và phân chia các cụm khách hàng bằng phương pháp Hierarchical Agglomerative trong hai lĩnh vực Ngân Hàng và Viễn Thông - hai lĩnh vực bị ảnh hưởng nhiều bởi giá trị khách hàng. Trong bài nghiên cứu của Phan Châu Minh Trường (2022) , phân <small>23</small>

tích hành vi chủ yếu tập trung vào việc phân khúc khách hàng và sẽ được thực hiện bằng cách sử dụng các kỹ thuật học máy khơng giám sát ứng dụng vào mơ hình RFM để khám phá hành vi khách hàng, để hiểu từng phân khúc khách hàng cụ thể. Một nghiên cứu mới nhất trong nước, Đỗ Vĩnh Trúc (2022) đã nhận thấy sự không tường minh <small>24</small>

của các biến R,F,M nên đã làm rõ quy trình phân khúc khách hàng để các tổ chức có thể cải thiện các hoạt động tiếp thị của mình bằng hương pháp tính CLV để bán các dịch vụ hay sản phẩm tốt nhất tiếp theo của họ cho nhóm khách hàng có giá trị hơn, bằng cách tính tốn tồn bộ giá trị lâu dài của khách hàng.

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

<b>CHƯƠNG 3: PHƯƠNG PHÁP THỰC NGHIỆM</b>

Trong chương này, nhóm nghiên cứu mơ tả quy trình đi từ phân tích, xây dựng mơ hình từ cơ sở lý thuyết đã nêu ở chương hai cho đến thực nghiệm trên bộ dữ liệu thứ cấp đến từ AdventureWorks. Quá trình này bao gồm các giai đoạn: thu thập dữ liệu; tiền xử lý dữ liệu; thiết lập mơ hình; phân tích và trực quan hóa kết quả.

Hình 3.1 trình bày quy trình quy trình nghiên cứu với 4 giai đoạn chính như sau: 1) Giai đoạn 1 thu thập dữ liệu cho việc tính toán; Giai đoạn 2 là giai đoạn tiền xử lý dữ liệu, đây là giai đoạn có nhiều bước để chọn ra các thuộc tính phù hợp cho việc xử lý (số lần mua hàng, khối lượng đơn hàng, lần mua hàng gần nhất), đối với tập dữ liệu Adventure Work, đây là tập dữ liệu tương đối sạch, cho nên chỉ cần loại bỏ một số giá trị ngoại lai, biến đổi và chuẩn hoá các giá trị cần thiết; 3) Giai đoạn 3 Thiết lập các giá trị RFM, từ bộ dữ liệu đã được làm sạch và chuẩn hoá ở Giai đoạn 2, nghiên cứu tiến hành chấm điểm RFM của từng khách hàng thông qua Lần mua hàng gần nhất, Số lần mua hàng, Tổng số tiền.với số lượng nhóm khách hàng là 5; 4) Giai đoạn 4 Dán nhãn và phân cụm khách hàng, từ bộ điểm RFM của từng khách hàng nghiên cứu tiếp tục phân loại khách hàng dựa trên điểm số của từng người thơng qua 2 biến chính là R và F, từ đó rút ra được những kết luận, giải pháp cho từng nhóm khách hàng.

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<small>Hình 3. 1: Phương pháp, quy trình nghiên cứu và thực nghiệm (Nguồn: Nhóm tácgiả)</small>

<b>3.1. Thu thập dữ liệu</b>

Để tiến hành nghiên cứu, nhóm tác giả có sử dụng bộ dữ liệu AdventureWorks của công ty AdventureWorks Cycles - một công ty ảo hoạt động trong ngành bán lẻ xe đạp. Bộ dữ liệu này là bộ dữ liệu có sẵn do cơng ty Microsoft cung cấp.

3.1.1. Về công ty AdventureWorks Cycles

Về công ty AdventureWorks Cycles, đây là một công ty hoạt động trong lĩnh vực bán lẻ xe đạp, thị trường của công ty bao gồm nhiều khu

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

vực trên thế giới, như khu vực Bắc Mỹ, Châu Âu và cả Châu Á. Cơng ty có trụ sở chính ở Bothell, Washington với 290 nhân viên.

Kết thúc 1 năm tài chánh thành cơng, cơng ty AdventureWorks Cycles đang tìm cách mở rộng thị phần bằng cách tập trung vào các hoạt động bán hàng cho các khách hàng quan trọng nhất của họ, mở rộng thông tin sản phẩm thông qua hệ thống Website đồng thời tiết giảm chi phí bán hàng bằng cách giảm chi phí sản xuất.

3.1.2. Mô tả bộ dữ liệu Về bộ dữ liệu AdventureWorks:

Bộ dữ liệu chứa các giao dịch bán hàng của công ty từ ngày 1/7/2017 đến ngày 15/6/2020. Bộ dữ liệu chứa các dữ liệu lớn về:

- Sales Order: Chứa dữ liệu về các kênh bán hàng (Channel) của Công ty gồm: trực tiếp (Reseller), hay kênh bán hàng qua mạng (Internet); Mã đơn hàng (Sales Order) và dữ liệu chi tiết về mã các món hàng trong một đơn hàng (Sales Order Line, SalesOrderLineKey).

- Sales Territory: Chứa dữ liệu về các vùng lãnh thổ mà Công ty hoạt động gồm các cột dữ liệu về Vùng (Region), Quốc gia (Country), Nhóm (Group).

- Sales: Chứa các dữ liệu bán hàng của công ty như: Dữ liệu chi tiết các món hàng trong đơn hàng (Sales Order Line); dữ liệu bán hàng của kênh bán hàng cho đơn hàng (Reseller); Mã khách hàng (Customer); Ngày mua hàng (Order Day); Ngày đáo hạn (Due Date); Ngày giao hàng (Ship Day); Bán hàng theo vùng lãnh thổ ( Sales Territory); Số lượng bán hàng (Order Quantity); Giá trên đơn vị sản phẩm (Unit Price); Khoảng giảm giá (Unit Price Discount Pct); Tổng doanh thu đối với hóa đơn (Sales Amount).

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

- Reseller: Dữ liệu về kênh bán hàng Reseller, gồm có: ResellerID; loại danh nghiệp (Business Type); Thành phố (City); Tỉnh (State-Province); Khu vực quốc gia ( Country-Region); Mã vùng (Postal Code).

- Date: Dữ liệu về ngày; tháng năm giao dịch (Date, Month, Full Date); năm tài chính, quý tài chính (Fiscal Year, Fiscal Quarter).

- Product: Dữ liệu về mã sản phẩm (ProductKey, SKU); Thuộc tính sản phẩm (Product); Giá tiêu chuẩn (Standard Cost); Màu sắc (Color); Danh sách giá (List Price); Model; Danh mục phụ (Subcategory); Danh mục (Category).

- Customer: Dữ liệu về khách hàng như: Mã khách hàng (Customer ID); Tên khách hàng (Customer); Thành phố khách hàng sống (City); Tỉnh khách hàng sống (State-Province), Khu vực quốc gia khách hàng sống (Country-Region); Mã vùng của khách hàng (Postal Code).

Trong bài nghiên cứu này chúng tôi tập trung sử dụng các loại dữ liệu sau: Sales Order (Dữ liệu về đơn mua hàng của khách hàng với hơn 121,254 dòng dữ liệu) để tính điểm cho nhân tố Frequency, Order Date (Dữ liệu về ngày mua hàng của khách hàng, với hơn 121,254 dòng dữ liệu bắt đầu từ ngày 1/7/2017 đến ngày 15/6/2020) để tính điểm cho nhân tố Recency, Sales Amount (Tổng tiền đơn hàng của khách hàng, với hơn 121,254 dòng dữ liệu về tổng số tiền của các giao dịch, đơn vị Đô-la ($) cho nhân tố Monetary.

<small>Bảng 3. 1: Bảng mô tả dữ liệu của Sales</small>

SalesOrderLineKey Mã chi tiết các dòng sản phẩm liên quan trong mỗi

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

đơn hàng

ResellerKey Mã nhà bán lẻ của công ty Adventure Works CustomerKey Mã khách hàng

OrderDateKey Ngày đặt đơn hàng

DueDateKey Ngày đáo hạn đơn hàng của khách hàng ShipDateKey Ngày giao hàng đơn hàng của khách hàng SalesTerritoryKey Mã lãnh thổ bán hàng

Order Quantity Số lượng đơn đặt hàng Unit Price Giá trên đơn vị sản phẩm

Extended Amount <sup>Giá của số sản phẩm khách hàng mua (Giá trên đơn</sup> vị sản phẩm x số sản phẩm)

Unit Price Discount

Product Standard

Cost <sup>Chi phí tiêu chuẩn của sản phẩm</sup> Total Product Cost Tổng chi phí sản phẩm

Sales Amount Doanh thu đơn hàng

<small>Bảng 3. 2: Bảng mô tả dữ liệu của Sales Order</small>

Sales Order <sup>Mã đơn hàng</sup> Sales Order Line

Mã chi tiết các dòng sản phẩm liên quan trong mỗi

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Customer Tên khách hàng đặt đơn hàng

State-Province Bang - Tỉnh nơi khách hàng sống

Country-Region Quốc gia - Khu vực nơi khách hàng sinh sống Postal Code Mã bưu chính (mã bưu điện)

<b>3.2. Tiền xử lý dữ liệu</b>

3.2.1. Lựa chọn các thuộc tính

Nhằm kiểm chứng tính hiệu quả của phương pháp, nhóm tác giả đã tiến hành thực nghiệm trên bộ dữ liệu (dataset) của công ty bán lẻ xe đạp AdventureWorks với hơn 121,254 dòng dữ liệu giao dịch phát sinh từ ngày 01/07/2017 đến ngày 15/06/2022 cùng đầy đủ các thuộc tính cần thiết cho việc thiết lập mơ hình RFM. Ngồi ra, tập dữ liệu này đã cho thấy một số lượng không nhỏ nhà bán lẻ cũng là khách hàng của công ty.

<small>Hình 3. 2: Tập dữ liệu cơng ty AdventureWorks (Nguồn: Nhóm tác giả)</small>

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Như những gì thể hiện trên Hình 3.2, có thể thấy tập dữ liệu của công ty AdventureWorks chứa rất nhiều những thuộc tính khác nhau. Mỗi thuộc tính đều biểu hiện một giá trị dạng số hay phi số nào đó của giao dịch như đơn giá, tổng tiền, mã khách hàng, mã đơn hàng… và không phải dữ liệu nào cũng có thể giúp để thiết lập nên mơ hình RFM. Vì vậy, trước khi đi vào tính tốn các giá trị R, F, M, nghiên cứu đã tiến hành quan sát và sàng lọc để tìm ra các thuộc tính cần thiết trong bộ dữ liệu đồ sộ trên và tập trung khai thác vào các thuộc tính sau: CustomerKey (khóa khách hàng), OrderDateKey (khóa ngày đặt hàng), Sales Order (đơn đặt hàng) và Sales Amount (tổng tiền bán ra).

<small>Hình 3. 3: Chọn lọc các thuộc tính cần thiết để tính tốn giá trị R, F, M (Nguồn:Nhóm tác giả)</small>

Giải thích cho việc lựa chọn các thuộc tính này: thứ nhất, mục đích hàng đầu của nghiên cứu chính là phân khúc khách hàng (Customer Segmentation) vì vậy việc đầu tiên cần phải làm chính là định danh được từng khách hàng, do đó nghiên cứu này sẽ sử dụng CustomerKey làm khóa chính và phân tích những yếu tố xung quanh nó, mỗi một khách hàng chỉ có duy nhất một CustomerKey riêng và phân biệt với các khách hàng còn lại; thứ hai, để tính được giá trị Recency thì nhân tố khơng thể thiếu đó là OrderDateKey giúp biết được thời gian đơn hàng phát sinh nhằm xác định được số ngày kể từ thời điểm xảy ra lần giao dịch gần nhất cho đến hiện tại; thứ 3, thuộc tính Sales Order được đưa ra để tính giá trị Frequency, Frequency sẽ bằng tổng số lượt Sales Order phát sinh tương ứng với từng khách hàng riêng

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

biệt; cuối cùng nhưng không thể thiếu, để xác định được nhân tố Monetary, thuộc tính Sales Amount cần phải được đề cập để tính tốn tổng số tiền mà một khách hàng cụ thể đã bỏ ra để mua sản phẩm của công ty.

3.2.2. Làm sạch dữ liệu

Làm sạch dữ liệu là quá trình sửa hoặc xóa dữ liệu khơng chính xác, dữ liệu sai định, trùng lặp hoặc không đầy đủ trong tập dữ liệu. Khi kết hợp nhiều nguồn dữ liệu, có nhiều khả năng dữ liệu bị trùng lặp hoặc bị gán nhãn sai. Nếu dữ liệu khơng chính xác, kết quả của mơ hình sẽ bị ảnh hưởng nên việc làm sạch dữ liệu là điều vô cùng cần thiết.

Bộ dữ liệu được làm sạch bằng cách xóa những dữ liệu trùng lặp và những dữ liệu khơng liên quan. Trong q trình thu thập dữ liệu của doanh nghiệp, việc trùng lặp dữ liệu và phát sinh những dữ liệu không liên quan là điều không thể tránh khỏi. Với bộ dữ liệu ta có , cần phải đảm bảo những điều kiện sau:

- Cột dữ liệu Sales Order: kiểu dữ liệu String - Cột dữ liệu OrderDateKey: kiểu dữ liệu Số - Cột dữ liệu Amount: kiểu dữ liệu Số thập phân

Lỗi cấu trúc xảy ra khi đo lường hoặc truyền dữ liệu và nhận thấy các quy ước đặt tên lạ, lỗi chính tả hoặc viết hoa khơng chính xác. Ở bước này cần đảm bảo một số điều kiện sau:

- Thuộc tính Sales Order - gồm chữ viết hoa và số - Thuộc tính OrderDateKey - độ dài chuỗi bằng 8 Xem xét các giá trị ngoại lệ: Với dữ liệu đã được tùy chọn thuộc tính, thuộc tính SalesAmount là trường dữ liệu định lượng có thể tìm ẩn những giá trị ngoại lai khơng phù hợp. Vì vậy có thể xem xét trường dữ liệu này qua các trị số thống kê mơ tả và sơ đồ boxplot.

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

<small>Hình 3. 4: Thống kê mơ tả thuộc tính Sales Amount (Nguồn: Nhóm tác giả)</small>

Một số điểm dữ liệu có giá trị lớn hơn 3000 có mức độ chênh lệch khá lớn. Tuy nhiên các giá trị này có ý nghĩa phù hợp với giá trị sản phẩm và số lượng mua của khách hàng. Vì vậy các giá trị này nên được giữ lại nhưng cần thảo luận riêng đối với kết quả phân cụm liên quan đến các giá trị ngoại lai này.

Xử lý dữ liệu bị thiếu

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

<small>Hình 3. 5: Số giá trị bị thiếu của từng thuộc tính (Nguồn: Nhóm tác giả)</small>

Tùy theo hiểu biết về bộ dữ liệu và tỉ trọng của lượng dữ liệu bị thiếu so với tổng thể, có thể loại bỏ hoặc thay thế dữ liệu bị thiếu để đảm bảo độ chính xác của dữ liệu. Với bộ dữ liệu hiện có, thuộc tính đã được hồn chỉnh và các điểm dữ liệu không bị thiếu.

3.2.3. Biến đổi dữ liệu

Sau khi đã thu thập, sàng lọc và làm sạch đầy đủ các dữ liệu cần thiết, ở bước tiếp theo, nhóm tác giả sẽ tiến hành chuyển hóa dữ liệu (Data Transformation).

Chuyển hóa dữ liệu là q trình biến đổi hình thức, cấu trúc hoặc giá trị của dữ liệu nhằm tổ chức dữ liệu một cách trực quan, hiệu quả hơn. Bước này giúp tạo nên một tập dữ liệu dễ dàng sử dụng hơn đối với cả con người lẫn máy tính vì nó chứa đủ các thuộc tính, dữ liệu cần thiết cho việc phân tích, khơng thừa, khơng thiếu. Từ đó, trong q trình phân tích sẽ giúp hạn chế tối đa vấn đề bị nhiễu thông tin do thừa dữ liệu hoặc thiếu hụt thông tin dẫn tới việc không thể tính tốn hoặc tính tốn ra các giá trị một cách kém chính xác và thiếu hiệu quả. Khi nói đến việc chuyển hóa dữ liệu trong quy trình thiết lập mơ hình RFM ở bài báo này, nghĩa là nói về việc tính tốn các giá trị Recency, Frequency và Monetary dựa trên những dữ liệu đã có.

Recency là khoảng thời gian (ngày) tính từ lần giao dịch gần nhất mà khách hàng phát sinh đối với cơng ty vì vậy thuộc tính phù hợp cho

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

việc tính tốn giá trị này sẽ là OrderDateKey. Trước khi đi vào xác định R, nhóm tác giả thực hiện định dạng lại cột dữ liệu OrderDateKey sang hình thức “Year-Month-Day” và gộp các CustomerKey trùng lặp lại với nhau để tính tốn theo từng khách hàng. Tiếp đến, mốc thời gian được xác định trong bài báo là ngày mua gần nhất của tập dữ liệu, sau đó dùng mốc trừ đi ngày mua hàng gần nhất của từng khách hàng (là giá trị Max của cột OrderDateKey) để cho ra được giá trị Recency tương ứng như trong Hình 3. 6.

<small>Hình 3. 6: Giá trị Recency (Nguồn: Nhóm tác giả)</small>

Frequency - Tần suất mua hàng của khách hàng là chỉ số cần xác định tiếp theo. Chỉ số này thường được các doanh nghiệp có dịch vụ, sản phẩm có giá trị lợi nhuận thấp quan tâm, vì họ chỉ có thể tồn tại nếu khách hàng sử dụng dịch vụ của họ một cách thường xuyên, VD: đặt xe Grab, mua một chai nước uống…. Giá trị Frequency chính là số lần mua hàng của khách hàng, giá trị này được đưa ra dựa trên việc đếm số lượng Sales Order mà một khách hàng (tương ứng với một CustomerKey) tạo ra.

</div>

×