Tải bản đầy đủ (.pdf) (117 trang)

Nghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây Ninh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.94 MB, 117 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2024

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. HUỲNH TRỌNG THƯA </b>

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2024

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>LỜI CAM ĐOAN </b>

<i><b>Tôi cam đoan rằng đề án tốt nghiệp thạc sĩ: “NGHIÊN CỨU XÂY DỰNG </b></i>

<i><b>MƠ HÌNH ENSEMBLE LEARNING ĐỂ DỰ BÁO KHÁCH HÀNG RỜI MẠNG TẠI VNPT TÂY NINH” là cơng trình nghiên cứu của chính tơi. </b></i>

Tơi cam đoan các số liệu, kết quả nêu trong đề án là trung thực và chưa từng được ai công bố trong bất kỳ cơng trình nào khác.

Khơng có sản phẩm/nghiên cứu nào của người khác được sử dụng trong đề án này mà khơng được trích dẫn theo đúng quy định.

TP. Hồ Chí Minh, ngày 14 tháng 05 năm 2024

<b>Học viên thực hiện đề án </b>

<b>Nguyễn Trọng Thảo </b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CẢM ƠN </b>

Trong suốt quá trình học tập và nghiên cứu thực hiện đề án tốt nghiệp thạc sĩ, ngoài nỗ lực của bản thân, tôi đã nhận được sự hướng dẫn nhiệt tình q báu của q Thầy Cơ, cùng với sự động viên và ủng hộ của gia đình, bạn bè và đồng nghiệp. Với lịng kính trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơn chân thành tới:

Ban Giám Đốc, Phòng đào tạo sau đại học và quý Thầy Cô đã tạo mọi điều kiện thuận lợi giúp tơi hồn thành đề án.

Tôi xin chân thành cảm ơn Thầy TS. Huỳnh Trọng Thưa, người thầy kính u đã hết lịng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tôi trong suốt q trình thực hiện và hồn thành đề án tốt nghiệp thạc sĩ.

Tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp trong cơ quan đã động viên, hỗ trợ tơi trong lúc khó khăn để tơi có thể học tập và hồn thành đề án. Mặc dù đã có nhiều cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên cứu khoa học cịn hạn chế nên khơng thể tránh khỏi những thiếu sót. Tơi rất mong nhận được sự góp ý của quý Thầy Cô cùng bạn bè đồng nghiệp để kiến thức của tơi ngày một hồn thiện hơn.

Xin chân thành cảm ơn!

TP. Hồ Chí Minh, ngày 14 tháng 05 năm 2024

<b>Học viên thực hiện đề án </b>

<b> Nguyễn Trọng Thảo </b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Hình 3. 1 Phân bố ngành nghề và loại khách hàng trong tập dữ liệu ... 31

Hình 3. 2 Phân bố phân loại khách hàng theo doanh thu và mạng khác trong tập dữ liệu .. 32

Hình 3. 3 Phân bố trả trước và không phát sinh lưu lượng trong tập dữ liệu ... 33

Hình 3. 4 Phân bố trạng thái thuê bao và gói sử dụng tích hợp trong tập dữ liệu ... 34

Hình 3. 5 Phân bố giá cước trong tập dữ liệu ... 35

Hình 3. 6 Phân bố tuổi của thuê bao (tháng) trong tập dữ liệu ... 36

Hình 3. 7 Phân bố số dịch vụ khác trong tập dữ liệu ... 36

Hình 3. 8 Phân bố nợ cước 2 tháng trong tập dữ liệu ... 37

Hình 3. 9 Phân bố số tháng sử dụng trong tập dữ liệu ... 37

Hình 3. 10 Phân bố số lần gia hạn trong tập dữ liệu ... 38

Hình 3. 11 Phân bố số lần báo hỏng trong tập dữ liệu ... 38

Hình 3. 12 Ma trận tương quan các tham số của bộ dữ liệu sau xử lý... 44

Hình 3. 13 Ma trận Scatter các tham số của bộ dữ liệu sau xử lý ... 45

Hình 4. 1 Cấu hình mơ hình Baseline ... 50

Hình 4. 2 Cấu hình mơ hình Logistic Regression thơng thường ... 51

Hình 4. 3 Cấu hình mơ hình Logistic Regression hiệu chỉnh tham số ... 52

Hình 4. 4 Cấu hình mơ hình k-Nearest Neighbor Classifier thơng thường ... 53

Hình 4. 5 Error Rate vs K-Value theo UNIFORM của mơ hình kNN thơng thường ... 54

Hình 4. 6 Error Rate vs K Value theo DISTANCE của mơ hình kNN thơng thường ... 54

Hình 4. 7 Cấu hình mơ hình k-Nearest Neighbor Classifier có hiệu chỉnh tham số ... 55

Hình 4. 8 Cấu hình mơ hình Naive Bayes Classifier ... 56

Hình 4. 9 Cấu hình mơ hình Naive Bayes kết hợp Oversampling ... 57

Hình 4. 10 Cấu hình mơ hình Logistic Regression kết hợp Oversampling ... 58

Hình 4. 11 Cấu hình mơ hình Decision Tree Classifier ... 59

Hình 4. 12 Cấu hình mơ hình Decision Tree hiệu chỉnh chiều cao ... 60

Hình 4. 13 Mơ hình Decision Tree sau khi giảm chiều cao ... 61

Hình 4. 14 Cấu hình mơ hình Bagging Classifier ... 61

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<i>Hình 4. 15 Cấu hình mơ hình AdaBoost Classifier ... 62 </i>

Hình 4. 16 Cấu hình mơ hình Gradient Boosting Classifier ... 63

Hình 4. 17 Cấu hình mơ hình AdaBoost kết hợp Oversampling ... 64

Hình 4. 18 Cấu hình mơ hình Random Forest Classifier ... 65

Hình 4. 19 Cấu hình mơ hình Random Forest có hiệu chỉnh tham số ... 66

Hình 4. 20 Cấu hình mơ hình Random Forest kết hợp oversample ... 67

Hình 4. 21 Cấu hình mơ hình Random Forest kết hợp oversample và giảm chiều cao ... 68

Hình 4. 22 Mơ hình Random Forest sau khi giảm chiều cao kết hợp với Oversampling .... 69

Hình 4. 23 Ma trận Heatmap thể hiện các chỉ số của mơ hình kết hợp ... 70

Hình 4. 24 Biểu đồ Accuracy của các mơ hình ... 71

Hình 4. 25 Biểu đồ Precision Churn của các mơ hình ... 72

Hình 4. 26 Biểu đồ Precision Not Churn của các mơ hình ... 72

Hình 4. 27 Biểu đồ Recall Churn của các mơ hình ... 73

Hình 4. 28 Biểu đồ Recall Not Churn của các mơ hình... 74

Hình 4. 29 Biểu đồ F1 Churn của các mơ hình ... 74

Hình 4. 30 Biểu đồ F1 Not Churn của các mơ hình ... 75

Hình 4. 31 Xây dựng mơ hình kết hợp Meta-Model đề xuất ... 82

Hình 4. 32 Mơ hình kết hợp Meta-Model đề xuất ... 84

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>DANH SÁCH BẢNG </b>

Bảng 3. 1 Cột dữ liệu trong tập dữ liệu thu thập được... 26

Bảng 3. 2 Thống kê mô tả tập dữ liệu thu thập được ... 29

Bảng 3. 3 Thống kê mô tả tập dữ liệu thu sau khi xử lý ... 41

Bảng 3. 4 Hệ số tương quan của các biến sau khi xử lý ... 46

Bảng 4. 1 Kết quả thực nghiệm của mơ hình Baseline ... 50

Bảng 4. 2 Kết quả thực nghiệm của mô hình Logistic Regression thơng thường ... 51

Bảng 4. 3 Kết quả thực nghiệm của mơ hình Logistic Regression hiệu chỉnh tham số ... 52

Bảng 4. 4 Kết quả thực nghiệm của mơ hình k-Nearest Neighbor Classifier thơng thường53Bảng 4. 5 Kết quả thực nghiệm của mơ hình k-Nearest Neighbor Classifier có hiệu chỉnh tham số ... 55

Bảng 4. 6 Kết quả thực nghiệm của mơ hình Naive Bayes Classifier ... 56

Bảng 4. 7 Kết quả thực nghiệm của mơ hình Naive Bayes kết hợp Oversampling ... 57

Bảng 4. 8 Kết quả thực nghiệm của mơ hình Logistic Regression kết hợp Oversampling . 58Bảng 4. 9 Kết quả thực nghiệm của mơ hình Decision Tree Classifier ... 59

Bảng 4. 10 Kết quả thực nghiệm của mơ hình Decision Tree hiệu chỉnh chiều cao ... 60

Bảng 4. 11 Kết quả thực nghiệm của mơ hình Bagging Classifier ... 61

Bảng 4. 12 Kết quả thực nghiệm của mơ hình AdaBoost Classifier ... 62

Bảng 4. 13 Kết quả thực nghiệm của mơ hình Gradient Boosting Classifier ... 63

Bảng 4. 14 Kết quả thực nghiệm của mơ hình AdaBoost kết hợp Oversampling ... 64

Bảng 4. 15 Kết quả thực nghiệm của mơ hình Random Forest Classifier ... 65

Bảng 4. 16 Kết quả thực nghiệm của mơ hình Random Forest có hiệu chỉnh tham số ... 66

Bảng 4. 17 Kết quả thực nghiệm của mơ hình Random Forest kết hợp oversample ... 67

Bảng 4. 18 Kết quả thực nghiệm của mơ hình Random Forest kết hợp oversample và giảm chiều cao ... 68

Bảng 4. 19 Kết quả thực nghiệm của các mơ hình với các tập khách hàng nhóm A, nhóm B, nhóm C và nhóm D ... 83

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT </b>

<b>VIẾT TẮT NGHĨA TIẾNG ANH NGHĨA TIẾNG VIỆT </b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

1. Tính cấp thiết của đề tài ... 1

2. Mục tiêu nghiên cứu... 1

3. Đối tượng và phạm vi nghiên cứu ... 2

4.1 Đối tượng nghiên cứu ... 2

4.2 Phạm vi nghiên cứu ... 2

4. Phương pháp nghiên cứu... 3

4.1 Phương pháp nghiên cứu lý thuyết ... 3

4.2 Phương pháp nghiên cứu thực nghiệm ... 3

5. Ý nghĩa và đóng góp của đề tài ... 3

6. Bố cục đề án ... 4

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU ... 5

1.1 Tổng quan về mạng viễn thông và thuê bao... 5

1.2 Tổng quan về hiện trạng thuê bao rời mạng viễn thông ... 8

1.3 Tổng quan dữ liệu lớn về khách hàng mạng viễn thơng ... 10

1.4 Tổng quan về mơ hình dự báo học kết hợp ... 11

CHƯƠNG 2: CÁC CƠNG TRÌNH LIÊN QUAN ... 16

2.1. Các cơng trình liên quan trên thế giới ... 16

2.2. Các cơng trình liên quan ở Việt Nam ... 24

CHƯƠNG 3: TẬP DỮ LIỆU NGHIÊN CỨU ... 26

3.1. Giới thiệu về tập dữ liệu khách hàng rời mạng viễn thông ... 26

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

3.2. Phân tích tập dữ liệu khách hàng rời mạng viễn thơng ... 30

3.3. Tiền xử lý tập dữ liệu khách hàng rời mạng viễn thơng ... 38

CHƯƠNG 4: MƠ HÌNH HỌC KẾT HỢP ĐỀ XUẤT ... 48

4.1. Mơi trường mơ phỏng thực nghiệm ... 48

4.2. Thực nghiệm huấn luyện mơ hình học kết hợp ... 49

4.2.1 Mơ hình Baseline ... 50

4.2.2 Nhĩm mơ hình Logistic Regression, kNN và Nạve Bayes ... 51

4.2.3 Mơ hình học kết hợp Decision Tree Classifier ... 59

4.2.4 Mơ hình học kết hợp Bagging, AdaBoost và GB ... 61

4.2.5 Mơ hình học kết hợp Random Forest Classifier ... 64

4.3. Đánh giá kết quả huấn luyện mơ hình học kết hợp ... 70

4.3.1 Kết quả các mơ hình học kết hợp ... 70

4.3.2 So sánh với kết quả Telco Customer Churn ... 76

4.3.3 So sánh với đề án rời mạng của tác giả Nguyễn Đức Trung ... 79

4.4. Mơ hình học kết hợp đề xuất Meta-Model ... 82

CHƯƠNG 5: XÂY DỰNG ỨNG DỤNG DỰ BÁO KHÁCH HÀNG RỜI MẠNG VỚI TẬP DỮ LIỆU Ở VNPT TÂY NINH ... 86

3. Vấn đề kiến nghị và hướng đi tiếp theo của nghiên cứu:... 93

TÀI LIỆU THAM KHẢO ... 96

PHỤ LỤC ... 100

PL1. Phân bổ của dữ liệu thực nghiệm theo các trường ... 100

PL2. Baseline Model ... 100

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

PL3. Logistic Regression without Hyperparameter Tuning ... 101

PL4. Logistic Regression with Hyperparameter Tuning ... 102

PL5. k-Nearest Neighbor Scaled Without Hyperparameter Tuning... 103

PL6. k-Nearest Neighbor Scaled With Hyperparameter Tuning ... 104

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>PHẦN MỞ ĐẦU </b>

<b>1. Tính cấp thiết của đề tài </b>

Trong bối cảnh thế giới hội nhập và phát triển mạnh mẽ về công nghệ, ngành viễn thông đang trở thành trung tâm của sự chuyển đổi số, và Việt Nam - một quốc gia đang phát triển - có tất cả tiềm năng để trở thành một nguồn lực lớn trong lĩnh vực này. Đối mặt với sự cạnh tranh gay gắt, các doanh nghiệp viễn thông, nhất là VNPT, luôn đặt việc giữ chân và duy trì lượng khách hàng làm mục tiêu hàng đầu. Tuy nhiên, việc dự báo và phân tích hành vi rời mạng của khách hàng thường được thực hiện bằng phương pháp thủ công, tiêu tốn nhiều thời gian và khơng đảm bảo độ chính xác. Để tăng cường hiệu quả và chính xác trong việc dự báo hành vi của khách hàng, việc áp dụng các phương pháp hiện đại và tiên tiến như Mơ hình học kết hợp (Ensemble Learning) trở nên vơ cùng cần thiết. Bởi vậy, nghiên cứu này sẽ tập trung vào việc ứng dụng Mơ hình học kết hợp để dự báo khách hàng rời mạng tại VNPT Tây Ninh.

Đề tài như sau:

<i>Tên tiếng Việt </i>

<i><b>Nghiên cứu xây dựng mơ hình Ensemble Learning để dự báo khách hàng rời mạng </b></i>

tại VNPT Tây Ninh.

<i>Tên tiếng Anh </i>

Research on Ensemble Learning model to predict churn customer at VNPT Tay Ninh

<b>2. Mục tiêu nghiên cứu </b>

<i>Mục tiêu nghiên cứu chính là xây dựng mơ hình học kết hợp dự báo khách hàng rời mạng viễn thông dựa trên tập dữ liệu khách hàng. Các mục tiêu cụ thể như </i>

sau:

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

 Nghiên cứu phân tích tập dữ liệu khách hàng rời mạng viễn thông mẫu trên Kaggle<small>1</small> và tập dữ liệu khách hàng sử dụng mạng viễn thông được thu thập tại VNPT, phân tích các đặc trưng chính trong tập dữ liệu nhằm xây dựng mơ hình dự báo phù hợp.

 Lựa chọn thuật tốn và các mơ hình học máy phù hợp với bộ dữ liệu và kỹ thuật học kết hợp, đề xuất mơ hình meta-model phù hợp. Thơng qua mơ hình, xác định các yếu tố có ảnh hưởng nhiều nhất đến kết quả khách hàng rời mạng, hay tiếp tục sử dụng dịch vụ. Phân tích sự ảnh hưởng của các yếu tố đó như thế nào đến kết quả khách hàng rời mạng hay không rời mạng. Xác định đâu là yếu tố quyết định ảnh hưởng nhất đến việc thuê bao rời mạng.

 Đánh giá độ chính xác và khả năng áp dụng của mơ hình đề xuất dự báo khả năng rời mạng viễn thông của khách hàng.

viễn thông tại VNPT Tây Ninh.

<b>3. Đối tượng và phạm vi nghiên cứu 4.1 Đối tượng nghiên cứu </b>

Đối tượng nghiên cứu:

 Đối tượng nghiên cứu chính là tập dữ liệu khách hàng rời mạng viễn thông.

 Các đối tượng nghiên cứu khác: mơ hình học kết hợp, các mơ hình học máy cụ thể và các kỹ thuật kết hợp các mơ hình để tạo ra mơ hình meta-model, các phương pháp đánh giá tương ứng.

<b>4.2 Phạm vi nghiên cứu </b>

Phạm vi nghiên cứu:

<small>1</small> class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

 Tập dữ liệu khách hàng rời mạng viễn thông mẫu trên Kaggle và tập dữ liệu khách hàng sử dụng mạng viễn thông được thu thập tại VNPT từ 2010 đến 2022.

 Nghiên cứu các thuật toán học máy phù hợp với mơ hình học kết hợp.

<b>4. Phương pháp nghiên cứu </b>

<b>4.1 Phương pháp nghiên cứu lý thuyết </b>

 Thu thập và nghiên cứu tài liệu về các nghiên cứu đã thực hiện trên thế giới và Việt Nam về vấn đề nhận diện và dự báo khách hàng rời mạng viễn thông. Phân tích, lựa chọn giải pháp và hiện thực thử nghiệm. Đánh giá kết quả và hiệu chỉnh nếu có.

hợp.

<b>4.2 Phương pháp nghiên cứu thực nghiệm </b>

 Thực nghiệm các mơ hình tương tự trên tập dữ liệu nghiên cứu để đánh giá sự phù hợp; xây dựng ứng dụng dựa trên mơ hình đề xuất; cài đặt thử nghiệm mơ hình, đánh giá các kết quả đạt được; công bố kết quả nghiên cứu.

<b>5. Ý nghĩa và đóng góp của đề tài </b>

Đề tài này mang lại nhiều ý nghĩa và đóng góp quan trọng trong lĩnh vực viễn thông và quản lý khách hàng, cụ thể như sau:

 <i>Nâng cao hiệu suất kinh doanh: Việc dự báo và phân tích hành vi rời mạng </i>

của khách hàng giúp các doanh nghiệp viễn thông như VNPT có thể áp dụng các biện pháp phù hợp để giữ chân khách hàng và tăng cường doanh số. Việc sử dụng mơ hình Ensemble Learning giúp cải thiện hiệu suất dự báo và quản lý khách hàng hơn.

 <i>Tiết kiệm thời gian và chi phí: Phương pháp thủ công trong việc dự báo hành </i>

vi của khách hàng thường tốn nhiều thời gian và không đảm bảo độ chính xác.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Việc áp dụng mơ hình học kết hợp giúp tự động hóa q trình này, tiết kiệm thời gian và chi phí cho doanh nghiệp.

 <i>Nâng cao sự cạnh tranh: Trong một thị trường cạnh tranh gay gắt như ngành </i>

viễn thông, khả năng dự báo và duy trì lượng khách hàng là yếu tố quyết định sự thành công của một doanh nghiệp. Việc áp dụng các phương pháp hiện đại như Ensemble Learning giúp tăng cường khả năng cạnh tranh của VNPT và các doanh nghiệp viễn thông khác.

 <i>Đóng góp kiến thức và kỹ thuật: Nghiên cứu này không chỉ mang lại kết quả </i>

về việc dự báo khách hàng rời mạng mà cịn đóng góp vào việc phát triển và áp dụng các phương pháp học máy tiên tiến trong lĩnh vực quản lý khách hàng và dự báo thị trường.

<b>6. Bố cục đề án </b>

Bên cạnh phần mở đầu, phần kết luận và phần tài liệu tham khào, phần nội dung chính của bài nghiên cứu được chia thành 3 chương chính như sau:

Chương 1: Tổng quan đề tài

Chương 2: Các công trình liên quan Chương 3: Thuật tốn đề xuất

Chương 4: Mơ hình học kết hợp đề xuất

Chương 5: Xây dựng ứng dụng dự báo khách hàng rời mạng với tập dữ liệu ở VNPT tây ninh

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU </b>

<b>1.1 Tổng quan về mạng viễn thông và thuê bao </b>

Mạng viễn thông, theo Robert K. Morrow trong tác phẩm của ông trên Encyclopaedia Britannica (2023), là một hệ thống điện tử bao gồm các liên kết và công tắc, cùng với các điều khiển điều hành hoạt động của chúng, cho phép trao đổi và chuyển dữ liệu giữa nhiều người dùng. Khi nhiều người dùng của các phương tiện viễn thông muốn giao tiếp với nhau, họ phải được tổ chức thành một dạng mạng nào đó. Trong lý thuyết, mỗi người dùng có thể được cung cấp một liên kết trực tiếp từng điểm với tất cả người dùng khác trong một cấu trúc được gọi là kết nối đầy đủ (tương tự như những kết nối được sử dụng trong những ngày đầu của điện thoại), nhưng trên thực tế, phương pháp này là không thực tế và tốn kém - đặc biệt là đối với một mạng lớn và phân tán. Hơn nữa, phương pháp này khơng hiệu quả, vì hầu hết các liên kết sẽ không hoạt động vào bất kỳ thời điểm nào. Các mạng viễn thông hiện đại tránh những vấn đề này bằng cách thiết lập một mạng liên kết của các công tắc, hoặc nút, sao cho mỗi người dùng được kết nối với một trong những nút. Mỗi liên kết trong mạng như vậy được gọi là một kênh truyền thơng. Dây, cáp quang và sóng radio có thể được sử dụng cho các kênh truyền thông khác nhau.

Bài viết "Top 6 công ty lĩnh vực viễn thông hàng đầu tại Việt Nam" của JobsGo, xuất bản năm 2023 đánh giá Mạng viễn thông là một trong những lĩnh vực quan trọng và phát triển nhanh chóng ở Việt Nam. Nó bao gồm các dịch vụ như điện thoại, internet, truyền hình, bưu chính, cơng nghệ số, nội dung số, vệ tinh,… Mạng viễn thơng góp phần nâng cao chất lượng cuộc sống, thúc đẩy kinh tế, giáo dục, y tế, văn hóa, an ninh và quốc phòng của đất nước Theo thống kê của Bộ Thông tin và Truyền thông, đến cuối năm 2022, Việt Nam có khoảng 140 triệu thuê bao di động, chiếm 143% dân số, và 16,3 triệu thuê bao cố định, chiếm 16,7% dân số. Ngoài ra, Việt Nam cũng có 68,5 triệu thuê bao internet, chiếm 70,3% dân số, và 14,5 triệu thuê bao truyền hình, chiếm 14,9% dân số. Đây là những con số ấn tượng, cho thấy sự phổ biến và tiềm năng của mạng viễn thông ở Việt Nam.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Trong lĩnh vực này, có rất nhiều các cơng ty hoạt động, cạnh tranh và đóng góp cho sự phát triển của ngành. Trong số đó, có 6 cơng ty lớn và nổi tiếng nhất, là Viettel, Mobifone, VNPT, FPT, SPT và HanoiTelecom. Các cơng ty này đều có quy mơ lớn, doanh thu cao, dịch vụ đa dạng, chất lượng tốt và uy tín trên thị trường. Các cơng ty này cũng là những môi trường làm việc lý tưởng cho nhiều người lao động, với nhiều cơ hội thăng tiến, học hỏi và phát triển. Viettel là công ty viễn thơng lớn nhất Việt Nam [1], thuộc Tập đồn cơng nghiệp – viễn thơng Qn đội. Viettel có mặt tại 63 tỉnh thành và 11 quốc gia, với hơn 110 triệu thuê bao. Viettel cũng là công ty viễn thơng duy nhất của Việt Nam có tên trong top 40 doanh nghiệp lớn nhất thế giới về số thuê bao và top 500 tập đoàn lớn nhất thế giới. Mobifone là công ty viễn thông thứ hai lớn nhất Việt Nam, thuộc Tổng công ty Viễn thông Mobifone. Mobifone có 9 cơng ty dịch vụ và 20 phịng ban, phủ sóng trên tồn quốc, với hơn 50 triệu th bao. Mobifone là công ty viễn thông đầu tiên của Việt Nam triển khai dịch vụ 3G và 4G, cung cấp các dịch vụ giải trí, thanh tốn, chăm sóc sức khỏe, v.v.

VNPT là Tập đoàn Bưu chính Viễn thơng Việt Nam, thuộc Bộ Thông tin và Truyền thơng [1]. VNPT có 2 thương hiệu lớn là Vinaphone và MobiFone, với hơn 80 triệu thuê bao. VNPT cũng là đơn vị duy nhất của Việt Nam sở hữu và vận hành 2 vệ tinh lớn nhất là Vinasat 1 và 2. FPT là Tập đoàn Công nghệ FPT, là công ty công nghệ hàng đầu Việt Nam [1]. FPT có hơn 200 văn phịng và 7 nghìn nhân viên, hoạt động tại 33 quốc gia, với doanh thu hơn 2 tỷ USD [1]. FPT cung cấp các dịch vụ viễn thông, công nghệ thông tin, giáo dục, truyền thông, v.v. SPT là Công ty CP Dịch vụ Bưu chính Viễn thơng Sài Gịn, thành lập năm 1995. SPT có nhiều chi nhánh và văn phịng trên cả nước, cung cấp các dịch vụ như chuyển phát, internet, bưu chính, cơng nghệ số, nội dung số, v.v. HanoiTelecom là Công ty CP Viễn thông Hà Nội, thành lập năm 2001. HanoiTelecom có 16 cơng ty và đơn vị thành viên, nổi bật với đường truyền viba số băng sơng SDH trên 4 nghìn km. HanoiTelecom cung cấp các dịch vụ như điện thoại, internet, truyền hình, ….

Trong “Báo cáo ngành viễn thông Việt Nam 2020 và dự báo 2021” Việt Nam [2] đã đạt được những bước tiến lớn trong ngành viễn thông, bao gồm việc sản xuất 70%

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

các thiết bị viễn thông và hướng tới mục tiêu trở thành quốc gia dẫn đầu về sản xuất và xuất khẩu thiết bị viễn thông. Sự phát triển của mạng 3G từ năm 2009 và mạng 4G từ năm 2016, cũng như việc thử nghiệm mạng 5G từ năm 2019, đã đưa Việt Nam trở thành một trong những quốc gia triển khai 5G sớm nhất trên thế giới. Điều này phản ánh sự tăng trưởng và đổi mới liên tục trong ngành viễn thông Việt Nam. Thị trường viễn thông truyền thống đang bão hòa, nhưng vẫn có tiềm năng đầu tư từ doanh nghiệp nước ngoài vào các lĩnh vực chưa phát triển tại Việt Nam. Mặc khác, thị trường Internet băng thông rộng cố định tại Việt Nam đang có những bước phát triển vượt bậc, với số lượng thuê bao tăng mạnh. Chính phủ Việt Nam đã ban hành “Chương trình chuyển đổi số quốc gia”, nhấn mạnh vai trò quan trọng của hạ tầng số trong quá trình này và mục tiêu phổ cập dịch vụ mạng internet băng thông rộng cáp quang tới toàn dân Tuy nhiên, năm 2021 chứng kiến sự suy giảm trong lợi nhuận của các doanh nghiệp viễn thông, giảm 22,8% so với năm 2020. Điều này phản ánh sự thay đổi trong mơ hình kinh doanh và cách tiếp cận thị trường của các doanh nghiệp trong ngành. Thị trường viễn thông truyền thống tại Việt Nam được đánh giá là đã bão hòa, với số lượng thuê bao di động đạt khoảng 125.7 triệu vào năm 2019, tức là trung bình mỗi người dân sở hữu khoảng 1.30 thuê bao di động.

Trang "Wireless Telecommunications" là một phần của "Telecommunications Industry: A Research Guide" do Thư viện Quốc hội Hoa Kỳ cung cấp thì về cơ bản, mạng viễn thông bao gồm hệ thống các thiết bị kết nối với nhau qua hệ thống trung gian để cho phép truyền thông giữa các thiết bị đầu cuối. Các thiết bị cơ bản trong mạng viễn thông bao gồm modem, router, và switch chia mạng. Modem chuyển đổi tín hiệu từ analog sang digital để các thiết bị điện tử có thể hiểu được, trong khi router là công cụ chia một dây mạng ra nhiều cổng khác nhau và switch chia mạng giúp định tuyến dữ liệu giữa các thiết bị trong mạng.

Mạng viễn thông là một ngành quan trọng và phát triển mạnh ở Việt Nam, với nhiều công ty lớn và uy tín, cung cấp các dịch vụ đa dạng và chất lượng cho người dùng. Các công ty này cũng là những nơi làm việc tốt cho nhiều người lao động, mang lại thu nhập và phúc lợi cao. Ngành viễn thông Việt Nam đang chứng kiến sự thay

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

đổi nhanh chóng, với cơ hội và thách thức mới mẻ. Sự phát triển của công nghệ và thay đổi trong nhu cầu của người dùng sẽ tiếp tục hình thành tương lai của ngành này.

<b>1.2 Tổng quan về hiện trạng thuê bao rời mạng viễn thông </b>

VNPT, tên đầy đủ là Viễn thông Việt Nam [3], từ lâu đã được biết đến là một trong những "gã khổng lồ" trong ngành viễn thông tại Việt Nam. Đặc biệt, VNPT tự hào khi trở thành nhà cung cấp dịch vụ viễn thông đầu tiên trên bộ đất hình chữ S này, bắt đầu gia nhập cuộc chơi từ cuối năm 1997. Những bước đi vững chắc và chiến lược phát triển sáng suốt đã giúp VNPT khơng chỉ mở rộng thị phần mà cịn đứng vững trước sự cạnh tranh khốc liệt, đặc biệt là trong lĩnh vực cung cấp dịch vụ Internet tốc độ cao.

Tuy nhiên, khơng có bất cứ một lĩnh vực kinh doanh nào luôn suôn sẻ, và VNPT cũng không ngoại lệ. Gặp phải thách thức từ việc các nhà cung cấp khác liên tục tung ra các chương trình khuyến mãi hấp dẫn và đợt giảm giá sâu, VNPT đứng trước nguy cơ mất đi một lượng lớn khách hàng, khi họ quyết định chuyển sang các nhà cung cấp khác hứa hẹn giá rẻ hơn và dịch vụ tốt hơn. Hậu quả của việc này khơng chỉ ảnh hưởng đến doanh thu mà cịn gây khó khăn trong việc thu hồi vốn đầu tư.

Để tiếp cận và phát triển một khách hàng mới, VNPT phải chi trả một khoản đầu tư lớn, lên đến gần 3 triệu đồng, bao gồm chi phí phát triển khách hàng, đầu tư vào hệ thống cũng như các thiết bị đầu cuối. Trong bối cảnh đó, chỉ số ARPU (Average Revenue Per User) - thu nhập trung bình từ mỗi người dùng - của họ chỉ đạt 180.000 đồng và vòng đời trung bình của mỗi khách hàng chỉ kéo dài khoảng 20 tháng. Điều này nghĩa là mỗi khi một khách hàng quyết định rời mạng, VNPT chỉ có thể thu về được số vốn ban đầu mà không kèm theo bất cứ lợi nhuận nào. Khi đưa vào tình huống có hàng trăm ngàn khách hàng rời mạng hàng năm, mức thiệt hại mà VNPT phải chịu sẽ không nhỏ.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<b>Hình 1. 1 Tỉ trọng số lượng thuê bao chuyển mạng giữa các nhà mạng tháng 10 năm 2022, </b>

nguồn Bộ TT & TT [3].

<b>Hình 1. 2 Số lượng thuê bao chuyển mạng giữa các nhà mạng tháng 11 năm 2022, nguồn </b>

Bộ TT & TT.

<small>MobifoneVinaphoneViettelVietnam MobileMobicast</small>

<b><small>Dịch chuyển thuê bao giữa các nhà mạng tháng 11/2022</small></b>

<small>Chuyển đếnChuyển điBiến động thuê bao</small>

<small>(Thuêbao)</small>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>Hình 1. 3 Số lượng thuê bao từ chối chuyển mạng giữa các nhà mạng tháng 11 năm 2022, </b>

nguồn Bộ TT & TT.

<b>1.3 Tổng quan dữ liệu lớn về khách hàng mạng viễn thông </b>

Theo thống kê từ Cục Viễn thông thuộc Bộ Thông tin và Truyền thông [4], vào cuối năm 2021, Việt Nam đã ghi nhận 91,3 triệu thuê bao di động sử dụng smartphone. Chỉ trong vòng ba tháng đầu năm 2022, con số này đã tăng thêm hơn 2 triệu, đưa tổng số thuê bao smartphone tại Việt Nam lên tới 93,5 triệu. Cục Viễn thông ước tính rằng, khoảng 73,5% người trưởng thành tại Việt Nam hiện đang sử dụng smartphone.

<i>Báo cáo cập nhật năm 2022 [5] “Digital Payment Users in Vietnam 2017 - </i>

<i>2025” của Statista tiết lộ rằng, đến hết năm 2021, Việt Nam đã có khoảng 51,8 triệu </i>

người dùng thương mại điện tử. Trong khi đó, nhà sản xuất thiết bị mạng nổi tiếng Cisco dự đoán rằng, với mức giá phải trả hợp lý và sự đa dạng, linh hoạt của các gói cước, cùng với chất lượng Internet ngày càng tốt hơn và khả năng sản xuất thiết bị 5G trong nước, số lượng thuê bao 5G tại Việt Nam có thể lên tới 6,3 triệu vào năm 2025. Điều này không chỉ giúp Việt Nam trở thành một trong những quốc gia có mức giá Internet rẻ nhất và phủ sóng rộng rãi trên thế giới, mà cịn đưa nước ta lên vị trí thứ hai tại Đơng Nam Á về tốc độ Internet di động.

<small>40210138</small> <sup>227562</sup> <sub>181297</sub>

<small>MobifoneVinaphoneViettelVietnam MobileMobicast</small>

<b><small>Từ chối thuê bao chuyển mạng 11/2022</small></b>

<small>Đăng ký chuyển điChuyển đi thành côngTừ chối chuyển đi</small>

<small>(Thuê</small>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Báo cáo Sơ kết công tác 6 tháng đầu năm 2023 của Bộ Thông tin và Truyền thông [6] đã phác họa nên bức tranh sáng sủa, đầy màu sắc cho ngành viễn thông Việt Nam. Trong nửa đầu năm, ngành viễn thông đã chứng kiến những bước tiến vượt bậc. Cụ thể, 77,1% hộ gia đình đã được kết nối với dịch vụ cáp quang, tăng trưởng ấn tượng 5,7% so với năm 2022 và hoàn thành 91,8% mục tiêu kế hoạch năm nay. Không chỉ vậy, tỷ lệ người dùng Internet đã đạt 78,59%, vượt xa mục tiêu 76% được đề ra trong kế hoạch năm 2023. Số lượng thuê bao băng rộng cố định tăng 8%, đạt 22,14 triệu và hoàn thành 88,6% kế hoạch, trong khi thuê bao băng rộng di động đạt 86,2 triệu, tăng 5,67% so với năm trước và đạt 95,2% kế hoạch năm 2023. Điện thoại di động thơng minh cũng khơng nằm ngồi xu hướng tăng trưởng này, với số lượng thuê bao ước đạt 101,12 triệu, tăng 8,73% so với cùng kỳ năm 2022, khẳng định vị thế không thể thay thế trong cuộc sống hàng ngày của người dân.

<b>1.4 Tổng quan về mơ hình dự báo học kết hợp </b>

Phương pháp học kết hợp<small>2</small> là một kỹ thuật quan trọng trong học máy, nhằm cải thiện độ chính xác và độ tin cậy của các mơ hình bằng cách kết hợp nhiều mơ hình khác nhau. Ý tưởng đằng sau là tạo ra một "ủy ban" các mơ hình làm việc cùng nhau để đưa ra dự đốn chính xác hơn so với một mơ hình đơn lẻ. Lý do cần sử dụng các phương pháp tập hợp là vì khơng có mơ hình nào là hồn hảo, mỗi mơ hình đều có nhược điểm và sai lệch riêng. Bằng cách kết hợp các mơ hình, chúng ta có thể giảm thiểu các lỗi và sai lệch đó, từ đó nâng cao độ chính xác của dự đốn tổng thể. Ứng dụng của phương pháp tập hợp rất đa dạng trong nhiều lĩnh vực cơng nghiệp. Chẳng hạn, trong tài chính, chúng có thể được sử dụng để phát hiện gian lận; trong chăm sóc sức khỏe, chúng có thể giúp chẩn đoán bệnh và dự đoán kết quả của bệnh nhân; và trong tiếp thị, chúng có thể giúp xác định khách hàng tiềm năng và tối ưu hóa chiến lược quảng cáo.

Hiện nay, các phương pháp học kết hợp đang là đối tượng nghiên cứu chính trong lĩnh vực học máy. Chúng được áp dụng rộng rãi để cải thiện hiệu suất của nhiều

<small>2 </small>

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

loại mô hình khác nhau, từ cây quyết định đến mạng nơ-ron và mơ hình học sâu. Với lượng dữ liệu ngày càng lớn, vai trò của các phương pháp tập hợp sẽ ngày càng trở nên quan trọng trong tương lai.

Cách các phương pháp học kết hợp hoạt động bao gồm các giai đoạn sau:

1- Đào tạo mẫu: Bắt đầu với việc đào tạo nhiều mơ hình cơ sở trên cùng một tập dữ liệu đào tạo, sử dụng các thuật toán, kiến trúc hoặc siêu tham số khác nhau. Các mơ hình có thể đồng nhất (cùng thuật tốn) hoặc khơng đồng nhất (các thuật tốn khác nhau).

2- Tạo dự đốn: Sử dụng các mơ hình đã được đào tạo để tạo ra các dự đoán trên tập dữ liệu thử nghiệm. Mỗi mơ hình tạo ra một tập hợp các dự đoán, và những dự đoán này được kết hợp để tạo ra dự đoán tổng thể.

3- Lựa chọn phương pháp tổng hợp: Chọn phương pháp tổng hợp phù hợp để kết hợp các dự đốn của các mơ hình cơ sở. Các phương pháp phổ biến bao gồm đóng bao, tăng cường và xếp chồng.

- Đóng bao: Đào tạo nhiều mơ hình cơ sở trên các mẫu con khác nhau của dữ liệu đào tạo và tính trung bình các dự đoán của chúng. Giúp giảm phương sai của dự đoán và cải thiện độ chính xác tổng thể.

- Tăng cường: Huấn luyện nhiều mơ hình cơ sở một cách tuần tự, trong đó mỗi mơ hình tập trung vào các lỗi của các mơ hình trước đó. Dự đốn của các mơ hình cơ sở được kết hợp bằng cách sử dụng bình quân hoặc biểu quyết đa số.

- Xếp chồng: Huấn luyện một siêu mơ hình dựa trên các dự đốn của các mơ hình cơ sở. Siêu mơ hình sử dụng các dự đốn này làm đầu vào và tạo ra dự đoán cuối cùng.

4- Đánh giá mơ hình học kết hợp: Cuối cùng, đánh giá hiệu suất của mơ hình tập hợp trên dữ liệu thử nghiệm bằng các số liệu đánh giá như độ chính xác, độ chính xác, khả năng thu hồi và điểm F1.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Trong các phương pháp học kết hợp, có một số thuật tốn phổ biến được sử dụng để kết hợp dự đoán của các mơ hình khác nhau và cải thiện hiệu suất tổng thể của hệ thống. Dưới đây là một số thuật toán phổ biến nhất:

Rừng Ngẫu Nhiên (Random Forest): Kết hợp các dự đoán từ nhiều cây quyết định để cải thiện độ chính xác của mơ hình phân loại hoặc hồi quy.

- Tăng Cường Độ Dốc (Gradient Boosting): Kết hợp nhiều mơ hình yếu thành một mơ hình mạnh bằng cách huấn luyện tuần tự từng mơ hình mới để sửa lỗi của mơ hình trước đó.

- AdaBoost: Gán trọng số cho từng điểm dữ liệu và huấn luyện lặp lại các mơ hình yếu để tập trung vào các điểm dữ liệu đã bị phân loại sai trong các lần lặp trước.

- XGBoost: Một triển khai có thể mở rộng của thuật toán tăng cường độ dốc, được tối ưu hóa về tốc độ và hiệu quả.

- Xếp Chồng (Stacking): Kết hợp các dự đoán của nhiều mơ hình bằng cách huấn luyện một mơ hình cấp cao hơn để đưa ra dự đoán dựa trên đầu ra của các mơ hình cấp thấp hơn.

- Đóng Bao (Bootstrap Aggregating): Kết hợp các dự đoán của nhiều mơ hình bằng cách huấn luyện từng mơ hình trên một tập hợp con được chọn ngẫu nhiên của dữ liệu huấn luyện.

Lựa chọn thuật toán phụ thuộc vào yêu cầu cụ thể của bài toán, đặc điểm của tập dữ liệu và tài ngun tính tốn có sẵn.

Stacked Generalization [7] thường được gọi là Stacking, là một kỹ thuật trong Ensemble Learning trong học máy. Giống như các phương pháp Bagging và Boosting, Stacking cũng tổng hợp các dự báo từ nhiều mơ hình học máy khác nhau dựa trên cùng một tập dữ liệu. Điểm quan trọng là sự tổng hợp dự báo từ nhiều mơ hình có thể dẫn đến việc cải thiện chất lượng và độ chính xác của dự báo. Tuy nhiên, mỗi mơ hình học máy đều có những ưu và nhược điểm riêng, và sở hữu các cơ chế dự báo đặc trưng. Vấn đề đặt ra là làm thế nào để lựa chọn hoặc tối ưu hóa sự kết hợp

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

của những tính chất tích cực từ các mơ hình này? Giải pháp mà Stacking đề xuất là sử dụng một cấu trúc tầng chồng lên nhau, nơi mỗi tầng sẽ học cách tối ưu hóa dự báo từ tầng trước. Thơng qua cách tiếp cận này, Stacking giúp tối ưu hóa việc kết hợp thơng tin từ nhiều mơ hình học máy để đưa ra dự báo chính xác hơn.

<b>Hình 1. 4 Mơ hình học kết hợp [7].</b>

Khác biệt so với Bagging, Stacking khơng chỉ sử dụng một loại mơ hình như Decision Tree và thực hiện trên toàn bộ tập dữ liệu huấn luyện, chứ không phải các tập con ngẫu nhiên của nó. Trong khi Boosting tiếp cận bằng cách sử dụng chuỗi các mơ hình để sửa chữa lỗi từ mơ hình trước, Stacking lại sử dụng một mơ hình "meta" để tổng hợp dự báo từ các mơ hình khác. Cơ cấu của mơ hình Stacking thường bao gồm hai cấp: Level-0 và Level-1:

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

 Level-0 Models (Base-Models): Các mơ hình này được huấn luyện trên tập dữ liệu gốc và đưa ra dự báo, những dự báo này sau đó sẽ được sử dụng như là đầu vào cho mơ hình ở Level-1.

 Level-1 Model (Meta-Model): Mơ hình này được huấn luyện dựa trên dự báo của các Base-Models. Thay vì học trực tiếp từ dữ liệu gốc, Meta-Model học từ các dự báo được cung cấp bởi Base-Models.

Các Base-Models thường sử dụng những thuật toán khác nhau, từ đó tạo ra các dự báo với độ tương quan thấp. Đầu ra của chúng có thể là giá trị thực (đối với bài toán Hồi quy) hoặc xác suất của các lớp (đối với bài toán Phân loại). Mặt khác, Meta-Model thường đơn giản hơn và có nhiệm vụ tổng hợp dự báo từ Base-Models. Đối với bài tốn Hồi quy, Linear Regression có thể được sử dụng làm Meta-Model, trong khi Logistic Regression phù hợp với bài toán Phân loại. Như vậy, Stacking là một kỹ thuật tiên tiến để kết hợp sức mạnh của nhiều mô hình học máy khác nhau, tăng cường độ chính xác và ổn định của dự báo thông qua cấu trúc hai cấp.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<b>CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN </b>

<b>2.1. Các cơng trình liên quan trên thế giới </b>

Theo nghiên cứu của Liu, L., & Chen, R.-C. [8] học sâu đã được ứng dụng thành công trong nhiều lĩnh vực và đạt được những kết quả đáng kinh ngạc. Trong khi đó, dữ liệu lớn đã cách mạng hóa ngành vận tải trong vài năm qua. Hai chủ đề nóng hổi này đã truyền cảm hứng cho nhóm tác giả xem xét lại vấn đề truyền thống về dự báo lưu lượng hành khách. Là một cấu trúc đặc biệt của mạng nơ-ron sâu (DNN), bộ mã hóa tự động có thể trích xuất sâu và trừu tượng các tính năng phi tuyến tính được nhúng trong đầu vào mà không cần bất kỳ nhãn nào. Bằng cách khai thác các khả năng vượt trội của nó, một mơ hình dự báo lưu lượng hành khách hàng giờ mới sử dụng các phương pháp học sâu được đề xuất trong bài báo này. Các tính năng tạm thời bao gồm ngày trong tuần, giờ trong ngày và ngày lễ, các tính năng kịch bản bao gồm lượt đến và lượt đi, vé và thẻ, và các tính năng luồng hành khách bao gồm luồng hành khách trung bình trước đó và luồng hành khách thời gian thực, là được định nghĩa là các tính năng đầu vào. Các tính năng này được kết hợp và đào tạo dưới dạng các bộ mã hóa tự động xếp chồng (SAE) khác nhau trong giai đoạn đầu tiên. Sau đó, SAE được đào tạo trước sẽ tiếp tục được sử dụng để khởi tạo DNN được giám sát với luồng hành khách theo thời gian thực dưới dạng dữ liệu nhãn trong giai đoạn thứ hai. Mơ hình kết hợp (SAE-DNN) được áp dụng và đánh giá với một nghiên cứu điển hình về dự báo lưu lượng hành khách cho bốn trạm xe buýt nhanh (BRT) của Hạ Môn (Thành phố Hạ Môn thuộc tỉnh Phúc Kiến, Trung Quốc) trong giai đoạn thứ ba. Kết quả thực nghiệm cho thấy phương pháp đề xuất có khả năng cung cấp mơ hình dự báo lưu lượng hành khách phổ quát và chính xác hơn cho các trạm BRT khác nhau với các cấu hình lưu lượng hành khách khác nhau.

Theo [9], các nguồn thu nhập truyền thống, thoại và SMS của các nhà khai thác viễn thông (telcos) đang bị thu hẹp do khách hàng sử dụng các ứng dụng vượt trội (OTT) như WhatsApp hoặc Viber. Trong môi trường đầy thách thức này, điều quan trọng đối với các công ty viễn thơng là duy trì hoặc tăng thị phần của họ bằng

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

cách cung cấp cho người dùng trải nghiệm tốt nhất có thể trên mạng của họ. Nhưng nhiệm vụ trích xuất thơng tin chi tiết về khách hàng từ lượng dữ liệu khổng lồ do các công ty viễn thông thu thập đang ngày càng phức tạp và quy mô hơn. Làm cách nào chúng ta có thể đo lường và dự báo chất lượng trải nghiệm của người dùng trên mạng viễn thơng trong thời gian thực? Đó là vấn đề mà nhóm tác giả giải quyết trong bài viết này. Các tác giả trình bày một cách tiếp cận để nắm bắt, trong (gần) thời gian thực, trải nghiệm của khách hàng trên thiết bị di động nhằm đánh giá điều kiện nào khiến người dùng thực hiện cuộc gọi đến trung tâm chăm sóc khách hàng của cơng ty viễn thơng. Để đạt được mục tiêu này, nhóm tác giả tuân theo phương pháp học có giám sát để dự báo và huấn luyện mơ hình Rừng ngẫu nhiên bị hạn chế bằng cách sử dụng, như một đại diện cho trải nghiệm tồi tệ, các giao dịch khách hàng được quan sát trong nguồn cấp dữ liệu viễn thông trước khi người dùng thực hiện cuộc gọi đến trung tâm chăm sóc khách hàng. Các tác giả đánh giá cách tiếp cận của mình bằng cách sử dụng bộ dữ liệu phong phú do một công ty viễn thông lớn của châu Phi cung cấp và một kiến trúc dữ liệu lớn mới cho cả việc đào tạo và chấm điểm các mơ hình dự báo. Nghiên cứu thực nghiệm của nhóm tác giả cho thấy giải pháp đề xuất có hiệu quả trong việc dự báo trải nghiệm người dùng bằng cách suy luận liệu khách hàng có thực hiện cuộc gọi dựa trên bối cảnh hiện tại của họ hay không. Những kết quả đầy hứa hẹn này mở ra những khả năng mới để cải thiện dịch vụ khách hàng, điều này sẽ giúp các công ty viễn thông giảm tỷ lệ rời bỏ và cải thiện trải nghiệm của khách hàng, cả hai yếu tố ảnh hưởng trực tiếp đến tăng trưởng doanh thu của họ.

Dự báo lưu lượng di động không dây [10] là một vấn đề quan trọng đối với các nhà nghiên cứu và thực hành trong lĩnh vực 5G/B5G. Tuy nhiên, đây là một thách thức rất lớn vì lưu lượng di động khơng dây thường có tính chất phi tuyến tính cao và các mẫu phức tạp. Hầu hết các phương pháp dự báo lưu lượng di động không dây hiện có, thiếu khả năng mơ hình hóa các mối tương quan không gian-thời gian động của dữ liệu lưu lượng di động khơng dây, do đó khơng thể mang lại kết quả dự báo thỏa đáng. Để cải thiện độ chính xác của dự báo lưu lượng mạng di động 5G/B5G, nhiều dữ liệu miền chéo hơn đã được xem xét, chiến lược học chuyển giao kết hợp

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

giữa các dịch vụ và khu vực (Chuyển giao hợp nhất) dựa trên mơ hình mạng thần kinh miền chéo không gian-thời gian (STC) -N) đã được đề xuất. Nhiều bộ dữ liệu tên miền chéo đã được tích hợp. Độ chính xác đào tạo của miền dịch vụ đích dựa trên các đặc điểm dữ liệu của miền dịch vụ nguồn theo sự giống nhau giữa các dịch vụ và sự giống nhau giữa các vùng khác nhau đã được cải thiện, do đó hiệu suất dự báo của mơ hình được nâng cao. Kết quả thử nghiệm của bài báo cho thấy độ chính xác dự báo của mơ hình dự báo lưu lượng được cải thiện đáng kể sau khi tích hợp nhiều bộ dữ liệu tên miền chéo, hiệu suất RMSE của dịch vụ SMS, Cuộc gọi và Internet có thể được cải thiện lần lượt khoảng 8,39%, 13,76% và 5,7%. Ngoài ra, so với chiến lược chuyển nhượng hiện tại, RMSE của ba dịch vụ có thể được cải thiện khoảng 2,48%∼13,19%. Những kết quả đầy hứa hẹn này mở ra những khả năng mới để cải thiện dịch vụ khách hàng, điều này sẽ giúp các công ty viễn thông giảm tỷ lệ rời bỏ và cải thiện trải nghiệm của khách hàng, cả hai yếu tố ảnh hưởng trực tiếp đến tăng trưởng doanh thu của họ.

Một nghiên cứu của Milorad K. Banjanin và cộng sự [11], với mục tiêu chính là tạo ra một mơ hình thích ứng dựa trên perceptron đa lớp (MLP) để dự báo thông lượng dữ liệu đường xuống (DL) trung bình trên mỗi người dùng và thơng lượng dữ liệu DL trung bình trên mỗi ơ trong công nghệ mạng LTE và trong một không gian

<i>địa lý mà bao gồm một đoạn của Xa lộ 9 Tháng Giêng (một con đường quan trọng ở </i>

<i>Republika Srpska, nằm ở phía bắc của Bosnia và Herzegovina) với các đường vào. </i>

Độ chính xác của dự báo mơ hình được ước tính dựa trên sai số tương đối (RE). Với nhiều khóa đào tạo và thử nghiệm 30 biến thể khác nhau của mơ hình MLP, với các siêu tham số khác nhau, mơ hình cuối cùng đã được chọn với độ chính xác trung bình cho biến Thơng lượng trung bình của đường xuống di động là 89,6% (RE = 0,104), trong khi đối với biến Thông lượng trung bình của đường xuống người dùng là độ chính xác trung bình là 88% (RE = 0,120). Nếu quan sát hệ số xác định, kết quả cho thấy độ chính xác của mơ hình dự báo được lựa chọn tốt nhất cho biến phụ thuộc thứ nhất cao hơn 1,4% so với độ chính xác của mơ hình dự báo được lựa chọn cho biến phụ thuộc thứ hai. Ngoài ra, kết quả cho thấy hiệu suất của mơ hình thơng qua thơng

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

số R<small>2</small> (R-Squared) tốt hơn đáng kể so với mơ hình hồi quy tuyến tính bội (MLR) tham chiếu được sử dụng.

Theo nghiên cứu của Tianpei Xu,Ying Ma và Kangchul Kim [12], thị trường viễn thơng cĩ tính cạnh tranh rất cao. Chi phí để giữ chân khách hàng viễn thơng hiện tại thấp hơn so với việc thu hút khách hàng mới. Điều cần thiết là một cơng ty viễn thơng phải hiểu được sự thay đổi của khách hàng thơng qua quản lý quan hệ khách hàng (CRM). Do đĩ, máy phân tích CRM được yêu cầu phải dự báo khách hàng nào sẽ rời bỏ. Nghiên cứu này đề xuất một hệ thống dự báo tỷ lệ rời bỏ của khách hàng sử dụng kỹ thuật học tập tổng hợp bao gồm các mơ hình xếp chồng và bỏ phiếu mềm. Các thuật tốn XgBoost, hồi quy logistic, Cây quyết định và máy học Nạve Bayes được chọn để xây dựng mơ hình xếp chồng với hai cấp độ và ba đầu ra của cấp độ thứ hai được sử dụng để bỏ phiếu. Việc xây dựng tính năng của tập dữ liệu khách hàng rời mạng bao gồm việc nhĩm các đặc điểm hành vi của khách hàng cách đều nhau để mở rộng khơng gian của các tính năng và khám phá thơng tin tiềm ẩn từ tập dữ liệu rời đi. Các bộ dữ liệu khách hàng rời mạng ban đầu và mới được phân tích trong mơ hình tập hợp xếp chồng với bốn chỉ số đánh giá. Kết quả thử nghiệm của nhĩm tác giả cho thấy các dự báo tỷ lệ rời bỏ khách hàng được đề xuất cĩ độ chính xác lần lượt là 96,12% và 98,09% đối với bộ dữ liệu tỷ lệ rời mạng ban đầu và mới. Những kết quả này tốt hơn các hệ thống nhận dạng khách hàng rời mạng.

Theo nghiên cứu của by Matthias Bogaert và Lex Delaere [13], một số phân loại đơn lẻ, các nhĩm đồng nhất và khơng đồng nhất đã được đề xuất để phát hiện những khách hàng cĩ nhiều khả năng rời mạng nhất. Bất chấp sự phổ biến và độ chính xác của các tập hợp khơng đồng nhất trong các lĩnh vực khác nhau, các mơ hình dự báo tỷ lệ rời mạng của khách hàng vẫn chưa được áp dụng. Hơn nữa, cịn cĩ những phát triển khác về mức độ đánh giá hiệu quả hoạt động và so sánh mơ hình chưa được đưa vào một cách cĩ hệ thống. Do đĩ, mục đích của nghiên cứu này là thực hiện một nghiên cứu tiêu chuẩn quy mơ lớn về dự báo tỷ lệ khách hàng rời mạng bằng cách áp dụng các phương pháp mới này. Để làm như vậy, bài báo đánh giá 33 bộ phân loại, bao gồm 6 bộ phân loại đơn lẻ, 14 bộ phân loại đồng nhất và 13 bộ phân loại khơng

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

đồng nhất trên 11 bộ dữ liệu. Phát hiện của nhóm tác giả chỉ ra rằng các nhóm khơng đồng nhất ln được xếp hạng cao hơn các nhóm đồng nhất và các phân loại đơn lẻ. Kết quả quan sát thấy rằng một tập hợp không đồng nhất với lựa chọn phân loại ủ mô phỏng được xếp hạng cao nhất về AUC và lợi nhuận tối đa dự kiến. Để có độ chính xác, tham số đo độ chính xác F1 và mức tăng thập phân vị trên cùng, một tập hợp không đồng nhất được tối ưu hóa bằng khả năng nhị thức khơng âm và một tập hợp không đồng nhất xếp chồng tương ứng là các phân loại được xếp hạng hàng đầu. Nghiên cứu này ý nghĩa là nghiên cứu đầu tiên đưa một bộ phân loại, số liệu hiệu suất và kiểm tra thống kê phong phú như vậy vào một nghiên cứu tiêu chuẩn về tỷ lệ khách hàng rời mạng.

Một nghiên cứu của Mohamed Massaoudi và cộng sự [14] đề xuất một khung tính tốn hiệu quả cho Dự báo phụ tải ngắn hạn (STLF). Kỹ thuật đề xuất xử lý các biến đổi ngẫu nhiên của nhu cầu phụ tải bằng cách sử dụng phương pháp tổng quát hóa xếp chồng. Cách tiếp cận này kết hợp ba mơ hình, đó là Máy tăng cường độ dốc ánh sáng (LGBM), máy tăng cường độ dốc eXtreme (XGB) và Perceptron nhiều lớp (MLP). Cơ chế bên trong của mơ hình XGB-LGBM-MLP xếp chồng bao gồm việc tạo siêu dữ liệu từ các mơ hình XGB và LGBM để tính tốn các dự báo cuối cùng bằng mạng MLP. Hiệu suất của mơ hình XGB-LGBM-MLP xếp chồng được đề xuất được xác thực bằng cách sử dụng hai bộ dữ liệu từ các địa điểm khác nhau: Malaysia và New England. Bốn đóng góp đáng chú ý được các tác giả làm bật lên, trong đó nổi bật là cách tiếp cận tổng thể. Việc xác thực trên các bộ dữ liệu từ Malaysia và New England cho thấy mức độ phù hợp tiềm năng toàn cầu của mơ hình. Tuy nhiên, những hiểu biết sâu sắc hơn về những thách thức của các biến đổi ngẫu nhiên, đề cập rõ ràng hơn về các kỹ thuật tối ưu hóa siêu tham số và kết quả định lượng sẽ làm phong phú thêm cái nhìn tổng quan. Nhìn chung, bài nghiên cứu có nhiều hướng mới và nghiên cứu kỹ lưỡng về STLF, thu hút sự quan tâm của các chuyên gia.

Bài nghiên cứu của E. Diaz-Aviles [15] nêu một giải pháp tiềm năng cho telcos trong việc đối mặt với sự suy giảm doanh thu truyền thống và quan trọng của việc cải thiện trải nghiệm người dùng trên mạng. Phương pháp đề xuất sử dụng học

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

có giám sát và mơ hình Rừng ngẫu nhiên để dự đốn trải nghiệm xấu của người dùng, dựa trên dữ liệu khách hàng từ một công ty viễn thông lớn ở Châu Phi. Kết quả thử nghiệm cho thấy giải pháp này hiệu quả trong dự đoán hành vi người dùng và mở ra khả năng cải thiện dịch vụ khách hàng, giảm tỷ lệ rời bỏ và tăng doanh thu. Tuy nhiên, cần xem xét các chi tiết phương pháp, đánh giá mơ hình và hạn chế tiềm ẩn để tối ưu hóa hiệu suất của giải pháp.

Theo nhóm tác giả S. A. Qureshi [16] thì trong thị trường di động đầy cạnh tranh, việc giữ chân khách hàng trở nên quan trọng hơn việc thu hút khách hàng mới. Để dự đoán khách hàng sẽ rời bỏ, các phương pháp khai thác dữ liệu như phân tích hồi quy, Cây quyết định và Mạng thần kinh nhân tạo đã được áp dụng. Sử dụng dữ liệu từ trang web DNA khách hàng, nghiên cứu này tập trung vào việc xác định mẫu dựa trên hành vi và lịch sử sử dụng của họ. Phương pháp lấy mẫu lại được sử dụng để xử lý vấn đề mất cân bằng lớp. Kết quả cho thấy cây quyết định là thuật tốn phân loại chính xác nhất trong việc dự đốn khách hàng có khả năng rời bỏ.

Nghiên cứu của Q. Zeng và cộng sự tập trung [17] vào vấn đề dự đốn lưu lượng di động khơng dây, đặc biệt là trong lĩnh vực 5G/B5G, một thách thức quan trọng đối với cả nghiên cứu và thực tiễn. Các phương pháp hiện tại thường không đủ linh hoạt để mơ hình hóa mối tương quan khơng gian-thời gian động của dữ liệu lưu lượng này, dẫn đến dự đốn khơng chính xác. Để cải thiện điều này, bài viết đề xuất sử dụng nhiều dữ liệu tên miền chéo hơn và chiến lược học chuyển giao hợp nhất khu vực và dịch vụ chéo. Mơ hình mạng thần kinh xuyên miền không gian-thời gian (STC-N) được đề xuất để tích hợp dữ liệu từ nhiều miền khác nhau. Kết quả thử nghiệm cho thấy sự cải thiện đáng kể trong độ chính xác của dự đốn lưu lượng, với tăng cường đáng kể về hiệu suất so với chiến lược chuyển nhượng hiện tại. Điều này có thể góp phần quan trọng trong việc cải thiện quản lý và triển khai các mạng di động 5G/B5G trong tương lai.

Bài báo của P. Kaushik và cộng sự [18] tập trung vào việc triển khai mạng lưới thần kinh sâu để phân tích và dự đốn dữ liệu lớn về hoạt động viễn thông từ

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Telecom Italia. Sử dụng thư viện deep learning Tensorflow, mô hình được xây dựng và tối ưu hóa bằng trình tối ưu hóa Adam. Mơ hình sử dụng dữ liệu thử nghiệm để tạo dự đoán, với hiệu suất đạt được 98,6-99,8%. Các API cấp cao và cấp trung của Tensorflow hỗ trợ quá trình triển khai mạng thần kinh, giúp tạo ra một hệ thống hiệu quả cho việc phân tích dữ liệu viễn thơng và tạo ra các dự đốn có độ chính xác cao. Bài nghiên cứu của J. K. Sana và cộng sự [19] tập trung vào việc giải quyết vấn đề khách hàng rời bỏ trong ngành viễn thông bằng cách sử dụng dữ liệu CRM và các mơ hình học máy. Nghiên cứu này đề xuất và đánh giá các mơ hình dự đốn khách hàng rời bỏ, sử dụng kỹ thuật chuyển đổi dữ liệu và lựa chọn tính năng. Việc tối ưu hóa các mơ hình dự đốn được thực hiện bằng cách lựa chọn tính năng và siêu tham số tốt nhất. Kết quả thử nghiệm trên nhiều bộ dữ liệu công khai cho thấy sự cải thiện đáng kể về hiệu suất của các mơ hình, với tăng cường đặc biệt về mặt AUC và F-score. Nghiên cứu này là một bước tiến quan trọng trong việc áp dụng các phương pháp hiện đại để dự đoán và giảm tỷ lệ rời bỏ khách hàng trong ngành viễn thông.

Bài nghiên cứu của nhóm tác giả A. K. Ahmad, A. Jafar, and K. Aljoumaa [20] tập trung vào việc dự đốn khách hàng rời bỏ trong ngành viễn thơng, với mơ hình được phát triển và kiểm thử trên dữ liệu lớn từ công ty viễn thông SyriaTel. Vấn đề này là một ưu tiên hàng đầu đối với các cơng ty lớn vì ảnh hưởng trực tiếp đến doanh thu. Mơ hình sử dụng các kỹ thuật máy học và tiến bộ, đạt được hiệu suất ấn tượng với giá trị AUC đạt 93,3%. Một điểm đặc biệt là việc sử dụng mạng xã hội của khách hàng để cải thiện hiệu suất mơ hình, đạt 93,3% so với tiêu chuẩn AUC. Quá trình phát triển và thử nghiệm mơ hình được thực hiện trên mơi trường Spark với sự hỗ trợ từ các thuật toán như Cây quyết định, Rừng ngẫu nhiên, GBM và XGBOOST, trong đó XGBOOST cho kết quả tốt nhất. Bài viết này không chỉ giới thiệu một phương pháp tiên tiến để dự đoán khách hàng rời bỏ mà còn làm rõ vai trò quan trọng của việc áp dụng các công nghệ mới như máy học và dữ liệu lớn trong việc giải quyết các thách thức kinh doanh trong ngành viễn thông.

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Bài khảo sát của A. Chen và cộng sự [21] giới thiệu về việc sử dụng học máy trong mạng truyền thông để tạo ra mạng lưới nhận thức, đồng thời thảo luận về các kỹ thuật dự đoán lưu lượng truy cập và phân loại ứng dụng. Các kỹ thuật được phân loại dựa trên khả năng sử dụng trong Mạng cục bộ và Mạng diện rộng. Mục tiêu của bài viết là tổng quan và củng cố các kỹ thuật hiện có để khuyến khích phát triển các ứng dụng mới trong thực tế mạng.

Bài báo của D. Andreoletti và cộng sự [22] tập trung vào việc áp dụng Machine Learning để dự đoán lưu lượng truy cập và sự kiện tắc nghẽn trên mạng viễn thông. Một thách thức đặc biệt là làm thế nào để mơ hình hóa dữ liệu có cấu trúc đồ thị trong mạng viễn thơng. Các thuật tốn ML, như Mạng thần kinh tái diễn phức tạp khuếch tán (DCRNN), được áp dụng để dự báo tải lưu lượng truy cập và dự đoán các sự kiện tắc nghẽn. So sánh với các phương pháp khác như LSTM và Mạng thần kinh được kết nối đầy đủ, kết quả cho thấy DCRNN vượt trội về khả năng dự báo và dự đoán, giảm đến 43% đối với sai số trung bình tuyệt đối (MAPE) từ 210%. Phương pháp này mở ra triển vọng trong việc áp dụng cho các vấn đề quản lý mạng, đồng thời làm rõ tính hiệu quả của việc sử dụng ML trong mạng viễn thơng để tối ưu hóa quản lý tài ngun và dự đoán các sự kiện quan trọng trước khi xảy ra.

Bài viết [23] của guides.loc.gov, đã tóm tắt về ngành viễn thông và cung cấp hướng dẫn nghiên cứu trong lĩnh vực này. Ngành viễn thông bao gồm nhiều lĩnh vực như phát thanh, truyền hình, dịch vụ internet, VoIP và radar. Hướng dẫn này tập trung vào cung cấp nguồn tài nguyên hữu ích cho các nhà nghiên cứu và doanh nghiệp muốn tìm hiểu về ngành viễn thông, bao gồm cả lịch sử và quản lý. Nó khơng bao gồm chi tiết về nội dung truyền thơng như chương trình TV hoặc thơng số kỹ thuật. Thay vào đó, hướng dẫn tập trung vào việc cung cấp danh sách các nguồn tài liệu và cơ sở dữ liệu có sẵn để nghiên cứu sâu hơn, bao gồm cả tài nguyên internet miễn phí, blog ngành và hiệp hội thương mại. Phần "Tìm kiếm Danh mục của Thư viện" hướng dẫn cách tìm kiếm tài liệu trong bộ sưu tập của Thư viện Quốc hội liên quan đến ngành viễn thông.

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

<b>2.2. Các cơng trình liên quan ở Việt Nam </b>

Dương Thị Hịa Bình [24] nghiên cứu xây dựng mơ hình học sâu dự báo xu hướng giá chứng khốn, tìm hiểu và ứng dụng các mơ hình học sâu vào thực tế. Theo nhóm tác giả, cùng với sự phát triển của nền kinh tế thị trường, nhu cầu tăng thêm thu nhập của con người ngày càng cao. Đối với tầng lớp lao động, đi làm thuê thì việc vươn lên tầng lớp doanh nhân, giàu có gần như là rất khó chỉ với nguồn thu nhập bị động ít ỏi. Trong khi đó thị trường chứng khốn lại vô cùng năng động. Bài nghiên cứu đã nghiên cứu về mơ hình học sâu và áp dụng cho bài toán dự báo xu hướng giá chứng khoán. Đề xuất được phương pháp đánh giá mơ hình, phương pháp xây dựng tập dữ liệu và phương pháp kết hợp phân tích kỹ thuật với mơ hình học sâu để cho ra kết quả tốt cho bài toán.

Theo nghiên cứu của Quang Hung Do và cộng sự [25], dự báo chính xác lưu lượng dữ liệu trong mạng viễn thơng là một nhiệm vụ đầy thách thức để quản lý mạng tốt hơn. Nó thúc đẩy việc phân bổ nguồn lực năng động và quản lý năng lượng. Nghiên cứu này sử dụng các mạng lưới thần kinh sâu bao gồm các kỹ thuật Bộ nhớ ngắn hạn dài (LSTM) và Đơn vị tái phát có kiểm sốt (GRU) để dự báo trước một giờ về lưu lượng truy cập dự kiến và so sánh phương pháp này với các phương pháp khác bao gồm Hệ thống suy luận thần kinh mờ thích ứng (ANFIS), Mạng thần kinh nhân tạo (ANN) và Phương pháp xử lý dữ liệu nhóm (GMDH). Việc triển khai mạng nơ-ron sâu trong nghiên cứu này sẽ phân tích, đánh giá và tạo ra các dự báo dựa trên dữ liệu về hoạt động viễn thông cứ sau một giờ, liên tục trong một năm, do Viễn thông Việt Nam phát hành. Các chỉ số hiệu suất bao gồm RMSE, MAPE, MAE, R và Theil’s U được sử dụng để so sánh giữa các mơ hình đã phát triển. Kết quả thu được cho thấy cả mơ hình LSTM và GRU đều vượt trội so với mơ hình ANFIS, ANN và GMDH. Các kết quả nghiên cứu dự kiến sẽ cung cấp một công cụ hỗ trợ và dự báo cho các nhà khai thác mạng viễn thông. Kết quả thử nghiệm cũng chỉ ra rằng mơ hình đề xuất là hiệu quả và phù hợp để dự báo lưu lượng mạng trong thế giới thực.

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Bài báo của nhóm tác giả Vũ Văn Hiệu [26] đề xuất mơ hình học kết hợp (Stacking) cho dự báo khách hàng rời bỏ dịch vụ của ngân hàng sử dụng mơ hình học kết hợp gồm hai cấp: với cấp 0 gồm bốn mơ hình cơ sở gồm K láng giềng gần nhất (KNN), XGBoost (XGB), rừng ngẫu nhiên (RDF) và máy hỗ trợ vector (SVM) và cấp 1 lần lượt gồm ba mơ hình là hồi quy logistic (LR), mạng neural hồi quy (RNN) và mạng neural học sâu (DNN). Phương pháp của nhóm tác giả đã thu được kết quả tốt với các chỉ số accuracy là 95.36%, recall là 95.57%, precision là 95.45% và F1 score là 95.51%.

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

<b>CHƯƠNG 3: TẬP DỮ LIỆU NGHIÊN CỨU </b>

<b>3.1. Giới thiệu về tập dữ liệu khách hàng rời mạng viễn thông </b>

Bộ dữ liệu thu thập được là thông tin thuê bao mạng có cáp quang của VNPT tỉnh Tây Ninh từ 2010 đến 2023. Bộ dữ liệu bao gồm 114.177 quan sát với 29 trường dữ liệu tương ứng như bảng sau:

<b>Bảng 3. 1 </b>Cột dữ liệu trong tập dữ liệu thu thập được

<b>3 </b> LOAIKH Categorical object Đối tượng khách hàng

4

IDđối tượng khách hàng

<b>10 </b> MANGKHAC Categorical int64 - 0: khách hàng mới -1: khách hàng từ mạng khác chuyển sang

11 SO_DV_KHAC Numeric int64 - Số dịch vụ khác của VNPT khách hàng đang sử dụng ngoài dịch vụ FiberVNN (lấy tại thời điểm 30/06/2023).

<b>12 </b> GOI_DADV Categorical int64 - Sử dụng gói tích hợp hay khơng: là khách hàng có sử dụng các gói tích hợp (tivi, di động, …) hay không

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

(lấy trạng thái tại thời điểm 30/06/2023).

4

- Giá cước

<b>15 </b> PL_KH_DT Categorical object Phân loại khách hàng theo doanh thu: Từ 50000 đến dưới 200000đ là loại C, từ 200000 đến dưới 500000đ là loại B, từ 500000 trở lên là loại A (Theo VB 955/QĐ-TTKD-TNH-ĐHNV ngày 13/06/2019

<b>16 </b> NOCUOC_2THANG Numeric int64 - Số tháng nợ cước: số tháng >= 2 tháng (tính từ tháng 06/2023 trở

Do tháng nợ cước có thể là những tháng trong quá khứ, không cố định nên không đưa thành cột được

17 TRATRUOC Categorical int64 - Đang thanh toán cước hàng tháng hay sử dụng gói trả trước nhiều tháng (lấy trạng thái tại thời điểm 30/06/2023).

1: Đã thanh toán trước cước 6 tháng, 12 tháng. 0: thanh toán cước hàng tháng

<b>18 </b> SOTHANG_TRATRUOC_CONLAI

Numeric int64 - Số tháng còn lại của gói trả trước đang sử dụng (lấy trạng thái tại

30/06/2023).

<b>19 </b> SOLAN_BAOHONG Numeric int64 - Số lần báo hỏng: Số lần thuê bao báo hỏng do sự cố (đứt cáp, khơng tín hiệu, mạng chập chờn …) (số lần báo hỏng trong 6 tháng gần nhất

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

01,02,03,04,05,06/2023).

20 SOLAN_GOI_KIEM Numeric int64 - Số lần gọi kiểm: Số lần bộ phận Chăm sóc khách hàng thực hiện gọi kiểm để khảo sát dịch vụ đường truyền trong việc Lắp đặt và Sửa chữa (số lần gọi kiểm trong các tháng 01,02,03,04,05,06/2023).

<b>21 </b> SOLAN_GOI_KIEM_HL Numeric int64 - Số lần gọi kiểm hài lòng: Số lần khách hàng trả lời hài lòng khi được gọi kiểm (số lần gọi kiểm hài lòng trong các tháng 01,02,03,04,05,06/2023).

<b>22 </b> SOLAN_GOI_KIEM_KHL Numeric int64 - Số lần gọi kiểm không hài lịng: Số lần khách hàng trả lời hài khơng lòng khi được gọi kiểm (số lần gọi kiểm không hài trong

01,02,03,04,05,06/2023).

23 SOLAN_TAMNGUNG Numeric int64 - Số lần tạm ngưng: Số lần khách hàng xin tạm ngưng hoặc bị tạm ngưng sử dụng dịch vụ (do yêu cầu hoặc nợ cước …)(số lần tạm ngưng dịch vụ trong 3 tháng gần nhất 04,05,06/2023).

<b>24 </b> THANG_SD Numeric int64 - Số tháng sử dụng: Tuổi đời sử dụng dịch vụ của khách hàng (chốt tại thời điểm 30/06/2023).

<b>25 </b> KO_PSLL Categorical int64 - Không phát sinh lưu lượng: thuê bao không phát sinh lưu lượng 5

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

ngày trong 3 tháng

04,05,06/2023.

Nhà mạng ghi nhận khách hàng không phát sinh lưu lượng sử dụng 5 ngày liên tiếp (do hư modem, đi vắng, cắt điện, …) để thực hiện kiểm tra chất lượng dịch vụ

26 SOLAN_GIAHAN Numeric int64 - Số lần gia hạn đặt cọc: Số lần thuê bao thực hiện gia hạn đặt cọc trả trước khi hết tiền đặt cọc (chốt tại

30/06/2023).

<b>27 </b> TRANGTHAI_TB Categorical object

<b>28 </b> TRANGTHAITB_ID Categorical Int64 - ID trạng thái của thuê bao (chốt tại thời điểm 30/06/2023). 29 THANHLY Categorical int64 Thanh lý (Churn):

Trạng thái thuê bao còn sử dụng hoặc thanh lý (trạng thái xác định tại thời điểm 30/09/2023.

Sau khi xử lý dữ liệu, bỏ đi các cột không cần thiết ['NGANHNGHE', 'NGAY_SN', 'KHUVUC','LOAIKH','GOICUOC','TRANGTHAITB_ID'] ta có thống kê mơ tả như sau:

<b>Bảng 3. 2 </b>Thống kê mô tả tập dữ liệu thu thập được

<b><small>Count\ unique top freq mean std min 25% 50% 75% max NGANHNGHE_</small></b>

<b><small>ID </small></b>

<small>114176.0 NaN NaN NaN 986.972525 121.98494 -999.0 999.0 1001.0 1002.0 1020.0 </small>

<b><small>TUOI </small></b> <small>114172.0 NaN NaN NaN 46.511351 27.221085 5960.0 </small>

<small>-36.0 44.0 54.0 2010.0 </small>

<b><small>KHUVUC_ID </small></b> <small>114176.0 NaN NaN NaN 562.548574 60.570741 495.0 526.0 549.0 579.0 740.0 </small>

<b><small>LOAIKH_ID </small></b> <small>114177.0 NaN NaN NaN 3.561803 11.858337 0.0 1.0 1.0 1.0 87.0 </small>

<b><small>PL_KH_DT </small></b> <small>114177 3 THAP </small>

<small>102528 </small>

<small>NaN NaN NaN NaN NaN NaN NaN </small>

<b><small>KHDN </small></b> <small>114177.0 NaN NaN NaN 0.056859 0.231574 0.0 0.0 0.0 0.0 1.0 </small>

<b><small>MANGKHAC </small></b> <small>114177.0 NaN NaN NaN 0.090789 0.28731 0.0 0.0 0.0 0.0 1.0 </small>

<b><small>SO_DV_KHAC </small></b> <small>114177.0 NaN NaN NaN 0.744029 0.76983 0.0 0.0 1.0 1.0 12.0 </small>

<b><small>GOI_DADV </small></b> <small>114177.0 NaN NaN NaN 0.496956 0.499993 0.0 0.0 0.0 1.0 1.0 </small>

<b><small>GIACUOC </small></b> <small>114177.0 NaN NaN NaN 178260.23933 </small>

<small>351735.491968 </small>

<small>0.0 154545.0 </small>

<small>163636.0 </small>

<small>163636.0 </small>

<small>75600000.0 </small>

<b><small>NOCUOC_2THANG </small></b>

<small>114177.0 NaN NaN NaN 0.199068 0.865602 0.0 0.0 0.0 0.0 38.0 </small>

<b><small>TRATRUOC </small></b> <small>114177.0 NaN NaN NaN 0.266945 0.442365 0.0 0.0 0.0 1.0 1.0 </small>

<b><small>LAI </small></b>

<small>114177.0 NaN NaN NaN 1.360747 2.726247 0.0 0.0 0.0 2.0 24.0 </small>

</div>

×