Tải bản đầy đủ (.pdf) (95 trang)

NGHIÊN cứu một số THUẬT TOÁN học máy (MACHINE LEARNING) ỨNG DỤNG CHO bài TOÁN xác ĐỊNH các CHỦ đề QUAN tâm của KHÁCH HÀNG TRỰC TUYẾN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (17.09 MB, 95 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING)
ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM
CỦA KHÁCH HÀNG TRỰC TUYẾN
Mã số đề tài: CS20_37

Chủ nhiệm đề tài:
ThS. Nguyễn Thị Hội
Thành viên tham gia:
ThS. Trần Thị Nhung
ThS. Nguyễn Thị Đào

Hà Nội, 03 - 2021


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING)
ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM
CỦA KHÁCH HÀNG TRỰC TUYẾN
Mã số đề tài: CS20_37


Chủ nhiệm đề tài:
ThS. Nguyễn Thị Hội
Thành viên tham gia:
ThS. Trần Thị Nhung
ThS. Nguyễn Thị Đào

Xác nhận của Trường Đại học Thương mại

2

Chủ nhiệm đề tài


MỤC LỤC
DANH MỤC TỪ VIẾT TẮT ......................................................................................... 5
DANH MỤC BẢNG BIỂU ............................................................................................. 6
DANH MỤC HÌNH VẼ .................................................................................................. 6
THƠNG TIN KẾT QUẢ NGHIÊN CỨU ....................................................................... 7
MỞ ĐẦU ......................................................................................................................... 8
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU ................................................... 8
1.1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI NGHIÊN CỨU .............................................. 8
1.2. TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU ........................................................ 9
1.2.1 Tình hình nghiên cứu trong nước .................................................................... 9
1.2.2. Tính hình nghiên cứu ngồi nước ................................................................ 11
1.3. MỤC TIÊU NGHIÊN CỨU ............................................................................... 12
1.4. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................................... 13
1.4.1. Đối tượng nghiên cứu .................................................................................. 13
1.4.2. Phạm vi nghiên cứu ...................................................................................... 13
1.5. PHƯƠNG PHÁP NGHIÊN CỨU ...................................................................... 13
1.5.1. Cách tiếp cận ................................................................................................ 13

1.5.2. Phương pháp nghiên cứu.............................................................................. 13
1.6. KẾT CẤU BÁO CÁO NGHIÊN CỨU .............................................................. 14
CHƯƠNG 2. HỌC MÁY VÀ ỨNG DỤNG TRONG BÀI TOÁN KINH TẾ ............. 16
2.1. TỔNG QUAN VỀ HỌC MÁY........................................................................... 16
2.2. QUY TRÌNH PHÂN TÍCH DỮ LIỆU BẰNG HỌC MÁY ............................... 17
2.3. MỘT SỐ THUẬT TOÁN HỌC MÁY PHỔ BIẾN............................................ 17
2.3.1. Phân loại dựa trên phương thức học ............................................................ 17
2.3.2. Phân loại dựa trên sự tương đồng về cách hoạt động .................................. 20
2.4. ỨNG DỤNG HỌC MÁY TRONG CÁC BÀI TOÁN KINH TẾ ...................... 22
2.4.1. Học máy ứng dụng trong tài chính............................................................... 22
2.4.2. Học máy ứng dụng trong Marketing ............................................................ 27
2.4.3. Học máy ứng dụng trong Thương mại điện tử............................................. 28
CHƯƠNG 3. BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG THEO CHỦ ĐỀ ................ 31
3.1. VAI TRỊ CỦA PHÂN TÍCH DỮ LIỆU KHÁCH HÀNG................................ 31
3.1.1. Quan hệ khách hàng trong kinh doanh......................................................... 31
3


3.1.2. Vai trị của bài tốn phân tích dữ liệu khách hàng ....................................... 32
3.1.3. Dữ liệu khách hàng ...................................................................................... 33
3.2. BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG TRỰC TUYẾN THEO CHỦ ĐỀ . 34
3.3. CÁC HƯỚNG TIẾP CẬN CỦA BÀI TOÁN .................................................... 35
3.4. ỨNG DỤNG CỦA BÀI TOÁN ......................................................................... 37
3.4.1. Ứng dụng trong hệ thống khuyến nghị ........................................................ 37
3.4.2. Ứng dụng trong phân nhóm khách hàng ...................................................... 38
CHƯƠNG 4: THỰC NGHIỆM, ĐÁNH GIÁ VÀ THẢO LUẬN ................................ 41
4.1. MỤC ĐÍCH VÀ CHUẨN BỊ CHO THỰC NGHIỆM ....................................... 41
4.1.1. Mục đích của thực nghiệm ........................................................................... 41
4.1.2. Các bước chuẩn bị cho thực nghiệm ............................................................ 41
4.2. KỊCH BẢN THỰC NGHIỆM VÀ THAM SỐ ĐẦU RA .................................. 48

4.2.1. Kịch bản thực nghiệm .................................................................................. 48
4.2.2. Tham số đầu ra ............................................................................................. 49
4.3. KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ VÀ THẢO LUẬN ......................... 49
4.5 CÁC HÀM Ý ĐỀ XUẤT ỨNG DỤNG CHO TỔ CHỨC, DOANH NGHIỆP.. 55
KẾT LUẬN ................................................................................................................... 59
DANH MỤC TÀI LIỆU THAM KHẢO ...................................................................... 60
PHỤ LỤC ...................................................................................................................... 62

4


DANH MỤC TỪ VIẾT TẮT
Từ viết
tắt
AI

Diễn giải

Nghĩa tiếng việt

Artificial Intelligence

Trí tuệ nhân tạo

B2C

Business to Customer

Doanh nghiệp đến khách hàng


ML

Machine Learning

Học máy

TMĐT

Thương mại điện tử

CNTT

Công nghệ thông tin

CNN

Convolutional Neural Network

Mạng nơ ron tích chập

KNN

K - Nearest Neighbors

Người láng giềng gần nhất

MNB

Multinomial Naive Bayes


Mơ hình xác suất phân lớp

SVM

Support Vector Machines

Mơ hình khơng gian véc tơ

W2Vec

Word to Vector

Mơ hình véc tơ

5


DANH MỤC BẢNG BIỂU
Bảng 4.1: Tóm tắt thơng số của các bộ dữ liệu thử nghiệm .......................................... 43
Bảng 4.2: Minh họa dữ liệu thu thập từ thực tế ............................................................. 43
Bảng 4.3: Danh sách các thuật toán được sử dụng để so sánh ...................................... 44
Bảng 4.4: Độ chính xác Accuracy trên bộ ngữ liệu 20 NewsGroups ........................... 50
Bảng 4.5 Độ chính xác F1- score trên bộ ngữ liệu 20 NewsGroups ............................. 51
Bảng 4.6: Độ chính xác các thuật tốn trên bộ ngữ liệu Tiếng Việt ............................. 52
Bảng 4.7: Kết quả F1- score trên bộ ngữ liệu Tiếng Việt ............................................. 53

DANH MỤC HÌNH VẼ
Hình 2.1: Quy trình xử lý dữ liệu bằng học máy........................................................... 17
Hình 2.2: Phân loại các thuật tốn theo phương pháp học ............................................ 18
Hình 2.3: Phân loại thuật tốn theo sự tương đồng về hoạt động ................................. 20

Hình 3.1: Mơ phỏng bài tốn ......................................................................................... 35
Hình 3.2: Ứng dụng vào hệ thống khuyến nghị sản phẩm ............................................ 38
Hình 3.3: Ứng dụng vào hệ thống phân tích dữ liệu khách hàng .................................. 40
Hình 4.1: Thu thập từ phần đánh giá sản phẩm của trang và sendo.vn
....................................................................................................................................... 42
Hình 4.2: Thu thập từ đánh giá sản phẩm của trang Facebook.com và YouTube.com 42
Hình 4.3 : Minh họa thuật tốn CNN (Kim Y. , 2014) ................................................. 45
Hình 4.4 : Minh họa thuật tốn Word2Vec (Kim Y. , 2014) ........................................ 46
Hình 4.5: Thuật tốn NB ngun thủy .......................................................................... 47
Hình 4.6 : Mơ phỏng thuật tốn SVM (......................................................................... 47
Hình 4.7: So sánh Accuracy và F1- score trên bộ 20 NewsGroups .............................. 52
Hình 4.8: So sánh Accuracy và F1- score trên bộ dữ liệu Tiếng Việt........................... 53
Hình 4.9: Phân nhóm khách hàng dựa trên học máy..................................................... 55

6


THÔNG TIN KẾT QUẢ NGHIÊN CỨU
Đề tài được thực hiện trong 08 tháng từ tháng 07 năm 2020 đến hết tháng 03 năm 2021,
trong quá trình thực hiện đề tài, nhóm nghiên cứu đã thực hiện các cơng việc sau:
-

-

-

-

-


-

-

-

Thu thập các tài liệu liên quan đến đề tài từ các nguồn khác nhau như mạng
Internet, sách, các tạp chí và các Kỷ yếu Hội thảo
Dựa trên tình hình thực tế về phát triển cơng nghệ ứng dụng, nhóm nghiên
cứu viết báo cáo kết quả của đề tài với bài báo có tên: “Discovering interest
topics of online customer by machine learning” được in trong Kỷ yếu Hội
thảo Khoa học Quốc tế: “Phát triển kinh tế và thương mại Việt Nam trong
bối cảnh bảo hộ thương mại”, tháng 08 năm 2020, NXB Hà Nội
Dựa trên tình hình thực tế về phát triển cơng nghệ ứng, nhóm nghiên cứu viết
báo cáo kết quả của đề tài với bài báo thứ hai có tên: “So sánh một số thuật
toán học máy ứng dụng trong phân tích dữ liệu khách hàng trực tuyến” được
in trong Kỷ yếu Hội thảo Khoa học Quốc gia: "Phát triển thương mại điện
tử Việt Nam trong kỷ nguyên số", tháng 11 năm 2020, NXB Thống kê
Trong quá trình nghiên cứu và thực hiện đề tài, nhóm nghiên cứu đã thực hiện
thu thập các tài liệu liên quan đến học máy từ các sách, báo, tạp chí và các
phần mềm, thư viện các thuật toán từ mạng Internet, các thuật toán phổ biến
cho học máy và các bộ dữ liệu để thực nghiệm
Quá trình thực nghiệm để so sánh các thuật tốn được nhóm thực hiện cài đặt
bằng ngơn ngữ lập Python version 3.8 trên hệ điều hành Windows 10. Môi
trường soạn thảo và thực thi mã nguồn IDE Python là Wing 101 version
7.2.50. Trong q trình thực hiện nhóm có sử dụng một số thư viện và một số
mã nguồn trên hệ thống Python online.
Đề tài nghiên cứu đã cài đặt 7 thuật toán phân loại để so sánh bao gồm: CNN,
T2V, MNB, NB, SVM, K-NN và C4.5. Tiến hành thực nghiệm trên 02 bộ dữ
liệu: Bộ dữ liệu chuẩn 20News group lấy từ hệ thống thư viện miễn phí của

đại học Stanford và bộ dữ liệu thực tế thu thập được từ một số trang thương
mại điện tử và phương tiện truyền thông xã hội của Việt Nam
Kết quả của đề tài nghiên cứu có thể sử dụng làm tài liệu tham khảo cho giảng
viên và sinh viên trong quá trình giảng dạy, học tập các học phần “Hệ thống
thông tin quản lý”, “Marketing thương mại điện tử” và “Khai phá dữ liệu
trong kinh doanh”
Ngoài ra, hướng tiếp cận của đề tài cũng được nhóm nghiên cứu sử dụng trong
định hướng đề tài làm khóa luận Tốt nghiệp của một số sinh viên chuyên
ngành Quản trị HTTT của K53S
Cuối cùng, các kết quả nghiên cứu được trình bày chi tiết cụ thể trong Báo
cáo kết quả nghiên cứu này
7


MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU
1.1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI NGHIÊN CỨU
Các phương tiện truyền thông xã hội (social media) xuất hiện vào những năm
cuối thế kỷ 20 đã tạo điều kiện thuận lợi cho hàng triệu người trên thế giới kết nối, thiết
lập và duy trì các mối quan hệ cũng như tiếp cận và chia sẻ thông tin với nhau. Sự ảnh
hưởng của các phương tiện truyền thông xã hội đến mọi mặt trong đời sống xã hội đang
ngày càng khẳng định rõ vai trò của chúng trong nhiều lĩnh vực đặc biệt là giáo dục,
kinh doanh, và các vấn đề xã hội như phát hiện lừa đảo, phát hiện tâm lý tội phạm trong
nghiên cứu của Zafarani Reza et al., [24] và D. M. Boyd et al [9]. Bên cạnh những khách
hàng cá nhân, các tổ chức, doanh nghiệp, các nhà quản lý cũng sử dụng các phương tiện
truyền thông xã hội như một kênh truyền thông mới, với nhiều ưu thế như chi phí tiết
kiệm, có hiệu quả lan truyền cao trong các hoạt động sản xuất kinh doanh của các tổ
chức, doanh nghiệp A. Abdul-Rahim et al., [1], Amedie Jacob et al., [5], Hsinchun Chen
et la., [15].
Thêm nữa, với sự phát triển không ngừng của các thiết bị di động như điện thoại

thông minh (smart phones), thiết bị cầm tay thơng minh (tablet), máy tính bảng (Ipad),
v.v. cùng với hạ tầng cơ sở viễn thông lan tỏa rộng khắp, hệ thống mạng Internet cơng
cộng phủ sóng miễn phí ở các thành phố lớn đã giúp cho các mạng xã hội ngày càng
phổ biến và lan rộng. Do đó, các cá nhân và các tổ chức, doanh nghiệp ngày càng chú ý
nhiều hơn đến các ứng dụng của mạng xã hội vào hỗ trợ các hoạt động kinh doanh, hoạt
động giáo dục, các biện pháp quản lý và điều hành trong hoạt động của các tổ chức,
doanh nghiệp.
Một chiến lược kinh doanh dựa trên quản trị quan hệ khách hàng vì vậy cần có
sự đối xử khác nhau với những khách hàng khác nhau. Một doanh nghiệp phải có khả
năng nhận diện và nhận ra những khách hàng cá nhân khác nhau và phải biết điều gì
khiến khách hàng này khác khách hàng kia. Cần có tương tác cá nhân với bất kì khách
hàng nào, đơi khi phải thay đổi hành vi để đáp ứng nhu cầu cụ thể của khách hàng đó
hay phát hiện được nhu cầu, và quan trọng là phải đem lại lợi nhuận tối đa cho khách
hàng cũng như doanh nghiệp, việc ứng dụng phân tích dữ liệu (Data Analysis) đóng vai
trị quan trọng trong việc xác định được định hướng và mục tiêu kinh doanh, khám phá
ý nghĩa đằng sau các con số và số liệu trong dữ liệu của khách hàng và có đóng góp vào
việc ra quyết định kinh doanh của các tổ chức, doanh nghiệp [1] [2].
Thông tin khách hàng cũng cung cấp cho doanh nghiệp khả năng phân biệt
khách hàng của mình với những người khác. Thông tin khách hàng là một tài sản kinh
tế, tựa như một phần của thiết bị, nhà máy hay bằng sáng chế, giúp doanh nghiệp cải
thiện sản xuất, giảm chi phí bình qn. Một khi cơng ty bắt đầu có quan điểm kinh doanh
cụ thể về khách hàng, công ty sẽ bắt đầu xem khách hàng như tài sản cần được quản trị
chu đáo như những tài sản khác. Ở khía cạnh tài chính, chiến lược kiểu này sẽ có khuynh
hướng tập trung nhiều nguồn lực của tổ chức hơn nhằm thỏa mãn nhu cầu của những
8


khách hàng đó để đem lại giá trị dài hạn cho doanh nghiệp, trong khi đó giới hạn hoặc
giảm nguồn lực với những khách hàng có giá trị thấp hơn [2].
Tạo ra và quản trị quan hệ khách hàng cá nhân có thể thất bại nếu khơng có bốn

thành tố bao gồm: Nhận diện khách hàng; Phân biệt khách hàng; Tương tác với khách
hàng và Đối xử tùy biến. Để đạt được 4 yếu tố này thì các tổ chức kinh doanh, các nhà
nghiên cứu đã đưa ra rất nhiều phương pháp và hướng tiếp cận khác nhau, tuy nhiên
trong những năm gần đây, kết hợp học máy trong phân tích dữ liệu kinh doanh nói chung
và dữ liệu về khách hàng nói riêng đã được sử dụng và được coi là một hướng tiếp cận
có nhiều kết quả tốt. Đặc biệt trong bối cảnh cách mạng công nghệ lần thứ 4 đang lan
rộng thì học máy kết hợp phân tích dữ liệu trực tuyến được coi là xu hướng mới trong
ứng dụng công nghệ thông tin vào các hoạt động kinh doanh.
Do đó, pha nhóm nghiên cứu lựa chọn đề tài “Nghiên cứu một số thuật toán
học máy (machine learning) ứng dụng cho bài toán xác định các chủ đề quan tâm
của khách hàng trực tuyến” nhằm đưa ra một báo cáo tổng quan về học máy và các
thuật toán học máy phổ biến được ứng dụng cho bài toán xác định các chủ đề quan tâm
về sản phẩm và dịch vụ của khách hàng trực tuyến trên các phương tiện truyền thơng xã
hội. Bên cạnh đó, đề tài cũng là tài liệu hỗ trợ quá trình học tập và giảng dạy nội dung
về hệ thống phân tích dữ liệu khách hàng, khai thác dữ liệu trực tuyến và như một hướng
tiếp cận trong marketing cá nhân hóa khách hàng.
Kết quả của đề tài nghiên cứu có thể sử dụng làm tài liệu tham khảo cho giảng
viên và sinh viên trong quá trình giảng dạy và học tập các học phần “Hệ thống thông tin
quản lý”, “Marketing thương mại điện tử” và “Khai phá dữ liệu trong kinh doanh”
1.2. TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU
1.2.1. Tình hình nghiên cứu trong nước
Bài tốn phân loại khách hàng đóng vai trò quan trọng trong hoạt động kinh
doanh của các tổ chức, doanh nghiệp. Phân tích dữ liệu về khách hàng khơng chỉ đơn
thuần là trình bày các con số và các số liệu để quản lý mà còn đòi hỏi một cách tiếp cận
sâu sắc hơn trong việc ghi lại, phân tích và trình bày các phát hiện theo cách dễ hiểu hơn
nhằm hỗ trợ tổ chức, doanh nghiệp trong hoạt động quản trị chăm sóc khách hàng, hoạt
động bán hàng và marketing.
Cùng với sự phát triển của công nghệ thông tin và sự lan tỏa của cuộc cách mạng
công nghệ lần thứ 4, học máy (Machine learning) cùng với các thuật toán học máy ngày
càng được ứng dụng nhiều hơn trong các bài toán kinh tế. Đặc biệt các bài toán ứng

dụng dựa trên việc khai phá dữ liệu (Data mining) hay là các bài tốn rút trích, khám
phá ra các thơng tin có giá trị hoặc đưa ra các dự đốn từ dữ liệu đã có.
Như các bài toán ứng dụng trong phát hiện bất thường (Anomaly detection),
phát hiện các ngoại lệ, ví dụ như phát hiện gian lận thẻ tín dụng; Các bài tốn Phát hiện
các quy luật (Association rules), ví dụ, trong một siêu thị hay một trang thương mại điện
tử hay việc phát hiện các quy luật của khách hàng như khi khách hàng mua món hàng
A thường mua kèm món hàng nào? Các thơng tin này rất hữu ích cho việc tiếp thị sản
9


phẩm và hỗ trợ các chiến lược quảng bá sản phẩm; Các bài tốn Gom nhóm hay phân
loại (Grouping or Classification), ví dụ, khách hàng được phân nhóm theo hành vi hoặc
thông tin hồ sơ của họ, khách hàng thường có những thói quen và hành vi dựa trên sự
yêu thích thì cũng có thể nhóm vào các lớp, … và các bài toán dự đoán (Predictions)
dựa trên dữ liệu của khách hàng, chẳng hạn như có thể dự đốn giá của căn hộ dựa trên
các dữ liệu là giá các căn hộ mà khách hàng đã từng mua hoặc đã từng quan tâm theo
dõi trước đó.
Các thuật tốn học máy được giới thiệu và ứng dụng trong nhiều bài toán kinh
tế như ứng dụng trong một số hoạt động kinh doanh cho tổ chức như Nguyễn Anh Duy
và Nguyễn Phúc Quỳnh Như [8] đã giới thiệu các ứng dụng của amazone.com bao gồm:
Hệ thống giới thiệu cá nhân (Personalized Recommendation System); có thể dùng bộ
máy lọc khách hàng (Comprehensive collaborative Filtering Engine) hoặc giới thiệu về
Các từ khóa trong Kindle Book (Recommendations from Kindle Highlighting) hay phân
loại khách hàng dựa trên hành vi Click chuột (One-Click Ordering). Hoặc ứng dụng
trong Mơ hình giao hàng dự đốn (Anticipatory Shipping Model).
Trong nghiên cứu của Phan Thanh Đức và các tác giả [8] cũng đề cập đến các
ứng dụng của phân tích dữ liệu khách hàng trong hoạt động quản trị chăm sóc khách
hàng của các ngân hàng thương mại Việt Nam. Trong nghiên cứu cũng thấy rõ những
lợi ích mà phân tích dữ liệu khách hàng trực tuyến (Big Data) tạo ra cho các ngân hàng
thương mại. Bằng việc thu thập dữ liệu từ các nguồn như các website thương mại điện

tử, mạng xã hội zalo, các nền tảng dịch vụ khác để thu thập, phân tích và đề xuất hệ
thống CRM hỗ trợ trong hoạt động chăm sóc khách hàng.
Trong nghiên cứu của Huỳnh Quyết Thắng, Đinh Thị Thu Phương [3] cũng đề
cập đến một trong hai hướng tiếp cận khi phân loại bài viết của khách hàng bằng Tiếng
Việt, sử dụng phương pháp học không giám sát (Unsupervized learning) kết hợp trong
học có giám sát (Supervised learning). Đây là một trong các kỹ thuật quan trọng trong
bài toán phân lớp văn bản dùng cho Tiếng Việt. Phương pháp này có thể áp dụng trong
các bài tốn dự đốn một kết quả đầu ra từ dữ liệu đầu vào hoặc các bài toán phân cụm
(tự gán nhãn cho các cụ dữ liệu có cấu trúc tương tự nhau, giảm chiều dữ liệu để hỗ trợ
các hình thức học khác,…).
Bài tốn gán nhãn văn bản Tiếng Việt còn được Đỗ Trung Thành, Đỗ Phúc [4]
trình bày theo mơ hình chủ đề (Topic Model), đây cũng là một hướng tiếp cận được áp
dụng khá nhiều trong bài toán phân cụm, với số lượng các chủ đề trên các phương tiện
truyền thông xã hội rất rộng thì phương pháp này cũng thương được áp dụng trong các
trang tin tức điện tử và các diễn đàn khi phân loại bài viết. Nó cũng có thể áp dụng trong
bài toán phân loại khách hàng dựa trên các nhóm sản phẩm hoặc các bài viết giới thiệu
sản phẩm của khách hàng.
Bên cạnh các đề xuất về mặt phương pháp thì Đỗ Thanh Nghị [6] cũng đề xuất
sử dụng các thư viện trong R để phân tích và thực hiện các thực nghiệm, mặc dù chưa
10


đề xuất thư viện cho ngôn ngữ Tiếng Việt, tuy nhiên R hoặc Python đều là những công
cụ hiệu quả trong ứng dụng phân tích dữ liệu theo hướng học máy.
Như vậy, hướng tiếp cận học máy trong phân tích dữ liệu, đặc biệt là dữ liệu
khách hàng đã từng bước được áp dụng trong một số nghiên cứu ở Việt Nam, tuy nhiên,
những điểm mạnh và ưu thế của học máy ứng dụng vào các bài toán cụ thể hầu như rất
ít nghiên cứu để cập đến.
1.2.2. Tính hình nghiên cứu ngoài nước
Việc xác định các hành vi và xu hướng quan tâm đến các sản phẩm, dịch vụ của

người sử dụng hay khách hàng trên các phương tiện truyền thông xã hội như các website,
các mạng xã hội, các cổng thông tin, v.v. ngày càng được chú ý và đóng vai trị quan
trọng trong các ứng dụng thực tiễn vì điều này có thể giúp các tổ chức, doanh nghiệp và
người bán hàng rút ngắn thời gian phân nhóm khách hàng, xác định tốt hơn nhóm khách
hàng mục tiêu cho trong hoạt động kinh doanh của họ như các nghiên cứu của AbdulRahim et al., [1], Ezgi và S. Mardikyan [2], Amedie Jacob et al., [5], … Bên cạnh đó,
dựa trên các phương tiện truyền thơng xã hội và các mạng xã hội, các chiến dịch quảng
cáo của các tổ chức, doanh nghiệp cũng dần chuyển sang phương thức tương tác, trao
đổi giữa người bán và người mua hơn là các chương trình chạy quảng bá, khơng tập
trung vào các mục tiêu cụ thể như trước đây. Hành vi và xu hướng quan tâm của người
sử dụng trên các mạng xã hội thường được thể hiện thông qua các tweet, các status, các
câu lệnh tìm kiếm (search queries), các bài đánh giá (reviews), v.v. của khách hàng trên
các mạng xã hội [1] [2] [5] [15], …
Các nghiên cứu nhằm phát hiện các chủ đề quan tâm về sản phẩm, dịch vụ của
khách hàng hay khách hàng trên các phương tiện truyền thông xã hội gần đây thường đi
theo hai hướng tiếp cận chính: Hướng thứ nhất là tập trung phân tích về các kết nối,
quan hệ bạn bè, danh sách những người được theo dõi, … của khách hàng trên các
phương tiện truyền thông xã hội như trong [2] [4] [10], …; Hướng thứ hai là tập trung
phân tích các bài đăng (status), các thẻ đánh dấu, các bài chia sẻ, các bình luận và các
đối tượng được sinh ra trong quá trình hoạt động của khách hàng trên các phương tiện
truyền thông xã hội [3] [5] [12] [13] [17], …, hướng tiếp cận thứ hai sẽ loại bỏ được vấn
đề về cấu trúc mạng, hay sự khó khăn trong tiếp cận thông tin cá nhân khách hàng
(profile), vì vậy, xu hướng của các nghiên cứu hiện nay đều theo cách tiếp cận này.
Các hướng tiếp cận để phân tích trong các bài tốn nghiên cứu phân loại khách
hàng theo các chủ đề quan tâm trên các phương tiện truyền thông xã hội được chia thanh
thành hai hướng tiếp cận: hướng tiếp cận ngữ nghĩa và hướng tiếp cận thống kê. Với
hướng tiếp cận ngữ nghĩa, các nghiên cứu thường dựa trên các hệ thống từ điển, hệ thống
mạng từ (WordNet) và hệ thống bản thể học (Ontology) như các nghiên cứu của
Allahyari Mehdi et al., [4], D. M. Boyd et al., [9], Faris Kateb and Jugal Kalita [12];
Với hướng tiếp cận thống kê thường dựa trên đối sánh, thống kê từ loại dựa trên độ đo
khoảng cách hoặc các phương pháp đối chiếu đã được xây dựng, hướng tiếp cận này

thường được sử dụng nhiều đối với các kiểu dữ liệu không theo quy chuẩn và rời rạc,
11


nhiều nhiễu như các nghiên cứu của A. Ezgi và S. Mardikyan [2], B. Parantapa et al.,
[6], Editor, Ijcsis [11], Liu Huan và Reza Zafarani [17], …
Các kỹ thuật thường dùng để ước lượng, nghiên cứu trong bài toán phát hiện
quan tâm của khách hàng thường sử dụng các thuật toán khai phá dữ liệu như kỹ thuật
khai phá quan điểm khách hàng dựa trên phương pháp học có giám sát bằng mạng Bayes
trong nghiên cứu của Smeureanu et al [19]; H. Ma et al., [14] lại sử dụng mô hình xác
suất để phân loại và ứng dụng trong hệ thống khuyến nghị khách hàng. Z. Yongzheng
and P. Marco [22] sử dụng kỹ thuật thống kê dựa trên N-gram để trích chọn các đặc
trưng của khách hàng, v.v..
Trong các tiếp cận sử dụng cho tiếng Việt chủ yếu là các bài toán phân loại văn
bản, bao gồm: phân loại với máy học vectơ hỗ trợ [1], cách tiếp cận sử dụng lý thuyết
tập thô [2], cách tiếp cận thống kê hình vị [3], cách tiếp cận sử dụng phương pháp học
không giám sát và đánh chỉ mục [4], cách tiếp cận theo luật kết hợp [5]. Theo các kết
quả trình bày trong các cơng trình đó thì những cách tiếp cận nêu trên đều cho kết quả
khá tốt. Tuy nhiên khó có thể so sánh các kết quả ở trên với nhau vì tập dữ liệu thực
nghiệm của mỗi phương pháp là khác nhau.
1.3. MỤC TIÊU NGHIÊN CỨU
Thứ nhất là hệ thống hóa các khái niệm về học máy, các thuật tốn sử dụng trong
phân tích dữ liệu dựa trên học máy và các ứng dụng của học máy trong các bài tốn kinh
tế.
Thứ hai là trình bày thực trạng ứng dụng phân tích dữ liệu khách hàng và khách
hàng trực tuyến bằng các công cụ công nghệ mới, sau đó trình bày bài tốn phân tích dữ
liệu khách hàng phục vụ dự báo cũng như xác định các chủ đề quan tâm của khách hàng
dựa trên học máy.
Thứ ba, đề tài trình bày một số thuật tốn học máy phổ biến ứng dụng trong phân
tích dữ liệu khách hàng trực tuyến và so sánh mức độ phù hợp của các thuật toán đối dữ

liệu lịch sử của khách hàng thu thập được trên các phương tiện truyền thông xã hội hiện
nay.
Cuối cùng, dựa trên thực trạng và kết quả thực nghiệm, đề tài đưa ra một số thảo
luận và hàm ý cho các các tổ chức, doanh nghiệp đặc biệt các tổ chức, doanh nghiệp có
tương tác với khách hàng trên các phương tiện truyền thông xã hội như website, cổng
thơng tin giải trí, các mạng xã hội hay các máy tìm kiếm.
Kết quả của đề tài nghiên cứu có thể sử dụng làm tài liệu tham khảo cho giảng
viên và sinh viên trong quá trình giảng dạy và học tập các học phần “Hệ thống thông tin
quản lý”, “Marketing thương mại điện tử” và “Khai phá dữ liệu trong kinh doanh”

12


1.4. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1.4.1. Đối tượng nghiên cứu
Các thuật toán học máy ứng dụng trong nhận diện và phân loại khách hàng trực
tuyến, các phương tiện truyền thơng xã hội có ứng dụng trong dịch vụ bán hàng trực
tuyến.
1.4.2. Phạm vi nghiên cứu
Các thuật toán học máy ứng dụng trong bài toán phân loại được ứng dụng trong
các bài toán: Phân loại khách hàng trong ứng dụng hệ thống khuyến nghị sản phẩm
(Recommendation System), Phân loại khách hàng trong bài tốn tiếp thị có mục tiêu
(Targetted Marketing) và Phân loại khách hàng theo các phân khúc (Custommer
Segmentation)
Một số phương tiện truyền thơng có hỗ trợ dịch vụ tương tác trực tiếp với khách
hàng như các mạng xã hội, các cổng thông tin và các website bán hàng
1.5. PHƯƠNG PHÁP NGHIÊN CỨU
1.5.1. Cách tiếp cận
Nhìn nhận từ thực tiễn về ứng dụng của học máy và các kỹ thuật phân tích dữ
liệu khách hàng trong các bài tốn kinh tế trong bối cảnh cách mạng cơng nghệ lần thứ

4. Sự lan tỏa của cách mạng công nghệ và sự kết hợp giữa công nghệ thông tin vào các
bài kinh tế, khả năng thu thập dữ liệu khách hàng tự động và các cơng cụ phân tích dữ
liệu trực tuyến hỗ trợ trong Marketing và Bán hàng
Tiếp cận từ các thuật tốn học máy và các cơng cụ hỗ trợ có ứng dụng học máy
trong các bài tốn thực tế như R, Python, … đặc biệt trong bài toán phân loại khách hàng
theo các chủ đề về các sản phẩm, dịch vụ mà họ quan tâm.
1.5.2. Phương pháp nghiên cứu
Nghiên cứu định tính:
Đề tài sử dụng nghiên cứu định tính trong phân tích, chứng minh, nghiên cứu các
tài liệu (quản trị quan hệ khách hàng, mơ hình học máy, các thuật toán học máy ứng
dụng cho phân loại) nhằm đưa ra một số kiến thức tổng quan về các thuật toán học máy
được ứng dụng trong bài toán phân loại khách hành theo các chủ đề về sản phẩm hoặc
dịch vụ mà họ quan tâm trên các phương tiện truyền thơng xã hội
Nghiên cứu định lượng:
Để có thể so sánh và đưa ra các thảo luận cũng như khuyến nghị cho các tổ chức,
doanh nghiệp. Đề tài có sử dụng bộ dữ liệu chuẩn 20 Newsgroups, cùng 01 bộ dữ liệu
thực thu thập trên các phương tiện truyền thông xã hội để thực nghiệm và so sánh giữa
các thuật toán trong phân nhận diện và phân loại khách hàng trực tuyến theo các chủ đề
về sản phẩm và dịch vụ quan tâm của họ.
13


Các bộ dữ liệu thực nghiệm trong đề tài bao gồm: Bộ dữ liệu 20 Newsgroups
được chúng tôi lấy từ thư viện dữ liệu thực nghiệm của Đại học Standford
( và 01 bộ dữ liệu thực tế chúng tôi thu
thập từ 02 nguồn là tự động bằng ứng dụng API và một số dữ liệu được thu thập thủ
công để xây dựng các bộ dữ liệu thực nghiệm
Quy trình nghiên cứu: Nghiên cứu được thực hiện theo hai bước:
(1) nghiên cứu sơ bộ các thuật toán được ứng dụng trong bài tốn phân tích dữ
liệu khách hàng trực tuyến và (2) nghiên cứu chính thức với phương pháp thực nghiệm

dựa trên bộ cơ sở dữ liệu chuẩn.
Từ cơ sở lý thuyết và các nghiên cứu liên quan, hình thành bảng so sánh hiệu suất
dựa trên độ đo chính xác của các kết quả thu được. Kế tiếp, thảo luận tìm hiểu thông tin
về thương mại điện tử, mua bán hàng trực tuyến và đặc biệt là việc sử dụng các thuật
tốn ứng dụng trong các bài tốn phân tích dữ liệu khách hàng trực tuyến để đưa ra lựa
chọn tối ưu cho các tổ chức, cá nhân khi muốn ứng dụng các cơng cụ khác nhau để phân
tích dữ liệu khách hàng.
Phương pháp đánh giá: Có rất nhiều độ đo được dùng để đánh giá hiệu suất hoặc
độ chính xác của các mơ hình khi kiểm nghiệm trong các nghiên cứu khoa học, trong
báo cáo của đề tài này, việc thực hiện đánh giá hiệu suất hoặc độ chính xác của các mơ
hình đề xuất được tính tốn dựa theo một số phương pháp như sau:
Đánh giá dựa trên độ chính xác (Accuracy), độ nhạy (Recall). Accuracy và
Recall được tính toán dựa trên ma trận nhầm lẫn (confusion matrix), đây là một trong
các độ đo phổ biến trong đánh giá mơ hình của các nghiên cứu về dữ liệu trên các trang
mạng xã hội như các nghiên cứu về hệ thống khuyến nghị sản phẩm, tư vấn khách hàng.
Trong đó, đánh giá dựa trên độ chính xác (𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛) được tính bằng:
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒
𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
=
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑇𝑃 + 𝐹𝑃
Recall hay độ nhạy được tính bằng:
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒
𝑇𝑃
𝑅𝑒𝑐𝑎𝑙𝑙 =
=
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑇𝑃 + 𝐹𝑁
Báo cáo của đề tài còn sử dụng F1- measure hay F1- score và độ chính xác
Accuracy để đánh giá và so sánh các kết quả thực nghiệm. Giá trị của chúng được tính
theo các cơng thức:

2 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 2 ∗ 𝑃 ∗ 𝑅
𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =
=
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃+𝑅
1.6. KẾT CẤU BÁO CÁO NGHIÊN CỨU
Báo cáo ngoài mục mở đầu, kết luận, phụ lục và tài liệu tham khảo thì có 04
chương bao gồm:
14


Chương 1: Tổng quan đề tài nghiên cứu
Chương 2. Học máy và các ứng dụng trong các bài toán kinh tế
Chương 3. Bài toán phân loại khách hàng theo chủ đề dựa trên học máy
Chương 4: Thực nghiệm, đánh giá và thảo luận

15


CHƯƠNG 2: HỌC MÁY VÀ ỨNG DỤNG TRONG BÀI TOÁN KINH TẾ
2.1. TỔNG QUAN VỀ HỌC MÁY
Học máy (Machine Learning) là một lĩnh vực con của trí tuệ nhân tạo (Artificial
Intelligence) sử dụng các thuật tốn cho phép máy tính có thể học từ dữ liệu để thực
hiện các cơng việc thay vì được lập trình một cách rõ ràng.
Học máy liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ
thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Ví dụ như các máy
có thể “học” cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự
động xếp thư vào thư mục tương ứng. Học máy rất gần với suy diễn thống kê (statistical
inference) tuy có khác nhau về thuật ngữ.
Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc

phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các
giải thuật trong việc thực thi tính tốn. Nhiều bài toán suy luận được xếp vào loại bài
toán NP-khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy
luận xấp xỉ mà có thể xử lý được.
Học máy có hiện nay được áp dụng rộng rãi bao gồm máy truy tìm dữ liệu, chẩn
đốn y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khốn, phân loại các
chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trị chơi và cử động rơbốt (Robot locomotion).
Các bài toán ứng dụng của học máy bao gồm:
Thứ nhất là trong bài toán xử lý ảnh (Image Processing): Bài tốn xử lý ảnh giải
quyết các vấn đề phân tích thơng tin từ hình ảnh hay thực hiện một số phép biến đổi
như: bài tốn gắn thẻ hình ảnh (Image Tagging); bài toán nhận dạng ký tự (Optical
Character Recognition); bài tốn ứng dụng trong ơ tơ tự lái (Self-driving cars), một phần
cơ chế sử dụng trong bài tốn của ơ tô tự lái là xử lý ảnh.
Thứ hai là trong bài tốn phân tích văn bản (Text analysis): Phân tích văn bản là
cơng việc trích xuất hoặc phân loại thơng tin từ các tài liệu hoặc dữ liệu văn bản. Các
văn bản ở đây có thể là các bài đăng trên các mạng xã hội, các nội dung trong email, các
đoạn trao đổi giữa khách hàng và doanh nghiệp hoặc các tài liệu văn bản khác, …hoặc
ứng dụng trong các bài toán lọc spam (Spam filtering). Phân loại văn bản là xác định
chủ đề cho một văn bản, dựa trên các chủ đề để phân loại hay xếp lớp sau đó lọc thành
các nhóm; ngồi ra Phân tích quan điểm (Sentiment Analysis); Khai thác thông tin
(Information Extraction), từ một văn bản, học cách để trích xuất các thơng tin hữu ích.
Chẳng hạn như trích xuất địa chỉ, tên người, từ khóa,…
Thứ ba là trong bài tốn khai phá dữ liệu: Khai phá dữ liệu (Data mining) là quá
trình khám phá ra các thơng tin có giá trị hoặc đưa ra các dự đoán từ dữ liệu như bài
toán: Phát hiện bất thường (Anomaly detection); Phát hiện các quy luật (Association
rules); Gom nhóm (Grouping) và Dự đốn (Predictions), ..

16



Thứ tư là trong bài tốn ứng dụng cho trị chơi điện tử và Robot: Trò chơi điện tử
(Video games) và robot (Robotics) là lĩnh vực lớn có sự góp mặt của machine learning.
Một kỹ thuật phổ biến được áp dụng trong trường hợp này là Học tăng cường
(Reinforcement learning).
2.2. QUY TRÌNH PHÂN TÍCH DỮ LIỆU BẰNG HỌC MÁY
Một bài tốn khi ứng dụng học máy để phân tích cần trải qua 3 bước chính:
Thứ nhất là chọn mơ hình: Chọn một mơ hình thống kê cho tập dữ liệu, ví dụ như
mơ hình thống kê Bec-nu-li, mơ hình phân phối chuẩn.
Thứ hai là tìm tham số: Các mơ hình thống kê có các tham số tương ứng, nhiệm
vụ lúc này là tìm các tham số này sao cho phù hợp với tập dữ liệu nhất có thể.
Thứ ba là suy luận hay dự đốn: Sau khi có được mơ hình và tham số, có thể dựa
vào chúng để đưa ra suy luận cho một đầu vào mới nào đó.
Quy trình phân tích dữ liệu thường có 2 giai đoạn nhỏ là Chuẩn hóa dữ liệu và
phân chia chúng thành các tập nhỏ hơn gồm:
Tập dữ liệu huấn luyện (Training set): Chiếm 60%, dùng để máy học khi huấn
luyện; Tập kiểm chứng (Cross validation set): Chiếm 20%. Dùng để kiểm chứng mơ
hình khi huấn luyện; Tập kiểm tra (Test set): Chiếm 20%. Dùng để kiểm tra xem mơ
hình đã phù hợp chưa sau khi huấn luyện.

Hình 2.1: Quy trình xử lý dữ liệu bằng học máy

(Nguồn: Nhóm nghiên cứu tổng hợp)
2.3. MỘT SỐ THUẬT TOÁN HỌC MÁY PHỔ BIẾN
2.3.1. Phân loại dựa trên phương thức học
Các thuật toán trong học máy có thể được phân nhóm dựa trên phương thức học bao
gồm: Học có giám sát (Supervised Learning), Học khơng giám sát (Unsupervised
17


Learning), Học bán giám sát (hay học kết hợp – Semi Supervised Learning) và Học tăng

cường (Reinforcement Learning) minh họa như trong Hình 2.2
Phân loại thuật tốn theo phương pháp học

Học có giám sát

Học khơng giám sát

Học bán giám sát

Học tăng cường

Hình 2.2: Phân loại các thuật tốn theo phương pháp học

(Nguồn: Nhóm nghiên cứu tổng hợp)
- Học có giám sát: Học có giám sát hay cịn gọi là học có thầy là thuật tốn dự
đốn nhãn (label)/đầu ra (output) của một dữ liệu mới dựa trên tập dữ liệu huấn luyện
mà trong đó mỗi mẫu dữ liệu đều đã được gán nhãn. Khi đó, thơng qua một q trình
huấn luyện, một mơ hình sẽ được xây dựng để cho ra các dự đoán và khi các dự đoán bị
sai thì mơ hình này sẽ được tinh chỉnh lại. Việc huấn luyện sẽ tiếp tục cho đến khi mơ
hình đạt được mức độ chính xác mong muốn trên dữ liệu huấn luyện. Điều này cũng
giống như khi chúng ta đi học trên lớp, ta biết câu trả lời chính xác từ giáo viên (tập dữ
liệu có nhãn) và từ đó ta sẽ sửa chữa nếu làm sai.
Ví dụ như trong nhận dạng chữ số viết tay, ta có ảnh của hàng nghìn trường hợp
ứng với mỗi chữ số được viết bởi nhiều người khác nhau. Hoặc người sử dụng mạng xã
hội Facebook thì khá quen thuộc với tính năng phát hiện khuôn mặt trong một bức ảnh,
bản chất của thuật tốn dị tìm các khn mặt này là một thuật tốn học có giám sát với
tập huấn luyện là vơ số ảnh đã được gán nhãn là mặt người hay khơng phải mặt người.
Các thuật tốn học có giám sát cịn được phân ra thành hai loại chính là phân lớp
(Classification) và hồi quy (Regression).
+ Phân lớp: Một bài toán được gọi là phân lớp nếu các nhãn của dữ liệu đầu vào

được chia thành một số hữu hạn lớp (miền giá trị là rời rạc). Chẳng hạn như tính năng
xác định xem một email có phải là spam hay khơng của Gmail; xác định xem hình ảnh
của con vật là chó hay mèo. Hoặc ví dụ nhận dạng ký số viết tay ở trên cũng thuộc bài
toán phân lớp, bao gồm mười lớp ứng với các số từ 0 đến 9. Tương tự cho ví dụ nhận
dạng khn mặt với hai lớp là phải và không phải khuôn mặt, … Các thuật toán phân
lớp phổ biến như K-Nearest Neighbors, mạng nơron nhân tạo, SVM, …
+ Hồi quy: Một bài tốn được xem là hồi quy nếu nhãn khơng được chia thành
các nhóm mà là một giá trị thực cụ thể (miền giá trị là liên tục). Hầu hết các bài toán dự
báo (giá cổ phiếu, giá nhà, …) thường được xếp vào bài toán hồi quy, … Các thuật tốn
hồi quy như Linear Regression, Logistic Regression, …
- Học khơng giám sát: Trái với Supervised learning, học không giám sát hay học
khơng thầy là thuật tốn dự đốn nhãn của một dữ liệu mới dựa trên tập dữ liệu huấn
luyện mà trong đó tất cả các mẫu dữ liệu đều chưa được gán nhãn hay nói cách khác là
ta khơng biết câu trả lời chính xác cho mỗi dữ liệu đầu vào. Điều này cũng giống như
18


khi ta học mà khơng có thầy cơ, sẽ khơng trí tuệ nhân tạo cho ta biết đáp án đúng là gì.
Khi đó, mục tiêu của thuật tốn unsupervised learning khơng phải là tìm đầu ra chính
xác mà sẽ hướng tới việc tìm ra cấu trúc hoặc sự liên hệ trong dữ liệu để thực hiện một
cơng việc nào đó, ví như gom cụm (clustering) hoặc giảm số chiều của dữ liệu
(dimension reduction) để thuận tiện trong việc lưu trữ và tính tốn.
Các bài tốn Unsupervised Learning tiếp tục được chia nhỏ thành hai loại là phân
cụm (Clustering) và luật kết hợp (Association Rule).
+ Phân cụm: Một bài toán phân cụm/ phân nhóm tồn bộ dữ liệu X thành các
nhóm/cụm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm. Chẳng hạn như
phân nhóm khách hàng dựa vào độ tuổi, giới tính. Điều này cũng giống như việc ta đưa
cho một đứa trẻ rất nhiều mảnh ghép với các hình dạng và màu sắc khác nhau, có thể là
tam giác, vng, trịn với màu xanh, đỏ, tím, vàng, sau đó yêu cầu trẻ phân chúng thành
từng nhóm. Mặc dù ta không dạy trẻ mảnh nào tương ứng với hình nào hoặc màu nào,

nhưng nhiều khả năng trẻ vẫn có thể phân loại các mảnh ghép theo màu sắc hoặc hình
dạng.
+ Luật kết hợp: Là bài tốn mà khi chúng ta muốn khám phá ra một quy luật dựa
trên nhiều dữ liệu cho trước. Ví như những khách hàng mua mặt hàng này sẽ mua thêm
mặt hàng kia; hoặc khan giả xem phim này sẽ có xu hướng thích xem phim kia, dựa vào
đó ta có thể xây dựng những hệ thống gợi ý khách hàng (Recommendation System)
nhằm thúc đẩy nhu cầu mua sắm hoặc xem phim….
- Học bán giám sát: Là bài toán mà khi tập dữ liệu đầu vào X là hỗn hợp các mẫu
có nhãn và khơng có nhãn, trong đó số lượng có nhãn chỉ chiếm một phần nhỏ. Phần lớn
các bài toán thực tế của học máy thuộc nhóm này vì việc thu thập dữ liệu có nhãn tốn
rất nhiều thời gian và có chi phí cao. Rất nhiều loại dữ liệu thậm chí cần phải có chun
gia mới gán nhãn được, chẳng hạn như ảnh y học hoặc các cặp câu song ngữ. Ngược lại,
dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ Internet.
Với bài tốn này, mơ hình phải tìm hiểu các cấu trúc để tổ chức dữ liệu cũng như
đưa ra dự đốn. Vì đặc điểm trung gian nên ta có thể sử dụng Unsupervised Learning để
khám phá và tìm hiểu cấu trúc trong dữ liệu đầu vào, đồng thời sử dụng Supervised
Learning để dự đốn cho dữ liệu khơng được gán nhãn. Sau đó đưa dữ liệu vừa dự đốn
trở lại làm dữ liệu huấn luyện cho supervised learning và sử dụng mô hình sau khi huấn
luyện để đưa ra dự đốn về dữ liệu mới. Một số thuật toán học tăng cường như: Self
Training, Generative Models, S3VMs, Graph-Based Algorithms, Multiview
Algorithms, …
- Học tăng cường: Học tăng tường hay học củng cố là bài toán giúp cho một hệ
thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất. Hiện
tại, Reinforcement Learning chủ yếu được áp dụng vào lý thuyết trị chơi (Game
Theory), các thuật tốn cần xác định nước đi tiếp theo để đạt được điểm số cao nhất.

19


2.3.2. Phân loại dựa trên sự tương đồng về cách hoạt động

Các thuật tốn học máy thường được phân nhóm dựa trên sự tương đồng về chức
năng hay cách thức hoạt động hoặc ứng dụng vào các bài toán mà chúng được gom
nhóm với nhau, trong nghiên cứu này chúng tôi phân chia dựa trên sự tương đồng về
các bài toán ứng dụng như sau:
Phân loại thuật toán theo sự tương đồng về hoạt động

Bài
tốn
hồi quy

Bài
tốn
dựa
trên
mẫu

Bài
tốn
chuẩn
hóa

Bài
tốn
dựa
trên
cây
quyết
định

Bài

tốn
dựa
trên
xác
suất

Bài
tốn
phân
cụm

Bài
tốn
dựa
trên
luật kết
hợp

Bài
tốn
dựa
trên
mạng
nơ-ron

Bài
tốn
dựa
trên
học sâu


Bài
tốn
giảm
chiều
dữ liệu

Hình 2.3: Phân loại thuật toán theo sự tương đồng về hoạt động

(Nguồn: Nhóm nghiên cứu tổng hợp)
Thứ nhất là các thuật toán trong bài toán hồi quy (Regression Algorithms). Hồi
quy là quá trình tìm mối quan hệ phụ thuộc của một biến (được gọi là biến phụ thuộc
hay biến được giải thích, biến được dự báo, biến được hồi quy, biến phản ứng, biến nội
sinh) vào một hoặc nhiều biến khác (được gọi là biến độc lập, biến giải thích, biến dự
báo, biến hồi quy, biến tác nhân hay biến kiểm sốt, biến ngoại sinh) nhằm mục đích
ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của
biến độc lập. Các thuật toán hồi quy phổ biến nhất như Linear Regression, Logistic
Regression, Locally Estimated Scatterplot Smoothing (LOESS), Multivariate Adaptive
Regression Splines (MARS), Ordinary Least Squares Regression (OLSR), …
Thứ hai là các thuật toán giải các bài tốn dựa trên mẫu (Instance Based
Algorithms). Mơ hình học tập dựa trên mẫu hay thực thể là bài toán ra quyết định dựa
vào các trường hợp hoặc các mẫu dữ liệu huấn luyện được coi là quan trọng hay bắt
buộc đối với mơ hình. Nhóm thuật tốn này thường xây dựng cơ sở dữ liệu về dữ liệu
mẫu và so sánh dữ liệu mới với cơ sở dữ liệu bằng cách sử dụng thước đo tương tự để
tìm kết quả phù hợp nhất và đưa ra dự đoán. Các thuật toán dựa trên thực thể phổ biến
như: K-Nearest Neighbor (KNN – K láng giềng gần nhất), Learning Vector Quantization
(LVQ), Locally Weighted Learning (LWL), Self - Organizing Map (SOM), ..
Thứ ba là các thuật toán ứng dụng cho các bài tốn chuẩn hóa (Regularization
Algorithms). Các thuật tốn chuẩn hố ra đời từ sự mở rộng các phương pháp đã có
(điển hình là các phương pháp hồi quy) bằng cách xử phạt các mơ hình dựa trên mức độ

phức tạp của chúng. Các thuật tốn chuẩn hóa phổ biến như: Elastic Net, Least Absolute
20


Shrinkage and Selection Operator (LASSO), Least - Angle Regression (LARS), Ridge
Regression, …
Thứ tư là các thuật toán dựa trên cây quyết định (Decision Tree Algorithms).
Đây là phương pháp xây dựng mơ hình ra quyết định dựa trên các giá trị thực của những
thuộc tính trong dữ liệu. Sự quyết định được rẽ nhánh trong cấu trúc cây cho đến khi
quyết định dự đoán được đưa ra cho một mẫu nhất định. Phương pháp này được sử dụng
trong việc huấn luyện dữ liệu cho bài toán phân lớp và hồi quy. Vì sự nhanh chóng,
chính xác nên phương pháp này rất được ưa chuộng trong học máy. Một số thuật toán
dựa trên cây quyết định phổ biến như: Chi - squared Automatic Interaction Detection
(CHAID), Classification và Regression Tree – CART, Conditional Decision Trees, C4.5
và C5.0, Decision Stump, Iterative Dichotomiser 3 (ID3), …
Thứ năm là các thuật toán dựa trên định lý Bayes (Bayesian Algorithms). Đây
là nhóm các thuật tốn áp dụng Định lý Bayes cho bài toán phân loại và hồi quy. Các
thuật toán phổ biến như: Averaged One-Dependence Estimators (AODE), Bayesian
Belief Network (BBN), Bayesian Network (BN), Gaussian Naive Bayes, Multinomial
Naive Bayes, Naive Bayes, …
Thứ sáu là các thuật toán phân cụm (Clustering Algorithms). Tất cả các phương
pháp đều sử dụng các cấu trúc vốn có trong dữ liệu để tổ chức tốt nhất dữ liệu thành các
nhóm có mức độ phổ biến tối đa dựa vào trọng tâm (Centroid) và thứ bậc (Hierarchal).
Các thuật toán phân cụm phổ biến như: Expectation Maximisation (EM – cực đại hoá
kỳ vọng), Hierarchical Clustering, K-Means, K-Medians, …
Thứ bảy là các thuật toán dựa trên luật kết hợp (Association Rule Learning
Algorithms). Đây là những thuật tốn sẽ rút trích ra các quy tắc giải thích tốt nhất mối
quan hệ giữa các biến trong dữ liệu. Các quy tắc này có thể giúp khám phá ra các tính
chất quan trọng và hữu ích trong các tập phân tích dữ liệu khách hàng trực tuyến và cao
chiều trong thương mại cùng các lĩnh vực khác. Các thuật toán luật kết hợp phổ biến

như: Apriori Algorithm, Eclat algorithm, FP-Growth Algorithm, ..
Thứ tám là các thuật toán dựa trên mạng nơron nhân tạo (Artificial Neural
Network Algorithms). Mạng nơron nhân tạo là các mơ hình được lấy cảm hứng từ cấu
trúc và chức năng của mạng lưới thần kinh sinh học. Nhóm thuật tốn này có thể được
sử dụng cho bài toán phân lớp và hồi quy với rất nhiều biến thể khác nhau cho hầu hết
các vấn đề. Các thuật toán phổ biến là: Back-Propagation (mạng lan truyền ngược),
Perceptron (Mạng lan truyền thẳng), Multi- Layer perceptron (Mạng truyền thẳng đa
lớp), Hopfield Network, Radial Basis Function Network (RBFN)
Thứ chín là các thuật toán dựa trên học sâu (Deep Learning Algorithms). Thực
chất Deep Learning là một phiên bản cập nhật hiện đại cho mạng nơ-ron nhân tạo
(Artificial Neural Networks) nhằm khai thác khả năng tính tốn của máy tính, tuy nhiên
vì sự phát triển lớn mạnh của chúng nên mình tách ra thành một nhóm riêng. Deep
Learning quan tâm đến việc xây dựng các mạng thần kinh lớn hơn, phức tạp hơn nhiều,
và làm sao để khai thác hiệu quả các bộ phân tích dữ liệu khách hàng trực tuyến chứa
21


rất ít dữ liệu đã được gán nhãn. Các thuật toán học sâu phổ biến là: Convolutional Neural
Network (CNN), Deep Belief Networks (DBN), Deep Boltzmann Machine (DBM),
Stacked Auto-Encoders
Cuối cùng là nhóm các thuật tốn làm giảm chiều dữ liệu (Dimensionality
Reduction Algorithms). Giống như các phương pháp phân cụm, giảm không gian tìm
kiếm và khai thác cấu trúc vốn có trong dữ liệu nhưng theo cách khơng giám sát hoặc
để tóm tắt hay mơ tả dữ liệu sử dụng ít thơng tin hơn là mục tiêu của nhóm phương pháp
này. Điều này có thể hữu ích để trực quan hóa dữ liệu hoặc đơn giản hóa dữ liệu mà sau
đó có thể được sử dụng trong phương pháp học có giám sát. Nhiều trong số các phương
pháp này có thể được điều chỉnh để sử dụng trong phân lớp và hồi quy. Các thuật toán
giảm chiều sâu dữ liệu bao gồm: Flexible Discriminant Analysis (FDA), Linear
Discriminant Analysis (LDA), Mixture Discriminant Analysis (MDA),
Multidimensional Scaling (MDS), Partial Least Squares Regression (PLSR), Principal

Component Analysis (PCA), Principal Component Regression (PCR), …
Ngồi ra, cịn có các thuật toán dành cho tập hợp (Ensemble Algorithms) và một
số thuật tốn khác nhằm kết hợp các mơ hình yếu hơn được huấn luyện độc lập và phần
dự đoán của chúng sẽ được kết hợp theo một cách nào đó để đưa ra dự đốn tổng thể.
Nhóm thuật tốn này khá mạnh và được nghiên cứu nhiều, đặc biệt là về cách để kết
hợp các mơ hình với nhau. Một số thuật toán phổ biến như: AdaBoost, Boosting,
Bootstrapped Aggregation (Bagging), Gradient Boosting Machines (GBM), Gradient
Boosted Regression Trees (GBRT), Random Forest, …
2.4. ỨNG DỤNG HỌC MÁY TRONG CÁC BÀI TOÁN KINH TẾ
Trên thế giới, Machine Learning hiện được áp dụng rộng rãi trong nhiều lĩnh vực,
bao gồm: Khai thác dữ liệu, chẩn đốn y khoa, phát hiện thẻ tín dụng giả, phân tích thị
trường chứng khốn, phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự
động, chơi trị chơi và điều hướng rơ-bốt (Robot Locomotion). Tất cả các ứng dụng trên
có một điểm chung là sử dụng “bộ não logic” được cấu thành từ các thuật toán Machine
Learning, tiếp nhận dữ liệu đầu vào đã được số hóa và thực hiện xử lý, phân tích qua
nhiều lớp, với độ phức tạp và mức độ “thông minh” ngày càng tăng lên (Deep Learning).
2.4.1. Học máy ứng dụng trong tài chính
Trong lĩnh vực tài chính, ngân hàng, học máy khi được kết hợp với các mơ hình
phân tích định lượng, phát huy hiệu quả đặc biệt trong việc tìm kiếm các bộ mẫu dữ liệu,
đưa ra những dự đoán, hỗ trợ hiệu quả ra quyết định giúp đảm bảo hoạt động kinh doanh
liên tục và kiểm soát rủi ro. Trên thế giới, cuộc chạy đua trong ngành Ngân hàng diễn
ra đặc biệt sôi động. Từ các công ty công nghệ mới thành lập như Feedzai (trong mảng
thanh toán), Shift Technology (trong mảng bảo hiểm), tới các tập đồn cơng nghệ khổng
lồ như IBM và nhóm dẫn đầu về cơng nghệ hiện tại như Google, Alibaba và các Fintech,
đang dựa vào ưu thế công nghệ để cạnh tranh, lấn sân sang lĩnh vực ngân hàng, tài chính.
Một số ứng dụng của học máy trong lĩnh vực tài chính có thể kể đến bao gồm:
22


Thứ nhất, các mơ hình dự báo tài chính: Bằng việc thu thập dữ liệu kinh doanh,

dữ liệu giá cả lịch sử và một số dữ liệu liên quan trên thị trường, một tổ chức tài chính
hay ngân hàng có thể xây dựng mơ hình dự báo giá cổ phiếu của tổ chức mình trên thị
trường chứng khốn, từ đó đưa ra các quyết định, chính sách kinh doanh phù hợp với
nhu cầu phát triển. Việc dự báo được xu thế lên xuống của thị trường cũng sẽ giúp cho
các tổ chức sử dụng tốt hơn các khoản đầu tư của mình.
Thứ hai, các mơ hình khuyến nghị khuyến cáo: Hiện nay các tổ chức tài chính,
ngân hàng có thể thu thập dữ liệu của khách hàng từ nhiều nguồn, nhiều cách khác nhau
như từ ứng dụng điện thoại, Internet banking hay các sản phẩm tài chính cá nhân. Việc
huấn luyện trí tuệ nhân tạo trên các dữ liệu này có thể giúp tổ chức hiểu rõ hơn và dự
đốn được hành vi của khách hàng, từ đó đưa ra các khuyến nghị, khuyến cáo sản phẩm
dịch vụ phù hợp hơn. Điều này cũng giúp làm tăng trải nghiệm cá nhân của khách hàng.
Một ứng dụng nữa của loại mô hình này là phát hiện ra các hành vi, thói quen thao tác
của khách hàng trên ứng dụng, sản phẩm của mình, từ đó đưa ra các chỉnh sửa, tối ưu
đối với sản phẩm.
Thứ ba, nhận dạng giọng nói: Một ứng dụng mà được ít các tổ chức chú ý đến là
việc nhận dạng giọng nói của khách hàng thu thập được qua kênh điện thoại hỗ trợ. Việc
nhận biết được giọng nói khách hàng sẽ giúp tăng cường bảo mật khi áp dụng công nghệ
phát sinh giao dịch/xác thực giao dịch thơng qua giọng nói hay xây dựng các bot trên
điện thoại thơng minh có khả năng tương tác, tư vấn và giải quyết các vấn đề cho khách
hàng thơng qua giọng nói.
Thứ tư là phân tích văn bản: Các tổ chức tài chính, ngân hàng hiện nay sở hữu
một số lượng giấy tờ rất lớn do mơ hình hoạt động truyền thống địi hỏi các nghiệp vụ
phải có văn bản. Ứng dụng trí tuệ nhân tạo vào nhận diện và phân tích văn bản có thể
giúp các tổ chức đào được các kiến thức ẩn bên trong khối lượng văn bản, từ đó đưa ra
các quyết định như tối ưu hóa quy trình nghiệp vụ, tự động phản hồi email và các khiếu
nại, yêu cầu hỗ trợ của khách hàng. Điều này giúp làm giảm đáng kể chi phí vận hành
và hoạt động của các tổ chức.
Thứ năm là phân tích hình ảnh: Với hệ thống camera cài đặt trong các phịng giao
dịch, điểm tiếp đón khách hàng hay sử dụng camera điện thoại, trí tuệ nhân tạo có thể
được ứng dụng để nhận diện khn mặt, định danh khách hàng. Kết hợp với công nghệ

nhận diện giọng nói và dữ liệu giọng nói, ngân hàng có thể phát triển các dịch vụ thanh
toán, phát sinh giao dịch bằng hình ảnh hay âm thanh thơng qua điện thoại thơng minh.
Ngồi ra, việc sử dụng trí tuệ nhân tạo nhận diện con người cũng có thể dùng để đo
lường, đánh giá hoạt động của nhân viên ngân hàng.
Thứ sáu là phát hiện gian lận và chống rửa tiền: Theo báo cáo McAfee vừa được
công bố gần đây cho thấy, trong năm 2018, nhiều vụ việc gian lận trong lĩnh vực tài
chính, ngân hàng đã được phát hiện trên tồn cầu với tổng số tiền lên đến 600 tỷ USD.
Để ngăn chặn các hành vi gian lận và rửa tiền, các ngân hàng đang gấp rút chuyển đổi
và thích ứng công nghệ để chống lại các mối đe dọa, gian lận từ bên ngồi. Các giải
pháp kích hoạt cơng nghệ trí tuệ nhân tạo và các mơ hình tài chính tiên tiến mới sẽ giúp
23


các ngân hàng xác định, phân tích dịng tiền trong thời gian thực và phát hiện các giao
dịch gian lận. Hiện nay, cơng nghệ trí tuệ nhân tạo được ứng dụng trong việc phân tích
dữ liệu của các giao dịch trong quá khứ và hiện tại, dựa trên các hành vi điển hình của
khách hàng có thể được “lọc” để phát hiện ra những vấn đề bất thường. Từ đó, dễ dàng
ngăn ngừa được các giao dịch phạm pháp hoặc có thêm xác nhận từ khách hàng được
yêu cầu trước khi giao dịch có thể tiến hành hay khơng.
Thứ bảy là các ứng dụng trong tăng cường tuân thủ: Đi kèm với tiến bộ công
nghệ là các hoạt động tội phạm trong giới tài chính, ngân hàng ngày một tăng cao. Các
tổ chức tài chính cũng phải tập trung nguồn lực, cơng nghệ ngày một nhiều vào việc
phịng chống các hoạt động phi pháp trong ngành của mình như rửa tiền hay tài trợ
khủng bố. Kết hợp cùng với các kỹ thuật như học máy, học sâu (Deep learning), khai
thác dữ liệu (data mining) và phân tích sẽ giúp các nhà quản trị ngân hàng phát hiện sớm
và ngăn chặn tốt hơn các giao dịch bất hợp pháp phát sinh trong hệ thống của mình, từ
đó tránh được nguy cơ bị phạt từ phía ngân hàng trung ương.
Cuối cùng là đánh giá rủi ro: Sử dụng nguồn phân tích dữ liệu khách hàng trực
tuyến kết hợp với các thuật toán học máy, trí tuệ nhân tạo, các ngân hàng có thể cải thiện
quy trình ra quyết định, tăng cường việc phòng ngừa và đánh giá rủi ro trong hoạt động

của mình. Với xu thế phát triển của ngành ngân hàng ngày nay, rất khó để các chun
gia dự đốn được các xu hướng rủi ro của ngành. Thêm nữa, thị trường tài chính, cơng
nghệ cũng như khách hàng ngày nay cũng bị tác động bởi chính các thuận tốn học máy
và trí tuệ nhân tạo, điều này khiến cho việc đánh giá rủi ro trở nên khó khăn hơn trước
rất nhiều.
Tuy nhiên, điều các ngân hàng có thể tập trung vào bây giờ là phát triển và cải
thiện các mô hình để đối mặt với các rủi ro mới.
Một số ứng dụng của học máy trong tài chính ngân hàng trên thực tế
Mỹ được đánh giá là cường quốc số một thế giới về năng lực phát triển trí tuệ
nhân tạo và học máy trong mọi lĩnh vực từ nghiên cứu cơ bản đến ứng dụng. Những
năm gần đây, Chính phủ Mỹ đã có rất nhiều đầu tư cho nghiên cứu phát triển cơng nghệ
liên quan đến trí tuệ nhân tạo và học máy. Vào ngày 10/5/2018, Tổng thống Trump có
cuộc gặp gỡ với nhiều cơng ty, nhà khoa học trí tuệ nhân tạo hàng đầu của Mỹ và đã
tuyên bố thành lập Ủy ban (thuộc Hội đồng Khoa học và Cơng nghệ Quốc gia) về thúc
đẩy phát triển trí tuệ nhân tạo theo phương châm “nước Mỹ trên hết”, trong đó trọng
tâm là giải quyết mất việc làm vì tự động hóa, chính phủ tăng đầu tư ứng dụng trí tuệ
nhân tạo. Những thành tựu vượt bậc của trí tuệ nhân tạo đã tác động đến mọi lĩnh vực,
kể cả ngân hàng, trí tuệ nhân tạo trong ngân hàng đang ngày càng được quan tâm và chú
trọng.
Các ngân hàng hàng đầu của Mỹ đã gia tăng đầu tư nghiên cứu và ứng dụng cơng
nghệ trong hoạt động của mình, chẳng hạn:
+ Ngân hàng JPMorgan Chase: Gần đây đã giới thiệu một nền tảng hợp đồng
thông minh (COiN) được thiết kế để phân tích các tài liệu pháp lý và trích xuất các điểm
và điều khoản dữ liệu quan trọng. Hướng dẫn xem xét 12.000 thỏa thuận tín dụng thương
24


mại hàng năm thông thường cần khoảng 360.000 giờ. Kết quả từ việc triển khai ban đầu
công nghệ máy học này cho thấy cùng một lượng thỏa thuận có thể được xem xét trong
vài giây. Emerging Opportunities Engine được giới thiệu vào năm 2015, sử dụng phân

tích tự động để giúp xác định khách hàng có vị trí tốt nhất để cung cấp vốn cổ phần tiếp
theo. Công nghệ này đã được chứng minh thành công trong thị trường vốn cổ phần và
hiện được mở rộng sang thị trường khác lĩnh vực bao gồm thị trường vốn nợ. Ngoài ra
ngân hàng dự định sẽ chính thức giới thiệu cơng nghệ trợ lý ảo tích hợp giao diện ngơn
ngữ tự nhiên (đã được thử nghiệm thành công lần đầu tiên vào năm 2016), để đáp ứng
các yêu cầu của bàn dịch vụ cơng nghệ nhân viên. Theo báo cáo từ phía ngân hàng, vào
năm 2016, ngân hàng đã đầu tư hơn 9,5 tỷ đô la vào công nghệ, với 3 tỷ đô la dành cho
các sáng kiến mới, và một phần 600 triệu đô la dành cho các giải pháp công nghệ tài
chính (Fintech) mới nổi.
+ Ngân hàng Wells Fargo: Trong nỗ lực thúc đẩy các công nghệ mới nổi và giúp
thúc đẩy sự tăng cường cơ cấu tổ chức của mình, Wells Fargo đã cơng bố thành lập một
nhóm giải pháp doanh nghiệp trí tuệ nhân tạo mới. Nhóm trí tuệ nhân tạo dưới sự bảo
trợ của nhóm thanh tốn, giải pháp ảo và đổi mới, có ba mục tiêu chính: tăng khả năng
kết nối thanh tốn của ngân hàng, tăng tốc cơ hội với trí tuệ nhân tạo và giao diện lập
trình ứng dụng tiên tiến cho khách hàng là ngân hàng và doanh nghiệp. Sau đó, ngân
hàng đã bắt đầu thử nghiệm Chatbot do trí tuệ nhân tạo điều khiển thông qua nền tảng
Facebook Messenger với vài trăm nhân viên. Trợ lý ảo này liên lạc với khách hàng để
cung cấp thông tin tài khoản và giúp khách hàng đặt lại mật khẩu. Ngân hàng nói rằng
họ có kế hoạch mở rộng giai đoạn thử nghiệm sau đó, tới vài nghìn khách hàng.
+ Ngân hàng Bank of America: Hướng đến kỷ niệm một thập kỷ của Mobile
Banking, tập đồn ngân hàng Bank of America đã có một bước tiến táo bạo vào cơng
nghệ trí tuệ nhân tạo với sự ra mắt của một trợ lý ảo thông minh có tên Erica. Chính
thức cơng bố tại hội nghị Money 20/20/2016 tại Las Vegas, được mô tả là sự kiện đổi
mới dịch vụ tài chính và thanh tốn lớn nhất thế giới, Erica là một chatbot tận dụng các
phân tích dự đoán và nhắn tin nhận thức của Nott để cung cấp hướng dẫn tài chính cho
hơn 45 triệu khách hàng của ngân hàng. Là một thành phần tích hợp của trải nghiệm
Mobile Banking, Erica được thiết kế để khách hàng có thể truy cập 24/7 và thực hiện
các giao dịch hàng ngày, ngồi việc dự đốn nhu cầu tài chính duy nhất của mỗi khách
hàng và giúp họ đạt được mục tiêu tài chính bằng cách cung cấp các khuyến nghị thông
minh. Năm 2016, ngân hàng chi 3 tỷ đô cho cải tiến công nghệ và đây cũng là năm ngân

hàng có lợi nhuận cao thứ hai trong lịch sử. Với sự đầu tư liên tục và chiến lược vào
cơng nghệ, trí tuệ nhân tạo, ngân hàng đã sẵn sàng để tiếp tục tăng trưởng kỷ lục.
+ Ngân hàng CitiBank: Nhằm đạt được lợi thế cạnh tranh trên thị trường,
Citibank đã thiết lập thành công các mối quan hệ đối tác sáng tạo với các công ty công
nghệ tiên tiến để mở rộng và cải thiện dịch vụ của mình. Thơng qua cách đầu tư và mua
lại, Citi Ventures, ngân hàng có một mạng lưới tồn cầu gồm các cơng ty cơng nghệ
tham gia vào 6 phịng thí nghiệm đổi mới toàn cầu của Citi. Trong danh mục đầu tư khởi
nghiệp, sự chú ý đặc biệt đã được dành cho thương mại điện tử và an ninh mạng. Thông
25


×