Tải bản đầy đủ (.pdf) (79 trang)

Nâng cao chất lượng quảng cáo trực tuyến sử dụng phương pháp học máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.64 MB, 79 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Võ Trọng Trung

NÂNG CAO CHẤT LƢỢNG QUẢNG CÁO TRỰC TUYẾN
SỬ DỤNG PHƢƠNG PHÁP HỌC MÁY

Chuyên ngành : Công nghệ thông tin

LUẬN VĂN THẠC SĨ KỸ THUẬT
…......................................

NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. CAO TUẤN DŨNG

Hà Nội - 2015


LỜI CẢM ƠN
Trƣớc tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Tiến sĩ
Cao Tuấn Dũng, ngƣời đã tận tình chỉ bảo và hƣớng dẫn tôi trong suốt quá trình thực
hiện luận văn.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để
học tập và nghiên cứu tại trƣờng Đại học Bách khoa Hà Nội.
Tôi cũng xin gửi lời cảm ơn tới công ty amobi đã thu thập, xử lý và cung cấp dữ
liệu giúp cho tôi có thể nghiên cứu, thử nghiệm, áp dụng vào luận văn.
Tôi xin chân thành cảm ơn!



MỤC LỤC
DANH MỤC BẢNG BIỂU ......................................................................................................... i
DANH MỤC HÌNH VẼ ............................................................................................................. ii
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................................... iii
MỞ ĐẦU ................................................................................................................................... iv
Chƣơng I
TỔNG QUAN VỀ QUẢNG CÁO TRỰC TUYẾN ............................................. 1
1.1. Quảng cáo trực tuyến là gì ............................................................................................... 1
1.2. Những ƣu điểm của quảng cáo trực tuyến ....................................................................... 1
1.3. Cách tính phí quảng cáo................................................................................................... 2
1.4. Tìm hiểu quảng cáo trên ứng dụng di động ..................................................................... 3
1.5. Vấn đề quảng cáo trúng đích ........................................................................................... 6
Chƣơng II MỘT SỐ PHƢƠNG PHÁP HỌC MÁY............................................................... 7
2.1. Giới thiệu về học máy và hệ khuyến nghị ....................................................................... 7
2.1.1 Khái niệm học máy .................................................................................................... 7
2.1.1. Hệ thống khuyến nghị ............................................................................................. 10
2.2. Một số phƣơng pháp khuyến nghị ................................................................................. 13
2.2.1. Lọc cộng tác dựa vào bộ nhớ .................................................................................. 13
2.2.2. Phƣơng pháp phân rã ma trận (Matrix-factorization) ............................................. 22
2.2.3. Phƣơng pháp đồng phân cụm ................................................................................. 28
Chƣơng III ÁP DỤNG CÁC PHƢƠNG PHÁP KHUYẾN NGHỊ VÀO BÀI TOÁN
QUẢNG CÁO TRỰC TUYẾN ................................................................................................ 35
3.1. Bài toán quảng cáo trên di động .................................................................................... 35
3.2. Phƣơng pháp đánh giá ................................................................................................... 37
3.3. Thử nghiệm .................................................................................................................... 37
3.3.1. Tiền xử lý dữ liệu .................................................................................................... 38
3.3.2. Không sử dụng phƣơng pháp học máy ................................................................... 41
3.3.3. Phƣơng pháp lọc cộng tác dựa vào ứng dụng: ........................................................ 42
3.3.4. Phƣơng pháp lọc cộng tác dựa vào quảng cáo: ....................................................... 44
3.3.5. Phƣơng pháp phân rã ma trận ................................................................................. 46

3.3.6. Phƣơng pháp đồng phân cụm ................................................................................. 50


3.4. Kết quả đạt đƣợc và đề xuất .......................................................................................... 54
Chƣơng IV HỆ THỐNG KHUYẾN NGHỊ QUẢNG CÁO .................................................. 59
4.1. Cơ sở dữ liệu .................................................................................................................. 59
4.2. Hệ thống theo dõi khuyến nghị ...................................................................................... 61
KẾT LUẬN............................................................................................................................... 67


DANH MỤC BẢNG BIỂU
Bảng 2.1: Ví dụ về lọc cộng tác ................................................................................................ 14
Bảng 2.2: Độ phức tạp thuật toán ............................................................................................. 33

Bảng 3.1: Mô tả dữ liệu view.................................................................................................... 39
Bảng 3.2: Mô tả dữ liệu click.................................................................................................... 39
Bảng 3.3: Mô tả kết quả học lọc cộng tác theo ứng dụng......................................................... 43
Bảng 3.4: Mô tả kết quả học lọc cộng tác theo quảng cáo ....................................................... 45
Bảng 3.5: Mô tả ma trận tiềm ẩn ứng dụng .............................................................................. 48
Bảng 3.6: Mô tả ma trận tiềm ẩn quảng cáo ............................................................................. 49
Bảng 3.7: Mô tả cụm ứng dụng ................................................................................................ 51
Bảng 3.8: Mô tả cụm quảng cáo ............................................................................................... 52
Bảng 3.9: Mô tả tỷ lệ click/view trung bình ứng dụng ............................................................. 52
Bảng 3.10: Mô tả tỷ lệ click/view trung bình quảng cáo .......................................................... 53
Bảng 3.11: Mô tả tỷ lệ click/view trung bình cụm ứng dụng .................................................. 53
Bảng 3.12: Mô tả tỷ lệ click/view trung bình cụm quảng cáo .................................................. 53
Bảng 3.13: Mô tả tỷ lệ click/view trung bình đồng phân cụm.................................................. 54
Bảng 3.14: Kết quả kiểm thử .................................................................................................... 55

i



DANH MỤC HÌNH VẼ
Hình 2.1: Ví dụ về xếp hạng trang web ...................................................................................... 8
Hình 2.2: Ví dụ lọc cộng tác ....................................................................................................... 9
Hình 2.3: Ví dụ nhận dạng khuôn mặt ........................................................................................ 9
Hình 2.4: Quá trình xử lý của lọc cộng tác ............................................................................... 14
Hình 2.5: Sự khác nhau giữa lọc cộng tác theo ngƣời dùng và theo item ................................ 18
Hình 2.6: Tính khoảng cách theo item ...................................................................................... 19
Hình 2.7: Ví dụ phân rã ma trận ............................................................................................... 23
Hình 3.1: Ảnh hƣớng của k tới RMSE của lọc cộng tác theo ứng dụng .................................. 42
Hình 3.2: Ảnh hƣớng của k tới RMSE của lọc cộng tác theo quảng cáo ................................. 44
Hình 3.3: Ảnh hƣớng của f tới RMSE của phân rã ma trận ..................................................... 46
Hình 3.4: Ảnh hƣớng của λ tới RMSE của phân rã ma trận ..................................................... 47
Hình 3.5: Ảnh hƣớng của k tới RMSE của đồng phân cụm ..................................................... 50
Hình 3.6: Ảnh hƣớng của l tới RMSE của đồng phân cụm ...................................................... 51
Hình 3.7: Biểu đồ so sánh thời gian học của các phƣơng pháp ................................................ 55
Hình 3.8: Biểu đồ so sánh thời gian dự đoán của các phƣơng pháp ......................................... 56
Hình 3.9: Biểu đồ so sánh tài nguyên của các phƣơng pháp .................................................... 56
Hình 3.10: Biểu đồ so sánh sai số RMSE và MAE của các phƣơng pháp ............................... 57
Hình 4.1: Mô tả cơ sở dữ liệu của hệ khuyến nghị ................................................................... 60
Hình 4.2: Chức năng top ứng dụng ........................................................................................... 61
Hình 4.3: Chức năng khuyến nghị quảng cáo cho ứng dụng .................................................... 62
Hình 4.4: Chức năng so sánh tỷ lệ click/view của ứng dụng và quảng cáo giữa dự đoán và thực
tế................................................................................................................................................ 63
Hình 4.5: Chức năng top quảng cáo.......................................................................................... 64
Hình 4.6: Chức năng khuyến nghị ứng dụng ............................................................................ 65
Hình 4.7: Chức năng so sánh tỷ lệ click/view của quảng cáo và ứng dụng giữa dự đoán và thực
tế................................................................................................................................................ 66


ii


DANH MỤC CÁC TỪ VIẾT TẮT
CSDL

Cơ Sở Dữ Liệu

CTR

Click-through Rate – Tỷ lệ click

MF

Matrix Factorization – phân rã ma trận

CPC

Cost Per Click – Giá theo lƣợt click

CPM

Cost Per Impression – Giá theo lƣợt ghé thăm

CPD

Cost per Duration – Giá theo thời gian

CPA


Cost Per Action – Giá theo hành động

CPI

Cost Per Install – Giá theo cài đặt

SGD

Stochastic Gradient Descent - Phƣơng pháp xuống đôì ngẫu nhiên

RMSE

Root Mean Square Error – Sai số bình phƣơng trung bình

MAE

Mean Absolute Error – Sai số tuyệt đối trung bình

CC

Column cluster – Cụm cột

RC

Row cluster – Cụm hàng

COC

Co-Cluster – Đồng phân cụm


iii


MỞ ĐẦU

Hiện nay với sự bùng nổ của công nghệ thông tin, lƣợng dữ liệu lƣu thông trên
internet ngày một đồ sộ, số ngƣời dùng thƣờng xuyên trực tuyến ngày càng gia tăng,
cùng với đó là sự chuyển hƣớng marketing từ các phƣơng pháp truyền thống sang
mạng toàn cầu internet. Một trong những cách quảng bá sản phẩm của các doanh
nghiệp là quảng cáo trực tuyến thông qua mạng internet. Quảng cáo trên mạng khác
hẳn quảng cáo trên các phƣơng tiện thông tin đại chúng khác, nó giúp ngƣời tiêu dùng
có thể tƣơng tác với quảng cáo. Vậy việc khai thác các tƣơng tác này để giúp hệ thống
thông minh hơn, quảng cáo trúng đích đến ngƣời tiêu dùng là một cải tiến giúp cả
doanh nghiệp tiếp cận ngƣời dùng dễ dàng hơn. Các doanh nghiệp thƣờng thông qua
các kênh quảng cáo trung gian, và chi phí và hiệu quả thông thƣờng đƣợc quy đổi
thành tỷ lệ click/view. Để quảng cáo trực tuyến hiệu quả hơn thì đồng nghĩa với việc
tăng tỷ lệ này. Để làm đƣợc điều này cần áp dụng các phƣơng pháp học máy để giúp
các hệ thống quảng cáo quảng cáo thông minh hơn, mang lại hiệu quả cao hơn.
Do đó, luận văn "Nâng cao chất lƣợng quảng cáo trực tuyến sử dụng
phƣơng pháp học máy" sau đây tìm hiểu về tổng quan về học máy, một vài phƣơng
pháp học máy, thực trạng quảng cáo trực tuyến và thử nghiệm các phƣơng pháp học
máy vào quảng cáo trực tuyến, từ đó đề xuất áp dụng học máy vào hệ thống quảng cáo
trực tuyến để nâng cao chất lƣợng quảng cáo. Về bố cục luận văn chia làm 3 chƣơng:
Chƣơng I: Trình bày về tổng quan về quảng cáo trực tuyến, các ƣu điểm so với
quảng cáo truyền thống, và đặt vấn đề về bài toán quảng cáo trên di động
Chƣơng II: Trình bày tổng quan về học máy, một số phƣơng pháp khuyến nghị
lọc cộng tác dựa vào bộ nhớ, phƣơng pháp phân rã ma trận và phƣơng pháp đồng phân
cụm
iv



Chƣơng III: Nêu bài toán quảng cáo trực truyến ở công ty amobi và áp dụng các
phƣơng pháp trình bày ở chƣơng II vào bài toán quảng cáo, đƣa ra kết luận, đề xuất áp
dụng vào việc nâng cao chất lƣợng quảng cáo bằng cách ƣu tiên các quảng cáo có dự
đoán tỷ lệ click/view lớn sẽ đƣợc ƣu tiên hiển thị lên ứng dụng.
Chƣơng IV: Xây dựng hệ thống khuyến nghị, theo dõi tƣơng quan của việc áp
dụng hệ khuyến nghị trong việc dự đoán tỷ lệ click/view và thực tế.


Chƣơng I
TỔNG QUAN VỀ QUẢNG CÁO TRỰC TUYẾN
1.1. Quảng cáo trực tuyến là gì
Tƣơng tự các loại hình quảng cáo báo giấy, truyền hình, áp phích,... quảng cáo
trực tuyến cũng nhằm mục đích cung cấp thông tin, giúp ngƣời dùng tiếp cận sản phẩm
và thúc đẩy việc mua bán giữa ngƣời dùng và doanh nghiệp. Nhƣng quảng cáo trực
tuyến khác hẳn quảng cáo trên các phƣơng tiện thông tin đại chúng khác, nó giúp
ngƣời tiêu dùng có thể tƣơng tác với quảng cáo. Khách hàng có thể nhấn vào quảng
cáo để lấy thông tin, cung cấp đánh giá, hoặc mua sản phẩm cùng mẫu mã trên quảng
cáo đó.
Quảng cáo trực tuyến đã tạo cơ hội cho các nhà quảng cáo nhắm chính xác vào
khách hàng của mình, và giúp họ tiến hành quảng cáo theo đúng với sở thích và thị
hiếu của ngƣời tiêu dùng. Các phƣơng tiện thông tin đại chúng khác cũng có khả năng
nhắm chọn, nhƣng chỉ có mạng Internet mới có khả năng nhắm chọn chính xác nhất.
Khái niệm nhà quảng cáo ở đây đƣợc hiểu là ngƣời có chuyên môn, chịu trách
nhiệm cho một thƣơng hiệu hay sản phẩm trong việc thiết lập và giám sát một chiến
dịch quảng cáo.

1.2. Những ƣu điểm của quảng cáo trực tuyến
Khả năng nhắm chọn
Quảng cáo trực tuyến có rất nhiều khả năng nhắm chọn vào doanh nghiệp,

ngƣời dùng mà không bị giới hạn về địa lý, quốc gia, lĩnh vực hoạt động. Họ cũng có

1


thể dựa vào sở thích cá nhân và hành vi của ngƣời tiêu dùng để nhắm vào đối tƣợng
thích hợp.
Khả năng theo dõi
Những nhà quảng cáo có thể theo dõi hành vi của ngƣời dùng đối với các sản
phẩm mà họ quảng cáo, tìm hiểu các khách hàng tiềm năng. Thông qua tƣơng tác click,
xem, mua,... từ các quảng cáo, thì các nhà quảng cáo dễ dàng xác định hiệu quả của
một quảng cáo mà không cần tốn nhiều công sức, việc mà đối với các loại quảng cáo
có truyền thống khó thực hiện.
Tính linh hoạt và khả năng phân phối
Quảng cáo trực tuyến có thể đƣợc triển khai vào bất cứ thời gian nào và bất cứ
khoảng thời gian nào mà nhà quảng cáo cũng có thể cập nhật hoặc hủy bỏ chiến dịch
quảng cáo vào bất cứ lúc nào. Qua quá trình theo dõi hiệu quả quảng cáo vào tƣng
khoảng thời gian bất kỳ, nhà quảng cáo có thể phân phối quảng cáo ra các kênh khác
nhau, cập nhật các thông tin liên quan hoặc hủy bỏ chiến dịch một cách dễ dàng, điều
mà khó có thể thay đổi ở các loại hình quảng cáo truyền thống.
Tính tƣơng tác
Khả năng tƣơng tác giữa quảng cáo và ngƣời dùng trong quảng cáo trực tuyến
cực kỳ cao. Ngƣời dùng có thể dùng một cú click chuột để xem thông tin chi tiết về sản
phẩm, mua luôn sản phẩm mà họ đang xem thông qua các liên kết điều hƣớng.

1.3. Cách tính phí quảng cáo
Theo thời gian: CPD (Cost per Duration), Chi phí đƣợc tính thông qua thời
gian đăng quảng cáo.

2



Theo lƣợt xem: CPM (Cost per Impression), Chi phí đƣợc tính dựa trên lƣợt
xem của ngƣời dùng, nói cách khác là lƣợt tiếp cận của ngƣời dùng đến quảng cáo,
thông thƣờng đƣợc tính dựa vào block mỗi 1000 lƣợt xem
Theo lƣợt click: CPC (Cost per Click) hay PPC (Pay per Click), Cách tính này
dựa vào các click của ngƣời dùng lên quảng cáo, có nghĩa là dựa vào khách hàng tiềm
năng, họ quan tâm đến sản phẩm.
Theo giá trị: CPA (Cost Per Action hoặc Cost Per Acquisition) hay PPP
(Pay Per Performance), hình thức này dựa vào sự chuyển đổi hiệu quả quảng cáo thành
khách hàng, khách hàng có thể là đăng ký tài khoảng vào hệ thống của doanh nghiệp
hay là hoàn thành mua đơn hàng từ quảng cáo
Theo lƣợt cài đặt: CPI (Cost Per Install), là hình thức mà doanh nghiệp sở
hữu ứng dụng trả tiền cho nhà quảng cáo ứng dụng đó thông qua số lƣợt ngƣời dùng
cài ứng dụng từ quảng cáo, thƣờng đƣợc áp dụng cho các ứng dụng trên điện thoại di
động.

1.4. Tìm hiểu quảng cáo trên ứng dụng di động
Quảng cáo mobile (theo (tên tiếng anh: Mobile Ads) là hình
thức nhắm chọn quảng cáo tới những ngƣời sử dụng điện thoại di động có kết nối
internet. Cũng giống nhƣ quảng cáo nhắm tới ngƣời sử dụng máy vi tính, quảng cáo
mobile có thể dƣới dạng text, banner hay video. Điều khác biệt là những mẫu quảng
cáo này sẽ có kích thƣớc nhỏ hơn cho phù hợp với rất nhiều cấu hình màn hình mobile
khác nhau, và quảng cáo đƣợc hiển thị trên các website, ứng dụng (application) dành
cho mobile, game cho ngƣời dùng mobile chứ không phải cho ngƣời dùng máy vi tính.

3


Tại sao quảng cáo mobile?

Theo số liệu của Trung tâm internet Việt Nam, tính tới tháng 7 năm 2012 Việt
Nam đã có tới 31 triệu ngƣời dùng internet, chiếm hơn 35% dân số cả nƣớc. Trong đó,
số truy cập internet qua mobile chiếm tới 38% tổng các truy cập internet và tỷ lệ này
không ngừng tăng lên nhanh chóng do điện thoại thông minh ngày càng phổ biến.
Do kích thƣớc màn hình nhỏ và nhu cầu sử dụng mobile không giống nhƣ sử
dụng máy vi tính, hàng loạt các website thông tin, game, các ứng dụng hữu ích đƣợc
thiết kế dành riêng cho ngƣời dùng mobile. Quảng cáo nhắm đến đối tƣợng ngƣời sử
dụng mobile vì thế cũng cần đƣợc điều chỉnh về kích thƣớc, cách thức xuất hiện và nơi
đặt cho phù hợp.
Ngƣời dùng mobile cũng có thói quen truy xuất thông tin liên quan việc mua
sắm khác với ngƣời dùng máy tính, do vậy các marketer thƣờng tách riêng các chiến
dịch quảng cáo nhắm chọn riêng nhóm đối tƣợng khách hàng sử dụng mobile internet
để có thể đo lƣờng và đánh giá hiệu quả cụ thể.
Quảng cáo trên di động dễ kích thích ngƣời tiêu dùng thực hiện hành động mục
tiêu nhƣ mua hàng, đăng ký tài khoản, download phần mềm – ứng dụng,… Ngay khi
chứng kiến banner hiển thị tại wapsite, mạng xã hội,… khách hàng có thể dễ dàng tra
từ khóa tìm hiểu sản phẩm, tìm ra địa chỉ gần nhất bán sản phẩm đó, gọi điện đặt hàng,
lƣu sự kiện – chƣơng trình khuyến mãi vào lịch nhắc nhở hay tải – cài đặt game và ứng
dụng ngay tức thì,…
Lợi ích của quảng cáo trên di động: Dễ dàng giúp khách hàng tƣơng tác ngay
với doanh nghiệp:
- Gọi điện đặt hàng, tìm hiểu thông tin
- Lƣu số điện thoại vào danh bạ
4


- Lƣu website vào bookmark
- Tìm đƣợc địa chỉ gần nhất
- Lƣu sự kiện, chƣơng trình khuyến mại vào lịch nhắc nhở…
- Click > tải > cài đặt > sử dụng các ứng dụng, game… ngay tức thì

Sở dĩ quảng cáo mobile ngày càng phát triển bởi những nguyên nhân:
- Lƣợng ngƣời sử dụng smartphone ngày càng đông. Số ngƣời truy cập internet
trên mobile cũng tăng chóng mặt.
- Quảng cáo trên mobile sẽ không phụ thuộc vào không gian và thời gian
- Tăng mức độ nhận biết về nhãn hiệu/ thƣơng hiệu của bạn
- Định hƣớng sự chú ý của khách hàng vào quảng cáo
- Đo lƣờng hiệu quả quảng cáo chính xác và nhanh chóng.
- Chi phí thấp
- Khả năng nhắm chọn đối tƣợng mục tiêu dễ dàng:
+ Nhắm chọn theo vùng miền
+ Nhắm chọn theo hệ điều hành
+ Nhắm chọn theo hãng sản xuất
+ Nhắm chọn theo nhà mạng

5


Quảng cáo trong Game/ Ứng dụng
Đây là hình thức quảng cáo dựa trên các mạng quảng cáo di động, cho phép các
nhà phát triển phần mềm hay công ty quảng cáo có thể quảng cáo sản phẩm của mình
trực tiếp trên ứng dụng của các sản phẩm với các hệ điều hành khác nhau.

1.5. Vấn đề quảng cáo trúng đích
a) Thực trạng quảng cáo trên di động hiện nay ở Việt Nam:
- Sự thiếu tin tƣởng của các doanh nghiệp: Mặc dù chi phí ít hơn nhƣng khi làm
quảng cáo, không nhiều doanh nghiệp tại Việt Nam chọn quảng cáo trực tuyến. Có lẽ
vì họ không thực sự tin tƣởng vào chất lƣợng của quảng cáo đó cũng nhƣ hiệu quả mà
nó mang lại cho doanh nghiệp. Quảng cáo trên di động còn khá mới mẻ và thƣờng
không đánh trúng nhu cầu của khách hàng.
- Dị ứng quảng cáo: Những banner dày đặc trên các website, ứng dụng làm

phiền ngƣời sử dụng do họ không có nhu cầu về sản phẩm đƣợc quảng cáo.
b) Giải pháp quảng cáo trúng đích
Phát triển chuyên sâu quảng cáo trực tuyến trên di động. Hiện tại rất ít các công
ty phát triển chuyên sâu về quảng cáo di động trực tuyến ở Việt Nam, dẫn đến thị
trƣờng quảng cáo trên di động chủ yếu phụ thuộc vào công ty nƣớc ngoài nhƣ google,
yahoo... Để quảng cáo trên di động thu hút đƣợc sự tin tƣởng của các doanh nghiệp thì
tỷ lệ click/view quảng cáo phải đạt tỷ lệ cao, tức là ngƣời dùng thấy hứng thú với các
quảng cáo mà họ bắt gặp và đúng thứ họ cần, cũng nhƣ doanh nghiệp tiếp cận đúng
khách hàng để họ click để xem chi tiết sản phẩm đƣợc quảng cáo.
Để thực hiện điều đó thì ứng dụng học máy để phân tích hành vi ngƣời dùng,
đƣa ra quảng cáo hợp lý giới thiệu tới ngƣời dùng là hết sức cần thiết.

6


Chƣơng II

MỘT SỐ PHƢƠNG PHÁP HỌC MÁY
2.1. Giới thiệu về học máy và hệ khuyến nghị
2.1.1 Khái niệm học máy
Con ngƣời có nhiều cách học khác nhau nhƣ học ký ức, học các sự kiện nhờ
thông qua sự quan sát và khám phá, học cải thiện kỹ năng thông qua thực tiễn, học nhờ
sự phát triển của hệ thần kinh sinh học của con ngƣời và nhờ gen di truyền từ thế hệ
này sang thế hệ khác,... Dù cách học có thế nào đi chăng nữa thì mục tiêu của việc học
là thu thập thông tin mới và xử lý tri thức mới sao cho thích nghi với tình huống mới.
Giống với cách học của con ngƣời, ngƣời ta muốn xây dựng các chƣơng trình máy tính
sao cho máy có khả năng thu thập tri thức mới và xử lý tri thức mới sao cho thích nghi
với tình huống mới, tự động xử lý mà không có hoặc ít có sự can thiệp của con ngƣời
để đƣa ra các quyết định, kết quả hợp lý.
Học máy hay máy học là một lĩnh vực trong trí tuệ nhân tạo nghiên cứu và xây

dựng các chương trình máy tính nhằm tối ưu một tiêu chí xử lý tính toán nào đó bằng
cách sử dụng dữ liệu hay kinh nghiệm đã có [5,31] .Chúng ta cần đến phƣơng pháp
học khi mà chúng ta không thể viết chƣơng trình tính toán trực tiếp theo một công thức
hay một xử lý tuần tự nào đó để giải quyết vấn đề, mà cần tới dữ liệu hoặc kinh nghiệm
đã có và đƣợc học bổ sung thêm trong quá trình hoạt động. Việc học cần thực hiện khi
mà không cần sự hiện diện của con ngƣời hoặc chính con ngƣời nhiều khi cũng không
thể giải thích đƣợc vì sao có những quyết định, vấn đề do chính con ngƣời đƣa ra.
Chúng ta cần thiết có một hệ thống mà có thể thích ứng với những hoàn cảnh
khác nhau hơn là viết các chƣơng trình khác nhau cho từng trƣờng hợp riêng biệt. Hay
nói cách khác học máy là lĩnh vực nghiên cứu về khả năng học của máy tính mà không
cần phải lập trình tường minh ngay từ đầu [13,3] - Arthur Samuel (1959).

7


Ứng dụng của học máy

Hiện tại, có rất nhiều ứng dụng thành công của học máy trong các lĩnh vực khác
nhau [1,3]:
- Xếp hạng (Ranking) trang web

Hình 2.1: Ví dụ về xếp hạng trang web

8


- Lọc cộng tác

Hình 2.2: Ví dụ lọc cộng tác


Hình 2.3: Ví dụ nhận dạng khuôn mặt
- Nhận dạng giọng nói
- Nhận dạng chữ viết
- Mô phỏng các nhân vật trong trò chơi
- Dự đoán kết quả kinh doanh
- Xe hơi có thể tự lái
- Robot tự chủ
---

9


2.1.1. Hệ thống khuyến nghị
a) Hệ khuyến nghị là gì?
Trong cuộc sống hàng ngày, có những lựa chọn trƣớc khi đƣợc đƣa ra, ngƣời ta
thƣờng tham khảo dựa trên những ý kiến hay lời khuyên của mọi ngƣời xung quanh
qua các lời khuyên, đánh giá về sản phẩm …. Trong máy tính, đặc biệt là mạng internet
dữ liệu thƣờng rất lớn và biến đổi không ngừng tăng lên mỗi ngày, do đó yêu cầu cần
phải có các phƣơng pháp tự động thu thập thông tin và đƣa ra lời khuyến nghị để hỗ trợ
cho ngƣời sử dụng có đƣợc những lựa chọn thích hợp.
Hệ thống khuyến nghị (Recommender systems hoặc Recommendation systems)
là những công cụ phần mềm và kỹ thuật cung cấp khuyến nghị các item được sử dụng
cho một người dùng [16,1]. Hệ thống khuyến nghị là một phân lớp của hệ thống lọc
thông tin, tìm cách dự đoán trƣớc mức độ ƣu tiên của ngƣời dùng với đối tƣợng sản
phẩm. Hệ thống khuyến nghị đã trở nên rất phổ biến trong những năm gần đây và đƣợc
áp dụng trong rất nhiều lĩnh vực khác nhau nhƣ âm nhạc, phim ảnh, thƣơng mại, tin
tức, sách báo, truy vấn tìm kiếm, ...
"Item" là thuật ngữ chung dùng để chỉ những gì hệ thống khuyến nghị cho
ngƣời dùng. Một hệ thống khuyến nghị thƣờng tập trung vào một loại hình cụ thể của
item (ví dụ, đĩa CD, hay tin tức) và theo cấu trúc của nó hay giao diện ngƣời dùng đồ

họa, và các kỹ thuật khuyến nghị chính đƣợc tùy chỉnh để đƣa ra các gợi ý hữu ích và
hiệu quả cho item cụ thể. Hệ thống khuyến nghị đƣợc dùng chủ yếu hƣớng đến các đối
tƣợng ngƣời dùng không có khả năng xem hết một lƣợng lớn các sản phẩm trên trang
web.
b) Phân loại

10


Để thực hiện chức năng chính của hệ khuyến nghị, đƣa ra các items hữu ích cho
ngƣời dùng, nó phải dự đoán đƣợc đánh giá của ngƣời dùng đối với các item khác
nhau. Các bƣớc khuyến nghị có thể không đƣợc rõ ràng trong các thuật toán nhƣng có
thể khái quát hóa có các mô hình sau đây [16,10]:
- Khuyến nghị dựa trên nội dung (Content-based)
Hệ thống thực hiện một cách tiếp cận khuyến nghị dựa trên phân tích nội dung
một tập hợp các tài liệu hoặc các mô tả về các item trƣớc đây đƣợc đánh giá bởi ngƣời
dùng, và xây dựng một mô hình hay hồ sơ về sở thích ngƣời dùng dựa trên các đặc tính
của các đối tƣợng đƣợc đánh giá bởi ngƣời dùng. Về mặt tổng quát thì trong các hệ
thống lọc dựa trên nội dung khác nhau có thể khác nhau về chi tiết nhƣng nhìn chung
thì các hệ thống này đều phải tạo một hồ sơ về ngƣời dùng và thực hiện so sánh các sản
phẩm với hồ sơ của ngƣời dùng để thực hiện khuyến nghị. Hồ sơ cá nhân biểu diễn một
cách có cấu trúc những quan tâm, sở thích của ngƣời dùng, thông qua khuyến nghị item
mới. Quá trình khuyến nghị cơ bản bao gồm xem xét sự phù hợp các thuộc tính của hồ
sơ ngƣời dùng với các thuộc tính của nội dung của một đối tƣợng. Kết quả là hệ thống
đƣa ra một dự đoán liên quan đại diện cho mức độ quan tâm của ngƣời dùng quan tâm
với đối tƣợng đó. Nếu một hồ sơ phản ánh chính xác sở thích của ngƣời dùng thì nó sẽ
hữu ích cho quá trình tiếp cận thông tin.
- Lọc cộng tác
Phƣơng pháp này dựa khuyến nghị cho ngƣời dùng các items mà những ngƣời
dùng khác có cùng thị hiếu tƣơng tự. Sự giống nhau của thị hiếu của hai ngƣời dùng

đƣợc tính dựa vào sự tƣơng đồng trong lịch sử đánh giá của ngƣời sử dụng. So với lọc
theo nội dung, lọc cộng tác không phải phân tích, bóc tách, hiểu, đánh chỉ mục cho các
đặc trƣng nội dung sản phẩm. Chính vì vậy, lọc cộng tác có thể lọc hiệu quả trên nhiều
dạng sản phẩm khác nhau nhƣ hàng hóa, phim, ảnh, tài liệu... Cùng trên một hệ khuyến

11


nghị, ngƣời dùng sẽ đƣợc khuyến nghị nhiều loại item khác nhau cho dù các item này
có thể biểu diễn trên không gian các đặc trƣng nội dung khác nhau.
Ví dụ: một ngƣời u1 dùng thích phim A, B, C, D, một ngƣời dùng khác u2 đã
thích phim A, B, C thì có thể họ cũng sẽ thích phim D
- Nhân khẩu học (Demographic)
Đây là loại hệ thống khuyến nghị các item dựa trên các hồ sơ nhân khẩu học của
ngƣời dùng. Với giả định là các khuyến nghị khác nhau nên đƣợc tạo ra cho các cụm
dân cƣ khác nhau.
Ví dụ: Ngƣời dùng ở Việt Nam tìm kiếm trên google thì google sẽ ƣu tiên trả về
kết quả các trang web ở Việt Nam, hoặc theo độ tuổi của ngƣời dùng...
- Dựa trên tri thức (Knowledge-based)
Hệ tri thức đƣa ra các khuyến nghị các items trên các hiểu biết về các lĩnh vực
cụ thể phụ thuộc vào đặc tính tiếp cận của item và ngƣời dùng, làm thế nào hữu ích
nhất cho ngƣời dùng. Hệ thống khuyến nghị dựa trên tri thức là một loại hình cụ thể
của hệ thống khuyến nghị đƣợc dựa trên kiến thức rõ ràng về các loại mặt hàng, sở
thích của ngƣời dùng, và các tiêu chí khuyến nghị (ví dụ, các mặt hàng đƣợc khuyến
nghị dựa trên bối cảnh nào). Những hệ thống này đƣợc áp dụng trong các tình huống
nơi mà các phƣơng pháp thay thế nhƣ lọc cộng tác và lọc dựa trên nội dung không thể
đƣợc áp dụng. Một thế mạnh chủ yếu của hệ thống khuyến nghị dựa trên tri thức là sự
không tồn tại vấn đề cold-start. Một nhƣợc điểm tƣơng ứng là bị thắt nút cổ chai thu
thập lại kiến thức lƣu lại khi cần thiết của việc định nghĩa kiến thức khuyến nghị một
cách rõ ràng.

- Dựa vào cộng đồng (Community-based)

12


Là loại hệ thống khuyến nghị item dựa vào sở thích của bạn bè ngƣời dùng. Kỹ
thuật này dựa vào câu thành ngữ "Hãy nói cho tôi những ngƣời bạn của bạn là ai, và tôi
sẽ cho bạn biết bạn là ai". Con ngƣời có xu hƣớng dựa nhiều hơn vào các khuyến nghị
từ bạn bè hơn là trên các khuyến nghị từ các cá nhân tƣơng tự nhƣng vô danh, khuyến
nghị dạng này thƣờng dựa vào các mạng xã hội nhƣ facebook, twitter,... xác định mối
quan hệ xã hội giữa các ngƣời dùng và sở thích của họ. Các mạng xã hội cung cấp kết
nối của các chiều khác nhau: mọi ngƣời có thể là bạn bè với nhau, họ có thể có lợi ích
tƣơng tự nhau, và có thể xếp hạng nội dung tƣơng tự. Những chiều khác nhau có thể
đƣợc sử dụng để phát hiện các cộng đồng trong quần thể. Sử dụng kỹ thuật phát hiện
cộng đồng, hành vi tập thể ngƣời sử dụng có thể dự đoán.
- Hệ thống khuyến nghị lai (Hybrid recommender systems)
Là những hệ thống cố gắng kết hợp các loại hệ khuyến nghị kể trên. Với loại
này hệ khuyến nghị cố gắng hạn chế nhƣợc điểm của nhau bằng cách kết hợp ƣu điểm
của loại khác vào. Ví dụ hệ thống lọc cộng tác bị nhƣợc điểm là item mới chƣa có đánh
giá nào của ngƣời dùng dẫn đến item không đƣợc đƣa ra để khuyến nghị, nhƣng hệ
thống dựa vào nội dung không phụ thuộc những đánh giá này, chúng có thể dựa vào
các đặc tính item thƣờng sẵn có.

2.2. Một số phƣơng pháp khuyến nghị
2.2.1. Lọc cộng tác dựa vào bộ nhớ
a) Lọc cộng tác

Lọc cộng tác hoạt động bằng cách xây dựng dựa trên cơ sở dữ liệu mối quan hệ
giữa item với ngƣời dùng [3,1]. Một ngƣời dùng mới U1, đƣợc khai phá với cơ sở dữ
liệu để xác định các hàng xóm, trong đó có những ngƣời dùng khác trong lịch sử đã có

thị hiếu tƣơng tự nhƣ U1. Các items mà các hàng xóm thích sẽ đƣợc khuyến nghị cho
U1. Ý tƣởng cơ bản của thuật toán lọc cộng tác là để cung cấp các item khuyến nghị
13


hoặc dự đoán dựa trên ý kiến của ngƣời sử dụng thực sự khác. Các ý kiến của ngƣời sử
dụng có thể thu đƣợc một cách rõ ràng từ ngƣời dùng hoặc bằng cách sử dụng một số
biện pháp tiềm ẩn.

Hình 2.4: Quá trình xử lý của lọc cộng tác
Giả sử có một danh sách m ngƣời dùng U = {u1, u2, ..., um)
và danh sách n item I = {i1, i2,..., in}. Với mỗi ngƣời dùng ui có một danh sách
các item Iui ⊆ I mà ngƣời dùng đã đánh giá, bày tỏ ý kiến về nó.
i1

i2

i3

i4

i5

u1

1

2

1




2

u2

2

4

2





u3

1



2

3

1

u4


5

1



2

2

Bảng 2.1: Ví dụ về lọc cộng tác

14


Dữ liệu của lọc cộng tác thƣờng đƣợc cho bởi ma trận đánh giá ngƣời dùng-item
R kích thƣớc m x n, trong đó mỗi hàng tƣơng ứng với ngƣời dùng ui và mỗi cột tƣơng
ứng với item ij. Giá trị rij của mỗi thành phần biểu thị sự đánh giá hoặc sự yêu thích, sự
phù hợp của ngƣời dùng ui lên sản phẩm ij tƣơng ứng.
Tồn tại ngƣời dùng ua gọi là ngƣời dùng kích hoạt, nhiệm vụ của lọc cộng tác
tìm các item tiềm năng, bài toán lọc cộng tác là bài toán dự đoán đánh giá của ua đối
với những item mà ua chƣa đánh giá (raj= ∅), trên cơ sở đó khuyến nghị cho ua những
item đƣợc đánh giá cao. Quá trình khuyến nghị dựa vào 2 quá trình [3,4]:
- Dự đoán: một giá trị raj tiềm năng của item ij ∉ Iua với ngƣời dùng kích hoạt ua
dự đoán đánh giá mà ngƣời dùng ua sẽ đánh giá item ij
- Khuyến nghị: một danh sách N item Ir ⊂ I đƣợc lựa chọn sẽ hữu ích nhất cho
ngƣời dùng kích hoạt ua . Danh sách khuyến nghị bao gồm các Top N item mà ngƣời
dùng ua chƣa đánh giá Ir ∩ Iua = Φ
Hình 2.4 cho thấy quá trình xử lý của lọc cộng tác, trong đó mỗi quan hệ giữa m


ngƣời dùng và n item đƣợc biểu thị bằng ma trận m x n, trong đó mỗi giá trị aij là điểm
đánh giá/xếp hạng của ngƣời dùng i với item j.
Có 2 phƣơng pháp tiếp cận [3,4]:
* Các thuật toán dựa trên bộ nhớ
Phƣơng pháp này sử dụng toàn bộ dữ liệu ngƣời dùng-item cơ sở để tạo ra một
dự đoán. Các hệ thống này sử dụng kỹ thuật thống kê để tìm một tập hợp của ngƣời sử
dụng, đƣợc gọi là các láng giềng, có một lịch sử tƣơng tác tƣơng đồng với ngƣời dùng
mục tiêu (tức là, các đánh giá mặt hàng của họ có khác nhau tƣơng tự hoặc cuối cùng
họ mua một tập item tƣơng tự nhau) hoặc mối liên quan giữa các item đƣợc ngƣời
dùng đánh giá. Khi một hàng xóm của ngƣời dùng hoặc item đƣợc hình thành, các hệ
15


thống loại này sử dụng các thuật toán khác nhau để tận dụng các thuộc tính láng giềng
để tạo ra một dự đoán hoặc top N item khuyến nghị cho ngƣời dùng. Có 2 loại đƣợc áp
dụng là lọc cộng tác dựa vào ngƣời dùng và lọc cộng tác dựa vào item.
Phƣơng pháp đƣợc thực hiện theo hai bƣớc: Tính toán mức độ tƣơng tự và bƣớc
tạo nên dự đoán:
+ Tính toán mức độ tƣơng tự sim(x, ỵ): Mô tả khoảng cách, sự liên quan, hay
trọng số giữa hai ngƣời dùng x và y (hoặc giữa hai sản phẩm x và y).
+ Dự đoán: Đƣa ra dự đoán cho ngƣời dùng cần đƣợc khuyến nghị bằng cách
xác định tập láng giềng của ngƣời dùng này. Tập láng giềng của ngƣời dùng cần
khuyến nghị đƣợc xác định dựa trên mức độ tƣơng tự giữa các cặp ngƣời dùng hoặc
sản phẩm.
* Các thuật toán dựa mô hình
Thuật toán lọc cộng tác dựa trên mô hình cung cấp khuyến nghị các item trƣớc
hết bằng cách phát triển một mô hình xếp hạng của ngƣời dùng. Các mô hình mạng
Bayes rất nổi tiếng cho phƣơng pháp này. Mô hình phân cụm của lọc cộng tác đƣợc
thực hiện nhƣ nhƣ một vấn đề phân loại và kết quả là các phân nhóm ngƣời dùng tƣơng

tự trong cùng một lớp và ƣớc tính xác suất mà một ngƣời dùng cụ thể là trong một lớp
C nói riêng, và từ đó tính toán xác suất có điều kiện của đánh giá. Các phƣơng pháp
tiếp cận dựa trên nguyên tắc áp dụng thuật toán phát hiện luật kết hợp để tìm mối liên
quan giữa việc mua/đánh giá item và sau đó tạo ra item đƣợc khuyến nghị dựa trên sức
mạnh của sự liên kết giữa các mục.
b) Lọc cộng tác dựa vào ngƣời dùng (User-based Collaborative)

Thuật toán lọc cộng tác dựa trên ngƣời dùng đƣa ra danh sách khuyến nghị cho
đối tƣợng ngƣời dùng theo quan điểm của ngƣời dùng khác. Các giả định là nếu xếp

16


×