Tải bản đầy đủ (.pdf) (24 trang)

Hệ tư vấn sản phẩm dựa vào kỹ thuật RANDOM WALK

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.24 MB, 24 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<small>HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG</small>

NGUYEN DUY HUNG

<small>Chuyên ngành: KHOA HỌC MAY TINHMã số: 60.48.01.01</small>

TÓM TẮT LUẬN VĂN THẠC SĨ

<small>HÀ NỘI - 2014</small>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>Luận văn được hồn thành tại:</small>

<small>HỌC VIEN CƠNG NGHỆ BƯU CHÍNH VIÊN</small>

<small>Có thê tìm hiệu luận văn tại:</small>

<small>- _ Thư viện của Học viện Cơng nghệ Bưu chính Viễn</small>

<small>thơng</small>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

MỞ ĐẦU

<small>Tư vân, gợi ý đóng vai trò càng ngày cảng lớn</small>

trong cuộc sống của chúng ta. Hệ thống tư vấn (Recommender System) tự động đề xuất các nội dung mà có thé thu hút người dùng. Với mức tăng trưởng nhanh

chóng của mạng lưới truyền thông, và sự bùng nỗ của

mạng xã hội, đã tạo điều kiện cho con người dễ dàng truy cập, tìm kiếm thơng tin. Nhưng chính sự phong phú của thơng tin trực tuyến đã gây ra vấn đề quá tải thông tin (information overload). Chang hạn như bạn muốn mua

một chiếc điện thoại, nhưng thật khó khăn để có thể đọc

hết các bài đánh giá cho một sản phẩm trước khi đưa ra quyết định mua hàng.

Hệ thống tư vấn giảm tải thông tin cho người dùng băng cách tự động gợi ý những sản phẩm phủ hợp cao với

<small>lợi ích của người dùng. Gợi ý chính xác cho phép người</small>

dùng nhanh chóng có được sản phẩm mong muốn mà

<small>khơng bị tràn ngập bởi các thông tin không liên quan. Và</small>

đó cũng là mối quan tâm lớn của các nhà cung cấp dé giới

thiệu những sản phẩm phù hợp với nhu cầu của mỗi khách

truy cập của trang web của họ, hy vọng khiến khách hang

hài lòng và quay lại. Hệ tư vấn là một ứng dụng cụ thé của

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

kĩ thuật lọc thông tin, mục tiêu là cỗ gang đưa ra các thông tin phù hợp nhất với những gì mà người dùng quan tâm. Điều nay rat quan trọng đối với sự thành công của thương

<small>mại điện tử nói riêng và ngành cơng nghiệp cơng nghệthơng tin hiện nay.</small>

<small>Mục đích nghiên cứu của luận văn là phương pháp</small>

tư van sản phẩm sử dụng các quan hệ xã hội cho hệ tu van. Trong đó, chú trọng nghiên cứu kỹ thuật Random Walk đã được các tác giải đề xuất trong [20]. Đánh giá và so sánh kết quả thực hiện của kỹ thuật Random Walk với

<small>các phương pháp khác.</small>

Nội dung đồ án bao gồm:

Chương I : Giới thiệu về hệ tư vấn xã hội

Chương II : Phương pháp tư vấn sản phẩm bằng kỹ

<small>thuật random walk</small>

<small>Chương III : Thử nghiệm và đánh gia</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

CHUONG 1 - GIỚI THIEU VE HE TU VAN XÃ HOI 1.1 Phát biểu bài toán của hệ tư van xã hội

Trong hệ tư van ta có một tap users: U =

{u,,...,Uy} và một tap items I = {i,,..., iy}. Xép hang thé hiện bởi các user trên tập items được đưa ra trong một ma trận đánh giá R = |r„¡Ìxxw- Trong ma trận, ry, ¡ biểu thi sự đánh giá của người sử dụng u đối với đối tượng i. 7 ; có thé là một số thực, nhưng thường mức đánh giá là số

<small>nguyên trong khoảng [1, 5]. Trong mang xã hội, mỗi</small>

người dùng u có N, hàng xóm trực tiếp, Và tiy biểu thị độ

giá trị độ tin cậy của người u đối với người dùng v, là 1 số

<small>thực trong khoảng [0, 1]. Gia trị 0 nghĩa là không tin</small>

tưởng, giá trị 1 nghĩa là tin tưởng tuyệt đối. Mạng tin cậy nhị phân là mạng tin cậy phổ biến nhất. Giá tri tin cậy

<small>được cho bởi ma trận T = [/„„Ì„x. Những ơ ¢,, khác 0</small>

trong T biểu thị sự ton tai quan hệ xã hội giữa u và v. Lưu

ý T là bất đối xứng.

<small>Như đã thảo luận trước đó, hai nhiệm vụ chung có</small>

thé định nghĩa cho một hệ thống tư van: dự báo đánh giá

(Rating Prediction) và khuyến cáo top-N (Top-N

Recommendation). Trong phần tiếp theo chúng ta chính

<small>thức xác định hai vân đê:</small>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<small>Rating Prediction: Cho một user u € U va item</small>

i €l may, ; chưa biết, tính tốn dự đốn đánh giá của u

<small>trên item i, 7,,; sử dụng ma trận đánh gia R và mạng xã hội</small>

<small>Top-N Recommendation: Cho một user u € U va</small>

ma tran danh gia R, dua ra khuyén cdo N items mong

<small>muôn nhât, ma user u chưa từng đánh giá.</small>

1.2 Phân loại các hệ tư van xã hội

Các item chưa rate có thể được ước tính bằng nhiều

<small>cách khác nhau sử dụng các phương pháp từ học máy, lý</small>

thuyết xấp xỉ, và các chân đoán khác nhau. Hệ thống tư vấn thường được phân loại theo cách tiếp cận của chúng

để dự tính xếp hạng. Trong phan tiếp theo, chúng ta sẽ trình bày một cách phân loại đã được đề xuất trong nhiều

tài liệu và sẽ cung cấp một cuộc khảo sát của các loại khác nhau của hệ thống tư van. Hệ thống tư thường được phân

<small>thành các loại sau đây:</small>

°Ò Tu vấn dựa trên nội dung: Người sử dụng sẽ được

khuyến cáo các item tương tự như những người sử

<small>dụng ưa thích trong quá khứ.</small>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

«Ổ Tu van cộng tac: Khuyén nghị được thực hiện dựa

trên xếp hạng bởi những người có cùng sở thích

<small>trong quá khứ. Phương pháp lọc cộng tác chỉ khaithác lịch sử đánh giá của người sử dụng và không</small>

xem xét các tính năng nội dung của sản phẩm hoặc

<small>thơng tin cá nhân của người sử dụng.</small>

© Phuong pháp lai: Phương pháp này kết hợp phương

<small>pháp cộng tác và phương pháp dựa trên nội dung.</small>

1.2.1 Hệ tư vẫn dựa trên nội dung

Trong phương pháp dựa trên nội dung, xếp hạng dự

<small>đoán Ÿ„¡ của item i cho người dùng u được ước lượng dựa</small>

trên xếp hạng r„ j ân định bởi người dùng u đối với item

j€ I mà tương đồng với item i. Ví dụ, trong một chương trình khuyến nghị xem phim, phương pháp này cỗ gang hiểu sự tương đồng giữa những bộ phim mà người dùng u đã đánh giá trong quá khứ (diễn viên, đạo diễn, thể loại,

chủ đề đặc trưng, v.v.)

Hệ tư vấn dựa vào nội dung phân tích đặc tả của item để xác định những items nao đặc biệt gây hứng thú với người dùng. Đồng thời sự tương quan của người dùng

<small>được tính tốn từ thơng tin cá nhân của họ.</small>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

1.2.2 Hệ tư van cộng tác

Không giống như các phương pháp khuyến cáo dựa trên nội dung, hệ thống tư vẫn hợp tác (hoặc hệ thống lọc cộng tác) cố gắng dé dự đoán giá của các mặt hàng cho một người dùng cụ thé dựa trên xếp hạng đã được thé hiện

<small>bởi người dùng này và những người dùng khác. Lưu ý</small>

rằng các mô tả sản phẩm hoặc sử dụng hồ sơ không được

khai thác trong tư vấn cộng tác.

1.2.3 Hệ tw van lai

Một vài hệ thống tư vấn sử dụng một phương pháp lai bằng cách kết hợp phương pháp cộng tác và dựa trên nội dung, giúp tránh những hạn chế nhất định của các hệ thống dựa trên nội dung và cộng tác [11, 12, 24, 92, 102, 105, 109]. Những cách khác nhau dé kết hợp các phương pháp cộng tác và dựa trên nội dung vào một hệ thống tư vấn lai có thể được phân loại như sau [1]:

<small>¢ Thực hiện riêng biệt các phương pháp cộng tác va</small>

dựa trên nội dung và kết hợp dự đoán của chúng.

° Kết hợp một số đặc điểm dựa trên nội dung vào

<small>cách tiêp cận cộng tác.</small>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

°ÒỒ Kết hợp một số đặc điểm cộng tác vào phương

pháp tiếp cận dựa trên nội dung.

© - Xây dựng một mơ hình thống nhất tổng quát mà kết

<small>hợp cả hai đặc điêm dựa trên nội dung và cộng tác.</small>

1.3 Các phương pháp cỗ điển cho hệ tư van mạng xã

Chúng ta sẽ giải quyết, làm rõ các van dé của mạng xã hội trong hệ tư vấn, các thuật ngữ “soclal network” và “trust network”, tìm hiểu về mạng quan hệ xã hội (Social Relation Network). Tiếp đến, chúng ta sẽ đánh giá từng phương pháp cô điển được sử dụng cho mạng xã hội trong

hệ tư van.

Mạng xã hội trong hệ tư vấn:

<small>Chúng ta sẽ dựa vào các đặc tính của mạng xã hội</small>

dé sử dụng nâng cao khả năng dự đoán trong hệ tư van.

Trong suốt đồ án này, chúng ta sẽ sử dụng hai thuật

<small>ngữ “social network” và “trust network”. “Social</small>

<small>network” là mang các người dung trong đó người dùng</small>

được liên kết với nhau thông qua mối quan hệ xã hội (social relation) giéng như quan hệ bạn bè. Qua thực

<small>nghiệm, xu hướng đánh giá sản phâm của người dùng chịu</small>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

ảnh hưởng một phần từ ban bẻ, người than của họ bởi vậy ở chương này chúng tơi sẽ giới thiệu một số thuật tốn cổ

<small>điên sử dụng mạng xã hội trong hệ tư vân.</small>

1.4 Kết luận chương

Chương I của đồ ánchúng ta đã tìm hiểu một số van dé của hệ tư van va các phương thức khác nhau đã được sử dụng trong hệ tư van va sẽ làm rõ các van đề về tư vấn trong mạng xã hội, tìm hiểu về mạng quan hệ xã

<small>hội (Social Relation Network).</small>

Ở chương tiếp theo đồ án sẽ trình bay về các

phương pháp tiếp cận mới nhăm khắc phục những nhược

<small>điêm cịn tơn tại ở các phương pháp trên.</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

CHƯƠNG 2 - PHƯƠNG PHAP TƯ VAN SAN PHAM

<small>BANG KY THUẬT RANDOM WALK</small>

<small>2.1 Giới thiệu phương pháp tiép cận</small>

<small>Trong chương này, chúng ta sử dụng các tác động</small>

ảnh hưởng đến hành vi của người sử dụng trong một SRN và đề xuất các phương pháp dựa vào random walk trên SRN dé dự đoán rating, dự đoán liên kết và top-N khuyến

nghị. Phương pháp random walk cung cấp một cách tiếp

cận có nguyên tắc để xác định sự tương quan giữa hai người dùng u và v trong một mạng chỉ dựa trên các cầu

trúc liên kết mạng (mạng topo). Độ tương quan được định nghĩa bởi xác suất trạng thái ôn định của một lượt đi bắt

đầu từ u đến v. Mơ hình random walk đã được sử dụng dé giải quyết các vấn đề dự đoán liên kết, kết hợp hiệu ứng

chuyên dịch vào dự đoán liên kết.

2.2 Phương pháp Random Walk cho hệ tư vẫn xã hội

Trong phần này, chúng ta bàn đến phương pháp

tiếp cận dựa trên Random Walk để khuyến nghị các item

và các liên kết link. Phương pháp RW đã được đề xuất để

giải quyết các bài toán dự đốn liên kết. RW được sử dụng để tính toán độ tương quan giữa các cặp nút chỉ dựa trên

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

cau trúc mạng. Cụ thé hơn, dé dự đoán link cho một nút u

<small>trong mạng, Random Walk with Restart (RWR) hoạt động</small>

như sau: Xem xét bat đầu đi từ nguồn wu. Walker lặp lại các bước tới hàng xóm của nó với xác suất tỉ lệ với trọng số cạnh. Cũng ở mỗi bước, nó có xác suất c dé quay lại nguồn u. Số điểm thích hợp của nốt v liên quan tới nốt u được định nghĩa là xác suất trạng thái 6n định mà cuối cùng walker sẽ đứng yên tại v. Những nút có số điểm thích hợp cao nhất là top-N recommend users. Trọng số cạnh được tinh theo cách chuẩn hóa ma trận kề. Xác suất restart c là một hằng số trong RWR và không phân biệt giữa các nút trong mạng tiêu chuẩn khởi động. Chú ý trong RWR,

số điểm thích hợp nút v liên quan tới sự thật là độ do sự

<small>tương quan giữa 2 nut trong mang topo.</small>

Cốt lõi đẳng sau RWR là tính bắc cầu quan hệ xã

<small>hội. Nói cách khác, những người hàng xóm của một hàng</small>

xóm được coi là giá tri tạo ra một mối quan hệ xã hội.

RWR chỉ xem xét các mạng xã hội như đồ thị với các nút

<small>và các cạnh. Trong một mạng xã hội rating, chúng ta có</small>

xếp hạng người dùng trên các cấu trúc liên kết của các

<small>mạng xã hội. Các nhà xã hội học tin răng người dùng có</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

xu hướng hình thành các mối quan hệ xã hội với người có

<small>sở thích tương tự. Hiện tượng này được gọi là homophilyhoặc lựa chọn xã hội. Lựa chọn xã hội đã được nghiên cứu</small>

như một trong những tác động ảnh hưởng đến người sử

<small>dụng trong khi tạo ra các môi quan hệ xã hội.</small>

<small>2.3 Mơ hình dự đốn TrustWalker</small>

Thách thức chủ yếu trong dự đốn rating dựa trên

lịng tin là quyết định khám phá mạng như thế nào. Có

một sự cân bằng giữa độ chính xác và phạm vi bao phủ: cứ tiếp tục đi, càng có tìm được nhiều raters, nhưng ít tin tưởng, nhưng sự đánh giá của họ càng ít tin cậy. Cách tiếp cận của chúng tơi để tìm một sự cân bằng tốt là dựa trên quan sát. Rating thé hiện bởi bạn bè thân thiết đối với các item tương đồng là đáng tin cậy hơn rating thể hiện bởi

một hảng xóm ở rất xa khơng đáng tin đối với chính xác

item. Điều này thúc day chúng ta kết hợp các phương pháp tiếp cận dựa trên lịng tin và dựa trên item.

Ta đề xuất một mơ hình đi bộ ngẫu nhiên, được gọi

<small>là TrustWalker, trong đó xem xét không chi rating của</small>

<small>item, ma cả những item tương tự. Xác suât của việc sử</small>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<small>dụng rating của một item tương tự thay vi rating của item</small>

đích, gia tăng với sự gia tăng quãng đường đi. Về cơ bản, mơ hình của chúng ta bao gồm hai thành phan chính:

random walk trên mạng tin cậy và lựa chọn sản phẩm theo

xác suất. Việc đi bộ ngẫu nhiên thực hiện tìm kiếm trong

mạng tin cậy, và lựa chọn các item tương tự để tránh đi

<small>quá sâu trong mạng. Vì vậy, mơ hình của chúng ta cải</small>

thiện độ chính xác bằng cách tìm các rater ở một khoảng

cách gan hơn và tăng độ phủ băng cách xem xét các mặt

<small>hàng tương tự cũng như mục tiêu đích.</small>

Để dự đoán rating cho nguồn Up VỚI mục tiêu 7,

<small>chúng ta thực hiện bước đi ngẫu nhiên trên mạng tin cậy,</small>

bắt đầu từ uy dé tìm một người đã đánh giá cho i hoặc các item tương tự như i. Các chi tiết random walk sẽ được thảo luận sau phần này. Mỗi bước đi ngẫu nhiên trả về

một gia tri rating. Chung ta thực hiện một số bước di ngẫu

nhiên, và sự kết hợp của tất cả các rating được trả về bởi

<small>các cách đi khác nhau được gọi là dự đốn 1, ;.</small>

Quy ước về kí hiệu, chúng ta sử dụng các ký hiệu

<small>1, V, W, ... cho người 7, 7, ... cho các item, và & là bước di.</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<small>Bảng 2.1 Các ký hiệu sử dụng trong</small>

<small>Kihiệu Mô tả</small>

Puik Xác suất dừng lại tại ở bước k

<small>Xi Biến ngẫu nhiên đến nút v ở bước k bat đầu đi từ wXi Biến ngâu nhiên đến nút v sau 1 số bước bắt đầu đi</small>

<small>Sy Bién ngau chọn người v trong tap hang xóm N„</small>

<small>Yui Bién ngau nhiên chon item 7 trong tap items được</small>

<small>đánh giá boi u</small>

<small>XY ui Biến ngẫu nhiên dừng tại v, chọn biến ngẫu nhiên /</small>

<small>được đánh giá bởi v, bắt đầu từ wu</small>

<small>Nui Chi số rating biéu diễn + đánh giá i</small>

<small>Pui Chi số rating dự đoán u đánh giá i</small>

<small>buy Giá trị biểu diễn độ tin tưởng giữa u va v</small>

<small>2.3.1 Một đường di random walk don</small>

Moi random walk trong mơ hình TrustWalker đều

bắt đầu từ nguồn Up. Mỗi bước k của random walk, chúng

ta xác định một nút . Nếu u đã đánh giá item dich i, random walk dừng va trả về z„; là kết quả của random walk. Nếu chưa đánh giá i, có 2 lựa chon:

Với xác suất 2, ,„„ random walk dừng ở nút uv, chon

<small>ngẫu nhiên | trong các item / tương tự item dich 7, đánh</small>

giá bởi w, kết quả là r„„.

Với xác suất 1- 2„;„, random walk tiếp tục đi đến

nút v là hàng xóm tin cậy trực tiếp của u (v E N,)

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<small>Sự tương quan giữa các items</small>

Trong tư van dựa trên nội dung, sự tương quan giữa các item có thể tính tốn bằng các đặc tính của chúng. Dĩ

nhiên trong lọc cộng tác, chi thơng tin về rating là có thé

dùng được. Ké từ đây, dé tính độ tương tự giữa 2 items,

<small>chúng ta sử dung Pearson Correlation. Gia tri của Pearson</small>

<small>Correlation trong khoang [-1,1]. Gia tri 4m nghia la su</small>

tương quan của 2 items di ngược nhau, vi thé chúng là vơ

<small>ích trong hoàn cảnh này.</small>

<small>Sự tương quan giữa các người dùng</small>

<small>Độ tương quan của 2 người dùng được định nghĩa</small>

<small>tương tự như độ tương quan giữa 2 items.</small>

Kết thúc một random walk

Với mỗi người uv, random walk có xác suất đ„;z

<small>đứng ở u chọn một trong các items của u ở bước thứ & trên</small>

random walk, trong khi tìm kiếm dự đốn rating item đích i. Xác suất này liên quan đến độ tương quan giữa các items của u với item đích i. Giá tri tương quan là 1 số thực trong khoảng [0,1], vì thế chúng ta có thé coi nó là xác

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

suất ln. Chúng ta cũng coi độ tương quan lớn nhất trong các items đánh giá bởi u với item dich i là xác suất dừng

<small>lại tại ú.</small>

<small>2.3.2 Dự đoán rating trong TrustWalker</small>

Trong TrustWalker, chúng ta có xác suất chọn items đánh giá bởi các user khác và trả về giá trị rating đó là kết quả của random walk. Những items nảy có thể đúng la i, cũng có thé khác. Ước lượng rating của nguôn u đối

với item ¡ được hi vọng là giá trị ratings trả về bởi các

<small>random walk khác nhau.</small>

Do chúng ta không biết qua bao nhiêu bước dé đến v, chúng ta không bàn đến nhân tố k (Thực tế ¢,,; = đ„¡„). Thực tế nếu muốn ta vẫn có thé đưa k vao đây, nhưng dé

có một cơng thức đóng, chúng ta bỏ qua nhân tố k ở người dùng cuối v ma cho ra kết quả xác suất gần đúng đẹp nhất.

Đồng thời, lưu ý rang trong trường hợp v = u vai = j là

<small>không đáng bàn bởi người dùng đó đã đánh giá lên chính</small>

<small>item đích.</small>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<small>2.4 Mơ hình LinkWalker</small>

Trong phan này chúng ta sử dung những ý tưởng được giới thiệu trong TrustWalker, và đề xuất mơ hình

LinkWalker, nhằm giải quyết bài toán dự đoán Top-N liên

kết. TrustWalker thực hiện một loạt các random walk để

<small>dự đốn cho item đích. Tuy nhiên, trong dự đoán top-N,</small>

mục tiêu là để đưa ra top người dùng đáng tin cậy hơn là việc dự đoán rating cho một item nhất định. Trong

<small>TrustWalker, sau khi mỗi random walk dừng, một trong</small>

<small>các item mà người hiện tại đánh giá sẽ được lựa chọn</small>

ngẫu nhiên, và giá trị rating này là kết quả của random walk. Ở LinkWalker, khơng có item đích, cũng khơng có người dùng nào mà random walk dừng lại tại đó rồi trả về kết quả. LinkWalker trả về một danh sách người dùng chứ

khơng phải | con số rating dự đốn như TrustWalker.

Để khuyến nghị top-N liên kết tới nguồn uo,

LinkWalker thực hiện random walks trên mạng tin cậy bắt

đầu từ up đi tìm những người đáng tin cậy với up. Chi tiết

random walk như thế nào sẽ bàn ở mục sau. Mỗi random

walk trả về một người được khuyến cáo dé tạo liên kết tin

<small>cậy. LinkWalker thực hiện một loạt random walk va sử</small>

</div>

×