tầm quan trọng ngày càng tăng của web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (402.8 KB, 38 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

Chương 1 Giới thiệu về hệ thống gợi ý

1.1 Giới thiệu

Tầm quan trọng ngày càng tăng của Web như một phương tiện cho các giaodịch điện tử và kinh doanh đã đóng vai trị là động lực cho sự phát triển củacông nghệ hệ thống gợi ý. Một chất xúc tác quan trọng trong vấn đề này làsự dễ dàng mà Web cho phép người dùng đưa ra phản hồi về những điều họthích hoặc khơng thích. Ví dụ: hãy xem xét kịch bản của một nhà cung cấpnội dung như Netflix. Trong những trường hợp như vậy, người dùng có thểdễ dàng cung cấp phản hồi chỉ bằng một cú nhấp chuột đơn giản. Mộtphương pháp điển hình để cung cấp phản hồi là ở dạng xếp hạng, trong đóngười dùng chọn các giá trị bằng số từ một hệ thống đánh giá cụ thể (ví dụ:hệ thống xếp hạng năm sao) chỉ rõ lượt thích và lượt khơng thích của họ đốivới các mục khác nhau.

Các dạng phản hồi khác khơng hồn tồn rõ ràng nhưng thậm chí cịn dễthu thập hơn trong mơ hình lấy Web làm trung tâm. Ví dụ: hành động đơngiản là người dùng mua hoặc duyệt một mặt hàng có thể được xem là sựchứng thực cho mặt hàng đó. Những hình thức phản hồi như vậy thườngđược sử dụng bởi những người bán trực tuyến như Amazon.com và việcthu thập loại dữ liệu này hoàn toàn dễ dàng xét theo yêu cầu công việc củakhách hàng. Ý tưởng cơ bản của hệ thống tư vấn là sử dụng các nguồn dữliệu khác nhau này để suy ra sở thích của khách hàng. Thực thể được cungcấp đề xuất được gọi là người dùng và sản phẩm được đề xuất cũng đượcgọi là một mặt hàng. Do đó, phân tích đề xuất thường dựa trên sự tương táctrước đó giữa người dùng và sản phẩm, bởi vì sở thích và xu hướng trongquá khứ thường là những chỉ báo tốt về các lựa chọn trong tương lai. Mộtngoại lệ đáng chú ý là trường hợp của hệ thống tư vấn dựa trên kiến thức,trong đó các khuyến nghị được đề xuất trên cơ sở các yêu cầu do ngườidùng chỉ định chứ không phải dựa trên lịch sử quá khứ của người dùng.

Vì vậy, nguyên tắc cơ bản làm nền tảng cho hoạt động của các thuật toánđề xuất là gì? Nguyên tắc cơ bản của khuyến nghị là tồn tại sự phụ thuộcđáng kể giữa hoạt động lấy người dùng và vật phẩm làm trung tâm. Ví dụ:người dùng quan tâm đến phim tài liệu lịch sử có nhiều khả năng quan tâmđến phim tài liệu lịch sử hoặc chương trình giáo dục khác hơn là phim hànhđộng. Trong nhiều trường hợp, các danh mục mặt hàng khác nhau có thểcho thấy mối tương quan đáng kể, mối tương quan này có thể được tậndụng để đưa ra đề xuất chính xác hơn. Ngồi ra, các phần phụ thuộc có thểxuất hiện ở mức độ chi tiết hơn của các mục riêng lẻ thay vì các danh mục.Những sự phụ thuộc này có thể được tìm hiểu theo cách dựa trên dữ liệu từma trận xếp hạng và mơ hình kết quả được sử dụng để đưa ra dự đoán chongười dùng mục tiêu. Số lượng mục được xếp hạng có sẵn cho người dùngcàng lớn thì càng dễ dàng đưa ra dự đoán chắc chắn về hành vi trong tươnglai của người dùng. Nhiều mơ hình học tập khác nhau có thể được sử dụngđể hồn thành nhiệm vụ này. Ví dụ: hành vi mua hoặc xếp hạng chung củanhiều người dùng khác nhau có thể được tận dụng để tạo nhóm gồm những

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

người dùng tương tự quan tâm đến các sản phẩm tương tự. Sở thích và hànhđộng của các nhóm này có thể được tận dụng để đưa ra khuyến nghị chotừng thành viên của các nhóm này.

Mơ tả nói trên dựa trên một nhóm thuật tốn đề xuất rất đơn giản, đượcgọi là mơ hình vùng lân cận. Họ này thuộc về một lớp mơ hình rộng hơn,được gọi là lọc cộng tác. Thuật ngữ "lọc cộng tác" đề cập đến việc sử dụngxếp hạng từ nhiều người dùng theo cách cộng tác để dự đoán xếp hạng bịthiếu. Trong thực tế, hệ thống gợi ý có thể phức tạp hơn và giàu dữ liệuhơn, với nhiều loại dữ liệu phụ trợ khác nhau. Ví dụ: trong các hệ thống đềxuất dựa trên nội dung, nội dung đóng vai trị chính trong quy trình đề xuất,trong đó xếp hạng của người dùng và mơ tả thuộc tính của các mặt hàngđược tận dụng để đưa ra dự đoán. Ý tưởng cơ bản là sở thích của ngườidùng có thể được mơ hình hóa dựa trên các thuộc tính (hoặc thuộc tính) củacác mục mà họ đã xếp hạng hoặc truy cập trước đây. Một khuôn khổ kháclà khuôn khổ của các hệ thống dựa trên tri thức, trong đó người dùng xácđịnh mối quan tâm của họ một cách tương tác và đặc tả người dùng đượckết hợp với kiến thức miền để đưa ra khuyến nghị. Trong các mơ hình nângcao, dữ liệu theo ngữ cảnh, chẳng hạn như thơng tin thời gian, kiến thứcbên ngồi, thơng tin vị trí, thơng tin xã hội hoặc thơng tin mạng, có thểđược sử dụng.

Cuốn sách này sẽ nghiên cứu tất cả các loại hệ thống cơ bản, bao gồmcác hệ thống cộng tác, dựa trên nội dung và dựa trên tri thức. Chúng tacũng sẽ thảo luận về cả mô hình cơ bản và mơ hình nâng cao của hệ thốnggợi ý trong các lĩnh vực khác nhau. Chúng tôi sẽ nghiên cứu các khía cạnhkhác nhau về tính mạnh mẽ của hệ thống gợi ý, chẳng hạn như mô hình tấncơng và việc xây dựng các mơ hình đáng tin cậy. Ngồi ra, nhiều mơ hìnhđánh giá và lai ghép cho các hệ tư vấn sẽ được nghiên cứu kỹ lưỡng. Trongchương này, mục tiêu là cung cấp một cái nhìn tổng quan về tính đa dạngcủa cơng việc trong lĩnh vực hệ thống gợi ý, đồng thời liên hệ các chủ đềkhác nhau với các chương riêng lẻ của cuốn sách này.

Chương này được tổ chức như sau. Phần 1.2 thảo luận về các mục tiêuchính của hệ thống tư vấn. Phần 1.3 sẽ giới thiệu các mô hình cơ bản vàphương pháp đánh giá được sử dụng trong các hệ tư vấn. Việc sử dụng hệthống gợi ý trong các miền dữ liệu khác nhau được thảo luận trong phần1.4. Các mơ hình nâng cao cho hệ thống tư vấn được thảo luận trong phần1.5. Phần 1.6 thảo luận về kết luận và tóm tắt.

1.2 Mục tiêu của hệ thống gợi ý

Trước khi thảo luận về mục tiêu của hệ thống gợi ý, chúng tôi giới thiệunhững cách khác nhau để hình thành vấn đề gợi ý. Hai mơ hình chính nhưsau:

1. Phiên bản dự đốn của vấn đề: Cách tiếp cận đầu tiên là dự đoán giá trịxếp hạng cho sự kết hợp mục người dùng. Giả định rằng dữ liệu huấnluyện có sẵn, cho biết sở thích của người dùng đối với các mục. Đốivới m người dùng và n mục, điều này tương ứng với ma trận mxnkhơng đầy đủ, trong đó các giá trị được chỉ định (hoặc được quan sát)được sử dụng để huấn luyện. Các giá trị cịn thiếu (hoặc khơng đượcquan sát) được dự đốn bằng mơ hình đào tạo này. Vấn đề này còn

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

được gọi là vấn đề hồn thành ma trận vì chúng ta có một ma trận giátrị được chỉ định khơng đầy đủ và các giá trị cịn lại được dự đốn bởithuật toán học.

2. Phiên bản xếp hạng của bài toán: Trong thực tế, khơng cần thiết phảidự đốn đánh giá của người dùng đối với các mặt hàng cụ thể để đưara khuyến nghị cho người dùng. Thay vào đó, người bán có thể muốngiới thiệu các mặt hàng top-k cho một người dùng cụ thể hoặc xácđịnh những người dùng top-k để nhắm mục tiêu cho một mặt hàng cụthể. Việc xác định các mục top-k phổ biến hơn việc xác định ngườidùng top-k, mặc dù các phương pháp trong hai trường hợp hoàn toàngiống nhau. Xuyên suốt cuốn sách này, chúng ta sẽ chỉ thảo luận vềviệc xác định các mục top-k, bởi vì đây là cách thiết lập phổ biến hơn.Bài tốn này cịn được gọi là bài tốn đề xuất top-k và nó là cơng thứcxếp hạng của bài toán đề xuất.

Trong trường hợp thứ hai, giá trị tuyệt đối của xếp hạng dự đoán là khôngquan trọng. Công thức đầu tiên tổng quát hơn, bởi vì giải pháp cho trườnghợp thứ hai có thể được rút ra bằng cách giải công thức đầu tiên cho các kếthợp mục người dùng khác nhau và sau đó xếp hạng các dự đoán. Tuynhiên, trong nhiều trường hợp, việc thiết kế các phương pháp giải trực tiếpphiên bản xếp hạng của bài toán sẽ dễ dàng và tự nhiên hơn. Nhữngphương pháp như vậy sẽ được thảo luận ở Chương 13.

Tăng doanh số bán sản phẩm là mục tiêu chính của hệ thống giới thiệu.Suy cho cùng, hệ thống gợi ý được người bán sử dụng để tăng lợi nhuậncủa họ. Bằng cách đề xuất các mục được lựa chọn cẩn thận cho người dùng,hệ thống đề xuất sẽ thu hút sự chú ý của người dùng về các mục có liênquan. Điều này làm tăng khối lượng bán hàng và lợi nhuận cho người bán.Mặc dù mục tiêu chính của hệ thống đề xuất là tăng doanh thu cho ngườibán, nhưng mục tiêu này thường đạt được theo những cách ít rõ ràng hơn sovới cái nhìn đầu tiên. Để đạt được mục tiêu rộng hơn là tăng doanh thu lấydoanh nghiệp làm trung tâm, các mục tiêu hoạt động và kỹ thuật chung củahệ thống gợi ý như sau:

1. Mức độ liên quan: Mục tiêu hoạt động rõ ràng nhất của hệ thống gợi ýlà đề xuất các mục có liên quan đến người dùng hiện tại. Người dùngcó nhiều khả năng tiêu thụ những mặt hàng mà họ thấy thú vị hơn.Mặc dù mức độ liên quan là mục tiêu hoạt động chính của hệ thống tưvấn nhưng nếu đứng riêng lẻ thì nó vẫn chưa đủ. Do đó, chúng tơi thảoluận về một số mục tiêu phụ dưới đây, không quan trọng bằng mức độphù hợp nhưng vẫn đủ quan trọng để có tác động đáng kể.

2. Tính mới: Hệ thống gợi ý thực sự hữu ích khi mặt hàng được đề xuấtlà thứ mà người dùng chưa từng thấy trước đây. Ví dụ: những bộ phimnổi tiếng thuộc thể loại ưa thích sẽ hiếm khi mới lạ đối với ngườidùng. Khuyến nghị lặp đi lặp lại các mặt hàng phổ biến cũng có thểdẫn đến giảm tính đa dạng trong doanh số bán hàng [203].

3. Tình cờ: Một khái niệm liên quan là tình cờ [229], trong đó các mụcđược đề xuất hơi bất ngờ, và do đó có một yếu tố khiêm tốn của khámphá may mắn, trái ngược với các khuyến nghị hiển nhiên. Serendipity

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

khác với tính mới ở chỗ các đề xuất thực sự gây ngạc nhiên cho ngườidùng, thay vì chỉ đơn giản là điều họ chưa biết trước đây. Thơngthường, có thể xảy ra trường hợp một người dùng cụ thể chỉ tiêu thụcác mặt hàng thuộc một loại cụ thể, mặc dù mối quan tâm tiềm ẩn đốivới các mặt hàng thuộc loại khác có thể tồn tại mà bản thân ngườidùng có thể thấy ngạc nhiên. Không giống như sự mới lạ, các phươngpháp tình cờ tập trung vào việc khám phá những đề xuất như vậy.Ví dụ: nếu một nhà hàng Ấn Độ mới mở ở khu vực lân cận thì đề xuấtvề nhà hàng đó cho người dùng thường ăn đồ ăn Ấn Độ là mới lạnhưng không nhất thiết phải là ngẫu nhiên. Mặt khác, khi cùng mộtngười dùng được giới thiệu món ăn Ethiopia và người dùng khơng biếtrằng món ăn đó có thể hấp dẫn cơ ấy, thì lời đề xuất đó là tình cờ.Serendipity có tác dụng phụ có lợi là tăng tính đa dạng trong bán hànghoặc bắt đầu một xu hướng mới được người dùng quan tâm. Việc tăngcường khả năng tình cờ thường mang lại lợi ích lâu dài và chiến lượccho người bán vì khả năng khám phá các lĩnh vực quan tâm hồn tồnmới. Mặt khác, các thuật tốn cung cấp đề xuất ngẫu nhiên thường cóxu hướng đề xuất các mục khơng liên quan. Trong nhiều trường hợp,lợi ích chiến lược và lâu dài của các phương pháp tình cờ sẽ lớn hơnnhững bất lợi ngắn hạn này.

4. Tăng tính đa dạng của đề xuất: Hệ thống đề xuất thường đề xuất danhsách các mục hàng đầu. Khi tất cả các mặt hàng được đề xuất này rấtgiống nhau, sẽ làm tăng nguy cơ người dùng có thể khơng thích bất kỳmặt hàng nào trong số này. Mặt khác, khi danh sách được đề xuất chứacác mục thuộc nhiều loại khác nhau, có nhiều khả năng người dùng sẽthích ít nhất một trong các mục này. Sự đa dạng có lợi ích là đảm bảorằng người dùng không cảm thấy nhàm chán khi được đề xuất lặp đilặp lại các mặt hàng tương tự.

Bên cạnh những mục tiêu cụ thể này, một số mục tiêu mềm cũng được đápứng bởi quy trình đề xuất cả từ góc độ của người dùng và người bán. Từquan điểm của người dùng, các đề xuất có thể giúp cải thiện sự hài lịngchung của người dùng đối với trang Web. Ví dụ: người dùng liên tục nhậnđược các đề xuất có liên quan từ Amazon.com sẽ hài lịng hơn với trảinghiệm này và có nhiều khả năng sử dụng lại trang web hơn. Điều này cóthể cải thiện lịng trung thành của người dùng và tăng thêm doanh số bánhàng tại trang web. Ở phía người bán, quy trình đề xuất có thể cung cấpthông tin chi tiết về nhu cầu của người dùng và giúp tùy chỉnh trải nghiệmngười dùng hơn nữa. Cuối cùng, việc cung cấp cho người dùng lời giảithích tại sao một mục cụ thể được đề xuất thường hữu ích. Ví dụ: trongtrường hợp của Netflix, các đề xuất được cung cấp cùng với các bộ phim đãxem trước đó. Như chúng ta sẽ thấy sau, một số thuật toán đề xuất phù hợphơn để đưa ra lời giải thích so với các thuật tốn khác.

Có rất nhiều loại sản phẩm được các hệ thống như vậy khuyên dùng.Một số hệ thống giới thiệu, chẳng hạn như Facebook, không trực tiếp giớithiệu sản phẩm. Thay vào đó, họ có thể đề xuất các kết nối xã hội mang lạilợi ích gián tiếp cho trang web bằng cách tăng khả năng sử dụng và lợi

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

nhuận quảng cáo. Để hiểu bản chất của những mục tiêu này, chúng ta sẽthảo luận về một số ví dụ phổ biến về hệ thống tư vấn trong lịch sử và hiệntại. Những ví dụ này cũng sẽ thể hiện sự đa dạng rộng rãi của các hệ thốnggợi ý được xây dựng dưới dạng nguyên mẫu nghiên cứu hoặc hiện có dướidạng hệ thống thương mại trong các bối cảnh vấn đề khác nhau.

Hệ thống đề xuất GroupLens

GroupLens là hệ thống đề xuất tiên phong, được xây dựng như một nguyênmẫu nghiên cứu để đề xuất tin tức Usenet. Hệ thống thu thập xếp hạng từđộc giả Usenet và sử dụng chúng để dự đoán xem những độc giả khác cóthích một bài báo hay khơng trước khi họ đọc nó.

Một số thuật tốn lọc cộng tác tự động sớm nhất đã được phát triển trongcài đặt GroupLens <small>l </small>. Những ý tưởng chung do nhóm này phát triển cũngđược mở rộng sang các sản phẩm khác như sách và phim. Các hệ thống gợiý tương ứng được gọi lần lượt là BookLens và MovieLens. Bên cạnh nhữngđóng góp tiên phong cho nghiên cứu lọc cộng tác, nhóm nghiên cứuGroupLens còn nổi tiếng với việc phát hành một số bộ dữ liệu trong nhữngnăm đầu của lĩnh vực này, khi khơng dễ dàng có được các bộ dữ liệu để đođiểm chuẩn. Các ví dụ nổi bật bao gồm ba bộ dữ liệu [688] từ hệ thống đềxuất MovieLens. Các bộ dữ liệu này có kích thước tăng dần và chúng lầnlượt chứa 10 <small>5 </small>10 <small>6 </small>và 10 <small>7 </small>xếp hạng.

Hệ thống gợi ý của Amazon.com

Amazon.com [698] cũng là một trong những công ty tiên phong trong hệthống gợi ý, đặc biệt là trong môi trường thương mại. Trong những nămđầu, đây là một trong số ít các nhà bán lẻ có tầm nhìn xa để nhận ra tínhhữu ích của cơng nghệ này. Ban đầu được thành lập như một nhà bán lẻsách điện tử, doanh nghiệp này đã mở rộng sang hầu hết mọi dạng sảnphẩm. Do đó, Amazon.com hiện nay bán hầu như tất cả các loại sản phẩmnhư sách, đĩa CD, phần mềm, đồ điện tử, v.v. Các đề xuất trênAmazon.com được cung cấp trên cơ sở xếp hạng, hành vi mua và hành viduyệt web được cung cấp rõ ràng. Xếp hạng trên Amazon.com được chỉđịnh theo thang điểm 5, với xếp hạng thấp nhất là I sao và xếp hạng caonhất là 5 sao. Dữ liệu mua và duyệt web cụ thể của khách hàng có thể đượcthu thập dễ dàng khi người dùng đăng nhập bằng cơ chế xác thực tài khoảnđược Amazon hỗ trợ. Các khuyến nghị cũng được cung cấp cho người dùngtrên trang Web chính của trang web, bất cứ khi nào họ đăng nhập vào tàikhoản của mình. Trong nhiều trường hợp, lời giải thích cho các khuyếnnghị được cung cấp. Ví dụ: mối quan hệ của một mặt hàng được đề xuấtvới các mặt hàng đã mua trước đó có thể được đưa vào giao diện hệ thốnggợi ý.

Hành vi mua hàng hoặc duyệt web của người dùng có thể được xemdưới dạng một loại xếp hạng ngầm, trái ngược với xếp hạng rõ ràng dongười dùng chỉ định. Nhiều hệ thống thương mại cho phép linh hoạt đưa racác khuyến nghị trên cơ sở phản hồi rõ ràng và ngầm. Trên thực tế, một sốmô hình đã được thiết kế (xem phần 3.6.4.6 của Chương 3) để cùng giảithích các phản hồi rõ ràng và ngầm trong quá trình đề xuất.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Hệ thống đề xuất phim Netflix

Netflix được thành lập như một công ty cho thuê đĩa video kỹ thuật số(DVD) đặt hàng qua thư [690] các bộ phim và chương trình truyền hình,cơng ty này cuối cùng đã được mở rộng sang phân phối trực tuyến. Ở thờiđiểm hiện tại, hoạt động kinh doanh chính của Netflix là cung cấp dịch vụphát trực tuyến phim và chương trình truyền hình trên cơ sở đăng ký.Netflix cung cấp cho người dùng khả năng đánh giá phim và chương trìnhtruyền hình theo thang điểm 5. Hơn nữa, các hành động của người dùngtrong việc xem các mục khác nhau cũng được Netflix lưu trữ. Những xếphạng và hành động này sau đó được Netflix sử dụng để đưa ra đề xuất.Netflix thực hiện rất tốt việc đưa ra lời giải thích cho các mục được đề xuất.Nó cung cấp rõ ràng các ví dụ về đề xuất dựa trên các mục cụ thể mà ngườidùng đã xem. Những thông tin như vậy cung cấp cho người dùng nhữngthông tin bổ sung thông tin để quyết định xem có nên xem một bộ phim cụthể hay khơng. Việc đưa ra những lời giải thích có ý nghĩa là điều quantrọng để cung cấp cho người dùng hiểu lý do tại sao họ có thể thấy một bộphim cụ thể thú vị. Cách tiếp cận này cũng giúp người dùng có nhiều khảnăng thực hiện theo đề xuất hơn và thực sự cải thiện trải nghiệm ngườidùng. Cách tiếp cận thú vị này cũng có thể giúp cải thiện lòng trung thànhvà giữ chân khách hàng.

Netflix đã đóng góp đáng kể cho cộng đồng nghiên cứu nhờ Netflia;Cuộc thi có thưởng. Cuộc thi này được thiết kế để cung cấp một diễn đàncạnh tranh giữa các thuật tốn lọc cộng tác khác nhau do các thí sinh đónggóp. Một tập dữ liệu về xếp hạng phim Netflix đã được phát hành và nhiệmvụ là dự đoán xếp hạng của các kết hợp mục cụ thể của người dùng. Vớimục đích này, Netflix đã cung cấp cả tập dữ liệu huấn luyện và tập dữ liệuđủ điều kiện. Tập dữ liệu huấn luyện chứa 100.480.507 xếp hạng mà480.189 người dùng đưa ra cho 17.770 phim. Tập huấn luyện bao gồm mộttập thăm dò nhỏ hơn chứa 1.408.395 xếp hạng. Tập thăm dò dựa trên cácxếp hạng gần đây hơn so với dữ liệu huấn luyện cịn lại và nó tương tự vềmặt thống kê với phần của tập dữ liệu có xếp hạng ẩn. Phần này của tập dữliệu được gọi là tập dữ liệu đủ điều kiện và nó chứa hơn 2.817.131 bộ ba códạng (Người dùng, Phim, Ngày xếp hạng). Lưu ý rằng bộ ba không chứaxếp hạng thực tế mà chỉ ban giám khảo mới biết. Người dùng cần dự đoánxếp hạng trong tập dữ liệu đủ điều kiện dựa trên các mơ hình của dữ liệuhuấn luyện. Dự đốn này được ban giám khảo chấm điểm (hoặc một hệthống tự động tương đương) và người dùng được thông báo (liên tục) về kếtquả dự đoán chỉ trên một nửa dữ liệu đủ điều kiện được đặt trên bảng xếphạng. Một nửa tập dữ liệu đủ điều kiện này được gọi là tập câu hỏi. Nửacòn lại được dùng làm tập kiểm tra để tính điểm cuối cùng và xác địnhngười đoạt giải. Điểm số của nửa cịn lại khơng bao giờ được tiết lộ chongười dùng cho đến phút cuối cùng. Hơn nữa, các thí sinh cũng khơng đượctiết lộ bộ ba nào trong phần thi vòng loại thuộc bộ câu đố và bộ ba nàothuộc bộ bài kiểm tra. Lý do cho sự sắp xếp bất thường này trên tập kiểmtra là để đảm bảo rằng người dùng không tận dụng điểm số trên bảng xếphạng để làm cho thuật toán của họ phù hợp quá mức với tập kiểm tra. Cácvấn đề liên quan đến overfitting sẽ được mô tả trong Chương 7 về các thuật

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

tốn đánh giá. Thật vậy, khn khổ xử lý bài dự thi của Netflix là một ví dụtuyệt vời về thiết kế đánh giá phù hợp của các thuật tốn đề xuất.

Bộ thăm dị, bộ câu hỏi và bộ kiểm tra được thiết kế để có các đặc điểmthống kê tương tự. Giải thưởng được trao dựa trên việc cải tiến thuật toánđề xuất riêng của Netflix, được gọi là Cinematch hoặc bằng cách cải thiệnđiểm số tốt nhất trước đó theo một ngưỡng nhất định. Nhiều thuật tốn đềxuất nổi tiếng, chẳng hạn như mơ hình nhân tố tiềm ẩn, đã được cuộc thiNetflix phổ biến rộng rãi. Cuộc thi Giải thưởng Netflix đáng chú ý vì cónhiều đóng góp cho nghiên cứu đề xuất [71, 373].

Hệ thống cá nhân hóa Google Tin tức

Hệ thống cá nhân hóa Google Tin tức [697] có thể đề xuất tin tức cho ngườidùng dựa trên lịch sử nhấp chuột của họ. Các lượt click được liên kết vớingười dùng cụ thể dựa trên cơ chế nhận dạng được kích hoạt bởi tài khoảnGmail. Trong trường hợp này, các bài báo được coi là các mục. Hành độngngười dùng nhấp vào một bài báo có thể được xem là đánh giá tích cực chobài báo đó. Những xếp hạng như vậy có thể được xem là xếp hạng đơnnhất, trong đó tồn tại một cơ chế để người dùng bày tỏ sự yêu thích của họđối với một mặt hàng, nhưng không tồn tại cơ chế nào để họ thể hiện sựkhơng thích của mình. Hơn nữa, xếp hạng là ngầm định vì chúng được suyra từ hành động của người dùng thay vì được người dùng chỉ định rõ ràng.Tuy nhiên, các biến thể của phương pháp này cũng có thể được áp dụngcho các trường hợp xếp hạng được chỉ định rõ ràng. Các thuật toán đề xuấtcộng tác được áp dụng cho các xếp hạng được thu thập để có thể đưa ra suyluận về Bảng 1.1: Các ví dụ về các sản phẩm được các hệ thống giới thiệutrong thế giới thực khác nhau đề xuất

Hệ thống Mục tiêu sản phẩmAmazon.com

Sách và các sản phẩmkhác

Netflix [690] DVD, Video trựctuyếnTên hề [689] truyện cười

Tin tức

cuối cùng.fm[692]

Âm nhạcGoogle Tin tức

Tin tứcTìm kiếm của

Google [696]

Quảng cáoFacebook [691] Bạn bè, Quảng cáo

Pandora [693] Âm nhạcYouTube [694] Video trực tuyến

Tripadvisor Sản phẩm du lịch

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Đề xuất kết bạn trên Facebook

Các trang mạng xã hội thường giới thiệu bạn bè tiềm năng cho người dùngnhằm tăng số lượng kết nối xã hội tại trang web. Facebook [691] là một vídụ như vậy về một trang Web mạng xã hội. Loại đề xuất này có mục tiêuhơi khác so với đề xuất sản phẩm. Mặc dù đề xuất sản phẩm trực tiếp làmtăng lợi nhuận của người bán bằng cách tạo điều kiện thuận lợi cho việcbán sản phẩm, nhưng việc tăng số lượng kết nối xã hội sẽ cải thiện trảinghiệm của người dùng trên mạng xã hội. Điều này, đến lượt nó, khuyếnkhích sự phát triển của mạng xã hội. Mạng xã hội phụ thuộc rất nhiều vàosự phát triển của mạng để tăng doanh thu quảng cáo. Do đó, sự giới thiệucủa bạn bè (hoặc liên kết) tiềm năng sẽ giúp mạng lưới phát triển và kết nốitốt hơn. Vấn đề này còn được gọi là dự đốn liên kết trong lĩnh vực phântích mạng xã hội. Những hình thức khuyến nghị như vậy dựa trên mối quanhệ mang tính cấu trúc hơn là dữ liệu xếp hạng. Do đó, bản chất của cácthuật tốn cơ bản là hoàn toàn khác nhau. Vấn đề đề xuất liên kết đượckhám phá chi tiết trong Chương 10. Mối quan hệ của quảng cáo tính tốnvới cơng nghệ hệ thống đề xuất được thảo luận trong Chương 13.

1.2.1 Phổ ứng dụng khuyến nghị

Sau đây, chúng tôi sẽ cung cấp một cái nhìn tổng quan ngắn gọn về cácmục tiêu dành riêng cho ứng dụng được hoàn thành bằng cách triển khaicác hệ thống đề xuất khác nhau. Tổng quan ngắn gọn về các sản phẩm đượcđề xuất và mục tiêu đạt được của các hệ thống tư vấn khác nhau được minhhọa trong Bảng 1.1. Nhiều hệ thống gợi ý này tập trung vào các ứng dụngthương mại điện tử truyền thống cho nhiều sản phẩm khác nhau, bao gồmsách, phim, video, du lịch cũng như các hàng hóa và dịch vụ khác. Khảnăng ứng dụng rộng rãi hơn của hệ thống gợi ý cho các ứng dụng thươngmại điện tử được thảo luận trong [530]. Tuy nhiên, hệ thống gợi ý đã mởrộng ra ngoài lĩnh vực gợi ý sản phẩm truyền thống. Đáng chú ý là một sốhệ thống trong Bảng 1.1 có thể khơng đề xuất các sản phẩm cụ thể. Một vídụ là ứng dụng tìm kiếm Google, ứng dụng này có thể quảng cáo sản phẩmcùng với kết quả tìm kiếm của chúng. Đây là lĩnh vực quảng cáo bằng máytính, vốn là một lĩnh vực riêng biệt nhưng vẫn có liên quan chặt chẽ với cáchệ thống gợi ý. Lĩnh vực này được thảo luận chi tiết trong phần 13.8.2 củaChương 13. Tương tự, Facebook giới thiệu bạn bè và các trang tuyển dụngtrực tuyến giới thiệu nhà tuyển dụng và người tìm việc với nhau. Hệ thốngcuối cùng trong số này còn được gọi là hệ thống tư vấn tương hỗ. Mơ hình

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

của một số thuật toán đề xuất này khá khác so với mơ hình của các hệ thốngđề xuất truyền thống. Cuốn sách này sẽ nghiên cứu chi tiết nhiều biến thểnày.

1.3 Các mơ hình cơ bản của hệ thống tư vấn

Các mơ hình cơ bản cho hệ thống gợi ý hoạt động với hai loại dữ liệu, đó là(i) tương tác giữa người dùng và mục, chẳng hạn như xếp hạng hoặc hànhvi mua hàng và (ii) thơng tin thuộc tính về người dùng và các mục như hồsơ văn bản hoặc từ khóa có liên quan . Các phương pháp sử dụng phươngpháp trước được gọi là phương pháp lọc cộng tác, trong khi các phươngpháp sử dụng phương pháp sau được gọi là phương pháp đề xuất dựa trênnội dung. Lưu ý rằng các hệ thống dựa trên nội dung cũng sử dụng ma trậnxếp hạng trong hầu hết các trường hợp, mặc dù mơ hình thường tập trungvào xếp hạng của một người dùng thay vì của tất cả người dùng. Trong cáchệ thống tư vấn dựa trên kiến thức, các đề xuất dựa trên yêu cầu của ngườidùng được chỉ định rõ ràng. Thay vì sử dụng xếp hạng lịch sử hoặc dữ liệumua hàng, cơ sở kiến thức bên ngoài và các ràng buộc được sử dụng để đưara đề xuất. Một số hệ thống gợi ý kết hợp các khía cạnh khác nhau này đểtạo ra các hệ thống kết hợp. Các hệ thống kết hợp có thể kết hợp điểmmạnh của nhiều loại hệ thống gợi ý khác nhau để tạo ra các kỹ thuật có thểhoạt động mạnh mẽ hơn trong nhiều môi trường khác nhau. Trong phầntiếp theo, chúng ta sẽ thảo luận ngắn gọn về các mơ hình cơ bản này vàcũng cung cấp gợi ý cho các chương có liên quan trong cuốn sách màchúng sẽ được thảo luận.

1.3.1 Mơ hình lọc cộng tác

Các mơ hình lọc cộng tác sử dụng sức mạnh cộng tác của xếp hạng donhiều người dùng cung cấp để đưa ra đề xuất. Thách thức chính trong việcthiết kế các phương pháp lọc cộng tác là các ma trận xếp hạng cơ bản cịnthưa thớt. Hãy xem xét một ví dụ về ứng dụng phim trong đó người dùngchỉ định xếp hạng cho biết họ thích hoặc khơng thích một bộ phim cụ thể.Hầu hết người dùng sẽ chỉ xem một phần nhỏ trong kho phim rộng lớn cósẵn. Kết quả là, hầu hết các xếp hạng đều không được chỉ định. Xếp hạngđược chỉ định cũng được gọi là xếp hạng được quan sát. Xuyên suốt cuốnsách này, các thuật ngữ “được chỉ định” và “được quan sát” sẽ được sửdụng theo cách có thể hốn đổi cho nhau. Xếp hạng không được chỉ định sẽđược coi là "không được quan sát" hoặc bị thiếu.

Ý tưởng cơ bản của phương pháp lọc cộng tác là những xếp hạng khơngxác định này có thể được quy cho vì xếp hạng được quan sát thường có mốitương quan cao giữa nhiều người dùng và mục khác nhau. Ví dụ, hãy xemxét hai người dùng tên Alice và Bob, những người có sở thích rất giốngnhau. Nếu xếp hạng mà cả hai đều đã chỉ định rất giống nhau thì sự giốngnhau của chúng có thể được xác định bằng thuật tốn cơ bản. Trong nhữngtrường hợp như vậy, rất có thể các xếp hạng mà chỉ một trong số chúng xácđịnh một giá trị cũng có khả năng tương tự nhau. Sự giống nhau này có thểđược sử dụng để đưa ra suy luận về các giá trị được chỉ định khơng đầy đủ.Hầu hết các mơ hình lọc cộng tác đều tập trung vào việc tận dụng mối

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

tương quan giữa các mục hoặc mối tương quan giữa các người dùng choq trình dự đốn. Một số mơ hình sử dụng cả hai loại tương quan. Hơnnữa, một số mơ hình sử dụng các kỹ thuật tối ưu hóa được thiết kế cẩn thậnđể tạo ra một mơ hình đào tạo gần giống nhau.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

cách trình phân loại tạo mơ hình huấn luyện từ dữ liệu được dán nhãn. Sauđó, mơ hình này được sử dụng để xác định các giá trị còn thiếu trong matrận, giống như cách mà bộ phân loại áp đặt các nhãn kiểm tra bị thiếu. Cóhai loại phương pháp thường được sử dụng trong lọc cộng tác, được gọi làphương pháp dựa trên bộ nhớ và phương pháp dựa trên mơ hình:

1. Phương pháp dựa trên bộ nhớ: Phương pháp dựa trên bộ nhớ còn đượcgọi là thuật toán lọc cộng tác dựa trên vùng lân cận. Đây là một trongnhững thuật toán lọc cộng tác sớm nhất, trong đó xếp hạng của các kếthợp mục người dùng được dự đoán dựa trên các vùng lân cận củachúng. Những vùng lân cận này có thể được xác định theo một tronghai cách:

• Lọc cộng tác dựa trên người dùng: Trong trường hợp này, xếphạng được cung cấp bởi những người dùng có cùng quan điểm củangười dùng mục tiêu A được sử dụng để đưa ra đề xuất cho A. Dođó, ý tưởng cơ bản là xác định những người dùng tương tự nhưmục tiêu người dùng A và đề xuất xếp hạng cho xếp hạng khơngđược quan sát của A bằng cách tính giá trị trung bình có trọng sốcủa xếp hạng của nhóm ngang hàng này. Do đó, nếu Alice và Bobđã xếp hạng phim theo cách tương tự trong quá khứ thì người ta cóthể sử dụng xếp hạng được quan sát của Alice trên phim Kẻ hủydiệt để dự đoán xếp hạng khơng được quan sát của Bob trên bộphim này. Nói chung, k người dùng giống Bob nhất có thể đượcsử dụng để đưa ra dự đoán xếp hạng cho Bob. Các hàm tương tựđược tính tốn giữa các hàng của ma trận xếp hạng để tìm ranhững người dùng tương tự.

• Lọc cộng tác dựa trên mục: Để đưa ra dự đoán xếp hạng cho mụctiêu B của người dùng A, bước đầu tiên là xác định tập S gồm cácmục giống nhất với mục tiêu B. Xếp hạng trong bộ mục S, là do Achỉ định, được sử dụng để dự đốn liệu người dùng A có thíchmục B hay khơng. Do đó, xếp hạng của Bob trên các bộ phimkhoa học viễn tưởng tương tự như Alien và Predator có thể đượcsử dụng để dự đốn xếp hạng của anh ấy về Terminator. Các hàmtương tự được tính toán giữa các cột của ma trận xếp hạng đểkhám phá các mục tương tự.

Ưu điểm của các kỹ thuật dựa trên trí nhớ là chúng dễ thực hiện và cáckhuyến nghị thu được thường dễ giải thích. Mặt khác, các thuật tốndựa trên bộ nhớ khơng hoạt động tốt với các ma trận xếp hạng thưathớt. Ví dụ: có thể khó tìm được những người dùng đủ giống Bob,người đã xếp hạng Gladiator. Trong những trường hợp như vậy, thậtkhó để dự đốn chính xác đánh giá của Bob về Gladiator. Nói cách

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

khác, những phương pháp như vậy có thể thiếu khả năng bao quát đầyđủ các dự đoán xếp hạng. Tuy nhiên, việc thiếu phạm vi phủ sóngthường khơng phải là vấn đề khi chỉ yêu cầu các mục top-k. Cácphương pháp dựa trên bộ nhớ sẽ được thảo luận chi tiết trong Chương2.

2. Phương pháp dựa trên mơ hình: Trong các phương pháp dựa trên mơhình, phương pháp học máy và khai thác dữ liệu được sử dụng trongbối cảnh các mơ hình dự đốn. Trong trường hợp mơ hình được thamsố hóa, các tham số của mơ hình này sẽ được học trong bối cảnhkhung tối ưu hóa. Một số ví dụ về các phương pháp dựa trên mơ hìnhnhư vậy bao gồm cây quyết định, mơ hình dựa trên quy tắc, phươngpháp Bayes và mơ hình nhân tố tiềm ẩn. Nhiều phương pháp trong sốnày, chẳng hạn như mơ hình nhân tố tiềm ẩn, có mức độ bao phủ caongay cả đối với các ma trận xếp hạng thưa thớt. Các thuật toán lọccộng tác dựa trên mơ hình được thảo luận trong Chương 3.

Mặc dù các thuật toán lọc cộng tác dựa trên bộ nhớ được đánh giá cao vìtính đơn giản của chúng nhưng chúng có xu hướng mang tính chất phỏngđốn và khơng hoạt động tốt trong mọi cài đặt.

Hình 1.1: Ví dụ về xếp hạng theo khoảng 5 điểm

Hình 1.2: Ví dụ về xếp hạng thứ tự được sử dụng trong đánh giá khóa họccủa Đại học Stanford

các phương pháp dựa trên bộ nhớ cũng có thể được coi là các mơ hình dựatrên sự tương đồng, mặc dù là các mơ hình heuristic. Trong phần 2.6 củaChương 2, cũng sẽ chỉ ra rằng một số biến thể của phương pháp dựa trênvùng lân cận có thể được biểu diễn chính thức dưới dạng mơ hình dựa trênhồi quy. Các mơ hình yếu tố tiềm ẩn đã được phổ biến rộng rãi trong những

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

năm sau đó nhờ cuộc thi Giải thưởng Netflix, mặc dù các thuật toán tươngtự đã được đề xuất sớm hơn nhiều trong bối cảnh các tập dữ liệu (chung)không đầy đủ [24]. Gần đây, người ta đã chứng minh rằng một số kết hợpphương pháp dựa trên bộ nhớ và dựa trên mơ hình [309] mang lại kết quảrất chính xác.

1.3.1.1 Các loại xếp hạng

Việc thiết kế các thuật toán đề xuất bị ảnh hưởng bởi hệ thống được sửdụng để theo dõi xếp hạng. Xếp hạng thường được chỉ định trên thang đocho biết mức độ thích hoặc khơng thích cụ thể của mặt hàng đó. Xếp hạngcó thể là các giá trị liên tục, chẳng hạn như trong trường hợp cơng cụ đềxuất trị đùa Jester [228, 689], trong đó xếp hạng có thể nhận bất kỳ giá trịnào từ -10 đến 10. Tuy nhiên, điều này tương đối hiếm. Thông thường, việcxếp hạng dựa trên khoảng thời gian, trong đó một tập hợp các số thứ tựriêng biệt được sử dụng để định lượng mức độ thích hoặc khơng thích. Xếphạng như vậy được gọi là xếp hạng dựa trên khoảng thời gian. Ví dụ: thangđánh giá 5 điểm có thể được rút ra từ tập hợp {—2, —1, 0, 1, 2}, trong đóxếp hạng —2 biểu thị sự khơng thích cực độ và xếp hạng 2 biểu thị sự uthích mạnh mẽ đến mục đó. Các hệ thống khác có thể rút ra xếp hạng từ tậphợp {1, 2, 3, 4, 5}.

Số lượng xếp hạng có thể có có thể khác nhau tùy theo hệ thống hiện có.Việc sử dụng xếp hạng 5 điểm, 7 điểm và 10 điểm đặc biệt phổ biến. Hệthống xếp hạng 5 sao, được minh họa trong Hình 1.1, là một ví dụ về xếphạng theo khoảng thời gian. Cùng với mỗi xếp hạng có thể có, chúng tơi đãchỉ ra cách giải thích ngữ nghĩa về mức độ quan tâm của người dùng. Cáchgiải thích này có thể hơi khác nhau tùy theo những người bán khác nhau,chẳng hạn như Amazon hoặc Netflix. Ví dụ: Netflix sử dụng hệ thống xếphạng 5 sao trong đó điểm 4 sao tương ứng với "thực sự thích nó" và điểm 3sao trung tâm tương ứng với "thích nó". Vì vậy, Netflix có ba xếp hạngthuận lợi và hai xếp hạng không thuận lợi trên Netflix, dẫn đến thang đánhgiá không cân bằng. Trong một số trường hợp, có thể có số lượng xếp hạngchẵn và xếp hạng trung lập có thể bị thiếu. Cách tiếp cận này được gọi là hệthống đánh giá lựa chọn bắt buộc.

Người ta cũng có thể sử dụng các giá trị phân loại theo thứ tự như {Rấtkhông đồng ý, Không đồng ý, Trung lập, Đồng ý, Rất đồng ý} để đạt đượccác mục tiêu tương tự. Nói chung, các xếp hạng như vậy được gọi là xếphạng thứ tự và thuật ngữ này bắt nguồn từ khái niệm thuộc tính thứ tự. Mộtví dụ về xếp hạng thứ tự, được sử dụng trong các mẫu đánh giá khóa họccủa Đại học Stanford, được minh họa trong Hình 1.2. Trong xếp hạng nhịphân, người dùng chỉ có thể thể hiện thích hoặc khơng thích đối với mặthàng đó và khơng có gì khác. Ví dụ: xếp hạng có thể là 0, 1 hoặc các giá trị

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

không xác định. Các giá trị không xác định cần được dự đoán là giá trị 0-1.Một trường hợp đặc biệt của xếp hạng là xếp hạng đơn nhất, trong đó có cơchế để người dùng chỉ định mức độ thích đối với một mục nhưng khơng cócơ chế chỉ định mức khơng thích. Xếp hạng đơn nhất đặc biệt phổ biến, đặcbiệt trong trường hợp tập dữ liệu phản hồi ngầm [259, 260, 457]. Trongnhững trường hợp này, sở thích của khách hàng xuất phát từ hoạt động củahọ chứ không phải từ xếp hạng được chỉ định rõ ràng của họ. Ví dụ: hànhvi mua hàng của khách hàng có thể được chuyển đổi thành xếp hạng đơnnhất. Khi một khách hàng mua một mặt hàng, nó có thể được xem như mộtsự ưa thích đối với mặt hàng đó. Tuy nhiên, hành động khơng mua mộtmón đồ từ vô số khả năng không phải lúc nào cũng biểu thị sự khơng thích.Tương tự, nhiều mạng xã hội, chẳng hạn như Facebook, sử dụng nút"thích", cung cấp khả năng thể hiện sự thích thú đối với một mục. Tuynhiên, khơng có cơ chế xác định mức độ khơng thích đối với một mặt hàng.Cài đặt phản hồi ngầm có thể được xem như là tương tự hồn thành ma trậncủa bài tốn học khơng được gắn nhãn tích cực (PU) trong phân loại dữ liệu[259].

Ví dụ về xếp hạng rõ ràng và ngầm định

Một ví dụ định lượng về xếp hạng rõ ràng được minh họa trong Hình1.3(a). Trong trường hợp này, có 6 người dùng, được gắn nhãn UI . . . U6,và 6 phim có tựa đề cụ thể. Xếp hạng cao hơn cho thấy phản hồi tích cựchơn trong Hình 1.3(a). Các mục cịn thiếu tương ứng với các tùy chọnkhơng được chỉ định. Ví dụ của hình này đại diện cho một ví dụ về đồ chơinhỏ. Nói chung, các xếp hạng có thể được biểu diễn dưới dạng ma trận mn,trong đó m và n thường rất lớn và có thể nằm trong phạm vi hàng trămnghìn. Mặc dù ví dụ cụ thể này sử dụng ma trận 6 >< 6, các giá trị của m vàn thường không giống nhau trong các tình huống thực tế. Ma trận xếp hạngđơi khi được gọi là ma trận tiện ích, mặc dù cả hai có thể khơng phải lúcnào cũng giống nhau. Nói một cách chính xác, khi tiện ích đề cập đến sốtiền lợi nhuận, thì tiện ích của sự kết hợp hạng mục người dùng đề cập đếnsố tiền lợi nhuận phát sinh bằng cách giới thiệu mặt hàng đó cho ngườidùng cụ thể. Mặc dù ma trận tiện ích thường được đặt giống với ma trậnxếp hạng, nhưng ứng dụng có thể chuyển đổi rõ ràng xếp hạng thành giá trịtiện ích dựa trên tiêu chí của từng miền cụ thể. Tất cả các thuật toán lọccộng tác sau đó được áp dụng cho ma trận tiện ích thay vì ma trận xếphạng. Tuy nhiên, cách tiếp cận như vậy hiếm khi được sử dụng trong thựctế và hầu hết các thuật toán lọc cộng tác đều hoạt động trực tiếp với ma trậnxếp hạng.

Một ví dụ về ma trận xếp hạng đơn nguyên được minh họa trong Hình1.3(b). Đối với các trường hợp xếp hạng là đơn nguyên, ma trận được gọi làma trận tiện ích ưu tiên tích cực vì nó chỉ cho phép đặc tả các ưu tiên tích

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

cực. Hai ma trận trong Hình 1.3 có cùng một tập hợp các mục được quansát nhưng chúng cung cấp những hiểu biết rất khác nhau. Ví dụ: UI và U3của người dùng rất khác nhau trong Hình 1.3(a) vì chúng có các xếp hạngrất khác nhau cho các mục nhập được chỉ định lẫn nhau. Mặt khác, nhữngngười dùng này sẽ được coi là rất giống nhau trong Hình 1.3(b) vì nhữngngười dùng này đã bày tỏ sự ưa thích tích cực đối với cùng một mặt hàng.Tiện ích dựa trên xếp hạng cung cấp một cách để người dùng thể hiện sởthích tiêu cực đối với các mục. Ví dụ: giao diện người dùng khơng thích bộphim Đấu sĩ trong Hình 1.3(a). Khơng có cơ chế nào để xác định điều nàytrong ma trận tiện ích ưu tiên tích cực của Hình 1.3(b) ngồi

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

(a) Xếp hạng theo thứ tự (b) Xếp hạng đơn nhất

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Hình 1.3: Ví dụ về ma trận tiện ích

một mục bị thiếu tương đối mơ hồ. Nói cách khác, ma trận trong Hình1.3(b) ít biểu cảm hơn. Trong khi Hình 1.3(b) cung cấp một ví dụ về matrận nhị phân, các phần tử khác 0 có thể có giá trị dương tùy ý. Ví dụ:chúng có thể tương ứng với số lượng mặt hàng được mua bởi những ngườidùng khác nhau. Nói chung, ma trận một ngơi được tạo bởi hành động củangười dùng chẳng hạn như mua một mặt hàng và do đó cịn được gọi là matrận phản hồi ngầm.

Xếp hạng đơn nhất có ảnh hưởng đáng kể đến thuật tốn đề xuất hiện tạivì khơng có thơng tin nào về việc người dùng có khơng thích một mặt hànghay khơng. Trong trường hợp ma trận một ngơi, người ta thường khun[260] thực hiện phân tích một cách đơn giản bằng cách coi các phần tử cònthiếu là O trong giai đoạn đầu. Tuy nhiên, giá trị dự đốn cuối cùng củathuật tốn học có thể lớn hơn 0 rất nhiều, đặc biệt nếu mục đó phù hợp vớisở thích của người dùng. Do đó, các mục được đề xuất dựa trên các mục cósai số dự đốn dương lớn nhất so với giả định "khơng" ban đầu. Trong thựctế, nếu các mục bị thiếu không được thay thế bằng O thì có thể xảy ra hiệntượng trang bị quá mức đáng kể. Kiểu trang bị quá mức này là sự giả tạocủa thực tế là thường khơng có đủ mức độ phân biệt giữa các giá trị xếphạng được quan sát khác nhau. Trong ma trận phản hồi rõ ràng, xếp hạngtương ứng với các ưu tiên (có tính phân biệt cao), trong khi ở ma trận phảnhồi ngầm, xếp hạng tương ứng với độ tin cậy (ít phân biệt đối xử). Trongchương sau, chúng tơi sẽ cung cấp một ví dụ cụ thể về việc trang bị quámức với ma trận phản hồi ngầm khi các mục bị thiếu không được coi là số0 (xem phần 3.6.6.2 của Chương 3).

Việc thay thế trước các xếp hạng bị thiếu không được khuyến nghị trongcác ma trận xếp hạng rõ ràng. Trong ma trận xếp hạng rõ ràng có cả lượtthích và lượt khơng thích, việc thay thế các mục bị thiếu bằng bất kỳ giá trịnào (chẳng hạn như 0 hoặc cột hàng/trung bình dữ liệu) luôn dẫn đến mứcđộ sai lệch đáng kể trong phân tích. Trong trường hợp đơn nhất, việc thaythế các mục bị thiếu bằng O cũng dẫn đến một số sai lệch [457, 467, 468],mặc dù nó thường nhỏ vì giả định mặc định trong dữ liệu phản hồi ngầm,chẳng hạn như dữ liệu mua hàng, là người dùng sẽ không mua nhiều nhất.của các mặt hàng. Người ta thường sẵn sàng chấp nhận sự thiên vị nàytrong trường hợp đơn nhất, bởi vì sự thay thế giảm đáng kể lượng trang bịq mức đáng kể. Ngồi ra cịn có một số hiệu ứng tính tốn thú vị củanhững lựa chọn như vậy. Những sự đánh đổi này được thảo luận trongChương 2 và 3.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

1.3.1.2 Mối quan hệ với phân tích giá trị bị thiếu

Các mơ hình lọc cộng tác có liên quan chặt chẽ đến việc phân tích giá trịcịn thiếu. Các tài liệu truyền thống về phân tích giá trị cịn thiếu nghiêncứu vấn đề gán các mục trong một ma trận dữ liệu được chỉ định khơng đầyđủ. Lọc cộng tác có thể được xem như một trường hợp đặc biệt (khó) củabài tốn này trong đó ma trận dữ liệu cơ bản rất lớn và thưa thớt. Có thể tìmthấy thảo luận chi tiết về các phương pháp phân tích giá trị còn thiếu trongtài liệu thống kê trong [362]. Nhiều phương pháp trong số này cũng có thểđược sử dụng cho các hệ thống tư vấn, mặc dù một số trong số chúng cóthể yêu cầu những điều chỉnh chuyên biệt cho các ma trận rất lớn và thưathớt. Trên thực tế, một số loại mơ hình gần đây dành cho hệ thống tư vấn,chẳng hạn như mơ hình nhân tố tiềm ẩn, đã được nghiên cứu trước đó trongbối cảnh phân tích giá trị cịn thiếu [24]. Các phương pháp tương tự đãđược đề xuất độc lập trong bối cảnh các hệ thống gợi ý [252, 309, 313, 500,517, 525]. Nói chung, nhiều phương pháp ước lượng giá trị thiếu cổ điển[362] cũng có thể được sử dụng để lọc cộng tác.

1.3.1.3 Lọc cộng tác như một sự tổng quát hóa của mơ hình phân loại và hồi quy

Các phương pháp lọc cộng tác có thể được xem như là sự khái qt hóa củamơ hình phân loại và hồi quy. Trong các bài tốn mơ hình phân loại và hồiquy, lớp/biến phụ thuộc có thể được xem như một thuộc tính bị thiếu cácgiá trị. Các cột khác được coi là đặc điểm/biến độc lập. Vấn đề lọc cộng tác

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

có thể được xem như một sự khái qt hóa của khung này vì bất kỳ cột nàocũng được phép thiếu các giá trị thay vì (chỉ) biến lớp. Trong vấn đềkhuyến nghị, có sự phân biệt rõ ràng

không tồn tại giữa các biến lớp và biến đặc trưng vì mỗi đặc tính đóng vaitrị kép là biến phụ thuộc và biến độc lập. Sự khác biệt này tồn tại trong vấnđề phân loại chỉ vì các mục bị thiếu được giới hạn trong một cột đặc biệt.Hơn nữa, khơng có sự phân biệt giữa các hàng huấn luyện và kiểm tra tronglọc cộng tác vì bất kỳ hàng nào cũng có thể chứa các mục bị thiếu. Do đó,sẽ có ý nghĩa hơn khi nói về các mục huấn luyện và kiểm tra trong lọc cộngtác hơn là các hàng huấn luyện và kiểm tra. Lọc cộng tác là sự tổng qthóa của mơ hình phân loại/hồi quy trong đó dự đốn được thực hiện theokiểu đầu vào thay vì kiểu theo hàng. Cần ghi nhớ mối quan hệ giữa mơhình phân loại/hồi quy và lọc cộng tác vì nhiều nguyên tắc về phương phápmơ hình phân loại và hồi quy có thể được khái quát hóa cho các hệ thốngđề xuất. Mối quan hệ giữa hai vấn đề được minh họa trong Hình 1.4. Hìnhnày đặc biệt hữu ích trong việc liên hệ giữa lọc cộng tác với phân loại và nósẽ được xem lại nhiều lần trong cuốn sách này. bất cứ nơi nào những điểmtương đồng giữa hai vấn đề này được tận dụng theo một cách nào đó đểphát triển thuật tốn hoặc lý thuyết.

Bài tốn hồn thiện ma trận cũng có một số đặc điểm với cài đặt quy nạptrong phân loại và hồi quy. Trong cài đặt chuyển đổi, các trường hợp kiểmtra cũng được đưa vào quá trình đào tạo (thường sử dụng thuật tốn bángiám sát) và thường khó đưa ra dự đốn cho các trường hợp kiểm tra khơngcó sẵn tại thời điểm đào tạo. Mặt khác, các mơ hình trong đó có thể dễ dàngđưa ra dự đoán cho các trường hợp mới được gọi là mơ hình quy nạp. Vídụ, một mơ hình Bayes đơn giản trong phân loại vốn có tính chất quy nạpvì người ta có thể dễ dàng sử dụng nó để dự đốn nhãn của một thể hiệnthử nghiệm mà các đặc điểm chưa được biết đến tại thời điểm xây dựng mơhình Bayes.

Cài đặt để hồn thành ma trận vốn có tính chất chuyển nạp vì dữ liệuhuấn luyện và kiểm tra được tích hợp chặt chẽ với nhau trong ma trận xếphạng m >< n R và nhiều mơ hình khơng thể dễ dàng dự đốn xếp hạng chongười dùng và/hoặc hạng mục ngồi mẫu. Ví dụ: nếu John được thêm vàoma trận xếp hạng (với nhiều xếp hạng được chỉ định) sau khi mơ hình lọccộng tác đã được xây dựng, nhiều phương pháp sẵn có sẽ khơng thể đưa radự đốn cho John. Điều này đặc biệt đúng với các phương pháp lọc cộngtác dựa trên mơ hình. Tuy nhiên, một số mơ hình hồn thiện ma trận gầnđây cũng đã được thiết kế theo mơ hình quy nạp trong đó xếp hạng có thểđược dự đốn cho những người dùng và/hoặc vật phẩm ngồi mẫu.

</div>

tầm quan trọng ngày càng tăng của web

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về