Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.58 MB, 24 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG---oOo---</b>
<small>1.</small>
Đềtài"HệthốngGợiÝPhim"khơngchỉđặtracâuhỏivềcáchcáccơngtyphânphốinộidungtrựctuyếnquảnlývàphânloạihàngngh6nbộphimmộtcách hiệu quả, mà cịn khám phá các thuật toán và phương pháp machinelearningđểtốiưuhóatrảinghiệmxemphimcánhâncủangườidùng.Bằngcáchsửdụngdữliệulịchsửxem,đánhgiá,vàthơngtincánhân,hệthốngnàyđưaracácgợiýchínhxác,tăngcườngkhảnăngkhámphávàđồngthờitốiưuhóasựhàilịngcủangườixem.
<small>2.</small>
Xâydựnghệthốnggợiýdựatrêncácđánhgiácủangườidùngchocácphimvàdựatrênnộidungphim.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><small>a.</small> <b>Giới thiê Vu về Graph Neural Networks(GNNs):</b>
Đồthịđầuvàođượcđiquamộtloạtmạngneural.Cấutrúcđồthịđầuvàođượcchuyểnđổithànhnhúngđồthị,chophépchúngtaduytr6thơngtinvềcácnút,cạnhvàngữcảnhtồncục.Sauđó,vectơđặctrưngcủacácnútAvàCđược
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>b.</small> <b>Mô hWnh LightGCN:</b>
<b>c. Kết hợp lớp và dự đốn mơ hWnh</b>
CácthamsốcóthểhuấnluyệnduynhấtcủaLightGCNlàcácphầnnhúnglớp0e(0)uvàe(0)ichomỗingườixemvàphim.Chúngđượckếthợpcácphầnnhúngthuđượcởmỗilớptruyềnđểtạothànhcácphầnnhúngcuốicùngchotấtcảngườixemvàphim,euvàeithơngquaphươngtr6nhsau:
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">A~=D AD<small>−1/2−1/2:</small>:matrậnkềcậnchuẩnhóađốixứng.<small>d.</small> <b>TF-IDF</b>
Hàm TD-IDF (Term Frequency-Inverse Document Frequency) là mộtphươngphápchuyểnđổidữliệuvănbảnthànhcácvectorsốhọc.Nóđượcsửdụngđểđánhgiátầmquantrọngcủamộttừtrongmộttàiliệuhoặcbộvănbản.DướiđâylàmơtảlýthuyếtcơbảncủahàmTD-IDF:
- TermFrequency(TF-Tầnsuấtcủatừ)
- InverseDocumentFrequency(IDF-Nghịchđảotầnsuấtcủatàiliệu)
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">- TF-IDFScore
<b>e. Ridge Regression</b>
MụctiêucủaRidgeRegressionlàt6mgiátrịcủa‘W’bà‘b’saochohàmmấtmátlànhỏnhất,đồngthờicũnggiữchogiátrịcủacáchệsố‘wj’khôngquá
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><b>f. Hàm Bayesian Personalized Ranking (BPR) loss</b>
Làmộtmơh6nhmạngneuralđơngiảnsửdụngvectorembeddingcủauservàitemlàmđầuvàovàđầuralàđánhgiádựđốn
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><b>a. Embedding Layers</b>
<b>b. Concatenated Vector</b>
<b>c. MLP layer</b>
ĐượcthiếtkếvớicáclớpDensevàhàmkíchhoạt"elu"đểhọccácmốiquanhệphituyếntínhgiữacácđặctrưng.Cáclớpnàytạorakhảnănghọccácđặcđiểmphứctạpvàtươngtácgiữangườidùngvàsảnphẩm.
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Ma trận user (UM: User Matix) cáchàngđạidiệncho uservàcáccộtlàm k yếu tố tiềm ẩn (latent factors), mỗihànglàmộtvectorW cókchiều<small>i</small>
MatrậnItem(IM:ItemMatix)trongđócáchànglà hệsốtiềmẩnvàcáccộtkbiểuthị item,mỗicộtlàmộtvectorHn <small>j</small>
<b>b. Hàm mục tiêu</b>
Hàm mất mát được tính như sau:
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><small>w , h</small>
<small>(u ,i)∈ Z</small>
<small>(vui−WuTh</small><sub>i</sub><small>)2+λ¿ ¿</small>
<small>¿∨ ∨hu¿2</small>
MatrậnđánhgiáYtrongđómỗiphầntửY thểhiệnđánhgiácủangười<small>ij</small>
dùngchosảnphẩm.Mụctiêulàxâydựngmơh6nhdựđốnYsaochoY gần<small>ij</small>
với nhấtcóthể.HàmRMSEcódạng:
và lầnlượtlàđánhgiádựthựctếtrêntậpkiểmthửvàđánhgiádựđoán
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><b>b. Recall và Precision</b>
Cácbộphimcó18thểloạivàcóphânphốicácthểloạinhưsau:
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><small>Trung bình mỗi người dùng đánh giá: 96 phim, người đánh giá nhiềunhất là 727 phim, người ít nhất là 10 phim.</small>
Sốlượngđánhgiácủamỗingườidung:
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Số lượng đánh giá của mỗi bộ phim
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">a. Đầuvào
- Numberofusers:943–u.user
- Numberoftraingrates:90570–ua.base- Numberoftestrates:9430–ua.test- Numberofitems:1682–u.item
b. MaTrậnĐặcTrưng(X_train_countsvàtfidf)
X_train_counts:Matrậnnàyđạidiệnchothơngtinthểloạinhịphânchomỗibộphim.Đâylàmộtmatrậnnhịphântrongđómỗihàngtươngứngvớimộtbộphimvàmỗicộtbiểuthịmộtthểloại.
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">c. RidgeRegression
d. DữLiệuHuấnLuyệnvàKiểmTra(rate_trainvàrate_test)
Dữliệuhuấnluyệnvàkiểmtrachứathơngtinvềđánhgiácủangườidùngđốivớicácbộphim.Mỗihàngtươngứngvớimộtđánhgiácủangườidùngcho
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">e. DựĐốncủaMơH6nh(Yhat)
Saukhihuấnluyệnmơh6nhhồiquytuyếntính,cácdựđốn(Yhat)đượcthựchiệnchotấtcảcácngườidùngvàbộphimtrongbộdữliệu.Cácdựđốnnàyđạidiệnchocácđánhgiáướctínhcủamơh6nhchomỗicặpngườidùng-bộphim.
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">a. Tảidữliê 4u:Dữliê 4uđượclấytừfileml-100kcủamovielens.
Tổchứcdữliê 4u:dofiledữliê 4uchưacótêncơ 4tnêncầntổchứclại.SauđóchỉnhlạiphạmvigiátrịcủaIdđểphùhợpvớixâydựngmatrâ 4nkềvềsau.
b. Tạocạnhđồthị:tạocạnhđồthịvớingư‹ngđánhgiátốtlà>=4sao.
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">f. KếthừamodelLightGCN:ĐểnhúngngườidùngvàphimquaKtầng,cùngvớiđósửdụngmatrâ 4nchuẩnhóađốixứng.
•đâychúngemhuấnlu 4nqua4tầng:
g. PhươngthứcmessagetronglớpLightGCNlàmộtphầnquantrọngcủacơchếtruyềnthơngđiệp(messagepassing)trongmơh6nhcủabạn.Đâylàmộtphầncủaqtr6nhlantruyềnthơngđiệptrênđồthị,nơimỗinútsẽcậpnhậtthơngtincủam6nhdựatrênthơngtintừcácnútlánggiềng.
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">h. SửdụnghàmBayesianPersonalizedRanking(BPR)loss:nhắmkhuyếnkhíchdựđốnmẫudươngcaohơnmẫuâmđóivớimỗingườidùng.
i. Tạodanhsáchphimđượcđánhgiátốtbởimỗingườidùng:
j. Tínhtốnđơ 4chínhxácRecall,Precision,ndcg:
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">k. Truyềnthamsố:
l. Kếtquả:
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">