Tải bản đầy đủ (.pdf) (187 trang)

(Luận án tiến sĩ) Hỏi Đáp Tự Động Sử Dụng Nhiều Nguồn Tri Thức

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.14 MB, 187 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ắI HịC QUịC GIA H NịI

<b>TRịNG ắI HịC CễNG NGHị </b>

<b>NGUYịN VN T </b>

<b>HịI P Tỵ ịNG Sỵ DỵNG NHIịU NGUịN TRI THỵC</b>

<b>LUắN N TIắN S) CễNG NGHị THễNG TIN </b>

<b>H Nòi 3 2022 </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

ắI HịC QUịC GIA H NịI

<b>TRịNG ắI HịC CễNG NGHị </b>

<b>NGUYịN VN T </b>

<b>HịI P Tỵ ịNG Sỵ DỵNG NHIịU NGUịN TRI THỵC</b>

Chuyờn ngnh: Hò thòng thụng tin Mó sò: 9480104.01

<b>LUắN N TIắN S) CễNG NGHị THễNG TIN </b>

NGịI HịNG DắN KHOA HịC 1. PGS.TS. Nguyßn Hà Nam

2. PGS.TS. Lê Anh C±ßng

<b>Hà Nßi 3 2022 </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

LÌi cam oan

Tơi xin cam oan ây là cơng trình nghiên cÚu c1a riêng tơi. Các k/t qu£ÞỊc vi/t chung vĨi các tỏc giÊ khỏc 3u ịềc sá ng c1a ng tác gi£ trÞĨckhi Þa vào lu#n án. Các k/t qu£ nờu trong lu#n ỏn l trung thác v chịa tng

ịềc ai cơng bË trong các cơng trình nào khác.

Tác gi£

Ngun V´n Tú

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Tơi cÙng xin gÚi lÌi cÊm ẽn tểi cỏc Thảy, Cụ thuẻc khoa Cụng nghê thụngtin, trịèng H Cụng nghê, HQGHN, ó tĐo mi i3u kiªn thu#n lỊi giúp tơitrong q trình làm nghiên cÚu sinh.

Ci cùng, tơi xin gÚi lÌi c£m Ïn sâu sbc tểi gia ỡnh, bĐn bố nẽi ó cho tụii+m táa vÛng chbc + tơi có ÞỊc thành cơng nhÞ ngày hụm nay.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

1.2 Phõn loĐi cỏc hê thËng h0i áp . . . 14

1.2.1 H0i áp d¸a trên cÏ sÿ tri thÚc . . . 14

1.3.4 MỴt sË cQA ti/ng Viªt . . . . 23

1.4 Tình hình nghiên cÚu v3 cQA . . . . 24

1.4.1 Các nghiên cÚu liên quan v3 tìm ki/m và x/p h§ng câu h0i . . . 25

1.4.2 Các nghiên cÚu liên quan v3 ánh giá Ỵ phù hỊp c1a câu tr£ lÌi 291.5 Các ki/n thÚc cÏ sÿ . . . . 32

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

ChÞÏng 2. TÌM VÀ XịP HĐNG CÁC CÂU H“I LIÊN QUAN 49

2.3.3 Bi+u diÃn d¸a trên mơ hình word2vec . . . . 52

2.3.4 Bi+u din dáa trờn loĐi cõu h0i . . . . 56

2.3.5 Bi+u din dáa trờn tớnh chòt c1a cõu h0i và câu tr£ lÌi . . . . 57

2.3.6 Phõn loĐi cõu h0i. . . 59

3.3.2 Cỏc >c trịng dáa trờn thuẻc tớnh c1a cõu h0i . . . . 72

3.3.3 >c trịng dáa trờn thụng tin ngịèi dựng . . . 73

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

ChÞÏng 4. TÍCH H4P NHIóU NGU«N TRI THyC TRONG MƠ

HÌNH HjC SÂU ư ÁNH GIÁ À TïÃNG T9. . . 88

4.1 GiĨi thiªu . . . 88

4.2 Mơ t£ bài tốn . . . 91

4.3 Cỏc phịẽng phỏp ti/p c#n v 3 xuòt . . . . 91

4.3.1 NguÁn tri thÚc bên ngoài (External Knowledge - EK). . . 91

4.3.2 Mơ hình d¸a trên m§ng nÏ-ron tích ch#p CNN . . . . 95

4.3.3 Mụ hỡnh dáa trờn mĐng nẽ-ron tớch ch#p CNN tớch hềp thờm tri thc1004.3.4 Mụ hỡnh dáa trờn mĐng BLSTM . . . . 101

4.3.5 Mơ hình d¸a trên m§ng BLSTM tích hỊp thêm tri thÚc . . . . 103

4.3.6 Mơ hình d¸a trên BERT . . . . 103

4.4 Thác nghiêm. . . 105

4.4.1 T#p d liêu và các Ỵ o ánh giá . . . 105

4.4.2 Cỏc thác nghiêm trờn t#p d liêu SemEval 2016 . . . 107

4.4.3 Cỏc thác nghiêm trờn t#p d liêu Quora. . . 111

4.4.4 So sánh vÓi các k/t qu£ nghiên cÚu khác . . . . 115

4.5 K/t lu#n chÞÏng . . . . 118

KịT LN . . . . 119

Danh mỈc cơng trình khoa hÂc c1a tác gi£ liên quan /n lu#n án . . .

122Tài liªu tham kh£o. . . . 124

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Thu#t ngÛ và t¯ vi/t tbt

T¯ vi/t tbt T¯ gËc Gi£i nghæa - T§m d!chBERT Bidirectional Encoder

Representations fromTransformers

Mơ hình mã hóa hai chi3u dliêu t cỏc khậi TransformerBLSTM Bi-directional Long Short-Term

MĐng bẻ nhĨ dài-ngbn haichi3u

CBOW Continuous Bag-Of-Word Mơ hình túi t¯ liên tặcCLEF Cross Language Evaluation

RNN Recurrent Neural Network MĐng nẽ-ron hi quySVM Support Vector Machines Máy véc-tÏ hÈ trÒ

TREC Text REtrieval Conference HỴi ngh! truy hÁi v´n b£nVQA Visual Question Answering H0i áp tr¸c quan

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Danh sách hình vg

1 ThÌi gian trung bình + ngÞÌi dùng nh#n ÞỊc câu tr£ lÌi [75] . . . . 3

2 SË lÞỊng các câu h0i và câu h0i trùng l>p trên cQA [77] . . . 3

3 Phõn b chòt lịềng các câu tr£ lÌi trên Yahoo! Answers [14] . . . 4

1.1 Minh ha c1a mẻt hê thậng KBQA . . . 15

1.2 Minh ha c1a mẻt hê thậng VQA . . . 17

1.3 Minh ha c1a mẻt hê thậng cQA . . . 18

1.4 Minh hÂa c1a hª thËng cQA Quora . . . 23

1.5 Ví dỈ v3 bi+u diÃn phân tán t¯ . . . 34

1.6 Ví dỈ v3 mËi quan hª giÛa các véc-tÏ . . . 34

1.7 Minh hÂa cÚa sÍ trÞỊt trong mơ hình CBOW . . . 36

1.8 Ki/n trúc chung c1a mơ hình CBOW và Skip-gram . . . 36

1.9 Minh hÂa phép nhân véc-tÏ ¶u vào vĨi ma tr#n trÂng sË <small>W1</small> . . . 37

1.10 Minh hÂa tích ch#p . . . 38

1.11 Minh hÂa ki/n trúc CNN dùng trong phân lo§i câu [103] . . . 39

1.12 Các mơ- un l>p c1a mĐng RNN cha mẻt tảng . . . 40

1.13 Các mơ- un l>p c1a m§ng LSTM chÚa bËn tảng . . . 40

1.14 ịèng i c1a ụ trĐng thỏi trong mĐng LSTM . . . 41

1.15 Mẻt cng c1a hàm sigmoid trong LSTM . . . 41

1.21 Mô hình tÍng qt c1a hª thËng QA mà lu#n án xÚ lÛ . . . 48

2.1 Mơ hình tìm ki/m và x/p h§ng các câu h0i . . . 51

2.2 So sánh k/t qu£ mơ hình có và khơng có mơ- un phân lo§i câu h0i . 662.3 So sánh Î o phân lo§i (<small>Accuracy</small>) và Î o x/p h§ng (<small>M AP</small>)khi s dặng cỏc bẻ phõn loĐi khỏc nhau . . . 67

3.1 Mơ hình ánh giá Ỵ phù hỊp c1a câu tr£ lÌi . . . 76

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

3.2 Minh hÂa tìm ki/m tài liªu Wikipedia liên quan . . . 783.3 So sánh k/t qu£ c1a cỏc thác nghiêm . . . 854.1 Quan hê gia d liêu v hiêu suòt c1a cỏc mụ hỡnh hÂc máy . . . 894.2 Mơ hình d¸a trên CNN tính tốn i+m tÞÏng Áng giÛa <small>q∗</small> và <small>qi</small> . . . 964.3 Mơ hình d¸a trên CNN tích hỊp thêm tri thÚc tính tốn i+m

tÞÏng Áng giÛa <small>q∗</small> và <small>qi</small> . . . 1004.4 Mơ hình d¸a trên BLSTM tính tốn i+m tÞÏng Áng giÛa <small>q∗</small> và <small>qi</small> . 1024.5 Minh ha mẻt BLSTM c chuẩi ảu vo . . . 1034.6 Mơ hình d¸a trên BLSTM tích hỊp thêm tri thÚc tính tốn i+m

tÞÏng Áng giÛa <small>q∗</small> và <small>qi</small> . . . 1044.7 Mơ hình d¸a trên BERT ánh giá i+m tÞÏng Áng giÛa hai câu h0i 1064.8 So sánh k/t qu£ c1a các mơ hình trong nhiêm vặ tỡm ki/m v x/p

hĐng cỏc cõu h0i trong cQA . . . 1124.9 So sánh k/t qu£ c1a các mơ hình khác nhau trên t#p dÛ liªu Quora . 115

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Danh sách b£ng

1.1 So sánh giÛa hª thËng IR và QA . . . 13

1.2 B£ng so sánh giÛa hª thËng KBQA và cQA . . . 19

1.3 ThËng kê dÛ liªu trên StackOverflow . . . 22

1.4 Cỏc k/t quÊ dá oỏn c1a bẻ phõn loĐi . . . 44

2.7 Mẻt sậ thậng kờ trên t#p dÛ liªu SemEval 2016 . . . 62

2.8 Cỏc k/t quÊ phõn loĐi v x/p hĐng c1a thác nghiªm 1 . . . 63

2.9 Các k/t qu£ phân loĐi v x/p hĐng c1a thác nghiêm 2 . . . 64

2.10 Các k/t qu£ phân lo§i và x/p h§ng c1a thác nghiêm 3 . . . 64

2.11 Cỏc k/t quÊ phõn loĐi v x/p hĐng c1a thác nghiêm 4 . . . 65

2.12 So sánh vÓi các nghiên cÚu khỏc . . . 67

3.1 Vớ dặ v3 mẻt sậ >c trịng n-gram . . . 72

3.2 Vớ dặ v3 ẻ tịẽng tá cosine gia cõu h0i v cõu trÊ lèi . . . 74

3.3 Vớ dặ v3 ẻ tịẽng t¸ d¸a trên s¸ bi+u diÃn véc-tÏ t¯ giÛa câu h0ivà các câu tr£ lÌi . . . 75

3.4 Các mđu cõu h0i v cõu trÊ lèi ịềc s dặng cho câu h0i !nh nghỉa 773.5 MỴt sË thËng kê v3 t#p d liêu . . . 82

3.6 ẻ chớnh xỏc c1a bẻ phõn loĐi SVM khi s dặng k/t hềp nhi3uloĐi >c trịng . . . 83

3.7 ẻ chớnh xỏc c1a bẻ phõn loĐi SVM khi s dặng thờm thơng tint¯ Wikipedia . . . 84

3.8 So sánh vĨi các nghiên cÚu khác . . . 85

4.1 Ví dỈ v3 mẻt sậ c>p cõu h0i trong t#p d liêu Quora . . . 107

4.2 MỴt sË thËng kê v3 t#p dÛ liªu Quora . . . 107

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

4.3 Các tham sË c1a mơ hình d¸a trên m§ng nÏ-ron tích ch#p CNN . . . 1084.4 Các tham sậ c1a mụ hỡnh dáa trờn mĐng BLSTM . . . 1094.5 Cỏc k/t quÊ thác nghiêm trờn t#p d liêu SemEval 2016 s dặng

mụ hỡnh dáa trờn CNN . . . 1094.6 Cỏc k/t quÊ thác nghiêm trờn t#p d liêu SemEval 2016 s dặng

mụ hỡnh dáa trờn mĐng BLSTM . . . 1104.7 Cỏc k/t quÊ thác nghiêm trờn t#p d liêu SemEval 2016 s dặng

mụ hỡnh d¸a trên BERT . . . 1104.8 Các tham sË c1a mụ hỡnh dáa trờn mĐng nẽ-ron tớch ch#p CNN . . . 1124.9 Các tham sË c1a mơ hình dáa trờn mĐng BLSTM . . . 1134.10 Cỏc k/t quÊ thác nghiêm trờn t#p d liêu Quora s dặng mụ hỡnh

dáa trờn mĐng CNN . . . 1134.11 Cỏc k/t quÊ thác nghiêm trờn t#p d liêu Quora s dặng mụ hỡnh

dáa trờn mĐng BLSTM . . . 1144.12 Cỏc k/t quÊ thác nghiêm trờn t#p d liêu Quora s dặng mụ hỡnh

dáa trờn BERT . . . 1144.13 So sánh vÓi các nghiên cÚu khác trên t#p dÛ liªu SemEval 2016 . . . 1164.14 So sánh vĨi các nghiên cÚu khác trên t#p dÛ liªu Quora . . . 117

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

1. Tính cßp thi/t c1a lu#n ỏn

ỷ tịng v3 xõy dáng hê thậng h0i ỏp tá ẻng ra èi t nhng nm 1960.i+m chung trong các hª thËng h0i áp (Question Answering - QA) giai oĐnny l s dặng cẽ s d liêu ịềc thi/t k/ băng tay bi cỏc chuyờn gia tronglổnh vác ÞỊc chÂn + trích rút câu tr£ lÌi. Giai o§n nhng nm 1970 - 1980,cú nhi3u dá ỏn lển hịểng /n viêc hi+u vn bÊn v xõy dáng hê thậng QAdáa trờn cỏc mụ hỡnh ngụn ng thậng kờ. Hẻi ngh! TREC<small>1</small> (Text REtrievalConference) diÃn ra hàng n´m (bbt ¶u t¯ cuËi nhÛng n´m 1990) thu hút s¸tham gia c1a ròt nhi3u cỏc nhúm nghiờn cu cng ó gúp phản ròt lển trongviêc thỳc ây cỏc nghiờn cu v3 hê thËng QA. CuËi nhÛng n´m 1990, WorldWide Web (WWW) ra Ìi và nhanh chóng phát tri+n bùng nÍ trÿ thành mẻtkho ng liêu khng l. Cỏc nh nghiờn cu v3 hê thậng QA cng bbt ảu khaithỏc web nhị l mẻt ngun thụng tin hu ớch cho viêc tỡm ki/m câu tr£ lÌi.Các kỉ thu#t mĨi ịi h0i tËc Ỵ cao, khÊ nng x l lịềng d liêu web lển ròtịềc quan tõm. Cựng vểi thèi gian, cỏc cõu h0i c1a ngịèi dựng dnh cho cỏc hêthậng QA ngy cng phc tĐp, ụi khi ngịèi dựng ó khụng nh#n ịềc câu tr£lÌi thích hỊp t¯ các hª thËng QA này. + gi£i quy/t nhÛng khó kh´n này, cáchª thËng h0i ỏp dáa trờn cẻng ng (community Question Answering - cQA)ó ÞỊc phát tri+n. Thay vì ph£i trích rút các câu trÊ lèi t mẻt kho lịu trịềc xõy dáng trịểc, các cQA sÚ dỈng các câu tr£ lÌi t¯ các chuyờn gia v cẻngng ngịèi dựng cQA. Khụng nhng v#y, cQA cũn cho phộp ngịèi dựng ỏnhgiỏ v3 chòt lịềng c1a các câu tr£ lÌi cÙng nhÞ chÂn câu tr£ lèi tật nhòt cho mẩicõu h0i. Hiên nay, mẻt sậ hê thậng cQA ó ịềc s dặng ròt rẻng rói trên th/

<small> class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

giĨi nhÞ StackOverflow<small>2</small>, WolframAlpha<small>3</small>, Quora<small>4</small>. Các cQA này ngày càng trÿlên phÍ bi/n do ngÞÌi sÚ dỈng có th+ gÚi câu h0i ÿ nhi3u ch1 3 khác nhau, t¯các câu h0i s¸ th#t (factoid question) /n cỏc cõu h0i phc tĐp cng nhị nh#nịềc cỏc câu tr£ lÌi chính xác hÏn t¯ các chun gia, ngịèi s dặng. Tuy nhiờn,viêc xõy dáng cỏc hê thậng cQA hiên nay vđn g>p nhi3u khú khn nhị: ngịèidựng phÊi mòt nhi3u thèi gian + nh#n ịềc cõu trÊ lèi, cú mẻt sậ lịềng lểncỏc cõu h0i trựng l>p, cú nhi3u cõu trÊ lèi kộm chòt lịềng.

1) Thèi gian ngÞÌi dùng nh#n ÞỊc câu tr£ lÌi: Trong các cQA, mẩi khi ngịèidựng gi mẻt cõu h0i, h phÊi mòt vài phút th#m chí vài ngày + có th+ nh#nÞỊc câu tr£ lÌi t¯ nhÛng ngÞÌi dùng khác. Ngồi ra, do cỏc cõu h0i ịềc trỡnhby dịểi dĐng ngụn ng tá nhiờn nờn ròt cú th+ cú nhi3u cõu h0i tịẽng tá óịềc h0i trịểc ú. N/u cQA cú th+ xác !nh và tr£ v3 ÞỊc danh sách các câuh0i tịẽng tá ó ịềc h0i trịểc ú thỡ khi ú ngịèi dựng khụng mòt thèi gianềi cõu trÊ lèi c1a ngÞÌi khác mà có th+ tham kh£o câu tr£ lÌi c1a cỏc cõu h0itịẽng tá cho cõu h0i c1a mỡnh. i3u này khơng chø giúp ngÞÌi h0i có th+ nh#nÞỊc câu tr£ lÌi ngay l#p tÚc mà nó cịn giúp hê thậng cQA trỏnh lịu tr dịtha d liêu l các câu h0i trùng l>p.

Trong nghiên cÚu c1a Xiaojun Quan v cỏc cẻng sá [75] trờn hẽn 200 nghỡncõu h0i trong Yahoo!Answers bỏo cỏo răng phÊi mòt trung bỡnh hẽn na giè +ngịèi h0i nh#n ịềc cõu trÊ lèi ảu tiên n/u câu h0i ÞỊc Þa ra vào bi tËi,và thÌi gian là nhi3u hÏn gßp ơi n/u các câu h0i ÞỊc ´ng vào bi sáng. Hình1 cho bi/t thÌi gian trung bình + ngÞÌi h0i nh#n ÞỊc câu tr£ lÌi ¶u tiên/ thÚhai khi gÚi câu h0i vào các kho£ng thÌi gian khác nhau trong ngày trên Yahoo!Answers [75].

Ngồi ra, trờn thác t/, cỏc cQA ph bi/n nhị Yahoo!Answers hay flow sË lÞỊng các câu h0i trùng l>p là ròt lển. Hỡnh 2 cho thòy sậ lịềng cõu h0imẩi n´m, cÙng nhÞ sË lÞỊng câu h0i trùng l>p t¯ n´m 2011 /n n´m 2016 trêntrang cQA StackOverflow. Viªc các cQA phÊi lịu tr mẻt lịềng ròt lển cỏc cõuh0i trựng l>p dđn /n: (1) Ênh hịng /n khÊ nng lịu tr d liêu c1a cỏc cQA,(2) Ênh hịng /n viêc trÊ lèi cõu h0i c1a ngịèi dựng, h cú th+ phÊi trÊ lèi lĐimẻt cõu h0i tịẽng tá.

StackOver-Viêc phỏt hiên ra cỏc cõu h0i trong kho lịu tr c1a cQA tịẽng tá vểi cõu h0i

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<small>Hỡnh 1: ThÌi gian trung bình + ngÞÌi dùng nh#n ÞỊc câu tr£ lÌi [75]</small>

<small>Hình 2: SË lÞỊng các câu h0i và câu h0i trùng l>p trên cQA [77]</small>

mÓi và x/p hĐng cỏc cõu h0i ny theo ẻ tịẽng tá c1a chúng vĨi câu h0i mĨi cóth+ gi£i quy/t ÞỊc các vòn 3 nờu trờn. Viêc tỡm ki/m v x/p hĐng cỏc cõu h0icú th+ coi nhị l mẻt nhiêm vặ c1a viêc ỏnh giỏ ẻ tịẽng tá ng nghổa giahai cõu h0i. õy l mẻt trong nhng vòn 3 thịèng xÊy ra nhòt v ó ịềc trỡnhby trong nhi3u nghiờn cÚu khác nhau v3 cQA. Nó liên quan /n s¸ khỏc biêttrong viêc hỡnh thnh ngụn ng tá nhiờn c1a các câu h0i. NhÛng ngÞÌi dùngkhác nhau h0i v3 cùng mẻt nẻi dung nhịng h lĐi trỡnh by cỏc cõu h0i theonhng cỏch khỏc nhau. i3u ny dđn /n viêc nhi3u cõu h0i mang ng nghổatịẽng tá nhịng lĐi ịềc trỡnh by khỏc nhau v3 t váng.

2) Chòt lịềng c1a các câu tr£ lÌi: MỴt trong các thách thÚc lĨn nhòt khixõy dáng cỏc hê thậng QA l lm sao + xỏc !nh ịềc chòt lịềng c1a cỏc cõutrÊ lèi cho mÈi câu h0i. Ëi vĨi các hª thËng h0i áp d¸a trên cÏ sÿ tri thÚc(Knowledge Base Question Answering - KBQA), chòt lịềng c1a cỏc cõu trÊ lèiphặ thuẻc vo viêc xõy dáng kho ng liêu v cỏc kầ thu#t trích rút câu tr£ lÌi.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

chßt lịềng c1a cỏc cõu trÊ lèi cú sá chờnh lêch ròt lển. Mẩi cõu h0i cú th+ nh#nịềc nhi3u cõu tr£ lÌi trong ó có nhÛng câu tr£ lÌi khơng liên quan ho>c cóchÚa rßt ít thơng tin liên quan /n cõu h0i. Nhiêm vặ c1a cỏc hê thậng cQA làph£i ánh giá + tr£ v3 cho ngÞÌi dùng các cõu trÊ lèi chòt lịềng nhòt trongsậ nhi3u cõu trÊ lÌi nh#n ÞỊc. Trên các cQA, ngÞÌi tr£ lÌi câu h0i có th+ làcác chun gia-nhÛng ngÞÌi có chun mơn sõu v3 lổnh vác ịềc h0i hay chứ lnhng ngịèi quan tõm /n cõu h0i ú. Do ú chòt lịềng c1a cỏc cõu trÊ lèi cúsá thay i ròt lển.

Trong bài báo c1a Chirag Shah [14], tác gi£ ã th¸c hiên mẻt nghiờn cu v3chòt lịềng c1a cỏc cõu trÊ lÌi trên t#p dÛ liªu trích rút t¯ cQA Yahoo! Answers.T#p dÛ liªu này gÁm 3.248.589 câu h0i và 16.278.891 câu tr£ lÌi tÞÏng Úng. Cáccâu tr£ lÌi này ÞỊc x/p h§ng theo các mÚc t¯ 0 /n 5 (các câu tr£ lÌi x/p h§ng0 là các câu tr£ lÌi khụng ịềc chn, cỏc cõu trÊ lèi x/p hĐng 5 là các câu tr£lÌi tËt nhßt). Hình 3 cho bi/t sË lÞỊng câu tr£ lÌi ÿ mÈi mÚc khác nhau.

<small>Hình 3: Phõn b chòt lịềng cỏc cõu trÊ lèi trờn Yahoo! Answers [14]</small>

T Hỡnh 3 cho thòy sậ lịềng cỏc cõu trÊ lèi khụng ịềc chn chi/m t lê ròtlển (84,3%), hay nói cách khác có rßt nhi3u câu tr£ lÌi c1a ngÞÌi dùng khơngliên quan /n câu h0i.

Các cQA hiên nay thịèng ỏnh giỏ chòt lịềng c1a cỏc cõu trÊ lèi thụng quanhng thụng tin cung còp bi ngịèi dùng nhÞ sË lÞỊng bình chÂn (votes) chocâu tr£ lÌi, câu tr£ lÌi ÞỊc ngÞÌi dùng chÂn là câu tr£ lÌi tËt nhßt ho>c câu tr£

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

lÌi ÞỊc ánh giá là tËt n/u nó ÞỊc gÚi bÿi các chun gia.

+ gi£i quy/t các khó kh´n v3 thÌi gian chÌ Ịi + ngÞÌi dùng nh#n ÞỊc câutr£ lÌi, sậ lịềng cỏc cõu h0i trựng l>p cng nhị chòt lÞỊng c1a các câu tr£ lÌitrong các cQA, ã có nhi3u nghiên cÚu Þa ra các gi£i pháp:

1) Tìm ki/m và x/p h§ng các câu h0i liên quan /n câu h0i mĨi: Gi£i pháptìm ki/m và x/p h§ng các câu h0i trong cÏ sÿ dÛ liªu liên quan /n câu h0i mĨikhơng chø giúp ngÞÌi h0i có th+ nh#n ÞỊc câu tr£ lÌi ngày l#p tÚc mà cịn giúpcác cQA tránh lÞu trÛ dÞ th¯a các câu h0i trùng l>p. Khi ngịèi dựng gi mẻtcõu h0i mểi, hê thậng cQA sg ỏnh giỏ ẻ tịẽng tá c1a cõu h0i ny vĨi cáccâu h0i ã ÞỊc h0i trÞĨc ó. Khi tìm ịềc danh sỏch cỏc cõu h0i tịẽng tá, hêthậng sg sbp x/p cỏc cõu h0i ny theo ẻ tịẽng tá c1a chúng vĨi câu h0i mĨivà tr£ v3 cho ngÞÌi h0i danh sách các câu h0i này và các câu tr£ lÌi c1a chúng.Khi ó ngÞÌi h0i có th+ tìm thßy câu tr£ lÌi cho câu h0i c1a mình mà khụngcản chè ềi ngịèi dựng khỏc gi cõu trÊ lèi.

Vòn 3 ỏnh giỏ ẻ tịẽng tá cú liờn quan /n viªc so khĨp ngÛ nghỉa giÛahai câu h0i. Cho ví dặ hai cõu h0i sau:

<small>ã</small> What is the most populous state in India?

<small>•</small> Which state in India has the highest population?

C£ hai câu h0i trên v3 cÏ b£n 3u h0i cùng mỴt nỴi dung, tÚc là câu tr£ lÌicho câu h0i này có th+ phù hỊp vĨi câu h0i kia v ngịềc lĐi.

Phỏt hiên nhng cõu h0i nhị v#y sg cú nhi3u lềi ớch: trỏnh dị tha, tc ln/u mẻt ngịèi ó trÊ lèi cõu h0i mẻt lản, anh ta khụng cản phÊi trÊ lèi lĐi cõuh0i tịẽng tá na, ng thèi hê thậng cng trỏnh ịềc viêc lịu tr cỏc cõu h0itịẽng tá. Ngoi ra, nú sg cú lềi cho ngịèi h0i, vỡ n/u cõu h0i ảu tiờn ó nh#nÞỊc các câu tr£ lÌi thì các câu h0i tÞÏng t¸ sau ó sg có câu tr£ lÌi ngay chínhlà cỏc cõu trÊ lèi c1a cõu h0i tịẽng tá ó ÞỊc h0i trÞĨc ó.

G¶n ây, có nhi3u nghiên cÚu khác nhau ó ịềc 3 xuòt + giÊi quy/t vòn 3tỡm ki/m và x/p h§ng các câu h0i liên quan /n câu h0i mÓi [56, 68, 72, 73, 97].Nghiên cÚu c1a Florian Kunneman v cỏc cẻng sá [56] phõn tớch tỏc Ỵngc1a các bÞĨc ti3n xÚ lÛ (nhÞ bi/n Íi các t trong cõu h0i v3 ch thịèng, loĐib0 dòu cõu, loĐi b0 cỏc t dng (stop words)) v ẻ tịẽng tá ng nghổa c1a t(word2vec, fastText) ậi vểi viêc xỏc !nh ẻ tịẽng tá gia cỏc cõu h0i. Cỏc k/tquÊ thác nghiêm ó chng minh răng cỏc bịểc ti3n x lÛ và bi+u diÃn t¯ d¸atrên mơ hình word2vec cho hiêu quÊ cao nhòt v3 i+m sậ F1.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Trong bài báo [68], các tác gi£ ã xây dáng mụ hỡnh tng hềp so sỏnh phõncòp + truy xuòt cõu h0i trong cQA. Trịểc tiờn mẩi cõu h0i ÞỊc chia táchthành các câu (sentence), sau ó h th¸c hiªn so sánh mÂi c>p câu trong haicâu h0i sÚ dỈng mơ hình so sánh mÚc t¯. Các k/t qu£ thác nghiêm trờn bẻ dliêu SemEval cho thòy mụ hỡnh 3 xußt trong [68] cho k/t qu£ cao hÏn so vểimẻt sậ mụ hỡnh trịểc ú.

Nghiờn cu c1a Nouha Othman v cỏc cẻng sá [72] 3 xuòt phịẽng phỏp dáatrờn t#p nhúng t¯ (word embedding) + nbm bbt ÞỊc thơng tin v3 ngÛ nghæavà ngÛ c£nh c1a các câu h0i, cỏc tỏc giÊ s dặng ẻ tịẽng tá cosin + o ẻtịẽng tá gia cỏc vộc-tẽ cõu h0i. Cỏc tỏc giÊ ó xõy dáng cỏc thác nghiêm trờncÊ t#p d liêu ti/ng Anh v ti/ng Arabic v chứ ra răng 3 xt trong [72] chok/t qu£ tËt hÏn so vĨi nhi3u nghiên cÚu trÞĨc ó.

Trong bài báo [73], các tác giÊ ó xõy dáng cỏc mụ hỡnh dáa trờn mĐng ron, sÚ dỈng cách bi+u diÃn dày >c c1a dÛ liêu vn bÊn + dá oỏn sá tịẽngng v3 vn b£n giÛa các câu h0i cỴng Áng. Nghiên cÚ 3 xuòt mẻt phịẽngphỏp hc sõu dáa trờn ki/n trỳc mĐng LSTM, ÞỊc t´ng cÞÌng vĨi cÏ ch/ chúÛ (attention mechanism).

nÏ-Các nghiên cÚu trên ây ã xây d¸ng nhi3u mơ hình khỏc nhau dáa trờn cỏcthụng tin cung còp bi cõu h0i, cõu trÊ lèi nhăm ỏnh giỏ ịềc ẻ tịẽng t¸ giÛacâu h0i mĨi vĨi các câu h0i trong kho lịu tr c1a hê thậng cQA. Viêc ỏnh giỏẻ tịẽng tá ny cú th+ s dặng thờm nhi3u phịẽng phỏp bi+u din khỏc nhau(nhị bi+u din dáa trờn t#p nhỳng t) cng nhị b sung thờm thụng tin v3 loĐicõu h0i. Ngồi ra, trong vài n´m g¶n ây các mơ hỡnh hc sõu (deep learning)ó ịềc ỏp dặng v cho thòy nhi3u thnh cụng trong lổnh vác x l ngụn ng tánhiờn nhị: mụ hỡnh cõu [52], tỡm ki/m thụng tin [82], phân tích ngÛ nghỉa [95],phân lo§i câu [103]. Trong nghiên cÚu này, lu#n án ã xây d¸ng các mơ hìnhhÂc sâu d¸a trên CNN và LSTM cho bài toỏn o ẻ tịẽng tá gia cỏc cõu h0i.Nghiờn cu tích hỊp thêm ngn tri thÚc bên ngồi vào mơ hỡnh hc sõu nhămgiÊi quy/t bi toỏn d liêu thịa, vËn là nhÞỊc i+m cË hÛu trong các mơ hìnhhÂc sâu.

2) ánh giá Ỵ phù hỊp c1a câu tr£ lÌi: Chòt lịềng c1a mẻt hê thậng cQAphặ thuẻc chớnh vo chòt lịềng c1a cỏc cõu trÊ lèi. + cú ịềc cỏc cQA tật,thu hỳt ịềc sá tham gia c1a nhi3u chun gia và ngÞÌi dùng thì y/u tË quantrÂng là các câu tr£ lÌi trong cQA ph£i là các câu trÊ lèi cú chòt lịềng. Mẩi

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

cõu h0i trong cQA thÞÌng nh#n ÞỊc nhi3u câu tr£ lÌi t ngịèi dựng, hê thậngcQA khi ú phÊi cú khÊ n´ng lÂc ra các câu tr£ lÌi tËt nhßt + trÊ v3 cho ngịèidựng. + xỏc !nh ịềc chòt lịềng c1a các câu tr£ lÌi cho mÈi câu h0i, gi£ipháp 3 ra l phÊi ỏnh giỏ ịềc ẻ phự hềp c1a mÈi câu tr£ lÌi và Þa ra chongÞÌi dùng nhng cõu trÊ lèi cú ẻ chớnh xỏc cao nhòt. Hai phịẽng phỏp ịềcs dặng nhi3u nhòt + ỏnh giỏ Ỵ phù hỊp c1a các câu tr£ lÌi là:

(1) ánh giỏ dáa trờn thụng tin cung còp bi ngịèi dựng [23, 60]: sË lÞỊng bìnhchÂn (votes) cho câu tr£ lÌi, câu tr£ lÌi ÞỊc chÂn là câu tr£ lÌi tËt nhòt,cõu trÊ lèi ịềc gi bi cỏc chuyờn gia.

(2) ỏnh giá sÚ dỈng các kỉ thu#t hÂc máy [32, 35, 59, 76, 94, 101]: sÚ dỈngcác kỉ thu#t + trích rỳt cỏc >c trịng, sau ú ỏp dặng cỏc phịẽng pháphÂc máy trên t#p các >c trÞng này + phân lo§i câu tr£ lÌi.

Nghiên cÚu c1a Fengshi Jing và Qingpeng Zhang [23] k/t hỊp thơng tin cỴngÁng và phân tích v´n b£n câu h0i và câu tr£ lÌi trong viªc láa chn cõu trÊ lèitật nhòt. Cỏc thụng tin cẻng ng bao gm sậ lịềng bỡnh chn, chuyờn mụn,thâm quy3n c1a ngịèi trÊ lèi. Cỏc >c trịng thụng dặng khỏc s dặng trongphõn tớch chòt lịềng l s dặng ẻ o ph bi/n v tịẽng tỏc xó hẻi [60], chỉnghĐn nhị sậ lịềng c1a cõu trÊ lèi tật nhòt chn bi ngịèi s dặng, i+m ỏnhgiỏ cho cõu trÊ lèi c1a ngịèi s dặng, tứ lê chòp nh#n c1a cõu tr£ lÌi.

Trong nghiên cÚu [35], các tác gi£ ã khám phỏ mụ hỡnh dịa trờn mĐngLSTM cho vòn 3 láa chÂn câu tr£ lÌi trong cQA. Nghiên cÚu 3 xt tích hỊps¸ chú Û có giám sát (supervised attention) vào mĐng LSTM. Cặ th+, nghiờncu ó t#n dặng ng nghổa t váng t bờn ngoi + hịểng dđn viêc hc cáctrÂng sË cho các c>p câu h0i. Mơ hình 3 xuòt hc ịềc nhi3u nghổa hẽn chophộp thác hiên tËt hÏn mơ hình cÏ b£n.

Nghiên cÚu c1a Lishuang Li v cỏc cẻng sá [59] 3 xuòt khai thỏc mĐng tịẽngtỏc nhi3u còp ẻ mÊnh (Multiple Fragment-level Interactive Network - MFIN)cho nhiêm vặ ny. MFIN cú th+ m rẻng khụng gian tỡm ki/m t còp ẻ t/n còp ẻ phõn oĐn, cú lềi cho viêc thu th#p thờm thụng tin theo ngÛ c£nh.Trong MFIN, các tác gi£ áp dỈng cÏ ch/ chú Û nhi3u mÚc Ỵ phân phËi + chÂncác c>p phõn oĐn chớnh v Đt ịềc nhi3u tịẽng tỏc còp phõn oĐn. K/t quÊth nghiêm chng minh răng mụ hỡnh 3 xuòt trong [59] hiêu quÊ so vểi nhi3u

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Nghiên cÚu c1a Qunbo Wang và các cẻng sá [76] 3 xuòt mẻt n3n tÊng mểitớch hềp hÂc t#p tích c¸c (active learning) và t¸ hÂc (self-paced learning) trongviêc huòn luyên cỏc mụ hỡnh láa chn cõu trÊ lèi sõu. Nghiờn cu 3 xuòt mẻtphịẽng phỏp !nh lịềng khụng chbc chbn dáa trờn mĐng thản kinh Bayes +hịểng dđn hc t#p tớch các v tá hc theo nh!p ẻ trong cựng mẻt quỏ trỡnhl>p lĐi c1a huòn luyên mụ hỡnh. Cỏc k/t quÊ thác nghiêm chng minh phịẽngphỏp ịềc 3 xuòt cú th+ Đt ịềc hiêu suòt tật hẽn so vểi cỏc phịẽng phỏphc t#p tớch các sâu khác. HÏn nÛa, phÞÏng pháp này có th+ dà dng ịềc mrẻng cho cỏc nhiêm vặ khỏc nhị truy xuòt thụng tin.

Nghiờn cu c1a Zhang v cỏc cẻng sá [101] xõy dáng cỏc mụ hỡnh dáa trờnmĐng BLSTM (Bidirectional Long Short-Term Memory) và cÏ ch/ chú Û (atten-tion) cho nhiêm vặ láa chn cõu trÊ lèi trong cỏc cQA. K/t quÊ nghiờn cu bỏocỏo răng mụ hỡnh mểi cÊi thiên ẻ chớnh xỏc 3,8% so vểi mụ hỡnh mĐng LSTMtruy3n thËng.

Các nghiên cÚu nói trên mĨi chø khai thác nguÁn thông tin h0i- áp trong cáccQA + ánh giá chòt lịềng c1a cỏc cõu trÊ lèi. Cỏc nghiờn cu t#p trung voviêc xõy dáng cỏc mụ hỡnh + ỏnh giỏ ịềc ẻ tịẽng tá gia cõu h0i vểi cõutrÊ lèi ho>c dáa vo cỏc thụng tin cung còp bi ngịèi dựng + ỏnh giỏ chòtlịềng c1a cỏc cõu trÊ lèi. Tuy nhiờn, chòt lịềng c1a mẻt cõu trÊ lèi khụng chứdáa trờn ẻ tịẽng tá c1a nú vểi cõu h0i cng nhị dáa trờn cỏc thụng tin cungcòp bi ngịèi dựng. Cản tỡm ki/m thờm mẻt ngun thụng tin áng tin c#y nà + ánh giá tính úng bn c1a cỏc cõu trÊ lèi. Nhị v#y, vòn 3 ỏnh giá Ỵphù hỊp c1a các câu tr£ lÌi trong các cQA hiên vđn chịa ịềc giÊi quy/t ảy1. Lu#n ỏn sg ti/p nậi cỏc nghiờn cu trịểc ú nhăm giÊi quy/t nhng hĐn ch/ịềc nờu ra trờn.

2. Mặc tiờu c1a lu#n ỏn

Tớnh còp thi/t c1a lu#n ỏn ó ịềc phân tích ÿ trên cho phép chúng tơi xácl#p lu#n ỏn vểi tờn H0i ỏp tá ẻng s dặng nhi3u ngn tri thÚc”. MỈc tiêucỈ th+ c1a lu#n án là 3 xuòt cỏc phịẽng phỏp dáa trờn hc mỏy v tớch hềpnhi3u ngun tri thc + nõng cao chòt lịềng c1a cỏc hê thậng cQA. + tháchiên ịềc mặc tiờu này, lu#n án i vào gi£i quy/t các bài toán sau:

<small>ã</small> Th nhòt: Nghiờn cu, 3 xuòt phịẽng phỏp + tìm ki/m và x/p h§ng các

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

câu h0i trong cÏ sÿ dÛ liªu liên quan /n câu h0i mểi.

<small>ã</small> Th hai: Nghiờn cu, 3 xuòt phịẽng phỏp + ánh giá Ỵ phù hỊp c1a cáccâu tr£ lÌi trong hê thậng cQA.

<small>ã</small> Th ba: Nghiờn cu, 3 xuòt phÞÏng pháp + tích hỊp thêm ngn tri thÚcvào mơ hỡnh hc sõu + ỏnh giỏ ẻ tịẽng tá gia cỏc cõu h0i.

<small>ã</small> 3 xuòt phịẽng phỏp + ỏnh giỏ Ỵ phù hỊp c1a các câu tr£ lÌi. Lu#nán sÚ dặng thờm ngun thụng tin t bỏch khoa ton thị mÿ Wikipedia +ánh giá Ỵ phù hỊp c1a câu tr£ lÌi. Lu#n án xây d¸ng mơ hình mĨi k/thỊp c£ các thơng tin t¯ câu h0i và câu tr£ lÌi, Áng thÌi khai thác thêmthơng tin t¯ ngn tri thÚc bên ngồi (wikipedia) + ánh giá Ỵ phù hỊpc1a các câu tr£ lÌi trong cQA. óng góp này ã ÞỊc cơng bË ÿ k y/u hỴith£o qc t/ Integrated Uncertainty in Knowledge Modelling and DecisionMaking (IUKM) n´m 2016 (cơng trình sậ 3) v tĐp chớ trong nịểc TĐp

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

chí khoa hÂc cơng nghª thơng tin và truy3n thụng, hc viên Cụng nghê Bịuchớnh Vin thụng nm 2017 (cụng trỡnh sậ 4).

<small>ã</small> 3 xuòt ỏp dặng phịẽng phỏp hÂc sâu + nâng cao hiªu qu£ cho bài tốnánh giỏ ẻ tịẽng tá gia hai cõu h0i. Lu#n ỏn xây d¸ng mơ hình tíchhỊp ngn tri thÚc bên ngồi vo cỏc mụ hỡnh hc sõu + ỏnh giỏ ẻtịẽng tá gia hai cõu h0i (coi mẩi cõu h0i nhị l mẻt oĐn vn bÊn ngbn).Lu#n ỏn xõy dáng cỏc mụ hỡnh dáa trờn mĐng nẽ-ron + trớch rỳt cỏc >ctrịng thụng qua cỏc tảng (layer) c1a mĐng v sau ó tích hỊp các ngntri thÚc bên ngồi vào các mụ hỡnh hc sõu ny + tng hiêu suòt c1a viêcỏnh giỏ ẻ tịẽng tá. Lu#n ỏn cng ó nghiờn cu, xõy dáng mụ hỡnh dáatrờn BERT cho vòn 3 ỏnh giỏ ẻ tịẽng tá gia cỏc cõu h0i. Cỏc únggúp ny ó ịềc cụng bậ k y/u hẻi th£o quËc t/ Integrated Uncertaintyin Knowledge Modelling and Decision Making (IUKM) n´m 2018 (cơngtrình sË 6), t§p chí qc t/ International Journal of Machine Learning andComputing n´m 2021 (cơng trình sậ 7), tĐp chớ trong nịểc VNU Journalof Science: Computer Science and Communication Engineering n´m 2021(cơng trình sË 8).

Các nỴi dung và k/t qu£ nghiên cÚu trình bày trong lu#n án (t¯ ChÞÏng 2/n ChÞÏng 4) ã ÞỊc cơng bË trong 08 cơng trình. Trong ó có 03 bài báo´ng tĐp chớ trong nịểc cú phÊn biên, 02 bi báo ´ng ÿ t§p chí qc t/ và03 bài báo ´ng trong k y/u c1a hỴi ngh! qc t/ có phÊn biên, ịềc xuòt bÊnbi nh xuòt bÊn Springer.

<small>ã</small> Chịẽng 2. Trình bày nỴi dung, k/t qu£ nghiên cÚu v3 bài tốn tìm ki/mvà x/p h§ng các câu h0i trong cÏ sÿ dÛ liªu liên quan /n câu h0i mĨi.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<small>ã</small> Chịẽng 3. Trỡnh by nẻi dung, k/t qu£ nghiên cÚu v3 bài tốn ánh giáỴ phù hềp c1a cõu trÊ lèi.

<small>ã</small> Chịẽng 4. Trỡnh by nẻi dung, các k/t qu£ nghiên cÚu c1a viªc tích hỊpngn tri thÚc bên ngồi vào các mơ hình hÂc sâu + tng hiêu quÊ c1aviêc ỏnh giỏ ẻ tịẽng tá giÛa các câu h0i.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

ChÞÏng này trình bày tÍng quan v3 nhÛng vßn 3 nghiên cÚu c1a lu#n án,bao gÁm: tÍng quan v3 hª thËng h0i áp, phõn loĐi cỏc hê thậng h0i ỏp, mẻt sậhê thậng cQA thụng dặng cng nhị phõn tớch mẻt sậ nghiờn cÚu liên quan v3cQA. MỴt sË ki/n thÚc cÏ sÿ cng ịềc trỡnh by trong chịẽng ny. Phản cuậichịẽng sg thÊo lu#n v3 mẻt sậ vòn 3 cũn tn tĐi khi xõy dáng cỏc hê thậngcQA m lu#n ỏn sg t#p trung gi£i quy/t và xác !nh nỴi dung nghiên cÚu c1alu#n án.

1.1 TÍng quan v3 hª thËng h0i áp

Trong các hª thËng truy hÁi thơng tin (Information Retrieval - IR) hiên nay,phịẽng phỏp chung l ngịèi dựng s dặng t/cặm t khúa + tỡm ki/m thụngtin. Cho mẻt cõu truy vòn, mẻt hê thậng truy hi thụng tin sg trÊ v3 mẻt danhsỏch cỏc ti liêu cú liờn quan /n cõu truy vòn m sau ú ngịèi dựng phÊi Âc+ tìm ki/m các thơng tin thích hỊp. K/t qu£ trÊ v3 c1a cỏc mỏy tỡm ki/m (mẻtloĐi hê thậng tỡm ki/m thụng tin) thịèng l ròt lển cú khi lờn tểi hng nghỡntrang web. Ngịèi s dặng muận cú ịềc thụng tin mỡnh cản phÊi tá duyêt vc lản lÞỊt qua các trang web + xác !nh ÞỊc thơng tin mình c¶n. i3u ósg tËn nhi3u cơng sÚc và thèi gian cho viêc tỡm ki/m thụng tin. Vớ dặ, n/u ngÞÌidùng mn bi/t “Ai là ngÞÌi sáng l#p ra t#p on Samsung?, thỡ vểi hê thậngIR, ngịèi dựng sg tỡm ịềc mẻt danh sỏch cỏc ti liêu liờn quan /n cặm tngịèi sỏng l#p ra t#p on Samsung. Sau ú, dáa vo danh sỏch ti liêu ny,ngịèi dựng tá dũ tỡm cõu trÊ lèi. Mẻt vớ dặ khỏc, mẻt ngÞÌi khách du l!ch mntham quan nhÛng !a i+m du l!ch tĐi thnh phậ H Nẻi. N/u ngịèi ú s dặng

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

hê thậng tỡm ki/m thụng tin + tỡm cặm t cỏc !a i+m du l!ch tĐi Hà NỴi” thìk/t qu£ tr£ v3 là nhÛng thơng tin chung chung v cản phÊi dũ tỡm + nbm ịềccỏc thơng tin mà mình c¶n tìm hi+u; ho>c mn có ÞỊc câu tr£ lÌi chính xácvà chi ti/t, ngÞÌi khách cản tận kinh phớ + nhè /n sá giỳp ễ c1a mẻt d!chvặ no ú. Phịẽng phỏp ny khụng th+ ỏp ng nhu cảu c1a ngịèi s dặng +trớch xuòt cỏc thụng tin nhanh, ảy 1, hiêu quÊ t mẻt t#p hỊp lĨn các tàiliªu iªn tÚ, m>c dù viªc xõy dáng cỏc hê thậng truy hi thụng tin l khụngquỏ phc tĐp. Vỡ v#y, yờu cảu >t ra l cản phÊi cú mẻt hê thậng cú khÊ nngkhai thỏc thụng tin mẻt cỏch trác ti/p hẽn, tỡm ki/m cho ngÞÌi dùng câu tr£lÌi ngbn gÂn, chính xác thay vì mẻt mẻt t#p ti liêu cha thụng tin cõu trÊ lÌi,Áng thÌi £m b£o v3 m>t kinh t/ và thu#n lềi cho viêc s dặng c1a ngịèi dựng bòt c hon cÊnh no.

Hê thậng h0i ỏp l mẻt kổ thu#t nhăm mặc ớch trÊ v3 danh sỏch cỏc cõutrÊ lèi cho mẻt cõu h0i ịềc vi/t băng ngụn ng tá nhiờn trong mẻt bẻ sịu t#plển cỏc ti liêu ho>c các câu tr£ lÌi ÞỊc tr£ lÌi bÿi nhÛng ngÞÌi s dặng khỏc.Cỏc hê thậng QA hiên nay 3u cho phộp bi+u din cõu h0i dịểi dĐng ngụn ngtá nhiờn và cË gbng tr£ v3 các câu tr£ lÌi chính xỏc nhòt.

Viêc so sỏnh gia mẻt hê thậng truy hi thụng tin thụng thịèng v hê thậngQA ịềc trỡnh by trong B£ng 1.1. Trong hª thËng truy hÁi thơng tin, truy vònảu vo ịềc th+ hiên băng ngụn ng truy vòn, v ảu ra bao gm mẻt danhsỏch cỏc ti liêu ó x/p hĐng m cú lg cú cha cỏc thụng tin liờn quan /n truyvòn c1a ngịèi dựng. Ngịèi dùng sau ó sg ch!u trách nhiªm cho viªc Âc cáctài liªu + tìm các thơng tin mà mình mn. Hª thËng QA thì khác vĨi truy hÁithơng tin, trong ó ngÞÌi dùng ÞỊc phép gÚi câu h0i c1a mình trác ti/p /n hêthậng trong ngụn ng tá nhiờn m khụng cản phÊi d!ch nú sang mẻt sậ cỳ phỏptruy vòn. Sau ú hê thậng QA sg trÊ v3 cỏc câu tr£ lÌi cho câu h0i trong cáchình thÚc c1a mỴt câu tr£ lÌi chính xác. B£ng 1.1 so sánh gia mẻt hê thậngtruy hi thụng tin truy3n thậng v mẻt hê thậng QA.

<small>BÊng 1.1: So sỏnh gia hê thậng IR và QA</small>

<small>Hª thËng truy hÁi thơng tin (IR)Hª thËng h0iỏp (QA)</small>

<small>D liêu voCỏc t khúa trỡnh by dịểi dĐng cõu truy vònCõu h0i dịểi dĐng ngụn ng tá nhiờnD liªu raDanh sách các tài liªu liên quan /n t¯ khóaDanh sách các câu tr£ lÌi cho câu h0i</small>

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Nghiên cÚu v3 hª thËng QA hiªn ang thu hỳt sá quan tõm c1a ròt nhi3ucỏc nh nghiờn cu t cỏc trịèng Đi hc, cỏc viên nghiờn cu và c£ các doanhnghiªp lĨn trong ngành cơng nghª thơng tin, nú cú nghổa khoa hc lđn nghổa thác tin. Ròt nhi3u cỏc hẻi ngh! thịèng niờn v3 khai phỏ d liêu, trớchchn thụng tin dnh mẻt ch1 3 riờng cho cỏc nghiờn cu v3 hê thậng QA nhịTREC, The Cross Language Evaluation Forum (CLEF<small>1</small>), NII Test Collectionfor Information Retrieval (NTCIR<small>2</small>), Semantic Evaluation (SemEval<small>3</small>).

Bi toỏn xõy dáng hê thậng QA l mẻt bi toỏn khú thuẻc lổnh vác x lÛngơn ngÛ t¸ nhiên. Ngơn ngÛ t¸ nhiên vËn nh#p nhăng, a nghổa, viêc xỏc !nhịềc ng nghổa c1a cõu h0i cng nhị phỏt hiên ra cõu trÊ lèi l mỴt thách thÚckhơng nh0. Khơng nhÛng v#y, giÛa câu h0i v cõu trÊ lèi cũn tn tĐi cỏc quanhê ngảm hay phặ thuẻc vo ng cÊnh.

Cỏc hê thậng QA trờn th/ giểi hiên nay s dặng ròt nhi3u cỏc cụng cặ x lngụn ng nhị: Bẻ gỏn nhón t loĐi (POS Tagger), bẻ nh#n dĐng thác th+ cú tờn(Named Entity Recognizer), bỴ phân tích ngÛ pháp (Parser) và các tài ngunngơn ngÛ nhÞ Wordnet, Ontology + phân tích câu h0i v trớch xuòt cõu trÊ lèi.Cỏc nghiờn cu v3 hê thậng QA hiên nay ang t#p trung vo xõy dáng hª thËngQA có tính chính xác cao, có kh£ n´ng trÊ lèi ịềc cỏc cõu h0i phc tĐp c1angịèi dựng và có kh£ n´ng sÚ dỈng ngn tri thÚc a dĐng t cỏc chuyờn gia,cẻng ng ngịèi s dặng.

1.2 Phõn loĐi cỏc hê thậng h0i ỏp

T khi ịềc nghiờn cu v phỏt tri+n, cú ròt nhi3u hê thậng QA khỏc nhauó ịềc xõy dáng. Dáa trờn nghiờn cu [55], chỳng cú th+ ịềc phõn loĐi thnhcỏc hê thậng QA cẽ b£n là: QA d¸a trên cÏ sÿ tri thÚc, QA trác quan, QA cẻngng. Phản ny sg mụ tÊ vbn tbt v3 cỏc hê thậng QA ny cng nhị trỡnh bymẻt sậ nghiờn cu liờn quan.

<small>1.2.1 H0i ỏp dáa trờn cẽ s tri thc</small>

Cỏc hê thậng h0i ỏp dáa trờn cÏ sÿ tri thÚc (Knowledge Base QuestionAnswering - KBQA) sÚ dỈng mơ- un truy hÁi thơng tin + tr£ v3 mẻt t#p cỏc

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

ti liêu ó ịềc x/p hĐng trong kho lịu tr m cú khÊ nng cha cỏc cõu trÊlèi cho truy vòn c1a ngịèi dựng. Hê thậng trớch rỳt thụng tin s dặng cỏc kổthu#t xÚ lÛ ngơn ngÛ t¸ nhiên + phân tích câu h0i, các tài liªu tr£ v3 bÿi cáchª thËng truy hÁi thơng tin và tr£ v3 các o§n v´n b£n ngbn là các câu tr£ lÌitr¸c ti/p cho câu h0i c1a ngịèi dựng. Cỏc cẽ s tri thc c1a hê thậng QA nythịèng l mẻt bẻ sịu t#p ròt lển cỏc ti liêu băng ngụn ng tá nhiờn. Tựy thuẻcvo kớch thịểc c1a thụng tin liờn quan, nhi3u hê thậng QA sÚ dỈng các mơ- untruy hÁi thơng tin trong ki/n trúc c1a nó, vì kÇ thu#t c1a h + xÚ lÛ và lÞugiÛ thơng tin theo cách cho phép truy vòn qua mẻt lịềng lển d liêu ịềc lòyra trong mẻt thèi gian ngbn hềp l. Hê thậng truy hÁi thơng tin xÚ lÛ và lÞutrÛ sË lÞỊng lĨn các thơng tin phi cßu trúc, + có th+ nhanh chúng trÊ lĐi cỏcthụng tin cú liờn quan /n mẻt yờu cảu nhòt !nh. Hỡnh 1.1 minh ha c1a mẻthê thậng KBQA.

<small>Hỡnh 1.1: Minh ha c1a mẻt hê thậng KBQA</small>

Cỏc hê thậng KBQA ra èi sểm nhòt l BASEBALL [30] và LUNAR [92] chøÏn gi£n là các hª thËng truy vòn cẽ s d liêu cú còu trỳc. Cỏc cõu h0i ịềctrỡnh by trờn cỏc hê thậng ny thịèng ịềc phõn tớch băng cỏc kầ thu#t NLP,sau ú ịềc s dặng + xõy dáng mẻt truy vòn cẽ s d liêu chuân. Hê thậngậi thoĐi ELIZA [50] v GUS [8] cng s dặng cẽ s d liêu cú còu trỳc nhị lngun tri thc. HĐn ch/ chớnh c1a cỏc hê thËng này là các tri thÚc ÞỊc lÞu trÛtrong cÏ s d liêu cú còu trỳc chứ cú khÊ nng trÊ lèi cỏc cõu h0i trong lổnh váchĐn ch/.

Mẻt sậ hê thậng QA ó xõy dáng nhị START [53], hê thậng QA c1a Mishrav cỏc cẻng sá [67], Chung v cỏc cẻng sá [15] ó s dặng web nhị ngun trithc cho h0i ỏp. Hê thậng QA ịềc 3 xuòt bi Chung v cỏc cẻng sá [15]s dặng mụ- un trích rút thơng tin (Information Extraction - IE) + trích rútthơng tin v3 thÌi ti/t t¯ các trang web. Trên hê thậng ny, cỏc yờu cảu c1a ngịèi

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

dựng ịềc phõn tớch bi bẻ phõn tớch truy vòn, cụng cặ SQL sg tĐo ra truy vòncú liờn quan. TrÊ lèi truy vòn c1a ngịèi dựng ịềc sinh ra t cẽ s d liêu lịutr thụng tin thèi ti/t t¯ các trang web. Ỵ chính xác (accuracy) và ẻ bao ph1(recall) c1a hê thậng ny Đt ịềc lản lịềt l 90,9% v 75,0%. Nhng hê thậngny ỏp dặng nhng cụng nghê tá ẻng + lịu tr thụng tin t¯ các tài liªu webtrong cÏ sÿ dÛ liªu tri thc cặc bẻ m sau ú dựng + truy c#p v dáa vo kầthu#t ngụn ng hc + sinh ra cõu trÊ lèi.

Hiên nay, vểi sá tng trịng nhanh chúng c1a cỏc kho vn bÊn trác tuy/n vd liêu web ã làm cho các phÞÏng pháp thËng kê ngày càng quan trÂng hÏn.NhÛng phÞÏng pháp ti/p c#n này Þa ra các kÇ thu#t mĨi, nó khơng nhÛng cóth+ gi£i quy/t ÞỊc vĨi sË lÞỊng lĨn c1a dÛ liªu mà cịn cÊ tớnh khụng ng nhòtc1a d liêu. Mẻt trong nhng cơng trình tiên phong d¸a trên mơ hình thËng kêlà hª thËng QA thËng kê c1a IBM [41]. Hª thËng ny s dặng mụ hỡnh các Đihúa Entropy cho viêc phõn loĐi cõu h0i/cõu trÊ lèi dáa trờn cỏc >c trịng khỏcnhau n-gram ho>c bag-of-words. Moschitti [70] ó s dặng bẻ phõn loĐi vn bÊnRocchio v mỏy vộc-tẽ hẩ trề (Support Vector Machines - SVM) + phân lo§icâu h0i và câu tr£ lÌi và ki+m tra cách ti/p c#n trên Reuters-21578. Berger vcỏc cẻng sá [6] ó i3u tra + ỏp dặng cỏc phịẽng phỏp thậng kờ cho nhiêm vặtỡm ki/m câu tr£ lÌi trong QA và phát hiªn ra răng nhng kầ thu#t ny tháchiên khỏ tật tựy thuẻc vo >c i+m c1a d liêu cẽ bÊn: kớch thịểc t¯ v¸ng,s¸ chÁng chéo giÛa câu h0i và câu tr£ lÌi, và giÛa nhi3u câu tr£ lÌi, vv. Các kÇthu#t thËng kê nhÞ khai thác n-gram, các mơ hình tÞÏng tá cõu v ẻ o tịẽngtá Okapi BM25 ịềc ỏp dặng cho cỏc nhiêm vặ tỡm ki/m cõu trÊ lèi trong mẻthê thậng QA. Nhng kầ thu#t ny phõn tớch cõu h0i v ti liêu dáa trờn cỏc>c trịng o sá giậng nhau + xỏc !nh tớnh gản gi c1a các tài liªu Úng viênho>c câu tr£ lÌi liên quan /n câu h0i. Khái niªm xác minh câu tr£ lÌi cng cúth+ ịềc thác hiên thụng qua cỏc ti/p c#n thậng kờ. Cai v cỏc cẻng sá [18] dáatrờn mụ hỡnh tịẽng tá cõu + tớnh toỏn sá giậng nhau giÛa câu h0i và câu tr£lÌi. Mơ hình này tính tốn trên các >c trÞng khác nhau nhÞ: tính tÞÏng tá c1at khúa, tịẽng tá v3 ẻ di, tớnh giậng nhau v khoÊng cỏch gia cỏc t khoỏ

ịềc s dặng trong câu h0i và câu tr£ lÌi.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<small>1.2.2 H0i áp tr¸c quan</small>

H0i áp tr¸c quan (Visual Question Answering - VQA) ngy cng nh#n ịềcsá quan tõm c1a các nhà nghiên cÚu trong c£ lỉnh v¸c th! giác mỏy tớnh v xl ngụn ng tá nhiờn. ịa ra mẻt hỡnh Ênh v mẻt cõu h0i băng ngụn ng tánhiờn, hê thậng h0i ỏp ũi h0i l lu#n v3 các y/u tË c1a hình £nh và ki/n thÚcchung + suy lu#n ra câu tr£ lÌi úng. Hình 1.2 minh ha c1a mẻt hê thậngVQA.

<small>Hỡnh 1.2: Minh ha c1a mẻt hê thậng VQA</small>

H0i ỏp trác quan ũi h0i cỏc ki/n thÚc v3 c£ th! giác máy tính và xÚ lÛ ngơnngÛ t¸ nhiên. Th! giác máy tính nghiên cÚu các phÞÏng pháp thu th#p, xÚ lÛ +có th+ “hi+u” ÞỊc hỡnh Ênh hay mặc ớch c1a nú l dĐy mỏy tính “cách xem”.M>t khác, NLP là lỉnh v¸c liên quan /n viêc cho phộp tịẽng tỏc gia mỏy tớnhv con ngịèi băng ngụn ng tá nhiờn, tc l dĐy mỏy tính “cách Âc”. C£ th!giác máy tính và NLP 3u thuẻc v3 lổnh vác trớ tuê nhõn tĐo v chỳng chia sƠcỏc phịẽng phỏp tịẽng tá bbt ngun t viêc hÂc máy. Tuy nhiên, chúng có l!chsÚ phát tri+n riêng biêt. CÊ hai lổnh vác ó Đt ịềc nhng ti/n bẻ ỏng k+ ậivểi cỏc mặc tiờu tịẽng ng c1a chỳng trong vi th#p k qua, v sá tng trịngbựng nÍ k/t hỊp dÛ liªu hình £nh và v´n b£n ang thỳc ây sá k/t hềp c1anhng nẩ lác t cÊ hai lổnh vác.

<small>1.2.3 H0i ỏp cẻng ng</small>

Cỏc hê thậng h0i ỏp dáa trờn cẻng ng (cQA) l cỏc hê thậng QA nhịngs dặng nhng cõu trÊ lèi t cỏc chuyờn gia v ngịèi s dặng + trÊ lèi cỏc cõuh0i c1a ngịèi dựng. Cỏc hê thậng cQA ó tr nờn ngy cng ph bi/n. Sá thnhcụng c1a cỏc hê thËng cQA này ch1 y/u là do ngÞÌi dùng có th+ có ÞỊc câu

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

tr£ lÌi nhanh và chính xác cho bßt kß câu h0i ngơn ngÛ tá nhiờn no [7]. Hỡnh1.3 l minh ha c1a mẻt cQA.

<small>Hỡnh 1.3: Minh ha c1a mẻt hê thậng cQA</small>

Mẻt nghiờn cu do Bian v cỏc cẻng sá [7] cho thòy ngịèi s dặng ti/p c#nvểi cỏc hê thậng cQA + lßy Û ki/n và tr£ lÌi các câu h0i phÚc tĐp hẽn l cỏc cõuh0i sá th#t (factoid question). Sá phỏt tri+n c1a cỏc hê thậng cQA ó dđn /nviêc m rẻng kho lịu tr cho cỏc cõu h0i phc tĐp v cỏc cõu trÊ lèi c1a chỳng.Mẻt sậ hê thậng cQA phỏt tri+n nhanh chúng v ịềc s dặng ngày càng phÍbi/n nhÞ StackOverflow, Yahoo!Answers, Quora, AskJeeves<small>4</small>. Các trang web nàycho phép các cá nhân ´ng câu h0i c1a h trác tuy/n v nhi3u chuyờn gia cngnhị ngịèi s dặng trờn ton cảu sg trÊ lèi chỳng. BÊng 1.2 trỡnh by mẻt sosỏnh gia hê thậng QA dáa trờn cẽ s tri thc v QA dáa trờn cẻng ng.

Gản ây, các nghiên cÚu v3 các hª thËng cQA ã phỏt tri+n mĐnh mg [32,33, 47, 74]. Hảu h/t cỏc hê thậng cQA s dặng ti/p c#n phõn tỏn + xỏc !nhnẻi dung cõu trÊ lèi cng nhị ngịèi trÊ lÌi áng tin c#y. Guoxin Liu [32] ãphát tri+n mỴt hª thËng QA phân tán có tên iASK. iASK sÚ dặng mĐng nẽ-rongiỳp xem xột nhi3u y/u tậ trong viêc ỏnh giỏ chòt lịềng cõu trÊ lèi c1a ngịèidựng. Haiying Shen v cỏc cẻng sá [33] ó 3 xuòt mẻt hê thậng QA dáa trờnmĐng xó hẻi dựng cho cỏc thi/t b! di Ỵng ( >t tên là SOS), cho phộp ngịèidựng di ẻng gi cõu h0i /n nhng ngịèi có câu tr£ lÌi ti3m n´ng trong danhsách b§n bè c1a h. Nú phặ thuẻc vo cỏc kầ thu#t cụng nghê tri thc + tỡm rachớnh xỏc nhng ngịèi bĐn nào có kh£ n´ng và sỈn sàng tr£ lÌi các câu h0i, d gi£m chi phí tìm ki/m và tính toỏn c1a cỏc nỳt di ẻng. + xỏc !nh ngịèidựng áng tin c#y và các câu tr£ lÌi có liên quan, Park v cỏc cẻng sá [74] ó 3

<small> class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<small>B£ng 1.2: B£ng so sánh giÛa hª thËng KBQA v cQA</small>

<small>LoĐi cõu h0iCỏc cõu h0i sá th#t (factoid question)Các câu h0i s¸ th#t (factoid tion) và phi s¸ th#t (non-factoid)Câu tr£ lÌiTrích rút trong kho lÞu trÛ (Cor-</small>

<small>ques-pora, Dictionaries, Databases, ments,. . . )</small>

<small>Docu-óng góp bÿi các chuyên gia, ngịèis dặng cQA</small>

<small>Chòt lịềng cõutrÊ lèi</small>

<small>Cao, cõu trÊ lèi ÞỊc trích rút t¯ cácngn tài ngun có uy tín</small>

<small>Khác nhau, phặ thuẻc vo cõu trÊlèi úng gúp c1a ngịèi dựngTớnh sặn cú c1a</small>

<small>siờu d liêu</small>

<small>Khụng cúCõu trÊ lèi tật nhòt ịềc chn bingịèi h0i, votes bi ngịèi dựngThèi gian chè</small>

1.3 Mẻt sậ hê thậng cQA thụng dặng

H0i ỏp cẻng ng, theo Shah v cẻng sá [12], bao gm ba thnh phản chớnh:mẻt cẽ ch/ + ngịèi dựng gi cõu h0i băng ngụn ng tá nhiờn, mẻt !a i+m +ngịèi dùng gÚi câu tr£ lÌi cho các câu h0i và cẻng ng ịềc xõy dáng xungquanh trao i ny. Nhỡn vo >c i+m ny, cỏc cẻng ng trác tuy/n ó tháchiên chc nng trÊ lèi cõu h0i cú lg t sá ra èi c1a cỏc hê thậng Usenet. Vỡ v#ytheo mỴt nghỉa nào ó cQA khơng có gì mĨi. Tuy nhiên, các trang web dànhriêng cho cQA ã phát tri+n mĐnh mg chứ trong vi nm qua. Trang cQA ảutiờn là Naver Knowledge iN c1a Hàn QuËc, ra mbt vào n´m 2002. VĨi KnowledgeiN, ngÞÌi dùng có th+ >t câu h0i v3 bßt kß ch1 3 nào và chÂn câu tr£ lÌi hay

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

nhßt trong sË các cõu trÊ lèi do ngịèi dựng khỏc cung còp, ng thÌi có th+trao i+m cho ngÞÌi dùng Þa ra câu tr£ lÌi hay nhßt. Knowledge iN ra Ìi sĨmhÏn 3 nm so vểi d!ch vặ tịẽng tá Yahoo!Answers c1a Yahoo và hiªn ã sÿ hÛudÛ liªu khÍng lÁ vĨi hÏn 200 triªu câu tr£ lÌi. M>c dù có l!ch sÚ ngbn, nhịngcQA ó thu hỳt ịềc ròt nhi3u sá chỳ Û t¯ các nhà nghiên cÚu ÿ nhi3u lỉnhv¸c khác nhau nhÞ: i3u tra hành vi tìm ki/m thơng tin (information seekingbehaviors) [54], l¸a chÂn tài nguyên (selection of resources) [34], chú thích xã hỴi(social annotations) [26], so sánh vĨi cỏc loĐi khỏc c1a cỏc d!ch vặ h0i ỏp [83]v mẻt loĐt cỏc hnh vi liờn quan /n thụng tin khác. >c i+m chính c1a cáccQA là chúng d¸a vào nẻi dung do ngịèi dựng tĐo ra thay vỡ nẻi dung truy3nthËng ÞỊc trích rút t¯ các kho lÞu trÛ ịềc xõy dáng sặn. Phản ti/p theo lu#nỏn sg trỡnh by v3 mẻt sậ hê thậng cQA ph bi/n hiên nay.

<small>1.3.1 Yahoo!Answer</small>

Yahoo! Answers l mẻt d!ch vặ cẻng ng trác tuy/n, mẻt trang h0i ỏp tráctuy/n ịềc xõy dáng bi Yahoo ÞỊc ra mbt t¯ tháng 12 n´m 2005 bÿi JerryYang v David Filo. Trang web ny nhăm chia sƠ ki/n thÚc qua cách h0i - ápvà cho phép ngÞÌi dùng >t các câu h0i v3 nhi3u lỉnh v¸c + mong nh#n ịềccỏc cõu trÊ lèi t cẻng ng ngịèi dùng cÙng nhÞ tr£ lÌi các câu h0i c1a nhÛngngÞÌi dùng khác. Trang web cÙng cung cßp cho các thành viờn cẽ hẻi + ki/mịềc sậ i+m nhị mẻt cỏch + khuy/n khớch sá tham gia. Yahoo!Answer chophộp ngịèi dựng >t câu h0i mĨi và óng góp câu tr£ lÌi c1a h trong bòt kòlổnh vác quan tõm no. T quan i+m c1a cụng nghê ngụn ng, Yahoo!Answercú th+ ịềc coi l mẻt n3n tÊng tĐo d liêu khng l. Trong nhÛng n´m qua,nó ã thu hút s¸ tham gia c1a mẻt lịềng lển ngịèi dựng, nhng ngịèi ó únggúp mẻt khậi lịềng d liêu h0i- ỏp quan trng trong vơ sË các mi3n.

MÈi câu h0i trong Yahoo!Answer có hai thành ph¶n: ch1 3 câu h0i ject), tÚc là ph¶n chớnh c1a cõu h0i th+ hiên nhu cảu thụng tin chính xác c¶nh0i và ph¶n mơ t£ chi ti/t câu h0i (QBody) cung cßp ngÛ c£nh thơng tin bÍsung, ví dỈ:

(QSub-(1) QSubject: What is the best affordable Italian restaurant in London?(2) QBody: I need to know where I can get great Italian food without havingto sell my house! Please, give name and address (or area). Thank you!

Sau khi ÞỊc gÚi, cõu h0i ịềc chuy+n qua mẻt bẻ phõn loĐi mi3n v trỡnh

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

ghi chộp chòt lịềng vn bÊn. Mẻt cõu h0i sau ú sg ịềc ịa ra và ngÞÌi dùngcó th+ óng góp câu tr£ lÌi c1a h và b0 phi/u cho các câu tr£ lÌi do ngịèi khỏccung còp. Sau ú ngịèi h0i cú th+ chn "câu tr£ lÌi tËt nhßt" (BestAnswer):

(3) BestAnswer: I’d recommend Pane Vino on Kentish Town Road, NW5 right by the Kentish Town tube, Northern Line. The pizza is as close to Tuscanyas you’re going to find anywhere (except Tuscany, of course).

-Khi gi mẻt cõu h0i, ngịèi dựng cú th+ sg ịềc thụng bỏo n/u mẻt cõuh0i tịẽng tá ó ịềc h0i. Ngịèi h0i vđn cú th+ gi cõu h0i c1a riờng h vphản lển ngịèi dựng lm nhị v#y. Nú tĐo ra sá dị tha d liêu ỏng k+ trongYahoo!Answer, ậi vĨi c£ câu h0i và câu tr£ lÌi.

<small>1.3.2 StackOverflow</small>

StackOverflow ÞỊc xây d¸ng t¯ n´m 2008 bÿi Joel Spolsky và Jeff Atwood.ây là mỴt trong nhÛng trang web v3 cQA lĨn nhòt, nẽi ngịèi dựng cú th+chia sƠ ki/n thc, tỡm ki/m lèi khuyờn c1a cỏc chuyờn gia v3 mẻt loĐt các ch13 trong l#p trình máy tính. NgÞÌi dùng trên StackOverflow có kh£ n´ng >tcâu h0i, tr£ lÌi các câu h0i, b0 phi/u bình chÂn cho các câu h0i và mẻt sậ tớnhnng khỏc. StackOverflow s dặng cỏc kầ thu#t gamification + thịng i+mcho ngịèi dựng + thác hiên cỏc bẻ hnh ẻng khỏc nhau. Phản thịng baogm tớch ly i+m v huy hiêu danh ti/ng, khi vịềt qua ngịễng h sg ịềc cungcòp cỏc >c quy3n b sung.

Vểi hẽn 9 triêu ngịèi dựng v hẽn 16 triêu cõu h0i (tính /n tháng 8 n´m 2018, StackOverflow ã trÿ thành kholÞu trÛ tri thÚc khÍng lÁ. MÈi câu h0i ÞỊc gbn thƠ theo mẻt ch1 3. Sỏu ch1 3ịềc thÊo lu#n nhi3u nhßt trên StackOverflow là: C#, Java, PHP, JavaScript,Android v jQuery. Hảu h/t cỏc cõu h0i thịèng liờn quan /n mẻt vòn 3 l#ptrỡnh cặ th+, mẻt thu#t toỏn phản m3m ho>c cỏc cụng cặ phản m3m.

Mẩi ngịèi dựng có mỴt i+m danh ti/ng, i3u này bi+u th! mÚc Ỵ tin tÞÿngc1a cỴng Áng Ëi vĨi ngÞÌi dùng ó. MÈi câu h0i và câu tr£ lÌi có th+ ÞỊcbình chÂn tËt (up votes) ho>c không tËt (down votes) bÿi nhng ngịèi dựngkhỏc, nhng ngịèi cÊm thòy cõu h0i ho>c câu tr£ lÌi ó có hÛu ích hay khơng.MÈi câu h0i ã ÞỊc bình chÂn tËt ÞỊc thêm 5 i+m cho ngÞÌi h0i, trong khimÈi câu tr£ lÌi ÞỊc bình chÂn tËt làm t´ng danh ti/ng c1a ngÞÌi tr£ lÌi lờn 10i+m. Ngịèi dựng mòt danh ti/ng 2 i+m khi câu tr£ lÌi b! ánh giá khơng tËt.

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Ngịèi h0i cú th+ chòp nh#n mẻt trong nhng câu tr£ lÌi là câu tr£ lÌi tËt nhßt,sau ó danh ti/ng c1a ngịèi cung còp cõu trÊ lèi tật nhòt sg tng thờm 15 i+m.Ngoi ra, cú mẻt giểi hĐn v3 sậ phi/u bỡnh chn cho mẻt ngịèi trong mẻt ngy.Dáa trờn cỏc i+m danh ti/ng, ngịèi dựng ịềc cung còp cỏc >c quy3n nhịchứnh sa bi ng, retag câu h0i, b0 phi/u + óng, mÿ l§i ho>c di chuy+n bòtkò cõu h0i no, vv. BÊng 1.3 l mẻt sË thËng kê v3 dÛ liªu trên StackOverflowtính /n ngày 12/04/2015.

<small>BÊng 1.3: Thậng kờ d liêu trờn StackOverflowSậ ngịèi s dặng4,2 triêu</small>

<small>Sậ cõu h0i9,2 triêu: 56,76% cõu h0i nh#n ịềc cõu trÊ lèi tật nhòt, 11,36% cõu h0ikhụng nh#n ịềc câu tr£ lÌi</small>

<small>SË câu tr£ lÌi15 triªu: 33,93% câu tr£ lèi ịềc chòp nh#n l cõu trÊ lèi tật nhòt</small>

<small>Lịềt bình chÂn61 triªu: 89,84% bình chÂn tËt, trung bình 2,2 bình chÂn tËt / 1 câu h0i(câu tr£ lÌi), 0,25 bình chÂn khơng tËt/ 1 câu h0i (câu tr£ lÌi)</small>

<small>SË bình lu#n37 triªu: 42,75% trên câu h0i và 57,25% trên cõu trÊ lèi.</small>

<small>1.3.3 Quora</small>

Quora ịềc ng sỏng l#p bi cáu nhân viên Facebook Adam D’Angelo vàCharlie Cheever vào tháng 6 nm 2009. Khụng giậng nhị cỏc trang cQA khỏc,nẽi tòt cÊ ngịèi dựng tn tĐi ẻc l#p trong khụng gian tìm ki/m, Quora chophép ngÞÌi dùng tÞÏng tác vĨi nhau + tĐo thnh mẻt mĐng xó hẻi. Cỏc k/tnậi xó hẻi trong Quora ịềc !nh hịểng giậng nhị Twitter. Ngịèi dùng A cóth+ theo dõi ngÞÌi dùng B mà khơng cú sá cho phộp rừ rng v hnh ẻng c1aB (câu h0i, câu tr£ lÌi, nh#n xét và ch1 3 mểi) sg xuòt hiên trong lung hoĐtẻng c1a A. Chỳng ta nói A là ngÞÌi theo dõi B và B là ngÞÌi theo dõi A. Ngồira, ngÞÌi dùng có th+ theo dõi các ch1 3 mà h quan tâm và nh#n thông tinc#p nh#t v3 các câu h0i và câu tr£ lÌi trong ch1 3 này.

MÈi ngÞÌi dùng Quora có mỴt hÁ sÏ hi+n th! thơng tin c1a mình, các câu h0ivà câu tr£ lÌi trÞĨc ây, theo ch1 3 v k/t nậi xó hẻi (ngịèi theo dừi v theodừi ai). MÈi ngÞÌi dùng có trang "Top Stories", hi+n th! nẻi dung c#p nh#t v3cỏc hoĐt ẻng gản õy v cỏc cõu h0i ó tham gia c1a bĐn bố (ngịèi theo dừi),cng nhị cỏc cõu h0i gản õy theo ch1 3 m h theo dừi. Mẻt nhúm nh0 ngịèi

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

dùng ã ´ng kÛ ÞỊc Quora chÂn làm ngÞÌi ánh giá và qu£n tr! viên, ÁngthÌi có quy3n gbn cÌ ho>c xóa câu tr£ lÌi và câu h0i cú chòt lịềng thòp.

Cuậi cựng, mẩi cõu h0i c1a Quora 3u có trang riêng, bao gÁm danh sáchcác câu tr£ lÌi và mỴt danh sách các câu h0i liên quan. NgÞÌi dùng có th+ thêmcâu tr£ lÌi mĨi và nh#n xét, chønh sÚa và b0 phi/u bình chÂn cho các cõu trÊ lèihiên cú. Hỡnh 1.4 minh ha c1a mẻt hª thËng cQA Quora.

<small>Hình 1.4: Minh hÂa c1a hª thËng cQA Quora</small>

<small>( Mẻt sậ cQA ti/ng Viêt</small>

vn.answers.yahoo.com: Yahoo ra bÊn thÚ nghiªm c1a Yahoo! Answers b£nti/ng Viªt vào ngày 19 tháng 6 n´m 2007, ra b£n chính thÚc sau ó hai tuản( !a chứ website ). D!ch vặ ny ịềc tri+n khai bÿiYahoo ơng Nam Á, cỈ th+ là Yahoo! Pte Ltd Singapore. Yahoo! Answers hịểngngịèi dựng /n mẻt lổnh vác cản thi/t nhịng khỏ mểi mƠ ậi vểi th! trịèngViêt Nam, thác chòt õy l sá phỏt tri+n mụ hỡnh forum lờn mc ẻ cao hẽn.Vểi Yahoo! Answers, ngịèi dùng sg tìm thßy các ch1 3 mĨi và thú v! + hÂch0i, th£o lu#n và nh#n ÞỊc câu tr£ lèi cho cõu h0i mẻt cỏch nhanh chúng. ChiasƠ ki/n thÚc chun mơn và ´ng câu h0i c1a ngÞÌi dùng lờn cẻng ng tráctuy/n gm nhi3u thnh viờn. Hiên Yahoo! Answers ang hịểng ngịèi dựng qua26 lổnh vác nhị: iên tÚ tiêu dùng, Kinh doanh - Tài chính, Máy tính - Internet,V´n hÂc, Khoa hÂc, Toán hÂc, vv. Khi ´ng câu h0i, ngÞÌi dùng khơng ph£i

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

chø !nh danh mặc. N/u thòy khụng phự hềp, ngịèi dựng cú th+ sa thƠ + idanh mặc.

daynhauhoc: Daynhauhoc.com l website h0i ỏp ti/ng Viêt khỏ sụi ẻngtrong nhng nm gản õy. Website ny ịềc l#p bi Lờ Trản Đt hiên là Em-bedded Software Engineer làm viªc cho cơng ty Compex Systems Pte. cú trặ stĐi Singapore. Trờn din n ny, ngÞÌi dùng có th+ tho£i mái l#p topic bànlu#n, h0i áp thbc mbc v3 1 vßn 3 t¯ kỉ thu#t, bÊo m#t, ngụn ng l#p trỡnhcho tểi hịểng nghiêp, hc t#p. Website này cÙng giËng nhÞ Stackoverflow nhÞngvĨi phiên b£n ti/ng Viêt thõn thiên, d s dặng hẽn.

hoidapnhanh: Hoidapnhanh.vn l cẻng ng h0i ỏp, tị vòn, trÊ lèi nhanhv cung cßp các thơng tin tÍng hỊp v3 tßt c£ lỉnh vác trong cuẻc sậng. Trờntrang h0i ỏp ny, ngịèi dựng cÙng có th+ up votes, down votes cho mÈi câu h0i,câu tr£ lÌi c1a ngÞÌi khác. Ngồi ra ngÞÌi dùng có th+ gÚi bình lu#n (comment)v3 nỴi dung tr£ lÌi c1a cỏc cõu h0i. Mẻt sậ ch1 3 nh#n ịềc nhi3u cõu h0i nhòtnhị: Sc kh0e - Y hc, Kinh doanh, Khoa hc - Giỏo dặc, Xó hẻi, vv. Hiên nay(03/2019) trang h0i áp này ã thu hút ÞỊc kho£ng 3.759 thành viên tham giacùng vÓi 16.682 câu h0i và 30.578 câu tr£ lÌi.

1.4 Tình hình nghiên cÚu v3 cQA

Trong nhng nm gản õy, ó cú ròt nhi3u cỏc bi báo t#p trung nghiên cÚuv3 các hª thËng cQA [23, ?, 35, 56, 59, 68, 72, 73, 76, 94, 97, 101], >c biêt lchuẩi cỏc hẻi ngh! Semantic Evaluation (SemEval). Tuy nhiờn, viêc xõy dángcỏc hê thậng cQA g>p nhi3u khó kh´n do các vßn 3 v3 thÌi gian + ngịèi dựngnh#n ịềc cõu trÊ lèi cng nhị chòt lịềng c1a các câu tr£ lÌi. Ëi vĨi vßn 3thÌi gian + ngÞÌi dùng nh#n ÞỊc câu tr£ lÌi cÙng nhÞ xác !nh ÞỊc các câuh0i trùng l>p trong các cQA có th+ gi£i quy/t thơng qua viªc tìm ki/m và x/phĐng cỏc cõu h0i trong cẽ s d liêu liờn quan /n cõu h0i mểi. ậi vểi vòn 3chòt lịềng c1a các câu tr£ lÌi có th+ ÞỊc gi£i quy/t thụng qua viêc ỏnh giỏ ẻphự hềp c1a cỏc cõu trÊ lèi trịểc khi hi+n th! cho ngịèi dựng. Phản ti/p theoc1a lu#n án sg trình bày mỴt sË nghiên cu liờn quan /n viêc giÊi quy/t cỏcvòn 3 trờn.

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

<small>1.4.1 Các nghiên cÚu liên quan v3 tỡm ki/m v x/p hĐng cõu h0i</small>

Bịểc ảu tiờn + tá ẻng trÊ lèi mẻt cõu h0i trờn trang web cQA l truyxuòt mẻt bẻ cõu h0i tịẽng tá vểi câu h0i mĨi c1a ngÞÌi dùng. T#p hỊp các câuh0i tịẽng tá ny sau ú ịềc x/p hĐng v s dặng + trớch xuòt cỏc cõu trÊ lèicú th+ cú cho cõu h0i mểi. Tuy nhiờn, viêc xỏc !nh sá giËng nhau giÛa câu h0imÓi và các câu h0i trong kho lịu tr c1a cQA vđn l mẻt trong nhng thỏchthc lển trong cQA do cỏc vòn 3 nhị khoÊng cách t¯ v¸ng”. Có nhi3u cáchti/p c#n khác nhau ã ÞỊc 3 xt + gi£i quy/t vßn 3 này.

PhÞÏng pháp trịểc õy s dặng cỏc kầ thu#t d!ch mỏy thậng kê + tính tốns¸ giËng nhau v3 ngÛ nghỉa giÛa hai câu h0i. Ví dỈ, các nghiên cÚu c1a Jeon vcẻng sá [44] v Zhou v cẻng sá [108] ó sÚ dỈng mơ hình d!ch + so sánh cáccâu h0i. Jeon v cẻng sá [44] xõy dáng cỏc mụ hỡnh d!ch t mẻt t#p hềp cỏc cõuh0i tịẽng tá ịềc xỏc !nh trịểc trong khi Zhou [108] ỏp dặng mụ hỡnh d!chdáa trờn cặm t. Cỏc thác nghiêm trờn t#p d liêu Yahoo!Answers cho thòy cỏcmụ hỡnh d!ch dáa trờn cặm t cho hiêu quÊ cao hẽn mụ hỡnh d!ch d¸a trên t¯vì chúng có th+ nbm bbt thơng tin theo cÊ ng cÊnh. Nghiờn cu c1a Xue vcẻng sá [93] dáa vo cỏc mụ hỡnh d!ch mỏy ó ịềc o tĐo + tỡm ra cỏc cõuh0i tịẽng tá nhị cõu h0i ảu vo c1a ngịèi dựng, m>c dự khụng tịẽng thớcht váng. Bờn cĐnh viêc s dặng cỏc cõu h0i trong cẽ s d liêu, Xue v cẻngsá [93] cng xem xột s dặng cõu trÊ lèi khi thác hiên cỏc nhiêm vặ so khểp.Tuy nhiờn, cỏch ti/p c#n dáa trờn vòn 3 + d!ch mỏy thậng kờ ũi h0i nhi3ud liêu + ịểc tớnh cỏc tham sậ.

Mẻt sậ nghiên cÚu khác ã cË gbng vÞỊt ra ngồi cách bi+u diÃn v´n b£n Ïngi£n c1a các câu h0i nhÞ ÞỊc trình bày trong [9, 10, 19, 45, 102]. Trong nghiờncu c1a Cong v cẻng sá [9], sá tịẽng ng giÛa hai câu h0i trên Yahoo!Answersã ÞỊc tính tốn sÚ dặng mụ hỡnh ngụn ng dáa trờn còu trỳc danh mặc c1aYahoo!Answers. ảu tiờn, cỏc tỏc giÊ xỏc !nh danh mặc cho cõu h0i ảu vo(vớ dặ: du l!ch, chớnh tr! ho>c giỏo dặc) v sau ú x/p hĐng cỏc cõu h0i ịềc lịutr trong cQA thuẻc v3 cõu h0i mĨi c1a ngÞÌi dùng. Trong [19], các tác gi£ tìmki/m cỏc cõu h0i ng nghổa tịẽng tá băng cỏch xỏc !nh ch1 3 và trÂng tâmc1a câu h0i. CỈ th+ hÏn, các tác gi£ tính tốn s¸ giËng nhau giÛa cỏc ch1 3 c1acõu h0i, nú Đi diên cho mậi quan tâm chung c1a ngÞÌi dùng và trÂng tâm c1acâu h0i. 3 ây, các tác gi£ sÚ dỈng mơ hình LDA (Latent Dirichlet Allocation)

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

+ khám phá ng nghổa ti3m ân c1a cỏc ch1 3, tĐo cỏc c>p câu h0i/câu tr£lÌi và sÚ dỈng phân phËi ch1 3 ã hÂc + truy hÁi các câu h0i tÞÏng tá. Chòtlịềng c1a danh sỏch x/p hĐng ịềc trÊ v3 bi tòt cÊ cỏc nghiờn cu ny ịềco trờn mẻt t#p dÛ liªu h0i - áp t¯ Yahoo!Answers. Các c>p cõu h0i tịẽngtá ịềc gỏn bi ngịèi dựng, ụi khi ịềc gỏn tá ẻng dáa trờn heuristic. Cỏcnghiờn cu c1a Ji v cẻng sá [45] v Zhang [102] cng s dặng mụ hỡnh ch1 3+ truy xuòt cỏc cõu h0i tịẽng tá. Sá khỏc biêt c1a cỏc nghiờn cu ny là cáctác gi£ sÚ dỈng mơ hình LDA + tìm hi+u ngÛ nghỉa ti3m ©n các ch1 3 t¯ cácc>p câu h0i - câu tr£ lÌi. Các tác gi£ ã chng minh răng mụ hỡnh trong nghiờncu ny l tật hÏn áng k+ so vĨi các mơ hình ch1 3 khác ÞỊc hÂc t¯ câu h0i,câu tr£ lÌi ho>c c£ hai theo cỏch ẽn giÊn cẻng vểi phịẽng phỏp truy3n thậng.Trong nghiờn cu c1a Cao v cẻng sá [10], khi Þa ra câu h0i mĨi, hª thËng sgtìm và x/p h§ng các câu h0i khác theo kh£ n´ng là nhÛng 3 xt tËt c1a câuh0i mĨi. Các tác gi£ gi£i quy/t vòn 3 ny theo hai bịểc: th nhòt, cỏc cõu h0iịềc bi+u din dịểi dĐng th! c1a cỏc thu#t ngÛ ch1 3 và thÚ hai là x/p h§ngcác cõu h0i 3 xuòt dáa trờn th!.

Cỏc ti/p c#n khác là d¸a trên s¸ bi+u diÃn cú pháp c1a cõu h0i. Trong nghiờncu c1a Wang v cẻng sá [90], các tác gi£ tìm các câu h0i liên quan /n cõuh0i mểi băng cỏch tớnh toỏn sá giậng nhau gia các cßu trúc con chung c1acây phân tích cú pháp c1a hai cõu h0i. Nghiờn cu s dặng ẻ tịẽng tá c1acõy ịềc tớnh băng sậ lịềng còu trỳc con chung giÛa hai cây và k/t qu£ thỊc trong các thác nghiêm ó chng minh hiêu quÊ c1a phịẽng phỏp ny. Cỏcnghiờn cu c1a Filice v cẻng sá [25] cng s dặng cõy phõn tớch cỳ phỏp. Sákhỏc biêt l h s dặng chỳng trác ti/p trong mẻt hĐt nhõn cõy, vểi viêc sdặng n3n tÊng Kelp [24]. Hai mụ hỡnh sau ó ịềc ỏp dặng trờn nhiêm vặ 3SemEval 2016 trờn cQA [39]. Hê thậng hoĐt ẻng tật nhòt trong nhiêm vặ nyl c1a Salvador [78], nghiờn cu s dặng <small>SV M</small><sup>rank</sup> [48] + tậi ịu húa cho vòn3 x/p hĐng v s dặng nhi3u >c trịng khỏc nhau, bao gm cỏc >c trịng dáatrờn t váng v cỏc >c trịng dáa trờn ng nghổa. Trong ú, cỏc >c trịng ngnghổa Đt ịềc băng cỏch s dặng sá bi+u din phõn b t, xõy dáng th! trithc băng cỏch s dặng mĐng ng nghổa a ngụn ng lển nhòt BabelNet t cẽs d liêu t váng FrameNet. Tuy nhiên, vì dÛ liªu trong cQA là các câu h0i,câu trÊ lèi ịềc gi bi ngịèi s dặng dịểi dĐng ngụn ng tá nhiờn nờn chỳngthịèng b! nhiu, thịa thểt và mÏ hÁ. Do ó viªc phân tích cú pháp c1a các câu

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

h0i, câu tr£ lÌi ny thịèng cho hiêu quÊ thòp. B sung thờm cỏc >c trịng dáatrờn t váng v dáa trờn ng nghổa sg cÊi thiên hiêu suòt c1a hê thậng, nhịngchỳng ũi h0i nhi3u phân tích ngÛ nghỉa phÚc t§p trên các cõu h0i, cõu trÊ lèi.Gản õy, cỏc phịẽng phỏp hc dáa trờn mĐng nẽ-ron sõu ó ịềc chngminh l hu ớch trong hc mỏy [58]. Chỳng ó ịềc ỏp dặng ròt thnh cụngtrong cỏc nhiêm vặ x l Ênh v x l ti/ng núi. Gản õy hẽn, cỏc phịẽngphỏp ny cng ó bbt ảu vịềt qua cỏc mụ hỡnh d liêu thịa thểt, tuy/n tớnhtruy3n thậng cho NLP [27, 52]. Cỏc nghiờn cu gản õy ó chứ ra tớnh hiêu quÊc1a cỏc mụ hỡnh mĐng cho cỏc nhiêm vặ: gỏn nhón tuản tá [29], láa chn cõutrÊ lèi [22, 84], x/p h§ng câu h0i [81] trong cQA. Trong nghiên cÚu c1a DosSantos v cỏc cẻng sá [81], cỏc tỏc giÊ s dặng mụ hỡnh mĐng nẽ-ron tớch ch#p(Convolutional Neural Networks - CNN) và s¸ bi+u diÃn túi t¯ (bag-of-word -BOW) c1a các câu h0i mÓi và câu h0i trong cÏ s d liêu + tớnh toỏn ẻ tịẽngtá cosin. Nghiờn cÚu c1a Mitra Mohtarami [69] trình bày mỴt mơ hình d¸a trênLSTM và cách bi+u diÃn túi t¯ c1a câu h0i và các câu tr£ lÌi c1a nó + ánh giás¸ liên quan c1a câu h0i và câu tr£ lÌi c1a nú. Nghiờn cu c1a Nouha Othmanv cỏc cẻng sá [72] 3 xuòt phịẽng phỏp dáa trờn t#p nhỳng t + nbm bbtÞỊc thơng tin v3 ngÛ nghỉa và ngÛ cÊnh c1a cỏc cõu h0i, nghiờn cu s dặngẻ tịẽng tá cosin + o ẻ tịẽng tá gia cỏc vộc-tẽ cõu h0i. Cỏc tỏc giÊ óxõy dáng cỏc thác nghiêm trên c£ t#p dÛ liªu ti/ng Anh và ti/ng Arabic và thỊc k/t qu£ tËt hÏn so vĨi nhi3u nghiên cu trịểc ú. Nghiờn cu c1a FlorianKunneman v cỏc cẻng sá [56] phõn tớch tỏc ẻng c1a cỏc bịểc ti3n xÚ lÛ (nhÞbi/n Íi các t¯ trong câu h0i v3 ch thịèng, loĐi b0 dòu cõu, loĐi b0 t dng)v ẻ tịẽng tá ng nghổa c1a t (word2vec, fastText) ậi vểi viêc xỏc !nh ẻtịẽng tá gia cỏc cõu h0i. Cỏc k/t quÊ thác nghiêm ó chng minh răng cỏcbịểc ti3n xÚ lÛ và bi+u diÃn t¯ d¸a trên word2vec cho hiêu quÊ cao nhòt v3 i+msậ F1. Nghiờn cu c1a Mohammad Sadegh Zahedi v cỏc cẻng sá [68] xõy dángmụ hỡnh tng hềp so sỏnh phõn còp + truy xuòt cõu h0i trong cQA. Trịểc tiờnmẩi cõu h0i ịềc chia tỏch thnh cỏc cõu (sentence), sau ú thác hiên so sánhmÂi c>p câu trong hai câu h0i sÚ dỈng mụ hỡnh so sỏnh mc t. Cỏc k/t quÊthác nghiêm trờn bẻ d liêu SemEval cho thòy mụ hỡnh 3 xuòt cho k/t quÊ caohẽn so vểi mẻt sậ mụ hình trÞĨc ó. Nghiên cÚu c1a Yue Liu và các cẻng sá [97]3 xuòt s dặng ẻ ph bi/n c1a cõu h0i trong viêc ỏnh giỏ ẻ tịẽng tá giacỏc câu h0i. Trong bài báo [73], các tác gi£ d¸a vào m§ng nÏ-ron + th+ tìm

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

hi+u các bi+u diÃn dày >c c1a dÛ liªu v´n b£n v cho phộp dá oỏn sá tịẽngng v3 vn bÊn gia cỏc cõu h0i cẻng ng. Nghiờn cu 3 xuòt mẻt phịẽngphỏp hc sõu dáa trờn ki/n trỳc mĐng LSTM, ÞỊc t´ng cÞÌng vĨi cÏ ch/ chúÛ. Nghiên cÚu c1a Hoogeveen v cẻng sá [38] 3 xuòt s dặng ba bẻ phõn loĐikhỏc nhau (naive Bayes, SVM, CNN). K/t hềp i+m sậ c1a cÊ ba bẻ phõn loĐi+ x/p hĐng các câu h0i. N/u có ít nhßt 2 trong sË 3 bẻ phõn loĐi cho k/t quÊl related thỡ cõu h0i mểi ịềc l xem xột tịẽng tá nhị cõu h0i trong cẽ sd liêu. M>c dự viêc s dặng cỏc mụ hỡnh dáa trờn CNN ó cho thòy cỏc k/tquÊ ròt tật trong cỏc tỏc vặ x l Ênh v mẻt sậ tỏc vặ NLP khỏc. Nhịng trongnhiêm vặ ỏnh giỏ sá tịẽng ng gia cỏc cõu h0i trong cQA, h ó khụng Đtịềc k/t quÊ nhị mong muận, th#m chí thßp hÏn so vĨi các mơ hình sÚ dặngNLP.

Gản õy, mẻt ti/n bẻ lển trong cỏc mụ hỡnh ngụn ng ó Đt ịềc. Bi+u dinbẻ mó húa hai chi3u t¯ mơ hình BERT [43] sÚ dỈng mơ hình ngụn ng ỏnhdòu. Mụ hỡnh ngụn ng thịèng ịềc tinh chứnh trong nhiêm vặ nhị phõn loĐivn bÊn ho>c cỏc nhiêm vặ v3 h0i ỏp. Trong [91], cỏc tỏc giÊ ã nghiên cÚu+ áp dỈng BERT cho ngơn ngÛ É R#p + x l mẻt vi nhiêm vặ trong NLPnhị phân tích c£m xúc (Sentiment Analysis - SA), trích chÂn th¸c th+ có tên(Named Entity Recognition - NER), và h0i áp. Các nghiên cÚu g¶n ây [1, 61]ã chø ra răng viêc tinh chứnh cỏc mĐng transformers ịềc huòn luyên trÞĨccó th+ làm tËt hÏn các cách ti/p c#n trÞĨc õy ậi vểi nhi3u nhiêm vặ NLPkhỏc nhau, trong ú cú nhiêm vặ h0i ỏp. Trong [11], cỏc tỏc giÊ ó i3u traviêc s dặng mụ hỡnh ngụn ng BERT ịềc huòn luyên trịểc + giÊi quy/t cỏcnhiêm vặ sinh ra câu h0i t¯ câu tr£ lÌi và ngÛ c£nh. H giểi thiêu ba ki/n trỳcmĐng nẽ-ron ịềc xõy dáng trờn BERT cho cỏc nhiêm vặ sinh ra cõu h0i. ¶utiên là sÚ dỈng mơ hình BERT Ïn gi£n, cho thòy nhng khi/m khuy/t c1aviêc s dặng trác ti/p BERT + sinh v´n b£n. Ti/p ó, h 3 xt hai mụ hỡnhkhỏc băng cỏch cẽ còu lĐi BERT thnh mẻt cỏch thc tuản tá + lòy thụngtin t cỏc k/t qu£ ÞỊc gi£i mã trÞĨc ó. Các mơ hình này ịềc ỏnh giỏ trờnt#p d liêu h0i ỏp gản õy SQuAD. K/t quÊ th nghiêm cho thòy răng mụhỡnh tật nhòt cÊi thiên ỏng k+ so vểi cỏc mụ hỡnh trịểc ú trờn cựng t#p dliêu. Trong [57], cỏc tỏc gi£ t#p trung vào viªc c£i ti/n mơ hình BERT, gi£msË lÞỊng tham sË c1a mơ hình + gi£m mÚc tiờu thặ bẻ nhể v tng cịèng tậcẻ huòn luyên c1a BERT. Trong [71], các tác gi£ ã 3 xußt ba hª thËng h0i

</div>

×