Tải bản đầy đủ (.pdf) (49 trang)

(Luận văn thạc sĩ) nghiên cứu các phương pháp trích rút từ khoá từ trang web và ứng dụng luận văn ths kỹ thuật phần mềm 60480103

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.14 MB, 49 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VŨ CHI LOAN

NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHỐ
TỪ TRANG WEB VÀ ỨNG DỤNG

LUẬN VĂN THẠC SỸ CƠNG NGHỆ THÔNG TIN

HÀ NỘI - 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VŨ CHI LOAN

NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHOÁ
TỪ TRANG WEB VÀ ỨNG DỤNG

Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: T.S. NGUYỄN VĂN VINH

HÀ NỘI - 2017


LỜI CAM ÐOAN


Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân. Các số
liệu, kết qủa trình bày trong luận văn này là trung thực. Những tư liệu được sử
dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ.

Học Viên

Nguyễn Vũ Chi Loan

i


LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến T.S. Nguyễn
Văn Vinh, người đã tận tình chỉ bảo hướng dẫn tơi trong suốt q trình thực
hiện luận văn này.
Tơi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi
trong suốt hai năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững
bước trên con đường học tập của mình.
Tơi xin gửi lời cảm ơn tới các bạn trong khố K21- ngành Cơng nghệ
thơng tin đã ủng hộ khuyến khích tơi trong suốt q trình học tập tại trường.
Và cuối cùng, tơi xin bày tỏ niềm biết ơn vơ hạn tới gia đình và những
người bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện
luận văn tốt nghiệp.

Hà Nội, ngày 12 tháng 04 năm 2017
Học Viên

Nguyễn Vũ Chi Loan

ii



TĨM TẮT NỘI DUNG

Trích rút từ khố từ trang web là một bài toán hay của h ệ t h ố n g
bài tốn trích rút từ khố cho một văn bản. Ở mức cao hơn, nó là một bài tốn
con trong hệ thống trích xuất thơng tin (Information Retrieval). Trong nhiều
năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế
và các cơng ty lớn. Bài tốn trích rút từ khố từ trang web là việc trích rút từ
khóa trong văn bản nội dung trang web. Đây cũng là vấn đề khá mới mẻ và
được áp dụng trong rất nhiều lĩnh vực khác nhau như: Hỗ trợ tìm kiếm, hỗ trợ
gợi ý người dùng....
Trong luận văn này, tác giả đã nghiên cứu các phương pháp trích rút từ
khố từ trang web và tập trung chủ yếu vào phương pháp TextRank. Ngoài ra,
cũng tìm hiểu về các phương pháp trích rút từ khố khác nhằm nâng cao chất
lượng từ khoá. Luận văn đã áp dụng trên một số miền dữ liệu cụ thể của các
trang web tiếng Anh và cho kết quả khả quan.

iii


BẢNG CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT

Kí hiệu
IR
SE
SEM
SEO
TF
IDF


Diễn giải
Information Retrieval
Search Engine
Search Engine Marketing
Search Engine Optimization
Term Frequency
Inverse Document Frequency

iv


MỤC LỤC

LỜI CAM ÐOAN................................................................................................................. i
LỜI CẢM ƠN ....................................................................................................................... ii
TÓM TẮT NỘI DUNG ......................................................................................................iii
BẢNG CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT ................................................................... iv
DANH MỤC HÌNH VẼ ..................................................................................................... vii
DANH MỤC CÁC BẢNG BIỂU .....................................................................................viii
MỞ ĐẦU ............................................................................................................................... 1
CHƯƠNG I. GIỚI THIỆU BÀI TOÁN TRÍCH RÚT TỪ KHỐ ................................. 3
TU NOI DUNG VAN BAN TREN TRANG WEB ............................................................ 3
1.1. Đặt vấn đề ....................................................................................................................... 3
1.2 Khái niệm và các đặc trưng của từ khóa ......................................................................... 4
1.3 Đánh giá các từ khoá ........................................................................................................ 6
1.4. Thách thức của bài tốn sinh từ khóa cho trang web ..................................................... 7
1.4.1. Đối với các trang có nội dung tập trung ............................................................... 7
1.4.2. Đối với các trang có nội dung tổng hợp ................................................................ 7
1.4.3. Các vấn đề khác ....................................................................................................... 8

1.5. Ứng dụng của từ khóa trong các lĩnh vực ...................................................................... 8
1.6. Tổng kết chương ............................................................................................................. 9
CHƯƠNG 2. CÁC PHƯƠNG PHÁP TRÍCH RÚT TỪ KHOÁ ................................... 10
TỪ TRANG WEB .............................................................................................................. 10
2.1 Tần số từ ........................................................................................................................ 11
2.2. Phương pháp TextRank để trích rút từ khố cho trang web ......................................... 14
2.2.1 Mơ hình TextRank .................................................................................................. 15
2.2.2. Đồ thị vô hướng ...................................................................................................... 16
2.2.3 Đồ thị có trọng số .................................................................................................... 17
2.2.4 Đồ thị hố văn bản .................................................................................................. 17
2.2.5 Sử dụng TextRank để trích rút từ khố ............................................................... 18
2.4 Tổng kết chương ............................................................................................................ 24
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................................ 25
3.1 Yêu cầu thử nghiệm và tập dữ liệu thử nghiệm ............................................................. 26
3.2. Cài đặt thử nghiệm ứng dụng ........................................................................................ 26
3.2.1. Yêu cầu phần cứng và phần mềm ........................................................................ 26
3.2.2. Giới thiệu cấu trúc chương trình .......................................................................... 27
3.3 Phương pháp đánh giá.................................................................................................... 27
3.4. Một số kết quả thu được ............................................................................................... 29
3.5. Đánh giá kết quả thực nghiệm ...................................................................................... 35
KẾT LUẬN ......................................................................................................................... 37
TÀI LIỆU THAM KHẢO ................................................................................................. 38

v


DANH MỤC HÌNH VẼ
Bảng 2.1: Các đơn vị từ vựng có điểm số cao khi áp dụng TextRank ............... 23
Bảng 3.1 : Danh sách chủ đề và số lượng văn bản tương ứng ............................ 26
Bảng 3.2: Danh sách chủ đề và số lượng văn bản tương ứng ............................. 26

Bảng 3.3: Cấu hình phần cứng máy tính sử dụng để cài đặt chương trình ......... 26
Bảng 3.4: Danh mục phần mềm sử dụng trong thực nghiệm ............................. 27
Bảng 3.5: So sánh kết quả đánh giá hệ thống tóm tắt tự động sử dụng Textrank
và các chuyên gia ................................................................................................ 29
Bảng 3.6: So sánh kết quả đánh giá hệ thống tóm tắt tự động sử dụng Textrank
và các chuyên gia ................................................................................................ 31
Bảng 3.7: So sánh kết quả từ khoá của TextRank và từ khố trên trang web về
phim và phim hoạt hình....................................................................................... 32

vii


DANH MỤC CÁC BẢNG BIỂU
Hình 2.1 – Quá trình khai phá văn bản Web ....................................................... 10
Hình 2.2: Hệ thống để thực hiện 1 thuật toán xếp hạng dựa trên đồ thị ............. 16
Hình 2.3: Đường cong hội tụ của phương pháp xếp hạng dựa trên đồ thị với đồ thị có
hướng – vơ hướng, có trọng số - khơng có trọng số, 250 đỉnh và 250 cạnh............... 16
Hình 2.4 : Hình minh hoạ một biểu đồ được hình thành dựa ............................. 23
trên phương pháp textrank .................................................................................. 23
Hình 3.1: Biểu đồ phân bố điểm đánh giá trích rút từ khố từ tập dữ liệu mẫu
kết quả đánh giá với chủ đề “ Khoa học”............................................................ 30
Hình 3.2: Biểu đồ phân bố điểm đánh giá trích rút từ khố từ tập dữ liệu mẫu . 32
Kết quả đánh giá với dữ liệu chủ đề “ phim và phim hoạt hình”....................... 32

viii


MỞ ĐẦU

Hiện nay việc trích rút từ khố từ trang web là một việc hết sức quan trọng

với một lượng thông tin khổng lồ ngày càng bùng nổ và tăng theo cấp số nhân
trên Internet. Bài tốn trích rút từ khoá từ trang web đã giúp giải quyết rất nhiều
bài tốn thực tế như: Tìm kiếm thơng tin, tóm tắt văn bản…Rất nhiều người có
nhu cầu tổng hợp và tóm tắt lại các thông tin để thuận lợi cho việc tổng hợp các
thơng tin đó.
Vậy từ khố là gì? Từ khóa là từ trong một câu, một đoạn, một văn bản,
mang một ý nghĩa quan trọng hoặc có mục đích nhấn mạnh theo ý của người
viết. Từ khóa (Keyword) được sử dụng rộng rãi như là một thuật ngữ Internet
chỉ việc xác định những từ ngữ chính thể hiện sản phẩm, dịch vụ, thông tin mà
chủ website hướng đến cũng như người dùng Internet hay dùng để tìm kiếm
thơng tin liên quan.
Việc đọc và tóm tắt nội dung của các văn bản trên Internet rất khó khăn và
tốn nhiều thời gian cho con người, đến mức gần như không thể đạt được với
nguồn nhân lực hạn chế khi kích thước của thông tin tăng lên. Kết quả là các hệ
thống tự động thường được sử dụng để thực hiện nhiệm vụ này. Sự ra đời của
các máy tìm kiếm đã phần nào giải quyết được vấn đề tràn ngập thông tin của
các trang web. Các máy tìm kiếm chủ yếu vẫn shọn ra một chuẩn vàng (gold – standard). Gold – standard
là một tập hợp gồm các từ khoá nằm trong trích rút từ khố được nhiều người
bầu chọn nhất. Gọi A là tập các từ khố trích rút từ văn bản thứ i của các chuyên
27


gia,và B là tập các từ khố được rút trích từ văn bản thứ i bằng phương pháp
TextRank. Công thức tính độ chính xác (precision) và độ nhớ lại (recall) của
mỗi phương pháp áp dụng trên văn bản thứ i như sau:
Precision(i) =

Recall(i) =

A B

B

A B
A

Một hệ thống IR (Information Retrieval – Trích xuất thơng tin) cần phải cân
đối giữa recall và precision, bởi vậy một độ đo khác cũng thường được sử dụng
đó là
F – score được xây dựng dựa trên recall và precision.
Fscore =

Re callx Pr ecision
(recall  precision) / 2

Precision, recall và F- score là các độ đo cơ bản của 1 tập các tài liệu được
trích rút. Trên thực tế, đôi khi ta không thể sử dụng trực tiếp các độ đo này để so
sánh hai danh sách có sắp xếp các tài liệu trả về, bởi chúng không hề quan tâm
đến thứ tự nội tại các tài liệu[7].
Để đo chất lượng của một danh sách có sắp xếp các tài liệu, thơng thường
người ta sẽ tính tốn giá trị trung bình của precision(AP) tại tất cả các thứ tự khi
1 tài liệu mới được trả về.
Chúng tơi giả định rằng cụm từ khóa được tạo tự động được cung cấp theo
thứ tự từ khố có liên quan nhất. Các từ khoá top-5, top-10 và top-15 sau đó
được so sánh với tiêu chuẩn vàng để đánh giá.[12]
Ví dụ: chúng ta hãy so sánh một tập hợp 15 cụm từ khóa hàng đầu được tạo
ra bởi một trong những phương pháp sử dụng bộ đệm Porter:
grid comput, grid, grid servic discoveri, web servic, servic discoveri,
grid servic, uddi, distribut hash tabl, discoveri of grid, uddi registri,
rout, proxi registri, web servic discoveri, qos, discoveri
Với bộ tiêu chuẩn vàng tương đương với 19 cụm từ chính (một tập hợp được

chỉ định bởi cả tác giả và độc giả):
28


grid servic discoveri, uddi, distribut web-servic discoveri architectur, dht
base uddi registri hierarchi, deploy issu, bamboo dht code, case-insensit
search, queri, longest avail prefix, qo-base servic discoveri, autonom
control, uddi registri, scalabl issu, soft state, dht, web servic, grid
comput, md, discoveri
Hệ thống đã xác định chính xác 6 cụm từ chính, dẫn đến độ chính xác
40% (6/15) và độ hồi tưởng lại 31,6% (6/19). Với kết quả cho từng tài liệu
riêng lẻ, tôi tính tốn độ chính xác, hồi tưởng trung bình và điểm F có thể đạt
được qua cụm từ khóa kết hợp là khoảng 75%, bởi vì khơng phải tất cả các
cụm từ khóa thực sự xuất hiện trong tài liệu.
Tác giả lấy ví dụ về chủ đề tác giả thực nghiệm là phim ảnh, cụ thể là bộ
phim ““ Gone With The Wind”
Từ khoá do sử dụng phương pháp Textrank là: war,Atlanta,begins,burning
Từ khoá do các chuyên gia đưa ra là: Atlanta, gallantry, honesty,
indifference, scandal
Hệ thống đã xác định chính xác 1 từ chính, dẫn đến độ chính xác 25%(1/4)
và độ hồi tưởng 20%(1/5). Đây cũng là một kết quả khá tốt cho một phương
pháp hồn tồn khơng giám sát
3.4. Một số kết quả thu được
Kết quả đánh giá với chủ đề “ Hệ thống phân tán”
Bảng 3.5: So sánh kết quả đánh giá hệ thống tóm tắt tự động sử dụng
Textrank và các chun gia
STT

Tên
file


1

C-1

Từ khố
của
chun
gia
42

Từ khố Từ khố Recall
trích rút chung
của
TextRank
50
21
0.5

2

C-3

40

50

20

3


C-4

47

50

18

29

Precision F- score

0.42

0.456

0.5

0.4

0.44

0.383

0.36

0.371



4

C-6

29

50

15

0.517

0.3

0.379

5

C-8

38

50

18

0.474

0.36


0.41

6

C-9

23

50

18

0.783

0.36

0.49

7

C-17

37

50

13

0.351


0.26

0.3

8

C-18

27

50

15

0.56

0.3

0.39

9

C-19

19

50

16


0.84

0.32

0.46

10

C-20

20

50

8

0.4

0.16

0.23

0.324

0.393

0.53

TB


Từ dữ liệu bảng 3.5, ta có biểu đồ như hình 7. Biểu đồ thể hiện điểm đánh giá độ
đo F-score của các tập dữ liệu.

Biểu đồ phân bố điểm đánh giá trích rút từ khố
0.6

0.5

0.4

0.3

0.2

0.1

0
C-1

C-3

C-4

C-6

C-8

C-9

C-17


C-18

C-19

C-20

Hình 3.1: Biểu đồ phân bố điểm đánh giá trích rút từ khố từ tập dữ liệu mẫu

30


kết quả đánh giá với chủ đề “ Khoa học”
Bảng 3.6: So sánh kết quả đánh giá hệ thống tóm tắt tự động sử dụng
Textrank và các chuyên gia
STT

1

Tên file Từ
Từ khoá Từ
khoá
của
khoá
của
TextRank chung
chuyên
gia
9307
10

20
6

Recall

Precision F- score

0.6

0.3

0.4

2

7502

9

20

8

0.89

0.4

0.55

3


7183

8

20

6

0.75

0.3

0.43

4

43032

11

20

10

0.9

0.5

0.64


5

40879

14

20

7

0.5

0.35

0.41

6

39955

12

20

11

0.92

0.55


0.69

7

39172

14

20

11

0.79

0.55

0.65

8

37632

10

20

7

0.7


0.35

0.47

9

287

10

20

7

0.7

0.35

0.47

10

25473

12

20

4


0.33

0.2

0.25

0.71

0.39

0.5

TB

Từ dữ liệu bảng 3.6, ta có biểu đồ như hình 8. Biểu đồ thể hiện điểm đánh giá độ
đo F- score của các tập dữ liệu.

31


Biểu đồ phân bố điểm đánh giá trích rút từ khố
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1

0
9307

7502

7183

43032

40879

39955

39172

37632

287

25473

Hình 3.2: Biểu đồ phân bố điểm đánh giá trích rút từ khoá từ tập dữ liệu mẫu
Kết quả đánh giá với dữ liệu chủ đề “ phim và phim hoạt hình”
Bảng 3.7: So sánh kết quả từ khố của TextRank và từ khoá trên trang web
về phim và phim hoạt hình
STT

Tên
file


1

A1

Từ
khố
trên
web
5

Từ khố Từ khố
trích rút
chung
từ
TextRank
6
2

Recall

Precision

F- score

0.4

0.33

0.36


2

A2

5

6

1

0.2

0.17

0.18

3

A3

5

12

3

0.6

0.25


0.35

4

A4

5

4

2

0.4

0.5

0.45

5

A5

5

2

1

0.2


0.5

0.29

6

A6

5

6

2

0.4

0.33

0.36

7

A7

5

6

2


0.4

0.33

0.36

8

A8

5

4

1

0.2

0.25

0.22

32


9

A9

5


13

3

0.6

0.23

0.33

10

A10

5

5

2

0.4

0.4

0.4

11

A11


5

4

1

0.4

0.33

0.36

12

A12

5

5

2

0.4

0.4

0.4

13


A13

5

5

2

0.4

0.4

0.4

14

A14

5

5

1

0.2

0.2

0.2


15

A15

5

9

3

0.6

0.33

0.43

16

A16

5

9

3

0.6

0.33


0.43

17

A17

5

6

2

0.4

0.33

0.36

18

A18

5

11

1

0.2


0.1

0.13

19

A19

5

6

2

0.4

0.33

0.36

20

A20

5

4

1


0.2

0.25

0.22

21

A21

5

3

1

0.2

0.33

0.25

22

A22

5

4


1

0.2

0.25

0.22

23

A23

5

4

1

0.2

0.25

0.22

24

A24

5


9

3

0.6

0.33

0.43

25

A25

5

8

3

0.6

0.38

0.47

26

A26


5

7

2

0.4

0.29

0.34

27

A27

5

6

2

0.4

0.33

0.36

28


A28

5

6

2

0.4

0.33

0.36

29

A29

5

7

2

0.4

0.29

0.34


30

A30

5

6

2

0.4

0.33

0.36

31

A31

5

1

1

0.2

1


0.33

32

A32

5

2

2

0.4

1

0.57

33

A33

5

5

1

0.2


0.2

0.2

33


34

A34

5

5

1

0.2

0.2

0.2

35

A35

5


5

1

0.2

0.2

0.2

36

A36

5

6

1

0.2

0.17

0.18

37

A37


5

11

2

0.2

0.18

0.19

38

A38

5

4

1

0.2

0.25

0.22

39


A39

5

4

1

0.2

0.25

0.22

40

A40

5

9

2

0.4

0.22

0.28


41

A41

5

6

2

0.4

0.33

0.36

42

A42

5

5

2

0.4

0.4


0.4

43

A43

5

4

1

0.2

0.25

0.22

44

A44

5

1

1

0.2


0.2

0.2

45

A45

5

4

1

0.2

0.25

0.22

46

A46

5

2

1


0.2

0.5

0.29

47

A47

5

3

1

0.2

0.33

0.25

48

A48

5

2


1

0.2

0.5

0.29

49

A49

5

6

2

0.4

0.33

0.36

50

A50

5


5

2

0.4

0.4

0.4

0.33

0.33

0.31

TB

Từ dữ liệu bảng 3.7, ta có:
Nhận xét:
Độ đo F-score của phương pháp TextRank cho kết quả khá tốt, các điểm
đánh giá trên toàn tập dữ liệu đều trên 0.31. Tập dữ liệu cho kết quả tốt nhất là
tập file 39955 với điểm số đạt 0.92. Tuy nhiên có vài tập dữ liệu cho kết quả
thấp so với các tập còn lại như C-20, C-17, C-4, C-6, 25473. Biểu đồ hình 5 cho
thấy sự khác biệt rõ giữa điểm đánh giá của các tập dữ liệu. Đó cũng thể hiện rõ

34


mức độ chính xác, chất lượng của phương pháp TextRank đối với các tập dữ

liệu với các đặc điểm khác nhau.
Từ bảng 6, 7, 8 và phân tích dữ liệu thực nghiệm, tác giả nhận thấy rằng
tốc độ trích rút từ khoá phụ thuộc vào độ dài văn bản. Điều này phù hợp với
thuật tốn TextRank. Thuật tốn TextRank tính tốn đệ quy trên tồn văn bản,
chính vì vậy khi độ dài văn bản càng lớn thì thời gian chạy càng lâu. Đây cũng
là nhược điểm của thuật toán. Từ đặc điểm này mà thuật tốn sẽ khó áp dụng
trong các miền ứng dụng mà độ dài dữ liệu lớn. Như vậy, phương pháp trích rút
này phù hợp với các loại hình văn bản dạng tin tức, văn bản có nội dung ngắn gọn.
Theo như tác giả thực hiện trích rút trên tập dữ liệu thử nghiệm thì thời gian
trích rút ngắn chỉ khoảng vài giây cho một văn bản tuỳ thuộc vào độ dài ngắn của
văn bản. Đây là một con số ấn tượng, nó cho thấy tiềm năng áp dụng phương pháp
TextRank vào thực tế. Đặc biệt là trong các ứng dụng thời gian thực.
Tuy nhiên, theo như biểu đồ hình 5,6 thì có một số văn bản có điểm đánh
giá thấp. Vì vậy tác giả đã loại bỏ đi các văn bản khó trích rút hoặc trích rút có
điểm đánh giá thấp, kết quả là điểm đánh giá trên toàn tập dữ liệu tăng lên đáng
kể. Điểm đánh giá cao nhất thuộc về tập số 3955 đạt 0.92. Đây là điểm chứng tỏ
rằng phương pháp TextRank sẽ cho kết quả tốt nhất ở những văn bản có độ
nhiễu ít, khả năng trích rút và cùng chung tập đặc trưng: độ dài văn bản ngắn, độ
dài câu ngắn, chứa ít các từ nối, từ quan hệ.
3.5. Đánh giá kết quả thực nghiệm
Đánh giá chính xác kết quả của một danh sách các từ khoá là một việc
làm rất khó khăn vì thực ra phương pháp mà tác giả ứng dụng trong luận văn là
hồn tồn khơng giám sát. Từ khoá được sinh ra tự động, hơn nữa cách đánh giá
từ khố của các chun gia cũng có thể rất khác nhau cho cùng một tài liệu văn
bản. Chủ yếu việc đánh giá vẫn dựa vào ý kiến đánh giá của các chuyên gia con
người. Những từ khoá phải mang ý nghĩa cao, nói lên nội dung của tài liệu văn bản.
Với lượng từ khố được trích rút khá nhiều bởi phương pháp TextRank tất
nhiên có thể khống chế lượng từ khoá sinh ra khi dùng thuật toán, nhưng từ khoá
35



vẫn bị lặp lại nhiều, một số từ khố khơng có ý nghĩa quan trọng, khơng nêu
được đặc trưng của văn bản đó cũng là nhược điểm của phương pháp. Tuy nhiên
thì ưu điểm của phương pháp là thời gian trích rút từ khố nhanh, khơng cần
những kiến thức chun sâu về ngơn ngữ học vì thế bài tốn này có tính ứng
dụng thực tế cao.

36


KẾT LUẬN
Những vấn đề đã giải quyết được trong luận văn
- Luận văn đã nghiên cứu các phương pháp trích rút từ khoá từ nội dung
văn bản trên các trang web và ứng dụng. Đặc biệt là đi sâu nghiên cứu phương
pháp mới là trích rút từ khố bằng phương pháp TextRank.
- Đồng thời, luận văn cũng đã đề xuất sử dụng một cơng cụ được xây
dựng sẵn để trích rút từ khoá của văn bản tiếng Anh. Thực nghiệm trên dữ liệu
tiếng anh của bộ dữ liệu đã được xây dựng bởi các chuyên gia.
- Tác giả cũng đã sưu tầm dữ liệu trên Internet cho tập dữ liệu với chủ đề
về phim ảnh và so sánh kết quả trích rút của phương pháp TextRank với kết quả
từ khố trên trang web được xây dựng bởi các chuyên gia.
- Khảo sát phương pháp trích rút từ khố sử dụng Textrank cho kết quả
khả quan có thể ứng dụng trong các bài tốn thực tế về tìm kiếm thơng tin, hay
tóm tắt văn bản. Và trên đây tơi cũng đã trình bày những ưu điểm, nhược điểm
cịn tồn tại của phương pháp.
Hướng phát triển tiếp theo
Mặc dù kết quả thu được của luận văn là đáng khích lệ và khá tốt nhưng
do thời gian có hạn và việc ước lượng các trọng số cho phương pháp có thể
chưa được tối ưu. Trong thời gian tới, tôi sẽ tiến hành thu thập thêm các dữ liệu
và hồn thiện những gì cịn thiếu sót của phương pháp mà tơi đề xuất.

Cũng trên cơ sở đã đạt được của luận văn, tôi dự định sẽ cải tiến chương
trình để có thể thực hiện được trên tập dữ liệu các văn bản Tiếng Việt.
Bài tốn trích rút từ khố từ trang web là bài tốn mới và nhiều phần cịn
liên quan đến ngữ nghĩa, xử lý ngôn ngữ tự nhiên. Tôi sẽ cố gắng tìm hiểu thêm
các lĩnh vực liên quan như tóm tắt văn bản tự động, nâng cao chất lượng tìm
kiếm trang web với từ khoá…

37


TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi(2008),
“Mơ hình biểu diễn văn bản thành đồ thị”, tạp ch ph t tri n

t p

số 07 năm 009
[2] Nguyễn Quang Châu, Lê Trọng Ngọc, Tôn long Phước, Nguyễn Văn
Tân(2011), “Một hướng tiếp cận xây dựng Ontology Tiếng Việt”, tạp ch
ại h c

ng ghi p T 5 năm 0

[3] Trương Quốc Định(2015), “Phân loại văn bản dựa trên rút trích tự động
tóm tắt của văn bản”,

ếu

i nghị


uốc gia ề nghi n c u c

n

ng d ng c ng ngh th ng tin năm 2015.
[4] Trương Quốc Định, Nguyễn Quang Dũng(2012), “Một giải pháp tóm tắt
văn bản Tiếng Việt tự động”, h i th o
ch n l c c a c ng ngh thông tin

uốc gia l n th

ề m t số ấn đề

tru ền thông năm 0

.

[5] Chu Anh Minh(2009), B i to n tr ch xuất từ ho cho trang we
phư ng ph p phân t ch thẻ

TML

p d ng

đồ thị we , Luận văn thạc sĩ, Trường đại

học Công nghệ, Đại học Quốc gia Hà Nội.
[6] Nguyễn Văn Nghiệp(2015), Tóm tắt ăn


n Tiếng

i t sử d ng phư ng

pháp TextRank, Luận văn thạc sĩ, Trường đại học Công nghệ, Đại học Quốc gia
Hà Nội.
[7] Lê Hoàng Thanh(2012). Text mining – ỹ thu t tr ch xuất th ng tin từ ăn
n
[8] Trần Ngọc Phúc(2012), Phân loại n i dung t i li u we , Luận văn thạc sĩ,
Trường đại học Lạc Hồng, Đồng Nai.
[9] Nguyễn Trọng Phúc, Lê Thanh Hương(2008), “Tóm tắt văn bản Tiếng
Việt sử dụng cấu trúc diễn ngôn”
[10] Website:
Tiếng Anh
[11] J. Han and M. Kamber, Data mining concepts and techniques. San
38


Francisco: Morgan Kawfmann Publishers, 2006
[12] Su NamKim, Olena Medelyan, Min-Yen Kan & Timothy Baldwin.Automatic
keyphrase extraction from scientific articles;2010
[13] Rada Mihalcea and Paul Tarau. TextRank: Bringing Order into Texts; 2004.
[14] Kazi Saidul Hasan and Vincent Ng. Automatic Keyphrase Extraction: A
Survey of the State of the Art; 2014
[15] Simone Teufel, Marc Moens. Sentence extraction as a classification task; 2002
[16] Brian Loff. Survey of Keyword Extraction Techniques; 2012.
[17] Gonenc Ercan, Ilyas Cicekli. Using Lexical Chains for Keyword
Extraction. Inf; 2007
Process. Manage., Vol. 43, No. 6. (November 2007), pp. 1705-1714.
[18] H.Edmundson(1969). New methods in automatic abstracting, Journal of

ACM; 1969.
[19] HPLuhn(1958). The automatic creation of literature abstracts. IBM journal
of research development.
[20] J. Kleinberg. Authoritative sources in a hyperlinked environment. J. of the
ACM , 1999, to appear. Also appears as IBM Research Report RJ 10076
91892 May 1997.
[21] P. D. Turney, Learning Algorithms for Keyphrase Extraction,
Information Retrieval; 1999.
[22] Qiang Yang, Advertising keyword suggestion based on concept hierarchy
presented by Qiang Yang, HongKong Univ of Science and Technology.
[23] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search
engine.Proc. 7th WWW Conf; 1998.
[24] Y. MATSUO,M. Ishizuka.Keyword Extraction from a Single Document
using Word Co-occurrence Statistical Information.International Journal on
Artificial Intelligence Tools; 2003.
[25] Yasin Uzun. Keyword Extraction Using Naive Bayes. Bilkent University,
Department of Computer Science, Turkey; 2015.
[26] Zhu Mengxiao ,Cai Zhi ,Cai Qingsheng.Automatic Keywords Extraction
39


Of Chinese Document Using Small World Structure. Department of
Computer Science, University of Science and Technology of China; 2014.
[27] Soumen Chakrabarti, Data mining for hypertext: A tutorial survey. Volume
1 ACM – 2000
[28] Yi-fang Brook Wu, Quanzhi Li, Razvan Stefan Bot, Xin Chen, Domanin –
specific keyphrase extraction, Proceedings of the 14th ACM international
conference on information and knowledge management, October 31- November
05, 2005, Bremen, Germany.
[29] Vibhanshu Abhishek, Kartik Hosanagar, Keyword generation for search

engine advertising using semantic similarity between terms, Proceeding of the
ninth international conference on Electronic commerce, August 19-22, 2007,
Mineapolis, MN, USA.
[30] M. Sahami and T. Heilman. A web-based kernel function for matching short
text snippets. In International Conference on Machine Learning, 2005.
[31] Python />[32] Tf,IDF />[33] Website:
Công cụ và dữ liệu sử dụng
[34] Website : />[35] Website:
[36] Website:

40



×