Tải bản đầy đủ (.doc) (59 trang)

Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (640.99 KB, 59 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Chu Anh Minh

BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG
WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
HTML VÀ ĐỒ THỊ WEB


KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Chu Anh Minh

BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG
WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
HTML VÀ ĐỒ THỊ WEB


KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: Th.S Nguyễn Thị Hậu


Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ
HÀ NỘI - 2009
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu và
CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực
hiện khoá luận tốt nghiệp.
Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn
năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bước trên con đường học
tập của mình.
Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai
phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học và
làm khoá luận tốt nghiệp.
Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, và K50CHTTT đã ủng hộ khuyến
khích tôi trong suốt quá trình học tập tại trường.
Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, và những người bạn
thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Hà Nội, ngày 12 tháng 05 năm 2009
Sinh Viên
Chu Anh Minh

TÓM TẮT NỘI DUNG
Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất
từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích
xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề
cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích xuất từ
khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang
web và việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc của Web. Đây
cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khác nhau như:
quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý
người dùng....

Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán
trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các
phương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nâng
cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các
trang web tiếng Việt, tiếng Anh và cho kết quả khả quan.
i
MỤC LỤC
Chu Anh Minh .................................................................................................................. i
HÀ NỘI - 2009 ............................................................................................................ i
Chu Anh Minh ................................................................................................................. ii
TÓM TẮT NỘI DUNG ................................................................................................... i
MỤC LỤC ........................................................................................................................ ii
Bảng các kí hiệu và chữ viết tắt .................................................................................... iv
Danh mục hình vẽ ........................................................................................................... v
Danh mục các bảng biểu ............................................................................................... vi
MỞ ĐẦU .......................................................................................................................... 1
Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web ............................. 3
1.1. Đặt vấn đề ............................................................................................................ 3
1.2. Khái niệm và các đặc trưng của từ khóa ............................................................... 4
1.3. Đánh giá các từ khóa ............................................................................................ 4
1.4. Thách thức của bài toán sinh từ khóa cho trang web ............................................. 5
1.4.1. Đối với các trang có nội dung tập trung ......................................................... 6
1.4.2. Đối với các trang có nội dung tổng hợp ......................................................... 6
1.4.3. Các vấn đề khác ............................................................................................. 6
1.5. Ứng dụng của từ khóa trong các lĩnh vực ............................................................. 7
1.5.1. Vai trò từ khóa trong máy tìm kiếm ............................................................... 7
1.5.1.1. Quảng cáo trên máy tìm kiếm ................................................................. 7
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm ......................................... 9
1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin ................................ 10
1.6. Tổng kết chương ................................................................................................ 12

Chương 2. Các công trình liên quan ........................................................................... 13
2.1. Các phương pháp trích xuất từ khóa cho văn bản ............................................... 13
2.1.1. Phương pháp tần số từ ................................................................................. 13
2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản ............................... 14
2.1.3. Phương pháp sử dụng học máy .................................................................... 15
2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes ................................. 16
2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp ... 16
2.2. Các phương pháp trích xuất từ khóa cho trang web ............................................ 17
2.2.1. Tần số từ ..................................................................................................... 17
2.2.2. Kĩ thuật khai phá log ................................................................................... 17
2.2.3. Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ ................................... 18
2.3. Gán từ khóa trong văn bản, web (keyword assignment) ...................................... 18
2.4 Tổng kết chương ................................................................................................. 19
Chương 3. Hướng giải quyết và đề xuất mô hình bài toán ...................................... 20
3.1. Hướng giải quyết ............................................................................................... 20
3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML ......................................... 20
3.1.2. Sử dụng đồ thị web ...................................................................................... 23
3.1.2.1. Định nghĩa đồ thị Web .......................................................................... 23
3.1.2.2. Nội dung của phương pháp ................................................................... 24
3.1.3. Sử dụng query log ....................................................................................... 26
ii
3.1.4. Sử dụng từ điển hỗ trợ ................................................................................. 27
3.2. Đề xuất mô hình bài toán ................................................................................... 27
3.2.1. Mô hình toàn hệ thống ................................................................................. 27
3.2.2. Mô đun Crawler ........................................................................................... 28
3.2.3. Mô đun sinh từ khóa ................................................................................... 29
3.2.3.1. Mô đun sử dụng trọng số thẻ HTML ..................................................... 29
3.2.3.2. Mô đun sử dụng đồ thị web ................................................................... 32
3.2.3.3. Các phương pháp hỗ trợ ........................................................................ 33
3.2.3.4. Mô đun tổng hợp ................................................................................... 35

3.3. Tổng kết chương ................................................................................................ 35
Chương 4. Thực nghiệm và đánh giá .......................................................................... 36
4.1. Giới thiệu bài toán thực nghiệm ......................................................................... 36
4.2. Môi trường, dữ liệu: ........................................................................................... 36
4.1.1. Môi trường phần cứng ................................................................................. 36
4.1.2. Mô tả chương trình ...................................................................................... 36
4.1.3. Công cụ phần mềm ...................................................................................... 37
4.1.4. Dữ liệu thử nghiệm ...................................................................................... 38
4.3. Kết quả thực nghiệm: ......................................................................................... 40
4.4. Đánh giá kết quả thực nghiệm ............................................................................ 44
Kết luận ......................................................................................................................... 46
Hướng phát triển tiếp theo ........................................................................................... 47
Tài liệu tham khảo. ....................................................................................................... 48
iii
Bảng các kí hiệu và chữ viết tắt
Kí hiệu Diễn giải
HTML HyperText Markup Language
IR Information Retrieval
SE Search Engine
SEM Search Engine Marketing
SEO Search Engine Optimization
TF Term Frequency
IDF Inverse Document Frequency
URL Uniform Resource Locator
W3C World Wide Web Consortium
WWW World Wide Web
iv
Danh mục hình vẽ
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm..................8
Hình 2. Top từ khóa của baomoi.com.........................................................................10

Hình 3. Top từ khóa của flickr.com............................................................................10
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web
baomoi.com....................................................................................................................11
Hình 5. Hình minh họa kết quả sinh từ khóa của trang web
....................................................................................17
Hình 6. Mô tả đồ thị web..............................................................................................24
Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa........25
Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang
vnexpress........................................................................................................................25
Hình 9. Mô hình đề xuất cho toàn hệ thống...............................................................27
Hình 10. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML.........31
Hình 11. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web..........32
Hình 12. Mô hình mô đun sinh từ khóa dựa trên log...............................................33
Hình 13. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ.............................34
Hình 14. Mô hình mô đun tổng hợp từ khóa.............................................................35
Hình 15. Thư mục Tiếng_Việt của dmoz....................................................................38
Hình 16.Các liên kết cần lấy về trong các thư mục...................................................39
v
Danh mục các bảng biểu
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet................................................21
Bảng 2. Bảng các thẻ HTML quan trọng khác..........................................................22
Bảng 3. Ví dụ về các trường trong querylog của MSN.............................................26
Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán................................36
Bảng 5. Các gói của chương trình...............................................................................36
Bảng 6. Các lớp của gói general..................................................................................37
Bảng 7. Các lớp của gói methods.................................................................................37
Bảng 8. Các lớp của gói SELink..................................................................................37
Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng............................................37
Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh.........40
Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử........44

vi
MỞ ĐẦU
Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide
Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp
nhiều. Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạng
của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải quyết
được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu vẫn sử
dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phù hợp.
Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm gần đây.
Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về từ khoá
nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải cạnh tranh
với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong các động lực
để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài toán đặt ra là cần
tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của trang
web.
Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được
sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu web
vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng hơn.
Rất nhiều các trang web báo khác nhau, các blog như: vietbao.vn, baomoi.com,
flickr.com, ebay.com ... đã áp dụng việc sinh từ khóa cho các trang này để người đọc,
người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm khác
có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những thế,
những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần nào
xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề đang
được quan tâm.
Một vấn đề quan trọng không kém, đó là với sự phát triển của web thì những
chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu
tổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễ dàng.
Nó được thể hiện trong các trang web là các thẻ <meta> trong mã HTML. Nó sẽ giúp
cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang web tốt

hơn. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ khá là
hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. Còn đối các máy tìm
kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng. Nó vừa
1
đảm bảo thời gian, công sức vừa có thể tìm ra được những từ khoá mà ngay cả chủ trang
web có thể thiếu xót.
Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán
trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài “Bài toán trích xuất
từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web”.
Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp
chính là: phân tích nội dung trang dựa trên thẻ HTML và đồ thị web. Ngoài ra, khóa
luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là :
khai phá log và dùng từ điển hỗ trợ. Với từng loại trang web sẽ có từng loại phương
pháp khác nhau. Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là
chủ đạo với nhiều trang. Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan
và có triển vọng với độ chính xác khá cao, nếu kết hợp với các từ khoá của chính người
quản trị thì tập từ khoá sinh ra là khá đầy đủ và chính xác.
Ngoài phần MỞ ĐẦU và KẾT LUẬN, kết cấu của khoá luận bao gồm các
chương sau:
- Chương 1: Giới thiệu về bài toán. Nêu các khái niệm cơ bản về bài toán. Các
ứng dụng của bài toán. Những thách thức đặt ra cho bài toán.
- Chương 2: Các công trình liên quan. Giới thiệu sơ lược về các phương pháp đã
được áp dụng với các bài toán sinh cho văn bản, cho trang web.
- Chương 3: Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải
quyết của tác giả, đề xuất mô hình có thể thực thi.
-Chương 4 “Kết quả thực nghiệm và đánh giá”. Đưa ra những kết quả đã làm, và
đánh giá kết quả.
2
Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang
web

1.1. Đặt vấn đề
Sự phát triển nhanh chóng của Internet và đặc biệt là sự bùng nổ World Wide
Web (WWW) - còn gọi tắt là web - làm cho thông tin ngày càng lớn, khó kiểm soát, và
trùng lặp nhiều. Tìm kiếm thông tin hiện nay càng là nhu cầu thiết yếu của nhiều người
trên nhiều lĩnh vực khác nhau. Sự đột phá về công nghệ đã cho ra những máy tìm kiếm
phần nào đã giải quyết được sự ngập lụt thông tin này. Vì nhu cầu sử dụng máy tìm
kiếm hiện nay là rất lớn, nên nó cũng được sự quan tâm của các doanh nghiệp nhằm
dựa vào máy tìm kiếm để quảng cáo sản phẩm của mình qua các từ khóa[36]. Đó cũng
là động lực chính để phát triển bài toán sinh từ khóa cho trang web.
Việc sinh từ khóa cho trang web không những chỉ có ý nghĩa trong các máy tìm
kiếm, mà hiện nay nó còn có nhiều ứng dụng hơn trong các trang web tổng hợp thông
tin khác như các blog, báo điện tử, tìm ảnh, tìm phim, thư viện sách.... Với mỗi trang
web, các từ khóa của trang đó sẽ là những sự gợi ý rất tốt cho người dùng để tìm thấy
những thông tin khác liên quan mà họ có thể đang quan tâm.
Trong nhiều năm qua, bài toán trích xuất từ khóa đã được quan tâm, chú ý nhiều
trong các hội nghị khoa học , và các doanh nghiệp kinh doanh, cũng như những người
quản trị web với chiến dịch quảng bá web của mình (SEO: Search Engine Optimization)
. Những bài báo, luận văn trước chủ yếu làm trên miền văn bản. Còn đối với miền trang
web thì khá phức tạp, tốn nhiều thời gian; nhiều phương pháp phải cần đến tập huấn
luyện.
Các từ khóa là các từ, cụm từ nhằm miêu tả nội dung của trang web, văn bản một
cách ngắn gọn nhất, chính xác nhất. Các từ khóa phải không quá chung chung hay
không quá xa lạ đối với người sử dụng. Bài toán trích xuất từ khóa cho trang web là
việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin liên
quan đến trang web để tìm ra được tập từ khóa đại diện cho chúng .
Chính những sự áp dụng rộng rãi và nhu cầu thực tiễn của bài toán đã là động lực
để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web. Khóa luận
cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính là: độ quan
trọng của các thẻ HTML, đồ thị web. Bên cạnh đó, tôi cũng bổ sung hai phương pháp hỗ
trợ việc tìm từ khóa đó là: khai phá query log của máy tìm kiếm, tập từ điển hỗ trợ.

3
1.2. Khái niệm và các đặc trưng của từ khóa
Từ khóa là một từ hay một cụm từ dùng để mô tả một cách chính xác, ngắn gọn
nhất nội dung chính của một tài liệu (văn bản, hay các trang web) . Trong tiếng Anh, từ
khóa được thể hiện dưới nhiều thuật ngữ khác nhau như: keywords, term, query term,
hay tags; nhưng ý nghĩa của chúng là giống nhau . Trong các tài liệu thì cách viết
keywords và tags được sử dụng nhiều nhất. Hiện nay, các trang web chuẩn theo W3C
1
(World Wide Web Consortium) đều có chứa những từ khóa của trang trong thẻ <meta>
với thuộc tính “keywords”. Các từ khóa của các trang web đa số được sinh thủ công bởi
người quản trị web. Bài toán trích xuất từ khóa của tài liệu tiếng Việt và tiếng Anh là
một trong những bài toán cấp thiết trong nghiên cứu xử lý ngôn ngữ tự nhiên cũng như
trong cuộc sống hàng ngày. Tập các từ khóa có thể coi như là một bản tóm tắt đơn
giản nhất của văn bản. Tập các từ khóa sẽ nói lên rõ hơn ý nghĩa của văn bản hay trang
web đó.
Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng,
tập các từ, hay cụm từ có ý nghĩa và các từ này có thể đại diện cho trang web đó. Giải
quyết bài toán này là đưa ra các phương pháp để áp dụng trên các trang web hay các
thông tin liên quan đến trang web để tìm ra các từ khóa đại diện cho trang web này một
cách tự động.
Một số đặc điểm, tiêu chí ảnh hưởng [37] đến quá trình rút trích từ khóa:
 Từ dừng: Các từ dừng(stopword) không nằm trong danh sách các từ khóa được
sinh ra. Các từ dừng là các từ không bao hàm ý nghĩa như là các từ: a , an , the,
about, with, on ... trong tiếng Anh và các từ : là , sẽ , cùng, tới... trong tiếng Việt.
 Loại từ: Các từ trong danh sách từ khóa thường là các động từ, hoặc danh từ. Tuy
nhiên, có thể các từ có thể được viết tắt cũng cần xem xét. Các danh từ riêng
được coi trọng hơn các danh từ thường.
 Liên quan đến tiêu đề :Những từ khóa trong văn bản phải liên quan đến đầu đề
văn bản.
 Số lượng: Tập từ khóa của một trang web, văn bản là một danh sách các từ khóa

khác nhau, nó phù hợp với từng loại văn bản, trang web khác nhau. Thông
thường là 5-10 từ khóa cho trang web, và 15-20 cho các bài báo...
1.3. Đánh giá các từ khóa
Thường thì các công ty, người quản trị trang web đều chắc chắn rằng họ đã biết
từ khoá lý tưởng nhất. Nhưng thường thì họ sai. Nguyên nhân là do không dễ dàng tách
1

4
một cá nhân ra khỏi một công ty và nhìn nhận với tư cách là một khách hàng tiềm năng.
Soạn ra một danh sách các từ khoá thì không nên bắt buộc phải là một quá trình nội bộ.
Mọi người thường rất ngạc nhiên về những từ khoá được gợi ý, đôi khi còn không
tưởng tượng được hầu hết các khách không nói cùng một ngôn ngữ với họ.
Một khi đã có được một danh sách từ khóa hoàn hảo, lúc này là lúc đánh giá từng
cụm từ để chọn ra trong danh sách đến những từ khoá mà sẽ mang lại cho trang web
lượng người vào trang web cao. Mặc dù rất nhiều cá nhân đều đánh giá các cụm từ khoá
dựa trên số đông, nhưng một số khía cạnh cần phải có cho các từ khóa:
a. Tính phổ biến
Cho đến nay cách dễ nhất để đánh giá đó là tính phổ biến. Các phần mềm như
WordTracker đưa ra các con số phổ biến của cụm từ được tìm kiếm dựa vào hoạt động
thực tế của SE . Rõ ràng là con số nào cao hơn thì dự kiến sẽ có người vào cao hơn.
b. Tính đặc trưng
Khái niệm này trừu tượng hơn là con số thể hiện tính phổ biến nhưng lại quan
trọng không kém. Ví dụ, giả dụ rằng có thể đạt được thứ hạng cao trên SE nhờ cụm từ
khoá “insurance companies”. Nhưng nếu doanh nghiệp chỉ kinh doanh trong lĩnh vực
bảo hiểm ô tô ( auto insurance). Mặc dù từ khoá “insurance companies” có tính phổ
biến cao hơn từ khoá “auto insurance”, nhưng cụm từ khoá “insurance companies” sẽ
dành cho những người tìm kiếm dịch vụ bảo hiểm nhân thọ, bảo hiểm sức khoẻ và bảo
hiểm nhà cửa chứ kết quả cho tìm kiếm bảo hiểm ô tô thì lại không xuất hiện.
c. Hướng người sử dụng
Nhân tố này dựa vào cách nghĩ của số đông người dùng. Ví dụ, giả dụ một đại lý

bất động sản ở Atlanta đang cân nhắc hai từ khóa đó là "Atlanta real estate listings" và
“Atlanta real estate agents”. Hai từ khoá này có tính phổ biến tương tự nhau. Chúng
cũng có tính đặc trưng riêng, vì nó liên hệ mật thiết đến công ty. Vậy thì từ nào thì tốt
hơn. Nếu nhìn vào động cơ của người sử dụng trong log thì sẽ thấy từ thứ hai sẽ tối ưu
hơn. Từ khoá thứ hai cho rằng người sử dụng muốn tìm kiếm một đại lý nhiều hơn.
1.4. Thách thức của bài toán sinh từ khóa cho trang web
Các nghiên cứu trước đây chủ yếu tập trung trên miền trích xuất từ khóa cho các
văn bản hay các bài toán kiểu tóm tắt văn bản. Một lợi điểm trong các văn bản là do văn
bản chỉ thuần nói về một đề tài hay một chủ đề xác định, ít nhiễu. Trong khi đó đối với
các trang web nó là tổng hợp của nhiều thông tin trên một trang web, có nhiều thông tin
không liên quan như: quảng cáo, thực đơn, thông tin liên quan. Vì vậy, những thách
5
thức của bài toán trích xuất từ khóa cho trang web đó là nhiễu trên các trang là lớn, nội
dung của nhiều trang là không tập trung.
1.4.1. Đối với các trang có nội dung tập trung
Các trang có nội dung tập trung là các trang mà trong nó chứa những nội dung cụ
thể về một vấn đề. Nói khác đi, khi loại bỏ các phần thông tin ngoài thì phần còn lại như
một văn bản. Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụng như tần
số từ, vị trí từ trong các đoạn văn, độ tương đồng từ....Các trang có nội dung tập trung
như bài báo điện tử, bài viết hướng dẫn, một bài văn...Nói chung, việc lọc nhiễu cho các
trang này là một điều quan trọng giúp tăng chất lượng của việc trích xuất từ khóa. Với
những bài viết quá dài thì thời gian chạy cũng khá lâu.
1.4.2. Đối với các trang có nội dung tổng hợp
Hiện nay, thông tin ngày càng được cập nhật thường xuyên trong mỗi trang web.
Nhu cầu tổng hợp tin tức là rất cần thiết. Các trang web luôn muốn những thông tin cập
nhật sẽ được hiển thị trên trang đầu khi mà người dùng tới trang của họ. Những trang
đầu này còn gọi là các trang chủ. Các trang web portal cũng tương tự [35]. Một trang
web portal là một trang đưa ra những thông tin ở nhiều nguồn khác nhau theo một cách
thống nhất. Ngoài thỏa mãn là một công cụ tìm kiếm, web portal cung cấp các thông tin
dịch vụ khác như báo tin tức, chứng khoán, giải trí. Ví dụ về các web portal như: AOL,

MSN, yahoo, iGoogle. Nếu áp dụng việc trích xuất từ khóa áp dụng đối với nội dung
trong các trang web này sẽ dẫn đến kết quả không chính xác. Cần có những phương
pháp khác để có thể sinh từ khóa cho loại trang này, và trong khóa luận này tôi áp dụng
phương pháp dùng đồ thị Web và log hỗ trợ.
1.4.3. Các vấn đề khác
Ngày nay, số lượng các trang web trên Internet là rất nhiều. Vì vậy việc kiểm
soát nội dung cũng đã khó, chưa kể đến những lỗi trong việc mã hóa HTML trên trang
web. Ngôn ngữ HTML là một ngôn ngữ có cấu trúc chặt chẽ theo chuẩn của W3C, với
các luật như thẻ mở, đóng, hay thẻ đơn. Để có thể phân tích, lấy được những thông tin
trong trang web thì chúng ta cần các trang có mã HTML theo chuẩn. Tuy các trình duyệt
có thể bỏ qua các lỗi HTML để thể hiện thị, nhưng những lỗi như vậy làm cho các
chương trình xử lý của chúng ta gặp vấn đề về việc phân tích cú pháp, xác định sai các
đoạn văn trong trang web. Do tiếng Việt và Tiếng Anh có những cụm từ, nên một số từ
khi xuất hiện một mình sẽ không có ý nghĩa. Vì vậy, cần phải có một bộ tách từ tốt, nhất
là đối với tiếng Việt.
6
Ngoài các lỗi về cấu trúc của HTML, ngay trong nội dung văn bản của các trang
web cũng có những lỗi như: viết tiếng Việt không dấu, viết sai.... Một số trang web có
sử dụng các tên miền miễn phí như : www.dot.tk , www.co.cc ...., cho nên khi trỏ đến
các trang của họ thì mã HTML hiển thị lại không là mã HTML của trang web thực mà
lại là mã HTML của các trang cung cấp tên miền.
1.5. Ứng dụng của từ khóa trong các lĩnh vực
1.5.1. Vai trò từ khóa trong máy tìm kiếm
1.5.1.1. Quảng cáo trên máy tìm kiếm
Việc ra đời máy tìm kiếm đã giải quyết phần nào nhu cầu về tím kiếm thông tin
trên mạng. Do đó, máy tìm kiếm là một công cụ không thể thiếu cho những người dùng
web hiện nay. Chính vì sự phổ biến, và lượng lớn người dùng sử dụng nó cho nên quảng
cáo trên máy tìm kiếm là một trong những hình thức quảng cáo khá hiệu quả, và có
phần nở rộ hơn trong những năm gần đây. Các nhà doanh nghiệp, quản trị của các trang
web (webmaster) cần có những chiến lược khác nhau khi quảng cáo trên máy tìm kiếm

một cách hiệu quả nhất. Do việc tìm kiếm trên máy tìm kiếm chủ yếu dựa trên từ khoá
cho nên việc tìm ra những từ khoá đại diện cho các trang web để quảng cáo là một trong
những nhiệm vụ hàng đầu của các doanh nghiệp, các người quản trị web muốn quảng bá
trang web của mình. Các doanh nghiệp này cần đăng kí các từ khoá này với các máy tìm
kiếm để có thể quảng cáo trang web của mình. Tuy nhiên, có rất nhiều doanh nghiệp
khác cũng muốn quảng cáo sản phẩm, và nảy sinh ra trường hợp cạnh tranh những từ
khoá chung.
Trong quá khứ, những nhà quảng cáo thích đặt giá cho những từ khoá mà nó có
xu hướng sinh ra số lượng lớn kết quả trả về, cho nên những từ khoá này thường rất đắt.
Có một chiến lược khác bằng cách trả giá cho những từ khoá khác liên quan cho ít kết
quả hơn khi máy tìm kiếm trả về, nhưng nó vẫn có tầm quan trọng và nói lên được cái
ẩn, nội dung mà người quảng cáo muốn hướng tới. Do đó, nó vừa có hiệu quả, lại vừa
có giá đầu tư cho từ khóa là rẻ, ít cạnh tranh nhưng vẫn đảm bảo tính chất phổ biến,
nhưng nổi trội của doanh nghiệp quảng cáo.
Tìm kiếm có tài trợ hay Marketing trên máy tìm kiếm(SEM) là một cách thức
quảng cáo khá phổ biến trên web hiện nay, nó cũng chính là thu nhập chính của các máy
tìm kiếm. Các cỗ máy tìm kiếm thường thu thập một lượng thông tin khổng lồ về các sở
thích và hành vi của người sử dụng trong quá trình vận hành của chúng. Những thông
7
tin này, bên cạnh việc hỗ trợ cho việc nâng cấp các máy tìm kiếm để trả về kết quả phù
hợp hơn, còn có thể được bán cho các công ty khác. Những công ty mua các thông tin
này có thể sử dụng chúng để biết được những sản phẩm người tiêu dùng đang quan tâm
hoặc tiên đoán nhu cầu của người tiêu dùng trong tương lai.
Các từ khoá sẽ làm nhiệm vụ quan trọng là gợi ý ra những tài liệu liên quan và
những tài liệu liên quan này cũng có từ khoá đó. Nguồn thu từ quảng cáo trực tuyến của
các máy tìm kiếm rất lớn. Ví dụ năm 2004, Google thu về 3 tỉ Đô la Mỹ từ quảng cáo .
Có hai cách quảng cáo trực tiếp trên máy tìm kiếm:
- Cách thứ 1 là khách hàng trả tiền cho những từ khoá để đảm bảo rằng trang web của
họ nằm ở thứ hạng cao trong danh sách trả về của máy tìm kiếm (pay for placement.).
Cách làm này thường bị nói là không công bằng khi máy tìm kiểm cố tình cho các kết

quả có tài trợ được thứ hạng cao. Cách này cũng ít được áp dụng do các máy tìm kiếm
cần đảm bảo được sự công bằng của chính thuật toán của máy tìm kiếm trả về.
- Cách thứ 2 được áp dụng phổ biến hơn. Các máy tìm kiểm chia trang tìm kiếm trả về
làm 2 phần như hình Hình 1, một phần là kết quả trả về chính xác mà máy tìm kiếm tìm
thấy trong hệ thống các trang web đã crawl về, một phần là phần dành cho các trang
web có tài trợ. Với các trang web hiển thị ở phần này, các máy tìm kiếm áp dụng chiến
lược trả tiền khi người dùng click. Có nghĩa là các quảng cáo sẽ phải trả tiền cho máy
tìm kiếm khi người dùng search trong máy tìm kiếm và click vào quảng cáo. Một trường
hợp tự nhiên đó là hiện nay có nhiều doanh nghiệp với nhiều mặt hàng là giống nhau, và
đều muốn cạnh tranh với nhau. Khi quảng cáo trên máy tìm kiếm, các từ khoá có thể sẽ
trùng nhau, và các doanh nghiệp đều muốn sở hữu từ khoá đó vì những từ khoá đó là
phổ biến và quan trọng. Do đó, máy tìm kiếm sẽ có quá trình đấu giá cho từ khoá. Đối
với mỗi từ khoá, doanh nghiệp nào trả giá cho từ khoá cao hơn sẽ được đứng ở vị trí
đầu.
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm
8
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm
Tối ưu hóa công cụ tìm kiếm, hay SEO (viết tắt của search engine
optimization), là một tập hợp các phương pháp nhằm nâng cao thứ hạng của một
website trong các trang kết quả của các công cụ tìm kiếm và có thể được coi là một tiểu
lĩnh vực của tiếp thị qua công cụ tìm kiếm. Một trong những các phương pháp trong quá
trình SEO là việc tìm từ khóa cho các trang web.
Từ khóa là những từ, cụm từ mà những người truy cập nhập vào trong những cỗ
máy tìm kiếm để tìm thấy thông tin từ những trang web. Điều quan trọng hàng đầu của
các người quản trị web là các trang web của họ có được những cỗ máy tìm kiếm tốt xếp
hạng những từ khóa phổ biến liên quan đến đề tài của trang web của họ không.
Những từ khóa đúng quan trọng với thành công của những hoạt động SEO của
những người quản trị web. Sẽ không phải là giải pháp tốt khi tối ưu hóa những trang
Web cho những từ khóa mà không ai sử dụng trong những cỗ máy tìm kiếm. Hơn nữa,
để có thêm những người dùng quan tâm đến trang web, những từ khóa không được rộng

quá hoặc chung quá.
Những từ khóa nào là những từ khóa đúng cho một trang web? Chìa khóa ở đây
là phải chọn ra những từ khóa phổ thông, nhưng không được quá chung chung để tránh
nhận phải hàng triệu kết quả tìm kiếm. Tìm ra được những từ khóa đặc biệt đáp ứng
được đòi hỏi trên sẽ giúp cho trang web đạt được thứ hạng cao trong danh sách tìm
kiếm và có thêm nhiều người dùng truy cập vào. Bước đầu tiên trong việc chọn đúng
những từ khóa là phải làm cho chúng trở nên đặc biệt [36].
• Sử dụng những mệnh đề từ khóa gồm có hai tới bốn từ.
• Tránh những từ khóa quá cạnh tranh với các trang web nổi tiếng khác.
• Đặc biệt (càng đặc biệt càng tốt nhưng không nên quá xa lạ đối với người dùng).
Để một chiến dịch tiếp thị trực tuyến thành công, cần phải chọn được những từ
khóa đúng, phù hợp. Những từ khóa sử dụng cần phải thích hợp với trang web đó và
những người truy cập cần phải đang tìm kiếm những từ khóa đó. Tuy nhiên, những từ
khóa của người dùng nhiều lúc lại không giống như những từ khóa mà người quản trị
web nghĩ. Đa số mọi người sử dụng hai tới bốn từ hoặc mệnh đề trong một sự tìm kiếm,
vì vậy những mệnh đề rất có hiệu quả. Những từ đơn không thể được quảng bá có hiệu
quả. Chẳng hạn, ít có người tìm kiếm “free download software” mà chỉ nhập vào có
mỗi từ “soft”. Tránh những mệnh đề từ khóa đại chúng nhất bởi vì rất dễ phải đua tranh
với hàng triệu trang web khác cho một sự chú ý của cỗ máy tìm kiếm. Thật là không
thực tế để tin rằng một trang web mới có thể xếp hạng số một trên một mệnh đề đại
9
chúng, ví dụ “Mp3” hay “báo điện tử”. Rõ ràng, các công ty được thành lập và tham
gia vào internet vài năm sẽ có lợi thế lớn nhờ tính phổ biến.
1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin
Một động lực khác để phát triển bài toán trích xuất từ khoá cho trang web đó là
từ khoá giúp phân loại các văn bản theo định nghĩa của người dùng dưới dạng chủ đề
cho phép dễ dàng truy câp và tìm thông tin trên đó. Nó còn giúp việc liên kết mỗi tài
liệu liên quan đến nhau (cross-link) một cách linh động, và giảm thời gian để tìm kiếm
cho thông tin giống với nội dung trang đang xem. Ví dụ như trong Hình 2, Hình 3 là
những từ khoá hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếng Anh).

Hình 2. Top từ khóa của baomoi.com
Hình 3. Top từ khóa của flickr.com
Tại một thời điểm nào đó, nếu người dùng truy cập, xem nhiều những trang mà có
chung những từ khoá, vì vậy top từ khoá sẽ nói lên được xu thế của người dùng. Những
từ khóa hay được người dùng sử dụng chính là những chủ đề mà người dùng hiện tại
đang quan tâm. Và khi người khác truy cập vào trang web, họ có thể khám phá, đọc,
xem những trang được coi là mới nhất hiện nay. Những từ khóa này giúp cho người
dùng nắm bắt thông tin mới theo cách khái quát, theo chủ đề xác định.
Trong khi người dùng đọc, xem các trang web, “những điều gì họ sẽ quan tâm
tiếp theo ?” là một câu hỏi được nhiều nhà quản trị các trang web tổng hợp thông tin
hướng tới nhằm thoả mãn nhu cầu tối đa của người dùng. Và từ khoá là một trong
những giải pháp khá hiệu quả và thành công. Mỗi một trang web người dùng khi đọc sẽ
hiện ra những từ khoá liên quan đến bài viết đó. Những từ khoá này nói lên phần nào
được nội dung trang web mà người dùng đang đọc. Với những từ khoá này, người dùng
có thể tìm những bài liên quan đến trang họ đang đọc qua các từ khoá. Ví dụ như trong
Hình 4, người đọc quan tâm đến buổi duyệt binh của nước Nga vào ngày 9/5, những từ
khoá liên quan sẽ được gợi ý cho người dùng qua nội dung bài viết hiện tại, như người
10
dùng có thể xem các bài viết liên quan đến phát xít, duyệt binh, hồng quân, thủ tướng
Nga, tổng thống Nga, Nga....
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com
Ngoài các ứng dụng hướng đến sự quan tâm người dùng, các từ khoá còn có một
ứng dụng khác trong việc phân cụm các trang web theo chính các từ khóa. Mỗi trang
web có một tập các từ khóa riêng, các từ khóa này có thể trùng với các từ khóa của các
trang web khác. Do đó, một từ khóa như là một thư mục chứa các trang web liên quan,
có từ khóa chính là tên của thư mục đó. Một trang web có nhiều từ khóa, cho nên một
trang web có thể thuộc nhiều thư mục khác nhau. Chính sự tự nhiên này của các từ
khóa, nên nó có tác dụng làm cho việc tìm kiếm nhanh hơn, hiệu quả hơn, làm cho việc
lưu trữ trở nên có cấu trúc hơn.
Mạng xã hội cũng đang phát triển rất nhanh, thu hút được nhiều sự quan tâm của

giới trẻ. Một trong các hình thức của mạng xã hội là blog. Blog là nơi để mọi người viết
nhật kí, hay những bài viết chia sẻ kiến thức, hoặc những bài viết về các vấn đề trong xã
hội được quan tâm. Những người viết blog có rất nhiều bài viết khác nhau nhưng nhiều
bài viết vẫn ở chung một chủ đề. Các blogger ưa thích việc dùng tag để biểu diễn ngắn
gọn cho chủ đề một bài viết của họ. Tag ở đây cũng được coi là từ khóa. Với các tag,
người đọc blog sẽ theo dõi được những thông tin liên quan trong các bài viết trong blog
một cách nhanh chóng. Và các tag này đều do người viết đặt. Ví dụ: khi đọc một bài
trong blog về vấn đề máy tính, người dùng có thể tìm những bài viết liên quan đến từ
Windows, lập trình, …Người đọc có thể sẽ tìm thấy những thông tin mà họ thích. Các
từ khóa cũng là một trong các phương thức để mọi người khám phá trang web đó.
11
1.6. Tổng kết chương
Chương này tôi đã trình bày những khái niệm của từ khóa, và bài toán trích xuất
từ khóa cho trang web, thách thức của nó trong các tài liệu web. Và qua đây, chúng ta
cũng thấy được tầm quan trọng của việc sinh từ khóa trên các lĩnh vực khác nhau.
Chương II, khóa luận xin trình bày một số công trình khoa học có liên quan đến bài toán
này.
12
Chương 2. Các công trình liên quan
2.1. Các phương pháp trích xuất từ khóa cho văn bản
Trích xuất từ khoá cho trang web là một bài toán được cụ thể hóa một phần từ
bài toán trích xuất thông tin (IR: Information Retrieval). Đã có các nghiên cứu khác
nhau về bài toán trích xuất từ khoá một cách tự động. Mà đặc biệt với bài toán tóm tắt
văn bản là một trong những bài toán gần giống với bài toán này. Mục tiêu của bài toán
trích xuất từ khóa là tìm ra những từ khoá miêu tả được nội dung của văn bản, trang web
bằng cách áp dụng các phương pháp khác nhau dựa trên các đặc điểm của văn bản, web.
Tuy nhiên, miền áp dụng của bài toán tóm tắt văn bản là trên các văn bản thông thường.
Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng cho bài toán
trích xuất từ khóa cho văn bản.
Các lý thuyết, phương pháp được áp dụng khá đa dạng đối với văn bản như : sử

dụng tần số (tfxidf), học máy naïve bayes, cây quyết định, co-occurrence, độ tương
đồng từ khóa, các kĩ thuật khác trong bài toán tóm tắt văn bản... Sau đây là phần giới
thiệu một số phương pháp.
2.1.1. Phương pháp tần số từ
Phương pháp tần suất xuất hiện của từ được giới thiệu bởi Luhn vào năm 1958.
Phương pháp này dựa trên giả thiết: tần số của từ xuất hiện trong các bài báo là một độ
đo hữu ích về nghĩa của từ; ví trí tương đối của từ có nghĩa trong phạm vi một câu cũng
là độ đo hữu ích về mặt ý nghĩa của từ. Tuy nhiên, cơ sở của phương pháp bị hạn chế do
khả năng của máy tính không thể biểu hiện được các thông tin về mặt ngữ nghĩa.
Phương pháp này xem xét rằng các từ mà xuất hiện nhiều lần thì sẽ mang tính
phổ biến của bài viết, nói lên phần nào nội dung của nó. Các từ phổ biến này được chọn
lựa theo cách sắp xếp từ cao đến thấp theo tần số xuất hiện. Tuy nhiên, theo phương
pháp này, thì các dạng khác nhau của từ sẽ được coi như là một từ. Thêm vào đó, việc
tính toán tần số của từ sẽ dẫn đến việc các từ có tần số quá cao như các từ dừng. Một
cách tự nhiên thì những từ mà có tần số quá cao, hoặc quá thấp cũng không quan trọng.
Chúng ta có thể tạo lập ngưỡng cho các từ khóa, có nghĩa là tạo ngưỡng không những
cho những từ khóa tần số thấp mà còn cho những từ có tần số quá cao. Do đó, ngưỡng
được chấp nhận sẽ nằm trong khoảng [a,b] với a là cận dưới, b là cận trên. Các từ dừng
cũng có thể được loại bỏ hiệu quả nhờ một tập từ điển từ dừng.
13
Để tính tần số của từ quan trọng, phương pháp tần số từ tính phân phối của mỗi
từ trong tài liệu (tf) và phân phối của từ ở trong corpus (idf - inverted document)
idf(keyword) =
)
)(
log(
keywordNUMDOC
NUMDOC
Trong đó :
NUMDOC: số tài liệu trong tập corpus

NUMDOC(keyword) : chính là số tài liệu mà có từ keyword xuất hiện.
Nếu tf(keyword) x idf(keyword) vượt một ngưỡng xác định, các cụm từ khóa được tìm
thấy và được gán trọng số. Những từ nào có trọng số cao thì được chọn.
Đối với trang web, có thể áp dụng phương pháp này bằng cách từ địa chỉ trang
web cần lấy từ khóa. Lần theo các liên kết trong trang hạt giống này (seed page) để lấy
về các trang web khác và phải thuộc cùng domain. Tập các trang web này tạo nên một
tập corpus. Việc tính toán từ khóa cho mỗi tài liệu web sẽ được tính theo công thức trên
dựa vào những đoạn text hiển thị trích ra từ các trang web đó. Tuy nhiên, do trang web
có nhiều những từ được hiển thị trong một trang không có ý nghĩa như : thực đơn,
quảng cáo... nhưng lại xuất hiện nhiều lần ở các trang. Vì vậy, các từ xuất hiện trong các
mục này lại có tần số xuất hiện cao, và thường vào các từ khóa.
2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản
Phương pháp tìm từ khóa dựa vào trích xuất các phần quan trọng của các phần
trong văn bản có phần tương tự như phương pháp tóm tắt của Edmundson , dựa vào
phương pháp lấy phần quan trọng của văn bản: là các cụm từ gợi ý, từ khóa, tiêu đề của
văn bản, ví trị của câu trong văn bản. Phương pháp tìm từ khóa cũng sẽ dùng các đặc
điểm của văn bản để tìm ra những từ khóa. Dưới đây là cơ sở của phương pháp:
a. Cụm từ gợi ý trong văn bản
Thông thường các cụm từ gợi ý là liên quan hoặc không liên quan tới các câu
quan trọng. Ví dụ với các từ “Trong bài báo này”, “Tóm lại”... thường là phần quan
trọng của văn bản. Hoặc những cụm từ khác như “ví dụ” chỉ ra phần không quan trọng
của văn bản.
b. Tiêu đề của văn bản
Người viết khi viết về văn bản của mình thì phải luôn chú trọng đến nội dung,
cũng như cách thể hiện tiêu đề sao cho người đọc chỉ cần nhìn qua vào tiêu đề có thể
hiểu được nội dung của toàn bộ văn bản. Vì vậy, tiêu đề là có độ quan trọng rất cao
14
trong văn bản. Đã có các bài báo nghiên cứu tóm tắt văn bản dựa vào độ tương đồng câu
dùng câu tiêu đề làm câu mẫu để các câu khác so sánh . Có thể áp dụng phương pháp
này trong văn bản web mà đặc biệt là phần văn bản trong thẻ <title> của nguồn HTML

của trang web. Việc bám sát vào các câu của tiêu đề văn bản sẽ cho việc tìm nội dung
của văn bản, hay trang web sẽ trở nên chính xác hơn. Các câu tiêu đề có thể được coi
như là phần tóm tắt ngắn gọn của văn bản, các từ có nghĩa tương tự, hay những từ lặp
lại nhiều trong văn bản trùng với các từ trong tiêu đề thì đều quan trọng.
c. Vị trí của các từ khóa trong văn bản
Thông thường những từ mà được xuất hiện trong những đoạn đầu tiên trong văn
bản thường có độ quan trọng cao hơn các từ mà đứng giữa hay cuối. Do vậy, có thể
chọn các từ khóa mà sao cho nó xuất hiện nhiều ở phần mở đầu, nhất là đối với những
bài viết dài. Tuy nhiên, một số bài lại có cấu trúc dạng: phần giới thiệu, phần chính, tóm
lại. Các từ ở phần giới thiệu và phần tóm lại nếu xuất hiện nhiều trong văn bản đều khá
quan trọng
d. Tần số từ trong văn bản
Các từ xuất hiện thường xuyên trong văn bản có xu hướng chỉ ra chủ đề của văn
bản đó. Mức độ quan trọng của các từ, cụm từ tính toán trên cơ sở tần số xuất hiện của
chúng trong văn bản. Điểm khác của kĩ thuật tần số này so với tần số bên trên là : tần số
từ bên trên xét về một tập các bài, hoặc tập các đoạn văn khác nhau. Còn đây chỉ là áp
dụng trong nội tại của một văn bản. Một mục từ, cụm từ xuất hiện trong văn bản nhiều
hơn một ngưỡng nào đó thì được coi là từ quan trọng.
Từ những cơ sở trên ta có thể tính được trọng số của một từ khóa bằng tổ hợp
tuyến tính các trọng số nhận được từ các phương pháp trích rút ở trên:
weight(K) =
)(.)(.)(.)(. KFrequentKPositionKCueKTitle
δγβα
+++
Các tham số
δγβα
,,,
sẽ được điều chỉnh phù hợp bằng cách thử nghiệm với các dữ
liệu khác nhau.
2.1.3. Phương pháp sử dụng học máy

KEA và GenEX là hai trình ứng dụng đưa ra một số giải pháp về bài toán trích
xuất từ khóa (keyword extraction). Trong khi GenEX dùng giải thuật di truyền thì KEA
dùng luật quyết định dựa trên phân lớp Naive Bayes (Naïve Bayes decision rule) trên 2
thuộc tính đó là TFxIDF và khoảng cách của từ đến đoạn đầu của văn bản. Một phương
pháp khác áp dụng dựa trên chuỗi từ vựng (lexical chain), áp dụng từ điển WordNet và
bài toán phân lớp để giải quyết bài toán sinh từ khóa này.
15

×