ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chu Anh Minh
BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG
WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
HTML VÀ ĐỒ THỊ WEB
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chu Anh Minh
BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG
WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
HTML VÀ ĐỒ THỊ WEB
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành
: Công nghệ thông tin
Cán bộ hướng dẫn: Th.S Nguyễn Thị Hậu
Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ
HÀ NỘI - 2009
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu và
CN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thực
hiện khoá luận tốt nghiệp.
Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốn
năm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bướ
c trên con đường học
tập của mình.
Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khai
phá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học và
làm khoá luận tốt nghiệp.
Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, và K50CHTTT đã ủng hộ
khuyến khích tôi trong suốt quá trình học tập tại trường.
Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ
, chị tôi, và những người
bạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốt
nghiệp.
Hà Nội, ngày 12 tháng 05 năm 2009
Sinh Viên
Chu Anh Minh
i
TÓM TẮT NỘI DUNG
Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích
xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống
trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã
được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích
xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội
dung trang web và việc khai phá, đánh giá từ khoá dựa trên các đặc tr
ưng, cấu trúc của
Web. Đây cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khác
nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ
trợ gợi ý người dùng
Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán
trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các
phương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nâng
cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các
trang web tiếng Việt, tiếng Anh và cho kết qu
ả khả quan.
ii
MỤC LỤC
TÓM TẮT NỘI DUNG i
MỤC LỤC ii
Bảng các kí hiệu và chữ viết tắt iv
Danh mục hình vẽ v
Danh mục các bảng biểu vi
MỞ ĐẦU 1
Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web 3
1.1. Đặt vấn đề 3
1.2. Khái niệm và các đặc trưng của từ khóa 4
1.3. Đánh giá các từ khóa 5
1.4. Thách thức của bài toán sinh từ khóa cho trang web 5
1.4.1. Đối với các trang có nội dung tập trung 6
1.4.2. Đối với các trang có nội dung tổng hợp 6
1.4.3. Các vấn đề khác 6
1.5. Ứng dụng của từ khóa trong các lĩnh vực 7
1.5.1. Vai trò từ khóa trong máy tìm kiếm 7
1.5.1.1. Quảng cáo trên máy tìm kiếm 7
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm 9
1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin 10
1.6. Tổng kết chương 12
Chương 2. Các công trình liên quan 13
2.1. Các phương pháp trích xuất từ khóa cho văn bản 13
2.1.1. Phương pháp tần số từ 13
2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản 14
2.1.3. Phương pháp sử dụng học máy 15
2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes 16
2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp16
2.2. Các phương pháp trích xuất từ khóa cho trang web 17
2.2.1. Tần số từ 17
2.2.2. Kĩ thuật khai phá log 17
2.2.3. Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ 18
2.3. Gán từ khóa trong văn bản, web (keyword assignment) 19
2.4 Tổng kết chương 19
Chương 3. Hướng giải quyết và đề xuất mô hình bài toán 20
3.1. Hướng giải quyết 20
3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML 20
3.1.2. Sử dụng đồ thị web 23
3.1.2.1. Định nghĩa đồ thị Web 23
3.1.2.2 Nội dung của phương pháp 24
3.1.3. Sử dụng query log 26
3.1.4. Sử dụng từ điển hỗ trợ 27
3.2. Đề xuất mô hình bài toán 27
3.2.1. Mô hình toàn hệ thống 27
3.2.2. Mô đun Crawler 28
iii
3.2.3. Mô đun sinh từ khóa 29
3.2.3.1. Mô đun sử dụng trọng số thẻ HTML 30
3.2.3.2. Mô đun sử dụng đồ thị web 32
3.2.3.3. Các phương pháp hỗ trợ 33
3.2.3.4. Mô đun tổng hợp 35
3.3. Tổng kết chương 35
Chương 4. Thực nghiệm và đánh giá 36
4.1. Giới thiệu bài toán thực nghiệm 36
4.2. Môi trường, dữ liệu 36
4.1.1. Môi trường phần cứng 36
4.1.2. Mô tả chương trình 36
4.1.3. Công cụ phần mềm 37
4.1.4. Dữ liệu thử nghiệm 38
4.3. Kết quả thực nghiệm 40
4.4. Đánh giá kết quả thực nghiệm 45
Kết luận 46
Hướng phát triển tiếp theo 47
Tài liệu tham khảo 48
iv
Bảng các kí hiệu và chữ viết tắt
Kí hiệu Diễn giải
HTML HyperText Markup Language
IR Information Retrieval
SE Search Engine
SEM Search Engine Marketing
SEO Search Engine Optimization
TF Term Frequency
IDF Inverse Document Frequency
URL Uniform Resource Locator
W3C World Wide Web Consortium
WWW World Wide Web
v
Danh mục hình vẽ
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm 9
Hình 2. Top từ khóa của baomoi.com 10
Hình 3. Top từ khóa của flickr.com 10
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com 11
Hình 5. Hình minh họa kết quả sinh từ khóa của trang web
17
Hình 6. Mô tả đồ thị web
25
Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa 25
Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang vnexpress 25
Hình 9. Mô hình đề xuất cho toàn hệ thống
28
Hình 10. Mô hình mô đun sinh từ khóa 30
Hình 11. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML 32
Hình 12. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web 33
Hình 13. Mô hình mô đun sinh từ khóa dựa trên log 34
Hình 14. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ 35
Hình 15. Mô hình mô đun tổng hợp từ khóa 36
Hình 16. Thư mục Tiếng_Việt của dmoz 38
Hình 17. Các liên kết cần lấy về trong các thư mục 39
vi
Danh mục các bảng biểu
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet 21
Bảng 2. Bảng các thẻ HTML quan trọng khác 22
Bảng 3. Ví dụ về các trường trong querylog của MSN 26
Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán 36
Bảng 5. Các gói của chương trình 36
Bảng 6. Các lớp của gói general 37
Bảng 7. Các lớp của gói methods 37
Bảng 8. Các lớp của gói SELink 37
Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng 38
Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh 40
Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử 44
1
MỞ ĐẦU
Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide
Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp
nhiều. Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạng
của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải
quyết được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu
vẫ
n sử dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phù
hợp. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm
gần đây. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về
từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải
cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong
các động lự
c để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài
toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với
nội dung của trang web.
Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được
sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu
web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng
hơn. Rất nhiều các trang web báo khác nhau, các blog nh
ư: vietbao.vn, baomoi.com,
flickr.com, ebay.com đã áp dụng việc sinh từ khóa cho các trang này để người đọc,
người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm
khác có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những
thế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần
nào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề
đang được quan tâm.
Một vấn đề
quan trọng không kém, đó là với sự phát triển của web thì những
chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu
tổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễ
dàng. Nó được thể hiện trong các trang web là các thẻ <meta> trong mã HTML. Nó sẽ
giúp cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang
web tốt hơn. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ
khá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. Còn đối các
máy tìm kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng.
2
Nó vừa đảm bảo thời gian, công sức vừa có thể tìm ra được những từ khoá mà ngay cả
chủ trang web có thể thiếu xót.
Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán
trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài “Bài toán trích
xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị
Web”. Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai
phương pháp chính là:
phân tích nội dung trang dựa trên thẻ HTML và đồ thị web.
Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất
lượng từ khóa đó là : khai phá log và dùng từ điển hỗ trợ. Với từng loại trang web sẽ
có từng loại phương pháp khác nhau. Trong đó phương pháp khai phá nội dung trang
dựa trên thẻ HTML là chủ đạo với nhiều trang. Qua thực nghiệm cho thấy các hướng
tiếp cận này là khả quan và có triển vọng v
ới độ chính xác khá cao, nếu kết hợp với
các từ khoá của chính người quản trị thì tập từ khoá sinh ra là khá đầy đủ và chính xác.
Ngoài phần MỞ ĐẦU và KẾT LUẬN, kết cấu của khoá luận bao gồm các
chương sau:
- Chương 1: Giới thiệu về bài toán. Nêu các khái niệm cơ bản về bài toán. Các
ứng dụng của bài toán. Những thách thức đặt ra cho bài toán.
- Chương 2: Các công trình liên quan. Giới thiệu sơ l
ược về các phương pháp
đã được áp dụng với các bài toán sinh cho văn bản, cho trang web.
- Chương 3: Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải
quyết của tác giả, đề xuất mô hình có thể thực thi.
-Chương 4 “Kết quả thực nghiệm và đánh giá”. Đưa ra những kết quả đã làm,
và đánh giá kết quả.
3
Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang
web
1.1. Đặt vấn đề
Sự phát triển nhanh chóng của Internet và đặc biệt là sự bùng nổ World Wide
Web (WWW) - còn gọi tắt là web - làm cho thông tin ngày càng lớn, khó kiểm soát, và
trùng lặp nhiều. Tìm kiếm thông tin hiện nay càng là nhu cầu thiết yếu của nhiều
người trên nhiều lĩnh vực khác nhau. Sự đột phá về công nghệ đã cho ra những máy
tìm kiếm phần nào đã giải quyết được sự ngập lụt thông tin này. Vì nhu cầu sử dụng
máy tìm kiếm hiện nay là rất lớn, nên nó cũng đượ
c sự quan tâm của các doanh nghiệp
nhằm dựa vào máy tìm kiếm để quảng cáo sản phẩm của mình qua các từ
khóa[26][2][36]. Đó cũng là động lực chính để phát triển bài toán sinh từ khóa cho
trang web.
Việc sinh từ khóa cho trang web không những chỉ có ý nghĩa trong các máy tìm
kiếm, mà hiện nay nó còn có nhiều ứng dụng hơn trong các trang web tổng hợp thông
tin khác như các blog, báo điện tử, tìm ảnh, tìm phim, thư viện sách Với mỗi trang
web, các từ khóa của trang đó s
ẽ là những sự gợi ý rất tốt cho người dùng để tìm thấy
những thông tin khác liên quan mà họ có thể đang quan tâm.
Trong nhiều năm qua, bài toán trích xuất từ khóa đã được quan tâm, chú ý
nhiều trong các hội nghị khoa học [26] [30] [28] [27] [11][25], và các doanh nghiệp
kinh doanh, cũng như những người quản trị web với chiến dịch quảng bá web của
mình (SEO: Search Engine Optimization) [4]. Những bài báo, luận văn trước chủ yếu
làm trên miền văn bản. Còn đối v
ới miền trang web thì khá phức tạp, tốn nhiều thời
gian; nhiều phương pháp phải cần đến tập huấn luyện.
Các từ khóa là các từ, cụm từ nhằm miêu tả nội dung của trang web, văn bản
một cách ngắn gọn nhất, chính xác nhất. Các từ khóa phải không quá chung chung hay
không quá xa lạ đối với người sử dụng. Bài toán trích xuất từ khóa cho trang web là
việc áp dụng các phương pháp khác nhau xử lý nội tại trang web, hay các thông tin
liên quan
đến trang web để tìm ra được tập từ khóa đại diện cho chúng [24][29].
Chính những sự áp dụng rộng rãi và nhu cầu thực tiễn của bài toán đã là động
lực để khóa luận tập trung nghiên cứu về bài toán sinh từ khóa cho trang web. Khóa
luận cũng đề xuất mô hình bài toán sinh từ khóa dựa trên hai phương pháp chính là: độ
quan trọng của các thẻ HTML, đồ thị web. Bên cạnh đó, tôi cũng bổ sung hai phương
4
pháp hỗ trợ việc tìm từ khóa đó là: khai phá query log của máy tìm kiếm, tập từ điển
hỗ trợ.
1.2. Khái niệm và các đặc trưng của từ khóa
Từ khóa là một từ hay một cụm từ dùng để mô tả một cách chính xác, ngắn gọn
nhất nội dung chính của một tài liệu (văn bản, hay các trang web) [20][5][8][18]
.
Trong tiếng Anh, từ khóa được thể hiện dưới nhiều thuật ngữ khác nhau như:
keywords, term, query term, hay tags; nhưng ý nghĩa của chúng là giống nhau [25].
Trong các tài liệu thì cách viết keywords và tags được sử dụng nhiều nhất. Hiện nay,
các trang web chuẩn theo W3C
1
(World Wide Web Consortium) đều có chứa những từ
khóa của trang trong thẻ <meta> với thuộc tính “keywords”. Các từ khóa của các trang
web đa số được sinh thủ công bởi người quản trị web. Bài toán trích xuất từ khóa của
tài liệu tiếng Việt và tiếng Anh là một trong những bài toán cấp thiết trong nghiên cứu
xử lý ngôn ngữ tự nhiên cũng như trong cuộc sống hàng ngày. Tập các từ khóa có thể
coi như là một bản tóm tắt đơn giản nh
ất của văn bản[25]. Tập các từ khóa sẽ nói lên
rõ hơn ý nghĩa của văn bản hay trang web đó.
Bài toán trích xuất từ khóa cho trang web là một quá trình tìm kiếm, nhận dạng,
tập các từ, hay cụm từ có ý nghĩa và các từ này có thể đại diện cho trang web
đó[24][29]. Giải quyết bài toán này là đưa ra các phương pháp để áp dụng trên các
trang web hay các thông tin liên quan đến trang web để tìm ra các từ khóa đại diện cho
trang web này một cách tự động.
Một số đặc
điểm, tiêu chí ảnh hưởng [37] đến quá trình rút trích từ khóa:
Từ dừng: Các từ dừng(stopword) không nằm trong danh sách các từ khóa được
sinh ra. Các từ dừng là các từ không bao hàm ý nghĩa như là các từ: a , an , the,
about, with, on trong tiếng Anh và các từ : là , sẽ , cùng, tới trong tiếng
Việt.
Loại từ: Các từ trong danh sách từ khóa thường là các động từ, hoặc danh từ.
Tuy nhiên, có thể các từ có thể được viết tắt cũng cần xem xét. Các danh từ
riêng được coi trọ
ng hơn các danh từ thường.
Liên quan đến tiêu đề :Những từ khóa trong văn bản phải liên quan đến đầu đề
văn bản.
Số lượng: Tập từ khóa của một trang web, văn bản là một danh sách các từ khóa
khác nhau, nó phù hợp với từng loại văn bản, trang web khác nhau. Thông
thường là 5-10 từ khóa cho trang web, và 15-20 cho các bài báo
1
5
1.3. Đánh giá các từ khóa
Thường thì các công ty, người quản trị trang web đều chắc chắn rằng họ đã biết
từ khoá lý tưởng nhất. Nhưng thường thì họ sai. Nguyên nhân là do không dễ dàng
tách một cá nhân ra khỏi một công ty và nhìn nhận với tư cách là một khách hàng
tiềm năng. Soạn ra một danh sách các từ khoá thì không nên bắt buộc phải là một quá
trình nội bộ. Mọi người thường rất ngạc nhiên về những từ khoá được gợi ý, đôi khi
còn không tưở
ng tượng được hầu hết các khách không nói cùng một ngôn ngữ với họ.
Một khi đã có được một danh sách từ khóa hoàn hảo, lúc này là lúc đánh giá
từng cụm từ để chọn ra trong danh sách đến những từ khoá mà sẽ mang lại cho trang
web lượng người vào trang web cao. Mặc dù rất nhiều cá nhân đều đánh giá các cụm
từ khoá dựa trên số đông, nhưng một số khía cạnh cần phải có cho các từ khóa[2]:
a. Tính phổ biến
Cho
đến nay cách dễ nhất để đánh giá đó là tính phổ biến. Các phần mềm như
WordTracker
đưa ra các con số phổ biến của cụm từ được tìm kiếm dựa vào hoạt động
thực tế của SE [2]. Rõ ràng là con số nào cao hơn thì dự kiến sẽ có người vào cao hơn.
b. Tính đặc trưng
Khái niệm này trừu tượng hơn là con số thể hiện tính phổ biến nhưng lại quan
trọng không kém. Ví dụ, giả dụ rằng có thể đạt được thứ hạng cao trên SE nhờ cụm t
ừ
khoá “insurance companies”. Nhưng nếu doanh nghiệp chỉ kinh doanh trong lĩnh vực
bảo hiểm ô tô ( auto insurance). Mặc dù từ khoá “insurance companies” có tính phổ
biến cao hơn từ khoá “auto insurance”, nhưng cụm từ khoá “insurance companies”
sẽ dành cho những người tìm kiếm dịch vụ bảo hiểm nhân thọ, bảo hiểm sức khoẻ và
bảo hiểm nhà cửa chứ kết quả cho tìm kiếm bảo hiểm ô tô thì lại không xuất hiện.
c. Hướ
ng người sử dụng
Nhân tố này dựa vào cách nghĩ của số đông người dùng. Ví dụ, giả dụ một đại
lý bất động sản ở Atlanta đang cân nhắc hai từ khóa đó là "Atlanta real estate listings"
và “Atlanta real estate agents”. Hai từ khoá này có tính phổ biến tương tự nhau. Chúng
cũng có tính đặc trưng riêng, vì nó liên hệ mật thiết đến công ty. Vậy thì từ nào thì tốt
hơn. Nếu nhìn vào động cơ của người sử dụng trong log thì sẽ thấ
y từ thứ hai sẽ tối ưu
hơn. Từ khoá thứ hai cho rằng người sử dụng muốn tìm kiếm một đại lý nhiều hơn.
1.4. Thách thức của bài toán sinh từ khóa cho trang web
Các nghiên cứu trước đây chủ yếu tập trung trên miền trích xuất từ khóa cho
các văn bản hay các bài toán kiểu tóm tắt văn bản. Một lợi điểm trong các văn bản là
6
do văn bản chỉ thuần nói về một đề tài hay một chủ đề xác định, ít nhiễu. Trong khi đó
đối với các trang web nó là tổng hợp của nhiều thông tin trên một trang web, có nhiều
thông tin không liên quan như: quảng cáo, thực đơn, thông tin liên quan. Vì vậy,
những thách thức của bài toán trích xuất từ khóa cho trang web đó là nhiễu trên các
trang là lớn, nội dung của nhiều trang là không tập trung.
1.4.1. Đối với các trang có nội dung tập trung
Các trang có nội dung tập trung là các trang mà trong nó chứa những nội dung
cụ thể về một vấn đề. Nói khác đi, khi loại bỏ các phần thông tin ngoài thì phần còn lại
như một văn bản. Và các kĩ thuật trích xuất từ khóa đối với văn bản sẽ được áp dụng
như tần số từ, vị trí từ trong các đoạn văn, độ tương đồng từ Các trang có nội dung
tập trung như bài báo điện tử, bài viết hướng dẫ
n, một bài văn Nói chung, việc lọc
nhiễu cho các trang này là một điều quan trọng giúp tăng chất lượng của việc trích
xuất từ khóa. Với những bài viết quá dài thì thời gian chạy cũng khá lâu.
1.4.2. Đối với các trang có nội dung tổng hợp
Hiện nay, thông tin ngày càng được cập nhật thường xuyên trong mỗi trang
web. Nhu cầu tổng hợp tin tức là rất cần thiết. Các trang web luôn muốn những thông
tin cập nhật sẽ được hiển th
ị trên trang đầu khi mà người dùng tới trang của họ. Những
trang đầu này còn gọi là các trang chủ. Các trang web portal cũng tương tự [35]. Một
trang web portal là một trang đưa ra những thông tin ở nhiều nguồn khác nhau theo
một cách thống nhất. Ngoài thỏa mãn là một công cụ tìm kiếm, web portal cung cấp
các thông tin dịch vụ khác như báo tin tức, chứng khoán, giải trí. Ví dụ về các web
portal như: AOL, MSN, yahoo, iGoogle. Nếu áp dụng việc trích xuất từ khóa áp dụng
đối với nội dung trong các trang web này sẽ dẫ
n đến kết quả không chính xác. Cần có
những phương pháp khác để có thể sinh từ khóa cho loại trang này, và trong khóa luận
này tôi áp dụng phương pháp dùng đồ thị Web và log hỗ trợ.
1.4.3. Các vấn đề khác
Ngày nay, số lượng các trang web trên Internet là rất nhiều. Vì vậy việc kiểm
soát nội dung cũng đã khó, chưa kể đến những lỗi trong việc mã hóa HTML trên trang
web. Ngôn ngữ HTML là một ngôn ngữ có cấu trúc chặt chẽ theo chuẩn của W3C, với
các luật như th
ẻ mở, đóng, hay thẻ đơn. Để có thể phân tích, lấy được những thông tin
trong trang web thì chúng ta cần các trang có mã HTML theo chuẩn. Tuy các trình
duyệt có thể bỏ qua các lỗi HTML để thể hiện thị, nhưng những lỗi như vậy làm cho
các chương trình xử lý của chúng ta gặp vấn đề về việc phân tích cú pháp, xác định sai
7
các đoạn văn trong trang web. Do tiếng Việt và Tiếng Anh có những cụm từ, nên một
số từ khi xuất hiện một mình sẽ không có ý nghĩa. Vì vậy, cần phải có một bộ tách từ
tốt, nhất là đối với tiếng Việt.
Ngoài các lỗi về cấu trúc của HTML, ngay trong nội dung văn bản của các
trang web cũng có những lỗi như: viết tiếng Việt không dấu, viết sai Một số trang
web có sử dụng các tên miền miễn phí như : www.dot.tk , www.co.cc , cho nên khi
trỏ đến các trang của họ thì mã HTML hiển thị lại không là mã HTML của trang web
thực mà lại là mã HTML của các trang cung cấp tên miền.
1.5. Ứng dụng của từ khóa trong các lĩnh vực
1.5.1. Vai trò từ khóa trong máy tìm kiếm
1.5.1.1. Quảng cáo trên máy tìm kiếm
Việc ra đời máy tìm kiếm đã giải quyết phần nào nhu cầu về tím kiếm thông tin
trên mạng. Do đó, máy tìm kiếm là một công cụ không thể thiếu cho những người
dùng web hiện nay. Chính vì sự phổ biến, và lượng lớn người dùng sử dụng nó cho
nên quảng cáo trên máy tìm kiếm là một trong những hình thức quảng cáo khá hiệu
quả, và có phần nở rộ hơn trong những năm gần đây. Các nhà doanh nghiệp, quản trị
của các trang web (webmaster) cần có những chiến lược khác nhau khi quảng cáo trên
máy tìm kiếm một cách hiệu quả nhất. Do việc tìm kiếm trên máy tìm kiếm chủ yếu
dựa trên từ khoá cho nên việc tìm ra những từ khoá đại diện cho các trang web để
quảng cáo là một trong những nhiệm vụ hàng đầu của các doanh nghiệp, các người
quản trị web muốn quảng bá trang web của mình. Các doanh nghiệp này cần đăng kí
các từ khoá này với các máy tìm kiếm để có thể quảng cáo trang web củ
a mình. Tuy
nhiên, có rất nhiều doanh nghiệp khác cũng muốn quảng cáo sản phẩm, và nảy sinh ra
trường hợp cạnh tranh những từ khoá chung.
Trong quá khứ, những nhà quảng cáo thích đặt giá cho những từ khoá mà nó có
xu hướng sinh ra số lượng lớn kết quả trả về, cho nên những từ khoá này thường rất
đắt. Có một chiến lược khác bằng cách trả giá cho những từ khoá khác liên quan cho ít
kết quả hơn khi máy tìm kiếm trả về, nhưng nó vẫ
n có tầm quan trọng và nói lên được
cái ẩn, nội dung mà người quảng cáo muốn hướng tới. Do đó, nó vừa có hiệu quả, lại
vừa có giá đầu tư cho từ khóa là rẻ, ít cạnh tranh nhưng vẫn đảm bảo tính chất phổ
biến, nhưng nổi trội của doanh nghiệp quảng cáo.
8
Tìm kiếm có tài trợ hay Marketing trên máy tìm kiếm(SEM)[33] là một cách
thức quảng cáo khá phổ biến trên web hiện nay, nó cũng chính là thu nhập chính của
các máy tìm kiếm. Các cỗ máy tìm kiếm thường thu thập một lượng thông tin khổng lồ
về các sở thích và hành vi của người sử dụng trong quá trình vận hành của chúng.
Những thông tin này, bên cạnh việc hỗ trợ cho việc nâng cấp các máy tìm kiếm để trả
về kết quả phù hợp hơn, còn có thể được bán cho các công ty khác. Những công ty
mua các thông tin này có th
ể sử dụng chúng để biết được những sản phẩm người tiêu
dùng đang quan tâm hoặc tiên đoán nhu cầu của người tiêu dùng trong tương lai.
Các từ khoá sẽ làm nhiệm vụ quan trọng là gợi ý ra những tài liệu liên quan và
những tài liệu liên quan này cũng có từ khoá đó. Nguồn thu từ quảng cáo trực tuyến
của các máy tìm kiếm rất lớn. Ví dụ năm 2004, Google thu về 3 tỉ Đô la Mỹ từ quảng
cáo [2]. Có hai cách quả
ng cáo trực tiếp trên máy tìm kiếm:
- Cách thứ 1 là khách hàng trả tiền cho những từ khoá để đảm bảo rằng trang web của
họ nằm ở thứ hạng cao trong danh sách trả về của máy tìm kiếm (pay for placement.).
Cách làm này thường bị nói là không công bằng khi máy tìm kiểm cố tình cho các kết
quả có tài trợ được thứ hạng cao. Cách này cũng ít được áp dụng do các máy tìm kiếm
cần đảm bảo được sự công bằng của chính thuật toán củ
a máy tìm kiếm trả về.
- Cách thứ 2 được áp dụng phổ biến hơn. Các máy tìm kiểm chia trang tìm kiếm trả
về làm 2 phần như hình Hình 1, một phần là kết quả trả về chính xác mà máy tìm kiếm
tìm thấy trong hệ thống các trang web đã crawl về, một phần là phần dành cho các
trang web có tài trợ. Với các trang web hiển thị ở phần này, các máy tìm kiếm áp dụng
chiến lược trả tiền khi người dùng click. Có nghĩa là các quảng cáo sẽ ph
ải trả tiền cho
máy tìm kiếm khi người dùng search trong máy tìm kiếm và click vào quảng cáo. Một
trường hợp tự nhiên đó là hiện nay có nhiều doanh nghiệp với nhiều mặt hàng là giống
nhau, và đều muốn cạnh tranh với nhau. Khi quảng cáo trên máy tìm kiếm, các từ khoá
có thể sẽ trùng nhau, và các doanh nghiệp đều muốn sở hữu từ khoá đó vì những từ
khoá đó là phổ biến và quan trọng. Do đó, máy tìm kiếm sẽ có quá trình đấu giá cho từ
khoá. Đối v
ới mỗi từ khoá, doanh nghiệp nào trả giá cho từ khoá cao hơn sẽ được
đứng ở vị trí đầu.
9
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm
Tối ưu hóa công cụ tìm kiếm, hay SEO (viết tắt của search engine
optimization), là một tập hợp các phương pháp nhằm nâng cao thứ hạng của một
website trong các trang kết quả của các công cụ tìm kiếm
và có thể được coi là một
tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm
[4]. Một trong những các phương pháp
trong quá trình SEO là việc tìm từ khóa cho các trang web.
Từ khóa là những từ, cụm từ mà những người truy cập nhập vào trong những cỗ
máy tìm kiếm để tìm thấy thông tin từ những trang web. Điều quan trọng hàng đầu của
các người quản trị web là các trang web của họ có được những cỗ máy tìm kiếm tốt
xếp hạng những từ khóa phổ biến liên quan đến đề tài của trang web của họ không.
Nh
ững từ khóa đúng quan trọng với thành công của những hoạt động SEO của
những người quản trị web. Sẽ không phải là giải pháp tốt khi tối ưu hóa những trang
Web cho những từ khóa mà không ai sử dụng trong những cỗ máy tìm kiếm. Hơn nữa,
để có thêm những người dùng quan tâm đến trang web, những từ khóa không được
rộng quá hoặc chung quá[2].
Những từ khóa nào là những từ khóa đúng cho một trang web? Chìa khóa ở đây
là phải ch
ọn ra những từ khóa phổ thông, nhưng không được quá chung chung để tránh
nhận phải hàng triệu kết quả tìm kiếm. Tìm ra được những từ khóa đặc biệt đáp ứng
được đòi hỏi trên sẽ giúp cho trang web đạt được thứ hạng cao trong danh sách tìm
kiếm và có thêm nhiều người dùng truy cập vào. Bước đầu tiên trong việc chọn đúng
những từ khóa là phải làm cho chúng trở nên đặc biệt [2][36].
• Sử dụng những mệnh đề từ khóa gồm có hai tới bốn từ.
• Tránh những từ khóa quá cạnh tranh với các trang web nổi tiếng khác.
• Đặc biệt (càng đặc biệt càng tốt nhưng không nên quá xa lạ đối với người
dùng).
10
Để một chiến dịch tiếp thị trực tuyến thành công, cần phải chọn được những từ
khóa đúng, phù hợp. Những từ khóa sử dụng cần phải thích hợp với trang web đó và
những người truy cập cần phải đang tìm kiếm những từ khóa đó. Tuy nhiên, những từ
khóa của người dùng nhiều lúc lại không giống như những từ khóa mà người quản trị
web ngh
ĩ. Đa số mọi người sử dụng hai tới bốn từ hoặc mệnh đề trong một sự tìm
kiếm, vì vậy những mệnh đề rất có hiệu quả. Những từ đơn không thể được quảng bá
có hiệu quả. Chẳng hạn, ít có người tìm kiếm “free download software” mà chỉ nhập
vào có mỗi từ “soft”. Tránh những mệnh đề từ khóa đại chúng nhất bởi vì rấ
t dễ phải
đua tranh với hàng triệu trang web khác cho một sự chú ý của cỗ máy tìm kiếm. Thật
là không thực tế để tin rằng một trang web mới có thể xếp hạng số một trên một mệnh
đề đại chúng, ví dụ “Mp3” hay “báo điện tử”. Rõ ràng, các công ty được thành lập và
tham gia vào internet vài năm sẽ có lợi thế lớn nhờ tính phổ biến.
1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin
Một động lực khác
để phát triển bài toán trích xuất từ khoá cho trang web đó là
từ khoá giúp phân loại các văn bản theo định nghĩa của người dùng dưới dạng chủ đề
cho phép dễ dàng truy câp và tìm thông tin trên đó. Nó còn giúp việc liên kết mỗi tài
liệu liên quan đến nhau (cross-link) một cách linh động, và giảm thời gian để tìm kiếm
cho thông tin giống với nội dung trang đang xem. Ví dụ như trong
Hình 2, Hình 3 là
những từ khoá hàng đầu của 2 trang baomoi.com (tiếng Việt) và Flickr(tiếng Anh).
Hình 2. Top từ khóa của baomoi.com
Hình 3. Top từ khóa của flickr.com
Tại một thời điểm nào đó, nếu người dùng truy cập, xem nhiều những trang mà có
chung những từ khoá, vì vậy top từ khoá sẽ nói lên được xu thế của người dùng.
Những từ khóa hay được người dùng sử dụng chính là những chủ đề mà người dùng
hiện tại đang quan tâm. Và khi người khác truy cập vào trang web, họ có thể khám
phá, đọc, xem những trang được coi là mới nhất hiện nay. Những từ khóa này giúp cho
người dùng nắm b
ắt thông tin mới theo cách khái quát, theo chủ đề xác định.
11
Trong khi người dùng đọc, xem các trang web, “những điều gì họ sẽ quan tâm
tiếp theo ?” là một câu hỏi được nhiều nhà quản trị các trang web tổng hợp thông tin
hướng tới nhằm thoả mãn nhu cầu tối đa của người dùng. Và từ khoá là một trong
những giải pháp khá hiệu quả và thành công. Mỗi một trang web người dùng khi đọc
sẽ hiện ra những từ khoá liên quan đến bài viết đó. Những từ khoá này nói lên phần
nào được nộ
i dung trang web mà người dùng đang đọc. Với những từ khoá này, người
dùng có thể tìm những bài liên quan đến trang họ đang đọc qua các từ khoá. Ví dụ như
trong Hình 4, người đọc quan tâm đến buổi duyệt binh của nước Nga vào ngày 9/5,
những từ khoá liên quan sẽ được gợi ý cho người dùng qua nội dung bài viết hiện tại,
như người dùng có thể xem các bài viết liên quan đến phát xít, duyệt binh, hồng quân,
thủ tướng Nga, tổng thống Nga, Nga
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com
Ngoài các ứng dụng hướng đến sự quan tâm người dùng, các từ khoá còn có
một ứng dụng khác trong việc phân cụm các trang web theo chính các từ khóa. Mỗi
trang web có một tập các từ khóa riêng, các từ khóa này có thể trùng với các từ khóa
của các trang web khác. Do đó, một từ khóa như là một thư mục chứa các trang web
liên quan, có từ khóa chính là tên của thư mục đó. Một trang web có nhiều từ khóa,
cho nên một trang web có th
ể thuộc nhiều thư mục khác nhau. Chính sự tự nhiên này
của các từ khóa, nên nó có tác dụng làm cho việc tìm kiếm nhanh hơn, hiệu quả hơn,
làm cho việc lưu trữ trở nên có cấu trúc hơn.
Mạng xã hội cũng đang phát triển rất nhanh, thu hút được nhiều sự quan tâm
của giới trẻ. Một trong các hình thức của mạng xã hội là blog. Blog là nơi để mọi
người viết nhật kí, hay những bài viết chia s
ẻ kiến thức, hoặc những bài viết về các
12
vấn đề trong xã hội được quan tâm. Những người viết blog có rất nhiều bài viết khác
nhau nhưng nhiều bài viết vẫn ở chung một chủ đề. Các blogger ưa thích việc dùng tag
để biểu diễn ngắn gọn cho chủ đề một bài viết của họ. Tag ở đây cũng được coi là từ
khóa[25]. Với các tag, người đọc blog sẽ theo dõi được những thông tin liên quan
trong các bài viết trong blog một cách nhanh chóng. Và các tag này đều do người viết
đặt. Ví d
ụ: khi đọc một bài trong blog về vấn đề máy tính, người dùng có thể tìm
những bài viết liên quan đến từ Windows, lập trình, …Người đọc có thể sẽ tìm thấy
những thông tin mà họ thích. Các từ khóa cũng là một trong các phương thức để mọi
người khám phá trang web đó.
1.6. Tổng kết chương
Chương này tôi đã trình bày những khái niệm của từ khóa, và bài toán trích xuất
từ khóa cho trang web, thách thức của nó trong các tài liệu web. Và qua đây, chúng ta
cũng thấy được tầm quan trọng của việc sinh từ khóa trên các lĩnh vực khác nhau.
Chương II, khóa luận xin trình bày một số công trình khoa học có liên quan đến bài
toán này.
13
Chương 2. Các công trình liên quan
2.1. Các phương pháp trích xuất từ khóa cho văn bản
Trích xuất từ khoá cho trang web là một bài toán được cụ thể hóa một phần từ
bài toán trích xuất thông tin (IR: Information Retrieval). Đã có các nghiên cứu khác
nhau về bài toán trích xuất từ khoá một cách tự động. Mà đặc biệt với bài toán tóm tắt
văn bản là một trong những bài toán gần giống với bài toán này. Mục tiêu của bài toán
trích xuất từ khóa là tìm ra những từ khoá miêu tả được nội dung của văn bản, trang
web bằng cách áp dụng các phương pháp khác nhau dựa trên các đặc đi
ểm của văn
bản, web. Tuy nhiên, miền áp dụng của bài toán tóm tắt văn bản là trên các văn bản
thông thường. Một số phương pháp trong bài toán tóm tắt văn bản cũng có thể áp dụng
cho bài toán trích xuất từ khóa cho văn bản.
Các lý thuyết, phương pháp được áp dụng khá đa dạng đối với văn bản như : sử
dụng tần số (tfxidf), học máy naïve bayes, cây quyết định, co-occurrence, độ tương
đồng từ khóa, các k
ĩ thuật khác trong bài toán tóm tắt văn bản Sau đây là phần giới
thiệu một số phương pháp.
2.1.1. Phương pháp tần số từ
Phương pháp tần suất xuất hiện của từ được giới thiệu bởi Luhn vào năm
1958[13]. Phương pháp này dựa trên giả thiết: tần số của từ xuất hiện trong các bài báo
là một độ đo hữu ích về nghĩa của từ; ví trí tương đối c
ủa từ có nghĩa trong phạm vi
một câu cũng là độ đo hữu ích về mặt ý nghĩa của từ. Tuy nhiên, cơ sở của phương
pháp bị hạn chế do khả năng của máy tính không thể biểu hiện được các thông tin về
mặt ngữ nghĩa.
Phương pháp này xem xét rằng các từ mà xuất hiện nhiều lần thì sẽ mang tính
phổ biến của bài viết, nói lên phần nào nội dung của nó. Các từ ph
ổ biến này được
chọn lựa theo cách sắp xếp từ cao đến thấp theo tần số xuất hiện. Tuy nhiên, theo
phương pháp này, thì các dạng khác nhau của từ sẽ được coi như là một từ. Thêm vào
đó, việc tính toán tần số của từ sẽ dẫn đến việc các từ có tần số quá cao như các từ
dừng. Một cách tự nhiên thì những từ mà có tần số quá cao, hoặc quá thấp cũng không
quan trọ
ng. Chúng ta có thể tạo lập ngưỡng cho các từ khóa, có nghĩa là tạo ngưỡng
không những cho những từ khóa tần số thấp mà còn cho những từ có tần số quá cao.
Do đó, ngưỡng được chấp nhận sẽ nằm trong khoảng [a,b] với a là cận dưới, b là cận
trên. Các từ dừng cũng có thể được loại bỏ hiệu quả nhờ một tập từ điển từ dừng.
14
Để tính tần số của từ quan trọng, phương pháp tần số từ tính phân phối của mỗi
từ trong tài liệu (tf) và phân phối của từ ở trong corpus (idf - inverted document)[34]
idf(keyword) =
)
)(
log(
keywordNUMDOC
NUMDOC
Trong đó :
NUMDOC: số tài liệu trong tập corpus
NUMDOC(keyword) : chính là số tài liệu mà có từ keyword xuất hiện.
Nếu tf(keyword) x idf(keyword) vượt một ngưỡng xác định, các cụm từ khóa được tìm
thấy và được gán trọng số. Những từ nào có trọng số cao thì được chọn.
Đối với trang web, có thể áp dụng phương pháp này bằng cách từ địa chỉ trang
web cần lấy từ khóa. Lần theo các liên kết trong trang hạt giống này (seed page) để lấy
về các trang web khác và ph
ải thuộc cùng domain[25]. Tập các trang web này tạo nên
một tập corpus. Việc tính toán từ khóa cho mỗi tài liệu web sẽ được tính theo công
thức trên dựa vào những đoạn text hiển thị trích ra từ các trang web đó. Tuy nhiên, do
trang web có nhiều những từ được hiển thị trong một trang không có ý nghĩa như :
thực đơn, quảng cáo nhưng lại xuất hiện nhiều lần ở các trang. Vì vậy, các từ xuất
hiện trong các mục này lại có tần số xu
ất hiện cao, và thường vào các từ khóa.
2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản
Phương pháp tìm từ khóa dựa vào trích xuất các phần quan trọng của các phần
trong văn bản có phần tương tự như phương pháp tóm tắt của Edmundson [12], dựa
vào phương pháp lấy phần quan trọng của văn bản: là các cụm từ gợi ý, từ khóa, tiêu
đề của văn bản, ví trị của câu trong văn bản. Phương pháp tìm từ khóa c
ũng sẽ dùng
các đặc điểm của văn bản để tìm ra những từ khóa. Dưới đây là cơ sở của phương
pháp:
a. Cụm từ gợi ý trong văn bản
Thông thường các cụm từ gợi ý là liên quan hoặc không liên quan tới các câu
quan trọng. Ví dụ với các từ “Trong bài báo này”, “Tóm lại” thường là phần quan
trọng của văn bản. Hoặc những cụm từ khác như “ví dụ” chỉ ra phầ
n không quan trọng
của văn bản.
b. Tiêu đề của văn bản
Người viết khi viết về văn bản của mình thì phải luôn chú trọng đến nội dung,
cũng như cách thể hiện tiêu đề sao cho người đọc chỉ cần nhìn qua vào tiêu đề có thể
15
hiểu được nội dung của toàn bộ văn bản. Vì vậy, tiêu đề là có độ quan trọng rất cao
trong văn bản. Đã có các bài báo nghiên cứu tóm tắt văn bản dựa vào độ tương đồng
câu dùng câu tiêu đề làm câu mẫu để các câu khác so sánh [1]. Có thể áp dụng phương
pháp này trong văn bản web mà đặc biệt là phần văn bản trong thẻ <title> của nguồn
HTML của trang web. Việc bám sát vào các câu của tiêu đề văn bản sẽ cho việc tìm
nộ
i dung của văn bản, hay trang web sẽ trở nên chính xác hơn. Các câu tiêu đề có thể
được coi như là phần tóm tắt ngắn gọn của văn bản, các từ có nghĩa tương tự, hay
những từ lặp lại nhiều trong văn bản trùng với các từ trong tiêu đề thì đều quan trọng.
c. Vị trí của các từ khóa trong văn bản
Thông thường những từ mà được xuất hiện trong những đoạn đầ
u tiên trong văn
bản thường có độ quan trọng cao hơn các từ mà đứng giữa hay cuối. Do vậy, có thể
chọn các từ khóa mà sao cho nó xuất hiện nhiều ở phần mở đầu, nhất là đối với những
bài viết dài. Tuy nhiên, một số bài lại có cấu trúc dạng: phần giới thiệu, phần chính,
tóm lại. Các từ ở phần giới thiệu và phần tóm lại nếu xuất hiện nhiều trong văn b
ản
đều khá quan trọng
d. Tần số từ trong văn bản
Các từ xuất hiện thường xuyên trong văn bản có xu hướng chỉ ra chủ đề của văn
bản đó. Mức độ quan trọng của các từ, cụm từ tính toán trên cơ sở tần số xuất hiện của
chúng trong văn bản. Điểm khác của kĩ thuật tần số này so với tần số
bên trên là : tần
số từ bên trên xét về một tập các bài, hoặc tập các đoạn văn khác nhau. Còn đây chỉ là
áp dụng trong nội tại của một văn bản. Một mục từ, cụm từ xuất hiện trong văn bản
nhiều hơn một ngưỡng nào đó thì được coi là từ quan trọng.
Từ những cơ sở trên ta có thể tính được trọng số của một từ khóa b
ằng tổ hợp
tuyến tính các trọng số nhận được từ các phương pháp trích rút ở trên:
weight(K) =
)(.)(.)(.)(. KFrequentKPositionKCueKTitle
δ
γ
β
α
+
+
+
Các tham số
δ
γ
β
α
,,, sẽ được điều chỉnh phù hợp bằng cách thử nghiệm với các dữ
liệu khác nhau.
2.1.3. Phương pháp sử dụng học máy
KEA [19] và GenEX [9] là hai trình ứng dụng đưa ra một số giải pháp về bài
toán trích xuất từ khóa (keyword extraction)[28]. Trong khi GenEX dùng giải thuật di
truyền thì KEA dùng luật quyết định dựa trên phân lớp Naive Bayes (Naïve Bayes
decision rule) trên 2 thuộc tính đó là TFxIDF và khoảng cách của từ đến đoạn đầu của
16
văn bản. Một phương pháp khác áp dụng dựa trên chuỗi từ vựng (lexical chain), áp
dụng từ điển WordNet và bài toán phân lớp để giải quyết bài toán sinh từ khóa này.
2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes
Trong bài báo [28]Yasin Uzun sử dụng phân lớp Naïve Bayes để áp dụng vào
bài toán này. Ông cho rằng bài toán này có thể coi là một vấn đề trong học máy. Có
các từ ở trong văn bản và mục đích là nhận ra một từ có phải thuộc lớp từ khóa(
keywords) hay là một từ thông thường(ordinary words). Như các mô hình học máy
khác, mô hình này cũng sử dụng tập huấn luyện để học cách sao để nhận ra một từ là
từ khóa hay không. Dựa vào những thông tin đã nhận được từ
quá trình học để nhận
biết, tìm ra các từ khóa từ những văn bản mới đưa vào. Naïve Bayes dựa trên xác suất
của các từ để quyết định xem từ đó có thỏa mãn ngưỡng là một từ khóa không.
Trước hết, văn bản cần được được tách ra thành các token sử dụng các kí hiệu
như: dấu cách, xuống dòng, tab, dấu chấm, phẩy, Những chữ không là alpha-beta bị
loại bỏ. Tính chỉ số TFxIDF cho các token. Do sử
dụng IDF nên các tập dữ liệu phải
trong cùng một chủ đề.
Để xây dựng được một mô hình phân lớp để nhận biết được đâu là từ khóa. Tác
giả đã sử dụng các thuộc tính gồm: tần số xuất hiện, vị trí của từ trong văn bản.
2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân
lớp
Trong bài báo năm 2007 [11] Gonenc Ercan, Ilyas Cicekli đã trình bày cách
tiếp cận bài toán theo hướng sử dụng từ điển ngữ nghĩa WordNet [38] kết hợp phân
lớp cây quyết định để có thể nhận dạng chính xác từ khóa. Phương pháp này có sử
dụng các quan hệ ngữ nghĩa nhằm nâng cao chất lượng các từ khóa liên quan. Trích
xuất Chuỗi từ vựng là việc đưa ra các quan hệ ngữ nghĩa của câu, văn bản đưa vào.
Trong một câu, chuỗi t
ừ vựng sẽ chỉ ra được đâu là động từ, danh từ, trạng từ và các
quan hệ đồng nghĩa, trái nghĩa, là (is a), có (has a) Công việc khó khăn nhất đó chính
là xây dựng được một chuỗi từ vựng của văn bản dựa vào từ điển WordNet. WordNet
được chọn vì từ điển tiếng Anh này có đầy đủ các thông tin về các từ trong tiếng Anh
như: danh từ, các từ đồng nghĩa, trái nghĩa V
ới các quan hệ ngữ nghĩa này, tác giả
xây dựng mô hình để sinh ra chuỗi từ vựng (lexical chain) toàn bộ văn bản tạo thành
một chuỗi từ vựng có cấu tạo giống với WordNet. Nhiều câu phức tạp sẽ sinh ra
trường hợp nhầm ngữ nghĩa.