72
Tổng kết và hướng phát triển
1.17 Tổng kết
Qua bốn chương vừa trình bày, luận văn đã phần nào giới thiệu được thế nào là một hệ
thống quảng cáo cảm ngữ cảnh với các đặc điểm cũng như hướng tiếp cận để giải
quyết khác nhau. Luận văn cũng nêu ra được thực trạng của quảng cáo trực tuyến trên
thế giới cũng như ở Việt nam và đề xuất mô hình giả
i quyết cũng như cài đặt thử
nghiệm thực tế. Đó là hệ thống quảng cáo theo nội dung ngữ cảnh, với quảng cáo sẽ
chỉ xuất hiện trên một nội dung phù hợp, một xu hướng của hiện nay và sẽ phát triển
mạnh trong tương lai.
Các vấn đề gặp phải như “bóc tách nội dung chính của trang web” hoặc “rút trích từ
khóa tự động trên tài liệu tiếng Việt” cũng đượ
c luận văn tìm hiểu và đề xuất mô hình
giải quyết, nhưng ở một góc độ nào đó thì tuy kết quả có thể chấp nhận được nhưng
cũng cần phải cải tiến thêm.
Hệ thống này khi hoàn thiện hoàn toàn có thể trở thành một dịch vụ mang tính thương
mại để phục vụ cho thị trường quảng cáo trực tuyến tại Việt nam hiện vẫn còn màu mỡ.
1.18 Hướng phát triển
Bên cạnh các kết quả đã đạt được thì chúng ta cần phải thực hiện cải tiến thêm để tăng
độ tin cậy của hệ thống.
Lấy ý tưởng từ thuật toán phân đoạn trang web VIPS [5], cần cải thiện thêm cho
phương pháp “bóc tách khối nội dung chính” bằng cách kết hợp thêm một số độ đo,
như độ đo “sự liền mạch” trong trang web, … để phân tách nội dung được chính xác và
đầy đủ
hơn. Ngoài ra, có thể thử nghiệm gom cụm các node với các thuật toán gom
cụm khác không cần chỉ rõ trước số cụm như EM (Expectation Maximization), … để
xem kết quả có được cải thiện hơn không.
73
Thuật toán rút trích các từ khóa cần kết hợp thêm các độ đo trọng lượng của từ trong
văn bản (như độ đo Luhn [9],…) để cải thiện hơn chất lượng từ khóa thu về. Ngoài ra
số lượng các từ khóa rút trích được nên phù thuộc một cách hợp lý với độ dài của tài
liệu.
Các mô-đun trong hệ thống AdEngine ở một góc độ nào đó thì chỉ mới dừng lại ở m
ức
thử nghiệm, cần cải thiện thêm tốc độ xử lý cũng như thêm nhiều chức năng khác cho
hoàn thiện hơn.
Bên cạnh đó, việc so khớp độ tương đồng của các từ khóa với nhau chỉ mới dừng ở cấp
độ so sánh trực tiếp, cần cải thiện độ chính xác trong việc so khớp các từ khóa bằng
cách thêm vào tính năng so sánh từ khóa theo ngữ nghĩa. Bằng cách sử dụ
ng độ đo
Okapi BM25 [24] để đo độ liên quan giữa từ khóa của quảng cáo với nội dung của
trang web. Xem tập từ khóa quảng cáo là câu query Q, còn nội dung chính của trang
web là tài liệu D và danh sách các trang web thành viên của hệ thống là danh sách các
tài liệu, ta sẽ tìm ra được tài liệu của trang web nào trong mạng lưới các trang web
thành viên liên quan nhất đến tập từ khóa đó bằng công thức:
∑
=
+−+
+
=
m
i
i
i
i
avgdl
D
bbkDqf
kDqf
qIDFQDScore
1
1
1
)
||
.1.(),(
)1).(,(
).(),(
(0.1)
Với:
q
i
là từ khóa i trong truy vấn Q.
f(q
i
, D) là số lần xuất hiện của q
i
trong tập D.
|D| là số từ trong tài liệu D.
avgdl là độ dài trung bình của tài liệu trong tập tài liệu.
74
k
1
và b là tham số tự do, thường được chọn k
1
= 2.0 và b = 0.75
IDF(q
i
) là độ đo trọng lượng IDF của của q
i
trên tập tài liệu, độ đo IDF này có sửa đổi
như sau:
5.0)(
5.0)(
log)(
+
+−
=
i
i
i
qn
qnN
qIDF
(0.2)
với N là tổng số tài liệu trong tập tài liệu và n(q
i
) là số tài liệu có chứa q
i
.
Ngoài ra, cũng có thể sử dụng bộ từ điển đồng nghĩa hoặc xây dựng bộ từ điển
Wordnet cho tiếng Việt để mở rộng ngữ nghĩa cho từ hơn.
Bên cạnh đó, hệ thống còn bị hạn chế ở điểm nhà quảng cáo khó có thể biết trước được
các mẩu quảng cáo của mình sẽ xuất hiện ở trong trang web nào.
Hệ
thống cần được mở rộng ra để hỗ trợ thêm cho tiếng Anh và các thứ tiếng khác
bằng cách tự động xác định loại ngôn ngữ của văn bản để đưa ra hướng xử lý phù hợp.