Tải bản đầy đủ (.pdf) (71 trang)

Xây dựng giải pháp quảng cáo trực tuyến theo ngữ cảnh tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.89 MB, 71 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN MINH TRÍ

XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN
THEO NGỮ CẢNH TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN MINH TRÍ

XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN
THEO NGỮ CẢNH TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS. HUỲNH CÔNG PHÁP

Đà Nẵng - Năm 2017



i

LỜI CAM ĐOAN
Tác giả cam đoan đây là công trình nghiên cứu của tác giả.
Các kết quả nghiên cứu và kết luận được thực hiện trên nghiên cứu thực
tế, không sao chép. Việc trích dẫn nguồn gốc tài liệu và ghi tài liệu tham khảo
được thực hiện theo đúng qui định.

Tác giả luận văn

Nguyễn Minh Trí


ii

TÓM TẮT LUẬN VĂN

XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN THEO NGỮ CẢNH TIẾNG
VIỆT

Quảng cáo trực tuyến trở thành xu thế mới đối với hoạt động kinh doanh. Các doanh nghiệp
khai thác tối đa thế mạnh của Internet để đưa sản phẩm nhanh chóng tiếp cận với người tiêu
dùng. Tuy nhiên, thông tin đến với người tiêu dùng thường thiếu chọn lọc. Việc xây dựng hệ
thống quảng cáo trực tuyến theo ngữ cảnh sẽ cung cấp giải pháp khả thi giải quyết vấn đề
trên. Hệ thống quảng cáo trực tuyến theo ngữ cảnh đã được xây dựng thông qua việc nghiên
cứu, áp dụng phương pháp tự động xác định phần nội dung chính của một trang web bằng
mô hình có mịn hóa histogram với gom cụm; nghiên cứu kỹ thuật rút trích từ khóa bằng cách
xác định độ quan trọng của từ dựa trên cách kết hợp độ phân bố cục bộ χ2 và độ đo toàn
cục IDF trên văn bản tiếng Việt; xây dựng một hệ thống thử nghiệm Adcenter dựa trên 3
module chính và các module này phối hợp với nhau để đảm bảo hoạt động của luồng thông

tin và dữ liệu trao đổi giữa client và server. Kết quả hệ thống được xây dựng gồm: Giao diện
Subcriber, Giao diện Webmaster và Hệ thống phân phối quảng cáo. Tiến hành cài đặt thử
nghiệm trên phạm vi đề xuất và đánh giá kết quả theo các tiêu chí, kết quả: hệ thống hoạt
động đúng với mong muốn và đáp ứng được yêu cầu cơ bản của một hệ quảng cáo theo ngữ
cảnh tiếng Việt.
Từ khóa – quảng cáo trực tuyến, quảng cáo theo ngữ cảnh, adcenter, rút trích nội dung
trang web, rút trích từ khóa.
Resolution of contextual advertising that using Vietnamese on the Internet
Internet advertising has become a new trend in business. Enterprises exploit the strengths of
the Internet to bring products quickly to reach consumers. However, the information on
internet that reaches to consumer often lack selection. Building a contextual online advertising
system will provide a viable to solve this problem. The contextual online advertising system
has been developed by researching and application of a method of automatically identifying
the main content of a web page using a histogram model with clustering; Studying the
technique of keyword extraction by determining the importance of the word based on the
combination of local distribution χ2 and global IDF on the Vietnamese text; from this
building an Adcenter testing system based on three main modules and modules that work
together to ensure the flow of information and data exchanged between the client and the
server. The system that was built include: Subcriber Interface, Webmaster Interface and Ad
Distribution System. Conduct test installation on the proposed scope and evaluate the results
according to the criteria and results: the system works properly and meets the basic
requirements of a Vietnamese contextual advertising system.
Key words – internet advertising, contextual advertising, adcenter, web scraping, keyword
extraction


iii

MỤC LỤC
LỜI CAM ĐOAN .............................................................................................................i

TÓM TẮT LUẬN VĂN ................................................................................................. ii
MỤC LỤC ..................................................................................................................... iii
DANH MỤC CÁC BẢNG ............................................................................................. v
DANH MỤC CÁC HÌNH .............................................................................................vi
MỞ ĐẦU ......................................................................................................................... 1
1. Lí do chọn đề tài ......................................................................................................1
2. Mục tiêu...................................................................................................................2
3. Đối tượng nghiên cứu. .............................................................................................2
4. Phạm vi nghiên cứu .................................................................................................3
5. Phương pháp nghiên cứu .........................................................................................3
6. Ý nghĩa ....................................................................................................................3
CHƯƠNG 1. TỔNG QUAN VỀ QUẢNG CÁO THEO NGỮ CẢNH ........................... 4
1.1. Giới thiệu quảng cáo.................................................................................................4
1.2. Quảng cáo trực tuyến ................................................................................................5
1.2.1. Các đặc điểm của quảng cáo trực tuyến.............................................................7
1.2.2. Những hình thức quảng cáo trực tuyến cơ bản ..................................................9
1.3. Tiếp cận quảng cáo theo ngữ cảnh ..........................................................................10
1.4. Mô hình hệ thống quảng cáo theo ngữ cảnh AdCenter ...........................................11
CHƯƠNG 2. THIẾT KẾ VÀ TỔ CHỨC NGHIÊN CỨU ........................................... 15
2.1. Các kỹ thuật xác định phần nội dung chính của trang web ....................................15
2.1.1. Đặt vấn đề ........................................................................................................15
2.1.2. Mô hình đề xuất của luận văn: .........................................................................16
2.1.3. Phân tích nội dung trang web dưới dạng lược đồ Histogram ..........................16
2.1.4. Phương pháp mịn hóa Histogram ....................................................................25
2.1.5. Kỹ thuật gom nhóm trên Histogram .................................................................28
2.1.6. Kết quả thử nghiệm ..........................................................................................29
2.2. Phương pháp trích xuất từ khóa tự động trên trang web Tiếng Việt ......................32
2.2.1. Đặt vấn đề ........................................................................................................32
2.2.2. Một số nghiên cứu có liên quan .......................................................................33
2.2.2.1. Hướng tiếp cận dựa trên máy học ..............................................................33

2.2.2.2. Hướng tiếp cận dựa vào thống kê...............................................................33
2.2.3. Mô hình tiếp cận của luận văn .........................................................................34
2.2.3.1. Tiền xử lý ..................................................................................................35
2.2.3.2. Độ đo cục bộ chi-bình phương χ2 .............................................................37
2.2.3.3. Chọn và gom nhóm các từ khóa phổ biến .................................................37
2.2.3.4 Tính độ phân bố (χ2) của từ: ......................................................................39


iv

2.2.4. Độ đo toàn cục IDF .........................................................................................40
2.2.5. Độ đo kết hợp ..................................................................................................40
2.2.6. Kết quả thử nghiệm .........................................................................................40
CHƯƠNG 3. THỬ NGHIỆM HỆ THỐNG QUẢNG CÁO TRỰC TUYẾN .............. 42
3.1. Đặt vấn đề ..............................................................................................................42
3.2. Thiết kế hệ thống ....................................................................................................42
3.3. Hoạt động của hệ thống .........................................................................................43
3.4. Kết luận chương ......................................................................................................47
KẾT LUẬN ................................................................................................................... 48
HƯỚNG PHÁT TRIỂN................................................................................................. 48
TÀI LIỆU THAM KHẢO ............................................................................................. 50
PHỤ LỤC
QUYẾT ĐỊNH GIAO ĐỀ TÀI.
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN.


v

DANH MỤC CÁC BẢNG


Số bảng
2.1.
2.2.
2.3.
2.4.
2.5.

Tên bảng
Kết quả thử nghiệm bóc tách nội dung chính bằng
phân đoạn trang web với các phép thử khác nhau
So sánh kết quả với phương pháp khác
Danh sách từ tách được cùng với tỷ lệ số lần xuất
hiện của chúng trong văn bản
Độ đo χ2 của từ
Kết quả thử nghiệm rút trích từ khóa tự động và so
sánh với

Trang
31
31
36
39
41


vi

DANH MỤC CÁC HÌNH
Số

hiệu
hình
1.1.
1.2.
1.3.
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
2.8.

2.9.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.

Tên hình

Trang

Ứng dụng quảng cáo theo nội dung ngữ cảnh
Mô hình quảng cáo truyền thống
Mô hình quảng cáo thông qua hệ thống trung gian AdCenter
Node chứa nội dung chính trên cây văn bản

Thuật toán VIPS, phân đoạn trang web dựa trên cấu trúc cây DOM
Ước lượng độ quan trọng của từng khối phân đoạn
Trang web dantri.com.vn dùng để minh họa việc xác định nội dung
chính
Lược đồ của trang web />Thuật toán lọc trung bình
Lược đồ sau khi đã xử lý lọc trung bình
So sánh lược đồ trước (a) và sau (b) khi mịn hóa bằng lọc trung
bình
Lược đồ nhìn lại dưới dạng điểm. Phân đoạn trang web bằng cách
gom nhóm các node có tỷ trọng trội gần nhau. Trong hình là 3 cụm
được thể hiện bằng 3 màu khác nhau.
Tổng quan hệ thống AdCenter
Nhà quảng cáo đăng nhập để đăng ký quảng cáo
Hệ thống dành cho WebMaster để lấy mã nhúng và tùy chỉnh giao
diện của quảng cáo
Hệ thống dành cho WebMaster để lấy mã nhúng và tùy chỉnh giao
diện của quảng cáo
Quảng cáo của AdCenter xuất hiện trên trang web(A) Tuổi Trẻ
Quảng cáo của Subcriber 2 xuất hiện trên trang web Master 3

10
12
13
18
19
21
24
24
26
26

27

29
42
44
44
45
46
46


1

MỞ ĐẦU
1. Lí do chọn đề tài:
Công nghệ thông tin ngày càng phát triển, ảnh hưởng mạnh mẽ đến tất cả các lĩnh
vực đời sống xã hội. Cùng với sự bùng nổ của thế giới côn g nghệ thì xu
hướng tiếp cận và khai thác thông tin đã và đang được phát triển theo
hướng hiện đại, khai thác hiệu quả thế mạnh của khoa học công nghệ. Các
cách tiếp cận từ sách, báo, tạp chí, phát thanh, truyền hình… dần thay đổi
sang hình thức mới, phong phú hơn, đa dạng hơn đó là Internet. Sự xuất
hiện của internet đã tạo điều kiện cho khoảng cách thế giới ngày càng thu hẹp lại,
xu hướng kết nối cộng đồng chia sẻ thông tin ngày càng hình thành rõ rệt. Internet
đã và đang chứng tỏ sức hút mạnh mẽ của mình trên rất nhiều lĩnh vực của đời sống
xã hội từ văn hóa, y học, giáo dục, kinh tế…. Internet không còn là khái niệm xa lạ
và xa xỉ đối với hầu hết chúng ta như chục năm về trước. Theo số liệu thống kê, tốc
độ tăng trưởng người dùng internet từ năm 2009- 2017 con số này tăng gần gấp đôi,
từ 27% lên đến 52 % dân số ( Đinh Lê Đạt – chuyên gia về Big Data in Advertising,
Data-Driven Marketing, AdTechVietnam Evangelist, 2015). Số lượng người dùng
internet ngày càng tăng, kéo theo sự thay đổi xu hướng mua sắm hàng hóa, dịch vụ

cũng thay đổi theo chiều hướng khác. Bắt kịp xu thế thay đổi hành vi của người
dùng, trước đây ta thường hay đọc quảng cáo trên sách báo, tạp chí. Gần hơn nữa
ta xem quảng cáo trên truyền hình hoặc nghe trên sóng phát thanh. Và ngày nay,
với Internet băng thông rộng, các quảng cáo đang dần thay đổi, người tiêu dùng
đang có xu hướng chuyển sang xem quảng cáo trực tuyến. Chiến lược tiếp thị của
các công ty, doanh nghiệp cũng đang dần thay đổi để quảng bá sản phẩm đến người
tiêu dùng hiệu quả hơn nhờ Inetrnet. Việc thay đổi cách thức truyền thông nhằm tác
động đến quyền chọn mua sản phẩm của người tiêu dùng ngày càng được chú ý đầu
tư và khai thác. Hiệu quả từ internet mang lại chỉ tính riêng trong lĩnh vực kinh
doanh, góp phần tăng doanh thu hiệu quả.
Theo thống kê của Cục Quảng cáo tương tác (IAB), doanh thu của quảng cáo
trực tuyến tại Mĩ đạt $16.9 tỉ trong năm 2006. Năm 2016 doanh thu $72.5 tỉ , tăng
hơn 4 lần trong vòng một thập kỷ. Chính vì lẽ đó mà bên cạnh các kênh quảng cáo
truyền thống, các quảng cáo ngày nay đang dần chuyển một phần sang kênh thông
tin trực tuyến.
Tại Việt Nam, doanh thu quảng cáo trực tuyến tăng liên tục từ 2010- 2015. Cụ
thể: năm 2010 là $26.1 triệu, đến năm 2015 $329 triệu. Chứng tỏ sức hút mạnh mẽ
của quảng cáo trực tuyến đối với doanh nghiệp. Hình thức quảng cáo trực tuyến
ngày càng thể hiện tính ưu việt của mình đối với kinh doanh. Tại thị trường Việt
Nam, Vaughan Ryan - CEO Nielsen Vietnam, đã xác định xu thế tiêu dùng 2016:
khả năng tự chủ mua sắm, mua sắm cho bản thân, luôn vận động và nhu cầu kết
nối internet cao. (Hội nghị CEO thường niên “Kinh Tế Việt Nam – Triển Vọng


2
Năm 2016”, 11/2015). Như vậy, xu hướng tiêu dùng tại Việt Nam đang theo hướng
tiếp cận với mua sắm trực tuyến. Vì vậy, lĩnh vực thương mại điện tử nói chung và
xét riêng quảng cáo trực tuyến sẽ chuyển biến theo hướng tích cực, được khai thác
đầu tư. Tuy nhiên, câu hỏi đặt ra: quảng cáo trực tuyến tại Việt Nam đã được đầu
tư đúng mức, có nhiều tiện ích tương xứng với kỳ vọng của người tiêu dùng chưa?

Hay quanh quẩn vẫn chỉ là các quảng cáo được phân phối trên các trang web
dưới dạng hình ảnh, banner. Chính vì tính phổ biến và chia sẻ của internet, thông
tin sản phẩm đến với người dùng rất đa dạng và thiếu chọn lọc. Các quảng cáo
dạng hình ảnh, banner hoàn toàn “tĩnh”, nghĩa là cho dù bạn vào trang web đó
vào lúc nào đi nữa, bạn có thích chúng hay không, thì bạn sẽ luôn thấy chúng (nếu
chưa bị gỡ xuống), cho dù nội dung của trang web có thay đổi ra sao đi nữa. Quảng
cáo dạng này rất không hiệu quả vì thông tin đến khách hàng bị nhiễu, không tập
trung. Mục tiêu của nhà quảng cáo là quảng cáo sản phẩm đến đúng khách hàng
mình mong muốn. Ví dụ như nếu muốn quảng cáo về xe máy thì nên đăng các
quảng cáo của mình trên những trang web liên quan đến mua bán ô tô hoặc xe
cộ. Điều này giúp các nhà quảng cáo hướng đúng đến phân khúc đối tượng
người dùng của mình hơn, tránh quảng cáo tràn lan, không hiệu quả. Nếu quảng
cáo được đặt hợp lý thì hiệu quả quảng cáo sẽ cao hơn trong khi chi phí cũng sẽ
giảm đáng kể. Bên cạnh đó, người dùng cũng cảm thấy thích quảng cáo hơn vì
chúng liên quan đến nội dung mà họ đang tìm kiếm. Vì vậy, việc xác định khách
hàng mục tiêu trong chiến lược quảng cáo rất quan trọng. Hình thức quảng cáo theo
ngữ cảnh sẽ là giải pháp hiệu quá, góp phần định vị sản phẩm của doanh nghiệp.
Đây chính là phương pháp quảng cáo “động” theo nội dung ngữ cảnh, cũng
là xu hướng quảng cáo mới trên thế giới.
Từ nhu cầu thực tế trên, luận văn tiến hành thực hiện xây dựng thử nghiệm
một hệ thống máy quảng cáo AdCenter cho phép phân phối “động” các quảng
cáo trực tuyến trên mạng Internet. Các trang web nhận đăng quảng cáo của
AdCenter sẽ có các quảng cáo được tự động thay đổi cho phù hợp với nội dung
hiện tại.
2. Mục tiêu:
- Tìm hiểu quảng cáo trực tuyến, công cụ quảng cáo trực tuyến, quảng cáo theo
ngữ cảnh.
- Tìm hiểu kỹ thuật rút trích văn bản trên trang web bất kỳ.
- Tìm hiểu kỹ thuật rút trích từ khóa.
- Xây dựng thử nghiệm hệ thống công cụ quảng cáo theo ngữ cảnh.

3. Đối tượng nghiên cứu: quảng cáo trực tuyến, phương pháp đọc và bóc tách
nội dung chính của trang web, phương pháp rút trích từ khóa, quảng cáo theo ngữ
cảnh.


3
4. Phạm vi nghiên cứu:
Trong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giới
hạn nghiên cứu các vấn đề sau:
- Phương pháp tự động xác định phần nội dung chính của trang web theo hướng
phân đoạn trang web bằng mô hình lược đồ Histogram.
-

Kỹ thuật rút trích từ khóa trên văn bản tiếng Việt sẽ đi theo hướng tiếp cận
thống kê có bổ sung: kết hợp giữa độ đo cục bộ chi bình phương (χ2) với độ đo
toàn cục IDF.

-

Hệ thống chỉ ứng dụng được trên các trang web tiếng Việt.
5. Phương pháp nghiên cứu:
Phương pháp lý thuyết

-

Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài.

-

Nghiên cứu tổng quan về hệ thống quảng cáo trực tuyến theo ngữ cảnh.


-

Nghiên cứu phương pháp tự động xác định phần nội dung chính của một trang
web .

-

Nghiên cứu kỹ thuật rút trích từ khóa trên văn bản tiếng Việt.

-

Nghiên cứu các giải pháp thiết kế bộ công cụ quảng cáo trực tuyến theo ngữ
cảnh tiếng Việt.
Phương pháp thực nghiệm

-

Nghiên cứu thiết kế và khai thác bộ công cụ quảng cáo trực tuyến theo ngữ
cảnh tiếng Việt.

-

Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả theo bảng đánh giá đã thiết
kế.

-

Nghiên cứu đề xuất giải pháp cải tiến thêm để tăng độ tin cậy cho hệ thống.
6. Ý nghĩa:


Ứng dụng xây dựng thử nghiệm bộ công cụ quảng cáo theo ngữ cảnh AdCenter
trên mạng lưới các trang web thành viên; đánh giá kết quả đạt được, nếu đáp ứng được
yêu cầu thì có thể đặt vào ứng dụng thực tế.


4

Chương 1. TỔNG QUAN VỀ QUẢNG CÁO THEO NGỮ CẢNH
1.1. Giới thiệu quảng cáo
Lịch sử quảng cáo:
Quảng cáo đã có ngay từ buổi đầu lịch sử thành văn. Những nhà khảo cổ ở các
xứ quanh Địa Trung Hải đã đào được những dấu hiệu thông báo về các sự kiện và
mời chào gì đó. Những bức tường kẻ chữ ở La Mã thông báo những cuộc giác đấu
những bức họa của xứ Phoenicia trên những tảng đá lớn dọc đường đi. Đơn giản
hơn họ chỉ viết tên đồ vật muốn bán lên cửa, lên các cột ngoài đường, một hình thức
tiên phong của quảng cáo ngoài trời thời nay.
Một hình thức quảng cáo cổ xưa khác là mõ rao (town crier). Trong thời Hoàng
kim ở Hy Lạp, những người gõ mõ này đi khắp trong Athens thông báo về việc bán
nô lệ, trâu bò và các hàng khác.
Một hình thức quảng cáo cổ xưa nữa là những dấu hiệu của người thợ thủ công
ghi trên sản phẩm của mình, như đồ gốm chẳng hạn. Khi uy tín người thợ đã lan
truyền rộng, người mua sẽ tìm hàng có dấu hiệu riêng của họ giống như ngày nay ta
tìm nhãn hiệu và tên hiệu của món hàng vậy.
Vào năm 1450 khi Gutenberg chế ra máy in, sự kiện này tạo bước chuyển biến
trong lịch sử quảng cáo. Người quảng cáo không cần phải làm những dấu hiệu bằng
tay nữa. Văn bản quảng cáo đầu tiên bằng tiếng Anh xuất hiện năm 1478.
Năm 1622, việc quảng cáo bùng lên khi ra đời tờ báo đầu tiên bằng tiếng Anh, tờ
The Weekly News.
Đến thế kỷ XVII, từ khi xuất hiện các thành thị phương Tây và hoạt động buôn

bán phát triển trầm rộ với sự ra đời của áp-phích, quảng cáo đã phổ biến và như
những tờ áp-phích cũng được in trên giấy (sơn quét lên vải, lên tường).
Đến năm 1760 lần đầu tiên tờ Gazette đăng quảng cáo về một quyển sách sắp
xuất bản.
Giữa thế kỷ XIX và bước sang thế kỷ XX, với việc phát minh ra truyền thanh
và truyền hình đã đẩy công nghệ quảng cáo tiến xa hơn. Điều đó đã đưa quảng cáo
đến từng nhà, từng người, từng ngành cho dù họ có muốn hay không.
Trong những năm đầu của thế kỷ XXI với sự phát triển như vũ bão của khoa
học công nghệ trong tất cả các lĩnh vực. Những thành tựu rực rỡ của ngành công
nghệ thông tin đã mở ra một thời kỳ phát triển mới của nền kinh tế. Từ khi Internet
xuất hiện và phát triển thì quảng cáo trên Internet đã trở thành một công nghệ mới
hay nói cách khác là tạo ra một cuộc cách mạng về quảng cáo.
Quảng cáo phát triển mạnh nhất ở Hoa Kỳ. Ben Flanklin đã được gọi là cha đẻ
của nghề quảng cáo Mỹ với tờ Gazette của ông, xuất bản lần đầu năm 1929. Nhiều
yếu tố khiến Hoa Kỳ trở thành cái nôi của ngành quảng cáo. Thứ nhất, Hoa Kỳ tiến
nhanh tới sản xuất cơ giới hóa, tạo nên tình trạng sản xuất thừa, và nảy sinh nhu cầu


5
thuyết phục khách hàng mua nhiều hơn. Thứ hai, mạng lưới giao thông phát triển tốt
khiến việc chuyên chở hàng hóa và mở rộng phương tiện quảng cáo trở nên dễ dàng.
Thứ ba, việc áp dụng cưỡng bách giáo dục từ 1813 làm tăng số người biết chữ và
khiến báo chí phát triển. Việc phát minh radio và TV sau này cũng tạo thành hai
phương tiện truyền thông cực kỳ thuận lợi cho quảng cáo.
Định nghĩa quảng cáo:
Theo Robert Leduc “Quảng cáo là tất cả những phương tiện thông tin và
thuyết phục quần chúng mua một món hàng hay một dịch vụ"
Hiệp Hội Tiếp Thị Hoa Kỳ AMA (American Marketing Association) để định
nghĩa quảng cáo như sau:
1. Quảng cáo là một hoạt động tốn tiền (paid form).

2. Dựa vào môi thể, không dựa vào con người (non personal).
3. Để loan báo, chào mời về một ý kiến, sản phẩm hay dịch vụ (goods /
servives).
4. Do một người cậy quảng cáo có danh tánh rõ ràng (identified sponsor).
Quảng cáo là những hình thức trình bày gián tiếp và khuyếch trương ý tưởng,
sản phẩm hay dịch vụ được người bảo trợ nhất định trả tiền.
Ngày nay quảng cáo đã có những bước phát triển mới và được tiến hành thông
qua các phương tiện thông tin đại chúng như: truyền hình, báo chí, phát thanh, quảng
cáo qua bưu điện và đặc biệt, là quảng cáo trực tuyến qua Internet.
1.2. Quảng cáo trực tuyến
Quảng cáo trực tuyến là một loại hình quảng cáo được thể hiện trên Internet
và đặc biệt là các trang web.
Quảng cáo trực tuyến ngày càng đóng vai trò quan trọng trong kỷ nguyên
công nghệ thông tin, đặc biệt là trong bối cảnh công nghệ web phát triển như vũ bão
như hiện nay.
Với các cỗ máy tìm kiếm ngày càng hoàn thiện, hệ thống email, website tích
hợp nhiều tiện ích, công nghệ mới và nhiều dịch vụ hấp dẫn ra đời, Internet đang
thuyết phục hàng triệu người trở thành một phần của mạng lưới đầy quyền lực này
mỗi ngày.
Theo thống kê số lượng người dùng internet từ 2000 đến năm 2015, tăng từ
0.3% đến 47.8%. Tạo điều kiện thuận lợi, thúc đẩy quảng cáo trực tuyến phát triển.


6

Quảng cáo trực tuyến cung cấp thông tin, đẩy nhanh tiến độ giao dịch giữa
người mua và người bán, khách hàng có thể tương tác với quảng cáo, có thể nhấn
vào quảng cáo để lấy thông tin cùng với mẫu mã sản phẩm và khách hàng có thể
mua sản phẩm từ các quảng cáo trực tuyến (Cooper và Schindler, 2006)... Quảng
cáo trực tuyến đã tạo cơ hội cho các nhà quảng cáo nhắm chính xác vào khách

hàng của mình, và giúp họ tiến hành quảng cáo theo đúng với sở thích và thị
hiếu của người tiêu dùng. Các phương tiện thông tin đại chúng khác cũng có khả
năng nhắm chọn, nhưng mạng Internet thì tính định vị sản phẩm đối với khách hàng
thể hiện rõ nét.


7

Năm 1994, quảng cáo trực tuyến bắt đầu xuất hiện trên trình duyệt web
thương mại đầu tiên, Netscape Navigator 1.0, dưới hình thức là các banner quảng
cáo. Những quảng cáo đầu tiên trên web là những nội dung tĩnh hay logo của các
công ty. Chúng thường xuất hiện ở đầu mỗi trang web vì đó thường là nơi dễ được
quan sát nhất.
Khi công nghệ ngày càng phát triển, mở ra nhiều cơ hội mới, rất nhiều hình
thức quảng cáo trực tuyến đã xuất hiện. Một vài công ty tiến hành quảng cáo thông
qua web site bởi những pop-up, như DoubleClick, AdForce và Windwire. Họ cung
cấp một vài thông tin hình ảnh và trình duyệt web sẽ thực thi một số công việc khi
người dùng click vào một quảng cáo.
1.2.1. Các đặc điểm của quảng cáo trực tuyến
Những ưu điểm của quảng cáo trực tuyến:
Khả năng nhắm chọn: Nhà quảng cáo trên mạng có rất nhiều khả năng nhắm
chọn mới. Họ có thể nhắm vào các công ty, các quốc gia hay khu vực địa lý cũng
như họ có thể sử dụng cơ sở dữ liệu để làm cơ sở cho tiếp thị trực tiếp. Họ cũng có
thể dựa vào sở thích cá nhân và hành vi của người tiêu dùng để nhắm vào đối tượng
thích hợp.
Khả năng theo dõi: Các nhà tiếp thị trên mạng có thể theo dõi hành vi của
người sử dụng đối với nhãn hiệu của họ và tìm hiểu sở thích cũng như mối quan tâm
của những khách hàng triển vọng. Ví dụ, một hãng sản xuất xe hơi có thể theo dõi
hành vi của người sử dụng qua website của họ và xác định xem có nhiều người quan
tâm đến quảng cáo của họ hay không? Các nhà quảng cáo cũng có thể xác định được



8
hiệu quả của một quảng cáo (thông qua số lần quảng cáo được nhấn, số người mua
sản phẩm, và số lần tiến hành quảng cáo,…) nhưng điều này rất khó thực hiện đối
với kiểu quảng cáo truyền thống như trên tivi, báo chí và bảng thông báo. Tính linh
hoạt và khả năng phân phối: Một quảng cáo trên mạng được truyền tải 24/24 giờ
một ngày, cả tuần, cả năm. Hơn nữa, chiến dịch quảng cáo có thể được bắt đầu cập
nhật hoặc huỷ bỏ bất cứ lúc nào. Nhà quảng cáo có thể theo dõi tiến độ quảng cáo
hàng ngày, xem xét hiệu quả quảng cáo ở tuần đầu tiên và có thể thay thế quảng
cáo ở tuần thứ hai nếu cần thiết. Điều này khác hẳn kiểu quảng cáo trên báo chí,
chỉ có thể thay đổi quảng cáo khi có đợt xuất bản mới, hay quảng cáo tivi với
mức chi phí rất cao cho việc thay đổi quảng cáo thường xuyên.
Tính tương tác: Mục tiêu của nhà quảng cáo là gắn khách hàng triển vọng với
nhãn hiệu hoặc sản phẩm của họ. Điều này có thể thực hiện hiệu quả trên mạng, vì
khách hàng có thể tương tác với sản phẩm, kiểm tra sản phẩm và nếu thoả mãn thì có
thể mua. Ví dụ, một quảng cáo cho phần mềm máy tính có thể đưa khách hàng tới
nơi trưng bày sản phẩm để lấy thông tin và kiểm tra trực tiếp. Nếu khách hàng thích
phần mềm đó, họ có thể mua trực tiếp. Không có loại hình thông tin đại chúng nào
lại có thể dẫn khách hàng từ lúc tìm hiểu thông tin đến khi mua sản phẩm mà không
gặp trở ngại nào như mạng Internet.
Hạn chế của quảng cáo trực tuyến:
Khác với các phương tiện quảng cáo khác, để tiếp cận được với quảng cáo trực
tuyến đối tượng tiềm năng của bạn phải có máy tính và máy tính phải được nối mạng
Internet.
Người dùng phải có kỹ năng duyệt web. Ở các nước phát triển, việc tin tưởng
vào quảng cáo và mua hàng trực tuyến đang rất phổ biến, còn ở nước ta, đây mới chỉ là
xu hướng và chỉ thực sự có hiệu lực cho một số ngành nghề phù hợp.
Các văn bản và chính sách đang trong quá trình hoàn thiện, còn nhiều kẽ hở cho
lừa đảo trực tuyến phát triển cũng làm giảm độ tin cậy của quảng cáo trực tuyến.

Định giá quảng cáo trực tuyến:
Khi quảng cáo trực tuyến mới ra đời, việc tính giá quảng cáo trên mạng chưa có
khuôn mẫu. Nhưng ngày càng có nhiều mô hình mới kéo theo nhiều cấu trúc định giá
ra đời. Ngày nay, các mô hình định giá có đủ loại từ giá cố định theo điểm ảnh (pixel),
đến tính giá theo số lần xem một mục quảng cáo, tính giá theo số người nhấn vào
quảng cáo, tính theo số lần quảng cáo truyền phát được, tính phổ quát của từ khoá, số
hàng được mua.
Một số thuật ngữ thông dụng dùng để tính giá cho quảng cáo như CPM (Cost
Per Impression: Trả tiền trên tổng số lần truyền phát quảng cáo) và CPC (Cost per
click: trả tiền cho mỗi lần có khách hàng nhấn vào liên kết đến website).


9
1.2.2. Những hình thức quảng cáo trực tuyến cơ bản
Quảng cáo trực tuyến tại Việt Nam hiện nay thường theo các hình thức sau:
Thông qua các cỗ máy tìm kiếm. Khi người sử dụng Internet gõ một từ khóa
(keyword) đã được “mua” bởi một nhãn hàng, website của nhãn hàng đó sẽ hiện ra
trong phần nhà tài trợ nằm bên trên hoặc bên tay phải của kết quả tìm thấy. Từ đó cơ
hội khách hàng ghé thăm website, nắm thông tin và muốn mua sản phẩm hoặc dịch vụ
sẽ tăng lên.
Đặt logo hoặc banner tại các website có lượng người truy cập lớn, trong đó có
nhiều đối tượng phù hợp với khách hàng tiềm năng của sản phẩm.
Thông qua hệ thống thư điện tử (email). Những hệ thống email lớn như Yahoo
hay MSN đều có gói quảng cáo này nên các doanh nghiệp có thể gửi thông tin đến
hàng loạt email trong hệ thống với chi phí rẻ. Tuy nhiên, hình thức này đang gây phản
cảm khi tình trạng thả thư rác ngày càng tràn lan bừa bãi.
Quảng cáo đa phương tiện bằng cách ứng dụng công nghệ mới nhất tạo ra các
mẩu quảng cáo sản phẩm. Phần mềm thông dụng là AdobeFlash. Hình thức này đòi
hỏi đầu tư cao về ý tưởng, thiết kế mỹ thuật. Bù lại, các thành phẩm đặc biệt sáng tạo,
cuốn hút và có khả năng xác định chính xác đối tượng khách hàng. Hiện tại, đây là

hình thức quảng cáo trực tuyến hiệu quả nhất.
Doanh thu quảng cáo trực tuyến tại Việt Nam, năm 2009 đạt khoảng 278 tỉ
VNĐ, trong đó quảng cáo hiển thị trực tiếp (banner, buttons) chiếm ¾ doanh thu, thị
phần của search engine marketing chiếm 8- 10%, trong khi loại hình này ở với các
nước phát triển hơn 50% (Úc, Mỹ, Singapore). Quảng cáo bằng banner theo kiểu Việt
Nam còn lạc hậu ở chỗ tính định hướng của nó rất thấp, theo nhận định của giới
chuyên gia quảng cáo. Các banner chỉ được "treo" lên cố định ở một chỗ, theo từng
chuyên mục của website và nằm yên đó, không thay đổi dù nhiều khi bài viết nằm
dưới nó liên quan rất ít, thậm chí chẳng liên quan gì đến sản phẩm được quảng cáo.
Nhược điểm này đã được các công nghệ quảng cáo quốc tế khắc phục từ rất lâu.
Chẳng hạn công nghệ AdSense của Google có thể "đọc" thông tin trên trang web và
đưa lại các quảng cáo có liên quan đến nội dung của trang. Chỉ cần một đoạn mã duy
nhất, nhưng khi dán lên các trang khác nhau nó sẽ đem lại các quảng cáo khác nhau.
Một yếu tố khác khiến quảng cáo trực tuyến Việt Nam còn hạn chế là sự nghèo
nàn, đơn điệu về hình thức. Ngoài banner và pop-up, hầu như không thể tìm thấy loại
hình quảng cáo nào khác. Trong khi đó trên thế giới, nguồn thu chính trong quảng cáo
trực tuyến lại là dịch vụ tìm kiếm.
Đến năm 2015, thị trường quảng cáo trực tuyến đã có chiều hướng tích cực,
theo báo cáo của Nielsen, người tiêu dùng Việt Nam tin tưởng nhiều nhất vào quảng
cáo trên các công cụ tìm kiếm, tiếp đó là mạng xã hội, video trực tuyến, banner trực
tuyến và thấp nhất là quảng cáo qua thiết bị di động. Số liệu thống kê này cũng khá
tương quan đối với thị trường khác (Châu Âu, Mĩ). Điều này chứng tỏ, sự tiệm cận và


10
tiếp thu của quảng cáo trực tuyến của Việt Nam so với thế giới đã được cải thiện
đáng kể.
1.3. Tiếp cận quảng cáo theo ngữ cảnh
Khác với các loại hình quảng cáo khác, thuật ngữ “quảng cáo theo ngữ cảnh” là
một xu thế mới hiện nay. Hệ thống quảng cáo theo ngữ cảnh sẽ quét nội dung trên

một trang web để tìm kiếm các từ khoá và trả lại một danh sách những quảng cáo
thích hợp có liên quan tới nội dung đang được xem trên trang web đó. Chẳng hạn,
một trang web có nội dung về thể thao có thể tự động được cung cấp các quảng cáo
về các dụng cụ thể thao hoặc những sự kiện thể thao.
Nguyên tắc hoạt động của hệ thống quảng cáo theo ngữ cảnh là sẽ tự động xử
lý, phân tích ngữ nghĩa, nội dung bài viết để hiển thị thông điệp của nhà mua quảng
cáo đến đúng người đọc.
Các quảng cáo lúc này sẽ chỉ được đăng trên những trang web có nội dung phù
hợp với đối tượng sử dụng của sản phẩm cần quảng cáo mà thôi. Khi ấy nhà quảng
cáo sẽ quảng cáo trên đúng đối tượng phù hợp của mình, ngược lại người sử dụng
cũng cảm thấy dễ chịu và chú ý hơn đến những sản phẩm có liên quan đến nội dung
mà mình đang đọc, đang tìm kiếm.

Quảng cáo theo nội
dung web

Hình 1.1. Ứng dụng quảng cáo theo nội dung ngữ cảnh
Vì vậy quảng cáo sẽ được thay đổi theo nội dung. Điều này giúp các nhà quảng
cáo hướng đúng đến đối tượng người dùng của mình hơn, tránh quảng cáo tràn lan,
không hiệu quả, và giảm được chi phí.


11
1.4. Mô hình hệ thống quảng cáo theo ngữ cảnh AdCenter
Vì những lý do nêu trên, luận văn đã tiến hành xây dựng thử nghiệm hệ thống
quảng cáo AdCenter để phục vụ cho nhu cầu quảng cáo trực tuyến theo mô hình
cảm ngữ cảnh này. Hệ thống được thiết kế như là một dịch vụ có thể thực hiện
phân phối các quảng cáo (đã được đăng ký trước đó trên hệ thống) đến với người
dùng Internet thông qua mạng lưới các trang web (các trang tin tức, diễn đàn, blog,
v.v…) đồng ý nhận đăng các quảng cáo trực tuyến của hệ thống.

Mô hình nghiệp vụ:
Hệ thống AdCenter đóng vai trò như là nhà trung gian, tiếp nhận các quảng
cáo từ các nhà quảng cáo (tạm gọi là Subcriber) và thực hiện phân phối lại các
quảng cáo này trên mạng lưới các trang web thành viên của nó (xem Hình 1.3).
Các trang web thành viên này là các trang web mà chủ của nó (tạm gọi là
Webmaster) muốn đăng quảng cáo để kiếm thêm thu nhập. Để quảng cáo có thể
hiển thị trên trang web của mình thì Webmaster phải thực hiện đăng ký là thành
viên với hệ thống AdCenter trước. Để cho các Webmaster có thể nhận đăng quảng
cáo thì chúng ta phải chia một phần lợi nhuận thu được từ quảng cáo cho họ.
Nhà quảng cáo không có mối liên hệ trực tiếp với các Webmaster, họ chỉ liên
hệ thông qua hệ thống AdCenter và mọi việc còn lại như chọn lựa trang web thành
viên để đặt quảng cáo, tính phí, thời gian lưu quảng cáo… sẽ do AdCenter tự động
thực hiện. Các mẩu quảng cáo đều theo định dạng sẵn cho trước bao gồm các
thông tin: tiêu đề, nội dung quảng cáo, đường link đến trang chủ, và tập từ khóa
đại diện cho quảng cáo. Các thông tin này đều do nhà quảng cáo cung cấp. Bên
cạnh đó, thời gian lưu quảng cáo sẽ phụ thuộc vào chi phí mà nhà quảng cáo chi
trả. Chi phí cho quảng cáo sẽ được tính theo độ đo CPC (Cost Per Click), nghĩa là
quảng cáo sẽ chỉ bị tính phí khi và chỉ khi có ai đó click vào xem quảng cáo mà
thôi, cho dù xuất hiện bao nhiêu lần đi nữa. Khi bị trừ hết tiền thì quảng cáo sẽ
ngưng xuất hiện.
Mọi quy trình hoạt động trên, bao gồm đăng ký, tiếp nhận quảng cáo, phân phối
quảng cáo, v.v… đều được thực hiện tự động trên web thông qua hệ thống AdCenter.
Mô hình hoạt động:
Hệ thống cho phép các nhà quảng cáo đăng ký các mẩu quảng cáo. Các mẩu
quảng cáo được đại diện bởi một số từ khóa do nhà quảng cáo tự xác định. Sau đó,
các quảng cáo này sẽ được hệ thống phân phối và hiển thị trên mạng lưới các trang
web thành viên đồng ý nhận đăng quảng cáo thông qua một đoạn mã nhúng
javascript. Đoạn mã nhúng này sẽ tự động phân tích nội dung hiện tại của trang
web để tìm kiếm các từ khóa đại diện, sau đó sẽ tiến hành tìm kiếm trong hệ thống
để lấy ra các quảng cáo có các từ khóa tương đồng. Sau cùng nó tải về danh sách

các quảng cáo được tìm thấy và hiển thị lên trang web thành viên.


12

Các nhà quảng cáo

Nhà quảng cáo 1

Nhà quảng cáo 2

Nhà quảng cáo n

Liên hệ đặt quảng cáo

Mạng lưới Internet

Website A

Website B

Hình 1.2. Mô hình quảng cáo truyền thống

Website Z


13

Các nhà quảng cáo
Nhà quảng cáo 1


Nhà quảng cáo 2

Nhà quảng cáo n

đăng ký quảng cáo

Hệ thống trung gian
AdCenter

AdCenter Server

phân phối quảng cáo

Mạng lưới các trang web
đăng ký thành viên

Website A

Website B



Website N

Hình 1.3. Mô hình quảng cáo thông qua hệ thống trung gian AdCenter


14
Để hệ thống có thể thực hiện phân phối các quảng cáo đến mạng lưới các

trang web một cách hợp lý, chúng ta phải đối mặt với các vấn đề như: bóc tách nội
dung văn bản chính của trang web bất kỳ, kỹ thuật rút trích từ khóa tự động từ văn
bản có sẵn.
Chương tiếp theo chúng ta sẽ bàn chi tiết hơn về các vấn đề này.


15

Chương 2. THIẾT KẾ VÀ TỔ CHỨC NGHIÊN CỨU
Để tiếp cận vấn đề nghiên cứu, luận văn thực hiện theo trình tự sau: xác định
nội dung chính của trang web bất kỳ. Từ đó, xác định kỹ thuật rút trích từ khóa từ nội
dung chính đã xác định.
2.1. Các kỹ thuật xác định phần nội dung chính của trang web
2.1.1. Đặt vấn đề
Xuất phát từ thực trạng khối lượng lưu trữ thông tin trên internet ngày càng tăng, nảy
sinh yêu cầu khi truy cập vào các web, ta phải xác định được chủ đề (nội dung chính)
của trang web. Trang web ở đây được hiểu là trang web bất kỳ, nghĩa là cấu trúc của
trang web không được biết trước.
Bài toán đặt ra cho các nhà nghiên cứu là phải xử lý khối lượng dữ liệu thông
tin khổng lồ này sao cho hiệu quả và nhanh chóng nhất. Một số ứng dụng như Search
Engine, RSS, Feedback, tóm tắt văn bản, tìm kiếm song ngữ… rất cần để rút trích
được các thông tin chính xác, gọn gẽ, có ý nghĩa từ kho dữ liệu trên.
Vấn đề đặt ra là không phải toàn bộ nội dung của trang web đều cần thiết.
Chúng hay bị “nhiễu” bởi rất nhiều các thông tin khác nhau. Nếu chỉ đơn thuần loại
các chuỗi script HTML thì nội dung lọc được sẽ rất nhiều lỗi rác không cần thiết.
Ví dụ: phần thông tin quảng cáo, tin mới cập nhật, nội dung tin ngắn, menu... những
nội dung như thế này thường cần phải bỏ qua trong quá trình bóc tách nội dung
chính của trang web. Cụ thể hơn, nội dung của các các trang web được tổ chức
theo dạng dữ liệu HTML với cấu trúc theo dạng tag, node… Những tag này chỉ
có ý nghĩa với trình duyệt để hiển thị tài liệu, văn bản theo một bố cục và trình diễn

cho trước, và hoàn toàn không có ngữ nghĩa nào đối với người duyệt web. Bên cạnh
đó, do tính phong phú của Internet nên nội dung trang web thường chứa nhiều
thông tin khác nhau bên cạnh các nội dung chính. Ví dụ như các trang web thường
chứa các thanh thực đơn (menu) ngang hoặc dọc, các danh sách đường dẫn (link)
dùng để định hướng cho người sử dụng có thể dễ dàng truy xuất tới nội dung mà
mình cần. Các quảng cáo dạng banner, các đoạn phim Flash, các hiệu ứng âm thanh,
hình ảnh, các định dạng stylesheet (css), mã kịch bản javascript, cũng như các đoạn
văn bản (text) không liên quan khác đã làm cho nội dung web giống như một ma trận
dữ liệu khá phức tạp.
Ngoài ra, trên cùng một trang web cũng có thể chứa nhiều chủ đề khác nhau.
Do đó, bóc tách khối nội dung chính chỉ có ý nghĩa khi trang web có chứa nội dung
thật sự.
Một khó khăn nữa là nội dung HTML của các trang web có cú pháp rất “thân
thiện”. Có thể có tag mở, nhưng không có tag đóng, các mã HTML có thể bị khai
báo sai cú pháp, chồng chéo lên nhau, vẫn được trình duyệt hiển thị bình thường mà
không bắt lỗi.


16
Tất cả các vấn đề trên đã làm cho nội dung web bị “lệch” khá nhiều, đặt ra
một thách thức không nhỏ trong việc định dạng nội dung chính của nó.
2.1.2. Mô hình đề xuất của luận văn:
Luận văn sẽ tiếp cận vấn đề này theo hướng phân đoạn trang web bằng mô
hình lược đồ (histogram).
Hướng tiếp cận này sẽ dựa trên phân tích cấu trúc cây Document Tree
(DOM) của trang web. Sử dụng bộ mã nguồn HTMLParser của dự án mã
nguồn mở HtmlAgilityPack để tạo thành cây Document Tree. Sau khi phân tích
được cấu trúc cây DOM của trang web, dựa trên cấu trúc này chúng ta sẽ thực hiện
biểu diễn lại nội dung trang web như là một lược đồ histogram bằng cách rút trích
ra các Content node. Tiếp đến, chúng ta tiến hành mịn hóa Histogram để loại bỏ các

Content node có độ quan trọng thấp và chống bỏ sót các Content node có độ quan
trọng cao. Sau cùng, dựa vào nhận xét heuristic rằng “vùng nội dung chính của
trang web sẽ là vùng tập trung mật độ văn bản cao nhất”, chúng ta tiến hành gom
nhóm trên histogram này để lọc ra được nhóm có giá trị mật độ ngưỡng cao nhất.
Đây được xem là nội dung chính của trang web.
2.1.3. Phân tích nội dung trang web dưới dạng lược đồ Histogram
Trang web của chúng ta dưới dạng mã HTML, tuy nhiên ta không tập trung
thực hiện theo hướng loại bỏ các các tag HTML bằng cách sử dụng biểu thức chính
quy (regular expression) Regular Expression = “ <[^>]*>" ” để loại bỏ các tag
HTML.Vì thực chất nội dung web không chỉ là các tag HTML mà còn chứa các nội
dung rác khác, trong khi đó cách này chỉ có thể áp dụng được cho các đoạn HTML
nhỏ và riêng lẻ, không thể áp dụng cho toàn bộ trang web.
Thực chất trang web được các trình duyệt hiểu như là một cấu trúc dạng
cây, bao gồm các node cha và con có quan hệ với nhau theo một trình bày nhất định
nào đó, được gọi là cây DOM (Document Object Model). Sử dụng phương pháp rút
trích Text node, bằng cách thực hiện phân tích mã HTML để tạo thành cây biểu
diễn nội dung trang web Document tree (DOM), trong đó các node của cây đại
diện cho các thành phần khác nhau trong trang web. Khi đó, phần văn bản chính sẽ
được lấy ra bằng việc nối nội dung các node được đánh dấu với tag là “TEXT”. Tiếp
cận theo phương pháp này có thể áp dụng cho toàn bộ trang web và cho kết quả
chính xác hơn so với phương pháp loại bỏ các tag HTML. Nhưng vẫn không thể
khắc phục nhược điểm là không thể lọc nội dung rác để lấy phần nội dung chính mà
chỉ đơn thuần là lấy toàn bộ văn bản text của trang web. Để giải quyết vấn đề này, có
thể tiếp cận theo hướng so sánh khung mẫu, phương pháp rút trích thông tin bằng
cách so trùng hai trang web được xây dựng trên nền tảng nhận dạng mẫu cho phép
rút trích chính xác vùng thông tin mang nội dung chính được tác giả Vũ Thanh
Nguyên và Trang Nhật Quang thực hiện trong việc rút trích thông tin văn bản


17

FSVM trên internet. Phương pháp này cho phép so khớp trang web cần rút trích
với một trang web mẫu để xác định khung trình bày chung cho cả hai trang web
cần rút trích, từ đó đi đến rút trích ra nội dung nằm trong phần được xác định chứa
nội dung chính trên trang mẫu. Phương pháp này không đòi hỏi người sử dụng
phải biết về ngôn ngữ xây dựng hoặc phải chỉ ra khu vực nội dung cần bóc tách khi
cách trình bày thay đổi do trang web mẫu có thể lấy trực tiếp từ trang chủ và có
cùng cách trình bày với trang cần rút trích. Tuy nhiên, đối với mỗi tên miền khác
nhau, cần phải xác định được một trang web làm mẫu cho những trang khác. Đây
cũng là một hạn chế trong quá trình tự động hóa xác định nội dung chính của web.
Hoặc nghiên cứu tiêu biểu tiếp cận theo hướng phân tích mã HTML và xử lý
ngôn ngữ tự nhiên của Ngô Quốc Hưng, 2008, "Tìm kiếm tự động văn bản song ngữ
Anh-Việt từ Internet", Luận văn Thạc sỹ, tr.5-10, ĐH KHTN TP.HCM phát triển giải
pháp trong luận văn “Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet”.
Hướng tiếp cận này dựa trên phương pháp bóc tách nội dung nhờ vào phân tích mã
HTML theo các bộ mã nguồn HTMLParser của dự án Majestic-12 để tạo thành cây
DOM biểu diễn nội dung trang web. Từ đó áp dụng các công cụ và kỹ thuật ngôn ngữ
để quyết định phần nội dung chính.
Phương pháp này dựa trên tiền đề là trang web đã được phân tích các tag
HTML để xây dựng nên cây Document Tree. Từ cây này chúng ta đi xác định node
nào ở trên cây chứa nội dung chính của trang WEB. Phương pháp cho điểm các node
dựa vào kết quả xử lý ngôn ngữ tự nhiên trên nội dung mà nó chứa bên trong đó.
Một số quy tắc cho điểm được áp dụng:
+ Chỉ cho điểm cho những NODE có tag là TEXT. Vì chỉ có những node này
mới là node chứa nội dung thực sự. Các node khác tổng hợp từ node này.
+ Cho điểm NODE TEXT dựa vào số câu của nội dung chứa bên trong
node đó. Càng nhiều câu thì node có điểm càng cao.
+ Node được cho điểm phải chứa tối thiểu một đoạn văn. (Tuy nhiên việc xác
định như thế nào là một đoạn văn vẫn chỉ là một heuristic)
+ Điểm của các node cha sẽ bằng điểm của các node con cộng lại.



×