Tải bản đầy đủ (.pdf) (4 trang)

(Luận văn thạc sĩ) nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS SMARTPHONES)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (413.64 KB, 4 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ NGỌC ANH

NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU
VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC
TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS &
SMARTPHONES)

LUẬN VĂN THẠC SỸ

HÀ NỘI - 2006


Kênh tin tức điện tử cho các thiết bị cầm tay

MỤC LỤC

TRANG PHỤ BÌA

Trang

LỜI CAM ĐOAN
MỤC LỤC
TĨM TẮT ....................................................................................................... 3
CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT .............................................. 4
CHÚ GIẢI KÝ HIỆU VÀ MƠ HÌNH ............................................................ 5
CÁC HÌNH MINH HỌA ................................................................................ 6
MỞ ĐẦU ........................................................................................................ 7
CHƢƠNG 1. XÂY DỰNG KÊNH CUNG CẤP TIN ĐIỆN TỬ TRÊN


THIẾT BỊ CẦM TAY................................................................................... 10
1.1. Báo điện tử và công nghệ Internet không dây ................................... 10
1.1.1. Báo điện tử - một thành tựu của Internet .................................... 10
1.1.2. Sự phát triển của các thiết bị cầm tay ......................................... 11
1.1.3. Công nghệ kết nối internet không dây ........................................ 12
1.2. Bài toán xây dựng kênh tin tức điện tử trên thiết bị cầm tay ............. 13
1.2.1. Mô tả bài tốn ............................................................................. 13
1.2.2. Mơ tả các chức năng cơ bản của hệ thống .................................. 14
1.3. Hƣớng tiếp cận giải quyết bài tốn .................................................... 14
Chƣơng 2. THUẬT TỐN RTDM VÀ ỨNG DỤNG TRONG TRÍCH
XUẤT TIN .................................................................................................... 16
2.1. Khái niệm “Chi phí chuyển đổi cây” ................................................. 16
2.2. Thuật toán RTDM .............................................................................. 20
2.3. Áp dụng RTDM trích xuất tin tức tự động ........................................ 27
2.3.1 Phân cụm trang ............................................................................ 29
2.3.2 Trích xuất mẫu chung .................................................................. 30
2.3.3 Khớp dữ liệu ................................................................................ 33

1


Kênh tin tức điện tử cho các thiết bị cầm tay

2.3.4 Gán nhãn dữ liệu .......................................................................... 35
Chƣơng 3 . PHÂN TÍCH THIẾT KẾ HỆ THỐNG ...................................... 37
3.1.Giới thiệu ............................................................................................. 37
3.2. Mơ hình Use Case: ............................................................................. 38
3.2. Mơ hình lớp ........................................................................................ 43
3.4. Danh sách các thực thể ....................................................................... 45
3.5. Mơ hình thực thể liên kết ................................................................... 45

Chƣơng 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ .......................... 46
4.1. Giới thiệu chung về hệ thống ............................................................. 46
4.2. Thực nghiệm và đánh giá kết quả ...................................................... 46
KẾT LUẬN................................................................................................... 50
TÀI LIỆU THAM KHẢO ............................................................................ 51
PHỤ LỤC. MÔ TẢ CHI TIẾT CÁC THỰC THỂ ....................................... 54

2


Kênh tin tức điện tử cho các thiết bị cầm tay

TÓM TẮT
Luận văn quan tâm nghiên cứu các giải pháp trích chọn thơng tin trên Web
nhằm xây dựng một hệ thống cung cấp tin tức trên các thiết bị cầm tay thơng
minh mà tin tức này được trích chọn từ các báo điện tử tiếng Việt.
Luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do
Davi de Castro Reis và các đồng tác giả đề xuất [28], một thuật toán được
đánh giá rất hiệu quả trong việc trích chọn tin tức tức tự động thơng qua việc
phân tích cấu trúc cây. Hiện nay RTDM được dùng như là thành phần lõi
chính của hệ thống trích xuất tin tức có tên là AkwanClipping (Akwan
Information Technologies, , thuộc công ty Google tại
Braxin) cung cấp tin tức hàng ngày của các tờ báo phổ biến nhất tại Braxin.
Luận văn đã tiến hành chi tiết và hồn thiện các phần nội dung khơng cơng
bố của thuật toán RTDM, đồng thời tiến hành xây dựng một hệ thống kênh
cung cấp tin điện tử trên các thiết bị cầm tay thông minh. Hệ thống thử
nghiệm việc trích chọn tin tức trên các báo điện tử tiếng Việt phổ dụng hiện
nay và đã cho kết quả đáng khích lệ. Chúng tơi đang tiến hành cải tiến tốc độ
làm việc của hệ thống nhằm tiến tới đưa hệ thống vào hoạt động thực tế.


3



×