Tải bản đầy đủ (.pdf) (4 trang)

Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay và quá trình chuyển động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (413.57 KB, 4 trang )




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




VŨ NGỌC ANH



NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU
VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC
TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS &
SMARTPHONES)




LUẬN VĂN THẠC SỸ











HÀ NỘI - 2006


Kênh tin tức điện tử cho các thiết bị cầm tay


1

MỤC LỤC
TRANG PHỤ BÌA Trang
LỜI CAM ĐOAN
MỤC LỤC
TÓM TẮT 3
CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 4
CHÚ GIẢI KÝ HIỆU VÀ MÔ HÌNH 5
CÁC HÌNH MINH HỌA 6
MỞ ĐẦU 7
CHƢƠNG 1. XÂY DỰNG KÊNH CUNG CẤP TIN ĐIỆN TỬ TRÊN
THIẾT BỊ CẦM TAY 10
1.1. Báo điện tử và công nghệ Internet không dây 10
1.1.1. Báo điện tử - một thành tựu của Internet 10
1.1.2. Sự phát triển của các thiết bị cầm tay 11
1.1.3. Công nghệ kết nối internet không dây 12
1.2. Bài toán xây dựng kênh tin tức điện tử trên thiết bị cầm tay 13
1.2.1. Mô tả bài toán 13
1.2.2. Mô tả các chức năng cơ bản của hệ thống 14
1.3. Hƣớng tiếp cận giải quyết bài toán 14
Chƣơng 2. THUẬT TOÁN RTDM VÀ ỨNG DỤNG TRONG TRÍCH
XUẤT TIN 16

2.1. Khái niệm “Chi phí chuyển đổi cây” 16
2.2. Thuật toán RTDM 20
2.3. Áp dụng RTDM trích xuất tin tức tự động 27
2.3.1 Phân cụm trang 29
2.3.2 Trích xuất mẫu chung 30
2.3.3 Khớp dữ liệu 33


Kênh tin tức điện tử cho các thiết bị cầm tay


2

2.3.4 Gán nhãn dữ liệu 35
Chƣơng 3 . PHÂN TÍCH THIẾT KẾ HỆ THỐNG 37
3.1.Giới thiệu 37
3.2. Mô hình Use Case: 38
3.2. Mô hình lớp 43
3.4. Danh sách các thực thể 45
3.5. Mô hình thực thể liên kết 45
Chƣơng 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 46
4.1. Giới thiệu chung về hệ thống 46
4.2. Thực nghiệm và đánh giá kết quả 46
KẾT LUẬN 50
TÀI LIỆU THAM KHẢO 51
PHỤ LỤC. MÔ TẢ CHI TIẾT CÁC THỰC THỂ 54



Kênh tin tức điện tử cho các thiết bị cầm tay



3

TÓM TẮT
Luận văn quan tâm nghiên cứu các giải pháp trích chọn thông tin trên Web
nhằm xây dựng một hệ thống cung cấp tin tức trên các thiết bị cầm tay thông
minh mà tin tức này được trích chọn từ các báo điện tử tiếng Việt.
Luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do
Davi de Castro Reis và các đồng tác giả đề xuất [28], một thuật toán được
đánh giá rất hiệu quả trong việc trích chọn tin tức tức tự động thông qua việc
phân tích cấu trúc cây. Hiện nay RTDM được dùng như là thành phần lõi
chính của hệ thống trích xuất tin tức có tên là AkwanClipping (Akwan
Information Technologies, , thuộc công ty Google tại
Braxin) cung cấp tin tức hàng ngày của các tờ báo phổ biến nhất tại Braxin.
Luận văn đã tiến hành chi tiết và hoàn thiện các phần nội dung không công
bố của thuật toán RTDM, đồng thời tiến hành xây dựng một hệ thống kênh
cung cấp tin điện tử trên các thiết bị cầm tay thông minh. Hệ thống thử
nghiệm việc trích chọn tin tức trên các báo điện tử tiếng Việt phổ dụng hiện
nay và đã cho kết quả đáng khích lệ. Chúng tôi đang tiến hành cải tiến tốc độ
làm việc của hệ thống nhằm tiến tới đưa hệ thống vào hoạt động thực tế.

×