Khai thác dữ liệu trên web và xây dựng ứng dụng hỗ trợ nhập liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (428.27 KB, 3 trang )

Khai thác dữ liệu trên Web và xây dựng ứng
dụng hỗ trợ nhập liệu

Nguyễn Bình Minh

Viện Công nghệ Thông tin. Đại học Quốc gia Hà Nội
Luận văn ThS. Công nghệ thông tin
Người hướng dẫn : TS. Nguyễn Văn Đoàn
Năm bảo vệ: 2014
56 tr .

Abstract. Tìm hiểu về các kiến thức nền tảng. Tìm hiểu về các kỹ thuật khai thác dữ
liệu tự động từ các website. Nghiên cứu phương pháp khai thác lượng dữ liệu trên
website. Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu
trên một website cụ thể. Xây dựng một ứng dụng thu thập dữ liệu tự động từ các
website, phục vụ cho các nhu cầu của cá nhân hay tổ chức.
Keywords.Quản lý hệ thống thông tin; Hệ thống thông tin; Khai thác dữ liệu; Website
Content.
Trong thập kỷ qua, chúng ta đã được chứng kiến sự phát triển đến chóng mặt của
Internet mà tiêu biểu là các trang thông tin. Internet đã và đang được coi là một nguồn
cung cấp tin khổng lồ với mọi chuyên mục, mọi vấn đề mà người sử dụng cần đến. Với
sự phát triển này, lượng thông tin từ Internet mang đến cho người sử dụng là quá lớn
dẫn tới việc chúng ta cần phải có các ứng dụng Internet thông minh và hiệu quả hơn
đối với người sử dụng. Tuy nhiên nếu lượng thông tin mà họ cần khai thác là quá nhiều
thì quá trình duyệt web, trích xuất và lưu trữ theo cách thủ công lại trở thành một công
việc khó khăn, hao tốn nhiều sức lực, thời gian của con người. Một số ví dụ có thể kể
ra như: nhu cầu trích xuất thông tin về tất cả các mặt hàng thuộc một chuyên mục của
một website bán hàng nào đó nhằm phục vụ mục đích khảo sát thị trường, nhu cầu
tổng hợp tin tức từ các website tin tức để xây dựng các trang web thông tin tổng hợp,

nhu cầu thu thập thông tin về các doanh nghiệp thuộc một ngành nào đó trên website
danh bạ doanh nghiệp để gửi email quảng cáo, tiếp thị, v.v… Chính những ví dụ thực
tế như trên đã nảy sinh ra nhu cầu: cần phải có một phương thức hoặc công cụ nào đó
có khả năng tìm kiếm, trích xuất thông tin trên web và lưu trữ lại thông tin đó theo ý
muốn của con người, một cách tự động và hiệu quả, và đó cũng chính là mục tiêu được
đặt ra cho đề tài này. Đó là: Tìm hiểu phương pháp khai thác lượng dữ liệu trên, từ đó
xây dựng được một ứng dụng thu thập dữ liệu tự động từ các website, phục vụ cho các
nhu cầu của cá nhân hay tổ chức.
Các nhiệm vụ:
 Tìm hiểu về các kiến thức nền tảng
 Tìm hiểu về các kỹ thuật khai thác dữ liệu tự động từ các website
 Tìm hiểu về các công nghệ liên quan và xây dựng ứng dụng khai thác dữ liệu
trên một website cụ thể
Bố cục của luận văn:
Mở đầu: Đặt vấn đề về ý nghĩa , tính cấp thiết, nhiệm vụ và tính thực tiễn của đề
tài.
Chương 1: Tổng quan về khai thác dữ liệu trên Web
Trong chương này, chúng ta sẽ tìm hiểu các khái niệm cơ bản về trình thu thập
web (web crawler), các chiến lược thu thập dữ liệu, trình bóc tách và trích xuất thông
tin (web scraper), sự phân loại các trang web, từ đó vẽ ra bức tranh chung về khai thác
dữ liệu trên web để hiểu hơn về các giá trị thực tiễn mà nó mang lại trong đời sống con
người.
Chương 2: Phân tích, thiết kế ứng dụng
Phần đầu chương sẽ trình bày về các kiến thức nền tảng và các công nghệ liên
quan, ở phần tiếp theo nêu phát biểu cho bài toán khai thác dữ liệu trên web cũng như
giải pháp thực hiện, kiến trúc thành phần của ứng dụng.
Chương 3: Hiện thực ứng dụng và đánh giá kết quả thu được
Đặc tả thông tin đầu vào cho ứng dụng, lược đồ cơ sở dữ liệu tương ứng và chức
năng của các module trong chương trình. Phần tiếp theo trình bày ví dụ cụ thể và kết
quả thu được khi thực hiện ứng dụng.

Kết luận: Phần cuối của luận văn sẽ nhìn lại những điều đã làm được, nêu lên
những hạn chế, từ đó đề ra hướng phát triển sau này.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Đinh Mạnh Tường (2000). Cấu trúc dữ liệu và thuật toán. Nhà xuất bản khoa
học và kỹ thuật.
Tiếng Anh
[2] Michael Schrenk (2007). Webbots, Spiders, and Screen Scrapers. No Starch,
San Francisco, USA.
[3] Sriram Raghavan, Hector Garcia-Molina (2001). Crawling the Hidden Web.
Computer Science Department, Stanford University, USA.
[4] Steve Lawrence, C. Lee Giles (1998). Searching the World Wide Web.
Science, 280(5360):98.
[5] Michael K. Bergman (2001). White Paper: The Deep Web: Surfacing Hidden
Value. University of Michigan, USA.
[6] Stephen Soderland. Learning to Extract Text-based Information from the
World Wide Web. Department of Computer Science & Engineering, University
of Washington.

Khai thác dữ liệu trên web và xây dựng ứng dụng hỗ trợ nhập liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về