Tải bản đầy đủ (.pdf) (3 trang)

Hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (167.57 KB, 3 trang )

H thng tỡm kim thụng tin v thut toỏn i
sỏnh a mu trong h thng tỡm kim

Nguyn Th Kim Phng

Trng i hc Cụng ngh
Lun vn Thc s ngnh: Cụng ngh thụng tin; Mó s: 1.01.10
Ngi hng dn: PGS.TS. on Vn Ban
Nm bo v: 2003

Abstract: Lun vn trỡnh by tng quan v h tỡm kim thụng tin trờn Internet. Gii
thiu mt s thut toỏn i sỏnh mu trong vn bn v xut thut toỏn i sỏnh
nhanh a mu ci t vo h thng tỡm kim thụng tin

Keywords: H tỡm kim thụng tin; Internet; Mng; Tin hc; Tỡm kim thụng tin

Content
mở đầu

Ngày nay, nhu cầu về thông tin của con ng-ời trong cuộc sống rất lớn. Trong thực tế, thông tin
đáp ứng nhu cầu của con ng-ời không chỉ ngày càng nhiều mà còn đa dạng. Với sự đa dạng và
l-ợng thông tin khổng lồ hiện nay, con ng-ời cần có sự hỗ trợ của các hệ thống phần mềm để
nhận ra và tìm đ-ợc thông tin chính xác đầy đủ mà con ng-ời cần.
Đáp ứng nhu cầu đó, ng-ời ta đã đ-a ra nhiều hình thức cung cấp thông tin, hay nói cách khác
có nhiều nguồn cung cấp thông tin theo nhu cầu của con ng-ời. Và ngày nay, nguồn cung cấp
l-ợng thông tin vô cùng to lớn và đa dạng đó là Internet. Sự phát triển nhanh chóng và không
ngừng của Internet đã mang lại một l-ợng thông tin ngày càng hữu ích, phong phú đa dạng và
đầy đủ hơn. Đó là một nguồn dữ liệu đ-ợc tập hợp từ nhiều nơi, nhiều ng-ời, nhiều tổ chức
khác nhau trên toàn cầu. Vì thế, các thông tin đó có mặt rải rác, phân tán khắp nơi, không
phân biệt ranh giới địa lý, trải khắp trên toàn cầu. Thông tin không những phân tán, phức tạp,
đồ sộ mà còn thuộc nhiều lĩnh vực khác nhau nh-: quản lí, sản xuất, kinh doanh, giáo dục,


nghiên cứu khoa học, vui chơi giải trí,Và hầu hết các thông tin trên Internet đ-ợc l-u trữ
d-ới dạng các tài liệu văn bản. Khối l-ợng và sự đa dạng của thông tin đã mang lại không ít
khó khăn trong việc thu thập, chọn lọc thông tin.
Để giải quyết vấn đề này, ng-ời ta đã xây dựng các hệ thống tìm kiếm thông tin _IRS. Công
cụ hỗ trợ cho phép ng-ời dùng chọn lọc, thu thập thông tin trên Internet là máy tìm kiếm
thông tin, chúng trợ giúp tìm và chọn lọc ra những tài liệu có chứa thông tin cần thiết.
Ng-ời dùng luôn yêu cầu kết quả tìm kiếm phải chính xác, đầy đủ và với tốc độ tìm kiếm
nhanh. Yêu cầu đó đ-ợc đáp ứng chỉ khi các hệ thống tìm kiếm sử dụng các kỹ thuật, thuật
toán hiệu quả, tối -u nhất.
Do vậy, chúng tôi chọn đề tài Hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu
trong hệ thống tìm kiếm để làm luận văn tốt nghiệp cao học.
Luận văn đ-ợc tổ chức thành 3 ch-ơng và phần kết luận.

2
Ch-ơng 1: Trình bày tổng quan về hệ tìm kiếm thông tin trên Internet. Ch-ơng này giới thiệu
chung môi tr-ờng, sự phát triển của hệ tìm kiếm, các khái niệm, định nghĩa cơ bản và qui trình
hoạt động của hệ tìm kiếm cùng một số tiêu chuẩn để đánh giá các hệ tìm kiếm.
Ch-ơng 2: Giới thiệu chi tiết các kỹ thuật, phân tích, xây dựng và đánh giá hai thành phần cơ
bản của hệ tìm kiếm là bộ tìm duyệt và bộ tạo chỉ mục.
Ch-ơng 3: Trên cơ sở phân tích các cấu trúc cũng nh- quy trình hoạt động của hệ tìm kiếm
trong hai ch-ơng tr-ớc. Ch-ơng này tập trung nghiên cứu một số thuật toán đối sánh mẫu
trong văn bản. Phân tích, cài đặt và đánh giá các thuật toán đối sánh đa mẫu nh-
Aho_Crasick, Boyer Moore_Horspool và đề xuất thuật toán đối sánh nhanh đa mẫu dựa vào
hai thuật toán trên để cài đặt vào hệ thống tìm kiếm thông tin.

References
Tài liệu tiếng việt
1. Nguyễn Hoàng Long (2002), Hệ thống tìm kiếm thông tin theo chủ đề dựa trên cơ sở lý
thuyết tập mờ, Luận văn tốt nghiệp cao học, Hà Nội, tr.15-35.
2. Bùi Quang Minh (2002), Máy tìm kiếm VietSeek, Báo cáo kết quả nghiên cứu thuộc đề tài

khoa học đặc biệt cấp ĐHQG Hà Nội, mã số QG-02-02.
3. Phạm Thanh Nam (2003), Một số giải pháp cho bài toán tìm kiếm trong cơ sở dữ liệu
Hypertext, Luận văn tốt nghiệp cao học, Hà Nội, tr.23-40.
Tài liệu tiếng anh
4. Amihood Amir, Moshe Lewenstein, ElyForat (2000), Faster Algorithms for string
Matching with k mismatches, Proceedings of the eleventh annual ACM-SIAM symposium
on Discrete algorithms Bar-Ilan University and Georgia Tech, Weizmann Institute San
Francisco, 5 California, United States, ISBN:0-89871-453-2, pp.794 803.
5. Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke, Sriram Raghavan
(2001), Searching the Web, Technical Report Computer Science Department, Standfort
University TOIT 1(1), pp.2-43.

6. A Nayak (2003), World wide Web, Data Mining for Web-Enabled Electronic Business
Applications, pp.128-138.
http:zSzzSzwww.eng.auburn.eduzSz~wenchenzSzpaper.pdf/world-wide-web-search.pdf
7. C.J Van Rjjsbergen (1992), Information Retrieval, Deparment of computing Science -
University of Glasgow, 2nd edn Butterworths London, ISBN:0-89791-523-2, pp.37-50.
8. Christian Charras Thierry Lecroq (2002), Hand book of Exact String-Matching
Algorithms, pp.165-343.
http:zSzzSzwww-igm.univ-lv.frzSz~lecroqzSzcpm98.pdf/charras98very.pdf

3
9. Hosam M.Mahmoud, Robert T.Smythe, Mireille Regnier (1997), “Analysis of Boyer–
Moore-Horspool String–matching Heuristic”. Deparment of Statistics, The George
Washington University, Washington, USA, pp.169-186.
10. Kin Kolyshkin, Alexander F.Avdonkin (2002), ASPSeck User’s Guide, SWSoft.

11. Maxime Crochemore, Institut Gaspard Monge (2003), “Pattern Matching in String”
UniversitÐ de Marne-la-vallÐe Christophe Hancart, Laboratoire d’Informatique de Rouen,
UniversitÐ de Rouen.

12. Michael W.Berry and Murray Browne (1999), “World Wide Web Seach Technologies’.
13. Robert Sedgewick (1988), Second Edition Algorithms, Princeton University.
14. Sunny Lam (2001), “The Overview of The Web search Engine”, Department of computer
Science University of Waterloo Canada.
15. Sun Wu (1994), “A Fast Algorithms for Multi-Pattern Searching”, Department of
Computer Science Chung-Cheng University Chia-Yi, Taiwan.
16. Sergey Brin and Lawrence Page (2000), “The Anatomy of a Large –Seale Hypertextual,
Stanford, USA.


×