Tải bản đầy đủ (.pdf) (47 trang)

Tìm kiếm thông tin tiếng việt trên internet

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (753.72 KB, 47 trang )

Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt
TRƢỜNG ĐẠI HỌC VINH

KHOA CÔNG NGHỆ THƠNG TIN
----------o0o----------

LUẬN VĂN TỐT NGHIỆP

TÌM KIẾM THƠNG
TIN TIẾNG VIỆT
TRÊN INTERNET

GIÁO VIÊN HƯỚNG DẪN : THS. PHẠM

QUANG TRÌNH
SINH VIÊN THỰC HIỆN

Tìm kiếm thông tin Tiếng Việt trên Internet

: NGUYỄN NGỌC HIẾU

3


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt



VINH, 05/2002 –
Mở đầu -------------------------------------------------------------------------------------6
Chương I: Tổng quan về World Wide Web -------------------------------------------9
1.1. Những khái niệm cơ bản về Web -------------------------------------------------9
1.1.1. Giới thiệu chung ----------------------------------------------------------------9
1.1.2. Nguồn gốc phát triển của WWW ---------------------------------------------9
1.1.3. Hoạt động của Web ---------------------------------------------------------- 10
1.1.3.1. Web Client (hay Web Browser) ------------------------------------------ 10
1.1.3.2. Web Server ------------------------------------------------------------------ 11
1.1.4. Các phương pháp tổ chức Website ---------------------------------------- 12
1.1.5. HTTP (Hypertext transfer protocol) --------------------------------------- 12
1.1.6. Phân loại Web ---------------------------------------------------------------- 14
1.1.6.1. Web tĩnh------------------------------------------------------------------ 14
1.1.6.2. Web động ---------------------------------------------------------------- 15
1.1.6.3. Form page ---------------------------------------------------------------- 16
1.2. Thành phần cơ bản của WWW----------------------------------------------------------------------------------- 16

1.2.1. Hypertext (siêu văn bản) ---------------------------------------------------- 16
1.2.2. Hyperlink (siêu liên kết) ----------------------------------------------------- 16
1.2.3. Website ------------------------------------------------------------------------ 16
1.2.4. Trang Web (Web page) ------------------------------------------------------ 17
1.2.5. URL (Uniorm Resource Locator) ------------------------------------------ 17
Chương II: Phân tích một Website tìm kiếm thơng tin ---------------------------- 18
2.1. Đặt vấn đề -------------------------------------------------------------------------- 19
2.2. Cách thức làm việc của Search Engines ---------------------------------------- 19
2.2.1. Sơ đồ làm việc của Search Engines ------------------------------------------- 19
2.2.2. Các bước làm việc của Search Engines -------------------------------------- 20
2.2.3. Giao diện tìm kiếm (Search Interface) --------------------------------------- 20


Tìm kiếm thơng tin Tiếng Việt trên Internet

4


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Chương III: Xây dựng thử nghiệm chương trình tìm kiếm thơng tin tiếng Việt
trên Internet------------------------------------------------------------------------------ 25
3.1. Ngơn ngữ lập trình Python ------------------------------------------------------- 25
3.1.1. Giới thiệu ngơn ngữ------------------------------------------------------------- 25
3.1.2. Các đặc tính của Python -------------------------------------------------------- 25
3.1.3. Các cấu trúc điều khiển--------------------------------------------------------- 26
3.1.3.1. Điều kiện if -------------------------------------------------------------------- 26
3.1.3.2. Điều kiện While --------------------------------------------------------------- 27
3.1.3.3. Lệnh For ----------------------------------------------------------------------- 27
3.1.3.4. Khai báo Functions ----------------------------------------------------------- 29
3.1.3.5. Classes-------------------------------------------------------------------------- 30
3.1.3.6. Modules ------------------------------------------------------------------------ 30
3.2. Phân tích chương trình tìm kiếm thơng tin tiếng Việt trên Internet --------- 32
3.2.1. Các kiểu dữ liệu bậc cao ------------------------------------------------------- 33
3.2.2. Các cơng cụ lập trình mạng rất mạnh ---------------------------------------- 35
3.2.2.1. TCP/IP-------------------------------------------------------------------------- 35
3.2.2.2. HTTP --------------------------------------------------------------------------- 35
3.2.2.3. HTML -------------------------------------------------------------------------- 35
3.2.2.4. CGI ----------------------------------------------------------------------------- 36
3.2.3. Công cụ xử lý xâu ký tự -------------------------------------------------------- 36

3.2.3.1. Các hàm string ---------------------------------------------------------------- 36
3.2.3.2. Các hàm Regular expenssion ------------------------------------------------ 37
3.2.4. Lập trình đa luồng --------------------------------------------------------------- 38

Tìm kiếm thơng tin Tiếng Việt trên Internet

5


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

3.2.5. Khả năng hướng đối tượng ---------------------------------------------------- 39
3.3. Cài đặt ------------------------------------------------------------------------------ 40
3.3.1. Cấu trúc hệ thống --------------------------------------------------------------- 40
3.3.1.1. Chương trình tạo Index ------------------------------------------------------ 40
3.3.1.2. Chương trình tìm kiếm ------------------------------------------------------- 40
3.3.2. Các module chính của chương trình ------------------------------------------ 41
3.3.2.1. Các module của chương trình tạo Index ----------------------------------- 41
3.3.2.2. Các module của chương trình Tìm Kiếm ---------------------------------- 43
3.3.3. Đánh giá -------------------------------------------------------------------------- 44
3.3.3.1. Các tính năng tìm kiếm ------------------------------------------------------ 44
3.3.3.2. Khả năng xử lý tiếng Việt --------------------------------------------------- 44
3.3.3.3. Khả năng tạo index ----------------------------------------------------------- 45
3.3.3.4. Quản trị ------------------------------------------------------------------------- 45
3.3.3.5. Hiệu năng (performance) ---------------------------------------------------- 45
3.3.3.6. Các yêu cầu về thiết bị ------------------------------------------------------- 46
Kết luận ---------------------------------------------------------------------------------- 47

Tài liệu tham khảo-----------------------------------------------------------------------45

Tìm kiếm thơng tin Tiếng Việt trên Internet

6


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

MỞ ĐẦU
1. Lý do chọn đề tài
Internet là một kho tài liệu khổng lồ với hàng triệu tài liệu trên đó. Việc
tìm kiếm một tài liệu cần tham khảo là một công việc không đơn giản và có thể
mất khá nhiều thời gian nếu khơng có cơng cụ trợ giúp. Hiện nay trên Internet
có một số site hỗ trợ bạn trong việc tìm kiếm thơng tin. Các site này thường
được gọi là cơng cụ tìm kiếm (Search Engines). Song hầu hết các site đó chỉ
phục vụ cho việc tìm kiếm các tài liệu bằng tiếng Anh, tiếng Pháp . . . Do đó,
việc tìm kiếm thơng tin tiếng Việt trên Internet vẫn còn nhiều vấn đề khó khăn
tồn tại.
Với những lý do đó, được sự hướng dẫn và giúp đỡ của thầy giáo Thạc sĩ
Phạm Quang Trình, em đã chọn đề tài “Tìm kiếm thơng tin tiếng Việt trên
Internet” làm đề tài cho luận văn tốt nghiệp của mình.
2. Mục đích nghiên cứu
Nghiên cứu và thử nghiệm chương trình tìm kiếm thơng tin tiếng Việt
trên Internet.
3. Bố cục luận văn


Tìm kiếm thơng tin Tiếng Việt trên Internet

7


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Nội dung luận văn gồm 3 chương:
Chƣơng 1: Tổng quan về World Wide Web
Giới thiệu về dịch vụ lớn nhất hiện nay trên Internet, đồng thời cung cấp
một số khái niệm cơ bản về Web.
Chƣơng 2: Phân tích một Website tìm kiếm thơng tin
Đưa ra cấu trúc chung nhất của một Website tìm kiếm và cách tìm kiếm
trên Internet mang lại hiệu quả cao nhất.
Chƣơng 3: Xây dựng thử nghiệm chƣơng trình tìm kiếm thơng tin
tiếng Việt trên Internet
Giới thiệu chương trình được xây dựng dựa trên ngôn ngữ nào, cấu trúc
hệ thống, các module xây dựng nên chương trình và cuối cùng là các kết quả
thử nghiệm cùng sự đánh giá về chương trình tìm kiếm thơng tin tiếng Việt trên
Internet.
“Tìm kiếm thơng tin tiếng Việt trên Internet” với một giao diện đơn
giản và gần gũi với người Việt, chỉ cần nhập vào một hay một số từ khố bằng
tiếng Việt chứa thơng tin cần tìm kiếm, chương trình sẽ tìm các trang Web chứa
các từ khố đó và hiển thị trang kết quả tìm kiếm bao gồm liên kết đến các trang
Web này và các thơng tin liên quan khác như kích thước, thời gian cập nhật,
đoạn trích...
Để hồn thành luận văn này, em xin chân thành cảm ơn Ban chủ nhiệm

khoa Công nghệ thông tin, các thầy cô giáo cùng với bạn bè về sự giúp đỡ tận
tình trong suốt quá trình qua. Đặc biệt, em xin bày tỏ lòng cảm ơn thầy giáo
hướng dẫn Thạc sĩ Phạm Quang Trình về những chỉ dẫn khoa học và sự tận
tâm hướng dẫn giúp em hồn thành luận văn.
Chương trình “Tìm kiếm thơng tin tiếng Việt trên Internet ” do hạn
chế về thời gian và kinh nghiệm nên khơng thể tránh khỏi những thiếu sót nhất
định.

Tìm kiếm thơng tin Tiếng Việt trên Internet

8


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Em hy vọng sẽ được tiếp thu những lời chỉ bảo và hướng dẫn của thầy cơ,
giúp em có thể tiếp tục nghiên cứu kỹ hơn về lĩnh vực này.
Vinh, tháng 05 năm 2002.

Chƣơng I
TỔNG QUAN VỀ WORLD WIDE WEB
1.1. Những khái niệm cơ bản về Web
1.1.1. Giới thiệu chung
World Wide Web (WWW), hay còn gọi là Web, là một dịch vụ trên
Internet ra đời gần đây nhưng phát triển nhanh nhất. 85% các giao dịch trên
Internet ước lượng thuộc về WWW. Web có thể chứa không giới hạn các tài
liệu xây dựng trên mọi phương tiện, từ những văn bản thuần tuý đến những

thông tin Multimedia. Hầu hết mọi người xây dựng Website mới đều sử dụng
WWW, vì khả năng sử dụng dễ dàng đồng thời cung cấp nhiều dịch vụ khác
nhau với một giao diện chung. WWW hấp dẫn mọi người vì khả năng thể hiện
đồ hoạ, thơng tin tìm kiếm và các siêu liên kết.
1.1.2. Nguồn gốc phát triển của WWW
Ra đời từ một dự án nghiên cứu phát triển tại phịng thí nghiệm vật lý hạt
nhân Châu Âu vào cuối năm 1989, nhóm nghiên cứu do Tim Berners-Lee và

Tìm kiếm thơng tin Tiếng Việt trên Internet

9


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Robert Cailliau đứng đầu đã phát triển và đưa ra một giao thức truyền và nhận
các tệp siêu văn bản (Hypertext) theo mơ hình Client/Server gọi tắt là HTTP
(Hypertext Transfer Protocol) để phục vụ cho việc trao đổi thông tin trên
Internet.
* Ƣu điểm lớn nhất của WWW là:
+ Cách thức sắp xếp thông tin của Web nhờ dùng các siêu liên kết để tổ
chức sắp xếp nhiều tập tin nằm rải rác trên Internet vào trong một trang Web.
+ Cho phép thâm nhập vào bất cứ Website chứa CSDL nào trên Internet.
1.1.3. Hoạt động của Web
[1] : Bộ duyệt trên PC (Web Client) gửi địa chỉ URL đến máy chủ.
[2]: Yêu cầu được chuyển tới máy chủ ở xa. Trang Web cần thiết sẽ được
gửi lại Web Client yêu cầu.

INTERNET
[1]: Web Client

[2]: Web Server

1.1.3.1. Web Client (hay Web Browser)
Là công cụ truy xuất dữ liệu trên mạng, là phần mềm giao diện trực tiếp
với người sử dụng. Nhiệm vụ của Web Browser là nhận các yêu cầu của người

Tìm kiếm thơng tin Tiếng Việt trên Internet

10


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

dùng, gửi các yêu cầu đó qua mạng tới các Web Server và nhận các dữ liệu cần
thiết từ Server để hiển thị lên màn hình.
Dữ liệu bao gồm bản thân tập tin HTML (HyperText Markup Languague)
và các tập tin đồ hoạ, âm thanh, video được gọi đến trong các tập tin HTML.
Khi dữ liệu được nhận, trình duyệt Web định hình kiểu tập tin như các thẻ
HTML đã chỉ ra và hiển thị lên màn hình. Hiện nay các Web Browser chủ yếu
dùng giao diện đồ họa với người dùng để trình bày tài liệu một cách hấp dẫn
hơn. Thơng tin hiển thị có thể được lưu trữ trên những trang Web riêng, được
tạo ra trước khi có yêu cầu đó (trang Web tĩnh) hoặc thơng tin có thể được tạo
ra từ trong các CSDL dựa trên các yêu cầu đó (trang Web động). Có nhiều Web
Browser khác nhau như:

+ Netscape Navigator
+ Microsoft Internet explorer
+ Lynx trong Unix
Các Web Client hỗ trợ khả năng :
+ Xử lý file HTML
+ Xử lý file GIF
+ Xử lý file JPEG
1.1.3.2. Web Server
Web Server là một máy tính được nối vào Internet và chạy các phần mềm
được thiết kế để truyền đi các trang HTML và các tập tin có định dạng khác
(như các tập tin multimedia). Máy tính Server này phải có kết nối Internet tốc
độ tương đối cao và đủ mạnh để đáp ứng nhiều kết nối đồng thời từ Internet.
Phần mềm Web Server thường đòi hỏi một hệ điều hành khá mạnh (như
Unix, WindowsNT ) mặc dù cũng có những phần mềm chạy trên các phiên bản
khác của Microsoft Windows, hoặc Macintosh OS được chọn làm máy chủ
Web.

Tìm kiếm thơng tin Tiếng Việt trên Internet

11


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

1.1.4. Các phƣơng pháp tổ chức Website
* Tổ chức Site một-thƣ-mục: Những site nhỏ (chỉ có vài trang HTML
và vài hình ảnh) thường chấp nhận được một thư mục duy nhất trên Web

Server. Tất cả hình ảnh và các trang HTML của bạn được lưu trong thư mục
này. Một trong những thuận lợi lớn nhất của hệ thống này là việc liên kết đến
các tập tin và hình ảnh cục bộ khơng cần đến đường dẫn.
* Tổ chức Site thƣ-mục-theo-chức-năng: Với các Site phức tạp, ta có
thể đưa các phần nội dung có liên quan với nhau vào cùng một thư mục. Ví dụ,
trong thư mục chính, bạn chỉ để trang chỉ mục và một số hình cần thiết và nếu là
Site của một cơng ty, bạn sẽ tạo các thư mục con cho các trang về thông tin
thương mại, thông tin sản phẩm, hỗ trợ kỹ thuật . . . , trong mỗi thư mục con đó
bạn chứa tất cả các trang HTML liên quan và các hình ảnh cho những trang này.
* Tổ chức Site thƣ-mục-theo-kiểu-file: Một số người thích tạo thư mục
con theo kiểu tập tin thay vì theo nội dung của trang. Thư mục chính của bạn có
thể chỉ có trang Index. Các thư mục con khác theo từng thể loại như hình ảnh
trang Web, tập tin có thể tải về, . . . Lợi ích chính của cách tổ chức này là ở chỗ
ta chỉ phải thay thế các tập tin một lần. Ví dụ, nếu bạn dùng một hình trên nhiều
trang khác nhau, bạn chỉ thay thế nó một lần trong thư mục hình ảnh và tất cả
các trang HTML có kết nối sẽ dùng được hình ảnh mới.
* Tổ chức Site hỗn hợp: Cách tốt nhất để tổ chức một Site lớn là kết hợp
hai phương pháp cuối. Tạo các thư mục con riêng rẽ cho những phần tử không
lặp lại (như các trang của một danh mục), trong khi tạo các thư mục con khác
cho các phần tử được dùng nhiều lần (như các hình ảnh)
1.1.5. HTTP (Hypertext transfer protocol)
HyperText Transfer Protocol (HTTP – Giao thức truyền siêu văn bản) là
giao thức ở cấp ứng dụng mà Client dùng để liên lạc với Server. Ra đời từ năm
1989, nhưng đến năm 1990 các nhà phát triển và các tổ chức nghiên cứu trên

Tìm kiếm thơng tin Tiếng Việt trên Internet

12



Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Internet đã phát triển nó thành giao thức truyền và nhận các tệp siêu văn bản
(HTML – HyperText Markup Language). World Wide Web (WWW) là một
trong nhiều dịch vụ thông tin sử dụng giao thức HTTP làm phương tiện truyền
và nhận tin trên Internet, cho phép quản lý số lớn các yêu cầu và truyền các
dạng số liệu.
HTTP tương tự như Telnet, cho phép người sử dụng từ trạm làm việc của
mình có thể đăng nhập vào một trạm ở xa qua mạng và làm việc với hệ thống y
như là từ một trạm cuối nối trực tiếp với trạm ở xa đó. Tuy nhiên, có một sự
khác nhau quan trọng giữa HTTP và Telnet đó là HTTP khơng duy trì kết nối
thường xun với Server. Khi Client thiết lập một kết nối với Server, Server gửi
về:
+ Version giao thức của tài liệu
+ Thông báo trạng thái các u cầu như thơng tin được tìm thấy.
+ Loại MIME (Multipurpose Internet Mail Extensions) dùng xác
định dạng media nào được dùng (âm thanh, hình ảnh,....)
+ Văn bản HTML
Ví dụ như:
GET example.htm HTTP /1.0
accept: */*
user-agent: Mozilla/4.0 (compitable, MSIE 4.0; windows 95)
connection: Keep Alive
Khi nhận được yêu cầu, Web Server sẽ trả lời bắt đầu là version HTTP
Server đang sử dụng, theo sau là một mã cho sự trả lời thành cơng hay thất bại
với các lỗi ... Sau dịng này là dòng chỉ ra chiều dài, kiểu nội dung (MIME
type)


Tìm kiếm thơng tin Tiếng Việt trên Internet

13


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Hầu hết việc truyền thông HTTP được bắt đầu từ một người truy cập và
bao gồm một yêu cầu được cung cấp tới một tài nguyên trên một vài trạm dịch
vụ nguồn.
- Trong trường hợp đơn giản nhất, giao thức HTTP có thể được thực hiện
dựa trên một kết nối đơn (v) giữa người truy cập (user agent - UA) và trạm dịch
vụ nguồn (origin server - O).
* Sơ đồ thể hiện như sau:
Chuỗi yêu cầu---------> UA------v-------O <--------- Chuỗi kết quả
HTTP là một protocol không trạng thái, nghĩa là Server không lưu giữ lại
thông tin về user và chương trình duyệt của client - Netscape đã đưa ra một kỹ
thuật để hỗ trợ việc lưu giữ lại các thông tin này gọi là cookie. Các giá trị của
cookie được lưu trên chương trình duyệt. Server có thể ấn định các giá trị trong
sự trả lời với lệnh set-cookie, và chương trình duyệt trả lại cookie cho Server
trong các yêu cầu sau đó bằng cách sử dụng header Cookie. Bằng cách này
Server có thể lưu giữ thơng tin của user và có thể nhận lại khi cần.
Với HTTP nó cho phép xác định tài nguyên yêu cầu có thể là một tập tin
hoặc một chương trình. Nếu là một tập tin thì Server đơn giản chỉ trả về Client
nội dung của tập tin nó. Nếu là một chương trình thì Web Server sẽ thực thi
chương trình đó (có thể có các tham số được cung cấp bởi chương trình duyệt).

Các chương trình này được gọi là các CGI-script.
1.1.6. Phân loại Web
1.1.6.1. Web tĩnh
Là tài liệu được phân phát rất đơn giản từ hệ thống file của Server. Web
Server tiến hành tìm kiếm và xác định đúng vị trí file đó và gửi kết quả về cho
Client. Định dạng các trang Web tĩnh là các siêu liên kết, các trang dạng text,
các hình ảnh đơn giản.

Tìm kiếm thơng tin Tiếng Việt trên Internet

14


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

* Ƣu điểm: Khi CSDL là nhỏ thì việc phân phát dữ liệu có hiệu quả rõ
ràng, Server có thể đáp ứng nhu cầu của Client một cách nhanh chóng. Kiểu
Web tĩnh sẽ là tốt nhất để sử dụng thơng tin có sẵn trên ổ đĩa cứng và không
thay đổi.
* Nhƣợc điểm: Không năng động, không đáp ứng được yêu cầu phức tạp
của người sử dụng.
* Quá trình phân phát tài liệu tĩnh đƣợc thể hiện nhƣ sau:
Browser gửi yêu cầu (request)
Browser

Server


Server gửi trả tài liệu
1.1.6.2. Web động
Về cơ bản nội dung của một trang Web động như trong một trang Web
tĩnh, ngồi ra nó cịn có thể thao tác với CSDL để đáp ứng nhu cầu phức tạp của
người sử dụng. Trong nhiều trường hợp những trang Web động này là kết quả
của một phần mềm chạy trên Server làm dịch vụ Web. Sau khi nhận được yêu
cầu từ Web client, chẳng hạn như tạo một truy vấn từ một CSDL đặt trên
Server, ứng dụng Internet Server sẽ truy vấn CSDL này, tạo một trang HTML
chứa kết quả truy vấn rồi gửi trả cho người dùng. Có nhiều cách thức để móc
nối với CSDL bên ngoài như ISAPI (Internet Server Application Programming
Interface), ASP (Active Server Page), Java hoặc là CGI (Common Gateway
Interface).
* Cơ chế hoạt động của Web động:
URL

Yêu Cầu

CGI

Kết nối

CSDL

Form

Dữ liệu trả về

Tìm kiếm thông tin Tiếng Việt trên Internet

Dữ liệu trả về

15


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

1.1.6.3. Form page
Về bản chất Form page là trường hợp đặc biệt của trang Web tĩnh. Nó
cho phép nhận thơng tin hay phản hồi từ người dùng. Nếu người dùng có thể gõ
vào những câu trả lời - ý kiến, chọn câu trả lời từ danh sách, hay chọn câu trả
lời từ một số tuỳ chọn. Sau khi người dùng điền xong vào Form, ấn Submit thì
dữ liệu sẽ được gửi đến Web Server và được xử lý bởi một Script (Một chương
trình được thiết kế để xử lý dữ liệu hoặc tạo ra một trang Web để phản hồi).
1.2. Thành phần cơ bản của WWW
1.2.1. Hypertext (siêu văn bản)
Là kỹ thuật biểu diễn thông tin trong đó các từ được chọn trong văn bản
có thể được “mở rộng” bất kỳ lúc nào. Sự “mở rộng” ở đây có thể được hiểu
theo nghĩa là nhúng các liên kết (Link) tới các tài liệu khác (văn bản, hình ảnh,
âm thanh ... ). Bằng việc sử dụng siêu văn bản như một hệ thống giao thông
hiện đại, người dùng có thể đi từ trang này đến trang khác mà khơng cần quan
tâm tới vị trí của từng tài liệu.
1.2.2. Hyperlink (siêu liên kết)
Là cuộc nối từ trang này đến trang đích khác của cùng một Website hoặc
tới Website khác. Đích của siêu liên kết thường nằm trên một trang Web khác,
nhưng nó cũng có thể là một hình ảnh, một E_mail, một file hoặc một chương
trình.
Khi tạo một siêu liên kết thì đích của nó được tạo mã dưới dạng URL
(Uniform Resource Locator). URL gán cho mỗi tài liệu, mỗi chương trình và

tập tin trên Internet một địa chỉ riêng biệt. Hyperlink có thể được chỉ định theo
nhiều cách.
1.2.3. Website

Tìm kiếm thơng tin Tiếng Việt trên Internet

16


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Là một tập hợp các trang Web có liên hệ với nhau và các tập tin khác
được liên kết lại với nhau. Website thơng thường có mục đích riêng hoặc là liên
quan đến cá nhân, đến cơng việc.
Trên mỗi Website có một trang chủ (Home page). Đây là trang mà người
dùng khi truy cập vào một Website sẽ nhìn thấy đầu tiên. Từ trang chủ có thể có
thể nhấn vào các liên kết để mở các trang Web khác.
1.2.4. Trang Web (Web page)
Là các tài liệu căn bản của WWW và được viết bằng ngôn ngữ HTML
(HyperText Markup Language). Các trang có thể là một phần của Web hoặc
đứng một mình. Một trang Web bao gồm: Văn bản, Danh sách Menu, Bảng,
Hình ảnh, Âm thanh, . . . Các Web chứa Hyperlink để liên kết tới các trang Web
khác. Các trang Web trên một Web Server được lưu giữ trên các thư mục khác
nhau. Do đó để yêu cầu một trang cụ thể ta phải cung cấp một đường dẫn đầy
đủ (bao gồm tên thư mục và tên file) của trang đó.
1.2.5. URL (Uniorm Resource Locator)
Để thực hiện việc truy nhập, liên kết các tài liệu khác nhau theo kỹ thuật siêu

văn bản, Web sử dụng khái niệm URL. Đây chính là một dạng tên để định danh
duy nhất cho một tài liệu hoặc một dịch vụ trong Web.
* Cấu trúc chung của một URL:
URL= (URL tuyệt đối | URL tương đối)
URL tuyệt đối= Protocol “:” URL tương đối
URL tương đối= Net_path | asp_path | rel_path
Net_path(đường dẫn mạng)= “/” net_loc [asp_path]
asp_path(đường dẫn tuyệt đối)= “/” rel_path
rel_path(đường dẫn tương đối)=[path]
trong đó

() : Thành phần bắt buộc phải có
| : Hoặc

Tìm kiếm thơng tin Tiếng Việt trên Internet

17


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

[] : Thành phần không bắt buộc phải có
=> Cú pháp chung của URL:
://<net_loc>/
+ Protocol “:” là tên của giao thức(protocol name) có thể là:
FTP (File transfer protocol)
HTTP(Hypertext transfer protocol)

.....
+ “//” Net_loc chỉ vị trí của máy chủ (Network location)
+ “/” path là đường dẫn của URL (có thể là directory, file của trang Web)
Ví dụ: Ta có địa chỉ URL như sau:
http: // www.host.com/files/here.html
+ http:// Giao thức truy cập
+ www.host.com: Tên của máy chủ
+ /file/here.html: Đường dẫn.

Chƣơng II
PHÂN TÍCH MỘT WEBSITE TÌM KIẾM THƠNG TIN

Tìm kiếm thông tin Tiếng Việt trên Internet

18


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

2.1. Đặt vấn đề
Hiện nay, nhu cầu tìm kiếm thơng tin trên Internet ngày càng cao song cịn
gặp nhiều khó khăn vì khối lượng thơng tin trên Internet rất lớn, lại không được
tổ chức chặt chẽ và thay đổi thường xuyên. Cách đơn giản nhất và dễ sử dụng
nhất để có được thơng tin cần thiết là vào các site tìm kiếm và sử dụng các cơng
cụ của nó để truy tìm các trang Web. Qua các Site tìm kiếm bạn có thể sử dụng
một cơ cấu truy tìm gọi là Search Engines.
Khi ta đưa ra các yêu cầu tìm kiếm thì Search Engines sẽ tìm kiếm và hiển

thị các thơng tin tìm thấy lên màn hình kết quả dưới dạng một danh sách các
siêu liên kết vào các trang Web có chứa thơng tin phù hợp với yêu cầu tìm
kiếm.
Tiêu đề trang, đường dẫn URL và các yếu tố khác, tất cả đều có một vai trò
nhất định trong khi đưa ra các yêu cầu tìm kiếm.
2.2. Cách thức làm việc của Search Engines

User

2.2.1. Sơ đồ làm việc của Search Engines
Internet

Internet

Search Interface

Spider

Indexer

Database

Admin Interface

Tìm kiếm thơng tin Tiếng Việt trên Internet

19


Nguyễn Ngọc Hiếu

nghiệp

Luận văn tốt

+ Admin Interface: Là người quản trị hệ thống, quản lý Spider, Indexer,
Database.
2.2.2. Các bƣớc làm việc của Search Engines
+ Bước 1: Search Engines sử dụng một module được gọi là Spider hay
còn gọi là Crawler tìm kiếm trên Internet các tài liệu và những địa chỉ Web của
chúng.
+ Bước 2: Tài liệu và những địa chỉ Web được tập hợp và sắp xếp lại sau
đó gửi tới phần mềm đánh chỉ mục của Search Engines (gọi là Indexer).
+ Bước 3: Phần mềm đánh chỉ số chọn thơng tin từ tài liệu, lưu nó trong
một CSDL (Database).
+ Bước 4: Khi thực hiện một tìm kiếm bằng cách đưa vào u cầu tìm
kiếm (từ khố, thời gian, địa chỉ, ...), Search Engines sẽ tìm kiếm trong
Database những tài liệu có chứa thơng tin thích hợp với những yêu cầu nhập
vào.
+ Bước 5: Search Engines liệt kê ra các kết quả theo cách liên kết siêu
văn bản và trả về cho người dùng.
2.2.3. Giao diện tìm kiếm (Search Interface)
Search Interface là phần có thể nhìn thấy của một Search Engines. Hàng
ngày có hàng triệu người đánh vào các từ khố tìm kiếm và cũng nhận được sự
đáp lại của vơ số URLs. Đó thực sự là một vấn đề lớn đối với người sử dụng.
Tuy nhiên, để tạo ra những tài liệu HTML một cách thân thiện, bạn phải biết
phạm vi đặc trưng của tài liệu cần tìm để từ đó đưa ra những cách tìm kiếm
mang lại hiệu quả cao nhất. Có rất nhiều cách tìm kiếm giúp cho người dùng
tìm kiếm nhanh trên Internet nhưng khơng phải tất cả các cách tìm kiếm đều có
chức năng giống nhau:
* Tìm kiếm theo từ viết hoa


Tìm kiếm thơng tin Tiếng Việt trên Internet

20


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Nếu một từ tìm kiếm được viết hoa thì Search Engines sẽ chỉ chuyển tải
những thơng tin chứa từ viết hoa đó. Chẳng hạn, nếu bạn quan tâm tới những
thông tin liên quan tới Trung Quốc, việc viết hoa từ đó và sử dụng một cơng cụ
tìm kiếm hỗ trợ tìm kiếm theo từ viết hoa sẽ giảm số lượng kết quả thu được.
Tuy nhiên, trong nhiều trường hợp tốt hơn hết là không nên viết hoa từ khoá để
cho phép chuyển tải những tài liệu có từ viết hoa trong tiêu đề.
* Phrase Searching (Tìm kiếm theo cụm từ)
Khi sử dụng thuật ngữ tìm kiếm nhiều hơn một từ trong một lệnh riêng biệt.
Nếu bạn đưa các từ đó vào trong một dấu trích dẫn (“...”) thì các tài liệu trả về
là các tài liệu chỉ chứa tất cả các từ đã đưa vào. Chẳng hạn, khi tìm kiếm những
thơng tin cho việc mua máy tính, ta gõ “máy tính” trong ngoặc kép thì sẽ giới
hạn những tài liệu chứa từ “máy” và “tính” nhưng khơng theo thứ tự đó, có thể
đưa ra nhiều đoạn văn khác nhau hồn tồn và khơng liên quan đến máy tính.
* Truncation (Cắt bớt từ tìm kiếm)
Nếu bạn đang tìm kiếm thơng tin về vườn tược, bạn có thể sử dụng nó như
một từ khố tìm kiếm. Tuy nhiên, nếu kết quả bị giới hạn trong một số từ (mặc
dù không giống với từ gardening) và bạn muốn mở rộng việc tìm kiếm để có
nhiều kết quả hơn thì bạn có thể sử dụng một phần gốc của từ và có thể viết tắt
nó bằng một dấu “ * ” ( garden*). Engines sẽ trả về các tài liệu liên quan có

chứa những từ như gardens, garden, gardener, . . .
* Boolean Logic (Tìm kiếm theo các tốn tử Logic)
Có lẽ đặc tính hữu ích nhất trong việc xác định cách thức tìm kiếm là sử
dụng các tốn tử Logic. Các toán tử logic AND, OR, NOT (hoặc AND NOT
trong một vài Engines) có thể được kết hợp với những từ khóa trong những truy
vấn. Sau đây là một số tốn tử logic cho tính năng tìm kiếm hữu hiệu nhất:
+ AND:

Tìm kiếm thơng tin Tiếng Việt trên Internet

21


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Nếu bạn đang tìm kiếm một tài liệu có chứa tất cả các từ khố, bạn có thể
sử dụng tốn tử AND giữa các từ khố. Engines sẽ chỉ trả về những tài liệu thoả
mãn cho tất cả những từ đó. Chẳng hạn, sử dụng tiêu chí tìm kiếm Thể AND
Thao thì sẽ trả về tất cả các tài liệu chứa 2 từ trên. Nhưng phải chắc chắn rằng
viết hoa các chữ trong từ AND, nếu khơng Search Engines sẽ hiểu nó như là
một từ khố chứ khơng phải như một tốn tử.

Thể

Thao

Phần giao nhau của 2 hình trái xoan tượng trưng cho tồn bộ tài liệu chứa

cả 2 từ. Bạn có thể nhìn thấy tốn tử này hữu ích như thế nào trong kết quả tìm
kiếm của bạn.
+ OR:
Nếu bạn muốn mở rộng phạm vi tìm kiếm để tìm kiếm những tài liệu
chứa một trong hai từ khoá, sử dụng toán tử OR giữa các từ. Điều này rất hữu
ích khi tìm kiếm những thuật ngữ có từ đồng nghĩa mà có thể được sử dụng
trong một tài liệu thay thế.
Ví dụ: Nếu tìm kiếm là children OR kids thì sẽ trả về bất kỳ một tài liệu
nào chứa một trong hai từ đó. Bạn có thể thấy rằng tốn tử này có thể mở rộng
vùng tìm kiếm và thu được nhiều kết quả hơn như thế nào.
children

kids

+ NOT hoặc AND NOT:
Sử dụng từ viết hoa AND NOT đứng trước một thuật ngữ tìm kiếm sẽ
loại ra những tài liệu chứa thuật ngữ đó. Nếu bạn muốn tìm thơng tin về Ơtơ và

Tìm kiếm thơng tin Tiếng Việt trên Internet

22


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

không muốn các tài liệu bao gồm thơng tin liên quan tới Mơtơ bạn có thể sử
dụng “Ơtơ” AND NOT Mơtơ

+ Dấu ngoặc đơn:
Các tốn tử AND, OR và AND NOT sử dụng rất mạnh trong phạm vi của
chúng. Việc sử dụng dấu ngoặc trong tìm kiếm logic tương tự như cách chúng
sử dụng trong một đẳng thức tốn học, giữa các biến có mối quan hệ và ràng
buộc lẫn nhau. Cách sử dụng thông thường nhất của dấu ngoặc là để đóng
khung hai từ khố được tách rời nhau bởi toán tử OR và sau đó kết nối những từ
khố đó với tốn tử AND.
Ví dụ: Nếu bạn tìm kiếm thơng tin về gun control bạn có thể dùng câu
lệnh sau: “gun control” OR (legislation AND gun).
Những tài liệu trả về sẽ là “gun control” hoặc những tài liệu chứa từ gun
và từ legislation. Bạn cũng có thể mở rộng tìm kiếm bởi từ law là từ đồng nghĩa
với từ legislation, nên thậm chí bạn có thể xếp lồng một bộ dấu ngoặc bên trong
dấu ngoặc khác để tách từ gun với một trong 2 từ law và từ legislation. Câu lệnh
như sau:
“gun control” OR (gun AND (law OR legislation))
+ Sử dụng dấu + để yêu cầu và dấu - để loại bỏ:
Một vài Engines đưa ra một biến của toán tử logic AND và NOT. Dấu (+)
đứng trước một từ (khơng có dấu cách) sẽ yêu cầu rằng từ đó phải có mặt trong
những tài liệu. Một dấu (-) đứng trước từ khoá sẽ đảm bảo rằng từ đó khơng có
mặt trong tài liệu lấy được.
* Tìm kiếm theo ngày
Rất nhiều Search Engines đưa ra khả năng để giới hạn những tìm kiếm
bằng cách đưa ra ngày tạo trang Web. Đây là một công cụ rất hữu ích đối với
những người đang tiếp tục nghiên cứu về một chủ đề nào đó, nó cho phép họ
giới hạn kết quả với những trang Web tạo ra từ lần tìm kiếm trước của họ.

Tìm kiếm thơng tin Tiếng Việt trên Internet

23



Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

* Chú ý:
Phạm vi thực hiện những chức năng này rất rộng. Một vài công cụ tìm kiếm
như Yahoo đưa ra các nút lựa chọn hoặc menu xổ xuống. Trong khi đó Altavista
và Hotbot cung cấp khả năng định rõ những ngày hoặc những khung thời gian
mà các trang Web được tạo ra .
* Tìm trong một số trƣờng đặc biệt của văn bản
Một vài Engines có thể giới hạn những tìm kiếm đối với một số trường
riêng biệt, ví dụ như tiêu đề và đường dẫn (Title và URL).
+ Tìm kiếm theo tiêu đề: Nếu bạn đang tìm kiếm thơng tin Máy tính và
Internet, tin rằng có thể có một trang Web tổng thể nói về chủ đề này nghĩa là
có các từ khố trong tiêu đề. Cú pháp như sau : title: Máy tính AND Internet.
+ Tìm kiếm theo đường dẫn URL: Nếu bạn đang tìm kiếm những trang
Web trên các Website của hãng Accer thì cú pháp như sau: url: accer .

Tìm kiếm thông tin Tiếng Việt trên Internet

24


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt


Chƣơng III
XÂY DỰNG THỬ NGHIỆM CHƢƠNG TRÌNH TÌM KIẾM
THƠNG TIN TIẾNG VIỆT TRÊN INTERNET
3.1. Ngơn ngữ lập trình Python
3.1.1. Giới thiệu ngơn ngữ
Python là một ngơn ngữ lập trình bậc cao hướng đối tượng, có thể chạy
trong nhiều môi trường hệ điều hành khác nhau như: OS/2, Windows,
Macintosh, Dos, Unix, ... Python được phát triển từ đầu những năm 90 và ngôn
ngữ này ngày càng thể hiện tính năng dễ sử dụng, có thể kết hợp với những
ngôn ngữ khác như C, C++, Java,... đồng thời có thể nhúng trong nhiều ứng
dụng. Chương trình viết trong Python thường ngắn hơn những chương trình viết
trong ngơn ngữ khác. Những kiểu dữ liệu bậc cao cho phép bạn biểu diễn những
biểu thức phức tạp trong một câu lệnh đơn. Nhóm những lệnh được thực hiện
bởi sự căn lề thay vì đặt trong cặp begin/end của Pascal và {} của C.
3.1.2. Các đặc tính của Python
+ Tốc độ (Speed): Những chương trình trong Python được biên dịch
thành mã trung gian (byte-code), sau đó được thơng dịch trong q trình chạy.
+ Hướng đối tượng (object oriented): Python là ngôn ngữ lập trình
hướng đối tượng. Python có các lớp, module, cơ chế exeption . . .

Tìm kiếm thơng tin Tiếng Việt trên Internet

25


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt


+ Quản lý bộ nhớ tự động: Python tự động quản lý bộ nhớ trong thời
gian chạy chương trình để nhận biết các vùng khơng được sử dụng trong bộ lưu
trữ chính của những đối tượng .
+ Có thể mở rộng: Python có thể nạp các chương trình vào bộ nhớ khi
một chương trình thực hiện cần đến, Python được biên dịch, chương trình nguồn
Python có thể nạp những chương trình mới mà chúng cung cấp những đặc tính
mới và những tiện ích mới.
+ Những dịch vụ ngoài phong phú: Chẳng hạn như những dịch vụ
Network, GUI (Graphical user interface – Giao diện người sử dụng đồ hoạ),
API (Application program interface – Giao diện chương trình ứng dụng), Web
hỗ trợ
cho những tài liệu HTML và cho giao diện CGI (common gateway interface),
truy cập trực tiếp tới cơ sở dữ liệu.
Đa số những hàm và lớp được dùng để hỗ trợ khi viết chương trình trong
Python đều đặt trong module, đó là những file văn bản chứa đoạn mã của
Python để có thể sử dụng trong những chương trình riêng của người lập trình.
Ví dụ: Để sử dụng phương thức split từ module chuẩn string ta dùng như
sau:
import string
y=‟xin chao‟
print string.split(y)
3.1.3. Các cấu trúc điều khiển
3.1.3.1. Điều kiện if
if <điều kiện>:
Các câu lệnh
.....
[elif <điều kiện>:

Tìm kiếm thơng tin Tiếng Việt trên Internet


26


Nguyễn Ngọc Hiếu
nghiệp

Luận văn tốt

Các câu lệnh]
[ else:
Các câu lệnh ]
Ví dụ:
x=int(raw_input(“Đánh vào một số:”))
if x<0:
x=0
print „Negative changed to zero‟
elif x==0:
print „zero‟
elif x==1:
print „single‟
else:
print „more‟
3.1.3.2. Điều kiện While
While <điều kiện>:
Các câu lệnh
Ví dụ:
a,b=0,1
while b<5:
print b
a,b=b,a+b

3.1.3.3. Lệnh For
for <tên biến> in <sequence>:
Các câu lệnh
[break]
[continue]

Tìm kiếm thơng tin Tiếng Việt trên Internet

27


×