Tải bản đầy đủ (.doc) (13 trang)

Tìm hiểu các phương pháp nâng cao độ chính xác và hiệu quả tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (141.92 KB, 13 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
LỜI GIỚI THIỆU
Đầu tiên em xin chân thành cảm ơn Thầy GS.TSKH Hoàng Kiếm đã tạo
điều kiện cho em tìm hiểu về lịch sử các công nghệ liên quan tới vấn đề tri thức, cũng
như vai trò to lớn của công nghệ tri thức trong giai đoạn hiện nay.
Trong chuyên đề SEMINAR Công nghệ Tri Thức em thấy rất thích phần
khai thác thông tin thông qua các bộ máy tìm kiếm.
Tìm kiếm thông tin là một vấn đề có vẻ là đơn giản nhưng thực chất đây là
một vấn đề lớn khi mà số lượng thông tin ngày càng nhiều và ngày càng trở nên đa dạng.
Do đó khi mà ta tiến hành tìm kiếm trên các bộ máy hổ trợ tìm kiếm cũng phải phân loại,
ưu tiên, phải phản xạ theo thói quen , để đáp ứng được thông tin người dùng muốn tìm.
Nói thì đơn giản nhưng để tìm được thông tin mình muốn là một vấn đề
không phải dễ vì các hệ thống tìm kiếm không phải lúc nào cũng hiểu đầy đủ ý nghĩa của
người muốn tìm kiếm thông tin. Hơn nữa khi hiểu được nghĩa thì vấn đề là làm cách nào
tìm tới thông tin chính xác mà người tìm kiếm cần, thậm chí không có thông tin trong hệ
thống hay là phải nhờ một hệ thống tìm kiếm khác hỗ trợ cho mình.
Như vậy cách thức tìm kiếm để có được thông tin mình cần là một vấn đề
rất có ý nghĩa. Nên em quyết định chọn đề tài “cách thức tìm kiếm thông tin hiệu quả
bằng tiếng Việt” nhằm phần nào khai thác các bộ máy tìm kiếm được hiệu quả hơn nhưng
cũng không làm mất thời gian của người tìm kiếm.

Em xin cảm ơn thầy các thầy cô, phòng đào tạo sao đại học và đặc biệt là
Thầy GS.TSKH Hoàng Kiếm đã tạo điều kiện cho em làm đề tài này.
1
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
TÓM TẮT TIỂU LUẬN
Tiểu luận được được trình bày qua hai phần chính:
 Giới thiệu chung bộ máy tìm kiếm của google
 Giới thiệu về hai phương pháp tìm kiếm để có được thông tin mình cần


MỤC LỤC
I . Giới thiệu … 3
1 .1 Giới thiệu về tiểu luận 3
1 .2 Phân tích các yếu tố cơ bản trong tìm kiếm 4
1 .3 Cách tiếp cận nâng cao độ chính xác và hiệu quả trong tìm kiếm 4
1 .4 Dự định kết quả đạt được 5
II . Giới thiệu về bộ máy tìm kiếm google 7
2 .1 Giới thiệu về hệ thống tìm kiếm google
2 .2 Các quy tắc tìm kiếm cơ bản với google
2 .3 Nhận định về các yếu tố nâng cao hiệu quả tìm kiếm
III . Tìm hiểu các phương pháp nâng cao độ chính xác và hiệu quả tìm kiếm
3 .1 Các từ khóa theo cách truyền thống
3 .2 Cách tiếp cận theo phương pháp tham lam và lọc bớt
3 .3 Cách tiếp cận theo lĩnh vực, thể loại, ngành theo hệ thống phân cấp
3 .4 Nhận xét về hiệu quả trong các cách tiếp cận
IV . Tổng kết 14
4 .1 Nhận xét, đánh giá
4 .2 Tài liệu tham khảo
2
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
Chương I . Giới thiệu
1 .1 Giới thiệu về tiểu luận:
Tiểu luận không đi sâu vào việc đánh giá hiệu quả của các phương pháp tìm kiếm
mà chỉ đi vào phân tích các yếu tố cơ bản giúp tìm kiếm hiệu quả trên google.
Còn các phương pháp tìm kiếm được đề ra dựa vào các phương pháp mang tính
khoa học như phương pháp vét cạn, phương pháp tham lam, phương pháp loại trừ,
1 .2 Phân tích các yếu tố cơ bản trong tìm kiếm:
Lượng thông tin mà hệ thống sẵn sàng hay hệ thống tìm kiếm có đầy đủ thông tin
không (có tích hợp các hệ thống tìm kiếm khác để đáp ứng thông tin đầy đủ).

Chất lượng của thông tin từ hệ thống.
Mức độ chính xác của thông tin trả lời khi mà người dùng truy vấn.
Mức độ thân thiện của các toán tử tìm kiếm và sự uyển chuyển của chúng.
Thời gian trả về kết quả tìm kiếm.
Phương pháp xử lý thông tin sơ bộ trước khi tìm kiếm.
Một yếu tố không thể thiếu là: Nghĩ xem bạn đang muốn tìm kiếm thông tin gì
và bạn trông chờ từ ngữ hay cụm từ có thể xuất hiện trong kết quả tìm kiếm.
1 .3 Cách tiếp cận nâng cao độ chính xác và hiệu quả trong tìm kiếm:
Việc chọn lựa một hệ thống tìm kiếm tốt là hoàn toàn có thể (ví dụ google).
Như vậy yếu tố từ người dùng là quan trọng nhất, được thể hiện qua hai yếu tố:
 Nghĩ xem bạn muốn tìm kiếm thông tin gì.
 Áp dụng các toán tử tìm kiếm gì (do hệ thống tìm kiếm hỗ trợ).
Vận dụng các phương pháp, hay chiến lược tìm kiếm gì là hợp lý để có được
thông tin mình cần.
1 .4 Dự định kết quả đạt được:
Trình bày được chi tiết các toán tử tìm kiếm hữu ích của google.
Đưa ra được các phương pháp tìm kiếm hiệu quả và có độ chính xác cao.
3
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
Chương II . Giới thiệu về bộ máy tìm kiếm google
2 .3 Giới thiệu về bộ tìm kiếm google:
Google là công cụ tìm kiếm thông tin phổ biến nhất hiện nay trên Internet. Chúng
ta có thể nói Google hiện đang sở hữu từ 1 tỉ dến 1,5 tỉ người sử dụng dịch vụ.[6]
Theo thống kê của StatCounter, Google đang chiếm hơn 90% thị phần mảng tìm
kiếm trên mạng của toàn thế giới.[6]
Mobile Search, mảng Google đang hoàn toàn “độc chiếm”. Google là công cụ tìm
kiếm mặc định của phần lớn các smartphone, trong đó có cả iPhone lẫn Android. Tại
phân khúc di động, Google hiện nắm giữ 97% thị phần.[6]
Hỗ trợ tìm kiếm trên 100 ngôn ngữ, kho dữ liệu của Google gồm trên 6 tỷ mục

thông tin, bao gồm 4,28 tỷ trang web, 880 triệu hình ảnh và 845 triệu thông điệp
Internet[5]
Nhưng phần lớn người dùng không tận dụng hết những ưu điểm của nó. Phải
chăng bạn mới chỉ gõ vào một hoặc hai từ khóa rồi chờ đợi những kết quả tốt nhất? Đó
có thể là phương pháp tìm kiếm nhanh nhất, nhưng với hơn 3 tỷ trang web có trong chỉ
mục của Google thì bạn sẽ phải nỗ lực rất lớn để tìm ra kết quả cần thiết trong số các
trang tìm được [2]
2 .2 Các quy tắc tìm kiếm cơ bản với google:
2 .2.1 Các kỹ năng cơ bản: [3],[4]
stt Tìm kiếm Cú pháp Mô tả ví dụ Ví dụ Số
kết
quả
1 Từng từ đơn Cụm chứa
các từ đơn
Tìm các từ trong cụm
từ tính toán hiệu năng
cao
tính toán hiệu năng
cao
29.40
0.000
2 Nguyên cụm từ "cụm từ" Tìm chính xác các kết
quả có cụm từ "tính
toán hiệu năng cao"
"tính toán hiệu năng
cao"
122.0
00
3 Nhất thiết phải +"cụm từ" Tìm các cài đặt của cài đặt +"tính toán 14.50
4

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
có cụm từ tính toán hiệu năng
cao
hiệu năng cao" 0
4 Không có cụm
từ trong kế quả
-"cụm từ" Tìm các cài đặt không
liên quan tới tính toán
hiệu năng cao
cài đặt -"tính toán
hiệu năng cao"
107.0
00.00
0
5 Đồng nghịa ~"cụm từ
cao"
~"tính toán hiệu năng
cao"
122.0
00
6 Định nghịa define:"cụm
từ"
Tìm định nghịa của
tính toán hiệu năng
cao
define:"tính toán hiệu
năng cao"
122.0
00

7 Thay thế cho
cụm từ bất kỳ
* Tìm các nội dung có
phần đầu là tính toán
và phần sau là năng
cao
"tính toán * năng cao" 3.040
.000
8 Thay thế cho
ký tự
? "tính toán ?iệu năng
cao"
122.0
00
9 Toán tử hoặc OR Tìm "tính toán hiệu
năng cao" hay HPC
"tính toán hiệu năng
cao" OR HPC
93.10
0.000
10 Toán tử và AND Tìm "tính toán hiệu
năng cao" và "phần
cứng"
Tìm "tính toán hiệu
năng cao" AND "phần
cứng"
18.70
0
11 cụm từ có trong
một website

được chỉ định
"cụm
từ":URL
Tìm kiếm tính toán
hiệu năng cao có trong
trang mediafire
"tính toán hiệu năng
cao":www.mediafire.c
om
385
12 cụm từ có trong
loại tập tin chỉ
định
"cụm từ"
filetype:mở
rộng của tập
tin
Tìm kiếm các tài liệu
toán hiệu năng cao
được viết băng pdf
"tính toán hiệu năng
cao" filetype:pdf
199
13 Tựa đề có cụm
từ
allintitle:"cụ
m từ"
Tìm các tựa đề có tính
toán hiệu năng cao
allintitle:"tính toán

hiệu năng cao"
26.10
0
14 Nội dung có
cụm từ
intext:"cụm
từ"
Tìm trong nội dung có
tính toán hiệu năng
cao
intext:"tính toán hiệu
năng cao"
121.0
00
15 Tìm tựa đề có
cụm từ 1 và nội
dung có cụm từ
intitle:"cụm
từ 1" "cụm
từ 2"
Tìm tựa đề có install
và nội dung hpc
intitle: install hpc 88.30
0
5
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
2
16 Trên URL có
chứa cụm từ

allinurl:"cụ
m từ"
Tìm các đường dẫn có
từ hpc
allinurl:hpc 12.50
0.000
17 Trên URL có
chứa cụm từ 1
và nội dung có
chứa cụm từ 2
inurl:"cụm
từ 1" "cụm
từ 2"
Tìm các đường dẫn có
từ hpc và nội dung là
hardware
inurl:hpc hardware 742.0
00
18 Tìm kiếm cụm
từ trong tựa đề
và nguồn từ
URL
intitle:"cụm
từ"
site:URL
Tìm tính toán hiệu
năng cao trong các
trang edu.vn
intitle:"tính toán hiệu
năng cao" site:edu.vn

24.90
0
2 .2.2 Tìm kiếm theo nhóm trên google: [3],[4]
/>hl=en&answer=142143&topic=1221265&ctx=topic
Nhóm URL Mô tả
Tìm kiếm tất cả www.google.com
Ảnh images.google.com Chỉ tìm kiếm các ảnh
Tìm trên bản đồ maps.google.com Tìm kiếm các thông tin trên bản đồ
Tìm kiếm video www.google.com/video
hp
Tìm kiếm thông tin theo dạng
video
Tin tức thời sự support.google.com/ne
ws/?hl=en
Tìm kiếm các tin tức thời sự
Tìm kiếm các cửa hàng sản
phẩm
www.google.com/shop
ping
Giúp tìm kiếm các sản phẩm và
các cửa hàng có trên google
Sách books.google.com/ Tìm kiếm các sách
Tìm blog
support.google.com/we
bmasters/bin/answer.py
?hl=en&answer=70950
Tìm kiếm các blog
Học thuật scholar.google.com Giúp xác định các bài báo, bài tóm
tắc, các nội dung học thuật và tin
học. Ở đây không chỉ xác định các

bài báo đang tìm mà còn cập nhật
các nghiên cứu mới, và các bài báo
6
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
liên quan giúp việc đào sâu tốt hơn
2 .2.3 Tìm kiếm năng cao: [3],[4]
www.google.com.vn/advanced_search
hay www.google.com/advanced_search
stt Nhãn Ý nghĩa Ví dụ Kết quả
1 all these words Tìm kiếm theo nguyên một
cụm từ
Tính toán hiệu năng
cao
40.500.00
0
2 any of these
words
Tìm kiếm theo từ cụ thể trong
cụm từ
Tính toán hiệu năng
cao
1,220,000
,000
3 this exact word
or phrase
Tìm kiếm theo nguyên một
cụm từ cần độ chính xác
Tính toán hiệu năng
cao

95,300
4 none of these
words
Tìm kiếm kết quả không có các
từ trong cụm từ này
Tính toán hiệu năng
cao
không có
kết quả
5 numbers
ranging from
Dãy số trang bắt đầu từ và kết
thúc từ
(Theo 1 và)
+45 và 55
2.330
6 language Chọn ngôn ngữ của kết quả trả
về
(Theo 1 và)
+Tiếng Việt
94.300
7 region Chọn lãnh thổ có kết quả trả về (Theo 1 và)
+Việt Name
82.800
8 last update Chọn khoản thời gian cập nhật
lần cuối của kết quả trả về
+ 24 giờ qua 11
9 site or domain Kết quả có trong các trang web
hay nên miền
+edu.vn ( hay

site:edu.vn)
36.000
10 terms appearing Vị trí mà các thuật ngữ xuất
hiện trong kết quả trả về
+ Trong vằn bản của
trang( allintext:
"Tính toán hiệu
năng cao" hay
{allintitle:->tiêu đề,
allinurl: -> trong
url, allinanchor
:->liên kết tới
trang})
95.400
11 safeSearch Chọn chế độ tìm kiếm( không
lọc{off}, Trung
+ nghiêm ngặt 95.300
7
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
bình{ moderate}, nghiêm
ngặt{trict})
12 File type Loại tập tin văn bản + pdf 201
13 usage rights Quyền sử dụng của kết quả trả
về
+Được phép sử
dụng hoặc chia sẽ
3
Chú ý: Đề giảm bớt số lượng kết quả trả về người ta có thể kết hợp nhiều tiêu chí lại với
nhau để có được kết quả như mong muốn

2 .3 Nhận định về các yếu tố nâng cao hiệu quả tìm kiếm:
Người dùng cần phải xác định được mình cần tìm kiếm thông tin gì.
Vận dụng các toán tử tìm kiếm mà hệ thống google đáp ứng.
Thời gian mà thông tin được công bố lênh google.
H1. Cách thức chung khi tìm kiếm thông tin.
8
Các thông tin
Cần tìm kiếm
Toán tử
tìm kiếm
Danh sách
điểm thời gian
Người
tìm tin
Hệ thống
tìm kiếm
Kết quả 1
Kế quả 2
Kết quả 3
….
Tìm kiếm 1
Tìm kiếm 2
Tìm kiếm 3

Kết quả tìm kiếm
được thông tin ưng ý
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
9
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
Chương III . Tìm hiểu các phương pháp nâng cao độ
chính xác và hiệu quả tìm kiếm
3 .1 Các từ khóa theo cách truyền thống :
3 .1.1 Từ khóa theo lĩnh vực, chủ đề:
Giáo trình ( định nghĩa, giải thuật, định lý, cơ sở khoa học, phương pháp,
kỹ thuật, quy trình, cách thức, )
Tài liệu tham khảo, dự án, hướng dẫn
Bài báo, tin tức, sự kiện
Công trình nghiên cứu
Sự kiện liên quan
Xu hướng hiện tại
Thách thức hiện tại
3 .1.2 Từ khóa theo phạm vi:
Trung tâm nghiên cứu : Khu vực và thế giới( vị trí)
Trung tâm ứng dụng : Khu vực và thế giới
Trường đại học
Trường THPT
Kinh nghiệm thực tiễn
Trung tấm hướng dẫn, chuyển giao ứng dụng
Điểm thời gian, khoảng thời gian
3 .1.3 Nhận xét chung:
Khi tiến hành làm hay nghiên cứu một vấn đề nào đó chúng ta thường có
thao tác tìm kiếm thông tin về vấn đề trước sao đó mới xem xét có nên làm hay không.
Nên việc tìm kiếm có quy trình là rất cần thiết và sẽ tốn thời gian.
Ví dụ : Muốn làm 1 vấn đề A.
3 .2 Cách tiếp cận theo phương pháp tham lam và lọc bớt :
3 .2.1 phương pháp:

10

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
B1: Tìm kiếm tin tức, bài báo về vấn đề A
B2: Xu hướng hiện tại của vấn đề A
B3: Thách thức và khó khăn trong vấn đề A (Khu vực và thế giới)
B4: Đánh giá lại có nên làm vấn đề A hay không
B5: Tìm kiếm tài liệu về các phương pháp (kỹ thuật) hiện tại được áp dụng để làm
vấn đề A
B5.1: Tìm kiếm cách tiếp cận phương pháp, kỹ thuật hợp lý
B5.2: Có cách nào tối ưu các công đoạn trong phương pháp( kỹ thuật), tối
ưu các yếu tố cơ bản hay không
B6: Tiến hành lênh kế hoạch làm vấn đề A
B6.1 : Dự trù về thời gian
B6.2: Dự trù về nguồng lực
B6.3: Dự trù về kinh phí
3 .2.2 Ví dụ người dùng muốn tìm kiếm thông tin về tính toán hiệu năng cao:
Tình hình tính toán hiệu năng cao
Cách thức triển khai để có được tính toán hiệu năng cao
Nhu cầu về phần cứng
Nhu cầu về phầm mềm
B1: "tính toán hiệu năng cao" có 122.000 kết quả
B2 : "tính toán hiệu năng cao" +xu hướng * 2012 có 4.730 kết quả
( Ở đây đã áp dụng chiến lược tham lam trong quá trình tìm thông
tin lĩnh vực)
B3: "tính toán hiệu năng cao" +"thách thức" + 2012 có 6.620 kết quả
Như vậy qua các kết quả tìm kiếm ta có được các thông tin như:
hệ thống siêu máy tính
HPOS : hệ điều hành hiệu năng cao
Phần mềm mô phỏng : ANSYS 12.0
ĐH Bách khoa HN sắp có hệ thống máy tính triệu đô

B4: Tính toán hiệu năng cao là nhu cầu cấp thiết và cần phải nghiên cứu
B5: "tính toán hiệu năng cao" + "yêu cầu phần cứng" có 9 kết quả
hay "tính toán hiệu năng cao" + "yêu cầu phần mềm" có 5 kết quả
Như vậy qua các kết quả tìm kiếm
Chip IBM tăng tốc 1000 lần cho siêu máy tính
Windows HPC Server 2008
Điện toán đám mây
11
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
3 .3 Cách tiếp cận theo lĩnh vực, thể loại, ngành theo hệ thống phân cấp:
3 .3.1 phương pháp:
B1: "Lĩnh vực , chủ đề hay phạm vi " + "cụm từ cần tìm"
Từ bước này ta có thể áp dụng 3.2 để tối ưu tìm kiếm tiếp
3 .3.1 một số ví dụ tìm kiếm:
"Bài báo" +"tính toán hiệu năng cao" có 1.700 kết quả
"Tin tức"+ "tính toán hiệu năng cao" có 25.200 kết quả
"Bài báo" + "Tin tức"+ "tính toán hiệu năng cao" có 3.000 kết quả
"article" + "news"+ "high performance computing" có 123.000
"trung tâm nghiên cứu"+ "toán hiệu năng cao" có 5.720 kết quả
H2. Cách thức tìm theo phân loại truyền thống.
3 .4 Nhận xét về hiệu quả trong các cách tiếp cận:
Nhình chung nếu chỉ đơn thuần tìm kiếm một cụm từ mà không có các từ khóa
phân loại, phân cấp, hàng lâm thì số kế quả trả về rất lớn. Nhưng nếu có hệ thống từ
khóa phân loại, phân cấp, hàng lâm thì kết quả tìm kiếm sẽ hiệu quả và chính xác hơn
mà số lượng tin trả về ít, nhờ đó mà việc lọc thông tin theo cách thủ công sẽ đơn giản và
dễ dàng hơn.
12
Các thông tin
Cần tìm kiếm

Toán tử
tìm kiếm
Danh sách
điểm thời gian
Người
tìm tin
Hệ thống
tìm kiếm
Kết quả 1
Kế quả 2
Kết quả 3
….
Tìm kiếm 1
Tìm kiếm 2
Tìm kiếm 3

Kết quả tìm kiếm
được thông tin ưng ý
Danh sách từ
khóa theo phân
loại truyền thống
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
Chương IV . Tổng kết
4 .1 Nhận xét, đánh giá:
Tìm kiếm dữ liệu chính xác là một vần đề rất phức tạp và không hề đơn giản.
Nhưng trong bài viết cũng trình bày được các yếu tố cơ bản giúp tìm kiếm tốt hơn.
Dù bài viết chỉ mang tính chất chung chung, không thể đi sâu được vào vấn đề cần
nghiên cứu. Nhưng cũng vạch ra được cách thức tìm kiếm có số lượng thông tin ít hơn và
cho kết quả trả lời chấp nhận được.

4 .2 Tài liệu tham khảo:
[1] GS.TSKH Hoàng Kiếm, “Các hệ thống thông tin tri thức hổ trợ sáng tạo”, trong
chuyên đề seminar, ĐH Công Nghệ Thông Tin
[2] />[3] />[4]
[5] />[6] />13

×