Tải bản đầy đủ (.pdf) (76 trang)

Xây dựng hệ thống GIR phục vụ tìm kiếm thông tin địa lý, vị trí ở Việt Nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.58 MB, 76 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN


TRẮC NGỌC ĐĂNG



XÂY DỰNG HỆ THỐNG GIR PHỤC VỤ
TÌM KIẾM THÔNG TIN ĐỊA LÝ, VỊ TRÍ
Ở VIỆT NAM

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01



LUẬN VĂN THẠC SĨ

Người hướng dẫn: PGS. TS. DƯƠNG ANH ĐỨC






Thành Phố Hồ Chí Minh – 2008
1

Mục lục


Mục lục 1
Danh mục hình ảnh 4
Danh sách bảng biểu 6
Giới thiệu 7
Chương 1: Tổng quan về hệ thống truy vấn thông tin địa lý 9
1.1 Giới thiệu: 9
1.2 Các đặc điểm của thông tin địa lý: 10
1.3 Ảnh hưởng của các phương pháp nhận thức không gian: 12
1.4 Vai trò của từ điển địa lý và Ontology: 14
1.5 Tìm kiếm thông tin địa lý: 18
1.6 Hệ thống truy vấn thông tin địa lý Việt Nam: 19
Chương 2: Lập chỉ mục cho nội dung tài liệu 20
2.1 Các phương pháp lập chỉ mục: 20
2.1.1 Phương pháp lập chỉ mục thuần theo nội dung (PT): 20
2.1.2 Phương pháp 1 lập chỉ mục kết hợp nội dung - không gian (ST): 22
2.1.3 Phương pháp 2 lập chỉ mục kết hợp nội dung - không gian (TS): 24
2

2.1.4 Phương pháp 3 lập chỉ mục kết hợp không gian – nội dung (T): 25
2.1.5 So sánh, đánh giá các phương pháp: 26
2.2 Lựa chọn mô hình lập chỉ mục cho hệ GIR Việt Nam: 31
Chương 3: Phân tích câu truy vấn 32
3.1 Giới thiệu: 32
3.2 Các khái niệm và công việc liên quan: 33
3.3 Phân tích các thành phần trong câu truy vấn: 34
3.4 Giải thuật phân tích các thành phần trong câu truy vấn: 36
3.4.1 Xác định bộ ba <what, relation, where>: 36
3.4.2 Xác định ý nghĩa thành phần where: 42
3.4.3 Xác định ý nghĩa thành phần what: 46
3.5 Đánh giá các giải thuật: 50

Chương 4: Tìm kiếm và xếp hạng kết quả 55
4.1 Giới thiệu: 55
4.2 Tìm kiếm: 55
4.2.1 Tìm kiếm theo vùng (Region-based Range Query): 57
4.2.2 Tìm kiếm xung quanh điểm (Point-based Range Query): 58
4.2.3 Tìm kiếm theo đường (Path-based Range Query): 59
4.2.4 Đánh giá phương pháp tìm kiếm theo đường: 64
3

4.3 Xếp hạng: 66
4.3.1 Xếp hạng trong tìm kiếm theo vùng: 67
4.3.2 Xếp hạng trong tìm kiếm xung quanh điểm: 68
4.3.3 Xếp hạng trong tìm kiếm theo đường: 69
Chương 5: Tổng kết và hướng phát triển 71
5.1 Tổng kết: 71
5.2 Hướng phát triển: 71
Tài liệu tham khảo 73
Phụ lục 76
4

Danh mục hình ảnh

Hình 1-1: Các thành phần chính của từ điển địa lý. 15
Hình 1-2: TP. Hồ Chí Minh được thể hiện bằng một điểm tâm của vùng. 16
Hình 1-3: TP. Hồ Chí Minh được thể hiện bằng một khung bao chữ nhật. 16
Hình 1-4: TP. Hồ Chí Minh được thể hiện bởi một đa giác – ranh giới của vùng. 17
Hình 2-1: Cấu trúc bảng nghịch đảo. 21
Hình 2-2: Chỉ mục không gian của các tài liệu với cùng không gian thể hiện là các
khung bao chữ nhật. 23
Hình 2-3: Biểu đồ so sánh kích thước chỉ mục của các phương pháp. 28

Hình 2-4: Biểu đồ so sánh thời gian lập chỉ mục của các phương pháp. 28
Hình 2-5: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ
truy vấn Random. 29
Hình 2-6: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ
truy vấn Top500FP. 30
Hình 2-7: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ
truy vấn Bottom500FP. 30
Hình 2-8: Biểu đồ so sánh thời gian truy vấn trung bình của các phương pháp với bộ
truy vấn Top5FP. 31
Hình 3-1: Qui trình phân tích câu truy vấn từ người dùng. 35
Hình 3-2: Biểu đồ thể hiện các độ đo Precision-Recall của kết quả tìm kiếm. 53
5

Hình 3-3: Biểu đồ thể hiện các độ đo Precision-Recall của kết quả tìm kiếm theo điều
kiện. 54
Hình 4-1: Hình minh họa tìm kiếm theo vùng. 57
Hình 4-2: Hình minh họa tìm kiếm xung quanh điểm. 58
Hình 4-3: Minh họa 1 đoạn đường và khung bao chữ nhật của nó. 59
Hình 4-4: Minh họa 1 đoạn đường và vùng đệm của nó. 59
Hình 4-5: Minh họa ý tưởng tìm kiếm theo đường. 61
Hình 4-6: Các trường hợp tương quan giữa đoạn thẳng và đường tròn. 62
Hình 4-7: Biểu đồ so sánh 2 phương pháp tìm theo đường về thời gian. 65
Hình 4-8: Biểu đồ so sánh 2 phương pháp tìm theo đường về số lượng kết quả. 66
Hình 0-1: Cấu trúc R-Tree. 78
Hình 0-2: Hình minh họa các quan hệ giữa các hình chữ nhật. 78
6

Danh sách bảng biểu

Bảng 3-1: Bảng khảo sát một số câu truy vấn trên các local search nổi tiếng. 39

Bảng 3-2: Bảng thống kê độ đo Precision - Recall của kết quả tìm kiếm. 53
Bảng 3-3: Bảng thống kê độ đo Precision - Recall của kết quả tìm kiếm theo điều kiện.
54
Bảng 4-1: Bảng kết quả thuật toán tạo vùng đệm của M. Zadravec. 60
Bảng 4-2: Số liệu so sánh giữa 2 phương pháp tìm theo đường về thời gian. 64
Bảng 4-3: Số liệu so sánh giữa 2 phương pháp tìm theo đường về số lượng kết quả. 65

7

Giới thiệu
Với sự bùng nổ của thông tin ngày nay thì yêu cầu đặt ra là làm thế nào để tiếp cận
được với thông tin một cách hiệu quả, nhanh chóng và tiện lợi nhất. Theo một nghiên
cứu cho thấy, đa phần các thông tin tồn tại trên thế giới này đều ít nhiều có liên quan
đến một nơi nào đó. Do đó, giới hạn địa lý trong tìm kiếm là một tiêu chuẩn giúp các
máy tìm kiếm có thể trả ra những kết quả chính xác hơn, phù hợp hơn với yêu cầu tìm
kiếm. Ví dụ một người muốn tìm các tài liệu về tình hình giáo dục ở Việt Nam, họ sẽ
cảm thấy không hài lòng chút nào nếu trong các kết quả trả ra có những kết quả nói về
tình hình giáo dục của Singapore hay bất kỳ một nơi nào khác. Nhằm giúp giải quyết
tốt các dạng tìm kiếm liên quan đến vị trí địa lý như trên, các nhà khoa học trên thế
giới nghĩ đến việc xây dựng một hệ thống truy vấn thông tin địa lý (Geographic
Information Retrieval System – GIR System). Hệ thống truy vấn thông tin địa lý cũng
chính là một hệ truy vấn thông tin (Information Retrieval - IR) thông thường, nó sẽ
thực hiện các nhiệm vụ lập chỉ mục trên tài liệu, phân tích các câu truy vấn và tìm
kiếm, xếp hạng kết quả sao cho phù hợp với yêu cầu từ phía người dùng nhưng sẽ dựa
trên những đặc trưng của loại thông tin địa lý, của yếu tố không gian trong nội dung tài
liệu, trong câu truy vấn, v.v…
Không nằm ngoài tầm ảnh hưởng chung của việc bùng nổ thông tin. Các thông tin liên
quan đến Việt Nam, mang tính cục bộ ở từng vùng, miền của Việt Nam cũng tăng lên
từng ngày. Tuy nhiên, theo khảo sát thì hiện ở Việt Nam chưa có một hệ thống GIR
nào được xây dựng để phục vụ nhu cầu tìm kiếm thông tin liên quan đến vị trí địa lý

như cách mà thế giới tiếp cận, hầu hết các dịch vụ cung cấp khả năng tìm kiếm thông
tin ở Việt Nam đều chưa quan tâm đến yếu tố không gian trong truy vấn từ phía người
dùng cũng như là yếu tố không gian trong nội dung thông tin. Trong khi đó, các hệ
thống tìm kiếm thông tin địa lý đang làm việc rất hiệu quả như Google Maps (Google
Local) hay Live Maps thì lại không thể phục vụ được người dùng Việt Nam do trở ngại
8

về dữ liệu và sự khác biệt trong văn hóa ngôn ngữ. Với tình hình thực tế đó, luận văn
này xin giới thiệu một số các giai đoạn quan trọng trong quá trính xây dựng một hệ
thống GIR dùng cho Việt Nam, đồng thời tiến hành xây dựng hệ thống dựa trên những
đặc trưng, kinh nghiệm, thói quen, nhận thức của người Việt Nam về thông tin địa lý
và cách thức tìm kiếm thông tin liên quan đến vị trí, địa điểm thể hiện trong câu truy
vấn. Phần tiếp theo của luận văn được trình bày theo cấu trúc như sau: Chương 1, luận
văn sẽ trình bày sơ nét về hệ thống GIR cùng với những vấn đề sẽ gặp phải khi đi sâu
vào nghiên cứu. Từ chương 2 đến chương 4 luận văn sẽ trình bày các giai đoạn chính,
các vấn đề cũng như là các hướng tiếp cận để giải quyết vấn đề trong việc xây dựng hệ
thống GIR cho Việt Nam, đó là các giai đoạn lập chỉ mục, xử lý câu truy vấn, tìm kiếm
và xếp hạng kết quả, v.v… Chương 5 sẽ tổng kết lại những gì luận văn đã làm được và
định hướng nghiên cứu, phát triển tiếp theo trong tương lai.
9

Chương 1: Tổng quan về hệ thống truy vấn thông tin địa lý
1.1 Giới thiệu:
Truy vấn thông tin địa lý (Geographic Information Retrieval - GIR) được xem như là
một phân nhánh của lĩnh vực truy vấn thông tin truyền thống (Information Retrieval -
IR). GIR bao gồm tất cả các vấn đề liên quan đến truy vấn thông tin nhưng đặc biệt
quan tâm nhiều hơn đến các đặc trưng của thông tin địa lý trong việc lập chỉ mục, cũng
như là tìm kiếm và xếp hạng kết quả. GIR không giới hạn ở các đối tượng địa lý tự
nhiên như sông hồ, tỉnh thành hoặc quốc gia, v.v… mà nó bao gồm tất cả những thông
tin nào mà ẩn chứa trong đó là các mối quan hệ với những địa danh, những vùng không

gian có thật. Những thông tin chứa đựng mối quan hệ với một không gian địa lý
thường được gọi là thông tin địa lý. Thông tin địa lý tồn tại dưới nhiều hình thức bao
gồm các dữ liệu bản đồ có cấu trúc, dữ liệu khảo sát đất đai, ảnh viễn thám, ảnh vệ
tinh, v.v… hoặc bất kỳ một nguồn dữ liệu phi cấu trúc nào.
Tìm kiếm thông tin dựa trên vị trí địa lý có một ý nghĩa vô cùng quan trọng và cần thiết
trong cuộc sống. Ví dụ như các nhà khoa học tìm kiếm các thông tin về sự biến đổi môi
trường theo thời gian của một khu vực nào đó, thông tin về đời sống hoang dã trong
một vùng nào đó hoặc tình hình phát triển dân số của một thành phố nào đó họ sẽ giới
hạn phạm vi tìm kiếm chỉ trong vùng mà họ quan tâm. Hoặc như khách du lịch trước
khi đi tham quan một đất nước, một thành phố, họ sẽ muốn biết các thông tin liên quan
đến nơi mà họ sắp đến, ở nơi đó có những danh lam thắng cảnh, những địa điểm vui
chơi, khách sạn, nhà hàng nào, giá cả như thế nào, có những gì hấp dẫn họ hay không,
v.v cũng muốn giới hạn phạm vi tìm kiếm chỉ là những thành phố/quốc gia mà họ sắp
đến chứ không phải là một thành phố/quốc gia nào khác. Việc giới hạn phạm vi tìm
kiếm ấy sẽ làm cho việc tìm kiếm trở nên nhanh hơn, và các kết quả sẽ phù hợp hơn
với nhu cầu tìm kiếm của người dùng. Bên cạnh đó, sự phổ biến của hệ thống định vị
10

toàn cầu (GPS – Global Positioning System) trong các thiết bị cầm tay như điện thoại
di động, PDA, và thậm chí là các máy quay phim, chụp hình cũng đã đặt ra một yêu
cầu về việc tìm kiếm các thông tin liên quan đến những đối tượng nằm xung quanh
thiết bị. Trong trường hợp đó, các thông tin sẽ được truyền tải đến các thiết bị dựa trên
vị trí của thiết bị. Ví dụ như một người cầm trên tay một máy di động có GPS thực hiện
câu lệnh tìm kiếm những điểm đặt ATM nằm cách người đó trong vòng 1km trở lại,
v.v…
Như vậy, nhiệm vụ của một hệ truy vấn thông tin địa lý là làm sao để hỗ trợ người
dùng một cách tốt nhất trong việc trả lời các câu truy vấn liên quan đến địa danh hoặc
các đối tượng thông tin bất kỳ trong mối quan hệ không gian với một nơi chốn, vị trí
địa lý nào đó.
1.2 Các đặc điểm của thông tin địa lý:

Hầu hết các thông tin mà ta hay gặp ở bất cứ nơi đâu từ một kho lưu trữ dữ liệu cho
đến Internet đều là những thông tin ít nhiều có liên quan đến địa lý mặc dù phần lớn
chúng không ở dạng tọa độ để có thể định vị được trên bản đồ mà chỉ là những tên gọi
(địa danh hay cụm từ chỉ địa danh). Vị trí địa lý và vùng không gian xác định một nơi
nào đó thường được gọi là dấu vết địa lý (Geographic Footprint) và được xác định bởi
(các) tọa độ kinh vĩ độ của chúng. Truy vấn thông tin địa lý đòi hỏi các tên địa danh và
các cụm từ trực tiếp hoặc gián tiếp chỉ địa danh trong tài liệu hoặc câu truy vấn phải
được xử lý, phân tích sao cho có thể xác định được vị trí chính xác của nó để từ đó có
thể đánh chỉ mục phục vụ cho tìm kiếm hoặc xác định được chính xác nơi tìm kiếm
trong câu truy vấn. Từ đây, yêu cầu đặt ra cho hệ thống là cần phải giải quyết tốt những
vấn đề gặp phải trong việc sử dụng tên địa danh và cụm từ chỉ địa danh trong các tài
liệu hay câu truy vấn, mà cụ thể là vấn đề về sự nhập nhằng ngữ nghĩa, sự lẫn lộn giữa
các cách gọi tên, sự thiếu chính xác, rõ ràng về một địa danh, v.v… Các vấn đề đó có
thể được gây ra bời một trong các nguyên nhân sau:
11

 Thứ nhất, trong thực tế luôn tồn tại việc nhiều nơi, hay chính xác hơn là nhiều
đối tượng địa lý có cùng một tên gọi. Ví dụ như ở Việt Nam có đến ít nhất 10
tỉnh đều có huyện tên là Châu Thành, hay như tên Hai Bà Trưng thì cũng có
Quận Hai Bà Trưng và Đường Hai Bà Trưng. Chính thực tế đó làm phát sinh
vấn đề là làm thế nào để biết được một tên gọi nào đó thực sự là nói về đối
tượng địa lý nào trong thế giới thực.
 Thứ hai là tên gọi của các đối tượng thỉnh thoảng vẫn được gọi bằng các cách
gọi mang đậm chất địa phương thay vì được gọi theo tên phổ thông mà ai cũng
biết. Điều này yêu cầu hệ thống phải có một lượng tri thức nhất định về các mối
liên hệ giữa các cách gọi khác nhau ấy cũng như là ngữ cảnh hoặc môi trường
văn hóa mà tên địa danh đó được sử dụng để có thể liên kết chính xác nó đến vị
trí địa lý thật sự của nó.
 Thứ ba là tên của một số địa danh theo thời gian có thể đã bị thay đổi, ví dụ như
đường Kinh Dương Vương (Quận 6) hiện nay ngày trước có tên là Hùng

Vương. Điều này cũng có thể gây ra nhầm lẫn và hệ thống cần phải xác định
được ngữ cảnh cũng như là thời điểm mà tài liệu nhắc đến để có những phân
tích chính xác.
 Thứ tư là vùng giới hạn của một địa danh có thể bị thay đổi, mở rộng ra hay thu
hẹp lại theo giời gian. Ví dụ như hiện tại Hà Nội đã sáp nhập với Hà Tây, vậy
thì đường ranh giới của Hà Nội sẽ được mở rộng ra, trong khi Hà Tây thì biến
mất và tất nhiên nếu hệ thống tìm kiếm các thông tin mà vị trí thuộc Hà Nội vào
thời điểm hiện tại thì sẽ phải tìm luôn các thông tin liên quan đến Hà Tây (cũ).
Điều này yêu cầu hệ thống cần phải lưu ý về thời điểm thực hiện tìm kiếm và
phải có tri thức về những sự thay đổi trên.
12

 Thứ năm là đường ranh giới của các đối tượng đôi khi không rõ ràng. Do đó, khi
người ta quan tâm đến vùng nào đó thì hệ thống có thể sẽ không biết được chính
xác vùng tìm kiếm giới hạn ở những đâu.
 Cuối cùng là khi cùng đề cập đến một địa danh nào đó nhưng tài liệu lại dùng
đến những cách viết khác nhau để chỉ địa danh đó (ví dụ như Thành Phố Hồ Chí
Minh và Sài Gòn) hoặc là viết tắt (TPHCM cho Thành Phố Hồ Chí Minh) hay
viết sai chính tả (Hà Nội viết thành Hà Nôi), v.v…
1.3 Ảnh hưởng của các phương pháp nhận thức không gian:
Hình thức thể hiện chính qui của thông tin địa lý hầu như đều dưới dạng hình học
Euclide. Tuy nhiên cái cách mà người ta suy nghĩ và lý giải về thông tin địa lý thì lại
khác các hình thức chính qui ấy.
Theo [14], con người xây dựng nên những tri thức không gian về những gì xung quanh
họ bằng hai cách khác nhau: quan sát thực tế và quan sát trên bản đồ. Tri thức không
gian từ quan sát thực tế dựa trên việc khám phá những vùng không gian theo các
phương hướng cụ thể. Thông qua việc đó, con người sẽ có tri thức về đối tượng từ
những góc nhìn khác nhau và dần dần hình thành những nhận thức về không gian địa
lý, về các thực thể trong không gian địa lý (Đây là cái gì? Những gì ở xung quanh chỗ
của tôi? v.v…). Những tri thức về không gian có được từ việc di chuyển trong một

vùng nào đó để thu thập thường được gọi là những tri thức học bằng “chân” (learn by
foot). Bên cạnh đó, tồn tại song song với hình thức quan sát thực tế ấy là hình thức thu
thập tri thức không gian dựa trên việc quan sát bản đồ. Phương pháp này bao gồm việc
nhìn vào bản đồ và rút ra những tri thức tổng quan về các đối tượng trên đó ở trong thế
giới thực. Cả hai cách tiếp cận trên đều hướng đến tri thức không gian tuy nhiên thông
tin có được bằng phương pháp quan sát thực tế lại không dễ dàng chuyển đổi thành
13

thông tin có dạng giống như những thông tin có được bằng phương pháp quan sát bản
đồ hoặc những phương pháp tương tự khác.
Ngành khoa học về cách nắm bắt tri thức không gian của con người được gọi là “Địa lý
tự nhiên” (Naïve geography) và được công nhận là một ngành nghiên cứu độc lập.
“Địa lý tự nhiên nắm bắt và truyền tải cách thức con người suy nghĩ và lý giải về
không gian, thời gian một cách có ý thức và không ý thức. Tự nhiên ở đây có nghĩa là
cái gì đó thuộc về bản năng và có tính tự phát”. Địa lý tự nhiên có những vấn đề rất
quan trọng cần chú ý đến trong việc thể hiện các tri thức không gian bằng từ ngữ.
Những vấn đề đó là:
 Thứ nhất, con người thường đặt thời gian và khoảng cách địa lý trong cùng một
mối quan hệ. Nhận thức về khoảng cách giữa A và B khi di chuyển bằng đường
bộ sẽ phải khác với khoảng cách ấy nếu di chuyển bằng đường hàng không. Và
tương tự, nếu như thời gian để đi từ A đến B khác với thời gian để đi từ B đến A
thì khoảng cách giữa A và B có thể hiểu là khoảng cách không đối xứng. Những
điều này có nghĩa là các thể hiện về khoảng cách đề cập trong nội dung tài liệu
có thể sẽ bị sai lệch nếu như khoảng cách đó được ước tính dựa trên nhận thức
của con người trong một không gian nhất định.
 Thứ hai: vấn đề Topology và các độ đo liên quan đến khoảng cách . Con người
sẽ tổ chức không gian tốt hơn khi sử dụng đến các mối quan hệ topo như quan
hệ bao gồm (cái gì chứa cái gì), quan hệ trùng hợp (cái gì có vị trí giống như cái
gì), quan hệ lân cận (cái gì ở kế cái gì), và các quan hệ bên trái/bên phải (bên
phải cái này là cái gì), v.v… Các quan hệ topo có thể được xem như là thông tin

cấp cao nhất trong khi đó quan hệ về các độ đo khoảng cách giữa các đối tượng
là những thông tin ở cấp thứ hai trong cơ cấu tổ chức không gian địa lý của con
người. Thông thường các sai phạm nếu có là từ quan hệ khoảng cách, rất hiếm
14

khi từ quan hệ topo. Điều đó cho thấy rằng các quan hệ topo giữa những thực
thể được mô tả trong văn bản sẽ đáng tin cậy hơn các con số về khoảng cách
giữa những thực thể đó.
 Thứ ba, con người hay sử dụng cách định hướng theo Đông – Tây – Nam - Bắc.
Khi con người cho biết hướng hay nói về vị trí của một đối tượng nào đó so với
một đối tượng khác trong không gian họ hay dùng đến một trong các hướng
Đông – Tây – Nam – Bắc. Điều này có nghĩa là nếu một đối tượng nằm ở phía
Nam – Tây Nam so với một đối tượng khác thì người ta cũng chỉ mô tả đơn giản
là “phía Nam”. Nó cho thấy rằng con người có xu hướng thể hiện quan hệ giữa
những đối tượng khác nhau chỉ bằng 4 phương hướng cơ bản. Chính việc này có
thể sẽ dẫn đến những sai lầm trong việc xác định vị trí đối tượng và yêu cầu con
người phải thống nhất cách định hướng trong không gian.
Như vậy, thực tế là con người nhìn nhận về các thực thể không gian và quan hệ giữa
chúng hoàn toàn khác so với các mô hình chính thống của thế giới dựa trên tọa độ kinh
vĩ độ, khoảng cách chính xác hay phương hướng chính xác. Điều đó hàm ý rằng các tài
liệu được viết bởi con người có thể sẽ không chính xác và dễ lẫn lộn khi chúng đề cập
đến không gian địa lý, vị trí địa lý của đối tượng. Đó là điều mà bất kỳ một hệ GIR nào
cũng cần phải lưu ý và cũng là điều khiến cho các hệ GIR trở nên khó đánh giá.
1.4 Vai trò của từ điển địa lý và Ontology:
Việc phải xác định ý nghĩa của tên địa danh và các vấn đề liên quan đến những cách
thể hiện thông tin địa lý khác nhau của con người cho thấy rõ ràng là những tài liệu liên
kết với một không gian nào đó dựa vào tên địa danh hoặc cụm từ chỉ địa danh là hoàn
toàn không có tính đảm bảo một cách chắc chắn và vùng không gian mà tài liệu chỉ đến
cũng chỉ chính xác với một xác suất phần trăm nào đó.
15


Để chuyển đổi từ tên địa danh thành tọa độ địa lý, theo phương pháp truyền thống,
người ta sử dụng đến một hay nhiều các từ điển địa lý. Từ điển địa lý chính là một
danh sách các tên địa danh cùng với vị rí địa lý của chúng cũng như là những thông tin
mô tả về địa danh đó. [14] xác định 3 thành phần chính của một từ điển địa lý gồm:
tên, vị trí và kiểu đối tượng.

Hình 1-1: Các thành phần chính của từ điển địa lý.
Tên địa danh chính là tên gọi chỉ về một vùng không gian địa lý nào đó (ví dụ: Hà
Nội), vị trí địa lý là tọa độ của một điểm, đường hay vùng được gọi bởi tên địa danh,
và sau cùng, loại đối tượng chính là loại hình tự nhiên của một vị trí địa lý được gọi
bởi tên địa danh (ví dụ: sông hồ, rừng, khu dân cư, v.v…). Vị trí địa lý mà tên địa danh
nhắc đến có thể ở dưới dạng một điểm hay một hình chữ nhật bao hay một đa giác, và
tất cả đều được thể hiện bởi các tọa độ. Mỗi một dạng thể hiện vị trí ấy đều tồn tại
những vấn đề về độ chính xác cũng như là dữ liệu cần phải lưu trữ và xử lý. Có 3 dạng
thể hiện như sau:
16

 Dùng một điểm để thể hiện tâm của một vùng thì chỉ cần lưu trữ một lượng dữ
liệu nhỏ. Tuy nhiên, nếu chỉ có tâm của một vùng thì người ta sẽ không thể biết
được hình dạng và kích thước của vùng đó.

Hình 1-2: TP. Hồ Chí Minh được thể hiện bằng một điểm tâm của vùng.
 Dùng hình chữ nhật bao để thể hiện thì yêu cầu khung bao phải lớn hơn vùng
địa lý được thể hiện bên trong nó. Điều này sẽ dẫn đến việc khung bao có thể
bao luôn cả những vùng lân cận.

Hình 1-3: TP. Hồ Chí Minh được thể hiện bằng một khung bao chữ nhật.
17


 Cách thể hiện vùng chính xác nhất là dùng đa giác. Đa giác sẽ bao quanh vùng
bằng cách đỉnh và các đường thẳng nối giữa các đỉnh đó. Điều này sẽ đủ để thể
hiện gần như chính xác đối tượng vùng mà ta quan tâm với hình dạng cũng như
là kích thước. Tuy nhiên, đây lại là cách thể hiện đòi hỏi nhiều nhất lượng dữ
liệu phải lưu trữ và xử lý. Vì vậy trong một số trường hợp mà độ chính xác gần
như tuyệt đối của vùng không phải là một yêu cầu quan trọng thì người ta sẽ
lược bỏ bớt một số đỉnh (và tất nhiên là cả cạnh) của đa giác để giảm thiểu
lượng dữ liệu cần lưu trữ và xử lý.

Hình 1-4: TP. Hồ Chí Minh được thể hiện bởi một đa giác – ranh giới của vùng.
Trong các nghiên cứu gần đây, người ta đã nhận thấy cần có những từ điển địa lý tốt
hơn so với các kiểu từ điển địa lý truyền thống. Một trong số những trở ngại chính của
loại từ điển địa lý truyền thống là nó không thể hiện các mối quan hệ về mặt không
gian cũng như ngữ nghĩa giữa các đối tượng. Quan hệ không gian có thể giúp cho
người dùng khi muốn tìm kiếm liên quan đến một vùng lân cận với một vùng cụ thể đã
xác định trước đó, cung cấp khả năng xếp hạng kết quả dựa trên khoảng cách không
gian. Quan hệ về ngữ nghĩa có thể giúp cho người dùng tìm thấy được thông tin nhờ
vào các quan hệ về ngữ nghĩa giữa các tên địa danh chẳng hạn như các cách gọi khác
18

nhau về một địa danh, v.v… Chính từ những hạn chế đó, người ta cho ra đời cái gọi là
ontology địa lý (Geographic Ontology). Ontology địa lý cũng là một dạng từ điển địa
lý nhưng có thêm thông tin về các mối quan hệ không gian giữa những địa danh với
nhau nhằm hỗ trợ tốt hơn trong việc xử lý các truy vấn của người dùng.
1.5 Tìm kiếm thông tin địa lý:
Có 2 cách để người dùng đặc tả các ràng buộc về mặt địa lý trong yêu cầu tìm kiếm của
họ. Thứ nhất là để cho người dùng chỉ ra một hay nhiều tên địa danh như là những từ
khóa trong câu truy vấn cùng với những từ khóa khác của câu truy vấn. Khi phân tích
câu truy vấn, hệ thống truy vấn thông tin địa lý hoặc hệ thống truy vấn thông tin
(GIR/IR) sẽ xem các tên địa danh mà hệ thống phát hiện được như là những từ khóa

đặc biệt của hệ GIR/IR nhằm cho biết giới hạn địa lý mà người dùng muốn tìm kiếm
thông tin. Ngoài ra, còn có cách thứ hai là để cho người dùng đặc tả các ràng buộc về
địa lý trong câu truy vấn bằng cách vẽ chúng thành các bản đồ trực quan.
Những kiểu câu truy vấn tổng quát mà một hệ GIR luôn gặp là điểm trong vùng (Point
in Polygon) dùng để tìm thông tin về vùng chứa hay vùng xung quanh hoặc vùng có
liên quan của một vị trí địa lý nào đó; câu truy vấn theo vùng (Region Queries) dùng để
tìm kiếm các thông tin về bất cứ cái gì nằm trong vùng; câu truy vấn theo khoảng cách
và vùng đệm (Distance and Buffer Zone Queries) dùng để tìm các thông tin kèm theo
ràng buộc về khoảng cách với những đối tượng địa lý (điểm, đường, đa giác).
Việc tìm ra các phương pháp kết hợp hiệu quả những kiểu câu truy vấn nói trên với
những câu truy vấn theo khái niệm như trong IR truyền thống có thể tạo ra những máy
tìm kiếm hiệu quả, đầy sức mạnh không chỉ có thể giúp người dùng tìm kiếm các thông
tin dựa vào từ khóa mà còn thêm vào đó khả năng khoanh vùng địa lý nhằm giới hạn
tìm kiếm chỉ trong vùng quan tâm. Khi đó, các vùng địa lý ấy sẽ được vẽ lên trên bản
đồ bằng điểm, khung bao chữ nhật hay đa giác, còn các kết quả tìm thấy cũng sẽ được
chấm lên bản đồ nếu cần thiết.
19

1.6 Hệ thống truy vấn thông tin địa lý Việt Nam:
Hệ thống GIR Việt Nam như tên gọi của nó sẽ là một hệ thống GIR phục vụ riêng cho
đối tượng người dùng chủ yếu là người Việt Nam, với những câu truy vấn bằng tiếng
Việt, và thông tin sẽ mang tính cục bộ Việt Nam hơn. Cũng như mọi hệ IR hay GIR,
một hệ GIR Việt Nam cũng được cấu thành từ những thành phần chính là các thành
phần lập chỉ mục, thành phần phân tích truy vấn, thành phần tìm kiếm và xếp hạng kết
quả. Tuy nhiên, khi bắt tay vào vấn đề, những khó khăn mang tính đặc trưng sẽ dần
dần hiện ra chứ không đơn giản chỉ là những vấn đề chung mà mọi hệ IR/GIR đều gặp
phải. Phần tiếp theo của luận văn, sẽ là phần trình bày các công việc quan trọng trong
quá trình xây dựng một hệ thống GIR Việt Nam cùng với những trở ngại và các hướng
giải quyết nhằm tạo ra một hệ thống có hiệu suất cao.
20


Chương 2: Lập chỉ mục cho nội dung tài liệu
2.1 Các phương pháp lập chỉ mục:
Một hệ thống GIR sẽ khác với một hệ IR truyền thống ở chỗ dễ nhận thấy nhất chính là
các câu truy vấn rất hay có dạng “Tìm cái gì? Ở đâu?”. Bản thân câu truy vấn đã nêu
lên được mối quan hệ phải có trong những kết quả tìm được. Do đó, việc tìm kiếm và
trả về kết quả lúc này sẽ không đơn giản chỉ là trùng khớp về từ khóa, về mức độ tương
quan giữa nội dung tài liệu và từ khóa truy vấn nữa mà nó sẽ phụ thuộc vào cả hai yếu
tố trong câu truy vấn: chủ đề tìm kiếm và không gian tìm kiếm. Điều này đã đặt ra một
yêu cầu quan trọng cho hệ thống là lựa chọn cấu trúc chỉ mục như thế nào để có được
hiệu quả cao trong quá trình tìm kiếm thông tin. Hiệu quả cao ở đây có thể hiểu là tìm
nhanh và phù hợp với yêu cầu của truy vấn.
Hiện tại, có một số phương pháp trong việc lập chỉ mục cho hệ GIR. Sau đây sẽ là trình
bày sơ nét về các phương pháp lập chỉ mục và những phân tích đánh giá nhằm lựa chọn
phương pháp thích hợp cho hệ thống.
2.1.1 Phương pháp lập chỉ mục thuần theo nội dung (PT):
Đây là phương pháp xuất phát từ IR truyền thống. Phương pháp này không quan tâm
đến nội dung tài liệu gồm những thành phần gì và cũng không quan tâm đến việc phát
hiện đâu là thành phần ngữ nghĩa đâu là thành phần chỉ không gian trong tài liệu. Đối
với phương pháp này thì các từ/cụm từ trong nội dung tài liệu là những thành phần mà
nó quan tâm chính.
Để thực hiện việc lưu chỉ mục theo phương pháp này, các nghiên cứu đã đề xuất một
số cấu trúc dữ liệu. Tuy nhiên, phổ biến nhất là dùng cấu trúc bảng chỉ mục nghịch đảo
(Inverted Index). Bảng nghịch đảo là một danh sách nghịch đảo của các từ hoặc cụm từ
được đánh chỉ mục. Trong danh sách đó, mỗi dòng sẽ chứa một trường có nội dung là

×