Tải bản đầy đủ (.pdf) (6 trang)

DSpace at VNU: Tìm kiếm thông tin theo các giá trị thuộc tính trên mạng ngang hàng có cấu trúc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (205.93 KB, 6 trang )

Tìm kiếm thông tin theo các giá trị thuộc tính
trên mạng ngang hàng có cấu trúc
Phạm Thị Huế
Trường Đại học Công nghệ
Luận văn ThS chuyên ngành: Mạng và truyền thông; Mã số: 1 01 10
Người hướng dẫn: TS. Nguyễn Hoài Sơn
Năm bảo vệ: 2008

Abstract: Giới thiệu tổng quan về mạng ngang hàng, những khái niệm cơ bản cũng như
sơ lược về lịch sử phát triển của mạng ngang hàng. Trình bày sâu thêm về 1 nhánh của
mạng ngang hàng: mạng ngang hàng có cấu trúc; giới thiệu chi tiết về giao thức Chord,
giao thức sẽ được sử dụng để triển khai mạng phủ DHT khi xây dựng chương trình mô
phỏng. Trình bày một số giải pháp phân bổ và tìm kiếm thông tin theo các thuộc tính/giá
trị trên mạng ngang hàng có cấu trúc tiêu biểu; giải pháp về tìm kiếm thông tin theo các
thuộc tính/giá trị trên mạng ngang hàng có cấu trúc. Đánh giá hiệu quả của giải pháp tìm
kiếm thông tin theo các thuộc tính/giá trị trên mạng ngang hàng có cấu trúc trên lý thuyết
và qua chương trình mô phỏng
Keywords: Mạng máy tính; Mạng ngang hàng; Truyền dữ liệu; Tìm kiếm thông tin

Content
MỞ ĐẦU
Công nghệ mạng ngang hàng (peer-to-peer network) đã phát triển nhanh chóng trên mạng
Internet trong thời gian gần đây với sự xuất hiện của hàng loạt các ứng chia xẻ file ngang hàng
như Napster, Gnutella, Freenet, BitTorrent, Edonkey,… Qua các ứng dụng nói trên, việc chia sẻ
và tìm kiếm các tài nguyên mạng trở lên dễ dàng và nhanh chóng hơn bao giờ hết, ngoài ra,
người sử dụng có thể chia sẻ file trực tiếp cho nhau mà không cần thông qua bất cứ máy chủ dịch
vụ nào.
Sở dĩ mô hình mạng P2P phát triển như vậy là vì mô hình này rất phù hợp với tính phân tán của
dữ liệu, đồng thời nó đảm bảo quyền quản lý dữ liệu của người dùng nên khuyến khích được
việc chia sẻ dữ liệu, làm tăng nguồn tài nguyên trên mạng. Mô hình P2P cũng được sử dụng để



xử lý các bài toán phức tạp do tận dụng được khả năng tính toán phân tán và tích hợp dữ liệu từ
các peer tham gia mạng. Trong mô hình P2P, mỗi peer vừa có thể đóng vai trò là Client, vừa có
thể đóng vai trò là Server. Tổng sức mạnh xử lý của các peer này có khi lớn hơn nhiều lần khả
năng xử lý của 1 Server lớn. Như vậy, mô hình P2P không chỉ làm tăng lượng tài nguyên mạng,
mà còn làm tăng sức mạnh xử lý đáp ứng yêu cầu dịch vụ, nâng cao tính sẵn sàng phục vụ của
mạng.
Tuy nhiên, trong thời kỳ đầu mới phát triển, việc tìm kiếm trong mạng ngang hàng thường được
thực hiện theo kiểu phát tràn thông báo, gây tốn kém băng thông mạng. Các ứng dụng sau này đã
từng bước cải tiến giao thức định tuyến thông báo, làm mạng hoạt động hiệu quả hơn, nhưng vẫn
chưa đảm bảo việc tìm kiếm thông tin sẽ thành công.
Mạng ngang hàng có cấu trúc sử dụng giải thuật Bảng băm phân tán (Distributed Hash Table –
DHT) khắc phục nhược điểm trên bằng cách tổ chức các node mạng theo một cấu trúc không
gian khóa nhất định như mạch vòng (giải thuật Chord[7]) hay không gian n-chiều (giải thuật
CAN[10]) và định tuyến thông báo dựa trên cấu trúc này. Nội dung thông tin được gắn với một
khóa k là giá trị băm của một đặc tả đặc trưng nào đó của nội dung thông tin (gọi là tên nội dung)
và sẽ được phân bổ đến node phụ trách khóa k. Mỗi node trong mạng sẽ chịu trách nhiệm quản lý
1 tập các khóa trong không gian khóa, và lưu giữ thông tin về 1 số các node khác trong mạng.
Việc tìm kiếm thông tin qua câu truy vấn q được thực hiện bằng cách băm q để được khóa kq, rồi
chuyển q đến node quản lý khóa kq, node đó sẽ thực hiện việc tìm kiếm địa phương và trả về kết
quả cho câu truy vấn. Bằng phương pháp này, giải thuật DHT cho phép xây dựng một mạng
ngang hàng với khả năng mở rộng cao, định tuyến hiệu quả các gói tin thông báo tới đích và
kháng lỗi tốt.
Tuy nhiên, giải thuật DHT chỉ hỗ trợ tìm kiếm chính xác, tức là tìm kiếm nội dung thông tin gắn
với một khóa k nào đó. Trong thực tế, không phải lúc nào người tìm kiếm cũng biết chính xác về
các đặc tả của thông tin mình cần tìm, do đó, rất nhiều giải pháp hỗ trợ tìm kiếm nâng cao đã và
đang được rất nhiều tổ chức, cá nhân trên thế giới nghiên cứu và ứng dụng. Một số giải pháp
điển hình như tìm kiếm theo khoảng, tìm kiếm theo các thuộc tính/giá trị, tìm kiếm gần đúng, …
Trong số các kiểu tìm kiếm nâng cao trên P2P, tìm kiếm theo các thuộc tính/giá trị gần đây đang
được quan tâm nghiên cứu bởi sự phù hợp của việc biểu diễn đặc tả thông tin thông qua các cặp

thuộc tính/giá trị. Qua phương pháp này, 1 tên nội dung không còn được băm thành 1 giá trị khóa
duy nhất nữa, mà sẽ được ánh xạ vào 1 tập các khóa tương ứng với giá trị băm của các cặp thuộc
tính/giá trị có mặt trong tên nội dung. Sau đó, tập khóa này sẽ được chuyển đến 1 tập các node sẽ


quản lý chúng dựa trên giao thức DHT nào đó. Bằng cách này, 1 nội dung thông tin sẽ được lưu
trữ ở nhiều node hơn, làm tăng tính sẵn sàng sử dụng và khắc phục lỗi của mạng khi có sự vào ra
của các node. Đồng thời, thông tin được tìm kiếm cũng dễ dàng hơn, do chỉ cần biết 1 phần đặc
tả của thông tin (ứng với 1 cặp thuộc tính/giá trị trong tên nội dung thông tin).
Có nhiều giải pháp tìm kiếm theo các thuộc tính/giá trị khác nhau được đưa ra, chủ yếu nhấn
mạnh vào việc sẽ phân bổ các thuộc tính/giá trị đến các node, và tiến hành xử lý truy vấn như thế
nào. Có giải pháp thì đưa ra cách xây dựng cây AVTree từ các cặp thuộc tính/giá trị (trong
INS/Twine), rồi tính khóa phân bổ bằng cách băm các nhánh của cây này. Có giải pháp thì đưa
ra cách xây dựng các Xpath từ các đặc tả kiểu XML của tên nội dung, rồi dùng nó để tạo cây truy
vấn,…Mỗi giải pháp đều có điểm mạnh riêng, song vẫn còn nhiều hạn chế cần khắc phục để
mạng cân bằng hơn về tải và tìm kiếm hiệu quả hơn. Việc nghiên cứu các giải pháp này để từ đó,
tìm ra được 1 giải pháp tìm kiếm tốt hơn trên P2P có cấu trúc là việc làm hết sức cần thiết để
phát triển các ứng dụng P2P phù hợp với thực tế.
Luận văn Tìm kiếm thông tin theo các giá trị thuộc tính trên mạng ngang hàng có cấu
trúc đi vào nghiên cứu và đánh giá các giải pháp tìm kiếm theo các thuộc tính/giá trị đã có, từ đó
tìm cách cải tiến để đưa ra 1 giải pháp mới. Giải pháp mới được triển khai trong luận văn này
không nằm ngoài xu hướng nghiên cứu chung, đồng thời cũng được đánh giá qua chương trình
mô phỏng và cho kết quả khá tốt.
Về bố cục, nội dung của luận văn bao gồm 6 chương:
Chương 1: Giới thiệu tổng quan về mạng ngang hàng, những khái niệm cơ bản cũng như sơ
lược về lịch sử phát triển của mạng ngang hàng.
Chương 2: Trình bày sâu thêm về 1 nhánh của mạng ngang hàng: mạng ngang hàng có cấu
trúc. Đồng thời giới thiệu chi tiết về giao thức Chord, giao thức sẽ được sử dụng để triển khai
mạng phủ DHT khi xây dựng chương trình mô phỏng.
Chương 3: Trình bày các nghiên cứu liên quan, cụ thể là 1 số giải pháp phân bổ và tìm kiếm

thông tin theo các thuộc tính/giá trị trên mạng ngang hàng có cấu trúc tiêu biểu.
Chương 4: Trình bày chi tiết về giải pháp “Tìm kiếm thông tin theo các thuộc tính/giá trị
trên mạng ngang hàng có cấu trúc”
Chương 5: Đánh giá hiệu quả của giải pháp “Tìm kiếm thông tin theo các thuộc tính/giá trị
trên mạng ngang hàng có cấu trúc” trên lý thuyết và qua chương trình mô phỏng.


Chương 6: Cuối cùng là phần kết luận nêu tóm tắt các vấn đề đã trình bày trong luận văn,
rút ra những điểm đã đạt được cũng như chưa đạt được, đồng thời đưa ra một số hướng nghiên
cứu, phát triển tiếp theo.
Ngoài ra, luận văn còn có thêm các danh mục các thuật ngữ, các từ viết tắt, danh mục bảng
biểu, hình vẽ và danh mục các tài liệu tham khảo để thuận tiện cho việc tìm hiểu và tra cứu nội
dung của luận văn.

References
Tiếng Việt
1. Nguyễn Hoài Sơn, Hồ Sĩ Đàm, “Tìm kiếm thông tin theo các giá trị thuộc tính trên mạng
ngang hàng có cấu trúc”, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2008
2. TS. Nguyễn Đại Thọ, “Công nghệ mạng ngang hàng”, Bộ môn Mạng & Truyền thông
Máy tính Khoa Công nghệ Thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà
Nội, 2006-2007

Tiếng Anh
3. W. Adjie-Winoto, E. Schwartz, H. Balakrishnan and J. Lilley, “The Design and
Implementation of an Intentional Naming Systems”, In Proceedings of ACM Symposium
on Operating Systems Principles, Dec. 1999

4. M. Balazinska, H. Balakrishnan, and D. Karger, "INS/Twine: A Scalable Peer-to-Peer
Architecture for Intentional Resource Discovery", In Proceedings of International
Conference on Pervasive Computing, August 2002


5. J. Gao and P. Steenkiste, "Design and Evaluation of a Distributed Scalable Content
Discovery System", IEEE Journal on Selected Areas in Communications, January,
January 2004


6. L. Garc´es-Erice, P.A. Felber, E.W. Biersack, G. Urvoy-Keller K.W. Ross, “Data
Indexing in Peer-to-Peer DHT Networks”, In Proceedings of 24rd International
Conference on Distributed Computing Systems, March 2004
7. K. Gummadi_, R. Gummadiy, S. Gribblez, S. Ratnasamyx, S. Shenker, I. Stoica, “The
Impact of DHT Routing Geometry on Resilience and Proximity”, SIGCOMM’03, August
25–29, 2003, Karlsruhe, Germany.

8. Matthew Harren, Joseph M. Hellerstein, Ryan Huebsch, Boon Thau Loo, Scott Shenker,
Ion Stoica, “ Complex Queries in DHT-based Peer-to-Peer Networks”

9. Wolfgang Nejdl, Boris Wolf, Changtao Qu_ , Stefan Decker_ , Michael Sintek_Ambj¨
orn Naeve, Mikael Nilsson, Matthias Palm´er_ , Tore Risch, “EDUTELLA: A P2P
Networking Infrastructure Based on RDF”, Honolulu, Hawaii, USA, May 7–11, 2002
10. S. Ratnasamy, P. Francis, M. Handley and R. Karp, “A Scalable Content-Addressable
Network”, In Proceedings of ACM SIGCOMM’01, Aug. 2001
11. A. Rowstron and P. Druschel, “Pastry: Scalable, distributed object location and routing
for large-scale peer-to-peer systems”, In Proceedings of IFIP/ACM International
Conference on Distributed Systems Platforms, Nov. 2001
12. I. Stoica, R. Morris, D. Karger, M.F. Kaashoek, H. Balakrisnan, “Chord: A Scalable
peer-to-peer lookup service for Internet applications”, In Proceedings of ACM
SIGCOMM’01, August 2001.
13. Gerhard Weikum, “Peer-to-Peer Information Systems”, 2002.

14. />

15. />

16. />
17. />


×