Tải bản đầy đủ (.docx) (31 trang)

Bài tập lớn môn an toàn mang, học viện bưu chính viễn thông (42)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.11 MB, 31 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
KHOA CƠNG NGHỆ THƠNG TIN

HỌC PHẦN: AN TỒN MẠNG
Bài báo cáo:
Tìm hiểu về công cụ waybackurls
Giảng viên hướng dẫn: TS. Đặng Minh Tuấn
Sinh viên thực hiện:
Trần Thái Hùng

Nhóm 02
B18DCAT104

Hà Nội, ngày 22 tháng 12 năm 2021


Mục Lục
LỜI MỞ ĐẦU

2

Chương 1: Giới thiệu, lịch sử hình thành

3
3
3
4

1.1. Giới thiệu sơ lược về Waybackurls
1.2. Internet Archive là gì?
1.3. Wayback Machine là gì?



Chương 2: Hướng dẫn cài đặt và sử dụng
2.1 Cài đặt trên máy Linux
2.2 Sử dụng waybackurls

Chương 3: Bài Lab và Kịch bản Demo
Lab 1
Lab 2
Lab 3
Lab 4

Chương 4: So sánh, Đánh giá và Kết luận
4.1 So sánh với các tool Crawl tự động khác
4.1.1 Ưu Điểm
4.1.2 Nhược Điểm
4.2 Đánh giá, kết luận về waybackurls

Tài liệu tham khảo

6
6
8
15
15
18
21
25
27
27
27

27
28
29

1


LỜI MỞ ĐẦU
Thu thập thông tin là bước đầu tiên và nền tảng cho sự thành công của
kiểm thử thâm nhập. Càng có nhiều thơng tin hữu ích về mục tiêu, thì
càng có thể tìm thấy nhiều lỗ hổng trong mục tiêu và tìm ra các vấn đề
nghiêm trọng hơn trong mục tiêu bằng cách khai thác chúng.
Trong kiểm thử xâm nhập web, Web crawling trong kiểm thử xâm nhập
web là một khía cạnh quan trọng vì đây là q trình lập chỉ mục dữ liệu
trên các trang web bằng cách sử dụng các scripts tự động hoặc chương
trình crawling. Các chương trình thu thập thơng tin phổ biến như: web
crawler, spider, spider bot, and a crawler. Waybackurls cũng là một tool
dựa trên Golang được sử dụng để thu thập thơng tin tên miền trên sdin,
tìm nạp các URL đã biết từ Wayback Machines, và xuất chúng ra stdout.
Với bài tiểu luận tìm hiểu về Waybackurls với các đề tài “ Mở đầu. Giới
thiệu, lịch sử hình thành. Hướng dẫn cài đặt, sử dụng. Các bài demo.
So sánh, đánh giá, kết luận” chúng ta sẽ cùng tìm hiểu về cách thức
hoạt động của tool này.

2


Chương 1: Giới thiệu, lịch sử hình thành

1.1. Giới thiệu sơ lược về Waybackurls:

- Đây là tool được viết dựa trên golang bởi tonomnom.
- Mô tả ngắn gọn công việc của nó theo tác giả: tìm các urls có sẵn
trong Wayback Machine cho *.domain.
Có 2 khái niệm ta cần tìm hiểu ở đây là: Internet Archive và Wayback
Machine.

1.2. Internet Archive là gì?
- là một thư viện số phi lợi nhuận có trụ sở San Francisco với sứ
mệnh lưu trữ nội dung Web trên Internet.
- Thư viện cho phép tất cả mọi người truy cập tự do nội dung tài liệu
số, bao gồm các trang web, phần mềm ứng dụng/trò chơi, âm
thanh/hình ảnh/video, và gần 3 triệu sách cơng cộng. Tính đến
tháng 05 năm 2014, thư viện có dữ liệu đạt 15 Petabyte.
- Internet Archive bắt đầu vào năm 1996 bằng cách lưu trữ chính
Internet, một phương tiện mới bắt đầu được sử dụng. Giống như
báo chí, nội dung được xuất bản trên web là phù du - nhưng
không giống như báo chí, khơng ai lưu nó. Ngày nay, Internet
Archive có hơn 25 năm lịch sử web có thể truy cập thơng qua
Wayback Machine.
- Sứ mệnh tự xưng của nó là "bảo tồn các hiện vật văn hóa của xã
hội và cung cấp quyền truy cập vào chúng. Nếu như thư viện tiếp
tục thúc đẩy giáo dục và học thuật trong thời đại ngày nay, và cũng
cần thiết phải mở rộng những chức năng đó vào thế giới kỹ thuật
số. ” “Internet Archive đang làm việc để ngăn chặn Internet - một
phương tiện mới có ý nghĩa lịch sử quan trọng - và các vật liệu ‘kỹ
3


thuật số ’ biến mất vào quá khứ. ” Internet Archive cũng trích dẫn
tầm quan trọng của quyền truy cập mở và miễn phí vào các tác

phẩm được coi là “cần thiết cho giáo dục và duy trì một xã hội."

1.3. Wayback Machine là gì?
- WayBack Machine là một dịch vụ được cung cấp bởi Internet
Archive cho phép mọi người truy cập các phiên bản đã lưu trữ của
các trang web.
- WayBack Machine được coi là thiết bị hiển thị Web vào bất kỳ
ngày cụ thể nào, cung cấp cho người dùng một cửa sổ hiển thị
trang web trong quá khứ.
- Máy WayBack cho phép bất kỳ ai nhập URL, chọn phạm vi ngày
và bắt đầu tìm phiên bản đã lưu trữ của trang web mong muốn.
- Ví dụ: kể từ tháng năm 2013, một tìm kiếm đơn giản
“www.yahoo.com” cho thấy rằng trang web đó đã được thu thập
thơng tin 38.583 lần, bắt đầu từ tháng 10 năm 1996
- Cách mà WayBack Machine có thể biên dịch và lưu trữ thơng tin
này khá phức tạp. Tuy nhiên, q trình của nó có thể đơn giản hóa
phần nào. Internet Archive đã hợp tác với Alexa Internet, Inc., đã
thiết kế một chỉ mục ba chiều cho phép duyệt các tài liệu web.
Alexa Internet, một Công ty thuộc Amazon, “đã tạo ra một trong
những công ty thu thập dữ liệu Web lớn nhất, và đã phát triển cơ
sở hạ tầng để xử lý và phục vụ một lượng lớn dữ liệu. ” Kể từ đầu
năm 1996, Alexa đã thu thập dữ liệu trên web và dịch vụ cho các
nhà nghiên cứu, học giả trong tương lai và các bên quan tâm
khác, Alexa Internet đóng góp một bản sao của mỗi lần thu thập
dữ liệu web lên Internet Archive.
- Trình thu thập thơng tin web là các chương trình phần mềm “lướt
Web và tự động lưu trữ các bản sao của các tệp trang web, bảo
quản các tệp này khi chúng tồn tại tại thời điểm thu thập.” Một mô

4



tả khác cung cấp:“trình thu thập thơng tin là một chương trình tự
động quét Internet và chụp ảnh mọi trang web mà nó được hướng
dẫn để truy cập. ”
- Alexa Internet đã phát triển một trình thu thập thơng tin web như
vậy và tập hợp khoảng 1,6 terabyte (1.600 gigabyte) nội dung web
mỗi ngày. Mỗi ảnh chụp nhanh của web mất khoảng hai tháng để
hoàn thành; Tuy nhiên, kể từ 1996, Internet Alexa đã thu thập
được ảnh của 4,5 tỷ web pages từ hơn 16 triệu websites.
- Có nhiều nguồn khác cũng lưu trữ trang web, bao gồm Gigablast,
Google Bot của Google, v.v. Tuy nhiên, Internet không ngừng phát
triển và một số nguồn này đã ngừng hoạt động hoặc thay thế bằng
các phiên bản mới hơn. Ví dụ, Yahoo! cơng bố vào tháng 2 năm
2009 rằng dịch vụ lưu trữ của nó, Yahoo! MyWeb, sẽ ngừng hoạt
động và được thay thế bằng Yahoo! Bookmarks và một dịch vụ
khác, là Delicious.
- Trái ngược với tính chất nhất thời của một số trang web lưu trữ
khác, Internet Archive’s WayBack Machine lưu trữ hình ảnh cơng
chúng sử dụng. Nhiều dịch vụ khác đã được bắt đầu sau năm
1996 và không giữ lại nhiều bản sao đã lưu trữ như Wayback
Machine.
Ví dụ, Gigablast được thành lập vào năm 2000 và dường như chỉ
giữ lại một bản sao được lưu trong bộ nhớ cache của mỗi trang
web.
Một tìm kiếm cho Yahoo! Được lưu vào bộ nhớ đệm chỉ có kết quả
là ảnh chụp màn hình từ ngày 6 tháng 11 năm 2011(rất cũ).
- Đôi khi các dịch vụ lưu trữ web phụ thuộc vào chính Wayback
Machine vì có nhiều ảnh chụp màn hình hơn.
- Ngồi ra, Internet Archive đã mở rộng theo dõi các khả năng khi

Google thông báo rằng HTTP Archive của họ đã hợp nhất với
Internet Archive. Trong khi WayBack Machine theo dõi nội dung
của web, HTTP Archive của Google theo dõi nội dung đó được xây

5


dựng và phục vụ như thế nào. HTTP Archive do đó đã kết nối với
Internet Archive ghi lại lịch sử cho các thế hệ tương lai.

6


Chương 2: Hướng dẫn cài đặt và sử dụng
2.1 Cài đặt trên máy Linux:
Bước 1: Cài đặt golang:
Kiểm tra xem golang đã được cài đặt trên máy: go version
nếu chưa có thì cài đặt: apt install golang

Bước 2: Tải tool waybackurls thơng qua tiện ích Go sử dụng câu lệnh:
sudo go get github.com/tomnomnom/waybackurls

7


Bước 3: Kiểm tra menu help để hiểu rõ hơn về tool và các tùy chọn:

8



2.2 Sử dụng waybackurls:
Ví dụ 1: Quét đơn giản:
waybackurls geeksforgeeks.org

Bây giờ như hình bên dưới, ta đã có thể thu thập thành cơng tất cả các
URL Wayback có thể có từ tên miền mục tiêu là geekforgeeks.org. Hầu
hết mọi URL đều được thu thập bởi công cụ waybackurls.

9


Ví dụ 2: Sử dụng thẻ -no-subs
echo "geeksforgeeks.org" | waybackurls -no-subs
Trong ví dụ này, mục tiêu là geeksforgeeks.org và ta đã cung cấp thẻ
-no-subs, trong thẻ này, các URL sẽ chỉ được tìm nạp thơng qua tên
miền chính. Khơng có miền phụ nào được xem xét khi thu thập dữ liệu
URL.

10


Trong ảnh chụp màn hình bên dưới, có thể thấy cơng cụ waybackurls đã
tìm nạp một số URL nhưng điều quan trọng là nó chỉ tìm nạp các chỉ liên
quan đến tên miền chính, khơng có tên miền phụ nào được xem xét
trong khi thu thập thông tin.

11


Ví dụ 3: Sử dụng thẻ -date

echo "geeksforgeeks.org" | waybackurls -dates
Sử dụng thẻ -dates để lấy ngày trong cột đầu tiên. Nó hiển thị ngày URL
đó được thêm vào Wayback Machine.

12


13


Ví dụ 4: Sử dụng thẻ -get-version
echo "geeksforgeeks.org" | waybackurls -get-versions

Ta có thể thấy rằng cùng với các URL được thu thập thơng tin của
geeksforgeeks.org, có một số URL bổ sung chỉ định các nguồn mà các
URL của geeksforgeeks.org được thu thập thơng tin từ đó. Ví dụ.
URL được tìm nạp bởi
Điều này có thể giúp ta
truy cập trực tiếp vào URL nguồn có thể khám phá thêm về URL được
thu thập thông tin của geeksforgeeks.org.

14


15


Chương 3: Bài Lab và Kịch bản Demo
Lab 1:
Mục tiêu: tripadvisor.com

Các tools sử dụng: subfinder, httprobe, waybackurls
Kịch bản demo:
- Sử dụng subfinder để liệt kê các sub domain của tripadvisor.com
lưu vào file subfinder.txt
- Sau đó cho danh sách các sub domain chạy qua httprobe để lọc
lấy các live sub domain lưu vào file live-responsible.txt
- Tiếp theo sẽ cho danh sách các live sub domain chạy qua
waybackurls lưu vào file allurl.txt

Kết quả: lưu vào file subfinder.txt

16


Sử dụng hprobe lọc live sub domain:

Command hprobe được định nghĩa trong file ~/.profile sử dụng httprobe.
17


Sử dụng waybackurls đối với các live sub domain:

Kết quả: lưu vào file allurl.txt

18


Lab 2:
Mục tiêu: testasp.vulnweb.com
Các tools sử dụng: waybackurls, gf-pattern, kxss

Kịch bản demo:
- Sử dụng waybackurls đối với testasp.vulnweb.com
- Sau đó đưa kết quả qua gf-pattern với pattern là xss để lọc ra
những urls có khả năng dính lỗi xss.
- Sau đó sử dụng kxss để test lỗi xss và tìm chính xác các urls dính
lỗi.

Sử dụng waybackurls + gf pattern:

19


Kết quả:

Sử dụng waybackurls + gf + kxss:

20


Kết quả:

21


Lab 3:
Mục tiêu: testasp.vulweb.com
Các tools sử dụng: waybackurls, gf-pattern, sqlmap
Kịch bản demo:
- Sử dụng waybackurls đối với testasp.vulnweb.com
- Sau đó đưa kết quả qua gf-pattern với pattern là sqli để lọc ra

những urls có khả năng dính lỗi sql injection.
- Tiếp đó sử dụng sqlmap với các urls tìm được.
Sử dụng waybackurls với gf-pattern:

Tìm thơng tin về server với sqlmap:

22


Kết quả:

Liệt kê database sử dụng sqlmap:

23


Kết quả:

Liệt kê các bảng trong database acuforum:

24


×