Có ba cách để thực hiện tìm kiếm thông tin nội dung của trang web: Manually, Automated và OSINT (Open-Source Intelligence).

robots.txt

File robots.txt giúp liệt kê các trang của một website mà được phép hoặc không được phép xuất hiện trong kết quả tìm kiếm của các search engine. Ngoài ra, nó còn có thể giúp ngăn chặn việc crawling của một số search engine.

Favicon

Thông tin về framework của website có thể bị lộ nếu không thay đổi favicon mặc định. Có một cách để biết favicon thuộc về framework nào:

  1. Download favicon của website về và tính giá trị hash MD5.
  2. Sử dụng giá trị này, ta có thể tra cứu trong danh sách sau: favicon database - OWASP.

Sitemap.xml

Tập tin Sitemap.xml trái ngược với robots.txt: nó giúp liệt kê các tập tin hay thư mục mà website muốn search engine hiển thị trong kết quả tìm kiếm. File này có thể chứa những tập tin hay thư mục mà hiện tại không còn accessible, có thể dùng để khai thác.

HTTP Headers

Header của gói tin HTTP response có thể chứa những thông tin quan trọng chẳng hạn như webserver hay ngôn ngữ lập trình được sử dụng. Khi biết được những thông tin này, ta có thể tấn công dựa vào những lỗ hổng có sẵn.

Sử dụng cờ -v với lệnh curl giúp liệt kê các headers có trong HTTP response:

curl <URL> -v

Google Dorking

Others

Các công cụ OSINT phổ biến khác:

  • Wayback Machine: giúp tìm lại các trang web cũ hoặc các phiên bản cũ của một trang web
  • GitHub: trang lưu trữ và kiểm soát phiên bản của mã nguồn.

Automated Discovery