Có ba cách để thực hiện tìm kiếm thông tin nội dung của trang web: Manually, Automated và OSINT (Open-Source Intelligence).
robots.txt
File robots.txt
giúp liệt kê các trang của một website mà được phép hoặc không được phép xuất hiện trong kết quả tìm kiếm của các search engine. Ngoài ra, nó còn có thể giúp ngăn chặn việc crawling của một số search engine.
Favicon
Thông tin về framework của website có thể bị lộ nếu không thay đổi favicon mặc định. Có một cách để biết favicon thuộc về framework nào:
- Download favicon của website về và tính giá trị hash MD5.
- Sử dụng giá trị này, ta có thể tra cứu trong danh sách sau: favicon database - OWASP.
Sitemap.xml
Tập tin Sitemap.xml
trái ngược với robots.txt
: nó giúp liệt kê các tập tin hay thư mục mà website muốn search engine hiển thị trong kết quả tìm kiếm. File này có thể chứa những tập tin hay thư mục mà hiện tại không còn accessible, có thể dùng để khai thác.
HTTP Headers
Header của gói tin HTTP response có thể chứa những thông tin quan trọng chẳng hạn như webserver hay ngôn ngữ lập trình được sử dụng. Khi biết được những thông tin này, ta có thể tấn công dựa vào những lỗ hổng có sẵn.
Sử dụng cờ -v
với lệnh curl
giúp liệt kê các headers có trong HTTP response:
curl <URL> -v
Google Dorking
Others
Các công cụ OSINT phổ biến khác:
- Wayback Machine: giúp tìm lại các trang web cũ hoặc các phiên bản cũ của một trang web
- GitHub: trang lưu trữ và kiểm soát phiên bản của mã nguồn.