Verificar El Archivo Robots.Txt De Un Servidor Web Utilizando El Script Http-Robots.Txt De Nmap

Los propietarios de sitios web utilizan el archivo de nombre “robots.txt” para proporcionar instrucciones sobre el sitio web a los robots web; esto es denominado como “The Robots Exclusion Protocol” o Protocolo para la Exclusión de Robots.

Esto trabaja de la siguiente manera; un robot requiere visitar la URL de un sitio web. Antes de hacer esto, primero verifica el archivo “robots.txt”, y encuentra lo siguiente:

User-agent: *
Disallow: /

El “User-agent: * ” sinifica la aplicación de esta sección a todos los robots. El “Disallow /” indica al robot no visitar ninguna página del sitio.

El script de nombre “http-robots.txt” de Nmap, verifica por entradas deshabilitadas en el archivo “robots.txt” sobre el servidor web.

La siguiente demostración expone el resultados de ejecutar este script.

# nmap -n -Pn -p80 –script http-robots.txt www. dominio. com

Una alta verbosidad o nivel de depuración, mostrará más entradas deshabilitadas incluidas en el archivo “robots.txt”. Se utiliza la opción “-dd” de Nmap para incrementar el nivel de depuración.

# nmap -n -Pn -p80 -dd –script http-robots.txt www. dominio. com

Existen dos importantes consideraciones cuando se utiliza el archivo “robots.txt”.

Los robots pueden ignorar el archivo “robots.txt”. Especialmente robots de malware los cuales escanean la web por vulnerabilidades de seguridad, y cosechadores de correos electrónicos utilizados por spammers.

El archivo “robots.txt” es un archivo disponible públicamente. Cualquiera puede ver cuales secciones del servidor web no se desea sean utilizados por los robots.

Fuentes:

https://nmap.org/nsedoc/scripts/http-robots.txt.html
http://www.robotstxt.org/robotstxt.html

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s