Sepa qué es Robots.txt y cómo usarlo

Asegurar que su sitio web aparezca en las b√ļsquedas de los usuarios es esencial para el √©xito de cualquier estrategia de Marketing Digital.¬†Para lograr este objetivo, es com√ļn que invierta en estrategias de SEO, Content Marketing y una serie de otras acciones capaces de atraer la atenci√≥n de los motores de b√ļsqueda y, con eso, aumentar [‚Ķ]

Asegurar que su sitio web aparezca en las b√ļsquedas de los usuarios es esencial para el √©xito de cualquier estrategia de¬†Marketing Digital¬†.

Para lograr este objetivo, es com√ļn que invierta en¬†estrategias de SEO¬†,¬†Content Marketing¬†y una serie de otras acciones capaces de atraer la atenci√≥n de los motores de b√ļsqueda y, con eso, aumentar el tr√°fico de su p√°gina.

Sin embargo, hay p√°ginas en su sitio que no desea que rastreen los motores de b√ļsqueda, como las p√°ginas de inicio de sesi√≥n y otras que tienen archivos exclusivamente accesibles para los clientes o miembros de su equipo.

Para ayudarlo a ocultar estas p√°ginas, hay un archivo robots.txt.

¬ŅQu√© es el archivo robots.txt?

Robots.txt es un archivo que debe guardarse en la carpeta ra√≠z de su sitio web e indica a los robots de b√ļsqueda de Google, Bing y muchos otros a qu√© p√°ginas de su sitio web no desea que accedan estos motores de b√ļsqueda.

Y como su nombre lo indica, robots .txt es un archivo en formato .txt que se puede crear en el bloc de notas de su computadora, excluyendo la necesidad de una herramienta para su creación.

Robots.txt utiliza la forma del protocolo de exclusi√≥n de robots est√°ndar, un conjunto de comandos que utilizan los robots de b√ļsqueda a los directorios y p√°ginas de su sitio a los que no deben acceder.

Como el archivo se guarda directamente en la carpeta ra√≠z del sitio, acceder a los archivos robots.txt de otras p√°ginas es bastante simple:¬†simplemente escriba la direcci√≥n de la p√°gina en su navegador y agregue el comando¬†¬ę/robots.txt¬Ľ al final de la URL.

Hacerlo puede brindarle información interesante, así como también hacerle saber algunas direcciones que sus competidores quieren ocultar de sus páginas.

¬ŅPara qu√© sirve el archivo robots.txt?

Como ya dijimos, robots.txt se usa para dar órdenes específicas para buscar robots.

Para que lo entiendas un poco mejor, hemos enumerado sus funciones específicas.

Controla el acceso a los archivos de imagen.

Robots.txt puede evitar que los archivos de imagen de su p√°gina se muestren en los resultados de b√ļsqueda.

Esto ayuda a controlar el acceso a cierta información importante, como infografías y detalles técnicos del producto.

Como no se muestran en los resultados de b√ļsqueda, el usuario tendr√° la obligaci√≥n de acceder a su p√°gina, lo que puede ser m√°s interesante para su empresa.

Sin embargo, es importante tener en cuenta que robots.txt no impide que otras p√°ginas y usuarios copien y compartan enlaces a sus im√°genes.

Existen otras herramientas para ayudarlo con este objetivo.

Controla el acceso a las p√°ginas web.

Su página también está compuesta de archivos que no son de imagen, que son las páginas web de su página.

Adem√°s de evitar que los robots de b√ļsqueda accedan a p√°ginas restringidas o irrelevantes para su estrategia, el uso de robots.txt ayuda a evitar que el servidor que aloja su sitio se vea abrumado por los accesos a los motores de b√ļsqueda, lo que ayuda a su empresa ahorrando dinero

Sin embargo, es importante recordar que, como en el caso de las im√°genes, los usuarios a√ļn pueden encontrar algunas de sus p√°ginas si tienen el enlace de acceso directo a ellas.

Bloquee el acceso a los archivos de recursos

Adem√°s de bloquear im√°genes y sus p√°ginas web, robots.txt puede ser √ļtil para bloquear el acceso a otras secuencias de comandos y archivos de estilo menos importantes, salvando sus servidores.

Sin embargo, también debe usar esta función con precaución, especialmente si estos recursos son indispensables para la carga correcta de su página, lo que puede dificultar el trabajo de los rastreadores, lo que dificulta el análisis de su página.

Crear un archivo robots.txt

Crear un archivo robots.txt es muy simple, solo requiere el conocimiento de algunos comandos específicos.

Este archivo se puede crear en el bloc de notas de su computadora u otro editor de texto de su elección.

También necesitará acceso a la carpeta raíz de su dominio.

Para crear un archivo robots.txt, debe acceder a la raíz de su dominio, donde guardará el archivo que creó.

Después de eso, necesitará saber un poco sobre la sintaxis y los comandos robots.txt

Comandos Robots.txt

Los comandos en robots.txt funcionan de manera similar a HTML y los diferentes lenguajes de programación en el mercado.

Hay comandos que ser√°n seguidos por los robots para navegar y encontrar las p√°ginas de su sitio web.

Estos son algunos de los comandos principales en el archivo robots.txt:

El comando de agente de usuario

Puede ingresar √≥rdenes espec√≠ficas para cada robot de b√ļsqueda en el mercado en su archivo robots.txt simplemente usando el comando User-agent para determinar a qu√© robot de b√ļsqueda se refiere.

Para averiguar el nombre de cada agente de usuario, puede consultar la¬†base de datos de robots web¬†, que enumera los robots de los principales motores de b√ļsqueda del mercado.

El robot de b√ļsqueda principal de Google es Googlebot.

Si quisiera darle órdenes específicas, el comando insertado en su robots.txt sería este:

Agente de usuario: Googlebot

Si quisiera dejar √≥rdenes espec√≠ficas para el robot de b√ļsqueda Bing, el comando ser√≠a este:

Usuario-agente: Bingbot

Como puede ver, todo lo que tiene que hacer es cambiar el nombre del Agente de usuario.

Y si desea ingresar una direcci√≥n general a seguir por todos los robots de b√ļsqueda, simplemente reemplace el nombre del agente de usuario con un asterisco.¬†Ser√≠a as√≠:

Usuario-agente: *

El comando no permitir

El comando Disallow es responsable de describir qu√© p√°ginas o sitios de directorio no deben incluirse en los resultados de b√ļsqueda.

Al igual que el comando User-agent, simplemente inserte la dirección de la página después del comando.

Para guiar a los robots a que no accedan a la p√°gina ¬ębeta.php¬Ľ de su sitio web, el comando ser√≠a este:

No permitir: /beta.php

A√ļn puede evitar el acceso a carpetas espec√≠ficas.

Si necesitara bloquear el acceso a la carpeta ¬ęarchivos¬Ľ, el comando ser√≠a este:

No permitir: / archivos /

También existe la posibilidad de bloquear el acceso al contenido que comienza con una letra específica.

Para bloquear el acceso a todas las carpetas y archivos que comienzan con la letra ¬ęa¬Ľ, el comando ser√≠a este:

No permitir: / a

El comando Permitir

El comando Permitir le permite determinar para los robots de b√ļsqueda qu√© p√°ginas o directorios en su sitio desea indexar.

De forma predeterminada, todas las p√°ginas de su sitio se indexar√°n, excepto cuando use el comando Disallow.

Por lo tanto, se recomienda el uso del comando Permitir solo cuando necesite bloquear una carpeta o directorio con el comando Disallow, pero me gustaría haber indexado un archivo o carpeta específico que esté dentro del directorio bloqueado.

Si desea bloquear el acceso a la carpeta ¬ęarchivos¬Ľ, pero necesita liberar el acceso a la p√°gina ¬ęproductos.php¬Ľ, el comando ser√≠a as√≠:

No permitir: / archivos /

Permitir: /files/products.php

Si desea bloquear el acceso a la carpeta ¬ęarchivos¬Ľ, pero necesita liberar el acceso a la carpeta ¬ęproyectos¬Ľ, el comando ser√≠a el siguiente:

No permitir: / archivos /

Permitir: / archivos / proyectos /

El comando del mapa del sitio

Otro comando √ļtil para un archivo robots.txt es la indicaci√≥n del mapa del sitio de su p√°gina, muy √ļtil para ayudar a los robots de b√ļsqueda a identificar todas las p√°ginas de su sitio.

Sin embargo, es un comando que ha caído en desuso, principalmente debido a las Herramientas para webmasters de Google , una herramienta para Google Webmasters que le permite informar rápidamente la ubicación de su archivo de mapa del sitio, además de otras funciones.

Para ingresar la dirección de su mapa de sitio, debe haber guardado su archivo de mapa de sitio guardado en la carpeta raíz de su sitio. El comando para insertar esta dirección en su sitio web es este:

Mapa del sitio: https://rabodenube.com/sitemap.xml

¬ŅCu√°les son las limitaciones de robots.txt?

Aunque es muy √ļtil dirigir el acceso de los robots de b√ļsqueda a su p√°gina, es necesario reconocer que robots.txt tiene algunas limitaciones.

Conocerlos es importante, especialmente para identificar la necesidad de usar otros dispositivos para que sus URL no se encuentren f√°cilmente en las b√ļsquedas.

Las instrucciones en el archivo robots.txt son solo directivas

Aunque el uso de robots.txt es un est√°ndar de la industria, los motores de b√ļsqueda no est√°n obligados a seguir todos sus pedidos.

Esto significa que si bien los robots de b√ļsqueda de Google siguen las instrucciones en el archivo robots.txt, es posible que otros motores de b√ļsqueda no hagan lo mismo.

Por lo tanto, es importante que, adem√°s del archivo robots.txt, use otros m√©todos juntos para ocultar sus p√°ginas de Google, como el acceso protegido por contrase√Īa o el uso de metaetiquetas noindex en su c√≥digo html.

Cada robot de b√ļsqueda puede interpretar la sintaxis de diferentes maneras

A pesar de seguir un est√°ndar internacional, los comandos ingresados ‚Äč‚Äčen robots.txt pueden ser interpretados de manera diferente por cada robot de b√ļsqueda.

Por lo tanto, para garantizar su uso correcto, es necesario conocer la sintaxis ideal para cumplir con cada herramienta de b√ļsqueda.

Esto significa que, adem√°s de comprender c√≥mo Google interpreta la informaci√≥n de robots.txt, es posible que tambi√©n necesite aprender la metodolog√≠a de Bing, Yahoo y cualquier otro motor de b√ļsqueda en el mercado.

Las directivas de Robots.txt no impiden que otros sitios hagan referencia a sus URL

Un error muy com√ļn es que los usuarios e incluso los competidores no pueden encontrar el contenido bloqueado por robots.txt de otras maneras.

Por esta raz√≥n, si se puede publicar una URL restringida en otros sitios o blogs, esta p√°gina a√ļn puede aparecer en los resultados de b√ļsqueda.

Es por eso que es esencial insertar la etiqueta noindex e incluso bloquear el acceso con una contrase√Īa para garantizar que nadie tenga acceso a su p√°gina.

Puede ser necesario dar √≥rdenes espec√≠ficas para cada robot de b√ļsqueda.

Algunos robots de b√ļsqueda siguen sus propias reglas y l√≥gica, lo que puede terminar exigi√©ndole que determine reglas espec√≠ficas para cada uno de ellos en su archivo robots.txt.

Y además de aumentar su carga de trabajo, esto puede terminar generando errores en la creación de sus archivos.

Por lo tanto, tenga mucho cuidado al establecer reglas para robots específicos, asegurándose de que las instrucciones sean claras para cada uno.

Ahora que sabe qu√© es y c√≥mo crear un archivo robots.txt, el trabajo de administrar su sitio web ser√° m√°s f√°cil, asegurando que solo las p√°ginas importantes para su negocio sean visitadas por robots de b√ļsqueda.

¬ŅQuieres aprender SEO gratis paso a paso? En este curso de SEO online paso a paso, te ense√Īamos c√≥mo aprender posicionamiento web en 2020 ...
Aprender Gratis

Deja una respuesta