Robots.txt Expediente Estudio: ¿Cómo Directiva de terceros LED cambia a direcciones URL con fugas y perdió Tráfico SEO

A+ A-
URL no permitidos con fugas del índice de Google

He escrito muchas veces en el pasado acerca de cómo los problemas técnicos de SEO puede conducir a una grave caída en el ranking y el tráfico. A partir de la etiqueta meta robots a rel = canonical a 404 encapuchadas, una serie de problemas puede estar por debajo de la superficie, causando graves daños a su sitio web, SEO se refiere.

Bueno, por desgracia me encontré con otra situación recientemente que voy a cubrir en este post. El problema dio lugar a una fuga lenta de clasificación y el tráfico, lo que hizo difícil para el dueño del negocio para darse cuenta. Antes de que la compañía sabía que, páginas importantes habían desaparecido del índice de Google.

¿Que pasó? Y la importancia de controlar el archivo robots.txt

Al hablar con los clientes acerca de SEO peligros, que a menudo cubren el archivo robots.txt. Es un archivo de texto simple, pero puede tener un impacto catastrófico en sus esfuerzos de SEO si no se maneja correctamente.

Me recuerda a la “grillo ruidoso” de Hombres de Negro. Pequeño de estatura, pero de gran alcance como diablos.

Y robots.txt El grillo ruidoso

Aunque la mayoría de los SEO entienden que una manta en disallow robots.txt causará problemas masivos, hay muchas otras situaciones que pueden causar problemas, también.

Algunos pueden ocurrir lentamente y causar URL importantes a tener fugas del índice de Google - y si esos URLs son importantes, entonces tienes un gran problema en sus manos. (Y, por cierto, que no sabrá a menos que alguien realmente atrapa el problema.)

Gota de tráfico, las clasificaciones y las direcciones URL Gone DEINDEXED

Una empresa se acercó a mí este otoño después de darse cuenta que ya no clasificó para algunas palabras clave importantes categoría. Estaban muy preocupados, por decir lo menos.

Pero con muchos cambios pasando con Google, la caída en el ranking podría ser cualquier cosa, ¿verdad? Tal vez fue una actualización del algoritmo, tal vez la competición aumentó su juego, o tal vez, sólo tal vez, había un problema técnico que causa la caída en el ranking. Así que me puse en llevar a cabo un trabajo de detective.

Al excavar en la situación, rápidamente comprobar las URLs que una vez fueron el ranking de palabras clave de categoría. Fue interesante ver que algunas de las URL siguen clasificados así, mientras que otros no pudieron encontrarse en absoluto. Sí, algunas de las URL habían desaparecido del índice de Google.

Categoría páginas no indexadas

Lo que he comprobado la etiqueta meta robots. No presente. Comprobé los x-robots de cabecera para asegurar noindex no estaba siendo emitido en la respuesta de cabecera. No, ese no fue el caso.

Entonces me di cuenta. La categoría URLs que estaba mirando eran no descriptivo, complejo y utilizan caso mixto. Básicamente, el CMS no empleó URL “bonito” para un gran porcentaje de páginas en el sitio (basado en la forma en que el CMS está configurado).

Yo sabía que en situaciones como esta, es fácil para las direcciones URL a quedar atrapados por las directivas de robots.txt codiciosos. ( “Greedy” simplemente significa que pueden bloquear más de lo que se supone que.)

Disparé el probador robots.txt en Google Search Console (GSC) y comenzó a probar categoría URL. Bingo. Algunas URL se muestran como bloqueado, mientras que otros se les permitió.

Robots.txt Tester y URL bloqueadas

También he exportado una lista de URL que ha recibido previamente el tráfico de Google orgánica y los arrastró. Eso me habilitado para ver cualquier URL que estaba siendo bloqueada por robots.txt (a granel). Una vez más, algunos fueron bloqueados y algunos admiten. Después de analizar la situación en gran medida, que terminó siendo dos problemas.

La superficie 2 problemas importantes: entre mayúsculas y minúsculas y Terceros Directiva Cambios

Revisando el archivo robots.txt con el tiempo, vi a dos grandes cuestiones que eran preocupantes.

En primer lugar, las nuevas directivas estaban siendo añadido a robots.txt por el proveedor de CMS, y el propietario del sitio web no tenía idea de lo que estaba pasando. El sitio cuenta con decenas de miles de URL indexadas, por lo que incluso un pequeño cambio en las directivas de robots.txt podría ser peligroso.

En segundo lugar, las directivas habían cambiado ligeramente caso. Eso significa que esas directivas podrían recoger por error o se pierda URL en el sitio.

Por ejemplo, si se ha orientado el directorio / Categoría / pero la directiva es / Categoría /, entonces no sería no permitir las direcciones URL que se resuelven en el / Categoría / directorio, como directivas entre mayúsculas y minúsculas. Ese es un punto importante a destacar para cada SEO, webmaster y propietario de la empresa. Vea la captura de pantalla a continuación.

Robots.txt y mayúsculas y minúsculas

El peligro de una fuga lenta

Entre las directivas que se agregan / borrado con el tiempo y la sensibilidad caso de cambiar, la compañía tenía importantes URL categoría sin saberlo, siendo rechazado. Cuando no están permitidas las direcciones URL, Google no puede rastrear las páginas para determinar el contenido que contienen, y esto hizo que algunos de esos URL a caer del índice de Google con el tiempo. No está bien.

Pero aquí está el problema: URL menudo no caen del índice de inmediato - por lo que el problema se hizo muy difícil para la empresa a detectar. No había una gran caída en un solo día; en cambio, experimentaron una fuga lenta de URLs importantes del índice de Google. Como se puede adivinar, clasificación y el tráfico filtrados como las direcciones URL de baja del índice.

John Mueller En Robots.txt

En agosto de este año, Google Webmaster Trends Analyst John Mueller registró todo un lugar de reunión webmaster dedicado a robots.txt. Para las personas involucradas con SEO técnica, se trata de un reloj de mosto.

Una cosa que se destacó fue John explicar cómo se manejan las direcciones URL no permitido por Google, la indexación se refiere. Por ejemplo, se mantendrán las direcciones URL no permitidos en el índice, se abandonan, y cuánto tiempo tomará para que ellos a abandonar?

En 32:34 en el video, John explicado que Google elimina la información acerca de las URL no permitidos de rastreos anteriores, y puede ser que el índice de direcciones URL con información básica justa.

Además, Google puede bajar esos URL del índice con el tiempo. No hay garantía será dado de baja las direcciones URL, pero que sin duda puede suceder. Vea el video aquí:

Así que cuando usted tiene una situación en la que está rechazando por error URL del rastreo, podrían permanecer en el índice durante un tiempo hasta que Google decide dejarlos caer. Y cuando Google finalmente los deja caer, que no tendrá ningún signo que se han ido (que no sea una caída en el tráfico de las direcciones URL). Tener cuidado.

Y si usted quiere oír a Juan acerca de la sensibilidad caso, se puede ver 13:50 en el video. Se cubre algunos puntos importantes acerca de las directivas, entre mayúsculas y minúsculas y caracteres coincidente.

Cómo evitar que se escapa URL debido a los cambios Robots.txt

Entonces, ¿cómo se puede evitar que esto suceda en su propio sitio? Voy a ofrecer varias balas a continuación que pueden ayudar a entender cuando los cambios se están aplicando a su archivo robots.txt y cómo descubrir si las direcciones URL que se utiliza para dirigir el tráfico se desecharon por robots.txt.

Esto es de ninguna manera una lista final de recomendaciones, pero las balas a continuación sin duda puede ayudar a evitar desastres SEO debido a problemas de robots.txt.

  • Gatear y auditar su sitio con regularidad. He estado diciendo esto mucho últimamente. Cuanto más se puede rastrear su sitio, cuanto más se puede entender sus fortalezas, debilidades y riesgos. Y como parte del rastreo, puede ver las direcciones URL no permitidos a través de una serie de herramientas (incluyendo Screaming Frog, DeepCrawl, y otras herramientas que se arrastran). Es posible que sólo recoger importantes URL siendo bloqueados. Si es así, cavar y erradicar el problema.
  • Historial de cambios robots.txt. Puede solicitar notificaciones de su proveedor de CMS cuando se realizan cambios en el archivo robots.txt. Si pueden enviar por correo electrónico o mensaje sobre esos cambios, entonces se puede comprobar rápidamente hacia fuera. Y se puede actuar con rapidez para solucionar cualquier problema.
  • Detección automática de los cambios en el archivo robots.txt. También puede utilizar un servicio que hace ping a su archivo robots.txt diaria. Cada vez que recoge un cambio, se enviará por correo electrónico. A continuación, puede revisar y hacer cambios cuando sea necesario. Es como una alerta de Google para SEO técnica. Por ejemplo, Robotto puede detectar una serie de cambios importantes y le notificará. Robotto Comprobación Robots.txt
  • Auditar Google Search Console (GSC) continuamente. Usted debe auditar continuamente informes de Google Search Console. Hay varios informes que pueden ayudar a identificar nuevos problemas con su sitio desde un punto de vista técnico de SEO. Por esta situación, el uso de la pruebas de robots.txt en direcciones URL importantes ayudaría. También puede comprobar Índice de Estado con “bloqueada por los robots”, que podrían revelar un aumento en el número de URLs bloqueadas por robots.txt (que podría levantar las banderas rojas). Y entonces usted puede comprobar errores de rastreo en smartphones de “Bloqueo”. Esto se puede encontrar en la pestaña de Smartphone, pero puede relacionarse absolutamente a las direcciones URL de escritorio, también.
  • Usar la Wayback Machine para comprobar robots.txt. Sí, puede utilizar la máquina de Wayback para revisar su archivo robots.txt en el tiempo. Para muchos sitios, verá las diferentes versiones de robots.txt recogidos durante la vida útil de la página web. Se podría proporcionar pistas importantes acerca de una caída en páginas indexadas. El uso de Wayback Machine comprobar Robots.txt

Resumen: Comprobación “bajo el capó,” SEO-Wise

Como se puede ver con este caso, los cambios de SEO técnicas pueden tener un gran impacto en la clasificación y el tráfico. Aunque robots.txt es un archivo de texto simple, las directivas que posee puede bloquear direcciones URL importantes del rastreo (que puede dar lugar a esas direcciones URL que son caídas del índice de Google).

Y si esas páginas se eliminan del índice, no tienen ninguna posibilidad en el ranking. Y con ninguna posibilidad de clasificación, no pueden dirigir el tráfico. Esto significa que usted pierde, mientras que el archivo robots.txt codiciosos gana. No deje que se gane. Sigue mis recomendaciones anteriores y evitar fugas de direcciones URL.


Las opiniones expresadas en este artículo son las del autor y no necesariamente de invitados Search Engine Land. Autores del personal se enumeran aquí.


Ads

Compartir

Reciente

La mente de su negocio: Nuestros columnas de búsqueda local de 2017

los practicantes de SEO locales tienen un papel cada vez má...

SearchCap: Seguimiento de Santa, Google API términos y métricas SEO

A continuación es lo que ocurrió en busca de hoy, según ha ...

Marlene Dietrich Google Doodle honores de la carrera de la legendaria actriz

Marlene Dietrich, la icónica actriz de origen alemán, se es...

resultados de búsqueda de imágenes de Google prueba un nuevo cuadro de búsquedas relacionadas

Google está probando un nuevo cuadro de “búsquedas relacion...

Comentarios