Desde hace ya bastante tiempo Google Webmaster Tools, en la sección de Errores de Rastreo, informa de los errores 404 leves. Si consultas la documentación oficial de Google para enterarte qué es un 404 leve verás que está muy bien explicado: una jirafa no puede ser un perro. Yo me lo he leido varias veces y no creo que esté bien explicado.

¿Qué es un error 404 leve?

El contenido de la página no está relacionado en modo alguno con la respuesta devuelta por el servidor.

Cuando se entra a una URL que ya no existe lo normal es que el servidor devuelva una página de error personalizada. Pero esto solo es para el usuario, entre servidor y navegador tienen que decirse que realmente esa URL ya no existe (404). En algunos casos habrá quien se pase de listo y no ponga la cabecera para no aumentar su lista de errores o quien redireccione la URL antigua a la HOME o a alguna otra parte de su web. Eso es un error 404 leve. Está bastante mejor explicado en el blog de GoogleWebmaster.

Cómo miro las cabeceras.

Para saber que cabeceras está devolviendo el servidor web para una página en concreto hay varios métodos:

  • En el navegador. En las herramientas de Desarrolladores, en la pestaña Network verás para cada elemento de la página que cabecera de vuelve el servidor:

Cabeceras HTTP para www.rafaeldiez.com

  • Web-Sniffer. Esta página web analiza la comunicación con tu servidor web y te muestra las cabeceras y otros muchos datos. Los de Web-Sniffer se han currado aplicación de escritorio que puedes instalar en tu equipo y asi no depender de su web.

Cabeceras para www.rafaeldiez.com

  • Extensión para el navegador. Ésta es la más cómoda y rápida. Hay muchas extensiones que hacen esto, yo uso HTTP Headers en Chrome.

  • Crawler. Programas tipo Screaming Frog Seo Spider o Xenu te servirán para ver las cabeceras de muchas páginas a la vez.

  • Telnet. Nah, ésto ya es muy friki. Tirar de Telnet para mirar una cabecera es pasarse, pero si que se puede hacer.

Porqué los errores 404 leves me están tocando los webs.

La teoría sobre los éste tipo de errores de Google (por que a nadie más le preocupa ésto) está clara. El problema viene cuando Google empieza a estirar la goma y de repente informa de errores 404 leves que en realidad no lo son. Por ejemplo:

Súbito aumento de errores 404 leves

En éste sitio web, de repente, los errores suben a toda leche. Google ha empezado a catalogar como erroneas unas URLs que se generan para controlar un evento de descarga. Google obtenía esas URLs de un script, ni siquiera aparecían en el código HTML.

Vale, me jode pero es un fallo: esas URLs devolvían un 200 OK y no tienen más contenido que una frase. Pero no es una equivocación,ni un abuso, ni siquiera pueden ser vistas por el usuario ya que no están enlazadas en ningún sitio. Por no discutir se decide que esas páginas devuelvan una cabecera X-Robots-Tag con noindex. Se mantiene el 200 OK por no interferir con el funcionamiento del script que controla el evento.

Ya hace unos cuantos días de eso y Google sigue encontrando y reportando más URLs de ese tipo como errores. Ya sabe que no tiene que meterse en esas URLs pero sigue ahí erre que erre.

Seguimos. Más errores leves en otro sitio web. Esta vez la subida ha sido más progresiva. Las URLs malditas no son las de antes.

Más errores 404 leves

Ahora Google va a por los listados. En éste sitio web hay muchos páginas de folksonomías con formato de listado; muchas de estas páginas están en el índice de Google. Pues de esos listados, como es obvio, los hay que listan muchos resultados y los hay que listan pocos. Google ha decidido que los que devuelven dos o un resultado no merecen estar ahí. Matt Cutts dijo en su momento que no querían resultados de búsquedas en SUS resultados de búsqueda. Aunque fueran búsquedas, por su diseño lo parecen pero no lo son, debería afectar a todo y no solo a los listados con pocos resultados. Si acepto el criterio de Google puedo hacer 4 cosas:

  • Nada.

  • Borro esos listados y que den 404 de verdad o los desindexo. En cualquier caso pierdo el tráfico que me traen.

  • Los redirecciono a algo que no sea un listado y rezo para que Google interprete que que no estoy chuleando al usuario y al robot. Rezo para que el contenido que le ofrezco al usuario corresponda con lo que estaba buscando. Para los que devuelven un solo resultado es fácil, para el resto habría que buscar algún tipo de automatización porque no se puede hacer uno por uno. Seguramente el % de rebote se ponga por las nubes.

  • Creo una plantilla específica para esos listados de menos de ¿3? resultados. Que se parezcan menos a un listado y más a otra cosa ¿Y luego que? Quizá tenga que sacrificar los listados de 4 resultados.. mucho curro para resultados inciertos.

Conclusiones

Creo que Google se equivoca. Supongo que ésto no acaba aquí; me imagino que seguirá reportando cada vez listados más largos. De momento borrar los que no tienen tráfico es una solución viable, veremos que pasa cuando empiece a reportar los que están bien posicionados y traen tráfico a la web.

Actualización

Hace tiempo que averigüe porque pasaba esto en muchos casos y se me había pasado escribirlo. Cuando redireccionas una URL a otra cuyo contenido Google cree que no es igual o muy parecido se generará un 404 leve.

Por ejemplo: la manía esa de gestionar las fichas de productos caducados de un ecommerce a un listado de categoría, provoca estos errores. Incluso consolidar subcategorías que se quieren eliminar redireccionandolas todas a la misma categoría padre. O ya independientemente del contenido, redireccionar muchas URLs distintas a una sola hará que esta ultima aparezca como un error 404 leve.

Los listados a lo que me refería en el momento en que escribí este post recibían redirecciones de 3 o 4 URLs distintas pero por entonces no lo sabíamos.

La solución a esto pasa por hacer las redirecciones con más cabeza pero si no es posible se hacen y luego se solicita desde Google Search Console la desindexación de la URL o URLs que se han redireccionado a la que aparece en los Errores leves.

Desindexar URL Google Search Console

Por ultimo marcas como solucionado el error 404 leve.

Adios 404 leves