Cómo evitar que los buscadores indexen nuestras páginas seguras.

0

Posted by Sergi | Posted in Internet | Posted on 19-02-2008

¿Has incluido páginas SSL seguras en tu sitio web, y los buscadores han empezado a indexarte de nuevo todas tus páginas HTTP como HTTPS, cual duplicados? ¿Sabías que curiosamente eso puede penalizar la posición de tu web en los rankings de esos mismos buscadores?

Como este era mi caso, estuve buscando información para solucionarlo, y aquí os he traducido del inglés un articulo que detalla dos soluciones. El original podéis leerlo en www.seoworkers.com.

Muchos sitios web tienen páginas que utilizan SSL. Esto permite que el intercambio de información entre el servidor y el navegador del visitante suceda en una conexión encriptada, para garantizar la provacidad y la integridad de la misma.

Las URLs (direcciones) de páginas encriptadas con SSL comienzan con https en lugar de con http, para indicar que trabajan sobre un protocolo seguro.

El caso es que si las páginas seguras de tu sitio web han sido indexadas por los buscadores juntamente con el resto de páginas estandar, puedes experimentar serios problemas de canonicalización.
[NT: por ejemplo, que los buscadores consideren que tu página principal sea https://www.midominio.com antes que http://www.midominio.com -tal vez no conteniendo la misma información!!! O también -aún peor- puede que los buscadores interpreten que estás intentando "duplicar" el contenido de tu web con modos fraudulentos, y pueden penalizarte por ello!!! En cualquier caso, es perjudicial para la adecuada presencia de tu web en los buscadores.]

Estos problemas aparecen solo si tienes las páginas seguras dentro del mismo subdominio en el que tienes las páginas estandar.

En cambio, en el caso de que tus páginas seguras las tengas bajo un subdominio exclusivo [NT, por ejemplo: https://pagos.midominio.com] puedes fácilmente excluirlas de la indexación usando el archivo robots.txt en la raíz del directorio de ese subdominio.
En algunos casos solamente una página requiere el uso de SSL (como el formulario de contacto o de pagar). La opción más cómoda y habitual en esos casos es tener esa página siguiendo la estructura estandar del resto del sitio web. Cambiando solamente el “prefijo de protocolo” de la dirección de esa página (de http a https).
Sin embargo, esta técnica es la que nos puede llevar a los problemas de indexación en los buscadores que antes hemos comentado, puesto que los buscadores, si siguen los enlaces que salgan de esa única página SSL, son llevados a “duplicados” de las páginas estandar del sitio, pero con el prefijo https [NT: hay que recalcar aquí que para los buscadores la dirección http://www.midominio.com/servicios.htm es en principio diferente que https://www.midominio.com/servicios.htm, con lo cuál indexará las dos direcciones como páginas diferentes].

Esto sucede porque normalmente todos los enlaces internos dentro de un sitio web son enlaces relativos y por tanto heredan el protocolo y el dominio de la página en donde aparecen.En conclusión, Google -y posiblemente los otros buscadores- pueden considerar esta situación como un intento de “duplicación” de contenidos [NT: técnica que algunos desarrolladores de webs intentan de vez en cuando para engañar a los buscadores, y que por tanto está muy penalizado]. Y esto se traduciría en que los buscadores que quisiseran penalizarte rebajarían la posición de tu página en el ranking páginas en las búsquedas de los internautas.

Una vez indexadas, Google continuará visitando esas páginas seguras de tu sitio, a menos que las excluyas mediante el archivo robots.txt o con meta tags [NT: meta etiquetas] especiales en la cabecera de cada página.

Entonces, ¿cómo puedo evitar que Google visite esas páginas?

Si te encuentras en la posición descrita, te parecerá que no hay manera de solucionarlo fácilmente.

Hay una manera de que el archivo robots.txt redireccione las peticiones de páginas seguras a un segundo archivo que excluiría las páginas seguras a los programas de rastreo.

Para aplicar esta solución, sin embargo, debes usar el servidor Apache en tu hosting con el mod_rewrite activado [NT en inglés "enabled"].

Primero, deberías crear un segundo archivo robots.txt, llamándolo robots_ssl.txt (o el nombre que prefieras), asegurándote de que bloquea a los rastreadores de todos los buscadores. Súbelo a la raíz de tu dominio.

Para más información acerca del archivo robots.txt, qué es y cómo funciona, visita The web Robots Pages [NT: en habla hispana es recomendable WebRecursos - robots.txt].

Aquí tienes un ejemplo de este archivo:

User-agent: Googlebot
Disallow: /

User-agent: *
Disallow: /

Además, necesitarás añadir los siguientes comandos al archivo .htaccess que haya en la raíz de archivos de tu servidor [NT: root document folder]:

RewriteEngine on
Options +FollowSymlinks
RewriteCond %{SERVER_PORT} ^443$
RewriteRule ^robots.txt$ robots_ssl.txt

Resumidamente, este comando ordena al servidor web a dirigir cualquier petición para el archivo robots.txt que provenga del puerto 443 (usado para las conexiones SSL, en lugar del puerto 80 habitual para las conexiones web estandar) al segundo archivo que creamos, y que bloquea la indexación.

Para poder comprobar que está funcionando esta técnica, escribe la URL de tu archivo robots.txt en tu navegador para ver el comportamiento habitual del mismo para comandos estandar. Y luego prueba a escribir la misma URL pero con el prefijo de protocolo seguro (https) y deberías ver el contenido del segundo archivo, robots_ssl.txt.

¿Qué puedo hacer si no puedo utilizar mod_rewrite?

Si te es imposible activar mod_rewrite, ya sea porque no utilizas un servidor Apache, o porque no está habilitada esta función, todo lo anterior no te sirve de nada.

Si utilizas PHP para generar las páginas de tu site, puedes utilizarlo para comprobar si se está llamando a tu página mediante SSL, y en caso afirmativo puedes incluir un meta tag en la cabecera [NT: head] de tus documentos para desactivar la indexación por los buscadores.

El siguiente código, situado en cualquier parte de la cabecera de tu documento [NT: entre <head> y </head>] insertará el meta tag robots si el valor de la variable HTTPS del servidor está establecida a ‘on’:

<?php

if (isset($_SERVER['HTTPS']) && strtolower($_SERVER['HTTPS'])==’on’){

echo “<meta name=’robots’ content=’noindex,nofollow’>”.”\n”;

}

?>

Para verificar el funcionamiento correcto de este código, visita cualquier página en la que lo hayas incluido utilizando SSL (https://www.midominio.com/archivo.php). Y luego usa el comando ver codigo fuente de tu navegador para comprobar que el metatag aparece insertado en la cabecera del documento.

Enlaces de interés

Google Page Creator GRATIS.

3

Posted by Sergi | Posted in Internet | Posted on 16-07-2007

Increíble pero cierto: Google ofrece gratis la posibilidad de crearte tu propio site. Todo es sencillo y sin gastar ni un céntimo: te hospeda la página en sus servidores (puedes subir imágenes para tus páginas!), te da un dominio (del tipo “midominio.googlepages.com”) y todo se hace con un sencillo editor de páginas web que funciona en el navegador (es decir, no necesitas instalar nada en tu PC y puedes cambiar tu página web cuando quieras desde donde quieras!).

De momento he practicado poco con esta herramienta (Google Page Creator), pero puede dar mucho juego. Para que te hagas una idea, podemos buscar en internet cuantas páginas ya hay creadas con Google Page Creator.

Para ello ves al buscador de Google y escribe en la casilla de búsqueda lo siguiente: site:googlepages.com. Lo cuál te mostrará todas las páginas que el buscador tiene indexadas del sitio “googlepages.com” (a día de hoy casi medio millón!!… me sonrojo de darme cuenta que no he sido de los primeros en descubrir esta herramienta, jejejeje).

Sigo pensando que si uno necesita una página avanzada, este tipo de herramientas no son nunca lo ideal. No hay nada como el trabajo a medida de un equipo de diseñadores y programadores, sea cual sea el presupuesto que tengamos. Sin embargo, no se puede negar que esta herramienta permite disponer de una página web improvisada en unos pocos minutos, y para muchos usuarios es más que suficiente!.

Estos son unos cuantos ejemplos de páginas hechas con Google Page Creator, en ellas puedes ver hasta dónde se puede llegar:

  • http://diario.egipto.googlepages.com
  • http://javier.a.vinasco.googlepages.com/home
  • http://borgonoz.googlepages.com/jornadas
  • http://ahorronline.googlepages.com/depositos-y-cuentas.htm
  • Paginas web GRATUITAS…

    0

    Posted by Sergi | Posted in Internet | Posted on 12-07-2007

    ¿Estás empezando en esto de internet y las páginas web y quieres saber cómo se puede tener una página web gratuita? Déjame darte cuatro ideas.

    Que necesitas para tener web

    Los siguientes elementos nunca faltarán, aunque te la hagas tú o te la haga un profesional de internet, y sea del tipo que sea la página:

    • El conjunto de archivos que son en sí el material textual o gráfico que va a mostrarse o que va a estar detrás de la web (textos, imagenes, animaciones, videos, audio, bases de datos, código de servidor, etc…)
    • Un servidor de páginas web gratuito o de pago, dónde se colocan todos esos archivos para que luego sean accesibles en internet.
    • Un nombre de dominio (por ejemplo: www.midominio.com) para poder acceder a esos archivos en ese servidor desde cualquier navegador.

    paginas GRATIS ???

    Evidentemente que pagando uno puede tener todo lo anterior, pero también es cierto que de forma gratuita puedes acceder a tenerlo, aunque con alguna restricciones. De ti y de los objetivos que te hayas marcado dependerá de que sea suficiente o no.

    En todo caso, para empezar, hay que decir que los tres puntos anteriores son independientes en este sentido: puedes contratar uno solo de ellos si lo crees conveniente. Es decir, podrías pagar a alguien para que te realice la página web, pero luego ponerla en un servidor gratuito y bajo un dominio genérico (terra, blogger, yahoo, geocities, etc…). O al contrario (mucho más común por supuesto), hacerte tú la página pero pagar un hosting mínimo (uno de calidad media los encuentras fácilmente por 2 euros al mes! eso todo el mundo se lo puede permitir) y registrarte un dominio a tu nombre (www.misuperweb.com) . El registro de un dominio cuesta entre 5-20 euros al año según quien te gestione el dominio, lo más recomendable es que te lo registre la misma empresa que te proporciona el hosting (por ejemplo, www.hospedajeydominios.com).

    Además, si tú página es mínimamente visitada (al menos 2 visitas por día), puedes poner publicidad (anuncios textuales o banners gráficos de terceros) y posiblemente con lo que ganes costeas de sobras los gastos de hosting y de dominio. Es cuestión de hacer una página interesante y luego calcular un poco tus posibles ingresos.

    Un BLOG es un buen inicio

    A día de hoy casi todo el mundo sabe lo que es un blog, pero quiero resumirlo por si alguien realmente es nuevo en esto. Para empezar lo más cómodo es crearte tu propio blog en algún sitio que los oferten gratuitos, como por ejemplo BLOGSPOT, dónde está ubicado el presente blog. A día de hoy también, además muchos recursos están no solamente en inglés sino también en español, con lo cuál se trata de herramientas abiertas a cualquier tipo de usuario. Y es una solución no sólo gratuita sino rápida: en menos de una hora puedes tener tus textos e imágenes fácilmente publicadas en un una web que está hospedada gratuitamente y con una dirección (dominio) también gratuitos.

    Normalmente, un blog creado en un sitio así gratuito suele tener una URL (dirección web) de acceso perteneciente al dominio del que ofrece el servicio gratis: miblogpersonal.blogspot.com, por ejemplo. Según con qué objetivo estés creando tu web esto puede ser un inconveniente, puesto que más bien preferirías que tu blog tuviera una dirección más cómo esta: www.miblogpersonal.com. De todas formas, eso es “corregible”: siempre puedes registrar el dominio que más te guste y después redireccionarlo hacia tu blog, de forma que la gente al fin y al cabo accederá a tu blog por www.miblogpersonal.com. Hay varios modos de redireccionar una página a otra y eso será motivo de otro post otro día ;) Sin embargo, he leído que BLOGSPOT ya ofrece este servicio de “redireccionamiento” de forma fácil, e igualmente gratuita, para que puedas ubicar tu blog en cualquier otro dominio. Aunque como te digo, en la practica puedes hacerlo con cualquier tipo de blog, tal vez en el peor de los casos es un problema de leer y buscar un poco por ahí.

    Por último, comentar que un blog tiene sus limitaciones en cuanto a distribución de contenidos: es una estructura bastante rígida, y para finalidades comerciales está un poco limitada, en el sentido de que no te dará mucho juego, sobre todo si además no tienes conocimientos de programación web (HTML, javascript, etc.).
    Espero haberte ayudado a resolver alguna de tus dudas. Si quieres comentar algo, con gusto te daré mi opinión. Mucha suerte en tu proyecto y un consejo: lee y planifica tus pasos antes de hacer nada! ;)

    GuaSer is using WP-Gravatar

    Cerrar
    E-mail It