Keegy sigue creciendo gracias a la duplicación de contenido.

El funcionamiento de Keegy es sencillo, duplica el contenido de los rss de los blogs en su página y pone un enlace a la fuente a ojos nuestros pero no a los del buscador, para que así crea él que la fuente original es Keegy no el blog.

¿Por qué hace eso?

Cuando busques algo relacionado con el blog seguramente salga keegy delante, puesto que el buscador va a pensar que el blog ha plagiado.

¿Cómo lo hace?.

Hay que empezar diciendo que los buscadores rastrean con mayor o menor frecuencia dependiendo de lo actualizado que se encuentre un blog, así como diferentes parametros (importancia, etc). Keegy se actualiza más frecuentemente debido a que suma todas las actualizaciones que cada blog en particular, y por tanto, es normal que sea rastreado más rápido y más frecuentemente que cada blog individual. Por tanto, es más probable que el buscador rastree primero a keegy con el contenido del blog y luego al blog, identificando al primero como fuente original y penalizando al blog en las búsquedas.

El contenido, que enlaza al blog, antes era enlazado con “nofollow”, lo que hacía al buscador ignorarlo, y por tanto, tú lo veías pero el buscador no. Más adelante quitaron el nofollow, y hasta yo me creí que ya habían abandonado esta deleznable práctica.

Sin embargo en la página fuente se puede apreciar “relationship” que sustituyen al anterior nofollow, bastante desconocidos para mi, del estilo: rel=”633/9495901/es_es

Sospechande indagué en el código y encontré un archivo en javascript:

<script src="/js/custom.118.js.php" type="text/javascript" charset="utf-8"></script>

Donde dentro, el autor, tiene programado que al hacer click, cambie ese “relationship” extraño por el famoso “nofollow”:

// Capturo los clicks que van a posts
$(’.capturePost’).livequery(’click’, function(event) {
var id = $(this).attr(’rel’);
id = id.replace(‘nofollow ‘, ”);
var location = $(this).attr(’href’);
if($(this).hasClass(’new’)) {
var newWindow=true;
}
$.post(’/action/post/’+id, { referer: window.location }, function(data) {
if(newWindow) {
window.open(location,”,’scrollbars=yes,menubar=yes,null,null,resizable=yes,toolbar=yes,location=yes,status=yes’);
} else {
window.location = location;
}
});
return false;

Moraleja, si no quieres que alguien se aproveche de tu trabajo, no te aporte nada y encima consiga que te penalice el buscador por creer que has plagiado tu propio contenido… date de baja en Keegy. ¿Cómo? Mandándole un email, las soluciones que ellos aportan en la sección destinada a los webmasters, como bloquearlo en robots.txt, simplemente… no funcionan.

Actualización: En efecto, al ver los logs del servidor he podido comprobar que KeegyBot NO ha descargado ninguna vez el archivo robots.txt. Si no lo lee… cómo le va a hacer caso?. Lamentable.

Nota: Cualquier error e información imprecisa ha quedado aclarada en los comentarios.



9 comentarios (Añade tu comentario)

  1. Me gustaría que antes de acusar investigues bien…

    Si te fijas lo que hace esa función Javascript es quitar el nofollow del rel, eso no significa que todos los enlaces tengan el nofollow (de hecho, podes fijarte en cualquier pagina de keegy que enlaces lo tienen…)

    Los único enlaces con nofollow son los posts escritos dentro de keegy, y NO los que provienen de fuentes aprobadas por nosotros, ellos tienen un enlace directo.

    Tuvimos que ponerlo así, ya que estabamos recibiendo muchísimo spam en la herramienta de user generated content.

    Esa función JS, quita el ‘nofollow’ ya que utilizamos el atributo rel para enviar información de que post fue clickeado, y es nuestro work-around para evitar utilizar una página intermedia para calcular los hits a un post y poder dar así todo el pagerank a las fuentes.

    Antes de acusar… investiga bien, no es está bueno para nosotros ni para nadie trabajar en algo y que sea críticado sin razón, de hecho, se siente bastante feo.

    Tu robots.txt no fue descargado porque tu fuente no está en Keegy… ( http://www.google.com/search?client=safari&rls=en-us&q=netrospectiva+site:keegy.com&ie=UTF-8&oe=UTF-8 ) por lo que no tiene sentido buscar tu robots.txt… :S

    Si alguien tienen cualquier problema con Keegy, puede escribirme a mi casilla diego@keegy.com, cuando quiera y lo solucionaremos.

    Un saludo, Diego…

  2. Este blog es nuevo, pero y este?

    http://www.google.es/search?hl=es&q=blogahorro+site%3Akeegy.com&btnG=Buscar+con+Google&meta=

    No se ha bajado robots.txt ninguna vez en todos los logs que tiene guardados el sistema.

  3. Entonces es tan fácil como avisarme que no queres que tu fuente esté en Keegy y lo damos de baja, hay un formulario de contacto exactamente al lado del link de “Webmasters”.

    Sobre el robots.txt de blogahorro.com, por algún motivo al servidor donde corre nuestro proceso de robots no le llega respuesta de tu servidor, por eso nunca lo descargó. Nunca nos había pasado este caso en particular.

    Y es por eso mismo, si falla el robots.txt siempre podés escribirnos.

    PD: Por supuesto que tu fuente ya ha sido dada de baja de Keegy.com: http://www.keegy.com/feed/blogahorro/

  4. No llega ahora porque está denegado en el firewall.

    Por otra parte, sí ha llegado todos los accesos a /feed/ hasta entonces.

    En cuanto a lo de id = id.replace(‘nofollow ‘, ”); … javascript no tiene una función implementada como replace y por tanto hace con él lo que vosotros hayáis implementado.

    No veo que tenga que quitar ningún nofollow, puesto que en la página no hay nofollows, por tanto se me antoja que el efecto que hace es el contrario. Captura el click, como dice el comentario, y como no hay nofollow lo pone.

    Me resulta curioso cuanto menos que la intención sea mantener el pagerank de la fuente original, sobre todo cuando hasta hace poco hacíais lo mismo con un escript denominado out y que estaba cortado en robots.txt.

    Me alegro que mi fuente esté eliminado tal y como pedí por email, porque al menos desde Febrero, seguía sin funcionar la implementación sobre robots.txt que aludíais. Os recomiendo añadir un formulario para que los usuarios con mi mismo problema lo tengan igual de fácil. Un saludo.

  5. Si vas a criticar sobre lo que se te “antoja” y no sobre la realidad, entonces ya es otra charla.

    Para que veas la definición de la función replace() que SÍ existe: http://www.w3schools.com/jsref/jsref_replace.asp

    En cualquier caso, es absurdo agregar un nofollow con JS, Google no procesa modificaciones al DOM, procesa el HTML servido por el web server y ahi se queda…

    Como te dije, los nofollows se aplicán única y exclusivamente a las notas creadas por usuarios en Keegy, para evitar el spam, por ejemplo: http://www.keegy.com/post/tratamientos-belleza-peeling-para-mejorar-tu-piel-y-renovarla/

    Saludos…

  6. Aunque siga dudando y en una primera búsqueda no he encontrado eso, no te quito la razón.

    Pero eso no cambia el hecho:

    - De que hasta hace poco los enlaces salientes fueran a través de un script llamado “out” que estaba denegado en robots.txt, y resulta curioso el afán ahora de transmitir el pagerank a las fuentes. Algo que ya venía desde cuando keegy se llamaba cadaminuto.

    - Que replican contenido que no ha sido enviado por sus autores.

    - Que la solución dada por el apartado “webmasters”, sobre los datos en robots.txt no funciona al menos desde Febrero de este año, que ha sido desde que tengo constancia.

    - Que los “webmasters” no envían ningún formulario porque entienden que la solución aportada va a surgir efecto (y no lo hace). Yo mismo he enviado el formulario para diversas webs y no ha sido hasta esta noticia que haya servido para algo.

    - Que lo de robots.txt lo sabe la gente al menos desde enero, viendo el comentario que has dejado en bitelia, donde además, dejas una prueba algo dudosa para descalificar lo de plagio:

    http://bitelia.com/2008/01/14/keegy-noticias-a-tu-medida/

    Aquí tienes un ejemplo que hace lo contrario:

    http://www.google.es/search?hl=es&q=%22El+Dep%C3%B3sito+Oportunidad+de+Cajamar+se+modifica%22&btnG=Buscar+con+Google&meta=

  7. Hasta hace poco… no, hace mas de un año que lo modificamos, antes estaba con el script /out como bien decís, pero era por desconocimiento de los creadores originales, desde que tomamos el proyecto, siempre ha estado distribuyendo el pagerank como debe ser y seguirá siendo así, de eso estate seguro.

    No tenemos forma de saber si es el dueño quien agrega su sitio o no, y tratamos de ofrecer la mayor cantidad de variantes para bloquearlo, si fallan, puede ser, siempre hay errores, pero aca estamos dando la cara para solucionarlo de la mejor manera posible.

    Si el dueño de un sitio no detecta que Keegy continua indexando sus noticias, imagina lo imposible que sería para nosotros con mas de 5 mil fuentes detectar que nos estás bloqueando desde un firewall, no tenemos manera.

    Como decía en Bitelia en su momento, mas allá de como trabaje o deje de trabajar Google, no es nuestra idea crear un producto para acaparar visitas, nuestro objetivo es que los visitantes que llegan a Keegy, sigan su curso hasta las fuentes originales, sumando el valor de tener una página con información relevante a los que el usuario busca y derivando tráfico a las fuentes.

    Disculpame si en algún momento subí de tono la discusión, pero como te dije, se siente muy feo recibir una crítica tan dura cuando no nuestro objetivo ni cerca crear un producto de esas características.

    Un saludo, Diego.

  8. Bueno, el que lea esto se hará una idea de todo, de su aclaración y de la posible solución a los problemas (si hubiere).

    Un saludo.

Deja tu comentario

Formato: Puedes usar el siguiente código: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>