Navegando por los artículos de Noviembre, 2010
Nov
30

Buscadores e investigación científica

Category GENERAL     Tags

Jose Van Dijck, de la universidad de Amsterdam, comenta en un  artículo los efectos que los buscadores tienen en la investigación científica. Para dicha autora, los buscadores genéricos y particularmente Google Académico se han convertido en elementos importantes que influyen y determinan la producción de conocimiento científico y académico, en detrimento de los habituales sistemas de captación de conocimiento como bibliotecas, centros documentales o bases de datos especializadas. Plantea la necesidad de que los investigadores hagan un uso crítico e informado de las herramientas de búsqueda y deben ser conscientes de las dimensiones políticas e ideológicas de la búsqueda automatizada.

Recordemos que las bibliotecas y los centros de documentación que desempeñaban hasta ahora esa función siempre han sido instituciones de servicio público en las que se conjugaban los valores de utilidad, fiabilidad, transparencia, independencia y el respeto a la intimidad y la confidencialidad de los usuarios. Los actuales buscadores están muy lejos de poseer estas características:

  • Los contenidos de fuentes científicas son incompletas ya que diversas sociedades científicas o editores importantes en este campo como Elsevier se niegan a dar acceso a sus bases de datos.
  • Desconocemos un listado de preciso de los contenidos (bases de datos, publicaciones, instituciones) que los buscadores rastrean en sus arañas.
  • Los buscadores carecen de los sistemas de filtrado y selección de fuentes que realizan sistemas expertos existentes en bibliotecas y centros de documentación.
  • Los algoritmos de búsqueda y sistemas de pertinencia y relevancia de los buscadores no son transparentes y públicos y tienden a favorecer sistemas de reputación según su particular sistema de clasificación y a grupos de sitios altamente relacionados entre sí.
  • La recopilación de datos privilegia las fuentes en inglés y refuerza el dominio anglosajón desproporcionadamente en los resultados de búsqueda. 
  • La minería de datos que obtienen los buscadores comerciales pueden proporcionarle una fuente ventaja para utilizar convenientemente una información determinada en los mercados de valores, comportamientos de usuarios o valoración de productos. Monitorizar el comportamiento de búsqueda de un grupo de investigadores académicos de algun campo específico puede darle pistas a la compañía propietaria del buscador de cuáles podrían ser las tendencias en investigación o productos y posicionarse en consecuencia. Por ejemplo, pensemos en sectores especialmente sensibles a la investigación como la industria farmacéutica, la energética o de cualquier sector tecnológico.

Fuente: José Van Dijck: Search engines and the production of academic knowledge. International Journal of Cultural Studies November 2010 13: 574-592, doi:10.1177/1367877910376582

Nov
29

Jetwick, búsquedas más fáciles de Twitter

Una de las dificultades de manejar Twitter es su deficiente buscador, por ello se desarrollan iniciativas independientes que nos facilitarán las búsquedas en estos contenidos de redes sociales. Jetwick es una excelente herramienta que nos permitirá realizar pesquisas en Twitter con la inestimable ayuda de un sistema de filtrado de contenidos que permite ajustar las búsquedas con una relevancia más que notable. Permite seleccionar los resultados por idioma, contenido original o duplicado (retweet) y tramo horario. Los resultados pueden ordenarse por relevancia, duplicados, los más recientes o los más antiguos. El buscador complementa las búsquedas con referencias a palabras clave relacionadas o referencias de la misma en la wikipedia. Muy recomendable.

Nov
26

¿Manipula Google los resultados?, eso afirma un estudio mal realizado.

Un estudio realizado por el analista Benjamin Edelman cuestiona el comportamiento del buscador Google al exponer que en la presentación de resultados privilegia el posicionamiento de enlaces pertenecientes a la propia compañía en detrimento de la relevancia de otros resultados que deberían ocupar esas primeras posiciones.

Este estudio ha tenido un gran impacto informativo pero quizás habría que matizar algo sus conclusiones. Cuando se publica un estudio de estas características habría que considerar la posibilidad de que los propios internautas fuesen capaces de reproducir los ejemplos en los que se fundamenta Edelman para llegar a su conclusión. Lamentablemente sólo aporta como evidencias unas cuantas capturas de pantalla de los resultados que obtuvo en el momento de realizar su análisis. Lo correcto hubiese sido reproducir la URL con todos los parámetros de búsqueda. Si observamos con detalle una muestra  de la captura de la URL en una de las imágenes de ejemplo,  observaremos que en la URL  se acumulan los parámetros de búsqueda de anteriores pesquisas. Lo cual no ayuda mucho para despejar dudas acerca del estudio.


Pulsar para ver en tamaño más grande

Recordemos que en nuestras búsquedas influyen múltiples parámetros y condicionantes para que Google presente un resultado u otro: si estamos registrados o no, localización de ip, sistemas de activación/desactivación de cookies, activación o no del sistema de búsqueda instantánea, el historial de nuestras búsquedas, la versión idiomática de Google, etcétera, etcétera. Por eso es importante mostrar la URL de los resultados. Teniendo en cuenta estos factores hemos intentado reproducir los parámetros de búsqueda lo más parecido al estudio original para evitar estas interferencias.

Las url de referencia son para los siguientes términos y en la edición en inglés de Google.com:

Analizando los ejemplos en el primer caso CSCO, los resultados coinciden con los de Edelman. Efectivamente el primer resultado apunta a Google Finanzas cuando según los criterios de pertinencia deberían corresponder a otros portales financieros. También los resultados son coincidentes al realizar una búsqueda sin coma o con coma.

En el segundo ejemplo, sobre el acné, las referencias no se repiten. En nuestro caso no nos aparece en ninguno de los primeros resultados cualquier referencia a Google Health, tampoco si realizamos variantes con coma o sin coma. Si observamos la URL de referencia en el estudio de Edelman observaremos que ha realizado otras búsquedas que se acumulan en el historial del navegador como mostramos en la siguiente imagen, acción que desde luego no ayuda a la imparcialidad :

En el tercer ejemplo de referencia, la planificación de viajes,  el primer resultado es idéntico al realizado por Edelman. En cambio, el cuarto ejemplo sobre la película "The social Network", a diferencia de Edelman, no nos arroja resultados de la cartelera Google. La cartelera sólo aparece cuando le indicamos a Google que complete la búsqueda con localización geográfica. Pero el ejemplo más paradójico es el resultado sobre patentes, ya que el propio ejemplo de referencia de Edelman "ha contaminado" el resultado de las búsquedas y copa los dos primeros resultados en el buscador de Google.  En nuestro caso no presenta ninguna referencia a Google Patents y podría considerarse inválida su afirmación.

La principal crítica de Edelman es que la "supuesta" neutralidad del buscador Google no existe y su tendencia a presentar resultados en los primeros lugares de los propios servicios de la compañía o de sus asociados preferentes suponen una grave manipulación de los mismos. No negamos que exista alguna evidencia de ello pero pensamos que debería sustentarse en unos ejemplos más definidos, realizados con más rigor y que pudiesen ser verificados por todos, del mismo modo que un estudio de estas características debería aplicarse a otros buscadores como Bing, Baidu o Yandex, por citar los buscadores más usados del mundo y comparar resultados. 

Fuente: Hard-Coding Bias in Google "Algorithmic" Search Results

Nov
25

La marca de Infoseek en venta

Infoseek, un histórico buscador de los años 90, se pone en venta su nombre de dominio y su marca registrada en una próxima subasta el 8 de diciembre. Infoseek fue fundado por Steve Kirsch en 1994 e inició su funcionamiento en febrero de 1995. Inicialmente se trataba de un buscador que cobraba a los usuarios por los resultados de búsqueda, obviamente era un modelo que pronto fracasó y se reconvirtió en un motor de búsqueda tradicional y gratuito. En 1998 fue vendido a Disney y esta compañía lo fusionó con el portal Go.com. Infoseek dejó de funcionar definitivamente como buscador en 2001 y su dominio se redirige al actual Go.com.

Fuente: Search Engine Watch

Nov
24

Ookaboo buscador semántico de imágenes de dominio público

Ookaboo es un buscador que indexa imágenes de dominio público bajo licencia de Creative Commons. Existen varios buscadores similares pero la peculiaridad de Ookaboo es la de utilizar sistemas de indización de la web semántica. Todas las páginas de este buscador están marcadas con RDFa, un sistema de etiquetas para describir un tipo específico de información denominada entidades o elementos, los cuales disponen de una serie de propiedades específicas. Ookaboo se orienta fundamentalmente en torno a entidades con nombre, sobre todo lugares, personas y obras de creación.

Nov
23

Yahoo! Clues, herramienta de consulta de términos de búsqueda

Desde el blog oficial de Yahoo! se anunciaba la puesta en marcha del servicio, en fase beta, de Yahoo! Clues. Básicamente es una herramienta que nos facilita un muestreo estadístico de cada término de búsqueda que queramos indagar. Podemos buscar uno o dos términos. En los resultados nos ofrece la evolución temporal del volumen de búsquedas, demográfico (edad y sexo), nivel de ingresos (naturalmente es una aproximación basándose en estimaciones basadas en el cruce de datos de código postal e ingresos per Cápita de la oficina del censo de los Estados Unidos), localización geográfica, y flujo de búsqueda en el que se muestran las búsquedas previas y posteriores al término consultado. Finalmente dispone de una sección de búsquedas relacionadas.

Una herramienta comparable a Google Insight pero tiene dos factores poderosos en su contra: mientras que Google Insight es mundial, Yahoo! Clues se circunscribe a Estados Unidos. En segundo lugar, tampoco permite introducir cualquier término. Yahoo! Clues no admite lvocablos sobre sexo , incluso en un sentido demasiado genérico, obsérvese si buscamos "gay" . En este sentido Google Insight se muestra muy superior.

Ejemplo de búsqueda comparativa

Nov
22

Figure Search, un buscador biomédico muy especial

Una de las principales dificultades en la investigación científica es localizar información precisa y relevante. Los buscadores genéricos del estilo Google son claramente insuficientes, así que la necesidad obliga a desarrollar productos y aplicaciones de búsqueda que cubran este hueco.

Biomedical Figure Search es un buscador que persigue ese objetivo, desarrollado por la Universidad de Wisconsin-Milwaukee, tiene la peculiaridad de que rastrea en más de 200.000 artículos biomédicos publicados en plataformas abiertas. Su peculiaridad estriba en la exposición de los resultados, prestando especialmente atención a los diagramas, cuadros estadísticos o figuras que acompañan a cada artículo, como puede apreciarse en el ejemplo de abajo ante una consulta sobre diabetes. Este procedimiento resulta sumamente útil en las labores de investigación y en la evaluación de la calidad propia del artículo.

Nov
19

Google mejora la indexación de contenido en Flash

Según anuncia oficialmente Google, el buscador ha mejorado su capacidad de indexación para aquellos contenidos confeccionados en Flash. Google y Adobe trabajan conjuntamente desde hace años para mejorar la asimilación del formato SWF por parte de los robotos de Google. Actualmente incluso los enlaces alojados dentro de archivos Flash pueden ser rastreados por Googlebot. La cuestión que sigue abierta es si esta mejora implicará una mejora en el posicionamiento de aquellas páginas que implementan este tipo de archivos.

Nov
17

Facebooksearch.us: primer buscador de fotos de Facebook

Facebooksearch se ofrece como un motor de búsqueda concebido para ayudar al internauta en la localización de todo tipo de contenidos albergados en Facebook. Su cualidad más notable es la posibilidad de acotar las búsquedas por mensajes, imágenes, personas, grupos o eventos sin la necesidad de estar registrado en el servidor de Facebook. 

Nov
16

PubDNAFinder buscador de artículos de medicina y su relación con los ácidos nucleicos

Por sus especiales características, la Internet Invisible mueve un volumen de información que escapa a los buscadores tradicionales. En sectores como la investigación científica, la economía o servicios multimedia se contabilizan innumerables bits de información. Los buscadores, eso sí con unas características muy especiales, son la herramienta para intentar localizar con ciertas garantías todos esos contenidos.

PubDNAFinder, desarrollado por la Universidad Politécnica de Madrid, consiste en un buscador de secuencias de adn presentes en la base de datos documental de PubMed. Contiene un índice de búsqueda completo de los más de 176.000 documentos que alberga PubMed y las secuencias de ácidos nucleicos que aparecen en los mismos. PubDNAFinder se actualiza  automáticamente cada mes.

El buscador permite dos opciones, buscar propiamente por secuencias de ADN o por texto libre.

pubDNAFINDER