Google lanza un nuevo motor de búsqueda para ayudar a los científicos a encontrar los conjuntos de datos que necesitan

Dataset Search podría ser el mejor amigo de un científico

El objetivo de Google siempre ha sido organizar la información del mundo, y su primer objetivo fue la web comercial. Ahora, quiere hacer lo mismo para la comunidad científica con un nuevo motor de búsqueda de conjuntos de datos.

El servicio, llamado Dataset Search, se lanza hoy y será una especie de compañero de Google Scholar , el popular motor de búsqueda de informes académicos e informes de la compañía. Las instituciones que publican sus datos en línea, como universidades y gobiernos, deberán incluir etiquetas de metadatos en sus páginas web que describan sus datos, incluyendo quién lo creó, cuándo se publicó, cómo se recopiló, y así sucesivamente.

Esta información será indexada por Dataset Search y combinada con la entrada del Gráfico de conocimiento de Google. (Ese es el nombre de las casillas que aparecen para las búsquedas comunes. Por lo tanto, si el CERN publica el conjunto de datos X, también se incluirá información sobre el instituto en los resultados).

UN MOTOR DE BÚSQUEDA PARA UNIR EL MUNDO FRAGMENTADO DE LOS CONJUNTOS DE DATOS EN LÍNEA

En declaraciones a The Verge , Natasha Noy, una investigadora de Google AI que ayudó a crear Dataset Search, dice que el objetivo es unificar las decenas de miles de repositorios diferentes para conjuntos de datos en línea. “Queremos que los datos sean reconocibles, pero mantenlos donde está”, dice Noy.

Por el momento, la publicación del conjunto de datos está extremadamente fragmentada. Diferentes dominios científicos tienen sus propios repositorios preferidos, al igual que diferentes gobiernos y autoridades locales. “Los científicos dicen: ‘Sé dónde tengo que ir para encontrar mis conjuntos de datos, pero eso no es lo que siempre quiero'”, dice Noy. “Una vez que salen de su comunidad única, es cuando se pone difícil”.

Noy da el ejemplo de un científico del clima con el que habló recientemente, quien le dijo que había estado buscando un conjunto de datos específicos sobre las temperaturas oceánicas para un próximo estudio, pero no pudo encontrarlo en ninguna parte. No lo rastreó hasta que se encontró con un colega en una conferencia que reconoció el conjunto de datos y le dijo dónde estaba alojado. Solo entonces podría continuar con su trabajo. “Y este ni siquiera era un depósito especialmente boutique”, dice Noy. “El conjunto de datos estaba bien escrito en un lugar bastante prominente, pero aún era difícil de encontrar”.

Un ejemplo de búsqueda de registros meteorológicos en Google Dataset Search. Imagen: Google

El lanzamiento inicial de Dataset Search cubrirá las ciencias ambientales y sociales, los datos gubernamentales y los conjuntos de datos de organizaciones de noticias como ProPublica . Sin embargo, si el servicio se vuelve popular, la cantidad de datos que indexa debería aumentar rápidamente a medida que las instituciones y los científicos se esfuerzan por hacer que su información sea accesible.

Esto debería ser ayudado por el reciente florecimiento de iniciativas de datos abiertos en todo el mundo. “Creo que en los últimos años el número de repositorios se ha disparado”, dice Noy. Ella atribuye esto a la creciente importancia de los datos en la literatura científica, lo que significa que las revistas les piden a los autores publicar conjuntos de datos, así como “regulaciones gubernamentales en EE. UU. Y Europa y el aumento general del movimiento de datos abiertos”.

“TENGO LA ESPERANZA DE QUE GOOGLE INTERVINIENDO LO HAGA MÁS FÁCIL”

Tener a Google involucrado debería ayudar a que este proyecto sea un éxito, dice Jeni Tennison, CEO del Open Data Institute (ODI). “La búsqueda de conjuntos de datos siempre ha sido algo difícil de respaldar, y tengo la esperanza de que Google interviniendo lo haga más fácil”, dice.

Para crear un motor de búsqueda decente, necesita saber cómo crear sistemas fáciles de usar y comprender qué quieren decir las personas cuando escriben ciertas frases, dice Tennison. Google sabe lo que está haciendo en ambos departamentos.

De hecho, dice Tennison, idealmente Google publicará su propio conjunto de datos sobre cómo se usa Dataset Search. Aunque las etiquetas de metadatos que utiliza la empresa para hacer que los rastreadores de búsqueda tengan datos visibles son un estándar abierto (lo que significa que cualquier competidor, como Bing o Yandex, puede usarlos para construir su propio servicio competitivo), los motores de búsqueda mejoran más rápidamente cuando es crítico la masa de usuarios está allí para proporcionar datos sobre lo que están haciendo.

“Simplemente entender cómo la gente busca es importante … qué tipo de términos usan, cómo los expresan”, dice Tennison. “Si queremos entender cómo la gente busca datos y hacerlo más accesible, sería genial si Google abriera sus propios datos sobre esto”.

En otras palabras: Google debe publicar un conjunto de datos sobre la búsqueda de conjuntos de datos indexados por Dataset Search. ¿Qué podría ser más apropiado?

Fuente: James Vincent @jjvincent. The Berge

Ilustración de Alex Castro / The Verge