El quart paradigma en ciència [cap a la compartició de dades científiques]

Image

Més enllà de la ciència experimental, de la ciència teòrica i de la ciència computacional, ha aparegut amb força una quart forma de fer ciència: la utilització d’eines computacionals per gestionar, visualitzar i analitzar la gran quantitat de dades generades en els experiments científics. De fet, això es va tractar en la recent JOCS’09 que es va fer la setmana passada a la UAB organitzada pel CESCA. En una de les xerrades que s’hi van fer es va esmentar el concepte de data avalanche (allau de dades). L’experiment científic més representatiu, en aquests moments, és el de les col.lisions entre partícules elementals a l’LHC de Ginebra.

D’això en parla en New York Times: l’enorme potència computacional dels ordinadors ha creat la ciència computacional, la qual a la seva vegada genera grans quantitats de dades (per exemple, trajectòries en simulacions numèriques de xocs entre àtoms en feixos moleculars, o trajectòries en dinàmica molecular de proteïnes):

In essence, computational power created computational science, which produced the overwhelming flow of data, which now requires a computing change. It is a positive feedback loop in which the data stream becomes the data flood and sculptures a new computing landscape.

En un homenatge a Jim Gray, que el 2007 va proposar aquesta quarta nova forma de fer ciència i que va desaparèixer a la costa de Califòrnia, Microsoft Research ha publicat el llibre The Fourth Paradigm: Data-Intensive Scientific Discovery, amb diverses aportacions sobre el tema.

The essays focus on research on the earth and environment, health and well-being, scientific infrastructure and the way in which computers and networks are transforming scholarly communication. The essays also chronicle a new generation of scientific instruments that are increasingly part sensor, part computer, and which are capable of producing and capturing vast floods of data. For example, the Australian Square Kilometre Array of radio telescopes, CERN’s Large Hadron Collider and the Pan-Starrs array of telescopes are each capable of generating several petabytes of digital information each day, although their research plans call for the generation of much smaller amounts of data, for financial and technical reasons. (A petabyte of data is roughly equivalent to 799 million copies of the novel “Moby Dick.”)

Aquest nou paradigma fa pensar també el la Web 2.0 i l’increment tan gran de relacions a les xarxes socials:

“As recently as five years ago,” Dr. Lazowska said, “if you were a social scientist interested in how social groups form, evolve and dissipate, you would hire 30 college freshmen for $10 an hour and interview them in a focus group.”

“Today,” he added, “you have real-time access to the social structuring and restructuring of 100 million Facebook users.”

I d’altres conseqüències interessants. Val la pena llegir aquest article. Miraré de comprar-me aquest llibre.

The shift is giving rise to a computer science perspective, referred to as “computational thinking” by Jeannette M. Wing, assistant director of the Computer and Information Science and Engineering Directorate at the National Science Foundation.

Dr. Wing has argued that ideas like recursion, parallelism and abstraction taken from computer science will redefine modern science. Implicit in the idea of a fourth paradigm is the ability, and the need, to share data. In sciences like physics and astronomy, the instruments are so expensive that data must be shared. Now the data explosion and the falling cost of computing and communications are creating pressure to share all scientific data.

Finalment: atenció a Science Commons, que promou la compartició de les dades científiques.