Les dones i la notabilitat a la Viquipèdia

Fa pocs dies ha aparegut un estudi d’una revista del grup de Nature (Laouenan et alA cross-verified database of notable people, 3500BC-2018AD, Scientific Data 9, 290 (2022) ) que proporciona el nom de la persona més notable per a cada indret del planeta (en general, municipis). La determinació de la persona més notable es fa a partir d’un índex relacionat amb diferents característiques de les biografies a les Wikipèdies en diferents llengües, i també en la presència a Wikidata. En l’atractiva aplicació, es pot visibilitzar de forma atractiva el nom de les persones més notables d’una zona d’arreu del planeta, i també anar fent zoom a diferents àrees i veure la persona més notable globalment o en cadascuna de quatre àmbits considerats.

Naturalment, en la zona de Catalunya en Salvador Dalí és molt notable, igual que n’és Joan Miró. Cal tenir en compte que això es refereix a totes les persones al llarg del temps, és a dir, que val per a personatges històrics com l’Abat Oliba, persones dels segles XIX i XX, i persones vives. A part, aquest estudi categoritza aquestes persones notables en quatre grans àmbit:  l’acadèmic-científic, l’esportiu, el cultural i el de lideratge .

El treball de Laouenan et al. ha consistit, a més de l’estudi pròpiament dit, en la (em fa l’efecte que una mica difícil) depuració de les dades obtingudes de les viquipèdies i de Wikidata, que a vegades no són pas gaire coherents. L’article i l’aplicació esmentats es poden obtenir de la xarxa – article: A cross-verified database of notable people, 3500BC-2018AD, https://www.nature.com/articles/s41597-022-01369-4; aplicació de visor: Notable People (https://tjukanovt.github.io/notable-people).

El resum en anglès és aquest:

A new strand of literature aims at building the most comprehensive and accurate database of notable individuals. We collect a massive amount of data from various editions of Wikipediaand Wikidata. Using deduplication techniques over these partially overlapping sources, we cross-verify each retrieved information. For some variables, Wikipedia adds 15% more information when missing in Wikidata. We find very few errors in the part of the database that contains the most documented individuals but nontrivial error rates in the bottom of the notability distribution, due to sparse information and classification errors or ambiguity. Our strategy results in a cross-verified database of 2.29 million individuals (an elite of 1/43,000 of human being having ever lived), including a third who are not present in the English edition of Wikipedia. Data collection is driven by specific social science questions on gender, economic growth, urban and cultural development. We document an Anglo-Saxon bias present in the English edition of Wikipedia, and document when it matters and when not.

Aquest estudi de Scientific Data (ni tampoc el mapa interactiu) no dóna, però, el mapa de la presència de dones segregada de la dels homes. Tal com passa en d’altres casos, però, només fent un cop d’ull als noms notables que propociona l’aplicació esmentada ja es veu clarament que la presència d’homes és molt superior a la de dones. Donada aquesta manca de segregació per gènere, ens ha semblat que seria interessant poder visibilitzar-la. Afortunadament, les persones autores d’aquesta publicació ofereixen els seus resultats de forma oberta. Això ens ha permès descarregar el fitxer i segregar les dades per homes i dones, tot limitant-ho a una àrea geogràfica que conté Catalunya de forma aproximada. Això permet veure en quins llocs (municipis, en general) la persona més notable és un home, i en quins és una dona – i visibilitzar clarament el biaix de gènere existent.

Com a curiositat cal esmentar que entre la informació detallada de l’article i del seu suplement, hi ha la de què la Viquipèdia catalana és la 16a en contribucions a aquest estudi. Cal dir també que aquest treball fa servir d’una foto de Wikipedia (en diferents llengües) i Wikidata de 2018, de tal forma que no té en compte les amplicacions posteriors.

Metodologia

Per tal de poder analitzar el biaix de gènere que manca al mapa, hem partit del fitxer de dades obertes proporcionat en aquest estudi de Laouenan et al. a Scientific Data, i s’ha generat un mapa de notabilitat i gènere, amb l’ajuda d’UMap (https://umap.openstreetmap.fr). L’estudi de la separació per gènere s’ha fet per a l’àrea compresa entre latituds 40,56N i 42,87N , i entre longituds 0,16E i 3,31E, que conté alguns municipis a part dels de Catalunya. Al fitxer de dades obertes, que conté més d’un milió de biografies, s’hi ha aplicat el filtre “cawiki”, per limitar l’anàlisi a les persones que tenen biografia a la Viquipèdia en català. Moltes persones d’aquestes tenen també biografia a eswiki, frwiki i enwiki (castellà, francès i anglès).

Anàlisi

Una anàlisi ràpida (gràcies a un petit programa en Python que fa servir els paquets d’accés a l’API de Wikidata) permet donar quatre números:

Persones notables dins de la zona considerada (amb presència a cawiki)

  • Homes: aprox. 91500 /un 83%)
  • Dones: aprox. 18500 (un 17%)

Llocs referenciats i persones notables:

  • Quantitat de llocs on hi ha persones notables: 640
  • Quantitat de llocs on hi ha homes notables: 590 (92%)
  • Quantitat de llocs on hi ha dones notables: 216 (34%)
  • Quantitat de llocs on només hi ha homes notables: 424 (66%)
  • Quantitat de llocs on només hi ha dones notables: 50 (8%)
  • Llocs amb un home com a més notable: 545 (85%)
  • Llocs amb un dona com a més notable:  95 (15%)

Mapes

Un cop d’ull als dos mapes que hi ha a continuació, elaborats a partir de les dades segregades que hem generat, ja fa palesa la diferència entre número de municipis on hi ha dones notables, i número de municipis on hi ha homes notables: hi ha una bona quantitat de municipis on no hi ha dones, i també una petita quantitat on no hi ha homes.

Mapa de llocs on hi ha al menys una dona notable (en blau)

Mapa de llocs on hi ha al menys un home notable (en vermell).

Una vegada vistos els mapes de municipis on hi ha dones notables i homes notables, ens podem fixar en el mapa conjunt, on s’hi proporciona el gènere de la persona més notable de cada lloc: vermell, municipi on la persona més notable és un home; blau, si és una dona.

És òbvia la diferència entre notabilitat i presència a la Viquipèdia entre dones i homes. Les causes són ben conegudes, però aquest estudi de Scientific Data proporciona una visió interessant quantitativa.

Els dos primers mapes es poden obtenir de https://umap.openstreetmap.fr/ca/map/notab-catalunya-area-aproximada_798292, on s’hi pot fer zoom en una zona determinada, a més de veure el nom de la persona de cada gènere més notable de cada lloc. S’hi pot seleccionar la capa de municipis amb homes notables i de municipis amb dones notables.

El tercer mapa, que proporciona el gènere de la persona més notable de cada lloc, es pot obtenir de https://umap.openstreetmap.fr/ca/map/dones-mes-notables-a-catalunya-per-municipi_798984. Passant el ratolí pel cim de cada punt s’hi veurà el nom de la persona més notable.

Aquesta anàlisi ens ha de permetre millorar el projecte #MesDones, del qual n’hem parlat alguna altra vegada. També contribuirà al projecte #WikiSciW (Dones i Ciència), si només mirem l’apartat acadèmic-científic; d’això, però, en parlarem en una segona part d’aquest estudi que hem efectuat.