Les Italiens de France au prisme des naturalisations (I)
En octobre dernier, un article publié sur le carnet de recherche Hypothèses des Archives Nationales montrait comment les données de naturalisation pouvaient être utilisées pour étudier l’immigration des Polonais dans les Hauts-de-France. En le lisant, je m’étais dit qu’il serait intéressant de faire la même chose pour les Italiens (monomaniaque, moi ?).
J’avais ensuite remisé cette idée dans un coin de ma mémoire, mais elle s’est rappelée à mon bon souvenir au moment du confinement national dû à un maudit virus. Pourquoi ne pas profiter de ce temps imposé en intérieur pour essayer ?”. Chose dite, chose faite…
Les ingrédients utilisés
Les données et outils sont ceux décrits dans l’article Exploiter les données de Natnum : les Polonais naturalisés dans les Hauts-de-France pendant les années 20, écrit par Thomas Lebée et publié en octobre 2019.
- Les décrets de naturalisation française 1883-1930 mis à disposition dans la salle des inventaires virtuelle des Archives Nationales
- Des outils de visualisation et curation de données comme Notepad++, OpenRefine, Calc (version LibreOffice du tableur Excel)
- Un outil de visualisation : Palladio, découvert grâce à l’article cité en référence
La méthode
Pour ce premier essai, j’ai suivi la démarche présentée par Thomas Lebée.
Export des données de naturalisation
La salle des inventaires virtuelle des Archives nationales propose un accès aux données de naturalisation pour la période 1883-1930.
En allant sur l’onglet “Détail du contenu”, on a accès au téléchargement des fichiers enregistrés par année de naturalisation. Ils peuvent être exportés en XML.
Pour faire un premier essai, j’ai exporté uniquement les fichiers des années 1883 à 1890, soit 8 années de naturalisations.
Analyse et curation des données
Les fichiers XML comportent des éléments qui m’intéressent peu (numéros de documents, cotes, …) et ceux qui m’intéressent possèdent parfois une structure délicate à interpréter par un programme tiers.
Par exemple dans l’extrait ci-dessus, on voit que la date de naissance, le lieu de résidence et la profession sont trois informations marquées avec des balises de paragraphe < p > au sein d’un bloc < scopecontent >. Je souhaite avoir plutôt des balises différentes et signifiantes, de type < date_ naissance >, < résidence > et < profession >.
Autre constatation : d’une année à une autre les données n’ont pas exactement la même structure. Dans certains cas, cette structure change au sein du même fichier, sans doute parce que ce fichier rassemble des informations venant de différentes sources (naturalisation, réintégration, admission à domicile).
Mon objectif étant de concaténer dans un même fichier les données des huit années exportées, il me faut unifier et clarifier la structuration. Je me suis donc lancée dans des opérations de type “rechercher/remplacer” avec Notepad++, en m’aidant d’expressions rationnelles/régulières (regex pour les intimes).
Ça a l’air simple écrit comme ça, mais je mentirais si je disais que je ne me suis pas un peu arraché les cheveux. Ce n’est qu’après un certain nombre d’essais et de retours en arrière que j’ai fini par obtenir ce que je souhaitais. J’en ai profité pour tester la fonction “macro” de Notepad++, ça fonctionne mais j’ai eu des surprises à cause de la structuration inconstante des fichiers.
Tri et sélection
Après uniformisation des XML, j’ai importé les fichiers dans OpenRefine pour avoir de “beaux” tableaux. J’aurais pu rester dans OpenRefine pour la suite, mais comme je ne suis pas encore très familière avec cet outil, je suis passée par Calc.
Puisque je cherchais à identifier les naturalisés nés en Italie, j’ai “trituré” la colonne “date et lieu de naissance” jusqu’à isoler le pays. Sur les 35044 lignes, j’ai ainsi repéré 3553 naturalisations de personnes nées en Italie.
Pour les lieux d’installation, je me suis intéressée uniquement à la France métropolitaine actuelle et j’ai donc écarté de mon analyse les Italiens naturalisés partis s’installer en Algérie, Maroc et Tunisie. J’ai aussi éliminé les lignes où manquait le lieu de résidence.
Dans un premier temps, j’ai tenté de rester au niveau des communes (de naissance et de résidence en France) mais la carte obtenue comportait trop de points et était peu lisible. J’ai donc ramené toutes les communes italiennes d’une même province sous l’identification du “chef-lieu” de la province, et toutes les communes françaises d’un département sous l’identification de la préfecture. Seule exception la Corse, géolocalisée à Corte, car parfois le fichier mentionnait uniquement Corse et je ne savais pas quel était le département.
L’orthographe des communes figurant dans les fichiers de naturalisation comporte parfois des erreurs, en particulier pour les communes italiennes. J’ai pu retrouver la forme correcte pour un certain nombre, en m’aidant parfois des arbres publiés sur généanet, mais j’ai dû ignorer certaines lignes, faute de pouvoir identifier le lieu.
Au final, le fichier utilisé pour réaliser la carte de la période 1884-1890 comprend 1845 lignes.
Géolocalisation des lieux
Qui dit carte dit coordonnées, en l’occurrence coordonnées géographiques. C’est à ce stade que la puissance d’OpenRefine m’a été utile. OpenRefine est en effet capable de générer de nouvelles cellules en allant chercher de l’information auprès d’un service tiers, appelé via son URL ou son API.
J’ai donc importé dans OpenRefine mon fichier précédemment constitué, puis j’ai demandé à l’outil d’analyser le contenu des cellules présentant un lieu pour ramener ses coordonnées géographiques (latitude,longitude).
En me fondant sur des travaux publiés précédemment, j’ai essayé d’interroger les services open.mapquestapi.com et maps.googleapis.com. Dans les deux cas, je me suis heurtée à l’obligation de disposer d’une clé API. Avant de chercher comment obtenir cette fameuse clé, j’ai fait une dernière tentative avec OpenStreetMap, et eurêka pas besoin de clé API !
La géolocalisation automatique a bien fonctionné, mais une vérification des coordonnées générées est toujours nécessaire à cause des homonymies dans les toponymes. Dans mon fichier, la ville de Siena avait par exemple été géolocalisée en Chine ! Après quelques traitements sur les données générées par OpenStreetMap, à coups de scission de colonnes et de rechercher/remplacer, j’ai finalement abouti au sésame : le couple (latitude,longitude) des provinces italiennes et des départements de France métropolitaine, pour chaque ligne de mon fichier.
Visualisation dans Palladio
Palladio est un outil en ligne conçu par l’université de Standford. Il permet d’importer des données en divers formats (csv, tab, tsv) pour les visualiser sous forme de carte, de graphe, de liste ou de galerie.
La carte que je cherche à réaliser avec Palladio doit montrer les liens “province de naissance en Italie -> département de résidence en France”, en donnant aux nœuds (localités) une taille proportionnelle à leur fréquence dans le fichier. Autrement dit :
- plus une ville (chef lieu de province) italienne est représentée par un cercle de grand diamètre, plus ladite province a fourni d’Italiens qui ont demandé la nationalité française dans la période considérée
- plus une ville (préfecture de département) française est représentée par un cercle de grand diamètre, plus ledit département a vu s’établir de personnes d’origine italienne naturalisées françaises dans la période considérée
La carte globale fournie par Palladio est assez peu lisible, du fait de la superficie de la zone géographique concernée et du nombre de liens. Néanmoins elle permet de constater :
- que les Italiens sont venus de quasiment tout le territoire, avec une forte composante originaire de Naples, de Rome mais surtout de Lombardie, du Piémont et de Ligurie
- qu’ils se sont établis essentiellement dans la moitié est de la France (nord et sud), Paris et Marseille étant des points d’attraction très forts.
- que les Italiens originaire de Lombardie, Piémont, Val d’Aoste sont plutôt allés dans la région parisienne
- que les Italiens originaires de Ligurie et du sud (Campanie, Latium, Calabre, Sicile) ont plutôt privilégié la côte méditerranéenne française
Le système de “layers” de Palladio permet également de visualiser la distribution de l’une ou l’autre des catégories de nœuds, comme sur l’exemple ci-dessous.
La création de facettes permet de visualiser les données sous un angle précis, par exemple les lieux d’implantation en France des Italiens originaires d’une région ou d’une province donnée.
Il est également possible d’afficher des facettes temporelles (ligne de temps et période) mais je n’en ai pas vraiment réussi à dompter cet affichage, peut-être parce que mes données sont regroupées sur une courte période (8 années).
Il est enfin possible de coupler les facettes.
Premières conclusions
Cette étude me semble intéressante et je souhaite la compléter en ajoutant les données des décennies que je n’ai pas encore traitées (1891 à 1930). Maintenant que j’ai plus ou moins défini les modalités de passage du XML des Archives Nationales à un csv avec données géolocalisées, je pense (du moins j’espère) que j’irai plus vite pour traiter ces données à ajouter.
Palladio m’a fourni des cartes assez esthétiques, mais je regrette de ne pas pouvoir les exporter autrement que sous forme statique en faisant des copies d’écran. J’aimerais pouvoir les intégrer à mon blog sous forme dynamique ou fournir le lien de visualisation qui permettrait à chacun de créer des facettes et de jouer avec la visualisation. Avec Palladio, si je veux partager mon travail, je dois fournir le fichier json exporté de Palladio à quelqu’un qui l’importera à son tour dans l’outil.
Les possibilités de personnalisation de l’aspect des nœuds et des liens me semblent limitées. Je n’ai par exemple pas réussi à obtenir une couleur différente pour les deux types de lieux sur la vue “point to point” qui affiche les liens “province de départ ->département de résidence”. Je n’ai pas non plus pu attribuer une épaisseur différente aux liens, selon leur fréquence d’enregistrement dans les données.
En résumé, la démarche de récupération/nettoyage des données me convient mais je voudrais explorer d’autres outils de visualisation et partage en ligne de cartographies. Je pense à Gephi, que j’ai utilisé voilà plusieurs années, mais il y a visiblement eu des nouveautés dans le domaine, comme Tableau Public. Si des spécialistes de la “dataviz” passent par là : que me conseillez-vous ? Il va sans dire que je cherche plutôt des outils non payants…
Webographie
Voici une liste des sites et articles trouvés sur internet et qui m’ont aidée à mener à bien cet essai.
- Accès aux données de naturalisation depuis la salle des inventaires virtuelle des Archives Nationales
- Exploiter les données de Natnum : les Polonais naturalisés dans les Hauts-de-France pendant les années 20
- OpenRefine : Excel aux hormones pour nettoyage de données
- Using OpenRefine to geocode your data with Google and OpenStreetMap API
- Exploiter/visualiser/explorer un corpus issu de l’OAI-PMH grâce au duo OpenRefine/Palladio
- Palladio : create a map
20 Comments
Sébastien | Marques Ordinaires
Quel travail Nathalie ! Je te tire mon chapeau en tout cas !
Du coup, pour cette période, il manque les infos pour l’Alsace et la Moselle. C’est logique.
Encore bravo !
venarbol
Merci pour ton commentaire. En effet, j’ai écarté les “réintégrations” des Alsaciens et Mosellans, nombreuses dans les fichiers téléchargés.
Elodie
Et bien, quel travail ! Bravo !
venarbol
Merci, il fallait bien un confinement pour que je me décide à m’y mettre ! 😉
Christelle
Waouh je suis impressionnée, quel boulot ! Le résultat est à la hauteur, bravo !
venarbol
Merci, j’ai beaucoup soupiré en bataillant avec ces données mais j’avoue que je suis assez contente d’en être venue à bout avec ce résultat.
GOULARD CHRISTIAN
Bonjour,
Je recherche la date de naturalisation Français de mon grand père (Pierre Comisso Née en septembre 1903 à Driolassa ou Varmo au FRIUL en Italie). Comment puis-je retrouver cette date. Aussi, je recherche les conditions juridiques de l’époque pour aquérir la nationalité française.
Merci bien
Cordialement
venarbol
Bonjour,
Vous pouvez rechercher le décret dans le Journal Officiel, mis en ligne dans Gallica.
La procédure est indiquée dans cet article : https://genea-logiques.com/2015/07/23/connaitre-le-decret-de-naturalisation-de-vos-ancetres-avec-gallica/