Le grand ménage
Traditionnellement, c’est au printemps qu’on se lance dans les travaux de nettoyage et pourtant j’ai décidé de commencer 2021 en initiant enfin un projet que j’avais sans cesse repoussé : donner un grand coup de balai dans ma généalogie pour rationaliser la gestion de mes bases.
Voilà environ 12 ans que j’ai commencé à saisir mes ancêtres avec Généatique, en créant une base nommée “famille Vedovotto-Guadagnin”. Quelques années plus tard, je me suis lancée dans le dépouillement systématique des registres paroissiaux de Borso del Grappa, la paroisse de mes grands-parents. Pour y voir plus clair et ne pas tout mélanger, j’ai créé à cette occasion une seconde base avec Généatique, nommée “Borso del Grappa”, avec l’objectif de dupliquer les compléments concernant les branches de mes ancêtres vers la première base.
C’était le tableau idéal de départ, mais bien évidemment cette méthode m’a amenée 10 ans plus tard à me retrouver à devoir gérer deux bases comportant une intersection conséquente en nombre d’individus mais, j’en suis certaine, de nombreuses incohérences au niveau des données… car il est impossible de toujours penser à tout dupliquer de l’une à l’autre.
Il y a bien longtemps que je sais que cette manière de travailler n’est pas rationnelle, que l’hétérogénéité ne peut que s’aggraver avec le temps et que plus j’attends pour faire le ménage plus ça va être lourd à gérer. Mais j’ai toujours repoussé cette tâche car je butais face à une problématique fondamentale à mes yeux : “si je fusionne mes deux bases, comment vais-je pouvoir ensuite faire des exports gedcom différentiés, pour alimenter d’une part l’arbre de mes ancêtres et d’autre part l’arbre des familles de Borso del Grappa ?”
Des exports (trop) sophistiqués ?
Avec Généatique, je sais exporter une branche (l’individu X et tous ses ancêtres, sa fratrie, ses enfants, …) ou exporter des personnes sur une combinaison de critères (tous les individus nommés Y et nés après 1854, …). Mais dans une base fusionnée, pour faire un export me permettant d’alimenter l’arbre des familles de Borso il me faudrait identifier :
– tous les individus nés, baptisés, mariés ou décédés dans la paroisse
plus
– les conjoints de ces individus et les parents de ces conjoints
plus
-les frères et sœurs de ces individus, leurs conjoints et les parents de ces conjoints
plus
– tous les descendants de ces individus, les conjoints de ces descendants, les parents de ces conjoints
La première partie de l’équation ne me pose pas de problème, mais comment formuler les critères suivants qui s’appuient sur le résultat de cette première partie ? Et comment trouver un processus que je pourrais répéter simplement à chaque besoin de mise à jour de mes arbres en ligne ?
Après avoir tenté divers essais j’ai fini par poser la question aux experts, sur le forum de Généatique et leur réponse m’a convaincue de ce que j’avais déjà pressenti : c’est impossible à modéliser.
La solution simpliste : des tags
Une fois la piste des exports sophistiqués écartée j’ai pu commencer à penser différemment, ce qui m’a amenée à imaginer une autre solution, beaucoup plus simpliste : ajouter un marquage spécifique aux individus de chacun des deux arbres avant de réaliser la fusion puis utiliser ce marquage pour faire les exports une fois la fusion achevée.
Généatique offre en effet la possibilité de créer des champs personnalisés.
A l’aide du menu “préférences pour cette généalogie”, j’ai donc créé des champs de type “booléen” pour taguer les personnes à exporter : “EXPORT_BO” pour les individus de l’arbre de Borso et “EXPORT_VG” pour les individus de l’arbre de mes ancêtres.
Il me fallait ensuite positionner sur “vrai” la valeur de “EXPORT_BO” pour tous les individus de la généalogie de Borso del Grappa, et positionner sur “vrai” la valeur de “EXPORT_VG” pour tous les individus de mes ancêtres.
Pour ne pas à avoir à le faire manuellement sur chacune des fiches, j’ai utilisé le dictionnaire des données et positionné à “Oui” cette donnée, pour toutes les fiches de chacune des généalogies.
Dans l’écran du dictionnaire de données illustré ci-dessus, j’ai donc sélectionné la rubrique, puis dans l’onglet “Liste et Remplacement” j’ai choisi “Oui” dans “Remplacer” et coché “Création de la rubrique ou Remplacement Systématique”.
Pour mieux visualiser le résultat, et pour pouvoir modifier le choix au besoin par la suite, j’ai ajouté ces champs “EXPORT_BO” et “EXPORT_VG” à mon écran de saisie, avec le menu “Paramétrage de l’écran de saisie”.
La fusion n’est qu’un début
Après cette étape, j’avais à ma disposition :
- une base de 30.655 individus pour lesquels la valeur de “EXPORT_BO” était positionnée sur vrai
- une base de 13.222 individus pour lesquels la valeur de “EXPORT_VG” était positionnée sur vrai
Pour ne pas tout perdre en cas de fausse manœuvre, j’ai commencé par dupliquer la première puis j’ai ajouté à cette copie toutes les fiches de la seconde. Le résultat : une base fusionnée de 43.977 individus, soit 100 de plus que la somme des deux ! J’ai en effet constaté par la suite que certaines fiches avaient été dupliquées, sans que je comprenne pourquoi.
Et c’est là qu’a commencé un travail de fourmi : détecter les doublons et fusionner les fiches correspondantes, en conservant toutes les informations pertinentes provenant de l’un ou l’autre des fichiers de départ.
Généatique dispose d’une fonction de recherche de doublons, que l’on peut paramétrer assez finement.
Mais sur un fichier de plus de 40.000 individus, mon PC semble avoir du mal à suivre… Certains doublons ont été détectés automatiquement mais j’en ai découvert bien d’autres, grâce à l’une des nouveautés de la version de Généatique.
Destinée à l’origine à mettre en évidence les jumeaux en affichant des liens de type “queue de cerise”, cette fonctionnalité s’est avérée également parfaite pour révéler les doublons !
Ce travail de fusion m’a pris plusieurs heures, réparties sur quelques journées. Mais il m’a permis de mesurer à quel point mes deux bases étaient à la fois redondantes et divergentes et a fini de me convaincre de l’utilité de ce grand ménage.
Au final, j’aboutis à un ensemble d’un peu plus de 33.800 individus, ce qui signifie que j’ai supprimé plus de 10.000 doublons !
Une fois cette fusion/vérification achevée, je suis en mesure d’exporter l’un ou l’autre des sous ensembles, en filtrant l’export sur le critère “EXPORT_VG” égal à O” (O pour oui) (ou EXPORT_BO égale à O).
Et comme disait l’autre dans une pub de mon enfance : “et c’est tant mieux car je referais pas ça tous les jours !”.
30 Comments
Nat
Quel travail ! Je suis admirative…
venarbol
Merci, C’était long mais pas insurmontable, et au final j’ai une base plus propre et plus complète donc ça vallait la peine 🙂
Gioele
Complimenti! Grande lavoro
venarbol
Grazie Gioele!
C-Kza
Bravo pour ce travail ! J’avoue que je n’aurai pas pensé toute seule aux tags, je garde l’idée dans un coin de ma tête !
venarbol
merci 🙂 les tags je ne sais pas si c’est la meilleure des idées, mais c’est la seule qui me soit venue quand j’ai compris que mes exports étaient trop compliqués à réaliser
Jimbo Genealogie
Quel gros travail de nettoyage. Bravo. Se lancer sur de tel chantier, alors que la ou les bases ont 10 ans d’existence, on ne sait jamais trop où cela nous mène.
venarbol
c’est vrai , mais plus on attend et plus l’écart se creuse…
Christelle
Chapeau bas ! Je suis impressionnée.
venarbol
merci !
Briqueloup
Wahou, on retient son souffle, le cœur bat et on fusionne… Ouf !
C’est formidable d’avoir mené à bien ce processus. Je découvre des fonctions intéressantes pour mieux utiliser Généatique.
venarbol
le forum de généatique est toujours une très bonne piste pour trouver de l’aide