Om op mijn eigen vraag terug te komen: Er waren inderdaad nog andere typen foutieve gezinnen. Allemaal gevonden met SQL in TNG, mijn websoftware.
De totale download bevatte 690 personen, na ontdubbelen (o.b.v naam EN geboortedatum) nog 595. Ik ga er van uit, dat de gegevens van deze personen grotendeels kloppen.
Er waren ca 380 gezinnen gedefinieerd , wat al een groot aantal is op 690 (595?)man.
Daarvan heb ik verwijderd:
- man/man en vrouw/vrouw relaties ca 150
- leeftijdverschil > 50 jaar : enkele
Er zijn nog 185 gezinnen over
Verder heb ik kinderen losgekoppeld uit een gezin, als
- vader of moeder jonger dan kind : ca 5
- naam kind verschilt van naam vader (verschil geen kwestie van spellingsvariant): ca 150. Dit kan false errors bevatten waar boerderijnamen en familienamen door elkaar lopen, maar ik knoop ze liever later weer aan elkaar dan dat ik niets meer kan vertrouwen.
Ik heb ook nog wel wat verwijderd om redenen die ik me niet meer precies herinner, dus de cijfers kloppen niet goed.
Achteraf ga ik twijfelen of de gedcom export nog wel voordelen heeft t.o.v. een csv bestand :-).
Ik post dit niet om te klagen, maar misschien is dit aanleiding voor Bob om zijn algoritmes nog eens te checken. Daar is meer aanleiding voor als ik niet de enige ben die dit type fouten in deze mate heeft aangetroffen in gedownloade gedcoms (beschikbaar voor onderzoek).
Dus: wie heeft dit nog meer gehad?
Ik ga nu een paar andere exotische Rekkense namen importeren (IJsfordink, met ca 10 spellingsvarianten :-). Ik laat nog weten wat daar uit komt).