Hallo allemaal,
Door drukte op allerlei andere gebieden dan de genealogie-hobby heb ik lange tijd niets kunnen doen aan mijn project voor het indexeren van FS-afbeeldingen.
Na wat vragen nadat de URL bij FS was veranderd en de XMLs blijkbaar ook, lijkt het er ook nog eens op dat FS afbeeldingen niet meer beschikbaar heeft zodra een bestand is geïndexeerd. Dan heeft een index ook niet veel zin meer, want ik ben, en ik merk dat ik daar niet alleen in ben, ook geïnteresseerd in de afbeeldingen.
Iemand (van hier) stuurde me het idee om een groep te beginnen die alle afbeeldingen van FS gaat downloaden zodat ze iig altijd beschikbaar blijven. Zo zouden we alle afbeeldingen kunnen verdelen over een (liefst grote) groep mensen. Ik zat al te denken aan een serie DVDRs, maar een grote hard disk kan ook.
Afbeeldingen het liefst in originele resolutie en kwaliteit, maar misschien kunnen we iets afspreken om ze net iets kleiner te maken. Of een scriptje dat iig alle zwarte randen van de afbeeldingen haalt zodat alleen de pagina's te zien zijn. Zou al heel veel ruimte schelen.
Dan zou er ergens een website komen met daarop een forum(pje) voor mensen die zoeken en aanbieden. Een lijst laat zien wie welke bestanden heeft. Die kun je dan vragen om een afbeelding of alle aktes van een hele stad of zo. En het indexeringsproces kan doorgaan. Op deze manier krijgen we ook een beter indeling - gewoon op plaats en type akte. Niet de soms gecombineerde en soms gesplitste verzamelingen.
Ik ga iig beginnen met het binnenhalen van alle XMLs zodat ik alle URLs van alle afbeeldingen heb. Ik ga nog even nadenken over een structuur.
Ideeën? Opmerkingen?
Groeten,
Jerry
Jerry van Kooten - 9 sep 2011 - 08:50
Heb je alles al gelezen bij
??
Verder is er nog een speciaal subforum t.a.v. vragen/mededelingen familysearch.
https://www.stamboomforum.nl/subfora/171/0
Gr.
Everardus Rollema - 9 sep 2011 - 09:26
Oh, ik lees net over de problemen bij genver.nl. Vreemd, Jakkes' profiel is ook verwijderd van stamboomforum. Weet iemand of hij dat zelf heeft gedaan?
Zou graag met hem/haar in contact komen over FS.
Thanks,
Jerry
Jerry van Kooten - 9 sep 2011 - 13:22
Jos Huigsloot - 9 sep 2011 - 13:38
Vera Hubers - 9 sep 2011 - 15:18
Jerry,
Zoals je hebt kunnen lezen bestaat
wel degelijk en alweer heel wat maanden.
Zowel bij Actualiteit en op subforum FS zijn reeds vele discussies gevoerd t.a.v. van het binnen halen van alle scans die op FS staan.
https://www.stamboomforum.nl/subfora/171/0
Groet,
Everardus Rollema - 9 sep 2011 - 15:30
Everardus, dat subforum bestaat niet meer. Ik krijg het iig niet geopend. Genver heb ik ff bekeken, biedt enige houvast, vooral sneller te zien of er voor een plaats nieuwe afbeeldingen beschikbaar zijn. Laren bijvoorbeeld - heb ik gedownload en nu zijn er nieuwe.
Vera, goed om te horen. FS op zwart? Ik hoop het niet. Ik kan nog steeds downloaden, dus we kunnen er nog bij. ;)
Ik gebruik nog steeds de DTA-links van mijn eigen script:
http://familie.jvkooten.info/fs/
Bij elke bron (hoofd- of sub-bron) staat een icoontje met een schakeltje, daarmee open je een venster met links direct naar de afbeeldingen (dus niet naar de flash-applicatie van FS). Ik gebruik DTA (DownThemAll), kan ik alle links op een pagina in 1 keer in de downloadmanager zetten.
Voorbeeld: alle afbeeldingen van Dordrecht staan hier:
http://familie.jvkooten.info/fs/dtalinks.php?fsid=1576401&wpid=1001519
http://familie.jvkooten.info/fs/dtalinks.php?fsid=1576401&wpid=1001520 (tweede hoofdbron)
Ik ga vanaf vandaag maar steeds een plaats downloaden. Heb nu Holysloot, Laren, Schoorl, Twisk. Ik hou het voornamelijk bij Noord-Holland. Zal Amsterdam maar eens beginnen... Note to self: nieuwe externe hard disk kopen... ;)
Lijkt me heel leuk zo'n groep, maar we moeten dat wel enigszins organiseren om dubbele downloads te voorkomen. Daar hoop ik ideetjes voor te krijgen.
Jerry van Kooten - 9 sep 2011 - 15:42
Ik heb een paar plaatsen in Limburg kunnen downloaden vóór FS, maar ook genver.nl, de URL's veranderde.
Zoals gezegd: pal:/MM9.1.i/dgs:004483071.004483071_00959
is nu geworden: pal:/MM9.3.1/TH-267-12436-17979-51
De eerste geeft opvolgende nummers (00959; 00960; 00961) die je achter mekaar met DownThemAll kunt downloaden. Dat kan met de tweede vorm niet helaas, waardoor je akte voor akte moet downloaden en dat is ondoenlijk voor een iets grotere gemeente. Als iemand de 'oude' URL's nog zou hebben zou dat heel erg helpen.
Maar ik houd mij aanbevolen om bestanden te delen. Compleet heb ik Gronsveld, Oost, Rijckholt en Sint Pieter.
Robert Schrijnemakers - 9 sep 2011 - 15:49
Ik kwam achter de echte URLs door de flash-applicatie van FS te gebruiken en FireBug te gebruiken. Dan zie je welke requests worden uitgevoerd. Weet niet of FS dat heeft weten te versleutelen, trouwens.
Kun je me de URL geven van een akte met die nieuwe URL?
Jerry van Kooten - 9 sep 2011 - 16:01
Robert zei:
Zoals gezegd: pal:/MM9.1.i/dgs:004483071.004483071_00959
is nu geworden: pal:/MM9.3.1/TH-267-12436-17979-51
De eerste geeft opvolgende nummers (00959; 00960; 00961) die je achter mekaar met DownThemAll kunt downloaden. Dat kan met de tweede vorm niet helaas, waardoor je akte voor akte moet downloaden en dat is ondoenlijk voor een iets grotere gemeente.
Ik zag wel in de XML een link naar de vorige en de volgende. Zou je dus eerst een script moeten hebben dat alle XMLs (dus 1 per afbeelding) downloadt en bekijkt...
Jerry van Kooten - 9 sep 2011 - 16:06
Bijvoorbeeld: https://www.familysearch.org/pal:/MM9.3.1/TH-1-19031-35265-77?cc=1831469&wc=10712066
(huwelijksbijlagen Eijsden 1809-1824, image 4)
Robert Schrijnemakers - 9 sep 2011 - 16:06
Dit is toch nog steeds het subforum dat Everardus bedoelt:
Leo Bijl - 9 sep 2011 - 16:39
Jerry,
Ik wil hier even kwijt dat op de familie van Kooten site je DTA links perfect werken en dat dmv hiervan snel veel images gedownload kunnen worden, dit is iets wat ik op Genver - overigens ook een prima site - nog niet heb kunnen ontdekken.
Misschien is het een idee een samenwerkingsverband aan te gaan met Jakkes om het beste van jullie twee sites te combineren ?
Leo Terlouw - 9 sep 2011 - 16:56
Vera Hubers - 9 sep 2011 - 18:02
Vreemd, nu zie ik http://www.stamboomforum.nl/subfora/171/0/ wel, terwijl ik de rest van de dag toch echt een melding kreeg dat het subforum was verwijderd. Anyway, ik ga daar eens lezen, kijken of er meer mensen zijn die hier interesse in hebben.
Vera, je mail heb ik ontvangen, staat gemarkeerd dat ik er nog op moet antwoorden. Sorry - het is erg druk. Om je vraag te beantwoorden: mijn DTA-links komen uit een oude (ruim een jaar of zo) XML van FS. De updates zijn hier nog niet in verwerkt. Ik wilde dat automatisch laten doen, maar FS was te traag om steeds een XML te downloaden.
Ik ga die nieuwe URLs eens proberen om uit te vinden of ik daar de nieuwe images vandaan kan krijgen. Of anders de URL van de collection of waypoint en dan vanuit daar de URL van de images uit samen te stellen. Ik zie bijn mijn geboortedorp Laren al behoorlijk wat toevoegingen.
De images die er al waren hebben ook een nieuwe URL gekregen. Dat doet me vermoeden dat de nieuwe images toch ook met URLs op de oude manier zijn te benaderen. Gelukkig... ;) Ik ga dit weekend wat proberen!
Ik heb nu een paar plaatsen gedownload. Zit in no-time al op 15 GB, maar goed. Ik weet nog niet of ik de afbeeldingen de naam van FS laat behouden (met DGS en al die nummers en zo) of ze een duidelijkere naam ga geven. Bijv. de map "Laren (NH)" krijgt een submap "Geboorten 1811" en daarin staan afbeeldingen 01-voorkant.jpg, 02-titelblad.jpg, 03-akte001-004.jpg of zo... Ben er nog niet over uit.
Groeten,
Jerry
Jerry van Kooten - 9 sep 2011 - 18:23
Vera Hubers - 9 sep 2011 - 19:42
Ik heb iets gevonden... Als je met Firebug de JSON bekijkt die de flash-applicatie opvraagt krijg je dit...
URL in je browser (opent flash-applicatie):
https://www.familysearch.org/pal:/MM9.3.1/TH-1-19031-35445-79?cc=1831469&wc=10712066
De flash-applicatie opent dit:
https://www.familysearch.org/search/proxy?uri=https%3A//www.familysearch.org/pal%3A/MM9.3.1/TH-1-19031-35445-79/meta%3Fcc%3D1831469%26wc%3D10712066
En de JSON van die laatste URL is dit:
{"properties":[{"value":"553","type":"org.familysearch.records.image_count"},{"value":"https://www.familysearch.org/pal:/MM9.3.1/TH-1-19031-34973-84?cc=1831469&wc=10712066","type":"org.familysearch.records.next_image"}],"language":{"value":"en-US"},"type":"IMAGE","identifier":{"value":"https://www.familysearch.org/pal:/MM9.3.1/TH-1-19031-35445-79?cc=1831469&wc=10712066"},"format":{"value":"application/sord+xml"},"title":[{"value":"Netherlands, Civil Registration, 1792-1952; Image dgs:004739761.004739761_01242","lang":"en-US"}],"creator":["das.familysearch.org"],"isPartOf":{"offsetInParent":0,"type":"CONTAINER","identifier":{"value":"https://api.familysearch.org/records/waypoint/10712066"},"title":[{"value":"Huwelijksbijlagen 1809-1824","lang":"en-US"}],"isPartOf":{"offsetInParent":19,"type":"CONTAINER","identifier":{"value":"https://api.familysearch.org/records/waypoint/10681655"},"title":[{"value":"Eijsden","lang":"en-US"}],"isPartOf":{"offsetInParent":27,"type":"CONTAINER","identifier":{"value":"https://api.familysearch.org/records/waypoint/10680829"},"title":[{"value":"Limburg","lang":"en-US"}],"isPartOf":{"offsetInParent":5,"type":"CONTAINER","identifier":{"value":"https://api.familysearch.org/records/collection/1831469/waypoints"},"title":[{"value":"Netherlands, Civil Registration, 1792-1952; Waypoints","lang":"en-US"}],"isPartOf":{"type":"COLLECTION","identifier":{"value":"https://api.familysearch.org/records/collection/1831469"},"title":[{"value":"Netherlands, Civil Registration, 1792-1952","lang":"en-US"}]}}}}},"rights":"<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"yes\"?><elias-v1:eliasLinkAuthInfoList xmlns:elias-v1=\"http://api.familysearch.org/elias/v1\"><elias-v1:linkAuthInfo provider=\"familySearch\" url=\"https://familysearch.org/pal:/MM9.3.1/TH-1-19031-35445-79\"><elias-v1:authResult actionGroup=\"view\" permission=\"DasPrmView@WK-unrestricted\"><elias-v1:authorized>true</elias-v1:authorized><elias-v1:failedRoles/><elias-v1:restricted>false</elias-v1:restricted></elias-v1:authResult></elias-v1:linkAuthInfo></elias-v1:eliasLinkAuthInfoList>", "oneBased":false}
Belangrijkste deel daaruit is dit:
Image dgs:004739761.004739761_01242
Hiermee kun je de volgende URL maken:
https://das.familysearch.org/das/v1/dgs:004739761.004739761_01242/$dist
De vorm van de URL is dus niet gewijzigd:
https://das.familysearch.org/das/v1/dgs:<DGS_NUMMER>/$dist
Nu moeten we nog een manier vinden om een lijst te maken van alle images. De image count is 553 en dit image nummer is 1242, dus op deze film stonden meer collecties. Vaak loopt het wel door, dus als de eerste 1242 is, is de laatst 1242 + 553...
Morgen verder...
Jerry van Kooten - 9 sep 2011 - 23:54
Ik denk dat het neer gaat komen op de URLs van de eerste en de laatste afbeelding van een boek in te voeren. Ik kan dan een script maken wat de DGS-waardes leest en dan een lijst maakt van die eerste en laatste en alle tussenliggende afbeeldingen. Zo'n lijst kan dan met een downloadmanager gelezen worden. Iets meer handmatig werk dan het vorige script, maar wel open voor de toekomst.
Als ik dan alle invoer ook opsla in een database scheelt dat weer voor een volgende die dezelfde boeken wil downloaden.
Meer ideeën?
Jerry
Jerry van Kooten - 10 sep 2011 - 12:01
Zo, flinke stap verder! :)
Hier staat een nieuw script:
http://familie.jvkooten.info/fs/newlink.php
Ik heb een manier gevonden om van een FS-URL (dus waar je een flash-applicatie krijgt die een afbeelding opent) de URL van de image te krijgen.
Als je deze URLs invoert:
https://www.familysearch.org/pal:/MM9.3.1/TH-1-19031-35445-79?cc=1831469&wc=10712066
https://www.familysearch.org/pal:/MM9.3.1/TH-1-19031-30001-13?cc=1831469&wc=10712066
komen daar deze URLs voor afbeeldingen uit:
IMAGE 1: https://das.familysearch.org/das/v1/dgs:004739761.004739761_01242/$dist
IMAGE 2: https://das.familysearch.org/das/v1/dgs:004739761.004739761_01794/$dist
Als je in FS naar de eerste pagina van een collectie gaat, kun je de URL gewoon kopiëren en plakken. Probleem is dat wanneer je naar de laatste pagina gaat (in bovenstaand voorbeeld pagina 553), dat de URL niet direct verandert. Je moet even wachten tot de pagina wordt herladen en dan pas heb je de URL van de laatste pagina. Het is echter ook mogelijk dat de pagina niet herladen wordt.
Ik heb echter in de XML ook een waarde ImageCount gevonden. Als je de URLs bekijkt is de eeste 1242 en de laatste 1242 + 553 - 1 = 1794. Ik zou dus ook die ImageCount kunnen gebruiken om de URL van de laatste afbeelding te vinden.
Probleem bij beide methodes is wel wanneer een collectie over verschillende DGS-nummers is verdeeld. Maar dat lossen we wel op als we dat probleem tegenkomen.
Volgende stap is een simpel script dat links maakt van alle afbeeldingen van 1242 tot en met 1794.
Zou mooi zijn als Jakkes deze links in zijn database zou opnemen. Wie kent Jakkes? Volgens mij was zijn profiel verwijderd...
Jerry
Jerry van Kooten - 11 sep 2011 - 08:30
En weer een stap verder. Het script laat nu links voor alle afbeeldingen uit een archief (boek) zien op de voorwaarde dat de afbeeldingen in hetzelfde DGS-bereik liggen en het tweede nummer hoger is dan het eerste. Ik kan ongetwijfeld een boel foutafhandeling toevoegen om het gebruikersvriendelijker te maken, maar ik denk dat we hier in ieder geval een start mee kunnen maken.
Je krijgt dus een lijst met links direct naar afbeeldingen om met een downloadmanager (ik gebruik DTA = DownThemAll) te downloaden.
http://familie.jvkooten.info/fs/newlink.php
Groeten,
Jerry
Jerry van Kooten - 11 sep 2011 - 09:20
Om reacties (en nieuwe onderwerpen) te plaatsen op het Stamboom Forum dient u eerst in te loggen! Nog geen lid? Registratie is gratis en snel!
Bedankt, uw melding is verstuurd aan de moderators.