 Projektid
| mikrofilmide digiteerimine |
slaidide ja köidete digiteerimine |
| Saaga |
Aadlivapid Ajalooarhiivis |
| Materjali sisu |
perekonnaloo allikad |
Materjali sisu |
rüütelkonna vapid |
| Materjali tüüp |
mikrofilmid |
Materjali tüüp |
slaidid ja vapiraamatud |
| Materjali maht |
3 miljonit kaadrit + aastane kasv ca 300000 kaadrit |
Materjali maht |
846 vappi |
| Projekti eesmärk |
suurendada kasutatavust ning vähendada mikrofilmide kasutuskoormust |
Projekti eesmärk |
suurendada teavet ja kasutatavust |
| Teostajad |
Ajalooarhiiv |
Teostajad |
Ajalooarhiiv |
| Kontakt |
saaga@ra.ee |
Kontakt |
ajalooarhiiv@ra.ee |
| Ligipääs |
www.eha.ee/saaga |
Ligipääs |
|
|
| tehniline |
|
tehniline |
|
| Kasutatav tehnika |
MF skanner Mekel 625, Delli tööjaam, server kettamassiiviga |
Kasutatav tehnika |
Nikon 5700, Epson GT-10000+, Canon Canoscan 2710 |
| Tulemfail |
TIFF, konverteeritakse PNG-ks |
Tulemfail |
JPEG/PNG, konverteeritakse JPEG-ks |
| Resolutsioon |
200 dpi |
Resolutsioon |
300 dpi |
| Värvide hulk |
256 halltooni |
Värvide hulk |
24 bit värviline (16,7 mln) |
| Mõõdud (töötlemata) |
u 2000 x 2000 pikselit |
Mõõdud (töötlemata) |
u 2500 x 1900 pikselit |
| Keskmine valmisfaili maht |
1 MB |
Keskmine valmisfaili maht |
200 KB |
| Valmimisaeg: |
projekt kestab |
Valmimisaeg: |
projekt kestab
|
| |
|
|
|
|
| kaartide-plaanide digiteerimine |
tekstituvastamine |
| Tartu projektid |
Edition der Protokolle /.../ |
| Materjali sisu |
Tartu linnavalitsuses kinnitatud uusehitiste projektid (1871-1918 a) |
Materjali sisu |
Eestimaa Rüütelkonna protokollid |
| Materjali tüüp |
eriformaadilised lehed
|
Materjali tüüp |
200 dpi, 256 halltooni, PNG-vormingus skaneeritud pildifailid |
| Materjali maht |
u 4300 joonist |
Materjali maht |
711 pildifaili |
| Projekti eesmärk |
vähendada köidete kasutuskoormust |
Projekti eesmärk |
tellimustöö välispartnerilt |
| Teostajad |
Ajalooarhiiv |
Teostajad |
Ajalooarhiiv |
| Kontakt |
ajalooarhiiv@ra.ee |
Kontakt |
ajalooarhiiv@ra.ee |
|
| tehniline |
|
tehniline |
|
| Kasutatav tehnika |
Olympus C-8080 |
Kasutatav tehnika |
ABBYY FineReader PRO 8.0 |
| Tulemfail |
TIFF |
Tulemfail |
MS Wordi dokumendifail |
| Resolutsioon |
300 dpi |
Resolutsioon |
- |
| Värvide hulk |
24 bit e 16,7 miljonit värvitooni |
Vigade hulk |
keskmiselt 2 - 5% |
| Mõõdud (töötlemata) |
u 3265 x 2449 pikselit |
Kasutatud keel |
standardsed saksa ja vene keele moodulid |
|
|
Täiendav info projekti kohta
|
Tekstituvastuse töökiirus sõltub oluliselt arvuti võimekusest. Nt P200 MHz tüüpi masinal kulub umbes 1 minut ühe lehekülje teksti tuvastamiseks, samas kui Athlon 3000+ suudab ühes minutis tuvastada ligikaudu 8 lehekülge. |
| Valmimisaeg: |
projekt kestab |
Valmimisaeg: |
2005 |
| |
|
|
|
|
| Mikrofilmimine |
|
| Töömaht |
250000-290000 kaadrit aastas |
|
|
| Lisainfo |
mikrofilmide kontrolli ja ilmutamisega tegeleb Eestis ainult Eesti Ajalooarhiiv |
|
|
|
| fotode digiteerimine |
slaidide digiteerimine |
| K. Hintzeri fotokogu digiteerimine |
Diapositiivide skaneerimine |
| Materjali sisu |
fotod aastatest 1938-1944, põhiosas Tartu kohta |
Materjali sisu |
diapositiivide kogu erineva temaatikaga aastaist 1920-1990 |
| Materjali tüüp |
paberfotod |
Materjali tüüp |
diapositiivid |
| Materjali maht |
249 fotot
|
Materjali maht |
3635 diapositiivi
|
| Projekti eesmärk |
kasutusfondi loomine |
Projekti eesmärk |
tagatis-kasutusfondi loomine, värvide taastamine |
| Teostajad |
Filmiarhiiv |
Teostajad |
Filmiarhiiv |
| Kontakt |
filmiarhiiv@ra.ee |
Kontakt |
filmiarhiiv@ra.ee |
|
| tehniline |
|
tehniline |
|
| Kasutatav tehnika |
skanner Epson 1640 XL |
Kasutatav tehnika |
skanner Epson 1640 XL, slaidikaas |
| Tulemfail |
TIFF |
Tulemfail |
TIFF |
| Resolutsioon |
300 dpi |
Resolutsioon |
1200 dpi
|
| Värvide hulk |
24 bit e 16,7 miljonit värvitooni |
Vigade hulk |
keskmiselt 2 - 5% |
| Valmimisaeg: |
valmis 2005 |
Valmimisaeg: |
projekt kestab |
| |
|
|
|
|
| (klaas)negatiivide ja positiivide digiteerimine |
|
| Eesti TA Kodu-uurimise seltsi fotod |
|
| Materjali sisu |
fotod aastatest 1863-1940; erinevatel teemadel, maakondade kaupa. |
|
|
| Materjali tüüp |
klaasnegatiivid, negatiivid ja positiivid |
|
|
| Materjali maht |
4872 fotot
|
|
|
| Projekti eesmärk |
tagatis-kasutusfondi loomine |
|
|
| Teostajad |
Filmiarhiiv |
|
|
| Kontakt |
filmiarhiiv@ra.ee |
|
|
|
| tehniline |
|
|
|
| Kasutatav tehnika |
skanner Epson 1640 XL, slaidikaas |
|
|
| Tulemfail |
TIFF |
|
|
| Resolutsioon |
1200 dpi |
|
|
| Valmimisaeg: |
projekt kestab |
|
|
| |
|
|
|
|
 SaagaSaaga eesmärk on Ajalooarhiivis säilitatavate perekonnaloo allikate mikrofilmide digiteerimine ja digitaalsele kasutusfondile juurdepääsu loomine Internetis. Genealoogia uurijate arv on näidanud viimaste aastate jooksul pidevat kasvutendentsi. Kokku on üle 35% Ajalooarhiivi uurijaist oma uurimistöö eesmärgina määratlenud sugupuu uurimise. Siia lisandub hulk inimesi, kes külastavad arhiivi vaid mõne korra tundes huvi oma juurte vastu, kuid kellel sageli ei jää muude tööde ja toimetuste kõrvalt aega arhiivi uurimissaalis käia. Siiski tegeleksid nad meelsasti uurimistööga õhtuti või nädalavahetustel, kui vaid neil selline võimalus oleks. Arhiivis on esmatähtis originaalide säilitamine. Säilikute laenutamine lugejaile on lubatud ainult siis, kui neid pole mikrofilmitud. Genealoogiliste materjalide mikrofilmimine sai arhiivis alguse 1960. aastatel, ent hääbus 1980. aastate teisel poolel tehnika amortiseerumise tõttu. 1992. aastal alustati mikrofilmimisega uuesti. Alates 1992. aastast on valminud 2,92 miljonit kaadrit tagatisfondi mikrofilmi 3143 rullil (17.01.2006). Sel moel tagatakse materjalides oleva informatsiooni pikaajaline säilivus. Kõigist mikrofilmidest valmistatakse uurimissaalis kasutamiseks kasutuskoopia. Paraku on mikrofilmide kasutamine probleemne - nad kuluvad, nende asendamine on kallis ja kasutamine ebamugav. Tehniline kirjeldus 2004. aasta augustis jõudis Ajalooarhiivi mikrofilmiskanner Zeutschel Omniscan 1200 (Mekel 625), tööd alustati oktoobris 2005. Skaneerimist-digiteerimist alustati 2003. aastal siseministeeriumi rahvastiku toimingute osakonnast Ajalooarhiivile üle antud EELK koguduste personaal- ja meetrikaraamatute mikrofilmidest. Arhivaalide digiteerimisprotsess algab failide nimetamisest. Faili nimes kajastub kujutise päritolu: fond, nimistu, säilik; filmi number ja kaadri järjekorra number. Seejärel skannitakse kujutis. Pärast digiteerimist, tööpäeva lõpus, käivitatakse automatiseeritud protsessid, mille käigus tiff-vormingus kujutistest luuakse veebi sobivad png-failid, failide suurus optimiseeritakse ja failid kopeeritakse kettamassiivi. Seal luuakse failide CD-Rle kirjutamiseks vajaliku suurusega failikogumid – tagavarakoopiad. Kohe pärast failide jõudmist kettamassiivi on nad kättesaadavad ka Internetist. Juurdepääsu tagamiseks on loodud veebiliides, mis väljastab kettamassiivi hierarhilise struktuuri, lisades sellele arhiivi infosüsteemist (AIS) fondi ja säiliku pealkirjad, ning kuvab ekraanile kujutisi. Digitaalsete arhivaalide kogu täieneb iga päev, päeva jooksul loodud kujutiste arv sõltub mikrofilmi kvaliteedist ning sellest, kui palju aega kulub failide nimetamisele. Keskmine digiteerimise kiirus on ~4000 kaadrit päevas. Võimaldamaks juurdepääsu digiteeritud kujutistele ja vähendamaks originaalsäilikute kasutamist, paigaldati 2004. aasta novembris Ajalooarhiivi uurimissaali viis täiendavat terminalide töökohta. 2005. aasta mais jõudis Saaga Internetti.  Aadlivapid AjalooarhiivisProjekti eestvedaja ja idee autor on Ajalooarhiivi kauaaegne arhivaar Tiiu Oja. Aadlivapid Ajalooarhiivis on erinevate allikate publikatsioon, mille koostamist alustati slaidide skaneerimise-digiteerimisega 2004. aasta sügisel. Projekti mõte ja võlu on näidata Ajalooarhiivis olevaid suurejoonelisemaid vappe. Vappide digiteerimiseks kasutati erinevaid töövahendeid, kuna vapid ise olid väga erineval meedial - üks osa asus vapiraamatutes, üks osa slaididel ning esines ka üksikuid vapilehti. Seega võeti kasutusele nii slaidi- ja lameskanner kui ka hea makrovõtte omadustega digitaalne fotoaparaat. Edasist töötlemist arvestades andis kõige lihtsama ja parema tulemuse lameskanner: hea detailsus, värvid ja valgus. Kuigi fotoaparaadiga digiteerides saab üliteravaid ja kvaliteetseid kujutisi, on selline viis kõige kapriissem valguse osas - pildistades tuleb kõva töö ja vaev näha valguse seadistamisega. Slaidiskanneri tööd võib pidada kolmest kõige kehvemaks - esiteks on selline skanner aeglane, teiseks on tegu juba pildistatud kujutise skaneerimisega. Pärast digiteerimist konverteeriti kujutised sobivasse vormingusse ning töödeldi. Töötlemisel eemaldati publikatsioonis mitte-sisalduvad raamid ning muud vapi ümber ja lähedal olnud objektid. Samuti muudeti kujutiste suurus vastavaks seatud tingimustele, korrigeeriti värve ja pärast kujutise suuruse vähendamist lisati teravust. Pisipildid ehk eelvaatepildid loodi Photoshop'i automaatika abil. Pärast suuruse muutmist pisipildid teravustati. Valmispildid lisati andmebaasi. Andmebaasiga seoses oli üks mahukamaid töid piltidele mitmekeelsete kirjelduste lisamine. Publikatsioonis on üle 800 vapi.  Tartu projektidNagu enamasti, on ka selle digiteerimisprojekti väljund praktiline ehk siis vähendada originaalide kasutuskoormust. Ajalooarhiivi üldise säilikute digiteerimise programmi käigus otsustati, et esimeses järjekorras tehakse digi- ja kasutuskoopiad nendest säilikutest, millel on suurim kasutuskoormus elik, mida lugemissaalis väga sageli kasutatakse. Põhjus on lihtne - tihedamini kasutatavad materjalid kuluvad ja lagunevad kiiremini. Lugemissaali statistika näitas, et ühed kõige populaarsemad ja enim kasutatud säilikud on Tartu Linnavalitsuse ehitusplaanid aastatest 1871-1918. Sisuliselt on need linnavalitsuses kinnitatud uusehitiste projektid. Suur osa toonastest uusehitistest on tänaseks muinsuskaitse all või sõja käigus hävinud. Tegu on suurte ja paksude köidetega, mis harutatakse pildistamiseks lahti ning milles on keskmiselt 100 joonist. Tihedast kasutamisest tulenevalt on need köited üpris kehvas seisus. Lisaks materjali populaarsusele suruendab kasutuskoormust köidetega seotud paratamatus, et näiteks ühe projekti leidmiseks peab uurija ka ülejäänud 80 projekti läbi lehitsema. Projektide digiteerimise tulemusel väheneb originaalide kasutamine ja ka uurijatel on lihtsam töötada - otsingus on viide, mille kaudu vajaliku projekti foto on hõlpsasti kättesaadav ja vaadeldav. Igast projektist on kaks pilti - plaani üldvaade ja detailsem foto maja fassaadist. Kõik plaanid pildistatakse, millest saadakse TIFF vormingus kujutisfail, mis seejärel töödeldakse. 2006 jaanuari seisuga on pildistatud umbes 3600 plaani.  TekstituvastamineOCR ehk optical character recognizing tähendab kokkuvõtvalt tekstituvastust. Tegu on tehnoloogiaga, mille abil digitaalsest pildifailist eraldatakse tekst. Eesmärk on muuta pildi kujul olev tekst töödeldavaks ning võimaldada tekstisisest otsingut. Ajalooarhiiv puutus esmakordselt OCR-iga kokku 2005 aasta sügisel, kui üks klientidest soovis köidet mitte ainult digitaalselt, vaid ka digitaalse tekstifailina. Tavaliselt algab tekstituvastamine materjalide digitaliseerimist puudutavatest küsimustest, kuid see töö oli meil juba tehtud. Köide oli skaneeritud tublisti varem, tekstifaili saamise soov tuli kliendil alles hiljem, pärast skaneerimist. Sellest on omamoodi kahju, sest siis oleks saanud digiteerida/skaneerida teiste seadetega ning sellevõrra oleks paremad ka tekstituvastamisel saadud tulemused. Teksti hakkasime tuvastama PNG failidest, mille skaneerimisel oli kasutatud 256 halltooni ning 200 punktist eraldusvõimet tolli kohta. Oluline on märkida, et tekst oli masinkirjana - käsikirjalise teksti jaoks tekstituvastustvahendid teadaolevalt puuduvad. Tarkvara valikul arvestasime mitmete OCR-ga praktilist töökogemust omavate kolleegide soovitusi. Selle alusel kasutasime programmi ABBYY FineReader 8.0. Tarkvara on küllalt mahukas ja toetab suurt osa maailmas enamkasutatavatest keeltest, mõne keele puhul on näha isegi teatavat spetsialiseerumist. Näiteks saksa keele jaoks on kaks erinevat keelemoodulit - uuema ja vanema saksa keele moodul. Tarkvara pakub lisaks etteantud tähemärkide tuvastusskeemide kasutamisele ka võimalust üht-teist tarkvarale ise "selgeks õpetada". FineReaderi kasutamine on üldiselt lihtne ning seda ka selle õpetamise osas. Meie töös oli vaja kasutada vene ja saksa keelt ning mõlemal juhul tuli nõustuda tarkvara autoritega - tarkvara "õpetamine" suurt lisaväärtust ei anna. On teine tark isegi. Nüüdisaegne tekstituvastustarkvara tundub olevat väga heal tasemel. Seda kinnitab asjaolu, et seal, kus tarkvara eksis, oli ka meil endil raske skaneeritud pildilt aru saada, millise sümboliga täpselt tegu. Kuigi FineReader soovitas meil töötlemiseks kasutada suurema punktitihedusega (300 punkti tollile) pilte, sai lõplikuks vigade hulgaks vaid 2-5% kõigist sümbolitest. Kontrolli tegime paarikümnest failist koosneva valimi põhjal. Töötlemise kiirusele avaldavad väga otsest ja suurt mõju arvuti parameetrid.  |