Proces digitalizacije u UBSM
Univerzitetska biblioteka “Svetozar Marković” (UBSM) raspolaže sa više moćnih skenera, od kojih je najskuplji skener sa biotičkim prstima koji je vredan 80.000 evra, a nabavljen je preko Tempus programa Evropske komisije pre dve godine. Ta oprema omogućava masovno skeniranje, veliku brzinu i skeniranje na zahtev.
Samo skeniranje nije zahtevno, jer se kapacitet skenera meri stotinama stranica za jedan sat (35-100 stranica za pet minuta). Ono što je dugotrajniji proces, to je obrada slika, pošto je cilj da budu pretražive za korisnike, jer je samo to put za efektivno korišćenje materijala. Prvi korak digitalizacije stoga je pretvaranje materijala u formu slike radi očuvanja istorijskog nasleđa, a drugi korak je pretvaranje u pretraživ oblik.
Najvažniji deo opreme, pored skenera, zato jesu programi i server.
UBSM, kao i Narodna biblioteka Srbije, koristi za skeniranje program Docworks za koji je Ministarstvo kulture i informisanja pre dve godine izdvojilo 4,7 miliona dinara (za dve licence). Reč je o jednom od najboljih programa za skeniranje, a radi ga nemačka kompanija CCS iz Hamburga, lider u tom poslu.
S obzirom da digitalizacija obuhvata proces od izbora analognog materijala preko kreiranja digitalnih fajlova do njihove prezentacije korisnicima, digitalizacija ima dve funkcije – jedna je očuvanje baštine u digitalnoj formi, a druga je stvaranje informacija prilikom kontakta korisnika sa podacima u digitalnoj formi.
UBSM poseduje najsavremeniji, najbolji i najskuplji uređaj za prezentaciju digitalnih materijala u ovom delu Evrope – Magic Box.
Reč je o uređaju koji služi za istovremenu prezentaciju fizičkog objekta i njegovog digitalnog reprezenta, omogućavajući korisnicima da vurtuelno “prelistavaju” dragocenu bibliotečku građu i pretragom dođu do određenih delova, a da pritom ne oštećuju vredna dokumenta.
Magic Box
Korisnici mogu da vide knjigu, mada i druge objekte i njihove digitalne reprezente, ali i druge sadržaje koji daju kontekst saznanja o fizički izloženom digitalnom objektu. Ako je, na primer, u pitanju disertacija Mike Alasa, onda pored njene digitalne kopije korisnici mogu da vide i fotografije i druga različita dokumenta. Time se obezbeđuje čitav kontekst u digitalnoj formi koji omogućava da se digitalizovani objekat sagleda na objektivan način. Jer digitalizacija, kako napominje dr Adam Sofronijević iz UBSM, pored mnogih očiglednih prednosti koje nudi – efikasnost, brzina, mogućnost pristupa ogromnoj količini dokumenta itd, postavlja i mnoge izazove i zamke. Jedna od zamki je olako shvatanje istorijskog konteksta.
“Ja mogu da uzmem i pogledam samo disertaciju Mike Alasa i donesem neke zaključke koji ne uzimaju u obzir celokupan kontekst: kada je ta disertacija nastala, zašto je nastala, kakvo je bilo stanje matematičke nauke tog doba, kakvo je bilo stanje sveta, kakvo je bilo stanje tehnologije i visokog obrazovanja, kako se disertacija tada branila i mnoge druge elemente koje sada naši korisnici mogu da saznaju gledajući te prateće digitalne objekte koji su dostupni putem Magic Boxa. Prvenstvena funkcija Magic Boxa je, dakle, promocija digitalizacije i digitalnog, jer na atraktivan način prikazuje korisnicima vezu analognog objekta koji je izložen (najčešće štampane knjige) i digitalnog reprezenta.
Takođe, za korisnike je jako važna funkcionalnost digitalnih materijala.
“To je ono što u Srbiji i u većem delu digitalnog kulturnog nasleđa nismo imali, a ono što smo imali su slike (skenirani fajlovi) koje treba beskonačno pretraživati, pregledati… Tehnologija danas omogućava laku i brzu izradu pretraživog teksta. Čak i u onim segmentima za koje se verovalo da to neće biti moguće još dugo vremena, a to je segment rukopisnog teksta (teksta pisanog rukom). Proces optičkog prepoznavanja karaktera - OCR dostupan je već decenijama za štampane tekstove i to je nešto što je uobičajeno. Rukopisni tekstovi nisu se do nedavno mogli automatski prepoznavati i stoga je celo bogatstvo rukopisne zaostavštine bilo skriveno za korisnike, tj. dostupno jedino putem digitalnih slika. Od 2016. godine projekat E-READ Evropske komisije, podržan u okviru programa Horizon2020, radi na razvoju alata za efektivan pristup korisnicima digitalnim rukopisnim materijalima (program Transkribus). Tehnologija u pozadini toga je mašinsko učenje kojim se računar, odnosno računarski program, ‘obučava’ za automatsko prepozavanje rukopisa. I to je nešto revolucionarno i potpuno novo i mi imamo sreću da je UBSM partner u tom projektu od samog početka i već postoji nekoliko modela na srpskom jeziku, ćiriličnom i latiničnom pismu. Projekat traje do 2019. godine i trenutno je u izradi model rukopisa za Isidoru Sekulić. Prethodno su izrađeni modeli za našeg pomalo i zaboravljenog pisca Branimira Branu Ćosića i izrađen je jedan kombinovan model na osnovu Lisnog kataloga trezora UBSM, gde su rukopisi više bibliotekara koji su pisali te kartice ušli u model i to je nešto što ćemo razvijati kao univerzalni model za ćirilično pismo i srpski jezik u budućnosti. Ne može se dovoljno naglasiti značaj ovoga za budućnost digitalizacije, jer se čitavo polje rukopisnih materijala otvara za efektivno korišćenje korisnika. Do sada su to bile slike, kojima je bila ispunjena samo prva funkcija digitalizacije – očuvanje kulturne baštine. Sada otvaramo drugu funkciju - korišćenje kulturne baštine. Imamo jedinstven uređaj koji prati ovaj program u prototip fazi, jedan se nalazi u Beogradu, a drugi u Beču. Ovaj uređaj omogućava da se moć digitalizacije preda u ruke korisnika. Omogućava korisniku da obavlja digitalizaciju brzinom i kvalitetom kako se obavlja ovde u Odeljenju digitalizacije UBSM skenerom koji nam je Evropska komisija obezbedila za 80.000 evra. Sada će to korisnici moći da rade besplatno”, naveo je Sofronijević prilikom demonstracije procesa digitalizacije za projekat Vodič kroz digitalizaciju kulture.
Fotografija Isidore Sekulić
“Ljudi ne znaju još ništa o tome, jer je ovo još u prototip fazi, a i projekti Horizon2020 su istraživački projekti koji donose revolucionarne novine. Daću primer - naša koleginica iz biblioteke je doktorirala na pismima Miloša Obrenovića i pet godina je rađen doktorat, ta pisma su tumačena, digitalizovana su prethodno, naravno, kao slike. I to je bio zaista veliki poduhvat na nivou tadašnjeg tehnološkog horizonta. Danas, tj. sutra – kada mi budemo pustili tu mogućnost za korisnike, korisnik će moći da dođe, da za nekoliko sati skenira pisma nekog našeg velikana na primer i za nekoliko sati će moći da se prekuca dvadesetak stranica i da se program obuči za automatsko prepoznavanje. Sva ta pisma će biti dostupna za pretraživanje. Tako da čitav jedan proces koji je ranije trajao godinama sada će biti završen za nekoliko dana. I to je zapravo slika digitalizacije: menja se kontekst kreativnosti. U suštini svih procesa digitalizacije je promena konteksta i horizonta kreativnosti. Znači, ono što je do juče bila kreativnost danas postaje uobičajen i automatski posao koji vrši mašinska inteligencija, a ljudska kreativnost ide dalje, ka novim ciljevima i zadacima”, istakao je Sofronijević.
Izbor materijala za digitalizaciju
Budući da UBSM danas radi i digitalizaciju iz drugih ustanova i njihovih fondova, prirodno je da one same i obavljaju odabir materijala.
Veliki projekat koji je podržan od Ministarstva kulture i informisanja Srbije bila je digitalizacija arhiva Bitefa, časopisa Nova Evropa iz Narodne biblioteke Srbije, časopisa Židovi iz Jevrejskog muzeja, posebne kolekcije Udruženja novinara Srbije o srpskoj istorijskoj štampi, zatim Ošišanog ježa, časopisa Anali Pravnog fakulteta, Bogoslovlje Bogoslovskog fakulteta…
Digitalizacija arhiva Bitefa
Materijali se digitalizuju za različite potrebe – bilo da je neka virtuelna izložba u pripremi, pa se za nju digitalizuje materijal, bilo da je u pitanju neki evropski projekat, kakav je bio projekat digitalne kolekcije novina, kada smo imali milione digitalizovanih stranica baš u okviru projekta Europeana Newspapers. Ili je u pitanju neka konkretna tema, kao kada smo mi predstavljali naše digitalne kolekcije o Aleksandru Velikom i orijentalnim rukopisima, koji su takođe deo portala Europeana.
“Uglavnom se vezujemo za neke konkretne povode i/ili projektne zadatke. Ali, naravno, radimo i ono što je jako oštećeno u fondu – to je takođe neophodno digitalizovati, vrši se izbor kako se ne bi dalje habalo. Digitalizuje se da bi se koristile samo digitalne kopije, na primer nešto što je izuzetno vredno. Tako smo digitalizovali mnoge stvari iz našeg trezora – ćirilske rukopise, neke posebne kolekcije itd. Sada nam je posebno interesantna rukom pisana građa i pisma, dnevnici naših poznatih ličnosti, upravo zbog Transkribusa i projekta E-READ, u okviru Cost akcije i programa Horizon2020. Postoji naravno uvek jasan put, ali uvek se prilagođavamo nekom konkretnom projektnom zadatku ili cilju u smislu prioriteta. Kada naše kolekcije nisu kompletne, novinske na primer, onda pozajmimo brojeve iz drugih biblioteka i tako napravimo kompletnu digitalnu kolekciju određene novinske zbirke na portalu”, navela je Aleksandra Trtovac, glavni redaktor kataloga u Odeljenju za obradu bibliotečkog materijala, koja je demonstrirala rad u programu Transkribus.
Obrada rukopisa Isidore Sekulić u Transkribusu (1- prva strana segmentirane i transkribovane stranice iz kolekcije Isidore Sekulić, 2 - neobrađena stranica iz kolekcije Isidore Sekulić, 3 - automatska dodela tekstualnog regiona i automatsko podvlačenje teksta koji treba da se transkribuje)
(SEEcult.org)
*Tekst je nastao u okviru projekta Vodič kroz digitalizaciju kulture u Srbiji, koji SEEcult.org realizuje u saradnji sa Centrom za medijsko obrazovanje i kulturu, uz podršku Ministarstva kulture i informisanja Srbije