D O K U M E N T U M A Z O N O S Í T Ó 
 F á j l n é v : sarkozi-lzsofia_elteDH_cikk_kereso.jpg
C Í M 
F ő c í m : A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása
B e s o r o l á s i   c í m : Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása
A L K O T Ó 
S z e r e p : létrehozó
B e s o r o l á s i   n é v : Sárközi-Lindner
U t ó n é v : Zsófia
I n v e r t á l a n d ó   n é v : N
S z e r e p : létrehozó
B e s o r o l á s i   n é v : Indig
U t ó n é v : Balázs
I n v e r t á l a n d ó   n é v : N
D Á T U M 
E s e m é n y : felvéve
I d ő p o n t : 2021-05-20
E s e m é n y : elérhető
I d ő p o n t : 2021-04-08
D á t u m r a   v o n a t k o z ó   m e g j e g y z é s : Az előadás időpontja.
D O K U M E N T U M T Í P U S 
A   t í p u s   n e v e : prezentáció
A   t í p u s   n e v e : előadás
R É S Z G Y Ű J T E M É N Y 
M e g n e v e z é s : Prezentáció
M e g n e v e z é s : Könyvtártudomány - prezentáció
M e g n e v e z é s : Networkshop 2021
E R E D E T I   K I A D V Á N Y ,   O B J E K T U M 
S Z Á R M A Z Á S I   H E L Y  J O G K E Z E L É S 
A   j o g t u l a j d o n o s   n e v e : Sárközi-Lindner Zsófia, Indig Balázs
S z e r z ő i   j o g i   m e g j e g y z é s e k : Jogvédett
T É M A 
T é m a k ö r : Könyvtártan, információtudomány
A l t é m a k ö r : Könyvtárvezetés, könyvtárügy
T é m a k ö r : Média, tömegkommunikáció
A l t é m a k ö r : Online média
T é m a k ö r : Média, tömegkommunikáció
A l t é m a k ö r : Írott sajtó
T é m a k ö r : Könyvtártan, információtudomány
A l t é m a k ö r : Elektronikus szöveg és könyvtár
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Internet használat
T Á R G Y S Z Ó 
T á r g y s z ó : könyvtárügy
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : tartalomszolgáltatás
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : keresőszolgáltatás
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : újságcikk
M i n ő s í t ő : műfaj
T á r g y s z ó : archivált példány
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : on-line katalógus
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : web
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : metaadat
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : jogszabály
M i n ő s í t ő : műfaj
I D Ő - H E L Y   T Á R G Y S Z Ó 
T á r g y s z ó : 2021
M i n ő s í t ő : időszak
L E Í R Á S 
K é p a l á í r á s : A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása
N y e r s   v a g y   O C R - e s   s z ö v e g : A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása Sárközi-Lindner Zsófia, Indig Balázs 2021, Budapest NWS2021 Cikk-kereső ELTE BTK TI Digitális Bölcsészet Tanszék / Webaratás projekt Digitális Örökség Nemzeti Laboratórium / Magyar nyelvű anyagok webaratása Elsődleges céljaink: archiválás anyagok tisztítása, metaadatolása, repozitóriumba szervezése kutatható formában való közzététel jogi háttér tisztázása Bevezetés digitális térben keletkező kulturális örökség a jövő történeti dokumentumai nyomtatott sajtó digitalizálása és közzététele vs. online hírportálok kereshetőség Az ELTE DH webaratás projektje webcrawler: saját fejlesztés, szabad szoftver célzott webaratás = előre meghatározott weboldalak specifikus bejárása lényege: kevés paraméter konfigurációjával, több ismétlődő szint elemzésére épít. előnye: duplikáció minimalizálása, alacsony erőforrásigény, fenntarthatóság Az archiválás formátuma: WARC (Internet Archive, ISO szabvány.) hitelesített "pillanatfelvételek" legfontosabb szempontok, előnyök: eltűnéstől, módosulástól való védelem az eredeti anyagok bármikor elérhetőek, a hibák utólag javíthatóak a feldolgozott anyagok reprodukálhatóak és hitelességük az archivált forráskódok segítségével ellenőrizhető A feldolgozás kimeneti formátuma: TEI XML Text Encoding Initiative által karbantartott XML szabvány a bölcsészettudományok különböző szövegeinek modellezésére fejlesztették ki metaadatokat és a dokumentumtörzs strukturálisan egy fájlban A Schema.org metaadat-szabvány: webes erőforrásokkal kapcsolatos információk tárolására tervezték kompatibilis a szemantikus web technológiával A szövegtörzs kódolása a TEI ajánlásokat, szabályokat követve testreszabott sémában az online cikkek sajátos strukturális-tartalmi egységeit tükrözi a különböző portálok egységesítésével Az archivált anyag átdolgozása A normalizálás, a konzisztencia megteremtése során figyelmet fordítunk: deskriptív szövegek, multimédiás tartalmak, tipográfiai elemek releváns szövegegységek és tagolók megkülönböztetése külső-belső hivatkozási rendszert alkotó linkek megőrzése "zajos" normalizált, konzisztens, valid Alapozás: sablonszűrés Az aktuális portál sémájának feltérképezése: címkekészlet, felépítés kivonata Kiértékelése: sablonszűrés finomítása, címkekészlet megfeleltetése a használt szövegegység típusoknak Konvertálás: a konfigurációs fájlok + a kimeneti séma szabályai alapján automatizáltan. A módszer előnyei és hátrányai - több időt igényel, mint egy általános, automatikus eszköz - több karbantartást igényel (konfigurációs fájlok kezelése) + teljes kontroll a szövegek kezelése felett + a kül. portálok közötti konzisztencia megteremtése ('emberi' szempontok alapján) + pontosabb, széleskörűbb metaadatolás + a crawling során keletkezett hibák, hiányosságok gyorsabb, pontosabb detektálása (szövegminőség, hiányzó oldalak, további szintek) + a tapasztalatok felhasználásával a feldolgozás ideje redukálható, a folyamat automatizálhatóbb Repozitórium: Zenodo nyílt hozzáférésű repozitórium, European OpenAIRE program keretében fejlesztették ki, a CERN működteti tanulmányok, dokumentumok, adatkészletek, szoftverek etc. minden feltöltött objektumhoz szabványos DOI-t biztosít 50 GB/objektum méretű feltöltéseket tesz lehetővé A learatott és feldolgozott anyag repozitálásának szisztémája : (portálonként 3 objektum-típusban reprezentálva) WARC fájlok + dokumentáció / crawling folyamat (portálonként több objektum) TEI XML fájlok + konfigurációs fájlok + log-ok 3) A fenti 2 vagy több objektumot összefogó, azok viszonyát tisztázó "meta-objektum" Az aratástól a keresőig A kereső felülete Technikai háttér: SQL adatbázis, PHP lekérdezőfelület szabadszöveges + metaadatokban való keresés kiküszöböli az egyes portálok archívumainak különbségeit Szerzői jogi szempontok: a kereső csak a metaadatokat jeleníti meg linkkel hivatkozik az eredeti cikk URL-jére a letöltött anyag és a kereső csak kutatók számára, non-profit céllal érhető el https://cikk-kereso.elte-dh.hu/ Összefoglalás és jövőbeli tervek Folyamatosan bővülő, hiteles anyag gondozottan, repozitóriumba gyűjtve Nyílt, átlátható, testreszabható know-how. Metaadat kereső A kutatók számára azonnal elérhető! Szemantikus adatgazdagítás (NLP, NER, Wikifikáció) Nagyobb automatizálás, kevesebb emberi interakció https://zenodo.org/communities/elte-dh/ https://github.com/elte-dh Magyar nyelvű anyagok webaratása - DH-LAB https://cikk-kereso.elte-dh.hu/ Köszönöm a figyelmet !
D o k u m e n t u m   n y e l v e : magyar
K A P C S O L A T O K 
K a p c s o l ó d ó   d o k u m e n t u m   n e v e : Ipacs Eszter: Online időszaki kiadványok megőrzése az OSZK Webarchívumában és az EPA-ban
F O R M Á T U M 
A   f o r m á t u m   n e v e : PowerPoint prezentáció
O l d a l a k   s z á m a : 12
T e c h n i k a i   m e g j e g y z é s : Microsoft Office PowerPoint 2016
M e t a a d a t   a   d o k u m e n t u m b a n : N
A   f o r m á t u m   n e v e : PDF dokumentum
O l d a l a k   s z á m a : 12
M e t a a d a t   a   d o k u m e n t u m b a n : N
A   f o r m á t u m   n e v e : HTML dokumentum
T e c h n i k a i   m e g j e g y z é s : HTML 5 verzió
M e t a a d a t   a   d o k u m e n t u m b a n : N
M I N Ő S É G 
L e g j o b b   f o r m á t u m : JPEG képállomány
L e g n a g y o b b   k é p m é r e t : 770x433 pixel
L e g j o b b   f e l b o n t á s : 72 DPI
S z í n : színes
T ö m ö r í t é s   m i n ő s é g e : közepesen tömörített
S T Á T U S Z 
A z   a d a t r e k o r d   s t á t u s z a : KÉSZ
F E L D O L G O Z Ó 
S z e r e p   /   m i n ő s é g : katalogizálás
A   f e l d o l g o z ó   n e v e : Nagy Zsuzsanna