D O K U M E N T U M A Z O N O S Í T Ó 
 F á j l n é v : egyed_vajda_micsik_szociologia.jpg
C Í M 
F ő c í m : Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok
B e s o r o l á s i   c í m : Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok
A L K O T Ó 
S z e r e p : létrehozó
B e s o r o l á s i   n é v : Vajda
U t ó n é v : Róza
I n v e r t á l a n d ó   n é v : N
S z e r e p : létrehozó
B e s o r o l á s i   n é v : Gergely
U t ó n é v : Júlia
I n v e r t á l a n d ó   n é v : N
S z e r e p : létrehozó
B e s o r o l á s i   n é v : Micsik
U t ó n é v : András
I n v e r t á l a n d ó   n é v : N
D Á T U M 
E s e m é n y : felvéve
I d ő p o n t : 2022-06-20
E s e m é n y : kibocsátva
I d ő p o n t : 2022-04-20
D á t u m r a   v o n a t k o z ó   m e g j e g y z é s : Az előadás időpontja.
D O K U M E N T U M T Í P U S 
A   t í p u s   n e v e : prezentáció
A   t í p u s   n e v e : előadás
R É S Z G Y Ű J T E M É N Y 
M e g n e v e z é s : Prezentáció
M e g n e v e z é s : Könyvtártudomány - prezentáció
M e g n e v e z é s : Networkshop 2022
E R E D E T I   K I A D V Á N Y ,   O B J E K T U M 
S Z Á R M A Z Á S I   H E L Y  J O G K E Z E L É S 
A   j o g t u l a j d o n o s   n e v e : Vajda Róza, Gergely Júlia, Micsik András
S z e r z ő i   j o g i   m e g j e g y z é s e k : Jogvédett
T É M A 
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Mesterséges intelligencia
T é m a k ö r : Könyvtártan, információtudomány
A l t é m a k ö r : Könyvtárvezetés, könyvtárügy
T é m a k ö r : Könyvtártan, információtudomány
A l t é m a k ö r : Tudománytörténet
T Á R G Y S Z Ó 
T á r g y s z ó : mesterséges intelligencia
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : digitális archívum
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : kutatás
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : tárgyszó
M i n ő s í t ő : tárgyszó/kulcsszó
I D Ő - H E L Y   T Á R G Y S Z Ó 
T á r g y s z ó : 2022
M i n ő s í t ő : időszak
L E Í R Á S 
K é p a l á í r á s : Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok
N y e r s   v a g y   O C R - e s   s z ö v e g : Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok Vajda Róza (TK KDK) Gergely Júlia (TK KDK) Micsik András (SZTAKI DSD) Kik vagyunk? – a TK KDK bemutatása kutatási adatrepozitóriumok + saját kutatások + adatmenedzsment szolgáltatások kutatási anyagok, háttéranyagok (interjúk, kérdőívek, kitöltési útmutatók, kutatási tervek, terepnaplók, tanulmányvázlatok, adatbázisok stb.) társadalom- és tudománytörténet, módszertan, újrahasznosítás Két digitális dokumentumtárunk az interneten ingyenesen hozzáférhető - több tízezer digitális fájl A metaadatok és a dokumentumok egy része szabad hozzáférésű, a többi regisztrációhoz kötött a TK négy intézetében (JTI, KRTK, PTI, SZI) az elmúlt években zajlott kutatások anyagai honlap: https://kdk.tk.hu/ repo: https://openarchive.tk.mta.hu/ a hazai kvalitatív társadalomkutatások öröksége (1960-2010) honlap: https://20szazadhangja.tk.hu/ repo: https://voices.tk.mta.hu/ Mit? Miért? Kereshetőség tárgyszavazás nem egységes, nem dokumentumszintű teljes szövegben keresésnél nem feltétlenül találjuk meg, ami érdekel minket társadalmi mobilitás - "szegény", "pénz", "oktatás", stb. Budapest - "Pest", "Margit körút" Kutatások támogatása (tudománytörténet) ki, mikor, mivel foglalkozott? leggyakrabban említett szereplők, helyek, intézmények, időszakok? Nagy és bővülő szövegkorpuszon kézi tárgyszó hozzárendelés hatalmas humán erőforrást igényelne -> mesterséges intelligencia alkalmazása: MILAB projekt Projektcélok Szempontok: kutatási anyagaink kereshetőbbé, elérhetőbbé tétele archívumaink átláthatóbbá, felhasználóbarátabbá tétele rejtett összefüggések feltárása összekapcsolódás más archívumokkal = FAIR alapelvek biztosítása -> metaadatok bővítése, fejlesztése egységes tárgyszókészlet névelemfelismerés eredmények vizualizációja Következő lépések: statisztikák (témák, módszerek, szerzők, lokáció) + adatok interaktív vizualizációja két archívum közös keresőfelületének kialakítása Projekteredmények egységes tárgyszókészlet és -struktúra kialakítása (fogalomháló) tanulókorpusz létrehozása (a módszerek kikísérletezéséhez) tárgyszavazás eddig: 21 manuálisan kódolt interjú, 368 gépileg kódolt interjú tárgyszókészlet tesztelése gép betanítása gépi szövegelemző módszerek validálása -> cél: gold standard a tömeges gépi kódoláshoz Eredmények megjelenítése - interaktív felület Lépések Saját tárgyszókészlet létrehozása / javítása Gépi kódolás manuális validálása Tesztinterjúk gépi kódolása MI segítségével Tanítóanyag készítése Tanulókorpusz kiválasztása Eredmények Nagy mennyiségű interjú gépi kódolása Eredmények beépítése archívumainkba Egységes tárgyszókészleten alapuló közös kereső, interaktív vizualizáció Saját tárgyszókészlet létrehozása / javítása Forrás Nincs:  magyar társadalomtudományos tárgyszókészlet  Van: általános magyar tezaurusz (OSZK Köztaurusz) szakkönyvek tárgymutatói saját eddig használt tárgyszavaink (nem egységes) nemzetközi társadalomtudományos tárgyszókészletek választás: CESSDA ELSST - 14 nyelvű tezaurusz Testreszabás ELSST magyar fordítás  saját testreszabott tezaurusz maga a fordítás önálló projektté is vált gépi fordítás (SZTAKI) + manuális javítás (KDK) + szakértői lektorálás (nyelvészeti, jogi) 3342 kifejezés 220 kifejezés (140 ELSST + 80 saját) kifejezések az eredeti szókészlet szűkítésével + kiegészítésével szempontok: relevancia, lefedettség, arányosság, tömbösítés, diszjunktivitás többkörös folyamat nemzetközi + szűk szókészlet + túlsúlyok az archívumok tartalmaihoz igazodva ELSST Fordítás Tanítóanyag készítése Szakaszok teszt szakasz: 1 interjú, 43 oldal, 2 annotátor első szakasz: 2 interjú, 64 oldal, 5-5 annotátor, 3341 elemű tárgyszólista második szakasz: 10 interjú, 268 oldal, 2-2 annotátor, 641 elemű tárgyszólista harmadik szakasz: 21 interjú, 735 oldal, 2-3 annotátor, 242 majd 220 elemű tárgyszólista 1. fázis interjúk szakaszonkénti kódolása irányelvek az annotátorok minél közelebbi kódolásának elérése céljából tárgyszókészlet véglegesítése 2. fázis gold standard kialakítása a speciális alkalmazáshoz igazítva 30% alatti egyezésnél (25%) harmadik, független annotátor 30% feletti egyezésnél (75%) az eredeti 2 annotátor megegyezése alapján egyezés: ha a tárgyszóhoz tartozó, a hierarchiában a legfelső szinten lévő kifejezés azonos Label Studio / annotálás Label Studio / tárgyszavak Label Studio / eredmények összehasonlítása Kézi tárgyszavazás (tanítóhalmaz) 479 szövegrészre 3278 tárgyszó javaslat, átlagosan 6,8 egy szövegrészre Vizsgált tárgyszavazási módszerek TF-IDF: a tanítóhalmaz alapján szógyakoriságokat tanul a tárgyszavakhoz Omikuji: fastruktúrájú tanuló megoldás extrém nagy korpuszokra Ensemble: Omikuji és TF-IDF súlyozott kombinációja NN-ensemble: Omikuji és TF-IDF kombinációja tanulással SZTAKI: a tárgyszavakhoz rendelt kulcsszavak (pl. szinonimák) alapján Alternatívák A két módszer közel hasonló eredményességben A tárgyszavak viszont különböznek! Tanuló módszer Követi a gold standard példáját Megtanulja annak rejtett hibáit is Biztosítani kell, hogy minden tárgyszóhoz elegendő előfordulás legyen a tanítóhalmazban Tárgyszórendszer bővítése esetén újra kell tanítani Saját módszer Főleg statisztikai alapon működik, de NLP segítséggel Csak a tartalom alapján tárgyszavaz (+ és - hatásokkal) Biztosítani kell, hogy minden tárgyszóhoz elegendő kulcsszó/hívószó legyen Tárgyszórendszer bővítése esetén nem kell újratanítani Névelemek felismerése HuBERT-et NER-KOR-on tanítottuk emtsv, HuBERT, huspacy eredmények kombinálásával sikerült javítani a felismerési arányokon Tanulságok A magyar NLP eszközök további fejlesztése szükséges Számunkra kifejezetten a lemmázás és névelem-felismerés fájó pont Jó lenne egy gazdag és nyíltan hozzáférhető magyar szinonimaszótár Az eredmények minőségének mérését meg kell oldani Ehhez egyfajta gold standard nélkülözhetetlen, viszont rengeteg munka az elkészítése Tanulás vagy nyelvi tudás? Nem látjuk még egyik módszert sem kielégítőnek Egyelőre az elvont fogalmak (pl. attitűd vagy jövőkép) mint témák észlelése nem tekinthető megoldottnak További feladatok Névelem felismerésben kiszűrni a hamis találatokat Névelemek wikifikálását jelentősen javítani szükséges Kulcsszavazás: a szótövezésben még vannak hibák Tárgyszavazás: különböző módszerek további kombinációinak kipróbálása Köszönjük a figyelmet! https://openarchive.tk.mta.hu/ https://voices.tk.mta.hu/ https://dsd.sztaki.hu vajda.roza@tk.hu egyed-gergely.julia@tk.hu micsik@sztaki.hu
D o k u m e n t u m   n y e l v e : magyar
K A P C S O L A T O K 
K a p c s o l ó d ó   d o k u m e n t u m   n e v e : Bátfai Erika, Pergéné Szabó Enikő: A tudományos publikálás támogatása a DEENK-ben
F O R M Á T U M 
A   f o r m á t u m   n e v e : PowerPoint prezentáció
O l d a l a k   s z á m a : 29
T e c h n i k a i   m e g j e g y z é s : Microsoft Office PowerPoint 2016
M e t a a d a t   a   d o k u m e n t u m b a n : N
A   f o r m á t u m   n e v e : PDF dokumentum
O l d a l a k   s z á m a : 29
M e t a a d a t   a   d o k u m e n t u m b a n : N
A   f o r m á t u m   n e v e : HTML dokumentum
T e c h n i k a i   m e g j e g y z é s : HTML 5 verzió
M e t a a d a t   a   d o k u m e n t u m b a n : N
M I N Ő S É G 
L e g j o b b   f o r m á t u m : JPEG képállomány
L e g n a g y o b b   k é p m é r e t : 770x433 pixel
L e g j o b b   f e l b o n t á s : 96 DPI
S z í n : színes
T ö m ö r í t é s   m i n ő s é g e : közepesen tömörített
M E G J E G Y Z É S 
Á l t a l á n o s   m e g j e g y z é s : Networkshop konferencia 2022
S T Á T U S Z 
A z   a d a t r e k o r d   s t á t u s z a : KÉSZ
F E L D O L G O Z Ó 
S z e r e p   /   m i n ő s é g : katalogizálás
A   f e l d o l g o z ó   n e v e : Nagy Zsuzsanna