Utrustning verktyg och programvara
För resurser, kolla även in vår GitHub!
VR-utrustning
CDHU har tre Oculus Quest 2-headset som kan användas för anpassade 3D virtual reality-visualiseringar såväl som för att utforska VR-representationer i populärkultur (VR-spel och upplevelser).
Dokumentskanner och pappersgiljotin
Forskning som bedrivs vid CDHU använder för närvarande en Cannon G2090 dokumentskanner för snabb massscanning av högar av dokument upp till A3-storlek. Den här maskinen skannar 300-600 dpi, ~200 sidor per minut, med en automatisk dokumentmatare. Används tillsammans med giljotinen för att ta bort ryggar från böcker/inbundna volymer, detta möjliggör snabb destruktiv digitalisering av kulturarvsmaterial.
NodeGoat GO och NodeGoat server
NodeGoat-servern som är värd på CDHU tillåter den installerade NodeGoat-mjukvaran att köra flera parallella projekt, vart och ett tillgängligt för flera användare. CDHU administrerar forskningsmiljöerna för datamodellering och konfigurering av datauppsättningar tillsammans eller ensam. NodeGoat underlättar geografiska rumsliga och tidsmässiga visualiseringar plus ett inbyggt nätverksanalysverktyg.
Recogito
Semantisk anteckning utan de spetsiga parenteserna! Arbeta med texter och bilder, identifiera och markera namngivna enheter, använd din data i andra verktyg eller anslut till annan data på webben. Recogito erbjuder semantiska anteckningar och kopplingar till onlinedata utan att behöva lära sig koda, samt en anpassad koppling till tidningar för medelhavsarkeologi.
Beräkning och fillagring
Lokala beräknings- och lagringsmöjligheter på CDHU finns på tre servrar: "Beast" och en annan (ännu namnlös!) arbetsstation, som används internt för snabb beräkning och informationsbehandling, och ""Beauty"", som används för nätverksansluten lagring.
- 1 Dell-arbetsstation/server ("Beast"), som används internt för beräkning i CDHU:s tekniska infrastruktur. CPU: 2x Intel(R) Xeon(R) Gold 6240R @ 2,40GHz, 96 trådar. GPU: 2x Nvidia Turing T4, 16 GB VRAM. RAM: 64GB. Lagring: Diskarray konfigurerad i ZFS-spegelläge, vilket ger cirka 12 TB effektiv lagring.
- 1 Dell-arbetsstation/server ("Beauty"), används för nätverksansluten lagring i CDHU:s tekniska infrastruktur. CPU: Intel(R) Xeon(R) Gold 6226R @ 2,90GHz, 32 trådar. RAM: 64GB. Lagring: Diskarray konfigurerad i ZFS-paritet 3, vilket ger 50 TB effektiv lagring.
- 1 Dell-arbetsstation/server (fortfarande namnlös), används internt för beräkning på CDHU (ej konfigurerad ännu). CPU: 2x Intel Xeon Platinum 8260 2.4GH, 96 trådar. RAM: 1TB. GPU: 3x Nvidia RTX A5000, 24GB VRAM. Lagring: 15 TB totalt.
Attention HTR-modell
Attention HTR är en uppmärksamhetsbaserad sekvens-till-sekvens-modell för handskrivna ordigenkänning. För att övervinna bristen på träningsdata utnyttjar detta arbete modeller som är förtränade på scentextbilder som en utgångspunkt för att skräddarsy modellerna för handskriftsigenkänning. Källkod och förtränade modeller finns tillgängliga på GitHub:
Marginaler och maskininlärning (Pytorch)
För detektering av text skriven i dokumentmarginaler eller handskrivna anteckningar har vi en PyTorch-implementering av ett Handwritten Text Recognition (HTR)-system som fokuserar på automatisk upptäckt och igenkänning av handskrivna marginaliatexter. Snabbare R-CNN-nätverk används för detektering av marginaler och AttentionHTR används för ordigenkänning. Uppgifterna kommer från tidiga boksamlingar (tryckta) som finns på Uppsala universitetsbibliotek, med handskrivna marginaliatexter. Källkod och förtränade modeller finns tillgängliga på Github. Detta är ett arbete som pågår.
Ordregn: Semantiskt motiverade ordmoln
Denna utveckling av ett mjukvarubibliotek för textvisualisering bygger på grunda och djupa neurala nätverk. Det är ett pågående arbete som leds av CDHU, i samarbete med Språkbanken Sam.
Se: DHNB2023 presentation: Skeppstedt & Ahltorp. Klimatförändringens ord: TF-IDF-baserade ordmoln härledda från klimatförändringsrapporter."
Libralinked: Modellering av skandinaviska biblioteksdata
Dessa skript genererar interaktiv grafik och visar dem som html, efter webbskrapning av Nationalbiblioteket. Den grafiska genereringen kan också generaliseras, eftersom data är tillräckligt strukturerade till exempel via en CSV-fil.
Epub-textextraktions verktyg
Detta är ett verktyg för att extrahera textdata från EPUB-böcker. Skripten konverterar epubs till txt-filer och utför grundläggande statistik som antal ord, vanligaste ord etc.
Skrapa SOU-pdf:er
Denna kod skrapar alla webbadresser till pdf:s från Kungliga Biblioteket och matar ut en CSV-fil. Detta förråd innehåller en anteckningsbok som förvandlar csv-filen till ett nedladdningsskript; den sanerar och normaliserar också filnamn.
Skript för optisk teckenigenkänning i omgångar Det här arkivet innehåller olika skript och verktyg för att förbereda (spränga, konvertera, byta namn) och OCR:a pdf:er med Tesseract-OCR. Vi har även ett OCR-program baserat på Pytesseract – ett omslag för Tesseract. Den innehåller språkmodeller för att förbättra OCR-prestandan.
BerryBERT
Detta är en BERT-textklassificering för finska OCR-texter, som ursprungligen användes för forskning om förädling av vilda lingon. Detta arbete är en del av Center for Digital Humanitiess pilotprojekt 2021-2022, med ett projekt med titeln "Text Mining Commodification: The Geography Of the Nordic Lingonberry Rush, 1860-1910". Källkod finns tillgänglig på Github: