De Stridbara Svenskarna är igång och annoterar
Enligt den beprövade maskinlärningstraditionen förbereder vi oss nu intensivt för att kunna skörda frukterna av automatisering: vi annoterar data! Mer specifikt arbetar vi med att reda ut potentiella oklarheter i vår kodbok och våra annoteringsriktlinjer genom att gå igenom slumpmässiga urval från korpusen. Detta har den ytterligare fördelen att vi blir mer bekanta med källmaterialets innehåll, stil och begränsningar. Det största problemet (i min mening) är kvaliteten på OCR-läsningen – som i värsta fall producerar skönheter såsom texten till höger.
Vilket inte direkt rullar av tungan, och i bästa fall är perfekt läsbart. Syftet med denna fas är att samla tillräckligt många annoterade fall för att med säkerhet kunna bedöma prestandan (och vid behov finjustera eller träna) NER-modeller som vi kommer att använda för att extrahera viktiga data: platser, aktörer och tid.
Vi utför annoteringarna i Doccano, ett utmärkt open-source-verktyg för att annotera dataset för maskininlärning. Doccano underlättar olika former av annoteringstyper, såsom bildklassificering och ritning av avgränsningsrutor, eller textklassificering och märkning av textomfång (vilket är vad vi för närvarande gör): att rita textomfång för att välja vilka tecken och ord som ingår i någon av de olika entiteterna.