De Stridbara Svenskarna är igång och annoterar

Author

Mathias Johansson

Published

June 27, 2025

Enligt den beprövade maskinlärningstraditionen förbereder vi oss nu intensivt för att kunna skörda frukterna av automatisering: vi annoterar data! Mer specifikt arbetar vi med att reda ut potentiella oklarheter i vår kodbok och våra annoteringsriktlinjer genom att gå igenom slumpmässiga urval från korpusen. Detta har den ytterligare fördelen att vi blir mer bekanta med källmaterialets innehåll, stil och begränsningar. Det största problemet (i min mening) är kvaliteten på OCR-läsningen – som i värsta fall producerar skönheter såsom texten till höger.

ögvthöhsvsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
gvthöhsvsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
vthöhsvsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
thöhsvsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
höhsvsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
öhsvsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
hsvsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
svsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
vsmddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
smddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
mddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
ddmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
dmmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
mmahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
mahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
ahshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
hshstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
shstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
hstfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
stfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
tfehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
fehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
ehehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
hehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
ehmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
hmonebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
monebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
onebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
nebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
ebstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
bstbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
stbumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
bumfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
umfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
mfabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
fabusketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
busketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
usketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
sketfiaftybamföfegjbeblkavaprocImannömganaenocstmk
etfiaftybamföfegjbeblkavaprocImannömganaenocstmk
fiaftybamföfegjbeblkavaprocImannömganaenocstmk
aftybamföfegjbeblkavaprocImannömganaenocstmk
tybamföfegjbeblkavaprocImannömganaenocstmk
bamföfegjbeblkavaprocImannömganaenocstmk
mföfegjbeblkavaprocImannömganaenocstmk
föfegjbeblkavaprocImannömganaenocstmk
fegjbeblkavaprocImannömganaenocstmk
gjbeblkavaprocImannömganaenocstmk
beblkavaprocImannömganaenocstmk
blkavaprocImannömganaenocstmk
kavaprocImannömganaenocstmk
vaprocImannömganaenocstmk
procImannömganaenocstmk
ocImannömganaenocstmk
mannömganaenocstmk
annömganaenocstmk
nömganaenocstmk
mganaenocstmk
ganaenocstmk
naenocstmk
enocstmk
ocstmk
stmk
mk
k
s
,vvakadrmicvafötrsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
vakadrmicvafötrsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
kadrmicvafötrsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
drmicvafötrsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
micvafötrsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
icvafötrsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
vafötrsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
fötrsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
trsmhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
smhvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
hvöfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
öfdedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
dedeutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
deutlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
utlyvaupveakmmocförodetopkekeförKorikrensteellattochmide
lyvaupveakmmocförodetopkekeförKorikrensteellattochmide
vaupveakmmocförodetopkekeförKorikrensteellattochmide
upveakmmocförodetopkekeförKorikrensteellattochmide
veakmmocförodetopkekeförKorikrensteellattochmide
akmmocförodetopkekeförKorikrensteellattochmide
mmocförodetopkekeförKorikrensteellattochmide
mocförodetopkekeförKorikrensteellattochmide
ocförodetopkekeförKorikrensteellattochmide
förodetopkekeförKorikrensteellattochmide
rodetopkekeförKorikrensteellattochmide
detopkekeförKorikrensteellattochmide
topkekeförKorikrensteellattochmide
kekeförKorikrensteellattochmide
keförKorikrensteellattochmide
förKorikrensteellattochmide
Korikrensteellattochmide
rikrensteellattochmide
rensteellattochmide
steellattochmide
ellattochmide
attochmide
ochmide
mide
nomansninslasigdankänettliggienkanochbellanforännöfvmavanfräm
ansninslasigdankänettliggienkanochbellanforännöfvmavanfräm
ninslasigdankänettliggienkanochbellanforännöfvmavanfräm
slasigdankänettliggienkanochbellanforännöfvmavanfräm
sigdankänettliggienkanochbellanforännöfvmavanfräm
dankänettliggienkanochbellanforännöfvmavanfräm
känettliggienkanochbellanforännöfvmavanfräm
ettliggienkanochbellanforännöfvmavanfräm
liggienkanochbellanforännöfvmavanfräm
ienkanochbellanforännöfvmavanfräm
kanochbellanforännöfvmavanfräm
ochbellanforännöfvmavanfräm
bellanforännöfvmavanfräm
lanforännöfvmavanfräm
forännöfvmavanfräm
ännöfvmavanfräm
öfvmavanfräm
mavanfräm
vanfräm
främ

Vilket inte direkt rullar av tungan, och i bästa fall är perfekt läsbart. Syftet med denna fas är att samla tillräckligt många annoterade fall för att med säkerhet kunna bedöma prestandan (och vid behov finjustera eller träna) NER-modeller som vi kommer att använda för att extrahera viktiga data: platser, aktörer och tid.

Vi utför annoteringarna i Doccano, ett utmärkt open-source-verktyg för att annotera dataset för maskininlärning. Doccano underlättar olika former av annoteringstyper, såsom bildklassificering och ritning av avgränsningsrutor, eller textklassificering och märkning av textomfång (vilket är vad vi för närvarande gör): att rita textomfång för att välja vilka tecken och ord som ingår i någon av de olika entiteterna.