Að hafa algeng og kunnuleg nafnorð á listaformi.
Textarit, sem voru fengin í gegnum skröpun eða tengslanet, borin saman, við nafnorðalista úr Sigrúnarsniði BÍN.
Histogram, eða tíðnirit smíðað eftir þeim orðum úr ritunum sem ber saman við nafnorðalista Bín.
Nafnorðalista Bín vann ég úr CSV skrá Sigrúnarsniðsins þar sem orð voru valin af orðmyndum kvenkyn, karlkyn og hvorugkyn; og í almennum flokki.
Þessa skrá nálgaðist ég eins og hún var í lok nóvember 2019
Hver skrá hefur höfuð með grunnupplýsingum. Þar á eftir fylgja orð sem ber saman við nafnorðalista BÍN raðað eftir tíðni; ásamt tíðnitölu þeirra. Fjöldi orða takmarkast við 10 þúsund.
Ég kýs að skilja listana eftir á þessu formi þar sem auðvelt ætti að vera fyrir hvern og einn að vinna úr þeim.
tail -n +5 islenska_wikipedia.txt | tr -s ' ' | sed 's/ /,/g' > islenska_wikipedia.csv
Engin samhengisgreining er gerð á notkun orða. T.d. má huga að orðinu "ekki". Það er vissulega nafnorð í samhenginu "tregatár og ekki" en ekki í "ég er ekki viss". Huga þyrfti að frekari úrvinnslu gagna hvað þetta varðar.
Einnig þá bera þarf í huga einsleitni textarits þegar kemur að niðurstöðum orðtíðni nafnorðalistanna. Etv eru niðurstöður marktækari þegar búið er að sameina alla nafnorðalistanna.
Ef þið lumið á íslenskum textaritum þá má endilega hafa samband: [email protected]
Eru að mestu leiti eins og ofangreindir listar með þeirri undantekningu að ekki er síað eftir nafnorðum sérstaklega, þ.e, allir flokkar leyfilegir.
Öll orð eru tekin í nefnifalli ef slíkt á við