Skip to content

Utilised a few text databases to create a frequency chart of noun distributions

Notifications You must be signed in to change notification settings

kksteini/nafnordalistar

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 

Repository files navigation

Nafnorðalistar

Tilgangur

Að hafa algeng og kunnuleg nafnorð á listaformi.

Úrvinnsla gagna

Textarit, sem voru fengin í gegnum skröpun eða tengslanet, borin saman, við nafnorðalista úr Sigrúnarsniði BÍN.

Histogram, eða tíðnirit smíðað eftir þeim orðum úr ritunum sem ber saman við nafnorðalista Bín.

Nafnorðalisti BÍN

Nafnorðalista Bín vann ég úr CSV skrá Sigrúnarsniðsins þar sem orð voru valin af orðmyndum kvenkyn, karlkyn og hvorugkyn; og í almennum flokki.

Þessa skrá nálgaðist ég eins og hún var í lok nóvember 2019

Snið niðurstaðna

Hver skrá hefur höfuð með grunnupplýsingum. Þar á eftir fylgja orð sem ber saman við nafnorðalista BÍN raðað eftir tíðni; ásamt tíðnitölu þeirra. Fjöldi orða takmarkast við 10 þúsund.

Ég kýs að skilja listana eftir á þessu formi þar sem auðvelt ætti að vera fyrir hvern og einn að vinna úr þeim.

Dæmi um úrvinnslu sniðs

Bash - .txt yfir í .csv

tail -n +5 islenska_wikipedia.txt | tr -s ' ' | sed 's/ /,/g' > islenska_wikipedia.csv

Marktæki

Engin samhengisgreining er gerð á notkun orða. T.d. má huga að orðinu "ekki". Það er vissulega nafnorð í samhenginu "tregatár og ekki" en ekki í "ég er ekki viss". Huga þyrfti að frekari úrvinnslu gagna hvað þetta varðar.

Einnig þá bera þarf í huga einsleitni textarits þegar kemur að niðurstöðum orðtíðni nafnorðalistanna. Etv eru niðurstöður marktækari þegar búið er að sameina alla nafnorðalistanna.

Textarit

Ef þið lumið á íslenskum textaritum þá má endilega hafa samband: [email protected]

Ósíaðir listar

Eru að mestu leiti eins og ofangreindir listar með þeirri undantekningu að ekki er síað eftir nafnorðum sérstaklega, þ.e, allir flokkar leyfilegir.

Öll orð eru tekin í nefnifalli ef slíkt á við

About

Utilised a few text databases to create a frequency chart of noun distributions

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published