QuBERT

LlamaRoBERTa es un modelo de lenguaje basado en RoBERTa para el quechua. Nuestro modelo de lenguaje fue pre-entrenado con texto del quechua sureño (Collao y Chanka).

Acerca del modelo

Modulo	Descarga
LlamaRoBERTa	config.json, pytorch_model.bin
Tokenizer	merges.txt, vocab.json

El modelo utiliza un tokenizador Byte-level BPE con un vocabulario de 52000 tokens de subpalabras.

Usabilidad

Una vez descargado los pesos y el tokenizador en la seccion de arriba es necesario adjuntarlo en un sola carpeta, en este caso fue LlamaRoBERTa.

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="./LlamaRoBERTa",
    tokenizer="./LlamaRoBERTa"
)

Se hace la prueba, la cual esta en fases de mejoras.

fill_mask("allinllachu <mask> allinlla huk wasipita.")

[{'score': 0.23992203176021576,
 'sequence': 'allinllachu nisqaqa allinlla huk wasipita.',
 'token': 334,
 'token_str': ' nisqaqa'},
{'score': 0.061005301773548126,
 'sequence': 'allinllachu, allinlla huk wasipita.',
 'token': 16,
 'token_str': ','},
 {'score': 0.028720015659928322,
 'sequence': "allinllachu' allinlla huk wasipita.",
 'token': 11,
 'token_str': "'"},
{'score': 0.012927944771945477,
'sequence': 'allinllachu kay allinlla huk wasipita.',
'token': 377,
'token_str': ' kay'},
{'score': 0.01230092253535986,
'sequence': 'allinllachu. allinlla huk wasipita.',
 'token': 18,
'token_str': '.'}]

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
Charts		Charts
notebook		notebook
notebooks		notebooks
resource		resource
LICENSE		LICENSE
README.md		README.md
run_clm_flax.py		run_clm_flax.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

QuBERT

Acerca del modelo

Usabilidad

About

Releases

Packages

Languages

License

rjzevallos/bert-quechua

Folders and files

Latest commit

History

Repository files navigation

QuBERT

Acerca del modelo

Usabilidad

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages