Add means for gauging average average loss per token and token subsets #356

gkielian · 2025-01-10T23:17:04Z

After reading this paper from NeurIPS 2024, they have an interesting suggestion to focus validation loss on strategic subsets of the full token set.

The paper recommended separating loss between non-padding tokens and padding tokens.

While not stated in the paper, some interesting subsets could include:

with word tokenization POS (nouns vs verbs)
with IPA (consonants vs vowels)
with Multilingual datasets -- each of the language scripts
Byte Fallback Tokens
Punctuation tokens
Non-Punctuation Tokens

References:
https://arxiv.org/pdf/2407.18158

This intersects the following paper on normalization token frequencies (which suggest another set of high probability tokens, or perhaps some combined metric of token_frequency * val loss per token histogramk, average, and per subset):
https://arxiv.org/abs/2411.00680

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add means for gauging average average loss per token and token subsets #356

Add means for gauging average average loss per token and token subsets #356

gkielian commented Jan 10, 2025 •

edited

Loading

Add means for gauging average average loss per token and token subsets #356

Add means for gauging average average loss per token and token subsets #356

Comments

gkielian commented Jan 10, 2025 • edited Loading

gkielian commented Jan 10, 2025 •

edited

Loading