records/112424_WindowWarmup/d1cf11aa-7b8e-4d28-a94d-1aab632e0f38.txt

====================================================================================================
import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    if group['nesterov']:
                        g = g.add(buf, alpha=momentum)
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.dim = dim
        self.base = base
        self.inv_freq = None
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            self.inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2, device=x.device).float() / self.dim))
            self.seq_len_cached = seq_len
            t = torch.arange(seq_len, device=x.device).type_as(self.inv_freq)
            freqs = torch.outer(t, self.inv_freq)
            self.cos_cached = freqs.cos().bfloat16()
            self.sin_cached = freqs.sin().bfloat16()
        return self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]

def apply_rotary_emb(x, cos, sin):
    assert x.ndim == 4 # multihead attention
    d = x.shape[3]//2
    x1 = x[..., :d]
    x2 = x[..., d:]
    y1 = x1 * cos + x2 * sin
    y2 = x1 * (-sin) + x2 * cos
    return torch.cat([y1, y2], 3).type_as(x)

class CastedLinear(nn.Linear):
    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class CausalSelfAttention(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = self.n_embd // self.n_head
        assert self.n_embd % self.n_head == 0
        self.c_q = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_k = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_v = CastedLinear(self.n_embd, self.n_embd, bias=False)
        # output projection
        self.c_proj = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977
        self.rotary = Rotary(self.head_dim)
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977

    def forward(self, x, v1, block_mask):
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)
        q = self.c_q(x).view(B, T, self.n_head, self.head_dim)
        k = self.c_k(x).view(B, T, self.n_head, self.head_dim)
        v = self.c_v(x).view(B, T, self.n_head, self.head_dim)
        if v1 is None:
            v1 = v # This happens if we are in the first block. v needs to be accessed by subsequent blocks
        v = (1 - self.lamb) * v + self.lamb * v1.view_as(v) # @Grad62304977
        cos, sin = self.rotary(q)
        q, k = F.rms_norm(q, (q.size(-1),)), F.rms_norm(k, (k.size(-1),)) # QK norm suggested by @Grad62304977
        q, k = apply_rotary_emb(q, cos, sin), apply_rotary_emb(k, cos, sin)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y, v1

class MLP(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.c_fc    = CastedLinear(config.n_embd, 4 * config.n_embd, bias=False)
        self.c_proj  = CastedLinear(4 * config.n_embd, config.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config)
        self.mlp = MLP(config)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, v1, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x1, v1 = self.attn(F.rms_norm(x, (x.size(-1),)), v1, block_mask)
        x = x + x1
        x = x + self.mlp(F.rms_norm(x, (x.size(-1),)))
        return x, v1

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size, bias=False)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = F.rms_norm(x, (x.size(-1),)) # @Grad62304977
        x0 = x
        v1 = None

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x, v1 = self.transformer.h[i](x, v1, x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x, v1 = self.transformer.h[self.num_encoder_layers + i](x, v1, x0, block_mask)

        x = F.rms_norm(x, (x.size(-1),))
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, B, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.B = B
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * B * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.B * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.B * self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.B*self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    device_batch_size : int = 1 # batch size, in sequences, per device
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1750 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 640 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write('='*100 + '\n')
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
B, T = args.device_batch_size, args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (B * T * ddp_world_size) == 0
val_steps = args.val_tokens // (B * T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (B * ddp_world_size) == 0
train_accumulation_steps = args.batch_size // (B * ddp_world_size)

# load tokens
train_loader = DistributedDataLoader(args.input_bin, B, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, B, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# CUDNN attention is ~4ms faster than Flash, but doesn't get selected by default in PyTorch 2.5.1
from torch.backends.cuda import enable_cudnn_sdp, enable_flash_sdp, enable_math_sdp, enable_mem_efficient_sdp
enable_cudnn_sdp(True)
enable_flash_sdp(False)
enable_mem_efficient_sdp(False)
enable_math_sdp(False)

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight], lr=0.6,   betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight],         lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # Set the attention blocksize for the current step, in chunks of 64
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        # forward pass
        loss = model(x, y, attn_blocksize=attn_blocksize)
        train_loss = loss.detach()
        # advance the dataset for the next batch
        x, y = train_loader.next_batch()
        # backward pass
        if i < train_accumulation_steps:
            with model.no_sync(): # there's no need to sync gradients every accumulation step
                loss.backward()
        else:
            loss.backward() # just sync on the last step
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241124+cu124 compiled for CUDA 12.4
nvidia-smi:
Sun Nov 24 23:51:19 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 555.42.06              Driver Version: 555.42.06      CUDA Version: 12.5     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 80GB HBM3          Off |   00000000:18:00.0 Off |                    0 |
| N/A   32C    P0             69W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          Off |   00000000:2A:00.0 Off |                    0 |
| N/A   37C    P0             71W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          Off |   00000000:3A:00.0 Off |                    0 |
| N/A   38C    P0             69W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          Off |   00000000:5D:00.0 Off |                    0 |
| N/A   32C    P0             70W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          Off |   00000000:84:00.0 Off |                    0 |
| N/A   31C    P0             71W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          Off |   00000000:8B:00.0 Off |                    0 |
| N/A   38C    P0             78W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          Off |   00000000:91:00.0 Off |                    0 |
| N/A   35C    P0             70W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          Off |   00000000:E4:00.0 Off |                    0 |
| N/A   31C    P0             72W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1800000000 across 18 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1750 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1750 train_loss:10.8258 train_time:25934ms step_avg:nanms
step:2/1750 train_loss:10.0766 train_time:26043ms step_avg:nanms
step:3/1750 train_loss:8.3653 train_time:26190ms step_avg:nanms
step:4/1750 train_loss:7.5805 train_time:26336ms step_avg:nanms
step:5/1750 train_loss:7.4751 train_time:26482ms step_avg:nanms
step:6/1750 train_loss:6.9705 train_time:26632ms step_avg:nanms
step:7/1750 train_loss:7.1962 train_time:26780ms step_avg:nanms
step:8/1750 train_loss:6.7268 train_time:26928ms step_avg:nanms
step:9/1750 train_loss:6.6169 train_time:27077ms step_avg:nanms
step:10/1750 train_loss:6.5023 train_time:27224ms step_avg:nanms
step:11/1750 train_loss:6.4319 train_time:110ms step_avg:nanms
step:12/1750 train_loss:6.3437 train_time:257ms step_avg:nanms
step:13/1750 train_loss:6.2507 train_time:405ms step_avg:135.01ms
step:14/1750 train_loss:6.2731 train_time:552ms step_avg:138.04ms
step:15/1750 train_loss:6.2133 train_time:699ms step_avg:139.89ms
step:16/1750 train_loss:6.1609 train_time:847ms step_avg:141.20ms
step:17/1750 train_loss:6.2056 train_time:995ms step_avg:142.13ms
step:18/1750 train_loss:6.0426 train_time:1143ms step_avg:142.82ms
step:19/1750 train_loss:6.0317 train_time:1291ms step_avg:143.42ms
step:20/1750 train_loss:5.7627 train_time:1438ms step_avg:143.82ms
step:21/1750 train_loss:6.0271 train_time:1587ms step_avg:144.24ms
step:22/1750 train_loss:6.2338 train_time:1733ms step_avg:144.44ms
step:23/1750 train_loss:5.9295 train_time:1881ms step_avg:144.69ms
step:24/1750 train_loss:6.1256 train_time:2030ms step_avg:144.97ms
step:25/1750 train_loss:5.7872 train_time:2177ms step_avg:145.12ms
step:26/1750 train_loss:5.7024 train_time:2325ms step_avg:145.31ms
step:27/1750 train_loss:5.8846 train_time:2474ms step_avg:145.52ms
step:28/1750 train_loss:5.5120 train_time:2621ms step_avg:145.63ms
step:29/1750 train_loss:5.7698 train_time:2769ms step_avg:145.76ms
step:30/1750 train_loss:5.6027 train_time:2916ms step_avg:145.80ms
step:31/1750 train_loss:5.5439 train_time:3065ms step_avg:145.95ms
step:32/1750 train_loss:5.4227 train_time:3213ms step_avg:146.06ms
step:33/1750 train_loss:5.6913 train_time:3361ms step_avg:146.12ms
step:34/1750 train_loss:5.5964 train_time:3509ms step_avg:146.23ms
step:35/1750 train_loss:5.7332 train_time:3656ms step_avg:146.23ms
step:36/1750 train_loss:5.6460 train_time:3804ms step_avg:146.31ms
step:37/1750 train_loss:5.5613 train_time:3951ms step_avg:146.33ms
step:38/1750 train_loss:5.4404 train_time:4101ms step_avg:146.47ms
step:39/1750 train_loss:5.4399 train_time:4246ms step_avg:146.42ms
step:40/1750 train_loss:5.3656 train_time:4394ms step_avg:146.47ms
step:41/1750 train_loss:5.3383 train_time:4541ms step_avg:146.47ms
step:42/1750 train_loss:5.2784 train_time:4690ms step_avg:146.55ms
step:43/1750 train_loss:5.3517 train_time:4837ms step_avg:146.57ms
step:44/1750 train_loss:5.3291 train_time:4985ms step_avg:146.63ms
step:45/1750 train_loss:5.4913 train_time:5133ms step_avg:146.64ms
step:46/1750 train_loss:5.2769 train_time:5279ms step_avg:146.65ms
step:47/1750 train_loss:5.1685 train_time:5429ms step_avg:146.74ms
step:48/1750 train_loss:5.3229 train_time:5575ms step_avg:146.72ms
step:49/1750 train_loss:5.2500 train_time:5723ms step_avg:146.74ms
step:50/1750 train_loss:5.3464 train_time:5871ms step_avg:146.78ms
step:51/1750 train_loss:5.2566 train_time:6018ms step_avg:146.78ms
step:52/1750 train_loss:5.1185 train_time:6166ms step_avg:146.82ms
step:53/1750 train_loss:5.2594 train_time:6314ms step_avg:146.84ms
step:54/1750 train_loss:5.1030 train_time:6462ms step_avg:146.85ms
step:55/1750 train_loss:5.4978 train_time:6610ms step_avg:146.88ms
step:56/1750 train_loss:5.1336 train_time:6756ms step_avg:146.87ms
step:57/1750 train_loss:4.9779 train_time:6905ms step_avg:146.91ms
step:58/1750 train_loss:5.0956 train_time:7052ms step_avg:146.91ms
step:59/1750 train_loss:5.0889 train_time:7200ms step_avg:146.93ms
step:60/1750 train_loss:5.2175 train_time:7348ms step_avg:146.95ms
step:61/1750 train_loss:4.9370 train_time:7495ms step_avg:146.97ms
step:62/1750 train_loss:5.0775 train_time:7643ms step_avg:146.97ms
step:63/1750 train_loss:5.0940 train_time:7791ms step_avg:146.99ms
step:64/1750 train_loss:4.9779 train_time:7937ms step_avg:146.98ms
step:65/1750 train_loss:4.9208 train_time:8085ms step_avg:147.01ms
step:66/1750 train_loss:5.0614 train_time:8233ms step_avg:147.01ms
step:67/1750 train_loss:4.9101 train_time:8380ms step_avg:147.01ms
step:68/1750 train_loss:5.1747 train_time:8527ms step_avg:147.02ms
step:69/1750 train_loss:4.8040 train_time:8674ms step_avg:147.02ms
step:70/1750 train_loss:4.9205 train_time:8821ms step_avg:147.02ms
step:71/1750 train_loss:5.0490 train_time:8971ms step_avg:147.06ms
step:72/1750 train_loss:4.9796 train_time:9118ms step_avg:147.06ms
step:73/1750 train_loss:4.8689 train_time:9266ms step_avg:147.08ms
step:74/1750 train_loss:5.0052 train_time:9414ms step_avg:147.10ms
step:75/1750 train_loss:4.9594 train_time:9560ms step_avg:147.08ms
step:76/1750 train_loss:4.8723 train_time:9710ms step_avg:147.12ms
step:77/1750 train_loss:4.9814 train_time:9857ms step_avg:147.11ms
step:78/1750 train_loss:5.1696 train_time:10004ms step_avg:147.12ms
step:79/1750 train_loss:4.9163 train_time:10151ms step_avg:147.11ms
step:80/1750 train_loss:4.9234 train_time:10297ms step_avg:147.11ms
step:81/1750 train_loss:4.7054 train_time:10444ms step_avg:147.10ms
step:82/1750 train_loss:4.8835 train_time:10592ms step_avg:147.10ms
step:83/1750 train_loss:4.8528 train_time:10738ms step_avg:147.10ms
step:84/1750 train_loss:4.8401 train_time:10887ms step_avg:147.12ms
step:85/1750 train_loss:4.6775 train_time:11034ms step_avg:147.13ms
step:86/1750 train_loss:4.8860 train_time:11182ms step_avg:147.14ms
step:87/1750 train_loss:4.8130 train_time:11331ms step_avg:147.15ms
step:88/1750 train_loss:4.8258 train_time:11476ms step_avg:147.13ms
step:89/1750 train_loss:4.7689 train_time:11625ms step_avg:147.15ms
step:90/1750 train_loss:4.7086 train_time:11773ms step_avg:147.16ms
step:91/1750 train_loss:4.6883 train_time:11920ms step_avg:147.16ms
step:92/1750 train_loss:4.8291 train_time:12068ms step_avg:147.18ms
step:93/1750 train_loss:4.6434 train_time:12216ms step_avg:147.18ms
step:94/1750 train_loss:4.6840 train_time:12364ms step_avg:147.19ms
step:95/1750 train_loss:4.7126 train_time:12511ms step_avg:147.19ms
step:96/1750 train_loss:4.6342 train_time:12657ms step_avg:147.18ms
step:97/1750 train_loss:4.6770 train_time:12806ms step_avg:147.20ms
step:98/1750 train_loss:4.6058 train_time:12952ms step_avg:147.19ms
step:99/1750 train_loss:4.6991 train_time:13101ms step_avg:147.20ms
step:100/1750 train_loss:4.7111 train_time:13248ms step_avg:147.20ms
step:101/1750 train_loss:4.5723 train_time:13395ms step_avg:147.20ms
step:102/1750 train_loss:4.7485 train_time:13543ms step_avg:147.20ms
step:103/1750 train_loss:4.6177 train_time:13690ms step_avg:147.20ms
step:104/1750 train_loss:4.6097 train_time:13837ms step_avg:147.20ms
step:105/1750 train_loss:4.6034 train_time:13984ms step_avg:147.20ms
step:106/1750 train_loss:4.6558 train_time:14131ms step_avg:147.20ms
step:107/1750 train_loss:4.5448 train_time:14278ms step_avg:147.20ms
step:108/1750 train_loss:4.3998 train_time:14426ms step_avg:147.20ms
step:109/1750 train_loss:4.5249 train_time:14573ms step_avg:147.20ms
step:110/1750 train_loss:4.5033 train_time:14720ms step_avg:147.20ms
step:111/1750 train_loss:4.4468 train_time:14868ms step_avg:147.21ms
step:112/1750 train_loss:4.6149 train_time:15015ms step_avg:147.20ms
step:113/1750 train_loss:4.5111 train_time:15162ms step_avg:147.21ms
step:114/1750 train_loss:4.3792 train_time:15310ms step_avg:147.21ms
step:115/1750 train_loss:4.5382 train_time:15457ms step_avg:147.21ms
step:116/1750 train_loss:4.5196 train_time:15605ms step_avg:147.22ms
step:117/1750 train_loss:4.4159 train_time:15752ms step_avg:147.21ms
step:118/1750 train_loss:4.6410 train_time:15899ms step_avg:147.21ms
step:119/1750 train_loss:4.5005 train_time:16046ms step_avg:147.21ms
step:120/1750 train_loss:4.3870 train_time:16193ms step_avg:147.21ms
step:121/1750 train_loss:4.3378 train_time:16340ms step_avg:147.21ms
step:122/1750 train_loss:4.4903 train_time:16488ms step_avg:147.21ms
step:123/1750 train_loss:4.3314 train_time:16635ms step_avg:147.21ms
step:124/1750 train_loss:4.6379 train_time:16782ms step_avg:147.21ms
step:125/1750 train_loss:4.5071 train_time:16929ms step_avg:147.21ms
step:125/1750 val_loss:4.4525 train_time:16966ms step_avg:147.53ms
step:126/1750 train_loss:4.4621 train_time:17077ms step_avg:147.21ms
step:127/1750 train_loss:4.4885 train_time:17226ms step_avg:147.23ms
step:128/1750 train_loss:4.4269 train_time:17374ms step_avg:147.24ms
step:129/1750 train_loss:4.7320 train_time:17521ms step_avg:147.24ms
step:130/1750 train_loss:4.4166 train_time:17668ms step_avg:147.24ms
step:131/1750 train_loss:4.4279 train_time:17818ms step_avg:147.26ms
step:132/1750 train_loss:4.3711 train_time:17968ms step_avg:147.28ms
step:133/1750 train_loss:4.4760 train_time:18119ms step_avg:147.31ms
step:134/1750 train_loss:4.2876 train_time:18270ms step_avg:147.34ms
step:135/1750 train_loss:4.4712 train_time:18420ms step_avg:147.36ms
step:136/1750 train_loss:4.2401 train_time:18570ms step_avg:147.38ms
step:137/1750 train_loss:4.3897 train_time:18721ms step_avg:147.41ms
step:138/1750 train_loss:4.3043 train_time:18873ms step_avg:147.44ms
step:139/1750 train_loss:4.4004 train_time:19024ms step_avg:147.47ms
step:140/1750 train_loss:4.4955 train_time:19175ms step_avg:147.50ms
step:141/1750 train_loss:4.3353 train_time:19325ms step_avg:147.52ms
step:142/1750 train_loss:4.3288 train_time:19476ms step_avg:147.54ms
step:143/1750 train_loss:4.2769 train_time:19627ms step_avg:147.57ms
step:144/1750 train_loss:4.3734 train_time:19777ms step_avg:147.59ms
step:145/1750 train_loss:4.3206 train_time:19928ms step_avg:147.61ms
step:146/1750 train_loss:4.1905 train_time:20078ms step_avg:147.63ms
step:147/1750 train_loss:4.3475 train_time:20229ms step_avg:147.66ms
step:148/1750 train_loss:4.3774 train_time:20379ms step_avg:147.67ms
step:149/1750 train_loss:4.3196 train_time:20530ms step_avg:147.69ms
step:150/1750 train_loss:4.4540 train_time:20679ms step_avg:147.71ms
step:151/1750 train_loss:4.2885 train_time:20830ms step_avg:147.73ms
step:152/1750 train_loss:4.3078 train_time:20980ms step_avg:147.74ms
step:153/1750 train_loss:4.3904 train_time:21132ms step_avg:147.78ms
step:154/1750 train_loss:4.3786 train_time:21282ms step_avg:147.79ms
step:155/1750 train_loss:4.3020 train_time:21433ms step_avg:147.81ms
step:156/1750 train_loss:4.3664 train_time:21583ms step_avg:147.83ms
step:157/1750 train_loss:4.4244 train_time:21735ms step_avg:147.85ms
step:158/1750 train_loss:4.2624 train_time:21885ms step_avg:147.87ms
step:159/1750 train_loss:4.3248 train_time:22036ms step_avg:147.89ms
step:160/1750 train_loss:4.1253 train_time:22186ms step_avg:147.91ms
step:161/1750 train_loss:4.3609 train_time:22336ms step_avg:147.92ms
step:162/1750 train_loss:4.3784 train_time:22486ms step_avg:147.94ms
step:163/1750 train_loss:4.3615 train_time:22637ms step_avg:147.95ms
step:164/1750 train_loss:4.2182 train_time:22787ms step_avg:147.97ms
step:165/1750 train_loss:4.3094 train_time:22937ms step_avg:147.98ms
step:166/1750 train_loss:4.3773 train_time:23087ms step_avg:148.00ms
step:167/1750 train_loss:4.2294 train_time:23238ms step_avg:148.01ms
step:168/1750 train_loss:4.3060 train_time:23388ms step_avg:148.03ms
step:169/1750 train_loss:4.1737 train_time:23538ms step_avg:148.04ms
step:170/1750 train_loss:4.0399 train_time:23689ms step_avg:148.05ms
step:171/1750 train_loss:4.2274 train_time:23838ms step_avg:148.06ms
step:172/1750 train_loss:4.2354 train_time:23989ms step_avg:148.08ms
step:173/1750 train_loss:4.2928 train_time:24138ms step_avg:148.09ms
step:174/1750 train_loss:4.4523 train_time:24288ms step_avg:148.10ms
step:175/1750 train_loss:4.2760 train_time:24439ms step_avg:148.12ms
step:176/1750 train_loss:4.1184 train_time:24589ms step_avg:148.12ms
step:177/1750 train_loss:4.0886 train_time:24739ms step_avg:148.14ms
step:178/1750 train_loss:4.2154 train_time:24890ms step_avg:148.15ms
step:179/1750 train_loss:4.1557 train_time:25039ms step_avg:148.16ms
step:180/1750 train_loss:4.1469 train_time:25189ms step_avg:148.17ms
step:181/1750 train_loss:4.3236 train_time:25339ms step_avg:148.18ms
step:182/1750 train_loss:4.1799 train_time:25489ms step_avg:148.19ms
step:183/1750 train_loss:4.1556 train_time:25639ms step_avg:148.20ms
step:184/1750 train_loss:4.1526 train_time:25789ms step_avg:148.22ms
step:185/1750 train_loss:4.2293 train_time:25939ms step_avg:148.22ms
step:186/1750 train_loss:4.1922 train_time:26089ms step_avg:148.24ms
step:187/1750 train_loss:4.2548 train_time:26240ms step_avg:148.25ms
step:188/1750 train_loss:4.1981 train_time:26514ms step_avg:148.95ms
step:189/1750 train_loss:4.1424 train_time:26820ms step_avg:149.83ms
step:190/1750 train_loss:4.2506 train_time:26972ms step_avg:149.84ms
step:191/1750 train_loss:4.1221 train_time:27123ms step_avg:149.85ms
step:192/1750 train_loss:4.0605 train_time:27273ms step_avg:149.85ms
step:193/1750 train_loss:4.2805 train_time:27424ms step_avg:149.86ms
step:194/1750 train_loss:4.2088 train_time:27574ms step_avg:149.86ms
step:195/1750 train_loss:4.3881 train_time:27724ms step_avg:149.86ms
step:196/1750 train_loss:4.2120 train_time:27874ms step_avg:149.86ms
step:197/1750 train_loss:4.0693 train_time:28023ms step_avg:149.86ms
step:198/1750 train_loss:4.2003 train_time:28173ms step_avg:149.85ms
step:199/1750 train_loss:4.0511 train_time:28322ms step_avg:149.85ms
step:200/1750 train_loss:4.1484 train_time:28472ms step_avg:149.85ms
step:201/1750 train_loss:4.0272 train_time:28622ms step_avg:149.85ms
step:202/1750 train_loss:4.2761 train_time:28771ms step_avg:149.85ms
step:203/1750 train_loss:4.0759 train_time:28921ms step_avg:149.85ms
step:204/1750 train_loss:4.2039 train_time:29071ms step_avg:149.85ms
step:205/1750 train_loss:4.2676 train_time:29220ms step_avg:149.84ms
step:206/1750 train_loss:3.9671 train_time:29369ms step_avg:149.84ms
step:207/1750 train_loss:4.1145 train_time:29518ms step_avg:149.84ms
step:208/1750 train_loss:4.1247 train_time:29668ms step_avg:149.84ms
step:209/1750 train_loss:4.2504 train_time:29817ms step_avg:149.84ms
step:210/1750 train_loss:4.2004 train_time:29967ms step_avg:149.83ms
step:211/1750 train_loss:4.0722 train_time:30116ms step_avg:149.83ms
step:212/1750 train_loss:4.1307 train_time:30265ms step_avg:149.83ms
step:213/1750 train_loss:4.0654 train_time:30415ms step_avg:149.83ms
step:214/1750 train_loss:4.1209 train_time:30565ms step_avg:149.83ms
step:215/1750 train_loss:3.9646 train_time:30715ms step_avg:149.83ms
step:216/1750 train_loss:4.0177 train_time:30864ms step_avg:149.83ms
step:217/1750 train_loss:4.0249 train_time:31014ms step_avg:149.83ms
step:218/1750 train_loss:4.0899 train_time:31164ms step_avg:149.83ms
step:219/1750 train_loss:4.0814 train_time:31314ms step_avg:149.83ms
step:220/1750 train_loss:4.1020 train_time:31462ms step_avg:149.82ms
step:221/1750 train_loss:4.1017 train_time:31614ms step_avg:149.83ms
step:222/1750 train_loss:4.0077 train_time:31762ms step_avg:149.82ms
step:223/1750 train_loss:4.0071 train_time:31913ms step_avg:149.83ms
step:224/1750 train_loss:4.3088 train_time:32063ms step_avg:149.83ms
step:225/1750 train_loss:3.9098 train_time:32213ms step_avg:149.83ms
step:226/1750 train_loss:4.0050 train_time:32362ms step_avg:149.82ms
step:227/1750 train_loss:3.9988 train_time:32512ms step_avg:149.83ms
step:228/1750 train_loss:4.1639 train_time:32661ms step_avg:149.82ms
step:229/1750 train_loss:3.9501 train_time:32812ms step_avg:149.83ms
step:230/1750 train_loss:4.0698 train_time:32962ms step_avg:149.83ms
step:231/1750 train_loss:3.9198 train_time:33113ms step_avg:149.83ms
step:232/1750 train_loss:3.9922 train_time:33261ms step_avg:149.83ms
step:233/1750 train_loss:4.1040 train_time:33412ms step_avg:149.83ms
step:234/1750 train_loss:4.0495 train_time:33561ms step_avg:149.83ms
step:235/1750 train_loss:3.9328 train_time:33712ms step_avg:149.83ms
step:236/1750 train_loss:4.1084 train_time:33861ms step_avg:149.83ms
step:237/1750 train_loss:4.1049 train_time:34013ms step_avg:149.84ms
step:238/1750 train_loss:3.9616 train_time:34163ms step_avg:149.84ms
step:239/1750 train_loss:4.1074 train_time:34313ms step_avg:149.84ms
step:240/1750 train_loss:4.1327 train_time:34462ms step_avg:149.84ms
step:241/1750 train_loss:3.9865 train_time:34613ms step_avg:149.84ms
step:242/1750 train_loss:4.1654 train_time:34762ms step_avg:149.84ms
step:243/1750 train_loss:4.0424 train_time:34913ms step_avg:149.84ms
step:244/1750 train_loss:4.0961 train_time:35062ms step_avg:149.84ms
step:245/1750 train_loss:4.1739 train_time:35212ms step_avg:149.84ms
step:246/1750 train_loss:4.0925 train_time:35361ms step_avg:149.84ms
step:247/1750 train_loss:4.0322 train_time:35512ms step_avg:149.84ms
step:248/1750 train_loss:4.1462 train_time:35660ms step_avg:149.83ms
step:249/1750 train_loss:3.9380 train_time:35811ms step_avg:149.84ms
step:250/1750 train_loss:3.9945 train_time:35960ms step_avg:149.83ms
step:250/1750 val_loss:4.0305 train_time:35999ms step_avg:150.00ms
step:251/1750 train_loss:4.1017 train_time:36112ms step_avg:149.84ms
step:252/1750 train_loss:4.1932 train_time:36261ms step_avg:149.84ms
step:253/1750 train_loss:3.9562 train_time:36412ms step_avg:149.84ms
step:254/1750 train_loss:3.9096 train_time:36561ms step_avg:149.84ms
step:255/1750 train_loss:4.0929 train_time:36711ms step_avg:149.84ms
step:256/1750 train_loss:4.0157 train_time:36859ms step_avg:149.83ms
step:257/1750 train_loss:4.0138 train_time:37009ms step_avg:149.83ms
step:258/1750 train_loss:4.0054 train_time:37158ms step_avg:149.83ms
step:259/1750 train_loss:4.0479 train_time:37308ms step_avg:149.83ms
step:260/1750 train_loss:4.0866 train_time:37456ms step_avg:149.82ms
step:261/1750 train_loss:4.0421 train_time:37608ms step_avg:149.83ms
step:262/1750 train_loss:4.0119 train_time:37761ms step_avg:149.85ms
step:263/1750 train_loss:3.9180 train_time:37913ms step_avg:149.85ms
step:264/1750 train_loss:4.0117 train_time:38066ms step_avg:149.86ms
step:265/1750 train_loss:3.8914 train_time:38219ms step_avg:149.88ms
step:266/1750 train_loss:3.9379 train_time:38370ms step_avg:149.88ms
step:267/1750 train_loss:3.9489 train_time:38523ms step_avg:149.89ms
step:268/1750 train_loss:3.9703 train_time:38676ms step_avg:149.91ms
step:269/1750 train_loss:3.8763 train_time:38829ms step_avg:149.92ms
step:270/1750 train_loss:4.1192 train_time:38981ms step_avg:149.93ms
step:271/1750 train_loss:3.9915 train_time:39134ms step_avg:149.94ms
step:272/1750 train_loss:3.9436 train_time:39286ms step_avg:149.95ms
step:273/1750 train_loss:3.9637 train_time:39438ms step_avg:149.95ms
step:274/1750 train_loss:4.0537 train_time:39590ms step_avg:149.96ms
step:275/1750 train_loss:4.0732 train_time:39743ms step_avg:149.97ms
step:276/1750 train_loss:4.2472 train_time:39895ms step_avg:149.98ms
step:277/1750 train_loss:4.0553 train_time:40048ms step_avg:149.99ms
step:278/1750 train_loss:4.1055 train_time:40201ms step_avg:150.00ms
step:279/1750 train_loss:4.0129 train_time:40354ms step_avg:150.01ms
step:280/1750 train_loss:4.1926 train_time:40507ms step_avg:150.03ms
step:281/1750 train_loss:3.9846 train_time:40658ms step_avg:150.03ms
step:282/1750 train_loss:3.9657 train_time:40812ms step_avg:150.04ms
step:283/1750 train_loss:3.9329 train_time:40963ms step_avg:150.05ms
step:284/1750 train_loss:4.0628 train_time:41115ms step_avg:150.05ms
step:285/1750 train_loss:4.0851 train_time:41268ms step_avg:150.06ms
step:286/1750 train_loss:4.1027 train_time:41420ms step_avg:150.07ms
step:287/1750 train_loss:3.9313 train_time:41573ms step_avg:150.08ms
step:288/1750 train_loss:4.0320 train_time:41726ms step_avg:150.09ms
step:289/1750 train_loss:3.9045 train_time:41877ms step_avg:150.10ms
step:290/1750 train_loss:3.8796 train_time:42031ms step_avg:150.11ms
step:291/1750 train_loss:3.9323 train_time:42183ms step_avg:150.12ms
step:292/1750 train_loss:3.8818 train_time:42336ms step_avg:150.13ms
step:293/1750 train_loss:3.9313 train_time:42488ms step_avg:150.14ms
step:294/1750 train_loss:3.9697 train_time:42641ms step_avg:150.15ms
step:295/1750 train_loss:3.8571 train_time:42794ms step_avg:150.15ms
step:296/1750 train_loss:3.8805 train_time:42948ms step_avg:150.17ms
step:297/1750 train_loss:3.8896 train_time:43099ms step_avg:150.17ms
step:298/1750 train_loss:3.9989 train_time:43252ms step_avg:150.18ms
step:299/1750 train_loss:3.8336 train_time:43404ms step_avg:150.19ms
step:300/1750 train_loss:3.9831 train_time:43557ms step_avg:150.20ms
step:301/1750 train_loss:3.9973 train_time:43710ms step_avg:150.21ms
step:302/1750 train_loss:3.9543 train_time:43862ms step_avg:150.21ms
step:303/1750 train_loss:4.0052 train_time:44015ms step_avg:150.22ms
step:304/1750 train_loss:3.9850 train_time:44168ms step_avg:150.23ms
step:305/1750 train_loss:4.4855 train_time:44320ms step_avg:150.24ms
step:306/1750 train_loss:3.9566 train_time:44473ms step_avg:150.25ms
step:307/1750 train_loss:3.8560 train_time:44626ms step_avg:150.26ms
step:308/1750 train_loss:4.0028 train_time:44778ms step_avg:150.26ms
step:309/1750 train_loss:3.8757 train_time:44931ms step_avg:150.27ms
step:310/1750 train_loss:4.1013 train_time:45083ms step_avg:150.28ms
step:311/1750 train_loss:3.9526 train_time:45236ms step_avg:150.29ms
step:312/1750 train_loss:3.8890 train_time:45388ms step_avg:150.29ms
step:313/1750 train_loss:3.9615 train_time:45539ms step_avg:150.29ms
step:314/1750 train_loss:4.0923 train_time:45692ms step_avg:150.30ms
step:315/1750 train_loss:3.9657 train_time:45844ms step_avg:150.31ms
step:316/1750 train_loss:3.8177 train_time:45996ms step_avg:150.31ms
step:317/1750 train_loss:3.8957 train_time:46150ms step_avg:150.33ms
step:318/1750 train_loss:3.9405 train_time:46301ms step_avg:150.33ms
step:319/1750 train_loss:3.9148 train_time:46454ms step_avg:150.34ms
step:320/1750 train_loss:4.0362 train_time:46607ms step_avg:150.34ms
step:321/1750 train_loss:3.9782 train_time:46758ms step_avg:150.35ms
step:322/1750 train_loss:3.9481 train_time:46911ms step_avg:150.36ms
step:323/1750 train_loss:4.0306 train_time:47063ms step_avg:150.36ms
step:324/1750 train_loss:3.9710 train_time:47215ms step_avg:150.37ms
step:325/1750 train_loss:4.0359 train_time:47368ms step_avg:150.38ms
step:326/1750 train_loss:3.9149 train_time:47520ms step_avg:150.38ms
step:327/1750 train_loss:4.4072 train_time:47672ms step_avg:150.39ms
step:328/1750 train_loss:4.0964 train_time:47824ms step_avg:150.39ms
step:329/1750 train_loss:3.8133 train_time:47975ms step_avg:150.39ms
step:330/1750 train_loss:3.7676 train_time:48128ms step_avg:150.40ms
step:331/1750 train_loss:3.9926 train_time:48280ms step_avg:150.40ms
step:332/1750 train_loss:3.9330 train_time:48432ms step_avg:150.41ms
step:333/1750 train_loss:3.8999 train_time:48583ms step_avg:150.41ms
step:334/1750 train_loss:3.8562 train_time:48735ms step_avg:150.42ms
step:335/1750 train_loss:4.0258 train_time:48886ms step_avg:150.42ms
step:336/1750 train_loss:3.9799 train_time:49037ms step_avg:150.42ms
step:337/1750 train_loss:4.4417 train_time:49190ms step_avg:150.43ms
step:338/1750 train_loss:3.9671 train_time:49341ms step_avg:150.43ms
step:339/1750 train_loss:3.8896 train_time:49492ms step_avg:150.43ms
step:340/1750 train_loss:3.9522 train_time:49646ms step_avg:150.44ms
step:341/1750 train_loss:3.8739 train_time:49797ms step_avg:150.44ms
step:342/1750 train_loss:3.8280 train_time:49950ms step_avg:150.45ms
step:343/1750 train_loss:3.8582 train_time:50101ms step_avg:150.45ms
step:344/1750 train_loss:4.0137 train_time:50252ms step_avg:150.46ms
step:345/1750 train_loss:3.8449 train_time:50404ms step_avg:150.46ms
step:346/1750 train_loss:3.7857 train_time:50555ms step_avg:150.46ms
step:347/1750 train_loss:3.8223 train_time:50707ms step_avg:150.47ms
step:348/1750 train_loss:3.8721 train_time:50858ms step_avg:150.47ms
step:349/1750 train_loss:3.8523 train_time:51011ms step_avg:150.47ms
step:350/1750 train_loss:3.5830 train_time:51162ms step_avg:150.48ms
step:351/1750 train_loss:3.8397 train_time:51314ms step_avg:150.48ms
step:352/1750 train_loss:4.2055 train_time:51465ms step_avg:150.48ms
step:353/1750 train_loss:3.6748 train_time:51617ms step_avg:150.49ms
step:354/1750 train_loss:3.9460 train_time:51769ms step_avg:150.49ms
step:355/1750 train_loss:3.8029 train_time:51921ms step_avg:150.50ms
step:356/1750 train_loss:3.8962 train_time:52073ms step_avg:150.50ms
step:357/1750 train_loss:3.8020 train_time:52224ms step_avg:150.50ms
step:358/1750 train_loss:3.8725 train_time:52375ms step_avg:150.50ms
step:359/1750 train_loss:3.8100 train_time:52529ms step_avg:150.51ms
step:360/1750 train_loss:3.4457 train_time:52680ms step_avg:150.51ms
step:361/1750 train_loss:4.0394 train_time:52832ms step_avg:150.52ms
step:362/1750 train_loss:3.9352 train_time:52984ms step_avg:150.52ms
step:363/1750 train_loss:3.8601 train_time:53135ms step_avg:150.52ms
step:364/1750 train_loss:3.7648 train_time:53287ms step_avg:150.53ms
step:365/1750 train_loss:3.9449 train_time:53438ms step_avg:150.53ms
step:366/1750 train_loss:3.8830 train_time:53590ms step_avg:150.53ms
step:367/1750 train_loss:3.8716 train_time:53741ms step_avg:150.54ms
step:368/1750 train_loss:3.8679 train_time:53892ms step_avg:150.54ms
step:369/1750 train_loss:3.7603 train_time:54045ms step_avg:150.54ms
step:370/1750 train_loss:3.9088 train_time:54196ms step_avg:150.54ms
step:371/1750 train_loss:3.7571 train_time:54348ms step_avg:150.55ms
step:372/1750 train_loss:3.7156 train_time:54500ms step_avg:150.55ms
step:373/1750 train_loss:3.9407 train_time:54652ms step_avg:150.56ms
step:374/1750 train_loss:3.8459 train_time:54802ms step_avg:150.56ms
step:375/1750 train_loss:3.8221 train_time:54954ms step_avg:150.56ms
step:375/1750 val_loss:3.8515 train_time:54993ms step_avg:150.67ms
step:376/1750 train_loss:3.8946 train_time:55108ms step_avg:150.57ms
step:377/1750 train_loss:3.8136 train_time:55380ms step_avg:150.90ms
step:378/1750 train_loss:3.8809 train_time:55541ms step_avg:150.93ms
step:379/1750 train_loss:3.8944 train_time:55849ms step_avg:151.35ms
step:380/1750 train_loss:3.9783 train_time:56001ms step_avg:151.35ms
step:381/1750 train_loss:3.8606 train_time:56152ms step_avg:151.35ms
step:382/1750 train_loss:3.8360 train_time:56304ms step_avg:151.35ms
step:383/1750 train_loss:3.8162 train_time:56455ms step_avg:151.35ms
step:384/1750 train_loss:3.8892 train_time:56606ms step_avg:151.35ms
step:385/1750 train_loss:3.8075 train_time:56758ms step_avg:151.35ms
step:386/1750 train_loss:3.9131 train_time:56909ms step_avg:151.35ms
step:387/1750 train_loss:4.0845 train_time:57061ms step_avg:151.36ms
step:388/1750 train_loss:3.8148 train_time:57214ms step_avg:151.36ms
step:389/1750 train_loss:3.8158 train_time:57365ms step_avg:151.36ms
step:390/1750 train_loss:3.9141 train_time:57519ms step_avg:151.37ms
step:391/1750 train_loss:3.8289 train_time:57673ms step_avg:151.37ms
step:392/1750 train_loss:3.9389 train_time:57827ms step_avg:151.38ms
step:393/1750 train_loss:3.7759 train_time:57982ms step_avg:151.39ms
step:394/1750 train_loss:3.9055 train_time:58136ms step_avg:151.40ms
step:395/1750 train_loss:3.6467 train_time:58289ms step_avg:151.40ms
step:396/1750 train_loss:3.8541 train_time:58446ms step_avg:151.42ms
step:397/1750 train_loss:3.8832 train_time:58601ms step_avg:151.42ms
step:398/1750 train_loss:3.8957 train_time:58755ms step_avg:151.43ms
step:399/1750 train_loss:3.7857 train_time:58908ms step_avg:151.44ms
step:400/1750 train_loss:3.8508 train_time:59065ms step_avg:151.45ms
step:401/1750 train_loss:3.9338 train_time:59219ms step_avg:151.45ms
step:402/1750 train_loss:3.8619 train_time:59374ms step_avg:151.47ms
step:403/1750 train_loss:3.9812 train_time:59528ms step_avg:151.47ms
step:404/1750 train_loss:3.6999 train_time:59683ms step_avg:151.48ms
step:405/1750 train_loss:3.7986 train_time:59839ms step_avg:151.49ms
step:406/1750 train_loss:4.1081 train_time:59992ms step_avg:151.49ms
step:407/1750 train_loss:3.7992 train_time:60147ms step_avg:151.50ms
step:408/1750 train_loss:3.8323 train_time:60301ms step_avg:151.51ms
step:409/1750 train_loss:3.8767 train_time:60456ms step_avg:151.52ms
step:410/1750 train_loss:3.7774 train_time:60610ms step_avg:151.53ms
step:411/1750 train_loss:3.7805 train_time:60765ms step_avg:151.53ms
step:412/1750 train_loss:4.1944 train_time:60919ms step_avg:151.54ms
step:413/1750 train_loss:3.6317 train_time:61073ms step_avg:151.55ms
step:414/1750 train_loss:4.0327 train_time:61227ms step_avg:151.55ms
step:415/1750 train_loss:3.7693 train_time:61381ms step_avg:151.56ms
step:416/1750 train_loss:3.7832 train_time:61536ms step_avg:151.57ms
step:417/1750 train_loss:3.9750 train_time:61689ms step_avg:151.57ms
step:418/1750 train_loss:3.7114 train_time:61845ms step_avg:151.58ms
step:419/1750 train_loss:3.8284 train_time:61999ms step_avg:151.59ms
step:420/1750 train_loss:3.7288 train_time:62153ms step_avg:151.59ms
step:421/1750 train_loss:3.6715 train_time:62306ms step_avg:151.60ms
step:422/1750 train_loss:3.7980 train_time:62460ms step_avg:151.60ms
step:423/1750 train_loss:3.8941 train_time:62616ms step_avg:151.61ms
step:424/1750 train_loss:3.6326 train_time:62770ms step_avg:151.62ms
step:425/1750 train_loss:3.8185 train_time:62925ms step_avg:151.63ms
step:426/1750 train_loss:3.6741 train_time:63080ms step_avg:151.63ms
step:427/1750 train_loss:3.9071 train_time:63236ms step_avg:151.64ms
step:428/1750 train_loss:3.8338 train_time:63389ms step_avg:151.65ms
step:429/1750 train_loss:3.7720 train_time:63545ms step_avg:151.66ms
step:430/1750 train_loss:3.7365 train_time:63699ms step_avg:151.66ms
step:431/1750 train_loss:3.6394 train_time:63853ms step_avg:151.67ms
step:432/1750 train_loss:3.7826 train_time:64008ms step_avg:151.68ms
step:433/1750 train_loss:3.8354 train_time:64162ms step_avg:151.68ms
step:434/1750 train_loss:3.7910 train_time:64317ms step_avg:151.69ms
step:435/1750 train_loss:3.8252 train_time:64471ms step_avg:151.70ms
step:436/1750 train_loss:3.8481 train_time:64625ms step_avg:151.70ms
step:437/1750 train_loss:3.7397 train_time:64780ms step_avg:151.71ms
step:438/1750 train_loss:3.7255 train_time:64935ms step_avg:151.72ms
step:439/1750 train_loss:3.7299 train_time:65089ms step_avg:151.72ms
step:440/1750 train_loss:3.9077 train_time:65244ms step_avg:151.73ms
step:441/1750 train_loss:3.7868 train_time:65399ms step_avg:151.74ms
step:442/1750 train_loss:3.7583 train_time:65554ms step_avg:151.74ms
step:443/1750 train_loss:3.6419 train_time:65707ms step_avg:151.75ms
step:444/1750 train_loss:3.9435 train_time:65862ms step_avg:151.76ms
step:445/1750 train_loss:3.8643 train_time:66016ms step_avg:151.76ms
step:446/1750 train_loss:3.8561 train_time:66170ms step_avg:151.77ms
step:447/1750 train_loss:3.7708 train_time:66326ms step_avg:151.78ms
step:448/1750 train_loss:3.8735 train_time:66480ms step_avg:151.78ms
step:449/1750 train_loss:3.7082 train_time:66636ms step_avg:151.79ms
step:450/1750 train_loss:3.7477 train_time:66789ms step_avg:151.79ms
step:451/1750 train_loss:3.5989 train_time:66945ms step_avg:151.80ms
step:452/1750 train_loss:3.7310 train_time:67099ms step_avg:151.81ms
step:453/1750 train_loss:3.6954 train_time:67252ms step_avg:151.81ms
step:454/1750 train_loss:3.6532 train_time:67407ms step_avg:151.82ms
step:455/1750 train_loss:3.8590 train_time:67562ms step_avg:151.82ms
step:456/1750 train_loss:3.7440 train_time:67716ms step_avg:151.83ms
step:457/1750 train_loss:3.8023 train_time:67869ms step_avg:151.83ms
step:458/1750 train_loss:3.8565 train_time:68024ms step_avg:151.84ms
step:459/1750 train_loss:3.6543 train_time:68179ms step_avg:151.85ms
step:460/1750 train_loss:3.8181 train_time:68332ms step_avg:151.85ms
step:461/1750 train_loss:3.7067 train_time:68486ms step_avg:151.85ms
step:462/1750 train_loss:3.7594 train_time:68640ms step_avg:151.86ms
step:463/1750 train_loss:3.7953 train_time:68794ms step_avg:151.86ms
step:464/1750 train_loss:3.7275 train_time:68947ms step_avg:151.87ms
step:465/1750 train_loss:3.7397 train_time:69101ms step_avg:151.87ms
step:466/1750 train_loss:3.8208 train_time:69257ms step_avg:151.88ms
step:467/1750 train_loss:3.8433 train_time:69412ms step_avg:151.89ms
step:468/1750 train_loss:3.8118 train_time:69565ms step_avg:151.89ms
step:469/1750 train_loss:3.7019 train_time:69721ms step_avg:151.90ms
step:470/1750 train_loss:3.7787 train_time:69873ms step_avg:151.90ms
step:471/1750 train_loss:3.8334 train_time:70028ms step_avg:151.90ms
step:472/1750 train_loss:3.7932 train_time:70183ms step_avg:151.91ms
step:473/1750 train_loss:3.7340 train_time:70337ms step_avg:151.92ms
step:474/1750 train_loss:3.6090 train_time:70489ms step_avg:151.92ms
step:475/1750 train_loss:4.0250 train_time:70644ms step_avg:151.92ms
step:476/1750 train_loss:3.7827 train_time:70797ms step_avg:151.93ms
step:477/1750 train_loss:3.6111 train_time:70950ms step_avg:151.93ms
step:478/1750 train_loss:3.8474 train_time:71104ms step_avg:151.93ms
step:479/1750 train_loss:3.7959 train_time:71257ms step_avg:151.93ms
step:480/1750 train_loss:3.9364 train_time:71412ms step_avg:151.94ms
step:481/1750 train_loss:3.7425 train_time:71566ms step_avg:151.95ms
step:482/1750 train_loss:3.5448 train_time:71720ms step_avg:151.95ms
step:483/1750 train_loss:3.8334 train_time:71874ms step_avg:151.95ms
step:484/1750 train_loss:3.6828 train_time:72028ms step_avg:151.96ms
step:485/1750 train_loss:3.6790 train_time:72181ms step_avg:151.96ms
step:486/1750 train_loss:3.6012 train_time:72336ms step_avg:151.97ms
step:487/1750 train_loss:3.6982 train_time:72488ms step_avg:151.97ms
step:488/1750 train_loss:3.8953 train_time:72642ms step_avg:151.97ms
step:489/1750 train_loss:3.7318 train_time:72797ms step_avg:151.98ms
step:490/1750 train_loss:3.6109 train_time:72949ms step_avg:151.98ms
step:491/1750 train_loss:3.6345 train_time:73104ms step_avg:151.98ms
step:492/1750 train_loss:3.7480 train_time:73258ms step_avg:151.99ms
step:493/1750 train_loss:3.5929 train_time:73411ms step_avg:151.99ms
step:494/1750 train_loss:3.7207 train_time:73564ms step_avg:151.99ms
step:495/1750 train_loss:3.6757 train_time:73719ms step_avg:152.00ms
step:496/1750 train_loss:3.5358 train_time:73871ms step_avg:152.00ms
step:497/1750 train_loss:3.7563 train_time:74026ms step_avg:152.00ms
step:498/1750 train_loss:3.8101 train_time:74180ms step_avg:152.01ms
step:499/1750 train_loss:3.8425 train_time:74334ms step_avg:152.01ms
step:500/1750 train_loss:3.7510 train_time:74487ms step_avg:152.01ms
step:500/1750 val_loss:3.7252 train_time:74527ms step_avg:152.10ms
step:501/1750 train_loss:3.8274 train_time:74642ms step_avg:152.02ms
step:502/1750 train_loss:3.7688 train_time:74798ms step_avg:152.03ms
step:503/1750 train_loss:3.7954 train_time:74953ms step_avg:152.03ms
step:504/1750 train_loss:3.7478 train_time:75107ms step_avg:152.04ms
step:505/1750 train_loss:3.8222 train_time:75262ms step_avg:152.04ms
step:506/1750 train_loss:3.6657 train_time:75417ms step_avg:152.05ms
step:507/1750 train_loss:3.7798 train_time:75570ms step_avg:152.05ms
step:508/1750 train_loss:3.8480 train_time:75726ms step_avg:152.06ms
step:509/1750 train_loss:3.7933 train_time:75878ms step_avg:152.06ms
step:510/1750 train_loss:3.5995 train_time:76032ms step_avg:152.06ms
step:511/1750 train_loss:3.8005 train_time:76186ms step_avg:152.07ms
step:512/1750 train_loss:3.7541 train_time:76339ms step_avg:152.07ms
step:513/1750 train_loss:3.6843 train_time:76493ms step_avg:152.07ms
step:514/1750 train_loss:3.8227 train_time:76648ms step_avg:152.08ms
step:515/1750 train_loss:3.7575 train_time:76802ms step_avg:152.08ms
step:516/1750 train_loss:4.0960 train_time:76956ms step_avg:152.09ms
step:517/1750 train_loss:3.7092 train_time:77112ms step_avg:152.09ms
step:518/1750 train_loss:3.7949 train_time:77265ms step_avg:152.10ms
step:519/1750 train_loss:3.6887 train_time:77418ms step_avg:152.10ms
step:520/1750 train_loss:3.7063 train_time:77574ms step_avg:152.11ms
step:521/1750 train_loss:3.6772 train_time:77730ms step_avg:152.11ms
step:522/1750 train_loss:3.6747 train_time:77886ms step_avg:152.12ms
step:523/1750 train_loss:4.2992 train_time:78043ms step_avg:152.13ms
step:524/1750 train_loss:3.7614 train_time:78197ms step_avg:152.13ms
step:525/1750 train_loss:3.6997 train_time:78354ms step_avg:152.14ms
step:526/1750 train_loss:3.7109 train_time:78511ms step_avg:152.15ms
step:527/1750 train_loss:3.6829 train_time:78668ms step_avg:152.16ms
step:528/1750 train_loss:3.6465 train_time:78823ms step_avg:152.17ms
step:529/1750 train_loss:3.8707 train_time:78980ms step_avg:152.18ms
step:530/1750 train_loss:3.6614 train_time:79136ms step_avg:152.18ms
step:531/1750 train_loss:3.9353 train_time:79293ms step_avg:152.19ms
step:532/1750 train_loss:3.7457 train_time:79448ms step_avg:152.20ms
step:533/1750 train_loss:3.6712 train_time:79605ms step_avg:152.21ms
step:534/1750 train_loss:3.6920 train_time:79759ms step_avg:152.21ms
step:535/1750 train_loss:3.6277 train_time:79916ms step_avg:152.22ms
step:536/1750 train_loss:3.7710 train_time:80075ms step_avg:152.23ms
step:537/1750 train_loss:3.7482 train_time:80232ms step_avg:152.24ms
step:538/1750 train_loss:3.6388 train_time:80388ms step_avg:152.25ms
step:539/1750 train_loss:4.1288 train_time:80546ms step_avg:152.26ms
step:540/1750 train_loss:3.6937 train_time:80701ms step_avg:152.27ms
step:541/1750 train_loss:3.8044 train_time:80856ms step_avg:152.27ms
step:542/1750 train_loss:3.6167 train_time:81013ms step_avg:152.28ms
step:543/1750 train_loss:3.6022 train_time:81168ms step_avg:152.29ms
step:544/1750 train_loss:3.6652 train_time:81326ms step_avg:152.30ms
step:545/1750 train_loss:3.6102 train_time:81481ms step_avg:152.30ms
step:546/1750 train_loss:3.6497 train_time:81638ms step_avg:152.31ms
step:547/1750 train_loss:3.6622 train_time:81795ms step_avg:152.32ms
step:548/1750 train_loss:3.6332 train_time:81951ms step_avg:152.33ms
step:549/1750 train_loss:3.7426 train_time:82108ms step_avg:152.33ms
step:550/1750 train_loss:3.6341 train_time:82266ms step_avg:152.34ms
step:551/1750 train_loss:3.6498 train_time:82421ms step_avg:152.35ms
step:552/1750 train_loss:3.9506 train_time:82577ms step_avg:152.36ms
step:553/1750 train_loss:3.7753 train_time:82734ms step_avg:152.36ms
step:554/1750 train_loss:3.7321 train_time:82890ms step_avg:152.37ms
step:555/1750 train_loss:3.6493 train_time:83047ms step_avg:152.38ms
step:556/1750 train_loss:3.7166 train_time:83202ms step_avg:152.39ms
step:557/1750 train_loss:3.3427 train_time:83359ms step_avg:152.39ms
step:558/1750 train_loss:3.6265 train_time:83515ms step_avg:152.40ms
step:559/1750 train_loss:3.6717 train_time:83670ms step_avg:152.40ms
step:560/1750 train_loss:3.7125 train_time:83828ms step_avg:152.41ms
step:561/1750 train_loss:3.6289 train_time:83983ms step_avg:152.42ms
step:562/1750 train_loss:3.5685 train_time:84139ms step_avg:152.43ms
step:563/1750 train_loss:3.7777 train_time:84294ms step_avg:152.43ms
step:564/1750 train_loss:3.5934 train_time:84450ms step_avg:152.44ms
step:565/1750 train_loss:3.6976 train_time:84606ms step_avg:152.44ms
step:566/1750 train_loss:3.6509 train_time:84884ms step_avg:152.67ms
step:567/1750 train_loss:3.6206 train_time:85049ms step_avg:152.69ms
step:568/1750 train_loss:3.7091 train_time:85205ms step_avg:152.70ms
step:569/1750 train_loss:3.6713 train_time:85513ms step_avg:152.97ms
step:570/1750 train_loss:3.7034 train_time:85669ms step_avg:152.98ms
step:571/1750 train_loss:3.7751 train_time:85824ms step_avg:152.98ms
step:572/1750 train_loss:3.7498 train_time:85981ms step_avg:152.99ms
step:573/1750 train_loss:3.7562 train_time:86137ms step_avg:153.00ms
step:574/1750 train_loss:3.8008 train_time:86295ms step_avg:153.01ms
step:575/1750 train_loss:3.7506 train_time:86452ms step_avg:153.01ms
step:576/1750 train_loss:3.7817 train_time:86608ms step_avg:153.02ms
step:577/1750 train_loss:3.6947 train_time:86765ms step_avg:153.03ms
step:578/1750 train_loss:3.6960 train_time:86921ms step_avg:153.03ms
step:579/1750 train_loss:3.6955 train_time:87077ms step_avg:153.04ms
step:580/1750 train_loss:3.6211 train_time:87234ms step_avg:153.04ms
step:581/1750 train_loss:3.6537 train_time:87392ms step_avg:153.05ms
step:582/1750 train_loss:3.8745 train_time:87549ms step_avg:153.06ms
step:583/1750 train_loss:3.6485 train_time:87706ms step_avg:153.06ms
step:584/1750 train_loss:3.6064 train_time:87862ms step_avg:153.07ms
step:585/1750 train_loss:3.8062 train_time:88017ms step_avg:153.07ms
step:586/1750 train_loss:3.5298 train_time:88172ms step_avg:153.08ms
step:587/1750 train_loss:3.6877 train_time:88328ms step_avg:153.08ms
step:588/1750 train_loss:3.6677 train_time:88482ms step_avg:153.08ms
step:589/1750 train_loss:4.0179 train_time:88637ms step_avg:153.09ms
step:590/1750 train_loss:3.7962 train_time:88793ms step_avg:153.09ms
step:591/1750 train_loss:3.5357 train_time:88949ms step_avg:153.10ms
step:592/1750 train_loss:3.5572 train_time:89106ms step_avg:153.10ms
step:593/1750 train_loss:3.5211 train_time:89261ms step_avg:153.11ms
step:594/1750 train_loss:3.5766 train_time:89417ms step_avg:153.11ms
step:595/1750 train_loss:3.9412 train_time:89573ms step_avg:153.12ms
step:596/1750 train_loss:3.6626 train_time:89729ms step_avg:153.12ms
step:597/1750 train_loss:3.5996 train_time:89884ms step_avg:153.12ms
step:598/1750 train_loss:3.6815 train_time:90038ms step_avg:153.13ms
step:599/1750 train_loss:3.4995 train_time:90194ms step_avg:153.13ms
step:600/1750 train_loss:3.6206 train_time:90350ms step_avg:153.14ms
step:601/1750 train_loss:3.6633 train_time:90507ms step_avg:153.14ms
step:602/1750 train_loss:3.6881 train_time:90662ms step_avg:153.15ms
step:603/1750 train_loss:3.8047 train_time:90819ms step_avg:153.15ms
step:604/1750 train_loss:3.6331 train_time:90974ms step_avg:153.15ms
step:605/1750 train_loss:3.6316 train_time:91130ms step_avg:153.16ms
step:606/1750 train_loss:3.5955 train_time:91287ms step_avg:153.17ms
step:607/1750 train_loss:3.8522 train_time:91444ms step_avg:153.17ms
step:608/1750 train_loss:3.6615 train_time:91599ms step_avg:153.18ms
step:609/1750 train_loss:3.6336 train_time:91754ms step_avg:153.18ms
step:610/1750 train_loss:3.7223 train_time:91910ms step_avg:153.18ms
step:611/1750 train_loss:3.6236 train_time:92066ms step_avg:153.19ms
step:612/1750 train_loss:3.5873 train_time:92222ms step_avg:153.19ms
step:613/1750 train_loss:3.7833 train_time:92378ms step_avg:153.20ms
step:614/1750 train_loss:3.7219 train_time:92534ms step_avg:153.20ms
step:615/1750 train_loss:3.7190 train_time:92689ms step_avg:153.21ms
step:616/1750 train_loss:3.6503 train_time:92844ms step_avg:153.21ms
step:617/1750 train_loss:3.5730 train_time:93001ms step_avg:153.21ms
step:618/1750 train_loss:3.7049 train_time:93156ms step_avg:153.22ms
step:619/1750 train_loss:3.5791 train_time:93312ms step_avg:153.22ms
step:620/1750 train_loss:3.6005 train_time:93467ms step_avg:153.23ms
step:621/1750 train_loss:3.9479 train_time:93624ms step_avg:153.23ms
step:622/1750 train_loss:3.5916 train_time:93780ms step_avg:153.24ms
step:623/1750 train_loss:3.6261 train_time:93936ms step_avg:153.24ms
step:624/1750 train_loss:3.7143 train_time:94091ms step_avg:153.24ms
step:625/1750 train_loss:3.7251 train_time:94246ms step_avg:153.25ms
step:625/1750 val_loss:3.6429 train_time:94287ms step_avg:153.31ms
step:626/1750 train_loss:3.7581 train_time:94403ms step_avg:153.25ms
step:627/1750 train_loss:3.7428 train_time:94559ms step_avg:153.26ms
step:628/1750 train_loss:3.7850 train_time:94714ms step_avg:153.26ms
step:629/1750 train_loss:3.6127 train_time:94870ms step_avg:153.26ms
step:630/1750 train_loss:3.7422 train_time:95024ms step_avg:153.26ms
step:631/1750 train_loss:3.7638 train_time:95180ms step_avg:153.27ms
step:632/1750 train_loss:3.6721 train_time:95336ms step_avg:153.27ms
step:633/1750 train_loss:3.6262 train_time:95492ms step_avg:153.28ms
step:634/1750 train_loss:3.7202 train_time:95648ms step_avg:153.28ms
step:635/1750 train_loss:3.9699 train_time:95801ms step_avg:153.28ms
step:636/1750 train_loss:3.5642 train_time:95958ms step_avg:153.29ms
step:637/1750 train_loss:3.3709 train_time:96115ms step_avg:153.29ms
step:638/1750 train_loss:3.6110 train_time:96271ms step_avg:153.30ms
step:639/1750 train_loss:3.6568 train_time:96425ms step_avg:153.30ms
step:640/1750 train_loss:3.5897 train_time:96581ms step_avg:153.30ms
step:641/1750 train_loss:3.6017 train_time:96735ms step_avg:153.30ms
step:642/1750 train_loss:3.6562 train_time:96893ms step_avg:153.31ms
step:643/1750 train_loss:3.6301 train_time:97048ms step_avg:153.31ms
step:644/1750 train_loss:3.5722 train_time:97203ms step_avg:153.32ms
step:645/1750 train_loss:3.8019 train_time:97360ms step_avg:153.32ms
step:646/1750 train_loss:3.7025 train_time:97516ms step_avg:153.33ms
step:647/1750 train_loss:3.6855 train_time:97672ms step_avg:153.33ms
step:648/1750 train_loss:3.7265 train_time:97827ms step_avg:153.33ms
step:649/1750 train_loss:3.7840 train_time:97982ms step_avg:153.34ms
step:650/1750 train_loss:3.6411 train_time:98140ms step_avg:153.34ms
step:651/1750 train_loss:3.7868 train_time:98300ms step_avg:153.35ms
step:652/1750 train_loss:3.6044 train_time:98457ms step_avg:153.36ms
step:653/1750 train_loss:3.6819 train_time:98615ms step_avg:153.37ms
step:654/1750 train_loss:3.4511 train_time:98773ms step_avg:153.37ms
step:655/1750 train_loss:3.5998 train_time:98930ms step_avg:153.38ms
step:656/1750 train_loss:3.5940 train_time:99086ms step_avg:153.38ms
step:657/1750 train_loss:3.5202 train_time:99247ms step_avg:153.40ms
step:658/1750 train_loss:3.7056 train_time:99405ms step_avg:153.40ms
step:659/1750 train_loss:3.6046 train_time:99562ms step_avg:153.41ms
step:660/1750 train_loss:3.7021 train_time:99720ms step_avg:153.42ms
step:661/1750 train_loss:3.7714 train_time:99878ms step_avg:153.42ms
step:662/1750 train_loss:3.6823 train_time:100034ms step_avg:153.43ms
step:663/1750 train_loss:3.5731 train_time:100191ms step_avg:153.43ms
step:664/1750 train_loss:3.6383 train_time:100350ms step_avg:153.44ms
step:665/1750 train_loss:3.5161 train_time:100509ms step_avg:153.45ms
step:666/1750 train_loss:3.8000 train_time:100665ms step_avg:153.45ms
step:667/1750 train_loss:3.6315 train_time:100824ms step_avg:153.46ms
step:668/1750 train_loss:3.6598 train_time:100982ms step_avg:153.47ms
step:669/1750 train_loss:3.5057 train_time:101141ms step_avg:153.48ms
step:670/1750 train_loss:3.6158 train_time:101298ms step_avg:153.48ms
step:671/1750 train_loss:3.5825 train_time:101455ms step_avg:153.49ms
step:672/1750 train_loss:3.5883 train_time:101614ms step_avg:153.50ms
step:673/1750 train_loss:3.8717 train_time:101773ms step_avg:153.50ms
step:674/1750 train_loss:3.6492 train_time:101930ms step_avg:153.51ms
step:675/1750 train_loss:3.7299 train_time:102088ms step_avg:153.52ms
step:676/1750 train_loss:3.5061 train_time:102246ms step_avg:153.52ms
step:677/1750 train_loss:3.6166 train_time:102404ms step_avg:153.53ms
step:678/1750 train_loss:3.5701 train_time:102561ms step_avg:153.53ms
step:679/1750 train_loss:3.6932 train_time:102721ms step_avg:153.54ms
step:680/1750 train_loss:3.6077 train_time:102880ms step_avg:153.55ms
step:681/1750 train_loss:3.6325 train_time:103036ms step_avg:153.56ms
step:682/1750 train_loss:3.6856 train_time:103196ms step_avg:153.57ms
step:683/1750 train_loss:3.7496 train_time:103354ms step_avg:153.57ms
step:684/1750 train_loss:3.6615 train_time:103513ms step_avg:153.58ms
step:685/1750 train_loss:3.7081 train_time:103673ms step_avg:153.59ms
step:686/1750 train_loss:3.6528 train_time:103832ms step_avg:153.60ms
step:687/1750 train_loss:3.6892 train_time:103991ms step_avg:153.61ms
step:688/1750 train_loss:3.2410 train_time:104152ms step_avg:153.62ms
step:689/1750 train_loss:3.4223 train_time:104311ms step_avg:153.63ms
step:690/1750 train_loss:3.5663 train_time:104471ms step_avg:153.63ms
step:691/1750 train_loss:3.4338 train_time:104628ms step_avg:153.64ms
step:692/1750 train_loss:3.6460 train_time:104785ms step_avg:153.64ms
step:693/1750 train_loss:3.6733 train_time:104943ms step_avg:153.65ms
step:694/1750 train_loss:3.5746 train_time:105100ms step_avg:153.66ms
step:695/1750 train_loss:3.5585 train_time:105256ms step_avg:153.66ms
step:696/1750 train_loss:3.8777 train_time:105414ms step_avg:153.67ms
step:697/1750 train_loss:3.6104 train_time:105574ms step_avg:153.67ms
step:698/1750 train_loss:3.6659 train_time:105731ms step_avg:153.68ms
step:699/1750 train_loss:3.7941 train_time:105891ms step_avg:153.69ms
step:700/1750 train_loss:3.5897 train_time:106049ms step_avg:153.69ms
step:701/1750 train_loss:3.5642 train_time:106207ms step_avg:153.70ms
step:702/1750 train_loss:3.5301 train_time:106365ms step_avg:153.71ms
step:703/1750 train_loss:3.5114 train_time:106522ms step_avg:153.71ms
step:704/1750 train_loss:3.5921 train_time:106680ms step_avg:153.72ms
step:705/1750 train_loss:3.5799 train_time:106840ms step_avg:153.73ms
step:706/1750 train_loss:3.5986 train_time:107002ms step_avg:153.74ms
step:707/1750 train_loss:3.6708 train_time:107160ms step_avg:153.75ms
step:708/1750 train_loss:3.6202 train_time:107319ms step_avg:153.75ms
step:709/1750 train_loss:3.5992 train_time:107479ms step_avg:153.76ms
step:710/1750 train_loss:3.5645 train_time:107636ms step_avg:153.77ms
step:711/1750 train_loss:3.6091 train_time:107795ms step_avg:153.77ms
step:712/1750 train_loss:3.6702 train_time:107955ms step_avg:153.78ms
step:713/1750 train_loss:3.6733 train_time:108115ms step_avg:153.79ms
step:714/1750 train_loss:3.5780 train_time:108273ms step_avg:153.80ms
step:715/1750 train_loss:3.5897 train_time:108430ms step_avg:153.80ms
step:716/1750 train_loss:3.6091 train_time:108586ms step_avg:153.81ms
step:717/1750 train_loss:3.7350 train_time:108745ms step_avg:153.81ms
step:718/1750 train_loss:3.6218 train_time:108901ms step_avg:153.81ms
step:719/1750 train_loss:3.6960 train_time:109057ms step_avg:153.82ms
step:720/1750 train_loss:3.8639 train_time:109217ms step_avg:153.83ms
step:721/1750 train_loss:3.4845 train_time:109374ms step_avg:153.83ms
step:722/1750 train_loss:3.7565 train_time:109532ms step_avg:153.84ms
step:723/1750 train_loss:3.7880 train_time:109688ms step_avg:153.84ms
step:724/1750 train_loss:3.5843 train_time:109847ms step_avg:153.85ms
step:725/1750 train_loss:3.6777 train_time:110006ms step_avg:153.85ms
step:726/1750 train_loss:3.5571 train_time:110165ms step_avg:153.86ms
step:727/1750 train_loss:3.5943 train_time:110324ms step_avg:153.87ms
step:728/1750 train_loss:3.7556 train_time:110481ms step_avg:153.87ms
step:729/1750 train_loss:3.6858 train_time:110638ms step_avg:153.88ms
step:730/1750 train_loss:3.6866 train_time:110797ms step_avg:153.88ms
step:731/1750 train_loss:3.5836 train_time:110953ms step_avg:153.89ms
step:732/1750 train_loss:3.6164 train_time:111109ms step_avg:153.89ms
step:733/1750 train_loss:3.8475 train_time:111267ms step_avg:153.90ms
step:734/1750 train_loss:3.5778 train_time:111424ms step_avg:153.90ms
step:735/1750 train_loss:3.6268 train_time:111583ms step_avg:153.91ms
step:736/1750 train_loss:3.7568 train_time:111740ms step_avg:153.91ms
step:737/1750 train_loss:3.6879 train_time:111897ms step_avg:153.92ms
step:738/1750 train_loss:3.6201 train_time:112054ms step_avg:153.92ms
step:739/1750 train_loss:3.5216 train_time:112211ms step_avg:153.93ms
step:740/1750 train_loss:4.1349 train_time:112371ms step_avg:153.93ms
step:741/1750 train_loss:3.5147 train_time:112529ms step_avg:153.94ms
step:742/1750 train_loss:3.5812 train_time:112688ms step_avg:153.94ms
step:743/1750 train_loss:3.6011 train_time:112845ms step_avg:153.95ms
step:744/1750 train_loss:3.6667 train_time:113004ms step_avg:153.96ms
step:745/1750 train_loss:3.6079 train_time:113163ms step_avg:153.96ms
step:746/1750 train_loss:3.6108 train_time:113320ms step_avg:153.97ms
step:747/1750 train_loss:3.6661 train_time:113477ms step_avg:153.97ms
step:748/1750 train_loss:3.5838 train_time:113636ms step_avg:153.98ms
step:749/1750 train_loss:3.5817 train_time:113795ms step_avg:153.98ms
step:750/1750 train_loss:3.6241 train_time:113951ms step_avg:153.99ms
step:750/1750 val_loss:3.5873 train_time:113992ms step_avg:154.04ms
step:751/1750 train_loss:3.5888 train_time:114112ms step_avg:154.00ms
step:752/1750 train_loss:3.6351 train_time:114271ms step_avg:154.00ms
step:753/1750 train_loss:3.6380 train_time:114429ms step_avg:154.01ms
step:754/1750 train_loss:3.6074 train_time:114585ms step_avg:154.01ms
step:755/1750 train_loss:3.6982 train_time:114863ms step_avg:154.18ms
step:756/1750 train_loss:3.4803 train_time:115030ms step_avg:154.20ms
step:757/1750 train_loss:3.7404 train_time:115191ms step_avg:154.20ms
step:758/1750 train_loss:3.6719 train_time:115345ms step_avg:154.20ms
step:759/1750 train_loss:3.6186 train_time:115643ms step_avg:154.40ms
step:760/1750 train_loss:3.7214 train_time:115797ms step_avg:154.40ms
step:761/1750 train_loss:3.4195 train_time:115955ms step_avg:154.40ms
step:762/1750 train_loss:3.5632 train_time:116112ms step_avg:154.40ms
step:763/1750 train_loss:3.6809 train_time:116270ms step_avg:154.41ms
step:764/1750 train_loss:3.3374 train_time:116428ms step_avg:154.41ms
step:765/1750 train_loss:3.7558 train_time:116585ms step_avg:154.42ms
step:766/1750 train_loss:3.5956 train_time:116742ms step_avg:154.42ms
step:767/1750 train_loss:3.5806 train_time:116899ms step_avg:154.42ms
step:768/1750 train_loss:3.5895 train_time:117058ms step_avg:154.43ms
step:769/1750 train_loss:3.6054 train_time:117217ms step_avg:154.44ms
step:770/1750 train_loss:3.6622 train_time:117376ms step_avg:154.44ms
step:771/1750 train_loss:3.9033 train_time:117533ms step_avg:154.45ms
step:772/1750 train_loss:3.4695 train_time:117691ms step_avg:154.45ms
step:773/1750 train_loss:3.6535 train_time:117847ms step_avg:154.45ms
step:774/1750 train_loss:3.6626 train_time:118004ms step_avg:154.45ms
step:775/1750 train_loss:3.6282 train_time:118160ms step_avg:154.46ms
step:776/1750 train_loss:3.4171 train_time:118317ms step_avg:154.46ms
step:777/1750 train_loss:3.4191 train_time:118474ms step_avg:154.46ms
step:778/1750 train_loss:3.5095 train_time:118630ms step_avg:154.47ms
step:779/1750 train_loss:3.6002 train_time:118790ms step_avg:154.47ms
step:780/1750 train_loss:3.6123 train_time:118949ms step_avg:154.48ms
step:781/1750 train_loss:3.6879 train_time:119110ms step_avg:154.49ms
step:782/1750 train_loss:3.6098 train_time:119270ms step_avg:154.50ms
step:783/1750 train_loss:3.5934 train_time:119429ms step_avg:154.50ms
step:784/1750 train_loss:3.6187 train_time:119590ms step_avg:154.51ms
step:785/1750 train_loss:3.5858 train_time:119748ms step_avg:154.51ms
step:786/1750 train_loss:3.4643 train_time:119909ms step_avg:154.52ms
step:787/1750 train_loss:3.7250 train_time:120069ms step_avg:154.53ms
step:788/1750 train_loss:3.5153 train_time:120229ms step_avg:154.54ms
step:789/1750 train_loss:3.5750 train_time:120389ms step_avg:154.54ms
step:790/1750 train_loss:3.6459 train_time:120550ms step_avg:154.55ms
step:791/1750 train_loss:3.7942 train_time:120712ms step_avg:154.56ms
step:792/1750 train_loss:3.7831 train_time:120872ms step_avg:154.57ms
step:793/1750 train_loss:3.4864 train_time:121031ms step_avg:154.57ms
step:794/1750 train_loss:3.6127 train_time:121191ms step_avg:154.58ms
step:795/1750 train_loss:3.6973 train_time:121352ms step_avg:154.59ms
step:796/1750 train_loss:3.7432 train_time:121513ms step_avg:154.60ms
step:797/1750 train_loss:3.5410 train_time:121672ms step_avg:154.60ms
step:798/1750 train_loss:3.6666 train_time:121831ms step_avg:154.61ms
step:799/1750 train_loss:3.5604 train_time:121993ms step_avg:154.62ms
step:800/1750 train_loss:3.5501 train_time:122152ms step_avg:154.62ms
step:801/1750 train_loss:3.6519 train_time:122310ms step_avg:154.63ms
step:802/1750 train_loss:3.5058 train_time:122473ms step_avg:154.64ms
step:803/1750 train_loss:3.5398 train_time:122630ms step_avg:154.64ms
step:804/1750 train_loss:3.6446 train_time:122790ms step_avg:154.65ms
step:805/1750 train_loss:3.5416 train_time:122951ms step_avg:154.65ms
step:806/1750 train_loss:3.5799 train_time:123108ms step_avg:154.66ms
step:807/1750 train_loss:3.6580 train_time:123267ms step_avg:154.66ms
step:808/1750 train_loss:3.5723 train_time:123428ms step_avg:154.67ms
step:809/1750 train_loss:3.5078 train_time:123587ms step_avg:154.68ms
step:810/1750 train_loss:3.5849 train_time:123746ms step_avg:154.68ms
step:811/1750 train_loss:3.6105 train_time:123906ms step_avg:154.69ms
step:812/1750 train_loss:3.6189 train_time:124065ms step_avg:154.69ms
step:813/1750 train_loss:3.6423 train_time:124222ms step_avg:154.70ms
step:814/1750 train_loss:3.5940 train_time:124383ms step_avg:154.71ms
step:815/1750 train_loss:3.5843 train_time:124543ms step_avg:154.71ms
step:816/1750 train_loss:3.7035 train_time:124705ms step_avg:154.72ms
step:817/1750 train_loss:3.7909 train_time:124863ms step_avg:154.73ms
step:818/1750 train_loss:3.5423 train_time:125022ms step_avg:154.73ms
step:819/1750 train_loss:3.7395 train_time:125182ms step_avg:154.74ms
step:820/1750 train_loss:3.5238 train_time:125343ms step_avg:154.74ms
step:821/1750 train_loss:3.5794 train_time:125501ms step_avg:154.75ms
step:822/1750 train_loss:3.7161 train_time:125662ms step_avg:154.76ms
step:823/1750 train_loss:3.6004 train_time:125820ms step_avg:154.76ms
step:824/1750 train_loss:3.5300 train_time:125980ms step_avg:154.77ms
step:825/1750 train_loss:3.6369 train_time:126141ms step_avg:154.77ms
step:826/1750 train_loss:3.5058 train_time:126303ms step_avg:154.78ms
step:827/1750 train_loss:3.7530 train_time:126463ms step_avg:154.79ms
step:828/1750 train_loss:3.6428 train_time:126624ms step_avg:154.80ms
step:829/1750 train_loss:3.6557 train_time:126784ms step_avg:154.80ms
step:830/1750 train_loss:3.5515 train_time:126943ms step_avg:154.81ms
step:831/1750 train_loss:3.6197 train_time:127101ms step_avg:154.81ms
step:832/1750 train_loss:3.5337 train_time:127262ms step_avg:154.82ms
step:833/1750 train_loss:3.6728 train_time:127423ms step_avg:154.83ms
step:834/1750 train_loss:3.4955 train_time:127584ms step_avg:154.84ms
step:835/1750 train_loss:3.4821 train_time:127745ms step_avg:154.84ms
step:836/1750 train_loss:3.7419 train_time:127905ms step_avg:154.85ms
step:837/1750 train_loss:3.4230 train_time:128064ms step_avg:154.85ms
step:838/1750 train_loss:3.6098 train_time:128224ms step_avg:154.86ms
step:839/1750 train_loss:3.4386 train_time:128383ms step_avg:154.86ms
step:840/1750 train_loss:3.4890 train_time:128540ms step_avg:154.87ms
step:841/1750 train_loss:3.5861 train_time:128698ms step_avg:154.87ms
step:842/1750 train_loss:3.6036 train_time:128858ms step_avg:154.88ms
step:843/1750 train_loss:3.5829 train_time:129016ms step_avg:154.88ms
step:844/1750 train_loss:3.4494 train_time:129176ms step_avg:154.89ms
step:845/1750 train_loss:3.6807 train_time:129334ms step_avg:154.89ms
step:846/1750 train_loss:3.5365 train_time:129495ms step_avg:154.90ms
step:847/1750 train_loss:3.5109 train_time:129655ms step_avg:154.90ms
step:848/1750 train_loss:3.6623 train_time:129812ms step_avg:154.91ms
step:849/1750 train_loss:3.5165 train_time:129971ms step_avg:154.91ms
step:850/1750 train_loss:3.4550 train_time:130129ms step_avg:154.92ms
step:851/1750 train_loss:3.7592 train_time:130290ms step_avg:154.92ms
step:852/1750 train_loss:3.4683 train_time:130448ms step_avg:154.93ms
step:853/1750 train_loss:3.5852 train_time:130605ms step_avg:154.93ms
step:854/1750 train_loss:3.6753 train_time:130764ms step_avg:154.93ms
step:855/1750 train_loss:3.5371 train_time:130924ms step_avg:154.94ms
step:856/1750 train_loss:3.5667 train_time:131085ms step_avg:154.95ms
step:857/1750 train_loss:3.6263 train_time:131243ms step_avg:154.95ms
step:858/1750 train_loss:3.4913 train_time:131404ms step_avg:154.96ms
step:859/1750 train_loss:3.5856 train_time:131563ms step_avg:154.96ms
step:860/1750 train_loss:3.6097 train_time:131720ms step_avg:154.97ms
step:861/1750 train_loss:3.6547 train_time:131883ms step_avg:154.97ms
step:862/1750 train_loss:3.6161 train_time:132045ms step_avg:154.98ms
step:863/1750 train_loss:3.6033 train_time:132206ms step_avg:154.99ms
step:864/1750 train_loss:3.4007 train_time:132365ms step_avg:154.99ms
step:865/1750 train_loss:3.6203 train_time:132521ms step_avg:155.00ms
step:866/1750 train_loss:3.8910 train_time:132681ms step_avg:155.00ms
step:867/1750 train_loss:3.4744 train_time:132839ms step_avg:155.00ms
step:868/1750 train_loss:3.6624 train_time:132996ms step_avg:155.01ms
step:869/1750 train_loss:3.6350 train_time:133154ms step_avg:155.01ms
step:870/1750 train_loss:3.4703 train_time:133315ms step_avg:155.02ms
step:871/1750 train_loss:3.4520 train_time:133475ms step_avg:155.02ms
step:872/1750 train_loss:3.6786 train_time:133633ms step_avg:155.03ms
step:873/1750 train_loss:3.4837 train_time:133793ms step_avg:155.03ms
step:874/1750 train_loss:3.2354 train_time:133954ms step_avg:155.04ms
step:875/1750 train_loss:3.6575 train_time:134112ms step_avg:155.04ms
step:875/1750 val_loss:3.5410 train_time:134152ms step_avg:155.09ms
step:876/1750 train_loss:3.4645 train_time:134270ms step_avg:155.05ms
step:877/1750 train_loss:3.6405 train_time:134431ms step_avg:155.05ms
step:878/1750 train_loss:3.4942 train_time:134590ms step_avg:155.06ms
step:879/1750 train_loss:3.6684 train_time:134750ms step_avg:155.06ms
step:880/1750 train_loss:3.3214 train_time:134907ms step_avg:155.07ms
step:881/1750 train_loss:3.5072 train_time:135065ms step_avg:155.07ms
step:882/1750 train_loss:3.7147 train_time:135225ms step_avg:155.07ms
step:883/1750 train_loss:3.8623 train_time:135384ms step_avg:155.08ms
step:884/1750 train_loss:3.5911 train_time:135544ms step_avg:155.08ms
step:885/1750 train_loss:3.5094 train_time:135701ms step_avg:155.09ms
step:886/1750 train_loss:3.5920 train_time:135861ms step_avg:155.09ms
step:887/1750 train_loss:4.1087 train_time:136020ms step_avg:155.10ms
step:888/1750 train_loss:3.8624 train_time:136183ms step_avg:155.11ms
step:889/1750 train_loss:3.5397 train_time:136340ms step_avg:155.11ms
step:890/1750 train_loss:3.5538 train_time:136497ms step_avg:155.11ms
step:891/1750 train_loss:3.3826 train_time:136658ms step_avg:155.12ms
step:892/1750 train_loss:3.7443 train_time:136818ms step_avg:155.12ms
step:893/1750 train_loss:3.4468 train_time:136976ms step_avg:155.13ms
step:894/1750 train_loss:3.6590 train_time:137139ms step_avg:155.13ms
step:895/1750 train_loss:3.6980 train_time:137297ms step_avg:155.14ms
step:896/1750 train_loss:3.5187 train_time:137457ms step_avg:155.14ms
step:897/1750 train_loss:3.5621 train_time:137616ms step_avg:155.15ms
step:898/1750 train_loss:3.6128 train_time:137775ms step_avg:155.15ms
step:899/1750 train_loss:3.5028 train_time:137933ms step_avg:155.16ms
step:900/1750 train_loss:3.4432 train_time:138092ms step_avg:155.16ms
step:901/1750 train_loss:3.6379 train_time:138249ms step_avg:155.16ms
step:902/1750 train_loss:3.6515 train_time:138407ms step_avg:155.16ms
step:903/1750 train_loss:3.5636 train_time:138569ms step_avg:155.17ms
step:904/1750 train_loss:3.5107 train_time:138729ms step_avg:155.18ms
step:905/1750 train_loss:3.5266 train_time:138886ms step_avg:155.18ms
step:906/1750 train_loss:3.7303 train_time:139047ms step_avg:155.19ms
step:907/1750 train_loss:3.5393 train_time:139208ms step_avg:155.19ms
step:908/1750 train_loss:3.5909 train_time:139365ms step_avg:155.20ms
step:909/1750 train_loss:3.4712 train_time:139527ms step_avg:155.20ms
step:910/1750 train_loss:3.5507 train_time:139693ms step_avg:155.21ms
step:911/1750 train_loss:3.6639 train_time:139853ms step_avg:155.22ms
step:912/1750 train_loss:3.6132 train_time:140016ms step_avg:155.23ms
step:913/1750 train_loss:3.4787 train_time:140178ms step_avg:155.24ms
step:914/1750 train_loss:3.7676 train_time:140341ms step_avg:155.24ms
step:915/1750 train_loss:3.5619 train_time:140504ms step_avg:155.25ms
step:916/1750 train_loss:3.6399 train_time:140665ms step_avg:155.26ms
step:917/1750 train_loss:3.6219 train_time:140826ms step_avg:155.27ms
step:918/1750 train_loss:4.8686 train_time:140989ms step_avg:155.27ms
step:919/1750 train_loss:3.5164 train_time:141151ms step_avg:155.28ms
step:920/1750 train_loss:3.6095 train_time:141310ms step_avg:155.29ms
step:921/1750 train_loss:3.5694 train_time:141471ms step_avg:155.29ms
step:922/1750 train_loss:3.6091 train_time:141635ms step_avg:155.30ms
step:923/1750 train_loss:3.6326 train_time:141796ms step_avg:155.31ms
step:924/1750 train_loss:3.7030 train_time:141957ms step_avg:155.31ms
step:925/1750 train_loss:3.6736 train_time:142118ms step_avg:155.32ms
step:926/1750 train_loss:3.5767 train_time:142277ms step_avg:155.32ms
step:927/1750 train_loss:3.5702 train_time:142437ms step_avg:155.33ms
step:928/1750 train_loss:3.8121 train_time:142598ms step_avg:155.34ms
step:929/1750 train_loss:3.6346 train_time:142759ms step_avg:155.34ms
step:930/1750 train_loss:3.4260 train_time:142920ms step_avg:155.35ms
step:931/1750 train_loss:3.5202 train_time:143079ms step_avg:155.35ms
step:932/1750 train_loss:3.6752 train_time:143242ms step_avg:155.36ms
step:933/1750 train_loss:3.4018 train_time:143402ms step_avg:155.36ms
step:934/1750 train_loss:3.6075 train_time:143564ms step_avg:155.37ms
step:935/1750 train_loss:3.4611 train_time:143727ms step_avg:155.38ms
step:936/1750 train_loss:3.5361 train_time:143891ms step_avg:155.39ms
step:937/1750 train_loss:3.6444 train_time:144055ms step_avg:155.40ms
step:938/1750 train_loss:3.5657 train_time:144216ms step_avg:155.40ms
step:939/1750 train_loss:3.6948 train_time:144380ms step_avg:155.41ms
step:940/1750 train_loss:3.5046 train_time:144540ms step_avg:155.42ms
step:941/1750 train_loss:3.5665 train_time:144699ms step_avg:155.42ms
step:942/1750 train_loss:3.3806 train_time:144860ms step_avg:155.43ms
step:943/1750 train_loss:3.7328 train_time:145025ms step_avg:155.44ms
step:944/1750 train_loss:3.4354 train_time:145312ms step_avg:155.58ms
step:945/1750 train_loss:3.4457 train_time:145479ms step_avg:155.59ms
step:946/1750 train_loss:5.0922 train_time:145642ms step_avg:155.60ms
step:947/1750 train_loss:3.6209 train_time:145801ms step_avg:155.60ms
step:948/1750 train_loss:3.5110 train_time:145962ms step_avg:155.61ms
step:949/1750 train_loss:3.4035 train_time:146255ms step_avg:155.76ms
step:950/1750 train_loss:3.4628 train_time:146413ms step_avg:155.76ms
step:951/1750 train_loss:3.4298 train_time:146576ms step_avg:155.77ms
step:952/1750 train_loss:3.4960 train_time:146738ms step_avg:155.77ms
step:953/1750 train_loss:3.5895 train_time:146899ms step_avg:155.78ms
step:954/1750 train_loss:3.4674 train_time:147062ms step_avg:155.79ms
step:955/1750 train_loss:3.5025 train_time:147221ms step_avg:155.79ms
step:956/1750 train_loss:3.4664 train_time:147382ms step_avg:155.79ms
step:957/1750 train_loss:3.5257 train_time:147545ms step_avg:155.80ms
step:958/1750 train_loss:3.5318 train_time:147708ms step_avg:155.81ms
step:959/1750 train_loss:3.5381 train_time:147868ms step_avg:155.81ms
step:960/1750 train_loss:3.4251 train_time:148031ms step_avg:155.82ms
step:961/1750 train_loss:3.6746 train_time:148190ms step_avg:155.83ms
step:962/1750 train_loss:3.6317 train_time:148349ms step_avg:155.83ms
step:963/1750 train_loss:3.6515 train_time:148512ms step_avg:155.84ms
step:964/1750 train_loss:3.4527 train_time:148674ms step_avg:155.84ms
step:965/1750 train_loss:3.5015 train_time:148833ms step_avg:155.85ms
step:966/1750 train_loss:3.7430 train_time:148995ms step_avg:155.85ms
step:967/1750 train_loss:3.5481 train_time:149155ms step_avg:155.86ms
step:968/1750 train_loss:3.5490 train_time:149317ms step_avg:155.86ms
step:969/1750 train_loss:3.6107 train_time:149478ms step_avg:155.87ms
step:970/1750 train_loss:3.3973 train_time:149639ms step_avg:155.87ms
step:971/1750 train_loss:3.5728 train_time:149798ms step_avg:155.88ms
step:972/1750 train_loss:3.5113 train_time:149958ms step_avg:155.88ms
step:973/1750 train_loss:3.5678 train_time:150118ms step_avg:155.89ms
step:974/1750 train_loss:3.6216 train_time:150281ms step_avg:155.89ms
step:975/1750 train_loss:3.5048 train_time:150442ms step_avg:155.90ms
step:976/1750 train_loss:3.6979 train_time:150601ms step_avg:155.90ms
step:977/1750 train_loss:3.5984 train_time:150761ms step_avg:155.91ms
step:978/1750 train_loss:3.3932 train_time:150921ms step_avg:155.91ms
step:979/1750 train_loss:3.6562 train_time:151080ms step_avg:155.91ms
step:980/1750 train_loss:3.4438 train_time:151240ms step_avg:155.92ms
step:981/1750 train_loss:3.6020 train_time:151401ms step_avg:155.92ms
step:982/1750 train_loss:3.5759 train_time:151561ms step_avg:155.93ms
step:983/1750 train_loss:3.5466 train_time:151721ms step_avg:155.93ms
step:984/1750 train_loss:3.5275 train_time:151880ms step_avg:155.93ms
step:985/1750 train_loss:3.6080 train_time:152040ms step_avg:155.94ms
step:986/1750 train_loss:3.4459 train_time:152199ms step_avg:155.94ms
step:987/1750 train_loss:3.5184 train_time:152357ms step_avg:155.94ms
step:988/1750 train_loss:3.5128 train_time:152519ms step_avg:155.95ms
step:989/1750 train_loss:3.4510 train_time:152679ms step_avg:155.95ms
step:990/1750 train_loss:3.6896 train_time:152841ms step_avg:155.96ms
step:991/1750 train_loss:3.5053 train_time:153000ms step_avg:155.96ms
step:992/1750 train_loss:3.4702 train_time:153167ms step_avg:155.97ms
step:993/1750 train_loss:3.5391 train_time:153332ms step_avg:155.98ms
step:994/1750 train_loss:3.6286 train_time:153492ms step_avg:155.99ms
step:995/1750 train_loss:3.5649 train_time:153651ms step_avg:155.99ms
step:996/1750 train_loss:3.4845 train_time:153809ms step_avg:155.99ms
step:997/1750 train_loss:3.8055 train_time:153969ms step_avg:156.00ms
step:998/1750 train_loss:3.4786 train_time:154129ms step_avg:156.00ms
step:999/1750 train_loss:3.6214 train_time:154289ms step_avg:156.01ms
step:1000/1750 train_loss:3.4803 train_time:154451ms step_avg:156.01ms
step:1000/1750 val_loss:3.5028 train_time:154492ms step_avg:156.05ms
step:1001/1750 train_loss:3.5341 train_time:154611ms step_avg:156.02ms
step:1002/1750 train_loss:3.4141 train_time:154772ms step_avg:156.02ms
step:1003/1750 train_loss:3.5965 train_time:154934ms step_avg:156.03ms
step:1004/1750 train_loss:3.6368 train_time:155095ms step_avg:156.03ms
step:1005/1750 train_loss:3.4287 train_time:155255ms step_avg:156.03ms
step:1006/1750 train_loss:3.4963 train_time:155418ms step_avg:156.04ms
step:1007/1750 train_loss:3.4802 train_time:155579ms step_avg:156.05ms
step:1008/1750 train_loss:3.5961 train_time:155740ms step_avg:156.05ms
step:1009/1750 train_loss:3.7026 train_time:155902ms step_avg:156.06ms
step:1010/1750 train_loss:3.5973 train_time:156060ms step_avg:156.06ms
step:1011/1750 train_loss:3.5759 train_time:156220ms step_avg:156.06ms
step:1012/1750 train_loss:3.4230 train_time:156381ms step_avg:156.07ms
step:1013/1750 train_loss:3.5711 train_time:156543ms step_avg:156.07ms
step:1014/1750 train_loss:3.6602 train_time:156702ms step_avg:156.08ms
step:1015/1750 train_loss:3.3688 train_time:156863ms step_avg:156.08ms
step:1016/1750 train_loss:3.4534 train_time:157024ms step_avg:156.09ms
step:1017/1750 train_loss:3.4404 train_time:157186ms step_avg:156.09ms
step:1018/1750 train_loss:3.4331 train_time:157346ms step_avg:156.10ms
step:1019/1750 train_loss:3.5646 train_time:157508ms step_avg:156.10ms
step:1020/1750 train_loss:3.4341 train_time:157670ms step_avg:156.11ms
step:1021/1750 train_loss:3.3895 train_time:157827ms step_avg:156.11ms
step:1022/1750 train_loss:3.5143 train_time:157988ms step_avg:156.11ms
step:1023/1750 train_loss:3.5449 train_time:158148ms step_avg:156.12ms
step:1024/1750 train_loss:3.5184 train_time:158308ms step_avg:156.12ms
step:1025/1750 train_loss:3.5176 train_time:158469ms step_avg:156.13ms
step:1026/1750 train_loss:3.6670 train_time:158628ms step_avg:156.13ms
step:1027/1750 train_loss:3.3594 train_time:158789ms step_avg:156.13ms
step:1028/1750 train_loss:3.4343 train_time:158952ms step_avg:156.14ms
step:1029/1750 train_loss:3.3595 train_time:159116ms step_avg:156.15ms
step:1030/1750 train_loss:3.5748 train_time:159275ms step_avg:156.15ms
step:1031/1750 train_loss:3.5584 train_time:159434ms step_avg:156.15ms
step:1032/1750 train_loss:3.7392 train_time:159598ms step_avg:156.16ms
step:1033/1750 train_loss:3.5328 train_time:159758ms step_avg:156.17ms
step:1034/1750 train_loss:3.4594 train_time:159919ms step_avg:156.17ms
step:1035/1750 train_loss:3.4847 train_time:160080ms step_avg:156.18ms
step:1036/1750 train_loss:3.5291 train_time:160240ms step_avg:156.18ms
step:1037/1750 train_loss:3.8372 train_time:160401ms step_avg:156.18ms
step:1038/1750 train_loss:3.6650 train_time:160562ms step_avg:156.19ms
step:1039/1750 train_loss:3.5579 train_time:160725ms step_avg:156.20ms
step:1040/1750 train_loss:3.4537 train_time:160886ms step_avg:156.20ms
step:1041/1750 train_loss:3.5300 train_time:161049ms step_avg:156.21ms
step:1042/1750 train_loss:3.5703 train_time:161208ms step_avg:156.21ms
step:1043/1750 train_loss:3.4873 train_time:161368ms step_avg:156.21ms
step:1044/1750 train_loss:3.4947 train_time:161530ms step_avg:156.22ms
step:1045/1750 train_loss:3.5642 train_time:161695ms step_avg:156.23ms
step:1046/1750 train_loss:3.4699 train_time:161858ms step_avg:156.23ms
step:1047/1750 train_loss:3.6827 train_time:162021ms step_avg:156.24ms
step:1048/1750 train_loss:3.5455 train_time:162182ms step_avg:156.24ms
step:1049/1750 train_loss:3.4489 train_time:162342ms step_avg:156.25ms
step:1050/1750 train_loss:3.4417 train_time:162505ms step_avg:156.26ms
step:1051/1750 train_loss:3.5480 train_time:162669ms step_avg:156.26ms
step:1052/1750 train_loss:3.4063 train_time:162831ms step_avg:156.27ms
step:1053/1750 train_loss:3.7350 train_time:162992ms step_avg:156.27ms
step:1054/1750 train_loss:3.5845 train_time:163157ms step_avg:156.28ms
step:1055/1750 train_loss:3.4317 train_time:163317ms step_avg:156.28ms
step:1056/1750 train_loss:3.5540 train_time:163477ms step_avg:156.29ms
step:1057/1750 train_loss:3.6284 train_time:163640ms step_avg:156.29ms
step:1058/1750 train_loss:3.3547 train_time:163804ms step_avg:156.30ms
step:1059/1750 train_loss:3.4240 train_time:163969ms step_avg:156.31ms
step:1060/1750 train_loss:3.4915 train_time:164129ms step_avg:156.31ms
step:1061/1750 train_loss:3.4653 train_time:164290ms step_avg:156.32ms
step:1062/1750 train_loss:3.4300 train_time:164451ms step_avg:156.32ms
step:1063/1750 train_loss:3.5204 train_time:164613ms step_avg:156.33ms
step:1064/1750 train_loss:3.4335 train_time:164773ms step_avg:156.33ms
step:1065/1750 train_loss:3.4133 train_time:164937ms step_avg:156.34ms
step:1066/1750 train_loss:3.4566 train_time:165101ms step_avg:156.35ms
step:1067/1750 train_loss:3.3330 train_time:165263ms step_avg:156.35ms
step:1068/1750 train_loss:3.4840 train_time:165424ms step_avg:156.35ms
step:1069/1750 train_loss:3.3515 train_time:165589ms step_avg:156.36ms
step:1070/1750 train_loss:3.6166 train_time:165748ms step_avg:156.37ms
step:1071/1750 train_loss:3.5619 train_time:165915ms step_avg:156.38ms
step:1072/1750 train_loss:3.4930 train_time:166075ms step_avg:156.38ms
step:1073/1750 train_loss:3.5743 train_time:166235ms step_avg:156.38ms
step:1074/1750 train_loss:3.4935 train_time:166399ms step_avg:156.39ms
step:1075/1750 train_loss:3.4549 train_time:166563ms step_avg:156.40ms
step:1076/1750 train_loss:3.8412 train_time:166725ms step_avg:156.40ms
step:1077/1750 train_loss:3.4936 train_time:166887ms step_avg:156.41ms
step:1078/1750 train_loss:3.1381 train_time:167056ms step_avg:156.42ms
step:1079/1750 train_loss:3.5892 train_time:167219ms step_avg:156.43ms
step:1080/1750 train_loss:3.4797 train_time:167383ms step_avg:156.43ms
step:1081/1750 train_loss:3.5620 train_time:167544ms step_avg:156.44ms
step:1082/1750 train_loss:3.6435 train_time:167707ms step_avg:156.44ms
step:1083/1750 train_loss:3.5550 train_time:167867ms step_avg:156.45ms
step:1084/1750 train_loss:3.5214 train_time:168030ms step_avg:156.45ms
step:1085/1750 train_loss:3.4835 train_time:168191ms step_avg:156.46ms
step:1086/1750 train_loss:3.6862 train_time:168354ms step_avg:156.46ms
step:1087/1750 train_loss:3.5671 train_time:168515ms step_avg:156.47ms
step:1088/1750 train_loss:3.4195 train_time:168679ms step_avg:156.47ms
step:1089/1750 train_loss:3.4324 train_time:168846ms step_avg:156.48ms
step:1090/1750 train_loss:3.5421 train_time:169012ms step_avg:156.49ms
step:1091/1750 train_loss:3.3405 train_time:169174ms step_avg:156.50ms
step:1092/1750 train_loss:3.5474 train_time:169336ms step_avg:156.50ms
step:1093/1750 train_loss:3.6620 train_time:169499ms step_avg:156.51ms
step:1094/1750 train_loss:3.5000 train_time:169660ms step_avg:156.51ms
step:1095/1750 train_loss:3.4659 train_time:169821ms step_avg:156.52ms
step:1096/1750 train_loss:3.4845 train_time:169983ms step_avg:156.52ms
step:1097/1750 train_loss:3.5426 train_time:170146ms step_avg:156.53ms
step:1098/1750 train_loss:3.6172 train_time:170311ms step_avg:156.54ms
step:1099/1750 train_loss:3.5821 train_time:170473ms step_avg:156.54ms
step:1100/1750 train_loss:3.4995 train_time:170637ms step_avg:156.55ms
step:1101/1750 train_loss:3.3457 train_time:170801ms step_avg:156.55ms
step:1102/1750 train_loss:3.3787 train_time:170965ms step_avg:156.56ms
step:1103/1750 train_loss:3.5047 train_time:171130ms step_avg:156.57ms
step:1104/1750 train_loss:3.3774 train_time:171291ms step_avg:156.57ms
step:1105/1750 train_loss:4.1231 train_time:171453ms step_avg:156.58ms
step:1106/1750 train_loss:3.2904 train_time:171613ms step_avg:156.58ms
step:1107/1750 train_loss:3.6249 train_time:171775ms step_avg:156.59ms
step:1108/1750 train_loss:3.4009 train_time:171933ms step_avg:156.59ms
step:1109/1750 train_loss:3.5617 train_time:172095ms step_avg:156.59ms
step:1110/1750 train_loss:3.4868 train_time:172257ms step_avg:156.60ms
step:1111/1750 train_loss:3.5348 train_time:172418ms step_avg:156.60ms
step:1112/1750 train_loss:3.6202 train_time:172581ms step_avg:156.61ms
step:1113/1750 train_loss:3.5001 train_time:172746ms step_avg:156.61ms
step:1114/1750 train_loss:3.4286 train_time:172911ms step_avg:156.62ms
step:1115/1750 train_loss:3.3033 train_time:173074ms step_avg:156.63ms
step:1116/1750 train_loss:3.4886 train_time:173234ms step_avg:156.63ms
step:1117/1750 train_loss:3.6554 train_time:173399ms step_avg:156.64ms
step:1118/1750 train_loss:3.6894 train_time:173562ms step_avg:156.64ms
step:1119/1750 train_loss:3.5446 train_time:173724ms step_avg:156.65ms
step:1120/1750 train_loss:3.5536 train_time:173885ms step_avg:156.65ms
step:1121/1750 train_loss:3.4470 train_time:174047ms step_avg:156.66ms
step:1122/1750 train_loss:3.5202 train_time:174208ms step_avg:156.66ms
step:1123/1750 train_loss:3.6482 train_time:174368ms step_avg:156.66ms
step:1124/1750 train_loss:3.4112 train_time:174530ms step_avg:156.67ms
step:1125/1750 train_loss:3.2916 train_time:174693ms step_avg:156.68ms
step:1125/1750 val_loss:3.4727 train_time:174736ms step_avg:156.71ms
step:1126/1750 train_loss:3.5400 train_time:174856ms step_avg:156.68ms
step:1127/1750 train_loss:3.7476 train_time:175019ms step_avg:156.69ms
step:1128/1750 train_loss:3.2925 train_time:175185ms step_avg:156.70ms
step:1129/1750 train_loss:3.6270 train_time:175350ms step_avg:156.70ms
step:1130/1750 train_loss:3.4445 train_time:175512ms step_avg:156.71ms
step:1131/1750 train_loss:3.4623 train_time:175678ms step_avg:156.72ms
step:1132/1750 train_loss:3.4273 train_time:175837ms step_avg:156.72ms
step:1133/1750 train_loss:3.5652 train_time:176183ms step_avg:156.89ms
step:1134/1750 train_loss:3.5141 train_time:176349ms step_avg:156.89ms
step:1135/1750 train_loss:3.5854 train_time:176512ms step_avg:156.90ms
step:1136/1750 train_loss:3.6264 train_time:176675ms step_avg:156.91ms
step:1137/1750 train_loss:3.5219 train_time:176836ms step_avg:156.91ms
step:1138/1750 train_loss:3.4168 train_time:176998ms step_avg:156.91ms
step:1139/1750 train_loss:3.7173 train_time:177352ms step_avg:157.09ms
step:1140/1750 train_loss:3.5235 train_time:177511ms step_avg:157.09ms
step:1141/1750 train_loss:3.6645 train_time:177673ms step_avg:157.09ms
step:1142/1750 train_loss:3.5254 train_time:177835ms step_avg:157.10ms
step:1143/1750 train_loss:3.4290 train_time:177995ms step_avg:157.10ms
step:1144/1750 train_loss:3.5137 train_time:178157ms step_avg:157.10ms
step:1145/1750 train_loss:3.6576 train_time:178315ms step_avg:157.11ms
step:1146/1750 train_loss:3.6180 train_time:178479ms step_avg:157.11ms
step:1147/1750 train_loss:3.5610 train_time:178640ms step_avg:157.12ms
step:1148/1750 train_loss:3.5648 train_time:178800ms step_avg:157.12ms
step:1149/1750 train_loss:3.3965 train_time:178963ms step_avg:157.12ms
step:1150/1750 train_loss:3.4362 train_time:179124ms step_avg:157.13ms
step:1151/1750 train_loss:3.3847 train_time:179289ms step_avg:157.13ms
step:1152/1750 train_loss:3.4701 train_time:179455ms step_avg:157.14ms
step:1153/1750 train_loss:3.4951 train_time:179617ms step_avg:157.14ms
step:1154/1750 train_loss:3.5860 train_time:179776ms step_avg:157.15ms
step:1155/1750 train_loss:3.3870 train_time:179939ms step_avg:157.15ms
step:1156/1750 train_loss:3.6030 train_time:180105ms step_avg:157.16ms
step:1157/1750 train_loss:3.5613 train_time:180266ms step_avg:157.16ms
step:1158/1750 train_loss:3.3252 train_time:180427ms step_avg:157.17ms
step:1159/1750 train_loss:3.4061 train_time:180590ms step_avg:157.17ms
step:1160/1750 train_loss:3.3919 train_time:180750ms step_avg:157.17ms
step:1161/1750 train_loss:3.1658 train_time:180914ms step_avg:157.18ms
step:1162/1750 train_loss:3.4925 train_time:181074ms step_avg:157.18ms
step:1163/1750 train_loss:3.4500 train_time:181236ms step_avg:157.19ms
step:1164/1750 train_loss:3.3523 train_time:181396ms step_avg:157.19ms
step:1165/1750 train_loss:3.3168 train_time:181555ms step_avg:157.19ms
step:1166/1750 train_loss:3.4473 train_time:181715ms step_avg:157.19ms
step:1167/1750 train_loss:3.4656 train_time:181877ms step_avg:157.20ms
step:1168/1750 train_loss:3.7884 train_time:182038ms step_avg:157.20ms
step:1169/1750 train_loss:3.4455 train_time:182203ms step_avg:157.21ms
step:1170/1750 train_loss:3.4536 train_time:182367ms step_avg:157.21ms
step:1171/1750 train_loss:3.3813 train_time:182530ms step_avg:157.22ms
step:1172/1750 train_loss:3.4848 train_time:182692ms step_avg:157.22ms
step:1173/1750 train_loss:3.6069 train_time:182859ms step_avg:157.23ms
step:1174/1750 train_loss:3.4532 train_time:183030ms step_avg:157.24ms
step:1175/1750 train_loss:3.4412 train_time:183194ms step_avg:157.25ms
step:1176/1750 train_loss:3.4868 train_time:183360ms step_avg:157.26ms
step:1177/1750 train_loss:3.5164 train_time:183528ms step_avg:157.26ms
step:1178/1750 train_loss:3.5608 train_time:183692ms step_avg:157.27ms
step:1179/1750 train_loss:3.4720 train_time:183853ms step_avg:157.27ms
step:1180/1750 train_loss:3.4166 train_time:184024ms step_avg:157.29ms
step:1181/1750 train_loss:3.4070 train_time:184186ms step_avg:157.29ms
step:1182/1750 train_loss:3.4568 train_time:184351ms step_avg:157.30ms
step:1183/1750 train_loss:3.3955 train_time:184516ms step_avg:157.30ms
step:1184/1750 train_loss:3.5708 train_time:184679ms step_avg:157.31ms
step:1185/1750 train_loss:3.6147 train_time:184845ms step_avg:157.31ms
step:1186/1750 train_loss:3.4255 train_time:185011ms step_avg:157.32ms
step:1187/1750 train_loss:3.4731 train_time:185183ms step_avg:157.33ms
step:1188/1750 train_loss:3.5087 train_time:185344ms step_avg:157.34ms
step:1189/1750 train_loss:3.3392 train_time:185510ms step_avg:157.34ms
step:1190/1750 train_loss:3.5101 train_time:185673ms step_avg:157.35ms
step:1191/1750 train_loss:3.6472 train_time:185838ms step_avg:157.36ms
step:1192/1750 train_loss:3.4600 train_time:185997ms step_avg:157.36ms
step:1193/1750 train_loss:3.3366 train_time:186161ms step_avg:157.36ms
step:1194/1750 train_loss:3.6217 train_time:186326ms step_avg:157.37ms
step:1195/1750 train_loss:3.4395 train_time:186493ms step_avg:157.38ms
step:1196/1750 train_loss:3.4494 train_time:186664ms step_avg:157.39ms
step:1197/1750 train_loss:3.3527 train_time:186832ms step_avg:157.40ms
step:1198/1750 train_loss:3.3653 train_time:187003ms step_avg:157.41ms
step:1199/1750 train_loss:3.4102 train_time:187167ms step_avg:157.42ms
step:1200/1750 train_loss:3.5069 train_time:187330ms step_avg:157.42ms
step:1201/1750 train_loss:3.5421 train_time:187493ms step_avg:157.43ms
step:1202/1750 train_loss:3.7083 train_time:187667ms step_avg:157.44ms
step:1203/1750 train_loss:3.4692 train_time:187832ms step_avg:157.45ms
step:1204/1750 train_loss:3.3761 train_time:187998ms step_avg:157.45ms
step:1205/1750 train_loss:3.4914 train_time:188160ms step_avg:157.46ms
step:1206/1750 train_loss:3.5351 train_time:188321ms step_avg:157.46ms
step:1207/1750 train_loss:3.5817 train_time:188486ms step_avg:157.47ms
step:1208/1750 train_loss:3.4601 train_time:188648ms step_avg:157.47ms
step:1209/1750 train_loss:3.3037 train_time:188813ms step_avg:157.48ms
step:1210/1750 train_loss:3.3705 train_time:188977ms step_avg:157.48ms
step:1211/1750 train_loss:3.4651 train_time:189141ms step_avg:157.49ms
step:1212/1750 train_loss:3.4570 train_time:189306ms step_avg:157.49ms
step:1213/1750 train_loss:3.4793 train_time:189470ms step_avg:157.50ms
step:1214/1750 train_loss:3.3343 train_time:189637ms step_avg:157.51ms
step:1215/1750 train_loss:3.4558 train_time:189800ms step_avg:157.51ms
step:1216/1750 train_loss:3.3924 train_time:189964ms step_avg:157.52ms
step:1217/1750 train_loss:3.3938 train_time:190129ms step_avg:157.52ms
step:1218/1750 train_loss:3.4776 train_time:190293ms step_avg:157.53ms
step:1219/1750 train_loss:3.3285 train_time:190461ms step_avg:157.54ms
step:1220/1750 train_loss:3.5337 train_time:190623ms step_avg:157.54ms
step:1221/1750 train_loss:3.5755 train_time:190785ms step_avg:157.54ms
step:1222/1750 train_loss:3.5068 train_time:190947ms step_avg:157.55ms
step:1223/1750 train_loss:3.3560 train_time:191112ms step_avg:157.55ms
step:1224/1750 train_loss:3.3182 train_time:191280ms step_avg:157.56ms
step:1225/1750 train_loss:3.4394 train_time:191442ms step_avg:157.57ms
step:1226/1750 train_loss:3.3930 train_time:191606ms step_avg:157.57ms
step:1227/1750 train_loss:3.3372 train_time:191772ms step_avg:157.58ms
step:1228/1750 train_loss:3.5157 train_time:191933ms step_avg:157.58ms
step:1229/1750 train_loss:3.4328 train_time:192098ms step_avg:157.59ms
step:1230/1750 train_loss:3.4611 train_time:192267ms step_avg:157.60ms
step:1231/1750 train_loss:3.6448 train_time:192433ms step_avg:157.60ms
step:1232/1750 train_loss:3.5554 train_time:192599ms step_avg:157.61ms
step:1233/1750 train_loss:3.4949 train_time:192762ms step_avg:157.61ms
step:1234/1750 train_loss:3.6522 train_time:192926ms step_avg:157.62ms
step:1235/1750 train_loss:3.3913 train_time:193091ms step_avg:157.63ms
step:1236/1750 train_loss:3.3583 train_time:193255ms step_avg:157.63ms
step:1237/1750 train_loss:3.3372 train_time:193417ms step_avg:157.63ms
step:1238/1750 train_loss:3.3570 train_time:193585ms step_avg:157.64ms
step:1239/1750 train_loss:3.3905 train_time:193749ms step_avg:157.65ms
step:1240/1750 train_loss:3.4458 train_time:193912ms step_avg:157.65ms
step:1241/1750 train_loss:3.4928 train_time:194075ms step_avg:157.66ms
step:1242/1750 train_loss:3.3635 train_time:194236ms step_avg:157.66ms
step:1243/1750 train_loss:3.4742 train_time:194400ms step_avg:157.66ms
step:1244/1750 train_loss:3.4768 train_time:194560ms step_avg:157.67ms
step:1245/1750 train_loss:3.4843 train_time:194723ms step_avg:157.67ms
step:1246/1750 train_loss:3.3054 train_time:194885ms step_avg:157.67ms
step:1247/1750 train_loss:3.4456 train_time:195048ms step_avg:157.68ms
step:1248/1750 train_loss:3.5032 train_time:195210ms step_avg:157.68ms
step:1249/1750 train_loss:3.4867 train_time:195373ms step_avg:157.69ms
step:1250/1750 train_loss:3.3662 train_time:195535ms step_avg:157.69ms
step:1250/1750 val_loss:3.4209 train_time:195578ms step_avg:157.72ms
step:1251/1750 train_loss:3.5657 train_time:195701ms step_avg:157.70ms
step:1252/1750 train_loss:3.4371 train_time:195861ms step_avg:157.70ms
step:1253/1750 train_loss:3.3695 train_time:196021ms step_avg:157.70ms
step:1254/1750 train_loss:3.4789 train_time:196186ms step_avg:157.71ms
step:1255/1750 train_loss:3.5847 train_time:196356ms step_avg:157.72ms
step:1256/1750 train_loss:3.3788 train_time:196520ms step_avg:157.72ms
step:1257/1750 train_loss:3.4301 train_time:196684ms step_avg:157.73ms
step:1258/1750 train_loss:3.4159 train_time:196850ms step_avg:157.73ms
step:1259/1750 train_loss:3.4027 train_time:197012ms step_avg:157.74ms
step:1260/1750 train_loss:3.2709 train_time:197173ms step_avg:157.74ms
step:1261/1750 train_loss:3.3642 train_time:197338ms step_avg:157.74ms
step:1262/1750 train_loss:3.3895 train_time:197502ms step_avg:157.75ms
step:1263/1750 train_loss:3.2998 train_time:197666ms step_avg:157.75ms
step:1264/1750 train_loss:3.5112 train_time:197828ms step_avg:157.76ms
step:1265/1750 train_loss:3.4888 train_time:197990ms step_avg:157.76ms
step:1266/1750 train_loss:3.5098 train_time:198155ms step_avg:157.77ms
step:1267/1750 train_loss:3.4317 train_time:198318ms step_avg:157.77ms
step:1268/1750 train_loss:3.4708 train_time:198481ms step_avg:157.77ms
step:1269/1750 train_loss:3.3162 train_time:198646ms step_avg:157.78ms
step:1270/1750 train_loss:3.1635 train_time:198808ms step_avg:157.78ms
step:1271/1750 train_loss:3.4663 train_time:198972ms step_avg:157.79ms
step:1272/1750 train_loss:3.4235 train_time:199131ms step_avg:157.79ms
step:1273/1750 train_loss:3.4565 train_time:199293ms step_avg:157.79ms
step:1274/1750 train_loss:3.4212 train_time:199458ms step_avg:157.80ms
step:1275/1750 train_loss:3.5062 train_time:199619ms step_avg:157.80ms
step:1276/1750 train_loss:3.5374 train_time:199779ms step_avg:157.80ms
step:1277/1750 train_loss:3.4723 train_time:199943ms step_avg:157.81ms
step:1278/1750 train_loss:3.4716 train_time:200102ms step_avg:157.81ms
step:1279/1750 train_loss:3.3271 train_time:200268ms step_avg:157.82ms
step:1280/1750 train_loss:3.4350 train_time:200435ms step_avg:157.82ms
step:1281/1750 train_loss:3.4905 train_time:200598ms step_avg:157.83ms
step:1282/1750 train_loss:3.5373 train_time:200759ms step_avg:157.83ms
step:1283/1750 train_loss:3.3957 train_time:200920ms step_avg:157.83ms
step:1284/1750 train_loss:3.4358 train_time:201082ms step_avg:157.84ms
step:1285/1750 train_loss:3.4220 train_time:201245ms step_avg:157.84ms
step:1286/1750 train_loss:3.3984 train_time:201408ms step_avg:157.84ms
step:1287/1750 train_loss:3.5564 train_time:201570ms step_avg:157.85ms
step:1288/1750 train_loss:3.3653 train_time:201736ms step_avg:157.85ms
step:1289/1750 train_loss:3.4485 train_time:201907ms step_avg:157.86ms
step:1290/1750 train_loss:3.5247 train_time:202077ms step_avg:157.87ms
step:1291/1750 train_loss:3.4502 train_time:202240ms step_avg:157.88ms
step:1292/1750 train_loss:3.5380 train_time:202405ms step_avg:157.88ms
step:1293/1750 train_loss:3.5801 train_time:202570ms step_avg:157.89ms
step:1294/1750 train_loss:3.5353 train_time:202735ms step_avg:157.89ms
step:1295/1750 train_loss:3.3525 train_time:202898ms step_avg:157.90ms
step:1296/1750 train_loss:3.4381 train_time:203062ms step_avg:157.90ms
step:1297/1750 train_loss:3.3418 train_time:203224ms step_avg:157.91ms
step:1298/1750 train_loss:3.3374 train_time:203388ms step_avg:157.91ms
step:1299/1750 train_loss:3.4573 train_time:203553ms step_avg:157.92ms
step:1300/1750 train_loss:3.4721 train_time:203714ms step_avg:157.92ms
step:1301/1750 train_loss:3.4673 train_time:203878ms step_avg:157.92ms
step:1302/1750 train_loss:3.6389 train_time:204044ms step_avg:157.93ms
step:1303/1750 train_loss:3.3642 train_time:204214ms step_avg:157.94ms
step:1304/1750 train_loss:3.5771 train_time:204379ms step_avg:157.94ms
step:1305/1750 train_loss:3.3290 train_time:204541ms step_avg:157.95ms
step:1306/1750 train_loss:3.5156 train_time:204709ms step_avg:157.95ms
step:1307/1750 train_loss:3.5243 train_time:204870ms step_avg:157.96ms
step:1308/1750 train_loss:3.3659 train_time:205035ms step_avg:157.96ms
step:1309/1750 train_loss:3.3716 train_time:205201ms step_avg:157.97ms
step:1310/1750 train_loss:3.3671 train_time:205363ms step_avg:157.97ms
step:1311/1750 train_loss:3.3634 train_time:205524ms step_avg:157.97ms
step:1312/1750 train_loss:3.4491 train_time:205689ms step_avg:157.98ms
step:1313/1750 train_loss:3.4035 train_time:205854ms step_avg:157.98ms
step:1314/1750 train_loss:3.1033 train_time:206021ms step_avg:157.99ms
step:1315/1750 train_loss:3.3453 train_time:206183ms step_avg:157.99ms
step:1316/1750 train_loss:3.4540 train_time:206345ms step_avg:158.00ms
step:1317/1750 train_loss:3.4822 train_time:206509ms step_avg:158.00ms
step:1318/1750 train_loss:3.3583 train_time:206681ms step_avg:158.01ms
step:1319/1750 train_loss:3.4920 train_time:206844ms step_avg:158.02ms
step:1320/1750 train_loss:3.5212 train_time:207011ms step_avg:158.02ms
step:1321/1750 train_loss:3.4255 train_time:207177ms step_avg:158.03ms
step:1322/1750 train_loss:3.3824 train_time:207462ms step_avg:158.13ms
step:1323/1750 train_loss:3.3898 train_time:207635ms step_avg:158.14ms
step:1324/1750 train_loss:3.4978 train_time:207803ms step_avg:158.15ms
step:1325/1750 train_loss:3.5548 train_time:207973ms step_avg:158.15ms
step:1326/1750 train_loss:3.2803 train_time:208140ms step_avg:158.16ms
step:1327/1750 train_loss:3.2268 train_time:208301ms step_avg:158.16ms
step:1328/1750 train_loss:3.5540 train_time:208466ms step_avg:158.17ms
step:1329/1750 train_loss:3.3541 train_time:208789ms step_avg:158.29ms
step:1330/1750 train_loss:3.4896 train_time:208957ms step_avg:158.30ms
step:1331/1750 train_loss:3.3971 train_time:209118ms step_avg:158.30ms
step:1332/1750 train_loss:3.8037 train_time:209285ms step_avg:158.31ms
step:1333/1750 train_loss:3.5328 train_time:209449ms step_avg:158.31ms
step:1334/1750 train_loss:3.4390 train_time:209612ms step_avg:158.32ms
step:1335/1750 train_loss:3.3640 train_time:209777ms step_avg:158.32ms
step:1336/1750 train_loss:3.3538 train_time:209946ms step_avg:158.33ms
step:1337/1750 train_loss:3.6168 train_time:210114ms step_avg:158.34ms
step:1338/1750 train_loss:3.5799 train_time:210279ms step_avg:158.34ms
step:1339/1750 train_loss:3.4002 train_time:210443ms step_avg:158.35ms
step:1340/1750 train_loss:3.3500 train_time:210607ms step_avg:158.35ms
step:1341/1750 train_loss:3.6541 train_time:210770ms step_avg:158.35ms
step:1342/1750 train_loss:3.4160 train_time:210937ms step_avg:158.36ms
step:1343/1750 train_loss:3.4238 train_time:211100ms step_avg:158.36ms
step:1344/1750 train_loss:3.4799 train_time:211264ms step_avg:158.37ms
step:1345/1750 train_loss:3.4426 train_time:211430ms step_avg:158.37ms
step:1346/1750 train_loss:3.3574 train_time:211594ms step_avg:158.38ms
step:1347/1750 train_loss:3.3342 train_time:211759ms step_avg:158.38ms
step:1348/1750 train_loss:3.4069 train_time:211921ms step_avg:158.39ms
step:1349/1750 train_loss:3.3352 train_time:212082ms step_avg:158.39ms
step:1350/1750 train_loss:3.4556 train_time:212247ms step_avg:158.39ms
step:1351/1750 train_loss:3.3066 train_time:212410ms step_avg:158.40ms
step:1352/1750 train_loss:3.3702 train_time:212576ms step_avg:158.40ms
step:1353/1750 train_loss:3.4697 train_time:212742ms step_avg:158.41ms
step:1354/1750 train_loss:3.3198 train_time:212905ms step_avg:158.41ms
step:1355/1750 train_loss:3.2577 train_time:213067ms step_avg:158.41ms
step:1356/1750 train_loss:3.5800 train_time:213231ms step_avg:158.42ms
step:1357/1750 train_loss:3.4891 train_time:213399ms step_avg:158.43ms
step:1358/1750 train_loss:3.2400 train_time:213563ms step_avg:158.43ms
step:1359/1750 train_loss:3.5034 train_time:213727ms step_avg:158.43ms
step:1360/1750 train_loss:3.4158 train_time:213896ms step_avg:158.44ms
step:1361/1750 train_loss:3.1992 train_time:214065ms step_avg:158.45ms
step:1362/1750 train_loss:3.4560 train_time:214229ms step_avg:158.45ms
step:1363/1750 train_loss:3.3364 train_time:214399ms step_avg:158.46ms
step:1364/1750 train_loss:3.3736 train_time:214560ms step_avg:158.46ms
step:1365/1750 train_loss:3.3743 train_time:214721ms step_avg:158.47ms
step:1366/1750 train_loss:3.4890 train_time:214886ms step_avg:158.47ms
step:1367/1750 train_loss:3.4580 train_time:215052ms step_avg:158.48ms
step:1368/1750 train_loss:3.4151 train_time:215218ms step_avg:158.48ms
step:1369/1750 train_loss:3.3265 train_time:215389ms step_avg:158.49ms
step:1370/1750 train_loss:3.6737 train_time:215555ms step_avg:158.50ms
step:1371/1750 train_loss:3.3776 train_time:215719ms step_avg:158.50ms
step:1372/1750 train_loss:3.4273 train_time:215883ms step_avg:158.50ms
step:1373/1750 train_loss:3.4271 train_time:216047ms step_avg:158.51ms
step:1374/1750 train_loss:3.2196 train_time:216213ms step_avg:158.51ms
step:1375/1750 train_loss:3.6037 train_time:216378ms step_avg:158.52ms
step:1375/1750 val_loss:3.3747 train_time:216419ms step_avg:158.55ms
step:1376/1750 train_loss:3.4048 train_time:216541ms step_avg:158.52ms
step:1377/1750 train_loss:3.5389 train_time:216705ms step_avg:158.53ms
step:1378/1750 train_loss:3.5411 train_time:216867ms step_avg:158.53ms
step:1379/1750 train_loss:3.1796 train_time:217035ms step_avg:158.54ms
step:1380/1750 train_loss:3.3704 train_time:217199ms step_avg:158.54ms
step:1381/1750 train_loss:3.7699 train_time:217367ms step_avg:158.55ms
step:1382/1750 train_loss:3.2826 train_time:217529ms step_avg:158.55ms
step:1383/1750 train_loss:3.4581 train_time:217696ms step_avg:158.55ms
step:1384/1750 train_loss:3.5407 train_time:217860ms step_avg:158.56ms
step:1385/1750 train_loss:3.4650 train_time:218019ms step_avg:158.56ms
step:1386/1750 train_loss:3.4030 train_time:218183ms step_avg:158.56ms
step:1387/1750 train_loss:3.2591 train_time:218346ms step_avg:158.57ms
step:1388/1750 train_loss:3.4063 train_time:218509ms step_avg:158.57ms
step:1389/1750 train_loss:3.3796 train_time:218674ms step_avg:158.57ms
step:1390/1750 train_loss:3.6347 train_time:218836ms step_avg:158.58ms
step:1391/1750 train_loss:3.3533 train_time:219000ms step_avg:158.58ms
step:1392/1750 train_loss:3.3523 train_time:219163ms step_avg:158.58ms
step:1393/1750 train_loss:3.3122 train_time:219327ms step_avg:158.59ms
step:1394/1750 train_loss:3.5734 train_time:219490ms step_avg:158.59ms
step:1395/1750 train_loss:3.4600 train_time:219652ms step_avg:158.59ms
step:1396/1750 train_loss:3.4689 train_time:219814ms step_avg:158.60ms
step:1397/1750 train_loss:3.3655 train_time:219975ms step_avg:158.60ms
step:1398/1750 train_loss:3.3192 train_time:220136ms step_avg:158.60ms
step:1399/1750 train_loss:3.3882 train_time:220299ms step_avg:158.60ms
step:1400/1750 train_loss:3.3745 train_time:220463ms step_avg:158.61ms
step:1401/1750 train_loss:3.4050 train_time:220625ms step_avg:158.61ms
step:1402/1750 train_loss:3.3587 train_time:220790ms step_avg:158.61ms
step:1403/1750 train_loss:3.5577 train_time:220958ms step_avg:158.62ms
step:1404/1750 train_loss:3.3390 train_time:221119ms step_avg:158.62ms
step:1405/1750 train_loss:3.3735 train_time:221284ms step_avg:158.63ms
step:1406/1750 train_loss:3.3710 train_time:221449ms step_avg:158.63ms
step:1407/1750 train_loss:3.2367 train_time:221612ms step_avg:158.63ms
step:1408/1750 train_loss:3.3668 train_time:221774ms step_avg:158.64ms
step:1409/1750 train_loss:3.3538 train_time:221942ms step_avg:158.64ms
step:1410/1750 train_loss:3.3452 train_time:222103ms step_avg:158.65ms
step:1411/1750 train_loss:3.4287 train_time:222264ms step_avg:158.65ms
step:1412/1750 train_loss:3.3840 train_time:222427ms step_avg:158.65ms
step:1413/1750 train_loss:3.4180 train_time:222590ms step_avg:158.65ms
step:1414/1750 train_loss:3.3969 train_time:222753ms step_avg:158.66ms
step:1415/1750 train_loss:3.4750 train_time:222921ms step_avg:158.66ms
step:1416/1750 train_loss:3.2884 train_time:223090ms step_avg:158.67ms
step:1417/1750 train_loss:3.3491 train_time:223257ms step_avg:158.68ms
step:1418/1750 train_loss:3.4454 train_time:223420ms step_avg:158.68ms
step:1419/1750 train_loss:3.4075 train_time:223585ms step_avg:158.68ms
step:1420/1750 train_loss:3.4163 train_time:223750ms step_avg:158.69ms
step:1421/1750 train_loss:3.4298 train_time:223916ms step_avg:158.69ms
step:1422/1750 train_loss:3.3992 train_time:224080ms step_avg:158.70ms
step:1423/1750 train_loss:3.3779 train_time:224242ms step_avg:158.70ms
step:1424/1750 train_loss:3.3877 train_time:224408ms step_avg:158.70ms
step:1425/1750 train_loss:3.2471 train_time:224579ms step_avg:158.71ms
step:1426/1750 train_loss:3.3893 train_time:224741ms step_avg:158.72ms
step:1427/1750 train_loss:3.3373 train_time:224908ms step_avg:158.72ms
step:1428/1750 train_loss:3.4326 train_time:225071ms step_avg:158.72ms
step:1429/1750 train_loss:3.4172 train_time:225232ms step_avg:158.73ms
step:1430/1750 train_loss:3.3185 train_time:225400ms step_avg:158.73ms
step:1431/1750 train_loss:3.3784 train_time:225565ms step_avg:158.74ms
step:1432/1750 train_loss:3.3993 train_time:225731ms step_avg:158.74ms
step:1433/1750 train_loss:3.1895 train_time:225902ms step_avg:158.75ms
step:1434/1750 train_loss:3.3468 train_time:226069ms step_avg:158.76ms
step:1435/1750 train_loss:3.1767 train_time:226233ms step_avg:158.76ms
step:1436/1750 train_loss:3.2805 train_time:226400ms step_avg:158.77ms
step:1437/1750 train_loss:3.4671 train_time:226562ms step_avg:158.77ms
step:1438/1750 train_loss:3.4412 train_time:226723ms step_avg:158.77ms
step:1439/1750 train_loss:3.3734 train_time:226888ms step_avg:158.77ms
step:1440/1750 train_loss:3.2474 train_time:227051ms step_avg:158.78ms
step:1441/1750 train_loss:3.4083 train_time:227216ms step_avg:158.78ms
step:1442/1750 train_loss:3.4470 train_time:227386ms step_avg:158.79ms
step:1443/1750 train_loss:3.5316 train_time:227560ms step_avg:158.80ms
step:1444/1750 train_loss:3.5061 train_time:227723ms step_avg:158.80ms
step:1445/1750 train_loss:3.3960 train_time:227887ms step_avg:158.81ms
step:1446/1750 train_loss:3.2612 train_time:228055ms step_avg:158.81ms
step:1447/1750 train_loss:3.3491 train_time:228223ms step_avg:158.82ms
step:1448/1750 train_loss:3.3545 train_time:228388ms step_avg:158.82ms
step:1449/1750 train_loss:3.4549 train_time:228554ms step_avg:158.83ms
step:1450/1750 train_loss:3.4488 train_time:228720ms step_avg:158.83ms
step:1451/1750 train_loss:3.2609 train_time:228887ms step_avg:158.84ms
step:1452/1750 train_loss:3.3882 train_time:229054ms step_avg:158.84ms
step:1453/1750 train_loss:3.3183 train_time:229217ms step_avg:158.85ms
step:1454/1750 train_loss:3.3398 train_time:229382ms step_avg:158.85ms
step:1455/1750 train_loss:3.3837 train_time:229550ms step_avg:158.86ms
step:1456/1750 train_loss:3.3351 train_time:229716ms step_avg:158.86ms
step:1457/1750 train_loss:3.2173 train_time:229879ms step_avg:158.87ms
step:1458/1750 train_loss:3.4730 train_time:230043ms step_avg:158.87ms
step:1459/1750 train_loss:3.3253 train_time:230212ms step_avg:158.88ms
step:1460/1750 train_loss:3.3750 train_time:230376ms step_avg:158.88ms
step:1461/1750 train_loss:3.4929 train_time:230542ms step_avg:158.89ms
step:1462/1750 train_loss:3.3197 train_time:230707ms step_avg:158.89ms
step:1463/1750 train_loss:3.5205 train_time:230875ms step_avg:158.90ms
step:1464/1750 train_loss:3.4125 train_time:231040ms step_avg:158.90ms
step:1465/1750 train_loss:3.4100 train_time:231205ms step_avg:158.90ms
step:1466/1750 train_loss:3.3399 train_time:231367ms step_avg:158.91ms
step:1467/1750 train_loss:3.4508 train_time:231533ms step_avg:158.91ms
step:1468/1750 train_loss:3.3459 train_time:231698ms step_avg:158.91ms
step:1469/1750 train_loss:3.3215 train_time:231863ms step_avg:158.92ms
step:1470/1750 train_loss:3.3888 train_time:232033ms step_avg:158.93ms
step:1471/1750 train_loss:3.3084 train_time:232205ms step_avg:158.94ms
step:1472/1750 train_loss:3.3000 train_time:232374ms step_avg:158.94ms
step:1473/1750 train_loss:3.4912 train_time:232538ms step_avg:158.95ms
step:1474/1750 train_loss:3.3699 train_time:232706ms step_avg:158.95ms
step:1475/1750 train_loss:3.1960 train_time:232876ms step_avg:158.96ms
step:1476/1750 train_loss:3.3190 train_time:233039ms step_avg:158.96ms
step:1477/1750 train_loss:3.2955 train_time:233209ms step_avg:158.97ms
step:1478/1750 train_loss:3.3611 train_time:233378ms step_avg:158.98ms
step:1479/1750 train_loss:3.4479 train_time:233544ms step_avg:158.98ms
step:1480/1750 train_loss:3.3269 train_time:233708ms step_avg:158.98ms
step:1481/1750 train_loss:3.5037 train_time:233874ms step_avg:158.99ms
step:1482/1750 train_loss:3.4252 train_time:234046ms step_avg:159.00ms
step:1483/1750 train_loss:3.3366 train_time:234221ms step_avg:159.01ms
step:1484/1750 train_loss:3.3166 train_time:234391ms step_avg:159.02ms
step:1485/1750 train_loss:3.3282 train_time:234557ms step_avg:159.02ms
step:1486/1750 train_loss:3.2751 train_time:234725ms step_avg:159.03ms
step:1487/1750 train_loss:3.3953 train_time:234890ms step_avg:159.03ms
step:1488/1750 train_loss:3.2881 train_time:235059ms step_avg:159.04ms
step:1489/1750 train_loss:3.3691 train_time:235223ms step_avg:159.04ms
step:1490/1750 train_loss:3.3034 train_time:235389ms step_avg:159.05ms
step:1491/1750 train_loss:3.2155 train_time:235555ms step_avg:159.05ms
step:1492/1750 train_loss:3.3164 train_time:235720ms step_avg:159.06ms
step:1493/1750 train_loss:3.4835 train_time:235882ms step_avg:159.06ms
step:1494/1750 train_loss:3.3488 train_time:236045ms step_avg:159.06ms
step:1495/1750 train_loss:3.0831 train_time:236212ms step_avg:159.07ms
step:1496/1750 train_loss:3.4070 train_time:236378ms step_avg:159.07ms
step:1497/1750 train_loss:3.3605 train_time:236544ms step_avg:159.07ms
step:1498/1750 train_loss:3.3937 train_time:236714ms step_avg:159.08ms
step:1499/1750 train_loss:3.3616 train_time:236883ms step_avg:159.09ms
step:1500/1750 train_loss:3.3441 train_time:237056ms step_avg:159.10ms
step:1500/1750 val_loss:3.3295 train_time:237101ms step_avg:159.13ms
step:1501/1750 train_loss:3.1388 train_time:237228ms step_avg:159.11ms
step:1502/1750 train_loss:3.4160 train_time:237403ms step_avg:159.12ms
step:1503/1750 train_loss:3.2886 train_time:237567ms step_avg:159.12ms
step:1504/1750 train_loss:3.3043 train_time:237734ms step_avg:159.13ms
step:1505/1750 train_loss:3.2597 train_time:237898ms step_avg:159.13ms
step:1506/1750 train_loss:3.3304 train_time:238065ms step_avg:159.13ms
step:1507/1750 train_loss:3.2261 train_time:238241ms step_avg:159.15ms
step:1508/1750 train_loss:3.5287 train_time:238406ms step_avg:159.15ms
step:1509/1750 train_loss:3.3272 train_time:238569ms step_avg:159.15ms
step:1510/1750 train_loss:3.3221 train_time:238735ms step_avg:159.16ms
step:1511/1750 train_loss:3.4604 train_time:239022ms step_avg:159.24ms
step:1512/1750 train_loss:3.4672 train_time:239189ms step_avg:159.25ms
step:1513/1750 train_loss:3.3228 train_time:239358ms step_avg:159.25ms
step:1514/1750 train_loss:3.1425 train_time:239524ms step_avg:159.26ms
step:1515/1750 train_loss:3.2869 train_time:239688ms step_avg:159.26ms
step:1516/1750 train_loss:3.2979 train_time:239860ms step_avg:159.27ms
step:1517/1750 train_loss:3.3527 train_time:240023ms step_avg:159.27ms
step:1518/1750 train_loss:3.2593 train_time:240190ms step_avg:159.28ms
step:1519/1750 train_loss:3.5506 train_time:240501ms step_avg:159.38ms
step:1520/1750 train_loss:3.1791 train_time:240668ms step_avg:159.38ms
step:1521/1750 train_loss:3.2573 train_time:240830ms step_avg:159.38ms
step:1522/1750 train_loss:3.4042 train_time:240998ms step_avg:159.39ms
step:1523/1750 train_loss:3.2736 train_time:241161ms step_avg:159.39ms
step:1524/1750 train_loss:3.3939 train_time:241324ms step_avg:159.39ms
step:1525/1750 train_loss:3.3778 train_time:241492ms step_avg:159.40ms
step:1526/1750 train_loss:3.3224 train_time:241661ms step_avg:159.41ms
step:1527/1750 train_loss:3.3307 train_time:241826ms step_avg:159.41ms
step:1528/1750 train_loss:3.4512 train_time:241992ms step_avg:159.42ms
step:1529/1750 train_loss:3.4512 train_time:242155ms step_avg:159.42ms
step:1530/1750 train_loss:3.2808 train_time:242315ms step_avg:159.42ms
step:1531/1750 train_loss:3.2319 train_time:242481ms step_avg:159.42ms
step:1532/1750 train_loss:3.3887 train_time:242646ms step_avg:159.43ms
step:1533/1750 train_loss:3.3188 train_time:242815ms step_avg:159.43ms
step:1534/1750 train_loss:3.3210 train_time:242984ms step_avg:159.44ms
step:1535/1750 train_loss:3.3300 train_time:243149ms step_avg:159.44ms
step:1536/1750 train_loss:3.2716 train_time:243318ms step_avg:159.45ms
step:1537/1750 train_loss:3.3160 train_time:243483ms step_avg:159.45ms
step:1538/1750 train_loss:3.4704 train_time:243654ms step_avg:159.46ms
step:1539/1750 train_loss:3.4441 train_time:243823ms step_avg:159.47ms
step:1540/1750 train_loss:3.3196 train_time:243987ms step_avg:159.47ms
step:1541/1750 train_loss:3.2750 train_time:244151ms step_avg:159.47ms
step:1542/1750 train_loss:3.2931 train_time:244319ms step_avg:159.48ms
step:1543/1750 train_loss:3.1973 train_time:244485ms step_avg:159.48ms
step:1544/1750 train_loss:3.3438 train_time:244646ms step_avg:159.48ms
step:1545/1750 train_loss:3.3116 train_time:244814ms step_avg:159.49ms
step:1546/1750 train_loss:3.3019 train_time:244985ms step_avg:159.50ms
step:1547/1750 train_loss:3.2602 train_time:245151ms step_avg:159.50ms
step:1548/1750 train_loss:3.3068 train_time:245320ms step_avg:159.51ms
step:1549/1750 train_loss:3.3764 train_time:245485ms step_avg:159.51ms
step:1550/1750 train_loss:3.3344 train_time:245648ms step_avg:159.51ms
step:1551/1750 train_loss:3.2431 train_time:245815ms step_avg:159.52ms
step:1552/1750 train_loss:3.2661 train_time:245981ms step_avg:159.52ms
step:1553/1750 train_loss:3.2720 train_time:246145ms step_avg:159.52ms
step:1554/1750 train_loss:3.4039 train_time:246308ms step_avg:159.53ms
step:1555/1750 train_loss:3.3842 train_time:246473ms step_avg:159.53ms
step:1556/1750 train_loss:3.3248 train_time:246636ms step_avg:159.53ms
step:1557/1750 train_loss:3.3646 train_time:246799ms step_avg:159.53ms
step:1558/1750 train_loss:3.3004 train_time:246965ms step_avg:159.54ms
step:1559/1750 train_loss:3.1760 train_time:247140ms step_avg:159.55ms
step:1560/1750 train_loss:3.4705 train_time:247302ms step_avg:159.55ms
step:1561/1750 train_loss:3.2698 train_time:247469ms step_avg:159.55ms
step:1562/1750 train_loss:3.2539 train_time:247632ms step_avg:159.56ms
step:1563/1750 train_loss:3.3652 train_time:247798ms step_avg:159.56ms
step:1564/1750 train_loss:3.1991 train_time:247969ms step_avg:159.57ms
step:1565/1750 train_loss:3.2087 train_time:248138ms step_avg:159.57ms
step:1566/1750 train_loss:3.4081 train_time:248303ms step_avg:159.58ms
step:1567/1750 train_loss:3.2742 train_time:248467ms step_avg:159.58ms
step:1568/1750 train_loss:3.2818 train_time:248639ms step_avg:159.59ms
step:1569/1750 train_loss:3.3691 train_time:248815ms step_avg:159.60ms
step:1570/1750 train_loss:3.3200 train_time:248986ms step_avg:159.61ms
step:1571/1750 train_loss:3.2009 train_time:249153ms step_avg:159.61ms
step:1572/1750 train_loss:3.2368 train_time:249320ms step_avg:159.62ms
step:1573/1750 train_loss:3.3575 train_time:249486ms step_avg:159.62ms
step:1574/1750 train_loss:3.2077 train_time:249650ms step_avg:159.62ms
step:1575/1750 train_loss:3.3669 train_time:249815ms step_avg:159.63ms
step:1576/1750 train_loss:3.2757 train_time:249980ms step_avg:159.63ms
step:1577/1750 train_loss:3.3291 train_time:250147ms step_avg:159.63ms
step:1578/1750 train_loss:3.3149 train_time:250315ms step_avg:159.64ms
step:1579/1750 train_loss:3.2851 train_time:250484ms step_avg:159.65ms
step:1580/1750 train_loss:3.2426 train_time:250652ms step_avg:159.65ms
step:1581/1750 train_loss:3.4438 train_time:250823ms step_avg:159.66ms
step:1582/1750 train_loss:3.2692 train_time:250998ms step_avg:159.67ms
step:1583/1750 train_loss:3.4197 train_time:251171ms step_avg:159.68ms
step:1584/1750 train_loss:3.2376 train_time:251335ms step_avg:159.68ms
step:1585/1750 train_loss:3.4110 train_time:251506ms step_avg:159.69ms
step:1586/1750 train_loss:3.1947 train_time:251673ms step_avg:159.69ms
step:1587/1750 train_loss:3.3947 train_time:251839ms step_avg:159.69ms
step:1588/1750 train_loss:3.2712 train_time:252006ms step_avg:159.70ms
step:1589/1750 train_loss:3.4387 train_time:252170ms step_avg:159.70ms
step:1590/1750 train_loss:3.2781 train_time:252337ms step_avg:159.71ms
step:1591/1750 train_loss:3.2890 train_time:252503ms step_avg:159.71ms
step:1592/1750 train_loss:3.3603 train_time:252669ms step_avg:159.71ms
step:1593/1750 train_loss:3.3313 train_time:252842ms step_avg:159.72ms
step:1594/1750 train_loss:3.3009 train_time:253006ms step_avg:159.73ms
step:1595/1750 train_loss:3.4540 train_time:253173ms step_avg:159.73ms
step:1596/1750 train_loss:3.1562 train_time:253348ms step_avg:159.74ms
step:1597/1750 train_loss:3.3230 train_time:253518ms step_avg:159.75ms
step:1598/1750 train_loss:3.3783 train_time:253688ms step_avg:159.75ms
step:1599/1750 train_loss:3.4409 train_time:253863ms step_avg:159.76ms
step:1600/1750 train_loss:3.2702 train_time:254030ms step_avg:159.77ms
step:1601/1750 train_loss:3.5760 train_time:254195ms step_avg:159.77ms
step:1602/1750 train_loss:3.4514 train_time:254364ms step_avg:159.78ms
step:1603/1750 train_loss:3.2205 train_time:254537ms step_avg:159.78ms
step:1604/1750 train_loss:3.2625 train_time:254704ms step_avg:159.79ms
step:1605/1750 train_loss:3.1529 train_time:254878ms step_avg:159.80ms
step:1606/1750 train_loss:3.4696 train_time:255051ms step_avg:159.81ms
step:1607/1750 train_loss:3.3036 train_time:255216ms step_avg:159.81ms
step:1608/1750 train_loss:3.3071 train_time:255387ms step_avg:159.82ms
step:1609/1750 train_loss:3.2417 train_time:255559ms step_avg:159.82ms
step:1610/1750 train_loss:3.7464 train_time:255735ms step_avg:159.83ms
step:1611/1750 train_loss:3.4998 train_time:255904ms step_avg:159.84ms
step:1612/1750 train_loss:3.3911 train_time:256076ms step_avg:159.85ms
step:1613/1750 train_loss:3.2603 train_time:256253ms step_avg:159.86ms
step:1614/1750 train_loss:3.2896 train_time:256420ms step_avg:159.86ms
step:1615/1750 train_loss:3.3125 train_time:256588ms step_avg:159.87ms
step:1616/1750 train_loss:3.2818 train_time:256771ms step_avg:159.88ms
step:1617/1750 train_loss:3.3492 train_time:256946ms step_avg:159.89ms
step:1618/1750 train_loss:3.2780 train_time:257110ms step_avg:159.89ms
step:1619/1750 train_loss:3.1822 train_time:257278ms step_avg:159.90ms
step:1620/1750 train_loss:3.4538 train_time:257442ms step_avg:159.90ms
step:1621/1750 train_loss:3.3825 train_time:257612ms step_avg:159.91ms
step:1622/1750 train_loss:3.1548 train_time:257781ms step_avg:159.91ms
step:1623/1750 train_loss:3.2554 train_time:257949ms step_avg:159.92ms
step:1624/1750 train_loss:3.2089 train_time:258114ms step_avg:159.92ms
step:1625/1750 train_loss:3.3179 train_time:258280ms step_avg:159.93ms
step:1625/1750 val_loss:3.2945 train_time:258322ms step_avg:159.95ms
step:1626/1750 train_loss:3.2374 train_time:258451ms step_avg:159.93ms
step:1627/1750 train_loss:3.2330 train_time:258613ms step_avg:159.93ms
step:1628/1750 train_loss:3.3595 train_time:258778ms step_avg:159.94ms
step:1629/1750 train_loss:3.2412 train_time:258942ms step_avg:159.94ms
step:1630/1750 train_loss:3.3188 train_time:259111ms step_avg:159.95ms
step:1631/1750 train_loss:3.1734 train_time:259293ms step_avg:159.96ms
step:1632/1750 train_loss:3.1474 train_time:259456ms step_avg:159.96ms
step:1633/1750 train_loss:3.2979 train_time:259622ms step_avg:159.96ms
step:1634/1750 train_loss:3.3054 train_time:259788ms step_avg:159.97ms
step:1635/1750 train_loss:3.2456 train_time:259961ms step_avg:159.98ms
step:1636/1750 train_loss:3.3269 train_time:260127ms step_avg:159.98ms
step:1637/1750 train_loss:3.3750 train_time:260295ms step_avg:159.98ms
step:1638/1750 train_loss:3.4048 train_time:260465ms step_avg:159.99ms
step:1639/1750 train_loss:3.5676 train_time:260638ms step_avg:160.00ms
step:1640/1750 train_loss:3.3498 train_time:260805ms step_avg:160.00ms
step:1641/1750 train_loss:3.2962 train_time:260975ms step_avg:160.01ms
step:1642/1750 train_loss:3.4053 train_time:261139ms step_avg:160.01ms
step:1643/1750 train_loss:3.2719 train_time:261312ms step_avg:160.02ms
step:1644/1750 train_loss:3.3123 train_time:261476ms step_avg:160.02ms
step:1645/1750 train_loss:3.3133 train_time:261637ms step_avg:160.02ms
step:1646/1750 train_loss:3.0687 train_time:261804ms step_avg:160.03ms
step:1647/1750 train_loss:3.3211 train_time:261972ms step_avg:160.03ms
step:1648/1750 train_loss:3.2159 train_time:262138ms step_avg:160.04ms
step:1649/1750 train_loss:3.2874 train_time:262301ms step_avg:160.04ms
step:1650/1750 train_loss:3.2627 train_time:262467ms step_avg:160.04ms
step:1651/1750 train_loss:3.3424 train_time:262633ms step_avg:160.04ms
step:1652/1750 train_loss:3.2620 train_time:262800ms step_avg:160.05ms
step:1653/1750 train_loss:3.3864 train_time:262970ms step_avg:160.05ms
step:1654/1750 train_loss:3.3830 train_time:263135ms step_avg:160.06ms
step:1655/1750 train_loss:3.1805 train_time:263305ms step_avg:160.06ms
step:1656/1750 train_loss:3.3335 train_time:263480ms step_avg:160.07ms
step:1657/1750 train_loss:3.2456 train_time:263648ms step_avg:160.08ms
step:1658/1750 train_loss:3.2224 train_time:263812ms step_avg:160.08ms
step:1659/1750 train_loss:3.2981 train_time:263977ms step_avg:160.08ms
step:1660/1750 train_loss:3.3417 train_time:264144ms step_avg:160.09ms
step:1661/1750 train_loss:3.2486 train_time:264312ms step_avg:160.09ms
step:1662/1750 train_loss:3.3571 train_time:264477ms step_avg:160.09ms
step:1663/1750 train_loss:3.3499 train_time:264645ms step_avg:160.10ms
step:1664/1750 train_loss:3.4052 train_time:264820ms step_avg:160.11ms
step:1665/1750 train_loss:3.3268 train_time:264987ms step_avg:160.11ms
step:1666/1750 train_loss:3.4966 train_time:265152ms step_avg:160.12ms
step:1667/1750 train_loss:3.2038 train_time:265319ms step_avg:160.12ms
step:1668/1750 train_loss:3.2898 train_time:265488ms step_avg:160.13ms
step:1669/1750 train_loss:3.2088 train_time:265655ms step_avg:160.13ms
step:1670/1750 train_loss:3.2195 train_time:265822ms step_avg:160.13ms
step:1671/1750 train_loss:3.3686 train_time:265989ms step_avg:160.14ms
step:1672/1750 train_loss:3.5715 train_time:266155ms step_avg:160.14ms
step:1673/1750 train_loss:3.2756 train_time:266323ms step_avg:160.15ms
step:1674/1750 train_loss:3.2576 train_time:266489ms step_avg:160.15ms
step:1675/1750 train_loss:3.1241 train_time:266659ms step_avg:160.16ms
step:1676/1750 train_loss:3.3457 train_time:266830ms step_avg:160.16ms
step:1677/1750 train_loss:3.2719 train_time:266997ms step_avg:160.17ms
step:1678/1750 train_loss:3.2958 train_time:267166ms step_avg:160.17ms
step:1679/1750 train_loss:3.2977 train_time:267332ms step_avg:160.17ms
step:1680/1750 train_loss:3.0803 train_time:267506ms step_avg:160.18ms
step:1681/1750 train_loss:3.2975 train_time:267675ms step_avg:160.19ms
step:1682/1750 train_loss:3.2847 train_time:267844ms step_avg:160.19ms
step:1683/1750 train_loss:3.3028 train_time:268010ms step_avg:160.20ms
step:1684/1750 train_loss:3.3365 train_time:268174ms step_avg:160.20ms
step:1685/1750 train_loss:3.2396 train_time:268339ms step_avg:160.20ms
step:1686/1750 train_loss:3.3598 train_time:268509ms step_avg:160.21ms
step:1687/1750 train_loss:3.2470 train_time:268676ms step_avg:160.21ms
step:1688/1750 train_loss:3.3134 train_time:268848ms step_avg:160.22ms
step:1689/1750 train_loss:3.2201 train_time:269016ms step_avg:160.22ms
step:1690/1750 train_loss:3.0692 train_time:269189ms step_avg:160.23ms
step:1691/1750 train_loss:3.2996 train_time:269354ms step_avg:160.23ms
step:1692/1750 train_loss:3.2966 train_time:269518ms step_avg:160.24ms
step:1693/1750 train_loss:3.2090 train_time:269682ms step_avg:160.24ms
step:1694/1750 train_loss:3.6067 train_time:269856ms step_avg:160.25ms
step:1695/1750 train_loss:3.3298 train_time:270027ms step_avg:160.25ms
step:1696/1750 train_loss:3.3333 train_time:270195ms step_avg:160.26ms
step:1697/1750 train_loss:3.2538 train_time:270358ms step_avg:160.26ms
step:1698/1750 train_loss:3.1236 train_time:270526ms step_avg:160.26ms
step:1699/1750 train_loss:3.2290 train_time:270694ms step_avg:160.27ms
step:1700/1750 train_loss:3.2410 train_time:270985ms step_avg:160.35ms
step:1701/1750 train_loss:3.3152 train_time:271157ms step_avg:160.35ms
step:1702/1750 train_loss:3.2383 train_time:271320ms step_avg:160.35ms
step:1703/1750 train_loss:3.4103 train_time:271481ms step_avg:160.36ms
step:1704/1750 train_loss:3.2057 train_time:271649ms step_avg:160.36ms
step:1705/1750 train_loss:3.4350 train_time:271814ms step_avg:160.36ms
step:1706/1750 train_loss:3.2543 train_time:271978ms step_avg:160.36ms
step:1707/1750 train_loss:3.0515 train_time:272151ms step_avg:160.37ms
step:1708/1750 train_loss:3.3872 train_time:272316ms step_avg:160.37ms
step:1709/1750 train_loss:3.2937 train_time:272625ms step_avg:160.46ms
step:1710/1750 train_loss:3.2784 train_time:272797ms step_avg:160.47ms
step:1711/1750 train_loss:3.2834 train_time:272962ms step_avg:160.47ms
step:1712/1750 train_loss:3.3191 train_time:273132ms step_avg:160.48ms
step:1713/1750 train_loss:3.3344 train_time:273299ms step_avg:160.48ms
step:1714/1750 train_loss:3.2245 train_time:273469ms step_avg:160.49ms
step:1715/1750 train_loss:3.2823 train_time:273647ms step_avg:160.50ms
step:1716/1750 train_loss:3.0946 train_time:273812ms step_avg:160.50ms
step:1717/1750 train_loss:3.2454 train_time:273976ms step_avg:160.50ms
step:1718/1750 train_loss:3.2553 train_time:274142ms step_avg:160.50ms
step:1719/1750 train_loss:3.2146 train_time:274311ms step_avg:160.51ms
step:1720/1750 train_loss:3.3734 train_time:274485ms step_avg:160.52ms
step:1721/1750 train_loss:3.1658 train_time:274667ms step_avg:160.53ms
step:1722/1750 train_loss:3.3124 train_time:274835ms step_avg:160.53ms
step:1723/1750 train_loss:3.4068 train_time:275012ms step_avg:160.54ms
step:1724/1750 train_loss:3.2619 train_time:275180ms step_avg:160.55ms
step:1725/1750 train_loss:3.4861 train_time:275354ms step_avg:160.56ms
step:1726/1750 train_loss:3.2543 train_time:275527ms step_avg:160.56ms
step:1727/1750 train_loss:3.3284 train_time:275692ms step_avg:160.57ms
step:1728/1750 train_loss:3.2958 train_time:275858ms step_avg:160.57ms
step:1729/1750 train_loss:3.2757 train_time:276030ms step_avg:160.58ms
step:1730/1750 train_loss:3.6487 train_time:276202ms step_avg:160.58ms
step:1731/1750 train_loss:3.2979 train_time:276366ms step_avg:160.58ms
step:1732/1750 train_loss:3.4335 train_time:276533ms step_avg:160.59ms
step:1733/1750 train_loss:3.2034 train_time:276696ms step_avg:160.59ms
step:1734/1750 train_loss:3.2454 train_time:276863ms step_avg:160.59ms
step:1735/1750 train_loss:3.2681 train_time:277033ms step_avg:160.60ms
step:1736/1750 train_loss:3.2552 train_time:277203ms step_avg:160.60ms
step:1737/1750 train_loss:3.3841 train_time:277374ms step_avg:160.61ms
step:1738/1750 train_loss:3.2144 train_time:277550ms step_avg:160.62ms
step:1739/1750 train_loss:3.2845 train_time:277723ms step_avg:160.63ms
step:1740/1750 train_loss:3.3684 train_time:277894ms step_avg:160.63ms
step:1741/1750 train_loss:3.1579 train_time:278060ms step_avg:160.64ms
step:1742/1750 train_loss:3.0591 train_time:278229ms step_avg:160.64ms
step:1743/1750 train_loss:2.9582 train_time:278405ms step_avg:160.65ms
step:1744/1750 train_loss:3.2896 train_time:278570ms step_avg:160.65ms
step:1745/1750 train_loss:3.3136 train_time:278732ms step_avg:160.65ms
step:1746/1750 train_loss:3.2697 train_time:278896ms step_avg:160.65ms
step:1747/1750 train_loss:3.2939 train_time:279067ms step_avg:160.66ms
step:1748/1750 train_loss:3.4992 train_time:279251ms step_avg:160.67ms
step:1749/1750 train_loss:3.2193 train_time:279418ms step_avg:160.68ms
step:1750/1750 train_loss:3.2767 train_time:279588ms step_avg:160.68ms
step:1750/1750 val_loss:3.2735 train_time:279637ms step_avg:160.71ms