records/112424_WindowWarmup/ba299b7e-a36a-4fd8-a268-25bb772010dd.txt

====================================================================================================
import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import flex_attention, create_block_mask
flex_attention = torch.compile(flex_attention, dynamic=False)
create_block_mask = torch.compile(create_block_mask, dynamic=False)

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    if group['nesterov']:
                        g = g.add(buf, alpha=momentum)
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.dim = dim
        self.base = base
        self.inv_freq = None
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            self.inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2, device=x.device).float() / self.dim))
            self.seq_len_cached = seq_len
            t = torch.arange(seq_len, device=x.device).type_as(self.inv_freq)
            freqs = torch.outer(t, self.inv_freq)
            self.cos_cached = freqs.cos().bfloat16()
            self.sin_cached = freqs.sin().bfloat16()
        return self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]

def apply_rotary_emb(x, cos, sin):
    assert x.ndim == 4 # multihead attention
    d = x.shape[3]//2
    x1 = x[..., :d]
    x2 = x[..., d:]
    y1 = x1 * cos + x2 * sin
    y2 = x1 * (-sin) + x2 * cos
    return torch.cat([y1, y2], 3).type_as(x)

class CastedLinear(nn.Linear):
    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class CausalSelfAttention(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = self.n_embd // self.n_head
        assert self.n_embd % self.n_head == 0
        self.c_q = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_k = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_v = CastedLinear(self.n_embd, self.n_embd, bias=False)
        # output projection
        self.c_proj = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977
        self.rotary = Rotary(self.head_dim)
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977

    def forward(self, x, v1, block_mask):
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)
        q = self.c_q(x).view(B, T, self.n_head, self.head_dim)
        k = self.c_k(x).view(B, T, self.n_head, self.head_dim)
        v = self.c_v(x).view(B, T, self.n_head, self.head_dim)
        if v1 is None:
            v1 = v # This happens if we are in the first block. v needs to be accessed by subsequent blocks
        v = (1 - self.lamb) * v + self.lamb * v1.view_as(v) # @Grad62304977
        cos, sin = self.rotary(q)
        q, k = F.rms_norm(q, (q.size(-1),)), F.rms_norm(k, (k.size(-1),)) # QK norm suggested by @Grad62304977
        q, k = apply_rotary_emb(q, cos, sin), apply_rotary_emb(k, cos, sin)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y, v1

class MLP(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.c_fc    = CastedLinear(config.n_embd, 4 * config.n_embd, bias=False)
        self.c_proj  = CastedLinear(4 * config.n_embd, config.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config)
        self.mlp = MLP(config)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, v1, x0, block_mask):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x1, v1 = self.attn(F.rms_norm(x, (x.size(-1),)), v1, block_mask)
        x = x + x1
        x = x + self.mlp(F.rms_norm(x, (x.size(-1),)))
        return x, v1

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size, bias=False)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target, attn_blocksize):

        docs = (idx == 50256).cumsum(0)
        def document_causal_mask(b, h, q_idx, kv_idx):
          causal_mask = q_idx >= kv_idx
          document_mask = docs[q_idx] == docs[kv_idx]
          window_mask = q_idx - kv_idx < attn_blocksize
          return causal_mask & document_mask & window_mask

        S = len(idx)
        block_mask = create_block_mask(document_causal_mask, None, None, S, S, device="cuda", _compile=True)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = F.rms_norm(x, (x.size(-1),)) # @Grad62304977
        x0 = x
        v1 = None

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x, v1 = self.transformer.h[i](x, v1, x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            x, v1 = self.transformer.h[self.num_encoder_layers + i](x, v1, x0, block_mask)

        x = F.rms_norm(x, (x.size(-1),))
        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, B, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.B = B
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * B * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.B * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        batch_size = self.B * self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.B*self.T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = buf[:-1] # inputs
        y = buf[1:] # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size >= len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    device_batch_size : int = 1 # batch size, in sequences, per device
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1750 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 640 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write('='*100 + '\n')
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
B, T = args.device_batch_size, args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (B * T * ddp_world_size) == 0
val_steps = args.val_tokens // (B * T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (B * ddp_world_size) == 0
train_accumulation_steps = args.batch_size // (B * ddp_world_size)

# load tokens
train_loader = DistributedDataLoader(args.input_bin, B, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, B, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# CUDNN attention is ~4ms faster than Flash, but doesn't get selected by default in PyTorch 2.5.1
from torch.backends.cuda import enable_cudnn_sdp, enable_flash_sdp, enable_math_sdp, enable_mem_efficient_sdp
enable_cudnn_sdp(True)
enable_flash_sdp(False)
enable_mem_efficient_sdp(False)
enable_math_sdp(False)

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight], lr=0.6,   betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight],         lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # Set the attention blocksize for the current step, in chunks of 64
    attn_blocksize = torch.tensor(64*((step/args.num_iterations * (1792 - 64) + 64)//64), dtype=torch.int, device='cuda')
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, attn_blocksize=attn_blocksize)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        # forward pass
        loss = model(x, y, attn_blocksize=attn_blocksize)
        train_loss = loss.detach()
        # advance the dataset for the next batch
        x, y = train_loader.next_batch()
        # backward pass
        if i < train_accumulation_steps:
            with model.no_sync(): # there's no need to sync gradients every accumulation step
                loss.backward()
        else:
            loss.backward() # just sync on the last step
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/300, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    approx_time = training_time_ms + 1000 * (time.time() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241124+cu124 compiled for CUDA 12.4
nvidia-smi:
Mon Nov 25 00:04:42 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 555.42.06              Driver Version: 555.42.06      CUDA Version: 12.5     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 80GB HBM3          Off |   00000000:18:00.0 Off |                    0 |
| N/A   32C    P0             69W /  700W |       4MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          Off |   00000000:2A:00.0 Off |                    0 |
| N/A   37C    P0            116W /  700W |      23MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          Off |   00000000:3A:00.0 Off |                    0 |
| N/A   39C    P0            113W /  700W |     530MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          Off |   00000000:5D:00.0 Off |                    0 |
| N/A   32C    P0            114W /  700W |      44MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          Off |   00000000:84:00.0 Off |                    0 |
| N/A   32C    P0            112W /  700W |     530MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          Off |   00000000:8B:00.0 Off |                    0 |
| N/A   38C    P0            117W /  700W |      42MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          Off |   00000000:91:00.0 Off |                    0 |
| N/A   35C    P0            109W /  700W |      23MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          Off |   00000000:E4:00.0 Off |                    0 |
| N/A   32C    P0            116W /  700W |     530MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    1   N/A  N/A     32988      C   /usr/bin/python3                                0MiB |
|    2   N/A  N/A     32989      C   /usr/bin/python3                                0MiB |
|    3   N/A  N/A     32990      C   /usr/bin/python3                                0MiB |
|    4   N/A  N/A     32991      C   /usr/bin/python3                                0MiB |
|    5   N/A  N/A     32992      C   /usr/bin/python3                                0MiB |
|    6   N/A  N/A     32993      C   /usr/bin/python3                                0MiB |
|    7   N/A  N/A     32994      C   /usr/bin/python3                                0MiB |
+-----------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 1800000000 across 18 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1750 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1750 train_loss:10.8258 train_time:25695ms step_avg:nanms
step:2/1750 train_loss:10.0780 train_time:25805ms step_avg:nanms
step:3/1750 train_loss:8.3807 train_time:25950ms step_avg:nanms
step:4/1750 train_loss:7.5740 train_time:26098ms step_avg:nanms
step:5/1750 train_loss:7.4820 train_time:26244ms step_avg:nanms
step:6/1750 train_loss:6.9623 train_time:26391ms step_avg:nanms
step:7/1750 train_loss:7.2179 train_time:26541ms step_avg:nanms
step:8/1750 train_loss:6.7401 train_time:26687ms step_avg:nanms
step:9/1750 train_loss:6.6296 train_time:26833ms step_avg:nanms
step:10/1750 train_loss:6.5109 train_time:26982ms step_avg:nanms
step:11/1750 train_loss:6.4241 train_time:109ms step_avg:nanms
step:12/1750 train_loss:6.3336 train_time:257ms step_avg:nanms
step:13/1750 train_loss:6.3133 train_time:404ms step_avg:134.76ms
step:14/1750 train_loss:6.2517 train_time:551ms step_avg:137.70ms
step:15/1750 train_loss:6.2284 train_time:700ms step_avg:140.00ms
step:16/1750 train_loss:6.1829 train_time:847ms step_avg:141.23ms
step:17/1750 train_loss:6.2496 train_time:995ms step_avg:142.17ms
step:18/1750 train_loss:6.0229 train_time:1143ms step_avg:142.91ms
step:19/1750 train_loss:6.0581 train_time:1291ms step_avg:143.40ms
step:20/1750 train_loss:5.7427 train_time:1439ms step_avg:143.91ms
step:21/1750 train_loss:6.0471 train_time:1588ms step_avg:144.37ms
step:22/1750 train_loss:6.2579 train_time:1735ms step_avg:144.60ms
step:23/1750 train_loss:5.9635 train_time:1883ms step_avg:144.86ms
step:24/1750 train_loss:6.1333 train_time:2029ms step_avg:144.96ms
step:25/1750 train_loss:5.7741 train_time:2178ms step_avg:145.20ms
step:26/1750 train_loss:5.6894 train_time:2327ms step_avg:145.42ms
step:27/1750 train_loss:5.9393 train_time:2473ms step_avg:145.48ms
step:28/1750 train_loss:5.5191 train_time:2622ms step_avg:145.64ms
step:29/1750 train_loss:5.7794 train_time:2768ms step_avg:145.67ms
step:30/1750 train_loss:5.5926 train_time:2916ms step_avg:145.80ms
step:31/1750 train_loss:5.5676 train_time:3063ms step_avg:145.88ms
step:32/1750 train_loss:5.4175 train_time:3210ms step_avg:145.93ms
step:33/1750 train_loss:5.7134 train_time:3358ms step_avg:146.02ms
step:34/1750 train_loss:5.6071 train_time:3507ms step_avg:146.11ms
step:35/1750 train_loss:5.7550 train_time:3653ms step_avg:146.11ms
step:36/1750 train_loss:5.6555 train_time:3802ms step_avg:146.23ms
step:37/1750 train_loss:5.5608 train_time:3948ms step_avg:146.22ms
step:38/1750 train_loss:5.4291 train_time:4096ms step_avg:146.27ms
step:39/1750 train_loss:5.4267 train_time:4243ms step_avg:146.31ms
step:40/1750 train_loss:5.3427 train_time:4390ms step_avg:146.35ms
step:41/1750 train_loss:5.3431 train_time:4538ms step_avg:146.40ms
step:42/1750 train_loss:5.2800 train_time:4686ms step_avg:146.43ms
step:43/1750 train_loss:5.3616 train_time:4833ms step_avg:146.44ms
step:44/1750 train_loss:5.3401 train_time:4981ms step_avg:146.51ms
step:45/1750 train_loss:5.4859 train_time:5128ms step_avg:146.52ms
step:46/1750 train_loss:5.2753 train_time:5276ms step_avg:146.54ms
step:47/1750 train_loss:5.1751 train_time:5423ms step_avg:146.58ms
step:48/1750 train_loss:5.3175 train_time:5570ms step_avg:146.57ms
step:49/1750 train_loss:5.2512 train_time:5718ms step_avg:146.62ms
step:50/1750 train_loss:5.3564 train_time:5865ms step_avg:146.62ms
step:51/1750 train_loss:5.2411 train_time:6012ms step_avg:146.64ms
step:52/1750 train_loss:5.1142 train_time:6160ms step_avg:146.67ms
step:53/1750 train_loss:5.2588 train_time:6307ms step_avg:146.68ms
step:54/1750 train_loss:5.0961 train_time:6454ms step_avg:146.69ms
step:55/1750 train_loss:5.4971 train_time:6603ms step_avg:146.72ms
step:56/1750 train_loss:5.1019 train_time:6749ms step_avg:146.71ms
step:57/1750 train_loss:4.9705 train_time:6897ms step_avg:146.75ms
step:58/1750 train_loss:5.0920 train_time:7044ms step_avg:146.76ms
step:59/1750 train_loss:5.1069 train_time:7191ms step_avg:146.75ms
step:60/1750 train_loss:5.2361 train_time:7339ms step_avg:146.78ms
step:61/1750 train_loss:4.9583 train_time:7487ms step_avg:146.80ms
step:62/1750 train_loss:5.0664 train_time:7633ms step_avg:146.79ms
step:63/1750 train_loss:5.0454 train_time:7781ms step_avg:146.81ms
step:64/1750 train_loss:4.9440 train_time:7928ms step_avg:146.82ms
step:65/1750 train_loss:4.9050 train_time:8075ms step_avg:146.82ms
step:66/1750 train_loss:5.0570 train_time:8224ms step_avg:146.87ms
step:67/1750 train_loss:4.9383 train_time:8370ms step_avg:146.85ms
step:68/1750 train_loss:5.1986 train_time:8519ms step_avg:146.88ms
step:69/1750 train_loss:4.8148 train_time:8665ms step_avg:146.87ms
step:70/1750 train_loss:4.9321 train_time:8813ms step_avg:146.88ms
step:71/1750 train_loss:5.0730 train_time:8960ms step_avg:146.89ms
step:72/1750 train_loss:4.9686 train_time:9108ms step_avg:146.90ms
step:73/1750 train_loss:4.8311 train_time:9255ms step_avg:146.90ms
step:74/1750 train_loss:4.9930 train_time:9403ms step_avg:146.92ms
step:75/1750 train_loss:4.9804 train_time:9550ms step_avg:146.92ms
step:76/1750 train_loss:4.8912 train_time:9697ms step_avg:146.93ms
step:77/1750 train_loss:5.0111 train_time:9845ms step_avg:146.94ms
step:78/1750 train_loss:5.1832 train_time:9991ms step_avg:146.93ms
step:79/1750 train_loss:4.9301 train_time:10139ms step_avg:146.95ms
step:80/1750 train_loss:4.9541 train_time:10288ms step_avg:146.97ms
step:81/1750 train_loss:4.7291 train_time:10435ms step_avg:146.97ms
step:82/1750 train_loss:4.8859 train_time:10583ms step_avg:146.99ms
step:83/1750 train_loss:4.8553 train_time:10730ms step_avg:146.99ms
step:84/1750 train_loss:4.8446 train_time:10878ms step_avg:147.00ms
step:85/1750 train_loss:4.7034 train_time:11025ms step_avg:147.00ms
step:86/1750 train_loss:4.9182 train_time:11172ms step_avg:147.00ms
step:87/1750 train_loss:4.8177 train_time:11320ms step_avg:147.01ms
step:88/1750 train_loss:4.8126 train_time:11466ms step_avg:147.00ms
step:89/1750 train_loss:4.7840 train_time:11614ms step_avg:147.01ms
step:90/1750 train_loss:4.7166 train_time:11762ms step_avg:147.02ms
step:91/1750 train_loss:4.6916 train_time:11908ms step_avg:147.02ms
step:92/1750 train_loss:4.8620 train_time:12055ms step_avg:147.02ms
step:93/1750 train_loss:4.6765 train_time:12203ms step_avg:147.03ms
step:94/1750 train_loss:4.6959 train_time:12350ms step_avg:147.02ms
step:95/1750 train_loss:4.7407 train_time:12498ms step_avg:147.04ms
step:96/1750 train_loss:4.6345 train_time:12645ms step_avg:147.04ms
step:97/1750 train_loss:4.6839 train_time:12792ms step_avg:147.03ms
step:98/1750 train_loss:4.6181 train_time:12940ms step_avg:147.05ms
step:99/1750 train_loss:4.7254 train_time:13088ms step_avg:147.05ms
step:100/1750 train_loss:4.7273 train_time:13234ms step_avg:147.05ms
step:101/1750 train_loss:4.5945 train_time:13382ms step_avg:147.06ms
step:102/1750 train_loss:4.7547 train_time:13529ms step_avg:147.06ms
step:103/1750 train_loss:4.6335 train_time:13676ms step_avg:147.05ms
step:104/1750 train_loss:4.5675 train_time:13825ms step_avg:147.07ms
step:105/1750 train_loss:4.5871 train_time:13972ms step_avg:147.08ms
step:106/1750 train_loss:4.6472 train_time:14120ms step_avg:147.08ms
step:107/1750 train_loss:4.5531 train_time:14267ms step_avg:147.08ms
step:108/1750 train_loss:4.3880 train_time:14415ms step_avg:147.09ms
step:109/1750 train_loss:4.5247 train_time:14562ms step_avg:147.09ms
step:110/1750 train_loss:4.5218 train_time:14708ms step_avg:147.08ms
step:111/1750 train_loss:4.4680 train_time:14855ms step_avg:147.08ms
step:112/1750 train_loss:4.6377 train_time:15003ms step_avg:147.09ms
step:113/1750 train_loss:4.5291 train_time:15150ms step_avg:147.09ms
step:114/1750 train_loss:4.3991 train_time:15298ms step_avg:147.10ms
step:115/1750 train_loss:4.5424 train_time:15445ms step_avg:147.09ms
step:116/1750 train_loss:4.5120 train_time:15591ms step_avg:147.09ms
step:117/1750 train_loss:4.4303 train_time:15738ms step_avg:147.08ms
step:118/1750 train_loss:4.6336 train_time:15886ms step_avg:147.09ms
step:119/1750 train_loss:4.5037 train_time:16031ms step_avg:147.08ms
step:120/1750 train_loss:4.3948 train_time:16180ms step_avg:147.09ms
step:121/1750 train_loss:4.3501 train_time:16327ms step_avg:147.09ms
step:122/1750 train_loss:4.4997 train_time:16474ms step_avg:147.09ms
step:123/1750 train_loss:4.3296 train_time:16621ms step_avg:147.09ms
step:124/1750 train_loss:4.6328 train_time:16768ms step_avg:147.08ms
step:125/1750 train_loss:4.5113 train_time:16916ms step_avg:147.10ms
step:125/1750 val_loss:4.4529 train_time:16954ms step_avg:147.42ms
step:126/1750 train_loss:4.4676 train_time:17064ms step_avg:147.10ms
step:127/1750 train_loss:4.4933 train_time:17213ms step_avg:147.12ms
step:128/1750 train_loss:4.4231 train_time:17361ms step_avg:147.13ms
step:129/1750 train_loss:4.7170 train_time:17508ms step_avg:147.13ms
step:130/1750 train_loss:4.4160 train_time:17656ms step_avg:147.14ms
step:131/1750 train_loss:4.4410 train_time:17804ms step_avg:147.14ms
step:132/1750 train_loss:4.3840 train_time:17957ms step_avg:147.19ms
step:133/1750 train_loss:4.4972 train_time:18106ms step_avg:147.20ms
step:134/1750 train_loss:4.2869 train_time:18257ms step_avg:147.24ms
step:135/1750 train_loss:4.4723 train_time:18407ms step_avg:147.26ms
step:136/1750 train_loss:4.2500 train_time:18559ms step_avg:147.29ms
step:137/1750 train_loss:4.3948 train_time:18709ms step_avg:147.31ms
step:138/1750 train_loss:4.3163 train_time:18860ms step_avg:147.34ms
step:139/1750 train_loss:4.4152 train_time:19009ms step_avg:147.36ms
step:140/1750 train_loss:4.4917 train_time:19160ms step_avg:147.39ms
step:141/1750 train_loss:4.3289 train_time:19310ms step_avg:147.40ms
step:142/1750 train_loss:4.3195 train_time:19461ms step_avg:147.43ms
step:143/1750 train_loss:4.2748 train_time:19611ms step_avg:147.45ms
step:144/1750 train_loss:4.3697 train_time:19761ms step_avg:147.47ms
step:145/1750 train_loss:4.3252 train_time:19912ms step_avg:147.49ms
step:146/1750 train_loss:4.1812 train_time:20063ms step_avg:147.52ms
step:147/1750 train_loss:4.3411 train_time:20213ms step_avg:147.54ms
step:148/1750 train_loss:4.3783 train_time:20364ms step_avg:147.56ms
step:149/1750 train_loss:4.3286 train_time:20515ms step_avg:147.59ms
step:150/1750 train_loss:4.4638 train_time:20664ms step_avg:147.60ms
step:151/1750 train_loss:4.2881 train_time:20815ms step_avg:147.63ms
step:152/1750 train_loss:4.2830 train_time:20965ms step_avg:147.64ms
step:153/1750 train_loss:4.3853 train_time:21117ms step_avg:147.67ms
step:154/1750 train_loss:4.3769 train_time:21267ms step_avg:147.69ms
step:155/1750 train_loss:4.2867 train_time:21418ms step_avg:147.71ms
step:156/1750 train_loss:4.3618 train_time:21568ms step_avg:147.73ms
step:157/1750 train_loss:4.4219 train_time:21720ms step_avg:147.75ms
step:158/1750 train_loss:4.2551 train_time:21869ms step_avg:147.76ms
step:159/1750 train_loss:4.3233 train_time:22020ms step_avg:147.79ms
step:160/1750 train_loss:4.1514 train_time:22169ms step_avg:147.80ms
step:161/1750 train_loss:4.3764 train_time:22320ms step_avg:147.82ms
step:162/1750 train_loss:4.3772 train_time:22470ms step_avg:147.83ms
step:163/1750 train_loss:4.3467 train_time:22621ms step_avg:147.85ms
step:164/1750 train_loss:4.2188 train_time:22772ms step_avg:147.87ms
step:165/1750 train_loss:4.3032 train_time:22922ms step_avg:147.89ms
step:166/1750 train_loss:4.3636 train_time:23073ms step_avg:147.90ms
step:167/1750 train_loss:4.2145 train_time:23224ms step_avg:147.92ms
step:168/1750 train_loss:4.3025 train_time:23374ms step_avg:147.94ms
step:169/1750 train_loss:4.1723 train_time:23525ms step_avg:147.96ms
step:170/1750 train_loss:4.0312 train_time:23677ms step_avg:147.98ms
step:171/1750 train_loss:4.2092 train_time:23826ms step_avg:147.99ms
step:172/1750 train_loss:4.2302 train_time:23978ms step_avg:148.01ms
step:173/1750 train_loss:4.2844 train_time:24128ms step_avg:148.02ms
step:174/1750 train_loss:4.4534 train_time:24279ms step_avg:148.04ms
step:175/1750 train_loss:4.2729 train_time:24430ms step_avg:148.06ms
step:176/1750 train_loss:4.1212 train_time:24580ms step_avg:148.07ms
step:177/1750 train_loss:4.0950 train_time:24730ms step_avg:148.08ms
step:178/1750 train_loss:4.2127 train_time:24880ms step_avg:148.10ms
step:179/1750 train_loss:4.1441 train_time:25030ms step_avg:148.11ms
step:180/1750 train_loss:4.1306 train_time:25181ms step_avg:148.12ms
step:181/1750 train_loss:4.3273 train_time:25332ms step_avg:148.14ms
step:182/1750 train_loss:4.1959 train_time:25482ms step_avg:148.15ms
step:183/1750 train_loss:4.1598 train_time:25632ms step_avg:148.16ms
step:184/1750 train_loss:4.1547 train_time:25783ms step_avg:148.18ms
step:185/1750 train_loss:4.2298 train_time:25935ms step_avg:148.20ms
step:186/1750 train_loss:4.1969 train_time:26086ms step_avg:148.21ms
step:187/1750 train_loss:4.2811 train_time:26238ms step_avg:148.24ms
step:188/1750 train_loss:4.1960 train_time:26507ms step_avg:148.92ms
step:189/1750 train_loss:4.1493 train_time:26806ms step_avg:149.76ms
step:190/1750 train_loss:4.2436 train_time:26956ms step_avg:149.76ms
step:191/1750 train_loss:4.1115 train_time:27105ms step_avg:149.75ms
step:192/1750 train_loss:4.0692 train_time:27257ms step_avg:149.76ms
step:193/1750 train_loss:4.2853 train_time:27406ms step_avg:149.76ms
step:194/1750 train_loss:4.2020 train_time:27557ms step_avg:149.77ms
step:195/1750 train_loss:4.3874 train_time:27706ms step_avg:149.76ms
step:196/1750 train_loss:4.2205 train_time:27857ms step_avg:149.77ms
step:197/1750 train_loss:4.0662 train_time:28006ms step_avg:149.77ms
step:198/1750 train_loss:4.1894 train_time:28157ms step_avg:149.77ms
step:199/1750 train_loss:4.0556 train_time:28305ms step_avg:149.76ms
step:200/1750 train_loss:4.1418 train_time:28456ms step_avg:149.77ms
step:201/1750 train_loss:4.0373 train_time:28604ms step_avg:149.76ms
step:202/1750 train_loss:4.2659 train_time:28754ms step_avg:149.76ms
step:203/1750 train_loss:4.0810 train_time:28903ms step_avg:149.76ms
step:204/1750 train_loss:4.2132 train_time:29054ms step_avg:149.76ms
step:205/1750 train_loss:4.2610 train_time:29203ms step_avg:149.76ms
step:206/1750 train_loss:3.9570 train_time:29353ms step_avg:149.76ms
step:207/1750 train_loss:4.0958 train_time:29502ms step_avg:149.76ms
step:208/1750 train_loss:4.1012 train_time:29652ms step_avg:149.76ms
step:209/1750 train_loss:4.2475 train_time:29801ms step_avg:149.75ms
step:210/1750 train_loss:4.2052 train_time:29951ms step_avg:149.75ms
step:211/1750 train_loss:4.0733 train_time:30099ms step_avg:149.75ms
step:212/1750 train_loss:4.1255 train_time:30249ms step_avg:149.75ms
step:213/1750 train_loss:4.0616 train_time:30398ms step_avg:149.74ms
step:214/1750 train_loss:4.1356 train_time:30548ms step_avg:149.74ms
step:215/1750 train_loss:3.9759 train_time:30697ms step_avg:149.74ms
step:216/1750 train_loss:4.0288 train_time:30846ms step_avg:149.74ms
step:217/1750 train_loss:4.0375 train_time:30996ms step_avg:149.74ms
step:218/1750 train_loss:4.0921 train_time:31145ms step_avg:149.74ms
step:219/1750 train_loss:4.0815 train_time:31296ms step_avg:149.74ms
step:220/1750 train_loss:4.0890 train_time:31446ms step_avg:149.74ms
step:221/1750 train_loss:4.1035 train_time:31595ms step_avg:149.74ms
step:222/1750 train_loss:4.0038 train_time:31745ms step_avg:149.74ms
step:223/1750 train_loss:4.0002 train_time:31894ms step_avg:149.74ms
step:224/1750 train_loss:4.3110 train_time:32043ms step_avg:149.73ms
step:225/1750 train_loss:3.9172 train_time:32193ms step_avg:149.74ms
step:226/1750 train_loss:4.0015 train_time:32342ms step_avg:149.73ms
step:227/1750 train_loss:4.0107 train_time:32492ms step_avg:149.73ms
step:228/1750 train_loss:4.1665 train_time:32641ms step_avg:149.73ms
step:229/1750 train_loss:3.9428 train_time:32789ms step_avg:149.72ms
step:230/1750 train_loss:4.0593 train_time:32939ms step_avg:149.72ms
step:231/1750 train_loss:3.9289 train_time:33088ms step_avg:149.72ms
step:232/1750 train_loss:3.9941 train_time:33238ms step_avg:149.72ms
step:233/1750 train_loss:4.1175 train_time:33386ms step_avg:149.71ms
step:234/1750 train_loss:4.0474 train_time:33537ms step_avg:149.72ms
step:235/1750 train_loss:3.9366 train_time:33686ms step_avg:149.71ms
step:236/1750 train_loss:4.1093 train_time:33836ms step_avg:149.72ms
step:237/1750 train_loss:4.1022 train_time:33985ms step_avg:149.71ms
step:238/1750 train_loss:3.9610 train_time:34136ms step_avg:149.72ms
step:239/1750 train_loss:4.1062 train_time:34285ms step_avg:149.71ms
step:240/1750 train_loss:4.1305 train_time:34435ms step_avg:149.72ms
step:241/1750 train_loss:3.9975 train_time:34584ms step_avg:149.71ms
step:242/1750 train_loss:4.1697 train_time:34735ms step_avg:149.72ms
step:243/1750 train_loss:4.0437 train_time:34884ms step_avg:149.72ms
step:244/1750 train_loss:4.0968 train_time:35035ms step_avg:149.72ms
step:245/1750 train_loss:4.1657 train_time:35184ms step_avg:149.72ms
step:246/1750 train_loss:4.0765 train_time:35334ms step_avg:149.72ms
step:247/1750 train_loss:4.0249 train_time:35483ms step_avg:149.72ms
step:248/1750 train_loss:4.1405 train_time:35634ms step_avg:149.72ms
step:249/1750 train_loss:3.9479 train_time:35783ms step_avg:149.72ms
step:250/1750 train_loss:4.0021 train_time:35933ms step_avg:149.72ms
step:250/1750 val_loss:4.0307 train_time:35971ms step_avg:149.88ms
step:251/1750 train_loss:4.0993 train_time:36085ms step_avg:149.73ms
step:252/1750 train_loss:4.1857 train_time:36235ms step_avg:149.73ms
step:253/1750 train_loss:3.9560 train_time:36387ms step_avg:149.74ms
step:254/1750 train_loss:3.9037 train_time:36536ms step_avg:149.74ms
step:255/1750 train_loss:4.0933 train_time:36686ms step_avg:149.74ms
step:256/1750 train_loss:4.0061 train_time:36835ms step_avg:149.74ms
step:257/1750 train_loss:4.0044 train_time:36985ms step_avg:149.74ms
step:258/1750 train_loss:4.0157 train_time:37134ms step_avg:149.73ms
step:259/1750 train_loss:4.0521 train_time:37285ms step_avg:149.74ms
step:260/1750 train_loss:4.0739 train_time:37434ms step_avg:149.74ms
step:261/1750 train_loss:4.0406 train_time:37586ms step_avg:149.75ms
step:262/1750 train_loss:4.0214 train_time:37739ms step_avg:149.76ms
step:263/1750 train_loss:3.9198 train_time:37890ms step_avg:149.76ms
step:264/1750 train_loss:4.0088 train_time:38044ms step_avg:149.78ms
step:265/1750 train_loss:3.8908 train_time:38197ms step_avg:149.79ms
step:266/1750 train_loss:3.9381 train_time:38350ms step_avg:149.80ms
step:267/1750 train_loss:3.9398 train_time:38502ms step_avg:149.81ms
step:268/1750 train_loss:3.9778 train_time:38654ms step_avg:149.82ms
step:269/1750 train_loss:3.8776 train_time:38807ms step_avg:149.83ms
step:270/1750 train_loss:4.1187 train_time:38960ms step_avg:149.85ms
step:271/1750 train_loss:3.9888 train_time:39111ms step_avg:149.85ms
step:272/1750 train_loss:3.9344 train_time:39264ms step_avg:149.86ms
step:273/1750 train_loss:3.9589 train_time:39416ms step_avg:149.87ms
step:274/1750 train_loss:4.0521 train_time:39569ms step_avg:149.88ms
step:275/1750 train_loss:4.0728 train_time:39721ms step_avg:149.89ms
step:276/1750 train_loss:4.2404 train_time:39875ms step_avg:149.91ms
step:277/1750 train_loss:4.0469 train_time:40028ms step_avg:149.92ms
step:278/1750 train_loss:4.1040 train_time:40180ms step_avg:149.92ms
step:279/1750 train_loss:4.0165 train_time:40332ms step_avg:149.93ms
step:280/1750 train_loss:4.2163 train_time:40487ms step_avg:149.95ms
step:281/1750 train_loss:3.9910 train_time:40640ms step_avg:149.96ms
step:282/1750 train_loss:3.9572 train_time:40793ms step_avg:149.97ms
step:283/1750 train_loss:3.9280 train_time:40946ms step_avg:149.99ms
step:284/1750 train_loss:4.0701 train_time:41098ms step_avg:149.99ms
step:285/1750 train_loss:4.0781 train_time:41250ms step_avg:150.00ms
step:286/1750 train_loss:4.1246 train_time:41403ms step_avg:150.01ms
step:287/1750 train_loss:3.9382 train_time:41555ms step_avg:150.02ms
step:288/1750 train_loss:4.0440 train_time:41708ms step_avg:150.03ms
step:289/1750 train_loss:3.9057 train_time:41861ms step_avg:150.04ms
step:290/1750 train_loss:3.8852 train_time:42013ms step_avg:150.04ms
step:291/1750 train_loss:3.9400 train_time:42168ms step_avg:150.06ms
step:292/1750 train_loss:3.8848 train_time:42320ms step_avg:150.07ms
step:293/1750 train_loss:3.9334 train_time:42473ms step_avg:150.08ms
step:294/1750 train_loss:3.9638 train_time:42626ms step_avg:150.09ms
step:295/1750 train_loss:3.8586 train_time:42777ms step_avg:150.10ms
step:296/1750 train_loss:3.8799 train_time:42931ms step_avg:150.11ms
step:297/1750 train_loss:3.8924 train_time:43085ms step_avg:150.12ms
step:298/1750 train_loss:3.9917 train_time:43236ms step_avg:150.13ms
step:299/1750 train_loss:3.8447 train_time:43390ms step_avg:150.14ms
step:300/1750 train_loss:3.9932 train_time:43543ms step_avg:150.15ms
step:301/1750 train_loss:3.9951 train_time:43695ms step_avg:150.16ms
step:302/1750 train_loss:3.9578 train_time:43849ms step_avg:150.17ms
step:303/1750 train_loss:4.0064 train_time:44001ms step_avg:150.17ms
step:304/1750 train_loss:3.9948 train_time:44154ms step_avg:150.18ms
step:305/1750 train_loss:4.4791 train_time:44306ms step_avg:150.19ms
step:306/1750 train_loss:3.9610 train_time:44458ms step_avg:150.20ms
step:307/1750 train_loss:3.8569 train_time:44610ms step_avg:150.20ms
step:308/1750 train_loss:4.0136 train_time:44763ms step_avg:150.21ms
step:309/1750 train_loss:3.8885 train_time:44915ms step_avg:150.22ms
step:310/1750 train_loss:4.1001 train_time:45068ms step_avg:150.23ms
step:311/1750 train_loss:3.9538 train_time:45220ms step_avg:150.23ms
step:312/1750 train_loss:3.8908 train_time:45372ms step_avg:150.24ms
step:313/1750 train_loss:3.9711 train_time:45526ms step_avg:150.25ms
step:314/1750 train_loss:4.0925 train_time:45677ms step_avg:150.25ms
step:315/1750 train_loss:3.9735 train_time:45830ms step_avg:150.26ms
step:316/1750 train_loss:3.8198 train_time:45980ms step_avg:150.26ms
step:317/1750 train_loss:3.8980 train_time:46133ms step_avg:150.27ms
step:318/1750 train_loss:3.9425 train_time:46287ms step_avg:150.28ms
step:319/1750 train_loss:3.9049 train_time:46439ms step_avg:150.29ms
step:320/1750 train_loss:4.0358 train_time:46592ms step_avg:150.30ms
step:321/1750 train_loss:3.9789 train_time:46745ms step_avg:150.31ms
step:322/1750 train_loss:3.9612 train_time:46897ms step_avg:150.31ms
step:323/1750 train_loss:4.0305 train_time:47050ms step_avg:150.32ms
step:324/1750 train_loss:3.9748 train_time:47202ms step_avg:150.32ms
step:325/1750 train_loss:4.0344 train_time:47355ms step_avg:150.33ms
step:326/1750 train_loss:3.9114 train_time:47506ms step_avg:150.34ms
step:327/1750 train_loss:4.4177 train_time:47657ms step_avg:150.34ms
step:328/1750 train_loss:4.0939 train_time:47809ms step_avg:150.34ms
step:329/1750 train_loss:3.8154 train_time:47961ms step_avg:150.35ms
step:330/1750 train_loss:3.7620 train_time:48112ms step_avg:150.35ms
step:331/1750 train_loss:3.9994 train_time:48265ms step_avg:150.36ms
step:332/1750 train_loss:3.9325 train_time:48416ms step_avg:150.36ms
step:333/1750 train_loss:3.9004 train_time:48568ms step_avg:150.36ms
step:334/1750 train_loss:3.8642 train_time:48719ms step_avg:150.37ms
step:335/1750 train_loss:4.0348 train_time:48871ms step_avg:150.37ms
step:336/1750 train_loss:3.9772 train_time:49023ms step_avg:150.38ms
step:337/1750 train_loss:4.4315 train_time:49175ms step_avg:150.38ms
step:338/1750 train_loss:3.9626 train_time:49327ms step_avg:150.39ms
step:339/1750 train_loss:3.8851 train_time:49477ms step_avg:150.39ms
step:340/1750 train_loss:3.9484 train_time:49629ms step_avg:150.39ms
step:341/1750 train_loss:3.8848 train_time:49779ms step_avg:150.39ms
step:342/1750 train_loss:3.8238 train_time:49931ms step_avg:150.39ms
step:343/1750 train_loss:3.8550 train_time:50083ms step_avg:150.40ms
step:344/1750 train_loss:4.0133 train_time:50235ms step_avg:150.40ms
step:345/1750 train_loss:3.8402 train_time:50388ms step_avg:150.41ms
step:346/1750 train_loss:3.7841 train_time:50539ms step_avg:150.41ms
step:347/1750 train_loss:3.8231 train_time:50690ms step_avg:150.42ms
step:348/1750 train_loss:3.8815 train_time:50842ms step_avg:150.42ms
step:349/1750 train_loss:3.8551 train_time:50995ms step_avg:150.43ms
step:350/1750 train_loss:3.5833 train_time:51147ms step_avg:150.43ms
step:351/1750 train_loss:3.8479 train_time:51298ms step_avg:150.43ms
step:352/1750 train_loss:4.2074 train_time:51449ms step_avg:150.44ms
step:353/1750 train_loss:3.6776 train_time:51600ms step_avg:150.44ms
step:354/1750 train_loss:3.9468 train_time:51752ms step_avg:150.44ms
step:355/1750 train_loss:3.8140 train_time:51904ms step_avg:150.45ms
step:356/1750 train_loss:3.9045 train_time:52056ms step_avg:150.45ms
step:357/1750 train_loss:3.7841 train_time:52207ms step_avg:150.45ms
step:358/1750 train_loss:3.8762 train_time:52359ms step_avg:150.46ms
step:359/1750 train_loss:3.8320 train_time:52510ms step_avg:150.46ms
step:360/1750 train_loss:3.4565 train_time:52663ms step_avg:150.46ms
step:361/1750 train_loss:4.0525 train_time:52814ms step_avg:150.47ms
step:362/1750 train_loss:3.9509 train_time:52966ms step_avg:150.47ms
step:363/1750 train_loss:3.8671 train_time:53116ms step_avg:150.47ms
step:364/1750 train_loss:3.7644 train_time:53269ms step_avg:150.48ms
step:365/1750 train_loss:3.9402 train_time:53420ms step_avg:150.48ms
step:366/1750 train_loss:3.8868 train_time:53571ms step_avg:150.48ms
step:367/1750 train_loss:3.8777 train_time:53724ms step_avg:150.49ms
step:368/1750 train_loss:3.8697 train_time:53876ms step_avg:150.49ms
step:369/1750 train_loss:3.7632 train_time:54028ms step_avg:150.50ms
step:370/1750 train_loss:3.9146 train_time:54179ms step_avg:150.50ms
step:371/1750 train_loss:3.7625 train_time:54330ms step_avg:150.50ms
step:372/1750 train_loss:3.7163 train_time:54482ms step_avg:150.50ms
step:373/1750 train_loss:3.9382 train_time:54634ms step_avg:150.51ms
step:374/1750 train_loss:3.8564 train_time:54787ms step_avg:150.51ms
step:375/1750 train_loss:3.8232 train_time:54937ms step_avg:150.51ms
step:375/1750 val_loss:3.8470 train_time:54977ms step_avg:150.62ms
step:376/1750 train_loss:3.8837 train_time:55091ms step_avg:150.52ms
step:377/1750 train_loss:3.8156 train_time:55362ms step_avg:150.85ms
step:378/1750 train_loss:3.8692 train_time:55521ms step_avg:150.87ms
step:379/1750 train_loss:3.9001 train_time:55809ms step_avg:151.24ms
step:380/1750 train_loss:3.9819 train_time:55958ms step_avg:151.24ms
step:381/1750 train_loss:3.8612 train_time:56110ms step_avg:151.24ms
step:382/1750 train_loss:3.8360 train_time:56264ms step_avg:151.25ms
step:383/1750 train_loss:3.8223 train_time:56415ms step_avg:151.25ms
step:384/1750 train_loss:3.8891 train_time:56569ms step_avg:151.25ms
step:385/1750 train_loss:3.8125 train_time:56720ms step_avg:151.25ms
step:386/1750 train_loss:3.9167 train_time:56872ms step_avg:151.25ms
step:387/1750 train_loss:4.0918 train_time:57025ms step_avg:151.26ms
step:388/1750 train_loss:3.8203 train_time:57177ms step_avg:151.26ms
step:389/1750 train_loss:3.8170 train_time:57330ms step_avg:151.27ms
step:390/1750 train_loss:3.9185 train_time:57483ms step_avg:151.27ms
step:391/1750 train_loss:3.8381 train_time:57636ms step_avg:151.28ms
step:392/1750 train_loss:3.9455 train_time:57790ms step_avg:151.28ms
step:393/1750 train_loss:3.7791 train_time:57945ms step_avg:151.29ms
step:394/1750 train_loss:3.9060 train_time:58099ms step_avg:151.30ms
step:395/1750 train_loss:3.6531 train_time:58254ms step_avg:151.31ms
step:396/1750 train_loss:3.8555 train_time:58409ms step_avg:151.32ms
step:397/1750 train_loss:3.8862 train_time:58563ms step_avg:151.33ms
step:398/1750 train_loss:3.8955 train_time:58717ms step_avg:151.33ms
step:399/1750 train_loss:3.7982 train_time:58872ms step_avg:151.34ms
step:400/1750 train_loss:3.8484 train_time:59027ms step_avg:151.35ms
step:401/1750 train_loss:3.9313 train_time:59180ms step_avg:151.36ms
step:402/1750 train_loss:3.8656 train_time:59334ms step_avg:151.36ms
step:403/1750 train_loss:3.9786 train_time:59490ms step_avg:151.37ms
step:404/1750 train_loss:3.7029 train_time:59643ms step_avg:151.38ms
step:405/1750 train_loss:3.8017 train_time:59797ms step_avg:151.39ms
step:406/1750 train_loss:4.1068 train_time:59952ms step_avg:151.39ms
step:407/1750 train_loss:3.8045 train_time:60107ms step_avg:151.40ms
step:408/1750 train_loss:3.8387 train_time:60262ms step_avg:151.41ms
step:409/1750 train_loss:3.8854 train_time:60417ms step_avg:151.42ms
step:410/1750 train_loss:3.7782 train_time:60571ms step_avg:151.43ms
step:411/1750 train_loss:3.7833 train_time:60726ms step_avg:151.44ms
step:412/1750 train_loss:4.2093 train_time:60881ms step_avg:151.44ms
step:413/1750 train_loss:3.6733 train_time:61035ms step_avg:151.45ms
step:414/1750 train_loss:4.0446 train_time:61189ms step_avg:151.46ms
step:415/1750 train_loss:3.7684 train_time:61343ms step_avg:151.46ms
step:416/1750 train_loss:3.7884 train_time:61496ms step_avg:151.47ms
step:417/1750 train_loss:3.9767 train_time:61652ms step_avg:151.48ms
step:418/1750 train_loss:3.7120 train_time:61807ms step_avg:151.49ms
step:419/1750 train_loss:3.8274 train_time:61961ms step_avg:151.49ms
step:420/1750 train_loss:3.7280 train_time:62114ms step_avg:151.50ms
step:421/1750 train_loss:3.6718 train_time:62269ms step_avg:151.51ms
step:422/1750 train_loss:3.8045 train_time:62421ms step_avg:151.51ms
step:423/1750 train_loss:3.8972 train_time:62576ms step_avg:151.52ms
step:424/1750 train_loss:3.6407 train_time:62731ms step_avg:151.52ms
step:425/1750 train_loss:3.8202 train_time:62886ms step_avg:151.53ms
step:426/1750 train_loss:3.6888 train_time:63039ms step_avg:151.54ms
step:427/1750 train_loss:3.9146 train_time:63194ms step_avg:151.54ms
step:428/1750 train_loss:3.8304 train_time:63348ms step_avg:151.55ms
step:429/1750 train_loss:3.7792 train_time:63501ms step_avg:151.55ms
step:430/1750 train_loss:3.7397 train_time:63656ms step_avg:151.56ms
step:431/1750 train_loss:3.6501 train_time:63810ms step_avg:151.57ms
step:432/1750 train_loss:3.7865 train_time:63965ms step_avg:151.58ms
step:433/1750 train_loss:3.8460 train_time:64118ms step_avg:151.58ms
step:434/1750 train_loss:3.7999 train_time:64273ms step_avg:151.59ms
step:435/1750 train_loss:3.8321 train_time:64428ms step_avg:151.60ms
step:436/1750 train_loss:3.8516 train_time:64582ms step_avg:151.60ms
step:437/1750 train_loss:3.7487 train_time:64736ms step_avg:151.61ms
step:438/1750 train_loss:3.7324 train_time:64893ms step_avg:151.62ms
step:439/1750 train_loss:3.7324 train_time:65049ms step_avg:151.63ms
step:440/1750 train_loss:3.9171 train_time:65203ms step_avg:151.64ms
step:441/1750 train_loss:3.7838 train_time:65358ms step_avg:151.64ms
step:442/1750 train_loss:3.7616 train_time:65512ms step_avg:151.65ms
step:443/1750 train_loss:3.6552 train_time:65667ms step_avg:151.66ms
step:444/1750 train_loss:3.9449 train_time:65821ms step_avg:151.66ms
step:445/1750 train_loss:3.8666 train_time:65975ms step_avg:151.67ms
step:446/1750 train_loss:3.8588 train_time:66130ms step_avg:151.67ms
step:447/1750 train_loss:3.7782 train_time:66284ms step_avg:151.68ms
step:448/1750 train_loss:3.8782 train_time:66438ms step_avg:151.68ms
step:449/1750 train_loss:3.7108 train_time:66594ms step_avg:151.70ms
step:450/1750 train_loss:3.7494 train_time:66750ms step_avg:151.71ms
step:451/1750 train_loss:3.6026 train_time:66905ms step_avg:151.71ms
step:452/1750 train_loss:3.7334 train_time:67059ms step_avg:151.72ms
step:453/1750 train_loss:3.6939 train_time:67213ms step_avg:151.72ms
step:454/1750 train_loss:3.6582 train_time:67370ms step_avg:151.73ms
step:455/1750 train_loss:3.8631 train_time:67524ms step_avg:151.74ms
step:456/1750 train_loss:3.7469 train_time:67677ms step_avg:151.74ms
step:457/1750 train_loss:3.8082 train_time:67833ms step_avg:151.75ms
step:458/1750 train_loss:3.8535 train_time:67987ms step_avg:151.76ms
step:459/1750 train_loss:3.6591 train_time:68141ms step_avg:151.76ms
step:460/1750 train_loss:3.8172 train_time:68296ms step_avg:151.77ms
step:461/1750 train_loss:3.7219 train_time:68450ms step_avg:151.77ms
step:462/1750 train_loss:3.7624 train_time:68603ms step_avg:151.78ms
step:463/1750 train_loss:3.7960 train_time:68756ms step_avg:151.78ms
step:464/1750 train_loss:3.7378 train_time:68910ms step_avg:151.78ms
step:465/1750 train_loss:3.7380 train_time:69062ms step_avg:151.79ms
step:466/1750 train_loss:3.8239 train_time:69215ms step_avg:151.79ms
step:467/1750 train_loss:3.8435 train_time:69371ms step_avg:151.80ms
step:468/1750 train_loss:3.8203 train_time:69524ms step_avg:151.80ms
step:469/1750 train_loss:3.7157 train_time:69677ms step_avg:151.80ms
step:470/1750 train_loss:3.7999 train_time:69831ms step_avg:151.81ms
step:471/1750 train_loss:3.8430 train_time:69984ms step_avg:151.81ms
step:472/1750 train_loss:3.8045 train_time:70138ms step_avg:151.81ms
step:473/1750 train_loss:3.7462 train_time:70292ms step_avg:151.82ms
step:474/1750 train_loss:3.6149 train_time:70445ms step_avg:151.82ms
step:475/1750 train_loss:4.0461 train_time:70598ms step_avg:151.82ms
step:476/1750 train_loss:3.7898 train_time:70753ms step_avg:151.83ms
step:477/1750 train_loss:3.6199 train_time:70907ms step_avg:151.83ms
step:478/1750 train_loss:3.8446 train_time:71060ms step_avg:151.84ms
step:479/1750 train_loss:3.7972 train_time:71213ms step_avg:151.84ms
step:480/1750 train_loss:3.9435 train_time:71369ms step_avg:151.85ms
step:481/1750 train_loss:3.7471 train_time:71521ms step_avg:151.85ms
step:482/1750 train_loss:3.5523 train_time:71675ms step_avg:151.85ms
step:483/1750 train_loss:3.8380 train_time:71830ms step_avg:151.86ms
step:484/1750 train_loss:3.6885 train_time:71985ms step_avg:151.87ms
step:485/1750 train_loss:3.6826 train_time:72138ms step_avg:151.87ms
step:486/1750 train_loss:3.6012 train_time:72294ms step_avg:151.88ms
step:487/1750 train_loss:3.7024 train_time:72448ms step_avg:151.88ms
step:488/1750 train_loss:3.9055 train_time:72601ms step_avg:151.89ms
step:489/1750 train_loss:3.7361 train_time:72755ms step_avg:151.89ms
step:490/1750 train_loss:3.6168 train_time:72909ms step_avg:151.89ms
step:491/1750 train_loss:3.6376 train_time:73062ms step_avg:151.90ms
step:492/1750 train_loss:3.7547 train_time:73215ms step_avg:151.90ms
step:493/1750 train_loss:3.5984 train_time:73371ms step_avg:151.91ms
step:494/1750 train_loss:3.7285 train_time:73524ms step_avg:151.91ms
step:495/1750 train_loss:3.6860 train_time:73679ms step_avg:151.92ms
step:496/1750 train_loss:3.5476 train_time:73834ms step_avg:151.92ms
step:497/1750 train_loss:3.7568 train_time:73987ms step_avg:151.92ms
step:498/1750 train_loss:3.8193 train_time:74141ms step_avg:151.93ms
step:499/1750 train_loss:3.8512 train_time:74296ms step_avg:151.93ms
step:500/1750 train_loss:3.7562 train_time:74450ms step_avg:151.94ms
step:500/1750 val_loss:3.7293 train_time:74490ms step_avg:152.02ms
step:501/1750 train_loss:3.8298 train_time:74604ms step_avg:151.94ms
step:502/1750 train_loss:3.7656 train_time:74759ms step_avg:151.95ms
step:503/1750 train_loss:3.8054 train_time:74916ms step_avg:151.96ms
step:504/1750 train_loss:3.7537 train_time:75070ms step_avg:151.96ms
step:505/1750 train_loss:3.8298 train_time:75223ms step_avg:151.97ms
step:506/1750 train_loss:3.6725 train_time:75377ms step_avg:151.97ms
step:507/1750 train_loss:3.7872 train_time:75532ms step_avg:151.98ms
step:508/1750 train_loss:3.8549 train_time:75687ms step_avg:151.98ms
step:509/1750 train_loss:3.7983 train_time:75839ms step_avg:151.98ms
step:510/1750 train_loss:3.5988 train_time:75994ms step_avg:151.99ms
step:511/1750 train_loss:3.8118 train_time:76147ms step_avg:151.99ms
step:512/1750 train_loss:3.7563 train_time:76301ms step_avg:151.99ms
step:513/1750 train_loss:3.6945 train_time:76455ms step_avg:152.00ms
step:514/1750 train_loss:3.7926 train_time:76610ms step_avg:152.00ms
step:515/1750 train_loss:3.7631 train_time:76763ms step_avg:152.01ms
step:516/1750 train_loss:4.1087 train_time:76918ms step_avg:152.01ms
step:517/1750 train_loss:3.7080 train_time:77073ms step_avg:152.02ms
step:518/1750 train_loss:3.8047 train_time:77226ms step_avg:152.02ms
step:519/1750 train_loss:3.6809 train_time:77380ms step_avg:152.02ms
step:520/1750 train_loss:3.7093 train_time:77537ms step_avg:152.03ms
step:521/1750 train_loss:3.6842 train_time:77693ms step_avg:152.04ms
step:522/1750 train_loss:3.6801 train_time:77849ms step_avg:152.05ms
step:523/1750 train_loss:4.3013 train_time:78005ms step_avg:152.06ms
step:524/1750 train_loss:3.7670 train_time:78159ms step_avg:152.06ms
step:525/1750 train_loss:3.7073 train_time:78316ms step_avg:152.07ms
step:526/1750 train_loss:3.7221 train_time:78473ms step_avg:152.08ms
step:527/1750 train_loss:3.6868 train_time:78629ms step_avg:152.09ms
step:528/1750 train_loss:3.6573 train_time:78785ms step_avg:152.10ms
step:529/1750 train_loss:3.8758 train_time:78942ms step_avg:152.10ms
step:530/1750 train_loss:3.6649 train_time:79100ms step_avg:152.11ms
step:531/1750 train_loss:3.9449 train_time:79256ms step_avg:152.12ms
step:532/1750 train_loss:3.7536 train_time:79413ms step_avg:152.13ms
step:533/1750 train_loss:3.6861 train_time:79568ms step_avg:152.14ms
step:534/1750 train_loss:3.6967 train_time:79723ms step_avg:152.14ms
step:535/1750 train_loss:3.6292 train_time:79880ms step_avg:152.15ms
step:536/1750 train_loss:3.7762 train_time:80038ms step_avg:152.16ms
step:537/1750 train_loss:3.7497 train_time:80195ms step_avg:152.17ms
step:538/1750 train_loss:3.6435 train_time:80351ms step_avg:152.18ms
step:539/1750 train_loss:4.1363 train_time:80509ms step_avg:152.19ms
step:540/1750 train_loss:3.6976 train_time:80664ms step_avg:152.20ms
step:541/1750 train_loss:3.8060 train_time:80818ms step_avg:152.20ms
step:542/1750 train_loss:3.6234 train_time:80976ms step_avg:152.21ms
step:543/1750 train_loss:3.6125 train_time:81134ms step_avg:152.22ms
step:544/1750 train_loss:3.6712 train_time:81290ms step_avg:152.23ms
step:545/1750 train_loss:3.6120 train_time:81445ms step_avg:152.23ms
step:546/1750 train_loss:3.6579 train_time:81602ms step_avg:152.24ms
step:547/1750 train_loss:3.6696 train_time:81758ms step_avg:152.25ms
step:548/1750 train_loss:3.6460 train_time:81916ms step_avg:152.26ms
step:549/1750 train_loss:3.7473 train_time:82073ms step_avg:152.27ms
step:550/1750 train_loss:3.6389 train_time:82231ms step_avg:152.28ms
step:551/1750 train_loss:3.6593 train_time:82386ms step_avg:152.28ms
step:552/1750 train_loss:3.9572 train_time:82541ms step_avg:152.29ms
step:553/1750 train_loss:3.7813 train_time:82698ms step_avg:152.30ms
step:554/1750 train_loss:3.7411 train_time:82853ms step_avg:152.30ms
step:555/1750 train_loss:3.6578 train_time:83011ms step_avg:152.31ms
step:556/1750 train_loss:3.7195 train_time:83165ms step_avg:152.32ms
step:557/1750 train_loss:3.3455 train_time:83322ms step_avg:152.33ms
step:558/1750 train_loss:3.6307 train_time:83477ms step_avg:152.33ms
step:559/1750 train_loss:3.6746 train_time:83633ms step_avg:152.34ms
step:560/1750 train_loss:3.7147 train_time:83790ms step_avg:152.35ms
step:561/1750 train_loss:3.6358 train_time:83945ms step_avg:152.35ms
step:562/1750 train_loss:3.5782 train_time:84101ms step_avg:152.36ms
step:563/1750 train_loss:3.7841 train_time:84256ms step_avg:152.36ms
step:564/1750 train_loss:3.6042 train_time:84412ms step_avg:152.37ms
step:565/1750 train_loss:3.7092 train_time:84568ms step_avg:152.37ms
step:566/1750 train_loss:3.6512 train_time:84846ms step_avg:152.60ms
step:567/1750 train_loss:3.6224 train_time:85010ms step_avg:152.62ms
step:568/1750 train_loss:3.7190 train_time:85164ms step_avg:152.62ms
step:569/1750 train_loss:3.6745 train_time:85504ms step_avg:152.96ms
step:570/1750 train_loss:3.7143 train_time:85671ms step_avg:152.98ms
step:571/1750 train_loss:3.7845 train_time:85829ms step_avg:152.99ms
step:572/1750 train_loss:3.7553 train_time:85986ms step_avg:153.00ms
step:573/1750 train_loss:3.7611 train_time:86142ms step_avg:153.01ms
step:574/1750 train_loss:3.8023 train_time:86301ms step_avg:153.02ms
step:575/1750 train_loss:3.7530 train_time:86456ms step_avg:153.02ms
step:576/1750 train_loss:3.7818 train_time:86614ms step_avg:153.03ms
step:577/1750 train_loss:3.7051 train_time:86770ms step_avg:153.03ms
step:578/1750 train_loss:3.7004 train_time:86926ms step_avg:153.04ms
step:579/1750 train_loss:3.6966 train_time:87082ms step_avg:153.04ms
step:580/1750 train_loss:3.6238 train_time:87239ms step_avg:153.05ms
step:581/1750 train_loss:3.6628 train_time:87398ms step_avg:153.06ms
step:582/1750 train_loss:3.8752 train_time:87554ms step_avg:153.07ms
step:583/1750 train_loss:3.6617 train_time:87711ms step_avg:153.07ms
step:584/1750 train_loss:3.6244 train_time:87867ms step_avg:153.08ms
step:585/1750 train_loss:3.8148 train_time:88021ms step_avg:153.08ms
step:586/1750 train_loss:3.5421 train_time:88178ms step_avg:153.09ms
step:587/1750 train_loss:3.6871 train_time:88334ms step_avg:153.09ms
step:588/1750 train_loss:3.6733 train_time:88490ms step_avg:153.10ms
step:589/1750 train_loss:4.0212 train_time:88645ms step_avg:153.10ms
step:590/1750 train_loss:3.8118 train_time:88801ms step_avg:153.10ms
step:591/1750 train_loss:3.5407 train_time:88955ms step_avg:153.11ms
step:592/1750 train_loss:3.5638 train_time:89113ms step_avg:153.11ms
step:593/1750 train_loss:3.5345 train_time:89270ms step_avg:153.12ms
step:594/1750 train_loss:3.5835 train_time:89426ms step_avg:153.13ms
step:595/1750 train_loss:3.9429 train_time:89582ms step_avg:153.13ms
step:596/1750 train_loss:3.6684 train_time:89738ms step_avg:153.14ms
step:597/1750 train_loss:3.6156 train_time:89894ms step_avg:153.14ms
step:598/1750 train_loss:3.6881 train_time:90049ms step_avg:153.14ms
step:599/1750 train_loss:3.5012 train_time:90203ms step_avg:153.15ms
step:600/1750 train_loss:3.6268 train_time:90359ms step_avg:153.15ms
step:601/1750 train_loss:3.6680 train_time:90516ms step_avg:153.16ms
step:602/1750 train_loss:3.6945 train_time:90673ms step_avg:153.16ms
step:603/1750 train_loss:3.8132 train_time:90829ms step_avg:153.17ms
step:604/1750 train_loss:3.6390 train_time:90984ms step_avg:153.17ms
step:605/1750 train_loss:3.6351 train_time:91139ms step_avg:153.18ms
step:606/1750 train_loss:3.6025 train_time:91297ms step_avg:153.18ms
step:607/1750 train_loss:3.8599 train_time:91453ms step_avg:153.19ms
step:608/1750 train_loss:3.6659 train_time:91610ms step_avg:153.19ms
step:609/1750 train_loss:3.6386 train_time:91765ms step_avg:153.20ms
step:610/1750 train_loss:3.7344 train_time:91920ms step_avg:153.20ms
step:611/1750 train_loss:3.6245 train_time:92076ms step_avg:153.20ms
step:612/1750 train_loss:3.6003 train_time:92232ms step_avg:153.21ms
step:613/1750 train_loss:3.7899 train_time:92388ms step_avg:153.21ms
step:614/1750 train_loss:3.7353 train_time:92545ms step_avg:153.22ms
step:615/1750 train_loss:3.7188 train_time:92700ms step_avg:153.22ms
step:616/1750 train_loss:3.6512 train_time:92854ms step_avg:153.22ms
step:617/1750 train_loss:3.5792 train_time:93011ms step_avg:153.23ms
step:618/1750 train_loss:3.7156 train_time:93166ms step_avg:153.23ms
step:619/1750 train_loss:3.5847 train_time:93322ms step_avg:153.24ms
step:620/1750 train_loss:3.6086 train_time:93479ms step_avg:153.24ms
step:621/1750 train_loss:3.9474 train_time:93635ms step_avg:153.25ms
step:622/1750 train_loss:3.5942 train_time:93792ms step_avg:153.26ms
step:623/1750 train_loss:3.6361 train_time:93948ms step_avg:153.26ms
step:624/1750 train_loss:3.7188 train_time:94103ms step_avg:153.26ms
step:625/1750 train_loss:3.7354 train_time:94258ms step_avg:153.26ms
step:625/1750 val_loss:3.6497 train_time:94301ms step_avg:153.33ms
step:626/1750 train_loss:3.7623 train_time:94416ms step_avg:153.27ms
step:627/1750 train_loss:3.7418 train_time:94574ms step_avg:153.28ms
step:628/1750 train_loss:3.7898 train_time:94730ms step_avg:153.29ms
step:629/1750 train_loss:3.6219 train_time:94885ms step_avg:153.29ms
step:630/1750 train_loss:3.7515 train_time:95040ms step_avg:153.29ms
step:631/1750 train_loss:3.7732 train_time:95195ms step_avg:153.29ms
step:632/1750 train_loss:3.6767 train_time:95352ms step_avg:153.30ms
step:633/1750 train_loss:3.6263 train_time:95508ms step_avg:153.30ms
step:634/1750 train_loss:3.7241 train_time:95661ms step_avg:153.30ms
step:635/1750 train_loss:3.9773 train_time:95818ms step_avg:153.31ms
step:636/1750 train_loss:3.5740 train_time:95974ms step_avg:153.31ms
step:637/1750 train_loss:3.3794 train_time:96131ms step_avg:153.32ms
step:638/1750 train_loss:3.6183 train_time:96286ms step_avg:153.32ms
step:639/1750 train_loss:3.6571 train_time:96442ms step_avg:153.33ms
step:640/1750 train_loss:3.5995 train_time:96596ms step_avg:153.33ms
step:641/1750 train_loss:3.6157 train_time:96753ms step_avg:153.33ms
step:642/1750 train_loss:3.6579 train_time:96907ms step_avg:153.33ms
step:643/1750 train_loss:3.6326 train_time:97063ms step_avg:153.34ms
step:644/1750 train_loss:3.5925 train_time:97220ms step_avg:153.34ms
step:645/1750 train_loss:3.8025 train_time:97377ms step_avg:153.35ms
step:646/1750 train_loss:3.7041 train_time:97534ms step_avg:153.35ms
step:647/1750 train_loss:3.6950 train_time:97688ms step_avg:153.36ms
step:648/1750 train_loss:3.7436 train_time:97846ms step_avg:153.36ms
step:649/1750 train_loss:3.7957 train_time:97999ms step_avg:153.36ms
step:650/1750 train_loss:3.6512 train_time:98158ms step_avg:153.37ms
step:651/1750 train_loss:3.7923 train_time:98317ms step_avg:153.38ms
step:652/1750 train_loss:3.6011 train_time:98474ms step_avg:153.39ms
step:653/1750 train_loss:3.6899 train_time:98632ms step_avg:153.39ms
step:654/1750 train_loss:3.4558 train_time:98790ms step_avg:153.40ms
step:655/1750 train_loss:3.6049 train_time:98947ms step_avg:153.41ms
step:656/1750 train_loss:3.6014 train_time:99104ms step_avg:153.41ms
step:657/1750 train_loss:3.5302 train_time:99263ms step_avg:153.42ms
step:658/1750 train_loss:3.7148 train_time:99421ms step_avg:153.43ms
step:659/1750 train_loss:3.6101 train_time:99579ms step_avg:153.43ms
step:660/1750 train_loss:3.7074 train_time:99737ms step_avg:153.44ms
step:661/1750 train_loss:3.7845 train_time:99896ms step_avg:153.45ms
step:662/1750 train_loss:3.6948 train_time:100053ms step_avg:153.46ms
step:663/1750 train_loss:3.5803 train_time:100211ms step_avg:153.46ms
step:664/1750 train_loss:3.6374 train_time:100369ms step_avg:153.47ms
step:665/1750 train_loss:3.5142 train_time:100527ms step_avg:153.48ms
step:666/1750 train_loss:3.8050 train_time:100684ms step_avg:153.48ms
step:667/1750 train_loss:3.6397 train_time:100843ms step_avg:153.49ms
step:668/1750 train_loss:3.6730 train_time:101001ms step_avg:153.50ms
step:669/1750 train_loss:3.5141 train_time:101160ms step_avg:153.50ms
step:670/1750 train_loss:3.6263 train_time:101318ms step_avg:153.51ms
step:671/1750 train_loss:3.5862 train_time:101477ms step_avg:153.52ms
step:672/1750 train_loss:3.6014 train_time:101636ms step_avg:153.53ms
step:673/1750 train_loss:3.8825 train_time:101793ms step_avg:153.53ms
step:674/1750 train_loss:3.6546 train_time:101953ms step_avg:153.54ms
step:675/1750 train_loss:3.7384 train_time:102112ms step_avg:153.55ms
step:676/1750 train_loss:3.5160 train_time:102271ms step_avg:153.56ms
step:677/1750 train_loss:3.6263 train_time:102428ms step_avg:153.57ms
step:678/1750 train_loss:3.5809 train_time:102585ms step_avg:153.57ms
step:679/1750 train_loss:3.7094 train_time:102745ms step_avg:153.58ms
step:680/1750 train_loss:3.6178 train_time:102906ms step_avg:153.59ms
step:681/1750 train_loss:3.6409 train_time:103063ms step_avg:153.60ms
step:682/1750 train_loss:3.6927 train_time:103222ms step_avg:153.60ms
step:683/1750 train_loss:3.7603 train_time:103380ms step_avg:153.61ms
step:684/1750 train_loss:3.6766 train_time:103540ms step_avg:153.62ms
step:685/1750 train_loss:3.7183 train_time:103698ms step_avg:153.63ms
step:686/1750 train_loss:3.6673 train_time:103856ms step_avg:153.63ms
step:687/1750 train_loss:3.6929 train_time:104014ms step_avg:153.64ms
step:688/1750 train_loss:3.2452 train_time:104173ms step_avg:153.65ms
step:689/1750 train_loss:3.4322 train_time:104332ms step_avg:153.66ms
step:690/1750 train_loss:3.5744 train_time:104491ms step_avg:153.66ms
step:691/1750 train_loss:3.4504 train_time:104648ms step_avg:153.67ms
step:692/1750 train_loss:3.6586 train_time:104805ms step_avg:153.67ms
step:693/1750 train_loss:3.6877 train_time:104962ms step_avg:153.68ms
step:694/1750 train_loss:3.5823 train_time:105119ms step_avg:153.68ms
step:695/1750 train_loss:3.5617 train_time:105276ms step_avg:153.69ms
step:696/1750 train_loss:3.8815 train_time:105435ms step_avg:153.70ms
step:697/1750 train_loss:3.6174 train_time:105593ms step_avg:153.70ms
step:698/1750 train_loss:3.6751 train_time:105751ms step_avg:153.71ms
step:699/1750 train_loss:3.7925 train_time:105910ms step_avg:153.71ms
step:700/1750 train_loss:3.5950 train_time:106067ms step_avg:153.72ms
step:701/1750 train_loss:3.5731 train_time:106225ms step_avg:153.73ms
step:702/1750 train_loss:3.5442 train_time:106383ms step_avg:153.73ms
step:703/1750 train_loss:3.5197 train_time:106542ms step_avg:153.74ms
step:704/1750 train_loss:3.6004 train_time:106698ms step_avg:153.74ms
step:705/1750 train_loss:3.5914 train_time:106859ms step_avg:153.75ms
step:706/1750 train_loss:3.6093 train_time:107020ms step_avg:153.76ms
step:707/1750 train_loss:3.6775 train_time:107178ms step_avg:153.77ms
step:708/1750 train_loss:3.6311 train_time:107338ms step_avg:153.78ms
step:709/1750 train_loss:3.6080 train_time:107496ms step_avg:153.78ms
step:710/1750 train_loss:3.5702 train_time:107654ms step_avg:153.79ms
step:711/1750 train_loss:3.6220 train_time:107812ms step_avg:153.80ms
step:712/1750 train_loss:3.6741 train_time:107973ms step_avg:153.81ms
step:713/1750 train_loss:3.6882 train_time:108134ms step_avg:153.82ms
step:714/1750 train_loss:3.5868 train_time:108290ms step_avg:153.82ms
step:715/1750 train_loss:3.5952 train_time:108446ms step_avg:153.82ms
step:716/1750 train_loss:3.6102 train_time:108602ms step_avg:153.83ms
step:717/1750 train_loss:3.7358 train_time:108760ms step_avg:153.83ms
step:718/1750 train_loss:3.6235 train_time:108915ms step_avg:153.83ms
step:719/1750 train_loss:3.7045 train_time:109072ms step_avg:153.84ms
step:720/1750 train_loss:3.8686 train_time:109231ms step_avg:153.85ms
step:721/1750 train_loss:3.4945 train_time:109389ms step_avg:153.85ms
step:722/1750 train_loss:3.7600 train_time:109547ms step_avg:153.86ms
step:723/1750 train_loss:3.7941 train_time:109702ms step_avg:153.86ms
step:724/1750 train_loss:3.5911 train_time:109861ms step_avg:153.87ms
step:725/1750 train_loss:3.6768 train_time:110019ms step_avg:153.87ms
step:726/1750 train_loss:3.5654 train_time:110179ms step_avg:153.88ms
step:727/1750 train_loss:3.6008 train_time:110339ms step_avg:153.89ms
step:728/1750 train_loss:3.7595 train_time:110495ms step_avg:153.89ms
step:729/1750 train_loss:3.6981 train_time:110653ms step_avg:153.90ms
step:730/1750 train_loss:3.6988 train_time:110812ms step_avg:153.91ms
step:731/1750 train_loss:3.5910 train_time:110968ms step_avg:153.91ms
step:732/1750 train_loss:3.6225 train_time:111124ms step_avg:153.91ms
step:733/1750 train_loss:3.8579 train_time:111282ms step_avg:153.92ms
step:734/1750 train_loss:3.5899 train_time:111439ms step_avg:153.92ms
step:735/1750 train_loss:3.6412 train_time:111596ms step_avg:153.93ms
step:736/1750 train_loss:3.7694 train_time:111754ms step_avg:153.93ms
step:737/1750 train_loss:3.7002 train_time:111911ms step_avg:153.94ms
step:738/1750 train_loss:3.6240 train_time:112068ms step_avg:153.94ms
step:739/1750 train_loss:3.5261 train_time:112224ms step_avg:153.94ms
step:740/1750 train_loss:4.1411 train_time:112384ms step_avg:153.95ms
step:741/1750 train_loss:3.5238 train_time:112540ms step_avg:153.95ms
step:742/1750 train_loss:3.5864 train_time:112697ms step_avg:153.96ms
step:743/1750 train_loss:3.6081 train_time:112856ms step_avg:153.96ms
step:744/1750 train_loss:3.6728 train_time:113014ms step_avg:153.97ms
step:745/1750 train_loss:3.6254 train_time:113173ms step_avg:153.98ms
step:746/1750 train_loss:3.6230 train_time:113329ms step_avg:153.98ms
step:747/1750 train_loss:3.6707 train_time:113486ms step_avg:153.98ms
step:748/1750 train_loss:3.6005 train_time:113647ms step_avg:153.99ms
step:749/1750 train_loss:3.5863 train_time:113806ms step_avg:154.00ms
step:750/1750 train_loss:3.6279 train_time:113963ms step_avg:154.00ms
step:750/1750 val_loss:3.5941 train_time:114006ms step_avg:154.06ms
step:751/1750 train_loss:3.5894 train_time:114125ms step_avg:154.01ms
step:752/1750 train_loss:3.6378 train_time:114282ms step_avg:154.02ms
step:753/1750 train_loss:3.6463 train_time:114438ms step_avg:154.02ms
step:754/1750 train_loss:3.6204 train_time:114595ms step_avg:154.03ms
step:755/1750 train_loss:3.7055 train_time:114869ms step_avg:154.19ms
step:756/1750 train_loss:3.4895 train_time:115035ms step_avg:154.20ms
step:757/1750 train_loss:3.7530 train_time:115193ms step_avg:154.21ms
step:758/1750 train_loss:3.6814 train_time:115351ms step_avg:154.21ms
step:759/1750 train_loss:3.6188 train_time:115645ms step_avg:154.40ms
step:760/1750 train_loss:3.7272 train_time:115801ms step_avg:154.40ms
step:761/1750 train_loss:3.4266 train_time:115960ms step_avg:154.41ms
step:762/1750 train_loss:3.5819 train_time:116116ms step_avg:154.41ms
step:763/1750 train_loss:3.6975 train_time:116273ms step_avg:154.41ms
step:764/1750 train_loss:3.3461 train_time:116429ms step_avg:154.42ms
step:765/1750 train_loss:3.7655 train_time:116586ms step_avg:154.42ms
step:766/1750 train_loss:3.6011 train_time:116743ms step_avg:154.42ms
step:767/1750 train_loss:3.5897 train_time:116900ms step_avg:154.42ms
step:768/1750 train_loss:3.5964 train_time:117057ms step_avg:154.43ms
step:769/1750 train_loss:3.6141 train_time:117216ms step_avg:154.43ms
step:770/1750 train_loss:3.6748 train_time:117373ms step_avg:154.44ms
step:771/1750 train_loss:3.9045 train_time:117531ms step_avg:154.44ms
step:772/1750 train_loss:3.4778 train_time:117688ms step_avg:154.45ms
step:773/1750 train_loss:3.6661 train_time:117845ms step_avg:154.45ms
step:774/1750 train_loss:3.6727 train_time:118002ms step_avg:154.45ms
step:775/1750 train_loss:3.6398 train_time:118157ms step_avg:154.45ms
step:776/1750 train_loss:3.4224 train_time:118314ms step_avg:154.46ms
step:777/1750 train_loss:3.4125 train_time:118471ms step_avg:154.46ms
step:778/1750 train_loss:3.5220 train_time:118627ms step_avg:154.46ms
step:779/1750 train_loss:3.6060 train_time:118786ms step_avg:154.47ms
step:780/1750 train_loss:3.6188 train_time:118945ms step_avg:154.47ms
step:781/1750 train_loss:3.6980 train_time:119105ms step_avg:154.48ms
step:782/1750 train_loss:3.6155 train_time:119266ms step_avg:154.49ms
step:783/1750 train_loss:3.6035 train_time:119424ms step_avg:154.49ms
step:784/1750 train_loss:3.6271 train_time:119584ms step_avg:154.50ms
step:785/1750 train_loss:3.5896 train_time:119743ms step_avg:154.51ms
step:786/1750 train_loss:3.4713 train_time:119904ms step_avg:154.52ms
step:787/1750 train_loss:3.7479 train_time:120064ms step_avg:154.52ms
step:788/1750 train_loss:3.5198 train_time:120223ms step_avg:154.53ms
step:789/1750 train_loss:3.5779 train_time:120379ms step_avg:154.53ms
step:790/1750 train_loss:3.6549 train_time:120539ms step_avg:154.54ms
step:791/1750 train_loss:3.8016 train_time:120701ms step_avg:154.55ms
step:792/1750 train_loss:3.7911 train_time:120862ms step_avg:154.55ms
step:793/1750 train_loss:3.5167 train_time:121019ms step_avg:154.56ms
step:794/1750 train_loss:3.6240 train_time:121180ms step_avg:154.57ms
step:795/1750 train_loss:3.6999 train_time:121342ms step_avg:154.58ms
step:796/1750 train_loss:3.7688 train_time:121503ms step_avg:154.58ms
step:797/1750 train_loss:3.5496 train_time:121663ms step_avg:154.59ms
step:798/1750 train_loss:3.6779 train_time:121825ms step_avg:154.60ms
step:799/1750 train_loss:3.5736 train_time:121989ms step_avg:154.61ms
step:800/1750 train_loss:3.5587 train_time:122147ms step_avg:154.62ms
step:801/1750 train_loss:3.6599 train_time:122306ms step_avg:154.62ms
step:802/1750 train_loss:3.5167 train_time:122470ms step_avg:154.63ms
step:803/1750 train_loss:3.5393 train_time:122629ms step_avg:154.64ms
step:804/1750 train_loss:3.6588 train_time:122786ms step_avg:154.64ms
step:805/1750 train_loss:3.5542 train_time:122947ms step_avg:154.65ms
step:806/1750 train_loss:3.5912 train_time:123105ms step_avg:154.65ms
step:807/1750 train_loss:3.6738 train_time:123263ms step_avg:154.66ms
step:808/1750 train_loss:3.5848 train_time:123424ms step_avg:154.67ms
step:809/1750 train_loss:3.5210 train_time:123583ms step_avg:154.67ms
step:810/1750 train_loss:3.5858 train_time:123743ms step_avg:154.68ms
step:811/1750 train_loss:3.6182 train_time:123905ms step_avg:154.69ms
step:812/1750 train_loss:3.6244 train_time:124063ms step_avg:154.69ms
step:813/1750 train_loss:3.6526 train_time:124222ms step_avg:154.70ms
step:814/1750 train_loss:3.6009 train_time:124381ms step_avg:154.70ms
step:815/1750 train_loss:3.5911 train_time:124541ms step_avg:154.71ms
step:816/1750 train_loss:3.7099 train_time:124701ms step_avg:154.72ms
step:817/1750 train_loss:3.7928 train_time:124859ms step_avg:154.72ms
step:818/1750 train_loss:3.5547 train_time:125018ms step_avg:154.73ms
step:819/1750 train_loss:3.7467 train_time:125178ms step_avg:154.73ms
step:820/1750 train_loss:3.5282 train_time:125338ms step_avg:154.74ms
step:821/1750 train_loss:3.5890 train_time:125496ms step_avg:154.74ms
step:822/1750 train_loss:3.7244 train_time:125656ms step_avg:154.75ms
step:823/1750 train_loss:3.6079 train_time:125815ms step_avg:154.75ms
step:824/1750 train_loss:3.5391 train_time:125974ms step_avg:154.76ms
step:825/1750 train_loss:3.6480 train_time:126136ms step_avg:154.77ms
step:826/1750 train_loss:3.5108 train_time:126298ms step_avg:154.78ms
step:827/1750 train_loss:3.7594 train_time:126457ms step_avg:154.78ms
step:828/1750 train_loss:3.6473 train_time:126618ms step_avg:154.79ms
step:829/1750 train_loss:3.6626 train_time:126777ms step_avg:154.79ms
step:830/1750 train_loss:3.5621 train_time:126936ms step_avg:154.80ms
step:831/1750 train_loss:3.6253 train_time:127095ms step_avg:154.80ms
step:832/1750 train_loss:3.5452 train_time:127254ms step_avg:154.81ms
step:833/1750 train_loss:3.6821 train_time:127415ms step_avg:154.82ms
step:834/1750 train_loss:3.5066 train_time:127575ms step_avg:154.82ms
step:835/1750 train_loss:3.4875 train_time:127736ms step_avg:154.83ms
step:836/1750 train_loss:3.7455 train_time:127898ms step_avg:154.84ms
step:837/1750 train_loss:3.4357 train_time:128056ms step_avg:154.84ms
step:838/1750 train_loss:3.6187 train_time:128216ms step_avg:154.85ms
step:839/1750 train_loss:3.4466 train_time:128374ms step_avg:154.85ms
step:840/1750 train_loss:3.4924 train_time:128533ms step_avg:154.86ms
step:841/1750 train_loss:3.5902 train_time:128691ms step_avg:154.86ms
step:842/1750 train_loss:3.6025 train_time:128850ms step_avg:154.87ms
step:843/1750 train_loss:3.5928 train_time:129008ms step_avg:154.87ms
step:844/1750 train_loss:3.4558 train_time:129167ms step_avg:154.88ms
step:845/1750 train_loss:3.6886 train_time:129327ms step_avg:154.88ms
step:846/1750 train_loss:3.5421 train_time:129487ms step_avg:154.89ms
step:847/1750 train_loss:3.5209 train_time:129646ms step_avg:154.89ms
step:848/1750 train_loss:3.6673 train_time:129804ms step_avg:154.90ms
step:849/1750 train_loss:3.5269 train_time:129965ms step_avg:154.90ms
step:850/1750 train_loss:3.4697 train_time:130124ms step_avg:154.91ms
step:851/1750 train_loss:3.7651 train_time:130286ms step_avg:154.92ms
step:852/1750 train_loss:3.4737 train_time:130445ms step_avg:154.92ms
step:853/1750 train_loss:3.5949 train_time:130603ms step_avg:154.93ms
step:854/1750 train_loss:3.6837 train_time:130763ms step_avg:154.93ms
step:855/1750 train_loss:3.5497 train_time:130924ms step_avg:154.94ms
step:856/1750 train_loss:3.5740 train_time:131082ms step_avg:154.94ms
step:857/1750 train_loss:3.6319 train_time:131241ms step_avg:154.95ms
step:858/1750 train_loss:3.5017 train_time:131402ms step_avg:154.95ms
step:859/1750 train_loss:3.5875 train_time:131560ms step_avg:154.96ms
step:860/1750 train_loss:3.6206 train_time:131717ms step_avg:154.96ms
step:861/1750 train_loss:3.6675 train_time:131880ms step_avg:154.97ms
step:862/1750 train_loss:3.6260 train_time:132040ms step_avg:154.98ms
step:863/1750 train_loss:3.6094 train_time:132201ms step_avg:154.98ms
step:864/1750 train_loss:3.4093 train_time:132360ms step_avg:154.99ms
step:865/1750 train_loss:3.6269 train_time:132516ms step_avg:154.99ms
step:866/1750 train_loss:3.9060 train_time:132676ms step_avg:155.00ms
step:867/1750 train_loss:3.4835 train_time:132833ms step_avg:155.00ms
step:868/1750 train_loss:3.6660 train_time:132990ms step_avg:155.00ms
step:869/1750 train_loss:3.6425 train_time:133148ms step_avg:155.00ms
step:870/1750 train_loss:3.4759 train_time:133309ms step_avg:155.01ms
step:871/1750 train_loss:3.4594 train_time:133467ms step_avg:155.01ms
step:872/1750 train_loss:3.6815 train_time:133626ms step_avg:155.02ms
step:873/1750 train_loss:3.4874 train_time:133784ms step_avg:155.02ms
step:874/1750 train_loss:3.2396 train_time:133946ms step_avg:155.03ms
step:875/1750 train_loss:3.6633 train_time:134105ms step_avg:155.03ms
step:875/1750 val_loss:3.5483 train_time:134146ms step_avg:155.08ms
step:876/1750 train_loss:3.4693 train_time:134264ms step_avg:155.04ms
step:877/1750 train_loss:3.6474 train_time:134424ms step_avg:155.05ms
step:878/1750 train_loss:3.5028 train_time:134584ms step_avg:155.05ms
step:879/1750 train_loss:3.6786 train_time:134744ms step_avg:155.06ms
step:880/1750 train_loss:3.3395 train_time:134903ms step_avg:155.06ms
step:881/1750 train_loss:3.5156 train_time:135061ms step_avg:155.06ms
step:882/1750 train_loss:3.7224 train_time:135218ms step_avg:155.07ms
step:883/1750 train_loss:3.8723 train_time:135377ms step_avg:155.07ms
step:884/1750 train_loss:3.5943 train_time:135537ms step_avg:155.08ms
step:885/1750 train_loss:3.5191 train_time:135695ms step_avg:155.08ms
step:886/1750 train_loss:3.6014 train_time:135854ms step_avg:155.08ms
step:887/1750 train_loss:4.1151 train_time:136015ms step_avg:155.09ms
step:888/1750 train_loss:3.8651 train_time:136180ms step_avg:155.10ms
step:889/1750 train_loss:3.5554 train_time:136338ms step_avg:155.11ms
step:890/1750 train_loss:3.5646 train_time:136497ms step_avg:155.11ms
step:891/1750 train_loss:3.3921 train_time:136656ms step_avg:155.11ms
step:892/1750 train_loss:3.7528 train_time:136814ms step_avg:155.12ms
step:893/1750 train_loss:3.4586 train_time:136973ms step_avg:155.12ms
step:894/1750 train_loss:3.6733 train_time:137134ms step_avg:155.13ms
step:895/1750 train_loss:3.7098 train_time:137294ms step_avg:155.13ms
step:896/1750 train_loss:3.5270 train_time:137453ms step_avg:155.14ms
step:897/1750 train_loss:3.5706 train_time:137614ms step_avg:155.15ms
step:898/1750 train_loss:3.6193 train_time:137773ms step_avg:155.15ms
step:899/1750 train_loss:3.5092 train_time:137931ms step_avg:155.15ms
step:900/1750 train_loss:3.4524 train_time:138091ms step_avg:155.16ms
step:901/1750 train_loss:3.6479 train_time:138249ms step_avg:155.16ms
step:902/1750 train_loss:3.6668 train_time:138407ms step_avg:155.16ms
step:903/1750 train_loss:3.5656 train_time:138569ms step_avg:155.17ms
step:904/1750 train_loss:3.5295 train_time:138729ms step_avg:155.18ms
step:905/1750 train_loss:3.5335 train_time:138885ms step_avg:155.18ms
step:906/1750 train_loss:3.7441 train_time:139045ms step_avg:155.18ms
step:907/1750 train_loss:3.5390 train_time:139206ms step_avg:155.19ms
step:908/1750 train_loss:3.6019 train_time:139362ms step_avg:155.19ms
step:909/1750 train_loss:3.4863 train_time:139524ms step_avg:155.20ms
step:910/1750 train_loss:3.5611 train_time:139688ms step_avg:155.21ms
step:911/1750 train_loss:3.6721 train_time:139848ms step_avg:155.21ms
step:912/1750 train_loss:3.6286 train_time:140008ms step_avg:155.22ms
step:913/1750 train_loss:3.4865 train_time:140171ms step_avg:155.23ms
step:914/1750 train_loss:3.7818 train_time:140333ms step_avg:155.24ms
step:915/1750 train_loss:3.5631 train_time:140496ms step_avg:155.24ms
step:916/1750 train_loss:3.6482 train_time:140658ms step_avg:155.25ms
step:917/1750 train_loss:3.6268 train_time:140817ms step_avg:155.26ms
step:918/1750 train_loss:4.8627 train_time:140981ms step_avg:155.27ms
step:919/1750 train_loss:3.5283 train_time:141142ms step_avg:155.27ms
step:920/1750 train_loss:3.6134 train_time:141302ms step_avg:155.28ms
step:921/1750 train_loss:3.5724 train_time:141465ms step_avg:155.29ms
step:922/1750 train_loss:3.6137 train_time:141628ms step_avg:155.29ms
step:923/1750 train_loss:3.6421 train_time:141787ms step_avg:155.30ms
step:924/1750 train_loss:3.7099 train_time:141948ms step_avg:155.30ms
step:925/1750 train_loss:3.6840 train_time:142109ms step_avg:155.31ms
step:926/1750 train_loss:3.5898 train_time:142268ms step_avg:155.31ms
step:927/1750 train_loss:3.5794 train_time:142429ms step_avg:155.32ms
step:928/1750 train_loss:3.8107 train_time:142591ms step_avg:155.33ms
step:929/1750 train_loss:3.6396 train_time:142751ms step_avg:155.33ms
step:930/1750 train_loss:3.4330 train_time:142913ms step_avg:155.34ms
step:931/1750 train_loss:3.5236 train_time:143074ms step_avg:155.35ms
step:932/1750 train_loss:3.6834 train_time:143236ms step_avg:155.35ms
step:933/1750 train_loss:3.4129 train_time:143398ms step_avg:155.36ms
step:934/1750 train_loss:3.6162 train_time:143561ms step_avg:155.37ms
step:935/1750 train_loss:3.4703 train_time:143724ms step_avg:155.38ms
step:936/1750 train_loss:3.5503 train_time:143888ms step_avg:155.39ms
step:937/1750 train_loss:3.6557 train_time:144050ms step_avg:155.39ms
step:938/1750 train_loss:3.5727 train_time:144209ms step_avg:155.40ms
step:939/1750 train_loss:3.7019 train_time:144374ms step_avg:155.41ms
step:940/1750 train_loss:3.5142 train_time:144535ms step_avg:155.41ms
step:941/1750 train_loss:3.5757 train_time:144695ms step_avg:155.42ms
step:942/1750 train_loss:3.3986 train_time:144856ms step_avg:155.42ms
step:943/1750 train_loss:3.7366 train_time:145020ms step_avg:155.43ms
step:944/1750 train_loss:3.4309 train_time:145303ms step_avg:155.57ms
step:945/1750 train_loss:3.4528 train_time:145471ms step_avg:155.58ms
step:946/1750 train_loss:5.0967 train_time:145634ms step_avg:155.59ms
step:947/1750 train_loss:3.6279 train_time:145795ms step_avg:155.60ms
step:948/1750 train_loss:3.5128 train_time:145956ms step_avg:155.60ms
step:949/1750 train_loss:3.4096 train_time:146251ms step_avg:155.75ms
step:950/1750 train_loss:3.4677 train_time:146408ms step_avg:155.75ms
step:951/1750 train_loss:3.4415 train_time:146571ms step_avg:155.76ms
step:952/1750 train_loss:3.5047 train_time:146732ms step_avg:155.77ms
step:953/1750 train_loss:3.5957 train_time:146895ms step_avg:155.77ms
step:954/1750 train_loss:3.4727 train_time:147058ms step_avg:155.78ms
step:955/1750 train_loss:3.5105 train_time:147218ms step_avg:155.79ms
step:956/1750 train_loss:3.4725 train_time:147380ms step_avg:155.79ms
step:957/1750 train_loss:3.5391 train_time:147541ms step_avg:155.80ms
step:958/1750 train_loss:3.5378 train_time:147704ms step_avg:155.81ms
step:959/1750 train_loss:3.5451 train_time:147866ms step_avg:155.81ms
step:960/1750 train_loss:3.4423 train_time:148027ms step_avg:155.82ms
step:961/1750 train_loss:3.6821 train_time:148186ms step_avg:155.82ms
step:962/1750 train_loss:3.6339 train_time:148345ms step_avg:155.82ms
step:963/1750 train_loss:3.6540 train_time:148507ms step_avg:155.83ms
step:964/1750 train_loss:3.4632 train_time:148668ms step_avg:155.84ms
step:965/1750 train_loss:3.5112 train_time:148826ms step_avg:155.84ms
step:966/1750 train_loss:3.7443 train_time:148989ms step_avg:155.85ms
step:967/1750 train_loss:3.5603 train_time:149148ms step_avg:155.85ms
step:968/1750 train_loss:3.5554 train_time:149308ms step_avg:155.85ms
step:969/1750 train_loss:3.6153 train_time:149472ms step_avg:155.86ms
step:970/1750 train_loss:3.4080 train_time:149631ms step_avg:155.87ms
step:971/1750 train_loss:3.5732 train_time:149792ms step_avg:155.87ms
step:972/1750 train_loss:3.5215 train_time:149954ms step_avg:155.88ms
step:973/1750 train_loss:3.5778 train_time:150115ms step_avg:155.88ms
step:974/1750 train_loss:3.6305 train_time:150278ms step_avg:155.89ms
step:975/1750 train_loss:3.5141 train_time:150438ms step_avg:155.89ms
step:976/1750 train_loss:3.7045 train_time:150598ms step_avg:155.90ms
step:977/1750 train_loss:3.6056 train_time:150757ms step_avg:155.90ms
step:978/1750 train_loss:3.3990 train_time:150917ms step_avg:155.91ms
step:979/1750 train_loss:3.6618 train_time:151079ms step_avg:155.91ms
step:980/1750 train_loss:3.4533 train_time:151239ms step_avg:155.92ms
step:981/1750 train_loss:3.6152 train_time:151401ms step_avg:155.92ms
step:982/1750 train_loss:3.5911 train_time:151561ms step_avg:155.93ms
step:983/1750 train_loss:3.5602 train_time:151720ms step_avg:155.93ms
step:984/1750 train_loss:3.5368 train_time:151880ms step_avg:155.93ms
step:985/1750 train_loss:3.6099 train_time:152040ms step_avg:155.94ms
step:986/1750 train_loss:3.4562 train_time:152200ms step_avg:155.94ms
step:987/1750 train_loss:3.5218 train_time:152360ms step_avg:155.95ms
step:988/1750 train_loss:3.5195 train_time:152521ms step_avg:155.95ms
step:989/1750 train_loss:3.4562 train_time:152680ms step_avg:155.96ms
step:990/1750 train_loss:3.6889 train_time:152841ms step_avg:155.96ms
step:991/1750 train_loss:3.5089 train_time:153001ms step_avg:155.96ms
step:992/1750 train_loss:3.4794 train_time:153168ms step_avg:155.98ms
step:993/1750 train_loss:3.5495 train_time:153332ms step_avg:155.98ms
step:994/1750 train_loss:3.6370 train_time:153492ms step_avg:155.99ms
step:995/1750 train_loss:3.5747 train_time:153650ms step_avg:155.99ms
step:996/1750 train_loss:3.5011 train_time:153808ms step_avg:155.99ms
step:997/1750 train_loss:3.8165 train_time:153968ms step_avg:156.00ms
step:998/1750 train_loss:3.4890 train_time:154127ms step_avg:156.00ms
step:999/1750 train_loss:3.6288 train_time:154287ms step_avg:156.00ms
step:1000/1750 train_loss:3.4857 train_time:154448ms step_avg:156.01ms
step:1000/1750 val_loss:3.5101 train_time:154490ms step_avg:156.05ms
step:1001/1750 train_loss:3.5440 train_time:154608ms step_avg:156.01ms
step:1002/1750 train_loss:3.4207 train_time:154769ms step_avg:156.02ms
step:1003/1750 train_loss:3.6021 train_time:154933ms step_avg:156.03ms
step:1004/1750 train_loss:3.6516 train_time:155096ms step_avg:156.03ms
step:1005/1750 train_loss:3.4328 train_time:155256ms step_avg:156.04ms
step:1006/1750 train_loss:3.5053 train_time:155417ms step_avg:156.04ms
step:1007/1750 train_loss:3.4830 train_time:155577ms step_avg:156.05ms
step:1008/1750 train_loss:3.6068 train_time:155740ms step_avg:156.05ms
step:1009/1750 train_loss:3.7054 train_time:155901ms step_avg:156.06ms
step:1010/1750 train_loss:3.6037 train_time:156060ms step_avg:156.06ms
step:1011/1750 train_loss:3.5747 train_time:156219ms step_avg:156.06ms
step:1012/1750 train_loss:3.4370 train_time:156379ms step_avg:156.07ms
step:1013/1750 train_loss:3.5782 train_time:156540ms step_avg:156.07ms
step:1014/1750 train_loss:3.6699 train_time:156700ms step_avg:156.08ms
step:1015/1750 train_loss:3.3736 train_time:156862ms step_avg:156.08ms
step:1016/1750 train_loss:3.4595 train_time:157023ms step_avg:156.09ms
step:1017/1750 train_loss:3.4529 train_time:157184ms step_avg:156.09ms
step:1018/1750 train_loss:3.4432 train_time:157344ms step_avg:156.09ms
step:1019/1750 train_loss:3.5697 train_time:157503ms step_avg:156.10ms
step:1020/1750 train_loss:3.4479 train_time:157666ms step_avg:156.11ms
step:1021/1750 train_loss:3.3991 train_time:157824ms step_avg:156.11ms
step:1022/1750 train_loss:3.5221 train_time:157984ms step_avg:156.11ms
step:1023/1750 train_loss:3.5547 train_time:158144ms step_avg:156.11ms
step:1024/1750 train_loss:3.5249 train_time:158303ms step_avg:156.12ms
step:1025/1750 train_loss:3.5260 train_time:158464ms step_avg:156.12ms
step:1026/1750 train_loss:3.6744 train_time:158622ms step_avg:156.12ms
step:1027/1750 train_loss:3.3691 train_time:158782ms step_avg:156.13ms
step:1028/1750 train_loss:3.4441 train_time:158945ms step_avg:156.13ms
step:1029/1750 train_loss:3.3711 train_time:159108ms step_avg:156.14ms
step:1030/1750 train_loss:3.5823 train_time:159268ms step_avg:156.15ms
step:1031/1750 train_loss:3.5645 train_time:159427ms step_avg:156.15ms
step:1032/1750 train_loss:3.7430 train_time:159588ms step_avg:156.15ms
step:1033/1750 train_loss:3.5414 train_time:159748ms step_avg:156.16ms
step:1034/1750 train_loss:3.4645 train_time:159907ms step_avg:156.16ms
step:1035/1750 train_loss:3.4940 train_time:160068ms step_avg:156.16ms
step:1036/1750 train_loss:3.5380 train_time:160227ms step_avg:156.17ms
step:1037/1750 train_loss:3.8472 train_time:160388ms step_avg:156.17ms
step:1038/1750 train_loss:3.6710 train_time:160549ms step_avg:156.18ms
step:1039/1750 train_loss:3.5605 train_time:160711ms step_avg:156.18ms
step:1040/1750 train_loss:3.4647 train_time:160871ms step_avg:156.19ms
step:1041/1750 train_loss:3.5330 train_time:161034ms step_avg:156.19ms
step:1042/1750 train_loss:3.5744 train_time:161193ms step_avg:156.20ms
step:1043/1750 train_loss:3.4924 train_time:161355ms step_avg:156.20ms
step:1044/1750 train_loss:3.5076 train_time:161515ms step_avg:156.20ms
step:1045/1750 train_loss:3.5730 train_time:161678ms step_avg:156.21ms
step:1046/1750 train_loss:3.4787 train_time:161842ms step_avg:156.22ms
step:1047/1750 train_loss:3.6940 train_time:162002ms step_avg:156.22ms
step:1048/1750 train_loss:3.5536 train_time:162164ms step_avg:156.23ms
step:1049/1750 train_loss:3.4600 train_time:162326ms step_avg:156.23ms
step:1050/1750 train_loss:3.4434 train_time:162490ms step_avg:156.24ms
step:1051/1750 train_loss:3.5556 train_time:162655ms step_avg:156.25ms
step:1052/1750 train_loss:3.4108 train_time:162819ms step_avg:156.26ms
step:1053/1750 train_loss:3.7490 train_time:162981ms step_avg:156.26ms
step:1054/1750 train_loss:3.5911 train_time:163144ms step_avg:156.27ms
step:1055/1750 train_loss:3.4343 train_time:163304ms step_avg:156.27ms
step:1056/1750 train_loss:3.5615 train_time:163464ms step_avg:156.28ms
step:1057/1750 train_loss:3.6361 train_time:163626ms step_avg:156.28ms
step:1058/1750 train_loss:3.3565 train_time:163788ms step_avg:156.29ms
step:1059/1750 train_loss:3.4281 train_time:163954ms step_avg:156.30ms
step:1060/1750 train_loss:3.4978 train_time:164115ms step_avg:156.30ms
step:1061/1750 train_loss:3.4746 train_time:164274ms step_avg:156.30ms
step:1062/1750 train_loss:3.4388 train_time:164436ms step_avg:156.31ms
step:1063/1750 train_loss:3.5215 train_time:164599ms step_avg:156.31ms
step:1064/1750 train_loss:3.4398 train_time:164759ms step_avg:156.32ms
step:1065/1750 train_loss:3.4140 train_time:164922ms step_avg:156.32ms
step:1066/1750 train_loss:3.4698 train_time:165083ms step_avg:156.33ms
step:1067/1750 train_loss:3.3429 train_time:165247ms step_avg:156.34ms
step:1068/1750 train_loss:3.4880 train_time:165406ms step_avg:156.34ms
step:1069/1750 train_loss:3.3675 train_time:165572ms step_avg:156.35ms
step:1070/1750 train_loss:3.6319 train_time:165734ms step_avg:156.35ms
step:1071/1750 train_loss:3.5707 train_time:165901ms step_avg:156.36ms
step:1072/1750 train_loss:3.5021 train_time:166063ms step_avg:156.37ms
step:1073/1750 train_loss:3.5839 train_time:166223ms step_avg:156.37ms
step:1074/1750 train_loss:3.4984 train_time:166385ms step_avg:156.38ms
step:1075/1750 train_loss:3.4574 train_time:166547ms step_avg:156.38ms
step:1076/1750 train_loss:3.8502 train_time:166708ms step_avg:156.39ms
step:1077/1750 train_loss:3.5024 train_time:166869ms step_avg:156.39ms
step:1078/1750 train_loss:3.1400 train_time:167038ms step_avg:156.40ms
step:1079/1750 train_loss:3.5945 train_time:167201ms step_avg:156.41ms
step:1080/1750 train_loss:3.4894 train_time:167365ms step_avg:156.42ms
step:1081/1750 train_loss:3.5700 train_time:167525ms step_avg:156.42ms
step:1082/1750 train_loss:3.6555 train_time:167688ms step_avg:156.43ms
step:1083/1750 train_loss:3.5618 train_time:167848ms step_avg:156.43ms
step:1084/1750 train_loss:3.5388 train_time:168010ms step_avg:156.43ms
step:1085/1750 train_loss:3.4911 train_time:168171ms step_avg:156.44ms
step:1086/1750 train_loss:3.6948 train_time:168334ms step_avg:156.44ms
step:1087/1750 train_loss:3.5745 train_time:168497ms step_avg:156.45ms
step:1088/1750 train_loss:3.4271 train_time:168662ms step_avg:156.46ms
step:1089/1750 train_loss:3.4403 train_time:168828ms step_avg:156.47ms
step:1090/1750 train_loss:3.5461 train_time:168995ms step_avg:156.48ms
step:1091/1750 train_loss:3.3487 train_time:169157ms step_avg:156.48ms
step:1092/1750 train_loss:3.5519 train_time:169317ms step_avg:156.49ms
step:1093/1750 train_loss:3.6752 train_time:169482ms step_avg:156.49ms
step:1094/1750 train_loss:3.5077 train_time:169643ms step_avg:156.50ms
step:1095/1750 train_loss:3.4824 train_time:169803ms step_avg:156.50ms
step:1096/1750 train_loss:3.4921 train_time:169966ms step_avg:156.51ms
step:1097/1750 train_loss:3.5571 train_time:170128ms step_avg:156.51ms
step:1098/1750 train_loss:3.6310 train_time:170292ms step_avg:156.52ms
step:1099/1750 train_loss:3.5908 train_time:170455ms step_avg:156.52ms
step:1100/1750 train_loss:3.5023 train_time:170618ms step_avg:156.53ms
step:1101/1750 train_loss:3.3576 train_time:170781ms step_avg:156.54ms
step:1102/1750 train_loss:3.3898 train_time:170946ms step_avg:156.54ms
step:1103/1750 train_loss:3.5128 train_time:171112ms step_avg:156.55ms
step:1104/1750 train_loss:3.3830 train_time:171271ms step_avg:156.56ms
step:1105/1750 train_loss:4.1331 train_time:171432ms step_avg:156.56ms
step:1106/1750 train_loss:3.3026 train_time:171592ms step_avg:156.56ms
step:1107/1750 train_loss:3.6405 train_time:171756ms step_avg:156.57ms
step:1108/1750 train_loss:3.4075 train_time:171914ms step_avg:156.57ms
step:1109/1750 train_loss:3.5691 train_time:172073ms step_avg:156.57ms
step:1110/1750 train_loss:3.5010 train_time:172235ms step_avg:156.58ms
step:1111/1750 train_loss:3.5500 train_time:172397ms step_avg:156.58ms
step:1112/1750 train_loss:3.6275 train_time:172561ms step_avg:156.59ms
step:1113/1750 train_loss:3.5054 train_time:172727ms step_avg:156.60ms
step:1114/1750 train_loss:3.4416 train_time:172890ms step_avg:156.60ms
step:1115/1750 train_loss:3.3191 train_time:173054ms step_avg:156.61ms
step:1116/1750 train_loss:3.4908 train_time:173214ms step_avg:156.61ms
step:1117/1750 train_loss:3.6635 train_time:173378ms step_avg:156.62ms
step:1118/1750 train_loss:3.6970 train_time:173542ms step_avg:156.63ms
step:1119/1750 train_loss:3.5472 train_time:173701ms step_avg:156.63ms
step:1120/1750 train_loss:3.5657 train_time:173864ms step_avg:156.63ms
step:1121/1750 train_loss:3.4573 train_time:174027ms step_avg:156.64ms
step:1122/1750 train_loss:3.5275 train_time:174189ms step_avg:156.64ms
step:1123/1750 train_loss:3.6596 train_time:174350ms step_avg:156.65ms
step:1124/1750 train_loss:3.4210 train_time:174510ms step_avg:156.65ms
step:1125/1750 train_loss:3.2949 train_time:174671ms step_avg:156.66ms
step:1125/1750 val_loss:3.4808 train_time:174713ms step_avg:156.69ms
step:1126/1750 train_loss:3.5504 train_time:174832ms step_avg:156.66ms
step:1127/1750 train_loss:3.7496 train_time:174994ms step_avg:156.66ms
step:1128/1750 train_loss:3.2991 train_time:175158ms step_avg:156.67ms
step:1129/1750 train_loss:3.6294 train_time:175321ms step_avg:156.68ms
step:1130/1750 train_loss:3.4488 train_time:175483ms step_avg:156.68ms
step:1131/1750 train_loss:3.4739 train_time:175649ms step_avg:156.69ms
step:1132/1750 train_loss:3.4323 train_time:175808ms step_avg:156.69ms
step:1133/1750 train_loss:3.5723 train_time:176086ms step_avg:156.80ms
step:1134/1750 train_loss:3.5247 train_time:176252ms step_avg:156.81ms
step:1135/1750 train_loss:3.5904 train_time:176413ms step_avg:156.81ms
step:1136/1750 train_loss:3.6305 train_time:176575ms step_avg:156.82ms
step:1137/1750 train_loss:3.5341 train_time:176735ms step_avg:156.82ms
step:1138/1750 train_loss:3.4247 train_time:176898ms step_avg:156.82ms
step:1139/1750 train_loss:3.7186 train_time:177198ms step_avg:156.95ms
step:1140/1750 train_loss:3.5387 train_time:177356ms step_avg:156.95ms
step:1141/1750 train_loss:3.6553 train_time:177519ms step_avg:156.96ms
step:1142/1750 train_loss:3.5268 train_time:177679ms step_avg:156.96ms
step:1143/1750 train_loss:3.4365 train_time:177840ms step_avg:156.96ms
step:1144/1750 train_loss:3.5132 train_time:178001ms step_avg:156.97ms
step:1145/1750 train_loss:3.6674 train_time:178160ms step_avg:156.97ms
step:1146/1750 train_loss:3.6214 train_time:178323ms step_avg:156.97ms
step:1147/1750 train_loss:3.5528 train_time:178484ms step_avg:156.98ms
step:1148/1750 train_loss:3.5677 train_time:178645ms step_avg:156.98ms
step:1149/1750 train_loss:3.4045 train_time:178810ms step_avg:156.99ms
step:1150/1750 train_loss:3.4385 train_time:178971ms step_avg:156.99ms
step:1151/1750 train_loss:3.3928 train_time:179134ms step_avg:157.00ms
step:1152/1750 train_loss:3.4819 train_time:179298ms step_avg:157.00ms
step:1153/1750 train_loss:3.5004 train_time:179460ms step_avg:157.01ms
step:1154/1750 train_loss:3.5921 train_time:179618ms step_avg:157.01ms
step:1155/1750 train_loss:3.4021 train_time:179782ms step_avg:157.01ms
step:1156/1750 train_loss:3.6124 train_time:179949ms step_avg:157.02ms
step:1157/1750 train_loss:3.5709 train_time:180111ms step_avg:157.03ms
step:1158/1750 train_loss:3.3376 train_time:180271ms step_avg:157.03ms
step:1159/1750 train_loss:3.4108 train_time:180431ms step_avg:157.03ms
step:1160/1750 train_loss:3.4038 train_time:180592ms step_avg:157.04ms
step:1161/1750 train_loss:3.1724 train_time:180754ms step_avg:157.04ms
step:1162/1750 train_loss:3.4920 train_time:180915ms step_avg:157.04ms
step:1163/1750 train_loss:3.4596 train_time:181076ms step_avg:157.05ms
step:1164/1750 train_loss:3.3631 train_time:181236ms step_avg:157.05ms
step:1165/1750 train_loss:3.3238 train_time:181396ms step_avg:157.05ms
step:1166/1750 train_loss:3.4526 train_time:181558ms step_avg:157.06ms
step:1167/1750 train_loss:3.4741 train_time:181718ms step_avg:157.06ms
step:1168/1750 train_loss:3.7898 train_time:181880ms step_avg:157.06ms
step:1169/1750 train_loss:3.4518 train_time:182045ms step_avg:157.07ms
step:1170/1750 train_loss:3.4575 train_time:182209ms step_avg:157.08ms
step:1171/1750 train_loss:3.3882 train_time:182371ms step_avg:157.08ms
step:1172/1750 train_loss:3.4999 train_time:182532ms step_avg:157.08ms
step:1173/1750 train_loss:3.6113 train_time:182700ms step_avg:157.09ms
step:1174/1750 train_loss:3.4483 train_time:182871ms step_avg:157.11ms
step:1175/1750 train_loss:3.4477 train_time:183035ms step_avg:157.11ms
step:1176/1750 train_loss:3.4995 train_time:183201ms step_avg:157.12ms
step:1177/1750 train_loss:3.5231 train_time:183369ms step_avg:157.13ms
step:1178/1750 train_loss:3.5729 train_time:183533ms step_avg:157.13ms
step:1179/1750 train_loss:3.4787 train_time:183694ms step_avg:157.14ms
step:1180/1750 train_loss:3.4323 train_time:183866ms step_avg:157.15ms
step:1181/1750 train_loss:3.4128 train_time:184027ms step_avg:157.15ms
step:1182/1750 train_loss:3.4606 train_time:184193ms step_avg:157.16ms
step:1183/1750 train_loss:3.3979 train_time:184356ms step_avg:157.17ms
step:1184/1750 train_loss:3.5808 train_time:184520ms step_avg:157.17ms
step:1185/1750 train_loss:3.6169 train_time:184686ms step_avg:157.18ms
step:1186/1750 train_loss:3.4328 train_time:184852ms step_avg:157.19ms
step:1187/1750 train_loss:3.4806 train_time:185023ms step_avg:157.20ms
step:1188/1750 train_loss:3.5127 train_time:185184ms step_avg:157.20ms
step:1189/1750 train_loss:3.3468 train_time:185349ms step_avg:157.21ms
step:1190/1750 train_loss:3.5168 train_time:185514ms step_avg:157.21ms
step:1191/1750 train_loss:3.6559 train_time:185677ms step_avg:157.22ms
step:1192/1750 train_loss:3.4670 train_time:185838ms step_avg:157.22ms
step:1193/1750 train_loss:3.3432 train_time:186002ms step_avg:157.23ms
step:1194/1750 train_loss:3.6296 train_time:186165ms step_avg:157.23ms
step:1195/1750 train_loss:3.4499 train_time:186332ms step_avg:157.24ms
step:1196/1750 train_loss:3.4587 train_time:186504ms step_avg:157.25ms
step:1197/1750 train_loss:3.3644 train_time:186671ms step_avg:157.26ms
step:1198/1750 train_loss:3.3673 train_time:186843ms step_avg:157.27ms
step:1199/1750 train_loss:3.4122 train_time:187006ms step_avg:157.28ms
step:1200/1750 train_loss:3.5118 train_time:187169ms step_avg:157.28ms
step:1201/1750 train_loss:3.5605 train_time:187332ms step_avg:157.29ms
step:1202/1750 train_loss:3.7526 train_time:187506ms step_avg:157.30ms
step:1203/1750 train_loss:3.4800 train_time:187671ms step_avg:157.31ms
step:1204/1750 train_loss:3.3868 train_time:187838ms step_avg:157.32ms
step:1205/1750 train_loss:3.4985 train_time:188001ms step_avg:157.32ms
step:1206/1750 train_loss:3.5436 train_time:188163ms step_avg:157.33ms
step:1207/1750 train_loss:3.5956 train_time:188326ms step_avg:157.33ms
step:1208/1750 train_loss:3.4706 train_time:188489ms step_avg:157.34ms
step:1209/1750 train_loss:3.3099 train_time:188654ms step_avg:157.34ms
step:1210/1750 train_loss:3.3750 train_time:188819ms step_avg:157.35ms
step:1211/1750 train_loss:3.4701 train_time:188983ms step_avg:157.35ms
step:1212/1750 train_loss:3.4698 train_time:189148ms step_avg:157.36ms
step:1213/1750 train_loss:3.4895 train_time:189314ms step_avg:157.37ms
step:1214/1750 train_loss:3.3490 train_time:189482ms step_avg:157.38ms
step:1215/1750 train_loss:3.4647 train_time:189646ms step_avg:157.38ms
step:1216/1750 train_loss:3.4022 train_time:189809ms step_avg:157.39ms
step:1217/1750 train_loss:3.4026 train_time:189974ms step_avg:157.39ms
step:1218/1750 train_loss:3.4890 train_time:190137ms step_avg:157.40ms
step:1219/1750 train_loss:3.3433 train_time:190306ms step_avg:157.41ms
step:1220/1750 train_loss:3.5506 train_time:190468ms step_avg:157.41ms
step:1221/1750 train_loss:3.5813 train_time:190632ms step_avg:157.42ms
step:1222/1750 train_loss:3.5173 train_time:190793ms step_avg:157.42ms
step:1223/1750 train_loss:3.3621 train_time:190955ms step_avg:157.42ms
step:1224/1750 train_loss:3.3330 train_time:191123ms step_avg:157.43ms
step:1225/1750 train_loss:3.4490 train_time:191285ms step_avg:157.44ms
step:1226/1750 train_loss:3.4014 train_time:191450ms step_avg:157.44ms
step:1227/1750 train_loss:3.3458 train_time:191616ms step_avg:157.45ms
step:1228/1750 train_loss:3.5211 train_time:191776ms step_avg:157.45ms
step:1229/1750 train_loss:3.4414 train_time:191940ms step_avg:157.46ms
step:1230/1750 train_loss:3.4740 train_time:192110ms step_avg:157.47ms
step:1231/1750 train_loss:3.6516 train_time:192276ms step_avg:157.47ms
step:1232/1750 train_loss:3.5703 train_time:192442ms step_avg:157.48ms
step:1233/1750 train_loss:3.4970 train_time:192604ms step_avg:157.49ms
step:1234/1750 train_loss:3.6573 train_time:192767ms step_avg:157.49ms
step:1235/1750 train_loss:3.3982 train_time:192933ms step_avg:157.50ms
step:1236/1750 train_loss:3.3650 train_time:193095ms step_avg:157.50ms
step:1237/1750 train_loss:3.3420 train_time:193257ms step_avg:157.50ms
step:1238/1750 train_loss:3.3671 train_time:193428ms step_avg:157.51ms
step:1239/1750 train_loss:3.4030 train_time:193593ms step_avg:157.52ms
step:1240/1750 train_loss:3.4540 train_time:193753ms step_avg:157.52ms
step:1241/1750 train_loss:3.4977 train_time:193917ms step_avg:157.53ms
step:1242/1750 train_loss:3.3691 train_time:194079ms step_avg:157.53ms
step:1243/1750 train_loss:3.4796 train_time:194244ms step_avg:157.54ms
step:1244/1750 train_loss:3.4867 train_time:194406ms step_avg:157.54ms
step:1245/1750 train_loss:3.4916 train_time:194570ms step_avg:157.55ms
step:1246/1750 train_loss:3.3145 train_time:194732ms step_avg:157.55ms
step:1247/1750 train_loss:3.4525 train_time:194893ms step_avg:157.55ms
step:1248/1750 train_loss:3.5145 train_time:195055ms step_avg:157.56ms
step:1249/1750 train_loss:3.4944 train_time:195217ms step_avg:157.56ms
step:1250/1750 train_loss:3.3741 train_time:195380ms step_avg:157.56ms
step:1250/1750 val_loss:3.4286 train_time:195424ms step_avg:157.60ms
step:1251/1750 train_loss:3.5680 train_time:195547ms step_avg:157.57ms
step:1252/1750 train_loss:3.4397 train_time:195706ms step_avg:157.57ms
step:1253/1750 train_loss:3.3775 train_time:195868ms step_avg:157.58ms
step:1254/1750 train_loss:3.4836 train_time:196033ms step_avg:157.58ms
step:1255/1750 train_loss:3.5955 train_time:196201ms step_avg:157.59ms
step:1256/1750 train_loss:3.3788 train_time:196364ms step_avg:157.60ms
step:1257/1750 train_loss:3.4374 train_time:196527ms step_avg:157.60ms
step:1258/1750 train_loss:3.4241 train_time:196692ms step_avg:157.61ms
step:1259/1750 train_loss:3.4076 train_time:196853ms step_avg:157.61ms
step:1260/1750 train_loss:3.2789 train_time:197014ms step_avg:157.61ms
step:1261/1750 train_loss:3.3723 train_time:197179ms step_avg:157.62ms
step:1262/1750 train_loss:3.3979 train_time:197343ms step_avg:157.62ms
step:1263/1750 train_loss:3.3010 train_time:197505ms step_avg:157.63ms
step:1264/1750 train_loss:3.5194 train_time:197665ms step_avg:157.63ms
step:1265/1750 train_loss:3.5037 train_time:197826ms step_avg:157.63ms
step:1266/1750 train_loss:3.5142 train_time:197991ms step_avg:157.64ms
step:1267/1750 train_loss:3.4378 train_time:198154ms step_avg:157.64ms
step:1268/1750 train_loss:3.4801 train_time:198317ms step_avg:157.64ms
step:1269/1750 train_loss:3.3326 train_time:198483ms step_avg:157.65ms
step:1270/1750 train_loss:3.1726 train_time:198645ms step_avg:157.65ms
step:1271/1750 train_loss:3.4743 train_time:198808ms step_avg:157.66ms
step:1272/1750 train_loss:3.4310 train_time:198966ms step_avg:157.66ms
step:1273/1750 train_loss:3.4579 train_time:199129ms step_avg:157.66ms
step:1274/1750 train_loss:3.4245 train_time:199294ms step_avg:157.67ms
step:1275/1750 train_loss:3.5078 train_time:199456ms step_avg:157.67ms
step:1276/1750 train_loss:3.5491 train_time:199615ms step_avg:157.67ms
step:1277/1750 train_loss:3.4795 train_time:199779ms step_avg:157.68ms
step:1278/1750 train_loss:3.4724 train_time:199939ms step_avg:157.68ms
step:1279/1750 train_loss:3.3312 train_time:200103ms step_avg:157.69ms
step:1280/1750 train_loss:3.4480 train_time:200272ms step_avg:157.69ms
step:1281/1750 train_loss:3.4973 train_time:200434ms step_avg:157.70ms
step:1282/1750 train_loss:3.5391 train_time:200594ms step_avg:157.70ms
step:1283/1750 train_loss:3.4062 train_time:200758ms step_avg:157.70ms
step:1284/1750 train_loss:3.4447 train_time:200920ms step_avg:157.71ms
step:1285/1750 train_loss:3.4287 train_time:201083ms step_avg:157.71ms
step:1286/1750 train_loss:3.4045 train_time:201245ms step_avg:157.72ms
step:1287/1750 train_loss:3.5591 train_time:201408ms step_avg:157.72ms
step:1288/1750 train_loss:3.3774 train_time:201573ms step_avg:157.73ms
step:1289/1750 train_loss:3.4561 train_time:201742ms step_avg:157.73ms
step:1290/1750 train_loss:3.5329 train_time:201911ms step_avg:157.74ms
step:1291/1750 train_loss:3.4546 train_time:202075ms step_avg:157.75ms
step:1292/1750 train_loss:3.5464 train_time:202241ms step_avg:157.75ms
step:1293/1750 train_loss:3.5886 train_time:202405ms step_avg:157.76ms
step:1294/1750 train_loss:3.5371 train_time:202570ms step_avg:157.76ms
step:1295/1750 train_loss:3.3586 train_time:202732ms step_avg:157.77ms
step:1296/1750 train_loss:3.4411 train_time:202895ms step_avg:157.77ms
step:1297/1750 train_loss:3.3519 train_time:203061ms step_avg:157.78ms
step:1298/1750 train_loss:3.3507 train_time:203225ms step_avg:157.78ms
step:1299/1750 train_loss:3.4630 train_time:203389ms step_avg:157.79ms
step:1300/1750 train_loss:3.4813 train_time:203551ms step_avg:157.79ms
step:1301/1750 train_loss:3.4777 train_time:203715ms step_avg:157.80ms
step:1302/1750 train_loss:3.6456 train_time:203882ms step_avg:157.80ms
step:1303/1750 train_loss:3.3794 train_time:204052ms step_avg:157.81ms
step:1304/1750 train_loss:3.5769 train_time:204218ms step_avg:157.82ms
step:1305/1750 train_loss:3.3438 train_time:204380ms step_avg:157.82ms
step:1306/1750 train_loss:3.5192 train_time:204547ms step_avg:157.83ms
step:1307/1750 train_loss:3.5276 train_time:204709ms step_avg:157.83ms
step:1308/1750 train_loss:3.3686 train_time:204875ms step_avg:157.84ms
step:1309/1750 train_loss:3.3777 train_time:205041ms step_avg:157.85ms
step:1310/1750 train_loss:3.3716 train_time:205203ms step_avg:157.85ms
step:1311/1750 train_loss:3.3633 train_time:205365ms step_avg:157.85ms
step:1312/1750 train_loss:3.4554 train_time:205531ms step_avg:157.86ms
step:1313/1750 train_loss:3.4149 train_time:205695ms step_avg:157.86ms
step:1314/1750 train_loss:3.1113 train_time:205862ms step_avg:157.87ms
step:1315/1750 train_loss:3.3511 train_time:206025ms step_avg:157.87ms
step:1316/1750 train_loss:3.4635 train_time:206187ms step_avg:157.88ms
step:1317/1750 train_loss:3.4944 train_time:206352ms step_avg:157.88ms
step:1318/1750 train_loss:3.3659 train_time:206522ms step_avg:157.89ms
step:1319/1750 train_loss:3.5006 train_time:206685ms step_avg:157.90ms
step:1320/1750 train_loss:3.5250 train_time:206853ms step_avg:157.90ms
step:1321/1750 train_loss:3.4294 train_time:207018ms step_avg:157.91ms
step:1322/1750 train_loss:3.3869 train_time:207300ms step_avg:158.00ms
step:1323/1750 train_loss:3.3986 train_time:207474ms step_avg:158.02ms
step:1324/1750 train_loss:3.5013 train_time:207640ms step_avg:158.02ms
step:1325/1750 train_loss:3.5647 train_time:207808ms step_avg:158.03ms
step:1326/1750 train_loss:3.2872 train_time:207976ms step_avg:158.04ms
step:1327/1750 train_loss:3.2346 train_time:208138ms step_avg:158.04ms
step:1328/1750 train_loss:3.5586 train_time:208302ms step_avg:158.04ms
step:1329/1750 train_loss:3.3644 train_time:208616ms step_avg:158.16ms
step:1330/1750 train_loss:3.4951 train_time:208782ms step_avg:158.17ms
step:1331/1750 train_loss:3.4092 train_time:208942ms step_avg:158.17ms
step:1332/1750 train_loss:3.8121 train_time:209108ms step_avg:158.18ms
step:1333/1750 train_loss:3.5369 train_time:209273ms step_avg:158.18ms
step:1334/1750 train_loss:3.4384 train_time:209437ms step_avg:158.18ms
step:1335/1750 train_loss:3.3683 train_time:209601ms step_avg:158.19ms
step:1336/1750 train_loss:3.3629 train_time:209772ms step_avg:158.20ms
step:1337/1750 train_loss:3.6202 train_time:209940ms step_avg:158.21ms
step:1338/1750 train_loss:3.5885 train_time:210104ms step_avg:158.21ms
step:1339/1750 train_loss:3.4115 train_time:210271ms step_avg:158.22ms
step:1340/1750 train_loss:3.3538 train_time:210435ms step_avg:158.22ms
step:1341/1750 train_loss:3.6645 train_time:210597ms step_avg:158.22ms
step:1342/1750 train_loss:3.4302 train_time:210764ms step_avg:158.23ms
step:1343/1750 train_loss:3.4328 train_time:210927ms step_avg:158.23ms
step:1344/1750 train_loss:3.4870 train_time:211092ms step_avg:158.24ms
step:1345/1750 train_loss:3.4549 train_time:211260ms step_avg:158.25ms
step:1346/1750 train_loss:3.3660 train_time:211424ms step_avg:158.25ms
step:1347/1750 train_loss:3.3408 train_time:211585ms step_avg:158.25ms
step:1348/1750 train_loss:3.4149 train_time:211747ms step_avg:158.26ms
step:1349/1750 train_loss:3.3393 train_time:211911ms step_avg:158.26ms
step:1350/1750 train_loss:3.4624 train_time:212077ms step_avg:158.27ms
step:1351/1750 train_loss:3.3132 train_time:212240ms step_avg:158.27ms
step:1352/1750 train_loss:3.3756 train_time:212404ms step_avg:158.27ms
step:1353/1750 train_loss:3.4774 train_time:212572ms step_avg:158.28ms
step:1354/1750 train_loss:3.3268 train_time:212737ms step_avg:158.29ms
step:1355/1750 train_loss:3.2581 train_time:212897ms step_avg:158.29ms
step:1356/1750 train_loss:3.5837 train_time:213062ms step_avg:158.29ms
step:1357/1750 train_loss:3.4970 train_time:213230ms step_avg:158.30ms
step:1358/1750 train_loss:3.2542 train_time:213395ms step_avg:158.30ms
step:1359/1750 train_loss:3.5139 train_time:213559ms step_avg:158.31ms
step:1360/1750 train_loss:3.4259 train_time:213724ms step_avg:158.31ms
step:1361/1750 train_loss:3.2134 train_time:213892ms step_avg:158.32ms
step:1362/1750 train_loss:3.4565 train_time:214056ms step_avg:158.33ms
step:1363/1750 train_loss:3.3438 train_time:214225ms step_avg:158.33ms
step:1364/1750 train_loss:3.3811 train_time:214386ms step_avg:158.34ms
step:1365/1750 train_loss:3.3802 train_time:214547ms step_avg:158.34ms
step:1366/1750 train_loss:3.4977 train_time:214711ms step_avg:158.34ms
step:1367/1750 train_loss:3.4647 train_time:214875ms step_avg:158.35ms
step:1368/1750 train_loss:3.4175 train_time:215041ms step_avg:158.35ms
step:1369/1750 train_loss:3.3379 train_time:215211ms step_avg:158.36ms
step:1370/1750 train_loss:3.6734 train_time:215376ms step_avg:158.36ms
step:1371/1750 train_loss:3.3861 train_time:215540ms step_avg:158.37ms
step:1372/1750 train_loss:3.4349 train_time:215706ms step_avg:158.37ms
step:1373/1750 train_loss:3.4310 train_time:215869ms step_avg:158.38ms
step:1374/1750 train_loss:3.2263 train_time:216036ms step_avg:158.38ms
step:1375/1750 train_loss:3.6118 train_time:216198ms step_avg:158.39ms
step:1375/1750 val_loss:3.3810 train_time:216239ms step_avg:158.42ms
step:1376/1750 train_loss:3.4138 train_time:216359ms step_avg:158.39ms
step:1377/1750 train_loss:3.5490 train_time:216524ms step_avg:158.39ms
step:1378/1750 train_loss:3.5485 train_time:216686ms step_avg:158.40ms
step:1379/1750 train_loss:3.1895 train_time:216853ms step_avg:158.40ms
step:1380/1750 train_loss:3.3759 train_time:217015ms step_avg:158.41ms
step:1381/1750 train_loss:3.7954 train_time:217183ms step_avg:158.41ms
step:1382/1750 train_loss:3.2885 train_time:217345ms step_avg:158.42ms
step:1383/1750 train_loss:3.4618 train_time:217509ms step_avg:158.42ms
step:1384/1750 train_loss:3.5468 train_time:217675ms step_avg:158.42ms
step:1385/1750 train_loss:3.4693 train_time:217835ms step_avg:158.43ms
step:1386/1750 train_loss:3.4106 train_time:217999ms step_avg:158.43ms
step:1387/1750 train_loss:3.2664 train_time:218163ms step_avg:158.43ms
step:1388/1750 train_loss:3.4119 train_time:218326ms step_avg:158.44ms
step:1389/1750 train_loss:3.3874 train_time:218492ms step_avg:158.44ms
step:1390/1750 train_loss:3.6411 train_time:218653ms step_avg:158.44ms
step:1391/1750 train_loss:3.3566 train_time:218816ms step_avg:158.45ms
step:1392/1750 train_loss:3.3577 train_time:218980ms step_avg:158.45ms
step:1393/1750 train_loss:3.3129 train_time:219144ms step_avg:158.46ms
step:1394/1750 train_loss:3.5774 train_time:219307ms step_avg:158.46ms
step:1395/1750 train_loss:3.4681 train_time:219470ms step_avg:158.46ms
step:1396/1750 train_loss:3.4743 train_time:219631ms step_avg:158.46ms
step:1397/1750 train_loss:3.3728 train_time:219792ms step_avg:158.47ms
step:1398/1750 train_loss:3.3225 train_time:219953ms step_avg:158.47ms
step:1399/1750 train_loss:3.3951 train_time:220114ms step_avg:158.47ms
step:1400/1750 train_loss:3.3825 train_time:220279ms step_avg:158.47ms
step:1401/1750 train_loss:3.4121 train_time:220440ms step_avg:158.48ms
step:1402/1750 train_loss:3.3647 train_time:220603ms step_avg:158.48ms
step:1403/1750 train_loss:3.5703 train_time:220771ms step_avg:158.49ms
step:1404/1750 train_loss:3.3485 train_time:220933ms step_avg:158.49ms
step:1405/1750 train_loss:3.3749 train_time:221098ms step_avg:158.49ms
step:1406/1750 train_loss:3.3755 train_time:221262ms step_avg:158.50ms
step:1407/1750 train_loss:3.2396 train_time:221423ms step_avg:158.50ms
step:1408/1750 train_loss:3.3731 train_time:221587ms step_avg:158.50ms
step:1409/1750 train_loss:3.3645 train_time:221755ms step_avg:158.51ms
step:1410/1750 train_loss:3.3497 train_time:221916ms step_avg:158.51ms
step:1411/1750 train_loss:3.4310 train_time:222077ms step_avg:158.51ms
step:1412/1750 train_loss:3.3921 train_time:222240ms step_avg:158.52ms
step:1413/1750 train_loss:3.4245 train_time:222402ms step_avg:158.52ms
step:1414/1750 train_loss:3.3997 train_time:222565ms step_avg:158.52ms
step:1415/1750 train_loss:3.4815 train_time:222732ms step_avg:158.53ms
step:1416/1750 train_loss:3.2935 train_time:222899ms step_avg:158.53ms
step:1417/1750 train_loss:3.3489 train_time:223063ms step_avg:158.54ms
step:1418/1750 train_loss:3.4568 train_time:223227ms step_avg:158.54ms
step:1419/1750 train_loss:3.4156 train_time:223394ms step_avg:158.55ms
step:1420/1750 train_loss:3.4258 train_time:223559ms step_avg:158.55ms
step:1421/1750 train_loss:3.4383 train_time:223723ms step_avg:158.56ms
step:1422/1750 train_loss:3.4042 train_time:223889ms step_avg:158.56ms
step:1423/1750 train_loss:3.3878 train_time:224052ms step_avg:158.56ms
step:1424/1750 train_loss:3.3941 train_time:224218ms step_avg:158.57ms
step:1425/1750 train_loss:3.2544 train_time:224387ms step_avg:158.58ms
step:1426/1750 train_loss:3.3962 train_time:224548ms step_avg:158.58ms
step:1427/1750 train_loss:3.3406 train_time:224715ms step_avg:158.59ms
step:1428/1750 train_loss:3.4433 train_time:224879ms step_avg:158.59ms
step:1429/1750 train_loss:3.4241 train_time:225041ms step_avg:158.59ms
step:1430/1750 train_loss:3.3269 train_time:225207ms step_avg:158.60ms
step:1431/1750 train_loss:3.3864 train_time:225375ms step_avg:158.60ms
step:1432/1750 train_loss:3.4067 train_time:225541ms step_avg:158.61ms
step:1433/1750 train_loss:3.2068 train_time:225708ms step_avg:158.61ms
step:1434/1750 train_loss:3.3561 train_time:225878ms step_avg:158.62ms
step:1435/1750 train_loss:3.1882 train_time:226041ms step_avg:158.63ms
step:1436/1750 train_loss:3.2869 train_time:226206ms step_avg:158.63ms
step:1437/1750 train_loss:3.4777 train_time:226371ms step_avg:158.63ms
step:1438/1750 train_loss:3.4430 train_time:226532ms step_avg:158.64ms
step:1439/1750 train_loss:3.3792 train_time:226697ms step_avg:158.64ms
step:1440/1750 train_loss:3.2540 train_time:226860ms step_avg:158.64ms
step:1441/1750 train_loss:3.4092 train_time:227025ms step_avg:158.65ms
step:1442/1750 train_loss:3.4500 train_time:227194ms step_avg:158.66ms
step:1443/1750 train_loss:3.5383 train_time:227366ms step_avg:158.66ms
step:1444/1750 train_loss:3.5132 train_time:227530ms step_avg:158.67ms
step:1445/1750 train_loss:3.3960 train_time:227695ms step_avg:158.67ms
step:1446/1750 train_loss:3.2646 train_time:227862ms step_avg:158.68ms
step:1447/1750 train_loss:3.3588 train_time:228030ms step_avg:158.68ms
step:1448/1750 train_loss:3.3571 train_time:228195ms step_avg:158.69ms
step:1449/1750 train_loss:3.4658 train_time:228359ms step_avg:158.69ms
step:1450/1750 train_loss:3.4557 train_time:228523ms step_avg:158.70ms
step:1451/1750 train_loss:3.2716 train_time:228686ms step_avg:158.70ms
step:1452/1750 train_loss:3.3930 train_time:228854ms step_avg:158.71ms
step:1453/1750 train_loss:3.3184 train_time:229015ms step_avg:158.71ms
step:1454/1750 train_loss:3.3487 train_time:229179ms step_avg:158.71ms
step:1455/1750 train_loss:3.3896 train_time:229348ms step_avg:158.72ms
step:1456/1750 train_loss:3.3397 train_time:229512ms step_avg:158.72ms
step:1457/1750 train_loss:3.2218 train_time:229675ms step_avg:158.72ms
step:1458/1750 train_loss:3.4846 train_time:229838ms step_avg:158.73ms
step:1459/1750 train_loss:3.3313 train_time:230005ms step_avg:158.73ms
step:1460/1750 train_loss:3.3800 train_time:230171ms step_avg:158.74ms
step:1461/1750 train_loss:3.4941 train_time:230338ms step_avg:158.74ms
step:1462/1750 train_loss:3.3312 train_time:230502ms step_avg:158.75ms
step:1463/1750 train_loss:3.5291 train_time:230671ms step_avg:158.76ms
step:1464/1750 train_loss:3.4184 train_time:230835ms step_avg:158.76ms
step:1465/1750 train_loss:3.4161 train_time:231000ms step_avg:158.76ms
step:1466/1750 train_loss:3.3464 train_time:231162ms step_avg:158.77ms
step:1467/1750 train_loss:3.4553 train_time:231329ms step_avg:158.77ms
step:1468/1750 train_loss:3.3438 train_time:231492ms step_avg:158.77ms
step:1469/1750 train_loss:3.3271 train_time:231659ms step_avg:158.78ms
step:1470/1750 train_loss:3.3999 train_time:231830ms step_avg:158.79ms
step:1471/1750 train_loss:3.3097 train_time:232001ms step_avg:158.80ms
step:1472/1750 train_loss:3.3051 train_time:232173ms step_avg:158.81ms
step:1473/1750 train_loss:3.4985 train_time:232336ms step_avg:158.81ms
step:1474/1750 train_loss:3.3726 train_time:232505ms step_avg:158.81ms
step:1475/1750 train_loss:3.2028 train_time:232675ms step_avg:158.82ms
step:1476/1750 train_loss:3.3185 train_time:232837ms step_avg:158.82ms
step:1477/1750 train_loss:3.2995 train_time:233009ms step_avg:158.83ms
step:1478/1750 train_loss:3.3707 train_time:233178ms step_avg:158.84ms
step:1479/1750 train_loss:3.4558 train_time:233343ms step_avg:158.84ms
step:1480/1750 train_loss:3.3344 train_time:233507ms step_avg:158.85ms
step:1481/1750 train_loss:3.5085 train_time:233674ms step_avg:158.85ms
step:1482/1750 train_loss:3.4314 train_time:233845ms step_avg:158.86ms
step:1483/1750 train_loss:3.3349 train_time:234020ms step_avg:158.87ms
step:1484/1750 train_loss:3.3199 train_time:234189ms step_avg:158.88ms
step:1485/1750 train_loss:3.3379 train_time:234353ms step_avg:158.88ms
step:1486/1750 train_loss:3.2827 train_time:234520ms step_avg:158.89ms
step:1487/1750 train_loss:3.3978 train_time:234686ms step_avg:158.89ms
step:1488/1750 train_loss:3.2922 train_time:234854ms step_avg:158.90ms
step:1489/1750 train_loss:3.3789 train_time:235018ms step_avg:158.90ms
step:1490/1750 train_loss:3.3076 train_time:235184ms step_avg:158.91ms
step:1491/1750 train_loss:3.2229 train_time:235349ms step_avg:158.91ms
step:1492/1750 train_loss:3.3218 train_time:235512ms step_avg:158.92ms
step:1493/1750 train_loss:3.4897 train_time:235675ms step_avg:158.92ms
step:1494/1750 train_loss:3.3539 train_time:235837ms step_avg:158.92ms
step:1495/1750 train_loss:3.0901 train_time:236005ms step_avg:158.93ms
step:1496/1750 train_loss:3.4138 train_time:236171ms step_avg:158.93ms
step:1497/1750 train_loss:3.3699 train_time:236338ms step_avg:158.94ms
step:1498/1750 train_loss:3.3978 train_time:236506ms step_avg:158.94ms
step:1499/1750 train_loss:3.3726 train_time:236677ms step_avg:158.95ms
step:1500/1750 train_loss:3.3534 train_time:236850ms step_avg:158.96ms
step:1500/1750 val_loss:3.3444 train_time:236895ms step_avg:158.99ms
step:1501/1750 train_loss:3.1446 train_time:237023ms step_avg:158.97ms
step:1502/1750 train_loss:3.4141 train_time:237200ms step_avg:158.98ms
step:1503/1750 train_loss:3.2955 train_time:237363ms step_avg:158.98ms
step:1504/1750 train_loss:3.3059 train_time:237528ms step_avg:158.99ms
step:1505/1750 train_loss:3.2645 train_time:237693ms step_avg:158.99ms
step:1506/1750 train_loss:3.3381 train_time:237860ms step_avg:159.00ms
step:1507/1750 train_loss:3.2284 train_time:238035ms step_avg:159.01ms
step:1508/1750 train_loss:3.5398 train_time:238201ms step_avg:159.01ms
step:1509/1750 train_loss:3.3301 train_time:238362ms step_avg:159.01ms
step:1510/1750 train_loss:3.3319 train_time:238528ms step_avg:159.02ms
step:1511/1750 train_loss:3.4698 train_time:238810ms step_avg:159.10ms
step:1512/1750 train_loss:3.4762 train_time:238981ms step_avg:159.11ms
step:1513/1750 train_loss:3.3233 train_time:239149ms step_avg:159.11ms
step:1514/1750 train_loss:3.1453 train_time:239316ms step_avg:159.12ms
step:1515/1750 train_loss:3.2883 train_time:239480ms step_avg:159.12ms
step:1516/1750 train_loss:3.3088 train_time:239649ms step_avg:159.13ms
step:1517/1750 train_loss:3.3573 train_time:239813ms step_avg:159.13ms
step:1518/1750 train_loss:3.2602 train_time:239979ms step_avg:159.14ms
step:1519/1750 train_loss:3.5602 train_time:240319ms step_avg:159.26ms
step:1520/1750 train_loss:3.1818 train_time:240480ms step_avg:159.26ms
step:1521/1750 train_loss:3.2629 train_time:240642ms step_avg:159.26ms
step:1522/1750 train_loss:3.4084 train_time:240810ms step_avg:159.27ms
step:1523/1750 train_loss:3.2782 train_time:240971ms step_avg:159.27ms
step:1524/1750 train_loss:3.3975 train_time:241134ms step_avg:159.27ms
step:1525/1750 train_loss:3.3838 train_time:241305ms step_avg:159.28ms
step:1526/1750 train_loss:3.3280 train_time:241477ms step_avg:159.29ms
step:1527/1750 train_loss:3.3409 train_time:241641ms step_avg:159.29ms
step:1528/1750 train_loss:3.4593 train_time:241807ms step_avg:159.29ms
step:1529/1750 train_loss:3.4601 train_time:241968ms step_avg:159.29ms
step:1530/1750 train_loss:3.2856 train_time:242130ms step_avg:159.30ms
step:1531/1750 train_loss:3.2371 train_time:242294ms step_avg:159.30ms
step:1532/1750 train_loss:3.3982 train_time:242460ms step_avg:159.30ms
step:1533/1750 train_loss:3.3276 train_time:242630ms step_avg:159.31ms
step:1534/1750 train_loss:3.3257 train_time:242798ms step_avg:159.32ms
step:1535/1750 train_loss:3.3357 train_time:242964ms step_avg:159.32ms
step:1536/1750 train_loss:3.2729 train_time:243131ms step_avg:159.33ms
step:1537/1750 train_loss:3.3222 train_time:243294ms step_avg:159.33ms
step:1538/1750 train_loss:3.4765 train_time:243465ms step_avg:159.34ms
step:1539/1750 train_loss:3.4467 train_time:243634ms step_avg:159.34ms
step:1540/1750 train_loss:3.3236 train_time:243798ms step_avg:159.34ms
step:1541/1750 train_loss:3.2791 train_time:243962ms step_avg:159.35ms
step:1542/1750 train_loss:3.2974 train_time:244129ms step_avg:159.35ms
step:1543/1750 train_loss:3.1972 train_time:244295ms step_avg:159.36ms
step:1544/1750 train_loss:3.3435 train_time:244458ms step_avg:159.36ms
step:1545/1750 train_loss:3.3170 train_time:244624ms step_avg:159.36ms
step:1546/1750 train_loss:3.3091 train_time:244795ms step_avg:159.37ms
step:1547/1750 train_loss:3.2649 train_time:244961ms step_avg:159.38ms
step:1548/1750 train_loss:3.3122 train_time:245130ms step_avg:159.38ms
step:1549/1750 train_loss:3.3828 train_time:245295ms step_avg:159.39ms
step:1550/1750 train_loss:3.3405 train_time:245458ms step_avg:159.39ms
step:1551/1750 train_loss:3.2498 train_time:245625ms step_avg:159.39ms
step:1552/1750 train_loss:3.2770 train_time:245793ms step_avg:159.40ms
step:1553/1750 train_loss:3.2719 train_time:245957ms step_avg:159.40ms
step:1554/1750 train_loss:3.4070 train_time:246123ms step_avg:159.41ms
step:1555/1750 train_loss:3.3889 train_time:246289ms step_avg:159.41ms
step:1556/1750 train_loss:3.3279 train_time:246450ms step_avg:159.41ms
step:1557/1750 train_loss:3.3721 train_time:246613ms step_avg:159.41ms
step:1558/1750 train_loss:3.3103 train_time:246780ms step_avg:159.42ms
step:1559/1750 train_loss:3.1822 train_time:246954ms step_avg:159.43ms
step:1560/1750 train_loss:3.4791 train_time:247117ms step_avg:159.43ms
step:1561/1750 train_loss:3.2763 train_time:247283ms step_avg:159.43ms
step:1562/1750 train_loss:3.2629 train_time:247446ms step_avg:159.44ms
step:1563/1750 train_loss:3.3724 train_time:247613ms step_avg:159.44ms
step:1564/1750 train_loss:3.2066 train_time:247783ms step_avg:159.45ms
step:1565/1750 train_loss:3.2152 train_time:247950ms step_avg:159.45ms
step:1566/1750 train_loss:3.4127 train_time:248117ms step_avg:159.46ms
step:1567/1750 train_loss:3.2797 train_time:248283ms step_avg:159.46ms
step:1568/1750 train_loss:3.2883 train_time:248453ms step_avg:159.47ms
step:1569/1750 train_loss:3.3732 train_time:248629ms step_avg:159.48ms
step:1570/1750 train_loss:3.3293 train_time:248798ms step_avg:159.49ms
step:1571/1750 train_loss:3.2084 train_time:248965ms step_avg:159.49ms
step:1572/1750 train_loss:3.2470 train_time:249131ms step_avg:159.49ms
step:1573/1750 train_loss:3.3629 train_time:249299ms step_avg:159.50ms
step:1574/1750 train_loss:3.2148 train_time:249462ms step_avg:159.50ms
step:1575/1750 train_loss:3.3780 train_time:249626ms step_avg:159.51ms
step:1576/1750 train_loss:3.2813 train_time:249790ms step_avg:159.51ms
step:1577/1750 train_loss:3.3331 train_time:249957ms step_avg:159.51ms
step:1578/1750 train_loss:3.3190 train_time:250124ms step_avg:159.52ms
step:1579/1750 train_loss:3.2928 train_time:250293ms step_avg:159.52ms
step:1580/1750 train_loss:3.2511 train_time:250460ms step_avg:159.53ms
step:1581/1750 train_loss:3.4505 train_time:250632ms step_avg:159.54ms
step:1582/1750 train_loss:3.2666 train_time:250807ms step_avg:159.55ms
step:1583/1750 train_loss:3.4236 train_time:250980ms step_avg:159.55ms
step:1584/1750 train_loss:3.2428 train_time:251144ms step_avg:159.56ms
step:1585/1750 train_loss:3.4144 train_time:251314ms step_avg:159.56ms
step:1586/1750 train_loss:3.1926 train_time:251482ms step_avg:159.57ms
step:1587/1750 train_loss:3.3956 train_time:251645ms step_avg:159.57ms
step:1588/1750 train_loss:3.2792 train_time:251815ms step_avg:159.58ms
step:1589/1750 train_loss:3.4402 train_time:251979ms step_avg:159.58ms
step:1590/1750 train_loss:3.2847 train_time:252146ms step_avg:159.59ms
step:1591/1750 train_loss:3.2933 train_time:252312ms step_avg:159.59ms
step:1592/1750 train_loss:3.3653 train_time:252477ms step_avg:159.59ms
step:1593/1750 train_loss:3.3404 train_time:252650ms step_avg:159.60ms
step:1594/1750 train_loss:3.3086 train_time:252815ms step_avg:159.61ms
step:1595/1750 train_loss:3.4558 train_time:252983ms step_avg:159.61ms
step:1596/1750 train_loss:3.1691 train_time:253157ms step_avg:159.62ms
step:1597/1750 train_loss:3.3335 train_time:253328ms step_avg:159.63ms
step:1598/1750 train_loss:3.3856 train_time:253496ms step_avg:159.63ms
step:1599/1750 train_loss:3.4466 train_time:253669ms step_avg:159.64ms
step:1600/1750 train_loss:3.2724 train_time:253837ms step_avg:159.65ms
step:1601/1750 train_loss:3.5804 train_time:254003ms step_avg:159.65ms
step:1602/1750 train_loss:3.4596 train_time:254173ms step_avg:159.66ms
step:1603/1750 train_loss:3.2365 train_time:254347ms step_avg:159.67ms
step:1604/1750 train_loss:3.2691 train_time:254515ms step_avg:159.67ms
step:1605/1750 train_loss:3.1628 train_time:254688ms step_avg:159.68ms
step:1606/1750 train_loss:3.4739 train_time:254862ms step_avg:159.69ms
step:1607/1750 train_loss:3.3088 train_time:255028ms step_avg:159.69ms
step:1608/1750 train_loss:3.3086 train_time:255198ms step_avg:159.70ms
step:1609/1750 train_loss:3.2456 train_time:255368ms step_avg:159.71ms
step:1610/1750 train_loss:3.7495 train_time:255545ms step_avg:159.72ms
step:1611/1750 train_loss:3.5073 train_time:255717ms step_avg:159.72ms
step:1612/1750 train_loss:3.3998 train_time:255890ms step_avg:159.73ms
step:1613/1750 train_loss:3.2680 train_time:256065ms step_avg:159.74ms
step:1614/1750 train_loss:3.2954 train_time:256232ms step_avg:159.75ms
step:1615/1750 train_loss:3.3147 train_time:256400ms step_avg:159.75ms
step:1616/1750 train_loss:3.2875 train_time:256581ms step_avg:159.76ms
step:1617/1750 train_loss:3.3582 train_time:256757ms step_avg:159.77ms
step:1618/1750 train_loss:3.2865 train_time:256920ms step_avg:159.78ms
step:1619/1750 train_loss:3.1897 train_time:257089ms step_avg:159.78ms
step:1620/1750 train_loss:3.4628 train_time:257253ms step_avg:159.78ms
step:1621/1750 train_loss:3.3852 train_time:257422ms step_avg:159.79ms
step:1622/1750 train_loss:3.1631 train_time:257590ms step_avg:159.80ms
step:1623/1750 train_loss:3.2576 train_time:257760ms step_avg:159.80ms
step:1624/1750 train_loss:3.2189 train_time:257926ms step_avg:159.81ms
step:1625/1750 train_loss:3.3263 train_time:258090ms step_avg:159.81ms
step:1625/1750 val_loss:3.3056 train_time:258132ms step_avg:159.83ms
step:1626/1750 train_loss:3.2418 train_time:258260ms step_avg:159.81ms
step:1627/1750 train_loss:3.2413 train_time:258422ms step_avg:159.82ms
step:1628/1750 train_loss:3.3672 train_time:258586ms step_avg:159.82ms
step:1629/1750 train_loss:3.2488 train_time:258750ms step_avg:159.82ms
step:1630/1750 train_loss:3.3231 train_time:258916ms step_avg:159.82ms
step:1631/1750 train_loss:3.1822 train_time:259100ms step_avg:159.84ms
step:1632/1750 train_loss:3.1503 train_time:259264ms step_avg:159.84ms
step:1633/1750 train_loss:3.3000 train_time:259431ms step_avg:159.85ms
step:1634/1750 train_loss:3.3117 train_time:259596ms step_avg:159.85ms
step:1635/1750 train_loss:3.2512 train_time:259768ms step_avg:159.86ms
step:1636/1750 train_loss:3.3359 train_time:259937ms step_avg:159.86ms
step:1637/1750 train_loss:3.3804 train_time:260102ms step_avg:159.87ms
step:1638/1750 train_loss:3.4049 train_time:260272ms step_avg:159.87ms
step:1639/1750 train_loss:3.5739 train_time:260445ms step_avg:159.88ms
step:1640/1750 train_loss:3.3487 train_time:260613ms step_avg:159.89ms
step:1641/1750 train_loss:3.3024 train_time:260781ms step_avg:159.89ms
step:1642/1750 train_loss:3.4130 train_time:260946ms step_avg:159.89ms
step:1643/1750 train_loss:3.2779 train_time:261119ms step_avg:159.90ms
step:1644/1750 train_loss:3.3132 train_time:261283ms step_avg:159.90ms
step:1645/1750 train_loss:3.3171 train_time:261447ms step_avg:159.91ms
step:1646/1750 train_loss:3.0763 train_time:261614ms step_avg:159.91ms
step:1647/1750 train_loss:3.3237 train_time:261781ms step_avg:159.92ms
step:1648/1750 train_loss:3.2206 train_time:261947ms step_avg:159.92ms
step:1649/1750 train_loss:3.2917 train_time:262111ms step_avg:159.92ms
step:1650/1750 train_loss:3.2656 train_time:262276ms step_avg:159.92ms
step:1651/1750 train_loss:3.3503 train_time:262442ms step_avg:159.93ms
step:1652/1750 train_loss:3.2621 train_time:262608ms step_avg:159.93ms
step:1653/1750 train_loss:3.3952 train_time:262778ms step_avg:159.94ms
step:1654/1750 train_loss:3.3881 train_time:262942ms step_avg:159.94ms
step:1655/1750 train_loss:3.1852 train_time:263112ms step_avg:159.95ms
step:1656/1750 train_loss:3.3346 train_time:263287ms step_avg:159.96ms
step:1657/1750 train_loss:3.2481 train_time:263455ms step_avg:159.96ms
step:1658/1750 train_loss:3.2248 train_time:263618ms step_avg:159.96ms
step:1659/1750 train_loss:3.3041 train_time:263784ms step_avg:159.97ms
step:1660/1750 train_loss:3.3492 train_time:263951ms step_avg:159.97ms
step:1661/1750 train_loss:3.2541 train_time:264119ms step_avg:159.98ms
step:1662/1750 train_loss:3.3602 train_time:264284ms step_avg:159.98ms
step:1663/1750 train_loss:3.3508 train_time:264455ms step_avg:159.98ms
step:1664/1750 train_loss:3.4123 train_time:264633ms step_avg:160.00ms
step:1665/1750 train_loss:3.3301 train_time:264802ms step_avg:160.00ms
step:1666/1750 train_loss:3.5063 train_time:264964ms step_avg:160.00ms
step:1667/1750 train_loss:3.2060 train_time:265132ms step_avg:160.01ms
step:1668/1750 train_loss:3.2914 train_time:265303ms step_avg:160.01ms
step:1669/1750 train_loss:3.2124 train_time:265469ms step_avg:160.02ms
step:1670/1750 train_loss:3.2203 train_time:265637ms step_avg:160.02ms
step:1671/1750 train_loss:3.3713 train_time:265804ms step_avg:160.03ms
step:1672/1750 train_loss:3.5772 train_time:265969ms step_avg:160.03ms
step:1673/1750 train_loss:3.2789 train_time:266139ms step_avg:160.04ms
step:1674/1750 train_loss:3.2586 train_time:266304ms step_avg:160.04ms
step:1675/1750 train_loss:3.1304 train_time:266474ms step_avg:160.04ms
step:1676/1750 train_loss:3.3564 train_time:266645ms step_avg:160.05ms
step:1677/1750 train_loss:3.2830 train_time:266812ms step_avg:160.06ms
step:1678/1750 train_loss:3.2985 train_time:266981ms step_avg:160.06ms
step:1679/1750 train_loss:3.3027 train_time:267147ms step_avg:160.06ms
step:1680/1750 train_loss:3.0881 train_time:267322ms step_avg:160.07ms
step:1681/1750 train_loss:3.2997 train_time:267491ms step_avg:160.08ms
step:1682/1750 train_loss:3.2905 train_time:267661ms step_avg:160.08ms
step:1683/1750 train_loss:3.3075 train_time:267827ms step_avg:160.09ms
step:1684/1750 train_loss:3.3420 train_time:267991ms step_avg:160.09ms
step:1685/1750 train_loss:3.2463 train_time:268157ms step_avg:160.09ms
step:1686/1750 train_loss:3.3700 train_time:268328ms step_avg:160.10ms
step:1687/1750 train_loss:3.2484 train_time:268497ms step_avg:160.11ms
step:1688/1750 train_loss:3.3178 train_time:268671ms step_avg:160.11ms
step:1689/1750 train_loss:3.2277 train_time:268841ms step_avg:160.12ms
step:1690/1750 train_loss:3.0750 train_time:269012ms step_avg:160.13ms
step:1691/1750 train_loss:3.3089 train_time:269177ms step_avg:160.13ms
step:1692/1750 train_loss:3.2971 train_time:269343ms step_avg:160.13ms
step:1693/1750 train_loss:3.2167 train_time:269507ms step_avg:160.14ms
step:1694/1750 train_loss:3.6155 train_time:269682ms step_avg:160.14ms
step:1695/1750 train_loss:3.3378 train_time:269852ms step_avg:160.15ms
step:1696/1750 train_loss:3.3410 train_time:270019ms step_avg:160.15ms
step:1697/1750 train_loss:3.2573 train_time:270183ms step_avg:160.16ms
step:1698/1750 train_loss:3.1268 train_time:270351ms step_avg:160.16ms
step:1699/1750 train_loss:3.2336 train_time:270519ms step_avg:160.16ms
step:1700/1750 train_loss:3.2460 train_time:270805ms step_avg:160.24ms
step:1701/1750 train_loss:3.3223 train_time:270976ms step_avg:160.25ms
step:1702/1750 train_loss:3.2429 train_time:271141ms step_avg:160.25ms
step:1703/1750 train_loss:3.4213 train_time:271302ms step_avg:160.25ms
step:1704/1750 train_loss:3.2153 train_time:271468ms step_avg:160.25ms
step:1705/1750 train_loss:3.4368 train_time:271634ms step_avg:160.26ms
step:1706/1750 train_loss:3.2577 train_time:271797ms step_avg:160.26ms
step:1707/1750 train_loss:3.0592 train_time:271968ms step_avg:160.26ms
step:1708/1750 train_loss:3.3924 train_time:272134ms step_avg:160.27ms
step:1709/1750 train_loss:3.3017 train_time:272429ms step_avg:160.35ms
step:1710/1750 train_loss:3.2852 train_time:272597ms step_avg:160.35ms
step:1711/1750 train_loss:3.2893 train_time:272764ms step_avg:160.36ms
step:1712/1750 train_loss:3.3260 train_time:272934ms step_avg:160.36ms
step:1713/1750 train_loss:3.3391 train_time:273101ms step_avg:160.36ms
step:1714/1750 train_loss:3.2334 train_time:273272ms step_avg:160.37ms
step:1715/1750 train_loss:3.2877 train_time:273451ms step_avg:160.38ms
step:1716/1750 train_loss:3.1005 train_time:273615ms step_avg:160.38ms
step:1717/1750 train_loss:3.2475 train_time:273780ms step_avg:160.39ms
step:1718/1750 train_loss:3.2651 train_time:273947ms step_avg:160.39ms
step:1719/1750 train_loss:3.2191 train_time:274114ms step_avg:160.39ms
step:1720/1750 train_loss:3.3847 train_time:274287ms step_avg:160.40ms
step:1721/1750 train_loss:3.1699 train_time:274469ms step_avg:160.41ms
step:1722/1750 train_loss:3.3234 train_time:274639ms step_avg:160.42ms
step:1723/1750 train_loss:3.4101 train_time:274813ms step_avg:160.43ms
step:1724/1750 train_loss:3.2624 train_time:274983ms step_avg:160.43ms
step:1725/1750 train_loss:3.4897 train_time:275156ms step_avg:160.44ms
step:1726/1750 train_loss:3.2618 train_time:275330ms step_avg:160.45ms
step:1727/1750 train_loss:3.3315 train_time:275494ms step_avg:160.45ms
step:1728/1750 train_loss:3.2996 train_time:275663ms step_avg:160.46ms
step:1729/1750 train_loss:3.2773 train_time:275836ms step_avg:160.46ms
step:1730/1750 train_loss:3.6536 train_time:276004ms step_avg:160.47ms
step:1731/1750 train_loss:3.2998 train_time:276169ms step_avg:160.47ms
step:1732/1750 train_loss:3.4275 train_time:276339ms step_avg:160.48ms
step:1733/1750 train_loss:3.2128 train_time:276501ms step_avg:160.48ms
step:1734/1750 train_loss:3.2458 train_time:276668ms step_avg:160.48ms
step:1735/1750 train_loss:3.2703 train_time:276836ms step_avg:160.48ms
step:1736/1750 train_loss:3.2596 train_time:277005ms step_avg:160.49ms
step:1737/1750 train_loss:3.3858 train_time:277176ms step_avg:160.50ms
step:1738/1750 train_loss:3.2209 train_time:277382ms step_avg:160.52ms
step:1739/1750 train_loss:3.2911 train_time:277565ms step_avg:160.54ms
step:1740/1750 train_loss:3.3740 train_time:277735ms step_avg:160.54ms
step:1741/1750 train_loss:3.1618 train_time:277902ms step_avg:160.54ms
step:1742/1750 train_loss:3.0633 train_time:278072ms step_avg:160.55ms
step:1743/1750 train_loss:2.9595 train_time:278248ms step_avg:160.56ms
step:1744/1750 train_loss:3.2956 train_time:278413ms step_avg:160.56ms
step:1745/1750 train_loss:3.3094 train_time:278576ms step_avg:160.56ms
step:1746/1750 train_loss:3.2759 train_time:278740ms step_avg:160.56ms
step:1747/1750 train_loss:3.2997 train_time:278910ms step_avg:160.57ms
step:1748/1750 train_loss:3.5038 train_time:279094ms step_avg:160.58ms
step:1749/1750 train_loss:3.2300 train_time:279262ms step_avg:160.59ms
step:1750/1750 train_loss:3.2823 train_time:279434ms step_avg:160.59ms
step:1750/1750 val_loss:3.2833 train_time:279484ms step_avg:160.62ms