Fixing circular dep and imports

nod-ai · dan-garvey · Sep 5, 2024 · May 21, 2024 · May 22, 2024 · May 22, 2024
commit a865ac31b5420c60d463e9a11b42439f1ed53396
diff --git a/sharktank/sharktank/layers/__init__.py b/sharktank/sharktank/layers/__init__.py
@@ -12,5 +12,8 @@
 from .norm import RMSNormLayer
 from .rotary_embedding import RotaryEmbeddingLayer
 from .token_embedding import TokenEmbeddingLayer
+from .attention_block import AttentionBlock
+from .ffn_block import FFN
+from .mixture_of_experts_block import SparseMoeBlock
 
 from . import configs
diff --git a/sharktank/sharktank/layers/attention_block.py b/sharktank/sharktank/layers/attention_block.py
@@ -11,8 +11,10 @@
 import torch
 import torch.nn.functional as F
 
-from ...layers import *
-from ...types import Theta
+from .base import Theta, ThetaLayer
+from .linear import LinearLayer
+from .norm import RMSNormLayer
+from .rotary_embedding import RotaryEmbeddingLayer
 
 __all__ = [
     "AttentionBlock",

diff --git a/sharktank/sharktank/layers/base.py b/sharktank/sharktank/layers/base.py
@@ -16,14 +16,8 @@
 from ..utils import debugging
 
 __all__ = [
-    "LinearLayer",
-    "RotaryEmbeddingLayer",
-    "RMSNormLayer",
+    "BaseLayer",
     "ThetaLayer",
-    "TokenEmbedding",
-    "AttentionBlock",
-    "SparseMoeBlock",
-    "FFN",
 ]
 
 

diff --git a/sharktank/sharktank/layers/ffn_block.py b/sharktank/sharktank/layers/ffn_block.py
@@ -7,7 +7,8 @@
 import torch
 import torch.nn.functional as F
 
-from .base import Theta, ThetaLayer, LinearLayer
+from .base import Theta, ThetaLayer
+from .linear import LinearLayer
 
 __all__ = [
     "FFN",

diff --git a/sharktank/sharktank/layers/mixture_of_experts_block.py b/sharktank/sharktank/layers/mixture_of_experts_block.py
@@ -10,7 +10,10 @@
 import torch.nn as nn
 import torch.nn.functional as F
 
-from .base import Theta, ThetaLayer, LinearLayer, RMSNormLayer, FFN
+from .base import Theta, ThetaLayer
+from .linear import LinearLayer
+from .norm import RMSNormLayer
+from .ffn_block import FFN
 
 __all__ = [
     "SparseMoeBlock",

diff --git a/sharktank/sharktank/models/mixtral/mixtral_ref.py b/sharktank/sharktank/models/mixtral/mixtral_ref.py
@@ -6,6 +6,7 @@
 
 from typing import Optional
 
+from dataclasses import dataclass
 import math
 
 import torch
@@ -16,9 +17,24 @@
 from ...types import Theta
 
 __all__ = [
+    "RefLlamaModelConfig",
     "DirectCacheMixtralModelV1",
 ]
 
+
+################################################################################
+# Config
+################################################################################
+
+
+@dataclass
+class RefLlamaModelConfig:
+    hp: configs.LlamaHParams
+
+    # Dtype to use for general FP activations not otherwise configured.
+    activation_dtype: torch.dtype = torch.float16
+
+
 ################################################################################
 # Models
 ################################################################################
@@ -27,12 +43,15 @@
 class DirectCacheMixtralModelV1(ThetaLayer):
     """Simple Mixtral Model with a direct lookup KV cache for batch-1 inference."""
 
-    def __init__(self, theta: Theta, hp: configs.LlamaHParams):
+    def __init__(self, theta: Theta, config: RefLlamaModelConfig):
         super().__init__(theta)
+        hp = config.hp
+        self.config = config
         self.hp = hp
+        self.activation_dtype = config.activation_dtype
         self.add_module(
             "token_embedding",
-            TokenEmbeddingLayer(theta("token_embd"), dtype=hp.activation_dtype),
+            TokenEmbeddingLayer(theta("token_embd"), dtype=config.activation_dtype),
         )
         self.add_module(
             "attention_embedding",
@@ -52,7 +71,7 @@ def __init__(self, theta: Theta, hp: configs.LlamaHParams):
         self.attn_blocks = nn.ModuleList()
 
         for n in range(hp.block_count):
-            attn_blocks.append(
+            self.attn_blocks.append(
                 AttentionBlock(
                     theta("attn_blk", n),
                     embedding=self.attention_embedding,
@@ -62,7 +81,7 @@ def __init__(self, theta: Theta, hp: configs.LlamaHParams):
                     rms_epsilon=hp.attention_layer_norm_rms_epsilon,
                 )
             )
-            attn_blocks.append(
+            self.attn_blocks.append(
                 SparseMoeBlock(
                     theta("moe_blk", n),
                     num_experts=hp.expert_count,
@@ -80,7 +99,7 @@ def create_cache(self, bs: int) -> list[torch.Tensor]:
                     self.hp.attention_head_count,
                     self.hp.rope_dimension_count,
                 ),
-                dtype=self.hp.activation_dtype,
+                dtype=self.activation_dtype,
             )
             for _ in range(self.hp.block_count * 2)
         ]