ChorusOne · Szymongib · Sep 28, 2022 · Sep 30, 2022 · ruuda · Sep 29, 2022
diff --git a/Cargo.lock b/Cargo.lock
diff --git a/core/Cargo.toml b/core/Cargo.toml
@@ -59,6 +59,7 @@ solana-streamer = { path = "../streamer", version = "=1.10.39" }
 solana-transaction-status = { path = "../transaction-status", version = "=1.10.39" }
 solana-version = { path = "../version", version = "=1.10.39" }
 solana-vote-program = { path = "../programs/vote", version = "=1.10.39" }
+solana-prometheus = { path = "../prometheus" }
 sys-info = "0.9.1"
 tempfile = "3.3.0"
 thiserror = "1.0"

diff --git a/core/src/fetch_stage.rs b/core/src/fetch_stage.rs
@@ -26,6 +26,7 @@ use {
         time::Duration,
     },
 };
+use solana_prometheus::collector::{PrometheusCollector};
 
 pub struct FetchStage {
     thread_hdls: Vec<JoinHandle<()>>,
@@ -39,6 +40,7 @@ impl FetchStage {
         tpu_vote_sockets: Vec<UdpSocket>,
         exit: &Arc<AtomicBool>,
         poh_recorder: &Arc<Mutex<PohRecorder>>,
+        prometheus_collector: Option<PrometheusCollector>,
         coalesce_ms: u64,
     ) -> (Self, PacketBatchReceiver, PacketBatchReceiver) {
         let (sender, receiver) = unbounded();
@@ -56,6 +58,7 @@ impl FetchStage {
                 forward_receiver,
                 poh_recorder,
                 coalesce_ms,
+                prometheus_collector,
                 None,
             ),
             receiver,
@@ -75,6 +78,7 @@ impl FetchStage {
         forward_receiver: PacketBatchReceiver,
         poh_recorder: &Arc<Mutex<PohRecorder>>,
         coalesce_ms: u64,
+        prometheus_collector: Option<PrometheusCollector>,
         in_vote_only_mode: Option<Arc<AtomicBool>>,
     ) -> Self {
         let tx_sockets = sockets.into_iter().map(Arc::new).collect();
@@ -91,6 +95,7 @@ impl FetchStage {
             forward_receiver,
             poh_recorder,
             coalesce_ms,
+            prometheus_collector,
             in_vote_only_mode,
         )
     }
@@ -149,6 +154,7 @@ impl FetchStage {
         forward_receiver: PacketBatchReceiver,
         poh_recorder: &Arc<Mutex<PohRecorder>>,
         coalesce_ms: u64,
+        prometheus_collector: Option<PrometheusCollector>,
         in_vote_only_mode: Option<Arc<AtomicBool>>,
     ) -> Self {
         let recycler: PacketBatchRecycler = Recycler::warmed(1000, 1024);
@@ -234,6 +240,13 @@ impl FetchStage {
                 tpu_vote_stats.report();
                 tpu_forward_stats.report();
 
+                if let Some(collector) = &prometheus_collector {
+                    let stats = {
+                        tpu_stats.total_stats.lock().unwrap().clone()
+                    };
+                    collector.lock().unwrap().save_tpu_receiver_stats(stats)
+                }
+
                 if exit.load(Ordering::Relaxed) {
                     return;
                 }

diff --git a/core/src/tpu.rs b/core/src/tpu.rs
@@ -41,6 +41,7 @@ use {
         time::Duration,
     },
 };
+use solana_prometheus::collector::PrometheusCollector;
 
 pub const DEFAULT_TPU_COALESCE_MS: u64 = 5;
 
@@ -99,6 +100,7 @@ impl Tpu {
         cost_model: &Arc<RwLock<CostModel>>,
         connection_cache: &Arc<ConnectionCache>,
         keypair: &Keypair,
+        prometheus_collector: Option<PrometheusCollector>,
         enable_quic_servers: bool,
     ) -> Self {
         let TpuSockets {
@@ -124,6 +126,7 @@ impl Tpu {
             forwarded_packet_receiver,
             poh_recorder,
             tpu_coalesce_ms,
+            prometheus_collector,
             Some(bank_forks.read().unwrap().get_vote_only_mode_signal()),
         );
 

diff --git a/core/src/validator.rs b/core/src/validator.rs
@@ -109,6 +109,7 @@ use {
         time::{Duration, Instant},
     },
 };
+use solana_prometheus::collector::PrometheusCollector;
 
 const MAX_COMPLETED_DATA_SETS_IN_CHANNEL: usize = 100_000;
 const WAIT_FOR_SUPERMAJORITY_THRESHOLD_PERCENT: u64 = 80;
@@ -379,6 +380,7 @@ impl Validator {
         socket_addr_space: SocketAddrSpace,
         use_quic: bool,
         tpu_connection_pool_size: usize,
+        prometheus_collector: Option<PrometheusCollector>,
     ) -> Self {
         let id = identity_keypair.pubkey();
         assert_eq!(id, node.info.id);
@@ -740,6 +742,7 @@ impl Validator {
                     connection_cache.clone(),
                     max_complete_transaction_status_slot,
                     config.vote_accounts_to_monitor.clone(),
+                    prometheus_collector.clone(),
                 )),
                 if !config.rpc_config.full_api {
                     None
@@ -996,6 +999,7 @@ impl Validator {
             &cost_model,
             &connection_cache,
             &identity_keypair,
+            prometheus_collector,
             config.enable_quic_servers,
         );
 

diff --git a/prometheus/Cargo.toml b/prometheus/Cargo.toml
@@ -13,6 +13,7 @@ serde = { version = "1.0.136", features = ["derive"] }
 serde_json = "1.0.79"
 solana-gossip = { path = "../gossip" }
 solana-runtime = { path = "../runtime" }
+solana-streamer = { path = "../streamer" }
 solana-sdk = { path = "../sdk" }
 solana-vote-program = { path = "../programs/vote" }
 solana-config-program = { path = "../programs/config" }

diff --git a/prometheus/src/collector.rs b/prometheus/src/collector.rs
@@ -0,0 +1,42 @@
+use crate::utils::{write_metric, Metric, MetricFamily};
+use solana_streamer::streamer::StreamerReceiveStatsTotal;
+use std::io;
+use std::sync::{Arc, Mutex};
+
+pub type PrometheusCollector = Arc<Mutex<MetricsCollector>>;
+
+pub struct MetricsCollector {
+    tpu_receiver_stats: Option<StreamerReceiveStatsTotal>,
+}
+
+impl MetricsCollector {
+    pub fn new() -> Self {
+        Self {
+            tpu_receiver_stats: None,
+        }
+    }
+
+    pub fn save_tpu_receiver_stats(&mut self, stats: StreamerReceiveStatsTotal) {
+        self.tpu_receiver_stats = Some(stats)
+    }
+
+    pub fn write_metrics<W: io::Write>(&self, out: &mut W) -> io::Result<()> {
+        if self.tpu_receiver_stats.is_none() {
+            return Ok(());
+        }
+
+        let tpu_metrics = self.tpu_receiver_stats.as_ref().unwrap();
+
+        write_metric(
+            out,
+            &MetricFamily {
+                name: "solana_validator_tpu_packets_count_total",
+                help: "Packets received by Transaction Processing Unit",
+                type_: "counter",
+                metrics: vec![Metric::new(tpu_metrics.packets_count_total as u64)],
+            },
+        )?;
+
+        Ok(())
+    }
+}
diff --git a/prometheus/src/lib.rs b/prometheus/src/lib.rs
@@ -1,10 +1,12 @@
 mod bank_metrics;
 pub mod banks_with_commitments;
 mod cluster_metrics;
+pub mod collector;
 pub mod identity_info;
 mod snapshot_metrics;
 mod utils;
 
+use crate::collector::PrometheusCollector;
 use banks_with_commitments::BanksWithCommitments;
 use identity_info::IdentityInfoMap;
 use solana_gossip::cluster_info::ClusterInfo;
@@ -21,6 +23,7 @@ pub fn render_prometheus(
     vote_accounts: &Arc<HashSet<Pubkey>>,
     identity_config: &Arc<IdentityInfoMap>,
     snapshot_config: &Option<SnapshotConfig>,
+    collector: &Option<PrometheusCollector>,
 ) -> Vec<u8> {
     // There are 3 levels of commitment for a bank:
     // - finalized: most recent block *confirmed* by supermajority of the
@@ -41,5 +44,14 @@ pub fn render_prometheus(
     if let Some(snapshot_config) = snapshot_config {
         snapshot_metrics::write_snapshot_metrics(snapshot_config, &mut out).expect("IO error");
     }
+
+    if let Some(collector) = collector {
+        collector
+            .lock()
+            .unwrap()
+            .write_metrics(&mut out)
+            .expect("IO error");
+    }
+
     out
 }
diff --git a/replica-node/src/replica_node.rs b/replica-node/src/replica_node.rs
@@ -63,6 +63,9 @@ pub struct ReplicaNodeConfig {
     pub replica_exit: Arc<RwLock<Exit>>,
     pub socket_addr_space: SocketAddrSpace,
     pub vote_accounts_to_monitor: Arc<HashSet<Pubkey>>,
+    // TODO: for now it does not makes sense to pass it to RPC as we
+    // only get TPU metrics.
+    // pub prometheus_collector: PrometheusCollector,
 }
 
 pub struct ReplicaNode {
@@ -257,6 +260,8 @@ fn start_client_rpc_services(
             connection_cache,
             max_complete_transaction_status_slot,
             replica_config.vote_accounts_to_monitor.clone(),
+            // replica_config.prometheus_collector.clone(),
+            None,
         )),
         Some(pubsub_service),
         Some(OptimisticallyConfirmedBankTracker::new(

diff --git a/rpc/src/rpc_service.rs b/rpc/src/rpc_service.rs
@@ -56,6 +56,7 @@ use {
     },
     tokio_util::codec::{BytesCodec, FramedRead},
 };
+use solana_prometheus::collector::PrometheusCollector;
 
 const FULL_SNAPSHOT_REQUEST_PATH: &str = "/snapshot.tar.bz2";
 const INCREMENTAL_SNAPSHOT_REQUEST_PATH: &str = "/incremental-snapshot.tar.bz2";
@@ -82,6 +83,7 @@ struct RpcRequestMiddleware {
     /// Initialized based on vote_accounts_to_monitor, maps identity
     /// pubkey associated with the vote account to the validator info.
     identity_info_map: Arc<IdentityInfoMap>,
+    prometheus_collector: Option<PrometheusCollector>,
 }
 
 impl RpcRequestMiddleware {
@@ -92,6 +94,7 @@ impl RpcRequestMiddleware {
         health: Arc<RpcHealth>,
         block_commitment_cache: Arc<RwLock<BlockCommitmentCache>>,
         vote_accounts_to_monitor: Arc<HashSet<Pubkey>>,
+        prometheus_collector: Option<PrometheusCollector>,
     ) -> Self {
         Self {
             ledger_path,
@@ -112,6 +115,7 @@ impl RpcRequestMiddleware {
             health,
             block_commitment_cache,
             vote_accounts_to_monitor,
+            prometheus_collector,
         }
     }
 
@@ -319,6 +323,7 @@ impl RequestMiddleware for RpcRequestMiddleware {
                             &self.vote_accounts_to_monitor,
                             &self.identity_info_map,
                             &self.snapshot_config,
+                            &self.prometheus_collector,
                         )))
                         .unwrap()
                         .into()
@@ -375,6 +380,7 @@ impl JsonRpcService {
         connection_cache: Arc<ConnectionCache>,
         current_transaction_status_slot: Arc<AtomicU64>,
         vote_accounts_to_monitor: Arc<HashSet<Pubkey>>,
+        prometheus_collector: Option<PrometheusCollector>,
     ) -> Self {
         info!("rpc bound to {:?}", rpc_addr);
         info!("rpc configuration: {:?}", config);
@@ -524,6 +530,7 @@ impl JsonRpcService {
                     health.clone(),
                     block_commitment_cache.clone(),
                     vote_accounts_to_monitor,
+                    prometheus_collector,
                 );
                 let server = ServerBuilder::with_meta_extractor(
                     io,