From 66649125b8192c2b4c83064fd4adb9ce6b384987 Mon Sep 17 00:00:00 2001
From: Doc CI Action <rasolca@users.noreply.github.com>
Date: Mon, 25 Nov 2024 18:53:32 +0000
Subject: [PATCH] Doc: TFactor: Separate larft_gemv kernel and add a faster
 option (#1219)

---
 master/blas_2tile_8h.html                     |  56 +-
 master/blas_2tile_8h_source.html              | 689 ++++++++----------
 .../dir_2e3e3bc658385778082583f320919a4c.html |   2 +
 .../dir_5ca20fc8e29b0f8739133582ef745158.html |   2 +
 master/factorization_2qr_2api_8h_source.html  |   2 +-
 master/files.html                             |   4 +-
 master/gpublas_8h.html                        | 152 ++++
 master/gpublas_8h_source.html                 | 237 ++++++
 master/larft_8h_source.html                   | 142 ++++
 master/qr_8h_source.html                      |   2 +-
 master/search/all_6.js                        |  11 +-
 master/search/files_6.js                      |   3 +-
 master/t__factor__impl_8h_source.html         | 660 ++++++++---------
 13 files changed, 1158 insertions(+), 804 deletions(-)
 create mode 100644 master/gpublas_8h.html
 create mode 100644 master/gpublas_8h_source.html
 create mode 100644 master/larft_8h_source.html
diff --git a/master/blas_2tile_8h.html b/master/blas_2tile_8h.html
index ddf21eabce..2c4bf0c428 100644
--- a/master/blas_2tile_8h.html
+++ b/master/blas_2tile_8h.html
@@ -74,7 +74,6 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
-<a href="#define-members">Macros</a> &#124;
 <a href="#func-members">Functions</a>  </div>
   <div class="headertitle"><div class="title">tile.h File Reference</div></div>
 </div><!--header-->
@@ -91,44 +90,14 @@
 <code>#include &lt;dlaf/sender/transform.h&gt;</code><br />
 <code>#include &lt;<a class="el" href="types_8h_source.html">dlaf/types.h</a>&gt;</code><br />
 <code>#include &lt;<a class="el" href="util__blas_8h_source.html">dlaf/util_blas.h</a>&gt;</code><br />
-<code>#include &lt;whip.hpp&gt;</code><br />
 <code>#include &lt;dlaf/gpu/blas/api.h&gt;</code><br />
-<code>#include &lt;dlaf/gpu/blas/error.h&gt;</code><br />
+<code>#include &lt;<a class="el" href="gpublas_8h_source.html">dlaf/gpu/blas/gpublas.h</a>&gt;</code><br />
 <code>#include &lt;dlaf/util_cublas.h&gt;</code><br />
 </div>
 <p><a href="blas_2tile_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
-<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="define-members" name="define-members"></a>
-Macros</h2></td></tr>
-<tr class="memitem:a421c02526a0c450667c3d900c0f51236" id="r_a421c02526a0c450667c3d900c0f51236"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="blas_2tile_8h.html#a421c02526a0c450667c3d900c0f51236">DLAF_DECLARE_GPUBLAS_OP</a>(Name)</td></tr>
-<tr class="separator:a421c02526a0c450667c3d900c0f51236"><td class="memSeparator" colspan="2">&#160;</td></tr>
-</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:a4bdde3ad954b0cea3483801cd748ccea" id="r_a4bdde3ad954b0cea3483801cd748ccea"><td class="memItemLeft" align="right" valign="top"><a id="a4bdde3ad954b0cea3483801cd748ccea" name="a4bdde3ad954b0cea3483801cd748ccea"></a>
-&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Axpy, axpy)</td></tr>
-<tr class="separator:a4bdde3ad954b0cea3483801cd748ccea"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9d13f5170a1c55906c27fb5058aab40c" id="r_a9d13f5170a1c55906c27fb5058aab40c"><td class="memItemLeft" align="right" valign="top"><a id="a9d13f5170a1c55906c27fb5058aab40c" name="a9d13f5170a1c55906c27fb5058aab40c"></a>
-&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Gemv, gemv)</td></tr>
-<tr class="separator:a9d13f5170a1c55906c27fb5058aab40c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2dedead2625cdf4630073b252014cd19" id="r_a2dedead2625cdf4630073b252014cd19"><td class="memItemLeft" align="right" valign="top"><a id="a2dedead2625cdf4630073b252014cd19" name="a2dedead2625cdf4630073b252014cd19"></a>
-&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Trmv, trmv)</td></tr>
-<tr class="separator:a2dedead2625cdf4630073b252014cd19"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abed14efff15999504344a646aeb86261" id="r_abed14efff15999504344a646aeb86261"><td class="memItemLeft" align="right" valign="top"><a id="abed14efff15999504344a646aeb86261" name="abed14efff15999504344a646aeb86261"></a>
-&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Gemm, gemm)</td></tr>
-<tr class="separator:abed14efff15999504344a646aeb86261"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a40103d6d85bd688aa2e562518bd1bf0d" id="r_a40103d6d85bd688aa2e562518bd1bf0d"><td class="memItemLeft" align="right" valign="top"><a id="a40103d6d85bd688aa2e562518bd1bf0d" name="a40103d6d85bd688aa2e562518bd1bf0d"></a>
-&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP</b> (Hemm, mm)</td></tr>
-<tr class="separator:a40103d6d85bd688aa2e562518bd1bf0d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa61131a8a6338367f07991e626065ee2" id="r_aa61131a8a6338367f07991e626065ee2"><td class="memItemLeft" align="right" valign="top"><a id="aa61131a8a6338367f07991e626065ee2" name="aa61131a8a6338367f07991e626065ee2"></a>
-&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP</b> (Her2k, r2k)</td></tr>
-<tr class="separator:aa61131a8a6338367f07991e626065ee2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8b0b23c5828d1a56847963fcf0b72841" id="r_a8b0b23c5828d1a56847963fcf0b72841"><td class="memItemLeft" align="right" valign="top"><a id="a8b0b23c5828d1a56847963fcf0b72841" name="a8b0b23c5828d1a56847963fcf0b72841"></a>
-&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP</b> (Herk, rk)</td></tr>
-<tr class="separator:a8b0b23c5828d1a56847963fcf0b72841"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7682cf6441588d6e8ad4aebd2b9b3242" id="r_a7682cf6441588d6e8ad4aebd2b9b3242"><td class="memItemLeft" align="right" valign="top"><a id="a7682cf6441588d6e8ad4aebd2b9b3242" name="a7682cf6441588d6e8ad4aebd2b9b3242"></a>
-&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Trsm, trsm)</td></tr>
-<tr class="separator:a7682cf6441588d6e8ad4aebd2b9b3242"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a1de961c6e1c01ee6a5f0039ecf51b162" id="r_a1de961c6e1c01ee6a5f0039ecf51b162"><td class="memTemplParams" colspan="2">template&lt;Backend B, class T , Device D&gt; </td></tr>
 <tr class="memitem:a1de961c6e1c01ee6a5f0039ecf51b162"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">dlaf::tile::gemm</a> (const blas::Op op_a, const blas::Op op_b, const T alpha, const <a class="el" href="classdlaf_1_1matrix_1_1_tile.html">Tile</a>&lt; const T, D &gt; &amp;a, const <a class="el" href="classdlaf_1_1matrix_1_1_tile.html">Tile</a>&lt; const T, D &gt; &amp;b, const T beta, const <a class="el" href="classdlaf_1_1matrix_1_1_tile.html">Tile</a>&lt; T, D &gt; &amp;c)</td></tr>
 <tr class="separator:a1de961c6e1c01ee6a5f0039ecf51b162"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -195,28 +164,7 @@
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <div class="textblock"><p>Provides <code>Tile</code> wrappers for BLAS operations. </p>
-</div><h2 class="groupheader">Macro Definition Documentation</h2>
-<a id="a421c02526a0c450667c3d900c0f51236" name="a421c02526a0c450667c3d900c0f51236"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a421c02526a0c450667c3d900c0f51236">&#9670;&#160;</a></span>DLAF_DECLARE_GPUBLAS_OP</h2>
-
-<div class="memitem">
-<div class="memproto">
-      <table class="memname">
-        <tr>
-          <td class="memname">#define DLAF_DECLARE_GPUBLAS_OP</td>
-          <td>(</td>
-          <td class="paramtype">&#160;</td>
-          <td class="paramname">Name</td><td>)</td>
-          <td></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-<b>Value:</b><div class="fragment"><div class="line">  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;               \</div>
-<div class="line">  <span class="keyword">struct </span>Name</div>
-</div><!-- fragment -->
-</div>
-</div>
-<h2 class="groupheader">Function Documentation</h2>
+</div><h2 class="groupheader">Function Documentation</h2>
 <a id="a1de961c6e1c01ee6a5f0039ecf51b162" name="a1de961c6e1c01ee6a5f0039ecf51b162"></a>
 <h2 class="memtitle"><span class="permalink"><a href="#a1de961c6e1c01ee6a5f0039ecf51b162">&#9670;&#160;</a></span>gemm() <span class="overload">[1/3]</span></h2>
 
diff --git a/master/blas_2tile_8h_source.html b/master/blas_2tile_8h_source.html
index d02fe35bed..24944242af 100644
--- a/master/blas_2tile_8h_source.html
+++ b/master/blas_2tile_8h_source.html
@@ -109,420 +109,299 @@
 <div class="line"><a id="l00028" name="l00028"></a><span class="lineno">   28</span><span class="preprocessor">#include &lt;<a class="code" href="util__blas_8h.html">dlaf/util_blas.h</a>&gt;</span></div>
 <div class="line"><a id="l00029" name="l00029"></a><span class="lineno">   29</span> </div>
 <div class="line"><a id="l00030" name="l00030"></a><span class="lineno">   30</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a id="l00031" name="l00031"></a><span class="lineno">   31</span><span class="preprocessor">#include &lt;whip.hpp&gt;</span></div>
-<div class="line"><a id="l00032" name="l00032"></a><span class="lineno">   32</span> </div>
-<div class="line"><a id="l00033" name="l00033"></a><span class="lineno">   33</span><span class="preprocessor">#include &lt;dlaf/gpu/blas/api.h&gt;</span></div>
-<div class="line"><a id="l00034" name="l00034"></a><span class="lineno">   34</span><span class="preprocessor">#include &lt;dlaf/gpu/blas/error.h&gt;</span></div>
-<div class="line"><a id="l00035" name="l00035"></a><span class="lineno">   35</span><span class="preprocessor">#include &lt;dlaf/util_cublas.h&gt;</span></div>
-<div class="line"><a id="l00036" name="l00036"></a><span class="lineno">   36</span> </div>
-<div class="line"><a id="l00037" name="l00037"></a><span class="lineno">   37</span><span class="preprocessor">#ifdef DLAF_WITH_HIP</span></div>
-<div class="line"><a id="l00038" name="l00038"></a><span class="lineno">   38</span> </div>
-<div class="line"><a id="l00039" name="l00039"></a><span class="lineno">   39</span><span class="preprocessor">#define DLAF_GET_ROCBLAS_WORKSPACE(f)                                                                   \</span></div>
-<div class="line"><a id="l00040" name="l00040"></a><span class="lineno">   40</span><span class="preprocessor">  [&amp;]() {                                                                                               \</span></div>
-<div class="line"><a id="l00041" name="l00041"></a><span class="lineno">   41</span><span class="preprocessor">    std::size_t workspace_size;                                                                         \</span></div>
-<div class="line"><a id="l00042" name="l00042"></a><span class="lineno">   42</span><span class="preprocessor">    DLAF_GPUBLAS_CHECK_ERROR(                                                                           \</span></div>
-<div class="line"><a id="l00043" name="l00043"></a><span class="lineno">   43</span><span class="preprocessor">        rocblas_start_device_memory_size_query(static_cast&lt;rocblas_handle&gt;(handle)));                   \</span></div>
-<div class="line"><a id="l00044" name="l00044"></a><span class="lineno">   44</span><span class="preprocessor">    DLAF_ROCBLAS_WORKSPACE_CHECK_ERROR(rocblas_##f(handle, std::forward&lt;Args&gt;(args)...));               \</span></div>
-<div class="line"><a id="l00045" name="l00045"></a><span class="lineno">   45</span><span class="preprocessor">    DLAF_GPUBLAS_CHECK_ERROR(rocblas_stop_device_memory_size_query(static_cast&lt;rocblas_handle&gt;(handle), \</span></div>
-<div class="line"><a id="l00046" name="l00046"></a><span class="lineno">   46</span><span class="preprocessor">                                                                   &amp;workspace_size));                   \</span></div>
-<div class="line"><a id="l00047" name="l00047"></a><span class="lineno">   47</span><span class="preprocessor">    return ::dlaf::memory::MemoryView&lt;std::byte, Device::GPU&gt;(to_int(workspace_size));                  \</span></div>
-<div class="line"><a id="l00048" name="l00048"></a><span class="lineno">   48</span><span class="preprocessor">  }();</span></div>
-<div class="line"><a id="l00049" name="l00049"></a><span class="lineno">   49</span> </div>
-<div class="line"><a id="l00050" name="l00050"></a><span class="lineno">   50</span><span class="keyword">namespace </span>dlaf::tile::internal {</div>
-<div class="line"><a id="l00051" name="l00051"></a><span class="lineno">   51</span><span class="keyword">inline</span> <span class="keywordtype">void</span> extendROCBlasWorkspace(cublasHandle_t handle,</div>
-<div class="line"><a id="l00052" name="l00052"></a><span class="lineno">   52</span>                                   <a class="code hl_class" href="classdlaf_1_1memory_1_1_memory_view.html">::dlaf::memory::MemoryView&lt;std::byte, Device::GPU&gt;</a>&amp;&amp; workspace) {</div>
-<div class="line"><a id="l00053" name="l00053"></a><span class="lineno">   53</span>  whip::stream_t stream;</div>
-<div class="line"><a id="l00054" name="l00054"></a><span class="lineno">   54</span>  DLAF_GPUBLAS_CHECK_ERROR(cublasGetStream(handle, &amp;stream));</div>
-<div class="line"><a id="l00055" name="l00055"></a><span class="lineno">   55</span>  <span class="keyword">auto</span> f = [workspace = std::move(workspace)](whip::error_t status) { whip::check_error(status); };</div>
-<div class="line"><a id="l00056" name="l00056"></a><span class="lineno">   56</span>  pika::cuda::experimental::detail::add_event_callback(std::move(f), stream);</div>
-<div class="line"><a id="l00057" name="l00057"></a><span class="lineno">   57</span>}</div>
-<div class="line"><a id="l00058" name="l00058"></a><span class="lineno">   58</span>}</div>
+<div class="line"><a id="l00031" name="l00031"></a><span class="lineno">   31</span><span class="preprocessor">#include &lt;dlaf/gpu/blas/api.h&gt;</span></div>
+<div class="line"><a id="l00032" name="l00032"></a><span class="lineno">   32</span><span class="preprocessor">#include &lt;<a class="code" href="gpublas_8h.html">dlaf/gpu/blas/gpublas.h</a>&gt;</span></div>
+<div class="line"><a id="l00033" name="l00033"></a><span class="lineno">   33</span><span class="preprocessor">#include &lt;dlaf/util_cublas.h&gt;</span></div>
+<div class="line"><a id="l00034" name="l00034"></a><span class="lineno">   34</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00035" name="l00035"></a><span class="lineno">   35</span> </div>
+<div class="line"><a id="l00036" name="l00036"></a><span class="lineno">   36</span><span class="keyword">namespace </span>dlaf {</div>
+<div class="line"><a id="l00037" name="l00037"></a><span class="lineno">   37</span><span class="keyword">namespace </span>tile {</div>
+<div class="line"><a id="l00038" name="l00038"></a><span class="lineno">   38</span><span class="keyword">using </span>matrix::Tile;</div>
+<div class="line"><a id="l00039" name="l00039"></a><span class="lineno">   39</span> </div>
+<div class="line"><a id="l00040" name="l00040"></a><span class="lineno">   40</span><span class="preprocessor">#ifdef DLAF_DOXYGEN</span></div>
+<div class="line"><a id="l00041" name="l00041"></a><span class="lineno">   41</span> </div>
+<div class="line"><a id="l00045" name="l00045"></a><span class="lineno">   45</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
+<div class="line"><a id="l00046" name="l00046"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">   46</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(<span class="keyword">const</span> blas::Op op_a, <span class="keyword">const</span> blas::Op op_b, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
+<div class="line"><a id="l00047" name="l00047"></a><span class="lineno">   47</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; b, <span class="keyword">const</span> T beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
+<div class="line"><a id="l00048" name="l00048"></a><span class="lineno">   48</span> </div>
+<div class="line"><a id="l00051" name="l00051"></a><span class="lineno">   51</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
+<div class="line"><a id="l00052" name="l00052"></a><span class="lineno">   52</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
+<div class="line"><a id="l00053" name="l00053"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#afed112b0e26de470da2469d43866918d">   53</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
+<div class="line"><a id="l00054" name="l00054"></a><span class="lineno">   54</span> </div>
+<div class="line"><a id="l00057" name="l00057"></a><span class="lineno">   57</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
+<div class="line"><a id="l00058" name="l00058"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a8e495a0a86ddf2f997ca8a7c33d106a2">   58</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
 <div class="line"><a id="l00059" name="l00059"></a><span class="lineno">   59</span> </div>
-<div class="line"><a id="l00060" name="l00060"></a><span class="lineno">   60</span><span class="preprocessor">#define DLAF_DEFINE_GPUBLAS_OP(Name, Type, f)                                                           \</span></div>
-<div class="line"><a id="l00061" name="l00061"></a><span class="lineno">   61</span><span class="preprocessor">  template &lt;&gt;                                                                                           \</span></div>
-<div class="line"><a id="l00062" name="l00062"></a><span class="lineno">   62</span><span class="preprocessor">  struct Name&lt;Type&gt; {                                                                                   \</span></div>
-<div class="line"><a id="l00063" name="l00063"></a><span class="lineno">   63</span><span class="preprocessor">    template &lt;typename... Args&gt;                                                                         \</span></div>
-<div class="line"><a id="l00064" name="l00064"></a><span class="lineno">   64</span><span class="preprocessor">    static void call(cublasHandle_t handle, Args&amp;&amp;... args) {                                           \</span></div>
-<div class="line"><a id="l00065" name="l00065"></a><span class="lineno">   65</span><span class="preprocessor">      auto workspace = DLAF_GET_ROCBLAS_WORKSPACE(f);                                                   \</span></div>
-<div class="line"><a id="l00066" name="l00066"></a><span class="lineno">   66</span><span class="preprocessor">      DLAF_GPUBLAS_CHECK_ERROR(rocblas_set_workspace(static_cast&lt;rocblas_handle&gt;(handle), workspace(),  \</span></div>
-<div class="line"><a id="l00067" name="l00067"></a><span class="lineno">   67</span><span class="preprocessor">                                                     to_sizet(workspace.size())));                      \</span></div>
-<div class="line"><a id="l00068" name="l00068"></a><span class="lineno">   68</span><span class="preprocessor">      DLAF_GPUBLAS_CHECK_ERROR(rocblas_##f(handle, std::forward&lt;Args&gt;(args)...));                       \</span></div>
-<div class="line"><a id="l00069" name="l00069"></a><span class="lineno">   69</span><span class="preprocessor">      DLAF_GPUBLAS_CHECK_ERROR(rocblas_set_workspace(static_cast&lt;rocblas_handle&gt;(handle), nullptr, 0)); \</span></div>
-<div class="line"><a id="l00070" name="l00070"></a><span class="lineno">   70</span><span class="preprocessor">      ::dlaf::tile::internal::extendROCBlasWorkspace(handle, std::move(workspace));                     \</span></div>
-<div class="line"><a id="l00071" name="l00071"></a><span class="lineno">   71</span><span class="preprocessor">    }                                                                                                   \</span></div>
-<div class="line"><a id="l00072" name="l00072"></a><span class="lineno">   72</span><span class="preprocessor">  }</span></div>
-<div class="line"><a id="l00073" name="l00073"></a><span class="lineno">   73</span> </div>
-<div class="line"><a id="l00074" name="l00074"></a><span class="lineno">   74</span><span class="preprocessor">#elif defined(DLAF_WITH_CUDA)</span></div>
-<div class="line"><a id="l00075" name="l00075"></a><span class="lineno">   75</span> </div>
-<div class="line"><a id="l00076" name="l00076"></a><span class="lineno">   76</span><span class="preprocessor">#define DLAF_DEFINE_GPUBLAS_OP(Name, Type, f)                                \</span></div>
-<div class="line"><a id="l00077" name="l00077"></a><span class="lineno">   77</span><span class="preprocessor">  template &lt;&gt;                                                                \</span></div>
-<div class="line"><a id="l00078" name="l00078"></a><span class="lineno">   78</span><span class="preprocessor">  struct Name&lt;Type&gt; {                                                        \</span></div>
-<div class="line"><a id="l00079" name="l00079"></a><span class="lineno">   79</span><span class="preprocessor">    template &lt;typename... Args&gt;                                              \</span></div>
-<div class="line"><a id="l00080" name="l00080"></a><span class="lineno">   80</span><span class="preprocessor">    static void call(Args&amp;&amp;... args) {                                       \</span></div>
-<div class="line"><a id="l00081" name="l00081"></a><span class="lineno">   81</span><span class="preprocessor">      DLAF_GPUBLAS_CHECK_ERROR(cublas##f##_v2(std::forward&lt;Args&gt;(args)...)); \</span></div>
-<div class="line"><a id="l00082" name="l00082"></a><span class="lineno">   82</span><span class="preprocessor">    }                                                                        \</span></div>
-<div class="line"><a id="l00083" name="l00083"></a><span class="lineno">   83</span><span class="preprocessor">  }</span></div>
+<div class="line"><a id="l00063" name="l00063"></a><span class="lineno">   63</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
+<div class="line"><a id="l00064" name="l00064"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">   64</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">hemm</a>(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
+<div class="line"><a id="l00065" name="l00065"></a><span class="lineno">   65</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; b, <span class="keyword">const</span> T beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
+<div class="line"><a id="l00066" name="l00066"></a><span class="lineno">   66</span> </div>
+<div class="line"><a id="l00069" name="l00069"></a><span class="lineno">   69</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
+<div class="line"><a id="l00070" name="l00070"></a><span class="lineno">   70</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
+<div class="line"><a id="l00071" name="l00071"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#ab7031513f6c7338a1f3cea71784d0e9a">   71</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">hemm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
+<div class="line"><a id="l00072" name="l00072"></a><span class="lineno">   72</span> </div>
+<div class="line"><a id="l00075" name="l00075"></a><span class="lineno">   75</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
+<div class="line"><a id="l00076" name="l00076"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a8887bb899e49f4ea3acce81474f5965d">   76</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">hemm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
+<div class="line"><a id="l00077" name="l00077"></a><span class="lineno">   77</span> </div>
+<div class="line"><a id="l00081" name="l00081"></a><span class="lineno">   81</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
+<div class="line"><a id="l00082" name="l00082"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">   82</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">her2k</a>(<span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
+<div class="line"><a id="l00083" name="l00083"></a><span class="lineno">   83</span>           <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; b, <span class="keyword">const</span> BaseType&lt;T&gt; beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
 <div class="line"><a id="l00084" name="l00084"></a><span class="lineno">   84</span> </div>
-<div class="line"><a id="l00085" name="l00085"></a><span class="lineno">   85</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l00086" name="l00086"></a><span class="lineno">   86</span> </div>
-<div class="line"><a id="l00087" name="l00087"></a><span class="lineno">   87</span><span class="preprocessor">#define DLAF_DECLARE_GPUBLAS_OP(Name) \</span></div>
-<div class="line"><a id="l00088" name="l00088"></a><span class="lineno">   88</span><span class="preprocessor">  template &lt;typename T&gt;               \</span></div>
-<div class="line"><a id="l00089" name="l00089"></a><span class="lineno">   89</span><span class="preprocessor">  struct Name</span></div>
+<div class="line"><a id="l00087" name="l00087"></a><span class="lineno">   87</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
+<div class="line"><a id="l00088" name="l00088"></a><span class="lineno">   88</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
+<div class="line"><a id="l00089" name="l00089"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#aafcb69907e7154cb12e0e3121534310a">   89</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">her2k</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
 <div class="line"><a id="l00090" name="l00090"></a><span class="lineno">   90</span> </div>
-<div class="line"><a id="l00091" name="l00091"></a><span class="lineno">   91</span><span class="preprocessor">#ifdef DLAF_WITH_HIP</span></div>
-<div class="line"><a id="l00092" name="l00092"></a><span class="lineno">   92</span><span class="preprocessor">#define DLAF_MAKE_GPUBLAS_OP(Name, f)                      \</span></div>
-<div class="line"><a id="l00093" name="l00093"></a><span class="lineno">   93</span><span class="preprocessor">  DLAF_DECLARE_GPUBLAS_OP(Name);                           \</span></div>
-<div class="line"><a id="l00094" name="l00094"></a><span class="lineno">   94</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, float, s##f);               \</span></div>
-<div class="line"><a id="l00095" name="l00095"></a><span class="lineno">   95</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, double, d##f);              \</span></div>
-<div class="line"><a id="l00096" name="l00096"></a><span class="lineno">   96</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;float&gt;, c##f); \</span></div>
-<div class="line"><a id="l00097" name="l00097"></a><span class="lineno">   97</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;double&gt;, z##f)</span></div>
-<div class="line"><a id="l00098" name="l00098"></a><span class="lineno">   98</span> </div>
-<div class="line"><a id="l00099" name="l00099"></a><span class="lineno">   99</span><span class="preprocessor">#define DLAF_MAKE_GPUBLAS_SYHE_OP(Name, f)                   \</span></div>
-<div class="line"><a id="l00100" name="l00100"></a><span class="lineno">  100</span><span class="preprocessor">  DLAF_DECLARE_GPUBLAS_OP(Name);                             \</span></div>
-<div class="line"><a id="l00101" name="l00101"></a><span class="lineno">  101</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, float, ssy##f);               \</span></div>
-<div class="line"><a id="l00102" name="l00102"></a><span class="lineno">  102</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, double, dsy##f);              \</span></div>
-<div class="line"><a id="l00103" name="l00103"></a><span class="lineno">  103</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;float&gt;, che##f); \</span></div>
-<div class="line"><a id="l00104" name="l00104"></a><span class="lineno">  104</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;double&gt;, zhe##f)</span></div>
-<div class="line"><a id="l00105" name="l00105"></a><span class="lineno">  105</span> </div>
-<div class="line"><a id="l00106" name="l00106"></a><span class="lineno">  106</span><span class="preprocessor">#elif defined(DLAF_WITH_CUDA)</span></div>
-<div class="line"><a id="l00107" name="l00107"></a><span class="lineno">  107</span><span class="preprocessor">#define DLAF_MAKE_GPUBLAS_OP(Name, f)                      \</span></div>
-<div class="line"><a id="l00108" name="l00108"></a><span class="lineno">  108</span><span class="preprocessor">  DLAF_DECLARE_GPUBLAS_OP(Name);                           \</span></div>
-<div class="line"><a id="l00109" name="l00109"></a><span class="lineno">  109</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, float, S##f);               \</span></div>
-<div class="line"><a id="l00110" name="l00110"></a><span class="lineno">  110</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, double, D##f);              \</span></div>
-<div class="line"><a id="l00111" name="l00111"></a><span class="lineno">  111</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;float&gt;, C##f); \</span></div>
-<div class="line"><a id="l00112" name="l00112"></a><span class="lineno">  112</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;double&gt;, Z##f)</span></div>
+<div class="line"><a id="l00093" name="l00093"></a><span class="lineno">   93</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
+<div class="line"><a id="l00094" name="l00094"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a45e96a215d6f3a7f64ccf05d108087e7">   94</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">her2k</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
+<div class="line"><a id="l00095" name="l00095"></a><span class="lineno">   95</span> </div>
+<div class="line"><a id="l00099" name="l00099"></a><span class="lineno">   99</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
+<div class="line"><a id="l00100" name="l00100"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">  100</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(<span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> BaseType&lt;T&gt; alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
+<div class="line"><a id="l00101" name="l00101"></a><span class="lineno">  101</span>          <span class="keyword">const</span> BaseType&lt;T&gt; beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
+<div class="line"><a id="l00102" name="l00102"></a><span class="lineno">  102</span> </div>
+<div class="line"><a id="l00105" name="l00105"></a><span class="lineno">  105</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
+<div class="line"><a id="l00106" name="l00106"></a><span class="lineno">  106</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
+<div class="line"><a id="l00107" name="l00107"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a8a4f39f0b26f02bc094e531add909e6e">  107</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
+<div class="line"><a id="l00108" name="l00108"></a><span class="lineno">  108</span> </div>
+<div class="line"><a id="l00111" name="l00111"></a><span class="lineno">  111</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
+<div class="line"><a id="l00112" name="l00112"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#aa8fd52359e36023fb6418834d4b27fcd">  112</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
 <div class="line"><a id="l00113" name="l00113"></a><span class="lineno">  113</span> </div>
-<div class="line"><a id="l00114" name="l00114"></a><span class="lineno">  114</span><span class="preprocessor">#define DLAF_MAKE_GPUBLAS_SYHE_OP(Name, f)                   \</span></div>
-<div class="line"><a id="l00115" name="l00115"></a><span class="lineno">  115</span><span class="preprocessor">  DLAF_DECLARE_GPUBLAS_OP(Name);                             \</span></div>
-<div class="line"><a id="l00116" name="l00116"></a><span class="lineno">  116</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, float, Ssy##f);               \</span></div>
-<div class="line"><a id="l00117" name="l00117"></a><span class="lineno">  117</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, double, Dsy##f);              \</span></div>
-<div class="line"><a id="l00118" name="l00118"></a><span class="lineno">  118</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;float&gt;, Che##f); \</span></div>
-<div class="line"><a id="l00119" name="l00119"></a><span class="lineno">  119</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;double&gt;, Zhe##f)</span></div>
-<div class="line"><a id="l00120" name="l00120"></a><span class="lineno">  120</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00117" name="l00117"></a><span class="lineno">  117</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
+<div class="line"><a id="l00118" name="l00118"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">  118</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; policy, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo,</div>
+<div class="line"><a id="l00119" name="l00119"></a><span class="lineno">  119</span>          <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
+<div class="line"><a id="l00120" name="l00120"></a><span class="lineno">  120</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; b);</div>
 <div class="line"><a id="l00121" name="l00121"></a><span class="lineno">  121</span> </div>
-<div class="line"><a id="l00122" name="l00122"></a><span class="lineno">  122</span><span class="keyword">namespace </span>dlaf::gpublas::internal {</div>
-<div class="line"><a id="l00123" name="l00123"></a><span class="lineno">  123</span> </div>
-<div class="line"><a id="l00124" name="l00124"></a><span class="lineno">  124</span><span class="comment">// Level 1</span></div>
-<div class="line"><a id="l00125" name="l00125"></a><span class="lineno">  125</span>DLAF_MAKE_GPUBLAS_OP(Axpy, axpy);</div>
-<div class="line"><a id="l00126" name="l00126"></a><span class="lineno">  126</span> </div>
-<div class="line"><a id="l00127" name="l00127"></a><span class="lineno">  127</span><span class="comment">// Level 2</span></div>
-<div class="line"><a id="l00128" name="l00128"></a><span class="lineno">  128</span>DLAF_MAKE_GPUBLAS_OP(Gemv, gemv);</div>
-<div class="line"><a id="l00129" name="l00129"></a><span class="lineno">  129</span> </div>
-<div class="line"><a id="l00130" name="l00130"></a><span class="lineno">  130</span>DLAF_MAKE_GPUBLAS_OP(Trmv, trmv);</div>
-<div class="line"><a id="l00131" name="l00131"></a><span class="lineno">  131</span> </div>
-<div class="line"><a id="l00132" name="l00132"></a><span class="lineno">  132</span><span class="comment">// Level 3</span></div>
-<div class="line"><a id="l00133" name="l00133"></a><span class="lineno">  133</span>DLAF_MAKE_GPUBLAS_OP(Gemm, gemm);</div>
-<div class="line"><a id="l00134" name="l00134"></a><span class="lineno">  134</span> </div>
-<div class="line"><a id="l00135" name="l00135"></a><span class="lineno">  135</span>DLAF_MAKE_GPUBLAS_SYHE_OP(Hemm, mm);</div>
-<div class="line"><a id="l00136" name="l00136"></a><span class="lineno">  136</span> </div>
-<div class="line"><a id="l00137" name="l00137"></a><span class="lineno">  137</span>DLAF_MAKE_GPUBLAS_SYHE_OP(Her2k, r2k);</div>
-<div class="line"><a id="l00138" name="l00138"></a><span class="lineno">  138</span> </div>
-<div class="line"><a id="l00139" name="l00139"></a><span class="lineno">  139</span>DLAF_MAKE_GPUBLAS_SYHE_OP(Herk, rk);</div>
-<div class="line"><a id="l00140" name="l00140"></a><span class="lineno">  140</span> </div>
-<div class="line"><a id="l00141" name="l00141"></a><span class="lineno">  141</span><span class="preprocessor">#if defined(DLAF_WITH_CUDA)</span></div>
-<div class="line"><a id="l00142" name="l00142"></a><span class="lineno">  142</span>DLAF_MAKE_GPUBLAS_OP(Trmm, trmm);</div>
-<div class="line"><a id="l00143" name="l00143"></a><span class="lineno">  143</span><span class="preprocessor">#elif defined(DLAF_WITH_HIP)</span></div>
-<div class="line"><a id="l00144" name="l00144"></a><span class="lineno">  144</span> </div>
-<div class="line"><a id="l00145" name="l00145"></a><span class="lineno">  145</span><span class="preprocessor">#if ROCBLAS_VERSION_MAJOR &gt;= 3 &amp;&amp; defined(ROCBLAS_V3)</span></div>
-<div class="line"><a id="l00146" name="l00146"></a><span class="lineno">  146</span>DLAF_MAKE_GPUBLAS_OP(Trmm, trmm);</div>
-<div class="line"><a id="l00147" name="l00147"></a><span class="lineno">  147</span><span class="preprocessor">#else</span></div>
-<div class="line"><a id="l00148" name="l00148"></a><span class="lineno">  148</span>DLAF_MAKE_GPUBLAS_OP(Trmm, trmm_outofplace);</div>
-<div class="line"><a id="l00149" name="l00149"></a><span class="lineno">  149</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l00150" name="l00150"></a><span class="lineno">  150</span> </div>
-<div class="line"><a id="l00151" name="l00151"></a><span class="lineno">  151</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00124" name="l00124"></a><span class="lineno">  124</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
+<div class="line"><a id="l00125" name="l00125"></a><span class="lineno">  125</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
+<div class="line"><a id="l00126" name="l00126"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a185aa2ac627de6e9e393240cda2b5f4c">  126</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
+<div class="line"><a id="l00127" name="l00127"></a><span class="lineno">  127</span> </div>
+<div class="line"><a id="l00130" name="l00130"></a><span class="lineno">  130</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
+<div class="line"><a id="l00131" name="l00131"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a383ebe00fbfd1f328dd0378b8aa42b89">  131</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
+<div class="line"><a id="l00132" name="l00132"></a><span class="lineno">  132</span> </div>
+<div class="line"><a id="l00137" name="l00137"></a><span class="lineno">  137</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
+<div class="line"><a id="l00138" name="l00138"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">  138</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; policy, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo,</div>
+<div class="line"><a id="l00139" name="l00139"></a><span class="lineno">  139</span>           <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
+<div class="line"><a id="l00140" name="l00140"></a><span class="lineno">  140</span>           <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; b, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
+<div class="line"><a id="l00141" name="l00141"></a><span class="lineno">  141</span> </div>
+<div class="line"><a id="l00144" name="l00144"></a><span class="lineno">  144</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
+<div class="line"><a id="l00145" name="l00145"></a><span class="lineno">  145</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
+<div class="line"><a id="l00146" name="l00146"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a0cdf7b22f8a310978252ff7a0c456b98">  146</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
+<div class="line"><a id="l00147" name="l00147"></a><span class="lineno">  147</span> </div>
+<div class="line"><a id="l00150" name="l00150"></a><span class="lineno">  150</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
+<div class="line"><a id="l00151" name="l00151"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a9906093b08eefa0a5341b140ce6100a3">  151</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
 <div class="line"><a id="l00152" name="l00152"></a><span class="lineno">  152</span> </div>
-<div class="line"><a id="l00153" name="l00153"></a><span class="lineno">  153</span>DLAF_MAKE_GPUBLAS_OP(Trsm, trsm);</div>
-<div class="line"><a id="l00154" name="l00154"></a><span class="lineno">  154</span>}</div>
-<div class="line"><a id="l00155" name="l00155"></a><span class="lineno">  155</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l00156" name="l00156"></a><span class="lineno">  156</span> </div>
-<div class="line"><a id="l00157" name="l00157"></a><span class="lineno">  157</span><span class="keyword">namespace </span>dlaf {</div>
-<div class="line"><a id="l00158" name="l00158"></a><span class="lineno">  158</span><span class="keyword">namespace </span>tile {</div>
-<div class="line"><a id="l00159" name="l00159"></a><span class="lineno">  159</span><span class="keyword">using </span>matrix::Tile;</div>
+<div class="line"><a id="l00156" name="l00156"></a><span class="lineno">  156</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
+<div class="line"><a id="l00157" name="l00157"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">  157</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; policy, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo,</div>
+<div class="line"><a id="l00158" name="l00158"></a><span class="lineno">  158</span>          <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
+<div class="line"><a id="l00159" name="l00159"></a><span class="lineno">  159</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; b);</div>
 <div class="line"><a id="l00160" name="l00160"></a><span class="lineno">  160</span> </div>
-<div class="line"><a id="l00161" name="l00161"></a><span class="lineno">  161</span><span class="preprocessor">#ifdef DLAF_DOXYGEN</span></div>
-<div class="line"><a id="l00162" name="l00162"></a><span class="lineno">  162</span> </div>
-<div class="line"><a id="l00166" name="l00166"></a><span class="lineno">  166</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a id="l00167" name="l00167"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">  167</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(<span class="keyword">const</span> blas::Op op_a, <span class="keyword">const</span> blas::Op op_b, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
-<div class="line"><a id="l00168" name="l00168"></a><span class="lineno">  168</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; b, <span class="keyword">const</span> T beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
-<div class="line"><a id="l00169" name="l00169"></a><span class="lineno">  169</span> </div>
-<div class="line"><a id="l00172" name="l00172"></a><span class="lineno">  172</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
-<div class="line"><a id="l00173" name="l00173"></a><span class="lineno">  173</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
-<div class="line"><a id="l00174" name="l00174"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#afed112b0e26de470da2469d43866918d">  174</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
-<div class="line"><a id="l00175" name="l00175"></a><span class="lineno">  175</span> </div>
-<div class="line"><a id="l00178" name="l00178"></a><span class="lineno">  178</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
-<div class="line"><a id="l00179" name="l00179"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a8e495a0a86ddf2f997ca8a7c33d106a2">  179</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
-<div class="line"><a id="l00180" name="l00180"></a><span class="lineno">  180</span> </div>
-<div class="line"><a id="l00184" name="l00184"></a><span class="lineno">  184</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a id="l00185" name="l00185"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">  185</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">hemm</a>(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
-<div class="line"><a id="l00186" name="l00186"></a><span class="lineno">  186</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; b, <span class="keyword">const</span> T beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
-<div class="line"><a id="l00187" name="l00187"></a><span class="lineno">  187</span> </div>
-<div class="line"><a id="l00190" name="l00190"></a><span class="lineno">  190</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
-<div class="line"><a id="l00191" name="l00191"></a><span class="lineno">  191</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
-<div class="line"><a id="l00192" name="l00192"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#ab7031513f6c7338a1f3cea71784d0e9a">  192</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">hemm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
+<div class="line"><a id="l00163" name="l00163"></a><span class="lineno">  163</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
+<div class="line"><a id="l00164" name="l00164"></a><span class="lineno">  164</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
+<div class="line"><a id="l00165" name="l00165"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a1b11d671c920bf9dce76092e6d1aaa8c">  165</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
+<div class="line"><a id="l00166" name="l00166"></a><span class="lineno">  166</span> </div>
+<div class="line"><a id="l00169" name="l00169"></a><span class="lineno">  169</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
+<div class="line"><a id="l00170" name="l00170"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a23eb607d942637d4e14331a2f0f253f7">  170</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
+<div class="line"><a id="l00171" name="l00171"></a><span class="lineno">  171</span><span class="preprocessor">#else</span></div>
+<div class="line"><a id="l00172" name="l00172"></a><span class="lineno">  172</span> </div>
+<div class="line"><a id="l00173" name="l00173"></a><span class="lineno">  173</span><span class="keyword">namespace </span>internal {</div>
+<div class="line"><a id="l00174" name="l00174"></a><span class="lineno">  174</span> </div>
+<div class="line"><a id="l00175" name="l00175"></a><span class="lineno">  175</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00176" name="l00176"></a><span class="lineno">  176</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(<span class="keyword">const</span> blas::Op op_a, <span class="keyword">const</span> blas::Op op_b, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, Device::CPU&gt;</a>&amp; a,</div>
+<div class="line"><a id="l00177" name="l00177"></a><span class="lineno">  177</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, Device::CPU&gt;</a>&amp; b, <span class="keyword">const</span> T beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, Device::CPU&gt;</a>&amp; c) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00178" name="l00178"></a><span class="lineno">  178</span>  <span class="keyword">auto</span> s = tile::internal::getGemmSizes(op_a, op_b, a, b, c);</div>
+<div class="line"><a id="l00179" name="l00179"></a><span class="lineno">  179</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
+<div class="line"><a id="l00180" name="l00180"></a><span class="lineno">  180</span>  blas::gemm(blas::Layout::ColMajor, op_a, op_b, s.m, s.n, s.k, alpha, a.ptr(), a.ld(), b.ptr(), b.ld(),</div>
+<div class="line"><a id="l00181" name="l00181"></a><span class="lineno">  181</span>             beta, c.ptr(), c.ld());</div>
+<div class="line"><a id="l00182" name="l00182"></a><span class="lineno">  182</span>}</div>
+<div class="line"><a id="l00183" name="l00183"></a><span class="lineno">  183</span> </div>
+<div class="line"><a id="l00184" name="l00184"></a><span class="lineno">  184</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00185" name="l00185"></a><span class="lineno">  185</span><span class="keywordtype">void</span> hemm(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> T alpha,</div>
+<div class="line"><a id="l00186" name="l00186"></a><span class="lineno">  186</span>          <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; b, <span class="keyword">const</span> T beta,</div>
+<div class="line"><a id="l00187" name="l00187"></a><span class="lineno">  187</span>          <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; c) {</div>
+<div class="line"><a id="l00188" name="l00188"></a><span class="lineno">  188</span>  <span class="keyword">auto</span> s = tile::internal::getHemmSizes(side, a, b, c);</div>
+<div class="line"><a id="l00189" name="l00189"></a><span class="lineno">  189</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
+<div class="line"><a id="l00190" name="l00190"></a><span class="lineno">  190</span>  blas::hemm(blas::Layout::ColMajor, side, uplo, s.m, s.n, alpha, a.ptr(), a.ld(), b.ptr(), b.ld(), beta,</div>
+<div class="line"><a id="l00191" name="l00191"></a><span class="lineno">  191</span>             c.ptr(), c.ld());</div>
+<div class="line"><a id="l00192" name="l00192"></a><span class="lineno">  192</span>}</div>
 <div class="line"><a id="l00193" name="l00193"></a><span class="lineno">  193</span> </div>
-<div class="line"><a id="l00196" name="l00196"></a><span class="lineno">  196</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
-<div class="line"><a id="l00197" name="l00197"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a8887bb899e49f4ea3acce81474f5965d">  197</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">hemm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
-<div class="line"><a id="l00198" name="l00198"></a><span class="lineno">  198</span> </div>
-<div class="line"><a id="l00202" name="l00202"></a><span class="lineno">  202</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a id="l00203" name="l00203"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">  203</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">her2k</a>(<span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
-<div class="line"><a id="l00204" name="l00204"></a><span class="lineno">  204</span>           <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; b, <span class="keyword">const</span> BaseType&lt;T&gt; beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
-<div class="line"><a id="l00205" name="l00205"></a><span class="lineno">  205</span> </div>
-<div class="line"><a id="l00208" name="l00208"></a><span class="lineno">  208</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
-<div class="line"><a id="l00209" name="l00209"></a><span class="lineno">  209</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
-<div class="line"><a id="l00210" name="l00210"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#aafcb69907e7154cb12e0e3121534310a">  210</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">her2k</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
-<div class="line"><a id="l00211" name="l00211"></a><span class="lineno">  211</span> </div>
-<div class="line"><a id="l00214" name="l00214"></a><span class="lineno">  214</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
-<div class="line"><a id="l00215" name="l00215"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a45e96a215d6f3a7f64ccf05d108087e7">  215</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">her2k</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
-<div class="line"><a id="l00216" name="l00216"></a><span class="lineno">  216</span> </div>
-<div class="line"><a id="l00220" name="l00220"></a><span class="lineno">  220</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a id="l00221" name="l00221"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">  221</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(<span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> BaseType&lt;T&gt; alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
-<div class="line"><a id="l00222" name="l00222"></a><span class="lineno">  222</span>          <span class="keyword">const</span> BaseType&lt;T&gt; beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
-<div class="line"><a id="l00223" name="l00223"></a><span class="lineno">  223</span> </div>
-<div class="line"><a id="l00226" name="l00226"></a><span class="lineno">  226</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
-<div class="line"><a id="l00227" name="l00227"></a><span class="lineno">  227</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
-<div class="line"><a id="l00228" name="l00228"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a8a4f39f0b26f02bc094e531add909e6e">  228</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
-<div class="line"><a id="l00229" name="l00229"></a><span class="lineno">  229</span> </div>
-<div class="line"><a id="l00232" name="l00232"></a><span class="lineno">  232</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
-<div class="line"><a id="l00233" name="l00233"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#aa8fd52359e36023fb6418834d4b27fcd">  233</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
-<div class="line"><a id="l00234" name="l00234"></a><span class="lineno">  234</span> </div>
-<div class="line"><a id="l00238" name="l00238"></a><span class="lineno">  238</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a id="l00239" name="l00239"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">  239</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; policy, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo,</div>
-<div class="line"><a id="l00240" name="l00240"></a><span class="lineno">  240</span>          <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
-<div class="line"><a id="l00241" name="l00241"></a><span class="lineno">  241</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; b);</div>
-<div class="line"><a id="l00242" name="l00242"></a><span class="lineno">  242</span> </div>
-<div class="line"><a id="l00245" name="l00245"></a><span class="lineno">  245</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
-<div class="line"><a id="l00246" name="l00246"></a><span class="lineno">  246</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
-<div class="line"><a id="l00247" name="l00247"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a185aa2ac627de6e9e393240cda2b5f4c">  247</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
+<div class="line"><a id="l00194" name="l00194"></a><span class="lineno">  194</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00195" name="l00195"></a><span class="lineno">  195</span><span class="keywordtype">void</span> her2k(<span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a,</div>
+<div class="line"><a id="l00196" name="l00196"></a><span class="lineno">  196</span>           <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; b, <span class="keyword">const</span> BaseType&lt;T&gt; beta,</div>
+<div class="line"><a id="l00197" name="l00197"></a><span class="lineno">  197</span>           <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; c) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00198" name="l00198"></a><span class="lineno">  198</span>  <span class="keyword">auto</span> s = tile::internal::getHer2kSizes(op, a, b, c);</div>
+<div class="line"><a id="l00199" name="l00199"></a><span class="lineno">  199</span>  common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a id="l00200" name="l00200"></a><span class="lineno">  200</span>  blas::her2k(blas::Layout::ColMajor, uplo, op, s.n, s.k, alpha, a.ptr(), a.ld(), b.ptr(), b.ld(), beta,</div>
+<div class="line"><a id="l00201" name="l00201"></a><span class="lineno">  201</span>              c.ptr(), c.ld());</div>
+<div class="line"><a id="l00202" name="l00202"></a><span class="lineno">  202</span>}</div>
+<div class="line"><a id="l00203" name="l00203"></a><span class="lineno">  203</span> </div>
+<div class="line"><a id="l00204" name="l00204"></a><span class="lineno">  204</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00205" name="l00205"></a><span class="lineno">  205</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(<span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> BaseType&lt;T&gt; alpha,</div>
+<div class="line"><a id="l00206" name="l00206"></a><span class="lineno">  206</span>          <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> BaseType&lt;T&gt; beta,</div>
+<div class="line"><a id="l00207" name="l00207"></a><span class="lineno">  207</span>          <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; c) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00208" name="l00208"></a><span class="lineno">  208</span>  <span class="keyword">auto</span> s = tile::internal::getHerkSizes(op, a, c);</div>
+<div class="line"><a id="l00209" name="l00209"></a><span class="lineno">  209</span>  common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a id="l00210" name="l00210"></a><span class="lineno">  210</span>  blas::herk(blas::Layout::ColMajor, uplo, op, s.n, s.k, alpha, a.ptr(), a.ld(), beta, c.ptr(), c.ld());</div>
+<div class="line"><a id="l00211" name="l00211"></a><span class="lineno">  211</span>}</div>
+<div class="line"><a id="l00212" name="l00212"></a><span class="lineno">  212</span> </div>
+<div class="line"><a id="l00213" name="l00213"></a><span class="lineno">  213</span><span class="comment">// Triangular matrix-matrix multiplication.</span></div>
+<div class="line"><a id="l00214" name="l00214"></a><span class="lineno">  214</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00215" name="l00215"></a><span class="lineno">  215</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag,</div>
+<div class="line"><a id="l00216" name="l00216"></a><span class="lineno">  216</span>          <span class="keyword">const</span> T alpha, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; b) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00217" name="l00217"></a><span class="lineno">  217</span>  <span class="keyword">auto</span> s = tile::internal::getTrmmSizes(side, a, b);</div>
+<div class="line"><a id="l00218" name="l00218"></a><span class="lineno">  218</span>  common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a id="l00219" name="l00219"></a><span class="lineno">  219</span>  blas::trmm(blas::Layout::ColMajor, side, uplo, op, diag, s.m, s.n, alpha, a.ptr(), a.ld(), b.ptr(),</div>
+<div class="line"><a id="l00220" name="l00220"></a><span class="lineno">  220</span>             b.ld());</div>
+<div class="line"><a id="l00221" name="l00221"></a><span class="lineno">  221</span>}</div>
+<div class="line"><a id="l00222" name="l00222"></a><span class="lineno">  222</span> </div>
+<div class="line"><a id="l00223" name="l00223"></a><span class="lineno">  223</span><span class="comment">// Triangular matrix-matrix multiplication.</span></div>
+<div class="line"><a id="l00224" name="l00224"></a><span class="lineno">  224</span><span class="comment">// Version with 3 tile arguments (different output tile).</span></div>
+<div class="line"><a id="l00225" name="l00225"></a><span class="lineno">  225</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00226" name="l00226"></a><span class="lineno">  226</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag,</div>
+<div class="line"><a id="l00227" name="l00227"></a><span class="lineno">  227</span>           <span class="keyword">const</span> T alpha, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; b,</div>
+<div class="line"><a id="l00228" name="l00228"></a><span class="lineno">  228</span>           <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; c) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00229" name="l00229"></a><span class="lineno">  229</span>  <span class="keyword">auto</span> s = tile::internal::getTrmm3Sizes(side, a, b, c);</div>
+<div class="line"><a id="l00230" name="l00230"></a><span class="lineno">  230</span>  DLAF_ASSERT(b.ptr() == <span class="keyword">nullptr</span> || b.ptr() != c.ptr(), b.ptr(), c.ptr());</div>
+<div class="line"><a id="l00231" name="l00231"></a><span class="lineno">  231</span> </div>
+<div class="line"><a id="l00232" name="l00232"></a><span class="lineno">  232</span>  matrix::internal::copy(b, c);</div>
+<div class="line"><a id="l00233" name="l00233"></a><span class="lineno">  233</span>  common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a id="l00234" name="l00234"></a><span class="lineno">  234</span>  blas::trmm(blas::Layout::ColMajor, side, uplo, op, diag, s.m, s.n, alpha, a.ptr(), a.ld(), c.ptr(),</div>
+<div class="line"><a id="l00235" name="l00235"></a><span class="lineno">  235</span>             c.ld());</div>
+<div class="line"><a id="l00236" name="l00236"></a><span class="lineno">  236</span>}</div>
+<div class="line"><a id="l00237" name="l00237"></a><span class="lineno">  237</span> </div>
+<div class="line"><a id="l00238" name="l00238"></a><span class="lineno">  238</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00239" name="l00239"></a><span class="lineno">  239</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag,</div>
+<div class="line"><a id="l00240" name="l00240"></a><span class="lineno">  240</span>          <span class="keyword">const</span> T alpha, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; b) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00241" name="l00241"></a><span class="lineno">  241</span>  <span class="keyword">auto</span> s = tile::internal::getTrsmSizes(side, a, b);</div>
+<div class="line"><a id="l00242" name="l00242"></a><span class="lineno">  242</span>  common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a id="l00243" name="l00243"></a><span class="lineno">  243</span>  blas::trsm(blas::Layout::ColMajor, side, uplo, op, diag, s.m, s.n, alpha, a.ptr(), a.ld(), b.ptr(),</div>
+<div class="line"><a id="l00244" name="l00244"></a><span class="lineno">  244</span>             b.ld());</div>
+<div class="line"><a id="l00245" name="l00245"></a><span class="lineno">  245</span>}</div>
+<div class="line"><a id="l00246" name="l00246"></a><span class="lineno">  246</span> </div>
+<div class="line"><a id="l00247" name="l00247"></a><span class="lineno">  247</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
 <div class="line"><a id="l00248" name="l00248"></a><span class="lineno">  248</span> </div>
-<div class="line"><a id="l00251" name="l00251"></a><span class="lineno">  251</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
-<div class="line"><a id="l00252" name="l00252"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a383ebe00fbfd1f328dd0378b8aa42b89">  252</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
-<div class="line"><a id="l00253" name="l00253"></a><span class="lineno">  253</span> </div>
-<div class="line"><a id="l00258" name="l00258"></a><span class="lineno">  258</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a id="l00259" name="l00259"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">  259</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; policy, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo,</div>
-<div class="line"><a id="l00260" name="l00260"></a><span class="lineno">  260</span>           <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
-<div class="line"><a id="l00261" name="l00261"></a><span class="lineno">  261</span>           <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; b, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; c);</div>
+<div class="line"><a id="l00249" name="l00249"></a><span class="lineno">  249</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00250" name="l00250"></a><span class="lineno">  250</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Op op_a, <span class="keyword">const</span> blas::Op op_b, <span class="keyword">const</span> T alpha,</div>
+<div class="line"><a id="l00251" name="l00251"></a><span class="lineno">  251</span>          <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a, <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; b,</div>
+<div class="line"><a id="l00252" name="l00252"></a><span class="lineno">  252</span>          <span class="keyword">const</span> T beta, <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
+<div class="line"><a id="l00253" name="l00253"></a><span class="lineno">  253</span>  <span class="keyword">using </span>util::blasToCublas;</div>
+<div class="line"><a id="l00254" name="l00254"></a><span class="lineno">  254</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
+<div class="line"><a id="l00255" name="l00255"></a><span class="lineno">  255</span>  <span class="keyword">auto</span> s = getGemmSizes(op_a, op_b, a, b, c);</div>
+<div class="line"><a id="l00256" name="l00256"></a><span class="lineno">  256</span>  gpublas::internal::Gemm&lt;T&gt;::call(handle, blasToCublas(op_a), blasToCublas(op_b), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m),</div>
+<div class="line"><a id="l00257" name="l00257"></a><span class="lineno">  257</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.k), blasToCublasCast(&amp;alpha),</div>
+<div class="line"><a id="l00258" name="l00258"></a><span class="lineno">  258</span>                                   blasToCublasCast(a.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()), blasToCublasCast(b.ptr()),</div>
+<div class="line"><a id="l00259" name="l00259"></a><span class="lineno">  259</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()), blasToCublasCast(&amp;beta), blasToCublasCast(c.ptr()),</div>
+<div class="line"><a id="l00260" name="l00260"></a><span class="lineno">  260</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
+<div class="line"><a id="l00261" name="l00261"></a><span class="lineno">  261</span>}</div>
 <div class="line"><a id="l00262" name="l00262"></a><span class="lineno">  262</span> </div>
-<div class="line"><a id="l00265" name="l00265"></a><span class="lineno">  265</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
-<div class="line"><a id="l00266" name="l00266"></a><span class="lineno">  266</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
-<div class="line"><a id="l00267" name="l00267"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a0cdf7b22f8a310978252ff7a0c456b98">  267</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
-<div class="line"><a id="l00268" name="l00268"></a><span class="lineno">  268</span> </div>
-<div class="line"><a id="l00271" name="l00271"></a><span class="lineno">  271</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
-<div class="line"><a id="l00272" name="l00272"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a9906093b08eefa0a5341b140ce6100a3">  272</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
-<div class="line"><a id="l00273" name="l00273"></a><span class="lineno">  273</span> </div>
-<div class="line"><a id="l00277" name="l00277"></a><span class="lineno">  277</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D&gt;</div>
-<div class="line"><a id="l00278" name="l00278"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">  278</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; policy, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo,</div>
-<div class="line"><a id="l00279" name="l00279"></a><span class="lineno">  279</span>          <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, D&gt;</a>&amp; a,</div>
-<div class="line"><a id="l00280" name="l00280"></a><span class="lineno">  280</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, D&gt;</a>&amp; b);</div>
-<div class="line"><a id="l00281" name="l00281"></a><span class="lineno">  281</span> </div>
-<div class="line"><a id="l00284" name="l00284"></a><span class="lineno">  284</span><span class="keyword">template</span> &lt;Backend B, <span class="keyword">typename</span> Sender,</div>
-<div class="line"><a id="l00285" name="l00285"></a><span class="lineno">  285</span>          <span class="keyword">typename</span> = std::enable_if_t&lt;pika::execution::experimental::is_sender_v&lt;Sender&gt;&gt;&gt;</div>
-<div class="line"><a id="l00286" name="l00286"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a1b11d671c920bf9dce76092e6d1aaa8c">  286</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p, Sender&amp;&amp; s);</div>
-<div class="line"><a id="l00287" name="l00287"></a><span class="lineno">  287</span> </div>
-<div class="line"><a id="l00290" name="l00290"></a><span class="lineno">  290</span><span class="keyword">template</span> &lt;Backend B&gt;</div>
-<div class="line"><a id="l00291" name="l00291"></a><span class="lineno"><a class="line" href="blas_2tile_8h.html#a23eb607d942637d4e14331a2f0f253f7">  291</a></span><span class="keyword">auto</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy&lt;B&gt;</a>&amp; p);</div>
-<div class="line"><a id="l00292" name="l00292"></a><span class="lineno">  292</span><span class="preprocessor">#else</span></div>
-<div class="line"><a id="l00293" name="l00293"></a><span class="lineno">  293</span> </div>
-<div class="line"><a id="l00294" name="l00294"></a><span class="lineno">  294</span><span class="keyword">namespace </span>internal {</div>
-<div class="line"><a id="l00295" name="l00295"></a><span class="lineno">  295</span> </div>
-<div class="line"><a id="l00296" name="l00296"></a><span class="lineno">  296</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00297" name="l00297"></a><span class="lineno">  297</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(<span class="keyword">const</span> blas::Op op_a, <span class="keyword">const</span> blas::Op op_b, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, Device::CPU&gt;</a>&amp; a,</div>
-<div class="line"><a id="l00298" name="l00298"></a><span class="lineno">  298</span>          <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;const T, Device::CPU&gt;</a>&amp; b, <span class="keyword">const</span> T beta, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_tile.html">Tile&lt;T, Device::CPU&gt;</a>&amp; c) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00299" name="l00299"></a><span class="lineno">  299</span>  <span class="keyword">auto</span> s = tile::internal::getGemmSizes(op_a, op_b, a, b, c);</div>
-<div class="line"><a id="l00300" name="l00300"></a><span class="lineno">  300</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
-<div class="line"><a id="l00301" name="l00301"></a><span class="lineno">  301</span>  blas::gemm(blas::Layout::ColMajor, op_a, op_b, s.m, s.n, s.k, alpha, a.ptr(), a.ld(), b.ptr(), b.ld(),</div>
-<div class="line"><a id="l00302" name="l00302"></a><span class="lineno">  302</span>             beta, c.ptr(), c.ld());</div>
-<div class="line"><a id="l00303" name="l00303"></a><span class="lineno">  303</span>}</div>
-<div class="line"><a id="l00304" name="l00304"></a><span class="lineno">  304</span> </div>
-<div class="line"><a id="l00305" name="l00305"></a><span class="lineno">  305</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00306" name="l00306"></a><span class="lineno">  306</span><span class="keywordtype">void</span> hemm(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> T alpha,</div>
-<div class="line"><a id="l00307" name="l00307"></a><span class="lineno">  307</span>          <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; b, <span class="keyword">const</span> T beta,</div>
-<div class="line"><a id="l00308" name="l00308"></a><span class="lineno">  308</span>          <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; c) {</div>
-<div class="line"><a id="l00309" name="l00309"></a><span class="lineno">  309</span>  <span class="keyword">auto</span> s = tile::internal::getHemmSizes(side, a, b, c);</div>
-<div class="line"><a id="l00310" name="l00310"></a><span class="lineno">  310</span>  <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
-<div class="line"><a id="l00311" name="l00311"></a><span class="lineno">  311</span>  blas::hemm(blas::Layout::ColMajor, side, uplo, s.m, s.n, alpha, a.ptr(), a.ld(), b.ptr(), b.ld(), beta,</div>
-<div class="line"><a id="l00312" name="l00312"></a><span class="lineno">  312</span>             c.ptr(), c.ld());</div>
-<div class="line"><a id="l00313" name="l00313"></a><span class="lineno">  313</span>}</div>
-<div class="line"><a id="l00314" name="l00314"></a><span class="lineno">  314</span> </div>
-<div class="line"><a id="l00315" name="l00315"></a><span class="lineno">  315</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00316" name="l00316"></a><span class="lineno">  316</span><span class="keywordtype">void</span> her2k(<span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a,</div>
-<div class="line"><a id="l00317" name="l00317"></a><span class="lineno">  317</span>           <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; b, <span class="keyword">const</span> BaseType&lt;T&gt; beta,</div>
-<div class="line"><a id="l00318" name="l00318"></a><span class="lineno">  318</span>           <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; c) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00319" name="l00319"></a><span class="lineno">  319</span>  <span class="keyword">auto</span> s = tile::internal::getHer2kSizes(op, a, b, c);</div>
-<div class="line"><a id="l00320" name="l00320"></a><span class="lineno">  320</span>  common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a id="l00321" name="l00321"></a><span class="lineno">  321</span>  blas::her2k(blas::Layout::ColMajor, uplo, op, s.n, s.k, alpha, a.ptr(), a.ld(), b.ptr(), b.ld(), beta,</div>
-<div class="line"><a id="l00322" name="l00322"></a><span class="lineno">  322</span>              c.ptr(), c.ld());</div>
-<div class="line"><a id="l00323" name="l00323"></a><span class="lineno">  323</span>}</div>
-<div class="line"><a id="l00324" name="l00324"></a><span class="lineno">  324</span> </div>
-<div class="line"><a id="l00325" name="l00325"></a><span class="lineno">  325</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00326" name="l00326"></a><span class="lineno">  326</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(<span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> BaseType&lt;T&gt; alpha,</div>
-<div class="line"><a id="l00327" name="l00327"></a><span class="lineno">  327</span>          <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> BaseType&lt;T&gt; beta,</div>
-<div class="line"><a id="l00328" name="l00328"></a><span class="lineno">  328</span>          <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; c) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00329" name="l00329"></a><span class="lineno">  329</span>  <span class="keyword">auto</span> s = tile::internal::getHerkSizes(op, a, c);</div>
-<div class="line"><a id="l00330" name="l00330"></a><span class="lineno">  330</span>  common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a id="l00331" name="l00331"></a><span class="lineno">  331</span>  blas::herk(blas::Layout::ColMajor, uplo, op, s.n, s.k, alpha, a.ptr(), a.ld(), beta, c.ptr(), c.ld());</div>
-<div class="line"><a id="l00332" name="l00332"></a><span class="lineno">  332</span>}</div>
-<div class="line"><a id="l00333" name="l00333"></a><span class="lineno">  333</span> </div>
-<div class="line"><a id="l00334" name="l00334"></a><span class="lineno">  334</span><span class="comment">// Triangular matrix-matrix multiplication.</span></div>
-<div class="line"><a id="l00335" name="l00335"></a><span class="lineno">  335</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00336" name="l00336"></a><span class="lineno">  336</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag,</div>
-<div class="line"><a id="l00337" name="l00337"></a><span class="lineno">  337</span>          <span class="keyword">const</span> T alpha, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; b) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00338" name="l00338"></a><span class="lineno">  338</span>  <span class="keyword">auto</span> s = tile::internal::getTrmmSizes(side, a, b);</div>
-<div class="line"><a id="l00339" name="l00339"></a><span class="lineno">  339</span>  common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a id="l00340" name="l00340"></a><span class="lineno">  340</span>  blas::trmm(blas::Layout::ColMajor, side, uplo, op, diag, s.m, s.n, alpha, a.ptr(), a.ld(), b.ptr(),</div>
-<div class="line"><a id="l00341" name="l00341"></a><span class="lineno">  341</span>             b.ld());</div>
-<div class="line"><a id="l00342" name="l00342"></a><span class="lineno">  342</span>}</div>
-<div class="line"><a id="l00343" name="l00343"></a><span class="lineno">  343</span> </div>
-<div class="line"><a id="l00344" name="l00344"></a><span class="lineno">  344</span><span class="comment">// Triangular matrix-matrix multiplication.</span></div>
-<div class="line"><a id="l00345" name="l00345"></a><span class="lineno">  345</span><span class="comment">// Version with 3 tile arguments (different output tile).</span></div>
-<div class="line"><a id="l00346" name="l00346"></a><span class="lineno">  346</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00347" name="l00347"></a><span class="lineno">  347</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag,</div>
-<div class="line"><a id="l00348" name="l00348"></a><span class="lineno">  348</span>           <span class="keyword">const</span> T alpha, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; b,</div>
-<div class="line"><a id="l00349" name="l00349"></a><span class="lineno">  349</span>           <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; c) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00350" name="l00350"></a><span class="lineno">  350</span>  <span class="keyword">auto</span> s = tile::internal::getTrmm3Sizes(side, a, b, c);</div>
-<div class="line"><a id="l00351" name="l00351"></a><span class="lineno">  351</span>  DLAF_ASSERT(b.ptr() == <span class="keyword">nullptr</span> || b.ptr() != c.ptr(), b.ptr(), c.ptr());</div>
-<div class="line"><a id="l00352" name="l00352"></a><span class="lineno">  352</span> </div>
-<div class="line"><a id="l00353" name="l00353"></a><span class="lineno">  353</span>  matrix::internal::copy(b, c);</div>
-<div class="line"><a id="l00354" name="l00354"></a><span class="lineno">  354</span>  common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a id="l00355" name="l00355"></a><span class="lineno">  355</span>  blas::trmm(blas::Layout::ColMajor, side, uplo, op, diag, s.m, s.n, alpha, a.ptr(), a.ld(), c.ptr(),</div>
-<div class="line"><a id="l00356" name="l00356"></a><span class="lineno">  356</span>             c.ld());</div>
-<div class="line"><a id="l00357" name="l00357"></a><span class="lineno">  357</span>}</div>
-<div class="line"><a id="l00358" name="l00358"></a><span class="lineno">  358</span> </div>
-<div class="line"><a id="l00359" name="l00359"></a><span class="lineno">  359</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00360" name="l00360"></a><span class="lineno">  360</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(<span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> blas::Diag diag,</div>
-<div class="line"><a id="l00361" name="l00361"></a><span class="lineno">  361</span>          <span class="keyword">const</span> T alpha, <span class="keyword">const</span> Tile&lt;const T, Device::CPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;T, Device::CPU&gt;&amp; b) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00362" name="l00362"></a><span class="lineno">  362</span>  <span class="keyword">auto</span> s = tile::internal::getTrsmSizes(side, a, b);</div>
-<div class="line"><a id="l00363" name="l00363"></a><span class="lineno">  363</span>  common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a id="l00364" name="l00364"></a><span class="lineno">  364</span>  blas::trsm(blas::Layout::ColMajor, side, uplo, op, diag, s.m, s.n, alpha, a.ptr(), a.ld(), b.ptr(),</div>
-<div class="line"><a id="l00365" name="l00365"></a><span class="lineno">  365</span>             b.ld());</div>
-<div class="line"><a id="l00366" name="l00366"></a><span class="lineno">  366</span>}</div>
-<div class="line"><a id="l00367" name="l00367"></a><span class="lineno">  367</span> </div>
-<div class="line"><a id="l00368" name="l00368"></a><span class="lineno">  368</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a id="l00369" name="l00369"></a><span class="lineno">  369</span> </div>
-<div class="line"><a id="l00370" name="l00370"></a><span class="lineno">  370</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00371" name="l00371"></a><span class="lineno">  371</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">gemm</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Op op_a, <span class="keyword">const</span> blas::Op op_b, <span class="keyword">const</span> T alpha,</div>
-<div class="line"><a id="l00372" name="l00372"></a><span class="lineno">  372</span>          <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a, <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; b,</div>
-<div class="line"><a id="l00373" name="l00373"></a><span class="lineno">  373</span>          <span class="keyword">const</span> T beta, <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
-<div class="line"><a id="l00374" name="l00374"></a><span class="lineno">  374</span>  <span class="keyword">using </span>util::blasToCublas;</div>
-<div class="line"><a id="l00375" name="l00375"></a><span class="lineno">  375</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
-<div class="line"><a id="l00376" name="l00376"></a><span class="lineno">  376</span>  <span class="keyword">auto</span> s = getGemmSizes(op_a, op_b, a, b, c);</div>
-<div class="line"><a id="l00377" name="l00377"></a><span class="lineno">  377</span>  gpublas::internal::Gemm&lt;T&gt;::call(handle, blasToCublas(op_a), blasToCublas(op_b), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m),</div>
-<div class="line"><a id="l00378" name="l00378"></a><span class="lineno">  378</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.k), blasToCublasCast(&amp;alpha),</div>
-<div class="line"><a id="l00379" name="l00379"></a><span class="lineno">  379</span>                                   blasToCublasCast(a.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()), blasToCublasCast(b.ptr()),</div>
-<div class="line"><a id="l00380" name="l00380"></a><span class="lineno">  380</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()), blasToCublasCast(&amp;beta), blasToCublasCast(c.ptr()),</div>
-<div class="line"><a id="l00381" name="l00381"></a><span class="lineno">  381</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
-<div class="line"><a id="l00382" name="l00382"></a><span class="lineno">  382</span>}</div>
-<div class="line"><a id="l00383" name="l00383"></a><span class="lineno">  383</span> </div>
-<div class="line"><a id="l00384" name="l00384"></a><span class="lineno">  384</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00385" name="l00385"></a><span class="lineno">  385</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">hemm</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> T alpha,</div>
-<div class="line"><a id="l00386" name="l00386"></a><span class="lineno">  386</span>          <span class="keyword">const</span> Tile&lt;const T, Device::GPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;const T, Device::GPU&gt;&amp; b, <span class="keyword">const</span> T beta,</div>
-<div class="line"><a id="l00387" name="l00387"></a><span class="lineno">  387</span>          <span class="keyword">const</span> Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
-<div class="line"><a id="l00388" name="l00388"></a><span class="lineno">  388</span>  <span class="keyword">using </span>util::blasToCublas;</div>
-<div class="line"><a id="l00389" name="l00389"></a><span class="lineno">  389</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
-<div class="line"><a id="l00390" name="l00390"></a><span class="lineno">  390</span>  <span class="keyword">auto</span> s = getHemmSizes(side, a, b, c);</div>
-<div class="line"><a id="l00391" name="l00391"></a><span class="lineno">  391</span>  gpublas::internal::Hemm&lt;T&gt;::call(handle, blasToCublas(side), blasToCublas(uplo), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m),</div>
-<div class="line"><a id="l00392" name="l00392"></a><span class="lineno">  392</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n), blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()),</div>
-<div class="line"><a id="l00393" name="l00393"></a><span class="lineno">  393</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()), blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()),</div>
-<div class="line"><a id="l00394" name="l00394"></a><span class="lineno">  394</span>                                   blasToCublasCast(&amp;beta), blasToCublasCast(c.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
-<div class="line"><a id="l00395" name="l00395"></a><span class="lineno">  395</span>}</div>
-<div class="line"><a id="l00396" name="l00396"></a><span class="lineno">  396</span> </div>
-<div class="line"><a id="l00397" name="l00397"></a><span class="lineno">  397</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00398" name="l00398"></a><span class="lineno">  398</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">her2k</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Uplo uplo, blas::Op op, <span class="keyword">const</span> T alpha,</div>
-<div class="line"><a id="l00399" name="l00399"></a><span class="lineno">  399</span>           <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;const T, Device::GPU&gt;&amp; b,</div>
-<div class="line"><a id="l00400" name="l00400"></a><span class="lineno">  400</span>           <span class="keyword">const</span> BaseType&lt;T&gt; beta, <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
-<div class="line"><a id="l00401" name="l00401"></a><span class="lineno">  401</span>  <span class="keyword">using </span>util::blasToCublas;</div>
-<div class="line"><a id="l00402" name="l00402"></a><span class="lineno">  402</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
-<div class="line"><a id="l00403" name="l00403"></a><span class="lineno">  403</span>  <span class="keyword">auto</span> s = getHer2kSizes(op, a, b, c);</div>
-<div class="line"><a id="l00404" name="l00404"></a><span class="lineno">  404</span><span class="preprocessor">#if defined(DLAF_WITH_HIP) &amp;&amp; HIP_VERSION &lt; 50200000</span></div>
-<div class="line"><a id="l00405" name="l00405"></a><span class="lineno">  405</span>  <span class="keywordflow">if</span> (!isComplex_v&lt;T&gt; &amp;&amp; op == blas::Op::ConjTrans)</div>
-<div class="line"><a id="l00406" name="l00406"></a><span class="lineno">  406</span>    op = blas::Op::Trans;</div>
-<div class="line"><a id="l00407" name="l00407"></a><span class="lineno">  407</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l00408" name="l00408"></a><span class="lineno">  408</span>  gpublas::internal::Her2k&lt;T&gt;::call(handle, blasToCublas(uplo), blasToCublas(op), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
-<div class="line"><a id="l00409" name="l00409"></a><span class="lineno">  409</span>                                    <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.k), blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()),</div>
-<div class="line"><a id="l00410" name="l00410"></a><span class="lineno">  410</span>                                    <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()), blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()),</div>
-<div class="line"><a id="l00411" name="l00411"></a><span class="lineno">  411</span>                                    blasToCublasCast(&amp;beta), blasToCublasCast(c.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
-<div class="line"><a id="l00412" name="l00412"></a><span class="lineno">  412</span>}</div>
-<div class="line"><a id="l00413" name="l00413"></a><span class="lineno">  413</span> </div>
-<div class="line"><a id="l00414" name="l00414"></a><span class="lineno">  414</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00415" name="l00415"></a><span class="lineno">  415</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> BaseType&lt;T&gt; alpha,</div>
-<div class="line"><a id="l00416" name="l00416"></a><span class="lineno">  416</span>          <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a, <span class="keyword">const</span> BaseType&lt;T&gt; beta,</div>
-<div class="line"><a id="l00417" name="l00417"></a><span class="lineno">  417</span>          <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
-<div class="line"><a id="l00418" name="l00418"></a><span class="lineno">  418</span>  <span class="keyword">using </span>util::blasToCublas;</div>
-<div class="line"><a id="l00419" name="l00419"></a><span class="lineno">  419</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
-<div class="line"><a id="l00420" name="l00420"></a><span class="lineno">  420</span>  <span class="keyword">auto</span> s = getHerkSizes(op, a, c);</div>
-<div class="line"><a id="l00421" name="l00421"></a><span class="lineno">  421</span>  gpublas::internal::Herk&lt;T&gt;::call(handle, blasToCublas(uplo), blasToCublas(op), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
-<div class="line"><a id="l00422" name="l00422"></a><span class="lineno">  422</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.k), blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()),</div>
-<div class="line"><a id="l00423" name="l00423"></a><span class="lineno">  423</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()), blasToCublasCast(&amp;beta), blasToCublasCast(c.ptr()),</div>
-<div class="line"><a id="l00424" name="l00424"></a><span class="lineno">  424</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
-<div class="line"><a id="l00425" name="l00425"></a><span class="lineno">  425</span>}</div>
-<div class="line"><a id="l00426" name="l00426"></a><span class="lineno">  426</span> </div>
-<div class="line"><a id="l00427" name="l00427"></a><span class="lineno">  427</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00428" name="l00428"></a><span class="lineno">  428</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op,</div>
-<div class="line"><a id="l00429" name="l00429"></a><span class="lineno">  429</span>          <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a,</div>
-<div class="line"><a id="l00430" name="l00430"></a><span class="lineno">  430</span>          <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; b) {</div>
-<div class="line"><a id="l00431" name="l00431"></a><span class="lineno">  431</span>  <span class="keyword">using </span>util::blasToCublas;</div>
-<div class="line"><a id="l00432" name="l00432"></a><span class="lineno">  432</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
-<div class="line"><a id="l00433" name="l00433"></a><span class="lineno">  433</span>  <span class="keyword">auto</span> s = tile::internal::getTrmmSizes(side, a, b);</div>
-<div class="line"><a id="l00434" name="l00434"></a><span class="lineno">  434</span> </div>
-<div class="line"><a id="l00435" name="l00435"></a><span class="lineno">  435</span>  gpublas::internal::Trmm&lt;T&gt;::call(handle, blasToCublas(side), blasToCublas(uplo), blasToCublas(op),</div>
-<div class="line"><a id="l00436" name="l00436"></a><span class="lineno">  436</span>                                   blasToCublas(diag), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
-<div class="line"><a id="l00437" name="l00437"></a><span class="lineno">  437</span>                                   blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()),</div>
-<div class="line"><a id="l00438" name="l00438"></a><span class="lineno">  438</span>                                   blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()), blasToCublasCast(b.ptr()),</div>
-<div class="line"><a id="l00439" name="l00439"></a><span class="lineno">  439</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()));</div>
-<div class="line"><a id="l00440" name="l00440"></a><span class="lineno">  440</span>}</div>
-<div class="line"><a id="l00441" name="l00441"></a><span class="lineno">  441</span> </div>
-<div class="line"><a id="l00442" name="l00442"></a><span class="lineno">  442</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00443" name="l00443"></a><span class="lineno">  443</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op,</div>
-<div class="line"><a id="l00444" name="l00444"></a><span class="lineno">  444</span>           <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a,</div>
-<div class="line"><a id="l00445" name="l00445"></a><span class="lineno">  445</span>           <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; b, <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
-<div class="line"><a id="l00446" name="l00446"></a><span class="lineno">  446</span>  <span class="keyword">using </span>util::blasToCublas;</div>
-<div class="line"><a id="l00447" name="l00447"></a><span class="lineno">  447</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
-<div class="line"><a id="l00448" name="l00448"></a><span class="lineno">  448</span>  <span class="keyword">auto</span> s = tile::internal::getTrmm3Sizes(side, a, b, c);</div>
-<div class="line"><a id="l00449" name="l00449"></a><span class="lineno">  449</span>  DLAF_ASSERT(b.ptr() == <span class="keyword">nullptr</span> || b.ptr() != c.ptr(), b.ptr(), c.ptr());</div>
-<div class="line"><a id="l00450" name="l00450"></a><span class="lineno">  450</span> </div>
-<div class="line"><a id="l00451" name="l00451"></a><span class="lineno">  451</span>  gpublas::internal::Trmm&lt;T&gt;::call(handle, blasToCublas(side), blasToCublas(uplo), blasToCublas(op),</div>
-<div class="line"><a id="l00452" name="l00452"></a><span class="lineno">  452</span>                                   blasToCublas(diag), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
-<div class="line"><a id="l00453" name="l00453"></a><span class="lineno">  453</span>                                   blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()),</div>
-<div class="line"><a id="l00454" name="l00454"></a><span class="lineno">  454</span>                                   blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()), blasToCublasCast(c.ptr()),</div>
-<div class="line"><a id="l00455" name="l00455"></a><span class="lineno">  455</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
-<div class="line"><a id="l00456" name="l00456"></a><span class="lineno">  456</span>}</div>
-<div class="line"><a id="l00457" name="l00457"></a><span class="lineno">  457</span> </div>
-<div class="line"><a id="l00458" name="l00458"></a><span class="lineno">  458</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00459" name="l00459"></a><span class="lineno">  459</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op,</div>
-<div class="line"><a id="l00460" name="l00460"></a><span class="lineno">  460</span>          <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a,</div>
-<div class="line"><a id="l00461" name="l00461"></a><span class="lineno">  461</span>          <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; b) {</div>
-<div class="line"><a id="l00462" name="l00462"></a><span class="lineno">  462</span>  <span class="keyword">using </span>util::blasToCublas;</div>
-<div class="line"><a id="l00463" name="l00463"></a><span class="lineno">  463</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
-<div class="line"><a id="l00464" name="l00464"></a><span class="lineno">  464</span>  <span class="keyword">auto</span> s = getTrsmSizes(side, a, b);</div>
-<div class="line"><a id="l00465" name="l00465"></a><span class="lineno">  465</span>  <span class="keyword">auto</span> a_ptr = blasToCublasCast(a.ptr());</div>
-<div class="line"><a id="l00466" name="l00466"></a><span class="lineno">  466</span>  gpublas::internal::Trsm&lt;T&gt;::call(handle, blasToCublas(side), blasToCublas(uplo), blasToCublas(op),</div>
-<div class="line"><a id="l00467" name="l00467"></a><span class="lineno">  467</span>                                   blasToCublas(diag), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
-<div class="line"><a id="l00468" name="l00468"></a><span class="lineno">  468</span>                                   blasToCublasCast(&amp;alpha), a_ptr, <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()),</div>
-<div class="line"><a id="l00469" name="l00469"></a><span class="lineno">  469</span>                                   blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()));</div>
-<div class="line"><a id="l00470" name="l00470"></a><span class="lineno">  470</span>}</div>
-<div class="line"><a id="l00471" name="l00471"></a><span class="lineno">  471</span><span class="preprocessor">#endif  </span><span class="comment">// defined(DLAF_WITH_GPU)</span></div>
-<div class="line"><a id="l00472" name="l00472"></a><span class="lineno">  472</span> </div>
-<div class="line"><a id="l00473" name="l00473"></a><span class="lineno">  473</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(gemm);</div>
-<div class="line"><a id="l00474" name="l00474"></a><span class="lineno">  474</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(hemm);</div>
-<div class="line"><a id="l00475" name="l00475"></a><span class="lineno">  475</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(her2k);</div>
-<div class="line"><a id="l00476" name="l00476"></a><span class="lineno">  476</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(herk);</div>
-<div class="line"><a id="l00477" name="l00477"></a><span class="lineno">  477</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(trmm);</div>
-<div class="line"><a id="l00478" name="l00478"></a><span class="lineno">  478</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(trmm3);</div>
-<div class="line"><a id="l00479" name="l00479"></a><span class="lineno">  479</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(trsm);</div>
-<div class="line"><a id="l00480" name="l00480"></a><span class="lineno">  480</span>}</div>
-<div class="line"><a id="l00481" name="l00481"></a><span class="lineno">  481</span> </div>
-<div class="line"><a id="l00482" name="l00482"></a><span class="lineno">  482</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, gemm, internal::gemm_o)</div>
-<div class="line"><a id="l00483" name="l00483"></a><span class="lineno">  483</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, hemm, internal::hemm_o)</div>
-<div class="line"><a id="l00484" name="l00484"></a><span class="lineno">  484</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, her2k,</div>
-<div class="line"><a id="l00485" name="l00485"></a><span class="lineno">  485</span>                                     internal::her2k_o)</div>
-<div class="line"><a id="l00486" name="l00486"></a><span class="lineno">  486</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, herk, internal::herk_o)</div>
-<div class="line"><a id="l00487" name="l00487"></a><span class="lineno">  487</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, trmm, internal::trmm_o)</div>
-<div class="line"><a id="l00488" name="l00488"></a><span class="lineno">  488</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, trmm3,</div>
-<div class="line"><a id="l00489" name="l00489"></a><span class="lineno">  489</span>                                     internal::trmm3_o)</div>
-<div class="line"><a id="l00490" name="l00490"></a><span class="lineno">  490</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, trsm, internal::trsm_o)</div>
-<div class="line"><a id="l00491" name="l00491"></a><span class="lineno">  491</span> </div>
-<div class="line"><a id="l00492" name="l00492"></a><span class="lineno">  492</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l00493" name="l00493"></a><span class="lineno">  493</span>}</div>
-<div class="line"><a id="l00494" name="l00494"></a><span class="lineno">  494</span>}</div>
+<div class="line"><a id="l00263" name="l00263"></a><span class="lineno">  263</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00264" name="l00264"></a><span class="lineno">  264</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aeec422be0ef5abea8ab6f1a8ae40c8ef">hemm</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> T alpha,</div>
+<div class="line"><a id="l00265" name="l00265"></a><span class="lineno">  265</span>          <span class="keyword">const</span> Tile&lt;const T, Device::GPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;const T, Device::GPU&gt;&amp; b, <span class="keyword">const</span> T beta,</div>
+<div class="line"><a id="l00266" name="l00266"></a><span class="lineno">  266</span>          <span class="keyword">const</span> Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
+<div class="line"><a id="l00267" name="l00267"></a><span class="lineno">  267</span>  <span class="keyword">using </span>util::blasToCublas;</div>
+<div class="line"><a id="l00268" name="l00268"></a><span class="lineno">  268</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
+<div class="line"><a id="l00269" name="l00269"></a><span class="lineno">  269</span>  <span class="keyword">auto</span> s = getHemmSizes(side, a, b, c);</div>
+<div class="line"><a id="l00270" name="l00270"></a><span class="lineno">  270</span>  gpublas::internal::Hemm&lt;T&gt;::call(handle, blasToCublas(side), blasToCublas(uplo), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m),</div>
+<div class="line"><a id="l00271" name="l00271"></a><span class="lineno">  271</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n), blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()),</div>
+<div class="line"><a id="l00272" name="l00272"></a><span class="lineno">  272</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()), blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()),</div>
+<div class="line"><a id="l00273" name="l00273"></a><span class="lineno">  273</span>                                   blasToCublasCast(&amp;beta), blasToCublasCast(c.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
+<div class="line"><a id="l00274" name="l00274"></a><span class="lineno">  274</span>}</div>
+<div class="line"><a id="l00275" name="l00275"></a><span class="lineno">  275</span> </div>
+<div class="line"><a id="l00276" name="l00276"></a><span class="lineno">  276</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00277" name="l00277"></a><span class="lineno">  277</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">her2k</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Uplo uplo, blas::Op op, <span class="keyword">const</span> T alpha,</div>
+<div class="line"><a id="l00278" name="l00278"></a><span class="lineno">  278</span>           <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a, <span class="keyword">const</span> Tile&lt;const T, Device::GPU&gt;&amp; b,</div>
+<div class="line"><a id="l00279" name="l00279"></a><span class="lineno">  279</span>           <span class="keyword">const</span> BaseType&lt;T&gt; beta, <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
+<div class="line"><a id="l00280" name="l00280"></a><span class="lineno">  280</span>  <span class="keyword">using </span>util::blasToCublas;</div>
+<div class="line"><a id="l00281" name="l00281"></a><span class="lineno">  281</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
+<div class="line"><a id="l00282" name="l00282"></a><span class="lineno">  282</span>  <span class="keyword">auto</span> s = getHer2kSizes(op, a, b, c);</div>
+<div class="line"><a id="l00283" name="l00283"></a><span class="lineno">  283</span><span class="preprocessor">#if defined(DLAF_WITH_HIP) &amp;&amp; HIP_VERSION &lt; 50200000</span></div>
+<div class="line"><a id="l00284" name="l00284"></a><span class="lineno">  284</span>  <span class="keywordflow">if</span> (!isComplex_v&lt;T&gt; &amp;&amp; op == blas::Op::ConjTrans)</div>
+<div class="line"><a id="l00285" name="l00285"></a><span class="lineno">  285</span>    op = blas::Op::Trans;</div>
+<div class="line"><a id="l00286" name="l00286"></a><span class="lineno">  286</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00287" name="l00287"></a><span class="lineno">  287</span>  gpublas::internal::Her2k&lt;T&gt;::call(handle, blasToCublas(uplo), blasToCublas(op), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
+<div class="line"><a id="l00288" name="l00288"></a><span class="lineno">  288</span>                                    <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.k), blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()),</div>
+<div class="line"><a id="l00289" name="l00289"></a><span class="lineno">  289</span>                                    <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()), blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()),</div>
+<div class="line"><a id="l00290" name="l00290"></a><span class="lineno">  290</span>                                    blasToCublasCast(&amp;beta), blasToCublasCast(c.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
+<div class="line"><a id="l00291" name="l00291"></a><span class="lineno">  291</span>}</div>
+<div class="line"><a id="l00292" name="l00292"></a><span class="lineno">  292</span> </div>
+<div class="line"><a id="l00293" name="l00293"></a><span class="lineno">  293</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00294" name="l00294"></a><span class="lineno">  294</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a72ab20a0ba5ba199c1ec18f8a31ee2eb">herk</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op, <span class="keyword">const</span> BaseType&lt;T&gt; alpha,</div>
+<div class="line"><a id="l00295" name="l00295"></a><span class="lineno">  295</span>          <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a, <span class="keyword">const</span> BaseType&lt;T&gt; beta,</div>
+<div class="line"><a id="l00296" name="l00296"></a><span class="lineno">  296</span>          <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
+<div class="line"><a id="l00297" name="l00297"></a><span class="lineno">  297</span>  <span class="keyword">using </span>util::blasToCublas;</div>
+<div class="line"><a id="l00298" name="l00298"></a><span class="lineno">  298</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
+<div class="line"><a id="l00299" name="l00299"></a><span class="lineno">  299</span>  <span class="keyword">auto</span> s = getHerkSizes(op, a, c);</div>
+<div class="line"><a id="l00300" name="l00300"></a><span class="lineno">  300</span>  gpublas::internal::Herk&lt;T&gt;::call(handle, blasToCublas(uplo), blasToCublas(op), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
+<div class="line"><a id="l00301" name="l00301"></a><span class="lineno">  301</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.k), blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()),</div>
+<div class="line"><a id="l00302" name="l00302"></a><span class="lineno">  302</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()), blasToCublasCast(&amp;beta), blasToCublasCast(c.ptr()),</div>
+<div class="line"><a id="l00303" name="l00303"></a><span class="lineno">  303</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
+<div class="line"><a id="l00304" name="l00304"></a><span class="lineno">  304</span>}</div>
+<div class="line"><a id="l00305" name="l00305"></a><span class="lineno">  305</span> </div>
+<div class="line"><a id="l00306" name="l00306"></a><span class="lineno">  306</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00307" name="l00307"></a><span class="lineno">  307</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a61397e6748a24f13ee6ad7f23e5339f7">trmm</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op,</div>
+<div class="line"><a id="l00308" name="l00308"></a><span class="lineno">  308</span>          <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a,</div>
+<div class="line"><a id="l00309" name="l00309"></a><span class="lineno">  309</span>          <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; b) {</div>
+<div class="line"><a id="l00310" name="l00310"></a><span class="lineno">  310</span>  <span class="keyword">using </span>util::blasToCublas;</div>
+<div class="line"><a id="l00311" name="l00311"></a><span class="lineno">  311</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
+<div class="line"><a id="l00312" name="l00312"></a><span class="lineno">  312</span>  <span class="keyword">auto</span> s = tile::internal::getTrmmSizes(side, a, b);</div>
+<div class="line"><a id="l00313" name="l00313"></a><span class="lineno">  313</span> </div>
+<div class="line"><a id="l00314" name="l00314"></a><span class="lineno">  314</span>  gpublas::internal::Trmm&lt;T&gt;::call(handle, blasToCublas(side), blasToCublas(uplo), blasToCublas(op),</div>
+<div class="line"><a id="l00315" name="l00315"></a><span class="lineno">  315</span>                                   blasToCublas(diag), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
+<div class="line"><a id="l00316" name="l00316"></a><span class="lineno">  316</span>                                   blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()),</div>
+<div class="line"><a id="l00317" name="l00317"></a><span class="lineno">  317</span>                                   blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()), blasToCublasCast(b.ptr()),</div>
+<div class="line"><a id="l00318" name="l00318"></a><span class="lineno">  318</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()));</div>
+<div class="line"><a id="l00319" name="l00319"></a><span class="lineno">  319</span>}</div>
+<div class="line"><a id="l00320" name="l00320"></a><span class="lineno">  320</span> </div>
+<div class="line"><a id="l00321" name="l00321"></a><span class="lineno">  321</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00322" name="l00322"></a><span class="lineno">  322</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#aebff48d52916dafd14479dc3b1e04e8e">trmm3</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op,</div>
+<div class="line"><a id="l00323" name="l00323"></a><span class="lineno">  323</span>           <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a,</div>
+<div class="line"><a id="l00324" name="l00324"></a><span class="lineno">  324</span>           <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; b, <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; c) {</div>
+<div class="line"><a id="l00325" name="l00325"></a><span class="lineno">  325</span>  <span class="keyword">using </span>util::blasToCublas;</div>
+<div class="line"><a id="l00326" name="l00326"></a><span class="lineno">  326</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
+<div class="line"><a id="l00327" name="l00327"></a><span class="lineno">  327</span>  <span class="keyword">auto</span> s = tile::internal::getTrmm3Sizes(side, a, b, c);</div>
+<div class="line"><a id="l00328" name="l00328"></a><span class="lineno">  328</span>  DLAF_ASSERT(b.ptr() == <span class="keyword">nullptr</span> || b.ptr() != c.ptr(), b.ptr(), c.ptr());</div>
+<div class="line"><a id="l00329" name="l00329"></a><span class="lineno">  329</span> </div>
+<div class="line"><a id="l00330" name="l00330"></a><span class="lineno">  330</span>  gpublas::internal::Trmm&lt;T&gt;::call(handle, blasToCublas(side), blasToCublas(uplo), blasToCublas(op),</div>
+<div class="line"><a id="l00331" name="l00331"></a><span class="lineno">  331</span>                                   blasToCublas(diag), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
+<div class="line"><a id="l00332" name="l00332"></a><span class="lineno">  332</span>                                   blasToCublasCast(&amp;alpha), blasToCublasCast(a.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()),</div>
+<div class="line"><a id="l00333" name="l00333"></a><span class="lineno">  333</span>                                   blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()), blasToCublasCast(c.ptr()),</div>
+<div class="line"><a id="l00334" name="l00334"></a><span class="lineno">  334</span>                                   <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(c.ld()));</div>
+<div class="line"><a id="l00335" name="l00335"></a><span class="lineno">  335</span>}</div>
+<div class="line"><a id="l00336" name="l00336"></a><span class="lineno">  336</span> </div>
+<div class="line"><a id="l00337" name="l00337"></a><span class="lineno">  337</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00338" name="l00338"></a><span class="lineno">  338</span><span class="keywordtype">void</span> <a class="code hl_function" href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">trsm</a>(cublasHandle_t handle, <span class="keyword">const</span> blas::Side side, <span class="keyword">const</span> blas::Uplo uplo, <span class="keyword">const</span> blas::Op op,</div>
+<div class="line"><a id="l00339" name="l00339"></a><span class="lineno">  339</span>          <span class="keyword">const</span> blas::Diag diag, <span class="keyword">const</span> T alpha, <span class="keyword">const</span> matrix::Tile&lt;const T, Device::GPU&gt;&amp; a,</div>
+<div class="line"><a id="l00340" name="l00340"></a><span class="lineno">  340</span>          <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; b) {</div>
+<div class="line"><a id="l00341" name="l00341"></a><span class="lineno">  341</span>  <span class="keyword">using </span>util::blasToCublas;</div>
+<div class="line"><a id="l00342" name="l00342"></a><span class="lineno">  342</span>  <span class="keyword">using </span>util::blasToCublasCast;</div>
+<div class="line"><a id="l00343" name="l00343"></a><span class="lineno">  343</span>  <span class="keyword">auto</span> s = getTrsmSizes(side, a, b);</div>
+<div class="line"><a id="l00344" name="l00344"></a><span class="lineno">  344</span>  <span class="keyword">auto</span> a_ptr = blasToCublasCast(a.ptr());</div>
+<div class="line"><a id="l00345" name="l00345"></a><span class="lineno">  345</span>  gpublas::internal::Trsm&lt;T&gt;::call(handle, blasToCublas(side), blasToCublas(uplo), blasToCublas(op),</div>
+<div class="line"><a id="l00346" name="l00346"></a><span class="lineno">  346</span>                                   blasToCublas(diag), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.m), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(s.n),</div>
+<div class="line"><a id="l00347" name="l00347"></a><span class="lineno">  347</span>                                   blasToCublasCast(&amp;alpha), a_ptr, <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(a.ld()),</div>
+<div class="line"><a id="l00348" name="l00348"></a><span class="lineno">  348</span>                                   blasToCublasCast(b.ptr()), <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(b.ld()));</div>
+<div class="line"><a id="l00349" name="l00349"></a><span class="lineno">  349</span>}</div>
+<div class="line"><a id="l00350" name="l00350"></a><span class="lineno">  350</span><span class="preprocessor">#endif  </span><span class="comment">// defined(DLAF_WITH_GPU)</span></div>
+<div class="line"><a id="l00351" name="l00351"></a><span class="lineno">  351</span> </div>
+<div class="line"><a id="l00352" name="l00352"></a><span class="lineno">  352</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(gemm);</div>
+<div class="line"><a id="l00353" name="l00353"></a><span class="lineno">  353</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(hemm);</div>
+<div class="line"><a id="l00354" name="l00354"></a><span class="lineno">  354</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(her2k);</div>
+<div class="line"><a id="l00355" name="l00355"></a><span class="lineno">  355</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(herk);</div>
+<div class="line"><a id="l00356" name="l00356"></a><span class="lineno">  356</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(trmm);</div>
+<div class="line"><a id="l00357" name="l00357"></a><span class="lineno">  357</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(trmm3);</div>
+<div class="line"><a id="l00358" name="l00358"></a><span class="lineno">  358</span><a class="code hl_define" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(trsm);</div>
+<div class="line"><a id="l00359" name="l00359"></a><span class="lineno">  359</span>}</div>
+<div class="line"><a id="l00360" name="l00360"></a><span class="lineno">  360</span> </div>
+<div class="line"><a id="l00361" name="l00361"></a><span class="lineno">  361</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, gemm, internal::gemm_o)</div>
+<div class="line"><a id="l00362" name="l00362"></a><span class="lineno">  362</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, hemm, internal::hemm_o)</div>
+<div class="line"><a id="l00363" name="l00363"></a><span class="lineno">  363</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, her2k,</div>
+<div class="line"><a id="l00364" name="l00364"></a><span class="lineno">  364</span>                                     internal::her2k_o)</div>
+<div class="line"><a id="l00365" name="l00365"></a><span class="lineno">  365</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, herk, internal::herk_o)</div>
+<div class="line"><a id="l00366" name="l00366"></a><span class="lineno">  366</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, trmm, internal::trmm_o)</div>
+<div class="line"><a id="l00367" name="l00367"></a><span class="lineno">  367</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, trmm3,</div>
+<div class="line"><a id="l00368" name="l00368"></a><span class="lineno">  368</span>                                     internal::trmm3_o)</div>
+<div class="line"><a id="l00369" name="l00369"></a><span class="lineno">  369</span>DLAF_MAKE_SENDER_ALGORITHM_OVERLOADS(dlaf::internal::TransformDispatchType::Blas, trsm, internal::trsm_o)</div>
+<div class="line"><a id="l00370" name="l00370"></a><span class="lineno">  370</span> </div>
+<div class="line"><a id="l00371" name="l00371"></a><span class="lineno">  371</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00372" name="l00372"></a><span class="lineno">  372</span>}</div>
+<div class="line"><a id="l00373" name="l00373"></a><span class="lineno">  373</span>}</div>
 <div class="ttc" id="ablas_2tile_8h_html_a1de961c6e1c01ee6a5f0039ecf51b162"><div class="ttname"><a href="blas_2tile_8h.html#a1de961c6e1c01ee6a5f0039ecf51b162">dlaf::tile::gemm</a></div><div class="ttdeci">void gemm(const blas::Op op_a, const blas::Op op_b, const T alpha, const Tile&lt; const T, D &gt; &amp;a, const Tile&lt; const T, D &gt; &amp;b, const T beta, const Tile&lt; T, D &gt; &amp;c)</div></div>
 <div class="ttc" id="ablas_2tile_8h_html_a2fe48f2d3a3a7515a99805d135c5b2ce"><div class="ttname"><a href="blas_2tile_8h.html#a2fe48f2d3a3a7515a99805d135c5b2ce">dlaf::tile::trsm</a></div><div class="ttdeci">void trsm(const dlaf::internal::Policy&lt; B &gt; &amp;policy, const blas::Side side, const blas::Uplo uplo, const blas::Op op, const blas::Diag diag, const T alpha, const Tile&lt; const T, D &gt; &amp;a, const Tile&lt; T, D &gt; &amp;b)</div></div>
 <div class="ttc" id="ablas_2tile_8h_html_a36642d0aeb16e71f10fd289985f4a03f"><div class="ttname"><a href="blas_2tile_8h.html#a36642d0aeb16e71f10fd289985f4a03f">dlaf::tile::her2k</a></div><div class="ttdeci">void her2k(const blas::Uplo uplo, const blas::Op op, const T alpha, const Tile&lt; const T, D &gt; &amp;a, const Tile&lt; const T, D &gt; &amp;b, const BaseType&lt; T &gt; beta, const Tile&lt; T, D &gt; &amp;c)</div></div>
@@ -535,8 +414,8 @@
 <div class="ttc" id="aclassdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope_html"><div class="ttname"><a href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">dlaf::common::internal::SingleThreadedBlasScope</a></div><div class="ttdef"><b>Definition</b> single_threaded_blas.h:20</div></div>
 <div class="ttc" id="aclassdlaf_1_1internal_1_1_policy_html"><div class="ttname"><a href="classdlaf_1_1internal_1_1_policy.html">dlaf::internal::Policy</a></div><div class="ttdef"><b>Definition</b> policy.h:24</div></div>
 <div class="ttc" id="aclassdlaf_1_1matrix_1_1_tile_html"><div class="ttname"><a href="classdlaf_1_1matrix_1_1_tile.html">dlaf::matrix::Tile</a></div><div class="ttdef"><b>Definition</b> tile.h:332</div></div>
-<div class="ttc" id="aclassdlaf_1_1memory_1_1_memory_view_html"><div class="ttname"><a href="classdlaf_1_1memory_1_1_memory_view.html">dlaf::memory::MemoryView</a></div><div class="ttdef"><b>Definition</b> memory_view.h:32</div></div>
 <div class="ttc" id="acopy__tile_8h_html"><div class="ttname"><a href="copy__tile_8h.html">copy_tile.h</a></div></div>
+<div class="ttc" id="agpublas_8h_html"><div class="ttname"><a href="gpublas_8h.html">gpublas.h</a></div></div>
 <div class="ttc" id="amatrix_2tile_8h_html"><div class="ttname"><a href="matrix_2tile_8h.html">tile.h</a></div></div>
 <div class="ttc" id="asingle__threaded__blas_8h_html"><div class="ttname"><a href="single__threaded__blas_8h.html">single_threaded_blas.h</a></div></div>
 <div class="ttc" id="atypes_8h_html"><div class="ttname"><a href="types_8h.html">types.h</a></div></div>
diff --git a/master/dir_2e3e3bc658385778082583f320919a4c.html b/master/dir_2e3e3bc658385778082583f320919a4c.html
index 4160fe3484..174779ed7d 100644
--- a/master/dir_2e3e3bc658385778082583f320919a4c.html
+++ b/master/dir_2e3e3bc658385778082583f320919a4c.html
@@ -83,6 +83,8 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><a href="lacpy_8h_source.html"><span class="icondoc"></span></a>&#160;</td><td class="memItemRight" valign="bottom"><b>lacpy.h</b></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><a href="larft_8h_source.html"><span class="icondoc"></span></a>&#160;</td><td class="memItemRight" valign="bottom"><b>larft.h</b></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><a href="laset_8h_source.html"><span class="icondoc"></span></a>&#160;</td><td class="memItemRight" valign="bottom"><b>laset.h</b></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
diff --git a/master/dir_5ca20fc8e29b0f8739133582ef745158.html b/master/dir_5ca20fc8e29b0f8739133582ef745158.html
index 496865bca8..411ec93637 100644
--- a/master/dir_5ca20fc8e29b0f8739133582ef745158.html
+++ b/master/dir_5ca20fc8e29b0f8739133582ef745158.html
@@ -83,6 +83,8 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><a href="gpu_2blas_2error_8h_source.html"><span class="icondoc"></span></a>&#160;</td><td class="memItemRight" valign="bottom"><b>error.h</b></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top"><a href="gpublas_8h_source.html"><span class="icondoc"></span></a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gpublas_8h.html">gpublas.h</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
diff --git a/master/factorization_2qr_2api_8h_source.html b/master/factorization_2qr_2api_8h_source.html
index b698df830c..2fc65e3e6c 100644
--- a/master/factorization_2qr_2api_8h_source.html
+++ b/master/factorization_2qr_2api_8h_source.html
@@ -142,7 +142,7 @@
 <div class="ttc" id="amatrix_2tile_8h_html"><div class="ttname"><a href="matrix_2tile_8h.html">tile.h</a></div></div>
 <div class="ttc" id="apanel_8h_html"><div class="ttname"><a href="panel_8h.html">panel.h</a></div></div>
 <div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor_html"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html">dlaf::factorization::internal::QR_Tfactor</a></div><div class="ttdef"><b>Definition</b> api.h:27</div></div>
-<div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor_html_a1d9391570e947628f8c23668f944f7d4"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">dlaf::factorization::internal::QR_Tfactor::call</a></div><div class="ttdeci">static void call(matrix::Panel&lt; Coord::Col, T, device &gt; &amp;panel_view, matrix::ReadOnlyTileSender&lt; T, Device::CPU &gt; taus, matrix::ReadWriteTileSender&lt; T, device &gt; t)</div><div class="ttdef"><b>Definition</b> t_factor_impl.h:260</div></div>
+<div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor_html_a1d9391570e947628f8c23668f944f7d4"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">dlaf::factorization::internal::QR_Tfactor::call</a></div><div class="ttdeci">static void call(matrix::Panel&lt; Coord::Col, T, device &gt; &amp;panel_view, matrix::ReadOnlyTileSender&lt; T, Device::CPU &gt; taus, matrix::ReadWriteTileSender&lt; T, device &gt; t)</div><div class="ttdef"><b>Definition</b> t_factor_impl.h:248</div></div>
 <div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1_q_r_html"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1_q_r.html">dlaf::factorization::internal::QR</a></div><div class="ttdef"><b>Definition</b> api.h:24</div></div>
 <div class="ttc" id="atypes_8h_html"><div class="ttname"><a href="types_8h.html">types.h</a></div></div>
 <div class="ttc" id="aviews_8h_html"><div class="ttname"><a href="views_8h.html">views.h</a></div></div>
diff --git a/master/files.html b/master/files.html
index 156026ba95..40ec64de49 100644
--- a/master/files.html
+++ b/master/files.html
@@ -199,6 +199,7 @@
 <tr id="row_0_0_6_0_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_0_6_0_" class="arrow" onclick="toggleFolder('0_0_6_0_')">&#9658;</span><span id="img_0_0_6_0_" class="iconfclosed" onclick="toggleFolder('0_0_6_0_')">&#160;</span><a class="el" href="dir_5ca20fc8e29b0f8739133582ef745158.html" target="_self">blas</a></td><td class="desc"></td></tr>
 <tr id="row_0_0_6_0_0_" class="odd" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="gpu_2blas_2api_8h_source.html"><span class="icondoc"></span></a><b>api.h</b></td><td class="desc"></td></tr>
 <tr id="row_0_0_6_0_1_" class="odd" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="gpu_2blas_2error_8h_source.html"><span class="icondoc"></span></a><b>error.h</b></td><td class="desc"></td></tr>
+<tr id="row_0_0_6_0_2_" class="odd" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="gpublas_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gpublas_8h.html" target="_self">gpublas.h</a></td><td class="desc"></td></tr>
 <tr id="row_0_0_6_1_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_0_6_1_" class="arrow" onclick="toggleFolder('0_0_6_1_')">&#9658;</span><span id="img_0_0_6_1_" class="iconfclosed" onclick="toggleFolder('0_0_6_1_')">&#160;</span><a class="el" href="dir_3f78d20d29281b10bf5a7cc095f981ee.html" target="_self">cublas</a></td><td class="desc"></td></tr>
 <tr id="row_0_0_6_1_0_" class="odd" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="gpu_2cublas_2error_8h_source.html"><span class="icondoc"></span></a><b>error.h</b></td><td class="desc"></td></tr>
 <tr id="row_0_0_6_2_" class="odd" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_0_6_2_" class="arrow" onclick="toggleFolder('0_0_6_2_')">&#9658;</span><span id="img_0_0_6_2_" class="iconfclosed" onclick="toggleFolder('0_0_6_2_')">&#160;</span><a class="el" href="dir_d2291f750336c2dea872bc7c868b986c.html" target="_self">cusolver</a></td><td class="desc"></td></tr>
@@ -217,7 +218,8 @@
 <tr id="row_0_0_7_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span id="arr_0_0_7_0_" class="arrow" onclick="toggleFolder('0_0_7_0_')">&#9658;</span><span id="img_0_0_7_0_" class="iconfclosed" onclick="toggleFolder('0_0_7_0_')">&#160;</span><a class="el" href="dir_2e3e3bc658385778082583f320919a4c.html" target="_self">gpu</a></td><td class="desc"></td></tr>
 <tr id="row_0_0_7_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="add_8h_source.html"><span class="icondoc"></span></a><b>add.h</b></td><td class="desc"></td></tr>
 <tr id="row_0_0_7_0_1_" class="even" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="lacpy_8h_source.html"><span class="icondoc"></span></a><b>lacpy.h</b></td><td class="desc"></td></tr>
-<tr id="row_0_0_7_0_2_" class="even" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="laset_8h_source.html"><span class="icondoc"></span></a><b>laset.h</b></td><td class="desc"></td></tr>
+<tr id="row_0_0_7_0_2_" class="even" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="larft_8h_source.html"><span class="icondoc"></span></a><b>larft.h</b></td><td class="desc"></td></tr>
+<tr id="row_0_0_7_0_3_" class="even" style="display:none;"><td class="entry"><span style="width:80px;display:inline-block;">&#160;</span><a href="laset_8h_source.html"><span class="icondoc"></span></a><b>laset.h</b></td><td class="desc"></td></tr>
 <tr id="row_0_0_7_1_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><a href="lapack_2enum__output_8h_source.html"><span class="icondoc"></span></a><b>enum_output.h</b></td><td class="desc"></td></tr>
 <tr id="row_0_0_7_2_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><a href="lapack_2tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="lapack_2tile_8h.html" target="_self">tile.h</a></td><td class="desc"></td></tr>
 <tr id="row_0_0_8_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_8_" class="arrow" onclick="toggleFolder('0_0_8_')">&#9658;</span><span id="img_0_0_8_" class="iconfclosed" onclick="toggleFolder('0_0_8_')">&#160;</span><a class="el" href="dir_21834082df7a318c018c9cc963be86ec.html" target="_self">matrix</a></td><td class="desc"></td></tr>
diff --git a/master/gpublas_8h.html b/master/gpublas_8h.html
new file mode 100644
index 0000000000..620d9e1337
--- /dev/null
+++ b/master/gpublas_8h.html
@@ -0,0 +1,152 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>DLAF: /home/runner/work/DLA-Future/DLA-Future/include/dlaf/gpu/blas/gpublas.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">DLAF
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.9.8 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_415b543d06dcd728a2539f6ad76147ea.html">dlaf</a></li><li class="navelem"><a class="el" href="dir_a4320b5ecc64c884e8c3dda9e00ebffb.html">gpu</a></li><li class="navelem"><a class="el" href="dir_5ca20fc8e29b0f8739133582ef745158.html">blas</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#define-members">Macros</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle"><div class="title">gpublas.h File Reference</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;cstddef&gt;</code><br />
+<code>#include &lt;utility&gt;</code><br />
+<code>#include &lt;whip.hpp&gt;</code><br />
+<code>#include &lt;dlaf/gpu/blas/api.h&gt;</code><br />
+<code>#include &lt;dlaf/gpu/blas/error.h&gt;</code><br />
+<code>#include &lt;dlaf/util_cublas.h&gt;</code><br />
+</div>
+<p><a href="gpublas_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="define-members" name="define-members"></a>
+Macros</h2></td></tr>
+<tr class="memitem:a421c02526a0c450667c3d900c0f51236" id="r_a421c02526a0c450667c3d900c0f51236"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gpublas_8h.html#a421c02526a0c450667c3d900c0f51236">DLAF_DECLARE_GPUBLAS_OP</a>(Name)</td></tr>
+<tr class="separator:a421c02526a0c450667c3d900c0f51236"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a id="func-members" name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a4bdde3ad954b0cea3483801cd748ccea" id="r_a4bdde3ad954b0cea3483801cd748ccea"><td class="memItemLeft" align="right" valign="top"><a id="a4bdde3ad954b0cea3483801cd748ccea" name="a4bdde3ad954b0cea3483801cd748ccea"></a>
+&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Axpy, axpy)</td></tr>
+<tr class="separator:a4bdde3ad954b0cea3483801cd748ccea"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9d13f5170a1c55906c27fb5058aab40c" id="r_a9d13f5170a1c55906c27fb5058aab40c"><td class="memItemLeft" align="right" valign="top"><a id="a9d13f5170a1c55906c27fb5058aab40c" name="a9d13f5170a1c55906c27fb5058aab40c"></a>
+&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Gemv, gemv)</td></tr>
+<tr class="separator:a9d13f5170a1c55906c27fb5058aab40c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2dedead2625cdf4630073b252014cd19" id="r_a2dedead2625cdf4630073b252014cd19"><td class="memItemLeft" align="right" valign="top"><a id="a2dedead2625cdf4630073b252014cd19" name="a2dedead2625cdf4630073b252014cd19"></a>
+&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Trmv, trmv)</td></tr>
+<tr class="separator:a2dedead2625cdf4630073b252014cd19"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abed14efff15999504344a646aeb86261" id="r_abed14efff15999504344a646aeb86261"><td class="memItemLeft" align="right" valign="top"><a id="abed14efff15999504344a646aeb86261" name="abed14efff15999504344a646aeb86261"></a>
+&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Gemm, gemm)</td></tr>
+<tr class="separator:abed14efff15999504344a646aeb86261"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a40103d6d85bd688aa2e562518bd1bf0d" id="r_a40103d6d85bd688aa2e562518bd1bf0d"><td class="memItemLeft" align="right" valign="top"><a id="a40103d6d85bd688aa2e562518bd1bf0d" name="a40103d6d85bd688aa2e562518bd1bf0d"></a>
+&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP</b> (Hemm, mm)</td></tr>
+<tr class="separator:a40103d6d85bd688aa2e562518bd1bf0d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa61131a8a6338367f07991e626065ee2" id="r_aa61131a8a6338367f07991e626065ee2"><td class="memItemLeft" align="right" valign="top"><a id="aa61131a8a6338367f07991e626065ee2" name="aa61131a8a6338367f07991e626065ee2"></a>
+&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP</b> (Her2k, r2k)</td></tr>
+<tr class="separator:aa61131a8a6338367f07991e626065ee2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8b0b23c5828d1a56847963fcf0b72841" id="r_a8b0b23c5828d1a56847963fcf0b72841"><td class="memItemLeft" align="right" valign="top"><a id="a8b0b23c5828d1a56847963fcf0b72841" name="a8b0b23c5828d1a56847963fcf0b72841"></a>
+&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP</b> (Herk, rk)</td></tr>
+<tr class="separator:a8b0b23c5828d1a56847963fcf0b72841"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7682cf6441588d6e8ad4aebd2b9b3242" id="r_a7682cf6441588d6e8ad4aebd2b9b3242"><td class="memItemLeft" align="right" valign="top"><a id="a7682cf6441588d6e8ad4aebd2b9b3242" name="a7682cf6441588d6e8ad4aebd2b9b3242"></a>
+&#160;</td><td class="memItemRight" valign="bottom"><b>dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP</b> (Trsm, trsm)</td></tr>
+<tr class="separator:a7682cf6441588d6e8ad4aebd2b9b3242"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><p>Provides gpublas wrappers for BLAS operations. </p>
+</div><h2 class="groupheader">Macro Definition Documentation</h2>
+<a id="a421c02526a0c450667c3d900c0f51236" name="a421c02526a0c450667c3d900c0f51236"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a421c02526a0c450667c3d900c0f51236">&#9670;&#160;</a></span>DLAF_DECLARE_GPUBLAS_OP</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define DLAF_DECLARE_GPUBLAS_OP</td>
+          <td>(</td>
+          <td class="paramtype">&#160;</td>
+          <td class="paramname">Name</td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<b>Value:</b><div class="fragment"><div class="line">  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;               \</div>
+<div class="line">  <span class="keyword">struct </span>Name</div>
+</div><!-- fragment -->
+</div>
+</div>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+</small></address>
+</body>
+</html>
diff --git a/master/gpublas_8h_source.html b/master/gpublas_8h_source.html
new file mode 100644
index 0000000000..42128c0ac5
--- /dev/null
+++ b/master/gpublas_8h_source.html
@@ -0,0 +1,237 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>DLAF: /home/runner/work/DLA-Future/DLA-Future/include/dlaf/gpu/blas/gpublas.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">DLAF
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.9.8 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(document).ready(function() { init_codefold(0); });
+/* @license-end */
+</script>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_415b543d06dcd728a2539f6ad76147ea.html">dlaf</a></li><li class="navelem"><a class="el" href="dir_a4320b5ecc64c884e8c3dda9e00ebffb.html">gpu</a></li><li class="navelem"><a class="el" href="dir_5ca20fc8e29b0f8739133582ef745158.html">blas</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">gpublas.h</div></div>
+</div><!--header-->
+<div class="contents">
+<a href="gpublas_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a id="l00001" name="l00001"></a><span class="lineno">    1</span><span class="comment">//</span></div>
+<div class="line"><a id="l00002" name="l00002"></a><span class="lineno">    2</span><span class="comment">// Distributed Linear Algebra with Future (DLAF)</span></div>
+<div class="line"><a id="l00003" name="l00003"></a><span class="lineno">    3</span><span class="comment">//</span></div>
+<div class="line"><a id="l00004" name="l00004"></a><span class="lineno">    4</span><span class="comment">// Copyright (c) 2018-2024, ETH Zurich</span></div>
+<div class="line"><a id="l00005" name="l00005"></a><span class="lineno">    5</span><span class="comment">// All rights reserved.</span></div>
+<div class="line"><a id="l00006" name="l00006"></a><span class="lineno">    6</span><span class="comment">//</span></div>
+<div class="line"><a id="l00007" name="l00007"></a><span class="lineno">    7</span><span class="comment">// Please, refer to the LICENSE file in the root directory.</span></div>
+<div class="line"><a id="l00008" name="l00008"></a><span class="lineno">    8</span><span class="comment">// SPDX-License-Identifier: BSD-3-Clause</span></div>
+<div class="line"><a id="l00009" name="l00009"></a><span class="lineno">    9</span><span class="comment">//</span></div>
+<div class="line"><a id="l00010" name="l00010"></a><span class="lineno">   10</span><span class="preprocessor">#pragma once</span></div>
+<div class="line"><a id="l00011" name="l00011"></a><span class="lineno">   11</span> </div>
+<div class="line"><a id="l00014" name="l00014"></a><span class="lineno">   14</span> </div>
+<div class="line"><a id="l00015" name="l00015"></a><span class="lineno">   15</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
+<div class="line"><a id="l00016" name="l00016"></a><span class="lineno">   16</span><span class="preprocessor">#include &lt;cstddef&gt;</span></div>
+<div class="line"><a id="l00017" name="l00017"></a><span class="lineno">   17</span><span class="preprocessor">#include &lt;utility&gt;</span></div>
+<div class="line"><a id="l00018" name="l00018"></a><span class="lineno">   18</span> </div>
+<div class="line"><a id="l00019" name="l00019"></a><span class="lineno">   19</span><span class="preprocessor">#include &lt;whip.hpp&gt;</span></div>
+<div class="line"><a id="l00020" name="l00020"></a><span class="lineno">   20</span> </div>
+<div class="line"><a id="l00021" name="l00021"></a><span class="lineno">   21</span><span class="preprocessor">#include &lt;dlaf/gpu/blas/api.h&gt;</span></div>
+<div class="line"><a id="l00022" name="l00022"></a><span class="lineno">   22</span><span class="preprocessor">#include &lt;dlaf/gpu/blas/error.h&gt;</span></div>
+<div class="line"><a id="l00023" name="l00023"></a><span class="lineno">   23</span><span class="preprocessor">#include &lt;dlaf/util_cublas.h&gt;</span></div>
+<div class="line"><a id="l00024" name="l00024"></a><span class="lineno">   24</span> </div>
+<div class="line"><a id="l00025" name="l00025"></a><span class="lineno">   25</span><span class="preprocessor">#ifdef DLAF_WITH_HIP</span></div>
+<div class="line"><a id="l00026" name="l00026"></a><span class="lineno">   26</span> </div>
+<div class="line"><a id="l00027" name="l00027"></a><span class="lineno">   27</span><span class="preprocessor">#include &lt;pika/async_cuda/detail/cuda_event_callback.hpp&gt;</span></div>
+<div class="line"><a id="l00028" name="l00028"></a><span class="lineno">   28</span> </div>
+<div class="line"><a id="l00029" name="l00029"></a><span class="lineno">   29</span><span class="preprocessor">#include &lt;<a class="code" href="memory__view_8h.html">dlaf/memory/memory_view.h</a>&gt;</span></div>
+<div class="line"><a id="l00030" name="l00030"></a><span class="lineno">   30</span> </div>
+<div class="line"><a id="l00031" name="l00031"></a><span class="lineno">   31</span><span class="preprocessor">#define DLAF_GET_ROCBLAS_WORKSPACE(f)                                                                   \</span></div>
+<div class="line"><a id="l00032" name="l00032"></a><span class="lineno">   32</span><span class="preprocessor">  [&amp;]() {                                                                                               \</span></div>
+<div class="line"><a id="l00033" name="l00033"></a><span class="lineno">   33</span><span class="preprocessor">    std::size_t workspace_size;                                                                         \</span></div>
+<div class="line"><a id="l00034" name="l00034"></a><span class="lineno">   34</span><span class="preprocessor">    DLAF_GPUBLAS_CHECK_ERROR(                                                                           \</span></div>
+<div class="line"><a id="l00035" name="l00035"></a><span class="lineno">   35</span><span class="preprocessor">        rocblas_start_device_memory_size_query(static_cast&lt;rocblas_handle&gt;(handle)));                   \</span></div>
+<div class="line"><a id="l00036" name="l00036"></a><span class="lineno">   36</span><span class="preprocessor">    DLAF_ROCBLAS_WORKSPACE_CHECK_ERROR(rocblas_##f(handle, std::forward&lt;Args&gt;(args)...));               \</span></div>
+<div class="line"><a id="l00037" name="l00037"></a><span class="lineno">   37</span><span class="preprocessor">    DLAF_GPUBLAS_CHECK_ERROR(rocblas_stop_device_memory_size_query(static_cast&lt;rocblas_handle&gt;(handle), \</span></div>
+<div class="line"><a id="l00038" name="l00038"></a><span class="lineno">   38</span><span class="preprocessor">                                                                   &amp;workspace_size));                   \</span></div>
+<div class="line"><a id="l00039" name="l00039"></a><span class="lineno">   39</span><span class="preprocessor">    return ::dlaf::memory::MemoryView&lt;std::byte, Device::GPU&gt;(to_int(workspace_size));                  \</span></div>
+<div class="line"><a id="l00040" name="l00040"></a><span class="lineno">   40</span><span class="preprocessor">  }();</span></div>
+<div class="line"><a id="l00041" name="l00041"></a><span class="lineno">   41</span> </div>
+<div class="line"><a id="l00042" name="l00042"></a><span class="lineno">   42</span><span class="keyword">namespace </span>dlaf::tile::internal {</div>
+<div class="line"><a id="l00043" name="l00043"></a><span class="lineno">   43</span><span class="keyword">inline</span> <span class="keywordtype">void</span> extendROCBlasWorkspace(cublasHandle_t handle,</div>
+<div class="line"><a id="l00044" name="l00044"></a><span class="lineno">   44</span>                                   <a class="code hl_class" href="classdlaf_1_1memory_1_1_memory_view.html">::dlaf::memory::MemoryView&lt;std::byte, Device::GPU&gt;</a>&amp;&amp; workspace) {</div>
+<div class="line"><a id="l00045" name="l00045"></a><span class="lineno">   45</span>  whip::stream_t stream;</div>
+<div class="line"><a id="l00046" name="l00046"></a><span class="lineno">   46</span>  DLAF_GPUBLAS_CHECK_ERROR(cublasGetStream(handle, &amp;stream));</div>
+<div class="line"><a id="l00047" name="l00047"></a><span class="lineno">   47</span>  <span class="keyword">auto</span> f = [workspace = std::move(workspace)](whip::error_t status) { whip::check_error(status); };</div>
+<div class="line"><a id="l00048" name="l00048"></a><span class="lineno">   48</span>  pika::cuda::experimental::detail::add_event_callback(std::move(f), stream);</div>
+<div class="line"><a id="l00049" name="l00049"></a><span class="lineno">   49</span>}</div>
+<div class="line"><a id="l00050" name="l00050"></a><span class="lineno">   50</span>}</div>
+<div class="line"><a id="l00051" name="l00051"></a><span class="lineno">   51</span> </div>
+<div class="line"><a id="l00052" name="l00052"></a><span class="lineno">   52</span><span class="preprocessor">#define DLAF_DEFINE_GPUBLAS_OP(Name, Type, f)                                                           \</span></div>
+<div class="line"><a id="l00053" name="l00053"></a><span class="lineno">   53</span><span class="preprocessor">  template &lt;&gt;                                                                                           \</span></div>
+<div class="line"><a id="l00054" name="l00054"></a><span class="lineno">   54</span><span class="preprocessor">  struct Name&lt;Type&gt; {                                                                                   \</span></div>
+<div class="line"><a id="l00055" name="l00055"></a><span class="lineno">   55</span><span class="preprocessor">    template &lt;typename... Args&gt;                                                                         \</span></div>
+<div class="line"><a id="l00056" name="l00056"></a><span class="lineno">   56</span><span class="preprocessor">    static void call(cublasHandle_t handle, Args&amp;&amp;... args) {                                           \</span></div>
+<div class="line"><a id="l00057" name="l00057"></a><span class="lineno">   57</span><span class="preprocessor">      auto workspace = DLAF_GET_ROCBLAS_WORKSPACE(f);                                                   \</span></div>
+<div class="line"><a id="l00058" name="l00058"></a><span class="lineno">   58</span><span class="preprocessor">      DLAF_GPUBLAS_CHECK_ERROR(rocblas_set_workspace(static_cast&lt;rocblas_handle&gt;(handle), workspace(),  \</span></div>
+<div class="line"><a id="l00059" name="l00059"></a><span class="lineno">   59</span><span class="preprocessor">                                                     to_sizet(workspace.size())));                      \</span></div>
+<div class="line"><a id="l00060" name="l00060"></a><span class="lineno">   60</span><span class="preprocessor">      DLAF_GPUBLAS_CHECK_ERROR(rocblas_##f(handle, std::forward&lt;Args&gt;(args)...));                       \</span></div>
+<div class="line"><a id="l00061" name="l00061"></a><span class="lineno">   61</span><span class="preprocessor">      DLAF_GPUBLAS_CHECK_ERROR(rocblas_set_workspace(static_cast&lt;rocblas_handle&gt;(handle), nullptr, 0)); \</span></div>
+<div class="line"><a id="l00062" name="l00062"></a><span class="lineno">   62</span><span class="preprocessor">      ::dlaf::tile::internal::extendROCBlasWorkspace(handle, std::move(workspace));                     \</span></div>
+<div class="line"><a id="l00063" name="l00063"></a><span class="lineno">   63</span><span class="preprocessor">    }                                                                                                   \</span></div>
+<div class="line"><a id="l00064" name="l00064"></a><span class="lineno">   64</span><span class="preprocessor">  }</span></div>
+<div class="line"><a id="l00065" name="l00065"></a><span class="lineno">   65</span> </div>
+<div class="line"><a id="l00066" name="l00066"></a><span class="lineno">   66</span><span class="preprocessor">#elif defined(DLAF_WITH_CUDA)</span></div>
+<div class="line"><a id="l00067" name="l00067"></a><span class="lineno">   67</span> </div>
+<div class="line"><a id="l00068" name="l00068"></a><span class="lineno">   68</span><span class="preprocessor">#define DLAF_DEFINE_GPUBLAS_OP(Name, Type, f)                                \</span></div>
+<div class="line"><a id="l00069" name="l00069"></a><span class="lineno">   69</span><span class="preprocessor">  template &lt;&gt;                                                                \</span></div>
+<div class="line"><a id="l00070" name="l00070"></a><span class="lineno">   70</span><span class="preprocessor">  struct Name&lt;Type&gt; {                                                        \</span></div>
+<div class="line"><a id="l00071" name="l00071"></a><span class="lineno">   71</span><span class="preprocessor">    template &lt;typename... Args&gt;                                              \</span></div>
+<div class="line"><a id="l00072" name="l00072"></a><span class="lineno">   72</span><span class="preprocessor">    static void call(Args&amp;&amp;... args) {                                       \</span></div>
+<div class="line"><a id="l00073" name="l00073"></a><span class="lineno">   73</span><span class="preprocessor">      DLAF_GPUBLAS_CHECK_ERROR(cublas##f##_v2(std::forward&lt;Args&gt;(args)...)); \</span></div>
+<div class="line"><a id="l00074" name="l00074"></a><span class="lineno">   74</span><span class="preprocessor">    }                                                                        \</span></div>
+<div class="line"><a id="l00075" name="l00075"></a><span class="lineno">   75</span><span class="preprocessor">  }</span></div>
+<div class="line"><a id="l00076" name="l00076"></a><span class="lineno">   76</span> </div>
+<div class="line"><a id="l00077" name="l00077"></a><span class="lineno">   77</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00078" name="l00078"></a><span class="lineno">   78</span> </div>
+<div class="line"><a id="l00079" name="l00079"></a><span class="lineno">   79</span><span class="preprocessor">#define DLAF_DECLARE_GPUBLAS_OP(Name) \</span></div>
+<div class="line"><a id="l00080" name="l00080"></a><span class="lineno">   80</span><span class="preprocessor">  template &lt;typename T&gt;               \</span></div>
+<div class="line"><a id="l00081" name="l00081"></a><span class="lineno">   81</span><span class="preprocessor">  struct Name</span></div>
+<div class="line"><a id="l00082" name="l00082"></a><span class="lineno">   82</span> </div>
+<div class="line"><a id="l00083" name="l00083"></a><span class="lineno">   83</span><span class="preprocessor">#ifdef DLAF_WITH_HIP</span></div>
+<div class="line"><a id="l00084" name="l00084"></a><span class="lineno">   84</span><span class="preprocessor">#define DLAF_MAKE_GPUBLAS_OP(Name, f)                      \</span></div>
+<div class="line"><a id="l00085" name="l00085"></a><span class="lineno">   85</span><span class="preprocessor">  DLAF_DECLARE_GPUBLAS_OP(Name);                           \</span></div>
+<div class="line"><a id="l00086" name="l00086"></a><span class="lineno">   86</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, float, s##f);               \</span></div>
+<div class="line"><a id="l00087" name="l00087"></a><span class="lineno">   87</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, double, d##f);              \</span></div>
+<div class="line"><a id="l00088" name="l00088"></a><span class="lineno">   88</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;float&gt;, c##f); \</span></div>
+<div class="line"><a id="l00089" name="l00089"></a><span class="lineno">   89</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;double&gt;, z##f)</span></div>
+<div class="line"><a id="l00090" name="l00090"></a><span class="lineno">   90</span> </div>
+<div class="line"><a id="l00091" name="l00091"></a><span class="lineno">   91</span><span class="preprocessor">#define DLAF_MAKE_GPUBLAS_SYHE_OP(Name, f)                   \</span></div>
+<div class="line"><a id="l00092" name="l00092"></a><span class="lineno">   92</span><span class="preprocessor">  DLAF_DECLARE_GPUBLAS_OP(Name);                             \</span></div>
+<div class="line"><a id="l00093" name="l00093"></a><span class="lineno">   93</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, float, ssy##f);               \</span></div>
+<div class="line"><a id="l00094" name="l00094"></a><span class="lineno">   94</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, double, dsy##f);              \</span></div>
+<div class="line"><a id="l00095" name="l00095"></a><span class="lineno">   95</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;float&gt;, che##f); \</span></div>
+<div class="line"><a id="l00096" name="l00096"></a><span class="lineno">   96</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;double&gt;, zhe##f)</span></div>
+<div class="line"><a id="l00097" name="l00097"></a><span class="lineno">   97</span> </div>
+<div class="line"><a id="l00098" name="l00098"></a><span class="lineno">   98</span><span class="preprocessor">#elif defined(DLAF_WITH_CUDA)</span></div>
+<div class="line"><a id="l00099" name="l00099"></a><span class="lineno">   99</span><span class="preprocessor">#define DLAF_MAKE_GPUBLAS_OP(Name, f)                      \</span></div>
+<div class="line"><a id="l00100" name="l00100"></a><span class="lineno">  100</span><span class="preprocessor">  DLAF_DECLARE_GPUBLAS_OP(Name);                           \</span></div>
+<div class="line"><a id="l00101" name="l00101"></a><span class="lineno">  101</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, float, S##f);               \</span></div>
+<div class="line"><a id="l00102" name="l00102"></a><span class="lineno">  102</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, double, D##f);              \</span></div>
+<div class="line"><a id="l00103" name="l00103"></a><span class="lineno">  103</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;float&gt;, C##f); \</span></div>
+<div class="line"><a id="l00104" name="l00104"></a><span class="lineno">  104</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;double&gt;, Z##f)</span></div>
+<div class="line"><a id="l00105" name="l00105"></a><span class="lineno">  105</span> </div>
+<div class="line"><a id="l00106" name="l00106"></a><span class="lineno">  106</span><span class="preprocessor">#define DLAF_MAKE_GPUBLAS_SYHE_OP(Name, f)                   \</span></div>
+<div class="line"><a id="l00107" name="l00107"></a><span class="lineno">  107</span><span class="preprocessor">  DLAF_DECLARE_GPUBLAS_OP(Name);                             \</span></div>
+<div class="line"><a id="l00108" name="l00108"></a><span class="lineno">  108</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, float, Ssy##f);               \</span></div>
+<div class="line"><a id="l00109" name="l00109"></a><span class="lineno">  109</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, double, Dsy##f);              \</span></div>
+<div class="line"><a id="l00110" name="l00110"></a><span class="lineno">  110</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;float&gt;, Che##f); \</span></div>
+<div class="line"><a id="l00111" name="l00111"></a><span class="lineno">  111</span><span class="preprocessor">  DLAF_DEFINE_GPUBLAS_OP(Name, std::complex&lt;double&gt;, Zhe##f)</span></div>
+<div class="line"><a id="l00112" name="l00112"></a><span class="lineno">  112</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00113" name="l00113"></a><span class="lineno">  113</span> </div>
+<div class="line"><a id="l00114" name="l00114"></a><span class="lineno">  114</span><span class="keyword">namespace </span>dlaf::gpublas::internal {</div>
+<div class="line"><a id="l00115" name="l00115"></a><span class="lineno">  115</span> </div>
+<div class="line"><a id="l00116" name="l00116"></a><span class="lineno">  116</span><span class="comment">// Level 1</span></div>
+<div class="line"><a id="l00117" name="l00117"></a><span class="lineno">  117</span>DLAF_MAKE_GPUBLAS_OP(Axpy, axpy);</div>
+<div class="line"><a id="l00118" name="l00118"></a><span class="lineno">  118</span> </div>
+<div class="line"><a id="l00119" name="l00119"></a><span class="lineno">  119</span><span class="comment">// Level 2</span></div>
+<div class="line"><a id="l00120" name="l00120"></a><span class="lineno">  120</span>DLAF_MAKE_GPUBLAS_OP(Gemv, gemv);</div>
+<div class="line"><a id="l00121" name="l00121"></a><span class="lineno">  121</span> </div>
+<div class="line"><a id="l00122" name="l00122"></a><span class="lineno">  122</span>DLAF_MAKE_GPUBLAS_OP(Trmv, trmv);</div>
+<div class="line"><a id="l00123" name="l00123"></a><span class="lineno">  123</span> </div>
+<div class="line"><a id="l00124" name="l00124"></a><span class="lineno">  124</span><span class="comment">// Level 3</span></div>
+<div class="line"><a id="l00125" name="l00125"></a><span class="lineno">  125</span>DLAF_MAKE_GPUBLAS_OP(Gemm, gemm);</div>
+<div class="line"><a id="l00126" name="l00126"></a><span class="lineno">  126</span> </div>
+<div class="line"><a id="l00127" name="l00127"></a><span class="lineno">  127</span>DLAF_MAKE_GPUBLAS_SYHE_OP(Hemm, mm);</div>
+<div class="line"><a id="l00128" name="l00128"></a><span class="lineno">  128</span> </div>
+<div class="line"><a id="l00129" name="l00129"></a><span class="lineno">  129</span>DLAF_MAKE_GPUBLAS_SYHE_OP(Her2k, r2k);</div>
+<div class="line"><a id="l00130" name="l00130"></a><span class="lineno">  130</span> </div>
+<div class="line"><a id="l00131" name="l00131"></a><span class="lineno">  131</span>DLAF_MAKE_GPUBLAS_SYHE_OP(Herk, rk);</div>
+<div class="line"><a id="l00132" name="l00132"></a><span class="lineno">  132</span> </div>
+<div class="line"><a id="l00133" name="l00133"></a><span class="lineno">  133</span><span class="preprocessor">#if defined(DLAF_WITH_CUDA)</span></div>
+<div class="line"><a id="l00134" name="l00134"></a><span class="lineno">  134</span>DLAF_MAKE_GPUBLAS_OP(Trmm, trmm);</div>
+<div class="line"><a id="l00135" name="l00135"></a><span class="lineno">  135</span><span class="preprocessor">#elif defined(DLAF_WITH_HIP)</span></div>
+<div class="line"><a id="l00136" name="l00136"></a><span class="lineno">  136</span> </div>
+<div class="line"><a id="l00137" name="l00137"></a><span class="lineno">  137</span><span class="preprocessor">#if ROCBLAS_VERSION_MAJOR &gt;= 3 &amp;&amp; defined(ROCBLAS_V3)</span></div>
+<div class="line"><a id="l00138" name="l00138"></a><span class="lineno">  138</span>DLAF_MAKE_GPUBLAS_OP(Trmm, trmm);</div>
+<div class="line"><a id="l00139" name="l00139"></a><span class="lineno">  139</span><span class="preprocessor">#else</span></div>
+<div class="line"><a id="l00140" name="l00140"></a><span class="lineno">  140</span>DLAF_MAKE_GPUBLAS_OP(Trmm, trmm_outofplace);</div>
+<div class="line"><a id="l00141" name="l00141"></a><span class="lineno">  141</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00142" name="l00142"></a><span class="lineno">  142</span> </div>
+<div class="line"><a id="l00143" name="l00143"></a><span class="lineno">  143</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00144" name="l00144"></a><span class="lineno">  144</span> </div>
+<div class="line"><a id="l00145" name="l00145"></a><span class="lineno">  145</span>DLAF_MAKE_GPUBLAS_OP(Trsm, trsm);</div>
+<div class="line"><a id="l00146" name="l00146"></a><span class="lineno">  146</span>}</div>
+<div class="line"><a id="l00147" name="l00147"></a><span class="lineno">  147</span><span class="preprocessor">#endif</span></div>
+<div class="ttc" id="aclassdlaf_1_1memory_1_1_memory_view_html"><div class="ttname"><a href="classdlaf_1_1memory_1_1_memory_view.html">dlaf::memory::MemoryView</a></div><div class="ttdef"><b>Definition</b> memory_view.h:32</div></div>
+<div class="ttc" id="amemory__view_8h_html"><div class="ttname"><a href="memory__view_8h.html">memory_view.h</a></div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+</small></address>
+</body>
+</html>
diff --git a/master/larft_8h_source.html b/master/larft_8h_source.html
new file mode 100644
index 0000000000..bf7e585559
--- /dev/null
+++ b/master/larft_8h_source.html
@@ -0,0 +1,142 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=11"/>
+<meta name="generator" content="Doxygen 1.9.8"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>DLAF: /home/runner/work/DLA-Future/DLA-Future/include/dlaf/lapack/gpu/larft.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+</head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr id="projectrow">
+  <td id="projectalign">
+   <div id="projectname">DLAF
+   </div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.9.8 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+var searchBox = new SearchBox("searchBox", "search/",'.html');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */
+</script>
+<div id="main-nav"></div>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:d3d9a9a6595521f9666a5e94cc830dab83b65699&amp;dn=expat.txt MIT */
+$(document).ready(function() { init_codefold(0); });
+/* @license-end */
+</script>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<div id="MSearchResults">
+<div class="SRPage">
+<div id="SRIndex">
+<div id="SRResults"></div>
+<div class="SRStatus" id="Loading">Loading...</div>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+</div>
+</div>
+</div>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_d44c64559bbebec7f509842c48db8b23.html">include</a></li><li class="navelem"><a class="el" href="dir_415b543d06dcd728a2539f6ad76147ea.html">dlaf</a></li><li class="navelem"><a class="el" href="dir_d7e5084879c595d98fc3a7946899b578.html">lapack</a></li><li class="navelem"><a class="el" href="dir_2e3e3bc658385778082583f320919a4c.html">gpu</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle"><div class="title">larft.h</div></div>
+</div><!--header-->
+<div class="contents">
+<div class="fragment"><div class="line"><a id="l00001" name="l00001"></a><span class="lineno">    1</span><span class="comment">//</span></div>
+<div class="line"><a id="l00002" name="l00002"></a><span class="lineno">    2</span><span class="comment">// Distributed Linear Algebra with Future (DLAF)</span></div>
+<div class="line"><a id="l00003" name="l00003"></a><span class="lineno">    3</span><span class="comment">//</span></div>
+<div class="line"><a id="l00004" name="l00004"></a><span class="lineno">    4</span><span class="comment">// Copyright (c) 2018-2024, ETH Zurich</span></div>
+<div class="line"><a id="l00005" name="l00005"></a><span class="lineno">    5</span><span class="comment">// All rights reserved.</span></div>
+<div class="line"><a id="l00006" name="l00006"></a><span class="lineno">    6</span><span class="comment">//</span></div>
+<div class="line"><a id="l00007" name="l00007"></a><span class="lineno">    7</span><span class="comment">// Please, refer to the LICENSE file in the root directory.</span></div>
+<div class="line"><a id="l00008" name="l00008"></a><span class="lineno">    8</span><span class="comment">// SPDX-License-Identifier: BSD-3-Clause</span></div>
+<div class="line"><a id="l00009" name="l00009"></a><span class="lineno">    9</span><span class="comment">//</span></div>
+<div class="line"><a id="l00010" name="l00010"></a><span class="lineno">   10</span> </div>
+<div class="line"><a id="l00011" name="l00011"></a><span class="lineno">   11</span><span class="preprocessor">#pragma once</span></div>
+<div class="line"><a id="l00012" name="l00012"></a><span class="lineno">   12</span> </div>
+<div class="line"><a id="l00013" name="l00013"></a><span class="lineno">   13</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
+<div class="line"><a id="l00014" name="l00014"></a><span class="lineno">   14</span> </div>
+<div class="line"><a id="l00015" name="l00015"></a><span class="lineno">   15</span><span class="preprocessor">#include &lt;blas.hh&gt;</span></div>
+<div class="line"><a id="l00016" name="l00016"></a><span class="lineno">   16</span><span class="preprocessor">#include &lt;whip.hpp&gt;</span></div>
+<div class="line"><a id="l00017" name="l00017"></a><span class="lineno">   17</span> </div>
+<div class="line"><a id="l00018" name="l00018"></a><span class="lineno">   18</span><span class="preprocessor">#include &lt;dlaf/gpu/blas/api.h&gt;</span></div>
+<div class="line"><a id="l00019" name="l00019"></a><span class="lineno">   19</span><span class="preprocessor">#include &lt;<a class="code" href="types_8h.html">dlaf/types.h</a>&gt;</span></div>
+<div class="line"><a id="l00020" name="l00020"></a><span class="lineno">   20</span> </div>
+<div class="line"><a id="l00021" name="l00021"></a><span class="lineno">   21</span><span class="keyword">namespace </span>dlaf::gpulapack {</div>
+<div class="line"><a id="l00022" name="l00022"></a><span class="lineno">   22</span> </div>
+<div class="line"><a id="l00023" name="l00023"></a><span class="lineno">   23</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00024" name="l00024"></a><span class="lineno">   24</span><span class="keywordtype">void</span> larft_gemv0(cublasHandle_t handle, <span class="keyword">const</span> SizeType m, SizeType k, <span class="keyword">const</span> T* v, <span class="keyword">const</span> SizeType ldv,</div>
+<div class="line"><a id="l00025" name="l00025"></a><span class="lineno">   25</span>                 <span class="keyword">const</span> T* tau, T* t, <span class="keyword">const</span> SizeType ldt);</div>
+<div class="line"><a id="l00026" name="l00026"></a><span class="lineno">   26</span> </div>
+<div class="line"><a id="l00027" name="l00027"></a><span class="lineno">   27</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00028" name="l00028"></a><span class="lineno">   28</span><span class="keywordtype">void</span> larft_gemv1_notau(cublasHandle_t handle, <span class="keyword">const</span> SizeType m, <span class="keyword">const</span> SizeType k, <span class="keyword">const</span> T* v,</div>
+<div class="line"><a id="l00029" name="l00029"></a><span class="lineno">   29</span>                       <span class="keyword">const</span> SizeType ldv, T* t, <span class="keyword">const</span> SizeType ldt);</div>
+<div class="line"><a id="l00030" name="l00030"></a><span class="lineno">   30</span> </div>
+<div class="line"><a id="l00031" name="l00031"></a><span class="lineno">   31</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00032" name="l00032"></a><span class="lineno">   32</span><span class="keywordtype">void</span> larft_gemv1_fixtau(<span class="keyword">const</span> SizeType k, <span class="keyword">const</span> T* tau, <span class="keyword">const</span> SizeType inctau, T* t, <span class="keyword">const</span> SizeType ldt,</div>
+<div class="line"><a id="l00033" name="l00033"></a><span class="lineno">   33</span>                        whip::stream_t stream);</div>
+<div class="line"><a id="l00034" name="l00034"></a><span class="lineno">   34</span> </div>
+<div class="line"><a id="l00035" name="l00035"></a><span class="lineno">   35</span><span class="preprocessor">#define DLAF_CUBLAS_LARFT_GEMV_ETI(kword, Type)                                                       \</span></div>
+<div class="line"><a id="l00036" name="l00036"></a><span class="lineno">   36</span><span class="preprocessor">  kword template void larft_gemv0(cublasHandle_t handle, const SizeType n, SizeType k, const Type* v, \</span></div>
+<div class="line"><a id="l00037" name="l00037"></a><span class="lineno">   37</span><span class="preprocessor">                                  const SizeType ldv, const Type* tau, Type* t, const SizeType ldt);  \</span></div>
+<div class="line"><a id="l00038" name="l00038"></a><span class="lineno">   38</span><span class="preprocessor">  kword template void larft_gemv1_notau(cublasHandle_t handle, const SizeType m, const SizeType k,    \</span></div>
+<div class="line"><a id="l00039" name="l00039"></a><span class="lineno">   39</span><span class="preprocessor">                                        const Type* v, const SizeType ldv, Type* t,                   \</span></div>
+<div class="line"><a id="l00040" name="l00040"></a><span class="lineno">   40</span><span class="preprocessor">                                        const SizeType ldt);                                          \</span></div>
+<div class="line"><a id="l00041" name="l00041"></a><span class="lineno">   41</span><span class="preprocessor">  kword template void larft_gemv1_fixtau(const SizeType k, const Type* tau, const SizeType inctau,    \</span></div>
+<div class="line"><a id="l00042" name="l00042"></a><span class="lineno">   42</span><span class="preprocessor">                                         Type* t, const SizeType ldt, whip::stream_t stream)</span></div>
+<div class="line"><a id="l00043" name="l00043"></a><span class="lineno">   43</span> </div>
+<div class="line"><a id="l00044" name="l00044"></a><span class="lineno">   44</span>DLAF_CUBLAS_LARFT_GEMV_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
+<div class="line"><a id="l00045" name="l00045"></a><span class="lineno">   45</span>DLAF_CUBLAS_LARFT_GEMV_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
+<div class="line"><a id="l00046" name="l00046"></a><span class="lineno">   46</span>DLAF_CUBLAS_LARFT_GEMV_ETI(<span class="keyword">extern</span>, std::complex&lt;float&gt;);</div>
+<div class="line"><a id="l00047" name="l00047"></a><span class="lineno">   47</span>DLAF_CUBLAS_LARFT_GEMV_ETI(<span class="keyword">extern</span>, std::complex&lt;double&gt;);</div>
+<div class="line"><a id="l00048" name="l00048"></a><span class="lineno">   48</span> </div>
+<div class="line"><a id="l00049" name="l00049"></a><span class="lineno">   49</span>}</div>
+<div class="line"><a id="l00050" name="l00050"></a><span class="lineno">   50</span> </div>
+<div class="line"><a id="l00051" name="l00051"></a><span class="lineno">   51</span><span class="preprocessor">#endif</span></div>
+<div class="ttc" id="atypes_8h_html"><div class="ttname"><a href="types_8h.html">types.h</a></div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated by&#160;<a href="https://www.doxygen.org/index.html"><img class="footer" src="doxygen.svg" width="104" height="31" alt="doxygen"/></a> 1.9.8
+</small></address>
+</body>
+</html>
diff --git a/master/qr_8h_source.html b/master/qr_8h_source.html
index 1575836033..354051df01 100644
--- a/master/qr_8h_source.html
+++ b/master/qr_8h_source.html
@@ -126,7 +126,7 @@
 <div class="ttc" id="acommunicator__pipeline_8h_html"><div class="ttname"><a href="communicator__pipeline_8h.html">communicator_pipeline.h</a></div></div>
 <div class="ttc" id="amatrix_2index_8h_html"><div class="ttname"><a href="matrix_2index_8h.html">index.h</a></div></div>
 <div class="ttc" id="amatrix_2tile_8h_html"><div class="ttname"><a href="matrix_2tile_8h.html">tile.h</a></div></div>
-<div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor_html_a1d9391570e947628f8c23668f944f7d4"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">dlaf::factorization::internal::QR_Tfactor::call</a></div><div class="ttdeci">static void call(matrix::Panel&lt; Coord::Col, T, device &gt; &amp;panel_view, matrix::ReadOnlyTileSender&lt; T, Device::CPU &gt; taus, matrix::ReadWriteTileSender&lt; T, device &gt; t)</div><div class="ttdef"><b>Definition</b> t_factor_impl.h:260</div></div>
+<div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor_html_a1d9391570e947628f8c23668f944f7d4"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">dlaf::factorization::internal::QR_Tfactor::call</a></div><div class="ttdeci">static void call(matrix::Panel&lt; Coord::Col, T, device &gt; &amp;panel_view, matrix::ReadOnlyTileSender&lt; T, Device::CPU &gt; taus, matrix::ReadWriteTileSender&lt; T, device &gt; t)</div><div class="ttdef"><b>Definition</b> t_factor_impl.h:248</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
diff --git a/master/search/all_6.js b/master/search/all_6.js
index 62947929de..c6a8ba989e 100644
--- a/master/search/all_6.js
+++ b/master/search/all_6.js
@@ -11,10 +11,10 @@ var searchData=
   ['generalmatrix_8',['generalmatrix',['../multiplication_2general_8h.html#a834bc28949a9b0aa7000f8f52822e7a4',1,'dlaf::multiplication::internal::generalMatrix(const blas::Op opA, const blas::Op opB, const T alpha, MatrixRef&lt; const T, D &gt; &amp;mat_a, MatrixRef&lt; const T, D &gt; &amp;mat_b, const T beta, MatrixRef&lt; T, D &gt; &amp;mat_c)'],['../multiplication_2general_8h.html#a475d73bf4d853e54c47e93b495904581',1,'dlaf::multiplication::internal::generalMatrix(comm::CommunicatorPipeline&lt; comm::CommunicatorType::Row &gt; &amp;row_task_chain, comm::CommunicatorPipeline&lt; comm::CommunicatorType::Col &gt; &amp;col_task_chain, const T alpha, MatrixRef&lt; const T, D &gt; &amp;mat_a, MatrixRef&lt; const T, D &gt; &amp;mat_b, const T beta, MatrixRef&lt; T, D &gt; &amp;mat_c)']]],
   ['generic_5finteger_5fop_9',['generic_integer_op',['../util__math_8h.html#a4a1c1045d16c92d7fef9c553ae8e6c90',1,'dlaf::util::internal']]],
   ['gentostd_10',['GenToStd',['../structdlaf_1_1eigensolver_1_1internal_1_1_gen_to_std.html',1,'dlaf::eigensolver::internal']]],
-  ['get_11',['get',['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01const_01_t_00_01_source_target_00_01_source_target_01_4.html#ac9deda6f1d85a6c884deb18255530ae1',1,'dlaf::matrix::MatrixMirror&lt; const T, SourceTarget, SourceTarget &gt;::get()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01_t_00_01_source_target_00_01_source_target_01_4.html#a655dc5435eeba0a3dbad440e7079c193',1,'dlaf::matrix::MatrixMirror&lt; T, SourceTarget, SourceTarget &gt;::get()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01const_01_t_00_01_target_00_01_source_01_4.html#a9bab6d25f671bad8086967f7d395cf39',1,'dlaf::matrix::MatrixMirror&lt; const T, Target, Source &gt;::get()'],['../classdlaf_1_1matrix_1_1_matrix_mirror.html#a0adf7757a3236ff337c5c9ee9ef209eb',1,'dlaf::matrix::MatrixMirror::get()'],['../classdlaf_1_1common_1_1internal_1_1basic__coords.html#a23701a66458fad55204f90b84674a8e2',1,'dlaf::common::internal::basic_coords::get()']]],
+  ['get_11',['get',['../classdlaf_1_1common_1_1internal_1_1basic__coords.html#a23701a66458fad55204f90b84674a8e2',1,'dlaf::common::internal::basic_coords::get()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01const_01_t_00_01_source_target_00_01_source_target_01_4.html#ac9deda6f1d85a6c884deb18255530ae1',1,'dlaf::matrix::MatrixMirror&lt; const T, SourceTarget, SourceTarget &gt;::get()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01_t_00_01_source_target_00_01_source_target_01_4.html#a655dc5435eeba0a3dbad440e7079c193',1,'dlaf::matrix::MatrixMirror&lt; T, SourceTarget, SourceTarget &gt;::get()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01const_01_t_00_01_target_00_01_source_01_4.html#a9bab6d25f671bad8086967f7d395cf39',1,'dlaf::matrix::MatrixMirror&lt; const T, Target, Source &gt;::get()'],['../classdlaf_1_1matrix_1_1_matrix_mirror.html#a0adf7757a3236ff337c5c9ee9ef209eb',1,'dlaf::matrix::MatrixMirror::get()']]],
   ['getheight_12',['getHeight',['../structdlaf_1_1matrix_1_1_panel_3_01axis_00_01const_01_t_00_01_d_00_01_store_transposed_1_1_no_01_4.html#ad59bcb70b44cf2a4a61119d8ce4eb5db',1,'dlaf::matrix::Panel&lt; axis, const T, D, StoreTransposed::No &gt;']]],
   ['getoptionsdescription_13',['getOptionsDescription',['../dlaf_2init_8h.html#a6f4711b407727e4b9317d252b451bd89',1,'dlaf']]],
-  ['getsource_14',['getsource',['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01const_01_t_00_01_target_00_01_source_01_4.html#a631c46e4f2b01ce329ad887869ba1cff',1,'dlaf::matrix::MatrixMirror&lt; const T, Target, Source &gt;::getSource()'],['../classdlaf_1_1matrix_1_1_matrix_mirror.html#a505b265f6138344924570816271e84a7',1,'dlaf::matrix::MatrixMirror::getSource()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01_t_00_01_source_target_00_01_source_target_01_4.html#a98c6c5777c0fe2c35cd652e4f6b47ab4',1,'dlaf::matrix::MatrixMirror&lt; T, SourceTarget, SourceTarget &gt;::getSource()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01const_01_t_00_01_source_target_00_01_source_target_01_4.html#a91c5417e16e33a3ffa6f7bf9b34a3e4f',1,'dlaf::matrix::MatrixMirror&lt; const T, SourceTarget, SourceTarget &gt;::getSource()']]],
+  ['getsource_14',['getsource',['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01_t_00_01_source_target_00_01_source_target_01_4.html#a98c6c5777c0fe2c35cd652e4f6b47ab4',1,'dlaf::matrix::MatrixMirror&lt; T, SourceTarget, SourceTarget &gt;::getSource()'],['../classdlaf_1_1matrix_1_1_matrix_mirror.html#a505b265f6138344924570816271e84a7',1,'dlaf::matrix::MatrixMirror::getSource()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01const_01_t_00_01_target_00_01_source_01_4.html#a631c46e4f2b01ce329ad887869ba1cff',1,'dlaf::matrix::MatrixMirror&lt; const T, Target, Source &gt;::getSource()'],['../classdlaf_1_1matrix_1_1_matrix_mirror_3_01const_01_t_00_01_source_target_00_01_source_target_01_4.html#a91c5417e16e33a3ffa6f7bf9b34a3e4f',1,'dlaf::matrix::MatrixMirror&lt; const T, SourceTarget, SourceTarget &gt;::getSource()']]],
   ['getter_5frandom_15',['getter_random',['../classdlaf_1_1matrix_1_1util_1_1internal_1_1getter__random.html',1,'dlaf::matrix::util::internal']]],
   ['getter_5frandom_3c_20std_3a_3acomplex_3c_20t_20_3e_20_3e_16',['getter_random&lt; std::complex&lt; T &gt; &gt;',['../classdlaf_1_1matrix_1_1util_1_1internal_1_1getter__random_3_01std_1_1complex_3_01_t_01_4_01_4.html',1,'dlaf::matrix::util::internal']]],
   ['getwidth_17',['getWidth',['../structdlaf_1_1matrix_1_1_panel_3_01axis_00_01const_01_t_00_01_d_00_01_store_transposed_1_1_no_01_4.html#aa34a2e93ba64d958df32428f3928ccba',1,'dlaf::matrix::Panel&lt; axis, const T, D, StoreTransposed::No &gt;']]],
@@ -33,7 +33,8 @@ var searchData=
   ['global_5ftile_5findex_5ffrom_5fsub_5fdistribution_30',['global_tile_index_from_sub_distribution',['../distribution_8h.html#ad40ebeee4d978542c2a1460c05c1c3fa',1,'dlaf::matrix::internal::distribution']]],
   ['global_5ftile_5flinear_5findex_31',['global_tile_linear_index',['../distribution_8h.html#a4dbe5cf03961dec5b6b381a4f8415314',1,'dlaf::matrix::internal::distribution']]],
   ['global_5ftile_5foffset_32',['global_tile_offset',['../distribution__extensions_8h.html#ae8c5ed233fad3336d331da897a56a8a9',1,'dlaf::matrix::internal::distribution']]],
-  ['grid_2eh_33',['grid.h',['../grid_8h.html',1,'']]],
-  ['grid_5fordering_34',['grid_ordering',['../grid_8h.html#a438a7328e8679dfd1bc4758e96688d6b',1,'grid.h']]],
-  ['grid_5fsize_35',['grid_size',['../classdlaf_1_1matrix_1_1internal_1_1_matrix_base.html#aab63e932ea19be17ee87fca99879266c',1,'dlaf::matrix::internal::MatrixBase']]]
+  ['gpublas_2eh_33',['gpublas.h',['../gpublas_8h.html',1,'']]],
+  ['grid_2eh_34',['grid.h',['../grid_8h.html',1,'']]],
+  ['grid_5fordering_35',['grid_ordering',['../grid_8h.html#a438a7328e8679dfd1bc4758e96688d6b',1,'grid.h']]],
+  ['grid_5fsize_36',['grid_size',['../classdlaf_1_1matrix_1_1internal_1_1_matrix_base.html#aab63e932ea19be17ee87fca99879266c',1,'dlaf::matrix::internal::MatrixBase']]]
 ];
diff --git a/master/search/files_6.js b/master/search/files_6.js
index 16cc0e9ca3..a4aa1a1abb 100644
--- a/master/search/files_6.js
+++ b/master/search/files_6.js
@@ -3,5 +3,6 @@ var searchData=
   ['gen_5feigensolver_2eh_0',['gen_eigensolver.h',['../eigensolver_2gen__eigensolver_8h.html',1,'(Global Namespace)'],['../c_2eigensolver_2gen__eigensolver_8h.html',1,'(Global Namespace)']]],
   ['gen_5fto_5fstd_2eh_1',['gen_to_std.h',['../gen__to__std_8h.html',1,'']]],
   ['general_2eh_2',['general.h',['../multiplication_2general_8h.html',1,'(Global Namespace)'],['../permutations_2general_8h.html',1,'(Global Namespace)']]],
-  ['grid_2eh_3',['grid.h',['../grid_8h.html',1,'']]]
+  ['gpublas_2eh_3',['gpublas.h',['../gpublas_8h.html',1,'']]],
+  ['grid_2eh_4',['grid.h',['../grid_8h.html',1,'']]]
 ];
diff --git a/master/t__factor__impl_8h_source.html b/master/t__factor__impl_8h_source.html
index 5e5b277867..3c17d10a44 100644
--- a/master/t__factor__impl_8h_source.html
+++ b/master/t__factor__impl_8h_source.html
@@ -107,345 +107,333 @@
 <div class="line"><a id="l00024" name="l00024"></a><span class="lineno">   24</span><span class="preprocessor">#include &lt;<a class="code" href="communicator__pipeline_8h.html">dlaf/communication/communicator_pipeline.h</a>&gt;</span></div>
 <div class="line"><a id="l00025" name="l00025"></a><span class="lineno">   25</span><span class="preprocessor">#include &lt;<a class="code" href="kernels_2all__reduce_8h.html">dlaf/communication/kernels/all_reduce.h</a>&gt;</span></div>
 <div class="line"><a id="l00026" name="l00026"></a><span class="lineno">   26</span><span class="preprocessor">#include &lt;dlaf/factorization/qr/api.h&gt;</span></div>
-<div class="line"><a id="l00027" name="l00027"></a><span class="lineno">   27</span><span class="preprocessor">#include &lt;<a class="code" href="lapack_2tile_8h.html">dlaf/lapack/tile.h</a>&gt;</span></div>
-<div class="line"><a id="l00028" name="l00028"></a><span class="lineno">   28</span><span class="preprocessor">#include &lt;<a class="code" href="matrix_8h.html">dlaf/matrix/matrix.h</a>&gt;</span></div>
-<div class="line"><a id="l00029" name="l00029"></a><span class="lineno">   29</span><span class="preprocessor">#include &lt;<a class="code" href="matrix_2tile_8h.html">dlaf/matrix/tile.h</a>&gt;</span></div>
-<div class="line"><a id="l00030" name="l00030"></a><span class="lineno">   30</span><span class="preprocessor">#include &lt;<a class="code" href="views_8h.html">dlaf/matrix/views.h</a>&gt;</span></div>
-<div class="line"><a id="l00031" name="l00031"></a><span class="lineno">   31</span><span class="preprocessor">#include &lt;<a class="code" href="types_8h.html">dlaf/types.h</a>&gt;</span></div>
-<div class="line"><a id="l00032" name="l00032"></a><span class="lineno">   32</span><span class="preprocessor">#include &lt;<a class="code" href="util__matrix_8h.html">dlaf/util_matrix.h</a>&gt;</span></div>
-<div class="line"><a id="l00033" name="l00033"></a><span class="lineno">   33</span> </div>
-<div class="line"><a id="l00034" name="l00034"></a><span class="lineno">   34</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a id="l00035" name="l00035"></a><span class="lineno">   35</span><span class="preprocessor">#include &lt;whip.hpp&gt;</span></div>
-<div class="line"><a id="l00036" name="l00036"></a><span class="lineno">   36</span> </div>
-<div class="line"><a id="l00037" name="l00037"></a><span class="lineno">   37</span><span class="preprocessor">#include &lt;<a class="code" href="blas_2tile_8h.html">dlaf/blas/tile.h</a>&gt;</span></div>
-<div class="line"><a id="l00038" name="l00038"></a><span class="lineno">   38</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l00039" name="l00039"></a><span class="lineno">   39</span> </div>
-<div class="line"><a id="l00040" name="l00040"></a><span class="lineno">   40</span><span class="keyword">namespace </span>dlaf::factorization::internal {</div>
-<div class="line"><a id="l00041" name="l00041"></a><span class="lineno">   41</span> </div>
-<div class="line"><a id="l00042" name="l00042"></a><span class="lineno">   42</span><span class="keyword">namespace </span>tfactor_l {</div>
-<div class="line"><a id="l00043" name="l00043"></a><span class="lineno">   43</span><span class="keyword">template</span> &lt;Backend backend, Device device, <span class="keyword">class</span> T&gt;</div>
-<div class="line"><a id="l00044" name="l00044"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">   44</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">Helpers</a> {};</div>
-<div class="line"><a id="l00045" name="l00045"></a><span class="lineno">   45</span> </div>
-<div class="line"><a id="l00046" name="l00046"></a><span class="lineno">   46</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="foldopen" id="foldopen00047" data-start="{" data-end="};">
-<div class="line"><a id="l00047" name="l00047"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers_3_01_backend_1_1_m_c_00_01_device_1_1_c_p_u_00_01_t_01_4.html">   47</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">Helpers</a>&lt;Backend::MC, Device::CPU, T&gt; {</div>
-<div class="line"><a id="l00048" name="l00048"></a><span class="lineno">   48</span>  <span class="keyword">static</span> <span class="keyword">auto</span> prepareT(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
-<div class="line"><a id="l00049" name="l00049"></a><span class="lineno">   49</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::CPU&gt;</a> tile_t) {</div>
-<div class="line"><a id="l00050" name="l00050"></a><span class="lineno">   50</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00051" name="l00051"></a><span class="lineno">   51</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00052" name="l00052"></a><span class="lineno">   52</span>    <span class="keywordflow">return</span> ex::when_all(std::move(taus), std::move(tile_t)) |</div>
-<div class="line"><a id="l00053" name="l00053"></a><span class="lineno">   53</span>           di::transform(di::Policy&lt;Backend::MC&gt;(pika::execution::thread_priority::high),</div>
-<div class="line"><a id="l00054" name="l00054"></a><span class="lineno">   54</span>                         [](<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
-<div class="line"><a id="l00055" name="l00055"></a><span class="lineno">   55</span>                            <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::CPU&gt;</a>&amp;&amp; tile_t) {</div>
-<div class="line"><a id="l00056" name="l00056"></a><span class="lineno">   56</span>                           tile::internal::set0&lt;T&gt;(tile_t);</div>
-<div class="line"><a id="l00057" name="l00057"></a><span class="lineno">   57</span> </div>
-<div class="line"><a id="l00058" name="l00058"></a><span class="lineno">   58</span>                           <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
-<div class="line"><a id="l00059" name="l00059"></a><span class="lineno">   59</span>                           lapack::lacpy(blas::Uplo::General, 1, k, taus.ptr(), 1, tile_t.ptr(),</div>
-<div class="line"><a id="l00060" name="l00060"></a><span class="lineno">   60</span>                                         tile_t.ld() + 1);</div>
-<div class="line"><a id="l00061" name="l00061"></a><span class="lineno">   61</span> </div>
-<div class="line"><a id="l00062" name="l00062"></a><span class="lineno">   62</span>                           <span class="keywordflow">return</span> std::move(tile_t);</div>
-<div class="line"><a id="l00063" name="l00063"></a><span class="lineno">   63</span>                         });</div>
-<div class="line"><a id="l00064" name="l00064"></a><span class="lineno">   64</span>  }</div>
-<div class="line"><a id="l00065" name="l00065"></a><span class="lineno">   65</span> </div>
-<div class="line"><a id="l00066" name="l00066"></a><span class="lineno">   66</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepGEMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> tile_vi,</div>
-<div class="line"><a id="l00067" name="l00067"></a><span class="lineno">   67</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
-<div class="line"><a id="l00068" name="l00068"></a><span class="lineno">   68</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::CPU&gt;</a> tile_t) {</div>
-<div class="line"><a id="l00069" name="l00069"></a><span class="lineno">   69</span>    <span class="keyword">auto</span> gemv_func = [](<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; tile_v,</div>
-<div class="line"><a id="l00070" name="l00070"></a><span class="lineno">   70</span>                        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
-<div class="line"><a id="l00071" name="l00071"></a><span class="lineno">   71</span>                        <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::CPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00072" name="l00072"></a><span class="lineno">   72</span>      <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
-<div class="line"><a id="l00073" name="l00073"></a><span class="lineno">   73</span> </div>
-<div class="line"><a id="l00074" name="l00074"></a><span class="lineno">   74</span>      DLAF_ASSERT(tile_v.size().cols() == k, tile_v.size().cols(), k);</div>
-<div class="line"><a id="l00075" name="l00075"></a><span class="lineno">   75</span>      DLAF_ASSERT(taus.size().rows() == k, taus.size().rows(), k);</div>
-<div class="line"><a id="l00076" name="l00076"></a><span class="lineno">   76</span> </div>
-<div class="line"><a id="l00077" name="l00077"></a><span class="lineno">   77</span>      <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
-<div class="line"><a id="l00078" name="l00078"></a><span class="lineno">   78</span>      <span class="keywordflow">for</span> (SizeType j = 0; j &lt; k; ++j) {</div>
-<div class="line"><a id="l00079" name="l00079"></a><span class="lineno">   79</span>        <span class="comment">// T(0:j, j) = -tau . V(j:, 0:j)* . V(j:, j)</span></div>
-<div class="line"><a id="l00080" name="l00080"></a><span class="lineno">   80</span>        <span class="comment">// [j x 1] = [(n-j) x j]* . [(n-j) x 1]</span></div>
-<div class="line"><a id="l00081" name="l00081"></a><span class="lineno">   81</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> t_start{0, j};</div>
-<div class="line"><a id="l00082" name="l00082"></a><span class="lineno">   82</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> va_start{0, 0};</div>
-<div class="line"><a id="l00083" name="l00083"></a><span class="lineno">   83</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> vb_start{0, j};</div>
-<div class="line"><a id="l00084" name="l00084"></a><span class="lineno">   84</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a> va_size{tile_v.size().rows(), j};</div>
-<div class="line"><a id="l00085" name="l00085"></a><span class="lineno">   85</span>        <span class="keyword">const</span> T tau = tile_t({j, j});</div>
-<div class="line"><a id="l00086" name="l00086"></a><span class="lineno">   86</span> </div>
-<div class="line"><a id="l00087" name="l00087"></a><span class="lineno">   87</span>        blas::gemv(blas::Layout::ColMajor, blas::Op::ConjTrans, va_size.rows(), va_size.cols(), -tau,</div>
-<div class="line"><a id="l00088" name="l00088"></a><span class="lineno">   88</span>                   tile_v.ptr(va_start), tile_v.ld(), tile_v.ptr(vb_start), 1, 1, tile_t.ptr(t_start),</div>
-<div class="line"><a id="l00089" name="l00089"></a><span class="lineno">   89</span>                   1);</div>
-<div class="line"><a id="l00090" name="l00090"></a><span class="lineno">   90</span>      }</div>
-<div class="line"><a id="l00091" name="l00091"></a><span class="lineno">   91</span>      <span class="keywordflow">return</span> tile_t;</div>
-<div class="line"><a id="l00092" name="l00092"></a><span class="lineno">   92</span>    };</div>
-<div class="line"><a id="l00093" name="l00093"></a><span class="lineno">   93</span> </div>
-<div class="line"><a id="l00094" name="l00094"></a><span class="lineno">   94</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00095" name="l00095"></a><span class="lineno">   95</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00096" name="l00096"></a><span class="lineno">   96</span> </div>
-<div class="line"><a id="l00097" name="l00097"></a><span class="lineno">   97</span>    <span class="keywordflow">return</span> ex::when_all(tile_vi, std::move(taus), std::move(tile_t)) |</div>
-<div class="line"><a id="l00098" name="l00098"></a><span class="lineno">   98</span>           di::transform(di::Policy&lt;Backend::MC&gt;(pika::execution::thread_priority::high),</div>
-<div class="line"><a id="l00099" name="l00099"></a><span class="lineno">   99</span>                         std::move(gemv_func));</div>
-<div class="line"><a id="l00100" name="l00100"></a><span class="lineno">  100</span>  }</div>
-<div class="line"><a id="l00101" name="l00101"></a><span class="lineno">  101</span> </div>
-<div class="line"><a id="l00102" name="l00102"></a><span class="lineno">  102</span>  <span class="keyword">static</span> <span class="keywordtype">void</span> trmvLoop(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::CPU&gt;</a>&amp; tile_t) {</div>
-<div class="line"><a id="l00103" name="l00103"></a><span class="lineno">  103</span>    <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
-<div class="line"><a id="l00104" name="l00104"></a><span class="lineno">  104</span> </div>
-<div class="line"><a id="l00105" name="l00105"></a><span class="lineno">  105</span>    <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
-<div class="line"><a id="l00106" name="l00106"></a><span class="lineno">  106</span> </div>
-<div class="line"><a id="l00107" name="l00107"></a><span class="lineno">  107</span>    <span class="comment">// Update each column (in order) t = T . t</span></div>
-<div class="line"><a id="l00108" name="l00108"></a><span class="lineno">  108</span>    <span class="comment">// remember that T is upper triangular, so it is possible to use TRMV</span></div>
-<div class="line"><a id="l00109" name="l00109"></a><span class="lineno">  109</span>    <span class="keywordflow">for</span> (SizeType j = 0; j &lt; k; ++j) {</div>
-<div class="line"><a id="l00110" name="l00110"></a><span class="lineno">  110</span>      <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> t_start{0, j};</div>
-<div class="line"><a id="l00111" name="l00111"></a><span class="lineno">  111</span>      <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a> t_size{j, 1};</div>
-<div class="line"><a id="l00112" name="l00112"></a><span class="lineno">  112</span> </div>
-<div class="line"><a id="l00113" name="l00113"></a><span class="lineno">  113</span>      blas::trmv(blas::Layout::ColMajor, blas::Uplo::Upper, blas::Op::NoTrans, blas::Diag::NonUnit,</div>
-<div class="line"><a id="l00114" name="l00114"></a><span class="lineno">  114</span>                 t_size.rows(), tile_t.ptr(), tile_t.ld(), tile_t.ptr(t_start), 1);</div>
-<div class="line"><a id="l00115" name="l00115"></a><span class="lineno">  115</span>    }</div>
-<div class="line"><a id="l00116" name="l00116"></a><span class="lineno">  116</span>  }</div>
-<div class="line"><a id="l00117" name="l00117"></a><span class="lineno">  117</span> </div>
-<div class="line"><a id="l00118" name="l00118"></a><span class="lineno">  118</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepTRMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::CPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00119" name="l00119"></a><span class="lineno">  119</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00120" name="l00120"></a><span class="lineno">  120</span> </div>
-<div class="line"><a id="l00121" name="l00121"></a><span class="lineno">  121</span>    <span class="keywordflow">return</span> std::move(tile_t) |</div>
-<div class="line"><a id="l00122" name="l00122"></a><span class="lineno">  122</span>           di::transform(di::Policy&lt;Backend::MC&gt;(pika::execution::thread_priority::high), trmvLoop);</div>
-<div class="line"><a id="l00123" name="l00123"></a><span class="lineno">  123</span>  }</div>
-<div class="line"><a id="l00124" name="l00124"></a><span class="lineno">  124</span> </div>
-<div class="line"><a id="l00125" name="l00125"></a><span class="lineno">  125</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepCopyDiagAndTRMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
-<div class="line"><a id="l00126" name="l00126"></a><span class="lineno">  126</span>                                  <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::CPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00127" name="l00127"></a><span class="lineno">  127</span>    <span class="keyword">auto</span> tausdiag_trmvloop = [](<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
-<div class="line"><a id="l00128" name="l00128"></a><span class="lineno">  128</span>                                <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::CPU&gt;</a> tile_t) {</div>
-<div class="line"><a id="l00129" name="l00129"></a><span class="lineno">  129</span>      <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
-<div class="line"><a id="l00130" name="l00130"></a><span class="lineno">  130</span> </div>
-<div class="line"><a id="l00131" name="l00131"></a><span class="lineno">  131</span>      <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
-<div class="line"><a id="l00132" name="l00132"></a><span class="lineno">  132</span>      lapack::lacpy(blas::Uplo::General, 1, k, taus.ptr(), 1, tile_t.ptr(), tile_t.ld() + 1);</div>
-<div class="line"><a id="l00133" name="l00133"></a><span class="lineno">  133</span> </div>
-<div class="line"><a id="l00134" name="l00134"></a><span class="lineno">  134</span>      trmvLoop(tile_t);</div>
-<div class="line"><a id="l00135" name="l00135"></a><span class="lineno">  135</span>    };</div>
-<div class="line"><a id="l00136" name="l00136"></a><span class="lineno">  136</span> </div>
-<div class="line"><a id="l00137" name="l00137"></a><span class="lineno">  137</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00138" name="l00138"></a><span class="lineno">  138</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00139" name="l00139"></a><span class="lineno">  139</span> </div>
-<div class="line"><a id="l00140" name="l00140"></a><span class="lineno">  140</span>    <span class="keywordflow">return</span> ex::when_all(std::move(taus), std::move(tile_t)) |</div>
-<div class="line"><a id="l00141" name="l00141"></a><span class="lineno">  141</span>           di::transform(di::Policy&lt;Backend::MC&gt;(pika::execution::thread_priority::high),</div>
-<div class="line"><a id="l00142" name="l00142"></a><span class="lineno">  142</span>                         std::move(tausdiag_trmvloop));</div>
-<div class="line"><a id="l00143" name="l00143"></a><span class="lineno">  143</span>  }</div>
-<div class="line"><a id="l00144" name="l00144"></a><span class="lineno">  144</span>};</div>
+<div class="line"><a id="l00027" name="l00027"></a><span class="lineno">   27</span><span class="preprocessor">#include &lt;dlaf/lapack/gpu/larft.h&gt;</span></div>
+<div class="line"><a id="l00028" name="l00028"></a><span class="lineno">   28</span><span class="preprocessor">#include &lt;<a class="code" href="lapack_2tile_8h.html">dlaf/lapack/tile.h</a>&gt;</span></div>
+<div class="line"><a id="l00029" name="l00029"></a><span class="lineno">   29</span><span class="preprocessor">#include &lt;<a class="code" href="matrix_8h.html">dlaf/matrix/matrix.h</a>&gt;</span></div>
+<div class="line"><a id="l00030" name="l00030"></a><span class="lineno">   30</span><span class="preprocessor">#include &lt;<a class="code" href="matrix_2tile_8h.html">dlaf/matrix/tile.h</a>&gt;</span></div>
+<div class="line"><a id="l00031" name="l00031"></a><span class="lineno">   31</span><span class="preprocessor">#include &lt;<a class="code" href="views_8h.html">dlaf/matrix/views.h</a>&gt;</span></div>
+<div class="line"><a id="l00032" name="l00032"></a><span class="lineno">   32</span><span class="preprocessor">#include &lt;<a class="code" href="types_8h.html">dlaf/types.h</a>&gt;</span></div>
+<div class="line"><a id="l00033" name="l00033"></a><span class="lineno">   33</span><span class="preprocessor">#include &lt;<a class="code" href="util__matrix_8h.html">dlaf/util_matrix.h</a>&gt;</span></div>
+<div class="line"><a id="l00034" name="l00034"></a><span class="lineno">   34</span> </div>
+<div class="line"><a id="l00035" name="l00035"></a><span class="lineno">   35</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
+<div class="line"><a id="l00036" name="l00036"></a><span class="lineno">   36</span><span class="preprocessor">#include &lt;whip.hpp&gt;</span></div>
+<div class="line"><a id="l00037" name="l00037"></a><span class="lineno">   37</span> </div>
+<div class="line"><a id="l00038" name="l00038"></a><span class="lineno">   38</span><span class="preprocessor">#include &lt;<a class="code" href="blas_2tile_8h.html">dlaf/blas/tile.h</a>&gt;</span></div>
+<div class="line"><a id="l00039" name="l00039"></a><span class="lineno">   39</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00040" name="l00040"></a><span class="lineno">   40</span> </div>
+<div class="line"><a id="l00041" name="l00041"></a><span class="lineno">   41</span><span class="keyword">namespace </span>dlaf::factorization::internal {</div>
+<div class="line"><a id="l00042" name="l00042"></a><span class="lineno">   42</span> </div>
+<div class="line"><a id="l00043" name="l00043"></a><span class="lineno">   43</span><span class="keyword">namespace </span>tfactor_l {</div>
+<div class="line"><a id="l00044" name="l00044"></a><span class="lineno">   44</span><span class="keyword">template</span> &lt;Backend backend, Device device, <span class="keyword">class</span> T&gt;</div>
+<div class="line"><a id="l00045" name="l00045"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">   45</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">Helpers</a> {};</div>
+<div class="line"><a id="l00046" name="l00046"></a><span class="lineno">   46</span> </div>
+<div class="line"><a id="l00047" name="l00047"></a><span class="lineno">   47</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="foldopen" id="foldopen00048" data-start="{" data-end="};">
+<div class="line"><a id="l00048" name="l00048"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers_3_01_backend_1_1_m_c_00_01_device_1_1_c_p_u_00_01_t_01_4.html">   48</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">Helpers</a>&lt;Backend::MC, Device::CPU, T&gt; {</div>
+<div class="line"><a id="l00049" name="l00049"></a><span class="lineno">   49</span>  <span class="keyword">static</span> <span class="keyword">auto</span> prepareT(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
+<div class="line"><a id="l00050" name="l00050"></a><span class="lineno">   50</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::CPU&gt;</a> tile_t) {</div>
+<div class="line"><a id="l00051" name="l00051"></a><span class="lineno">   51</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00052" name="l00052"></a><span class="lineno">   52</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00053" name="l00053"></a><span class="lineno">   53</span>    <span class="keywordflow">return</span> ex::when_all(std::move(taus), std::move(tile_t)) |</div>
+<div class="line"><a id="l00054" name="l00054"></a><span class="lineno">   54</span>           di::transform(di::Policy&lt;Backend::MC&gt;(pika::execution::thread_priority::high),</div>
+<div class="line"><a id="l00055" name="l00055"></a><span class="lineno">   55</span>                         [](<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
+<div class="line"><a id="l00056" name="l00056"></a><span class="lineno">   56</span>                            <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::CPU&gt;</a>&amp;&amp; tile_t) {</div>
+<div class="line"><a id="l00057" name="l00057"></a><span class="lineno">   57</span>                           tile::internal::set0&lt;T&gt;(tile_t);</div>
+<div class="line"><a id="l00058" name="l00058"></a><span class="lineno">   58</span> </div>
+<div class="line"><a id="l00059" name="l00059"></a><span class="lineno">   59</span>                           <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
+<div class="line"><a id="l00060" name="l00060"></a><span class="lineno">   60</span>                           lapack::lacpy(blas::Uplo::General, 1, k, taus.ptr(), 1, tile_t.ptr(),</div>
+<div class="line"><a id="l00061" name="l00061"></a><span class="lineno">   61</span>                                         tile_t.ld() + 1);</div>
+<div class="line"><a id="l00062" name="l00062"></a><span class="lineno">   62</span> </div>
+<div class="line"><a id="l00063" name="l00063"></a><span class="lineno">   63</span>                           <span class="keywordflow">return</span> std::move(tile_t);</div>
+<div class="line"><a id="l00064" name="l00064"></a><span class="lineno">   64</span>                         });</div>
+<div class="line"><a id="l00065" name="l00065"></a><span class="lineno">   65</span>  }</div>
+<div class="line"><a id="l00066" name="l00066"></a><span class="lineno">   66</span> </div>
+<div class="line"><a id="l00067" name="l00067"></a><span class="lineno">   67</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepGEMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> tile_vi,</div>
+<div class="line"><a id="l00068" name="l00068"></a><span class="lineno">   68</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
+<div class="line"><a id="l00069" name="l00069"></a><span class="lineno">   69</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::CPU&gt;</a> tile_t) {</div>
+<div class="line"><a id="l00070" name="l00070"></a><span class="lineno">   70</span>    <span class="keyword">auto</span> gemv_func = [](<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; tile_v,</div>
+<div class="line"><a id="l00071" name="l00071"></a><span class="lineno">   71</span>                        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
+<div class="line"><a id="l00072" name="l00072"></a><span class="lineno">   72</span>                        <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::CPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00073" name="l00073"></a><span class="lineno">   73</span>      <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
+<div class="line"><a id="l00074" name="l00074"></a><span class="lineno">   74</span> </div>
+<div class="line"><a id="l00075" name="l00075"></a><span class="lineno">   75</span>      DLAF_ASSERT(tile_v.size().cols() == k, tile_v.size().cols(), k);</div>
+<div class="line"><a id="l00076" name="l00076"></a><span class="lineno">   76</span>      DLAF_ASSERT(taus.size().rows() == k, taus.size().rows(), k);</div>
+<div class="line"><a id="l00077" name="l00077"></a><span class="lineno">   77</span> </div>
+<div class="line"><a id="l00078" name="l00078"></a><span class="lineno">   78</span>      <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
+<div class="line"><a id="l00079" name="l00079"></a><span class="lineno">   79</span>      <span class="keywordflow">for</span> (SizeType j = 0; j &lt; k; ++j) {</div>
+<div class="line"><a id="l00080" name="l00080"></a><span class="lineno">   80</span>        <span class="comment">// T(0:j, j) = -tau . V(j:, 0:j)* . V(j:, j)</span></div>
+<div class="line"><a id="l00081" name="l00081"></a><span class="lineno">   81</span>        <span class="comment">// [j x 1] = [(n-j) x j]* . [(n-j) x 1]</span></div>
+<div class="line"><a id="l00082" name="l00082"></a><span class="lineno">   82</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> t_start{0, j};</div>
+<div class="line"><a id="l00083" name="l00083"></a><span class="lineno">   83</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> va_start{0, 0};</div>
+<div class="line"><a id="l00084" name="l00084"></a><span class="lineno">   84</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> vb_start{0, j};</div>
+<div class="line"><a id="l00085" name="l00085"></a><span class="lineno">   85</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a> va_size{tile_v.size().rows(), j};</div>
+<div class="line"><a id="l00086" name="l00086"></a><span class="lineno">   86</span>        <span class="keyword">const</span> T tau = tile_t({j, j});</div>
+<div class="line"><a id="l00087" name="l00087"></a><span class="lineno">   87</span> </div>
+<div class="line"><a id="l00088" name="l00088"></a><span class="lineno">   88</span>        blas::gemv(blas::Layout::ColMajor, blas::Op::ConjTrans, va_size.rows(), va_size.cols(), -tau,</div>
+<div class="line"><a id="l00089" name="l00089"></a><span class="lineno">   89</span>                   tile_v.ptr(va_start), tile_v.ld(), tile_v.ptr(vb_start), 1, 1, tile_t.ptr(t_start),</div>
+<div class="line"><a id="l00090" name="l00090"></a><span class="lineno">   90</span>                   1);</div>
+<div class="line"><a id="l00091" name="l00091"></a><span class="lineno">   91</span>      }</div>
+<div class="line"><a id="l00092" name="l00092"></a><span class="lineno">   92</span>      <span class="keywordflow">return</span> tile_t;</div>
+<div class="line"><a id="l00093" name="l00093"></a><span class="lineno">   93</span>    };</div>
+<div class="line"><a id="l00094" name="l00094"></a><span class="lineno">   94</span> </div>
+<div class="line"><a id="l00095" name="l00095"></a><span class="lineno">   95</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00096" name="l00096"></a><span class="lineno">   96</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00097" name="l00097"></a><span class="lineno">   97</span> </div>
+<div class="line"><a id="l00098" name="l00098"></a><span class="lineno">   98</span>    <span class="keywordflow">return</span> ex::when_all(tile_vi, std::move(taus), std::move(tile_t)) |</div>
+<div class="line"><a id="l00099" name="l00099"></a><span class="lineno">   99</span>           di::transform(di::Policy&lt;Backend::MC&gt;(pika::execution::thread_priority::high),</div>
+<div class="line"><a id="l00100" name="l00100"></a><span class="lineno">  100</span>                         std::move(gemv_func));</div>
+<div class="line"><a id="l00101" name="l00101"></a><span class="lineno">  101</span>  }</div>
+<div class="line"><a id="l00102" name="l00102"></a><span class="lineno">  102</span> </div>
+<div class="line"><a id="l00103" name="l00103"></a><span class="lineno">  103</span>  <span class="keyword">static</span> <span class="keywordtype">void</span> trmvLoop(<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::CPU&gt;</a>&amp; tile_t) {</div>
+<div class="line"><a id="l00104" name="l00104"></a><span class="lineno">  104</span>    <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
+<div class="line"><a id="l00105" name="l00105"></a><span class="lineno">  105</span> </div>
+<div class="line"><a id="l00106" name="l00106"></a><span class="lineno">  106</span>    <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
+<div class="line"><a id="l00107" name="l00107"></a><span class="lineno">  107</span> </div>
+<div class="line"><a id="l00108" name="l00108"></a><span class="lineno">  108</span>    <span class="comment">// Update each column (in order) t = T . t</span></div>
+<div class="line"><a id="l00109" name="l00109"></a><span class="lineno">  109</span>    <span class="comment">// remember that T is upper triangular, so it is possible to use TRMV</span></div>
+<div class="line"><a id="l00110" name="l00110"></a><span class="lineno">  110</span>    <span class="keywordflow">for</span> (SizeType j = 0; j &lt; k; ++j) {</div>
+<div class="line"><a id="l00111" name="l00111"></a><span class="lineno">  111</span>      <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> t_start{0, j};</div>
+<div class="line"><a id="l00112" name="l00112"></a><span class="lineno">  112</span>      <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a> t_size{j, 1};</div>
+<div class="line"><a id="l00113" name="l00113"></a><span class="lineno">  113</span> </div>
+<div class="line"><a id="l00114" name="l00114"></a><span class="lineno">  114</span>      blas::trmv(blas::Layout::ColMajor, blas::Uplo::Upper, blas::Op::NoTrans, blas::Diag::NonUnit,</div>
+<div class="line"><a id="l00115" name="l00115"></a><span class="lineno">  115</span>                 t_size.rows(), tile_t.ptr(), tile_t.ld(), tile_t.ptr(t_start), 1);</div>
+<div class="line"><a id="l00116" name="l00116"></a><span class="lineno">  116</span>    }</div>
+<div class="line"><a id="l00117" name="l00117"></a><span class="lineno">  117</span>  }</div>
+<div class="line"><a id="l00118" name="l00118"></a><span class="lineno">  118</span> </div>
+<div class="line"><a id="l00119" name="l00119"></a><span class="lineno">  119</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepTRMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::CPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00120" name="l00120"></a><span class="lineno">  120</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00121" name="l00121"></a><span class="lineno">  121</span> </div>
+<div class="line"><a id="l00122" name="l00122"></a><span class="lineno">  122</span>    <span class="keywordflow">return</span> std::move(tile_t) |</div>
+<div class="line"><a id="l00123" name="l00123"></a><span class="lineno">  123</span>           di::transform(di::Policy&lt;Backend::MC&gt;(pika::execution::thread_priority::high), trmvLoop);</div>
+<div class="line"><a id="l00124" name="l00124"></a><span class="lineno">  124</span>  }</div>
+<div class="line"><a id="l00125" name="l00125"></a><span class="lineno">  125</span> </div>
+<div class="line"><a id="l00126" name="l00126"></a><span class="lineno">  126</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepCopyDiagAndTRMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
+<div class="line"><a id="l00127" name="l00127"></a><span class="lineno">  127</span>                                  <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::CPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00128" name="l00128"></a><span class="lineno">  128</span>    <span class="keyword">auto</span> tausdiag_trmvloop = [](<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
+<div class="line"><a id="l00129" name="l00129"></a><span class="lineno">  129</span>                                <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::CPU&gt;</a> tile_t) {</div>
+<div class="line"><a id="l00130" name="l00130"></a><span class="lineno">  130</span>      <a class="code hl_class" href="classdlaf_1_1common_1_1internal_1_1_single_threaded_blas_scope.html">common::internal::SingleThreadedBlasScope</a> single;</div>
+<div class="line"><a id="l00131" name="l00131"></a><span class="lineno">  131</span> </div>
+<div class="line"><a id="l00132" name="l00132"></a><span class="lineno">  132</span>      <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
+<div class="line"><a id="l00133" name="l00133"></a><span class="lineno">  133</span>      lapack::lacpy(blas::Uplo::General, 1, k, taus.ptr(), 1, tile_t.ptr(), tile_t.ld() + 1);</div>
+<div class="line"><a id="l00134" name="l00134"></a><span class="lineno">  134</span> </div>
+<div class="line"><a id="l00135" name="l00135"></a><span class="lineno">  135</span>      trmvLoop(tile_t);</div>
+<div class="line"><a id="l00136" name="l00136"></a><span class="lineno">  136</span>    };</div>
+<div class="line"><a id="l00137" name="l00137"></a><span class="lineno">  137</span> </div>
+<div class="line"><a id="l00138" name="l00138"></a><span class="lineno">  138</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00139" name="l00139"></a><span class="lineno">  139</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00140" name="l00140"></a><span class="lineno">  140</span> </div>
+<div class="line"><a id="l00141" name="l00141"></a><span class="lineno">  141</span>    <span class="keywordflow">return</span> ex::when_all(std::move(taus), std::move(tile_t)) |</div>
+<div class="line"><a id="l00142" name="l00142"></a><span class="lineno">  142</span>           di::transform(di::Policy&lt;Backend::MC&gt;(pika::execution::thread_priority::high),</div>
+<div class="line"><a id="l00143" name="l00143"></a><span class="lineno">  143</span>                         std::move(tausdiag_trmvloop));</div>
+<div class="line"><a id="l00144" name="l00144"></a><span class="lineno">  144</span>  }</div>
+<div class="line"><a id="l00145" name="l00145"></a><span class="lineno">  145</span>};</div>
 </div>
-<div class="line"><a id="l00145" name="l00145"></a><span class="lineno">  145</span> </div>
-<div class="line"><a id="l00146" name="l00146"></a><span class="lineno">  146</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a id="l00147" name="l00147"></a><span class="lineno">  147</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="foldopen" id="foldopen00148" data-start="{" data-end="};">
-<div class="line"><a id="l00148" name="l00148"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers_3_01_backend_1_1_g_p_u_00_01_device_1_1_g_p_u_00_01_t_01_4.html">  148</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">Helpers</a>&lt;Backend::GPU, Device::GPU, T&gt; {</div>
-<div class="line"><a id="l00149" name="l00149"></a><span class="lineno">  149</span>  <span class="keyword">static</span> <span class="keyword">auto</span> prepareT(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
-<div class="line"><a id="l00150" name="l00150"></a><span class="lineno">  150</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::GPU&gt;</a> tile_t) {</div>
-<div class="line"><a id="l00151" name="l00151"></a><span class="lineno">  151</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00152" name="l00152"></a><span class="lineno">  152</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00153" name="l00153"></a><span class="lineno">  153</span> </div>
-<div class="line"><a id="l00154" name="l00154"></a><span class="lineno">  154</span>    <span class="keywordflow">return</span> ex::when_all(std::move(taus), std::move(tile_t)) |</div>
-<div class="line"><a id="l00155" name="l00155"></a><span class="lineno">  155</span>           di::transform(di::Policy&lt;Backend::GPU&gt;(pika::execution::thread_priority::high),</div>
-<div class="line"><a id="l00156" name="l00156"></a><span class="lineno">  156</span>                         [](<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
-<div class="line"><a id="l00157" name="l00157"></a><span class="lineno">  157</span>                            <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::GPU&gt;</a>&amp; tile_t, whip::stream_t stream) {</div>
-<div class="line"><a id="l00158" name="l00158"></a><span class="lineno">  158</span>                           tile::internal::set0&lt;T&gt;(tile_t, stream);</div>
-<div class="line"><a id="l00159" name="l00159"></a><span class="lineno">  159</span> </div>
-<div class="line"><a id="l00160" name="l00160"></a><span class="lineno">  160</span>                           <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
-<div class="line"><a id="l00161" name="l00161"></a><span class="lineno">  161</span>                           whip::memcpy_2d_async(tile_t.ptr(), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(tile_t.ld() + 1) * <span class="keyword">sizeof</span>(T),</div>
-<div class="line"><a id="l00162" name="l00162"></a><span class="lineno">  162</span>                                                 taus.ptr(), <span class="keyword">sizeof</span>(T), <span class="keyword">sizeof</span>(T), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(k),</div>
-<div class="line"><a id="l00163" name="l00163"></a><span class="lineno">  163</span>                                                 whip::memcpy_host_to_device, stream);</div>
-<div class="line"><a id="l00164" name="l00164"></a><span class="lineno">  164</span> </div>
-<div class="line"><a id="l00165" name="l00165"></a><span class="lineno">  165</span>                           <span class="keywordflow">return</span> std::move(tile_t);</div>
-<div class="line"><a id="l00166" name="l00166"></a><span class="lineno">  166</span>                         });</div>
-<div class="line"><a id="l00167" name="l00167"></a><span class="lineno">  167</span>  }</div>
-<div class="line"><a id="l00168" name="l00168"></a><span class="lineno">  168</span> </div>
-<div class="line"><a id="l00169" name="l00169"></a><span class="lineno">  169</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepGEMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::GPU&gt;</a> tile_vi,</div>
-<div class="line"><a id="l00170" name="l00170"></a><span class="lineno">  170</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
-<div class="line"><a id="l00171" name="l00171"></a><span class="lineno">  171</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::GPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00172" name="l00172"></a><span class="lineno">  172</span>    <span class="keyword">auto</span> gemv_func = [](cublasHandle_t handle, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::GPU&gt;</a>&amp; tile_v,</div>
-<div class="line"><a id="l00173" name="l00173"></a><span class="lineno">  173</span>                        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
-<div class="line"><a id="l00174" name="l00174"></a><span class="lineno">  174</span>                        <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::GPU&gt;</a>&amp; tile_t) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00175" name="l00175"></a><span class="lineno">  175</span>      <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
-<div class="line"><a id="l00176" name="l00176"></a><span class="lineno">  176</span>      DLAF_ASSERT(tile_v.size().cols() == k, tile_v.size().cols(), k);</div>
-<div class="line"><a id="l00177" name="l00177"></a><span class="lineno">  177</span>      DLAF_ASSERT(taus.size().rows() == k, taus.size().rows(), k);</div>
-<div class="line"><a id="l00178" name="l00178"></a><span class="lineno">  178</span>      DLAF_ASSERT(taus.size().cols() == 1, taus.size().cols());</div>
-<div class="line"><a id="l00179" name="l00179"></a><span class="lineno">  179</span> </div>
-<div class="line"><a id="l00180" name="l00180"></a><span class="lineno">  180</span>      <span class="keywordflow">for</span> (SizeType j = 0; j &lt; k; ++j) {</div>
-<div class="line"><a id="l00181" name="l00181"></a><span class="lineno">  181</span>        <span class="comment">// T(0:j, j) = -tau . V(j:, 0:j)* . V(j:, j)</span></div>
-<div class="line"><a id="l00182" name="l00182"></a><span class="lineno">  182</span>        <span class="comment">// [j x 1] = [(n-j) x j]* . [(n-j) x 1]</span></div>
-<div class="line"><a id="l00183" name="l00183"></a><span class="lineno">  183</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> va_start{0, 0};</div>
-<div class="line"><a id="l00184" name="l00184"></a><span class="lineno">  184</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> vb_start{0, j};</div>
-<div class="line"><a id="l00185" name="l00185"></a><span class="lineno">  185</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a> va_size{tile_v.size().rows(), j};</div>
-<div class="line"><a id="l00186" name="l00186"></a><span class="lineno">  186</span>        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> t_start{0, j};</div>
-<div class="line"><a id="l00187" name="l00187"></a><span class="lineno">  187</span>        <span class="keyword">const</span> <span class="keyword">auto</span> neg_tau = util::blasToCublasCast(-taus({j, 0}));</div>
-<div class="line"><a id="l00188" name="l00188"></a><span class="lineno">  188</span>        <span class="keyword">const</span> <span class="keyword">auto</span> one = util::blasToCublasCast(T{1});</div>
-<div class="line"><a id="l00189" name="l00189"></a><span class="lineno">  189</span> </div>
-<div class="line"><a id="l00190" name="l00190"></a><span class="lineno">  190</span>        gpublas::internal::Gemv&lt;T&gt;::call(handle, CUBLAS_OP_C, <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(va_size.rows()),</div>
-<div class="line"><a id="l00191" name="l00191"></a><span class="lineno">  191</span>                                         <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(va_size.cols()), &amp;neg_tau,</div>
-<div class="line"><a id="l00192" name="l00192"></a><span class="lineno">  192</span>                                         util::blasToCublasCast(tile_v.ptr(va_start)),</div>
-<div class="line"><a id="l00193" name="l00193"></a><span class="lineno">  193</span>                                         <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(tile_v.ld()),</div>
-<div class="line"><a id="l00194" name="l00194"></a><span class="lineno">  194</span>                                         util::blasToCublasCast(tile_v.ptr(vb_start)), 1, &amp;one,</div>
-<div class="line"><a id="l00195" name="l00195"></a><span class="lineno">  195</span>                                         util::blasToCublasCast(tile_t.ptr(t_start)), 1);</div>
-<div class="line"><a id="l00196" name="l00196"></a><span class="lineno">  196</span>      }</div>
-<div class="line"><a id="l00197" name="l00197"></a><span class="lineno">  197</span>      <span class="keywordflow">return</span> std::move(tile_t);</div>
-<div class="line"><a id="l00198" name="l00198"></a><span class="lineno">  198</span>    };</div>
-<div class="line"><a id="l00199" name="l00199"></a><span class="lineno">  199</span> </div>
-<div class="line"><a id="l00200" name="l00200"></a><span class="lineno">  200</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00201" name="l00201"></a><span class="lineno">  201</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00202" name="l00202"></a><span class="lineno">  202</span> </div>
-<div class="line"><a id="l00203" name="l00203"></a><span class="lineno">  203</span>    <span class="keywordflow">return</span> ex::when_all(std::move(tile_vi), std::move(taus), std::move(tile_t)) |</div>
-<div class="line"><a id="l00204" name="l00204"></a><span class="lineno">  204</span>           di::transform&lt;di::TransformDispatchType::Blas&gt;(</div>
-<div class="line"><a id="l00205" name="l00205"></a><span class="lineno">  205</span>               di::Policy&lt;Backend::GPU&gt;(pika::execution::thread_priority::high), std::move(gemv_func));</div>
-<div class="line"><a id="l00206" name="l00206"></a><span class="lineno">  206</span>  }</div>
-<div class="line"><a id="l00207" name="l00207"></a><span class="lineno">  207</span> </div>
-<div class="line"><a id="l00208" name="l00208"></a><span class="lineno">  208</span>  <span class="keyword">static</span> <span class="keywordtype">void</span> trmvLoop(cublasHandle_t handle, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::GPU&gt;</a>&amp; tile_t) {</div>
-<div class="line"><a id="l00209" name="l00209"></a><span class="lineno">  209</span>    <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
-<div class="line"><a id="l00210" name="l00210"></a><span class="lineno">  210</span> </div>
-<div class="line"><a id="l00211" name="l00211"></a><span class="lineno">  211</span>    <span class="comment">// Update each column (in order) t = T . t</span></div>
-<div class="line"><a id="l00212" name="l00212"></a><span class="lineno">  212</span>    <span class="comment">// remember that T is upper triangular, so it is possible to use TRMV</span></div>
-<div class="line"><a id="l00213" name="l00213"></a><span class="lineno">  213</span>    <span class="keywordflow">for</span> (SizeType j = 0; j &lt; k; ++j) {</div>
-<div class="line"><a id="l00214" name="l00214"></a><span class="lineno">  214</span>      <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> t_start{0, j};</div>
-<div class="line"><a id="l00215" name="l00215"></a><span class="lineno">  215</span>      <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a> t_size{j, 1};</div>
-<div class="line"><a id="l00216" name="l00216"></a><span class="lineno">  216</span> </div>
-<div class="line"><a id="l00217" name="l00217"></a><span class="lineno">  217</span>      gpublas::internal::Trmv&lt;T&gt;::call(handle, CUBLAS_FILL_MODE_UPPER, CUBLAS_OP_N, CUBLAS_DIAG_NON_UNIT,</div>
-<div class="line"><a id="l00218" name="l00218"></a><span class="lineno">  218</span>                                       <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(t_size.rows()), util::blasToCublasCast(tile_t.ptr()),</div>
-<div class="line"><a id="l00219" name="l00219"></a><span class="lineno">  219</span>                                       <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(tile_t.ld()), util::blasToCublasCast(tile_t.ptr(t_start)),</div>
-<div class="line"><a id="l00220" name="l00220"></a><span class="lineno">  220</span>                                       1);</div>
-<div class="line"><a id="l00221" name="l00221"></a><span class="lineno">  221</span>    }</div>
-<div class="line"><a id="l00222" name="l00222"></a><span class="lineno">  222</span>  }</div>
-<div class="line"><a id="l00223" name="l00223"></a><span class="lineno">  223</span> </div>
-<div class="line"><a id="l00224" name="l00224"></a><span class="lineno">  224</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepTRMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::GPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00225" name="l00225"></a><span class="lineno">  225</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00226" name="l00226"></a><span class="lineno">  226</span> </div>
-<div class="line"><a id="l00227" name="l00227"></a><span class="lineno">  227</span>    <span class="keywordflow">return</span> std::move(tile_t) |</div>
-<div class="line"><a id="l00228" name="l00228"></a><span class="lineno">  228</span>           di::transform&lt;di::TransformDispatchType::Blas&gt;(</div>
-<div class="line"><a id="l00229" name="l00229"></a><span class="lineno">  229</span>               di::Policy&lt;Backend::GPU&gt;(pika::execution::thread_priority::high), trmvLoop);</div>
-<div class="line"><a id="l00230" name="l00230"></a><span class="lineno">  230</span>  }</div>
-<div class="line"><a id="l00231" name="l00231"></a><span class="lineno">  231</span> </div>
-<div class="line"><a id="l00232" name="l00232"></a><span class="lineno">  232</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepCopyDiagAndTRMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
-<div class="line"><a id="l00233" name="l00233"></a><span class="lineno">  233</span>                                  <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::GPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
-<div class="line"><a id="l00234" name="l00234"></a><span class="lineno">  234</span>    <span class="comment">// Update each column (in order) t = T . t</span></div>
-<div class="line"><a id="l00235" name="l00235"></a><span class="lineno">  235</span>    <span class="comment">// remember that T is upper triangular, so it is possible to use TRMV</span></div>
-<div class="line"><a id="l00236" name="l00236"></a><span class="lineno">  236</span>    <span class="keyword">auto</span> trmv_func = [](cublasHandle_t handle, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
-<div class="line"><a id="l00237" name="l00237"></a><span class="lineno">  237</span>                        <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::GPU&gt;</a>&amp; tile_t) {</div>
-<div class="line"><a id="l00238" name="l00238"></a><span class="lineno">  238</span>      whip::stream_t stream;</div>
-<div class="line"><a id="l00239" name="l00239"></a><span class="lineno">  239</span>      DLAF_GPUBLAS_CHECK_ERROR(cublasGetStream(handle, &amp;stream));</div>
-<div class="line"><a id="l00240" name="l00240"></a><span class="lineno">  240</span> </div>
-<div class="line"><a id="l00241" name="l00241"></a><span class="lineno">  241</span>      <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
-<div class="line"><a id="l00242" name="l00242"></a><span class="lineno">  242</span>      whip::memcpy_2d_async(tile_t.ptr(), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(tile_t.ld() + 1) * <span class="keyword">sizeof</span>(T), taus.ptr(), <span class="keyword">sizeof</span>(T),</div>
-<div class="line"><a id="l00243" name="l00243"></a><span class="lineno">  243</span>                            <span class="keyword">sizeof</span>(T), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(k), whip::memcpy_host_to_device, stream);</div>
-<div class="line"><a id="l00244" name="l00244"></a><span class="lineno">  244</span> </div>
-<div class="line"><a id="l00245" name="l00245"></a><span class="lineno">  245</span>      trmvLoop(handle, tile_t);</div>
-<div class="line"><a id="l00246" name="l00246"></a><span class="lineno">  246</span>    };</div>
-<div class="line"><a id="l00247" name="l00247"></a><span class="lineno">  247</span> </div>
-<div class="line"><a id="l00248" name="l00248"></a><span class="lineno">  248</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00249" name="l00249"></a><span class="lineno">  249</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a id="l00250" name="l00250"></a><span class="lineno">  250</span> </div>
-<div class="line"><a id="l00251" name="l00251"></a><span class="lineno">  251</span>    <span class="keywordflow">return</span> ex::when_all(std::move(taus), std::move(tile_t)) |</div>
-<div class="line"><a id="l00252" name="l00252"></a><span class="lineno">  252</span>           di::transform&lt;di::TransformDispatchType::Blas&gt;(</div>
-<div class="line"><a id="l00253" name="l00253"></a><span class="lineno">  253</span>               di::Policy&lt;Backend::GPU&gt;(pika::execution::thread_priority::high), std::move(trmv_func));</div>
-<div class="line"><a id="l00254" name="l00254"></a><span class="lineno">  254</span>  }</div>
-<div class="line"><a id="l00255" name="l00255"></a><span class="lineno">  255</span>};</div>
+<div class="line"><a id="l00146" name="l00146"></a><span class="lineno">  146</span> </div>
+<div class="line"><a id="l00147" name="l00147"></a><span class="lineno">  147</span><span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
+<div class="line"><a id="l00148" name="l00148"></a><span class="lineno">  148</span><span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="foldopen" id="foldopen00149" data-start="{" data-end="};">
+<div class="line"><a id="l00149" name="l00149"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers_3_01_backend_1_1_g_p_u_00_01_device_1_1_g_p_u_00_01_t_01_4.html">  149</a></span><span class="keyword">struct </span><a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">Helpers</a>&lt;Backend::GPU, Device::GPU, T&gt; {</div>
+<div class="line"><a id="l00150" name="l00150"></a><span class="lineno">  150</span>  <span class="keyword">static</span> <span class="keyword">auto</span> prepareT(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
+<div class="line"><a id="l00151" name="l00151"></a><span class="lineno">  151</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::GPU&gt;</a> tile_t) {</div>
+<div class="line"><a id="l00152" name="l00152"></a><span class="lineno">  152</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00153" name="l00153"></a><span class="lineno">  153</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00154" name="l00154"></a><span class="lineno">  154</span> </div>
+<div class="line"><a id="l00155" name="l00155"></a><span class="lineno">  155</span>    <span class="keywordflow">return</span> ex::when_all(std::move(taus), std::move(tile_t)) |</div>
+<div class="line"><a id="l00156" name="l00156"></a><span class="lineno">  156</span>           di::transform(di::Policy&lt;Backend::GPU&gt;(pika::execution::thread_priority::high),</div>
+<div class="line"><a id="l00157" name="l00157"></a><span class="lineno">  157</span>                         [](<span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
+<div class="line"><a id="l00158" name="l00158"></a><span class="lineno">  158</span>                            <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::GPU&gt;</a>&amp; tile_t, whip::stream_t stream) {</div>
+<div class="line"><a id="l00159" name="l00159"></a><span class="lineno">  159</span>                           tile::internal::set0&lt;T&gt;(tile_t, stream);</div>
+<div class="line"><a id="l00160" name="l00160"></a><span class="lineno">  160</span> </div>
+<div class="line"><a id="l00161" name="l00161"></a><span class="lineno">  161</span>                           <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
+<div class="line"><a id="l00162" name="l00162"></a><span class="lineno">  162</span>                           whip::memcpy_2d_async(tile_t.ptr(), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(tile_t.ld() + 1) * <span class="keyword">sizeof</span>(T),</div>
+<div class="line"><a id="l00163" name="l00163"></a><span class="lineno">  163</span>                                                 taus.ptr(), <span class="keyword">sizeof</span>(T), <span class="keyword">sizeof</span>(T), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(k),</div>
+<div class="line"><a id="l00164" name="l00164"></a><span class="lineno">  164</span>                                                 whip::memcpy_host_to_device, stream);</div>
+<div class="line"><a id="l00165" name="l00165"></a><span class="lineno">  165</span> </div>
+<div class="line"><a id="l00166" name="l00166"></a><span class="lineno">  166</span>                           <span class="keywordflow">return</span> std::move(tile_t);</div>
+<div class="line"><a id="l00167" name="l00167"></a><span class="lineno">  167</span>                         });</div>
+<div class="line"><a id="l00168" name="l00168"></a><span class="lineno">  168</span>  }</div>
+<div class="line"><a id="l00169" name="l00169"></a><span class="lineno">  169</span> </div>
+<div class="line"><a id="l00170" name="l00170"></a><span class="lineno">  170</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepGEMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::GPU&gt;</a> tile_vi,</div>
+<div class="line"><a id="l00171" name="l00171"></a><span class="lineno">  171</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
+<div class="line"><a id="l00172" name="l00172"></a><span class="lineno">  172</span>                       <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::GPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00173" name="l00173"></a><span class="lineno">  173</span>    <span class="keyword">auto</span> gemv_func = [](cublasHandle_t handle, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::GPU&gt;</a>&amp; tile_v,</div>
+<div class="line"><a id="l00174" name="l00174"></a><span class="lineno">  174</span>                        <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
+<div class="line"><a id="l00175" name="l00175"></a><span class="lineno">  175</span>                        <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::GPU&gt;</a>&amp; tile_t) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00176" name="l00176"></a><span class="lineno">  176</span>      <span class="keyword">const</span> SizeType m = tile_v.size().rows();</div>
+<div class="line"><a id="l00177" name="l00177"></a><span class="lineno">  177</span>      <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
+<div class="line"><a id="l00178" name="l00178"></a><span class="lineno">  178</span>      DLAF_ASSERT(tile_v.size().cols() == k, tile_v.size().cols(), k);</div>
+<div class="line"><a id="l00179" name="l00179"></a><span class="lineno">  179</span>      DLAF_ASSERT(taus.size().rows() == k, taus.size().rows(), k);</div>
+<div class="line"><a id="l00180" name="l00180"></a><span class="lineno">  180</span>      DLAF_ASSERT(taus.size().cols() == 1, taus.size().cols());</div>
+<div class="line"><a id="l00181" name="l00181"></a><span class="lineno">  181</span> </div>
+<div class="line"><a id="l00182" name="l00182"></a><span class="lineno">  182</span>      gpulapack::larft_gemv0(handle, m, k, tile_v.ptr(), tile_v.ld(), taus.ptr(), tile_t.ptr(),</div>
+<div class="line"><a id="l00183" name="l00183"></a><span class="lineno">  183</span>                             tile_t.ld());</div>
+<div class="line"><a id="l00184" name="l00184"></a><span class="lineno">  184</span> </div>
+<div class="line"><a id="l00185" name="l00185"></a><span class="lineno">  185</span>      <span class="keywordflow">return</span> std::move(tile_t);</div>
+<div class="line"><a id="l00186" name="l00186"></a><span class="lineno">  186</span>    };</div>
+<div class="line"><a id="l00187" name="l00187"></a><span class="lineno">  187</span> </div>
+<div class="line"><a id="l00188" name="l00188"></a><span class="lineno">  188</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00189" name="l00189"></a><span class="lineno">  189</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00190" name="l00190"></a><span class="lineno">  190</span> </div>
+<div class="line"><a id="l00191" name="l00191"></a><span class="lineno">  191</span>    <span class="keywordflow">return</span> ex::when_all(std::move(tile_vi), std::move(taus), std::move(tile_t)) |</div>
+<div class="line"><a id="l00192" name="l00192"></a><span class="lineno">  192</span>           di::transform&lt;di::TransformDispatchType::Blas&gt;(</div>
+<div class="line"><a id="l00193" name="l00193"></a><span class="lineno">  193</span>               di::Policy&lt;Backend::GPU&gt;(pika::execution::thread_priority::high), std::move(gemv_func));</div>
+<div class="line"><a id="l00194" name="l00194"></a><span class="lineno">  194</span>  }</div>
+<div class="line"><a id="l00195" name="l00195"></a><span class="lineno">  195</span> </div>
+<div class="line"><a id="l00196" name="l00196"></a><span class="lineno">  196</span>  <span class="keyword">static</span> <span class="keywordtype">void</span> trmvLoop(cublasHandle_t handle, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::GPU&gt;</a>&amp; tile_t) {</div>
+<div class="line"><a id="l00197" name="l00197"></a><span class="lineno">  197</span>    <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
+<div class="line"><a id="l00198" name="l00198"></a><span class="lineno">  198</span> </div>
+<div class="line"><a id="l00199" name="l00199"></a><span class="lineno">  199</span>    <span class="comment">// Update each column (in order) t = T . t</span></div>
+<div class="line"><a id="l00200" name="l00200"></a><span class="lineno">  200</span>    <span class="comment">// remember that T is upper triangular, so it is possible to use TRMV</span></div>
+<div class="line"><a id="l00201" name="l00201"></a><span class="lineno">  201</span>    <span class="keywordflow">for</span> (SizeType j = 0; j &lt; k; ++j) {</div>
+<div class="line"><a id="l00202" name="l00202"></a><span class="lineno">  202</span>      <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_index2_d.html">TileElementIndex</a> t_start{0, j};</div>
+<div class="line"><a id="l00203" name="l00203"></a><span class="lineno">  203</span>      <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1common_1_1_size2_d.html">TileElementSize</a> t_size{j, 1};</div>
+<div class="line"><a id="l00204" name="l00204"></a><span class="lineno">  204</span> </div>
+<div class="line"><a id="l00205" name="l00205"></a><span class="lineno">  205</span>      gpublas::internal::Trmv&lt;T&gt;::call(handle, CUBLAS_FILL_MODE_UPPER, CUBLAS_OP_N, CUBLAS_DIAG_NON_UNIT,</div>
+<div class="line"><a id="l00206" name="l00206"></a><span class="lineno">  206</span>                                       <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(t_size.rows()), util::blasToCublasCast(tile_t.ptr()),</div>
+<div class="line"><a id="l00207" name="l00207"></a><span class="lineno">  207</span>                                       <a class="code hl_function" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(tile_t.ld()), util::blasToCublasCast(tile_t.ptr(t_start)),</div>
+<div class="line"><a id="l00208" name="l00208"></a><span class="lineno">  208</span>                                       1);</div>
+<div class="line"><a id="l00209" name="l00209"></a><span class="lineno">  209</span>    }</div>
+<div class="line"><a id="l00210" name="l00210"></a><span class="lineno">  210</span>  }</div>
+<div class="line"><a id="l00211" name="l00211"></a><span class="lineno">  211</span> </div>
+<div class="line"><a id="l00212" name="l00212"></a><span class="lineno">  212</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepTRMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::GPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00213" name="l00213"></a><span class="lineno">  213</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00214" name="l00214"></a><span class="lineno">  214</span> </div>
+<div class="line"><a id="l00215" name="l00215"></a><span class="lineno">  215</span>    <span class="keywordflow">return</span> std::move(tile_t) |</div>
+<div class="line"><a id="l00216" name="l00216"></a><span class="lineno">  216</span>           di::transform&lt;di::TransformDispatchType::Blas&gt;(</div>
+<div class="line"><a id="l00217" name="l00217"></a><span class="lineno">  217</span>               di::Policy&lt;Backend::GPU&gt;(pika::execution::thread_priority::high), trmvLoop);</div>
+<div class="line"><a id="l00218" name="l00218"></a><span class="lineno">  218</span>  }</div>
+<div class="line"><a id="l00219" name="l00219"></a><span class="lineno">  219</span> </div>
+<div class="line"><a id="l00220" name="l00220"></a><span class="lineno">  220</span>  <span class="keyword">static</span> <span class="keyword">auto</span> stepCopyDiagAndTRMV(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
+<div class="line"><a id="l00221" name="l00221"></a><span class="lineno">  221</span>                                  <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, Device::GPU&gt;</a> tile_t) <span class="keyword">noexcept</span> {</div>
+<div class="line"><a id="l00222" name="l00222"></a><span class="lineno">  222</span>    <span class="comment">// Update each column (in order) t = T . t</span></div>
+<div class="line"><a id="l00223" name="l00223"></a><span class="lineno">  223</span>    <span class="comment">// remember that T is upper triangular, so it is possible to use TRMV</span></div>
+<div class="line"><a id="l00224" name="l00224"></a><span class="lineno">  224</span>    <span class="keyword">auto</span> trmv_func = [](cublasHandle_t handle, <span class="keyword">const</span> <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;const T, Device::CPU&gt;</a>&amp; taus,</div>
+<div class="line"><a id="l00225" name="l00225"></a><span class="lineno">  225</span>                        <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Tile&lt;T, Device::GPU&gt;</a>&amp; tile_t) {</div>
+<div class="line"><a id="l00226" name="l00226"></a><span class="lineno">  226</span>      whip::stream_t stream;</div>
+<div class="line"><a id="l00227" name="l00227"></a><span class="lineno">  227</span>      DLAF_GPUBLAS_CHECK_ERROR(cublasGetStream(handle, &amp;stream));</div>
+<div class="line"><a id="l00228" name="l00228"></a><span class="lineno">  228</span> </div>
+<div class="line"><a id="l00229" name="l00229"></a><span class="lineno">  229</span>      <span class="keyword">const</span> SizeType k = tile_t.size().cols();</div>
+<div class="line"><a id="l00230" name="l00230"></a><span class="lineno">  230</span>      whip::memcpy_2d_async(tile_t.ptr(), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(tile_t.ld() + 1) * <span class="keyword">sizeof</span>(T), taus.ptr(), <span class="keyword">sizeof</span>(T),</div>
+<div class="line"><a id="l00231" name="l00231"></a><span class="lineno">  231</span>                            <span class="keyword">sizeof</span>(T), <a class="code hl_function" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(k), whip::memcpy_host_to_device, stream);</div>
+<div class="line"><a id="l00232" name="l00232"></a><span class="lineno">  232</span> </div>
+<div class="line"><a id="l00233" name="l00233"></a><span class="lineno">  233</span>      trmvLoop(handle, tile_t);</div>
+<div class="line"><a id="l00234" name="l00234"></a><span class="lineno">  234</span>    };</div>
+<div class="line"><a id="l00235" name="l00235"></a><span class="lineno">  235</span> </div>
+<div class="line"><a id="l00236" name="l00236"></a><span class="lineno">  236</span>    <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00237" name="l00237"></a><span class="lineno">  237</span>    <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a id="l00238" name="l00238"></a><span class="lineno">  238</span> </div>
+<div class="line"><a id="l00239" name="l00239"></a><span class="lineno">  239</span>    <span class="keywordflow">return</span> ex::when_all(std::move(taus), std::move(tile_t)) |</div>
+<div class="line"><a id="l00240" name="l00240"></a><span class="lineno">  240</span>           di::transform&lt;di::TransformDispatchType::Blas&gt;(</div>
+<div class="line"><a id="l00241" name="l00241"></a><span class="lineno">  241</span>               di::Policy&lt;Backend::GPU&gt;(pika::execution::thread_priority::high), std::move(trmv_func));</div>
+<div class="line"><a id="l00242" name="l00242"></a><span class="lineno">  242</span>  }</div>
+<div class="line"><a id="l00243" name="l00243"></a><span class="lineno">  243</span>};</div>
 </div>
-<div class="line"><a id="l00256" name="l00256"></a><span class="lineno">  256</span><span class="preprocessor">#endif</span></div>
-<div class="line"><a id="l00257" name="l00257"></a><span class="lineno">  257</span>}</div>
+<div class="line"><a id="l00244" name="l00244"></a><span class="lineno">  244</span><span class="preprocessor">#endif</span></div>
+<div class="line"><a id="l00245" name="l00245"></a><span class="lineno">  245</span>}</div>
+<div class="line"><a id="l00246" name="l00246"></a><span class="lineno">  246</span> </div>
+<div class="line"><a id="l00247" name="l00247"></a><span class="lineno">  247</span><span class="keyword">template</span> &lt;Backend backend, Device device, <span class="keyword">class</span> T&gt;</div>
+<div class="foldopen" id="foldopen00248" data-start="{" data-end="}">
+<div class="line"><a id="l00248" name="l00248"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">  248</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">QR_Tfactor&lt;backend, device, T&gt;::call</a>(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Panel&lt;Coord::Col, T, device&gt;</a>&amp; hh_panel,</div>
+<div class="line"><a id="l00249" name="l00249"></a><span class="lineno">  249</span>                                          <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
+<div class="line"><a id="l00250" name="l00250"></a><span class="lineno">  250</span>                                          <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, device&gt;</a> tile_t) {</div>
+<div class="line"><a id="l00251" name="l00251"></a><span class="lineno">  251</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00252" name="l00252"></a><span class="lineno">  252</span> </div>
+<div class="line"><a id="l00253" name="l00253"></a><span class="lineno">  253</span>  <span class="keyword">using </span>Helpers = <a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">tfactor_l::Helpers&lt;backend, device, T&gt;</a>;</div>
+<div class="line"><a id="l00254" name="l00254"></a><span class="lineno">  254</span> </div>
+<div class="line"><a id="l00255" name="l00255"></a><span class="lineno">  255</span>  <span class="comment">// Fast return in case of no reflectors</span></div>
+<div class="line"><a id="l00256" name="l00256"></a><span class="lineno">  256</span>  <span class="keywordflow">if</span> (hh_panel.getWidth() == 0)</div>
+<div class="line"><a id="l00257" name="l00257"></a><span class="lineno">  257</span>    <span class="keywordflow">return</span>;</div>
 <div class="line"><a id="l00258" name="l00258"></a><span class="lineno">  258</span> </div>
-<div class="line"><a id="l00259" name="l00259"></a><span class="lineno">  259</span><span class="keyword">template</span> &lt;Backend backend, Device device, <span class="keyword">class</span> T&gt;</div>
-<div class="foldopen" id="foldopen00260" data-start="{" data-end="}">
-<div class="line"><a id="l00260" name="l00260"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">  260</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">QR_Tfactor&lt;backend, device, T&gt;::call</a>(<a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Panel&lt;Coord::Col, T, device&gt;</a>&amp; hh_panel,</div>
-<div class="line"><a id="l00261" name="l00261"></a><span class="lineno">  261</span>                                          <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
-<div class="line"><a id="l00262" name="l00262"></a><span class="lineno">  262</span>                                          <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, device&gt;</a> tile_t) {</div>
-<div class="line"><a id="l00263" name="l00263"></a><span class="lineno">  263</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00264" name="l00264"></a><span class="lineno">  264</span> </div>
-<div class="line"><a id="l00265" name="l00265"></a><span class="lineno">  265</span>  <span class="keyword">using </span>Helpers = <a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">tfactor_l::Helpers&lt;backend, device, T&gt;</a>;</div>
-<div class="line"><a id="l00266" name="l00266"></a><span class="lineno">  266</span> </div>
-<div class="line"><a id="l00267" name="l00267"></a><span class="lineno">  267</span>  <span class="comment">// Fast return in case of no reflectors</span></div>
-<div class="line"><a id="l00268" name="l00268"></a><span class="lineno">  268</span>  <span class="keywordflow">if</span> (hh_panel.getWidth() == 0)</div>
-<div class="line"><a id="l00269" name="l00269"></a><span class="lineno">  269</span>    <span class="keywordflow">return</span>;</div>
-<div class="line"><a id="l00270" name="l00270"></a><span class="lineno">  270</span> </div>
-<div class="line"><a id="l00271" name="l00271"></a><span class="lineno">  271</span>  tile_t = Helpers::prepareT(taus, std::move(tile_t));</div>
-<div class="line"><a id="l00272" name="l00272"></a><span class="lineno">  272</span> </div>
-<div class="line"><a id="l00273" name="l00273"></a><span class="lineno">  273</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00274" name="l00274"></a><span class="lineno">  274</span>  <span class="comment">// T factor is an upper triangular square matrix, built column by column</span></div>
-<div class="line"><a id="l00275" name="l00275"></a><span class="lineno">  275</span>  <span class="comment">// with taus values on the diagonal</span></div>
-<div class="line"><a id="l00276" name="l00276"></a><span class="lineno">  276</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00277" name="l00277"></a><span class="lineno">  277</span>  <span class="comment">// T(j,j) = tau(j)</span></div>
-<div class="line"><a id="l00278" name="l00278"></a><span class="lineno">  278</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00279" name="l00279"></a><span class="lineno">  279</span>  <span class="comment">// and in the upper triangular part the following formula applies</span></div>
-<div class="line"><a id="l00280" name="l00280"></a><span class="lineno">  280</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00281" name="l00281"></a><span class="lineno">  281</span>  <span class="comment">// T(0:j, j) = T(0:j, 0:j) . -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
-<div class="line"><a id="l00282" name="l00282"></a><span class="lineno">  282</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00283" name="l00283"></a><span class="lineno">  283</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00284" name="l00284"></a><span class="lineno">  284</span>  <span class="comment">// The result is achieved in two main steps:</span></div>
-<div class="line"><a id="l00285" name="l00285"></a><span class="lineno">  285</span>  <span class="comment">// 1) t = -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
-<div class="line"><a id="l00286" name="l00286"></a><span class="lineno">  286</span>  <span class="comment">// 2) T(0:j, j) = T(0:j, 0:j) . t</span></div>
-<div class="line"><a id="l00287" name="l00287"></a><span class="lineno">  287</span> </div>
-<div class="line"><a id="l00288" name="l00288"></a><span class="lineno">  288</span>  <span class="comment">// 1st step: compute the column partial result `t`</span></div>
-<div class="line"><a id="l00289" name="l00289"></a><span class="lineno">  289</span>  <span class="comment">// First we compute the matrix vector multiplication for each column</span></div>
-<div class="line"><a id="l00290" name="l00290"></a><span class="lineno">  290</span>  <span class="comment">// -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
-<div class="line"><a id="l00291" name="l00291"></a><span class="lineno">  291</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i_lc : hh_panel.iteratorLocal()) {</div>
-<div class="line"><a id="l00292" name="l00292"></a><span class="lineno">  292</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00293" name="l00293"></a><span class="lineno">  293</span>    <span class="comment">// Since we are writing always on the same t, the gemv are serialized</span></div>
-<div class="line"><a id="l00294" name="l00294"></a><span class="lineno">  294</span>    <span class="comment">// A possible solution to this would be to have multiple places where to store partial</span></div>
-<div class="line"><a id="l00295" name="l00295"></a><span class="lineno">  295</span>    <span class="comment">// results, and then locally reduce them just before the reduce over ranks</span></div>
-<div class="line"><a id="l00296" name="l00296"></a><span class="lineno">  296</span>    tile_t = Helpers::stepGEMV(hh_panel.read(i_lc), taus, std::move(tile_t));</div>
-<div class="line"><a id="l00297" name="l00297"></a><span class="lineno">  297</span>  }</div>
-<div class="line"><a id="l00298" name="l00298"></a><span class="lineno">  298</span> </div>
-<div class="line"><a id="l00299" name="l00299"></a><span class="lineno">  299</span>  <span class="comment">// 2nd step: compute the T factor, by performing the last step on each column</span></div>
-<div class="line"><a id="l00300" name="l00300"></a><span class="lineno">  300</span>  <span class="comment">// each column depends on the previous part (all reflectors that comes before)</span></div>
-<div class="line"><a id="l00301" name="l00301"></a><span class="lineno">  301</span>  <span class="comment">// so it is performed sequentially</span></div>
-<div class="line"><a id="l00302" name="l00302"></a><span class="lineno">  302</span>  ex::start_detached(Helpers::stepTRMV(std::move(tile_t)));</div>
-<div class="line"><a id="l00303" name="l00303"></a><span class="lineno">  303</span>}</div>
+<div class="line"><a id="l00259" name="l00259"></a><span class="lineno">  259</span>  tile_t = Helpers::prepareT(taus, std::move(tile_t));</div>
+<div class="line"><a id="l00260" name="l00260"></a><span class="lineno">  260</span> </div>
+<div class="line"><a id="l00261" name="l00261"></a><span class="lineno">  261</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00262" name="l00262"></a><span class="lineno">  262</span>  <span class="comment">// T factor is an upper triangular square matrix, built column by column</span></div>
+<div class="line"><a id="l00263" name="l00263"></a><span class="lineno">  263</span>  <span class="comment">// with taus values on the diagonal</span></div>
+<div class="line"><a id="l00264" name="l00264"></a><span class="lineno">  264</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00265" name="l00265"></a><span class="lineno">  265</span>  <span class="comment">// T(j,j) = tau(j)</span></div>
+<div class="line"><a id="l00266" name="l00266"></a><span class="lineno">  266</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00267" name="l00267"></a><span class="lineno">  267</span>  <span class="comment">// and in the upper triangular part the following formula applies</span></div>
+<div class="line"><a id="l00268" name="l00268"></a><span class="lineno">  268</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00269" name="l00269"></a><span class="lineno">  269</span>  <span class="comment">// T(0:j, j) = T(0:j, 0:j) . -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
+<div class="line"><a id="l00270" name="l00270"></a><span class="lineno">  270</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00271" name="l00271"></a><span class="lineno">  271</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00272" name="l00272"></a><span class="lineno">  272</span>  <span class="comment">// The result is achieved in two main steps:</span></div>
+<div class="line"><a id="l00273" name="l00273"></a><span class="lineno">  273</span>  <span class="comment">// 1) t = -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
+<div class="line"><a id="l00274" name="l00274"></a><span class="lineno">  274</span>  <span class="comment">// 2) T(0:j, j) = T(0:j, 0:j) . t</span></div>
+<div class="line"><a id="l00275" name="l00275"></a><span class="lineno">  275</span> </div>
+<div class="line"><a id="l00276" name="l00276"></a><span class="lineno">  276</span>  <span class="comment">// 1st step: compute the column partial result `t`</span></div>
+<div class="line"><a id="l00277" name="l00277"></a><span class="lineno">  277</span>  <span class="comment">// First we compute the matrix vector multiplication for each column</span></div>
+<div class="line"><a id="l00278" name="l00278"></a><span class="lineno">  278</span>  <span class="comment">// -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
+<div class="line"><a id="l00279" name="l00279"></a><span class="lineno">  279</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i_lc : hh_panel.iteratorLocal()) {</div>
+<div class="line"><a id="l00280" name="l00280"></a><span class="lineno">  280</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00281" name="l00281"></a><span class="lineno">  281</span>    <span class="comment">// Since we are writing always on the same t, the gemv are serialized</span></div>
+<div class="line"><a id="l00282" name="l00282"></a><span class="lineno">  282</span>    <span class="comment">// A possible solution to this would be to have multiple places where to store partial</span></div>
+<div class="line"><a id="l00283" name="l00283"></a><span class="lineno">  283</span>    <span class="comment">// results, and then locally reduce them just before the reduce over ranks</span></div>
+<div class="line"><a id="l00284" name="l00284"></a><span class="lineno">  284</span>    tile_t = Helpers::stepGEMV(hh_panel.read(i_lc), taus, std::move(tile_t));</div>
+<div class="line"><a id="l00285" name="l00285"></a><span class="lineno">  285</span>  }</div>
+<div class="line"><a id="l00286" name="l00286"></a><span class="lineno">  286</span> </div>
+<div class="line"><a id="l00287" name="l00287"></a><span class="lineno">  287</span>  <span class="comment">// 2nd step: compute the T factor, by performing the last step on each column</span></div>
+<div class="line"><a id="l00288" name="l00288"></a><span class="lineno">  288</span>  <span class="comment">// each column depends on the previous part (all reflectors that comes before)</span></div>
+<div class="line"><a id="l00289" name="l00289"></a><span class="lineno">  289</span>  <span class="comment">// so it is performed sequentially</span></div>
+<div class="line"><a id="l00290" name="l00290"></a><span class="lineno">  290</span>  ex::start_detached(Helpers::stepTRMV(std::move(tile_t)));</div>
+<div class="line"><a id="l00291" name="l00291"></a><span class="lineno">  291</span>}</div>
 </div>
-<div class="line"><a id="l00304" name="l00304"></a><span class="lineno">  304</span> </div>
-<div class="line"><a id="l00305" name="l00305"></a><span class="lineno">  305</span><span class="keyword">template</span> &lt;Backend backend, Device device, <span class="keyword">class</span> T&gt;</div>
-<div class="foldopen" id="foldopen00306" data-start="{" data-end="}">
-<div class="line"><a id="l00306" name="l00306"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a10d3c6beed917097ab895a62cf8fdc21">  306</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">QR_Tfactor&lt;backend, device, T&gt;::call</a>(</div>
-<div class="line"><a id="l00307" name="l00307"></a><span class="lineno">  307</span>    <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Panel&lt;Coord::Col, T, device&gt;</a>&amp; hh_panel, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
-<div class="line"><a id="l00308" name="l00308"></a><span class="lineno">  308</span>    <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, device&gt;</a> tile_t,</div>
-<div class="line"><a id="l00309" name="l00309"></a><span class="lineno">  309</span>    <a class="code hl_class" href="classdlaf_1_1comm_1_1_communicator_pipeline.html">comm::CommunicatorPipeline&lt;comm::CommunicatorType::Col&gt;</a>&amp; mpi_col_task_chain) {</div>
-<div class="line"><a id="l00310" name="l00310"></a><span class="lineno">  310</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a id="l00311" name="l00311"></a><span class="lineno">  311</span> </div>
-<div class="line"><a id="l00312" name="l00312"></a><span class="lineno">  312</span>  <span class="keyword">using </span>Helpers = <a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">tfactor_l::Helpers&lt;backend, device, T&gt;</a>;</div>
-<div class="line"><a id="l00313" name="l00313"></a><span class="lineno">  313</span> </div>
-<div class="line"><a id="l00314" name="l00314"></a><span class="lineno">  314</span>  <span class="comment">// Fast return in case of no reflectors</span></div>
-<div class="line"><a id="l00315" name="l00315"></a><span class="lineno">  315</span>  <span class="keywordflow">if</span> (hh_panel.getWidth() == 0)</div>
-<div class="line"><a id="l00316" name="l00316"></a><span class="lineno">  316</span>    <span class="keywordflow">return</span>;</div>
-<div class="line"><a id="l00317" name="l00317"></a><span class="lineno">  317</span> </div>
-<div class="line"><a id="l00318" name="l00318"></a><span class="lineno">  318</span>  tile_t = Helpers::prepareT(taus, std::move(tile_t));</div>
-<div class="line"><a id="l00319" name="l00319"></a><span class="lineno">  319</span> </div>
-<div class="line"><a id="l00320" name="l00320"></a><span class="lineno">  320</span>  <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00321" name="l00321"></a><span class="lineno">  321</span>  <span class="comment">// T factor is an upper triangular square matrix, built column by column</span></div>
-<div class="line"><a id="l00322" name="l00322"></a><span class="lineno">  322</span>  <span class="comment">// with taus values on the diagonal</span></div>
-<div class="line"><a id="l00323" name="l00323"></a><span class="lineno">  323</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00324" name="l00324"></a><span class="lineno">  324</span>  <span class="comment">// T(j,j) = tau(j)</span></div>
-<div class="line"><a id="l00325" name="l00325"></a><span class="lineno">  325</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00326" name="l00326"></a><span class="lineno">  326</span>  <span class="comment">// and in the upper triangular part the following formula applies</span></div>
-<div class="line"><a id="l00327" name="l00327"></a><span class="lineno">  327</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00328" name="l00328"></a><span class="lineno">  328</span>  <span class="comment">// T(0:j, j) = T(0:j, 0:j) . -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
-<div class="line"><a id="l00329" name="l00329"></a><span class="lineno">  329</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00330" name="l00330"></a><span class="lineno">  330</span>  <span class="comment">//</span></div>
-<div class="line"><a id="l00331" name="l00331"></a><span class="lineno">  331</span>  <span class="comment">// The result is achieved in two main steps:</span></div>
-<div class="line"><a id="l00332" name="l00332"></a><span class="lineno">  332</span>  <span class="comment">// 1) t = -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
-<div class="line"><a id="l00333" name="l00333"></a><span class="lineno">  333</span>  <span class="comment">// 2) T(0:j, j) = T(0:j, 0:j) . t</span></div>
-<div class="line"><a id="l00334" name="l00334"></a><span class="lineno">  334</span> </div>
-<div class="line"><a id="l00335" name="l00335"></a><span class="lineno">  335</span>  <span class="comment">// 1st step: compute the column partial result `t`</span></div>
-<div class="line"><a id="l00336" name="l00336"></a><span class="lineno">  336</span>  <span class="comment">// First we compute the matrix vector multiplication for each column</span></div>
-<div class="line"><a id="l00337" name="l00337"></a><span class="lineno">  337</span>  <span class="comment">// -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
-<div class="line"><a id="l00338" name="l00338"></a><span class="lineno">  338</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i_lc : hh_panel.iteratorLocal()) {</div>
-<div class="line"><a id="l00339" name="l00339"></a><span class="lineno">  339</span>    <span class="comment">// Note:</span></div>
-<div class="line"><a id="l00340" name="l00340"></a><span class="lineno">  340</span>    <span class="comment">// Since we are writing always on the same t, the gemv are serialized</span></div>
-<div class="line"><a id="l00341" name="l00341"></a><span class="lineno">  341</span>    <span class="comment">// A possible solution to this would be to have multiple places where to store partial</span></div>
-<div class="line"><a id="l00342" name="l00342"></a><span class="lineno">  342</span>    <span class="comment">// results, and then locally reduce them just before the reduce over ranks</span></div>
-<div class="line"><a id="l00343" name="l00343"></a><span class="lineno">  343</span>    tile_t = Helpers::stepGEMV(hh_panel.read(i_lc), taus, std::move(tile_t));</div>
-<div class="line"><a id="l00344" name="l00344"></a><span class="lineno">  344</span>  }</div>
-<div class="line"><a id="l00345" name="l00345"></a><span class="lineno">  345</span> </div>
-<div class="line"><a id="l00346" name="l00346"></a><span class="lineno">  346</span>  <span class="comment">// at this point each rank has its partial result for each column</span></div>
-<div class="line"><a id="l00347" name="l00347"></a><span class="lineno">  347</span>  <span class="comment">// so, let&#39;s reduce the results (on all ranks, so that everyone can independently compute T factor)</span></div>
-<div class="line"><a id="l00348" name="l00348"></a><span class="lineno">  348</span>  <span class="keywordflow">if</span> (mpi_col_task_chain.<a class="code hl_function" href="classdlaf_1_1comm_1_1_communicator_pipeline.html#ab6f7286ad04f18c869f41812be9322b1">size</a>() &gt; 1)</div>
-<div class="line"><a id="l00349" name="l00349"></a><span class="lineno">  349</span>    tile_t = schedule_all_reduce_in_place(mpi_col_task_chain.<a class="code hl_function" href="classdlaf_1_1comm_1_1_communicator_pipeline.html#abb18e80e82791ce564b7257988f0245c">exclusive</a>(), MPI_SUM, std::move(tile_t));</div>
-<div class="line"><a id="l00350" name="l00350"></a><span class="lineno">  350</span> </div>
-<div class="line"><a id="l00351" name="l00351"></a><span class="lineno">  351</span>  <span class="comment">// 2nd step: compute the T factor, by performing the last step on each column</span></div>
-<div class="line"><a id="l00352" name="l00352"></a><span class="lineno">  352</span>  <span class="comment">// each column depends on the previous part (all reflectors that comes before)</span></div>
-<div class="line"><a id="l00353" name="l00353"></a><span class="lineno">  353</span>  <span class="comment">// so it is performed sequentially</span></div>
-<div class="line"><a id="l00354" name="l00354"></a><span class="lineno">  354</span>  ex::start_detached(Helpers::stepCopyDiagAndTRMV(taus, std::move(tile_t)));</div>
-<div class="line"><a id="l00355" name="l00355"></a><span class="lineno">  355</span>}</div>
+<div class="line"><a id="l00292" name="l00292"></a><span class="lineno">  292</span> </div>
+<div class="line"><a id="l00293" name="l00293"></a><span class="lineno">  293</span><span class="keyword">template</span> &lt;Backend backend, Device device, <span class="keyword">class</span> T&gt;</div>
+<div class="foldopen" id="foldopen00294" data-start="{" data-end="}">
+<div class="line"><a id="l00294" name="l00294"></a><span class="lineno"><a class="line" href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a10d3c6beed917097ab895a62cf8fdc21">  294</a></span><span class="keywordtype">void</span> <a class="code hl_function" href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">QR_Tfactor&lt;backend, device, T&gt;::call</a>(</div>
+<div class="line"><a id="l00295" name="l00295"></a><span class="lineno">  295</span>    <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::Panel&lt;Coord::Col, T, device&gt;</a>&amp; hh_panel, <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadOnlyTileSender&lt;T, Device::CPU&gt;</a> taus,</div>
+<div class="line"><a id="l00296" name="l00296"></a><span class="lineno">  296</span>    <a class="code hl_class" href="classdlaf_1_1matrix_1_1_matrix.html">matrix::ReadWriteTileSender&lt;T, device&gt;</a> tile_t,</div>
+<div class="line"><a id="l00297" name="l00297"></a><span class="lineno">  297</span>    <a class="code hl_class" href="classdlaf_1_1comm_1_1_communicator_pipeline.html">comm::CommunicatorPipeline&lt;comm::CommunicatorType::Col&gt;</a>&amp; mpi_col_task_chain) {</div>
+<div class="line"><a id="l00298" name="l00298"></a><span class="lineno">  298</span>  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a id="l00299" name="l00299"></a><span class="lineno">  299</span> </div>
+<div class="line"><a id="l00300" name="l00300"></a><span class="lineno">  300</span>  <span class="keyword">using </span>Helpers = <a class="code hl_struct" href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">tfactor_l::Helpers&lt;backend, device, T&gt;</a>;</div>
+<div class="line"><a id="l00301" name="l00301"></a><span class="lineno">  301</span> </div>
+<div class="line"><a id="l00302" name="l00302"></a><span class="lineno">  302</span>  <span class="comment">// Fast return in case of no reflectors</span></div>
+<div class="line"><a id="l00303" name="l00303"></a><span class="lineno">  303</span>  <span class="keywordflow">if</span> (hh_panel.getWidth() == 0)</div>
+<div class="line"><a id="l00304" name="l00304"></a><span class="lineno">  304</span>    <span class="keywordflow">return</span>;</div>
+<div class="line"><a id="l00305" name="l00305"></a><span class="lineno">  305</span> </div>
+<div class="line"><a id="l00306" name="l00306"></a><span class="lineno">  306</span>  tile_t = Helpers::prepareT(taus, std::move(tile_t));</div>
+<div class="line"><a id="l00307" name="l00307"></a><span class="lineno">  307</span> </div>
+<div class="line"><a id="l00308" name="l00308"></a><span class="lineno">  308</span>  <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00309" name="l00309"></a><span class="lineno">  309</span>  <span class="comment">// T factor is an upper triangular square matrix, built column by column</span></div>
+<div class="line"><a id="l00310" name="l00310"></a><span class="lineno">  310</span>  <span class="comment">// with taus values on the diagonal</span></div>
+<div class="line"><a id="l00311" name="l00311"></a><span class="lineno">  311</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00312" name="l00312"></a><span class="lineno">  312</span>  <span class="comment">// T(j,j) = tau(j)</span></div>
+<div class="line"><a id="l00313" name="l00313"></a><span class="lineno">  313</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00314" name="l00314"></a><span class="lineno">  314</span>  <span class="comment">// and in the upper triangular part the following formula applies</span></div>
+<div class="line"><a id="l00315" name="l00315"></a><span class="lineno">  315</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00316" name="l00316"></a><span class="lineno">  316</span>  <span class="comment">// T(0:j, j) = T(0:j, 0:j) . -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
+<div class="line"><a id="l00317" name="l00317"></a><span class="lineno">  317</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00318" name="l00318"></a><span class="lineno">  318</span>  <span class="comment">//</span></div>
+<div class="line"><a id="l00319" name="l00319"></a><span class="lineno">  319</span>  <span class="comment">// The result is achieved in two main steps:</span></div>
+<div class="line"><a id="l00320" name="l00320"></a><span class="lineno">  320</span>  <span class="comment">// 1) t = -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
+<div class="line"><a id="l00321" name="l00321"></a><span class="lineno">  321</span>  <span class="comment">// 2) T(0:j, j) = T(0:j, 0:j) . t</span></div>
+<div class="line"><a id="l00322" name="l00322"></a><span class="lineno">  322</span> </div>
+<div class="line"><a id="l00323" name="l00323"></a><span class="lineno">  323</span>  <span class="comment">// 1st step: compute the column partial result `t`</span></div>
+<div class="line"><a id="l00324" name="l00324"></a><span class="lineno">  324</span>  <span class="comment">// First we compute the matrix vector multiplication for each column</span></div>
+<div class="line"><a id="l00325" name="l00325"></a><span class="lineno">  325</span>  <span class="comment">// -tau(j) . V(j:, 0:j)* . V(j:, j)</span></div>
+<div class="line"><a id="l00326" name="l00326"></a><span class="lineno">  326</span>  <span class="keywordflow">for</span> (<span class="keyword">const</span> <span class="keyword">auto</span>&amp; i_lc : hh_panel.iteratorLocal()) {</div>
+<div class="line"><a id="l00327" name="l00327"></a><span class="lineno">  327</span>    <span class="comment">// Note:</span></div>
+<div class="line"><a id="l00328" name="l00328"></a><span class="lineno">  328</span>    <span class="comment">// Since we are writing always on the same t, the gemv are serialized</span></div>
+<div class="line"><a id="l00329" name="l00329"></a><span class="lineno">  329</span>    <span class="comment">// A possible solution to this would be to have multiple places where to store partial</span></div>
+<div class="line"><a id="l00330" name="l00330"></a><span class="lineno">  330</span>    <span class="comment">// results, and then locally reduce them just before the reduce over ranks</span></div>
+<div class="line"><a id="l00331" name="l00331"></a><span class="lineno">  331</span>    tile_t = Helpers::stepGEMV(hh_panel.read(i_lc), taus, std::move(tile_t));</div>
+<div class="line"><a id="l00332" name="l00332"></a><span class="lineno">  332</span>  }</div>
+<div class="line"><a id="l00333" name="l00333"></a><span class="lineno">  333</span> </div>
+<div class="line"><a id="l00334" name="l00334"></a><span class="lineno">  334</span>  <span class="comment">// at this point each rank has its partial result for each column</span></div>
+<div class="line"><a id="l00335" name="l00335"></a><span class="lineno">  335</span>  <span class="comment">// so, let&#39;s reduce the results (on all ranks, so that everyone can independently compute T factor)</span></div>
+<div class="line"><a id="l00336" name="l00336"></a><span class="lineno">  336</span>  <span class="keywordflow">if</span> (mpi_col_task_chain.<a class="code hl_function" href="classdlaf_1_1comm_1_1_communicator_pipeline.html#ab6f7286ad04f18c869f41812be9322b1">size</a>() &gt; 1)</div>
+<div class="line"><a id="l00337" name="l00337"></a><span class="lineno">  337</span>    tile_t = schedule_all_reduce_in_place(mpi_col_task_chain.<a class="code hl_function" href="classdlaf_1_1comm_1_1_communicator_pipeline.html#abb18e80e82791ce564b7257988f0245c">exclusive</a>(), MPI_SUM, std::move(tile_t));</div>
+<div class="line"><a id="l00338" name="l00338"></a><span class="lineno">  338</span> </div>
+<div class="line"><a id="l00339" name="l00339"></a><span class="lineno">  339</span>  <span class="comment">// 2nd step: compute the T factor, by performing the last step on each column</span></div>
+<div class="line"><a id="l00340" name="l00340"></a><span class="lineno">  340</span>  <span class="comment">// each column depends on the previous part (all reflectors that comes before)</span></div>
+<div class="line"><a id="l00341" name="l00341"></a><span class="lineno">  341</span>  <span class="comment">// so it is performed sequentially</span></div>
+<div class="line"><a id="l00342" name="l00342"></a><span class="lineno">  342</span>  ex::start_detached(Helpers::stepCopyDiagAndTRMV(taus, std::move(tile_t)));</div>
+<div class="line"><a id="l00343" name="l00343"></a><span class="lineno">  343</span>}</div>
 </div>
-<div class="line"><a id="l00356" name="l00356"></a><span class="lineno">  356</span> </div>
-<div class="line"><a id="l00357" name="l00357"></a><span class="lineno">  357</span>}</div>
+<div class="line"><a id="l00344" name="l00344"></a><span class="lineno">  344</span> </div>
+<div class="line"><a id="l00345" name="l00345"></a><span class="lineno">  345</span>}</div>
 <div class="ttc" id="ablas_2tile_8h_html"><div class="ttname"><a href="blas_2tile_8h.html">tile.h</a></div></div>
 <div class="ttc" id="aclassdlaf_1_1comm_1_1_communicator_pipeline_html"><div class="ttname"><a href="classdlaf_1_1comm_1_1_communicator_pipeline.html">dlaf::comm::CommunicatorPipeline</a></div><div class="ttdef"><b>Definition</b> communicator_pipeline.h:41</div></div>
 <div class="ttc" id="aclassdlaf_1_1comm_1_1_communicator_pipeline_html_ab6f7286ad04f18c869f41812be9322b1"><div class="ttname"><a href="classdlaf_1_1comm_1_1_communicator_pipeline.html#ab6f7286ad04f18c869f41812be9322b1">dlaf::comm::CommunicatorPipeline::size</a></div><div class="ttdeci">IndexT_MPI size() const noexcept</div><div class="ttdoc">Return the size of the grid.</div><div class="ttdef"><b>Definition</b> communicator_pipeline.h:68</div></div>
@@ -463,8 +451,8 @@
 <div class="ttc" id="amatrix_8h_html"><div class="ttname"><a href="matrix_8h.html">matrix.h</a></div></div>
 <div class="ttc" id="arange2d_8h_html"><div class="ttname"><a href="range2d_8h.html">range2d.h</a></div></div>
 <div class="ttc" id="asingle__threaded__blas_8h_html"><div class="ttname"><a href="single__threaded__blas_8h.html">single_threaded_blas.h</a></div></div>
-<div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor_html_a1d9391570e947628f8c23668f944f7d4"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">dlaf::factorization::internal::QR_Tfactor::call</a></div><div class="ttdeci">static void call(matrix::Panel&lt; Coord::Col, T, device &gt; &amp;panel_view, matrix::ReadOnlyTileSender&lt; T, Device::CPU &gt; taus, matrix::ReadWriteTileSender&lt; T, device &gt; t)</div><div class="ttdef"><b>Definition</b> t_factor_impl.h:260</div></div>
-<div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers_html"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">dlaf::factorization::internal::tfactor_l::Helpers</a></div><div class="ttdef"><b>Definition</b> t_factor_impl.h:44</div></div>
+<div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor_html_a1d9391570e947628f8c23668f944f7d4"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1_q_r___tfactor.html#a1d9391570e947628f8c23668f944f7d4">dlaf::factorization::internal::QR_Tfactor::call</a></div><div class="ttdeci">static void call(matrix::Panel&lt; Coord::Col, T, device &gt; &amp;panel_view, matrix::ReadOnlyTileSender&lt; T, Device::CPU &gt; taus, matrix::ReadWriteTileSender&lt; T, device &gt; t)</div><div class="ttdef"><b>Definition</b> t_factor_impl.h:248</div></div>
+<div class="ttc" id="astructdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers_html"><div class="ttname"><a href="structdlaf_1_1factorization_1_1internal_1_1tfactor__l_1_1_helpers.html">dlaf::factorization::internal::tfactor_l::Helpers</a></div><div class="ttdef"><b>Definition</b> t_factor_impl.h:45</div></div>
 <div class="ttc" id="atypes_8h_html"><div class="ttname"><a href="types_8h.html">types.h</a></div></div>
 <div class="ttc" id="atypes_8h_html_a25d16ff6621f011d9a98be3d9ebf29f1"><div class="ttname"><a href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">dlaf::to_sizet</a></div><div class="ttdeci">auto to_sizet(const T signed_value)</div><div class="ttdef"><b>Definition</b> types.h:266</div></div>
 <div class="ttc" id="atypes_8h_html_af90e7fd5acadf5987b7199b0bd44deea"><div class="ttname"><a href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">dlaf::to_int</a></div><div class="ttdeci">auto to_int(const T unsigned_value)</div><div class="ttdef"><b>Definition</b> types.h:248</div></div>

Functions
-	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Axpy, axpy)

-	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Gemv, gemv)

-	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Trmv, trmv)

-	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Gemm, gemm)

-	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP (Hemm, mm)

-	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP (Her2k, r2k)

-	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP (Herk, rk)

-	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Trsm, trsm)

template<Backend B, class T , Device D>
void	dlaf::tile::gemm (const blas::Op op_a, const blas::Op op_b, const T alpha, const Tile< const T, D > &a, const Tile< const T, D > &b, const T beta, const Tile< T, D > &c)
+Functions
+	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Axpy, axpy)

+	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Gemv, gemv)

+	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Trmv, trmv)

+	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Gemm, gemm)

+	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP (Hemm, mm)

+	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP (Her2k, r2k)

+	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_SYHE_OP (Herk, rk)

+	dlaf::gpublas::internal::DLAF_MAKE_GPUBLAS_OP (Trsm, trsm)