diff --git a/docs/graphs/gatv2/experiment.html b/docs/graphs/gatv2/experiment.html
new file mode 100644
index 0000000000000000000000000000000000000000..1e2e318035991f90f524035ed9589d7e9afb820e
--- /dev/null
+++ b/docs/graphs/gatv2/experiment.html
@@ -0,0 +1,1194 @@
+<!DOCTYPE html>
+<html>
+<head>
+    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
+    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
+    <meta name="description" content="This trains is a  Graph Attention Network v2 (GATv2) on Cora dataset"/>
+
+    <meta name="twitter:card" content="summary"/>
+    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta name="twitter:title" content="Train a Graph Attention Network v2 (GATv2) on Cora dataset"/>
+    <meta name="twitter:description" content="This trains is a  Graph Attention Network v2 (GATv2) on Cora dataset"/>
+    <meta name="twitter:site" content="@labmlai"/>
+    <meta name="twitter:creator" content="@labmlai"/>
+
+    <meta property="og:url" content="https://nn.labml.ai/graphs/gatv2/experiment.html"/>
+    <meta property="og:title" content="Train a Graph Attention Network v2 (GATv2) on Cora dataset"/>
+    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta property="og:site_name" content="LabML Neural Networks"/>
+    <meta property="og:type" content="object"/>
+    <meta property="og:title" content="Train a Graph Attention Network v2 (GATv2) on Cora dataset"/>
+    <meta property="og:description" content="This trains is a  Graph Attention Network v2 (GATv2) on Cora dataset"/>
+
+    <title>Train a Graph Attention Network v2 (GATv2) on Cora dataset</title>
+    <link rel="shortcut icon" href="/icon.png"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/graphs/gatv2/experiment.html"/>
+    <!-- Global site tag (gtag.js) - Google Analytics -->
+    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
+    <script>
+        window.dataLayer = window.dataLayer || [];
+
+        function gtag() {
+            dataLayer.push(arguments);
+        }
+
+        gtag('js', new Date());
+
+        gtag('config', 'G-4V3HC8HBLH');
+    </script>
+</head>
+<body>
+<div id='container'>
+    <div id="background"></div>
+    <div class='section'>
+        <div class='docs'>
+            <p>
+                <a class="parent" href="/">home</a>
+                <a class="parent" href="../index.html">graphs</a>
+                <a class="parent" href="index.html">gatv2</a>
+            </p>
+            <p>
+
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/graphs/gatv2/experiment.py">
+                    <img alt="Github"
+                         src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
+                         style="max-width:100%;"/></a>
+                <a href="https://twitter.com/labmlai"
+                   rel="nofollow">
+                    <img alt="Twitter"
+                         src="https://img.shields.io/twitter/follow/labmlai?style=social"
+                         style="max-width:100%;"/></a>
+            </p>
+        </div>
+    </div>
+    <div class='section' id='section-0'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-0'>#</a>
+                </div>
+                <h1>Train a Graph Attention Network v2 (GATv2) on Cora dataset</h1>
+<p><a href="https://app.labml.ai/run/8e27ad82ed2611ebabb691fb2028a868"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">13</span><span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Dict</span>
+<span class="lineno">14</span>
+<span class="lineno">15</span><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="lineno">16</span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="lineno">17</span><span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">nn</span>
+<span class="lineno">18</span>
+<span class="lineno">19</span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">lab</span><span class="p">,</span> <span class="n">monit</span><span class="p">,</span> <span class="n">tracker</span><span class="p">,</span> <span class="n">experiment</span>
+<span class="lineno">20</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">BaseConfigs</span>
+<span class="lineno">21</span><span class="kn">from</span> <span class="nn">labml.utils</span> <span class="kn">import</span> <span class="n">download</span>
+<span class="lineno">22</span><span class="kn">from</span> <span class="nn">labml_helpers.device</span> <span class="kn">import</span> <span class="n">DeviceConfigs</span>
+<span class="lineno">23</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
+<span class="lineno">24</span><span class="kn">from</span> <span class="nn">labml_nn.graphs.gatv2</span> <span class="kn">import</span> <span class="n">GraphAttentionV2Layer</span>
+<span class="lineno">25</span><span class="kn">from</span> <span class="nn">labml_nn.optimizers.configs</span> <span class="kn">import</span> <span class="n">OptimizerConfigs</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-1'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-1'>#</a>
+                </div>
+                <h2><a href="https://linqs.soe.ucsc.edu/data">Cora Dataset</a></h2>
+<p>Cora dataset is a dataset of research papers.
+For each paper we are given a binary feature vector that indicates the presence of words.
+Each paper is classified into one of 7 classes.
+The dataset also has the citation network.</p>
+<p>The papers are the nodes of the graph and the edges are the citations.</p>
+<p>The task is to classify the edges to the 7 classes with feature vectors and
+citation network as input.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">28</span><span class="k">class</span> <span class="nc">CoraDataset</span><span class="p">:</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-2'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-2'>#</a>
+                </div>
+                <p>Labels for each node</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">43</span>    <span class="n">labels</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-3'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-3'>#</a>
+                </div>
+                <p>Set of class names and an unique integer index</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">45</span>    <span class="n">classes</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-4'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-4'>#</a>
+                </div>
+                <p>Feature vectors for all nodes</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">47</span>    <span class="n">features</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-5'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-5'>#</a>
+                </div>
+                <p>Adjacency matrix with the edge information.
+<code>adj_mat[i][j]</code> is <code>True</code> if there is an edge from <code>i</code> to <code>j</code>.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">50</span>    <span class="n">adj_mat</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-6'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-6'>#</a>
+                </div>
+                <p>Download the dataset</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">52</span>    <span class="nd">@staticmethod</span>
+<span class="lineno">53</span>    <span class="k">def</span> <span class="nf">_download</span><span class="p">():</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-7'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-7'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">57</span>        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;cora&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+<span class="lineno">58</span>            <span class="n">download</span><span class="o">.</span><span class="n">download_file</span><span class="p">(</span><span class="s1">&#39;https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz&#39;</span><span class="p">,</span>
+<span class="lineno">59</span>                                   <span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;cora.tgz&#39;</span><span class="p">)</span>
+<span class="lineno">60</span>            <span class="n">download</span><span class="o">.</span><span class="n">extract_tar</span><span class="p">(</span><span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;cora.tgz&#39;</span><span class="p">,</span> <span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">())</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-8'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-8'>#</a>
+                </div>
+                <p>Load the dataset</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">62</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">include_edges</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-9'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-9'>#</a>
+                </div>
+                <p>Whether to include edges.
+This is test how much accuracy is lost if we ignore the citation network.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">69</span>        <span class="bp">self</span><span class="o">.</span><span class="n">include_edges</span> <span class="o">=</span> <span class="n">include_edges</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-10'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-10'>#</a>
+                </div>
+                <p>Download dataset</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">72</span>        <span class="bp">self</span><span class="o">.</span><span class="n">_download</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-11'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-11'>#</a>
+                </div>
+                <p>Read the paper ids, feature vectors, and labels</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">75</span>        <span class="k">with</span> <span class="n">monit</span><span class="o">.</span><span class="n">section</span><span class="p">(</span><span class="s1">&#39;Read content file&#39;</span><span class="p">):</span>
+<span class="lineno">76</span>            <span class="n">content</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">genfromtxt</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;cora/cora.content&#39;</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">dtype</span><span class="p">(</span><span class="nb">str</span><span class="p">))</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-12'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-12'>#</a>
+                </div>
+                <p>Load the citations, it&rsquo;s a list of pairs of integers.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">78</span>        <span class="k">with</span> <span class="n">monit</span><span class="o">.</span><span class="n">section</span><span class="p">(</span><span class="s1">&#39;Read citations file&#39;</span><span class="p">):</span>
+<span class="lineno">79</span>            <span class="n">citations</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">genfromtxt</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;cora/cora.cites&#39;</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-13'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-13'>#</a>
+                </div>
+                <p>Get the feature vectors</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">82</span>        <span class="n">features</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">content</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">float32</span><span class="p">))</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-14'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-14'>#</a>
+                </div>
+                <p>Normalize the feature vectors</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">84</span>        <span class="bp">self</span><span class="o">.</span><span class="n">features</span> <span class="o">=</span> <span class="n">features</span> <span class="o">/</span> <span class="n">features</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdim</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-15'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-15'>#</a>
+                </div>
+                <p>Get the class names and assign an unique integer to each of them</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">87</span>        <span class="bp">self</span><span class="o">.</span><span class="n">classes</span> <span class="o">=</span> <span class="p">{</span><span class="n">s</span><span class="p">:</span> <span class="n">i</span> <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">s</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">content</span><span class="p">[:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">]))}</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-16'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-16'>#</a>
+                </div>
+                <p>Get the labels as those integers</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">89</span>        <span class="bp">self</span><span class="o">.</span><span class="n">labels</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">classes</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">content</span><span class="p">[:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">]],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">long</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-17'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-17'>#</a>
+                </div>
+                <p>Get the paper ids</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">92</span>        <span class="n">paper_ids</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">content</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-18'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-18'>#</a>
+                </div>
+                <p>Map of paper id to index</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">94</span>        <span class="n">ids_to_idx</span> <span class="o">=</span> <span class="p">{</span><span class="n">id_</span><span class="p">:</span> <span class="n">i</span> <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">id_</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">paper_ids</span><span class="p">)}</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-19'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-19'>#</a>
+                </div>
+                <p>Empty adjacency matrix - an identity matrix</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">97</span>        <span class="bp">self</span><span class="o">.</span><span class="n">adj_mat</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">eye</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">bool</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-20'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-20'>#</a>
+                </div>
+                <p>Mark the citations in the adjacency matrix</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">100</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">include_edges</span><span class="p">:</span>
+<span class="lineno">101</span>            <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="n">citations</span><span class="p">:</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-21'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-21'>#</a>
+                </div>
+                <p>The pair of paper indexes</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">103</span>                <span class="n">e1</span><span class="p">,</span> <span class="n">e2</span> <span class="o">=</span> <span class="n">ids_to_idx</span><span class="p">[</span><span class="n">e</span><span class="p">[</span><span class="mi">0</span><span class="p">]],</span> <span class="n">ids_to_idx</span><span class="p">[</span><span class="n">e</span><span class="p">[</span><span class="mi">1</span><span class="p">]]</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-22'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-22'>#</a>
+                </div>
+                <p>We build a symmetrical graph, where if paper $i$ referenced
+paper $j$ we place an adge from $i$ to $j$ as well as an edge
+from $j$ to $i$.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">107</span>                <span class="bp">self</span><span class="o">.</span><span class="n">adj_mat</span><span class="p">[</span><span class="n">e1</span><span class="p">][</span><span class="n">e2</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="lineno">108</span>                <span class="bp">self</span><span class="o">.</span><span class="n">adj_mat</span><span class="p">[</span><span class="n">e2</span><span class="p">][</span><span class="n">e1</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-23'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-23'>#</a>
+                </div>
+                <h2>Graph Attention Network v2 (GATv2)</h2>
+<p>This graph attention network has two <a href="index.html">graph attention layers</a>.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">111</span><span class="k">class</span> <span class="nc">GATv2</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-24'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-24'>#</a>
+                </div>
+                <ul>
+<li><code>in_features</code> is the number of features per node</li>
+<li><code>n_hidden</code> is the number of features in the first graph attention layer</li>
+<li><code>n_classes</code> is the number of classes</li>
+<li><code>n_heads</code> is the number of heads in the graph attention layers</li>
+<li><code>dropout</code> is the dropout probability</li>
+<li><code>share_weights</code> if set to True, the same matrix will be applied to the source and the target node of every edge</li>
+</ul>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">118</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">in_features</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">n_hidden</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">n_classes</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">n_heads</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">dropout</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">share_weights</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-25'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-25'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">127</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-26'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-26'>#</a>
+                </div>
+                <p>First graph attention layer where we concatenate the heads</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">130</span>        <span class="bp">self</span><span class="o">.</span><span class="n">layer1</span> <span class="o">=</span> <span class="n">GraphAttentionV2Layer</span><span class="p">(</span><span class="n">in_features</span><span class="p">,</span> <span class="n">n_hidden</span><span class="p">,</span> <span class="n">n_heads</span><span class="p">,</span> <span class="n">is_concat</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">dropout</span><span class="o">=</span><span class="n">dropout</span><span class="p">,</span> <span class="n">share_weights</span><span class="o">=</span><span class="n">share_weights</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-27'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-27'>#</a>
+                </div>
+                <p>Activation function after first graph attention layer</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">132</span>        <span class="bp">self</span><span class="o">.</span><span class="n">activation</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">ELU</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-28'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-28'>#</a>
+                </div>
+                <p>Final graph attention layer where we average the heads</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">134</span>        <span class="bp">self</span><span class="o">.</span><span class="n">output</span> <span class="o">=</span> <span class="n">GraphAttentionV2Layer</span><span class="p">(</span><span class="n">n_hidden</span><span class="p">,</span> <span class="n">n_classes</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">is_concat</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">dropout</span><span class="o">=</span><span class="n">dropout</span><span class="p">,</span> <span class="n">share_weights</span><span class="o">=</span><span class="n">share_weights</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-29'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-29'>#</a>
+                </div>
+                <p>Dropout</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">136</span>        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-30'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-30'>#</a>
+                </div>
+                <ul>
+<li><code>x</code> is the features vectors of shape <code>[n_nodes, in_features]</code></li>
+<li><code>adj_mat</code> is the adjacency matrix of the form
+ <code>[n_nodes, n_nodes, n_heads]</code> or <code>[n_nodes, n_nodes, 1]</code></li>
+</ul>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">138</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">adj_mat</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-31'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-31'>#</a>
+                </div>
+                <p>Apply dropout to the input</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">145</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-32'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-32'>#</a>
+                </div>
+                <p>First graph attention layer</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">147</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layer1</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">adj_mat</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-33'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-33'>#</a>
+                </div>
+                <p>Activation function</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">149</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">activation</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-34'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-34'>#</a>
+                </div>
+                <p>Dropout</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">151</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-35'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-35'>#</a>
+                </div>
+                <p>Output layer (without activation) for logits</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">153</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">output</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">adj_mat</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-36'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-36'>#</a>
+                </div>
+                <p>A simple function to calculate the accuracy</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">156</span><span class="k">def</span> <span class="nf">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">labels</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-37'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-37'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">160</span>    <span class="k">return</span> <span class="n">output</span><span class="o">.</span><span class="n">argmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">eq</span><span class="p">(</span><span class="n">labels</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">labels</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-38'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-38'>#</a>
+                </div>
+                <h2>Configurations</h2>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">163</span><span class="k">class</span> <span class="nc">Configs</span><span class="p">(</span><span class="n">BaseConfigs</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-39'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-39'>#</a>
+                </div>
+                <p>Model</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">169</span>    <span class="n">model</span><span class="p">:</span> <span class="n">GATv2</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-40'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-40'>#</a>
+                </div>
+                <p>Number of nodes to train on</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">171</span>    <span class="n">training_samples</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">500</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-41'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-41'>#</a>
+                </div>
+                <p>Number of features per node in the input</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">173</span>    <span class="n">in_features</span><span class="p">:</span> <span class="nb">int</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-42'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-42'>#</a>
+                </div>
+                <p>Number of features in the first graph attention layer</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">175</span>    <span class="n">n_hidden</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-43'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-43'>#</a>
+                </div>
+                <p>Number of heads</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">177</span>    <span class="n">n_heads</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">8</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-44'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-44'>#</a>
+                </div>
+                <p>Number of classes for classification</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">179</span>    <span class="n">n_classes</span><span class="p">:</span> <span class="nb">int</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-45'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-45'>#</a>
+                </div>
+                <p>Dropout probability</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">181</span>    <span class="n">dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.6</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-46'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-46'>#</a>
+                </div>
+                <p>Whether to include the citation network</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">183</span>    <span class="n">include_edges</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-47'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-47'>#</a>
+                </div>
+                <p>Dataset</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">185</span>    <span class="n">dataset</span><span class="p">:</span> <span class="n">CoraDataset</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-48'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-48'>#</a>
+                </div>
+                <p>Number of training iterations</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">187</span>    <span class="n">epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1_000</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-49'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-49'>#</a>
+                </div>
+                <p>Loss function</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">189</span>    <span class="n">loss_func</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">CrossEntropyLoss</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-50'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-50'>#</a>
+                </div>
+                <p>Device to train on</p>
+<p>This creates configs for device, so that
+we can change the device by passing a config value</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">194</span>    <span class="n">device</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">DeviceConfigs</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-51'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-51'>#</a>
+                </div>
+                <p>Optimizer</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">196</span>    <span class="n">optimizer</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-52'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-52'>#</a>
+                </div>
+                <p>Initialize</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">198</span>    <span class="k">def</span> <span class="nf">initialize</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-53'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-53'>#</a>
+                </div>
+                <p>Create the dataset</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">203</span>        <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="n">CoraDataset</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">include_edges</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-54'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-54'>#</a>
+                </div>
+                <p>Get the number of classes</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">205</span>        <span class="bp">self</span><span class="o">.</span><span class="n">n_classes</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">classes</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-55'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-55'>#</a>
+                </div>
+                <p>Number of features in the input</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">207</span>        <span class="bp">self</span><span class="o">.</span><span class="n">in_features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-56'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-56'>#</a>
+                </div>
+                <p>Create the model</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">209</span>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">GATv2</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">in_features</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_classes</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-57'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-57'>#</a>
+                </div>
+                <p>Move the model to the device</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">211</span>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-58'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-58'>#</a>
+                </div>
+                <p>Configurable optimizer, so that we can set the configurations
+such as learning rate by passing the dictionary later.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">214</span>        <span class="n">optimizer_conf</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
+<span class="lineno">215</span>        <span class="n">optimizer_conf</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
+<span class="lineno">216</span>        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="n">optimizer_conf</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-59'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-59'>#</a>
+                </div>
+                <h3>Training loop</h3>
+<p>We do full batch training since the dataset is small.
+If we were to sample and train we will have to sample a set of
+nodes for each training step along with the edges that span
+across those selected nodes.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">218</span>    <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-60'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-60'>#</a>
+                </div>
+                <p>Move the feature vectors to the device</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">228</span>        <span class="n">features</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-61'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-61'>#</a>
+                </div>
+                <p>Move the labels to the device</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">230</span>        <span class="n">labels</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">labels</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-62'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-62'>#</a>
+                </div>
+                <p>Move the adjacency matrix to the device</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">232</span>        <span class="n">edges_adj</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">adj_mat</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-63'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-63'>#</a>
+                </div>
+                <p>Add an empty third dimension for the heads</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">234</span>        <span class="n">edges_adj</span> <span class="o">=</span> <span class="n">edges_adj</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-64'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-64'>#</a>
+                </div>
+                <p>Random indexes</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">237</span>        <span class="n">idx_rand</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randperm</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">labels</span><span class="p">))</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-65'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-65'>#</a>
+                </div>
+                <p>Nodes for training</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">239</span>        <span class="n">idx_train</span> <span class="o">=</span> <span class="n">idx_rand</span><span class="p">[:</span><span class="bp">self</span><span class="o">.</span><span class="n">training_samples</span><span class="p">]</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-66'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-66'>#</a>
+                </div>
+                <p>Nodes for validation</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">241</span>        <span class="n">idx_valid</span> <span class="o">=</span> <span class="n">idx_rand</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">training_samples</span><span class="p">:]</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-67'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-67'>#</a>
+                </div>
+                <p>Training loop</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">244</span>        <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">monit</span><span class="o">.</span><span class="n">loop</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">epochs</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-68'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-68'>#</a>
+                </div>
+                <p>Set the model to training mode</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">246</span>            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-69'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-69'>#</a>
+                </div>
+                <p>Make all the gradients zero</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">248</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-70'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-70'>#</a>
+                </div>
+                <p>Evaluate the model</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">250</span>            <span class="n">output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">features</span><span class="p">,</span> <span class="n">edges_adj</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-71'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-71'>#</a>
+                </div>
+                <p>Get the loss for training nodes</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">252</span>            <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_func</span><span class="p">(</span><span class="n">output</span><span class="p">[</span><span class="n">idx_train</span><span class="p">],</span> <span class="n">labels</span><span class="p">[</span><span class="n">idx_train</span><span class="p">])</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-72'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-72'>#</a>
+                </div>
+                <p>Calculate gradients</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">254</span>            <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-73'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-73'>#</a>
+                </div>
+                <p>Take optimization step</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">256</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-74'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-74'>#</a>
+                </div>
+                <p>Log the loss</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">258</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;loss.train&#39;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-75'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-75'>#</a>
+                </div>
+                <p>Log the accuracy</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">260</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;accuracy.train&#39;</span><span class="p">,</span> <span class="n">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">[</span><span class="n">idx_train</span><span class="p">],</span> <span class="n">labels</span><span class="p">[</span><span class="n">idx_train</span><span class="p">]))</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-76'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-76'>#</a>
+                </div>
+                <p>Set mode to evaluation mode for validation</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">263</span>            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-77'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-77'>#</a>
+                </div>
+                <p>No need to compute gradients</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">266</span>            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-78'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-78'>#</a>
+                </div>
+                <p>Evaluate the model again</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">268</span>                <span class="n">output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">features</span><span class="p">,</span> <span class="n">edges_adj</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-79'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-79'>#</a>
+                </div>
+                <p>Calculate the loss for validation nodes</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">270</span>                <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_func</span><span class="p">(</span><span class="n">output</span><span class="p">[</span><span class="n">idx_valid</span><span class="p">],</span> <span class="n">labels</span><span class="p">[</span><span class="n">idx_valid</span><span class="p">])</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-80'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-80'>#</a>
+                </div>
+                <p>Log the loss</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">272</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;loss.valid&#39;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-81'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-81'>#</a>
+                </div>
+                <p>Log the accuracy</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">274</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;accuracy.valid&#39;</span><span class="p">,</span> <span class="n">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">[</span><span class="n">idx_valid</span><span class="p">],</span> <span class="n">labels</span><span class="p">[</span><span class="n">idx_valid</span><span class="p">]))</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-82'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-82'>#</a>
+                </div>
+                <p>Save logs</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">277</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-83'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-83'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">280</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-84'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-84'>#</a>
+                </div>
+                <p>Create configurations</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">282</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-85'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-85'>#</a>
+                </div>
+                <p>Create an experiment</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">284</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s1">&#39;gatv2&#39;</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-86'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-86'>#</a>
+                </div>
+                <p>Calculate configurations.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">286</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span> <span class="p">{</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-87'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-87'>#</a>
+                </div>
+                <p>Adam optimizer</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">288</span>        <span class="s1">&#39;optimizer.optimizer&#39;</span><span class="p">:</span> <span class="s1">&#39;Adam&#39;</span><span class="p">,</span>
+<span class="lineno">289</span>        <span class="s1">&#39;optimizer.learning_rate&#39;</span><span class="p">:</span> <span class="mf">5e-3</span><span class="p">,</span>
+<span class="lineno">290</span>        <span class="s1">&#39;optimizer.weight_decay&#39;</span><span class="p">:</span> <span class="mf">5e-4</span><span class="p">,</span>
+<span class="lineno">291</span>    <span class="p">})</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-88'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-88'>#</a>
+                </div>
+                <p>Initialize</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">293</span>    <span class="n">conf</span><span class="o">.</span><span class="n">initialize</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-89'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-89'>#</a>
+                </div>
+                <p>Start and watch the experiment</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">296</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-90'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-90'>#</a>
+                </div>
+                <p>Run the training</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">298</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-91'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-91'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">302</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
+<span class="lineno">303</span>    <span class="n">main</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    </div>
+</div>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">
+</script>
+<!-- MathJax configuration -->
+<script type="text/x-mathjax-config">
+    MathJax.Hub.Config({
+        tex2jax: {
+            inlineMath: [ ['$','$'] ],
+            displayMath: [ ['$$','$$'] ],
+            processEscapes: true,
+            processEnvironments: true
+        },
+        // Center justify equations in code and markdown cells. Elsewhere
+        // we use CSS to left justify single line equations in code cells.
+        displayAlign: 'center',
+        "HTML-CSS": { fonts: ["TeX"] }
+    });
+</script>
+<script>
+    function handleImages() {
+        var images = document.querySelectorAll('p>img')
+
+        console.log(images);
+        for (var i = 0; i < images.length; ++i) {
+            handleImage(images[i])
+        }
+    }
+
+    function handleImage(img) {
+        img.parentElement.style.textAlign = 'center'
+
+        var modal = document.createElement('div')
+        modal.id = 'modal'
+
+        var modalContent = document.createElement('div')
+        modal.appendChild(modalContent)
+
+        var modalImage = document.createElement('img')
+        modalContent.appendChild(modalImage)
+
+        var span = document.createElement('span')
+        span.classList.add('close')
+        span.textContent = 'x'
+        modal.appendChild(span)
+
+        img.onclick = function () {
+            console.log('clicked')
+            document.body.appendChild(modal)
+            modalImage.src = img.src
+        }
+
+        span.onclick = function () {
+            document.body.removeChild(modal)
+        }
+    }
+
+    handleImages()
+</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/graphs/gatv2/index.html b/docs/graphs/gatv2/index.html
new file mode 100644
index 0000000000000000000000000000000000000000..632027c5a61bf12b34f84cb6633cb9b66e421009
--- /dev/null
+++ b/docs/graphs/gatv2/index.html
@@ -0,0 +1,589 @@
+<!DOCTYPE html>
+<html>
+<head>
+    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
+    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
+    <meta name="description" content="A PyTorch implementation/tutorial of Graph Attention Networks v2."/>
+
+    <meta name="twitter:card" content="summary"/>
+    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta name="twitter:title" content="Graph Attention Networks v2 (GATv2)"/>
+    <meta name="twitter:description" content="A PyTorch implementation/tutorial of Graph Attention Networks v2."/>
+    <meta name="twitter:site" content="@labmlai"/>
+    <meta name="twitter:creator" content="@labmlai"/>
+
+    <meta property="og:url" content="https://nn.labml.ai/graphs/gatv2/index.html"/>
+    <meta property="og:title" content="Graph Attention Networks v2 (GATv2)"/>
+    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta property="og:site_name" content="LabML Neural Networks"/>
+    <meta property="og:type" content="object"/>
+    <meta property="og:title" content="Graph Attention Networks v2 (GATv2)"/>
+    <meta property="og:description" content="A PyTorch implementation/tutorial of Graph Attention Networks v2."/>
+
+    <title>Graph Attention Networks v2 (GATv2)</title>
+    <link rel="shortcut icon" href="/icon.png"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/graphs/gatv2/index.html"/>
+    <!-- Global site tag (gtag.js) - Google Analytics -->
+    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
+    <script>
+        window.dataLayer = window.dataLayer || [];
+
+        function gtag() {
+            dataLayer.push(arguments);
+        }
+
+        gtag('js', new Date());
+
+        gtag('config', 'G-4V3HC8HBLH');
+    </script>
+</head>
+<body>
+<div id='container'>
+    <div id="background"></div>
+    <div class='section'>
+        <div class='docs'>
+            <p>
+                <a class="parent" href="/">home</a>
+                <a class="parent" href="../index.html">graphs</a>
+                <a class="parent" href="index.html">gatv2</a>
+            </p>
+            <p>
+
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/graphs/gatv2/__init__.py">
+                    <img alt="Github"
+                         src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
+                         style="max-width:100%;"/></a>
+                <a href="https://twitter.com/labmlai"
+                   rel="nofollow">
+                    <img alt="Twitter"
+                         src="https://img.shields.io/twitter/follow/labmlai?style=social"
+                         style="max-width:100%;"/></a>
+            </p>
+        </div>
+    </div>
+    <div class='section' id='section-0'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-0'>#</a>
+                </div>
+                <h1>Graph Attention Networks v2 (GATv2)</h1>
+<p>This is a <a href="https://pytorch.org">PyTorch</a> implementation of the GATv2 operator from the paper
+<a href="https://arxiv.org/abs/2105.14491">How Attentive are Graph Attention Networks?</a>.</p>
+<p>GATv2s work on graph data.
+A graph consists of nodes and edges connecting nodes.
+For example, in Cora dataset the nodes are research papers and the edges are citations that
+connect the papers.</p>
+<p>The GATv2 operator which fixes the static attention problem of the standard GAT: 
+since the linear layers in the standard GAT are applied right after each other, the ranking 
+of attended nodes is unconditioned on the query node. 
+In contrast, in GATv2, every node can attend to any other node.</p>
+<p>Here is <a href="experiment.html">the training code</a> for training
+a two-layer GATv2 on Cora dataset.</p>
+<p><a href="https://app.labml.ai/run/8e27ad82ed2611ebabb691fb2028a868"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">29</span><span></span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="lineno">30</span><span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">nn</span>
+<span class="lineno">31</span>
+<span class="lineno">32</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-1'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-1'>#</a>
+                </div>
+                <h2>Graph attention v2 layer</h2>
+<p>This is a single graph attention v2 layer.
+A GATv2 is made up of multiple such layers.</p>
+<p>It takes
+<script type="math/tex; mode=display">\mathbf{h} = \{ \overrightarrow{h_1}, \overrightarrow{h_2}, \dots, \overrightarrow{h_N} \}</script>,
+where $\overrightarrow{h_i} \in \mathbb{R}^F$ as input
+and outputs
+<script type="math/tex; mode=display">\mathbf{h'} = \{ \overrightarrow{h'_1}, \overrightarrow{h'_2}, \dots, \overrightarrow{h'_N} \}</script>,
+where $\overrightarrow{h&rsquo;_i} \in \mathbb{R}^{F&rsquo;}$.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">35</span><span class="k">class</span> <span class="nc">GraphAttentionV2Layer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-2'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-2'>#</a>
+                </div>
+                <ul>
+<li><code>in_features</code>, $F$, is the number of input features per node</li>
+<li><code>out_features</code>, $F&rsquo;$, is the number of output features per node</li>
+<li><code>n_heads</code>, $K$, is the number of attention heads</li>
+<li><code>is_concat</code> whether the multi-head results should be concatenated or averaged</li>
+<li><code>dropout</code> is the dropout probability</li>
+<li><code>leaky_relu_negative_slope</code> is the negative slope for leaky relu activation</li>
+<li><code>share_weights</code> if set to True, the same matrix will be applied to the source and the target node of every edge</li>
+</ul>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">49</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">in_features</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">out_features</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">n_heads</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+<span class="lineno">50</span>                 <span class="n">is_concat</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="lineno">51</span>                 <span class="n">dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.6</span><span class="p">,</span>
+<span class="lineno">52</span>                 <span class="n">leaky_relu_negative_slope</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span> 
+<span class="lineno">53</span>                 <span class="n">share_weights</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-3'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-3'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">63</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+<span class="lineno">64</span>
+<span class="lineno">65</span>        <span class="bp">self</span><span class="o">.</span><span class="n">is_concat</span> <span class="o">=</span> <span class="n">is_concat</span>
+<span class="lineno">66</span>        <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span> <span class="o">=</span> <span class="n">n_heads</span>
+<span class="lineno">67</span>        <span class="bp">self</span><span class="o">.</span><span class="n">share_weights</span> <span class="o">=</span> <span class="n">share_weights</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-4'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-4'>#</a>
+                </div>
+                <p>Calculate the number of dimensions per head</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">70</span>        <span class="k">if</span> <span class="n">is_concat</span><span class="p">:</span>
+<span class="lineno">71</span>            <span class="k">assert</span> <span class="n">out_features</span> <span class="o">%</span> <span class="n">n_heads</span> <span class="o">==</span> <span class="mi">0</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-5'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-5'>#</a>
+                </div>
+                <p>If we are concatenating the multiple heads</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">73</span>            <span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span> <span class="o">=</span> <span class="n">out_features</span> <span class="o">//</span> <span class="n">n_heads</span>
+<span class="lineno">74</span>        <span class="k">else</span><span class="p">:</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-6'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-6'>#</a>
+                </div>
+                <p>If we are averaging the multiple heads</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">76</span>            <span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span> <span class="o">=</span> <span class="n">out_features</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-7'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-7'>#</a>
+                </div>
+                <p>Linear layer for initial source transformation;
+i.e. to transform the source node embeddings before self-attention</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">80</span>        <span class="bp">self</span><span class="o">.</span><span class="n">linear_l</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">in_features</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span> <span class="o">*</span> <span class="n">n_heads</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-8'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-8'>#</a>
+                </div>
+                <p>If  <code>share_weights is True</code> the same linear layer is used for the target nodes</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">82</span>        <span class="k">if</span> <span class="n">share_weights</span><span class="p">:</span>
+<span class="lineno">83</span>            <span class="bp">self</span><span class="o">.</span><span class="n">linear_r</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">linear_l</span>
+<span class="lineno">84</span>        <span class="k">else</span><span class="p">:</span>
+<span class="lineno">85</span>            <span class="bp">self</span><span class="o">.</span><span class="n">linear_r</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span><span class="n">in_channels</span><span class="p">,</span> <span class="n">heads</span> <span class="o">*</span> <span class="n">out_channels</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-9'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-9'>#</a>
+                </div>
+                <p>Linear layer to compute attention score $e_{ij}$</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">87</span>        <span class="bp">self</span><span class="o">.</span><span class="n">attn</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-10'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-10'>#</a>
+                </div>
+                <p>The activation for attention score $e_{ij}$</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">89</span>        <span class="bp">self</span><span class="o">.</span><span class="n">activation</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LeakyReLU</span><span class="p">(</span><span class="n">negative_slope</span><span class="o">=</span><span class="n">leaky_relu_negative_slope</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-11'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-11'>#</a>
+                </div>
+                <p>Softmax to compute attention $\alpha_{ij}$</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">91</span>        <span class="bp">self</span><span class="o">.</span><span class="n">softmax</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-12'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-12'>#</a>
+                </div>
+                <p>Dropout layer to be applied for attention</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">93</span>        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">dropout</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-13'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-13'>#</a>
+                </div>
+                <ul>
+<li><code>h</code>, $\mathbf{h}$ is the input node embeddings of shape <code>[n_nodes, in_features]</code>.</li>
+<li><code>adj_mat</code> is the adjacency matrix of shape <code>[n_nodes, n_nodes, n_heads]</code>.
+We use shape <code>[n_nodes, n_nodes, 1]</code> since the adjacency is the same for each head.</li>
+</ul>
+<p>Adjacency matrix represent the edges (or connections) among nodes.
+<code>adj_mat[i][j]</code> is <code>True</code> if there is an edge from node <code>i</code> to node <code>j</code>.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">95</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">h</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">adj_mat</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-14'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-14'>#</a>
+                </div>
+                <p>Number of nodes</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">106</span>        <span class="n">n_nodes</span> <span class="o">=</span> <span class="n">h</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-15'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-15'>#</a>
+                </div>
+                <p>The initial transformations,
+<script type="math/tex; mode=display">\overrightarrow{{g_l}^k_i} = \mathbf{W_l}^k \overrightarrow{h_i}</script>
+<script type="math/tex; mode=display">\overrightarrow{{g_r}^k_i} = \mathbf{W_r}^k \overrightarrow{h_i}</script>
+for each head.
+We do two linear transformations and then split it up for each head.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">112</span>        <span class="n">g_l</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">linear_l</span><span class="p">(</span><span class="n">h</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">n_nodes</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span><span class="p">)</span>
+<span class="lineno">113</span>        <span class="n">g_r</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">linear_r</span><span class="p">(</span><span class="n">h</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">n_nodes</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-16'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-16'>#</a>
+                </div>
+                <h4>Calculate attention score</h4>
+<p>We calculate these for each head $k$. <em>We have omitted $\cdot^k$ for simplicity</em>.</p>
+<p>
+<script type="math/tex; mode=display">e_{ij} = a(\mathbf{W_l} \overrightarrow{h_i}, \mathbf{W_r} \overrightarrow{h_j}) =
+a(\overrightarrow{{g_l}_i}, \overrightarrow{{g_r}_j})</script>
+</p>
+<p>$e_{ij}$ is the attention score (importance) from node $j$ to node $i$.
+We calculate this for each head.</p>
+<p>$a$ is the attention mechanism, that calculates the attention score.
+The paper sums
+$\overrightarrow{{g_l}_i}$, $\overrightarrow{{g_r}_j}$
+followed by a $\text{LeakyReLU}$
+and does a linear transformation with a weight vector $\mathbf{a} \in \mathbb{R}^{F&rsquo;}$</p>
+<p>
+<script type="math/tex; mode=display">e_{ij} = \mathbf{a}^\top \text{LeakyReLU} \Big(
+\Big[
+\overrightarrow{{g_l}_i} + \overrightarrow{{g_r}_j}
+\Big] \Big)</script>
+</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-17'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-17'>#</a>
+                </div>
+                <p>First we calculate
+$\Big[\overrightarrow{{g_l}_i} + \overrightarrow{{g_r}_j} \Big]$
+for all pairs of $i, j$.</p>
+<p><code>g_l_repeat</code> gets
+<script type="math/tex; mode=display">\{\overrightarrow{{g_l}_1}, \overrightarrow{{g_l}_2}, \dots, \overrightarrow{{g_l}_N},
+\overrightarrow{{g_l}_1}, \overrightarrow{{g_l}_2}, \dots, \overrightarrow{{g_l}_N}, ...\}</script>
+where each node embedding is repeated <code>n_nodes</code> times.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">145</span>        <span class="n">g_l_repeat</span> <span class="o">=</span> <span class="n">g_l</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">n_nodes</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-18'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-18'>#</a>
+                </div>
+                <p><code>g_r_repeat_interleave</code> gets
+<script type="math/tex; mode=display">\{\overrightarrow{{g_r}_1}, \overrightarrow{{g_r}_1}, \dots, \overrightarrow{{g_r}_1},
+\overrightarrow{{g_r}_2}, \overrightarrow{{g_r}_2}, \dots, \overrightarrow{{g_r}_2}, ...\}</script>
+where each node embedding is repeated <code>n_nodes</code> times.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">150</span>        <span class="n">g_r_repeat_interleave</span> <span class="o">=</span> <span class="n">g_r</span><span class="o">.</span><span class="n">repeat_interleave</span><span class="p">(</span><span class="n">n_nodes</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-19'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-19'>#</a>
+                </div>
+                <p>Now we sum to get
+<script type="math/tex; mode=display">\{\overrightarrow{{g_l}_1} + \overrightarrow{{g_r}_1},
+\overrightarrow{{g_l}_1}, + \overrightarrow{{g_r}_2},
+\dots, \overrightarrow{{g_l}_1}  +\overrightarrow{{g_r}_N},
+\overrightarrow{{g_l}_2} + \overrightarrow{{g_r}_1},
+\overrightarrow{{g_l}_2}, + \overrightarrow{{g_r}_2},
+\dots, \overrightarrow{{g_l}_2}  + \overrightarrow{{g_r}_N}, ...\}</script>
+</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">158</span>        <span class="n">g_sum</span> <span class="o">=</span> <span class="n">g_l_repeat</span> <span class="o">+</span> <span class="n">g_r_repeat_interleave</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-20'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-20'>#</a>
+                </div>
+                <p>Reshape so that <code>g_sum[i, j]</code> is $\overrightarrow{{g_l}_i} + \overrightarrow{{g_r}_j}$</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">160</span>        <span class="n">g_sum</span> <span class="o">=</span> <span class="n">g_sum</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">n_nodes</span><span class="p">,</span> <span class="n">n_nodes</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-21'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-21'>#</a>
+                </div>
+                <p>Calculate
+<script type="math/tex; mode=display">e_{ij} = \mathbf{a}^\top \text{LeakyReLU} \Big(
+\Big[
+\overrightarrow{{g_l}_i} + \overrightarrow{{g_r}_j}
+\Big] \Big)</script>
+<code>e</code> is of shape <code>[n_nodes, n_nodes, n_heads, 1]</code></p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">168</span>        <span class="n">e</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">activation</span><span class="p">(</span><span class="n">g_sum</span><span class="p">))</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-22'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-22'>#</a>
+                </div>
+                <p>Remove the last dimension of size <code>1</code></p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">170</span>        <span class="n">e</span> <span class="o">=</span> <span class="n">e</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-23'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-23'>#</a>
+                </div>
+                <p>The adjacency matrix should have shape
+<code>[n_nodes, n_nodes, n_heads]</code> or<code>[n_nodes, n_nodes, 1]</code></p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">174</span>        <span class="k">assert</span> <span class="n">adj_mat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">or</span> <span class="n">adj_mat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="n">n_nodes</span>
+<span class="lineno">175</span>        <span class="k">assert</span> <span class="n">adj_mat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">or</span> <span class="n">adj_mat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="n">n_nodes</span>
+<span class="lineno">176</span>        <span class="k">assert</span> <span class="n">adj_mat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">or</span> <span class="n">adj_mat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-24'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-24'>#</a>
+                </div>
+                <p>Mask $e_{ij}$ based on adjacency matrix.
+$e_{ij}$ is set to $- \infty$ if there is no edge from $i$ to $j$.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">179</span>        <span class="n">e</span> <span class="o">=</span> <span class="n">e</span><span class="o">.</span><span class="n">masked_fill</span><span class="p">(</span><span class="n">adj_mat</span> <span class="o">==</span> <span class="mi">0</span><span class="p">,</span> <span class="nb">float</span><span class="p">(</span><span class="s1">&#39;-inf&#39;</span><span class="p">))</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-25'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-25'>#</a>
+                </div>
+                <p>We then normalize attention scores (or coefficients)
+<script type="math/tex; mode=display">\alpha_{ij} = \text{softmax}_j(e_{ij}) =
+\frac{\exp(e_{ij})}{\sum_{j \in \mathcal{N}_i} \exp(e_{ij})}</script>
+</p>
+<p>where $\mathcal{N}_i$ is the set of nodes connected to $i$.</p>
+<p>We do this by setting unconnected $e_{ij}$ to $- \infty$ which
+makes $\exp(e_{ij}) \sim 0$ for unconnected pairs.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">189</span>        <span class="n">a</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">e</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-26'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-26'>#</a>
+                </div>
+                <p>Apply dropout regularization</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">192</span>        <span class="n">a</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">a</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-27'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-27'>#</a>
+                </div>
+                <p>Calculate final output for each head
+<script type="math/tex; mode=display">\overrightarrow{h'^k_i} = \sum_{j \in \mathcal{N}_i} \alpha^k_{ij} \overrightarrow{{g_r}_{j,k}}</script>
+</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">196</span>        <span class="n">attn_res</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s1">&#39;ijh,jhf-&gt;ihf&#39;</span><span class="p">,</span> <span class="n">a</span><span class="p">,</span> <span class="n">g_r</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-28'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-28'>#</a>
+                </div>
+                <p>Concatenate the heads</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">199</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_concat</span><span class="p">:</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-29'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-29'>#</a>
+                </div>
+                <p>
+<script type="math/tex; mode=display">\overrightarrow{h'_i} = \Bigg\Vert_{k=1}^{K} \overrightarrow{h'^k_i}</script>
+</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">201</span>            <span class="k">return</span> <span class="n">attn_res</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">n_nodes</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_hidden</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-30'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-30'>#</a>
+                </div>
+                <p>Take the mean of the heads</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">203</span>        <span class="k">else</span><span class="p">:</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-31'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-31'>#</a>
+                </div>
+                <p>
+<script type="math/tex; mode=display">\overrightarrow{h'_i} = \frac{1}{K} \sum_{k=1}^{K} \overrightarrow{h'^k_i}</script>
+</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">205</span>            <span class="k">return</span> <span class="n">attn_res</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    </div>
+</div>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">
+</script>
+<!-- MathJax configuration -->
+<script type="text/x-mathjax-config">
+    MathJax.Hub.Config({
+        tex2jax: {
+            inlineMath: [ ['$','$'] ],
+            displayMath: [ ['$$','$$'] ],
+            processEscapes: true,
+            processEnvironments: true
+        },
+        // Center justify equations in code and markdown cells. Elsewhere
+        // we use CSS to left justify single line equations in code cells.
+        displayAlign: 'center',
+        "HTML-CSS": { fonts: ["TeX"] }
+    });
+</script>
+<script>
+    function handleImages() {
+        var images = document.querySelectorAll('p>img')
+
+        console.log(images);
+        for (var i = 0; i < images.length; ++i) {
+            handleImage(images[i])
+        }
+    }
+
+    function handleImage(img) {
+        img.parentElement.style.textAlign = 'center'
+
+        var modal = document.createElement('div')
+        modal.id = 'modal'
+
+        var modalContent = document.createElement('div')
+        modal.appendChild(modalContent)
+
+        var modalImage = document.createElement('img')
+        modalContent.appendChild(modalImage)
+
+        var span = document.createElement('span')
+        span.classList.add('close')
+        span.textContent = 'x'
+        modal.appendChild(span)
+
+        img.onclick = function () {
+            console.log('clicked')
+            document.body.appendChild(modal)
+            modalImage.src = img.src
+        }
+
+        span.onclick = function () {
+            document.body.removeChild(modal)
+        }
+    }
+
+    handleImages()
+</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/graphs/gatv2/readme.html b/docs/graphs/gatv2/readme.html
new file mode 100644
index 0000000000000000000000000000000000000000..1b713f3f827b06b879ae67e29d03954dbc93ed9e
--- /dev/null
+++ b/docs/graphs/gatv2/readme.html
@@ -0,0 +1,149 @@
+<!DOCTYPE html>
+<html>
+<head>
+    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
+    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
+    <meta name="description" content=""/>
+
+    <meta name="twitter:card" content="summary"/>
+    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta name="twitter:title" content="Graph Attention Networks v2 (GATv2)"/>
+    <meta name="twitter:description" content=""/>
+    <meta name="twitter:site" content="@labmlai"/>
+    <meta name="twitter:creator" content="@labmlai"/>
+
+    <meta property="og:url" content="https://nn.labml.ai/graphs/gatv2/readme.html"/>
+    <meta property="og:title" content="Graph Attention Networks v2 (GATv2)"/>
+    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta property="og:site_name" content="LabML Neural Networks"/>
+    <meta property="og:type" content="object"/>
+    <meta property="og:title" content="Graph Attention Networks v2 (GATv2)"/>
+    <meta property="og:description" content=""/>
+
+    <title>Graph Attention Networks v2 (GATv2)</title>
+    <link rel="shortcut icon" href="/icon.png"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/graphs/gatv2/readme.html"/>
+    <!-- Global site tag (gtag.js) - Google Analytics -->
+    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
+    <script>
+        window.dataLayer = window.dataLayer || [];
+
+        function gtag() {
+            dataLayer.push(arguments);
+        }
+
+        gtag('js', new Date());
+
+        gtag('config', 'G-4V3HC8HBLH');
+    </script>
+</head>
+<body>
+<div id='container'>
+    <div id="background"></div>
+    <div class='section'>
+        <div class='docs'>
+            <p>
+                <a class="parent" href="/">home</a>
+                <a class="parent" href="../index.html">graphs</a>
+                <a class="parent" href="index.html">gatv2</a>
+            </p>
+            <p>
+
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/graphs/gatv2/readme.md">
+                    <img alt="Github"
+                         src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
+                         style="max-width:100%;"/></a>
+                <a href="https://twitter.com/labmlai"
+                   rel="nofollow">
+                    <img alt="Twitter"
+                         src="https://img.shields.io/twitter/follow/labmlai?style=social"
+                         style="max-width:100%;"/></a>
+            </p>
+        </div>
+    </div>
+    <div class='section' id='section-0'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-0'>#</a>
+                </div>
+                <h1><a href="https://nn.labml.ai/graph/gatv2/index.html">Graph Attention Networks v2 (GATv2)</a></h1>
+<p>This is a <a href="https://pytorch.org">PyTorch</a> implementation of the GATv2 opeartor from the paper
+<a href="https://arxiv.org/abs/2105.14491">How Attentive are Graph Attention Networks?</a>.</p>
+<p>GATv2s work on graph data.
+A graph consists of nodes and edges connecting nodes.
+For example, in Cora dataset the nodes are research papers and the edges are citations that
+connect the papers.</p>
+<p>The GATv2 operator which fixes the static attention problem of the standard GAT: 
+since the linear layers in the standard GAT are applied right after each other, the ranking 
+of attended nodes is unconditioned on the query node. 
+In contrast, in GATv2, every node can attend to any other node.</p>
+<p>Here is <a href="https://nn.labml.ai/graph/gatv2/experiment.html">the training code</a> for training
+a two-layer GAT on Cora dataset.</p>
+<p><a href="https://app.labml.ai/run/8e27ad82ed2611ebabb691fb2028a868"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
+            </div>
+            <div class='code'>
+                
+            </div>
+        </div>
+    </div>
+</div>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">
+</script>
+<!-- MathJax configuration -->
+<script type="text/x-mathjax-config">
+    MathJax.Hub.Config({
+        tex2jax: {
+            inlineMath: [ ['$','$'] ],
+            displayMath: [ ['$$','$$'] ],
+            processEscapes: true,
+            processEnvironments: true
+        },
+        // Center justify equations in code and markdown cells. Elsewhere
+        // we use CSS to left justify single line equations in code cells.
+        displayAlign: 'center',
+        "HTML-CSS": { fonts: ["TeX"] }
+    });
+</script>
+<script>
+    function handleImages() {
+        var images = document.querySelectorAll('p>img')
+
+        console.log(images);
+        for (var i = 0; i < images.length; ++i) {
+            handleImage(images[i])
+        }
+    }
+
+    function handleImage(img) {
+        img.parentElement.style.textAlign = 'center'
+
+        var modal = document.createElement('div')
+        modal.id = 'modal'
+
+        var modalContent = document.createElement('div')
+        modal.appendChild(modalContent)
+
+        var modalImage = document.createElement('img')
+        modalContent.appendChild(modalImage)
+
+        var span = document.createElement('span')
+        span.classList.add('close')
+        span.textContent = 'x'
+        modal.appendChild(span)
+
+        img.onclick = function () {
+            console.log('clicked')
+            document.body.appendChild(modal)
+            modalImage.src = img.src
+        }
+
+        span.onclick = function () {
+            document.body.removeChild(modal)
+        }
+    }
+
+    handleImages()
+</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/graphs/index.html b/docs/graphs/index.html
index 20bad842c070f2b268d28ffb3bdb51e55ae6ff43..fbf7dea99c1734518e9474eb99c90f57b6b67e48 100644
--- a/docs/graphs/index.html
+++ b/docs/graphs/index.html
@@ -69,6 +69,7 @@
                 <h1>Graph Neural Networks</h1>
 <ul>
 <li><a href="gat/index.html">Graph Attention Networks (GAT)</a></li>
+<li><a href="gatv2/index.html">Graph Attention Networks v2 (GATv2)</a></li>
 </ul>
             </div>
             <div class='code'>
diff --git a/docs/index.html b/docs/index.html
index 6d8df374c239d9140829d69472367de56c29bbbd..56060389ad6ec14e9a85d54484b74d37e953fa08 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -115,6 +115,7 @@ implementations.</p>
 <h4>✨ Graph Neural Networks</h4>
 <ul>
 <li><a href="graphs/gat/index.html">Graph Attention Networks (GAT)</a></li>
+<li><a href="gatv2/index.html">Graph Attention Networks v2 (GATv2)</a></li>
 </ul>
 <h4>✨ <a href="cfr/index.html">Counterfactual Regret Minimization (CFR)</a></h4>
 <p>Solving games with incomplete information such as poker with CFR.</p>
diff --git a/docs/sitemap.xml b/docs/sitemap.xml
index 94992d14ed724e493d70106bc168df3eff59673e..cc975e7b799ba8797deb9a9c9a4d9ab3a863ee7c 100644
--- a/docs/sitemap.xml
+++ b/docs/sitemap.xml
@@ -281,7 +281,7 @@
 
     <url>
       <loc>https://nn.labml.ai/index.html</loc>
-      <lastmod>2021-07-17T16:30:00+00:00</lastmod>
+      <lastmod>2021-07-25T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
@@ -741,9 +741,23 @@
     </url>
     
 
+    <url>
+      <loc>https://nn.labml.ai/graphs/gatv2/index.html</loc>
+      <lastmod>2021-07-25T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/graphs/gatv2/experiment.html</loc>
+      <lastmod>2021-07-25T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
     <url>
       <loc>https://nn.labml.ai/graphs/index.html</loc>
-      <lastmod>2021-07-08T16:30:00+00:00</lastmod>
+      <lastmod>2021-07-25T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
diff --git a/labml_nn/graphs/gatv2/__init__.py b/labml_nn/graphs/gatv2/__init__.py
index 678e789df73f9dd154e467390aa0e2452180f515..9935205c1e58f504380f821c052483aa3fb5c380 100644
--- a/labml_nn/graphs/gatv2/__init__.py
+++ b/labml_nn/graphs/gatv2/__init__.py
@@ -117,7 +117,7 @@ class GraphAttentionV2Layer(Module):
         # We calculate these for each head $k$. *We have omitted $\cdot^k$ for simplicity*.
         #
         # $$e_{ij} = a(\mathbf{W_l} \overrightarrow{h_i}, \mathbf{W_r} \overrightarrow{h_j}) =
-        # a(\overrightarrow{{g_l}_i}}, \overrightarrow{{g_r}_j}})$$
+        # a(\overrightarrow{{g_l}_i}, \overrightarrow{{g_r}_j})$$
         #
         # $e_{ij}$ is the attention score (importance) from node $j$ to node $i$.
         # We calculate this for each head.
@@ -131,7 +131,7 @@ class GraphAttentionV2Layer(Module):
         #
         # $$e_{ij} = \mathbf{a}^\top \text{LeakyReLU} \Big(
         # \Big[
-        # \overrightarrow{{g_l}_i}} + \overrightarrow{{g_r}_j}}
+        # \overrightarrow{{g_l}_i} + \overrightarrow{{g_r}_j}
         # \Big] \Big)$$
 
         # First we calculate
diff --git a/readme.md b/readme.md
index 64b505dd55e7f6716a15a1f237f8fe6eb93a45d5..2b9165d438beea61e9911c22075210bbf57b1648 100644
--- a/readme.md
+++ b/readme.md
@@ -62,6 +62,7 @@ implementations almost weekly.
 #### ✨ Graph Neural Networks
 
 * [Graph Attention Networks (GAT)](https://nn.labml.ai/graphs/gat/index.html)
+* [Graph Attention Networks v2 (GATv2)](https://nn.labml.ai/graphs/gatv2/index.html)
 
 #### ✨ [Counterfactual Regret Minimization (CFR)](https://nn.labml.ai/cfr/index.html)